add utils parsers

2025-04-12 10:51:07 +02:00
parent 096a66ebc1
commit c0a04c5282
4 changed files with 114 additions and 0 deletions
--- a/utils/parsers/account_parser.py
+++ b/utils/parsers/account_parser.py
@ -0,0 +1,22 @@
+import base64
+from pdf2image import convert_from_bytes
+import pytesseract
+
+
+def process_account(account_b64: str) -> str:
+    """
+    Traite l'account :
+    - Décodage du PDF encodé en base64.
+    - Conversion de chaque page du PDF en image.
+    - Application de l'OCR sur chaque image pour extraire le texte.
+
+    :param account_b64: Chaîne base64 représentant le PDF.
+    :return: Texte extrait de chaque page du PDF.
+    """
+    pdf_bytes = base64.b64decode(account_b64)
+    images = convert_from_bytes(pdf_bytes)
+    pages_text = []
+    for i, image in enumerate(images):
+        text = pytesseract.image_to_string(image, lang="eng")
+        pages_text.append(f"--- Page {i + 1} ---\n{text}")
+    return "\n".join(pages_text)