Spaces:

Dabococo
/

Image_to_text

Runtime error

App Files Files Community

Dabococo commited on Sep 26, 2025

Commit

57aa78b

verified ·

1 Parent(s): f9bb48d

Update app.py

Browse files

Files changed (1) hide show

app.py +26 -21

app.py CHANGED Viewed

@@ -18,7 +18,7 @@ def image_to_base64(image):
 def parse_markdown_table_to_df(table_text):
     """Parse un tableau Markdown en Pandas DataFrame de manière robuste."""
-    # Nettoyer les <br> en \n pour les sauts de ligne dans les cellules
     table_text = re.sub(r'<br>', '\n', table_text)
     lines = table_text.split('\n')
@@ -49,8 +49,11 @@ def parse_markdown_table_to_df(table_text):
     # Extraire les lignes de données (lignes suivantes)
     rows = []
     for line in data_lines[1:]:
-        cells = line.split('|')[1:-1]
-        cleaned_cells = [cell.strip() for cell in cells]
         # Gérer le mismatch de colonnes
         if len(cleaned_cells) < num_columns:
             cleaned_cells.extend([''] * (num_columns - len(cleaned_cells)))
@@ -63,14 +66,14 @@ def parse_markdown_table_to_df(table_text):
     return df if not df.empty else pd.DataFrame({"Erreur": ["Aucune donnée valide extraite"]})
 def extract_additional_text_and_table(response):
-    """Extraire le texte additionnel et le tableau Markdown de la réponse structurée."""
-    if 'Additional text:' in response and 'Table:' in response:
-        parts = response.split('Table:', 1)
-        additional_text = parts[0].replace('Additional text:', '').strip()
-        table_text = parts[1].strip() if len(parts) > 1 else ''
-    else:
-        additional_text = ''
-        table_text = response.strip()
     return additional_text, table_text
 def process_image_and_get_response(image):
@@ -83,18 +86,19 @@ def process_image_and_get_response(image):
     # Prompt optimisé pour structure, précision et inclusion des infos supplémentaires
     prompt = (
-        "Analyse l'image et extrait tout le contenu. "
-        "D'abord, extrait tout texte additionnel autour ou en dehors du tableau (titres, notes, pieds de page, etc.), en le recopiant mot pour mot. "
-        "Ensuite, extrait le tableau en entier, en recopiant toutes les lignes et colonnes à l'identique, y compris les lignes vides ou partielles. "
         "Utilise un format Markdown pour le tableau avec des | pour les colonnes et une ligne |---|---| pour les séparateurs. "
         "Assure-toi que CHAQUE ligne (en-têtes, séparateurs, données) a EXACTEMENT le même nombre de colonnes (compte les | : il doit y en avoir 10 pour 9 colonnes, incluant les | de début et fin). "
-        "Pour les sauts de ligne dans une cellule, utilise \n au lieu de <br>. "
-        "Remplis les cellules vides avec '' si nécessaire pour maintenir l'alignement. "
         "N'ajoute aucun texte explicatif dans le tableau. "
         "Structure ta réponse exactement comme suit :\n"
-        "Additional text: [tout le texte additionnel, s'il y en a ; sinon, laisse vide]\n"
         "Table:\n"
-        "[le tableau Markdown ici]"
     )
     try:
@@ -136,9 +140,10 @@ def process_image_and_get_response(image):
                 else:
                     pd.DataFrame({"Message": ["Erreur lors du parsing du tableau"]}).to_excel(writer, sheet_name='Tableau_Extrait', index=False)
-                # Feuille pour le texte additionnel, si présent
-                if additional_text:
-                    additional_df = pd.DataFrame({"Texte Additionnel": additional_text.split('\n')})
                     additional_df.to_excel(writer, sheet_name='Infos_Supplementaires', index=False)
             excel_file = tmp.name

 def parse_markdown_table_to_df(table_text):
     """Parse un tableau Markdown en Pandas DataFrame de manière robuste."""
+    # Nettoyer les <br> ou \n pour les sauts de ligne dans les cellules
     table_text = re.sub(r'<br>', '\n', table_text)
     lines = table_text.split('\n')
     # Extraire les lignes de données (lignes suivantes)
     rows = []
     for line in data_lines[1:]:
+        cells = re.split(r'(?<!\\)\|', line)[1:-1]  # Split sur | non échappé
+        cleaned_cells = [cell.strip().replace("''", "").replace("'''", "").strip() for cell in cells]  # Nettoyer '' et '''
+        # Vérifier si la ligne est entièrement vide
+        if all(cell == '' for cell in cleaned_cells):
+            continue  # Ignorer les lignes entièrement vides
         # Gérer le mismatch de colonnes
         if len(cleaned_cells) < num_columns:
             cleaned_cells.extend([''] * (num_columns - len(cleaned_cells)))
     return df if not df.empty else pd.DataFrame({"Erreur": ["Aucune donnée valide extraite"]})
 def extract_additional_text_and_table(response):
+    """Extraire le texte additionnel et le tableau Markdown de la réponse structurée, de manière robuste."""
+    # Chercher 'Additional text:' et 'Table:'
+    additional_match = re.search(r'Additional text:(.*?)Table:', response, re.DOTALL | re.IGNORECASE)
+    table_match = re.search(r'Table:(.*)', response, re.DOTALL | re.IGNORECASE)
+    additional_text = additional_match.group(1).strip() if additional_match else ''
+    table_text = table_match.group(1).strip() if table_match else response.strip()
     return additional_text, table_text
 def process_image_and_get_response(image):
     # Prompt optimisé pour structure, précision et inclusion des infos supplémentaires
     prompt = (
+        "Analyse l'image attentivement et extrait TOUT le contenu visible. "
+        "D'abord, extrait TOUT texte additionnel autour, au-dessus, en-dessous ou à côté du tableau (titres, en-têtes de page, notes, pieds de page, logos, dates, signatures, etc.), en le recopiant mot pour mot, même si cela semble non structuré. Inclu tout ce qui n'est pas dans le tableau lui-même. "
+        "Si il n'y a pas de texte additionnel, laisse 'Additional text:' vide. "
+        "Ensuite, extrait le tableau en entier, en recopiant TOUTES les lignes et colonnes à l'identique, y compris les lignes vides ou partielles (mais marque les cellules vides avec ''). "
         "Utilise un format Markdown pour le tableau avec des | pour les colonnes et une ligne |---|---| pour les séparateurs. "
         "Assure-toi que CHAQUE ligne (en-têtes, séparateurs, données) a EXACTEMENT le même nombre de colonnes (compte les | : il doit y en avoir 10 pour 9 colonnes, incluant les | de début et fin). "
+        "Pour les sauts de ligne dans une cellule, utilise \n. "
+        "Ne remplace pas les cellules vides par quoi que ce soit d'autre que ''. "
         "N'ajoute aucun texte explicatif dans le tableau. "
         "Structure ta réponse exactement comme suit :\n"
+        "Additional text: [tout le texte additionnel ici, séparé par \n si plusieurs lignes ; vide si rien]\n"
         "Table:\n"
+        "[le tableau Markdown ici, sans lignes vides inutiles]"
     )
     try:
                 else:
                     pd.DataFrame({"Message": ["Erreur lors du parsing du tableau"]}).to_excel(writer, sheet_name='Tableau_Extrait', index=False)
+                # Feuille pour le texte additionnel, si présent et non vide
+                if additional_text.strip():
+                    additional_lines = additional_text.split('\n')
+                    additional_df = pd.DataFrame({"Texte Additionnel": additional_lines})
                     additional_df.to_excel(writer, sheet_name='Infos_Supplementaires', index=False)
             excel_file = tmp.name