Spaces:

Dabococo
/

Image_to_text

Runtime error

App Files Files Community

Dabococo commited on Sep 26, 2025

Commit

fd19ee7

verified ·

1 Parent(s): 57aa78b

Update app.py

Browse files

Files changed (1) hide show

app.py +60 -44

app.py CHANGED Viewed

@@ -6,6 +6,7 @@ from io import BytesIO
 import pandas as pd
 import re
 import tempfile
 # Initialize Groq client
 client = Groq(api_key=os.getenv("GROQ_API_KEY"))
@@ -18,7 +19,7 @@ def image_to_base64(image):
 def parse_markdown_table_to_df(table_text):
     """Parse un tableau Markdown en Pandas DataFrame de manière robuste."""
-    # Nettoyer les <br> ou \n pour les sauts de ligne dans les cellules
     table_text = re.sub(r'<br>', '\n', table_text)
     lines = table_text.split('\n')
@@ -49,11 +50,8 @@ def parse_markdown_table_to_df(table_text):
     # Extraire les lignes de données (lignes suivantes)
     rows = []
     for line in data_lines[1:]:
-        cells = re.split(r'(?<!\\)\|', line)[1:-1]  # Split sur | non échappé
-        cleaned_cells = [cell.strip().replace("''", "").replace("'''", "").strip() for cell in cells]  # Nettoyer '' et '''
-        # Vérifier si la ligne est entièrement vide
-        if all(cell == '' for cell in cleaned_cells):
-            continue  # Ignorer les lignes entièrement vides
         # Gérer le mismatch de colonnes
         if len(cleaned_cells) < num_columns:
             cleaned_cells.extend([''] * (num_columns - len(cleaned_cells)))
@@ -61,20 +59,39 @@ def parse_markdown_table_to_df(table_text):
             cleaned_cells = cleaned_cells[:num_columns]  # Tronquer si trop de colonnes
         rows.append(cleaned_cells)
     # Créer le DataFrame
     df = pd.DataFrame(rows, columns=headers)
     return df if not df.empty else pd.DataFrame({"Erreur": ["Aucune donnée valide extraite"]})
-def extract_additional_text_and_table(response):
-    """Extraire le texte additionnel et le tableau Markdown de la réponse structurée, de manière robuste."""
-    # Chercher 'Additional text:' et 'Table:'
-    additional_match = re.search(r'Additional text:(.*?)Table:', response, re.DOTALL | re.IGNORECASE)
-    table_match = re.search(r'Table:(.*)', response, re.DOTALL | re.IGNORECASE)
-    additional_text = additional_match.group(1).strip() if additional_match else ''
-    table_text = table_match.group(1).strip() if table_match else response.strip()
-    return additional_text, table_text
 def process_image_and_get_response(image):
     """Process the uploaded image, send to Groq vision model, parse response to table, and generate Excel."""
@@ -86,19 +103,21 @@ def process_image_and_get_response(image):
     # Prompt optimisé pour structure, précision et inclusion des infos supplémentaires
     prompt = (
-        "Analyse l'image attentivement et extrait TOUT le contenu visible. "
-        "D'abord, extrait TOUT texte additionnel autour, au-dessus, en-dessous ou à côté du tableau (titres, en-têtes de page, notes, pieds de page, logos, dates, signatures, etc.), en le recopiant mot pour mot, même si cela semble non structuré. Inclu tout ce qui n'est pas dans le tableau lui-même. "
-        "Si il n'y a pas de texte additionnel, laisse 'Additional text:' vide. "
-        "Ensuite, extrait le tableau en entier, en recopiant TOUTES les lignes et colonnes à l'identique, y compris les lignes vides ou partielles (mais marque les cellules vides avec ''). "
         "Utilise un format Markdown pour le tableau avec des | pour les colonnes et une ligne |---|---| pour les séparateurs. "
         "Assure-toi que CHAQUE ligne (en-têtes, séparateurs, données) a EXACTEMENT le même nombre de colonnes (compte les | : il doit y en avoir 10 pour 9 colonnes, incluant les | de début et fin). "
-        "Pour les sauts de ligne dans une cellule, utilise \n. "
-        "Ne remplace pas les cellules vides par quoi que ce soit d'autre que ''. "
         "N'ajoute aucun texte explicatif dans le tableau. "
         "Structure ta réponse exactement comme suit :\n"
-        "Additional text: [tout le texte additionnel ici, séparé par \n si plusieurs lignes ; vide si rien]\n"
         "Table:\n"
-        "[le tableau Markdown ici, sans lignes vides inutiles]"
     )
     try:
@@ -125,30 +144,27 @@ def process_image_and_get_response(image):
         response = completion.choices[0].message.content.strip()
-        # Extraire texte additionnel et tableau
-        additional_text, table_text = extract_additional_text_and_table(response)
         # Parse le tableau en DataFrame
         df = parse_markdown_table_to_df(table_text)
-        excel_file = None
-        with tempfile.NamedTemporaryFile(delete=False, suffix=".xlsx") as tmp:
-            with pd.ExcelWriter(tmp.name, engine='openpyxl') as writer:
-                # Feuille pour le tableau
-                if not df.empty and "Erreur" not in df.columns:
-                    df.to_excel(writer, sheet_name='Tableau_Extrait', index=False)
-                else:
-                    pd.DataFrame({"Message": ["Erreur lors du parsing du tableau"]}).to_excel(writer, sheet_name='Tableau_Extrait', index=False)
-                # Feuille pour le texte additionnel, si présent et non vide
-                if additional_text.strip():
-                    additional_lines = additional_text.split('\n')
-                    additional_df = pd.DataFrame({"Texte Additionnel": additional_lines})
-                    additional_df.to_excel(writer, sheet_name='Infos_Supplementaires', index=False)
-            excel_file = tmp.name
-        return response, excel_file
     except Exception as e:
         return f"Erreur : {str(e)}", None

 import pandas as pd
 import re
 import tempfile
+import unicodedata  # Pour sanitizer le nom de fichier
 # Initialize Groq client
 client = Groq(api_key=os.getenv("GROQ_API_KEY"))
 def parse_markdown_table_to_df(table_text):
     """Parse un tableau Markdown en Pandas DataFrame de manière robuste."""
+    # Nettoyer les <br> en \n pour les sauts de ligne dans les cellules
     table_text = re.sub(r'<br>', '\n', table_text)
     lines = table_text.split('\n')
     # Extraire les lignes de données (lignes suivantes)
     rows = []
     for line in data_lines[1:]:
+        cells = line.split('|')[1:-1]
+        cleaned_cells = [cell.strip() for cell in cells]
         # Gérer le mismatch de colonnes
         if len(cleaned_cells) < num_columns:
             cleaned_cells.extend([''] * (num_columns - len(cleaned_cells)))
             cleaned_cells = cleaned_cells[:num_columns]  # Tronquer si trop de colonnes
         rows.append(cleaned_cells)
+    # Filtrer les lignes entièrement vides (tous '' ou vides)
+    rows = [row for row in rows if any(cell.strip() != '' for cell in row)]
     # Créer le DataFrame
     df = pd.DataFrame(rows, columns=headers)
     return df if not df.empty else pd.DataFrame({"Erreur": ["Aucune donnée valide extraite"]})
+def extract_filename_additional_and_table(response):
+    """Extraire le nom de fichier, le texte additionnel et le tableau Markdown de la réponse structurée."""
+    filename = "tableau_extrait"  # Default
+    additional_text = ""
+    table_text = ""
+    if 'Filename:' in response:
+        parts = response.split('Filename:', 1)[1].split('\n', 1)
+        filename = parts[0].strip().replace('.xlsx', '')  # Enlever extension si présente
+        remaining = parts[1] if len(parts) > 1 else ""
+    else:
+        remaining = response
+    if 'Additional text:' in remaining:
+        parts = remaining.split('Additional text:', 1)[1].split('Table:', 1)
+        additional_text = parts[0].strip()
+        table_text = parts[1].strip() if len(parts) > 1 else ""
+    else:
+        table_text = remaining.strip()
+    # Sanitizer le nom de fichier : enlever accents, caractères spéciaux, limiter à alphanum + _ -
+    filename = ''.join(c for c in unicodedata.normalize('NFD', filename) if unicodedata.category(c) != 'Mn')
+    filename = re.sub(r'[^a-zA-Z0-9_-]', '_', filename)
+    filename = filename[:50]  # Limiter la longueur
+    return filename, additional_text, table_text
 def process_image_and_get_response(image):
     """Process the uploaded image, send to Groq vision model, parse response to table, and generate Excel."""
     # Prompt optimisé pour structure, précision et inclusion des infos supplémentaires
     prompt = (
+        "Analyse l'image et extrait tout le contenu. "
+        "D'abord, suggère un nom de fichier descriptif pour l'Excel basé sur le contenu principal de l'image (court, sans extension, ex: 'Tableau_Dossiers_2022'). "
+        "Ensuite, extrait TOUT texte additionnel autour, au-dessus, en-dessous ou à côté du tableau (titres, en-têtes, notes, pieds de page, logos, etc.), en le recopiant mot pour mot, même si c'est dispersé. "
+        "Si aucun texte additionnel, laisse vide. "
+        "Enfin, extrait le tableau en entier, en recopiant TOUTES les lignes et colonnes à l'identique, y compris les lignes vides ou partielles si elles existent dans l'image. "
         "Utilise un format Markdown pour le tableau avec des | pour les colonnes et une ligne |---|---| pour les séparateurs. "
         "Assure-toi que CHAQUE ligne (en-têtes, séparateurs, données) a EXACTEMENT le même nombre de colonnes (compte les | : il doit y en avoir 10 pour 9 colonnes, incluant les | de début et fin). "
+        "Pour les sauts de ligne dans une cellule, utilise \n au lieu de <br>. "
+        "Remplis les cellules vides avec '' si nécessaire pour maintenir l'alignement, mais ne filtre pas les lignes vides si elles sont présentes. "
         "N'ajoute aucun texte explicatif dans le tableau. "
         "Structure ta réponse exactement comme suit :\n"
+        "Filename: [nom_suggéré]\n"
+        "Additional text: [tout le texte additionnel, séparé par \n si plusieurs lignes ; sinon vide]\n"
         "Table:\n"
+        "[le tableau Markdown ici]"
     )
     try:
         response = completion.choices[0].message.content.strip()
+        # Extraire nom de fichier, texte additionnel et tableau
+        filename, additional_text, table_text = extract_filename_additional_and_table(response)
         # Parse le tableau en DataFrame
         df = parse_markdown_table_to_df(table_text)
+        # Créer le fichier Excel avec nom personnalisé
+        excel_path = f"/tmp/{filename if filename else 'tableau_extrait'}.xlsx"
+        with pd.ExcelWriter(excel_path, engine='openpyxl') as writer:
+            # Feuille pour le tableau
+            if not df.empty and "Erreur" not in df.columns:
+                df.to_excel(writer, sheet_name='Tableau_Extrait', index=False)
+            else:
+                pd.DataFrame({"Message": ["Erreur lors du parsing du tableau"]}).to_excel(writer, sheet_name='Tableau_Extrait', index=False)
+            # Feuille pour le texte additionnel, si présent
+            if additional_text:
+                additional_df = pd.DataFrame({"Texte Additionnel": additional_text.split('\n')})
+                additional_df.to_excel(writer, sheet_name='Infos_Supplementaires', index=False)
+        return response, excel_path
     except Exception as e:
         return f"Erreur : {str(e)}", None