Spaces:

Dabococo
/

Image_to_text

Runtime error

App Files Files Community

Dabococo commited on Sep 26, 2025

Commit

6a9bf67

verified ·

1 Parent(s): cb2fbc3

Update app.py

Browse files

Files changed (1) hide show

app.py +32 -25

app.py CHANGED Viewed

@@ -6,7 +6,7 @@ from io import BytesIO
 import pandas as pd
 import re
 import tempfile
-import unicodedata  # Pour sanitizer le nom de fichier
 from openpyxl import Workbook
 from openpyxl.drawing.image import Image as OpenpyxlImage
 from openpyxl.styles import Font, Alignment
@@ -27,22 +27,21 @@ def parse_markdown_table_to_df(table_text):
     lines = table_text.split('\n')
-    # Ignorer les lignes vides et la ligne des séparateurs (|---|)
     data_lines = []
-    separator_found = False
     for line in lines:
         stripped = line.strip()
         if not stripped:
             continue
-        if re.match(r'\|[-| :]+\|', stripped):
-            separator_found = True
             continue
         data_lines.append(stripped)
-    if not data_lines:
         return pd.DataFrame({"Erreur": ["Aucun tableau Markdown trouvé dans la réponse"]})
-    # Extraire les en-têtes (première ligne)
     header_line = data_lines[0]
     headers = [h.strip() for h in header_line.split('|')[1:-1]]
     num_columns = len(headers)
@@ -59,25 +58,24 @@ def parse_markdown_table_to_df(table_text):
         if len(cleaned_cells) < num_columns:
             cleaned_cells.extend([''] * (num_columns - len(cleaned_cells)))
         elif len(cleaned_cells) > num_columns:
-            cleaned_cells = cleaned_cells[:num_columns]  # Tronquer si trop de colonnes
         rows.append(cleaned_cells)
-    # Filtrer les lignes entièrement vides (tous '' ou vides)
-    rows = [row for row in rows if any(cell.strip() != '' for cell in row)]
     # Créer le DataFrame
     df = pd.DataFrame(rows, columns=headers)
     return df if not df.empty else pd.DataFrame({"Erreur": ["Aucune donnée valide extraite"]})
 def extract_filename_additional_and_table(response):
     """Extraire le nom de fichier, le texte additionnel et le tableau Markdown de la réponse structurée."""
-    filename = "tableau_extrait"  # Default
     additional_text = ""
     table_text = ""
     if 'Filename:' in response:
         parts = response.split('Filename:', 1)[1].split('\n', 1)
-        filename = parts[0].strip().replace('.xlsx', '')  # Enlever extension si présente
         remaining = parts[1] if len(parts) > 1 else ""
     else:
         remaining = response
@@ -89,10 +87,10 @@ def extract_filename_additional_and_table(response):
     else:
         table_text = remaining.strip()
-    # Sanitizer le nom de fichier : enlever accents, caractères spéciaux, limiter à alphanum + _ -
     filename = ''.join(c for c in unicodedata.normalize('NFD', filename) if unicodedata.category(c) != 'Mn')
     filename = re.sub(r'[^a-zA-Z0-9_-]', '_', filename)
-    filename = filename[:50]  # Limiter la longueur
     return filename, additional_text, table_text
@@ -106,15 +104,16 @@ def process_image_and_get_response(image):
     # Prompt optimisé pour structure, précision et inclusion des infos supplémentaires
     prompt = (
-        "Analyse l'image et extrait tout le contenu. "
-        "D'abord, suggère un nom de fichier descriptif et précis pour l'Excel basé sur le contenu principal de l'image (inclue des éléments clés comme dates, thèmes ou identifiants uniques ; court, sans extension, ex: 'Tableau_Dossiers_Dentistes_2022_2024'). "
-        "Ensuite, extrait TOUT texte additionnel autour, au-dessus, en-dessous ou à côté du tableau (titres, en-têtes, notes, pieds de page, logos, etc.), en le recopiant mot pour mot, même si c'est dispersé. "
         "Si aucun texte additionnel, laisse vide. "
-        "Enfin, extrait le tableau en entier, en recopiant TOUTES les lignes et colonnes à l'identique, y compris les lignes vides ou partielles si elles existent dans l'image. "
         "Utilise un format Markdown pour le tableau avec des | pour les colonnes et une ligne |---|---| pour les séparateurs. "
-        "Assure-toi que CHAQUE ligne (en-têtes, séparateurs, données) a EXACTEMENT le même nombre de colonnes (compte les | : il doit y en avoir 10 pour 9 colonnes, incluant les | de début et fin). "
         "Pour les sauts de ligne dans une cellule, utilise \n au lieu de <br>. "
-        "Remplis les cellules vides avec '' si nécessaire pour maintenir l'alignement, mais ne filtre pas les lignes vides si elles sont présentes. "
         "N'ajoute aucun texte explicatif dans le tableau. "
         "Structure ta réponse exactement comme suit :\n"
         "Filename: [nom_suggéré_précis]\n"
@@ -125,7 +124,7 @@ def process_image_and_get_response(image):
     try:
         completion = client.chat.completions.create(
-            model="meta-llama/llama-4-maverick-17b-128e-instruct",
             messages=[
                 {
                     "role": "user",
@@ -138,8 +137,8 @@ def process_image_and_get_response(image):
                     ]
                 }
             ],
-            temperature=0.5,  # Réduit pour plus de précision et respect de la structure
-            max_completion_tokens=8096,  # Augmenté pour tableaux complexes
             top_p=1,
             stream=False,
             stop=None
@@ -170,15 +169,21 @@ def process_image_and_get_response(image):
                 cell = ws_table.cell(row=1, column=col_num, value=value)
                 cell.font = Font(bold=True)
                 cell.alignment = Alignment(wrap_text=True, vertical='top')
             # Écrire les données avec wrap text
             for row_num, row in enumerate(df.values, start=2):
                 for col_num, value in enumerate(row, start=1):
                     cell = ws_table.cell(row=row_num, column=col_num, value=value)
                     cell.alignment = Alignment(wrap_text=True, vertical='top')
         else:
             ws_table.cell(row=1, column=1, value="Erreur lors du parsing du tableau")
         # Feuille pour le texte additionnel, si présent
         if additional_text:
@@ -187,6 +192,8 @@ def process_image_and_get_response(image):
             for row_num, line in enumerate(lines, start=1):
                 cell = ws_additional.cell(row=row_num, column=1, value=line)
                 cell.alignment = Alignment(wrap_text=True, vertical='top')
         # Feuille pour l'image originale
         ws_image = wb.create_sheet(title='Image_Originale')
@@ -212,7 +219,7 @@ iface = gr.Interface(
         gr.Textbox(label="Réponse de l'IA (texte additionnel + tableau Markdown pour copier-coller)"),
         gr.File(label="Télécharger le fichier Excel (avec tableau, infos supp. et image originale)")
     ],
-    title="Extraction de Tableau depuis Image puis Export Excel",
     description="Uploader une image avec un tableau. L'IA extrait le texte additionnel et le tableau, puis génère un Excel avec des feuilles séparées, y compris l'image originale. Le résultat n'est pas parfait, veuillez à vous relire pour vérifier l'exactitude des réponses. Les données sont privées et ne sont pas sauvegardées."
 )

 import pandas as pd
 import re
 import tempfile
+import unicodedata
 from openpyxl import Workbook
 from openpyxl.drawing.image import Image as OpenpyxlImage
 from openpyxl.styles import Font, Alignment
     lines = table_text.split('\n')
+    # Ignorer les lignes vides, mais garder toutes les lignes non-séparateurs
     data_lines = []
+    separator_pattern = r'\|[-| :]+\|'
     for line in lines:
         stripped = line.strip()
         if not stripped:
             continue
+        if re.match(separator_pattern, stripped):
             continue
         data_lines.append(stripped)
+    if len(data_lines) < 1:
         return pd.DataFrame({"Erreur": ["Aucun tableau Markdown trouvé dans la réponse"]})
+    # Extraire les en-têtes (première ligne non vide)
     header_line = data_lines[0]
     headers = [h.strip() for h in header_line.split('|')[1:-1]]
     num_columns = len(headers)
         if len(cleaned_cells) < num_columns:
             cleaned_cells.extend([''] * (num_columns - len(cleaned_cells)))
         elif len(cleaned_cells) > num_columns:
+            cleaned_cells = cleaned_cells[:num_columns]
         rows.append(cleaned_cells)
     # Créer le DataFrame
     df = pd.DataFrame(rows, columns=headers)
+    # Filtrer les lignes entièrement vides (optionnel, mais conservé pour éviter les lignes inutiles)
+    df = df.loc[df.apply(lambda row: any(cell.strip() != '' for cell in row), axis=1)]
     return df if not df.empty else pd.DataFrame({"Erreur": ["Aucune donnée valide extraite"]})
 def extract_filename_additional_and_table(response):
     """Extraire le nom de fichier, le texte additionnel et le tableau Markdown de la réponse structurée."""
+    filename = "tableau_extrait"
     additional_text = ""
     table_text = ""
     if 'Filename:' in response:
         parts = response.split('Filename:', 1)[1].split('\n', 1)
+        filename = parts[0].strip().replace('.xlsx', '')
         remaining = parts[1] if len(parts) > 1 else ""
     else:
         remaining = response
     else:
         table_text = remaining.strip()
+    # Sanitizer le nom de fichier
     filename = ''.join(c for c in unicodedata.normalize('NFD', filename) if unicodedata.category(c) != 'Mn')
     filename = re.sub(r'[^a-zA-Z0-9_-]', '_', filename)
+    filename = filename[:50]
     return filename, additional_text, table_text
     # Prompt optimisé pour structure, précision et inclusion des infos supplémentaires
     prompt = (
+        "Analyse l'image et extrait tout le contenu avec précision. "
+        "D'abord, suggère un nom de fichier descriptif et précis pour l'Excel basé sur le contenu principal de l'image (inclue des éléments clés comme le mois, l'année, ou des identifiants uniques, ex: 'Registre_Heures_Juin_2016'). "
+        "Ensuite, extrait TOUT texte additionnel autour, au-dessus, en-dessous ou à côté du tableau (titres, en-têtes de page, notes, pieds de page, logos, etc.), en le recopiant mot pour mot, même si c'est dispersé. "
         "Si aucun texte additionnel, laisse vide. "
+        "Enfin, extrait le tableau COMPLET en entier, en recopiant TOUTES les lignes et colonnes à l'identique, y compris les lignes vides ou partielles si elles existent dans l'image. "
+        "Les en-têtes du tableau (première ligne avec les titres des colonnes) doivent TOUJOURS être inclus dans la section Table, JAMAIS dans Additional text. "
         "Utilise un format Markdown pour le tableau avec des | pour les colonnes et une ligne |---|---| pour les séparateurs. "
+        "Assure-toi que CHAQUE ligne (en-têtes, séparateurs, données) a EXACTEMENT le même nombre de colonnes (compte les | : il doit y en avoir 13 pour 12 colonnes, incluant les | de début et fin). "
         "Pour les sauts de ligne dans une cellule, utilise \n au lieu de <br>. "
+        "Remplis les cellules vides avec '' si nécessaire pour maintenir l'alignement. "
         "N'ajoute aucun texte explicatif dans le tableau. "
         "Structure ta réponse exactement comme suit :\n"
         "Filename: [nom_suggéré_précis]\n"
     try:
         completion = client.chat.completions.create(
+            model="meta-llama/llama-4-scout-17b-16e-instruct",
             messages=[
                 {
                     "role": "user",
                     ]
                 }
             ],
+            temperature=0.2,
+            max_completion_tokens=4096,
             top_p=1,
             stream=False,
             stop=None
                 cell = ws_table.cell(row=1, column=col_num, value=value)
                 cell.font = Font(bold=True)
                 cell.alignment = Alignment(wrap_text=True, vertical='top')
+                # Ajuster la largeur des colonnes (auto-ajustement approximatif)
+                ws_table.column_dimensions[chr(64 + col_num)].width = max(len(str(value)) * 1.2, 15)
             # Écrire les données avec wrap text
             for row_num, row in enumerate(df.values, start=2):
                 for col_num, value in enumerate(row, start=1):
                     cell = ws_table.cell(row=row_num, column=col_num, value=value)
                     cell.alignment = Alignment(wrap_text=True, vertical='top')
+                    # Ajuster la hauteur des lignes
+                    ws_table.row_dimensions[row_num].height = max(len(str(value).split('\n')) * 15, 20)
         else:
             ws_table.cell(row=1, column=1, value="Erreur lors du parsing du tableau")
+            ws_table.column_dimensions['A'].width = 50
+            ws_table.row_dimensions[1].height = 20
         # Feuille pour le texte additionnel, si présent
         if additional_text:
             for row_num, line in enumerate(lines, start=1):
                 cell = ws_additional.cell(row=row_num, column=1, value=line)
                 cell.alignment = Alignment(wrap_text=True, vertical='top')
+                ws_additional.column_dimensions['A'].width = max(len(line) * 1.2, 50)
+                ws_additional.row_dimensions[row_num].height = max(len(line.split('\n')) * 15, 20)
         # Feuille pour l'image originale
         ws_image = wb.create_sheet(title='Image_Originale')
         gr.Textbox(label="Réponse de l'IA (texte additionnel + tableau Markdown pour copier-coller)"),
         gr.File(label="Télécharger le fichier Excel (avec tableau, infos supp. et image originale)")
     ],
+    title="Extraction de Tableau depuis Image avec Groq et Export Excel",
     description="Uploader une image avec un tableau. L'IA extrait le texte additionnel et le tableau, puis génère un Excel avec des feuilles séparées, y compris l'image originale. Le résultat n'est pas parfait, veuillez à vous relire pour vérifier l'exactitude des réponses. Les données sont privées et ne sont pas sauvegardées."
 )