Spaces:

kebson
/

table_second_column_extractor

Runtime error

kebson commited on Dec 30, 2025

Commit

d4e0cc5

verified ·

1 Parent(s): 2f99888

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -2,11 +2,12 @@ import gradio as gr
 from transformers import TrOCRProcessor, VisionEncoderDecoderModel
 from PIL import Image
 import re
 # ===============================
-# Charger le modèle pré-entraîné TrOCR
 # ===============================
-model_name = "microsoft/trocr-base-table-finetuned"  # Spécial tables
 processor = TrOCRProcessor.from_pretrained(model_name)
 model = VisionEncoderDecoderModel.from_pretrained(model_name)
@@ -14,7 +15,7 @@ device = "cuda" if torch.cuda.is_available() else "cpu"
 model.to(device)
 # ===============================
-# Fonction d'extraction de la colonne Description
 # ===============================
 def extract_description(image_pil):
     # OCR avec TrOCR
@@ -29,9 +30,9 @@ def extract_description(image_pil):
     desc_col = []
     header_found = False
     headers = []
-    # Détecter les headers possibles
     if lines:
-        first_line = lines[0].lower()
         # Split en colonnes par tabulation ou espaces multiples
         headers = re.split(r"\t+|\s{2,}", first_line)
         try:
@@ -61,7 +62,7 @@ demo = gr.Interface(
         gr.Textbox(label="📋 Colonne Description"),
         gr.Textbox(label="🛠 OCR complet pour debug")
     ],
-    title="Extraction de la colonne Description (TrOCR + tables)",
     description="Détection automatique de la colonne Description dans les factures avec TrOCR"
 )

 from transformers import TrOCRProcessor, VisionEncoderDecoderModel
 from PIL import Image
 import re
+import torch
 # ===============================
+# Charger le modèle TrOCR public
 # ===============================
+model_name = "microsoft/trocr-base-handwritten"  # modèle public
 processor = TrOCRProcessor.from_pretrained(model_name)
 model = VisionEncoderDecoderModel.from_pretrained(model_name)
 model.to(device)
 # ===============================
+# Fonction extraction colonne Description
 # ===============================
 def extract_description(image_pil):
     # OCR avec TrOCR
     desc_col = []
     header_found = False
     headers = []
     if lines:
+        first_line = lines[0]
         # Split en colonnes par tabulation ou espaces multiples
         headers = re.split(r"\t+|\s{2,}", first_line)
         try:
         gr.Textbox(label="📋 Colonne Description"),
         gr.Textbox(label="🛠 OCR complet pour debug")
     ],
+    title="Extraction de la colonne Description (TrOCR public)",
     description="Détection automatique de la colonne Description dans les factures avec TrOCR"
 )