Spaces:

kebson
/

invoice-item-extractor

Sleeping

App Files Files Community

kebson commited on Jan 13

Commit

76aa40f

verified ·

1 Parent(s): b36ba5e

Update app.py

Browse files

Files changed (1) hide show

app.py +7 -124

app.py CHANGED Viewed

@@ -1,129 +1,12 @@
-# app.py - À déployer sur Hugging Face Spaces
 import gradio as gr
-from transformers import DonutProcessor, VisionEncoderDecoderModel
-from PIL import Image
-import torch
-import re
-torch.set_grad_enabled(False)
-# Charger le modèle mychen76 (extrait item_desc parfaitement !)
-MODEL_NAME = "mychen76/invoice-and-receipts_donut_v1"
-print("🔄 Chargement du modèle...")
-processor = DonutProcessor.from_pretrained(MODEL_NAME)
-model = VisionEncoderDecoderModel.from_pretrained(MODEL_NAME)
-model.eval()
-print(f"✅ Modèle chargé sur CPU(HF Spaces safe)")
-def extract_invoice_items(image):
-    """
-    Extrait les item descriptions d'une facture
-    """
-    try:
-        # Préparer l'image
-        pixel_values = processor(
-            image,
-            return_tensors="pt"
-        ).pixel_values
-        # Prompt pour extraction
-        task_prompt = "<s_header>"
-        decoder_input_ids = processor.tokenizer(
-            task_prompt,
-            add_special_tokens=False,
-            return_tensors="pt"
-        ).input_ids
-        # Génération
-        print("⏳ Extraction en cours...")
-        with torch.no_grad():
-            outputs = model.generate(
-                pixel_values,
-                decoder_input_ids=decoder_input_ids,
-                max_length=model.decoder.config.max_position_embeddings,
-                pad_token_id=processor.tokenizer.pad_token_id,
-                eos_token_id=processor.tokenizer.eos_token_id,
-                use_cache=True,
-                bad_words_ids=[[processor.tokenizer.unk_token_id]],
-                return_dict_in_generate=True,
-                num_beams=1,
-                early_stopping=True,
-            )
-        # Décoder la séquence
-        sequence = processor.batch_decode(outputs.sequences)[0]
-        sequence = sequence.replace(processor.tokenizer.eos_token, "")
-        sequence = sequence.replace(processor.tokenizer.pad_token, "")
-        print("✅ Extraction terminée")
-        # Extraire tous les item_desc
-        item_descriptions = re.findall(
-            r'<s_item_desc>(.*?)</s_item_desc>',
-            sequence
-        )
-        # Créer l'output formaté
-        output = "=" * 60 + "\n"
-        output += "📋 ITEMS EXTRAITS (item_desc)\n"
-        output += "=" * 60 + "\n\n"
-        if item_descriptions:
-            output += f"✅ {len(item_descriptions)} item(s) trouvé(s) :\n\n"
-            for i, desc in enumerate(item_descriptions, 1):
-                output += f"{i}. {desc.strip()}\n"
-        else:
-            output += "⚠️ Aucun item trouvé. Voici la sortie brute :\n\n"
-            output += sequence[:1000]
-        # Ajouter les autres infos si disponibles
-        output += "\n" + "=" * 60 + "\n"
-        output += "📄 AUTRES INFORMATIONS EXTRAITES\n"
-        output += "=" * 60 + "\n\n"
-        # Extraire les autres champs
-        fields = {
-            "Numéro facture": r'<s_invoice_no>(.*?)</s_invoice_no>',
-            "Date": r'<s_invoice_date>(.*?)</s_invoice_date>',
-            "Vendeur": r'<s_seller>(.*?)</s_seller>',
-            "Client": r'<s_client>(.*?)</s_client>',
-        }
-        for label, pattern in fields.items():
-            match = re.search(pattern, sequence)
-            if match:
-                output += f"• {label}: {match.group(1).strip()}\n"
-        # Ajouter la sortie complète en bas
-        output += "\n" + "=" * 60 + "\n"
-        output += "🔍 SORTIE COMPLÈTE (Debug)\n"
-        output += "=" * 60 + "\n"
-        output += sequence[:2000] + ("..." if len(sequence) > 2000 else "")
-        return output
-    except Exception as e:
-        return f"❌ Erreur lors de l'extraction:\n\n{str(e)}\n\nAssurez-vous d'avoir uploadé une image de facture valide."
-# Interface Gradio
-demo = gr.Interface(
-    fn=extract_invoice_items,
-    inputs=gr.Image(type="pil", label="📤 Uploadez votre facture (JPG, PNG, PDF)"),
-    outputs=gr.Textbox(
-        label="✅ Items extraits (colonne item_desc)",
-        lines=25
-    ),
-    title="🧾 Extracteur d'Items de Factures - Donut Model",
-    description="Extraction automatique de item_desc depuis des factures avec Donut"
-)
-if __name__ == "__main__":
-    print("🚀 Lancement de l'application...")
-    demo.launch()

 import gradio as gr
+def show_sample(i):
+    return dataset[i]["image"]
+gr.Interface(
+    fn=show_sample,
+    inputs=gr.Number(value=0, precision=0),
+    outputs=gr.Image(type="pil")
+).launch()