cedricgaudron
/

scanner-tickets

Text Generation

document-information-extraction

text2text-generation

Model card Files Files and versions

cedricgaudron commited on Jul 13, 2025

Commit

5dfb1cd

·

verified ·

1 Parent(s): 9ee1a12

Create README.md

Files changed (1) hide show

README.md +42 -0

README.md ADDED Viewed

	@@ -0,0 +1,42 @@

+---
+language: fr
+license: mit
+tags:
+  - t5
+  - invoice
+  - receipt
+  - document-information-extraction
+  - ocr
+pipeline_tag: text2text-generation
+---
+# 🧾 Scanner Tickets – Extraction automatique de données
+Ce modèle T5 a été entraîné pour **extraire automatiquement des informations clés depuis du texte OCR issu de factures ou tickets de caisse**.
+## 📌 Données extraites :
+- 🧾 **Type** : facture ou ticket
+- 💸 **Montant total**
+- 📅 **Date**
+- 🏢 **Fournisseur**
+- 🔢 **SIRET**
+- 🔢 **Numéro de TVA**
+- #️⃣ **Numéro de facture ou ticket**
+## 🔍 Exemple d'utilisation
+```python
+from transformers import T5Tokenizer, T5ForConditionalGeneration
+tokenizer = T5Tokenizer.from_pretrained("cedricgaudron/scanner-tickets")
+model = T5ForConditionalGeneration.from_pretrained("cedricgaudron/scanner-tickets")
+texte = """CARREFOUR
+TOTAL TTC : 24,75€
+Date : 12/06/2024
+SIRET : 123 456 789 00012
+TVA : FR 12 345678912"""
+input_ids = tokenizer("Extrais les données suivantes en format JSON :\n" + texte, return_tensors="pt").input_ids
+output = model.generate(input_ids, max_length=128)
+print(tokenizer.decode(output[0], skip_special_tokens=True))