Spaces:

klydekushy
/

OCR_PROSPECTUS

Sleeping

klydekushy commited on Dec 23, 2025

Commit

9fb8957

verified ·

1 Parent(s): 8901bbe

Update core/extractor.py

Files changed (1) hide show

core/extractor.py CHANGED Viewed

@@ -76,7 +76,7 @@ class ExtractorEngine:
     def _get_labels_from_llm(self, text: str):
         """Phase de découverte : le LLM définit les étiquettes à chercher."""
-        prompt = f"Analyse ce texte et liste uniquement 6 types d'entités importants à extraire (ex: Montant, Modèle, Date). Texte: {text[:600]}... Liste séparée par des virgules:"
         inputs = self.tokenizer(prompt, return_tensors="pt").to("cpu")
         with torch.no_grad():
             outputs = self.model.generate(**inputs, max_new_tokens=50)
@@ -90,7 +90,7 @@ class ExtractorEngine:
         system_prompt = """Tu es un expert en graphes de connaissance.
         Utilise les ENTITÉS extraites pour créer des RELATIONS précises basées sur le TEXTE.
-        Les relations doivent être des verbes courts en MAJUSCULES (ex: 'PAYE', 'PREDIT').
         Réponds strictement en JSON sans explications."""
         user_prompt = f"SCHÉMA:\n{self.json_schema}\n\nENTITÉS DÉTECTÉES:\n{ents_str}\n\nTEXTE:\n{text}\n\nJSON:"

     def _get_labels_from_llm(self, text: str):
         """Phase de découverte : le LLM définit les étiquettes à chercher."""
+        prompt = f"Analyse ce texte et liste les types d'entités importants à extraire. Texte: {text[:600]}... Liste séparée par des virgules:"
         inputs = self.tokenizer(prompt, return_tensors="pt").to("cpu")
         with torch.no_grad():
             outputs = self.model.generate(**inputs, max_new_tokens=50)
         system_prompt = """Tu es un expert en graphes de connaissance.
         Utilise les ENTITÉS extraites pour créer des RELATIONS précises basées sur le TEXTE.
+        Les relations doivent être des verbes courts en MAJUSCULES.
         Réponds strictement en JSON sans explications."""
         user_prompt = f"SCHÉMA:\n{self.json_schema}\n\nENTITÉS DÉTECTÉES:\n{ents_str}\n\nTEXTE:\n{text}\n\nJSON:"