Spaces:

klydekushy
/

OCR_PROSPECTUS

Sleeping

klydekushy commited on Dec 23, 2025

Commit

245eae5

verified ·

1 Parent(s): f433cad

Update core/extractor.py

Files changed (1) hide show

core/extractor.py CHANGED Viewed

@@ -83,10 +83,28 @@ class ExtractorEngine:
             "Réponds uniquement par une liste de mots séparés par des virgules."
         )
         inputs = self.tokenizer(prompt, return_tensors="pt").to("cpu")
-        with torch.no_grad():
-            outputs = self.model.generate(**inputs, max_new_tokens=50)
-        res = self.tokenizer.decode(outputs[0], skip_special_tokens=True).split(":")[-1]
-        return [l.strip() for l in res.split(",") if len(l.strip()) > 2]
     def _run_inference_with_entities(self, text: str, gliner_ents: list, temperature: float):
         """Phase de liaison : le LLM crée le graphe JSON final."""

             "Réponds uniquement par une liste de mots séparés par des virgules."
         )
         inputs = self.tokenizer(prompt, return_tensors="pt").to("cpu")
+            with torch.no_grad():
+                # On laisse un peu plus de tokens pour une liste riche
+                outputs = self.model.generate(**inputs, max_new_tokens=150)
+            res = self.tokenizer.decode(outputs[0][inputs.shape[1]:], skip_special_tokens=True)
+            # --- LOGIQUE DE NETTOYAGE ET DÉDUPLICATION ---
+            raw_labels = res.split(",")
+            clean_labels = []
+            seen = set()
+            for l in raw_labels:
+                # Nettoyage : retrait des espaces, mise en minuscule pour comparer
+                label = l.strip().replace(".", "").replace("\n", "")
+                if len(label) > 2:
+                    # On normalise (singulier et minuscule) pour éviter les doublons
+                    norm_label = label.lower().rstrip('s')
+                    if norm_label not in seen:
+                        seen.add(norm_label)
+                        clean_labels.append(label.capitalize()) # On garde un joli format (ex: "Montant")
+            return clean_labels
     def _run_inference_with_entities(self, text: str, gliner_ents: list, temperature: float):
         """Phase de liaison : le LLM crée le graphe JSON final."""