Spaces:

SCBconsulting
/

synclm-demo

Sleeping

SCBconsulting commited on Aug 28, 2025

Commit

a18ce35

verified ·

1 Parent(s): cb4344f

Update utils/metadata.py

Files changed (1) hide show

utils/metadata.py CHANGED Viewed

@@ -1,25 +1,43 @@
-from transformers import pipeline
-model = "dslim/bert-base-NER"
-ner = pipeline("ner", model=model, tokenizer=model, grouped_entities=True)
 def extract_metadata(text):
     if not text.strip():
         return {"error": "No input provided."}
-    text = text[:1000]
-    entities = ner(text)
-    result = {
         "DATE": [],
         "PERSON": [],
         "ORGANIZATION": [],
         "LOCATION": []
     }
-    for ent in entities:
         label = ent["entity_group"]
-        if label in result and ent["word"] not in result[label]:
-            result[label].append(ent["word"])
-    return result

+# utils/metadata.py
+from transformers import AutoTokenizer, AutoModelForTokenClassification, pipeline
+# 🧠 More accurate NER model
+model_name = "Jean-Baptiste/roberta-large-ner-english"
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+model = AutoModelForTokenClassification.from_pretrained(model_name)
+# 🛠️ NER pipeline with aggregation
+ner_pipeline = pipeline("ner", model=model, tokenizer=tokenizer, aggregation_strategy="simple")
+def clean_text(text):
+    """
+    Clean contract text for more accurate NER.
+    """
+    return text.replace("\n", " ").replace("  ", " ").strip()
 def extract_metadata(text):
+    """
+    Extract named entities from contract using advanced NER.
+    """
     if not text.strip():
         return {"error": "No input provided."}
+    text = clean_text(text)
+    ner_results = ner_pipeline(text)
+    metadata = {
         "DATE": [],
         "PERSON": [],
         "ORGANIZATION": [],
         "LOCATION": []
     }
+    for ent in ner_results:
         label = ent["entity_group"]
+        word = ent["word"]
+        if label in metadata and word not in metadata[label]:
+            metadata[label].append(word)
+    return metadata