Spaces:

student2222333051
/

project1

Sleeping

App Files Files Community

student2222333051 commited on about 1 month ago

Commit

3196524

verified ·

1 Parent(s): f7744a1

Update app.py

Browse files

Files changed (1) hide show

app.py +48 -11

app.py CHANGED Viewed

@@ -15,6 +15,7 @@ ner_tagger = NewsNERTagger(embedding)
 # HuggingFace для английского
 # ============================
 from transformers import pipeline
 english_ner = pipeline(
     "ner",
     model="dbmdz/bert-large-cased-finetuned-conll03-english",
@@ -22,10 +23,19 @@ english_ner = pipeline(
     aggregation_strategy="simple"
 )
 # ============================
 # Функция распознавания сущностей
 # ============================
-def recognize_entities_auto(text):
     # Определяем язык
     try:
         lang = detect(text)
@@ -34,6 +44,9 @@ def recognize_entities_auto(text):
     entities = {"PER": [], "ORG": [], "LOC": []}
     if lang == "en":
         results = english_ner(text)
         for res in results:
@@ -52,25 +65,49 @@ def recognize_entities_auto(text):
             if label in ["PER", "ORG", "LOC"]:
                 entities[label].append(span.text)
-    # Формируем текстовый вывод
-    output_text = ""
     for key, items in entities.items():
-        if items:
-            # Убираем дубликаты
-            unique_items = list(dict.fromkeys(items))
-            output_text += f"{key}: {'; '.join(unique_items)}\n"
-    return output_text.strip() if output_text else "Сущности не найдены."
 # ============================
 # Gradio интерфейс
 # ============================
 iface = gr.Interface(
     fn=recognize_entities_auto,
-    inputs=gr.Textbox(lines=15, placeholder="Введите русский или английский текст здесь..."),
-    outputs=gr.Textbox(label="Распознанные сущности (PER/ORG/LOC)"),
     title="Автоматический NER для русского и английского текста",
-    description="PER – человек, ORG – организация, LOC – место. Текст любого языка обрабатывается автоматически."
 )
 iface.launch()

 # HuggingFace для английского
 # ============================
 from transformers import pipeline
 english_ner = pipeline(
     "ner",
     model="dbmdz/bert-large-cased-finetuned-conll03-english",
     aggregation_strategy="simple"
 )
+# ============================
+# Метрики
+# ============================
+from sklearn.metrics import precision_score, recall_score, f1_score
 # ============================
 # Функция распознавания сущностей
 # ============================
+def recognize_entities_auto(text, gold_entities=None):
+    """
+    text: текст пользователя
+    gold_entities: словарь с эталонными сущностями {'PER': [...], 'ORG': [...], 'LOC': [...]}
+    """
     # Определяем язык
     try:
         lang = detect(text)
     entities = {"PER": [], "ORG": [], "LOC": []}
+    # ============================
+    # NER
+    # ============================
     if lang == "en":
         results = english_ner(text)
         for res in results:
             if label in ["PER", "ORG", "LOC"]:
                 entities[label].append(span.text)
+    # Убираем дубликаты
+    for key in entities:
+        entities[key] = list(dict.fromkeys(entities[key]))
+    # ============================
+    # Формируем подсветку для Gradio
+    # ============================
+    highlighted = []
     for key, items in entities.items():
+        for item in items:
+            highlighted.append((item, key))
+    # ============================
+    # Метрики
+    # ============================
+    metrics_text = ""
+    if gold_entities:
+        for key in ['PER','ORG','LOC']:
+            y_true = [1 if item in gold_entities.get(key,[]) else 0 for item in entities[key]]
+            y_pred = [1]*len(y_true)
+            if len(y_true) > 0:
+                precision = precision_score(y_true, y_pred, zero_division=0)
+                recall = recall_score(y_true, y_pred, zero_division=0)
+                f1 = f1_score(y_true, y_pred, zero_division=0)
+                metrics_text += f"{key}: Precision={precision:.2f}, Recall={recall:.2f}, F1={f1:.2f}\n"
+    return highlighted, metrics_text.strip()
 # ============================
 # Gradio интерфейс
 # ============================
 iface = gr.Interface(
     fn=recognize_entities_auto,
+    inputs=[
+        gr.Textbox(lines=15, placeholder="Введите русский или английский текст здесь..."),
+        gr.JSON(label="Эталонные сущности (опционально)", value={"PER":[],"ORG":[],"LOC":[]})
+    ],
+    outputs=[
+        gr.HighlightedText(label="Выделенные сущности"),
+        gr.Textbox(label="Метрики (если указаны эталонные сущности)")
+    ],
     title="Автоматический NER для русского и английского текста",
+    description="PER – человек, ORG – организация, LOC – место. Текст любого языка обрабатывается автоматически. Можно передать эталонные сущности для подсчёта Precision/Recall/F1."
 )
 iface.launch()