Spaces:

Shenuki
/

NER

Sleeping

App Files Files Community

Shenuki commited on May 14, 2025

Commit

0d7fa59

verified ·

1 Parent(s): e02d2af

Update app.py

Browse files

Files changed (1) hide show

app.py +32 -26

app.py CHANGED Viewed

@@ -5,21 +5,31 @@ import requests
 import wikipedia
 import gradio as gr
 import torch
 from transformers import (
     SeamlessM4TProcessor,
     SeamlessM4TForTextToText,
     pipeline as hf_pipeline
 )
 # ————————————————————
-# 1) SeamlessM4T Text2Text
 MODEL_NAME = "facebook/hf-seamless-m4t-medium"
 device     = "cuda" if torch.cuda.is_available() else "cpu"
-processor  = SeamlessM4TProcessor.from_pretrained(MODEL_NAME)
 m4t_model  = SeamlessM4TForTextToText.from_pretrained(MODEL_NAME).to(device).eval()
 def translate_m4t(text, src_iso3, tgt_iso3, auto_detect=False):
-    # src_iso3: e.g. "eng", "fra", etc.  If auto_detect=True, pass None
     src = None if auto_detect else src_iso3
     inputs = processor(text=text, src_lang=src, return_tensors="pt").to(device)
     tokens = m4t_model.generate(**inputs, tgt_lang=tgt_iso3)
@@ -41,7 +51,8 @@ def geocode(place: str):
         params={"q": place, "format": "json", "limit": 1},
         headers={"User-Agent":"iVoiceContext/1.0"}
     ).json()
-    if not resp: return None
     return float(resp[0]["lat"]), float(resp[0]["lon"])
 def fetch_osm(lat, lon, osm_filter, limit=5):
@@ -63,16 +74,16 @@ def fetch_osm(lat, lon, osm_filter, limit=5):
 # ————————————————————
 def get_context(text: str,
-                source_lang: str,  # always 3-letter, e.g. "eng"
-                output_lang: str,  # always 3-letter, e.g. "fra"
                 auto_detect: bool):
-    # 1) Ensure English for NER
     if auto_detect or source_lang != "eng":
         en_text = translate_m4t(text, source_lang, "eng", auto_detect=auto_detect)
     else:
         en_text = text
-    # 2) Extract entities
     ner_out = ner(en_text)
     ents = { ent["word"]: ent["entity_group"] for ent in ner_out }
@@ -84,25 +95,22 @@ def get_context(text: str,
                 results[ent_text] = {"type":"location","error":"could not geocode"}
             else:
                 lat, lon = geo
-                rest = fetch_osm(lat, lon, '["amenity"="restaurant"]')
-                attr = fetch_osm(lat, lon, '["tourism"="attraction"]')
                 results[ent_text] = {
                     "type":        "location",
-                    "restaurants": rest,
-                    "attractions": attr
                 }
         else:
-            # PERSON, ORG, MISC → Wikipedia
             try:
-                summary = wikipedia.summary(ent_text, sentences=2)
             except Exception:
-                summary = "No summary available."
-            results[ent_text] = {"type":"wiki","summary": summary}
     if not results:
         return {"error":"no entities found"}
-    # 3) Translate **all** text fields → output_lang
     if output_lang != "eng":
         for info in results.values():
             if info["type"] == "wiki":
@@ -110,13 +118,11 @@ def get_context(text: str,
                     info["summary"], "eng", output_lang, auto_detect=False
                 )
             elif info["type"] == "location":
-                for poi_list in ("restaurants","attractions"):
-                    translated = []
-                    for item in info[poi_list]:
-                        name = item["name"]
-                        tr = translate_m4t(name, "eng", output_lang, auto_detect=False)
-                        translated.append({"name": tr})
-                    info[poi_list] = translated
     return results
@@ -133,9 +139,9 @@ iface = gr.Interface(
     title="iVoice Translate + Context-Aware",
     description=(
       "1) Translate your text → English (if needed)\n"
-      "2) Run BERT-NER on English to find LOC/PERSON/ORG\n"
       "3) Geocode LOC → fetch nearby restaurants & attractions\n"
-      "4) Fetch Wikipedia summaries for PERSON/ORG\n"
       "5) Translate **all** results → your target language"
     )
 ).queue()

 import wikipedia
 import gradio as gr
 import torch
 from transformers import (
     SeamlessM4TProcessor,
     SeamlessM4TForTextToText,
+    SeamlessM4TTokenizer,           # <<< import the tokenizer class
     pipeline as hf_pipeline
 )
 # ————————————————————
+# 1) Load SeamlessM4T tokenizer (slow) and processor
 MODEL_NAME = "facebook/hf-seamless-m4t-medium"
 device     = "cuda" if torch.cuda.is_available() else "cpu"
+# load the slow tokenizer (no conversion attempted)
+tokenizer  = SeamlessM4TTokenizer.from_pretrained(MODEL_NAME, use_fast=False)
+# pass it into the processor so it won't try to convert
+processor  = SeamlessM4TProcessor.from_pretrained(
+    MODEL_NAME,
+    tokenizer=tokenizer
+)
 m4t_model  = SeamlessM4TForTextToText.from_pretrained(MODEL_NAME).to(device).eval()
 def translate_m4t(text, src_iso3, tgt_iso3, auto_detect=False):
     src = None if auto_detect else src_iso3
     inputs = processor(text=text, src_lang=src, return_tensors="pt").to(device)
     tokens = m4t_model.generate(**inputs, tgt_lang=tgt_iso3)
         params={"q": place, "format": "json", "limit": 1},
         headers={"User-Agent":"iVoiceContext/1.0"}
     ).json()
+    if not resp:
+        return None
     return float(resp[0]["lat"]), float(resp[0]["lon"])
 def fetch_osm(lat, lon, osm_filter, limit=5):
 # ————————————————————
 def get_context(text: str,
+                source_lang: str,  # always ISO639-3, e.g. "eng"
+                output_lang: str,  # always ISO639-3, e.g. "fra"
                 auto_detect: bool):
+    # 1) Ensure English text for NER
     if auto_detect or source_lang != "eng":
         en_text = translate_m4t(text, source_lang, "eng", auto_detect=auto_detect)
     else:
         en_text = text
+    # 2) Run NER
     ner_out = ner(en_text)
     ents = { ent["word"]: ent["entity_group"] for ent in ner_out }
                 results[ent_text] = {"type":"location","error":"could not geocode"}
             else:
                 lat, lon = geo
                 results[ent_text] = {
                     "type":        "location",
+                    "restaurants": fetch_osm(lat, lon, '["amenity"="restaurant"]'),
+                    "attractions": fetch_osm(lat, lon, '["tourism"="attraction"]'),
                 }
         else:
             try:
+                summ = wikipedia.summary(ent_text, sentences=2)
             except Exception:
+                summ = "No summary available."
+            results[ent_text] = {"type":"wiki","summary": summ}
     if not results:
         return {"error":"no entities found"}
+    # 3) Translate all text fields → output_lang
     if output_lang != "eng":
         for info in results.values():
             if info["type"] == "wiki":
                     info["summary"], "eng", output_lang, auto_detect=False
                 )
             elif info["type"] == "location":
+                for key in ("restaurants","attractions"):
+                    info[key] = [
+                      {"name": translate_m4t(item["name"], "eng", output_lang)}
+                      for item in info[key]
+                    ]
     return results
     title="iVoice Translate + Context-Aware",
     description=(
       "1) Translate your text → English (if needed)\n"
+      "2) Extract LOC/PERSON/ORG via BERT-NER\n"
       "3) Geocode LOC → fetch nearby restaurants & attractions\n"
+      "4) Fetch Wikipedia summaries\n"
       "5) Translate **all** results → your target language"
     )
 ).queue()