Spaces:

toanatp
/

normalize_audio_01

Running

toanatp commited on Jan 8

Commit

bfe0686

verified ·

1 Parent(s): 0b174df

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -116,7 +116,8 @@ def _load_spacy_model(lang_code: str | None):
     if spacy is None:
         return None
-    code = (lang_code or "en").lower()
     if code in _SPACY_CACHE:
         return _SPACY_CACHE[code]
@@ -224,12 +225,19 @@ def _map_spacy_to_smart_tokens(smart_tokens, full_text, nlp_model):
     if not spacy.tokens.Token.has_extension("noun_chunk_id"):
         spacy.tokens.Token.set_extension("noun_chunk_id", default=None)
     try:
-        for chunk_id, chunk in enumerate(doc.noun_chunks):
-            for token in chunk:
-                token._.noun_chunk_id = chunk_id
-    except (NotImplementedError, AttributeError):
-        pass
     spacy_token_map = {spacy_tok.idx: spacy_tok for spacy_tok in doc}
     for smart_tok in smart_tokens:

     if spacy is None:
         return None
+    code = (lang_code or "en").lower().replace("_", "-")
+    code = code.split("-")[0]
     if code in _SPACY_CACHE:
         return _SPACY_CACHE[code]
     if not spacy.tokens.Token.has_extension("noun_chunk_id"):
         spacy.tokens.Token.set_extension("noun_chunk_id", default=None)
+    can_use_noun_chunks = False
     try:
+        can_use_noun_chunks = doc.has_annotation("DEP")
+    except Exception:
+        can_use_noun_chunks = False
+    if can_use_noun_chunks:
+        try:
+            for chunk_id, chunk in enumerate(doc.noun_chunks):
+                for token in chunk:
+                    token._.noun_chunk_id = chunk_id
+        except (NotImplementedError, AttributeError, ValueError):
+            pass
     spacy_token_map = {spacy_tok.idx: spacy_tok for spacy_tok in doc}
     for smart_tok in smart_tokens: