Spaces:

Sagar32
/

Nepali-Romanized-Transliteration

Running

Sagar32 commited on Dec 24, 2025

Commit

a1741e1

verified ·

1 Parent(s): 78fbd27

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -4,14 +4,12 @@ from collections import defaultdict
 import torch
 import gradio as gr
 from gensim.models import FastText as FT
 from transformers import AutoTokenizer, MT5ForConditionalGeneration
 from huggingface_hub import snapshot_download
-from nltk.corpus import words
-import nltk
-nltk.download('words', quiet=True)
 # =========================
 # 2) Auth (optional if repo is public)
@@ -55,11 +53,12 @@ for entry in phonetic_data.values():
             variant_to_base[v.lower()] = base
-ENGLISH_WORDS = set()
 try:
-    ENGLISH_WORDS = set(w.lower() for w in words.words())
 except:
-    pass
 # --- Normalization hyperparams
 TOP_K = 8
 SIM_THRESHOLD = 0.65
@@ -79,7 +78,9 @@ def preprocess_sentence(sentence: str) -> str:
     return " ".join(out)
 def is_english_word(word: str) -> bool:
-    return word.lower() in ENGLISH_WORDS
 def normalize_word(word: str) -> str:
     if is_english_word(word):

 import torch
 import gradio as gr
+import enchant
 from gensim.models import FastText as FT
 from transformers import AutoTokenizer, MT5ForConditionalGeneration
 from huggingface_hub import snapshot_download
 # =========================
 # 2) Auth (optional if repo is public)
             variant_to_base[v.lower()] = base
 try:
+    english_dict = enchant.Dict("en_US")
 except:
+    english_dict = None
 # --- Normalization hyperparams
 TOP_K = 8
 SIM_THRESHOLD = 0.65
     return " ".join(out)
 def is_english_word(word: str) -> bool:
+    if english_dict is None:
+        return False
+    return english_dict.check(word)
 def normalize_word(word: str) -> str:
     if is_english_word(word):