Spaces:

Kamaljeyaram07
/

chatbot

Sleeping

Kamaljeyaram07 commited on Jan 28

Commit

b931e4a

verified ·

1 Parent(s): 3286cbc

Update language.py

Files changed (1) hide show

language.py CHANGED Viewed

@@ -1,30 +1,36 @@
 from transformers import AutoTokenizer, AutoModelForSequenceClassification
 import torch
 MODEL_NAME = "papluca/xlm-roberta-base-language-detection"
 tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
 model = AutoModelForSequenceClassification.from_pretrained(MODEL_NAME)
-LANG_MAP = {
-    "en": "eng",
-    "hi": "hin",
-    "ta": "tam",
-    "te": "tel",
-    "kn": "kan",
-    "ml": "mal",
-    "mr": "mar",
-    "bn": "ben",
-}
 def detect_language(text: str) -> str:
-    inputs = tokenizer(text, return_tensors="pt", truncation=True)
     with torch.no_grad():
         logits = model(**inputs).logits
-    predicted_id = torch.argmax(logits, dim=1).item()
-    lang = model.config.id2label[predicted_id]
-    # Default to English if not supported
-    return lang if lang in LANG_MAP else "en"

 from transformers import AutoTokenizer, AutoModelForSequenceClassification
 import torch
+import re
 MODEL_NAME = "papluca/xlm-roberta-base-language-detection"
 tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
 model = AutoModelForSequenceClassification.from_pretrained(MODEL_NAME)
+# Unicode ranges for Indic scripts
+TAMIL_RANGE = re.compile(r"[\u0B80-\u0BFF]")
+TELUGU_RANGE = re.compile(r"[\u0C00-\u0C7F]")
+KANNADA_RANGE = re.compile(r"[\u0C80-\u0CFF]")
+MALAYALAM_RANGE = re.compile(r"[\u0D00-\u0D7F]")
+DEVANAGARI_RANGE = re.compile(r"[\u0900-\u097F]")
 def detect_language(text: str) -> str:
+    # 🔒 HARD OVERRIDES (MOST IMPORTANT)
+    if TAMIL_RANGE.search(text):
+        return "ta"
+    if TELUGU_RANGE.search(text):
+        return "te"
+    if KANNADA_RANGE.search(text):
+        return "kn"
+    if MALAYALAM_RANGE.search(text):
+        return "ml"
+    if DEVANAGARI_RANGE.search(text):
+        return "hi"
+    # Fallback to ML detection
+    inputs = tokenizer(text, return_tensors="pt", truncation=True)
     with torch.no_grad():
         logits = model(**inputs).logits
+    lang_id = torch.argmax(logits, dim=1).item()
+    return model.config.id2label[lang_id]