Spaces:

Shubham170793
/

enterprise-knowledge-assistant

Sleeping

App Files Files Community

Shubham170793 commited on Oct 21

Commit

418ad1d

verified ·

1 Parent(s): 954cf7f

Update src/streamlit_app.py

Browse files

Files changed (1) hide show

src/streamlit_app.py +7 -20

src/streamlit_app.py CHANGED Viewed

@@ -6,14 +6,6 @@ import re
 import streamlit as st
 import torch
-# ==========================================================
-# 🌐 Language Detection Imports
-# ==========================================================
-from fasttext_langdetect import detect_langs
-from langdetect import detect
 # ==========================================================
 # ✅ PAGE CONFIGS
 # ==========================================================
@@ -40,26 +32,21 @@ from vectorstore import build_faiss_index
 from qa import retrieve_chunks, generate_answer, cache_embeddings, embed_chunks, genai_generate
 # ==========================================================
-# 🧠 LANGUAGE DETECTION HELPER (Improved for Hindi PDFs)
 # ==========================================================
-import re
-from langdetect import detect  # keep as fallback
 def detect_language(text_sample: str) -> str:
     """
-    Quick robust detection:
-    - If Devanagari chars present → Hindi (hi)
-    - Else fallback to langdetect (which needs real text to be accurate)
     """
     try:
-        # Fast deterministic check for Devanagari (Hindi) chars
         if re.search(r"[\u0900-\u097F]", text_sample):
             return "hi"
-        # Some other Indic scripts? you can add more ranges similarly
-        # e.g. Bengali \u0980-\u09FF ; Tamil \u0B80-\u0BFF etc.
-        # Fallback to langdetect for everything else
         lang = detect(text_sample)
         return "hi" if lang.startswith("hi") else "en"
     except Exception:
@@ -230,7 +217,7 @@ else:
             # 🌐 Detect document language (robust multilingual)
             doc_sample = " ".join(chunks[:3])[:3000]
-            doc_lang = detect_document_language(doc_sample)
             st.session_state["doc_lang"] = doc_lang
             lang_label = "Hindi" if doc_lang.startswith("hi") else "English"
             st.caption(f"🈹 Detected document language: {lang_label}")

 import streamlit as st
 import torch
 # ==========================================================
 # ✅ PAGE CONFIGS
 # ==========================================================
 from qa import retrieve_chunks, generate_answer, cache_embeddings, embed_chunks, genai_generate
 # ==========================================================
+# 🧠 LANGUAGE DETECTION HELPER (Fast, No Dependencies)
 # ==========================================================
+from langdetect import detect
 def detect_language(text_sample: str) -> str:
     """
+    Detects Hindi (Devanagari) or English.
+    Returns "hi" for Hindi and "en" for English.
     """
     try:
+        # Quick Unicode-based detection for Hindi
         if re.search(r"[\u0900-\u097F]", text_sample):
             return "hi"
+        # Fallback to langdetect
         lang = detect(text_sample)
         return "hi" if lang.startswith("hi") else "en"
     except Exception:
             # 🌐 Detect document language (robust multilingual)
             doc_sample = " ".join(chunks[:3])[:3000]
+            doc_lang = detect_language(doc_sample)
             st.session_state["doc_lang"] = doc_lang
             lang_label = "Hindi" if doc_lang.startswith("hi") else "English"
             st.caption(f"🈹 Detected document language: {lang_label}")