Spaces:

pradeep4321
/

sample_translate

Sleeping

App Files Files Community

pradeep4321 commited on Apr 12

Commit

e8141e8

verified ·

1 Parent(s): e36d297

Update src/streamlit_app.py

Browse files

Files changed (1) hide show

src/streamlit_app.py +50 -158

src/streamlit_app.py CHANGED Viewed

@@ -1,194 +1,86 @@
 import streamlit as st
-from huggingface_hub import InferenceClient
 from langdetect import detect
-import numpy as np
-import faiss
-import tempfile
-import speech_recognition as sr
-from sentence_transformers import SentenceTransformer
-import os
 # ==============================
-# CONFIG
 # ==============================
-HF_TOKEN = os.environ.get("HF_TOKEN")
-if not HF_TOKEN:
-    st.error("❌ HF_TOKEN not found. Add it in Hugging Face Secrets.")
-    st.stop()
-client = InferenceClient(
-    model="google/gemma-7b-it",
-    token=HF_TOKEN
-)
-embed_model = SentenceTransformer("all-MiniLM-L6-v2")
-# ==============================
-# FAISS MEMORY
-# ==============================
-dimension = 384
-index = faiss.IndexFlatL2(dimension)
-memory_texts = []
-def embed(text):
-    return embed_model.encode(text).astype("float32")
-def store_memory(src, tgt):
-    text_pair = f"{src} -> {tgt}"
-    vec = embed(text_pair)
-    index.add(np.array([vec]))
-    memory_texts.append(text_pair)
-def retrieve_memory(query):
-    if len(memory_texts) == 0:
-        return None
-    vec = embed(query)
-    D, I = index.search(np.array([vec]), k=1)
-    return memory_texts[I[0][0]]
 # ==============================
-# SAFE LANGUAGE DETECTION
 # ==============================
-def safe_detect(text):
-    text = text.strip()
-    # Avoid wrong detection for short text
-    if len(text) < 5:
-        return "auto"
-    try:
-        return detect(text)
-    except:
-        return "auto"
-# ==============================
-# SPEECH TO TEXT
-# ==============================
-def speech_to_text(audio_file):
-    recognizer = sr.Recognizer()
-    with tempfile.NamedTemporaryFile(delete=False) as temp_audio:
-        temp_audio.write(audio_file.read())
-        temp_audio_path = temp_audio.name
-    with sr.AudioFile(temp_audio_path) as source:
-        audio = recognizer.record(source)
-    try:
-        text = recognizer.recognize_google(audio)
-    except:
-        text = ""
-    return text
 # ==============================
 # TRANSLATION FUNCTION
 # ==============================
 def translate(text, target_lang):
-    src_lang = safe_detect(text)
-    memory = retrieve_memory(text)
-    # 🚨 Handle very short input
-    if len(text.split()) <= 1:
-        return "⚠️ Please enter a full sentence for better translation.", src_lang, memory
-    # Prompt design
-    if src_lang == "auto":
-        prompt = f"""
-You are a professional multilingual translator.
-Detect the language and translate into {target_lang}.
-Text:
-{text}
-Rules:
-- Only return translated text
-- No explanation
-"""
-    else:
-        prompt = f"""
-You are a professional multilingual translator.
-Translate from {src_lang} to {target_lang}.
-Text:
-{text}
-Rules:
-- Only return translated text
-- No explanation
-"""
     try:
-        response = client.text_generation(
-            prompt,
-            max_new_tokens=150,
-            temperature=0.2,
-            top_p=0.9
-        )
-        translated = response.strip()
-        # Handle empty or bad output
-        if not translated or len(translated) < 2:
-            translated = "❌ Unable to translate. Try a clearer sentence."
-    except Exception as e:
-        translated = f"❌ Translation failed: {str(e)}"
-    store_memory(text, translated)
-    return translated, src_lang, memory
 # ==============================
 # UI
 # ==============================
-st.set_page_config(page_title="AI Translator", layout="wide")
-st.title("🌍 AI Translator with Voice (Gemma 7B)")
-tab1, tab2 = st.tabs(["📝 Text Input", "🎤 Voice Input"])
-input_text = ""
-# TEXT INPUT
-with tab1:
-    input_text = st.text_area("Enter text", height=150)
-# VOICE INPUT
-with tab2:
-    audio_file = st.file_uploader("Upload audio (wav/mp3)", type=["wav", "mp3"])
-    if audio_file:
-        st.audio(audio_file)
-        if st.button("Convert Speech to Text"):
-            with st.spinner("Processing audio..."):
-                input_text = speech_to_text(audio_file)
-                st.success("Recognized Text:")
-                st.write(input_text)
-# TARGET LANGUAGE
-target_lang = st.selectbox(
-    "Target Language",
-    ["English", "Tamil", "Hindi", "French", "Arabic", "Spanish", "German"]
-)
-# TRANSLATE
 if st.button("Translate"):
     if not input_text.strip():
-        st.warning("Please provide input text or audio")
     else:
         with st.spinner("Translating..."):
-            output, src_lang, memory = translate(input_text, target_lang)
             st.success("✅ Translation")
             st.write(output)
-            st.info(f"Detected Language: {src_lang}")
-            if memory:
-                st.caption(f"💡 Similar past translation: {memory}")

 import streamlit as st
+import torch
+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 from langdetect import detect
 # ==============================
+# LOAD MODEL (ONLY ONCE)
 # ==============================
+@st.cache_resource
+def load_model():
+    tokenizer = AutoTokenizer.from_pretrained("facebook/nllb-200-distilled-600M")
+    model = AutoModelForSeq2SeqLM.from_pretrained("facebook/nllb-200-distilled-600M")
+    return tokenizer, model
+tokenizer, model = load_model()
 # ==============================
+# LANGUAGE MAP
 # ==============================
+lang_map = {
+    "English": "eng_Latn",
+    "Tamil": "tam_Taml",
+    "Hindi": "hin_Deva",
+    "French": "fra_Latn",
+    "Arabic": "arb_Arab",
+    "Spanish": "spa_Latn",
+    "German": "deu_Latn"
+}
+detect_map = {
+    "en": "eng_Latn",
+    "ta": "tam_Taml",
+    "hi": "hin_Deva",
+    "fr": "fra_Latn",
+    "ar": "arb_Arab",
+    "es": "spa_Latn",
+    "de": "deu_Latn"
+}
 # ==============================
 # TRANSLATION FUNCTION
 # ==============================
 def translate(text, target_lang):
     try:
+        detected = detect(text)
+        src_lang = detect_map.get(detected, "eng_Latn")
+    except:
+        src_lang = "eng_Latn"
+    tgt_lang = lang_map[target_lang]
+    tokenizer.src_lang = src_lang
+    encoded = tokenizer(text, return_tensors="pt")
+    generated_tokens = model.generate(
+        **encoded,
+        forced_bos_token_id=tokenizer.convert_tokens_to_ids(tgt_lang),
+        max_length=200
+    )
+    translated = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)[0]
+    return translated, src_lang
 # ==============================
 # UI
 # ==============================
+st.title("🌍 NLLB Translator (Transformers)")
+input_text = st.text_area("Enter text")
+target_lang = st.selectbox("Target Language", list(lang_map.keys()))
 if st.button("Translate"):
     if not input_text.strip():
+        st.warning("Enter text")
     else:
         with st.spinner("Translating..."):
+            output, src_lang = translate(input_text, target_lang)
             st.success("✅ Translation")
             st.write(output)
+            st.info(f"Detected Language: {src_lang}")