Spaces:

piyazon
/

Uyghur_Translate

Sleeping

Piyazon commited on Jan 17

Commit

b58e253

1 Parent(s): 5309fbc

fix the code in sentence

Files changed (2) hide show

.gitignore CHANGED Viewed

@@ -2,4 +2,5 @@ __pycache__/
 DS_Store
 .env
 .vscode/
-*.pyc

 DS_Store
 .env
 .vscode/
+*.pyc
+.gradio/

app.py CHANGED Viewed

@@ -4,6 +4,7 @@ from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 import logging
 from detect_language import detect_language
 import traceback
 # --- 1. SETUP ---
 logging.getLogger("transformers.tokenization_utils_base").setLevel(logging.ERROR)
@@ -48,10 +49,13 @@ def predict(text, tgt_choice):
     # B. GET TARGET
     tgt_lang = LANG_CODES.get(tgt_choice, "uig_Arab")
     tokenizer.src_lang = src_lang
     # C. GENERATE
     inputs = tokenizer(
-        text,
         return_tensors="pt",
         padding=True,
         truncation=True,
@@ -69,8 +73,10 @@ def predict(text, tgt_choice):
             no_repeat_ngram_size=3
         )
-    translation = tokenizer.batch_decode(out, skip_special_tokens=True)[0]
     print(f"From {src_lang} to {tgt_lang}: {translation}")
     # D. HANDLE UI DIRECTION
@@ -161,7 +167,7 @@ js_logic = """
     setTimeout(adjustTextareaHeight, 1000);
 """
-demo.launch(css=custom_css, js=js_logic, theme=gr.themes.Ocean(), share=True)

 import logging
 from detect_language import detect_language
 import traceback
+import re
 # --- 1. SETUP ---
 logging.getLogger("transformers.tokenization_utils_base").setLevel(logging.ERROR)
     # B. GET TARGET
     tgt_lang = LANG_CODES.get(tgt_choice, "uig_Arab")
     tokenizer.src_lang = src_lang
+    sentences = re.split(r'(?<=[.!?؟])\s+|(?<=[。！？])', text.strip())
+    print(f"Splitting paragraph into {len(sentences)} sentences to translate...")
     # C. GENERATE
     inputs = tokenizer(
+        sentences,
         return_tensors="pt",
         padding=True,
         truncation=True,
             no_repeat_ngram_size=3
         )
+    translated_sentences = tokenizer.batch_decode(out, skip_special_tokens=True)
+    translation = " ".join(translated_sentences)
     print(f"From {src_lang} to {tgt_lang}: {translation}")
     # D. HANDLE UI DIRECTION
     setTimeout(adjustTextareaHeight, 1000);
 """
+demo.launch(css=custom_css, js=js_logic, theme=gr.themes.Ocean())