Spaces:

DroolingPanda
/

teachingAssistant

Sleeping

App Files Files Community

Michael Hu commited on Jan 26, 2025

Commit

5f94a8b

1 Parent(s): c10f1ac

fix lang_code_to_id error

Browse files

Files changed (1) hide show

utils/translation.py +14 -7

utils/translation.py CHANGED Viewed

@@ -4,10 +4,10 @@ Handles text segmentation and batch translation
 """
 import logging
-logger = logging.getLogger(__name__)
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 def translate_text(text):
     """
     Translate English text to Simplified Chinese
@@ -19,9 +19,12 @@ def translate_text(text):
     logger.info(f"Starting translation for text length: {len(text)}")
     try:
-        # Model initialization
         logger.info("Loading NLLB model")
-        tokenizer = AutoTokenizer.from_pretrained("facebook/nllb-200-3.3B")
         model = AutoModelForSeq2SeqLM.from_pretrained("facebook/nllb-200-3.3B")
         logger.info("Translation model loaded")
@@ -33,18 +36,22 @@ def translate_text(text):
         translated_chunks = []
         for i, chunk in enumerate(text_chunks):
             logger.info(f"Processing chunk {i+1}/{len(text_chunks)}")
             inputs = tokenizer(
-                chunk,
-                return_tensors="pt",
-                max_length=1024,
                 truncation=True
             )
             outputs = model.generate(
                 **inputs,
                 forced_bos_token_id=tokenizer.lang_code_to_id["zho_Hans"],
                 max_new_tokens=1024
             )
             translated = tokenizer.decode(outputs[0], skip_special_tokens=True)
             translated_chunks.append(translated)
             logger.info(f"Chunk {i+1} translated successfully")

 """
 import logging
 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
+logger = logging.getLogger(__name__)
 def translate_text(text):
     """
     Translate English text to Simplified Chinese
     logger.info(f"Starting translation for text length: {len(text)}")
     try:
+        # Model initialization with explicit language codes
         logger.info("Loading NLLB model")
+        tokenizer = AutoTokenizer.from_pretrained(
+            "facebook/nllb-200-3.3B",
+            src_lang="eng_Latn"  # Specify source language
+        )
         model = AutoModelForSeq2SeqLM.from_pretrained("facebook/nllb-200-3.3B")
         logger.info("Translation model loaded")
         translated_chunks = []
         for i, chunk in enumerate(text_chunks):
             logger.info(f"Processing chunk {i+1}/{len(text_chunks)}")
+            # Tokenize with source language specification
             inputs = tokenizer(
+                chunk,
+                return_tensors="pt",
+                max_length=1024,
                 truncation=True
             )
+            # Generate translation with target language specification
             outputs = model.generate(
                 **inputs,
                 forced_bos_token_id=tokenizer.lang_code_to_id["zho_Hans"],
                 max_new_tokens=1024
             )
             translated = tokenizer.decode(outputs[0], skip_special_tokens=True)
             translated_chunks.append(translated)
             logger.info(f"Chunk {i+1} translated successfully")