Spaces:

DarkMo0o
/

Translation

Running

App Files Files Community

DarkMo0o commited on Nov 16, 2025

Commit

69b53c5

verified ·

1 Parent(s): b173433

Update app.py

Browse files

Files changed (1) hide show

app.py +197 -10

app.py CHANGED Viewed

@@ -5,12 +5,196 @@ import re
 app = FastAPI()
-MODEL_NAME = "facebook/nllb-200-distilled-600M"
 model = AutoModelForSeq2SeqLM.from_pretrained(MODEL_NAME)
 tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
 def split_text_lines(text, max_chunk_length=900):
-    # تقسيم ذكي مع الحفاظ على أسطر strings
     lines = text.splitlines()
     chunks = []
     chunk = ""
@@ -21,31 +205,34 @@ def split_text_lines(text, max_chunk_length=900):
             if chunk.strip():
                 chunks.append(chunk.strip())
             chunk = line + "\n"
-    if chunk.strip():
-        chunks.append(chunk.strip())
     return chunks
 def batch_translate(texts, src_lang, tgt_lang):
-    # ترجمة سريعة batch
     results = []
-    batch_size = 8  # يمكنك زيادة العدد حسب موارد السيرفر
     for i in range(0, len(texts), batch_size):
         batch = texts[i:i+batch_size]
         tokenizer.src_lang = src_lang
         inputs = tokenizer(batch, return_tensors="pt", padding=True, truncation=True, max_length=1024)
-        generated = model.generate(**inputs, forced_bos_token_id=tokenizer.convert_lang_to_id(tgt_lang))
         translated = tokenizer.batch_decode(generated, skip_special_tokens=True)
         results.extend(translated)
     return results
 def detect_language(text):
-    # كشف لغة ذكي (يعمل على أول chunk)
     sample = text[:2000] if len(text) > 2000 else text
     lang = detect(sample)
-    # وفق أكواد NLLB المتوافقة (تعديل سريع)
-    lang_map = {"en": "eng_Latn", "ar": "arb_Arab", "fr": "fra_Latn", "hi": "hin_Deva", "es": "spa_Latn", "de": "deu_Latn"}
     return lang_map.get(lang, "eng_Latn")
 @app.post("/translate-text")
 async def translate_text(
     text: str = Form(...),

 app = FastAPI()
+MODEL_NAME = "facebook/nllb-200-distilled-600M"  # الأخف ولمشاكل الذاكرة
 model = AutoModelForSeq2SeqLM.from_pretrained(MODEL_NAME)
 tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
+# قائمة جميع اللغات المدعومة، الكود: الاسم
+NLLB_LANGS = {
+    "afr_Latn": "Afrikaans",
+    "amh_Ethi": "Amharic",
+    "arb_Arab": "Arabic",
+    "ary_Arab": "Moroccan Arabic",
+    "arz_Arab": "Egyptian Arabic",
+    "asm_Beng": "Assamese",
+    "ast_Latn": "Asturian",
+    "awa_Deva": "Awadhi",
+    "ayr_Latn": "Aymara",
+    "azb_Arab": "South Azerbaijani",
+    "azj_Latn": "North Azerbaijani",
+    "bak_Cyrl": "Bashkir",
+    "bam_Latn": "Bambara",
+    "ban_Latn": "Balinese",
+    "bel_Cyrl": "Belarusian",
+    "bem_Latn": "Bemba",
+    "ben_Beng": "Bengali",
+    "bho_Deva": "Bhojpuri",
+    "bjn_Arab": "Banjar (Arabic)",
+    "bjn_Latn": "Banjar (Latin)",
+    "bod_Tibt": "Standard Tibetan",
+    "bos_Latn": "Bosnian",
+    "bug_Latn": "Buginese",
+    "bul_Cyrl": "Bulgarian",
+    "cat_Latn": "Catalan",
+    "ceb_Latn": "Cebuano",
+    "ces_Latn": "Czech",
+    "cjk_Latn": "Chokwe",
+    "ckb_Arab": "Sorani Kurdish",
+    "crh_Latn": "Crimean Turkish",
+    "csb_Latn": "Kashubian",
+    "cym_Latn": "Welsh",
+    "dan_Latn": "Danish",
+    "deu_Latn": "German",
+    "dik_Latn": "Dinka",
+    "dyu_Latn": "Dyula",
+    "dzo_Tibt": "Dzongkha",
+    "ell_Grek": "Greek",
+    "eng_Latn": "English",
+    "epo_Latn": "Esperanto",
+    "est_Latn": "Estonian",
+    "eus_Latn": "Basque",
+    "ewe_Latn": "Ewe",
+    "fao_Latn": "Faroese",
+    "fij_Latn": "Fijian",
+    "fin_Latn": "Finnish",
+    "fon_Latn": "Fon",
+    "fra_Latn": "French",
+    "fur_Latn": "Friulian",
+    "fuv_Latn": "Nigerian Fulfulde",
+    "gla_Latn": "Scottish Gaelic",
+    "gle_Latn": "Irish",
+    "glg_Latn": "Galician",
+    "grn_Latn": "Guarani",
+    "guj_Gujr": "Gujarati",
+    "hat_Latn": "Haitian Creole",
+    "hau_Latn": "Hausa",
+    "heb_Hebr": "Hebrew",
+    "hin_Deva": "Hindi",
+    "hne_Deva": "Chhattisgarhi",
+    "hrv_Latn": "Croatian",
+    "hun_Latn": "Hungarian",
+    "hye_Armn": "Armenian",
+    "ibo_Latn": "Igbo",
+    "ilo_Latn": "Ilocano",
+    "ind_Latn": "Indonesian",
+    "isl_Latn": "Icelandic",
+    "ita_Latn": "Italian",
+    "jav_Latn": "Javanese",
+    "jpn_Jpan": "Japanese",
+    "kab_Latn": "Kabyle",
+    "kac_Latn": "Jingpho",
+    "kam_Latn": "Kamba",
+    "kan_Knda": "Kannada",
+    "kas_Arab": "Kashmiri (Arabic)",
+    "kas_Deva": "Kashmiri (Devanagari)",
+    "kat_Geor": "Georgian",
+    "kaz_Cyrl": "Kazakh",
+    "kbp_Latn": "Kabiyè",
+    "kea_Latn": "Kabuverdianu",
+    "khm_Khmr": "Khmer",
+    "kik_Latn": "Kikuyu",
+    "kin_Latn": "Kinyarwanda",
+    "kir_Cyrl": "Kyrgyz",
+    "kmb_Latn": "Kimbundu",
+    "kmr_Latn": "Kurmanji Kurdish",
+    "kon_Latn": "Kikongo",
+    "kor_Hang": "Korean",
+    "lao_Laoo": "Lao",
+    "lij_Latn": "Ligurian",
+    "lim_Latn": "Limburgish",
+    "lin_Latn": "Lingala",
+    "lit_Latn": "Lithuanian",
+    "lmo_Latn": "Lombard",
+    "ltg_Latn": "Latgalian",
+    "ltz_Latn": "Luxembourgish",
+    "lua_Latn": "Luba-Kasai",
+    "lug_Latn": "Ganda",
+    "luo_Latn": "Luo",
+    "lus_Latn": "Mizo",
+    "mag_Deva": "Magahi",
+    "mai_Deva": "Maithili",
+    "mal_Mlym": "Malayalam",
+    "mar_Deva": "Marathi",
+    "min_Latn": "Minangkabau",
+    "mkd_Cyrl": "Macedonian",
+    "plt_Latn": "Plateau Malagasy",
+    "mlt_Latn": "Maltese",
+    "mni_Beng": "Manipuri",
+    "khk_Cyrl": "Halh Mongolian",
+    "mos_Latn": "Mossi",
+    "mri_Latn": "Maori",
+    "msa_Latn": "Malay",
+    "mya_Mymr": "Burmese",
+    "nld_Latn": "Dutch",
+    "nno_Latn": "Norwegian Nynorsk",
+    "nob_Latn": "Norwegian Bokmål",
+    "npi_Deva": "Nepali",
+    "nso_Latn": "Northern Sotho",
+    "nya_Latn": "Nyanja",
+    "oci_Latn": "Occitan",
+    "ory_Orya": "Odia",
+    "pag_Latn": "Pangasinan",
+    "pan_Guru": "Punjabi",
+    "pap_Latn": "Papiamento",
+    "pol_Latn": "Polish",
+    "por_Latn": "Portuguese",
+    "ron_Latn": "Romanian",
+    "run_Latn": "Rundi",
+    "rus_Cyrl": "Russian",
+    "sag_Latn": "Sango",
+    "san_Deva": "Sanskrit",
+    "sat_Beng": "Santali",
+    "scn_Latn": "Sicilian",
+    "shn_Mymr": "Shan",
+    "sin_Sinh": "Sinhala",
+    "slk_Latn": "Slovak",
+    "slv_Latn": "Slovenian",
+    "sna_Latn": "Shona",
+    "snd_Arab": "Sindhi",
+    "som_Latn": "Somali",
+    "spa_Latn": "Spanish",
+    "als_Latn": "Tosk Albanian",
+    "sqi_Latn": "Albanian",
+    "srp_Cyrl": "Serbian",
+    "ssw_Latn": "Swazi",
+    "sun_Latn": "Sundanese",
+    "swe_Latn": "Swedish",
+    "swh_Latn": "Swahili",
+    "szl_Latn": "Silesian",
+    "tam_Taml": "Tamil",
+    "tat_Cyrl": "Tatar",
+    "tel_Telu": "Telugu",
+    "tgk_Cyrl": "Tajik",
+    "tgl_Latn": "Tagalog",
+    "tha_Thai": "Thai",
+    "tir_Ethi": "Tigrinya",
+    "taq_Latn": "Tamasheq (Latin)",
+    "taq_Tfng": "Tamasheq (Tifinagh)",
+    "tpi_Latn": "Tok Pisin",
+    "tsn_Latn": "Tswana",
+    "tso_Latn": "Tsonga",
+    "tur_Latn": "Turkish",
+    "twi_Latn": "Twi",
+    "tzm_Tfng": "Central Atlas Tamazight",
+    "uig_Arab": "Uyghur",
+    "ukr_Cyrl": "Ukrainian",
+    "umb_Latn": "Umbundu",
+    "urd_Arab": "Urdu",
+    "uzn_Latn": "Northern Uzbek",
+    "vec_Latn": "Venetian",
+    "vie_Latn": "Vietnamese",
+    "war_Latn": "Waray",
+    "wol_Latn": "Wolof",
+    "xho_Latn": "Xhosa",
+    "ydd_Hebr": "Eastern Yiddish",
+    "yor_Latn": "Yoruba",
+    "yue_Hant": "Cantonese",
+    "zho_Hans": "Chinese (Simplified)",
+    "zho_Hant": "Chinese (Traditional)",
+    "zul_Latn": "Zulu"
+}
 def split_text_lines(text, max_chunk_length=900):
     lines = text.splitlines()
     chunks = []
     chunk = ""
             if chunk.strip():
                 chunks.append(chunk.strip())
             chunk = line + "\n"
+    if chunk.strip(): chunks.append(chunk.strip())
     return chunks
 def batch_translate(texts, src_lang, tgt_lang):
     results = []
+    batch_size = 8
     for i in range(0, len(texts), batch_size):
         batch = texts[i:i+batch_size]
         tokenizer.src_lang = src_lang
         inputs = tokenizer(batch, return_tensors="pt", padding=True, truncation=True, max_length=1024)
+        generated = model.generate(**inputs, forced_bos_token_id=tokenizer.lang_code_to_id[tgt_lang])
         translated = tokenizer.batch_decode(generated, skip_special_tokens=True)
         results.extend(translated)
     return results
 def detect_language(text):
     sample = text[:2000] if len(text) > 2000 else text
     lang = detect(sample)
+    lang_map = {
+        "en": "eng_Latn", "ar": "arb_Arab", "fr": "fra_Latn", "hi": "hin_Deva", "es": "spa_Latn", "de": "deu_Latn",
+        # أضف أكوادك المفضلة هنا (أو استخدم الجدول الكامل تلقائياً حسب الحاجة)
+    }
     return lang_map.get(lang, "eng_Latn")
+@app.get("/supported-languages")
+def supported_languages():
+    return NLLB_LANGS
 @app.post("/translate-text")
 async def translate_text(
     text: str = Form(...),