Spaces:

DarkMo0o
/

Translation

Running

App Files Files Community

DarkMo0o commited on Nov 17, 2025

Commit

a36c3e2

verified ·

1 Parent(s): 69b53c5

Update app.py

Browse files

Files changed (1) hide show

app.py +56 -258

app.py CHANGED Viewed

@@ -1,265 +1,63 @@
-from fastapi import FastAPI, File, UploadFile, Form
-from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
-from langdetect import detect
-import re
-app = FastAPI()
-MODEL_NAME = "facebook/nllb-200-distilled-600M"  # الأخف ولمشاكل الذاكرة
-model = AutoModelForSeq2SeqLM.from_pretrained(MODEL_NAME)
-tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
-# قائمة جميع اللغات المدعومة، الكود: الاسم
-NLLB_LANGS = {
-    "afr_Latn": "Afrikaans",
-    "amh_Ethi": "Amharic",
-    "arb_Arab": "Arabic",
-    "ary_Arab": "Moroccan Arabic",
-    "arz_Arab": "Egyptian Arabic",
-    "asm_Beng": "Assamese",
-    "ast_Latn": "Asturian",
-    "awa_Deva": "Awadhi",
-    "ayr_Latn": "Aymara",
-    "azb_Arab": "South Azerbaijani",
-    "azj_Latn": "North Azerbaijani",
-    "bak_Cyrl": "Bashkir",
-    "bam_Latn": "Bambara",
-    "ban_Latn": "Balinese",
-    "bel_Cyrl": "Belarusian",
-    "bem_Latn": "Bemba",
-    "ben_Beng": "Bengali",
-    "bho_Deva": "Bhojpuri",
-    "bjn_Arab": "Banjar (Arabic)",
-    "bjn_Latn": "Banjar (Latin)",
-    "bod_Tibt": "Standard Tibetan",
-    "bos_Latn": "Bosnian",
-    "bug_Latn": "Buginese",
-    "bul_Cyrl": "Bulgarian",
-    "cat_Latn": "Catalan",
-    "ceb_Latn": "Cebuano",
-    "ces_Latn": "Czech",
-    "cjk_Latn": "Chokwe",
-    "ckb_Arab": "Sorani Kurdish",
-    "crh_Latn": "Crimean Turkish",
-    "csb_Latn": "Kashubian",
-    "cym_Latn": "Welsh",
-    "dan_Latn": "Danish",
-    "deu_Latn": "German",
-    "dik_Latn": "Dinka",
-    "dyu_Latn": "Dyula",
-    "dzo_Tibt": "Dzongkha",
-    "ell_Grek": "Greek",
-    "eng_Latn": "English",
-    "epo_Latn": "Esperanto",
-    "est_Latn": "Estonian",
-    "eus_Latn": "Basque",
-    "ewe_Latn": "Ewe",
-    "fao_Latn": "Faroese",
-    "fij_Latn": "Fijian",
-    "fin_Latn": "Finnish",
-    "fon_Latn": "Fon",
-    "fra_Latn": "French",
-    "fur_Latn": "Friulian",
-    "fuv_Latn": "Nigerian Fulfulde",
-    "gla_Latn": "Scottish Gaelic",
-    "gle_Latn": "Irish",
-    "glg_Latn": "Galician",
-    "grn_Latn": "Guarani",
-    "guj_Gujr": "Gujarati",
-    "hat_Latn": "Haitian Creole",
-    "hau_Latn": "Hausa",
-    "heb_Hebr": "Hebrew",
-    "hin_Deva": "Hindi",
-    "hne_Deva": "Chhattisgarhi",
-    "hrv_Latn": "Croatian",
-    "hun_Latn": "Hungarian",
-    "hye_Armn": "Armenian",
-    "ibo_Latn": "Igbo",
-    "ilo_Latn": "Ilocano",
-    "ind_Latn": "Indonesian",
-    "isl_Latn": "Icelandic",
-    "ita_Latn": "Italian",
-    "jav_Latn": "Javanese",
-    "jpn_Jpan": "Japanese",
-    "kab_Latn": "Kabyle",
-    "kac_Latn": "Jingpho",
-    "kam_Latn": "Kamba",
-    "kan_Knda": "Kannada",
-    "kas_Arab": "Kashmiri (Arabic)",
-    "kas_Deva": "Kashmiri (Devanagari)",
-    "kat_Geor": "Georgian",
-    "kaz_Cyrl": "Kazakh",
-    "kbp_Latn": "Kabiyè",
-    "kea_Latn": "Kabuverdianu",
-    "khm_Khmr": "Khmer",
-    "kik_Latn": "Kikuyu",
-    "kin_Latn": "Kinyarwanda",
-    "kir_Cyrl": "Kyrgyz",
-    "kmb_Latn": "Kimbundu",
-    "kmr_Latn": "Kurmanji Kurdish",
-    "kon_Latn": "Kikongo",
-    "kor_Hang": "Korean",
-    "lao_Laoo": "Lao",
-    "lij_Latn": "Ligurian",
-    "lim_Latn": "Limburgish",
-    "lin_Latn": "Lingala",
-    "lit_Latn": "Lithuanian",
-    "lmo_Latn": "Lombard",
-    "ltg_Latn": "Latgalian",
-    "ltz_Latn": "Luxembourgish",
-    "lua_Latn": "Luba-Kasai",
-    "lug_Latn": "Ganda",
-    "luo_Latn": "Luo",
-    "lus_Latn": "Mizo",
-    "mag_Deva": "Magahi",
-    "mai_Deva": "Maithili",
-    "mal_Mlym": "Malayalam",
-    "mar_Deva": "Marathi",
-    "min_Latn": "Minangkabau",
-    "mkd_Cyrl": "Macedonian",
-    "plt_Latn": "Plateau Malagasy",
-    "mlt_Latn": "Maltese",
-    "mni_Beng": "Manipuri",
-    "khk_Cyrl": "Halh Mongolian",
-    "mos_Latn": "Mossi",
-    "mri_Latn": "Maori",
-    "msa_Latn": "Malay",
-    "mya_Mymr": "Burmese",
-    "nld_Latn": "Dutch",
-    "nno_Latn": "Norwegian Nynorsk",
-    "nob_Latn": "Norwegian Bokmål",
-    "npi_Deva": "Nepali",
-    "nso_Latn": "Northern Sotho",
-    "nya_Latn": "Nyanja",
-    "oci_Latn": "Occitan",
-    "ory_Orya": "Odia",
-    "pag_Latn": "Pangasinan",
-    "pan_Guru": "Punjabi",
-    "pap_Latn": "Papiamento",
-    "pol_Latn": "Polish",
-    "por_Latn": "Portuguese",
-    "ron_Latn": "Romanian",
-    "run_Latn": "Rundi",
-    "rus_Cyrl": "Russian",
-    "sag_Latn": "Sango",
-    "san_Deva": "Sanskrit",
-    "sat_Beng": "Santali",
-    "scn_Latn": "Sicilian",
-    "shn_Mymr": "Shan",
-    "sin_Sinh": "Sinhala",
-    "slk_Latn": "Slovak",
-    "slv_Latn": "Slovenian",
-    "sna_Latn": "Shona",
-    "snd_Arab": "Sindhi",
-    "som_Latn": "Somali",
-    "spa_Latn": "Spanish",
-    "als_Latn": "Tosk Albanian",
-    "sqi_Latn": "Albanian",
-    "srp_Cyrl": "Serbian",
-    "ssw_Latn": "Swazi",
-    "sun_Latn": "Sundanese",
-    "swe_Latn": "Swedish",
-    "swh_Latn": "Swahili",
-    "szl_Latn": "Silesian",
-    "tam_Taml": "Tamil",
-    "tat_Cyrl": "Tatar",
-    "tel_Telu": "Telugu",
-    "tgk_Cyrl": "Tajik",
-    "tgl_Latn": "Tagalog",
-    "tha_Thai": "Thai",
-    "tir_Ethi": "Tigrinya",
-    "taq_Latn": "Tamasheq (Latin)",
-    "taq_Tfng": "Tamasheq (Tifinagh)",
-    "tpi_Latn": "Tok Pisin",
-    "tsn_Latn": "Tswana",
-    "tso_Latn": "Tsonga",
-    "tur_Latn": "Turkish",
-    "twi_Latn": "Twi",
-    "tzm_Tfng": "Central Atlas Tamazight",
-    "uig_Arab": "Uyghur",
-    "ukr_Cyrl": "Ukrainian",
-    "umb_Latn": "Umbundu",
-    "urd_Arab": "Urdu",
-    "uzn_Latn": "Northern Uzbek",
-    "vec_Latn": "Venetian",
-    "vie_Latn": "Vietnamese",
-    "war_Latn": "Waray",
-    "wol_Latn": "Wolof",
-    "xho_Latn": "Xhosa",
-    "ydd_Hebr": "Eastern Yiddish",
-    "yor_Latn": "Yoruba",
-    "yue_Hant": "Cantonese",
-    "zho_Hans": "Chinese (Simplified)",
-    "zho_Hant": "Chinese (Traditional)",
-    "zul_Latn": "Zulu"
-}
-def split_text_lines(text, max_chunk_length=900):
-    lines = text.splitlines()
-    chunks = []
-    chunk = ""
-    for line in lines:
-        if len(chunk) + len(line) < max_chunk_length:
-            chunk += line + "\n"
-        else:
-            if chunk.strip():
-                chunks.append(chunk.strip())
-            chunk = line + "\n"
-    if chunk.strip(): chunks.append(chunk.strip())
-    return chunks
-def batch_translate(texts, src_lang, tgt_lang):
-    results = []
-    batch_size = 8
-    for i in range(0, len(texts), batch_size):
-        batch = texts[i:i+batch_size]
-        tokenizer.src_lang = src_lang
-        inputs = tokenizer(batch, return_tensors="pt", padding=True, truncation=True, max_length=1024)
-        generated = model.generate(**inputs, forced_bos_token_id=tokenizer.lang_code_to_id[tgt_lang])
-        translated = tokenizer.batch_decode(generated, skip_special_tokens=True)
-        results.extend(translated)
-    return results
 def detect_language(text):
-    sample = text[:2000] if len(text) > 2000 else text
-    lang = detect(sample)
-    lang_map = {
-        "en": "eng_Latn", "ar": "arb_Arab", "fr": "fra_Latn", "hi": "hin_Deva", "es": "spa_Latn", "de": "deu_Latn",
-        # أضف أكوادك المفضلة هنا (أو استخدم الجدول الكامل تلقائياً حسب الحاجة)
-    }
-    return lang_map.get(lang, "eng_Latn")
-@app.get("/supported-languages")
-def supported_languages():
-    return NLLB_LANGS
-@app.post("/translate-text")
-async def translate_text(
-    text: str = Form(...),
-    target_lang: str = Form(...)
-):
-    source_lang = detect_language(text)
-    texts = re.split(r'(?<=[.!?\n])\s+', text.strip())
-    chunks = []
-    cur_chunk = ""
-    for sentence in texts:
-        if len(cur_chunk) + len(sentence) < 900:
-            cur_chunk += sentence + " "
-        else:
-            chunks.append(cur_chunk.strip())
-            cur_chunk = sentence + " "
-    if cur_chunk.strip(): chunks.append(cur_chunk.strip())
-    translated = batch_translate(chunks, source_lang, target_lang)
-    return {"translated_text": "\n".join(translated)}
-@app.post("/translate-file")
-async def translate_file(
-    file: UploadFile = File(...),
-    target_lang: str = Form(...)
-):
-    contents = await file.read()
-    original_text = contents.decode()
-    source_lang = detect_language(original_text)
-    lines = split_text_lines(original_text)
-    translated_lines = batch_translate(lines, source_lang, target_lang)
-    return {"translated_text": "\n".join(translated_lines)}

+# قم بتشغيل هذا الكود على جهازك أو سيرفرك (Python 3.8+ مطلوب)
+# install: pip install transformers sentencepiece flask
+from transformers import pipeline
+from flask import Flask, request, jsonify
+app = Flask(__name__)
+# النموذج متعدد اللغات – الأفضل: facebook/m2m100_418M
+translator = pipeline("translation", model="facebook/m2m100_418M")
+# دالة فحص اللغة المدخلة (افضل نموذج: papluca/xlm-roberta-base-language-detection)
+from transformers import AutoTokenizer, AutoModelForSequenceClassification
+import torch
+lang_tokenizer = AutoTokenizer.from_pretrained("papluca/xlm-roberta-base-language-detection")
+lang_model = AutoModelForSequenceClassification.from_pretrained("papluca/xlm-roberta-base-language-detection")
+lang_labels = [
+    "af", "am", "ar", "as", "az", "be", "bg", "bn", "bo", "bs", "ca", "ceb", "co", "cs", "cy", "da", "de", "dv",
+    "el", "en", "es", "et", "eu", "fa", "fi", "fo", "fr", "fy", "ga", "gd", "gl", "gn", "gu", "ha", "haw", "he",
+    "hi", "hr", "ht", "hu", "hy", "id", "is", "it", "ja", "jv", "ka", "kk", "km", "kn", "ko", "ku", "ky", "la",
+    "lb", "lo", "lt", "lv", "mg", "mi", "mk", "ml", "mn", "mr", "ms", "mt", "my", "ne", "nl", "no", "ny", "oc",
+    "om", "or", "pa", "pl", "ps", "pt", "qu", "rm", "ro", "ru", "rw", "sd", "se", "sg", "sh", "si", "sk", "sl",
+    "sm", "sn", "so", "sq", "sr", "ss", "st", "su", "sv", "sw", "ta", "te", "tg", "th", "ti", "tk", "tl", "tn",
+    "tr", "ts", "tt", "tw", "ug", "uk", "ur", "uz", "vi", "vo", "wa", "wo", "xh", "yi", "yo", "zh"
+]
 def detect_language(text):
+    inputs = lang_tokenizer(text, return_tensors="pt", truncation=True)
+    with torch.no_grad():
+        logits = lang_model(**inputs).logits
+    predicted = torch.argmax(logits, dim=1)
+    lang_code = lang_labels[predicted.item()]
+    return lang_code
+@app.route('/translate', methods=['POST'])
+def translate():
+    data = request.json or {}
+    text = data.get('text', '')
+    detected = detect_language(text)
+    # إذا اللغة إنجليزية لا تترجم
+    if detected == "en":
+        return jsonify({
+            "success": True,
+            "translatedText": text,
+            "originalLanguage": "en"
+        })
+    translated = translator(text, src_lang=detected, tgt_lang="en")[0]["translation_text"]
+    return jsonify({
+        "success": True,
+        "translatedText": translated,
+        "originalLanguage": detected
+    })
+@app.route('/detect', methods=['POST'])
+def langdetect():
+    data = request.json or {}
+    text = data.get('text', '')
+    detected = detect_language(text)
+    return jsonify({"language": detected})
+if __name__ == "__main__":
+    app.run(host="0.0.0.0", port=5005)