Spaces:

aab20abdullah
/

A

Runtime error

App Files Files Community

aab20abdullah commited on Mar 5

Commit

841d51c

verified ·

1 Parent(s): 2b37bc6

Update app.py

Browse files

Files changed (1) hide show

app.py +226 -144

app.py CHANGED Viewed

@@ -1,157 +1,239 @@
 import gradio as gr
-from huggingface_hub import hf_hub_download
-from llama_cpp import Llama
-import pandas as pd
 import os
-# [1] إعدادات البيئة والمستودعات
-HF_TOKEN = os.environ.get("HF_TOKEN")
-MODEL_REPO = "aab20abdullah/Akin-Yurt-Llama3-8B"
-MODEL_FILENAME = "AkinYurt-Llama3-Q4_K_M.gguf"
-DATASET_REPO = "aab20abdullah/turkmen-martyrs-dataset"
-# [2] إنشاء مجلد data وتنزيل ملفات الشهداء (Parquet)
-os.makedirs("data", exist_ok=True)
-parquet_files = [
-    "train-00000-of-00001.parquet",
-    "validation-00000-of-00001.parquet",
-    "test-00000-of-00001.parquet"
-]
-print("📥 Şehitler Veritabanı (Parquet) İndiriliyor...")
-df_list = []
-for file in parquet_files:
-    try:
-        # بعض المستودعات تضع الملفات داخل مجلد data/ في السيرفر، إذا فشل التنزيل سنحاول مع المسار
-        file_path = hf_hub_download(
-            repo_id=DATASET_REPO,
-            filename=f"data/{file}" if "data/" not in file else file, # محاولة التكيف مع هيكلة HF
-            repo_type="dataset",
-            local_dir="data",  # حفظها في المجلد المحلي data/
-            token=HF_TOKEN
-        )
-        df_list.append(pd.read_parquet(file_path))
-        print(f"✅ İndirildi: {file}")
-    except Exception as e:
-        print(f"⚠️ Dosya bulunamadı veya hata ({file}): {e}")
-# دمج جميع البيانات في قاعدة واحدة
-if df_list:
-    martyrs_df = pd.concat(df_list, ignore_index=True)
-    print(f"✅ Toplam {len(martyrs_df)} şehit kaydı sisteme yüklendi.")
-else:
-    martyrs_df = pd.DataFrame()
-    print("⚠️ Veritabanı boş. Lütfen HF_TOKEN ve dosya adlarını kontrol edin.")
-def search_martyrs(query):
-    if martyrs_df.empty: return ""
-    query_words = query.lower().split()
-    results = []
-    for _, row in martyrs_df.iterrows():
-        row_text = " | ".join([str(val) for val in row.values])
-        if any(word in row_text.lower() for word in query_words if len(word) > 3):
-            results.append(row_text)
-            if len(results) >= 3: break
-    if results:
-        return "\n\n[RESMİ VERİTABANI BİLGİSİ - BU BİLGİYİ KULLANARAK CEVAP VER]:\n" + "\n".join(results)
-    return ""
-# [3] تنزيل وتهيئة محرك Llama C++ (GGUF لـ 4GB RAM)
-print("📥 GGUF Motoru İndiriliyor / Yükleniyor...")
 try:
-    model_path = hf_hub_download(
-        repo_id=MODEL_REPO,
-        filename=MODEL_FILENAME,
-        token=HF_TOKEN
-    )
-    print(f"✅ Model başarıyla yüklendi: {model_path}")
-except Exception as e:
-    print(f"⚠️ Model İndirme Hatası: {e}")
-    model_path = ""
-if model_path:
-    print("🐺 Akın Yurt C++ Motoru Başlatılıyor...")
-    llm = Llama(
-        model_path=model_path,
-        n_ctx=1024,          # استهلاك ذاكرة منخفض
-        n_threads=2,         # ثبات المعالج
-        n_gpu_layers=0,      # الاعتماد على CPU
-        verbose=False
-    )
-else:
-    llm = None
-# [4] ميثاق القسم والهوية
-UKÜCÜ_YEMINI = """ALLAHA, KURANA, YEMİN OLSUN.
-ŞEHİTLERİM, GAZİLERİM, EMİN OLSUN.
-ÜLKÜCÜ TÜRK GENÇLİĞİ OLARAK:
-KOMÜNİZME, FAŞİZME, KAPİTALİZME, VE HER TÜRLÜ EMPERYALİZME KARŞI MÜCADELEMİZ DEVAM EDECEKTİR.
-KAVGAMIZ SON NEFER, SON NEFES, SON DAMLA KANA KADARDIR.
-KAVGAMIZ MİLLİYETÇİ TÜRKİYEYE, TURANA KADARDIR.
-BAŞBUĞUMUZ EMİN OLSUN.
-YILANLARDAN OLMAYACAĞIZ! SATANLARDAN OLMAYACAĞIZ! KAÇANLARDAN OLMAYACAĞIZ!
-YIKILMAYACAĞIZ. BAŞARACAĞIZ, BAŞARACAĞIZ, BAŞARACAĞIZ.
-TANRI TÜRKÜ KORUSUN VE YÜCELTSİN. (AMİN)"""
-BASE_SYSTEM_PROMPT = """Senin adın Akın Yurt. Kerkük'te görev yapan, Türkmeneli davasına adanmış, zeki bir asistansın.
-Geliştiricilerin: Abdullah Ali Bahaaldeen, Ali El-Hürmüzlü ve Usame Alaaddin. TÖGB birimi tarafından geliştirildin."""
-# [5] نظام المعالجة والرد
-def respond(message, history):
-    if not llm:
-        yield "⚠️ HATA: Model yüklenemedi. Lütfen sistemi kontrol edin."
-        return
-    yemin_triggers = ["yemin", "yemin et", "andı oku", "yemini oku"]
-    if any(trigger in message.lower() for trigger in yemin_triggers):
-        yield UKÜCÜ_YEMINI
-        return
-    # دمج معلومات الشهداء
-    db_context = search_martyrs(message)
-    dynamic_system_prompt = BASE_SYSTEM_PROMPT + db_context
-    messages = [{"role": "system", "content": dynamic_system_prompt}]
-    for user_msg, assistant_msg in history:
-        if user_msg: messages.append({"role": "user", "content": user_msg})
-        if assistant_msg: messages.append({"role": "assistant", "content": assistant_msg})
-    messages.append({"role": "user", "content": message})
-    response = ""
     try:
-        stream = llm.create_chat_completion(
-            messages=messages,
-            max_tokens=512,
-            temperature=0.7,
-            top_p=0.95,
-            stream=True
         )
-        for chunk in stream:
-            delta = chunk['choices'][0]['delta']
-            if 'content' in delta:
-                token = delta['content']
-                response += token
-                yield response
-    except Exception as e:
-        yield f"⚠️ Motor Hatası: {str(e)}"
-# [6] الواجهة الرسومية
-custom_theme = gr.themes.Soft(primary_hue="blue", secondary_hue="cyan").set(
-    button_primary_background_fill="#007bff",
-    button_primary_text_color="white",
-)
-with gr.Blocks(theme=custom_theme, title="Akın Yurt - TÖGB") as demo:
-    gr.Markdown("# 🐺 Akın Yurt")
-    gr.Markdown("### Türkmeneli Dijital Asistanı (Veritabanı Entegreli Çevrimdışı Motor)")
-    gr.Markdown("---")
-    gr.ChatInterface(
-        respond,
-        examples=["Seni kim yaptı?", "Andı oku", "Bize Kerkük şehitlerinden bahset"],
-        cache_examples=False,
     )
 if __name__ == "__main__":
     demo.launch()

 import gradio as gr
+import torch
+from transformers import AutoTokenizer, AutoModelForCausalLM
+from datasets import load_dataset
+from sentence_transformers import SentenceTransformer
+import faiss
+import numpy as np
 import os
+# تحميل النموذج والـ tokenizer
+MODEL_NAME = "aab20abdullah/akin-yurt-finely"
+DATASET_NAME = "aab20abdullah/turkmen-martyrs-dataset"
+print("Loading model and tokenizer...")
+tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, trust_remote_code=True)
+model = AutoModelForCausalLM.from_pretrained(
+    MODEL_NAME,
+    torch_dtype=torch.float16 if torch.cuda.is_available() else torch.float32,
+    device_map="auto" if torch.cuda.is_available() else None,
+    trust_remote_code=True
+)
+# تحميل نموذج الـ embeddings للـ RAG
+print("Loading embedding model...")
+embedding_model = SentenceTransformer('sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2')
+# تحميل الـ dataset
+print("Loading dataset...")
 try:
+    dataset = load_dataset(DATASET_NAME, split='train')
+except:
+    # في حالة عدم وجود split محدد
+    dataset = load_dataset(DATASET_NAME)
+    if isinstance(dataset, dict):
+        dataset = dataset[list(dataset.keys())[0]]
+# إعداد الـ RAG system
+print("Building RAG index...")
+# استخراج النصوص من الـ dataset
+def extract_texts_from_dataset(dataset):
+    texts = []
+    for item in dataset:
+        # افترض أن الـ dataset يحتوي على حقول نصية
+        # عدّل هذا حسب البنية الفعلية للـ dataset
+        text_parts = []
+        for key, value in item.items():
+            if isinstance(value, str) and len(value) > 10:
+                text_parts.append(f"{key}: {value}")
+        if text_parts:
+            texts.append(" | ".join(text_parts))
+    return texts
+texts = extract_texts_from_dataset(dataset)
+print(f"Extracted {len(texts)} text chunks from dataset")
+# إنشاء embeddings
+embeddings = embedding_model.encode(texts, show_progress_bar=True)
+embeddings = np.array(embeddings).astype('float32')
+# إنشاء FAISS index
+dimension = embeddings.shape[1]
+index = faiss.IndexFlatL2(dimension)
+index.add(embeddings)
+print("RAG system ready!")
+def retrieve_relevant_context(query, k=3):
+    """استرجاع السياق الأكثر صلة بالاستعلام"""
+    query_embedding = embedding_model.encode([query])
+    query_embedding = np.array(query_embedding).astype('float32')
+    distances, indices = index.search(query_embedding, k)
+    relevant_texts = [texts[idx] for idx in indices[0]]
+    return "\n\n".join(relevant_texts)
+def generate_response(message, history, temperature=0.7, max_tokens=512, use_rag=True):
+    """توليد الرد باستخدام النموذج مع أو بدون RAG"""
+    # بناء المحادثة
+    conversation = []
+    if use_rag:
+        # استرجاع السياق ذي الصلة
+        context = retrieve_relevant_context(message)
+        # إضافة السياق إلى الـ prompt
+        system_message = f"""أنت مساعد ذكي. استخدم المعلومات التالية للإجابة على السؤال:
+المعلومات المرجعية:
+{context}
+أجب بناءً على هذه المعلومات. إذا لم تكن المعلومات كافية، قل ذلك."""
+        conversation.append({"role": "system", "content": system_message})
+    # إضافة تاريخ المحادثة
+    for user_msg, assistant_msg in history:
+        conversation.append({"role": "user", "content": user_msg})
+        if assistant_msg:
+            conversation.append({"role": "assistant", "content": assistant_msg})
+    # إضافة الرسالة الحالية
+    conversation.append({"role": "user", "content": message})
+    # تحويل إلى prompt
     try:
+        prompt = tokenizer.apply_chat_template(
+            conversation,
+            tokenize=False,
+            add_generation_prompt=True
         )
+    except:
+        # في حالة عدم وجود chat template
+        prompt = "\n".join([f"{msg['role']}: {msg['content']}" for msg in conversation])
+        prompt += "\nassistant: "
+    # Tokenize
+    inputs = tokenizer(prompt, return_tensors="pt")
+    if torch.cuda.is_available():
+        inputs = {k: v.to(model.device) for k, v in inputs.items()}
+    # Generate
+    with torch.no_grad():
+        outputs = model.generate(
+            **inputs,
+            max_new_tokens=max_tokens,
+            temperature=temperature,
+            do_sample=temperature > 0,
+            top_p=0.9,
+            pad_token_id=tokenizer.eos_token_id
+        )
+    # Decode
+    response = tokenizer.decode(outputs[0][inputs['input_ids'].shape[1]:], skip_special_tokens=True)
+    return response
+# إنشاء Gradio interface
+with gr.Blocks(title="Akin Yurt with RAG", theme=gr.themes.Soft()) as demo:
+    gr.Markdown("""
+    # 🤖 Akin Yurt Model with RAG
+    هذا النموذج يستخدم **Retrieval-Augmented Generation (RAG)** مع بيانات شهداء تركمان.
+    يمكنك تفعيل أو تعطيل RAG لمقارنة النتائج.
+    """)
+    with gr.Row():
+        with gr.Column(scale=2):
+            chatbot = gr.Chatbot(
+                height=500,
+                label="المحادثة",
+                show_label=True,
+                avatar_images=(None, "🤖")
+            )
+            with gr.Row():
+                msg = gr.Textbox(
+                    label="رسالتك",
+                    placeholder="اكتب سؤالك هنا...",
+                    show_label=False,
+                    scale=4
+                )
+                submit = gr.Button("إرسال", variant="primary", scale=1)
+            with gr.Row():
+                clear = gr.Button("مسح المحادثة", scale=1)
+        with gr.Column(scale=1):
+            gr.Markdown("### ⚙️ الإعدادات")
+            use_rag = gr.Checkbox(
+                label="استخدام RAG",
+                value=True,
+                info="تفعيل استرجاع المعلومات من قاعدة البيانات"
+            )
+            temperature = gr.Slider(
+                minimum=0.1,
+                maximum=2.0,
+                value=0.7,
+                step=0.1,
+                label="Temperature",
+                info="يتحكم في عشوائية الإجابات"
+            )
+            max_tokens = gr.Slider(
+                minimum=128,
+                maximum=2048,
+                value=512,
+                step=128,
+                label="Max Tokens",
+                info="الحد الأقصى لطول الإجابة"
+            )
+            gr.Markdown("""
+            ### 📊 معلومات
+            - **النموذج**: aab20abdullah/akin-yurt-finely
+            - **البيانات**: aab20abdullah/turkmen-martyrs-dataset
+            - **عدد السجلات**: """ + f"{len(texts)}" + """
+            ### 💡 نصائح
+            - جرّب تشغيل وإيقاف RAG لرؤية الفرق
+            - استخدم temperature منخفض للإجابات الدقيقة
+            - استخدم temperature عالي للإجابات الإبداعية
+            """)
+    def user_message(message, history):
+        return "", history + [[message, None]]
+    def bot_response(history, temperature, max_tokens, use_rag):
+        message = history[-1][0]
+        response = generate_response(
+            message,
+            history[:-1],
+            temperature=temperature,
+            max_tokens=max_tokens,
+            use_rag=use_rag
+        )
+        history[-1][1] = response
+        return history
+    # Event handlers
+    msg.submit(user_message, [msg, chatbot], [msg, chatbot], queue=False).then(
+        bot_response, [chatbot, temperature, max_tokens, use_rag], chatbot
+    )
+    submit.click(user_message, [msg, chatbot], [msg, chatbot], queue=False).then(
+        bot_response, [chatbot, temperature, max_tokens, use_rag], chatbot
     )
+    clear.click(lambda: None, None, chatbot, queue=False)
 if __name__ == "__main__":
     demo.launch()