Upload folder using huggingface_hub

Browse files

Files changed (6) hide show

README.md +8 -0
dial_ir.py +134 -0
msa_medical_corpus.txt +12 -0
requirements.txt +7 -0
test_dial_ir.py +34 -0
test_temp.txt +2 -0

README.md ADDED Viewed

	@@ -0,0 +1,8 @@

+# DIAL-IR
+DIAL-IR est un système de **recherche d’information en arabe dialectal** avec traduction en MSA et gestion des entités médicales.
+## Installation
+```bash
+pip install -r requirements.txt

dial_ir.py ADDED Viewed

	@@ -0,0 +1,134 @@

+# -*- coding: utf-8 -*-
+import re, json, torch, openai, numpy as np
+from transformers import AutoTokenizer, AutoModelForTokenClassification, pipeline, AutoModelForSeq2SeqLM
+from sentence_transformers import SentenceTransformer, util
+from sklearn.metrics import ndcg_score
+# ===========================
+# Paramètres OpenAI
+# ===========================
+import os
+openai.api_key = os.getenv("OPENAI_API_KEY")
+# ===========================
+# Portion 1 : NER + placeholders (ETMAN-BERT)
+# ===========================
+MODEL_NER = "ALTAH/ETMAN-BERT"
+tokenizer_ner = AutoTokenizer.from_pretrained(MODEL_NER)
+model_ner = AutoModelForTokenClassification.from_pretrained(MODEL_NER)
+ner_pipeline = pipeline("ner", model=model_ner, tokenizer=tokenizer_ner, aggregation_strategy="simple")
+icd11_labels = ["O","SYMPTOM","DISEASE","DRUG","BODY_PART","PROCEDURE","TEST",
+                "ANATOMY","CONDITION","FINDING","SIGN","ALLERGY","VACCINE","OTHER"]
+id2label = {i: label for i,label in enumerate(icd11_labels)}
+def ner_and_placeholders(text):
+    ner_results = ner_pipeline(text)
+    placeholders, counter = {}, {}
+    text_with_placeholders = text
+    for ent in sorted(ner_results, key=lambda x: x["start"], reverse=True):
+        label_id = int(ent["entity_group"].split("_")[1])
+        label_name = id2label.get(label_id, "O")
+        if label_name != "O":
+            counter[label_name] = counter.get(label_name, 0) + 1
+            placeholder = f"{label_name}_{counter[label_name]}"
+            placeholders[placeholder] = ent["word"]
+            text_with_placeholders = text_with_placeholders[:ent["start"]] + placeholder + text_with_placeholders[ent["end"]:]
+    return text_with_placeholders, placeholders
+# ===========================
+# Portion 2 : Traduction dialectal → MSA
+# ===========================
+MODEL_TRANSLATE = "ALTAH/ADT-MSA"
+tokenizer_translate = AutoTokenizer.from_pretrained(MODEL_TRANSLATE)
+model_translate = AutoModelForSeq2SeqLM.from_pretrained(MODEL_TRANSLATE)
+def translate_text_keep_placeholders(text_with_placeholders, placeholders):
+    pattern = "|".join(re.escape(ph) for ph in placeholders.keys())
+    placeholder_positions = [(m.start(), m.end(), m.group()) for m in re.finditer(pattern, text_with_placeholders)]
+    text_no_placeholders = re.sub(pattern, "", text_with_placeholders)
+    inputs = tokenizer_translate(text_no_placeholders, return_tensors="pt", truncation=True)
+    translated_ids = model_translate.generate(**inputs, max_length=512)
+    text_translated_no_placeholders = tokenizer_translate.decode(translated_ids[0], skip_special_tokens=True)
+    # Réinsérer les placeholders
+    for start, end, ph in sorted(placeholder_positions, key=lambda x: x[0], reverse=True):
+        text_translated_no_placeholders = text_translated_no_placeholders[:start] + ph + text_translated_no_placeholders[start:]
+    return text_translated_no_placeholders
+# ===========================
+# Portion 3 : Traduction entités avec GPT
+# ===========================
+def translate_entities_with_gpt(placeholders):
+    translated_entities = {}
+    for ph, ent in placeholders.items():
+        prompt = f"Traduisez uniquement cette entité médicale dialectale vers l'arabe standard (MSA) : {ent}"
+        response = openai.ChatCompletion.create(
+            model="gpt-4",
+            messages=[{"role": "user", "content": prompt}],
+            temperature=0
+        )
+        translated_entities[ph] = response.choices[0].message["content"].strip()
+    return translated_entities
+# ===========================
+# Portion 4 : Réinsertion + polish
+# ===========================
+def reinsert_and_polish(text_translated_msa, translated_entities):
+    prompt = f"""
+Réinsérez les entités traduites dans le texte MSA en remplaçant les placeholders.
+Ajustez la syntaxe pour que la phrase soit correcte et naturelle.
+Texte MSA avec placeholders :
+{text_translated_msa}
+Entités traduites :
+{json.dumps(translated_entities, ensure_ascii=False, indent=2)}
+Réponse attendue : texte final MSA uniquement.
+"""
+    response = openai.ChatCompletion.create(
+        model="gpt-4",
+        messages=[{"role":"user","content":prompt}],
+        temperature=0
+    )
+    return response.choices[0].message["content"].strip()
+# ===========================
+# Portion 5 : Normalisation
+# ===========================
+def normalize_query(query_msa: str) -> str:
+    return query_msa.strip()
+# ===========================
+# Classe DIAL-IR
+# ===========================
+class DIALIR:
+    def __init__(self, corpus_file, embeddings_file=None):
+        self.embed_model = SentenceTransformer("sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2")
+        self.corpus = self.load_corpus(corpus_file)
+        if embeddings_file:
+            self.corpus_embeddings = torch.load(embeddings_file)
+        else:
+            self.corpus_embeddings = self.embed_model.encode(self.corpus, convert_to_tensor=True)
+    def load_corpus(self, file_path):
+        with open(file_path, "r", encoding="utf-8") as f:
+            return [line.strip() for line in f if line.strip()]
+    def preprocess_query(self, query):
+        text_ph, placeholders = ner_and_placeholders(query)
+        text_translated = translate_text_keep_placeholders(text_ph, placeholders)
+        translated_entities = translate_entities_with_gpt(placeholders)
+        query_msa = reinsert_and_polish(text_translated, translated_entities)
+        return normalize_query(query_msa)
+    def search(self, query, top_k=5):
+        query_msa = self.preprocess_query(query)
+        query_embedding = self.embed_model.encode(query_msa, convert_to_tensor=True)
+        cos_scores = util.cos_sim(query_embedding, self.corpus_embeddings)[0]
+        top_results = torch.topk(cos_scores, k=top_k)
+        return [(float(score), self.corpus[idx]) for score, idx in zip(top_results.values, top_results.indices)]

msa_medical_corpus.txt ADDED Viewed

	@@ -0,0 +1,12 @@

+المريض يعاني من ارتفاع ضغط الدم، ويوصى بتناول دواء أملوديبين 5 ملغ مرة يومياً ومراقبة ضغط الدم أسبوعياً.
+المريض مصاب بالسكري من النوع الثاني، ينصح بتعديل النظام الغذائي وممارسة الرياضة، مع تناول ميتفورمين 500 ملغ صباحاً ومساءً.
+المريض يعاني من التهاب الحلق، ينصح بتناول مضاد حيوي أموكسيسيلين 500 ملغ ثلاث مرات يومياً لمدة سبعة أيام.
+المريض يشكو من صداع نصفي متكرر، يمكن تناول دواء سوماتريبتان 50 ملغ عند ظهور الأعراض وعدم قيادة السيارة بعد تناوله.
+المريض يعاني من حموضة المعدة، يوصى بتجنب الأطعمة الدهنية والحارة، وتناول أوميبرازول 20 ملغ قبل النوم.
+المريض لديه أعراض نزلة برد، ينصح بالراحة في المنزل، شرب السوائل الدافئة، واستخدام شراب خافض للحرارة عند الحاجة.
+المريض يعاني من التهاب المفاصل، ينصح بممارسة تمارين خفيفة، استخدام كمادات دافئة، وتناول دواء إيبوبروفين 400 ملغ عند الحاجة.
+المريض يشكو من صعوبة في التنفس بسبب الربو، ينصح باستخدام جهاز استنشاق سالبوتامول عند الحاجة ومراجعة الطبيب عند زيادة الأعراض.
+المريض يعاني من أرق متكرر، ينصح بمراعاة روتين نوم ثابت، تقليل الكافيين، ويمكن استخدام أقراص ميلاتونين 3 ملغ قبل النوم.
+المريض يشكو من ألم في المعدة بعد تناول الطعام الدهني، ينصح بتناول مضادات الحموضة مثل رانيتيدين 150 ملغ بعد الوجبات.
+ذهبت الى العمل منذ الصباح الباكر.
+جاء أبي من العمل

requirements.txt ADDED Viewed

	@@ -0,0 +1,7 @@

+torch
+sentence-transformers
+transformers
+scikit-learn
+numpy
+openai==0.28
+huggingface_hub

test_dial_ir.py ADDED Viewed

	@@ -0,0 +1,34 @@

+# -*- coding: utf-8 -*-
+from dial_ir import DIALIR, evaluate_ir
+# ===========================
+# Test du modèle DIAL-IR
+# ===========================
+if __name__ == "__main__":
+    # Chemin vers ton corpus MSA médical
+    corpus_file = "/content/drive/MyDrive/msa_medical_corpus.txt"
+    dial_ir = DIALIR(corpus_file)
+    # Sauvegarder les embeddings pour un usage futur
+    dial_ir.save_embeddings("corpus_embeddings.pt")
+    # Requête unique
+    query = "ادوية ضغط الدم"
+    results = dial_ir.search(query, top_k=5)
+    print(f"\n=== Résultats pertinents pour : '{query}' ===")
+    for score, doc in results:
+        if score > 0.5:
+            print(f"{score:.4f} → {doc}")
+    # Créer un fichier de test temporaire pour l'évaluation IR
+    test_file = "test_temp.txt"
+    with open(test_file, "w", encoding="utf-8") as f:
+        # on suppose que le 1er document du corpus est pertinent pour cette requête
+        f.write(f"{query}\t{dial_ir.corpus[0]}\n")
+    # Évaluation IR
+    metrics = evaluate_ir(dial_ir, test_file, top_k=5)
+    print("\n=== Métriques DIAL-IR ===")
+    for name, value in metrics.items():
+        print(f"{name}: {value:.4f}")

test_temp.txt ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ ادوية ضغط الدم المريض يعاني من ارتفاع ضغط الدم، ويوصى بتناول دواء أملوديبين 5 ملغ مرة يومياً ومراقبة ضغط الدم أسبوعياً.\|ارتفاع ضغط الدم قد يؤدي إلى مشاكل في القلب
2	+ أعراض السكري السكري يتم علاجه بالأنسولين أو الحمية\|ارتفاع نسبة السكر في الدم قد تسبب العطش المتكرر