Spaces:

SsebaA
/

x

Sleeping

App Files Files Community

SsebaA commited on Mar 27

Commit

345077a

verified ·

1 Parent(s): 110d86d

Update vips_classifier.py

Browse files

Files changed (1) hide show

vips_classifier.py +211 -415

vips_classifier.py CHANGED Viewed

@@ -1,415 +1,211 @@
-# 🎉 **الميزات الجديدة المضافة - دليل شامل**
-## ✅ **ما تم إضافته:**
-### 1. **🔬 تاب المقارنة المباشرة** (Tab 3: Jämförelse)
-### 2. **📊 استبيان SUS** (Tab 5: SUS Utvärdering)
-### 3. **🧠 استبيان NASA-TLX** (Tab 6: NASA-TLX Utvärdering)
----
-## 🔬 **المقارنة الثلاثية - كيف تعمل؟**
-### **الميزة:**
-- يشغل **3 تقنيات** في نفس الوقت
-- يعرض النتائج **جنباً إلى جنب** في جدول مقارنة
-- مثالي للبحث الأكاديمي
-### **الاستخدام:**
-#### **الطريقة 1: مع الصوت**
-1. انتقل إلى تاب "🔬 Jämförelse"
-2. اضغط على ميكروفون
-3. سجل الصوت (max 30 ثانية)
-4. اضغط "🔬 Jämför alla tekniker"
-5. انتظر... النظام سيشغل:
-   - ✅ Whisper (مرة واحدة فقط)
-   - ✅ Zero-shot (Mistral)
-   - ✅ Few-shot (Mistral)
-   - ✅ Chain-of-Thought (Mistral)
-#### **الطريقة 2: مع النص**
-1. انتقل إلى تاب "🔬 Jämförelse"
-2. اكتب أو الصق النص في "Patienttext"
-3. اضغط "🔬 Jämför alla tekniker (text)"
-4. النتائج تظهر فوراً!
-### **مثال على الإخراج:**
-```
-🔬 JÄMFÖRELSE AV PROMPT-TEKNIKER
-📝 Transkription
-Jag har ont i huvudet sedan två dagar och känner mig trött.
-⏱️ Prestanda
-┌──────────────────────┬──────────┬────────────┐
-│ Teknik               │ LLM Tid  │ Total Tid  │
-├──────────────────────┼──────────┼────────────┤
-│ 🎯 Zero-shot        │ 1.2s     │ 8.2s       │
-│ 📚 Few-shot         │ 1.4s     │ 8.4s       │
-│ 🧠 Chain-of-Thought │ 2.1s     │ 9.1s       │
-└──────────────────────┴──────────┴────────────┘
-🏥 VIPS-Klassificering
-┌────────────────┬──────────────────────┬──────────────────────┬──────────────────────┐
-│ Kategori       │ 🎯 Zero-shot        │ 📚 Few-shot         │ 🧠 Chain-of-Thought │
-├────────────────┼──────────────────────┼──────────────────────┼──────────────────────┤
-│ V (Välbefin..) │ Huvudvärk, trötthet │ Pat. rapporterar... │ Pat. har huvudvärk..│
-│ I (Integritet) │ Ingen info          │ Ingen relevant inf..│ Ingen relevant info │
-│ P (Prevention) │ Ingen info          │ Ingen info          │ Ingen info          │
-│ S (Säkerhet)   │ Ingen info          │ Ingen info          │ Ingen info          │
-└────────────────┴──────────────────────┴──────────────────────┴──────────────────────┘
-```
-### **ملاحظات مهمة:**
-- ⏱️ **الوقت**: Chain-of-Thought الأبطأ (عادي!)
-- 🎯 **الدقة**: Zero-shot قد يكون أقل تفصيلاً
-- 📚 **التوازن**: Few-shot عادة الأفضل
-- 🧠 **الجودة**: Chain-of-Thought الأكثر دقة
----
-## 📊 **استبيان SUS (System Usability Scale)**
-### **ما هو SUS؟**
-- استبيان قياسي عالمي لقياس **قابلية الاستخدام**
-- 10 أسئلة، مقياس 1-5
-- النتيجة من 0-100
-### **كيف تستخدمه؟**
-1. انتقل إلى تاب "📊 SUS Utvärdering"
-2. اقرأ كل سؤال بعناية
-3. حرك المنزلق من 1 (لا أوافق) إلى 5 (أوافق)
-4. اضغط "📊 Beräkna SUS-poäng"
-5. شاهد النتيجة!
-### **الأسئلة العشرة:**
-1. **Jag skulle vilja använda detta system ofta**
-   - هل تريد استخدام النظام كثيراً؟
-2. **Jag tyckte att systemet var onödigt komplext**
-   - هل النظام معقد بدون داعي؟ (سؤال سلبي!)
-3. **Jag tyckte att systemet var lätt att använda**
-   - هل النظام سهل الاستخدام؟
-4. **Jag skulle behöva teknisk support...**
-   - هل تحتاج دعم فني؟ (سؤال سلبي!)
-5. **Funktionerna var väl integrerade**
-   - هل المزايا متكاملة بشكل جيد؟
-6. **För mycket inkonsekvens**
-   - هل هناك تناقضات كثيرة؟ (سؤال سلبي!)
-7. **De flesta skulle lära sig snabbt**
-   - هل معظم الناس يتعلمون بسرعة؟
-8. **Mycket krångligt**
-   - هل النظام معقد جداً؟ (سؤال سلبي!)
-9. **Mycket säker**
-   - هل تشعر بالثقة عند الاستخدام؟
-10. **Behövde lära mig mycket**
-    - هل احتجت تعلم الكثير قبل البدء؟ (سؤال سلبي!)
-### **كيف يُحسب؟**
-**الأسئلة الإيجابية (1, 3, 5, 7, 9):**
-- نقاط = الإجابة - 1
-- مثال: إجابة 5 → نقاط 4
-- مثال: إجابة 1 → نقاط 0
-**الأسئلة السلبية (2, 4, 6, 8, 10):**
-- نقاط = 5 - الإجابة
-- مثال: إجابة 1 → نقاط 4
-- مثال: إجابة 5 → نقاط 0
-**المجموع:**
-```
-SUS Score = (مجموع النقاط) × 2.5
-```
-### **مثال حساب:**
-| السؤال | الإجابة | نوع | النقاط |
-|--------|---------|-----|--------|
-| Q1 | 5 | إيجابي | 4 |
-| Q2 | 2 | سلبي | 3 |
-| Q3 | 4 | إيجابي | 3 |
-| Q4 | 1 | سلبي | 4 |
-| Q5 | 5 | إيجابي | 4 |
-| Q6 | 2 | سلبي | 3 |
-| Q7 | 4 | إيجابي | 3 |
-| Q8 | 1 | سلبي | 4 |
-| Q9 | 5 | إيجابي | 4 |
-| Q10 | 2 | سلبي | 3 |
-```
-المجموع = 35
-SUS Score = 35 × 2.5 = 87.5 (Excellent!)
-```
-### **تفسير النتائج:**
-| النتيجة | التقدير | التفسير |
-|---------|---------|---------|
-| **85-100** | 🟢 A (Excellent) | ممتاز! النظام سهل الاستخدام |
-| **70-84** | 🔵 B (Good) | جيد جداً - **مقبول للاستخدام السريري** |
-| **50-69** | 🟡 C (Acceptable) | مقبول لكن يحتاج تحسينات |
-| **0-49** | 🔴 F (Poor) | ضعيف - غير قابل للاستخدام |
-### **للأطروحة:**
-```
-تم تقييم قابلية الاستخدام باستخدام SUS (Brooke, 1996).
-النتيجة: 87.5 (Grade A - Excellent)
-هذا يتجاوز الحد الأدنى المقبول (70) بكثير.
-```
----
-## 🧠 **استبيان NASA-TLX (Task Load Index)**
-### **ما هو NASA-TLX؟**
-- استبيان من NASA لقياس **الحمل المعرفي**
-- 6 أبعاد، مقياس 0-100
-- النتيجة: متوسط الأبعاد الستة
-### **كيف تستخدمه؟**
-1. انتقل إلى تاب "🧠 NASA-TLX Utvärdering"
-2. حرك كل منزلق من 0 (منخفض) إلى 100 (عالي)
-3. اضغط "🧠 Beräkna NASA-TLX poäng"
-4. شاهد النتيجة!
-### **الأبعاد الستة:**
-#### **1. Mental Demand (المتطلبات الذهنية)**
-- كم من التفكير والتركيز احتجت؟
-- **0** = سهل جداً، لا يحتاج تفكير
-- **100** = صعب جداً، تركيز مكثف
-#### **2. Physical Demand (المتطلبات الجسدية)**
-- كم من الجهد الجسدي احتجت؟
-- **0** = لا جهد جسدي
-- **100** = جهد جسدي كبير
-#### **3. Temporal Demand (ضغط الوقت)**
-- هل شعرت بضغط زمني؟
-- **0** = وقت كافٍ جداً
-- **100** = ضغط زمني شديد
-#### **4. Performance (الأداء)**
-- ⚠️ **عكسي!** كم أنت راضٍ عن أدائك؟
-- **0** = راضٍ جداً (أدائي ممتاز)
-- **100** = غير راضٍ (أدائي سيء)
-#### **5. Effort (الجهد)**
-- كم جهد بذلت لإنجاز المهمة؟
-- **0** = جهد قليل جداً
-- **100** = جهد كبير جداً
-#### **6. Frustration (الإحباط)**
-- هل شعرت بالإحباط؟
-- **0** = لا إحباط أبداً
-- **100** = إحباط شديد
-### **كيف يُحسب؟**
-```
-NASA-TLX Score = (D1 + D2 + D3 + D4 + D5 + D6) / 6
-```
-### **مثال حساب:**
-| البُعد | النقاط |
-|--------|--------|
-| Mental Demand | 30 |
-| Physical Demand | 10 |
-| Temporal Demand | 20 |
-| Performance | 15 |
-| Effort | 25 |
-| Frustration | 10 |
-```
-NASA-TLX = (30 + 10 + 20 + 15 + 25 + 10) / 6
-         = 110 / 6
-         = 18.3 (ممتاز!)
-```
-### **تفسير النتائج:**
-| النتيجة | التقدير | التفسير |
-|---------|---------|---------|
-| **0-25** | 🟢 Mycket låg | ممتاز! حمل معرفي منخفض جداً |
-| **26-40** | 🔵 Låg | جيد - **مقبول للاستخدام السريري** |
-| **41-60** | 🟡 Måttlig | متوسط - يحتاج بعض التحسينات |
-| **61-100** | 🔴 Hög | عالي - غير مقبول |
-### **للأطروحة:**
-```
-تم تقييم الحمل المعرفي باستخدام NASA-TLX (Hart & Staveland, 1988).
-النتيجة: 18.3 (Mycket låg belastning)
-هذا أقل بكثير من الحد الأقصى المقبول (40).
-```
----
-## 📊 **استخدام الاستبيانين معاً في البحث**
-### **التوقيت الموصى به:**
-#### **المرحلة 1: قبل الاختبار**
-- شرح النظام للمشاركين
-- تدريب قصير (5 دقائق)
-#### **المرحلة 2: الاختبار**
-- استخدم النظام لـ 3-5 سيناريوهات
-- دع المشارك يستكشف ب��رية
-#### **المرحلة 3: بعد الاختبار فوراً**
-- املأ NASA-TLX (الانطباع الفوري)
-- املأ SUS (التقييم العام)
-### **عدد المشاركين:**
-| الاستبيان | الحد الأدنى | الموصى به |
-|-----------|-------------|-----------|
-| **SUS** | 5 مشاركين | **8-12 مشارك** |
-| **NASA-TLX** | 5 مشاركين | **8-12 مشارك** |
-### **تحليل النتائج:**
-#### **SUS:**
-```excel
-=AVERAGE(Participant1_SUS, Participant2_SUS, ..., Participant10_SUS)
-=STDEV(Participant1_SUS, Participant2_SUS, ..., Participant10_SUS)
-```
-**مثال:**
-- المتوسط: 82.5
-- الانحراف المعياري: 8.3
-- **النتيجة**: "متوسط SUS كان 82.5 (SD=8.3)، وهو أعلى من الحد الأدنى المقبول (70)"
-#### **NASA-TLX:**
-```excel
-=AVERAGE(Participant1_TLX, Participant2_TLX, ..., Participant10_TLX)
-=STDEV(Participant1_TLX, Participant2_TLX, ..., Participant10_TLX)
-```
-**مثال:**
-- المتوسط: 22.7
-- الانحراف المعياري: 5.2
-- **النتيجة**: "متوسط NASA-TLX كان 22.7 (SD=5.2)، وهو أقل من الحد الأقصى المقبول (40)"
----
-## 📂 **هيكل التابات الجديد:**
-```
-🏥 VoiceNote AI
-├── 🎤 Tab 1: Röstinspelning (تقنية واحدة)
-├── ⌨️ Tab 2: Textinmatning (تقنية واحدة)
-├── 🔬 Tab 3: Jämförelse (3 تقنيات معاً!) ← جديد!
-├── ℹ️ Tab 4: Instruktioner
-├── 📊 Tab 5: SUS Utvärdering ← جديد!
-└── 🧠 Tab 6: NASA-TLX Utvärdering ← جديد!
-```
----
-## 🚀 **بروتوكول البحث الكامل:**
-### **الأسبوع 1-2: اختبار التقنيات**
-- Zero-shot: 20 سيناريو
-- Few-shot: 20 سيناريو
-- Chain-of-Thought: 20 سيناريو
-- **استخدم Tab 3 للمقارنة المباشرة!**
-### **الأسبوع 3: تقييم المستخدمين**
-- 10 مشاركين
-- كل مشارك:
-  - يستخدم النظام (15 دقيقة)
-  - يملأ SUS (5 دقائق)
-  - يملأ NASA-TLX (5 دقائق)
-### **الأسبوع 4: التحليل والكتابة**
-- تحليل نتائج التقنيات
-- حساب SUS و NASA-TLX
-- كتابة الأطروحة
----
-## 📝 **قالب قسم النتائج:**
-```markdown
-5.3 تقييم قابلية الاستخدام
-5.3.1 System Usability Scale (SUS)
-شارك 10 مستخدمين (8 ممرضات، 2 طلاب تمريض) في تقييم النظام باستخدام SUS.
-متوسط النتيجة كان 82.5 (SD=8.3)، وهو أعلى من الحد الأدنى المقبول البالغ 70.
-هذا يصنف النظام كـ "Good" (Grade B) ويشير إلى قابلية استخدام جيدة للتطبيق السريري.
-5.3.2 NASA Task Load Index (NASA-TLX)
-متوسط الحمل المعرفي كان 22.7 (SD=5.2)، وهو أقل بكثير من الحد الأقصى المقبول (40).
-أعلى الأبعاد كانت Mental Demand (30.5) و Effort (28.3).
-أقل الأبعاد كانت Physical Demand (12.1) و Frustration (15.8).
-النتائج تشير إلى أن النظام سهل الاستخدام ولا يسبب إجهاد معرفي كبير.
-```
----
-## 🎯 **المراجع للاستبيانات:**
-### **SUS:**
-```
-Brooke, J. (1996). SUS: A "quick and dirty" usability scale.
-In P. W. Jordan, B. Thomas, B. A. Weerdmeester, & I. L. McClelland (Eds.),
-Usability Evaluation in Industry (pp. 189-194). London: Taylor & Francis.
-```
-### **NASA-TLX:**
-```
-Hart, S. G., & Staveland, L. E. (1988). Development of NASA-TLX (Task Load Index):
-Results of empirical and theoretical research.
-In P. A. Hancock & N. Meshkati (Eds.),
-Human Mental Workload (pp. 139-183). Amsterdam: North-Holland.
-```
----
-## ✅ **Checklist قبل البدء:**
-- [ ] تأكد من تحديث جميع الملفات على HuggingFace
-- [ ] اختبر Tab 3 (المقارنة) مع نص قصير
-- [ ] جرب SUS واملأه لنفسك
-- [ ] جرب NASA-TLX واملأه لنفسك
-- [ ] خذ screenshots لكل tab
-- [ ] جهز 20 سيناريو للاختبار
-- [ ] جهز نموذج Excel لـ SUS و NASA-TLX
-- [ ] ابحث عن 10 مشاركين
----
-## 🎊 **ملخص الميزات الجديدة:**
-### **ما كان موجوداً:**
-- ✅ 2 تقنيات (Few-shot, Chain-of-Thought)
-- ✅ تاب واحد لكل تقنية
-- ✅ لا استبيانات
-### **ما أصبح موجوداً الآن:**
-- ✅ **3 تقنيات** (Zero-shot, Few-shot, Chain-of-Thought)
-- ✅ **تاب المقارنة** - يشغل 3 تقنيات معاً!
-- ✅ **استبيان SUS** - قياس قابلية الاستخدام
-- ✅ **استبيان NASA-TLX** - قياس الحمل المعرفي
-- ✅ **جداول مقارنة** - نتائج جنباً إلى جنب
-- ✅ **رسوم بيانية** - bars للـ NASA-TLX
----
-**🚀 كل شيء جاهز للبحث الآن! حمّل الملفات وابدأ!** 🎓✨📊

+"""
+VoiceNote AI - VIPS Classifier
+Classifies patient information into VIPS categories using prompt engineering
+"""
+import logging
+from config import Config, VIPS_CATEGORIES
+from gdpr_filter import apply_dual_layer_gdpr
+logger = logging.getLogger(__name__)
+def build_prompt_zero_shot(text: str) -> str:
+    """
+    Build Zero-shot prompting without any examples
+    Reference: Sivarajkumar et al. (2022) - HealthPrompt: Zero-shot Learning
+    """
+    prompt = f"""Du är en AI-assistent som hjälper sjuksköterskor att strukturera journalanteckningar enligt VIPS-modellen.
+VIPS står för:
+- V (Välbefinnande): Fysiska och psykiska symtom, smärta, känslor
+- I (Integritet): Vanor, preferenser, sociala relationer
+- P (Prevention): Förebyggande åtgärder, hälsofrämjande aktiviteter
+- S (Säkerhet): Risker, läkemedel, säkerhetsåtgärder
+VIKTIGA REGLER:
+1. Om det INTE finns relevant information för en kategori, skriv "Ingen relevant information."
+2. Skriv INTE tomma platshållare eller "[NAMN]" om det inte finns information
+3. Var kortfattad och professionell
+4. Dokumentera endast det som faktiskt sagts
+Patientens berättelse:
+"{text}"
+Klassificera informationen enligt VIPS-format (V, I, P, S).
+Output:"""
+    return prompt
+def build_prompt_few_shot(text: str) -> str:
+    """
+    Build Few-shot prompting with 3 concrete examples
+    Reference: Brown et al. (2020) - Language Models are Few-Shot Learners
+    """
+    prompt = f"""Du är en AI-assistent som hjälper sjuksköterskor att strukturera journalanteckningar enligt VIPS-modellen.
+VIPS står för:
+- V (Välbefinnande): Fysiska och psykiska symtom, smärta, känslor
+- I (Integritet): Vanor, preferenser, sociala relationer
+- P (Prevention): Förebyggande åtgärder, hälsofrämjande aktiviteter
+- S (Säkerhet): Risker, läkemedel, säkerhetsåtgärder
+EXEMPEL 1:
+Input: "Jag har ont i huvudet och känner mig trött."
+Output:
+V: Patienten rapporterar huvudvärk och trötthet.
+I: Ingen relevant information.
+P: Ingen relevant information.
+S: Ingen relevant information.
+EXEMPEL 2:
+Input: "Jag tar Metoprolol dagligen och röker 10 cigaretter per dag."
+Output:
+V: Ingen relevant information.
+I: Patienten röker 10 cigaretter dagligen.
+P: Rökavvänjning kan diskuteras.
+S: Patienten tar Metoprolol dagligen.
+EXEMPEL 3:
+Input: "Jag har ont i bröstet, känner mig yr, och har svårt att andas."
+Output:
+V: Patienten rapporterar bröstsmärta, yrsel och andningssvårigheter.
+I: Ingen relevant information.
+P: Ingen relevant information.
+S: Akuta symtom som kräver omedelbar bedömning.
+VIKTIGA REGLER:
+1. Om det INTE finns relevant information för en kategori, skriv "Ingen relevant information."
+2. Skriv INTE tomma platshållare eller "[NAMN]" om det inte finns information
+3. Var kortfattad och professionell
+4. Dokumentera endast det som faktiskt sagts
+NU ÄR DET DIN TUR:
+Input: "{text}"
+Ge ENDAST svaret i VIPS-format.
+Output:"""
+    return prompt
+def build_prompt_chain_of_thought(text: str) -> str:
+    """
+    Build Chain-of-Thought prompting with step-by-step reasoning
+    Reference: Wei et al. (2022) - Chain-of-Thought Prompting Elicits Reasoning
+    """
+    prompt = f"""Du är en AI-assistent som hjälper sjuksköterskor att strukturera journalanteckningar enligt VIPS-modellen.
+VIPS står för:
+- V (Välbefinnande): Fysiska och psykiska symtom, smärta, känslor
+- I (Integritet): Vanor, preferenser, sociala relationer
+- P (Prevention): Förebyggande åtgärder, hälsofrämjande aktiviteter
+- S (Säkerhet): Risker, läkemedel, säkerhetsåtgärder
+STEG-FÖR-STEG ANALYS:
+Följ dessa steg för att klassificera informationen:
+Steg 1: Läs patientens berättelse noggrant
+Steg 2: Identifiera alla symtom och känslor → placera under V
+Steg 3: Identifiera vanor och preferenser → placera under I
+Steg 4: Identifiera förebyggande åtgärder → placera under P
+Steg 5: Identifiera risker och läkemedel → placera under S
+Patientens berättelse:
+"{text}"
+VIKTIGA REGLER:
+1. Om det INTE finns relevant information för en kategori, skriv "Ingen relevant information."
+2. Skriv INTE tomma platshållare eller "[NAMN]" om det inte finns information
+3. Var kortfattad och professionell
+4. Dokumentera endast det som faktiskt sagts
+Analysera texten steg för steg och ge sedan svaret i VIPS-format.
+Output:"""
+    return prompt
+def classify_vips(text: str, mistral_client) -> dict:
+    """
+    Classify text into VIPS categories
+    Args:
+        text: Input text to classify
+        mistral_client: Mistral AI client instance
+    Returns:
+        Dictionary with VIPS classifications
+    """
+    # Apply GDPR Layer 1: Anonymize input
+    anonymized_input, _ = apply_dual_layer_gdpr(text, "")
+    # Select prompt technique
+    technique = Config.PROMPT_TECHNIQUE
+    logger.info(f"Using {technique} prompting")
+    if technique == "zero_shot":
+        prompt = build_prompt_zero_shot(anonymized_input)
+        max_tokens = Config.LLM_MAX_TOKENS_FEW_SHOT  # Same as few-shot
+    elif technique == "few_shot":
+        prompt = build_prompt_few_shot(anonymized_input)
+        max_tokens = Config.LLM_MAX_TOKENS_FEW_SHOT
+    else:  # chain_of_thought
+        prompt = build_prompt_chain_of_thought(anonymized_input)
+        max_tokens = Config.LLM_MAX_TOKENS_CHAIN_OF_THOUGHT
+    # Generate VIPS classification
+    response = mistral_client.generate(
+        prompt=prompt,
+        max_tokens=max_tokens,
+        temperature=Config.LLM_TEMPERATURE
+    )
+    # Apply GDPR Layer 2: Anonymize output
+    _, anonymized_output = apply_dual_layer_gdpr("", response)
+    # Parse VIPS categories from response
+    vips = parse_vips_response(anonymized_output)
+    return vips
+def parse_vips_response(response: str) -> dict:
+    """
+    Parse VIPS categories from LLM response
+    Args:
+        response: Raw LLM response
+    Returns:
+        Dictionary with parsed VIPS categories
+    """
+    vips = {
+        "V": "Ingen relevant information.",
+        "I": "Ingen relevant information.",
+        "P": "Ingen relevant information.",
+        "S": "Ingen relevant information."
+    }
+    lines = response.strip().split('\n')
+    for line in lines:
+        line = line.strip()
+        if line.startswith("V:"):
+            vips["V"] = line[2:].strip()
+        elif line.startswith("I:"):
+            vips["I"] = line[2:].strip()
+        elif line.startswith("P:"):
+            vips["P"] = line[2:].strip()
+        elif line.startswith("S:"):
+            vips["S"] = line[2:].strip()
+    return vips