Spaces:

SsebaA
/

x

Sleeping

App Files Files Community

SsebaA commited on Mar 27

Commit

806edf7

verified ·

1 Parent(s): 62dd69c

Update vips_classifier.py

Browse files

Files changed (1) hide show

vips_classifier.py +137 -152

vips_classifier.py CHANGED Viewed

@@ -1,181 +1,166 @@
 """
 VoiceNote AI - VIPS Classifier
-===============================
-VIPS classification with dual GDPR protection.
-Supports both Few-shot and Chain-of-Thought prompting.
 """
 import logging
-from typing import Dict
-from config import Config
-from gdpr_filter import GDPRFilter
-from models import MistralClient
 logger = logging.getLogger(__name__)
-class VIPSClassifier:
-    """VIPS classification with support for different prompt techniques"""
-    def __init__(self, llm_client: MistralClient):
-        self.llm = llm_client
-    @staticmethod
-    def build_prompt_few_shot(text: str) -> str:
-        """
-        Few-shot prompting: Ger 2-3 konkreta exempel före den verkliga uppgiften.
-        Fördelar:
-        - Tydliga mönster för modellen att följa
-        - Bättre formatering
-        - Konsekvent output
-        Forskningsreferens: Brown et al. (2020) - Language Models are Few-Shot Learners
-        """
-        return f"""Du är ett dokumentationssystem för sjuksköterskor.
-Din uppgift är att klassificera patientinformation enligt VIPS-modellen.
-OBLIGATORISKA REGLER:
-1. Skriv ALDRIG namn, personnummer, telefonnummer eller adresser.
-2. Hitta INTE på information. Dokumentera ENBART vad patienten faktiskt säger.
-3. Lägg INTE till medicinska råd, diagnoser eller rekommendationer.
-4. Om en kategori saknar information, skriv exakt: Ingen relevant information.
-5. Svara i exakt VIPS-format — fyra rader, en per kategori, inget annat.
-VIPS-KATEGORIER:
-V (Välbefinnande) — Symtom, smärta, mående och känslor
-I (Integritet)    — Vanor, önskemål och preferenser
-P (Prevention)    — Förebyggande åtgärder som nämnts
-S (Säkerhet)      — Risker, mediciner och säkerhetsaspekter
 EXEMPEL 1:
-Samtal: "Jag har haft huvudvärk i två dagar. Jag tar Metoprolol dagligen."
-Svar:
-V: Patienten rapporterar huvudvärk sedan två dagar.
 I: Ingen relevant information.
 P: Ingen relevant information.
-S: Patienten tar Metoprolol dagligen.
 EXEMPEL 2:
-Samtal: "Jag sover dåligt på nätterna och känner mig orolig. Jag brukar gå på promenader varje dag."
-Svar:
-V: Patienten rapporterar sömnsvårigheter och känslor av oro.
-I: Patienten promenerar dagligen.
-P: Ingen relevant information.
-S: Ingen relevant information.
 EXEMPEL 3:
-Samtal: "Jag har ont i bröstet när jag går i trappor. Jag röker 10 cigaretter om dagen."
-Svar:
-V: Patienten rapporterar bröstsmärta vid ansträngning.
 I: Ingen relevant information.
 P: Ingen relevant information.
-S: Patienten röker 10 cigaretter dagligen. Risk för hjärt-kärlsjukdom.
-NU ÄR DET DIN TUR. Klassificera följande samtal:
-SAMTAL:
-"{text}"
-Klassificera i exakt VIPS-format (V:, I:, P:, S:):"""
-    @staticmethod
-    def build_prompt_chain_of_thought(text: str) -> str:
-        """
-        Chain-of-Thought prompting: Be modellen att tänka steg-för-steg.
-        Fördelar:
-        - Bättre resonemang
-        - Minskad hallucination
-        - Tydligare logik
-        Forskningsreferens: Wei et al. (2022) - Chain-of-Thought Prompting
-        Elicits Reasoning in Large Language Models
-        """
-        return f"""Du är ett dokumentationssystem för sjuksköterskor.
-Din uppgift är att klassificera patientinformation enligt VIPS-modellen.
-OBLIGATORISKA REGLER:
-1. Skriv ALDRIG namn, personnummer, telefonnummer eller adresser.
-2. Hitta INTE på information. Dokumentera ENBART vad patienten faktiskt säger.
-3. Lägg INTE till medicinska råd, diagnoser eller rekommendationer.
-4. Om en kategori saknar information, skriv exakt: Ingen relevant information.
-VIPS-KATEGORIER:
-V (Välbefinnande) — Symtom, smärta, mående och känslor
-I (Integritet)    — Vanor, önskemål och preferenser
-P (Prevention)    — Förebyggande åtgärder som nämnts
-S (Säkerhet)      — Risker, mediciner och säkerhetsaspekter
-SAMTAL:
-"{text}"
-STEG-FÖR-STEG ANALYS:
-Tänk igenom detta systematiskt:
-1. Läs igenom samtalet noggrant.
-2. Identifiera ALL information som nämnts (symtom, känslor, vanor, mediciner, risker).
-3. Sortera varje informationsdel:
-   - Handlar det om hur patienten MÅR? → V (Välbefinnande)
-   - Handlar det om patientens VANOR/PREFERENSER? → I (Integritet)
-   - Handlar det om FÖREBYGGANDE åtgärder? → P (Prevention)
-   - Handlar det om RISKER/MEDICINER/SÄKERHET? → S (Säkerhet)
-4. För varje kategori: Formulera en kort, professionell mening.
-5. Om kategorin är tom: Skriv "Ingen relevant information."
-Genomför analysen steg-för-steg, sedan ge ditt svar i exakt VIPS-format:
-V: [din analys]
-I: [din analys]
-P: [din analys]
-S: [din analys]"""
-    def build_prompt(self, text: str) -> str:
-        """
-        Build prompt based on configured technique.
-        Used for research comparison between Few-shot and Chain-of-Thought.
-        """
-        if Config.PROMPT_TECHNIQUE == "chain_of_thought":
-            logger.info("Using Chain-of-Thought prompting")
-            return self.build_prompt_chain_of_thought(text)
-        else:  # Default to few_shot
-            logger.info("Using Few-shot prompting")
-            return self.build_prompt_few_shot(text)
-    def classify(self, text: str) -> str:
-        """
-        Classify text according to VIPS model with dual GDPR protection.
-        Returns VIPS-formatted text.
-        """
-        try:
-            # Layer 1: Anonymize input
-            anonymized_input = GDPRFilter.anonymize(text)
-            logger.info("Input anonymized (Layer 1)")
-            # Build prompt using selected technique
-            prompt = self.build_prompt(anonymized_input)
-            response = self.llm.chat(prompt)
-            # Layer 2: Anonymize output
-            anonymized_output = GDPRFilter.anonymize(response)
-            logger.info("Output anonymized (Layer 2)")
-            # Validate anonymization
-            if not GDPRFilter.validate_anonymization(anonymized_output):
-                logger.error("GDPR validation failed!")
-            return anonymized_output
-        except Exception as e:
-            logger.error(f"VIPS classification error: {e}")
-            raise
-    @staticmethod
-    def parse_vips(vips_text: str) -> Dict[str, str]:
-        """Parse VIPS text into dictionary"""
-        vips = {k: "Ingen relevant information." for k in ["V", "I", "P", "S"]}
-        for line in vips_text.strip().split("\n"):
-            line = line.strip()
-            for key in vips:
-                if line.startswith(f"{key}:"):
-                    vips[key] = line[2:].strip()
-        return vips

 """
 VoiceNote AI - VIPS Classifier
+Classifies patient information into VIPS categories using prompt engineering
 """
 import logging
+from config import Config, VIPS_CATEGORIES
+from gdpr_filter import apply_dual_layer_gdpr
 logger = logging.getLogger(__name__)
+def build_prompt_few_shot(text: str) -> str:
+    """
+    Build Few-shot prompting with 3 concrete examples
+    Reference: Brown et al. (2020) - Language Models are Few-Shot Learners
+    """
+    prompt = f"""Du är en AI-assistent som hjälper sjuksköterskor att strukturera journalanteckningar enligt VIPS-modellen.
+VIPS står för:
+- V (Välbefinnande): Fysiska och psykiska symtom, smärta, känslor
+- I (Integritet): Vanor, preferenser, sociala relationer
+- P (Prevention): Förebyggande åtgärder, hälsofrämjande aktiviteter
+- S (Säkerhet): Risker, läkemedel, säkerhetsåtgärder
 EXEMPEL 1:
+Input: "Jag har ont i huvudet och känner mig trött."
+Output:
+V: Patienten rapporterar huvudvärk och trötthet.
 I: Ingen relevant information.
 P: Ingen relevant information.
+S: Ingen relevant information.
 EXEMPEL 2:
+Input: "Jag tar Metoprolol dagligen och röker 10 cigaretter per dag."
+Output:
+V: Ingen relevant information.
+I: Patienten röker 10 cigaretter dagligen.
+P: Rökavvänjning kan diskuteras.
+S: Patienten tar Metoprolol dagligen.
 EXEMPEL 3:
+Input: "Jag har ont i bröstet, känner mig yr, och har svårt att andas."
+Output:
+V: Patienten rapporterar bröstsmärta, yrsel och andningssvårigheter.
 I: Ingen relevant information.
 P: Ingen relevant information.
+S: Akuta symtom som kräver omedelbar bedömning.
+NU ÄR DET DIN TUR:
+Input: "{text}"
+Ge ENDAST svaret i VIPS-format. Var kortfattad och professionell. Om ingen information finns för en kategori, skriv "Ingen relevant information."
+Output:"""
+    return prompt
+def build_prompt_chain_of_thought(text: str) -> str:
+    """
+    Build Chain-of-Thought prompting with step-by-step reasoning
+    Reference: Wei et al. (2022) - Chain-of-Thought Prompting Elicits Reasoning
+    """
+    prompt = f"""Du är en AI-assistent som hjälper sjuksköterskor att strukturera journalanteckningar enligt VIPS-modellen.
+VIPS står för:
+- V (Välbefinnande): Fysiska och psykiska symtom, smärta, känslor
+- I (Integritet): Vanor, preferenser, sociala relationer
+- P (Prevention): Förebyggande åtgärder, hälsofrämjande aktiviteter
+- S (Säkerhet): Risker, läkemedel, säkerhetsåtgärder
+STEG-FÖR-STEG ANALYS:
+Följ dessa steg för att klassificera informationen:
+Steg 1: Läs patientens berättelse noggrant
+Steg 2: Identifiera alla symtom och känslor → placera under V
+Steg 3: Identifiera vanor och preferenser → placera under I
+Steg 4: Identifiera förebyggande åtgärder → placera under P
+Steg 5: Identifiera risker och läkemedel → placera under S
+Patientens berättelse:
+"{text}"
+Analysera texten steg för steg och ge sedan svaret i VIPS-format. Var kortfattad och professionell. Om ingen information finns för en kategori, skriv "Ingen relevant information."
+Output:"""
+    return prompt
+def classify_vips(text: str, mistral_client) -> dict:
+    """
+    Classify text into VIPS categories
+    Args:
+        text: Input text to classify
+        mistral_client: Mistral AI client instance
+    Returns:
+        Dictionary with VIPS classifications
+    """
+    # Apply GDPR Layer 1: Anonymize input
+    anonymized_input, _ = apply_dual_layer_gdpr(text, "")
+    # Select prompt technique
+    technique = Config.PROMPT_TECHNIQUE
+    logger.info(f"Using {technique} prompting")
+    if technique == "few_shot":
+        prompt = build_prompt_few_shot(anonymized_input)
+        max_tokens = Config.LLM_MAX_TOKENS_FEW_SHOT
+    else:  # chain_of_thought
+        prompt = build_prompt_chain_of_thought(anonymized_input)
+        max_tokens = Config.LLM_MAX_TOKENS_CHAIN_OF_THOUGHT
+    # Generate VIPS classification
+    response = mistral_client.generate(
+        prompt=prompt,
+        max_tokens=max_tokens,
+        temperature=Config.LLM_TEMPERATURE
+    )
+    # Apply GDPR Layer 2: Anonymize output
+    _, anonymized_output = apply_dual_layer_gdpr("", response)
+    # Parse VIPS categories from response
+    vips = parse_vips_response(anonymized_output)
+    return vips
+def parse_vips_response(response: str) -> dict:
+    """
+    Parse VIPS categories from LLM response
+    Args:
+        response: Raw LLM response
+    Returns:
+        Dictionary with parsed VIPS categories
+    """
+    vips = {
+        "V": "Ingen relevant information.",
+        "I": "Ingen relevant information.",
+        "P": "Ingen relevant information.",
+        "S": "Ingen relevant information."
+    }
+    lines = response.strip().split('\n')
+    for line in lines:
+        line = line.strip()
+        if line.startswith("V:"):
+            vips["V"] = line[2:].strip()
+        elif line.startswith("I:"):
+            vips["I"] = line[2:].strip()
+        elif line.startswith("P:"):
+            vips["P"] = line[2:].strip()
+        elif line.startswith("S:"):
+            vips["S"] = line[2:].strip()
+    return vips