Spaces:

LLDDWW
/

MedCard

Sleeping

LLDDWW Claude commited on Oct 1, 2025

Commit

d5aff0d

1 Parent(s): 0e6a905

feat: use Gemma-2-2B for medical analysis

- Separate OCR (Qwen2.5-VL-7B) and medical analysis (Gemma-2-2B)
- Add comprehensive medication info: name, effects, side effects, usage, precautions
- Enhanced prompt for easy-to-understand explanations
- User-friendly format for elderly and children

🤖 Generated with [Claude Code](https://claude.com/claude-code)

Co-Authored-By: Claude <noreply@anthropic.com>

Files changed (1) hide show

app.py +55 -45

app.py CHANGED Viewed

@@ -7,11 +7,14 @@ import gradio as gr
 import spaces
 import torch
 from PIL import Image
-from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessor
 from qwen_vl_utils import process_vision_info
-# Qwen2.5-VL 모델 ID
-MODEL_ID = "Qwen/Qwen2.5-VL-7B-Instruct"
 def _extract_assistant_content(decoded: str) -> str:
@@ -35,15 +38,14 @@ def _extract_json_block(text: str) -> Optional[str]:
 def analyze_medication_image(image: Image.Image) -> Tuple[str, str]:
     """이미지에서 OCR 추출 후 약 정보 분석"""
     try:
-        # Qwen2.5-VL 모델 로드
-        model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
-            MODEL_ID,
             torch_dtype="auto",
             device_map="auto"
         )
-        processor = AutoProcessor.from_pretrained(MODEL_ID)
-        # Step 1: OCR - 이미지에서 텍스트 추출
         ocr_messages = [
             {
                 "role": "user",
@@ -54,72 +56,79 @@ def analyze_medication_image(image: Image.Image) -> Tuple[str, str]:
             }
         ]
-        text = processor.apply_chat_template(ocr_messages, tokenize=False, add_generation_prompt=True)
         image_inputs, video_inputs = process_vision_info(ocr_messages)
-        inputs = processor(
             text=[text],
             images=image_inputs,
             videos=video_inputs,
             padding=True,
             return_tensors="pt",
         )
-        inputs = inputs.to(model.device)
         with torch.no_grad():
-            generated_ids = model.generate(**inputs, max_new_tokens=2048)
         generated_ids_trimmed = [
             out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
         ]
-        ocr_text = processor.batch_decode(
             generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
         )[0]
         if not ocr_text or ocr_text.strip() == "":
             return "텍스트를 찾을 수 없습니다.", ""
-        # Step 2: 약 정보 분석 - OCR 텍스트를 LLM에게 전달
-        analysis_messages = [
-            {
-                "role": "user",
-                "content": [
-                    {"type": "text", "text": f"""다음은 약 봉투나 처방전에서 추출한 텍스트입니다:
 {ocr_text}
-위 텍스트에서 약 이름을 찾아서, 각 약에 대해 다음 정보를 **노인과 어린이 모두 쉽게 이해할 수 있도록** 재미있고 친근하게 설명해주세요:
-1. **약 이름**: 정확한 약 이름
-2. **효능**: 이 약이 무엇을 치료하고 어떻게 도움이 되는지
-3. **부작용**: 주의해야 할 부작용들
-각 약마다 이모지를 사용하고, 쉬운 단어로 설명해주세요. 할머니 할아버지나 초등학생도 이해할 수 있게 작성해주세요.
-마크다운 형식으로 작성해주세요."""},
-                ],
-            }
-        ]
-        text = processor.apply_chat_template(analysis_messages, tokenize=False, add_generation_prompt=True)
-        inputs = processor(
-            text=[text],
-            images=None,
-            videos=None,
-            padding=True,
-            return_tensors="pt",
-        )
-        inputs = inputs.to(model.device)
-        with torch.no_grad():
-            generated_ids = model.generate(**inputs, max_new_tokens=3072, temperature=0.7)
-        generated_ids_trimmed = [
-            out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
         ]
-        analysis_text = processor.batch_decode(
-            generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
-        )[0]
         return ocr_text.strip(), analysis_text.strip()
@@ -360,7 +369,8 @@ with gr.Blocks(theme=gr.themes.Soft(), css=CUSTOM_CSS) as demo:
     - AI가 생성한 정보이므로 정확하지 않을 수 있습니다
     **🤖 기술 스택**
-    - Qwen2.5-VL-7B-Instruct (OCR + 약 정보 분석)
     """)
 if __name__ == "__main__":

 import spaces
 import torch
 from PIL import Image
+from transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessor, AutoTokenizer, AutoModelForCausalLM
 from qwen_vl_utils import process_vision_info
+# OCR 모델 ID
+OCR_MODEL_ID = "Qwen/Qwen2.5-VL-7B-Instruct"
+# 약 정보 분석 모델 ID (의료 전문)
+MED_MODEL_ID = "google/gemma-2-2b-it"
 def _extract_assistant_content(decoded: str) -> str:
 def analyze_medication_image(image: Image.Image) -> Tuple[str, str]:
     """이미지에서 OCR 추출 후 약 정보 분석"""
     try:
+        # Step 1: OCR - Qwen2.5-VL로 이미지에서 텍스트 추출
+        ocr_model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
+            OCR_MODEL_ID,
             torch_dtype="auto",
             device_map="auto"
         )
+        ocr_processor = AutoProcessor.from_pretrained(OCR_MODEL_ID)
         ocr_messages = [
             {
                 "role": "user",
             }
         ]
+        text = ocr_processor.apply_chat_template(ocr_messages, tokenize=False, add_generation_prompt=True)
         image_inputs, video_inputs = process_vision_info(ocr_messages)
+        inputs = ocr_processor(
             text=[text],
             images=image_inputs,
             videos=video_inputs,
             padding=True,
             return_tensors="pt",
         )
+        inputs = inputs.to(ocr_model.device)
         with torch.no_grad():
+            generated_ids = ocr_model.generate(**inputs, max_new_tokens=2048)
         generated_ids_trimmed = [
             out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
         ]
+        ocr_text = ocr_processor.batch_decode(
             generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
         )[0]
         if not ocr_text or ocr_text.strip() == "":
             return "텍스트를 찾을 수 없습니다.", ""
+        # Step 2: 약 정보 분석 - Gemma-2로 의료 정보 제공
+        med_model = AutoModelForCausalLM.from_pretrained(
+            MED_MODEL_ID,
+            torch_dtype=torch.bfloat16,
+            device_map="auto"
+        )
+        med_tokenizer = AutoTokenizer.from_pretrained(MED_MODEL_ID)
+        analysis_prompt = f"""다음은 약 봉투나 처방전에서 추출한 텍스트입니다:
 {ocr_text}
+위 텍스트에서 약 이름을 찾아서, 각 약에 대해 **노인과 어린이 모두 쉽게 이해할 수 있도록** 재미있고 친근하게 설명해주세요:
+📋 **각 약마다 다음 정보를 포함해주세요:**
+1. 💊 **약 이름**: 정확한 약 이름
+2. 🎯 **효능**: 이 약이 무엇을 치료하고 어떻게 도움이 되는지
+3. ⚠️ **부작용**: 주의해야 할 부작용들
+4. 💡 **복용 방법**: 언제, 어떻게 먹어야 하는지 (식전/식후, 하루 몇 번 등)
+5. 🚫 **주의사항**: 이 약과 함께 먹으면 안 되는 것들 (음식, 다른 약 등)
+**스타일 가이드:**
+- 이모지를 적극 활용하여 재미있게 작성
+- 할머니 할아버지나 초등학생도 이해할 수 있는 쉬운 단어 사용
+- 각 약마다 구분선으로 구분
+- 친근하고 따뜻한 말투 사용
+- 마크다운 형식으로 작성
+시작해주세요!"""
+        messages = [
+            {"role": "user", "content": analysis_prompt}
         ]
+        input_text = med_tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
+        inputs = med_tokenizer(input_text, return_tensors="pt").to(med_model.device)
+        with torch.no_grad():
+            outputs = med_model.generate(
+                **inputs,
+                max_new_tokens=3072,
+                temperature=0.7,
+                top_p=0.9,
+                do_sample=True
+            )
+        analysis_text = med_tokenizer.decode(outputs[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)
         return ocr_text.strip(), analysis_text.strip()
     - AI가 생성한 정보이므로 정확하지 않을 수 있습니다
     **🤖 기술 스택**
+    - Qwen2.5-VL-7B-Instruct (OCR 텍스트 추출)
+    - Google Gemma-2-2B-IT (의료 정보 분석 및 설명)
     """)
 if __name__ == "__main__":