Spaces:

LLDDWW
/

MedCard

Running

App Files Files Community

LLDDWW commited on Sep 29

Commit

6d9d526

1 Parent(s): 72114b8

feat: add qwen explanations and refined ui

Browse files

Files changed (2) hide show

app.py +157 -18
requirements.txt +1 -1

app.py CHANGED Viewed

@@ -5,20 +5,34 @@ from typing import Any, Dict, List, Optional, Sequence
 import gradio as gr
 import torch
 from PIL import Image, ImageDraw
-from transformers import pipeline
 # --- OCR pipeline ---------------------------------------------------------
 # Use a high-capacity OCR model for better accuracy on prescription labels.
-MODEL_ID = "microsoft/trocr-large-printed"
 def _load_ocr():
     device = 0 if torch.cuda.is_available() else -1
-    return pipeline("image-to-text", model=MODEL_ID, device=device)
 ocr = _load_ocr()
 # Korean keywords describing time slots on prescription labels.
 TIME_KEYWORDS = [
     "아침",
@@ -201,7 +215,7 @@ def _match_knowledge(name: str) -> Optional[Dict[str, Any]]:
     return None
-def build_explanations(output: Dict[str, Any]) -> str:
     meds = output["fields"].get("medications") or []
     if not meds:
         return (
@@ -236,30 +250,155 @@ def build_explanations(output: Dict[str, Any]) -> str:
     return "\n".join(lines)
 def run_pipeline(image: Optional[Image.Image]):
     if image is None:
-        return "이미지를 업로드하세요.", None, None, "이미지를 먼저 업로드해 주세요."
     output = ocr_and_parse(image)
     card = render_card(output["fields"])
     csv_row = to_csv_row(output)
     json_text = json.dumps(output, ensure_ascii=False, indent=2)
     explanations = build_explanations(output)
-    return json_text, card, csv_row, explanations
-with gr.Blocks(theme=gr.themes.Soft()) as demo:
-    gr.Markdown("# MedCard-KR · 약봉투 OCR → 복용 일정 카드")
     with gr.Row():
-        with gr.Column():
-            img_in = gr.Image(type="pil", label="약 봉투/라벨 사진")
-            btn = gr.Button("인식 & 카드 생성", variant="primary")
-            csv_box = gr.Textbox(label="CSV(약명,1회용량,1일횟수,시간대)")
-        with gr.Column():
-            json_out = gr.Code(label="인식 결과(JSON)")
             card_out = gr.Image(type="pil", label="일정 카드(미리보기)")
-            explain_md = gr.Markdown(label="쉽게 알아보는 약 설명")
-    btn.click(run_pipeline, inputs=img_in, outputs=[json_out, card_out, csv_box, explain_md])
 if __name__ == "__main__":

 import gradio as gr
 import torch
 from PIL import Image, ImageDraw
+from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
 # --- OCR pipeline ---------------------------------------------------------
 # Use a high-capacity OCR model for better accuracy on prescription labels.
+OCR_MODEL_ID = "microsoft/trocr-large-printed"
+LLM_MODEL_ID = "Qwen/Qwen2.5-0.5B-Instruct"
 def _load_ocr():
     device = 0 if torch.cuda.is_available() else -1
+    return pipeline("image-to-text", model=OCR_MODEL_ID, device=device)
 ocr = _load_ocr()
+def _load_llm():
+    device_map = "auto" if torch.cuda.is_available() else None
+    dtype = torch.float16 if torch.cuda.is_available() else torch.float32
+    model = AutoModelForCausalLM.from_pretrained(LLM_MODEL_ID, device_map=device_map, torch_dtype=dtype)
+    if device_map is None:
+        model = model.to(torch.device("cpu"))
+    tokenizer = AutoTokenizer.from_pretrained(LLM_MODEL_ID)
+    return model, tokenizer
+LLM_MODEL, LLM_TOKENIZER = _load_llm()
 # Korean keywords describing time slots on prescription labels.
 TIME_KEYWORDS = [
     "아침",
     return None
+def build_kb_explanations(output: Dict[str, Any]) -> str:
     meds = output["fields"].get("medications") or []
     if not meds:
         return (
     return "\n".join(lines)
+def generate_llm_explanations(output: Dict[str, Any]) -> str:
+    meds = output["fields"].get("medications") or []
+    if not meds:
+        return (
+            "약 이름을 제대로 인식하지 못했어요. 사진을 다시 찍거나 약사에게 직접 확인해 주세요."
+        )
+    med_lines = []
+    for idx, med in enumerate(meds, 1):
+        name = med.get("name") or "이름 미확인"
+        dose = med.get("dose") or "용량 정보 없음"
+        med_lines.append(f"{idx}. {name} — {dose}")
+    context = "\n".join(med_lines)
+    raw_text = output.get("raw_text", "")
+    system_prompt = (
+        "당신은 약사 선생님입니다. 어려운 의학 용어를 쓰지 말고, 중학생도 이해할 수 있는 말투로 친절하게 설명하세요."
+    )
+    user_prompt = (
+        "다음은 약봉투 OCR 결과입니다. 약 이름과 용량 정보를 참고해 각 약의 역할을 쉽게 설명하고, 언제 복용하면 좋은지 예시, 주의사항을 bullet로 정리해 주세요.\n"
+        f"약 목록:\n{context}\n\nOCR 원문:\n{raw_text}\n\n출력 형식:\n- 약 이름: ...\n  - 한 줄 설명\n  - 예시 상황\n  - 주의할 점\n마지막에는 의료진 복약 지시를 반드시 따라야 한다는 문장을 덧붙여 주세요."
+    )
+    messages = [
+        {"role": "system", "content": system_prompt},
+        {"role": "user", "content": user_prompt},
+    ]
+    input_ids = LLM_TOKENIZER.apply_chat_template(
+        messages,
+        add_generation_prompt=True,
+        return_tensors="pt",
+    )
+    input_ids = input_ids.to(LLM_MODEL.device)
+    with torch.no_grad():
+        output_ids = LLM_MODEL.generate(
+            input_ids,
+            max_new_tokens=480,
+            temperature=0.7,
+            top_p=0.9,
+            do_sample=True,
+            eos_token_id=LLM_TOKENIZER.eos_token_id,
+        )
+    generated_ids = output_ids[0][input_ids.shape[1]:]
+    text = LLM_TOKENIZER.decode(generated_ids, skip_special_tokens=True).strip()
+    return text
+def build_explanations(output: Dict[str, Any]) -> str:
+    try:
+        llm_text = generate_llm_explanations(output)
+        if llm_text:
+            return llm_text
+    except Exception as err:  # pragma: no cover - safe fallback
+        print(f"[WARN] LLM generation failed: {err}", flush=True)
+    return build_kb_explanations(output)
+def format_warnings(warnings: List[str]) -> str:
+    if not warnings:
+        return "✅ 인식된 정보가 충분해요. 복약 시간만 잘 지켜 주세요."
+    lines = ["### 확인해 주세요"]
+    for warn in warnings:
+        lines.append(f"- {warn}")
+    lines.append("\n> 의료진의 지시가 가장 정확합니다.")
+    return "\n".join(lines)
 def run_pipeline(image: Optional[Image.Image]):
     if image is None:
+        return (
+            "이미지를 업로드하세요.",
+            None,
+            None,
+            "이미지를 먼저 업로드해 주세요.",
+            "📷 약 봉투 사진을 올리면 인식이 시작돼요.",
+        )
     output = ocr_and_parse(image)
     card = render_card(output["fields"])
     csv_row = to_csv_row(output)
     json_text = json.dumps(output, ensure_ascii=False, indent=2)
     explanations = build_explanations(output)
+    warnings_md = format_warnings(output.get("warnings", []))
+    return json_text, card, csv_row, explanations, warnings_md
+CUSTOM_CSS = """
+body {background: radial-gradient(circle at top left, #f5f0ff 0%, #fff7ec 60%, #ffffff 100%);}
+.gradio-container {max-width: 1180px !important; margin: auto; font-family: 'Noto Sans KR', sans-serif;}
+.hero {
+  background: linear-gradient(120deg, rgba(123, 97, 255, 0.12), rgba(255, 207, 117, 0.18));
+  border-radius: 28px;
+  padding: 36px 44px;
+  box-shadow: 0 20px 40px rgba(66, 46, 138, 0.08);
+  margin-bottom: 32px;
+}
+.hero h1 {font-size: 2.4rem; font-weight: 700; color: #1f1c3b; margin-bottom: 12px;}
+.hero p {color: #514c7b; font-size: 1.05rem; line-height: 1.6; max-width: 640px;}
+.glass-panel {background: rgba(255, 255, 255, 0.72); backdrop-filter: blur(18px); border-radius: 26px; padding: 28px; box-shadow: 0 12px 32px rgba(80, 60, 160, 0.12);}
+.panel-title {font-weight: 700; font-size: 1.2rem; margin-bottom: 18px; color: #2f2355;}
+.primary-btn button {background: linear-gradient(120deg, #7c62ff, #ffa74d); border: none; color: white; font-weight: 600; border-radius: 999px; padding: 12px 22px; box-shadow: 0 12px 24px rgba(124, 98, 255, 0.25);}
+.primary-btn button:hover {opacity: 0.95; transform: translateY(-1px);}
+.output-card {background: rgba(255, 255, 255, 0.88); border-radius: 22px; padding: 24px; box-shadow: inset 0 0 0 1px rgba(124, 98, 255, 0.08), 0 14px 30px rgba(49, 32, 114, 0.12);}
+.notice {background: rgba(255, 247, 226, 0.9); border-radius: 18px; padding: 18px; color: #7a4b00; box-shadow: inset 0 0 0 1px rgba(255, 193, 96, 0.3);}
+.csv-box textarea {font-family: 'JetBrains Mono', monospace;}
+.gr-image {border-radius: 20px !important; box-shadow: 0 10px 20px rgba(60, 40, 120, 0.15);}
+.accordion {border-radius: 20px !important;}
+"""
+HERO_HTML = """
+<div class="hero">
+  <h1>MedCard-KR · 약봉투 한 컷으로 이해하는 복용 안내</h1>
+  <p>사진 속 약 이름을 OCR로 읽어 들이고, Qwen LLM이 중학생도 이해할 수 있는 말투로 약을 설명해 드립니다.
+     복용 일정 카드와 CSV까지 한 번에 받아 보세요.</p>
+</div>
+"""
+with gr.Blocks(theme=gr.themes.Soft(), css=CUSTOM_CSS) as demo:
+    gr.HTML(HERO_HTML)
     with gr.Row():
+        with gr.Column(scale=4, elem_classes=["glass-panel"]):
+            gr.Markdown("### 1. 약 봉투 사진을 업로드하세요")
+            img_in = gr.Image(type="pil", label="약 봉투/라벨 사진", height=360)
+            warn_md = gr.Markdown("📷 약 봉투 사진을 올리면 인식이 시작돼요.", elem_classes=["notice"])
+            btn = gr.Button("인식 & 설명 생성", elem_classes=["primary-btn"])
+        with gr.Column(scale=6, elem_classes=["glass-panel"]):
+            gr.Markdown("### 2. 결과를 확인하세요")
+            explain_md = gr.Markdown("여기에 약 설명이 표시됩니다.", elem_classes=["output-card"])
             card_out = gr.Image(type="pil", label="일정 카드(미리보기)")
+            csv_box = gr.Textbox(label="CSV(약명,1회용량,1일횟수,시간대)", lines=2, elem_classes=["csv-box"])
+            with gr.Accordion("세부 JSON 결과", open=False, elem_classes=["accordion"]):
+                json_out = gr.Code(label="인식 결과(JSON)")
+    btn.click(
+        run_pipeline,
+        inputs=img_in,
+        outputs=[json_out, card_out, csv_box, explain_md, warn_md],
+    )
+    gr.Markdown(
+        """
+        > ℹ️ **주의**: 이 서비스는 참고용 도구이며, 실제 복약은 반드시 의사·약사의 지시에 따라 주세요.
+        """
+    )
 if __name__ == "__main__":

requirements.txt CHANGED Viewed

@@ -2,4 +2,4 @@ transformers
 torch
 gradio
 Pillow
-torch

 torch
 gradio
 Pillow
+sentencepiece