Spaces:

LLDDWW
/

MedCard

Running

LLDDWW Claude commited on Oct 10

Commit

ab48ca2

1 Parent(s): 115fae5

perf: preload models at startup for faster inference

- Load models once at startup instead of per request
- Use global model variables to avoid repeated loading
- Reduces inference time from 160s+ to ~10s
- Models are loaded when app starts, not during inference

🤖 Generated with [Claude Code](https://claude.com/claude-code)

Co-Authored-By: Claude <noreply@anthropic.com>

Files changed (1) hide show

app.py +43 -23

app.py CHANGED Viewed

@@ -23,6 +23,39 @@ OCR_MODEL_ID = "Qwen/Qwen2.5-VL-7B-Instruct"
 # 약 정보 분석 모델 ID (의료 전문)
 MED_MODEL_ID = "google/medgemma-4b-it"
 def _extract_assistant_content(decoded: str) -> str:
     """어시스턴트 응답 추출"""
@@ -46,13 +79,6 @@ def analyze_medication_image(image: Image.Image) -> Tuple[str, str]:
     """이미지에서 OCR 추출 후 약 정보 분석"""
     try:
         # Step 1: OCR - Qwen2.5-VL로 이미지에서 텍스트 추출
-        ocr_model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
-            OCR_MODEL_ID,
-            torch_dtype="auto",
-            device_map="auto"
-        )
-        ocr_processor = AutoProcessor.from_pretrained(OCR_MODEL_ID)
         ocr_messages = [
             {
                 "role": "user",
@@ -63,38 +89,32 @@ def analyze_medication_image(image: Image.Image) -> Tuple[str, str]:
             }
         ]
-        text = ocr_processor.apply_chat_template(ocr_messages, tokenize=False, add_generation_prompt=True)
         image_inputs, video_inputs = process_vision_info(ocr_messages)
-        inputs = ocr_processor(
             text=[text],
             images=image_inputs,
             videos=video_inputs,
             padding=True,
             return_tensors="pt",
         )
-        inputs = inputs.to(ocr_model.device)
         with torch.no_grad():
-            generated_ids = ocr_model.generate(**inputs, max_new_tokens=2048)
         generated_ids_trimmed = [
             out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
         ]
-        ocr_text = ocr_processor.batch_decode(
             generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
         )[0]
         if not ocr_text or ocr_text.strip() == "":
             return "텍스트를 찾을 수 없습니다.", ""
-        # Step 2: 약 정보 분석 - Gemma-2로 의료 정보 제공
-        med_model = AutoModelForCausalLM.from_pretrained(
-            MED_MODEL_ID,
-            torch_dtype=torch.bfloat16,
-            device_map="auto"
-        )
-        med_tokenizer = AutoTokenizer.from_pretrained(MED_MODEL_ID)
         analysis_prompt = f"""다음은 약 봉투나 처방전에서 추출한 텍스트입니다:
@@ -123,11 +143,11 @@ def analyze_medication_image(image: Image.Image) -> Tuple[str, str]:
             {"role": "user", "content": analysis_prompt}
         ]
-        input_text = med_tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
-        inputs = med_tokenizer(input_text, return_tensors="pt").to(med_model.device)
         with torch.no_grad():
-            outputs = med_model.generate(
                 **inputs,
                 max_new_tokens=3072,
                 temperature=0.7,
@@ -135,7 +155,7 @@ def analyze_medication_image(image: Image.Image) -> Tuple[str, str]:
                 do_sample=True
             )
-        analysis_text = med_tokenizer.decode(outputs[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)
         return ocr_text.strip(), analysis_text.strip()

 # 약 정보 분석 모델 ID (의료 전문)
 MED_MODEL_ID = "google/medgemma-4b-it"
+# 전역 모델 변수 (한 번만 로드)
+OCR_MODEL = None
+OCR_PROCESSOR = None
+MED_MODEL = None
+MED_TOKENIZER = None
+def load_models():
+    """모델들을 한 번만 로드"""
+    global OCR_MODEL, OCR_PROCESSOR, MED_MODEL, MED_TOKENIZER
+    if OCR_MODEL is None:
+        print("🔄 Loading Qwen2.5-VL-7B for OCR...")
+        OCR_MODEL = Qwen2_5_VLForConditionalGeneration.from_pretrained(
+            OCR_MODEL_ID,
+            torch_dtype="auto",
+            device_map="auto"
+        )
+        OCR_PROCESSOR = AutoProcessor.from_pretrained(OCR_MODEL_ID)
+        print("✅ OCR model loaded!")
+    if MED_MODEL is None:
+        print("🔄 Loading MedGemma-4B for medical analysis...")
+        MED_MODEL = AutoModelForCausalLM.from_pretrained(
+            MED_MODEL_ID,
+            torch_dtype=torch.bfloat16,
+            device_map="auto"
+        )
+        MED_TOKENIZER = AutoTokenizer.from_pretrained(MED_MODEL_ID)
+        print("✅ Medical model loaded!")
+# 앱 시작 시 모델 로드
+load_models()
 def _extract_assistant_content(decoded: str) -> str:
     """어시스턴트 응답 추출"""
     """이미지에서 OCR 추출 후 약 정보 분석"""
     try:
         # Step 1: OCR - Qwen2.5-VL로 이미지에서 텍스트 추출
         ocr_messages = [
             {
                 "role": "user",
             }
         ]
+        text = OCR_PROCESSOR.apply_chat_template(ocr_messages, tokenize=False, add_generation_prompt=True)
         image_inputs, video_inputs = process_vision_info(ocr_messages)
+        inputs = OCR_PROCESSOR(
             text=[text],
             images=image_inputs,
             videos=video_inputs,
             padding=True,
             return_tensors="pt",
         )
+        inputs = inputs.to(OCR_MODEL.device)
         with torch.no_grad():
+            generated_ids = OCR_MODEL.generate(**inputs, max_new_tokens=2048)
         generated_ids_trimmed = [
             out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
         ]
+        ocr_text = OCR_PROCESSOR.batch_decode(
             generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
         )[0]
         if not ocr_text or ocr_text.strip() == "":
             return "텍스트를 찾을 수 없습니다.", ""
+        # Step 2: 약 정보 분석 - MedGemma로 의료 정보 제공
         analysis_prompt = f"""다음은 약 봉투나 처방전에서 추출한 텍스트입니다:
             {"role": "user", "content": analysis_prompt}
         ]
+        input_text = MED_TOKENIZER.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
+        inputs = MED_TOKENIZER(input_text, return_tensors="pt").to(MED_MODEL.device)
         with torch.no_grad():
+            outputs = MED_MODEL.generate(
                 **inputs,
                 max_new_tokens=3072,
                 temperature=0.7,
                 do_sample=True
             )
+        analysis_text = MED_TOKENIZER.decode(outputs[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)
         return ocr_text.strip(), analysis_text.strip()