Spaces:

Chhagan005
/

Multi_ML_OCR

Running on Zero

App Files Files Community

Chhagan005 commited on 1 day ago

Commit

b3a39ba

verified ·

1 Parent(s): ee2bb2f

Update app.py

Browse files

Files changed (1) hide show

app.py +34 -10

app.py CHANGED Viewed

@@ -718,24 +718,43 @@ def run_step1_extraction(model, processor, image, device, temperature, top_p, to
     """Step 1: LLM → Raw OCR, original script, NO translation, NO coordinates"""
     def _generate(prompt_text):
         messages = [{"role": "user", "content": [
-            {"type": "image"},
-            {"type": "text", "text": prompt_text},
         ]}]
-        try:
-            prompt = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
-        except:
-            prompt = prompt_text
-        inputs = processor(text=[prompt], images=[image], return_tensors="pt", padding=True).to(device)
         with torch.no_grad():
             out = model.generate(
-                **inputs, max_new_tokens=600, do_sample=True,
-                temperature=temperature, top_p=top_p, top_k=top_k,
                 repetition_penalty=repetition_penalty,
             )
         gen = out[:, inputs['input_ids'].shape[1]:]
         return processor.batch_decode(gen, skip_special_tokens=True)[0]
     result = _generate(STEP1_EXTRACT_PROMPT)
     # Detect coordinate output (Qwen grounding mode triggered) → retry
@@ -848,7 +867,12 @@ def run_step2_structure(model, processor, metadata: dict, device,
     except:
         prompt = prompt_text
-    inputs = processor(text=[prompt], return_tensors="pt", padding=True).to(device)
     streamer = TextIteratorStreamer(processor, skip_prompt=True, skip_special_tokens=True)
     gen_kwargs = {

     """Step 1: LLM → Raw OCR, original script, NO translation, NO coordinates"""
     def _generate(prompt_text):
+        from qwen_vl_utils import process_vision_info
         messages = [{"role": "user", "content": [
+            {"type": "image", "image": image},   # ← PIL image yahan directly
+            {"type": "text",  "text": prompt_text},
         ]}]
+        # apply_chat_template — Qwen3VL format
+        prompt = processor.apply_chat_template(
+            messages, tokenize=False, add_generation_prompt=True
+        )
+        # process_vision_info — Qwen3VL ke liye zaruri step
+        image_inputs, video_inputs = process_vision_info(messages)
+        inputs = processor(
+            text=[prompt],
+            images=image_inputs,
+            videos=video_inputs,
+            padding=True,
+            return_tensors="pt",
+        ).to(device)
         with torch.no_grad():
             out = model.generate(
+                **inputs,
+                max_new_tokens=600,
+                do_sample=True,
+                temperature=temperature,
+                top_p=top_p,
+                top_k=top_k,
                 repetition_penalty=repetition_penalty,
             )
         gen = out[:, inputs['input_ids'].shape[1]:]
         return processor.batch_decode(gen, skip_special_tokens=True)[0]
     result = _generate(STEP1_EXTRACT_PROMPT)
     # Detect coordinate output (Qwen grounding mode triggered) → retry
     except:
         prompt = prompt_text
+    inputs = processor(
+        text=[prompt],
+        padding=True,
+        return_tensors="pt",
+    ).to(device)
     streamer = TextIteratorStreamer(processor, skip_prompt=True, skip_special_tokens=True)
     gen_kwargs = {