Spaces:

recentechstudio
/

HunyuanOCR

Running

aal-hawa commited on 23 days ago

Commit

7f53dc2

1 Parent(s): 4d706d5

edit

Files changed (1) hide show

app.py CHANGED Viewed

@@ -41,7 +41,7 @@ def load_model():
         device_map=None,
         low_cpu_mem_usage=True,
         token=token,
-    ).float()  # convert all params from bfloat16 to float32 for CPU
     model.eval()
     print("HunyuanOCR loaded.")
@@ -77,7 +77,15 @@ def ocr_process(image):
         inputs = processor(
             text=[text_prompt], images=[image_input],
             padding=True, return_tensors="pt"
-        ).to("cpu")
         with torch.no_grad():
             generated_ids = model.generate(**inputs, max_new_tokens=16384, do_sample=False)
@@ -116,4 +124,4 @@ with gr.Blocks(title="HunyuanOCR") as demo:
     image_input.change(ocr_process, image_input, ocr_output)
 if __name__ == "__main__":
-    demo.launch(server_name="0.0.0.0")

         device_map=None,
         low_cpu_mem_usage=True,
         token=token,
+    ).float()  # convert all model params from bfloat16 to float32
     model.eval()
     print("HunyuanOCR loaded.")
         inputs = processor(
             text=[text_prompt], images=[image_input],
             padding=True, return_tensors="pt"
+        )
+        # CRITICAL: The processor outputs bfloat16 tensors for pixel_values,
+        # but the model is now float32. Convert ALL input tensors to float32.
+        for key in inputs:
+            if isinstance(inputs[key], torch.Tensor) and inputs[key().is_floating_point():
+                inputs[key] = inputs[key].float()
+        inputs = inputs.to("cpu")
         with torch.no_grad():
             generated_ids = model.generate(**inputs, max_new_tokens=16384, do_sample=False)
     image_input.change(ocr_process, image_input, ocr_output)
 if __name__ == "__main__":
+    demo.launch(server_name="0.0.0.0")