Spaces:

PaddlePaddle
/

PaddleOCR-VL_Online_Demo

Running

App Files Files Community

root commited on Oct 23

Commit

b9d6b1d

1 Parent(s): d7600ce

returnback

Browse files

Files changed (1) hide show

app.py +23 -39

app.py CHANGED Viewed

@@ -64,46 +64,14 @@ def _escape_inequalities_in_math(md: str) -> str:
     return md
 def _get_examples_from_dir(dir_path: str) -> List[List[str]]:
-    BASE_URL = "https://paddle-model-ecology.bj.bcebos.com/PPOCRVL/dataset/examples"
     supported_exts = {".png", ".jpg", ".jpeg", ".bmp", ".webp"}
     examples = []
-    if not os.path.exists(dir_path):
-        print(f"Warning: example dir {dir_path} not found.")
-        return []
     for filename in sorted(os.listdir(dir_path)):
-        ext = os.path.splitext(filename)[1].lower()
-        if ext in supported_exts:
-            subdir = os.path.basename(dir_path.rstrip("/"))
-            img_url = f"{BASE_URL}/{subdir}/{filename}"
-            examples.append([img_url])
     return examples
-import tempfile
-from urllib.parse import urlparse
-def _download_to_temp(url: str) -> str:
-    r = requests.get(url, timeout=600)
-    r.raise_for_status()
-    ext = os.path.splitext(urlparse(url).path)[1] or ".jpg"
-    fd, tmp_path = tempfile.mkstemp(suffix=ext)
-    with os.fdopen(fd, "wb") as f:
-        f.write(r.content)
-    return tmp_path
-def _on_gallery_select(example_paths: List[str], evt: gr.SelectData):
-    idx = evt.index
-    selected_path = example_paths[idx]
-    if isinstance(selected_path, list):
-        selected_path = selected_path[0]
-    if isinstance(selected_path, str) and selected_path.startswith(("http://", "https://")):
-        tmp_file = _download_to_temp(selected_path)
-        print(f"Selected remote example -> tmp file: {tmp_file}")
-        return tmp_file
-    else:
-        return selected_path
 TARGETED_EXAMPLES_DIR = "examples/targeted"
 COMPLEX_EXAMPLES_DIR = "examples/complex"
 targeted_recognition_examples = _get_examples_from_dir(TARGETED_EXAMPLES_DIR)
@@ -127,7 +95,12 @@ def update_preview_visibility(file_path: Optional[str]) -> Dict:
     else:
         return gr.update(value="", visible=False)
 # =========================
 # API Call Logic
@@ -175,7 +148,6 @@ def _call_api(api_url: str, file_path: str, use_layout_detection: bool,
     return data
 def _process_api_response_page(result: Dict[str, Any]) -> Tuple[str, str, str]:
     """
     Processes the API response.
@@ -188,6 +160,7 @@ def _process_api_response_page(result: Dict[str, Any]) -> Tuple[str, str, str]:
     page0 = layout_results[0] or {}
     md_data = page0.get("markdown") or {}
     md_text = md_data.get("text", "") or ""
     md_images_map = md_data.get("images", {})
@@ -196,19 +169,24 @@ def _process_api_response_page(result: Dict[str, Any]) -> Tuple[str, str, str]:
             md_text = md_text.replace(f'src="{placeholder_path}"', f'src="{image_url}"') \
                              .replace(f']({placeholder_path})', f']({image_url})')
     output_html = "<p style='text-align:center; color:#888;'>No visualization image available.</p>"
     out_imgs = page0.get("outputImages") or {}
     sorted_urls = [img_url for _, img_url in sorted(out_imgs.items()) if img_url]
     output_image_url: Optional[str] = None
     if len(sorted_urls) >= 2:
         output_image_url = sorted_urls[1]
     elif sorted_urls:
         output_image_url = sorted_urls[0]
     if output_image_url:
         print(f"Found visualization image URL: {output_image_url}")
         output_html = f'<img src="{output_image_url}" alt="Detection Visualization">'
     else:
         print("Warning: No visualization image URL found in the API response.")
@@ -216,10 +194,14 @@ def _process_api_response_page(result: Dict[str, Any]) -> Tuple[str, str, str]:
     md_text = _escape_inequalities_in_math(md_text)
     return md_text or "(Empty result)", output_html, md_text
 def handle_complex_doc(file_path: str, use_chart_recognition: bool) -> Tuple[str, str, str]:
     if not file_path: raise gr.Error("Please upload an image first.")
     data = _call_api(DEFAULT_API_URL, file_path, use_layout_detection=True, prompt_label=None, use_chart_recognition=use_chart_recognition)
     result = data.get("result", {})
     return _process_api_response_page(result)
 def handle_targeted_recognition(file_path: str, prompt_choice: str) -> Tuple[str, str]:
@@ -263,7 +245,8 @@ body, .gradio-container {
 with gr.Blocks(head=GOOGLE_FONTS_URL, css=custom_css, theme=gr.themes.Soft()) as demo:
     logo_data_url = image_to_base64_data_url(LOGO_IMAGE_PATH) if os.path.exists(LOGO_IMAGE_PATH) else ""
     gr.HTML(f"""<div class="app-header"><img src="{logo_data_url}" alt="App Logo" style="max-height:10%; width: auto; margin: 10px auto; display: block;"></div>""")
-    gr.HTML("""<div class="quick-links"><a href="https://github.com/PaddlePaddle/PaddleOCR" target="_blank">GitHub</a> | <a href="https://ernie.baidu.com/blog/publication/PaddleOCR-VL_Technical_Report.pdf" target="_blank">Technical Report</a> | <a href="https://www.modelscope.cn/models/PaddlePaddle/PaddleOCR-VL" target="_blank">Model</a></div>""")
     with gr.Tabs():
         with gr.Tab("Document Parsing"):
@@ -288,6 +271,7 @@ with gr.Blocks(head=GOOGLE_FONTS_URL, css=custom_css, theme=gr.themes.Soft()) as
                         with gr.Tab("Markdown Preview"):
                             md_preview_doc = gr.Markdown("Please upload an image and click 'Parse Document'.", latex_delimiters=LATEX_DELIMS, elem_id="md_preview_doc")
                         with gr.Tab("Visualization"):
                             vis_image_doc = gr.HTML(label="Detection Visualization", elem_id="vis_image_doc")
                         with gr.Tab("Markdown Source"):
                             md_raw_doc = gr.Code(label="Markdown Source Code", language="markdown")
@@ -329,5 +313,5 @@ with gr.Blocks(head=GOOGLE_FONTS_URL, css=custom_css, theme=gr.themes.Soft()) as
             btn_chart.click(fn=handle_targeted_recognition, inputs=[file_vl, gr.State("Chart Recognition")], outputs=[md_preview_vl, md_raw_vl])
 if __name__ == "__main__":
-    port = int(os.getenv("PORT", "7860"))
     demo.queue(max_size=64).launch(server_name="0.0.0.0", server_port=port,share=False)

     return md
 def _get_examples_from_dir(dir_path: str) -> List[List[str]]:
     supported_exts = {".png", ".jpg", ".jpeg", ".bmp", ".webp"}
     examples = []
+    if not os.path.exists(dir_path): return []
     for filename in sorted(os.listdir(dir_path)):
+        if os.path.splitext(filename)[1].lower() in supported_exts:
+            examples.append([os.path.join(dir_path, filename)])
     return examples
 TARGETED_EXAMPLES_DIR = "examples/targeted"
 COMPLEX_EXAMPLES_DIR = "examples/complex"
 targeted_recognition_examples = _get_examples_from_dir(TARGETED_EXAMPLES_DIR)
     else:
         return gr.update(value="", visible=False)
+def _on_gallery_select(example_paths: List[str], evt: gr.SelectData):
+    try:
+        idx = evt.index
+        return example_paths[idx]
+    except Exception:
+        return None
 # =========================
 # API Call Logic
     return data
 def _process_api_response_page(result: Dict[str, Any]) -> Tuple[str, str, str]:
     """
     Processes the API response.
     page0 = layout_results[0] or {}
+    # Step 1: Process Markdown content (unchanged from previous optimization)
     md_data = page0.get("markdown") or {}
     md_text = md_data.get("text", "") or ""
     md_images_map = md_data.get("images", {})
             md_text = md_text.replace(f'src="{placeholder_path}"', f'src="{image_url}"') \
                              .replace(f']({placeholder_path})', f']({image_url})')
+    # 【核心改动点】 Step 2: Process Visualization images by creating an HTML string
     output_html = "<p style='text-align:center; color:#888;'>No visualization image available.</p>"
     out_imgs = page0.get("outputImages") or {}
+    # Get all image URLs and sort them
     sorted_urls = [img_url for _, img_url in sorted(out_imgs.items()) if img_url]
+    # Logic to select the final visualization image URL
     output_image_url: Optional[str] = None
     if len(sorted_urls) >= 2:
         output_image_url = sorted_urls[1]
     elif sorted_urls:
         output_image_url = sorted_urls[0]
+    # If a URL was found, create the <img> tag
     if output_image_url:
         print(f"Found visualization image URL: {output_image_url}")
+        # The CSS will style this `img` tag because of the `#vis_image_doc img` selector
         output_html = f'<img src="{output_image_url}" alt="Detection Visualization">'
     else:
         print("Warning: No visualization image URL found in the API response.")
     md_text = _escape_inequalities_in_math(md_text)
     return md_text or "(Empty result)", output_html, md_text
+# =========================
+# Handlers
+# =========================
 def handle_complex_doc(file_path: str, use_chart_recognition: bool) -> Tuple[str, str, str]:
     if not file_path: raise gr.Error("Please upload an image first.")
     data = _call_api(DEFAULT_API_URL, file_path, use_layout_detection=True, prompt_label=None, use_chart_recognition=use_chart_recognition)
     result = data.get("result", {})
+    # Note the return types now align with the new function signature
     return _process_api_response_page(result)
 def handle_targeted_recognition(file_path: str, prompt_choice: str) -> Tuple[str, str]:
 with gr.Blocks(head=GOOGLE_FONTS_URL, css=custom_css, theme=gr.themes.Soft()) as demo:
     logo_data_url = image_to_base64_data_url(LOGO_IMAGE_PATH) if os.path.exists(LOGO_IMAGE_PATH) else ""
     gr.HTML(f"""<div class="app-header"><img src="{logo_data_url}" alt="App Logo" style="max-height:10%; width: auto; margin: 10px auto; display: block;"></div>""")
+    gr.HTML("""<div class="notice"><strong>Heads up:</strong> The Hugging Face demo can be slow at times. For a faster experience, please try <a href="https://aistudio.baidu.com/application/detail/98365" target="_blank" rel="noopener noreferrer">Baidu AI Studio</a> or <a href="https://modelscope.cn/studios/PaddlePaddle/PaddleOCR-VL_Online_Demo/summary" target="_blank" rel="noopener noreferrer">ModelScope</a>.</div>""")
+    gr.HTML("""<div class="quick-links"><a href="https://github.com/PaddlePaddle/PaddleOCR" target="_blank">GitHub</a> | <a href="https://ernie.baidu.com/blog/publication/PaddleOCR-VL_Technical_Report.pdf" target="_blank">Technical Report</a> | <a href="https://huggingface.co/PaddlePaddle/PaddleOCR-VL" target="_blank">Model</a></div>""")
     with gr.Tabs():
         with gr.Tab("Document Parsing"):
                         with gr.Tab("Markdown Preview"):
                             md_preview_doc = gr.Markdown("Please upload an image and click 'Parse Document'.", latex_delimiters=LATEX_DELIMS, elem_id="md_preview_doc")
                         with gr.Tab("Visualization"):
+                            # 【核心改动点】: 将 gr.Image 替换为 gr.HTML
                             vis_image_doc = gr.HTML(label="Detection Visualization", elem_id="vis_image_doc")
                         with gr.Tab("Markdown Source"):
                             md_raw_doc = gr.Code(label="Markdown Source Code", language="markdown")
             btn_chart.click(fn=handle_targeted_recognition, inputs=[file_vl, gr.State("Chart Recognition")], outputs=[md_preview_vl, md_raw_vl])
 if __name__ == "__main__":
+    port = int(os.getenv("PORT", "8812"))
     demo.queue(max_size=64).launch(server_name="0.0.0.0", server_port=port,share=False)