Spaces:

ricklon
/

DeepSeek-OCR-2-Math

Running on Zero

App Files Files Community

ricklon commited on 7 days ago

Commit

7763137

1 Parent(s): d3dfd44

Preserve workspace zoom by delta-based region snapshots

Browse files

Files changed (1) hide show

app.py +101 -57

app.py CHANGED Viewed

@@ -1006,6 +1006,55 @@ def _component_boxes(binary_mask, min_pixels=24):
             boxes.append((min_x, min_y, max_x + 1, max_y + 1, count))
     return boxes
 def _extract_selected_regions(editor_value, base_size=None, base_image=None):
     if editor_value is None:
         return []
@@ -1017,14 +1066,10 @@ def _extract_selected_regions(editor_value, base_size=None, base_image=None):
     if not isinstance(editor_value, dict):
         return []
-    background = _to_rgba_image(editor_value.get("background"))
-    composite = _to_rgba_image(editor_value.get("composite"))
     layers = editor_value.get("layers") or []
     if background is None:
-        if composite is None:
-            return []
-        background = composite
     if not isinstance(layers, list) or not layers:
         # No annotation layers; treat as explicit crop only if size changed from base.
@@ -1034,39 +1079,34 @@ def _extract_selected_regions(editor_value, base_size=None, base_image=None):
         bbox = _locate_patch_bbox(base_image, patch) if base_image is not None else None
         return [(patch, bbox)]
-    alpha_acc = np.zeros((background.height, background.width), dtype=np.uint8)
-    for layer in layers:
-        layer_img = _to_rgba_image(layer)
-        if layer_img is None:
-            continue
-        if layer_img.size != background.size:
-            nearest = Image.Resampling.NEAREST if hasattr(Image, "Resampling") else Image.NEAREST
-            layer_img = layer_img.resize(background.size, nearest)
-        layer_alpha = np.asarray(layer_img, dtype=np.uint8)[:, :, 3]
-        alpha_acc = np.maximum(alpha_acc, layer_alpha)
-    components = _component_boxes(alpha_acc > 0, min_pixels=24)
-    if not components:
         return []
-    regions = []
-    for x1, y1, x2, y2, _ in components:
-        pad_x = max(2, int((x2 - x1) * 0.02))
-        pad_y = max(2, int((y2 - y1) * 0.02))
-        px1 = max(0, x1 - pad_x)
-        py1 = max(0, y1 - pad_y)
-        px2 = min(background.width, x2 + pad_x)
-        py2 = min(background.height, y2 + pad_y)
-        if px2 <= px1 or py2 <= py1:
-            continue
-        crop = background.crop((px1, py1, px2, py2)).convert("RGB")
-        regions.append((crop, (px1, py1, px2, py2)))
-    regions.sort(
-        key=lambda item: (item[1][2] - item[1][0]) * (item[1][3] - item[1][1]),
-        reverse=True,
-    )
-    return regions
 def _extract_selected_region(editor_value, base_size=None, base_image=None):
     regions = _extract_selected_regions(editor_value, base_size=base_size, base_image=base_image)
@@ -1093,14 +1133,6 @@ def _is_duplicate_bbox(candidate_bbox, existing_bbox):
     cover_cand, cover_exist = _bbox_overlap_ratio(candidate_bbox, existing_bbox)
     return iou >= 0.85 or cover_cand >= 0.92 or cover_exist >= 0.97
-def _clear_editor_overlays(editor_value):
-    if isinstance(editor_value, dict):
-        bg = _to_rgba_image(editor_value.get("background")) or _to_rgba_image(editor_value.get("composite"))
-        if isinstance(bg, Image.Image):
-            clean_bg = bg.convert("RGB")
-            return {"background": clean_bg, "layers": [], "composite": clean_bg}
-    return editor_value
 def _draw_selected_region_boxes(image, boxes):
     if image is None or not boxes:
         return None
@@ -1137,12 +1169,20 @@ def _label_gallery_items(items, prefix=None):
 def _reset_selected_regions():
     return [], [], "No saved regions."
-def add_selected_region(editor_value, base_size, base_image, selected_regions):
-    candidates = _extract_selected_regions(editor_value, base_size=base_size, base_image=base_image)
     regions = list(selected_regions or [])
     if not candidates:
         msg = "No region detected. Use Crop or draw/highlight a region first."
-        return regions, _region_gallery_items(regions), msg, editor_value
     existing_boxes = [r.get("bbox") for r in regions if r.get("bbox") is not None]
     added = 0
@@ -1156,17 +1196,18 @@ def add_selected_region(editor_value, base_size, base_image, selected_regions):
     if added == 0:
         msg = "No new region added. Draw one region, click Add Region, then draw the next region."
-        return regions, _region_gallery_items(regions), msg, editor_value
-    msg = f"Added {added} region(s). {len(regions)} total."
-    return regions, _region_gallery_items(regions), msg, _clear_editor_overlays(editor_value)
 def clear_selected_regions():
     return _reset_selected_regions()
-def clear_regions_and_editor(editor_value):
     regions, gallery_items, msg = _reset_selected_regions()
-    return regions, gallery_items, msg, _clear_editor_overlays(editor_value)
 def _compose_ui_outputs(cleaned, markdown, raw, img_out, gallery_items):
     text_display = re.sub(
@@ -1287,6 +1328,7 @@ with gr.Blocks(title="DeepSeek-OCR-2") as demo:
     workspace_base_size = gr.State(None)
     workspace_base_image = gr.State(None)
     selected_regions_state = gr.State([])
     with gr.Row():
         with gr.Column(scale=3):
@@ -1409,7 +1451,7 @@ with gr.Blocks(title="DeepSeek-OCR-2") as demo:
            - Optional rectangle selection: use the **Crop** tool.
            - Freehand/highlight ink is semi-transparent so underlying content stays visible.
            - Optional multi-select: click **Add Region** after each selection.
-           - After **Add Region**, drawing marks are cleared automatically so the next region stays separate.
            Then click **Extract**.
         4. Use **Clear Regions** to reset multi-select state.
         5. Review **Cropped Images** and **Boxes**: both are labeled `Region 1`, `Region 2`, etc.
@@ -1449,16 +1491,18 @@ with gr.Blocks(title="DeepSeek-OCR-2") as demo:
         region_editor.change(sync_workspace_state, [region_editor, workspace_base_image], [workspace_base_size, workspace_base_image])
         file_in.change(_reset_selected_regions, outputs=[selected_regions_state, selected_regions_gallery, selection_status])
         page_selector.change(_reset_selected_regions, outputs=[selected_regions_state, selected_regions_gallery, selection_status])
     add_region_btn.click(
         add_selected_region,
-        [region_editor, workspace_base_size, workspace_base_image, selected_regions_state],
-        [selected_regions_state, selected_regions_gallery, selection_status, region_editor],
     )
     clear_regions_btn.click(
-        clear_regions_and_editor,
         inputs=[region_editor],
-        outputs=[selected_regions_state, selected_regions_gallery, selection_status, region_editor],
     )
     def run(file_path, task, custom_prompt, page_num, enable_equation_zoom, detect_eq_lines, scope, region_value, base_size, base_image, selected_regions):

             boxes.append((min_x, min_y, max_x + 1, max_y + 1, count))
     return boxes
+def _extract_regions_from_mask(background, mask):
+    components = _component_boxes(mask, min_pixels=24)
+    if not components:
+        return []
+    regions = []
+    for x1, y1, x2, y2, _ in components:
+        pad_x = max(2, int((x2 - x1) * 0.02))
+        pad_y = max(2, int((y2 - y1) * 0.02))
+        px1 = max(0, x1 - pad_x)
+        py1 = max(0, y1 - pad_y)
+        px2 = min(background.width, x2 + pad_x)
+        py2 = min(background.height, y2 + pad_y)
+        if px2 <= px1 or py2 <= py1:
+            continue
+        crop = background.crop((px1, py1, px2, py2)).convert("RGB")
+        regions.append((crop, (px1, py1, px2, py2)))
+    regions.sort(
+        key=lambda item: (item[1][2] - item[1][0]) * (item[1][3] - item[1][1]),
+        reverse=True,
+    )
+    return regions
+def _editor_background_and_mask(editor_value):
+    if not isinstance(editor_value, dict):
+        return None, None
+    background = _to_rgba_image(editor_value.get("background"))
+    composite = _to_rgba_image(editor_value.get("composite"))
+    layers = editor_value.get("layers") or []
+    if background is None:
+        if composite is None:
+            return None, None
+        background = composite
+    if not isinstance(layers, list) or not layers:
+        return background, None
+    alpha_acc = np.zeros((background.height, background.width), dtype=np.uint8)
+    for layer in layers:
+        layer_img = _to_rgba_image(layer)
+        if layer_img is None:
+            continue
+        if layer_img.size != background.size:
+            nearest = Image.Resampling.NEAREST if hasattr(Image, "Resampling") else Image.NEAREST
+            layer_img = layer_img.resize(background.size, nearest)
+        layer_alpha = np.asarray(layer_img, dtype=np.uint8)[:, :, 3]
+        alpha_acc = np.maximum(alpha_acc, layer_alpha)
+    return background, (alpha_acc > 0)
 def _extract_selected_regions(editor_value, base_size=None, base_image=None):
     if editor_value is None:
         return []
     if not isinstance(editor_value, dict):
         return []
+    background, mask = _editor_background_and_mask(editor_value)
     layers = editor_value.get("layers") or []
     if background is None:
+        return []
     if not isinstance(layers, list) or not layers:
         # No annotation layers; treat as explicit crop only if size changed from base.
         bbox = _locate_patch_bbox(base_image, patch) if base_image is not None else None
         return [(patch, bbox)]
+    if mask is None:
         return []
+    return _extract_regions_from_mask(background, mask)
+def _extract_new_drawn_regions(editor_value, base_size=None, base_image=None, consumed_mask=None):
+    # For crop mode / explicit cropped image, fall back to classic extraction.
+    if isinstance(editor_value, Image.Image):
+        regions = _extract_selected_regions(editor_value, base_size=base_size, base_image=base_image)
+        return regions, consumed_mask
+    if not isinstance(editor_value, dict):
+        return [], consumed_mask
+    background, mask = _editor_background_and_mask(editor_value)
+    layers = editor_value.get("layers") or []
+    if background is None:
+        return [], consumed_mask
+    # If there are no drawn layers, treat as explicit crop mode.
+    if not isinstance(layers, list) or not layers or mask is None:
+        regions = _extract_selected_regions(editor_value, base_size=base_size, base_image=base_image)
+        return regions, consumed_mask
+    if consumed_mask is None or not isinstance(consumed_mask, np.ndarray) or consumed_mask.shape != mask.shape:
+        delta_mask = mask
+    else:
+        delta_mask = np.logical_and(mask, np.logical_not(consumed_mask))
+    regions = _extract_regions_from_mask(background, delta_mask)
+    return regions, mask
 def _extract_selected_region(editor_value, base_size=None, base_image=None):
     regions = _extract_selected_regions(editor_value, base_size=base_size, base_image=base_image)
     cover_cand, cover_exist = _bbox_overlap_ratio(candidate_bbox, existing_bbox)
     return iou >= 0.85 or cover_cand >= 0.92 or cover_exist >= 0.97
 def _draw_selected_region_boxes(image, boxes):
     if image is None or not boxes:
         return None
 def _reset_selected_regions():
     return [], [], "No saved regions."
+def _reset_drawn_mask():
+    return None
+def add_selected_region(editor_value, base_size, base_image, selected_regions, consumed_mask):
+    candidates, updated_mask = _extract_new_drawn_regions(
+        editor_value,
+        base_size=base_size,
+        base_image=base_image,
+        consumed_mask=consumed_mask,
+    )
     regions = list(selected_regions or [])
     if not candidates:
         msg = "No region detected. Use Crop or draw/highlight a region first."
+        return regions, _region_gallery_items(regions), msg, updated_mask
     existing_boxes = [r.get("bbox") for r in regions if r.get("bbox") is not None]
     added = 0
     if added == 0:
         msg = "No new region added. Draw one region, click Add Region, then draw the next region."
+        return regions, _region_gallery_items(regions), msg, updated_mask
+    msg = f"Added {added} region(s). {len(regions)} total. Zoom/pan is preserved."
+    return regions, _region_gallery_items(regions), msg, updated_mask
 def clear_selected_regions():
     return _reset_selected_regions()
+def clear_regions_preserve_view(editor_value):
     regions, gallery_items, msg = _reset_selected_regions()
+    _, mask = _editor_background_and_mask(editor_value)
+    return regions, gallery_items, msg, mask
 def _compose_ui_outputs(cleaned, markdown, raw, img_out, gallery_items):
     text_display = re.sub(
     workspace_base_size = gr.State(None)
     workspace_base_image = gr.State(None)
     selected_regions_state = gr.State([])
+    drawn_mask_state = gr.State(None)
     with gr.Row():
         with gr.Column(scale=3):
            - Optional rectangle selection: use the **Crop** tool.
            - Freehand/highlight ink is semi-transparent so underlying content stays visible.
            - Optional multi-select: click **Add Region** after each selection.
+           - **Add Region** snapshots only newly drawn pixels so zoom/pan stays in place while you continue selecting.
            Then click **Extract**.
         4. Use **Clear Regions** to reset multi-select state.
         5. Review **Cropped Images** and **Boxes**: both are labeled `Region 1`, `Region 2`, etc.
         region_editor.change(sync_workspace_state, [region_editor, workspace_base_image], [workspace_base_size, workspace_base_image])
         file_in.change(_reset_selected_regions, outputs=[selected_regions_state, selected_regions_gallery, selection_status])
         page_selector.change(_reset_selected_regions, outputs=[selected_regions_state, selected_regions_gallery, selection_status])
+        file_in.change(_reset_drawn_mask, outputs=[drawn_mask_state])
+        page_selector.change(_reset_drawn_mask, outputs=[drawn_mask_state])
     add_region_btn.click(
         add_selected_region,
+        [region_editor, workspace_base_size, workspace_base_image, selected_regions_state, drawn_mask_state],
+        [selected_regions_state, selected_regions_gallery, selection_status, drawn_mask_state],
     )
     clear_regions_btn.click(
+        clear_regions_preserve_view,
         inputs=[region_editor],
+        outputs=[selected_regions_state, selected_regions_gallery, selection_status, drawn_mask_state],
     )
     def run(file_path, task, custom_prompt, page_num, enable_equation_zoom, detect_eq_lines, scope, region_value, base_size, base_image, selected_regions):