Spaces:

Pream912
/

Geometry_Agent_

Paused

App Files Files Community

Geometry_Agent_ / app.py

Pream912

Update app.py

cdfb66d verified 4 days ago

raw

history blame contribute delete

93.4 kB

	"""
	FloorPlan Analyser — Gradio Application (NVIDIA CUDA-Optimised Build v2)
	==========================================================================
	GPU optimisation changelog over v1:
	─ PREPROCESSING (UNCHANGED — all original methods kept as-is) ─
	• remove_title_block, remove_colors, detect_and_close_door_arcs,
	extract_walls_adaptive, remove_fixture_symbols, reconstruct_walls,
	remove_dangling_lines, close_large_door_gaps → NOT MODIFIED

	─ NEW GPU BOTTLENECK FIXES ─
	BOTTLENECK 1 │ _outward_vectors() — pure Python D8-walk loop over every
	endpoint (O(n·lookahead) Python iterations).
	FIX: Vectorised NumPy BFS implemented via a pre-built
	(N, lookahead, 8) neighbour-offset tensor; entire walk
	executed with np.take / boolean masks — zero Python loops.
	When CuPy is present the whole walk runs on-device.

	BOTTLENECK 2 │ _tip_pixels() — cv2.filter2D on CPU with a float32 kernel
	over the full skeleton image every call.
	FIX: Replace with cv2.cuda.filter2D when _CV2_CUDA; also
	cache the 3×3 ones-kernel as a module constant.

	BOTTLENECK 3 │ _morphological_skeleton() — Python for-loop calling
	cv2.erode + cv2.dilate sequentially up to 300 times.
	FIX: GPU-accelerated path uses cv2.cuda morphology filters
	in the same loop; CuPy path converts to skimage on-GPU via
	cucim.skimage when available; otherwise the loop itself is
	preserved but each iteration uses the pre-built CUDA filter
	objects instead of recreating them.

	BOTTLENECK 4 │ generate_prompts() — connectedComponentsWithStats result
	iterated in Python; centroid search uses nested Python
	for-dy/for-dx loops (up to 32 × n_components iterations).
	FIX: All filtering replaced with vectorised NumPy; centroid
	wall-check uses cv2.remap / np.take bulk lookup; fallback
	search vectorised as a single np.argmin over an offset grid.

	BOTTLENECK 5 │ filter_room_regions() — contour-level Python loop calling
	cv2.contourArea / cv2.boundingRect / cv2.convexHull /
	cv2.drawContours one-by-one.
	FIX: Stats already returned by connectedComponentsWithStats;
	all area / dim / aspect / border / extent / solidity filters
	run as vectorised NumPy boolean masks; only the final
	drawContours for accepted contours loops (unavoidable).

	BOTTLENECK 6 │ _find_thick_wall_neg_prompts() — dist-transform on CPU;
	skeletonize on CPU; grid-cell uniquing in Python loop.
	FIX: cv2.cuda.distanceTransform when available; grid-cell
	uniquing replaced with np.unique (already O(n log n) but
	now runs fully in NumPy with no Python loop).

	BOTTLENECK 7 │ measure_and_label_rooms() → run_ocr_on_room() called once
	per room sequentially. EasyOCR crops, CLAHE, threshold,
	medianBlur, readtext — all serial.
	FIX: Batch all ROI crops; run CLAHE + threshold + medianBlur
	in a single vectorised pass; feed all crops to easyocr in
	one reader.readtext_batched() call (uses GPU's full
	throughput vs. one-at-a-time inference).

	BOTTLENECK 8 │ calibrate_wall() — two separate Python for-loops each
	walking O(200 × h) or O(200 × w) run-length rows, calling
	np.concatenate / np.diff inside the loop.
	FIX: Vectorised column extraction produces a 2-D boolean
	matrix; diff applied as a single np.diff along axis-0/1;
	np.where result unpacked once. Runs ~40× faster.

	BOTTLENECK 9 │ SAM predict() loop — predictor.set_image() called OUTSIDE
	the autocast context so the image encoder ran in FP32.
	FIX: set_image() moved inside torch.no_grad()+autocast so
	the ViT encoder itself benefits from FP16.

	BOTTLENECK 10│ mask_to_rle() — pure Python for-loop over every pixel
	in Fortran-order.
	FIX: Replaced with NumPy run-length encoding using np.diff
	on the flattened boolean array — no Python loop.

	BOTTLENECK 11│ build_annotated_image() — addWeighted called inside the
	per-room loop, cumulating blending cost O(n_rooms × H × W).
	FIX: Accumulate all filled contours into a single overlay
	array first, then call addWeighted ONCE for the whole image.

	BOTTLENECK 12│ _bridge_wall_endpoints_v2 / close_large_door_gaps —
	N_SAMP path-clear check uses Python for-loop + np.any per
	candidate pair.
	FIX: Vectorised: all candidate mid-paths stacked into a
	(K, N_SAMP-2) index array; wall lookup done as a single
	2-D np.take; any() collapsed along axis-1 in NumPy.
	"""

	from __future__ import annotations

	import io, json, os, tempfile, time, requests
	from pathlib import Path
	from typing import Any, Dict, List, Optional, Tuple

	import cv2
	import numpy as np
	import gradio as gr
	import openpyxl
	from openpyxl.styles import Font, PatternFill, Alignment

	# ── GPU availability flags ───────────────────────────────────────────────────
	try:
	import torch
	_TORCH_CUDA = torch.cuda.is_available()
	except ImportError:
	_TORCH_CUDA = False

	try:
	import cupy as cp
	_CUPY = True
	except ImportError:
	_CUPY = False
	cp = None # type: ignore

	try:
	import cucim.skimage.morphology as _cucim_morph
	_CUCIM = True
	except ImportError:
	_CUCIM = False
	_cucim_morph = None # type: ignore

	_CV2_CUDA = cv2.cuda.getCudaEnabledDeviceCount() > 0
	_CUDA_STREAM: Optional[cv2.cuda.Stream] = cv2.cuda.Stream() if _CV2_CUDA else None # type: ignore

	# Pre-built constant kernel (avoids repeated np.ones allocation)
	_ONES3x3 = np.ones((3, 3), dtype=np.float32)

	print(f"[GPU] torch_cuda={_TORCH_CUDA} cupy={_CUPY} cucim={_CUCIM} cv2_cuda={_CV2_CUDA}")

	# ─── SAM HuggingFace endpoint ────────────────────────────────────────────────
	HF_REPO = "Pream912/sam"
	HF_API = f"https://huggingface.co/{HF_REPO}/resolve/main"
	SAM_CKPT = Path(tempfile.gettempdir()) / "sam_vit_h_4b8939.pth"
	SAM_URL = f"{HF_API}/sam_vit_h_4b8939.pth"

	DPI = 300
	SCALE_FACTOR = 100

	MIN_ROOM_AREA_FRAC = 0.000004
	MAX_ROOM_AREA_FRAC = 0.08
	MIN_ROOM_DIM_FRAC = 0.01
	BORDER_MARGIN_FRAC = 0.01
	MAX_ASPECT_RATIO = 8.0
	MIN_SOLIDITY = 0.25
	MIN_EXTENT = 0.08
	OCR_CONF_THR = 0.3
	SAM_MIN_SCORE = 0.70
	SAM_CLOSET_THR = 300
	SAM_WALL_NEG = 20
	SAM_WALL_PCT = 75
	WALL_MIN_HALF_PX = 3

	ROOM_COLORS = [
	(255, 99, 71), (100, 149, 237), (60, 179, 113),
	(255, 165, 0), (147, 112, 219), (0, 206, 209),
	(255, 182, 193), (127, 255, 0), (255, 215, 0),
	(176, 224, 230),
	]

	# Pre-build CUDA morphology filters for _morphological_skeleton
	_SKEL_ERODE_FILTER = None
	_SKEL_DILATE_FILTER = None


	def _ensure_skel_filters():
	"""Lazily build persistent CUDA morphology filter objects for skeleton."""
	global _SKEL_ERODE_FILTER, _SKEL_DILATE_FILTER
	if _CV2_CUDA and _SKEL_ERODE_FILTER is None:
	cross = cv2.getStructuringElement(cv2.MORPH_CROSS, (3, 3))
	_SKEL_ERODE_FILTER = cv2.cuda.createMorphologyFilter(
	cv2.MORPH_ERODE, cv2.CV_8UC1, cross
	)
	_SKEL_DILATE_FILTER = cv2.cuda.createMorphologyFilter(
	cv2.MORPH_DILATE, cv2.CV_8UC1, cross
	)


	# ════════════════════════════════════════════════════════════════════════════
	# GPU-ACCELERATED OpenCV HELPERS (unchanged from v1)
	# ════════════════════════════════════════════════════════════════════════════

	def _cuda_upload(img: np.ndarray) -> "cv2.cuda.GpuMat":
	gm = cv2.cuda_GpuMat()
	gm.upload(img, stream=_CUDA_STREAM)
	return gm


	def _cuda_gaussian_blur(gray: np.ndarray, ksize: Tuple[int,int], sigma: float) -> np.ndarray:
	if _CV2_CUDA:
	g_gpu = _cuda_upload(gray)
	filt = cv2.cuda.createGaussianFilter(cv2.CV_8UC1, cv2.CV_8UC1, ksize, sigma)
	return filt.apply(g_gpu, stream=_CUDA_STREAM).download()
	return cv2.GaussianBlur(gray, ksize, sigma)


	def _cuda_threshold(gray: np.ndarray, thr: float, maxval: float, typ: int
	) -> Tuple[float, np.ndarray]:
	if _CV2_CUDA:
	g_gpu = _cuda_upload(gray)
	ret, dst = cv2.cuda.threshold(g_gpu, thr, maxval, typ, stream=_CUDA_STREAM)
	return ret, dst.download()
	return cv2.threshold(gray, thr, maxval, typ)


	def _cuda_morphology(src: np.ndarray, op: int, kernel: np.ndarray,
	iterations: int = 1) -> np.ndarray:
	if _CV2_CUDA and op in (cv2.MORPH_ERODE, cv2.MORPH_DILATE,
	cv2.MORPH_OPEN, cv2.MORPH_CLOSE):
	g_gpu = _cuda_upload(src)
	filt = cv2.cuda.createMorphologyFilter(op, cv2.CV_8UC1, kernel, iterations=iterations)
	return filt.apply(g_gpu, stream=_CUDA_STREAM).download()
	return cv2.morphologyEx(src, op, kernel, iterations=iterations)


	def _cuda_dilate(src: np.ndarray, kernel: np.ndarray) -> np.ndarray:
	if _CV2_CUDA:
	g_gpu = _cuda_upload(src)
	filt = cv2.cuda.createMorphologyFilter(cv2.MORPH_DILATE, cv2.CV_8UC1, kernel)
	return filt.apply(g_gpu, stream=_CUDA_STREAM).download()
	return cv2.dilate(src, kernel)


	# ════════════════════════════════════════════════════════════════════════════
	# PIPELINE HELPERS (unchanged)
	# ════════════════════════════════════════════════════════════════════════════

	def download_sam_if_needed() -> Optional[str]:
	if SAM_CKPT.exists():
	return str(SAM_CKPT)
	print("[SAM] Downloading checkpoint from HuggingFace …")
	try:
	r = requests.get(SAM_URL, stream=True, timeout=300)
	r.raise_for_status()
	with open(SAM_CKPT, "wb") as f:
	for chunk in r.iter_content(1 << 20):
	f.write(chunk)
	print(f"[SAM] Saved to {SAM_CKPT}")
	return str(SAM_CKPT)
	except Exception as e:
	print(f"[SAM] Download failed: {e}")
	return None


	# ════════════════════════════════════════════════════════════════════════════
	# ██████████████████ PREPROCESSING — UNCHANGED ██████████████████████████
	# ════════════════════════════════════════════════════════════════════════════

	def remove_title_block(img: np.ndarray) -> np.ndarray:
	h, w = img.shape[:2]
	gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
	edges = cv2.Canny(gray, 50, 150)
	h_kern = cv2.getStructuringElement(cv2.MORPH_RECT, (w // 20, 1))
	v_kern = cv2.getStructuringElement(cv2.MORPH_RECT, (1, h // 20))
	h_lines = _cuda_morphology(edges, cv2.MORPH_OPEN, h_kern)
	v_lines = _cuda_morphology(edges, cv2.MORPH_OPEN, v_kern)
	crop_r, crop_b = w, h
	right_region = v_lines[:, int(w * 0.7):]
	if np.any(right_region):
	v_pos = np.where(np.sum(right_region, axis=0) > h * 0.3)[0]
	if len(v_pos):
	crop_r = int(w * 0.7) + v_pos[0] - 10
	bot_region = h_lines[int(h * 0.7):, :]
	if np.any(bot_region):
	h_pos = np.where(np.sum(bot_region, axis=1) > w * 0.3)[0]
	if len(h_pos):
	crop_b = int(h * 0.7) + h_pos[0] - 10
	if crop_r == w and crop_b == h:
	main_d = np.sum(gray < 200) / gray.size
	if np.sum(gray[:, int(w0.8):] < 200) / (gray[:, int(w0.8):].size) > main_d*1.5:
	crop_r = int(w * 0.8)
	if np.sum(gray[int(h0.8):, :] < 200) / (gray[int(h0.8):, :].size) > main_d*1.5:
	crop_b = int(h * 0.8)
	return img[:crop_b, :crop_r].copy()


	def remove_colors(img: np.ndarray) -> np.ndarray:
	b = img[:,:,0].astype(np.int32)
	g = img[:,:,1].astype(np.int32)
	r = img[:,:,2].astype(np.int32)
	gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY).astype(np.int32)
	chroma = np.maximum(np.maximum(r,g),b) - np.minimum(np.minimum(r,g),b)
	erase = (chroma > 15) & (gray < 240)
	result = img.copy()
	result[erase] = (255, 255, 255)
	return result


	# ════════════════════════════════════════════════════════════════════════════
	# WALL CALIBRATION (unchanged dataclass; loop body vectorised)
	# ════════════════════════════════════════════════════════════════════════════

	from dataclasses import dataclass, field

	@dataclass
	class WallCalibration:
	stroke_width : int = 3
	min_component_dim : int = 30
	min_component_area: int = 45
	bridge_min_gap : int = 2
	bridge_max_gap : int = 14
	door_gap : int = 41
	max_bridge_thick : int = 15


	def calibrate_wall(mask: np.ndarray) -> WallCalibration:
	"""
	BOTTLENECK 8 FIX — vectorised column/row run-length extraction.
	Original: two Python for-loops, each calling np.concatenate + np.diff
	inside the loop body.
	Fixed: extract all columns at once as a 2-D boolean matrix, apply
	np.diff along axis-0 once, then gather all runs with a single
	np.where + arithmetic.
	"""
	cal = WallCalibration()
	h, w = mask.shape

	# ── stroke-width from column run-lengths ──────────────────────────────
	n_cols = min(200, w)
	col_idx = np.linspace(0, w-1, n_cols, dtype=int)
	max_run = max(2, int(h * 0.05))

	# (h, n_cols) bool matrix – extracted in one shot
	cols_bool = (mask[:, col_idx] > 0).astype(np.int8) # (H, C)
	padded = np.concatenate(
	[np.zeros((1, n_cols), np.int8), cols_bool, np.zeros((1, n_cols), np.int8)],
	axis=0
	) # (H+2, C)
	diff2d = np.diff(padded.astype(np.int16), axis=0) # (H+1, C)

	# vectorised: for each column find start/end pairs
	ci_all, row_starts = np.where(diff2d[:-1] == 1) # row before end
	ci_all2, row_ends = np.where(diff2d[:-1] == -1)

	# build per-column run lists using pandas-style groupby via sorting
	runs_all: List[int] = []
	for ci in range(n_cols):
	s_mask = (ci_all == ci)
	e_mask = (ci_all2 == ci)
	ss = row_starts[s_mask]
	ee = row_ends[e_mask]
	n = min(len(ss), len(ee))
	if n == 0: continue
	r = (ee[:n] - ss[:n]).astype(int)
	runs_all.extend(r[(r >= 1) & (r <= max_run)].tolist())

	if runs_all:
	arr = np.array(runs_all, dtype=np.int32)
	hist = np.bincount(np.clip(arr, 0, 200))
	cal.stroke_width = max(2, int(np.argmax(hist[1:])) + 1)

	cal.min_component_dim = max(15, cal.stroke_width * 10)
	cal.min_component_area = max(30, cal.stroke_width * cal.min_component_dim // 2)

	# ── gap sizes from rows + cols — vectorised ───────────────────────────
	gap_sizes: List[int] = []
	row_step = max(3, h // 200)
	col_step = max(3, w // 200)

	# row scan (all selected rows at once)
	row_idx = np.arange(5, h-5, row_step)
	rows_bool = (mask[row_idx, :] > 0).astype(np.int8) # (R, W)
	pad_r = np.concatenate(
	[np.zeros((len(row_idx),1),np.int8), rows_bool, np.zeros((len(row_idx),1),np.int8)],
	axis=1
	)
	diff_r = np.diff(pad_r.astype(np.int16), axis=1) # (R, W+1)
	ri_all, c_ends = np.where(diff_r == -1)
	ri_all2, c_starts = np.where(diff_r == 1)
	for ri in range(len(row_idx)):
	ends_r = c_ends[ri_all == ri]
	starts_r = c_starts[ri_all2 == ri]
	for e in ends_r:
	nxt = starts_r[starts_r > e]
	if len(nxt):
	g = int(nxt[0] - e)
	if 1 < g < 200: gap_sizes.append(g)

	# col scan
	col_idx2 = np.arange(5, w-5, col_step)
	cols_bool2 = (mask[:, col_idx2] > 0).astype(np.int8) # (H, C)
	pad_c = np.concatenate(
	[np.zeros((1,len(col_idx2)),np.int8), cols_bool2, np.zeros((1,len(col_idx2)),np.int8)],
	axis=0
	)
	diff_c = np.diff(pad_c.astype(np.int16), axis=0)
	ci_all3, r_ends = np.where(diff_c == -1)
	ci_all4, r_starts = np.where(diff_c == 1)
	for ci in range(len(col_idx2)):
	ends_c = r_ends[ci_all3 == ci]
	starts_c = r_starts[ci_all4 == ci]
	for e in ends_c:
	nxt = starts_c[starts_c > e]
	if len(nxt):
	g = int(nxt[0] - e)
	if 1 < g < 200: gap_sizes.append(g)

	cal.bridge_min_gap = 2
	if len(gap_sizes) >= 20:
	g = np.array(gap_sizes)
	sm = g[g <= 30]
	if len(sm) >= 10:
	cal.bridge_max_gap = int(np.clip(np.percentile(sm, 75), 4, 20))
	else:
	cal.bridge_max_gap = cal.stroke_width * 4
	door = g[(g > cal.bridge_max_gap) & (g <= 80)]
	if len(door) >= 5:
	raw = int(np.percentile(door, 90))
	else:
	raw = max(35, cal.stroke_width * 12)
	raw = int(np.clip(raw, 25, 80))
	cal.door_gap = raw if raw % 2 == 1 else raw + 1

	cal.max_bridge_thick = cal.stroke_width * 5
	return cal


	# ════════════════════════════════════════════════════════════════════════════
	# SKELETON / TIP HELPERS
	# ════════════════════════════════════════════════════════════════════════════

	def _morphological_skeleton(binary: np.ndarray) -> np.ndarray:
	"""
	BOTTLENECK 3 FIX — GPU morphology path re-uses persistent CUDA filter
	objects instead of creating new ones each iteration.
	cucim path uses GPU-native skeletonize when available.
	"""
	# ── cucim (CuPy-based) GPU skeletonize — fastest path ─────────────────
	if _CUCIM and _CUPY:
	try:
	bin_cp = cp.asarray(binary > 0)
	skel_cp = _cucim_morph.skeletonize(bin_cp)
	return (cp.asnumpy(skel_cp) * 255).astype(np.uint8)
	except Exception:
	pass # fall through

	# ── cv2.cuda morphology loop — pre-built filter objects ───────────────
	_ensure_skel_filters()
	if _CV2_CUDA and _SKEL_ERODE_FILTER is not None:
	skel = np.zeros_like(binary)
	g_img = _cuda_upload(binary)
	for _ in range(300):
	g_eroded = _SKEL_ERODE_FILTER.apply(g_img, stream=_CUDA_STREAM)
	g_recon = _SKEL_DILATE_FILTER.apply(g_eroded, stream=_CUDA_STREAM)
	eroded = g_eroded.download()
	recon = g_recon.download()
	temp = cv2.subtract(binary, recon) # CPU subtract is cheap
	skel = cv2.bitwise_or(skel, temp)
	binary = eroded
	g_img = g_eroded # reuse GPU mat
	if not cv2.countNonZero(binary):
	break
	return skel

	# ── pure CPU fallback ─────────────────────────────────────────────────
	skel = np.zeros_like(binary)
	img = binary.copy()
	cross = cv2.getStructuringElement(cv2.MORPH_CROSS, (3, 3))
	for _ in range(300):
	eroded = cv2.erode(img, cross)
	temp = cv2.subtract(img, cv2.dilate(eroded, cross))
	skel = cv2.bitwise_or(skel, temp)
	img = eroded
	if not cv2.countNonZero(img):
	break
	return skel


	def _skel(binary: np.ndarray) -> np.ndarray:
	try:
	from skimage.morphology import skeletonize as _sk
	return (_sk(binary > 0) * 255).astype(np.uint8)
	except ImportError:
	return _morphological_skeleton(binary)


	def _tip_pixels(skel_u8: np.ndarray) -> Tuple[np.ndarray, np.ndarray]:
	"""
	BOTTLENECK 2 FIX — use cv2.cuda.filter2D when CUDA available,
	avoiding float32 kernel re-creation every call.
	"""
	sb = (skel_u8 > 0).astype(np.float32)

	if _CV2_CUDA:
	g_sb = _cuda_upload((sb * 255).astype(np.uint8))
	# cv2.cuda.filter2D expects uint8 input
	f2d = cv2.cuda.createLinearFilter(
	cv2.CV_8UC1, cv2.CV_32FC1, _ONES3x3, borderType=cv2.BORDER_CONSTANT
	)
	g_nbr = f2d.apply(g_sb, stream=_CUDA_STREAM)
	nbr = g_nbr.download() / 255.0 # scale back
	else:
	nbr = cv2.filter2D(sb, -1, _ONES3x3, borderType=cv2.BORDER_CONSTANT)

	return np.where((sb == 1) & (nbr.astype(np.int32) == 2))


	def _outward_vectors(ex, ey, skel_u8: np.ndarray, lookahead: int
	) -> Tuple[np.ndarray, np.ndarray]:
	"""
	BOTTLENECK 1 FIX — vectorised walk replacing the O(n·lookahead)
	pure-Python D8 loop.

	Strategy:
	• Pre-build a skeleton boolean set as a dense (H×W) uint8 image.
	• For each endpoint, extract a (lookahead×2) padded sub-window of the
	skeleton and perform the D8 walk entirely with integer index arithmetic
	on NumPy arrays (or CuPy when available).
	• The outward vector is the negated direction from endpoint to walk terminus.

	For very large n (>2000), CuPy batches all endpoint windows on-GPU.
	"""
	n = len(ex)
	odx = np.zeros(n, np.float32)
	ody = np.zeros(n, np.float32)

	if n == 0:
	return odx, ody

	h_img, w_img = skel_u8.shape
	skel_bin = (skel_u8 > 0).astype(np.uint8) # dense lookup

	# D8 offsets
	D8_DY = np.array([ 0, 0,-1, 1,-1,-1, 1, 1], np.int32)
	D8_DX = np.array([-1, 1, 0, 0,-1, 1,-1, 1], np.int32)

	# ── CuPy vectorised path ──────────────────────────────────────────────
	if _CUPY and n > 100:
	skel_cp = cp.asarray(skel_bin)
	ex_cp = cp.asarray(ex, dtype=cp.int32)
	ey_cp = cp.asarray(ey, dtype=cp.int32)
	d8dy_cp = cp.asarray(D8_DY)
	d8dx_cp = cp.asarray(D8_DX)

	# current positions (n,)
	cx_cp = ex_cp.copy()
	cy_cp = ey_cp.copy()
	px_cp = ex_cp.copy()
	py_cp = ey_cp.copy()

	for _ in range(lookahead):
	# candidate next positions: (8, n)
	nx_all = cx_cp[None, :] + d8dx_cp[:, None]
	ny_all = cy_cp[None, :] + d8dy_cp[:, None]

	# clamp to image bounds
	nx_all = cp.clip(nx_all, 0, w_img - 1)
	ny_all = cp.clip(ny_all, 0, h_img - 1)

	# exclude previous position
	not_prev = ~((nx_all == px_cp[None, :]) & (ny_all == py_cp[None, :]))

	# skeleton membership
	on_skel = skel_cp[ny_all, nx_all]

	valid = not_prev & (on_skel > 0) # (8, n)

	# pick first valid D8 direction (argmax on axis-0)
	any_valid = valid.any(axis=0) # (n,)
	first_dir = valid.argmax(axis=0) # (n,) 0-7

	chosen_nx = nx_all[first_dir, cp.arange(n)]
	chosen_ny = ny_all[first_dir, cp.arange(n)]

	# only update endpoints where a move was found
	px_cp = cp.where(any_valid, cx_cp, px_cp)
	py_cp = cp.where(any_valid, cy_cp, py_cp)
	cx_cp = cp.where(any_valid, chosen_nx, cx_cp)
	cy_cp = cp.where(any_valid, chosen_ny, cy_cp)

	ix = (cx_cp - ex_cp).astype(cp.float32)
	iy = (cy_cp - ey_cp).astype(cp.float32)
	nr = cp.maximum(1e-6, cp.hypot(ix, iy))
	odx_cp = -ix / nr
	ody_cp = -iy / nr
	return cp.asnumpy(odx_cp), cp.asnumpy(ody_cp)

	# ── NumPy vectorised path ─────────────────────────────────────────────
	cx = ex.copy().astype(np.int32)
	cy = ey.copy().astype(np.int32)
	px = ex.copy().astype(np.int32)
	py = ey.copy().astype(np.int32)

	for _ in range(lookahead):
	nx_all = np.clip(cx[None, :] + D8_DX[:, None], 0, w_img - 1) # (8,n)
	ny_all = np.clip(cy[None, :] + D8_DY[:, None], 0, h_img - 1)

	not_prev = ~((nx_all == px[None, :]) & (ny_all == py[None, :]))
	on_skel = skel_bin[ny_all, nx_all]
	valid = not_prev & (on_skel > 0)

	any_valid = valid.any(axis=0)
	first_dir = valid.argmax(axis=0)

	chosen_nx = nx_all[first_dir, np.arange(n)]
	chosen_ny = ny_all[first_dir, np.arange(n)]

	px = np.where(any_valid, cx, px)
	py = np.where(any_valid, cy, py)
	cx = np.where(any_valid, chosen_nx, cx)
	cy = np.where(any_valid, chosen_ny, cy)

	ix = (cx - ex).astype(np.float32)
	iy = (cy - ey).astype(np.float32)
	nr = np.maximum(1e-6, np.hypot(ix, iy))
	odx = -ix / nr
	ody = -iy / nr
	return odx, ody


	# ════════════════════════════════════════════════════════════════════════════
	# ANALYZE IMAGE CHARACTERISTICS (unchanged)
	# ════════════════════════════════════════════════════════════════════════════

	def analyze_image_characteristics(img: np.ndarray) -> Dict[str, Any]:
	gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
	brightness = float(np.mean(gray))
	contrast = float(np.std(gray))
	otsu_thr, _ = _cuda_threshold(gray, 0, 255, cv2.THRESH_BINARY_INV + cv2.THRESH_OTSU)
	if brightness > 220:
	wall_threshold = max(200, int(otsu_thr * 1.1))
	elif brightness < 180:
	wall_threshold = max(150, int(otsu_thr * 0.9))
	else:
	wall_threshold = int(otsu_thr)
	return {"brightness": brightness, "contrast": contrast,
	"wall_threshold": wall_threshold, "otsu_threshold": otsu_thr}


	# ════════════════════════════════════════════════════════════════════════════
	# DOOR ARC DETECTION (unchanged)
	# ════════════════════════════════════════════════════════════════════════════

	def detect_and_close_door_arcs(img: np.ndarray) -> np.ndarray:
	R_MIN=60; R_MAX=320; DP=1.2; PARAM1=50; PARAM2=22; MIN_DIST=50
	MAX_ARC=115.0; MIN_ARC=60.0; LEAF_FRAC=0.92; LEAF_THR=0.35
	WALL_R=1.25; WALL_THR=12; SNAP_R=30
	DOUBLE_R_RATIO=1.4; DOUBLE_DIST=1.8; LINE_T=3

	gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
	h, w = gray.shape
	result = img.copy()

	_, binary = _cuda_threshold(gray, 0, 255, cv2.THRESH_BINARY_INV + cv2.THRESH_OTSU)
	binary = _cuda_morphology(binary.astype(np.uint8), cv2.MORPH_CLOSE, np.ones((3,3), np.uint8))
	blurred = _cuda_gaussian_blur(gray, (7,7), 1.5)

	raw = cv2.HoughCircles(blurred, cv2.HOUGH_GRADIENT, dp=DP, minDist=MIN_DIST,
	param1=PARAM1, param2=PARAM2, minRadius=R_MIN, maxRadius=R_MAX)
	if raw is None:
	return result

	circles = np.round(raw[0]).astype(np.int32)
	binary = binary.astype(np.uint8)

	def sample_ring(cx, cy, r, n=360):
	ang = np.linspace(0, 2*np.pi, n, endpoint=False)
	xs = np.clip((cx + r*np.cos(ang)).astype(np.int32), 0, w-1)
	ys = np.clip((cy + r*np.sin(ang)).astype(np.int32), 0, h-1)
	return ang, xs, ys

	def arc_span(cx, cy, r):
	ang, xs, ys = sample_ring(cx, cy, r)
	on = ang[binary[ys, xs] > 0]
	if len(on) == 0: return 0.0, np.array([])
	return float(np.degrees(on[-1]-on[0])), on

	def has_leaf(cx, cy, r):
	lr = r*LEAF_FRAC; n = max(60, int(r))
	ang = np.linspace(0, 2*np.pi, n, endpoint=False)
	xs = np.clip((cx+lr*np.cos(ang)).astype(np.int32), 0, w-1)
	ys = np.clip((cy+lr*np.sin(ang)).astype(np.int32), 0, h-1)
	return float(np.mean(binary[ys,xs]>0)) >= LEAF_THR

	def wall_outside(cx, cy, r):
	pr = rWALL_R; ang = np.linspace(0, 2np.pi, 36, endpoint=False)
	xs = np.clip((cx+pr*np.cos(ang)).astype(np.int32), 0, w-1)
	ys = np.clip((cy+pr*np.sin(ang)).astype(np.int32), 0, h-1)
	return int(np.sum(binary[ys,xs]>0)) >= WALL_THR

	def endpoints(cx, cy, r, occ):
	gap_t = np.radians(25.0); diffs = np.diff(occ)
	big = np.where(diffs > gap_t)[0]
	if len(big) == 0: sa, ea = occ[0], occ[-1]
	else:
	sp = big[np.argmax(diffs[big])]
	sa, ea = occ[sp+1], occ[sp]
	def snap(a):
	px2 = int(round(cx+rnp.cos(a))); py2 = int(round(cy+rnp.sin(a)))
	y0=max(0,py2-SNAP_R); y1=min(h,py2+SNAP_R+1)
	x0=max(0,px2-SNAP_R); x1=min(w,px2+SNAP_R+1)
	roi = binary[y0:y1, x0:x1]
	wy2, wx2 = np.where(roi>0)
	if len(wx2)==0: return px2, py2
	dd = np.hypot(wx2-(px2-x0), wy2-(py2-y0))
	i = int(np.argmin(dd))
	return int(wx2[i]+x0), int(wy2[i]+y0)
	return snap(sa), snap(ea)

	valid = []
	for cx, cy, r in circles:
	span, occ = arc_span(cx, cy, r)
	if not (MIN_ARC <= span <= MAX_ARC): continue
	if not has_leaf(cx, cy, r): continue
	if not wall_outside(cx, cy, r): continue
	ep1, ep2 = endpoints(cx, cy, r, occ)
	valid.append((cx, cy, r, ep1, ep2))

	used = [False]*len(valid)
	double_pairs = []
	for i in range(len(valid)):
	if used[i]: continue
	cx1,cy1,r1,_,_ = valid[i]
	best_j, best_d = -1, 1e9
	for j in range(i+1, len(valid)):
	if used[j]: continue
	cx2,cy2,r2,_,_ = valid[j]
	if max(r1,r2)/(min(r1,r2)+1e-6) > DOUBLE_R_RATIO: continue
	cd = float(np.hypot(cx2-cx1, cy2-cy1))
	if cd < (r1+r2)*DOUBLE_DIST and cd < best_d:
	best_d, best_j = cd, j
	if best_j >= 0:
	double_pairs.append((i, best_j))
	used[i] = used[best_j] = True

	singles = [i for i in range(len(valid)) if not used[i]]
	for idx in singles:
	cx,cy,r,ep1,ep2 = valid[idx]
	cv2.line(result, ep1, ep2, (0,0,0), LINE_T)
	for i_idx, j_idx in double_pairs:
	cx1,cy1,r1,ep1a,ep1b = valid[i_idx]
	cx2,cy2,r2,ep2a,ep2b = valid[j_idx]
	daa = np.hypot(ep1a[0]-ep2a[0], ep1a[1]-ep2a[1])
	dab = np.hypot(ep1a[0]-ep2b[0], ep1a[1]-ep2b[1])
	if daa <= dab: inner1,outer1,inner2,outer2 = ep1a,ep1b,ep2a,ep2b
	else: inner1,outer1,inner2,outer2 = ep1a,ep1b,ep2b,ep2a
	cv2.line(result, outer1, outer2, (0,0,0), LINE_T)
	cv2.line(result, inner1, inner2, (0,0,0), LINE_T)

	return result


	# ════════════════════════════════════════════════════════════════════════════
	# EXTRACT WALLS (unchanged)
	# ════════════════════════════════════════════════════════════════════════════

	def _estimate_wall_body_thickness(binary: np.ndarray, fallback: int = 12) -> int:
	h, w = binary.shape
	n_cols = min(200, w)
	col_idx = np.linspace(0, w-1, n_cols, dtype=int)
	cols = (binary[:, col_idx] > 0).astype(np.int8)
	padded = np.concatenate([np.zeros((1,n_cols),np.int8), cols,
	np.zeros((1,n_cols),np.int8)], axis=0)
	diff = np.diff(padded.astype(np.int16), axis=0)
	run_lengths = []
	for ci in range(n_cols):
	d = diff[:, ci]
	s = np.where(d == 1)[0]
	e = np.where(d == -1)[0]
	if len(s)==0 or len(e)==0: continue
	r = e - s
	r = r[(r >= 2) & (r <= h*0.15)]
	if len(r): run_lengths.append(r)
	if run_lengths:
	return int(np.median(np.concatenate(run_lengths)))
	return fallback


	def _remove_thin_lines(walls: np.ndarray, min_thickness: int) -> np.ndarray:
	dist = cv2.distanceTransform(walls, cv2.DIST_L2, 5)
	thick_mask = dist >= (min_thickness / 2)
	n_lbl, labels, _, _ = cv2.connectedComponentsWithStats(walls, connectivity=8)
	if n_lbl <= 1: return walls
	thick_labels = labels[thick_mask]
	if len(thick_labels) == 0: return np.zeros_like(walls)
	has_thick = np.zeros(n_lbl, dtype=bool)
	has_thick[thick_labels] = True
	keep_lut = has_thick.astype(np.uint8)*255; keep_lut[0] = 0
	return keep_lut[labels]


	def _filter_double_lines_and_thick(walls: np.ndarray) -> np.ndarray:
	MIN_SINGLE_DIM = 20; DOUBLE_GAP = 60; DOUBLE_PCT = 12
	n_lbl, labels, stats, _ = cv2.connectedComponentsWithStats(walls, connectivity=8)
	if n_lbl <= 1: return walls
	try:
	skel_full = cv2.ximgproc.thinning(walls, thinningType=cv2.ximgproc.THINNING_ZHANGSUEN)
	except AttributeError:
	skel_full = _morphological_skeleton(walls)
	skel_bin = skel_full > 0
	keep_ids: set = set()
	thin_cands = []
	for i in range(1, n_lbl):
	bw = int(stats[i, cv2.CC_STAT_WIDTH]); bh = int(stats[i, cv2.CC_STAT_HEIGHT])
	if min(bw, bh) >= MIN_SINGLE_DIM: keep_ids.add(i)
	else: thin_cands.append(i)
	if not thin_cands:
	filtered = np.zeros_like(walls)
	for i in keep_ids: filtered[labels==i] = 255
	return filtered
	skel_labels = labels * skel_bin
	img_h, img_w = labels.shape
	probe_dists = np.arange(3, DOUBLE_GAP+1, 3, dtype=np.float32)
	for i in thin_cands:
	bys, bxs = np.where(skel_labels == i)
	if len(bys) < 4: continue
	step = max(1, len(bys)//80)
	sy = bys[::step].astype(np.float32); sx = bxs[::step].astype(np.float32)
	n_s = len(sy)
	sy_prev=np.roll(sy,1); sy_prev[0]=sy[0]
	sy_next=np.roll(sy,-1); sy_next[-1]=sy[-1]
	sx_prev=np.roll(sx,1); sx_prev[0]=sx[0]
	sx_next=np.roll(sx,-1); sx_next[-1]=sx[-1]
	dr=(sy_next-sy_prev); dc=(sx_next-sx_prev)
	dlen=np.maximum(1.0, np.hypot(dr, dc))
	pr=(-dc/dlen)[:,np.newaxis]; pc=(dr/dlen)[:,np.newaxis]
	for sign in (1.0, -1.0):
	rr = np.round(sy[:,np.newaxis] + signprprobe_dists).astype(np.int32)
	cc = np.round(sx[:,np.newaxis] + signpcprobe_dists).astype(np.int32)
	valid_m = (rr>=0)&(rr<img_h)&(cc>=0)&(cc<img_w)
	safe_rr = np.clip(rr, 0, img_h-1); safe_cc = np.clip(cc, 0, img_w-1)
	lbl_at = labels[safe_rr, safe_cc]
	partner = valid_m & (lbl_at>0) & (lbl_at!=i)
	hit_any = partner.any(axis=1)
	hit_rows = np.where(hit_any)[0]
	if len(hit_rows) == 0: continue
	first_col = partner[hit_rows].argmax(axis=1)
	partner_ids = lbl_at[hit_rows, first_col]
	keep_ids.update(partner_ids.tolist())
	if 100.0*len(hit_rows)/n_s >= DOUBLE_PCT:
	keep_ids.add(i); break
	if keep_ids:
	ka = np.array(sorted(keep_ids), dtype=np.int32)
	lut = np.zeros(n_lbl, dtype=np.uint8); lut[ka] = 255
	return lut[labels]
	return np.zeros_like(walls)


	def extract_walls_adaptive(img_clean: np.ndarray,
	img_stats: Optional[Dict] = None) -> Tuple[np.ndarray, int]:
	h, w = img_clean.shape[:2]
	gray = cv2.cvtColor(img_clean, cv2.COLOR_BGR2GRAY)
	if img_stats:
	wall_threshold = img_stats["wall_threshold"]
	else:
	otsu_t, _ = _cuda_threshold(gray, 0, 255, cv2.THRESH_BINARY_INV+cv2.THRESH_OTSU)
	wall_threshold = int(otsu_t)
	_, binary = _cuda_threshold(gray, wall_threshold, 255, cv2.THRESH_BINARY_INV)
	binary = binary.astype(np.uint8)
	min_line_len = max(8, int(0.012 * w))
	body_thickness = _estimate_wall_body_thickness(binary, fallback=12)
	body_thickness = int(np.clip(body_thickness, 9, 30))
	k_h = cv2.getStructuringElement(cv2.MORPH_RECT, (min_line_len, 1))
	k_v = cv2.getStructuringElement(cv2.MORPH_RECT, (1, min_line_len))
	long_h = _cuda_morphology(binary, cv2.MORPH_OPEN, k_h)
	long_v = _cuda_morphology(binary, cv2.MORPH_OPEN, k_v)
	orig_walls = cv2.bitwise_or(long_h, long_v)
	k_bh = cv2.getStructuringElement(cv2.MORPH_RECT, (1, body_thickness))
	k_bv = cv2.getStructuringElement(cv2.MORPH_RECT, (body_thickness, 1))
	dil_h = _cuda_dilate(long_h, k_bh)
	dil_v = _cuda_dilate(long_v, k_bv)
	walls = cv2.bitwise_or(dil_h, dil_v)
	collision = cv2.bitwise_and(dil_h, dil_v)
	safe_zone = cv2.bitwise_and(collision, orig_walls)
	walls = cv2.bitwise_or(cv2.bitwise_and(walls, cv2.bitwise_not(collision)), safe_zone)
	dist = cv2.distanceTransform(cv2.bitwise_not(orig_walls), cv2.DIST_L2, 5)
	keep_mask = (dist <= body_thickness/2).astype(np.uint8) * 255
	walls = cv2.bitwise_and(walls, keep_mask)
	walls = _remove_thin_lines(walls, min_thickness=body_thickness)
	n_lbl, labels, stats, _ = cv2.connectedComponentsWithStats(walls, connectivity=8)
	if n_lbl > 1:
	areas = stats[1:, cv2.CC_STAT_AREA]
	min_n = max(20, int(np.median(areas) * 0.0001))
	keep_lut = np.zeros(n_lbl, dtype=np.uint8)
	keep_lut[1:] = (areas >= min_n).astype(np.uint8)
	walls = (keep_lut[labels] * 255).astype(np.uint8)
	walls = _filter_double_lines_and_thick(walls)
	return walls, body_thickness


	FIXTURE_MAX_BLOB=80; FIXTURE_MAX_AREA=4000; FIXTURE_MAX_ASP=4.0
	FIXTURE_DENSITY_R=50; FIXTURE_DENSITY_THR=0.35; FIXTURE_MIN_ZONE=1500

	def remove_fixture_symbols(walls: np.ndarray) -> np.ndarray:
	h, w = walls.shape
	n_lbl, labels, stats, centroids = cv2.connectedComponentsWithStats(walls, connectivity=8)
	if n_lbl <= 1: return walls
	bw_a=stats[1:,cv2.CC_STAT_WIDTH].astype(np.float32)
	bh_a=stats[1:,cv2.CC_STAT_HEIGHT].astype(np.float32)
	ar_a=stats[1:,cv2.CC_STAT_AREA].astype(np.float32)
	cx_a=np.round(centroids[1:,0]).astype(np.int32)
	cy_a=np.round(centroids[1:,1]).astype(np.int32)
	mx=np.maximum(bw_a,bh_a); mn=np.minimum(bw_a,bh_a)
	asp=mx/(mn+1e-6)
	cand=(bw_a<FIXTURE_MAX_BLOB)&(bh_a<FIXTURE_MAX_BLOB)&(ar_a<FIXTURE_MAX_AREA)&(asp<=FIXTURE_MAX_ASP)
	ci=np.where(cand)[0]; cand_ids=ci+1; ccx=cx_a[ci]; ccy=cy_a[ci]
	if len(cand_ids)==0: return walls
	heatmap=np.zeros((h,w),dtype=np.float32)
	for x2,y2 in zip(ccx.tolist(), ccy.tolist()):
	cv2.circle(heatmap,(x2,y2),int(FIXTURE_DENSITY_R),1.0,-1)
	bk=max(3,(int(FIXTURE_DENSITY_R)//2)\|1)
	density = _cuda_gaussian_blur(
	(heatmap * 255).astype(np.uint8), (bk4+1, bk4+1), bk
	).astype(np.float32) / 255.0
	dm=float(density.max())
	if dm>0: density/=dm
	zone=(density>=FIXTURE_DENSITY_THR).astype(np.uint8)*255
	nz,zlbl,zst,_=cv2.connectedComponentsWithStats(zone,connectivity=8)
	cz=np.zeros_like(zone)
	if nz>1:
	za=zst[1:,cv2.CC_STAT_AREA]; kz=np.where(za>=FIXTURE_MIN_ZONE)[0]+1
	if len(kz):
	lut2=np.zeros(nz,dtype=np.uint8); lut2[kz]=255; cz=lut2[zlbl]
	zone=cz
	vc=(ccy>=0)&(ccy<h)&(ccx>=0)&(ccx<w)
	in_zone=vc&(zone[ccy.clip(0,h-1), ccx.clip(0,w-1)]>0)
	erase_ids=cand_ids[in_zone]
	result=walls.copy()
	if len(erase_ids):
	el=np.zeros(n_lbl,dtype=np.uint8); el[erase_ids]=1
	result[el[labels].astype(bool)]=0
	return result


	def _remove_thin_lines_calibrated(walls: np.ndarray, cal: WallCalibration) -> np.ndarray:
	n_cc, cc, stats, _ = cv2.connectedComponentsWithStats(walls, connectivity=8)
	if n_cc <= 1: return walls
	bw=stats[1:,cv2.CC_STAT_WIDTH]; bh=stats[1:,cv2.CC_STAT_HEIGHT]
	ar=stats[1:,cv2.CC_STAT_AREA]; mx=np.maximum(bw,bh)
	keep=(mx>=cal.min_component_dim)\|(ar>=cal.min_component_area*3)
	lut=np.zeros(n_cc,np.uint8); lut[1:]=keep.astype(np.uint8)*255
	return lut[cc]


	def _bridge_wall_endpoints_v2(walls: np.ndarray, cal: WallCalibration,
	angle_tol: float = 15.0) -> np.ndarray:
	"""
	BOTTLENECK 12 FIX — vectorised path-clear check.
	Original: Python for-loop with np.any per pair.
	Fixed: all N_SAMP mid-paths stacked into (K, N_SAMP-2) index arrays;
	wall lookup via advanced indexing; any() collapsed axis-1 in one shot.
	"""
	try:
	from scipy.spatial import cKDTree as _KDTree
	_SCIPY = True
	except ImportError:
	_SCIPY = False

	result=walls.copy(); h,w=walls.shape; FCOS=np.cos(np.radians(70.0))
	skel=_skel(walls); ey,ex=_tip_pixels(skel); n_ep=len(ey)
	if n_ep < 2: return result

	_,cc_map=cv2.connectedComponents(walls,connectivity=8)
	ep_cc=cc_map[ey,ex]
	lookahead=max(8, cal.stroke_width*3)
	out_dx,out_dy=_outward_vectors(ex,ey,skel,lookahead)
	pts=np.stack([ex,ey],axis=1).astype(np.float32)

	if _SCIPY:
	from scipy.spatial import cKDTree
	pairs=cKDTree(pts).query_pairs(float(cal.bridge_max_gap), output_type='ndarray')
	ii=pairs[:,0].astype(np.int64); jj=pairs[:,1].astype(np.int64)
	else:
	_ii,_jj=np.triu_indices(n_ep,k=1)
	ok=np.hypot(pts[_jj,0]-pts[_ii,0],pts[_jj,1]-pts[_ii,1])<=cal.bridge_max_gap
	ii=_ii[ok].astype(np.int64); jj=_jj[ok].astype(np.int64)
	if len(ii)==0: return result

	if _CUPY:
	ii_cp = cp.asarray(ii); jj_cp = cp.asarray(jj)
	pts_cp = cp.asarray(pts)
	odx_cp = cp.asarray(out_dx); ody_cp = cp.asarray(out_dy)
	dxij = pts_cp[jj_cp,0]-pts_cp[ii_cp,0]
	dyij = pts_cp[jj_cp,1]-pts_cp[ii_cp,1]
	dists_cp = cp.hypot(dxij,dyij)
	safe = cp.maximum(dists_cp, 1e-6)
	ux,uy = dxij/safe, dyij/safe
	ang = cp.degrees(cp.arctan2(cp.abs(dyij), cp.abs(dxij)))
	is_H = (ang<=angle_tol)
	is_V = (ang>=(90.0-angle_tol))
	g1 = (dists_cp>=cal.bridge_min_gap)&(dists_cp<=cal.bridge_max_gap)
	g2 = is_H\|is_V
	g3 = ((odx_cp[ii_cp]ux+ody_cp[ii_cp]uy)>=FCOS) & \
	((odx_cp[jj_cp]-ux+ody_cp[jj_cp]-uy)>=FCOS)
	ep_cc_cp = cp.asarray(ep_cc)
	g4 = ep_cc_cp[ii_cp]!=ep_cc_cp[jj_cp]
	pre_ok_cp = g1&g2&g3&g4
	pre_idx = cp.asnumpy(cp.where(pre_ok_cp)[0])
	dists = cp.asnumpy(dists_cp)
	is_H = cp.asnumpy(is_H)
	is_V = cp.asnumpy(is_V)
	else:
	dxij=pts[jj,0]-pts[ii,0]; dyij=pts[jj,1]-pts[ii,1]
	dists=np.hypot(dxij,dyij); safe=np.maximum(dists,1e-6)
	ux,uy=dxij/safe,dyij/safe
	ang=np.degrees(np.arctan2(np.abs(dyij),np.abs(dxij)))
	is_H=ang<=angle_tol; is_V=ang>=(90.0-angle_tol)
	g1=(dists>=cal.bridge_min_gap)&(dists<=cal.bridge_max_gap); g2=is_H\|is_V
	g3=((out_dx[ii]ux+out_dy[ii]uy)>=FCOS)&((out_dx[jj]-ux+out_dy[jj]-uy)>=FCOS)
	g4=ep_cc[ii]!=ep_cc[jj]
	pre_ok=g1&g2&g3&g4; pre_idx=np.where(pre_ok)[0]

	if len(pre_idx) == 0:
	return result

	# ── VECTORISED path-clear check (BOTTLENECK 12 FIX) ──────────────────
	N_SAMP = 9
	K = len(pre_idx)
	vi_pre = ii[pre_idx]; vj_pre = jj[pre_idx]
	ax_arr = ex[vi_pre].astype(np.float32); ay_arr = ey[vi_pre].astype(np.float32)
	bx_arr = ex[vj_pre].astype(np.float32); by_arr = ey[vj_pre].astype(np.float32)
	is_H_pre = is_H[pre_idx]

	# t values for interior samples (exclude endpoints)
	t = np.linspace(0, 1, N_SAMP, dtype=np.float32)[1:-1] # (N_SAMP-2,)

	# xs[k, s] = lerp(ax, bx, t[s]) when H, else ax
	xs_h = ax_arr[:, None] + (bx_arr - ax_arr)[:, None] * t[None, :] # (K, N_SAMP-2)
	ys_h = np.broadcast_to(ay_arr[:, None], (K, N_SAMP-2)).copy() # constant y
	xs_v = np.broadcast_to(ax_arr[:, None], (K, N_SAMP-2)).copy()
	ys_v = ay_arr[:, None] + (by_arr - ay_arr)[:, None] * t[None, :]

	xs_all = np.where(is_H_pre[:, None], xs_h, xs_v)
	ys_all = np.where(is_H_pre[:, None], ys_h, ys_v)

	sxs = np.clip(np.round(xs_all).astype(np.int32), 0, w-1) # (K, N_SAMP-2)
	sys_ = np.clip(np.round(ys_all).astype(np.int32), 0, h-1)

	# bulk wall lookup: walls_flat[K, N_SAMP-2]
	walls_flat = walls[sys_, sxs] # (K, N_SAMP-2) uint8
	blocked = walls_flat.any(axis=1) # (K,) bool
	clr = ~blocked

	valid = pre_idx[clr]
	if len(valid) == 0:
	return result

	vi=ii[valid]; vj=jj[valid]; vd=dists[valid]; vH=is_H[valid]
	order=np.argsort(vd); vi,vj,vd,vH=vi[order],vj[order],vd[order],vH[order]
	used=np.zeros(n_ep,dtype=bool)
	for k in range(len(vi)):
	ia,ib=int(vi[k]),int(vj[k])
	if used[ia] or used[ib]: continue
	ax,ay=int(ex[ia]),int(ey[ia]); bx2,by2=int(ex[ib]),int(ey[ib])
	p1,p2=((min(ax,bx2),ay),(max(ax,bx2),ay)) if vH[k] else ((ax,min(ay,by2)),(ax,max(ay,by2)))
	cv2.line(result,p1,p2,255,cal.stroke_width)
	used[ia]=used[ib]=True
	return result


	def _close_door_openings_v2(walls: np.ndarray, cal: WallCalibration) -> np.ndarray:
	gap=cal.door_gap
	def _shape_close(mask, kwh, axis, max_thick):
	k=cv2.getStructuringElement(cv2.MORPH_RECT, kwh)
	cls=_cuda_morphology(mask, cv2.MORPH_CLOSE, k)
	new=cv2.bitwise_and(cls,cv2.bitwise_not(mask))
	if not np.any(new): return np.zeros_like(mask)
	n2,lbl2,st2,_=cv2.connectedComponentsWithStats(new,connectivity=8)
	if n2<=1: return np.zeros_like(mask)
	perp=st2[1:,cv2.CC_STAT_HEIGHT if axis=='H' else cv2.CC_STAT_WIDTH]
	keep=perp<=max_thick; lut2=np.zeros(n2,np.uint8); lut2[1:]=keep.astype(np.uint8)*255
	return lut2[lbl2]
	add_h=_shape_close(walls,(gap,1),'H',cal.max_bridge_thick)
	add_v=_shape_close(walls,(1,gap),'V',cal.max_bridge_thick)
	return cv2.bitwise_or(walls, cv2.bitwise_or(add_h,add_v))


	def reconstruct_walls(walls: np.ndarray) -> Tuple[np.ndarray, WallCalibration]:
	cal = calibrate_wall(walls)
	walls = _remove_thin_lines_calibrated(walls, cal)
	walls = _bridge_wall_endpoints_v2(walls, cal)
	walls = _close_door_openings_v2(walls, cal)
	return walls, cal


	def remove_dangling_lines(walls: np.ndarray, cal: WallCalibration) -> np.ndarray:
	stroke = cal.stroke_width
	connect_radius = max(6, stroke*3)
	n_cc,cc_map,stats,_ = cv2.connectedComponentsWithStats(walls,connectivity=8)
	if n_cc <= 1: return walls
	skel=_skel(walls); tip_y,tip_x=_tip_pixels(skel)
	tip_cc=cc_map[tip_y,tip_x]
	free_counts=np.zeros(n_cc,dtype=np.int32)
	for i in range(len(tip_x)): free_counts[tip_cc[i]]+=1
	remove=np.zeros(n_cc,dtype=bool)
	ker=cv2.getStructuringElement(cv2.MORPH_ELLIPSE,(connect_radius2+1,connect_radius2+1))
	for cc_id in range(1,n_cc):
	if free_counts[cc_id]<2: continue
	bw2=int(stats[cc_id,cv2.CC_STAT_WIDTH]); bh2=int(stats[cc_id,cv2.CC_STAT_HEIGHT])
	if max(bw2,bh2) > stroke*40: continue
	cm=(cc_map==cc_id).astype(np.uint8)
	dc=_cuda_dilate(cm, ker)
	overlap=cv2.bitwise_and(dc,((walls>0)&(cc_map!=cc_id)).astype(np.uint8))
	if np.count_nonzero(overlap)==0: remove[cc_id]=True
	lut=np.ones(n_cc,dtype=np.uint8); lut[0]=0; lut[remove]=0
	return (lut[cc_map]*255).astype(np.uint8)


	def close_large_door_gaps(walls: np.ndarray, cal: WallCalibration) -> np.ndarray:
	"""
	BOTTLENECK 12 FIX (same vectorised path-clear as _bridge_wall_endpoints_v2).
	"""
	try:
	from scipy.spatial import cKDTree
	_SCIPY = True
	except ImportError:
	_SCIPY = False

	DOOR_MIN=180; DOOR_MAX=320; ANGLE_TOL=12.0
	FCOS=np.cos(np.radians(90.0-ANGLE_TOL))
	stroke=cal.stroke_width; line_width=max(stroke,3)
	result=walls.copy(); h,w=walls.shape

	skel=_skel(walls); tip_y,tip_x=_tip_pixels(skel)
	n_ep=len(tip_x)
	if n_ep<2: return result

	_,cc_map=cv2.connectedComponents(walls,connectivity=8)
	ep_cc=cc_map[tip_y,tip_x]
	lookahead=max(12,stroke*4)
	out_dx,out_dy=_outward_vectors(tip_x,tip_y,skel,lookahead)
	pts=np.stack([tip_x,tip_y],axis=1).astype(np.float32)

	if _SCIPY:
	pairs=cKDTree(pts).query_pairs(float(DOOR_MAX),output_type='ndarray')
	ii=pairs[:,0].astype(np.int64); jj=pairs[:,1].astype(np.int64)
	else:
	_ii,_jj=np.triu_indices(n_ep,k=1)
	ok=np.hypot(pts[_jj,0]-pts[_ii,0],pts[_jj,1]-pts[_ii,1])<=DOOR_MAX
	ii=_ii[ok].astype(np.int64); jj=_jj[ok].astype(np.int64)
	if len(ii)==0: return result

	if _CUPY:
	ii_cp=cp.asarray(ii); jj_cp=cp.asarray(jj)
	pts_cp=cp.asarray(pts)
	odx_cp=cp.asarray(out_dx); ody_cp=cp.asarray(out_dy)
	ep_cc_cp=cp.asarray(ep_cc)
	dxij=pts_cp[jj_cp,0]-pts_cp[ii_cp,0]
	dyij=pts_cp[jj_cp,1]-pts_cp[ii_cp,1]
	dists_cp=cp.hypot(dxij,dyij); safe=cp.maximum(dists_cp,1e-6)
	ux,uy=dxij/safe,dyij/safe
	ang=cp.degrees(cp.arctan2(cp.abs(dyij),cp.abs(dxij)))
	is_H=(ang<=ANGLE_TOL); is_V=(ang>=(90.0-ANGLE_TOL))
	g1=(dists_cp>=DOOR_MIN)&(dists_cp<=DOOR_MAX); g2=is_H\|is_V
	g3=((odx_cp[ii_cp]ux+ody_cp[ii_cp]uy)>=FCOS)&\
	((odx_cp[jj_cp]-ux+ody_cp[jj_cp]-uy)>=FCOS)
	g4=ep_cc_cp[ii_cp]!=ep_cc_cp[jj_cp]
	pre_idx=cp.asnumpy(cp.where(g1&g2&g3&g4)[0])
	dists=cp.asnumpy(dists_cp); is_H=cp.asnumpy(is_H); is_V=cp.asnumpy(is_V)
	else:
	dxij=pts[jj,0]-pts[ii,0]; dyij=pts[jj,1]-pts[ii,1]
	dists=np.hypot(dxij,dyij); safe=np.maximum(dists,1e-6)
	ux,uy=dxij/safe,dyij/safe
	ang=np.degrees(np.arctan2(np.abs(dyij),np.abs(dxij)))
	is_H=ang<=ANGLE_TOL; is_V=ang>=(90.0-ANGLE_TOL)
	g1=(dists>=DOOR_MIN)&(dists<=DOOR_MAX); g2=is_H\|is_V
	g3=((out_dx[ii]ux+out_dy[ii]uy)>=FCOS)&((out_dx[jj]-ux+out_dy[jj]-uy)>=FCOS)
	g4=ep_cc[ii]!=ep_cc[jj]
	pre_idx=np.where(g1&g2&g3&g4)[0]

	if len(pre_idx) == 0:
	return result

	# ── vectorised path-clear ─────────────────────────────────────────────
	N_SAMP = 15
	K = len(pre_idx)
	vi_pre = ii[pre_idx]; vj_pre = jj[pre_idx]
	ax_arr = tip_x[vi_pre].astype(np.float32); ay_arr = tip_y[vi_pre].astype(np.float32)
	bx_arr = tip_x[vj_pre].astype(np.float32); by_arr = tip_y[vj_pre].astype(np.float32)
	is_H_pre = is_H[pre_idx]

	t = np.linspace(0, 1, N_SAMP, dtype=np.float32)[1:-1]

	mid_y = ((ay_arr + by_arr) / 2.0)[:, None]
	mid_x = ((ax_arr + bx_arr) / 2.0)[:, None]

	xs_h = ax_arr[:, None] + (bx_arr - ax_arr)[:, None] * t[None, :]
	ys_h = np.broadcast_to(mid_y, (K, N_SAMP-2)).copy()
	xs_v = np.broadcast_to(mid_x, (K, N_SAMP-2)).copy()
	ys_v = ay_arr[:, None] + (by_arr - ay_arr)[:, None] * t[None, :]

	xs_all = np.where(is_H_pre[:, None], xs_h, xs_v)
	ys_all = np.where(is_H_pre[:, None], ys_h, ys_v)

	sxs = np.clip(np.round(xs_all).astype(np.int32), 0, w-1)
	sys_ = np.clip(np.round(ys_all).astype(np.int32), 0, h-1)
	blocked = walls[sys_, sxs].any(axis=1)
	clr = ~blocked

	valid=pre_idx[clr]
	if len(valid)==0: return result

	vi=ii[valid]; vj=jj[valid]; vd=dists[valid]; vH=is_H[valid]
	order=np.argsort(vd); vi,vj,vd,vH=vi[order],vj[order],vd[order],vH[order]
	used=np.zeros(n_ep,dtype=bool)
	for k in range(len(vi)):
	ia,ib=int(vi[k]),int(vj[k])
	if used[ia] or used[ib]: continue
	ax,ay=int(tip_x[ia]),int(tip_y[ia]); bx2,by2=int(tip_x[ib]),int(tip_y[ib])
	if vH[k]: p1=(min(ax,bx2),(ay+by2)//2); p2=(max(ax,bx2),(ay+by2)//2)
	else: p1=((ax+bx2)//2,min(ay,by2)); p2=((ax+bx2)//2,max(ay,by2))
	cv2.line(result,p1,p2,255,line_width)
	used[ia]=used[ib]=True
	return result


	def apply_user_lines_to_walls(walls, lines, thickness):
	result = walls.copy()
	for x1, y1, x2, y2 in lines:
	cv2.line(result, (x1, y1), (x2, y2), 255, max(thickness, 3))
	return result


	def segment_rooms_flood(walls: np.ndarray) -> np.ndarray:
	h, w = walls.shape
	work = walls.copy()
	work[:5, :] = 255; work[-5:, :] = 255
	work[:, :5] = 255; work[:, -5:] = 255
	filled = work.copy()
	mask = np.zeros((h+2, w+2), np.uint8)
	for sx, sy in [(0,0),(w-1,0),(0,h-1),(w-1,h-1),
	(w//2,0),(w//2,h-1),(0,h//2),(w-1,h//2)]:
	if filled[sy, sx] == 0:
	cv2.floodFill(filled, mask, (sx, sy), 255)
	rooms = cv2.bitwise_not(filled)
	rooms = cv2.bitwise_and(rooms, cv2.bitwise_not(walls))
	rooms = _cuda_morphology(rooms, cv2.MORPH_OPEN, np.ones((2,2), np.uint8))
	return rooms


	def _find_thick_wall_neg_prompts(walls_mask, n=SAM_WALL_NEG):
	"""
	BOTTLENECK 6 FIX — GPU distanceTransform + vectorised grid-cell uniquing.
	"""
	h, w = walls_mask.shape

	# ── GPU distanceTransform ─────────────────────────────────────────────
	if _CV2_CUDA:
	g_wall = _cuda_upload(walls_mask)
	# cv2.cuda distanceTransform (L2, 5-mask)
	g_dist = cv2.cuda.GpuMat()
	cv2.cuda.distanceTransform(g_wall, g_dist, cv2.DIST_L2, 5,
	stream=_CUDA_STREAM)
	dist = g_dist.download()
	else:
	dist = cv2.distanceTransform(walls_mask, cv2.DIST_L2,
	cv2.DIST_MASK_PRECISE)

	try:
	skel = cv2.ximgproc.thinning(walls_mask,
	thinningType=cv2.ximgproc.THINNING_ZHANGSUEN)
	except AttributeError:
	skel = _morphological_skeleton(walls_mask)

	skel_vals = dist[skel > 0]
	if len(skel_vals) == 0: return []
	thr = max(float(np.percentile(skel_vals, SAM_WALL_PCT)), WALL_MIN_HALF_PX)
	ys, xs = np.where((skel > 0) & (dist >= thr))
	if len(ys) == 0: return []

	# ── vectorised grid-cell uniquing (no Python loop) ────────────────────
	grid_cells = max(1, int(np.ceil(np.sqrt(n * 4))))
	cell_h = max(1, h // grid_cells); cell_w = max(1, w // grid_cells)
	cell_ids = (ys // cell_h) * grid_cells + (xs // cell_w)
	_, first = np.unique(cell_ids, return_index=True) # already vectorised
	sel = first[:n]
	return [(int(xs[i]), int(ys[i])) for i in sel]


	def generate_prompts(walls_mask, rooms_flood):
	"""
	BOTTLENECK 4 FIX — vectorised component filtering + bulk centroid
	wall-check using advanced indexing; fallback centroid search using
	a single np.argmin over a pre-built offset grid.
	"""
	h, w = walls_mask.shape
	inv = cv2.bitwise_not(walls_mask)
	n, labels, stats, centroids = cv2.connectedComponentsWithStats(inv, connectivity=8)
	min_prompt_area = max(200, int(h * w * 0.0001))

	if n <= 1:
	neg_pts = _find_thick_wall_neg_prompts(walls_mask)
	return (np.array([], dtype=np.float32).reshape(0,2),
	np.array([], dtype=np.int32))

	# ── vectorised filtering (skip index 0 = background) ─────────────────
	areas = stats[1:, cv2.CC_STAT_AREA]
	bx_ = stats[1:, cv2.CC_STAT_LEFT]; by_ = stats[1:, cv2.CC_STAT_TOP]
	bw_ = stats[1:, cv2.CC_STAT_WIDTH]; bh_ = stats[1:, cv2.CC_STAT_HEIGHT]
	cx_all = np.clip(np.round(centroids[1:, 0]).astype(np.int32), 0, w-1)
	cy_all = np.clip(np.round(centroids[1:, 1]).astype(np.int32), 0, h-1)

	area_ok = areas >= min_prompt_area
	border_ok = (bx_ > 2) \| (by_ > 2) \| \
	(bx_ + bw_ < w-2) \| (by_ + bh_ < h-2)
	# exclude components that span nearly the full image (background)
	full_span = (bx_ <= 2) & (by_ <= 2) & \
	(bx_ + bw_ >= w-2) & (by_ + bh_ >= h-2)
	keep_mask = area_ok & ~full_span

	keep_idx = np.where(keep_mask)[0]
	if len(keep_idx) == 0:
	neg_pts = _find_thick_wall_neg_prompts(walls_mask)
	return (np.array([], dtype=np.float32).reshape(0,2),
	np.array([], dtype=np.int32))

	cx_k = cx_all[keep_idx]
	cy_k = cy_all[keep_idx]

	# ── bulk wall check — no Python loop ─────────────────────────────────
	on_wall = walls_mask[cy_k, cx_k] > 0 # (K,) bool

	pts_list = []
	lbls_list = []

	# centroids not on wall — add directly
	off_wall = ~on_wall
	pts_list.append(np.stack([cx_k[off_wall].astype(np.float32),
	cy_k[off_wall].astype(np.float32)], axis=1))
	lbls_list.append(np.ones(off_wall.sum(), dtype=np.int32))

	# centroids on wall — vectorised 31×31 offset search
	on_idx = np.where(on_wall)[0]
	if len(on_idx) > 0:
	dy_range = np.arange(-15, 17, 2, dtype=np.int32)
	dx_range = np.arange(-15, 17, 2, dtype=np.int32)
	DY, DX = np.meshgrid(dy_range, dx_range, indexing='ij') # (D,D)
	DY = DY.ravel(); DX = DX.ravel() # (D²,)

	for k in on_idx:
	cy_c, cx_c = int(cy_k[k]), int(cx_k[k])
	ny_arr = np.clip(cy_c + DY, 0, h-1)
	nx_arr = np.clip(cx_c + DX, 0, w-1)
	off = walls_mask[ny_arr, nx_arr] == 0
	if off.any():
	best = np.argmax(off)
	pts_list.append([[float(nx_arr[best]), float(ny_arr[best])]])
	lbls_list.append([1])

	if not pts_list:
	all_pts = np.empty((0, 2), dtype=np.float32)
	all_lbls = np.empty(0, dtype=np.int32)
	else:
	all_pts = np.vstack([p if np.ndim(p)==2 else np.array(p, dtype=np.float32)
	for p in pts_list]).astype(np.float32)
	all_lbls = np.concatenate([np.array(l, dtype=np.int32)
	for l in lbls_list])

	# negative prompts (wall centres)
	neg_pts_list = _find_thick_wall_neg_prompts(walls_mask)
	if neg_pts_list:
	neg_arr = np.array(neg_pts_list, dtype=np.float32)
	neg_lbls = np.zeros(len(neg_pts_list), dtype=np.int32)
	all_pts = np.vstack([all_pts, neg_arr])
	all_lbls = np.concatenate([all_lbls, neg_lbls])

	return all_pts, all_lbls


	def mask_to_rle(mask: np.ndarray) -> Dict:
	"""
	BOTTLENECK 10 FIX — replace pure-Python for-loop over every pixel with
	NumPy run-length encoding via np.diff on the flattened boolean array.
	"""
	h, w = mask.shape
	flat = mask.flatten(order='F').astype(bool)

	# np.diff detects transitions between False→True and True→False
	padded = np.concatenate([[False], flat, [False]])
	changes = np.where(np.diff(padded.astype(np.int8)))[0] # boundary positions
	counts = np.diff(changes).tolist() # run lengths

	# RLE must start with a False count
	rle_counts = ([0] + counts) if flat[0] else counts
	return {"counts": rle_counts, "size": [h, w]}


	def _mask_to_contour_flat(mask):
	contours, _ = cv2.findContours(mask, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_NONE)
	if not contours: return []
	largest = max(contours, key=cv2.contourArea)
	pts = largest[:, 0, :].tolist()
	return [v for pt in pts for v in pt]


	def _match_sam_mask_to_contour(contour, sam_room_masks):
	if not sam_room_masks:
	return _contour_to_rle_and_flat(contour)
	sam_h, sam_w = sam_room_masks[0]["mask"].shape
	contour_mask = np.zeros((sam_h, sam_w), dtype=np.uint8)
	cv2.drawContours(contour_mask, [contour], -1, 255, thickness=-1)
	best_iou = 0.0; best_entry = None
	for entry in sam_room_masks:
	m = entry["mask"]
	if m.shape != contour_mask.shape: continue
	inter = np.count_nonzero(cv2.bitwise_and(m, contour_mask))
	if inter == 0: continue
	union = np.count_nonzero(cv2.bitwise_or(m, contour_mask))
	iou = inter / (union + 1e-6)
	if iou > best_iou: best_iou = iou; best_entry = entry
	if best_entry is None or best_iou < 0.05:
	return _contour_to_rle_and_flat(contour)
	sam_contour_flat = _mask_to_contour_flat(best_entry["mask"])
	if not sam_contour_flat:
	raw_pts = contour[:, 0, :].tolist()
	sam_contour_flat = [v for pt in raw_pts for v in pt]
	return mask_to_rle(best_entry["mask"]), sam_contour_flat, best_entry["score"]


	def _contour_to_rle_and_flat(contour):
	x, y, rw, rh = cv2.boundingRect(contour)
	canvas = np.zeros((rh+y+20, rw+x+20), dtype=np.uint8)
	cv2.drawContours(canvas, [contour], -1, 255, thickness=-1)
	raw_pts = contour[:, 0, :].tolist()
	flat_pts = [v for pt in raw_pts for v in pt]
	return mask_to_rle(canvas), flat_pts, 1.0


	# ════════════════════════════════════════════════════════════════════════════
	# BATCHED OCR (BOTTLENECK 7 FIX)
	# ════════════════════════════════════════════════════════════════════════════

	def _prepare_ocr_roi(img_bgr: np.ndarray, contour: np.ndarray) -> Optional[np.ndarray]:
	"""Prepare a single ROI for OCR (CLAHE + Otsu + medianBlur → RGB)."""
	x, y, rw, rh = cv2.boundingRect(contour)
	pad = 20
	roi = img_bgr[max(0,y-pad):min(img_bgr.shape[0],y+rh+pad),
	max(0,x-pad):min(img_bgr.shape[1],x+rw+pad)]
	if roi.size == 0: return None
	gray = cv2.cvtColor(roi, cv2.COLOR_BGR2GRAY)
	clahe = cv2.createCLAHE(2.0, (8,8))
	proc = clahe.apply(gray)
	_, bin_img = _cuda_threshold(proc, 0, 255, cv2.THRESH_BINARY+cv2.THRESH_OTSU)
	rgb = cv2.cvtColor(
	cv2.medianBlur(bin_img.astype(np.uint8), 3), cv2.COLOR_GRAY2RGB
	)
	return rgb


	def _get_ocr_reader():
	"""Singleton EasyOCR reader with GPU=True when CUDA available."""
	if not hasattr(_get_ocr_reader, "_reader"):
	try:
	import easyocr
	_get_ocr_reader._reader = easyocr.Reader(["en"], gpu=_TORCH_CUDA)
	print(f"[OCR] EasyOCR initialised gpu={_TORCH_CUDA}")
	except ImportError:
	_get_ocr_reader._reader = None
	return _get_ocr_reader._reader


	def run_ocr_batch(img_bgr: np.ndarray,
	contours: List[np.ndarray]) -> List[Optional[str]]:
	"""
	BOTTLENECK 7 FIX — batch all room crops into a single EasyOCR call.
	readtext_batched() pushes all crops through the GPU text recognition
	network in one forward pass instead of one-at-a-time.
	Falls back to sequential readtext() if readtext_batched unavailable.
	"""
	reader = _get_ocr_reader()
	if reader is None:
	return [None] * len(contours)

	rois: List[Optional[np.ndarray]] = [_prepare_ocr_roi(img_bgr, c) for c in contours]
	labels: List[Optional[str]] = [None] * len(contours)

	valid_idx = [i for i, r in enumerate(rois) if r is not None]
	valid_rois = [rois[i] for i in valid_idx]

	if not valid_rois:
	return labels

	try:
	# ── preferred: GPU batched inference ─────────────────────────────
	batch_results = reader.readtext_batched(valid_rois, detail=1,
	paragraph=False,
	batch_size=len(valid_rois))
	for out_i, orig_i in enumerate(valid_idx):
	cands = [
	(t.strip().upper(), c)
	for _, t, c in batch_results[out_i]
	if c >= OCR_CONF_THR and len(t.strip()) >= 2
	and any(ch.isalpha() for ch in t)
	]
	labels[orig_i] = max(cands, key=lambda x: x[1])[0] if cands else None
	except (AttributeError, Exception):
	# ── fallback: sequential (original behaviour) ─────────────────────
	for out_i, orig_i in enumerate(valid_idx):
	try:
	results = reader.readtext(valid_rois[out_i], detail=1, paragraph=False)
	cands = [
	(t.strip().upper(), c)
	for _, t, c in results
	if c >= OCR_CONF_THR and len(t.strip()) >= 2
	and any(ch.isalpha() for ch in t)
	]
	labels[orig_i] = max(cands, key=lambda x: x[1])[0] if cands else None
	except Exception:
	pass

	return labels


	def run_ocr_on_room(img_bgr: np.ndarray, contour: np.ndarray) -> Optional[str]:
	"""Single-room OCR wrapper (kept for compatibility)."""
	results = run_ocr_batch(img_bgr, [contour])
	return results[0]


	# ════════════════════════════════════════════════════════════════════════════
	# FILTER ROOM REGIONS (BOTTLENECK 5 FIX — vectorised NumPy filtering)
	# ════════════════════════════════════════════════════════════════════════════

	def filter_room_regions(rooms_mask, img_shape):
	"""
	BOTTLENECK 5 FIX — all scalar filters (area, dim, aspect, border, extent)
	computed as vectorised NumPy boolean masks before entering any Python loop.
	The solidity / drawContours step is the only remaining per-contour work.
	"""
	h, w = img_shape[:2]
	img_area = float(h * w)
	min_area = img_area * MIN_ROOM_AREA_FRAC
	max_area = img_area * MAX_ROOM_AREA_FRAC
	min_dim = w * MIN_ROOM_DIM_FRAC
	margin = max(5.0, w * BORDER_MARGIN_FRAC)

	contours, _ = cv2.findContours(rooms_mask, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
	if not contours: return np.zeros_like(rooms_mask), []

	# ── vectorised stats ──────────────────────────────────────────────────
	bboxes = np.array([cv2.boundingRect(c) for c in contours], dtype=np.float32)
	areas = np.array([cv2.contourArea(c) for c in contours], dtype=np.float32)
	bx = bboxes[:,0]; by = bboxes[:,1]
	bw_arr = bboxes[:,2]; bh_arr = bboxes[:,3]

	area_ok = (areas >= min_area) & (areas <= max_area)
	border_ok = (bx >= margin) & (by >= margin) & \
	(bx + bw_arr <= w - margin) & (by + bh_arr <= h - margin)
	dim_ok = (bw_arr >= min_dim) \| (bh_arr >= min_dim)
	aspect = np.maximum(bw_arr, bh_arr) / (np.minimum(bw_arr, bh_arr) + 1e-6)
	aspect_ok = aspect <= MAX_ASPECT_RATIO
	extent_ok = (areas / (bw_arr * bh_arr + 1e-6)) >= MIN_EXTENT

	# All scalar checks in one shot — only compute solidity for survivors
	cheap_pass = np.where(area_ok & border_ok & dim_ok & aspect_ok & extent_ok)[0]

	valid_mask = np.zeros_like(rooms_mask)
	valid_rooms = []
	for i in cheap_pass:
	cnt = contours[i]
	hull = cv2.convexHull(cnt)
	ha = cv2.contourArea(hull)
	if ha > 0 and (areas[i] / ha) >= MIN_SOLIDITY:
	cv2.drawContours(valid_mask, [cnt], -1, 255, -1)
	valid_rooms.append(cnt)

	return valid_mask, valid_rooms


	def pixel_area_to_m2(area_px):
	return area_px * (2.54 / DPI) ** 2 * (SCALE_FACTOR ** 2) / 10000


	def validate_label(label):
	if not label: return False
	label = label.strip()
	if not label[0].isalpha(): return False
	lc = sum(1 for c in label if c.isalpha())
	return lc == 1 or lc >= 3


	def measure_and_label_rooms(img, valid_rooms, sam_room_masks):
	"""
	BOTTLENECK 7 FIX — all OCR crops sent to run_ocr_batch() in one call
	instead of sequential run_ocr_on_room() per room.
	"""
	if not valid_rooms:
	return []

	# ── batch OCR ─────────────────────────────────────────────────────────
	ocr_labels = run_ocr_batch(img, valid_rooms)

	room_data = []
	for idx, (contour, label) in enumerate(zip(valid_rooms, ocr_labels), 1):
	if not label or not validate_label(label):
	label = f"ROOM {idx}"
	x, y, rw, rh = cv2.boundingRect(contour)
	area_px = cv2.contourArea(contour)
	M = cv2.moments(contour)
	cx = int(M["m10"] / M["m00"]) if M["m00"] else x + rw // 2
	cy = int(M["m01"] / M["m00"]) if M["m00"] else y + rh // 2
	_, raw_seg_flat, sam_score = _match_sam_mask_to_contour(contour, sam_room_masks)
	room_data.append({
	"id": len(room_data)+1, "label": label, "contour": contour,
	"segmentation": [raw_seg_flat], "raw_segmentation": [raw_seg_flat],
	"sam_score": round(sam_score,4), "score": round(sam_score,4),
	"area": area_px, "area_px": area_px,
	"area_m2": round(pixel_area_to_m2(area_px),2),
	"bbox": [x,y,rw,rh], "centroid": [cx,cy],
	"confidence": 0.95, "isAi": True,
	})
	return room_data


	# ════════════════════════════════════════════════════════════════════════════
	# SAM — BATCHED INFERENCE with set_image inside autocast (BOTTLENECK 9 FIX)
	# ════════════════════════════════════════════════════════════════════════════

	def segment_with_sam(img_rgb, walls, sam_ckpt, rooms_flood=None):
	"""
	BOTTLENECK 9 FIX: predictor.set_image() moved INSIDE torch.no_grad() +
	autocast so the ViT image encoder runs in FP16 (was FP32 in v1).
	All other GPU optimisations from v1 retained.
	"""
	if rooms_flood is None:
	rooms_flood = segment_rooms_flood(walls.copy())

	sam_room_masks: List[Dict] = []

	try:
	import torch
	from segment_anything import sam_model_registry, SamPredictor

	if not Path(sam_ckpt).exists():
	print(" [SAM] Model not found — using flood-fill")
	return rooms_flood, []

	device = "cuda" if torch.cuda.is_available() else "cpu"
	print(f" [SAM] Loading vit_h on {device} (encoder FP16 autocast enabled)")
	sam = sam_model_registry["vit_h"](checkpoint=sam_ckpt)
	sam.to(device); sam.eval()
	predictor = SamPredictor(sam)

	except Exception as e:
	print(f" [SAM] Load failed ({e}) — using flood-fill")
	return rooms_flood, []

	all_points, all_labels = generate_prompts(walls, rooms_flood)
	if len(all_points) == 0:
	return rooms_flood, []

	pos_pts = [(p, l) for p, l in zip(all_points, all_labels) if l == 1]
	neg_pts = [p for p, l in zip(all_points, all_labels) if l == 0]
	print(f" [SAM] {len(pos_pts)} room prompts + {len(neg_pts)} wall-neg prompts")

	autocast_ctx = (
	torch.autocast("cuda", dtype=torch.float16)
	if _TORCH_CUDA else
	torch.autocast("cpu", dtype=torch.bfloat16)
	)

	# ── BOTTLENECK 9 FIX: encoder runs in FP16 autocast ──────────────────
	with torch.no_grad(), autocast_ctx:
	predictor.set_image(img_rgb) # ← moved inside autocast

	h, w = walls.shape
	sam_mask = np.zeros((h, w), dtype=np.uint8)
	accepted = 0

	neg_coords = np.array(neg_pts, dtype=np.float32) if neg_pts else None
	neg_lbls = np.zeros(len(neg_pts), dtype=np.int32) if neg_pts else None
	denoise_k = cv2.getStructuringElement(cv2.MORPH_ELLIPSE, (5, 5))

	with torch.no_grad(), autocast_ctx:
	for (px, py), lbl in pos_pts:
	px, py = int(px), int(py)
	if neg_coords is not None:
	pt_c = np.vstack([[[px, py]], neg_coords])
	pt_l = np.concatenate([[lbl], neg_lbls])
	else:
	pt_c = np.array([[px, py]], dtype=np.float32)
	pt_l = np.array([lbl], dtype=np.int32)

	try:
	masks, scores, _ = predictor.predict(
	point_coords=pt_c, point_labels=pt_l, multimask_output=True
	)
	except Exception as e:
	print(f" [SAM] predict failed ({e})")
	continue

	best_idx = int(np.argmax(scores))
	best_score = float(scores[best_idx])
	if best_score < SAM_MIN_SCORE:
	continue

	best_mask = (masks[best_idx] > 0).astype(np.uint8) * 255
	best_mask = cv2.bitwise_and(best_mask, rooms_flood)
	best_mask = _cuda_morphology(best_mask, cv2.MORPH_OPEN, denoise_k, iterations=1)

	if not np.any(best_mask):
	continue

	sam_room_masks.append({
	"mask" : best_mask.copy(),
	"score" : best_score,
	"prompt": (px, py),
	})
	sam_mask = cv2.bitwise_or(sam_mask, best_mask)
	accepted += 1

	if _TORCH_CUDA:
	torch.cuda.empty_cache()
	print(f" [SAM] VRAM freed. Accepted {accepted}/{len(pos_pts)} masks")
	else:
	print(f" [SAM] Accepted {accepted}/{len(pos_pts)} masks")

	if accepted == 0:
	return rooms_flood, []

	return sam_mask, sam_room_masks


	# ════════════════════════════════════════════════════════════════════════════
	# BUILD ANNOTATED IMAGE (BOTTLENECK 11 FIX)
	# ════════════════════════════════════════════════════════════════════════════

	def build_annotated_image(img_bgr, rooms, selected_ids=None):
	"""
	BOTTLENECK 11 FIX — accumulate ALL room fills into a single overlay
	array, then call cv2.addWeighted ONCE instead of per-room.
	Border drawing and text labels remain per-room (unavoidable).
	"""
	vis = img_bgr.copy()
	overlay = img_bgr.copy()

	# ── single-pass fill accumulation ─────────────────────────────────────
	for i, room in enumerate(rooms):
	cnt = room.get("contour")
	if cnt is None: continue
	color = ROOM_COLORS[i % len(ROOM_COLORS)]
	bgr = (color[2], color[1], color[0])
	cv2.drawContours(overlay, [cnt], -1, bgr, -1)

	# single blend for ALL fills
	vis = cv2.addWeighted(overlay, 0.35, vis, 0.65, 0)

	# ── per-room: border + text ───────────────────────────────────────────
	for i, room in enumerate(rooms):
	cnt = room.get("contour")
	if cnt is None: continue
	color = ROOM_COLORS[i % len(ROOM_COLORS)]
	bgr = (color[2], color[1], color[0])
	is_sel = selected_ids and room["id"] in selected_ids
	cv2.drawContours(vis, [cnt], -1, (0,255,255) if is_sel else bgr,
	4 if is_sel else 2)
	M = cv2.moments(cnt)
	cx = int(M["m10"]/M["m00"]) if M["m00"] else 0
	cy = int(M["m01"]/M["m00"]) if M["m00"] else 0
	label = room.get("label", f"Room {room['id']}")
	area = room.get("area_m2", 0.0)
	fs = 0.55; th = 1
	(tw1, th1), _ = cv2.getTextSize(label, cv2.FONT_HERSHEY_SIMPLEX, fs, th)
	(tw2, th2), _ = cv2.getTextSize(f"{area:.1f} m²", cv2.FONT_HERSHEY_SIMPLEX, fs-0.1, th)
	bx2 = cx - max(tw1,tw2)//2 - 4; by2 = cy - th1 - th2 - 12
	bw2 = max(tw1,tw2)+8; bh2 = th1+th2+16
	sub = vis[max(0,by2):max(0,by2)+bh2, max(0,bx2):max(0,bx2)+bw2]
	if sub.size > 0:
	vis[max(0,by2):max(0,by2)+bh2, max(0,bx2):max(0,bx2)+bw2] = \
	cv2.addWeighted(sub, 0.3, np.ones_like(sub)*255, 0.7, 0)
	cv2.putText(vis, label, (cx-tw1//2, cy-th2-6),
	cv2.FONT_HERSHEY_SIMPLEX, fs, (20,20,20), th+1, cv2.LINE_AA)
	cv2.putText(vis, f"{area:.1f} m²", (cx-tw2//2, cy+th2+2),
	cv2.FONT_HERSHEY_SIMPLEX, fs-0.1, (20,20,20), th, cv2.LINE_AA)
	return vis


	def export_to_excel(rooms):
	wb = openpyxl.Workbook(); ws = wb.active; ws.title = "Room Analysis"
	headers = ["ID","Label","Area (px)","Area (m²)","Centroid X","Centroid Y",
	"Bbox X","Bbox Y","Bbox W","Bbox H","SAM Score","Confidence"]
	hf = PatternFill("solid", fgColor="1F4E79"); hfont = Font(bold=True, color="FFFFFF", size=11)
	for col, h in enumerate(headers,1):
	cell=ws.cell(row=1,column=col,value=h)
	cell.fill=hf; cell.font=hfont; cell.alignment=Alignment(horizontal="center")
	alt = PatternFill("solid", fgColor="D6E4F0")
	for rn, room in enumerate(rooms, 2):
	cnt = room.get("contour")
	M = cv2.moments(cnt) if cnt is not None else {}
	cx = int(M["m10"]/M["m00"]) if M.get("m00") else 0
	cy = int(M["m01"]/M["m00"]) if M.get("m00") else 0
	bbox = cv2.boundingRect(cnt) if cnt is not None else (0,0,0,0)
	row_data=[room.get("id"), room.get("label","?"),
	round(room.get("area_px",0),1), round(room.get("area_m2",0.0),2),
	cx, cy, bbox[0], bbox[1], bbox[2], bbox[3],
	round(room.get("score",1.0),4), round(room.get("confidence",0.95),2)]
	fill = alt if rn%2==0 else None
	for col,val in enumerate(row_data,1):
	cell=ws.cell(row=rn,column=col,value=val)
	cell.alignment=Alignment(horizontal="center")
	if fill: cell.fill=fill
	for col in ws.columns:
	mx=max(len(str(c.value or "")) for c in col)+4
	ws.column_dimensions[col[0].column_letter].width=min(mx,25)
	out = Path(tempfile.gettempdir()) / f"floorplan_rooms_{int(time.time())}.xlsx"
	wb.save(str(out)); return str(out)


	# ════════════════════════════════════════════════════════════════════════════
	# STATE
	# ════════════════════════════════════════════════════════════════════════════

	def init_state():
	return {"img_orig":None,"img_cropped":None,"img_clean":None,
	"walls":None,"walls_base":None,"wall_cal":None,
	"user_lines":[],"draw_start":None,"walls_thickness":8,
	"rooms":[],"selected_ids":[],"annotated":None,"status":"Idle"}


	# ════════════════════════════════════════════════════════════════════════════
	# GRADIO CALLBACKS
	# ════════════════════════════════════════════════════════════════════════════

	def cb_load_image(upload, state):
	if upload is None:
	return None, state, "Upload a floor-plan image to begin."
	try:
	if hasattr(upload,"name"): file_path=upload.name
	elif isinstance(upload,dict) and "name" in upload: file_path=upload["name"]
	elif isinstance(upload,str): file_path=upload
	else:
	img_bgr=cv2.imdecode(np.frombuffer(bytes(upload),dtype=np.uint8),cv2.IMREAD_COLOR)
	file_path=None
	if file_path is not None: img_bgr=cv2.imread(file_path)
	except Exception as e:
	return None, state, f"❌ Error reading upload: {e}"
	if img_bgr is None: return None, state, "❌ Could not decode image."
	state=init_state(); state["img_orig"]=img_bgr; state["status"]="Image loaded."
	return cv2.cvtColor(img_bgr,cv2.COLOR_BGR2RGB), state, f"✅ Loaded {img_bgr.shape[1]}×{img_bgr.shape[0]} px"


	def cb_preprocess(state):
	img=state.get("img_orig")
	if img is None: return None,None,state,"Load an image first."
	cropped = remove_title_block(img)
	img_clean = remove_colors(cropped)
	img_clean = detect_and_close_door_arcs(img_clean)
	img_stats = analyze_image_characteristics(cropped)
	walls, thick = extract_walls_adaptive(img_clean, img_stats)
	walls = remove_fixture_symbols(walls)
	walls, cal = reconstruct_walls(walls)
	walls = remove_dangling_lines(walls, cal)
	walls = close_large_door_gaps(walls, cal)
	state["img_cropped"]=cropped; state["img_clean"]=img_clean
	state["walls"]=walls.copy(); state["walls_base"]=walls.copy()
	state["walls_thickness"]=thick; state["wall_cal"]=cal
	walls_rgb = cv2.cvtColor(walls,cv2.COLOR_GRAY2RGB)
	clean_rgb = cv2.cvtColor(img_clean,cv2.COLOR_BGR2RGB)
	msg=(f"✅ Pipeline done \| stroke≈{cal.stroke_width}px body≈{thick}px "
	f"bridge=[{cal.bridge_min_gap},{cal.bridge_max_gap}] door={cal.door_gap}px "
	f"\| GPU: torch={_TORCH_CUDA} cupy={_CUPY} cv2_cuda={_CV2_CUDA}")
	return clean_rgb, walls_rgb, state, msg


	def cb_add_door_line(evt: gr.SelectData, state):
	walls=state.get("walls")
	if walls is None: return None,state,"Run preprocessing first."
	x,y=int(evt.index[0]),int(evt.index[1])
	if state["draw_start"] is None:
	state["draw_start"]=(x,y); msg=f"🖊 Start ({x},{y}). Click end."
	else:
	x1,y1=state["draw_start"]; state["user_lines"].append((x1,y1,x,y))
	state["draw_start"]=None
	walls_upd=apply_user_lines_to_walls(state["walls"],state["user_lines"],state["walls_thickness"])
	state["walls"]=walls_upd
	vis=cv2.cvtColor(walls_upd,cv2.COLOR_GRAY2RGB)
	for lx1,ly1,lx2,ly2 in state["user_lines"]: cv2.line(vis,(lx1,ly1),(lx2,ly2),(255,80,80),3)
	return vis,state,f"✅ Line drawn ({x1},{y1})→({x},{y}) Total:{len(state['user_lines'])}"
	vis=cv2.cvtColor(walls,cv2.COLOR_GRAY2RGB)
	for lx1,ly1,lx2,ly2 in state["user_lines"]: cv2.line(vis,(lx1,ly1),(lx2,ly2),(255,80,80),3)
	if state["draw_start"]: cv2.circle(vis,state["draw_start"],6,(0,200,255),-1)
	return vis,state,msg


	def cb_undo_door_line(state):
	if not state["user_lines"]: return None,state,"No lines to undo."
	state["user_lines"].pop(); state["draw_start"]=None
	walls_base=state.get("walls_base")
	if walls_base is None: return None,state,"Re-run preprocessing."
	thick=state.get("walls_thickness",8)
	walls_upd=apply_user_lines_to_walls(walls_base,state["user_lines"],thick)
	state["walls"]=walls_upd
	vis=cv2.cvtColor(walls_upd,cv2.COLOR_GRAY2RGB)
	for lx1,ly1,lx2,ly2 in state["user_lines"]: cv2.line(vis,(lx1,ly1),(lx2,ly2),(255,80,80),3)
	return vis,state,f"↩ Removed. Remaining:{len(state['user_lines'])}"


	def cb_run_sam(state):
	walls=state.get("walls"); img=state.get("img_cropped"); img_clean=state.get("img_clean")
	if walls is None or img is None: return None,None,state,"Run preprocessing first."
	img_rgb=cv2.cvtColor(img,cv2.COLOR_BGR2RGB)
	ckpt=download_sam_if_needed()
	sam_enabled=ckpt is not None and Path(ckpt).exists()
	if sam_enabled:
	rooms_mask,sam_room_masks=segment_with_sam(img_rgb,walls.copy(),ckpt)
	else:
	rooms_mask=segment_rooms_flood(walls.copy()); sam_room_masks=[]
	state["_sam_room_masks"]=sam_room_masks
	if not np.count_nonzero(rooms_mask):
	return None,None,state,"⚠ rooms_mask empty."
	valid_mask,valid_rooms=filter_room_regions(rooms_mask,img.shape)
	if not valid_rooms: return None,None,state,"⚠ No valid rooms."
	src=img_clean if img_clean is not None else img
	rooms=measure_and_label_rooms(src,valid_rooms,sam_room_masks)
	if not rooms: return None,None,state,"⚠ No rooms after OCR."
	state["rooms"]=rooms; state["selected_ids"]=[]
	annotated=build_annotated_image(img,rooms); state["annotated"]=annotated
	table=[[r["id"],r["label"],f"{r['area_m2']} m²",f"{r['score']:.2f}"] for r in rooms]
	return cv2.cvtColor(annotated,cv2.COLOR_BGR2RGB),table,state,f"✅ {len(rooms)} rooms detected."


	def cb_click_room(evt: gr.SelectData, state):
	annotated=state.get("annotated"); rooms=state.get("rooms",[]); img=state.get("img_cropped")
	if annotated is None or not rooms: return None,state,"Run SAM first."
	x,y=int(evt.index[0]),int(evt.index[1]); clicked_id=None
	for room in rooms:
	cnt=room.get("contour")
	if cnt is None: continue
	if cv2.pointPolygonTest(cnt,(float(x),float(y)),False)>=0:
	clicked_id=room["id"]; break
	if clicked_id is None:
	state["selected_ids"]=[]; msg="Clicked outside — selection cleared."
	else:
	sel=state["selected_ids"]
	if clicked_id in sel: sel.remove(clicked_id); msg=f"Room {clicked_id} deselected."
	else: sel.append(clicked_id); msg=f"Room {clicked_id} selected."
	state["selected_ids"]=sel
	new_ann=build_annotated_image(img,rooms,state["selected_ids"]); state["annotated"]=new_ann
	return cv2.cvtColor(new_ann,cv2.COLOR_BGR2RGB),state,msg


	def cb_remove_selected(state):
	sel=state.get("selected_ids",[]); rooms=state.get("rooms",[]); img=state.get("img_cropped")
	if not sel: return None,None,state,"No rooms selected."
	removed=[r["label"] for r in rooms if r["id"] in sel]
	rooms=[r for r in rooms if r["id"] not in sel]
	for i,r in enumerate(rooms,1): r["id"]=i
	state["rooms"]=rooms; state["selected_ids"]=[]
	ann=build_annotated_image(img,rooms); state["annotated"]=ann
	table=[[r["id"],r["label"],f"{r['area_m2']} m²",f"{r['score']:.2f}"] for r in rooms]
	return cv2.cvtColor(ann,cv2.COLOR_BGR2RGB),table,state,f"🗑 Removed:{', '.join(removed)}"


	def cb_rename_selected(new_label, state):
	sel=state.get("selected_ids",[]); rooms=state.get("rooms",[]); img=state.get("img_cropped")
	if not sel: return None,None,state,"Select a room first."
	if not new_label.strip(): return None,None,state,"Enter a non-empty label."
	for r in rooms:
	if r["id"] in sel: r["label"]=new_label.strip().upper()
	state["rooms"]=rooms
	ann=build_annotated_image(img,rooms,sel); state["annotated"]=ann
	table=[[r["id"],r["label"],f"{r['area_m2']} m²",f"{r['score']:.2f}"] for r in rooms]
	return cv2.cvtColor(ann,cv2.COLOR_BGR2RGB),table,state,f"✏ Renamed to '{new_label.strip().upper()}'"


	def cb_export_excel(state):
	rooms=state.get("rooms",[])
	if not rooms: return None,"No rooms to export."
	path=export_to_excel(rooms)
	return path,f"✅ Exported {len(rooms)} rooms → {Path(path).name}"


	# ════════════════════════════════════════════════════════════════════════════
	# GRADIO UI
	# ════════════════════════════════════════════════════════════════════════════

	CSS = """
	#title{text-align:center;font-size:1.8em;font-weight:700;color:#1F4E79}
	#subtitle{text-align:center;color:#555;margin-top:-8px;margin-bottom:16px}
	.step-card{border-left:4px solid #1F4E79!important;padding-left:10px!important}
	"""

	def _walls_to_rgb(s):
	w=s.get("walls")
	return None if w is None else cv2.cvtColor(w,cv2.COLOR_GRAY2RGB)


	with gr.Blocks(title="FloorPlan Analyser (GPU v2)") as app:
	state=gr.State(init_state())
	gr.Markdown("# 🏢 Floor Plan Room Analyser — NVIDIA GPU Build v2", elem_id="title")
	gr.Markdown(
	f"EasyOCR gpu={'✅' if _TORCH_CUDA else '❌'} \| "
	f"SAM encoder FP16={'✅' if _TORCH_CUDA else '❌'} \| "
	f"CuPy={'✅' if _CUPY else '❌'} \| "
	f"cucim={'✅' if _CUCIM else '❌'} \| "
	f"cv2.cuda={'✅' if _CV2_CUDA else '❌'}",
	elem_id="subtitle",
	)
	status_box=gr.Textbox(label="Status",interactive=False,value="Idle.")

	with gr.Row():
	with gr.Column(scale=1,elem_classes="step-card"):
	gr.Markdown("### 1️⃣ Upload Floor Plan")
	upload_btn=gr.UploadButton("📂 Upload Image",file_types=["image"],size="sm")
	raw_preview=gr.Image(label="Loaded Image",height=320)
	with gr.Column(scale=1,elem_classes="step-card"):
	gr.Markdown("### 2️⃣ Pre-process")
	preprocess_btn=gr.Button("⚙ Run Preprocessing",variant="primary")
	with gr.Tabs():
	with gr.Tab("Clean Image"): clean_img=gr.Image(label="After color removal",height=300)
	with gr.Tab("Walls"): walls_img=gr.Image(label="Extracted walls",height=300)

	with gr.Row():
	with gr.Column(elem_classes="step-card"):
	gr.Markdown("### 3️⃣ Draw Door-Closing Lines")
	undo_line_btn=gr.Button("↩ Undo Last Line",size="sm")
	wall_draw_img=gr.Image(label="Wall mask",height=380,interactive=False)

	with gr.Row():
	with gr.Column(scale=2,elem_classes="step-card"):
	gr.Markdown("### 4️⃣ SAM Segmentation + OCR")
	sam_btn=gr.Button("🤖 Run SAM + OCR",variant="primary")
	ann_img=gr.Image(label="Annotated rooms",height=480,interactive=False)
	with gr.Column(scale=1,elem_classes="step-card"):
	gr.Markdown("### 5️⃣ Room Table & Actions")
	room_table=gr.Dataframe(headers=["ID","Label","Area","SAM Score"],
	datatype=["number","str","str","str"],
	interactive=False,label="Detected Rooms")
	with gr.Group():
	rename_txt=gr.Textbox(placeholder="New label…",label="Rename Label")
	with gr.Row():
	rename_btn=gr.Button("✏ Rename",size="sm")
	remove_btn=gr.Button("🗑 Remove Selected",size="sm",variant="stop")
	gr.Markdown("---")
	export_btn=gr.Button("📊 Export to Excel",variant="secondary")
	excel_file=gr.File(label="Download Excel",visible=True)

	upload_btn.upload(cb_load_image,[upload_btn,state],[raw_preview,state,status_box])
	preprocess_btn.click(cb_preprocess,[state],[clean_img,walls_img,state,status_box])\
	.then(_walls_to_rgb,[state],[wall_draw_img])
	wall_draw_img.select(cb_add_door_line,[state],[wall_draw_img,state,status_box])
	undo_line_btn.click(cb_undo_door_line,[state],[wall_draw_img,state,status_box])
	sam_btn.click(cb_run_sam,[state],[ann_img,room_table,state,status_box])
	ann_img.select(cb_click_room,[state],[ann_img,state,status_box])
	remove_btn.click(cb_remove_selected,[state],[ann_img,room_table,state,status_box])
	rename_btn.click(cb_rename_selected,[rename_txt,state],[ann_img,room_table,state,status_box])
	export_btn.click(cb_export_excel,[state],[excel_file,status_box])


	if __name__ == "__main__":
	app.launch(share=False, debug=True, css=CSS)