File size: 79,616 Bytes

#!/usr/bin/env python3
"""
WaveGen 训练结果可视化工具 (独立版本)
自动检索 core_space 目录并可视化训练输出

Usage:
    cd code/WaveGen/nano_WaveGen
    python utils/visualize_training.py
"""

import numpy as np
import viser
import viser.transforms as viser_tf
from typing import Optional, Dict, List, Tuple, Any
import os
from pathlib import Path
import json
import cv2
import time
import webbrowser
from scipy.spatial.transform import Rotation
import threading

# 导入深度转点云模块
try:
    from depth_to_pointcloud import DepthToPointCloud
except ImportError:
    # 尝试从当前目录导入
    import sys
    sys.path.append(str(Path(__file__).parent))
    from depth_to_pointcloud import DepthToPointCloud


class TrainingVisualizer:
    """WaveGen训练结果可视化器"""

    def __init__(self, core_space_dir: str = "core_space", port: int = 8080):
        """
        初始化可视化器

        Args:
            core_space_dir: core_space目录路径（相对于当前工作目录）
            port: 起始端口号（如果占用会自动尝试下一个）
        """
        self.core_space_dir = Path(core_space_dir)
        if not self.core_space_dir.is_absolute():
            self.core_space_dir = Path.cwd() / self.core_space_dir

        # 启动Viser服务器，自动寻找可用端口
        self.server = None
        self.port = port
        max_attempts = 10

        for attempt in range(max_attempts):
            try_port = port + attempt
            try:
                # 不显示默认的config/diagnostics页，直接进入UI
                self.server = viser.ViserServer(port=try_port, show_config=False)
                self.port = try_port
                print(f"🌐 Viser服务器已启动: http://localhost:{try_port}")
                if attempt > 0:
                    print(f"   (端口 {port} 被占用，自动使用端口 {try_port})")
                break
            except OSError as e:
                if "Address already in use" in str(e):
                    if attempt == max_attempts - 1:
                        print(f"❌ 无法找到可用端口 (尝试了 {port}-{try_port})")
                        print(f"   请手动关闭其他实例: pkill -f visualize_training.py")
                        raise
                    continue
                else:
                    raise

        # 可视化句柄
        self.superquadric_handles = []
        self.gt_superquadric_handles = []
        self.camera_handles = []
        self.camera_frustum_handles = []
        self.point_cloud_handle = None
        self.camera_rgb_handle = None
        self.coordinate_frame_handle = None
        self.mesh_handles_pool = {}
        self.object_label_handles = []  # 物体信息标签

        # 当前数据
        self.predictions_npz = None
        self.targets_npz = None
        self.current_sample_path = None
        self.current_frame = 0
        self.original_frame_count = 0
        self.scene_center = np.array([0, 0, 0])
        self.scene_scale = 1.0

        # GUI控件
        self.gui_controls = {}

        # 播放状态
        self.is_playing = False

        # 视频导出状态
        self.is_exporting = False
        self.export_progress = 0
        self.export_camera_pos = None
        self.export_camera_wxyz = None

        # 设置场景
        self.setup_scene()

        # 扫描训练输出
        self.scan_training_outputs()

        # 设置GUI (立即创建，不等待客户端连接)
        self.setup_gui()

        print("✅ 训练可视化器已初始化")
        print(f"📁 监控目录: {self.core_space_dir}")

        if len(self.training_outputs) == 0:
            print("⚠️ 未找到训练输出，请检查 core_space 目录")

    def setup_scene(self):
        """设置场景背景和坐标系"""
        # 设置深蓝色背景（默认）
        self.update_background(wireframe_mode=False)

        # 设置坐标系方向
        self.server.scene.set_up_direction("+y")

    def update_background(self, wireframe_mode: bool):
        """更新场景背景颜色"""
        if wireframe_mode:
            # 线框模式：全黑背景
            bg_color = [0, 0, 0]
        else:
            # 正常模式：深蓝色背景
            bg_color = [13, 13, 38]

        width, height = 1920, 1080
        solid_color_image = np.full((height, width, 3), bg_color, dtype=np.uint8)
        self.server.scene.set_background_image(solid_color_image, format="png")

    def scan_training_outputs(self):
        """扫描core_space目录下的训练输出"""
        self.training_outputs = []

        if not self.core_space_dir.exists():
            print(f"⚠️ core_space目录不存在: {self.core_space_dir}")
            return

        # 查找所有训练输出目录 (格式: YYYYMMDD_HHMMSS_stepN_text2wave)
        # 按时间倒序（最新在前）方便默认选择最新样本
        for output_dir in sorted(self.core_space_dir.glob("*_text2wave"), reverse=True):
            if output_dir.is_dir():
                # 查找样本目录
                sample_dirs = sorted(output_dir.glob("sample_*"))
                if sample_dirs:
                    self.training_outputs.append({
                        'path': output_dir,
                        'name': output_dir.name,
                        'samples': len(sample_dirs)
                    })

        print(f"📦 找到 {len(self.training_outputs)} 个训练输出")
        for output in self.training_outputs:
            print(f"   - {output['name']} ({output['samples']} 样本)")

    def setup_gui(self):
        """设置GUI控件"""
        # 训练输出选择
        with self.server.gui.add_folder("训练输出"):
            if self.training_outputs:
                output_names = [out['name'] for out in self.training_outputs]
                self.gui_controls['output_selector'] = self.server.gui.add_dropdown(
                    "选择训练输出",
                    options=output_names,
                    initial_value=output_names[0]
                )
                self.gui_controls['output_selector'].on_update(self._on_output_change)

                # 样本选择
                self.gui_controls['sample_slider'] = self.server.gui.add_slider(
                    "样本索引",
                    min=0,
                    max=max(0, self.training_outputs[0]['samples'] - 1),
                    step=1,
                    initial_value=0
                )
                self.gui_controls['sample_slider'].on_update(self._on_sample_change)

                self.gui_controls['load_button'] = self.server.gui.add_button("加载样本")
                self.gui_controls['load_button'].on_click(self._on_load_sample)
            else:
                self.server.gui.add_text("状态", initial_value="未找到训练输出")

        # 帧控制
        with self.server.gui.add_folder("帧控制"):
            self.gui_controls['frame_slider'] = self.server.gui.add_slider(
                "当前帧",
                min=0,
                max=23,
                step=1,
                initial_value=0
            )
            self.gui_controls['frame_slider'].on_update(self._on_frame_change)

            self.gui_controls['play_button'] = self.server.gui.add_button("▶ 播放")
            self.gui_controls['play_button'].on_click(self._on_play)

            self.gui_controls['pause_button'] = self.server.gui.add_button("⏸ 暂停")
            self.gui_controls['pause_button'].on_click(self._on_pause)

            self.gui_controls['fps_slider'] = self.server.gui.add_slider(
                "播放FPS",
                min=1,
                max=30,
                step=1,
                initial_value=8
            )

        # 生成结果控制
        with self.server.gui.add_folder("生成结果"):
            self.gui_controls['show_generated'] = self.server.gui.add_checkbox(
                "显示生成的超二次曲面", initial_value=True
            )
            self.gui_controls['show_generated'].on_update(self._on_visibility_change)

            self.gui_controls['generated_opacity'] = self.server.gui.add_slider(
                "生成结果透明度", min=0.1, max=1.0, step=0.05, initial_value=0.7
            )
            self.gui_controls['generated_opacity'].on_update(self._on_opacity_change)

            self.gui_controls['generated_color'] = self.server.gui.add_rgb(
                "生成结果颜色", initial_value=(100, 149, 237)  # 蓝色
            )
            self.gui_controls['generated_color'].on_update(self._on_color_change)

        # Ground Truth控制
        with self.server.gui.add_folder("Ground Truth"):
            self.gui_controls['show_gt'] = self.server.gui.add_checkbox(
                "显示GT超二次曲面", initial_value=True
            )
            self.gui_controls['show_gt'].on_update(self._on_visibility_change)

            self.gui_controls['gt_opacity'] = self.server.gui.add_slider(
                "GT透明度", min=0.1, max=1.0, step=0.05, initial_value=0.5
            )
            self.gui_controls['gt_opacity'].on_update(self._on_opacity_change)

            self.gui_controls['gt_color'] = self.server.gui.add_rgb(
                "GT颜色", initial_value=(255, 99, 71)  # 红色
            )
            self.gui_controls['gt_color'].on_update(self._on_color_change)

            self.gui_controls['show_object_info'] = self.server.gui.add_checkbox(
                "显示物体信息", initial_value=False
            )
            self.gui_controls['show_object_info'].on_update(self._on_visibility_change)

        # 点云控制
        with self.server.gui.add_folder("点云显示"):
            self.gui_controls['show_pointcloud'] = self.server.gui.add_checkbox(
                "显示点云", initial_value=True
            )
            self.gui_controls['show_pointcloud'].on_update(self._on_visibility_change)

            self.gui_controls['pointcloud_size'] = self.server.gui.add_slider(
                "点大小", min=0.001, max=0.02, step=0.001, initial_value=0.008
            )
            self.gui_controls['pointcloud_size'].on_update(self._on_visibility_change)

        # 网格质量
        with self.server.gui.add_folder("渲染设置"):
            self.gui_controls['mesh_resolution'] = self.server.gui.add_slider(
                "网格分辨率", min=10, max=50, step=5, initial_value=25
            )
            self.gui_controls['mesh_resolution'].on_update(self._on_mesh_resolution_change)

            self.gui_controls['show_coordinate'] = self.server.gui.add_checkbox(
                "显示坐标系", initial_value=False
            )
            self.gui_controls['show_coordinate'].on_update(self._on_visibility_change)

            self.gui_controls['wireframe_mode'] = self.server.gui.add_checkbox(
                "线框模式 (黑白边缘)", initial_value=False
            )
            self.gui_controls['wireframe_mode'].on_update(self._on_wireframe_mode_change)

        # 相机控制
        with self.server.gui.add_folder("相机控制"):
            self.gui_controls['reset_view'] = self.server.gui.add_button("重置视角")
            self.gui_controls['reset_view'].on_click(self._on_reset_view)

            self.gui_controls['match_camera'] = self.server.gui.add_button("匹配GT相机")
            self.gui_controls['match_camera'].on_click(self._on_match_camera)

            self.gui_controls['show_target_frustum'] = self.server.gui.add_checkbox(
                "显示GT相机椎体", initial_value=True
            )
            self.gui_controls['show_pred_frustum'] = self.server.gui.add_checkbox(
                "显示预测相机椎体", initial_value=True
            )
            self.gui_controls['show_camera_rgb'] = self.server.gui.add_checkbox(
                "相机视锥显示RGB", initial_value=True
            )
            self.gui_controls['show_target_frustum'].on_update(self._on_visibility_change)
            self.gui_controls['show_pred_frustum'].on_update(self._on_visibility_change)
            self.gui_controls['show_camera_rgb'].on_update(self._on_visibility_change)

        # 视频导出
        with self.server.gui.add_folder("视频导出"):
            self.gui_controls['export_status'] = self.server.gui.add_text(
                "状态", initial_value="就绪"
            )

            self.gui_controls['export_resolution'] = self.server.gui.add_slider(
                "导出分辨率", min=480, max=1080, step=120, initial_value=720
            )

            self.gui_controls['capture_camera_button'] = self.server.gui.add_button(
                "📸 捕获当前视角"
            )
            self.gui_controls['capture_camera_button'].on_click(self._on_capture_camera)

            self.gui_controls['export_viser_button'] = self.server.gui.add_button(
                "💾 导出场景(.viser)"
            )
            self.gui_controls['export_viser_button'].on_click(self._on_export_viser)

            self.gui_controls['export_button'] = self.server.gui.add_button("🎬 导出视频(MP4)")
            self.gui_controls['export_button'].on_click(self._on_export_video)

        print(f"✅ GUI 已设置 - 创建了 {len(self.gui_controls)} 个控件")

    def _on_output_change(self, event):
        """训练输出选择改变"""
        selected_name = event.target.value
        for i, output in enumerate(self.training_outputs):
            if output['name'] == selected_name:
                # 更新样本滑块范围
                max_sample = max(0, output['samples'] - 1)
                self.gui_controls['sample_slider'].max = max_sample
                self.gui_controls['sample_slider'].value = 0
                break

    def _on_sample_change(self, event):
        """样本索引改变"""
        pass  # 用户需要点击"加载样本"按钮

    def _on_load_sample(self, event):
        """加载选中的样本"""
        selected_name = self.gui_controls['output_selector'].value
        sample_idx = int(self.gui_controls['sample_slider'].value)

        # 找到对应的训练输出
        output_path = None
        for output in self.training_outputs:
            if output['name'] == selected_name:
                output_path = output['path']
                break

        if output_path is None:
            print(f"❌ 未找到训练输出: {selected_name}")
            return

        self.load_sample(output_path, sample_idx)

    def load_sample(self, output_path: Path, sample_idx: int):
        """加载样本数据"""
        sample_path = output_path / f"sample_{sample_idx}"

        if not sample_path.exists():
            print(f"❌ 样本目录不存在: {sample_path}")
            return

        print(f"\n{'='*60}")
        print(f"📂 加载样本: {output_path.name}/sample_{sample_idx}")
        print(f"{'='*60}")

        self.current_sample_path = sample_path

        # 加载predictions.npz
        pred_file = sample_path / "predictions.npz"
        if pred_file.exists():
            npz_data = np.load(pred_file, allow_pickle=True)
            self.predictions_npz = {key: npz_data[key] for key in npz_data.files}
            npz_data.close()
            print(f"✅ 加载predictions.npz: {pred_file}")
            if 'frames' in self.predictions_npz:
                print(f"   帧数: {len(self.predictions_npz['frames'])}")
                if 'text' in self.predictions_npz:
                    print(f"   文本: {self.predictions_npz['text']}")
        else:
            self.predictions_npz = None
            print(f"⚠️ 未找到predictions.npz")

        # 加载targets.npz
        target_file = sample_path / "targets.npz"
        if target_file.exists():
            npz_data = np.load(target_file, allow_pickle=True)
            self.targets_npz = {key: npz_data[key] for key in npz_data.files}
            npz_data.close()
            print(f"✅ 加载targets.npz: {target_file}")
            if 'frames' in self.targets_npz:
                print(f"   帧数: {len(self.targets_npz['frames'])}")
                if 'text' in self.targets_npz:
                    print(f"   文本: {self.targets_npz['text']}")
        else:
            self.targets_npz = None
            print(f"⚠️ 未找到targets.npz")

        # 更新帧数
        self.original_frame_count = 0
        if self.predictions_npz and 'frames' in self.predictions_npz:
            self.original_frame_count = len(self.predictions_npz['frames'])
        elif self.targets_npz and 'objects' in self.targets_npz:
            objects = self.targets_npz['objects']
            if hasattr(objects, 'shape') and len(objects.shape) >= 1:
                self.original_frame_count = objects.shape[0]

        if self.original_frame_count > 0:
            self.gui_controls['frame_slider'].max = self.original_frame_count - 1
            self.gui_controls['frame_slider'].value = 0
            self.current_frame = 0
            print(f"📊 总帧数: {self.original_frame_count}")

        # 可视化第一帧
        self.visualize_frame(0)

    def _on_frame_change(self, event):
        """帧滑块改变"""
        frame_idx = int(event.target.value)
        self.visualize_frame(frame_idx)

    def _on_play(self, event):
        """开始播放"""
        self.is_playing = True
        print("▶ 开始播放")

        # 在后台线程播放
        import threading
        threading.Thread(target=self._playback_loop, daemon=True).start()

    def _on_pause(self, event):
        """暂停播放"""
        self.is_playing = False
        print("⏸ 暂停播放")

    def _playback_loop(self):
        """播放循环"""
        while self.is_playing:
            current_frame = int(self.gui_controls['frame_slider'].value)
            next_frame = (current_frame + 1) % self.original_frame_count

            self.gui_controls['frame_slider'].value = next_frame
            self.visualize_frame(next_frame)

            fps = int(self.gui_controls['fps_slider'].value)
            time.sleep(1.0 / fps)

    def _on_visibility_change(self, event):
        """可见性改变"""
        self.visualize_frame(self.current_frame)

    def _on_opacity_change(self, event):
        """透明度改变"""
        self.visualize_frame(self.current_frame)

    def _on_color_change(self, event):
        """颜色改变"""
        self.visualize_frame(self.current_frame)

    def _on_mesh_resolution_change(self, event):
        """网格分辨率改变"""
        # 清空对象池，强制重新生成mesh
        for mesh in self.mesh_handles_pool.values():
            mesh.remove()
        self.mesh_handles_pool.clear()
        self.visualize_frame(self.current_frame)

    def _on_wireframe_mode_change(self, event):
        """线框模式改变"""
        wireframe_mode = event.target.value

        # 更新背景颜色
        self.update_background(wireframe_mode)

        # 清空对象池，强制重新生成mesh（应用线框模式）
        for mesh in self.mesh_handles_pool.values():
            mesh.remove()
        self.mesh_handles_pool.clear()

        # 重新可视化当前帧
        self.visualize_frame(self.current_frame)

    def _on_reset_view(self, event):
        """重置视角"""
        # 设置默认相机位置
        for client in self.server.get_clients().values():
            client.camera.position = (3.0, 2.0, 3.0)
            client.camera.look_at = (0.0, 0.0, 0.0)

    def _on_match_camera(self, event):
        """匹配GT相机视角 (新格式)"""
        if self.targets_npz is None or 'frames' not in self.targets_npz:
            print("⚠️ 没有GT相机数据")
            return

        frame_idx = self.current_frame
        frames = self.targets_npz['frames']

        if frame_idx >= len(frames):
            print("⚠️ 帧索引超出范围")
            return

        frame_data = frames[frame_idx]

        # 转换为字典格式
        if isinstance(frame_data, np.ndarray):
            frame_data = frame_data.item()

        if 'world_info' not in frame_data:
            print("⚠️ 未找到world_info数据")
            return

        world_info = frame_data['world_info']
        camera_position = world_info['camera_position']
        # 存储的是xyzw，需要转成viser的wxyz
        q_xyzw = np.array(world_info['camera_quaternion'], dtype=np.float32)
        wxyz = (float(q_xyzw[3]), float(q_xyzw[0]), float(q_xyzw[1]), float(q_xyzw[2]))

        # 对齐到可视化坐标系：减去scene_center并乘以scene_scale
        cam_pos_vis = (np.array(camera_position) - self.scene_center) * self.scene_scale

        print(f"📷 匹配相机: pos={camera_position}, quat={wxyz}")

        # 设置所有客户端的相机
        for client in self.server.get_clients().values():
            client.camera.position = tuple(cam_pos_vis)
            client.camera.wxyz = wxyz

    def visualize_frame(self, frame_idx: int):
        """可视化指定帧"""
        if self.original_frame_count <= 0:
            return

        frame_idx = int(np.clip(frame_idx, 0, self.original_frame_count - 1))
        self.current_frame = frame_idx

        print(f"\n🎨 可视化帧 {frame_idx}/{self.original_frame_count-1}")

        # 清空旧的可视化
        self.clear_visualization()

        # 获取GUI参数
        show_generated = self.gui_controls['show_generated'].value
        show_gt = self.gui_controls['show_gt'].value
        show_pointcloud = self.gui_controls['show_pointcloud'].value
        show_coordinate = self.gui_controls['show_coordinate'].value

        generated_opacity = self.gui_controls['generated_opacity'].value
        gt_opacity = self.gui_controls['gt_opacity'].value
        generated_color = tuple(self.gui_controls['generated_color'].value)
        gt_color = tuple(self.gui_controls['gt_color'].value)
        mesh_resolution = int(self.gui_controls['mesh_resolution'].value)

        # 提取帧数据
        predictions = self._extract_predictions(frame_idx)
        targets = self._extract_targets(frame_idx)

        # 场景对齐信息：优先使用scene_normalization.json或GT world_info的center/scale；超二次体保持原坐标，点云/相机用该center/scale
        self.scene_center = np.zeros(3, dtype=np.float32)
        self.scene_scale = 1.0

        norm_path = None
        if self.current_sample_path is not None:
            norm_path = self.current_sample_path / "original_data" / "scene_normalization.json"
        loaded_norm = False
        if norm_path is not None and norm_path.exists():
            try:
                with open(norm_path) as f:
                    norm = json.load(f)
                if 'scene_center' in norm:
                    self.scene_center = np.array(norm['scene_center'], dtype=np.float32)
                if 'scene_scale' in norm:
                    self.scene_scale = float(norm['scene_scale'])
                elif 'scene_extent' in norm and norm['scene_extent']:
                    self.scene_scale = 20.0 / float(norm['scene_extent'])
                loaded_norm = True
            except Exception:
                loaded_norm = False

        if not loaded_norm:
            wi = self._get_world_info(frame_idx, source="targets")
            if wi is not None:
                if 'scene_center' in wi:
                    self.scene_center = np.array(wi['scene_center'], dtype=np.float32)
                if 'scene_scale' in wi:
                    try:
                        self.scene_scale = float(wi['scene_scale'])
                    except Exception:
                        pass

        # 线框模式下不显示点云（黑背景下点云不清晰）
        wireframe_mode = self.gui_controls.get('wireframe_mode', None)
        is_wireframe = wireframe_mode.value if wireframe_mode else False

        if show_pointcloud and not is_wireframe:
            # 点云用同一center/scale做归一化
            self._visualize_pointcloud(frame_idx, scene_center=self.scene_center, scene_scale=self.scene_scale)

        # 可视化生成的超二次曲面
        if show_generated and predictions is not None:
            self._visualize_superquadrics(
                predictions,
                color=generated_color,
                opacity=generated_opacity,
                mesh_resolution=mesh_resolution,
                is_gt=False
            )

        # 可视化GT超二次曲面
        if show_gt and targets is not None:
            self._visualize_superquadrics(
                targets,
                color=gt_color,
                opacity=gt_opacity,
                mesh_resolution=mesh_resolution,
                is_gt=True
            )

            # 显示物体信息（如果启用且不在线框模式）
            show_info = self.gui_controls['show_object_info'].value
            if show_info and not is_wireframe:
                self._visualize_object_labels(frame_idx, targets, is_gt=True)

        # 显示坐标系
        if show_coordinate:
            self.coordinate_frame_handle = self.server.scene.add_frame(
                "/coordinate",
                wxyz=(1, 0, 0, 0),
                position=(0, 0, 0),
                axes_length=1.0,
                axes_radius=0.01
            )

        # 可视化相机椎体/RGB（线框模式下不显示）
        if not is_wireframe:
            self._visualize_cameras(frame_idx)

    def _extract_predictions(self, frame_idx: int) -> Optional[np.ndarray]:
        """提取预测数据 (新格式)"""
        if self.predictions_npz is None or 'frames' not in self.predictions_npz:
            return None

        frames = self.predictions_npz['frames']
        if frame_idx >= len(frames):
            return None

        frame_data = frames[frame_idx]

        # 转换为字典格式
        if isinstance(frame_data, np.ndarray):
            frame_data = frame_data.item()

        if 'superquadrics' not in frame_data:
            return None

        superquadrics = frame_data['superquadrics']
        objects_array = []

        for sq in superquadrics:
            # 转换为数组格式 [15 params]
            obj_params = np.zeros(15, dtype=np.float32)
            obj_params[0] = 1.0 if sq['exists'] else 0.0
            obj_params[1:3] = sq['shape']         # epsilon1, epsilon2
            obj_params[3:6] = sq['scale']         # a, b, c
            obj_params[6:9] = sq['translation']   # x, y, z
            obj_params[9:12] = sq['rotation']     # euler angles
            obj_params[12:15] = sq['velocity']    # vx, vy, vz
            objects_array.append(obj_params)

        return np.array(objects_array, dtype=np.float32)

    def _extract_targets(self, frame_idx: int) -> Optional[np.ndarray]:
        """提取GT数据 (新格式)"""
        if self.targets_npz is None or 'frames' not in self.targets_npz:
            return None

        frames = self.targets_npz['frames']
        if frame_idx >= len(frames):
            return None

        frame_data = frames[frame_idx]

        # 转换为字典格式
        if isinstance(frame_data, np.ndarray):
            frame_data = frame_data.item()

        if 'superquadrics' not in frame_data:
            return None

        superquadrics = frame_data['superquadrics']
        objects_array = []

        for sq in superquadrics:
            # 转换为数组格式 [16 params - GT格式包含 inlier_ratio]
            obj_params = np.zeros(16, dtype=np.float32)
            obj_params[0] = 1.0 if sq['exists'] else 0.0
            obj_params[1:3] = sq['shape']              # epsilon1, epsilon2
            obj_params[3:6] = sq['scale']              # a, b, c
            obj_params[6:9] = sq['translation']        # x, y, z
            obj_params[9:12] = sq['rotation']          # euler angles
            obj_params[12] = sq['inlier_ratio']        # inlier ratio (GT specific)
            obj_params[13:16] = sq['velocity']         # vx, vy, vz
            objects_array.append(obj_params)

        return np.array(objects_array, dtype=np.float32)

    def _visualize_superquadrics(self, objects: np.ndarray, color: Tuple,
                                 opacity: float, mesh_resolution: int, is_gt: bool):
        """可视化超二次曲面"""
        prefix = "gt" if is_gt else "gen"
        num_active = 0

        for obj_idx, obj_params in enumerate(objects):
            # 检查存在标志
            if obj_params[0] > 0.5:
                num_active += 1

                try:
                    # 生成mesh
                    vertices, faces = self.generate_superquadric_mesh(
                        obj_params, num_samples=mesh_resolution
                    )

                    # 使用对象池
                    mesh_key = f"{prefix}_{obj_idx}"
                    mesh = self.get_or_create_mesh(
                        mesh_key, vertices, faces, color, opacity
                    )

                    if is_gt:
                        self.gt_superquadric_handles.append(mesh)
                    else:
                        self.superquadric_handles.append(mesh)

                except Exception as e:
                    print(f"❌ 可视化对象{obj_idx}失败: {e}")

        label = "GT" if is_gt else "生成"
        print(f"   {label}对象数: {num_active}")

    def _visualize_object_labels(self, frame_idx: int, objects: np.ndarray, is_gt: bool):
        """在物体上显示信息标签"""
        # 获取原始字典数据以访问inlier_ratio等
        if is_gt and self.targets_npz is not None and 'frames' in self.targets_npz:
            frames = self.targets_npz['frames']
            if frame_idx >= len(frames):
                return

            frame_data = frames[frame_idx]
            if isinstance(frame_data, np.ndarray):
                frame_data = frame_data.item()

            if 'superquadrics' not in frame_data:
                return

            superquadrics = frame_data['superquadrics']

            for obj_idx, sq in enumerate(superquadrics):
                if not sq['exists']:
                    continue

                # 获取物体位置（用于放置标签）
                translation = sq['translation']
                scale = sq['scale']

                # 标签位置：物体中心上方
                label_position = (
                    float(translation[0]),
                    float(translation[1]) + float(scale[1]) * 1.5,  # 在物体上方
                    float(translation[2])
                )

                # 构建信息文本
                inlier_ratio = sq.get('inlier_ratio', 0.0)
                shape = sq.get('shape', [0, 0])

                info_text = (
                    f"ID: {obj_idx}\n"
                    f"Density: {inlier_ratio:.3f}\n"
                    f"Shape: ε1={shape[0]:.2f}, ε2={shape[1]:.2f}\n"
                    f"Size: {scale[0]:.2f}×{scale[1]:.2f}×{scale[2]:.2f}"
                )

                # 添加文本标签
                # 使用时间戳确保名称唯一，避免冲突
                label_name = f"/object_label_f{frame_idx}_o{obj_idx}"
                try:
                    label_handle = self.server.scene.add_label(
                        label_name,
                        text=info_text,
                        position=label_position
                    )
                    self.object_label_handles.append(label_handle)
                except Exception as e:
                    print(f"⚠️ 创建标签失败: {e}")

    def _visualize_pointcloud(self, frame_idx: int, scene_center: Optional[np.ndarray] = None, scene_scale: Optional[float] = None):
        """可视化点云"""
        if self.current_sample_path is None:
            return

        # 查找原始数据
        original_data_dir = self.current_sample_path / "original_data"
        if not original_data_dir.exists():
            print("⚠️ 未找到original_data目录")
            return

        # 加载深度图和RGB
        depth_file = self._find_depth_file(original_data_dir, frame_idx)
        rgb_file = original_data_dir / "rgb" / f"frame_{frame_idx:03d}.png"

        if depth_file is None or not rgb_file.exists():
            print(f"⚠️ 未找到帧{frame_idx}的深度图或RGB")
            return

        try:
            # 加载数据
            depth = self._load_depth(depth_file, frame_idx)
            if depth.ndim == 2:
                depth = depth[:, :, None]
            rgb = self._load_rgb(rgb_file)

            # 加载相机内参
            camera_K = None
            metadata_file = original_data_dir / "metadata.json"
            if metadata_file.exists():
                with open(metadata_file) as f:
                    metadata = json.load(f)
                if 'camera' in metadata and 'K' in metadata['camera']:
                    camera_K = np.array(metadata['camera']['K'], dtype=np.float32)
            if camera_K is None:
                h, w = depth.shape[:2]
                camera_K = np.array([[w, 0, w/2], [0, h, h/2], [0, 0, 1]], dtype=np.float32)

            # 使用GT world_info作为相机位姿
            world_info = self._get_world_info(frame_idx, source="targets")
            camera_position = np.zeros(3, dtype=np.float32)
            camera_quat_xyzw = np.array([0, 0, 0, 1], dtype=np.float32)
            if world_info is not None and 'camera_position' in world_info:
                camera_position = np.array(world_info['camera_position'], dtype=np.float32)
                if 'camera_quaternion' in world_info:
                    # 存储为xyzw，直接使用
                    camera_quat_xyzw = np.array(world_info['camera_quaternion'], dtype=np.float32)

            # 转换为点云（标准化到[-10,10]），使用提供的center/scale以与训练对齐
            converter = DepthToPointCloud()
            _, points_norm, _, depth_center, depth_extent = converter.depth_to_normalized_pointcloud_movi(
                depth=depth,
                segmentation=None,
                camera_K=camera_K,
                camera_position=camera_position,
                camera_quaternion=camera_quat_xyzw,
                resolution=depth.shape[0],
                convert_to_zdepth=True,
                scene_center_override=scene_center,
                scene_scale_override=scene_scale
            )

            valid_mask = depth[:, :, 0] > 0
            points = points_norm[valid_mask]
            colors = rgb.reshape(-1, 3)[valid_mask.reshape(-1)]

            # 更新场景中心和尺度（供相机椎体使用）
            if scene_center is not None and scene_scale is not None:
                self.scene_center = np.array(scene_center, dtype=np.float32)
                self.scene_scale = float(scene_scale)
            else:
                self.scene_center = depth_center
                self.scene_scale = 20.0 / max(depth_extent, 1e-6)

            # 显示点云
            point_size = self.gui_controls['pointcloud_size'].value
            self.point_cloud_handle = self.server.scene.add_point_cloud(
                "/pointcloud",
                points=points,
                colors=colors,
                point_size=point_size
            )

            print(f"   点云: {len(points)} 个点")

        except Exception as e:
            print(f"❌ 加载点云失败: {e}")

    def _find_depth_file(self, original_data_dir: Path, frame_idx: int) -> Optional[Path]:
        """查找深度文件（支持合并的npz和单独的npy）"""
        depth_dir = original_data_dir / "depth"
        if not depth_dir.exists():
            return None

        # 检查合并的npz
        merged_npz = depth_dir / "depth_merge.npz"
        if merged_npz.exists():
            return merged_npz

        # 检查单独的npy
        npy_file = depth_dir / f"frame_{frame_idx:03d}.npy"
        if npy_file.exists():
            return npy_file

        return None

    def _load_depth(self, depth_file: Path, frame_idx: int) -> np.ndarray:
        """加载深度数据"""
        if depth_file.suffix == '.npz':
            # 从合并的npz加载
            data = np.load(depth_file)
            frame_key = f"frame_{frame_idx:03d}"
            return data[frame_key]
        else:
            # 从单独的npy加载
            return np.load(depth_file)

    def _load_rgb(self, rgb_path: Path) -> np.ndarray:
        """加载RGB图像"""
        img = cv2.imread(str(rgb_path))
        if img is None:
            raise FileNotFoundError(f"Failed to load RGB image: {rgb_path}")
        return cv2.cvtColor(img, cv2.COLOR_BGR2RGB)

    def _get_world_info(self, frame_idx: int, source: str = "targets") -> Optional[Dict[str, np.ndarray]]:
        """从pred/target获取世界/相机信息"""
        data = self.targets_npz if source == "targets" else self.predictions_npz
        if data is None:
            return None

        if 'frames' in data:
            frames = data['frames']
            if frame_idx < len(frames):
                entry = frames[frame_idx]
                if hasattr(entry, 'item'):
                    try:
                        entry = entry.item()
                    except Exception:
                        pass
                if isinstance(entry, dict) and 'world_info' in entry:
                    return entry['world_info']

        # 兼容旧格式 world 张量
        if 'world' in data:
            world = data['world']
            if hasattr(world, 'shape') and world.shape[0] > frame_idx and world.shape[-1] >= 7:
                wp = world[frame_idx]
                scene_center = world[frame_idx, 8:11] if world.shape[-1] >= 11 else np.zeros(3, dtype=np.float32)
                return {
                    'camera_position': wp[:3],
                    'camera_quaternion': wp[3:7],
                    'scene_scale': float(wp[7]) if len(wp) > 7 else 1.0,
                    'scene_center': scene_center,
                }
        return None

    def _visualize_cameras(self, frame_idx: int):
        """可视化相机椎体与RGB"""
        for h in self.camera_frustum_handles:
            h.remove()
        self.camera_frustum_handles = []
        if self.camera_rgb_handle is not None:
            self.camera_rgb_handle.remove()
            self.camera_rgb_handle = None

        show_target = self.gui_controls.get('show_target_frustum', None)
        show_pred = self.gui_controls.get('show_pred_frustum', None)
        show_rgb = self.gui_controls.get('show_camera_rgb', None)
        if show_target is None or show_pred is None or show_rgb is None:
            return
        if not (show_target.value or show_pred.value):
            return

        original_data_dir = None
        rgb_image = None
        if show_rgb.value and self.current_sample_path is not None:
            original_data_dir = self.current_sample_path / "original_data"
            if original_data_dir.exists():
                rgb_path = original_data_dir / "rgb" / f"frame_{frame_idx:03d}.png"
                if rgb_path.exists():
                    try:
                        rgb_image = self._load_rgb(rgb_path)
                    except Exception:
                        rgb_image = None

        # FOV估计
        fov = np.deg2rad(60.0)
        aspect = 1.0
        if rgb_image is not None:
            h, w = rgb_image.shape[:2]
            aspect = w / max(h, 1)
            metadata_file = (self.current_sample_path / "original_data" / "metadata.json") if self.current_sample_path else None
            fx = None
            if metadata_file and metadata_file.exists():
                try:
                    with open(metadata_file) as f:
                        metadata = json.load(f)
                    if 'camera' in metadata and 'K' in metadata['camera']:
                        K = np.array(metadata['camera']['K'], dtype=np.float32)
                        fx = K[0, 0]
                except Exception:
                    fx = None
            if fx is not None and w > 0:
                fov = 2 * np.arctan(w / (2 * fx))

        def add_frustum(world_info: Dict, name: str, color: Tuple[int, int, int]):
            if world_info is None:
                return
            cam_pos = np.array(world_info.get('camera_position', np.zeros(3)), dtype=np.float32)
            cam_quat = np.array(world_info.get('camera_quaternion', [0, 0, 0, 1]), dtype=np.float32)  # xyzw
            if cam_quat.shape[0] == 4:
                wxyz = (float(cam_quat[3]), float(cam_quat[0]), float(cam_quat[1]), float(cam_quat[2]))
            else:
                wxyz = (1.0, 0.0, 0.0, 0.0)

            # 将位置移到可视化坐标系（减去中心再按场景尺度缩放）
            pos = (cam_pos - self.scene_center) * getattr(self, "scene_scale", 1.0)

            frustum = self.server.scene.add_camera_frustum(
                f"/{name}",
                fov=fov,
                aspect=aspect,
                scale=2.0,
                wxyz=wxyz,
                position=pos,
                image=rgb_image if show_rgb.value else None,
                color=tuple(int(c) for c in color)
            )
            self.camera_frustum_handles.append(frustum)

        if show_pred.value:
            add_frustum(self._get_world_info(frame_idx, source="predictions"), "pred_camera_frustum", (100, 149, 237))
        if show_target.value:
            add_frustum(self._get_world_info(frame_idx, source="targets"), "gt_camera_frustum", (255, 99, 71))

    def generate_superquadric_mesh(self, params, num_samples=25):
        """生成超二次曲面mesh"""
        # 解析参数
        epsilon = [params[1], params[2]]
        scale = [params[3], params[4], params[5]]
        translation = [params[6], params[7], params[8]]
        rotation = [params[9], params[10], params[11]] if len(params) >= 12 else [0, 0, 0]

        # 生成参数网格
        eta = np.linspace(-np.pi/2, np.pi/2, num_samples)
        omega = np.linspace(-np.pi, np.pi, num_samples)

        vertices = []
        faces = []

        # 生成旋转矩阵
        rot = Rotation.from_euler('ZYX', rotation)
        rot_matrix = rot.as_matrix()

        # 生成顶点
        for i, e in enumerate(eta):
            for j, w in enumerate(omega):
                # 超二次曲面参数方程
                cos_eta = np.sign(np.cos(e)) * np.abs(np.cos(e))**epsilon[0]
                sin_eta = np.sign(np.sin(e)) * np.abs(np.sin(e))**epsilon[0]
                cos_omega = np.sign(np.cos(w)) * np.abs(np.cos(w))**epsilon[1]
                sin_omega = np.sign(np.sin(w)) * np.abs(np.sin(w))**epsilon[1]

                # 局部坐标
                x_local = scale[0] * cos_eta * cos_omega
                y_local = scale[1] * cos_eta * sin_omega
                z_local = scale[2] * sin_eta

                # 应用旋转和平移
                point_local = np.array([x_local, y_local, z_local])
                point_global = rot_matrix @ point_local + np.array(translation)

                vertices.append(point_global)

        vertices = np.array(vertices)

        # 生成面片
        for i in range(num_samples - 1):
            for j in range(num_samples - 1):
                idx1 = i * num_samples + j
                idx2 = i * num_samples + (j + 1) % num_samples
                idx3 = (i + 1) * num_samples + j
                idx4 = (i + 1) * num_samples + (j + 1) % num_samples

                faces.append([idx1, idx2, idx3])
                faces.append([idx2, idx4, idx3])

        return vertices, np.array(faces)

    def get_or_create_mesh(self, key: str, vertices, faces, color, opacity):
        """获取或创建mesh（对象池）"""
        # 检查是否启用线框模式
        wireframe_mode = self.gui_controls.get('wireframe_mode', None)
        is_wireframe = wireframe_mode.value if wireframe_mode else False

        # 线框模式：强制白色，完全不透明
        if is_wireframe:
            display_color = (255, 255, 255)
            display_opacity = 1.0
        else:
            display_color = color
            display_opacity = opacity

        if key in self.mesh_handles_pool:
            mesh = self.mesh_handles_pool[key]
            mesh.vertices = vertices
            mesh.vertex_colors = None
            mesh.wireframe = is_wireframe
            mesh.opacity = display_opacity
            mesh.visible = True

            # 更新颜色
            color_array = np.array(display_color, dtype=np.uint8)
            if color_array.max() <= 1.0:
                color_array = (color_array * 255).astype(np.uint8)
            mesh.color = tuple(color_array)
        else:
            # 创建新mesh
            color_array = np.array(display_color, dtype=np.uint8)
            if color_array.max() <= 1.0:
                color_array = (color_array * 255).astype(np.uint8)

            mesh = self.server.scene.add_mesh_simple(
                name=f"/mesh_{key}",
                vertices=vertices,
                faces=faces,
                color=tuple(color_array),
                opacity=display_opacity,
                wireframe=is_wireframe,
                flat_shading=False
            )
            self.mesh_handles_pool[key] = mesh

        return mesh

    def clear_visualization(self):
        """清空可视化"""
        # 隐藏所有mesh
        for mesh in self.mesh_handles_pool.values():
            mesh.visible = False

        # 清空句柄列表
        self.superquadric_handles = []
        self.gt_superquadric_handles = []

        # 删除点云
        if self.point_cloud_handle is not None:
            self.point_cloud_handle.remove()
            self.point_cloud_handle = None

        # 删除相机椎体/RGB
        for handle in self.camera_frustum_handles:
            handle.remove()
        self.camera_frustum_handles = []
        if self.camera_rgb_handle is not None:
            self.camera_rgb_handle.remove()
            self.camera_rgb_handle = None

        # 删除坐标系
        if self.coordinate_frame_handle is not None:
            self.coordinate_frame_handle.remove()
            self.coordinate_frame_handle = None

        # 删除物体信息标签
        for handle in self.object_label_handles:
            try:
                handle.remove()
            except (KeyError, AttributeError):
                # 标签可能已经被删除，忽略错误
                pass
        self.object_label_handles = []

    def _on_capture_camera(self, event):
        """捕获当前相机视角"""
        clients = list(self.server.get_clients().values())
        if not clients:
            print("⚠️ 没有连接的客户端")
            self.gui_controls['export_status'].value = "错误: 没有连接的客户端"
            return

        # 获取第一个客户端的相机参数
        client = clients[0]
        self.export_camera_pos = np.array(client.camera.position)
        self.export_camera_wxyz = np.array(client.camera.wxyz)

        print(f"📸 已捕获相机视角: pos={self.export_camera_pos}, wxyz={self.export_camera_wxyz}")
        self.gui_controls['export_status'].value = f"已捕获视角: {self.export_camera_pos}"

    def _on_export_viser(self, event):
        """导出为viser场景文件（可交互）"""
        if self.current_sample_path is None:
            print("⚠️ 请先加载样本")
            self.gui_controls['export_status'].value = "错误: 请先加载样本"
            return

        if self.original_frame_count <= 0:
            print("⚠️ 没有帧可以导出")
            self.gui_controls['export_status'].value = "错误: 没有帧可以导出"
            return

        # 在后台线程导出
        threading.Thread(target=self._export_viser_thread, daemon=True).start()

    def _export_viser_thread(self):
        """导出viser场景文件（带动画）"""
        try:
            print(f"\n{'='*60}")
            print(f"💾 开始导出Viser场景")
            print(f"{'='*60}")

            # 获取当前客户端的相机参数
            clients = list(self.server.get_clients().values())
            camera_params = None
            if clients:
                client = clients[0]
                cam_pos = client.camera.position
                cam_lookat = client.camera.look_at
                cam_up = client.camera.up_direction

                # 生成viser URL参数格式
                camera_params = (
                    f"&initialCameraPosition={cam_pos[0]:.3f},{cam_pos[1]:.3f},{cam_pos[2]:.3f}"
                    f"&initialCameraLookAt={cam_lookat[0]:.3f},{cam_lookat[1]:.3f},{cam_lookat[2]:.3f}"
                    f"&initialCameraUp={cam_up[0]:.3f},{cam_up[1]:.3f},{cam_up[2]:.3f}"
                )
                print(f"   📸 记录相机视角:")
                print(f"      位置: {cam_pos}")
                print(f"      朝向: {cam_lookat}")
                print(f"      向上: {cam_up}")

            # 获取FPS
            fps = int(self.gui_controls['fps_slider'].value)

            # 创建输出目录
            output_dir = self.core_space_dir / "exports"
            output_dir.mkdir(exist_ok=True)

            # 生成文件名
            selected_output = self.gui_controls['output_selector'].value
            sample_idx = int(self.gui_controls['sample_slider'].value)
            step_info = "unknown"
            if "step" in selected_output:
                try:
                    step_part = selected_output.split("_step")[1].split("_")[0]
                    step_info = f"step{step_part}"
                except:
                    pass

            timestamp = time.strftime("%Y%m%d_%H%M%S")
            experiment_name = selected_output.split("_")[0]
            output_file = output_dir / f"{experiment_name}_{step_info}_sample{sample_idx}_{timestamp}.viser"

            print(f"   输出文件: {output_file}")
            print(f"   帧数: {self.original_frame_count}")
            print(f"   FPS: {fps}")

            # 获取场景序列化器
            serializer = self.server.get_scene_serializer()

            # 记录初始状态（第一帧）
            self.visualize_frame(0)
            serializer.insert_sleep(1.0 / fps)

            # 逐帧更新并记录
            for frame_idx in range(1, self.original_frame_count):
                self.export_progress = int((frame_idx + 1) / self.original_frame_count * 100)
                self.gui_controls['export_status'].value = f"导出中... {self.export_progress}%"

                # 更新场景（会自动更新viser场景）
                self.visualize_frame(frame_idx)

                # 添加帧延迟
                serializer.insert_sleep(1.0 / fps)

                print(f"   记录帧 {frame_idx+1}/{self.original_frame_count}")

            # 序列化并保存
            data = serializer.serialize()
            output_file.write_bytes(data)

            print(f"✅ 场景导出完成: {output_file}")
            print(f"   文件大小: {len(data) / 1024 / 1024:.2f} MB")
            print(f"\n📖 查看方式:")
            print(f"   1. 安装viser客户端: viser-build-client --output-dir viser-client/")
            print(f"   2. 启动HTTP服务器: python -m http.server 8000")

            # 生成完整URL（带相机参数）
            base_url = f"http://localhost:8000/viser-client/?playbackPath=http://localhost:8000/exports/{output_file.name}"
            if camera_params:
                full_url = base_url + camera_params
                print(f"   3. 打开浏览器（带相机视角）:")
                print(f"      {full_url}")
            else:
                print(f"   3. 打开浏览器:")
                print(f"      {base_url}")

            relative_path = output_file.relative_to(self.core_space_dir)
            self.gui_controls['export_status'].value = f"完成! {relative_path}"

            # 提供下载
            clients = list(self.server.get_clients().values())
            if clients:
                clients[0].send_file_download(output_file.name, data)
                print(f"   💾 已发送下载到浏览器")

        except Exception as e:
            print(f"❌ 导出失败: {e}")
            import traceback
            traceback.print_exc()
            self.gui_controls['export_status'].value = f"错误: {str(e)}"

    def _on_export_video(self, event):
        """导出视频"""
        if self.is_exporting:
            print("⚠️ 正在导出中，请等待...")
            return

        if self.current_sample_path is None:
            print("⚠️ 请先加载样本")
            self.gui_controls['export_status'].value = "错误: 请先加载样本"
            return

        if self.original_frame_count <= 0:
            print("⚠️ 没有帧可以导出")
            self.gui_controls['export_status'].value = "错误: 没有帧可以导出"
            return

        # 检查是否有连接的客户端
        clients = list(self.server.get_clients().values())
        if not clients:
            print("⚠️ 没有连接的客户端")
            self.gui_controls['export_status'].value = "错误: 请先在浏览器中打开viser界面"
            return

        # 每次导出都获取最新的相机视角（重要！）
        # 无论之前是否捕获过，都使用当前最新的视角
        client = clients[0]
        self.export_camera_pos = np.array(client.camera.position)
        self.export_camera_wxyz = np.array(client.camera.wxyz)
        print(f"📸 使用当前视角: pos={self.export_camera_pos}, wxyz={self.export_camera_wxyz}")

        # 在后台线程导出视频
        threading.Thread(target=self._export_video_thread_screenshot, daemon=True).start()

    def _export_video_thread(self):
        """视频导出线程"""
        try:
            self.is_exporting = True
            self.gui_controls['export_status'].value = "正在导出..."

            # 确保场景归一化参数已设置（通过可视化当前帧来初始化）
            if not hasattr(self, 'scene_center') or self.scene_center is None:
                print("   初始化场景参数...")
                self.visualize_frame(self.current_frame)

            # 获取参数
            fps = int(self.gui_controls['fps_slider'].value)
            resolution = int(self.gui_controls['export_resolution'].value)

            # 创建输出目录 - 放在core_space根目录下
            output_dir = self.core_space_dir / "exports"
            output_dir.mkdir(exist_ok=True)

            # 提取实验信息
            selected_output = self.gui_controls['output_selector'].value
            sample_idx = int(self.gui_controls['sample_slider'].value)

            # 从输出名称提取步数 (例如: 20251205_184253_step5_text2wave -> step5)
            step_info = "unknown"
            if "step" in selected_output:
                try:
                    step_part = selected_output.split("_step")[1].split("_")[0]
                    step_info = f"step{step_part}"
                except:
                    pass

            # 生成输出文件名: {实验名}_{step}_sample{idx}_{timestamp}.mp4
            timestamp = time.strftime("%Y%m%d_%H%M%S")
            experiment_name = selected_output.split("_")[0]  # 取日期部分作为实验名
            output_file = output_dir / f"{experiment_name}_{step_info}_sample{sample_idx}_{timestamp}.mp4"

            print(f"\n{'='*60}")
            print(f"🎬 开始导出视频")
            print(f"{'='*60}")
            print(f"   实验: {selected_output}")
            print(f"   样本: {sample_idx}")
            print(f"   输出文件: {output_file}")
            print(f"   帧数: {self.original_frame_count}")
            print(f"   FPS: {fps}")
            print(f"   分辨率: {resolution}x{resolution}")
            print(f"   相机位置: {self.export_camera_pos}")
            print(f"   相机旋转: {self.export_camera_wxyz}")

            # 尝试使用imageio（更好的兼容性），如果不可用则使用OpenCV
            try:
                import imageio
                use_imageio = True
                print("   使用 imageio 进行视频编码（H.264）")
            except ImportError:
                use_imageio = False
                print("   使用 OpenCV 进行视频编码")

            if use_imageio:
                # 使用imageio-ffmpeg，生成高兼容性的H.264视频
                # 注意：必须指定format='FFMPEG'来确保使用FFmpeg插件
                writer = imageio.get_writer(
                    str(output_file),
                    format='FFMPEG',
                    mode='I',
                    fps=fps,
                    codec='libx264',
                    pixelformat='yuv420p',  # 确保兼容性
                    output_params=['-crf', '18']  # H.264质量参数，18是高质量
                )

                # 渲染每一帧
                for frame_idx in range(self.original_frame_count):
                    self.export_progress = int((frame_idx + 1) / self.original_frame_count * 100)
                    self.gui_controls['export_status'].value = f"导出中... {self.export_progress}%"

                    # 渲染帧
                    frame_image = self._render_frame_offline(
                        frame_idx,
                        resolution=resolution,
                        camera_pos=self.export_camera_pos,
                        camera_wxyz=self.export_camera_wxyz
                    )

                    # 写入视频（imageio需要RGB格式）
                    if frame_image is not None:
                        writer.append_data(frame_image)

                    print(f"   渲染帧 {frame_idx+1}/{self.original_frame_count}")

                writer.close()

            else:
                # 使用OpenCV，尝试更兼容的编码器
                # 尝试顺序: H264 -> avc1 -> X264 -> mp4v
                codecs_to_try = [
                    ('H264', 'H.264'),
                    ('avc1', 'H.264 (AVC1)'),
                    ('X264', 'X264'),
                    ('mp4v', 'MPEG-4')
                ]

                writer = None
                used_codec = None

                for codec_fourcc, codec_name in codecs_to_try:
                    try:
                        fourcc = cv2.VideoWriter_fourcc(*codec_fourcc)
                        test_writer = cv2.VideoWriter(
                            str(output_file),
                            fourcc,
                            fps,
                            (resolution, resolution)
                        )
                        if test_writer.isOpened():
                            writer = test_writer
                            used_codec = codec_name
                            print(f"   使用编码器: {codec_name}")
                            break
                        else:
                            test_writer.release()
                    except:
                        continue

                if writer is None:
                    raise RuntimeError("无法初始化视频编码器")

                # 渲染每一帧
                for frame_idx in range(self.original_frame_count):
                    self.export_progress = int((frame_idx + 1) / self.original_frame_count * 100)
                    self.gui_controls['export_status'].value = f"导出中... {self.export_progress}%"

                    # 渲染帧
                    frame_image = self._render_frame_offline(
                        frame_idx,
                        resolution=resolution,
                        camera_pos=self.export_camera_pos,
                        camera_wxyz=self.export_camera_wxyz
                    )

                    # 写入视频（OpenCV需要BGR格式）
                    if frame_image is not None:
                        writer.write(cv2.cvtColor(frame_image, cv2.COLOR_RGB2BGR))

                    print(f"   渲染帧 {frame_idx+1}/{self.original_frame_count}")

                writer.release()

            print(f"✅ 视频导出完成: {output_file}")
            relative_path = output_file.relative_to(self.core_space_dir)
            self.gui_controls['export_status'].value = f"完成! {relative_path}"

        except Exception as e:
            print(f"❌ 导出视频失败: {e}")
            import traceback
            traceback.print_exc()
            self.gui_controls['export_status'].value = f"错误: {str(e)}"

        finally:
            self.is_exporting = False

    def _export_video_thread_screenshot(self):
        """视频导出线程（基于截图viser界面）"""
        try:
            self.is_exporting = True
            self.gui_controls['export_status'].value = "正在导出..."

            # 获取参数
            fps = int(self.gui_controls['fps_slider'].value)

            # 创建输出目录
            output_dir = self.core_space_dir / "exports"
            output_dir.mkdir(exist_ok=True)

            # 提取实验信息并生成文件名
            selected_output = self.gui_controls['output_selector'].value
            sample_idx = int(self.gui_controls['sample_slider'].value)
            step_info = "unknown"
            if "step" in selected_output:
                try:
                    step_part = selected_output.split("_step")[1].split("_")[0]
                    step_info = f"step{step_part}"
                except:
                    pass

            timestamp = time.strftime("%Y%m%d_%H%M%S")
            experiment_name = selected_output.split("_")[0]
            output_file = output_dir / f"{experiment_name}_{step_info}_sample{sample_idx}_{timestamp}.mp4"

            print(f"\n{'='*60}")
            print(f"🎬 开始导出视频（截图模式）")
            print(f"{'='*60}")
            print(f"   实验: {selected_output}")
            print(f"   样本: {sample_idx}")
            print(f"   输出文件: {output_file}")
            print(f"   帧数: {self.original_frame_count}")
            print(f"   FPS: {fps}")
            print(f"   方法: 直接截取Viser显示画面")

            # 检查selenium
            try:
                from selenium import webdriver
                from selenium.webdriver.chrome.options import Options
                from selenium.webdriver.common.by import By
                import time as time_module
                use_selenium = True
                print("   ✅ 使用 Selenium 截图")
            except ImportError:
                print("   ⚠️  Selenium未安装，使用逐帧渲染方法")
                print("   提示: pip install selenium")
                use_selenium = False

            if use_selenium:
                # 使用Selenium截图方法
                frames = []

                # 配置Chrome
                chrome_options = Options()
                chrome_options.add_argument('--headless')  # 无头模式
                chrome_options.add_argument('--no-sandbox')
                chrome_options.add_argument('--disable-dev-shm-usage')
                chrome_options.add_argument('--window-size=1920,1080')

                try:
                    driver = webdriver.Chrome(options=chrome_options)
                    url = f"http://localhost:{self.port}"
                    driver.get(url)
                    print(f"   📱 打开浏览器: {url}")

                    # 等待页面加载
                    time_module.sleep(3)

                    # 逐帧截图
                    for frame_idx in range(self.original_frame_count):
                        self.export_progress = int((frame_idx + 1) / self.original_frame_count * 100)
                        self.gui_controls['export_status'].value = f"截图中... {self.export_progress}%"

                        # 通过GUI更新帧
                        self.gui_controls['frame_slider'].value = frame_idx
                        time_module.sleep(0.3)  # 等待渲染

                        # 截图
                        screenshot = driver.get_screenshot_as_png()
                        img = cv2.imdecode(np.frombuffer(screenshot, np.uint8), cv2.IMREAD_COLOR)
                        frames.append(img)

                        print(f"   截图帧 {frame_idx+1}/{self.original_frame_count}")

                    driver.quit()

                    # 使用imageio写入视频
                    try:
                        import imageio
                        writer = imageio.get_writer(
                            str(output_file),
                            format='FFMPEG',
                            mode='I',
                            fps=fps,
                            codec='libx264',
                            pixelformat='yuv420p',
                            output_params=['-crf', '18']
                        )

                        for frame in frames:
                            # 转换BGR到RGB
                            frame_rgb = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)
                            writer.append_data(frame_rgb)

                        writer.close()
                        print(f"✅ 视频导出完成: {output_file}")
                        relative_path = output_file.relative_to(self.core_space_dir)
                        self.gui_controls['export_status'].value = f"完成! {relative_path}"

                    except ImportError:
                        # 使用OpenCV写入
                        height, width = frames[0].shape[:2]
                        fourcc = cv2.VideoWriter_fourcc(*'mp4v')
                        writer = cv2.VideoWriter(str(output_file), fourcc, fps, (width, height))
                        for frame in frames:
                            writer.write(frame)
                        writer.release()
                        print(f"✅ 视频导出完成: {output_file}")
                        relative_path = output_file.relative_to(self.core_space_dir)
                        self.gui_controls['export_status'].value = f"完成! {relative_path}"

                except Exception as e:
                    print(f"❌ Selenium截图失败: {e}")
                    import traceback
                    traceback.print_exc()
                    # 回退到渲染方法
                    use_selenium = False

            if not use_selenium:
                # 回退到原来的渲染方法
                print("   使用PyRender离线渲染...")
                self._export_video_thread()
                return

        except Exception as e:
            print(f"❌ 导出视频失败: {e}")
            import traceback
            traceback.print_exc()
            self.gui_controls['export_status'].value = f"错误: {str(e)}"

        finally:
            self.is_exporting = False

    def _render_frame_offline(self, frame_idx: int, resolution: int,
                              camera_pos: np.ndarray, camera_wxyz: np.ndarray) -> Optional[np.ndarray]:
        """离线渲染一帧"""
        # 尝试导入pyrender
        try:
            import pyrender
            import trimesh
        except ImportError:
            if frame_idx == 0:
                print("⚠️ pyrender未安装，使用简化渲染...")
                print("   提示: 安装 pyrender 以获得完整3D渲染")
                print("   pip install pyrender trimesh")
            return self._render_frame_simple(frame_idx, resolution)

        # 设置PyRender使用离屏渲染（EGL或OSMesa）
        # 优先尝试EGL，如果失败则尝试OSMesa
        for platform in ['egl', 'osmesa']:
            try:
                os.environ['PYOPENGL_PLATFORM'] = platform

                # 创建场景 - 设置深蓝色背景（与viser一致）
                scene = pyrender.Scene(
                    ambient_light=[0.3, 0.3, 0.3],
                    bg_color=[13/255, 13/255, 38/255, 1.0]  # 深蓝色背景
                )

                # 获取GUI参数
                show_generated = self.gui_controls['show_generated'].value
                show_gt = self.gui_controls['show_gt'].value
                generated_color = np.array(self.gui_controls['generated_color'].value) / 255.0
                gt_color = np.array(self.gui_controls['gt_color'].value) / 255.0
                mesh_resolution = int(self.gui_controls['mesh_resolution'].value)

                mesh_count = 0

                # 添加生成的超二次曲面
                # 重要：需要应用场景归一化，使物体坐标与相机坐标在同一空间
                if show_generated:
                    predictions = self._extract_predictions(frame_idx)
                    if predictions is not None:
                        for obj_idx, obj_params in enumerate(predictions):
                            if obj_params[0] > 0.5:
                                # 复制参数并应用场景归一化到平移部分
                                obj_params_normalized = obj_params.copy()
                                # 归一化平移: (translation - scene_center) * scene_scale
                                translation = obj_params[6:9]
                                translation_normalized = (translation - self.scene_center) * self.scene_scale
                                obj_params_normalized[6:9] = translation_normalized
                                # 归一化缩放: scale * scene_scale
                                obj_params_normalized[3:6] = obj_params[3:6] * self.scene_scale

                                vertices, faces = self.generate_superquadric_mesh(
                                    obj_params_normalized, num_samples=mesh_resolution
                                )

                                if frame_idx == 0 and obj_idx == 0:
                                    print(f"   物体原始位置: {translation}")
                                    print(f"   物体归一化位置: {translation_normalized}")
                                    print(f"   场景中心: {self.scene_center}, 缩放: {self.scene_scale}")

                                mesh = trimesh.Trimesh(vertices=vertices, faces=faces)
                                # 为每个顶点设置颜色 (N, 4) - RGBA
                                num_verts = len(vertices)
                                vertex_colors = np.zeros((num_verts, 4), dtype=np.uint8)
                                vertex_colors[:, :3] = (generated_color * 255).astype(np.uint8)  # RGB
                                vertex_colors[:, 3] = 255  # 完全不透明
                                mesh.visual.vertex_colors = vertex_colors

                                # 创建PyRender材质
                                material = pyrender.MetallicRoughnessMaterial(
                                    baseColorFactor=list(generated_color) + [1.0],
                                    metallicFactor=0.3,
                                    roughnessFactor=0.7
                                )
                                mesh_obj = pyrender.Mesh.from_trimesh(mesh, material=material)
                                scene.add(mesh_obj)
                                mesh_count += 1

                # 添加GT超二次曲面
                if show_gt:
                    targets = self._extract_targets(frame_idx)
                    if targets is not None:
                        for obj_idx, obj_params in enumerate(targets):
                            if obj_params[0] > 0.5:
                                # 复制参数并应用场景归一化
                                obj_params_normalized = obj_params.copy()
                                translation = obj_params[6:9]
                                translation_normalized = (translation - self.scene_center) * self.scene_scale
                                obj_params_normalized[6:9] = translation_normalized
                                obj_params_normalized[3:6] = obj_params[3:6] * self.scene_scale

                                vertices, faces = self.generate_superquadric_mesh(
                                    obj_params_normalized, num_samples=mesh_resolution
                                )
                                mesh = trimesh.Trimesh(vertices=vertices, faces=faces)
                                # 为每个顶点设置颜色 (N, 4) - RGBA
                                num_verts = len(vertices)
                                vertex_colors = np.zeros((num_verts, 4), dtype=np.uint8)
                                vertex_colors[:, :3] = (gt_color * 255).astype(np.uint8)  # RGB
                                vertex_colors[:, 3] = 255  # 完全不透明
                                mesh.visual.vertex_colors = vertex_colors

                                # 创建PyRender材质
                                material = pyrender.MetallicRoughnessMaterial(
                                    baseColorFactor=list(gt_color) + [0.5],
                                    metallicFactor=0.3,
                                    roughnessFactor=0.7
                                )
                                mesh_obj = pyrender.Mesh.from_trimesh(mesh, material=material)
                                scene.add(mesh_obj)
                                mesh_count += 1

                if frame_idx == 0:
                    print(f"   场景中添加了 {mesh_count} 个mesh")

                # 设置相机
                # Viser使用的是wxyz四元数，需要转换为PyRender的变换矩阵
                from scipy.spatial.transform import Rotation as R

                # wxyz -> xyzw for scipy
                rot = R.from_quat([camera_wxyz[1], camera_wxyz[2], camera_wxyz[3], camera_wxyz[0]])
                rot_matrix = rot.as_matrix()

                # PyRender使用OpenGL坐标系
                # 构建相机变换矩阵
                camera_pose = np.eye(4)
                camera_pose[:3, :3] = rot_matrix
                camera_pose[:3, 3] = camera_pos

                if frame_idx == 0:
                    print(f"   相机位置: {camera_pos}")
                    print(f"   相机旋转矩阵:\n{rot_matrix}")

                # 创建透视相机
                camera = pyrender.PerspectiveCamera(yfov=np.pi / 3.0, aspectRatio=1.0)
                scene.add(camera, pose=camera_pose)

                # 添加多个光源以确保场景被充分照亮
                # 主光源跟随相机
                light1 = pyrender.DirectionalLight(color=[1.0, 1.0, 1.0], intensity=2.0)
                scene.add(light1, pose=camera_pose)

                # 额外的环境光源
                light2 = pyrender.DirectionalLight(color=[1.0, 1.0, 1.0], intensity=1.0)
                light_pose = np.eye(4)
                light_pose[:3, 3] = [10, 10, 10]
                scene.add(light2, pose=light_pose)

                # 渲染
                renderer = pyrender.OffscreenRenderer(resolution, resolution)
                color, depth = renderer.render(scene)
                renderer.delete()

                # 首次成功时打印使用的平台和渲染统计
                if frame_idx == 0:
                    print(f"   ✅ 使用 {platform.upper()} 进行离线渲染")
                    print(f"   渲染输出范围: [{color.min()}, {color.max()}]")
                    print(f"   深度范围: [{depth.min()}, {depth.max()}]")

                return color

            except Exception as e:
                if platform == 'osmesa':
                    # 两种方式都失败了
                    if frame_idx == 0:
                        print(f"❌ PyRender渲染失败 (EGL和OSMesa都不可用): {e}")
                        print("   使用简化渲染模式...")
                    return self._render_frame_simple(frame_idx, resolution)
                # EGL失败，继续尝试OSMesa
                continue

        # 不应该到达这里，但以防万一
        return self._render_frame_simple(frame_idx, resolution)

    def _render_frame_simple(self, frame_idx: int, resolution: int) -> np.ndarray:
        """简化渲染（纯色背景 + 文字提示）"""
        # 创建空白图像
        image = np.full((resolution, resolution, 3), [13, 13, 38], dtype=np.uint8)

        # 添加文字
        text = f"Frame {frame_idx + 1}/{self.original_frame_count}"
        font = cv2.FONT_HERSHEY_SIMPLEX
        text_size = cv2.getTextSize(text, font, 1, 2)[0]
        text_x = (resolution - text_size[0]) // 2
        text_y = (resolution + text_size[1]) // 2

        cv2.putText(image, text, (text_x, text_y), font, 1, (255, 255, 255), 2)

        # 添加提示信息
        hint = "Install pyrender for full rendering"
        hint_size = cv2.getTextSize(hint, font, 0.5, 1)[0]
        hint_x = (resolution - hint_size[0]) // 2
        hint_y = text_y + 40

        cv2.putText(image, hint, (hint_x, hint_y), font, 0.5, (150, 150, 150), 1)

        return image

    def run(self, auto_open_browser: bool = True):
        """运行可视化器"""
        print("\n" + "="*60)
        print("🎨 WaveGen 训练可视化器")
        print("="*60)
        print(f"📁 监控目录: {self.core_space_dir}")
        print(f"🌐 Web界面: http://localhost:{self.port}")
        print("="*60)
        print("\n💡 提示:")
        print("   - 如果页面空白一直加载，请刷新浏览器 (Ctrl+Shift+R)")
        print("   - 建议使用 Chrome 或 Firefox 浏览器")
        print("\n按 Ctrl+C 退出\n")

        # 自动打开浏览器
        if auto_open_browser:
            url = f"http://localhost:{self.port}"
            print(f"🌐 正在打开浏览器: {url}")
            try:
                webbrowser.open(url)
            except Exception as e:
                print(f"⚠️  无法自动打开浏览器: {e}")
                print(f"   请手动访问: {url}")

        try:
            while True:
                time.sleep(0.1)
        except KeyboardInterrupt:
            print("\n👋 再见！")
            print("正在关闭服务器...")
            # 清理资源
            try:
                for mesh in self.mesh_handles_pool.values():
                    mesh.remove()
            except:
                pass


def main():
    """主函数"""
    import argparse

    parser = argparse.ArgumentParser(description="WaveGen训练结果可视化工具")
    parser.add_argument(
        '--core-space',
        type=str,
        default='core_space',
        help='core_space目录路径（默认: ./core_space）'
    )
    parser.add_argument(
        '--port',
        type=int,
        default=8080,
        help='Viser服务器端口（默认: 8080，如果被占用会自动尝试下一个端口）'
    )
    parser.add_argument(
        '--no-browser',
        action='store_true',
        help='不自动打开浏览器'
    )

    args = parser.parse_args()

    # 创建并运行可视化器
    visualizer = TrainingVisualizer(core_space_dir=args.core_space, port=args.port)
    visualizer.run(auto_open_browser=not args.no_browser)


if __name__ == "__main__":
    main()