现在目标: 提升保真度 任务: 加z轴 timeline v0 - v2 - v1 - v3 - v4 - v4_ca - v5 - v6 - v7 - v8 v0发现cat出问题 v2 ca v1开始加入airvln数据 v3 与x对齐,sa加入 v4 v2 + 与x_cond对齐,ca加入 v4_ca 与x_cond对齐,ca加入 v5 三维扩展,每次要改model train infer config/expname 四个 v6 该版本把y_cond和x_cond concate,CDIT block和原版一样,final layer和v5一样 v7 加入相机位姿编码,对应的修改了attention模块 v8 继承自v7,加入了相机位姿编码,self_attention模块 note: checkpoints备份在:/data0/tpz/nwm_checkpoints/ v0 / v2: supervised忘加时空编码了qwq v1 / v3 / v4 train的时候eval都用了infer v1 qwq v4_ca 改用正确eval infer datasets v1是v0的重构版,都是深度图投影 v8 训练集的context是加上goal的,其他的没加pred [DEBUG] x before embedding: torch.Size([12, 4, 28, 28]) [DEBUG] x after x_embedder: torch.Size([12, 196, 1152]) [DEBUG] pos_embed slice: torch.Size([1, 196, 1152]) [DEBUG] x after adding pos_embed: torch.Size([12, 196, 1152]) test: export RESULTS_FOLDER=/data1/tpz/nwm-main/results python isolated_nwm_infer_recon.py \ --exp config/nwm_cdit_recon.yaml \ --datasets recon \ --batch_size 96 \ --num_workers 12 \ --eval_type time \ --output_dir ${RESULTS_FOLDER} \ --gt 1 python isolated_nwm_infer_recon.py \ --exp config/nwm_cdit_recon.yaml \ --ckp 0100000 \ --datasets recon \ --batch_size 2 \ --num_workers 12 \ --eval_type time \ --output_dir ${RESULTS_FOLDER} python isolated_nwm_eval.py \ --datasets recon \ --gt_dir ${RESULTS_FOLDER}/gt \ --exp_dir ${RESULTS_FOLDER}/nwm_cdit_recon \ --eval_types time