yfan07
/

SimToken

Model card Files Files and versions

xet

Community

yfan07 commited on Apr 24

Commit

d5c375d

verified ·

1 Parent(s): 92fc4f7

Update HuggingFace upload instructions for split archives

Browse files

Files changed (1) hide show

setup_simtoken.md +21 -77

setup_simtoken.md CHANGED Viewed

@@ -57,42 +57,7 @@ PY
 ---
-## 2. Check Workspace After Migration
-使用服务器平台的迁移工具完成目录迁移后，在新机器上确认关键文件：
-```bash
-cd /workspace/SimToken
-ls -lh checkpoints/simtoken_pretrained.pth
-ls -lh models/segment_anything/sam_vit_h_4b8939.pth
-ls -d data/image_embed data/gt_mask data/audio_embed data/media
-```
-如果迁移后只有压缩包而没有解压目录，重新解压：
-```bash
-cd /workspace/SimToken/data
-tar -xf image_embed.tar
-tar -xzf gt_mask.tar.gz
-tar -xzf audio_embed.tar.gz
-tar -xf media.tar
-```
-清理迁移中不需要的缓存：
-```bash
-cd /workspace/SimToken
-find . -name "__pycache__" -prune -exec rm -rf {} +
-find . -name ".pytest_cache" -prune -exec rm -rf {} +
-find . -name ".cache" -prune -exec rm -rf {} +
-find . -name "*.pyc" -delete
-```
----
-## 3. Download from HuggingFace
 如果新机器不使用迁移工具，而是从 HuggingFace 重新初始化，先登录：
@@ -125,7 +90,7 @@ tar -xf media.tar
 ---
-## 4. Pre-download Model Weights
 `transformers==4.30.2` 与新版 `huggingface_hub` 可能存在网络/API 兼容问题。建议先用 CLI 将模型下载到本地缓存，实验时再加 `TRANSFORMERS_OFFLINE=1`。
@@ -148,60 +113,39 @@ TRANSFORMERS_OFFLINE=1 /opt/miniforge3/condabin/conda run -n simtoken \
 ---
-## 5. Smoke Test
-先跑一个轻量 sanity check，确认 checkpoint、数据和离线模型缓存都能正常读取：
 ```bash
-cd /workspace/SimToken
-TRANSFORMERS_OFFLINE=1 /opt/miniforge3/condabin/conda run -n simtoken \
-  python decoder_invariance_check.py \
-  --eval_split test_s \
-  --max_eval_rows 1
-```
-如果可以正常加载模型并输出 per-frame diff，就可以启动完整 A-min 训练：
-```bash
-cd /workspace/SimToken
-mkdir -p log checkpoints
-TRANSFORMERS_OFFLINE=1 /opt/miniforge3/condabin/conda run -n simtoken \
-  python -W ignore train.py \
-  --name amin_full_e1 \
-  --init_from_saved_model \
-  --epochs 1 \
-  --batch_size 2 \
-  --lr 1e-4 \
-  --saved_model /workspace/SimToken/checkpoints/simtoken_pretrained.pth \
-  --log_root /workspace/SimToken/log \
-  --checkpoint_root /workspace/SimToken/checkpoints
-```
-启动日志中应出现：
-```text
-initialized training from saved model: /workspace/SimToken/checkpoints/simtoken_pretrained.pth
-missing keys: ... | unexpected keys: ...
 ```
----
-## 6. Upload to HuggingFace
-实验结束后，如需重新上传到 HuggingFace，先将数据目录压缩为归档文件，减少文件数量：
 ```bash
 cd /workspace/SimToken/data
-tar -cf image_embed.tar image_embed/
-tar -czf gt_mask.tar.gz gt_mask/
-tar -czf audio_embed.tar.gz audio_embed/
-tar -cf media.tar media/
-ls -lh *.tar*
-rm -rf image_embed/ gt_mask/ audio_embed/ media/
 ```
 清理缓存并上传：

 ---
+## 2. Download from HuggingFace
 如果新机器不使用迁移工具，而是从 HuggingFace 重新初始化，先登录：
 ---
+## 3. Pre-download Model Weights
 `transformers==4.30.2` 与新版 `huggingface_hub` 可能存在网络/API 兼容问题。建议先用 CLI 将模型下载到本地缓存，实验时再加 `TRANSFORMERS_OFFLINE=1`。
 ---
+## 4. Upload to HuggingFace
+实验结束后，如需重新上传到 HuggingFace，先将数据目录压缩为归档文件，减少文件数量：
 ```bash
+cd /workspace/SimToken/data
+tar -cf image_embed.tar image_embed/
+tar -czf gt_mask.tar.gz gt_mask/
+tar -czf audio_embed.tar.gz audio_embed/
+tar -cf media.tar media/
+ls -lh *.tar*
+# HuggingFace 单文件硬限制为 50GB；如果 image_embed.tar 超过 50GB，
+# 需要切成小于 50GB 的分片再上传。
+split -b 45G -d -a 2 image_embed.tar image_embed.tar.part-
+# 校验分片拼接后仍能读出完整 tar 文件列表。
+cat image_embed.tar.part-* | tar -tf - | grep -v '/$' | wc -l
+# 分片校验通过后再删除超大原始 tar，避免上传失败。
+rm -f image_embed.tar
+rm -rf image_embed/ gt_mask/ audio_embed/ media/
 ```
+下载后如需恢复 `image_embed.tar`：
 ```bash
 cd /workspace/SimToken/data
+cat image_embed.tar.part-* > image_embed.tar
+tar -xf image_embed.tar
 ```
 清理缓存并上传：