yfyeung commited on Oct 10, 2025

Commit

5596709

verified ·

1 Parent(s): 24234b0

Upload folder using huggingface_hub

Browse files

Files changed (18) hide show

94m-uni-v2-dual-domain-mvq/exp_ft_ls100_char_ctc_ws4_md1000_lr1e-3_bf16/ctc-4gram.tar.gz +3 -0
94m-uni-v2-dual-domain-mvq/exp_ft_ls100_char_ctc_ws4_md1000_lr1e-3_bf16/ctc-decoding.tar.gz +3 -0
94m-uni-v2-dual-domain-mvq/exp_ft_ls100_char_ctc_ws4_md1000_lr1e-3_bf16/epoch-48-avg-47.pt +3 -0
94m-uni-v2-dual-domain-mvq/exp_ft_ls100_char_ctc_ws4_md1000_lr1e-3_bf16/log/log-train-2025-09-21-00-29-19-0 +0 -0
94m-uni-v2-dual-domain-mvq/exp_ft_ls100_char_ctc_ws4_md1000_lr1e-3_bf16/log/log-train-2025-09-21-00-29-19-1 +0 -0
94m-uni-v2-dual-domain-mvq/exp_ft_ls100_char_ctc_ws4_md1000_lr1e-3_bf16/log/log-train-2025-09-21-00-29-19-2 +0 -0
94m-uni-v2-dual-domain-mvq/exp_ft_ls100_char_ctc_ws4_md1000_lr1e-3_bf16/log/log-train-2025-09-21-00-29-19-3 +0 -0
94m-uni-v2-dual-domain-mvq/exp_ft_ls100_char_ctc_ws4_md1000_lr1e-3_bf16/tensorboard/events.out.tfevents.1758385759.TENCENT64.site.70629.0 +3 -0
94m-uni-v2-dual-domain-mvq/exp_ft_ls10_char_ctc_ws1_md1000_lr1e-3_bf16/ctc-4gram.tar.gz +3 -0
94m-uni-v2-dual-domain-mvq/exp_ft_ls10_char_ctc_ws1_md1000_lr1e-3_bf16/ctc-decoding.tar.gz +3 -0
94m-uni-v2-dual-domain-mvq/exp_ft_ls10_char_ctc_ws1_md1000_lr1e-3_bf16/epoch-248-avg-245.pt +3 -0
94m-uni-v2-dual-domain-mvq/exp_ft_ls10_char_ctc_ws1_md1000_lr1e-3_bf16/log/log-train-2025-09-23-00-07-42 +0 -0
94m-uni-v2-dual-domain-mvq/exp_ft_ls10_char_ctc_ws1_md1000_lr1e-3_bf16/tensorboard/events.out.tfevents.1758557262.TENCENT64.site.86523.0 +3 -0
94m-uni-v2-dual-domain-mvq/finetune_ctc_94m_ls1.sh +93 -0
94m-uni-v2-dual-domain-mvq/finetune_ctc_94m_ls10.sh +93 -0
94m-uni-v2-dual-domain-mvq/finetune_ctc_94m_ls100.sh +95 -0
94m-uni-v2-dual-domain-mvq/finetune_rnnt_94m_ls100.sh +89 -0
94m-uni-v2-dual-domain-mvq/iter-400000-avg-4.pt +3 -0

94m-uni-v2-dual-domain-mvq/exp_ft_ls100_char_ctc_ws4_md1000_lr1e-3_bf16/ctc-4gram.tar.gz ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3235199ea2bea61e9597c0b5a7a9273f724081adf7798e4f54c8872eacfcb82d
+size 2867343

94m-uni-v2-dual-domain-mvq/exp_ft_ls100_char_ctc_ws4_md1000_lr1e-3_bf16/ctc-decoding.tar.gz ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3ef31089a56b123ff51ae9f3a1f65ef3c0fd0d245d4d12a96e4ccc3c72201b65
+size 574481494

94m-uni-v2-dual-domain-mvq/exp_ft_ls100_char_ctc_ws4_md1000_lr1e-3_bf16/epoch-48-avg-47.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:28cb04d3e72d7fb5991f18641032102d620ea5d8432e4029f301f885dd9a890c
+size 373547808

94m-uni-v2-dual-domain-mvq/exp_ft_ls100_char_ctc_ws4_md1000_lr1e-3_bf16/log/log-train-2025-09-21-00-29-19-0 ADDED Viewed

The diff for this file is too large to render. See raw diff

94m-uni-v2-dual-domain-mvq/exp_ft_ls100_char_ctc_ws4_md1000_lr1e-3_bf16/log/log-train-2025-09-21-00-29-19-1 ADDED Viewed

The diff for this file is too large to render. See raw diff

94m-uni-v2-dual-domain-mvq/exp_ft_ls100_char_ctc_ws4_md1000_lr1e-3_bf16/log/log-train-2025-09-21-00-29-19-2 ADDED Viewed

The diff for this file is too large to render. See raw diff

94m-uni-v2-dual-domain-mvq/exp_ft_ls100_char_ctc_ws4_md1000_lr1e-3_bf16/log/log-train-2025-09-21-00-29-19-3 ADDED Viewed

The diff for this file is too large to render. See raw diff

94m-uni-v2-dual-domain-mvq/exp_ft_ls100_char_ctc_ws4_md1000_lr1e-3_bf16/tensorboard/events.out.tfevents.1758385759.TENCENT64.site.70629.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0a25907eec1641774c45f94c78dfc9c0870ce951834a274ed48dc16b89330553
+size 111765

94m-uni-v2-dual-domain-mvq/exp_ft_ls10_char_ctc_ws1_md1000_lr1e-3_bf16/ctc-4gram.tar.gz ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fa432cc690b9a7827f9c5dc020d54ba15d828d545c6b040a77aaabd1138c11d1
+size 14398592

94m-uni-v2-dual-domain-mvq/exp_ft_ls10_char_ctc_ws1_md1000_lr1e-3_bf16/ctc-decoding.tar.gz ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8a03bd894e0902ada9c5c0d33fcb99f6db4d25afaba3f8cc46863916feec8290
+size 3348536190

94m-uni-v2-dual-domain-mvq/exp_ft_ls10_char_ctc_ws1_md1000_lr1e-3_bf16/epoch-248-avg-245.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e9f4da7c66cc866dfe226b1ed35b74e08c5358600451c5649a5c3268e7e47b68
+size 373548866

94m-uni-v2-dual-domain-mvq/exp_ft_ls10_char_ctc_ws1_md1000_lr1e-3_bf16/log/log-train-2025-09-23-00-07-42 ADDED Viewed

The diff for this file is too large to render. See raw diff

94m-uni-v2-dual-domain-mvq/exp_ft_ls10_char_ctc_ws1_md1000_lr1e-3_bf16/tensorboard/events.out.tfevents.1758557262.TENCENT64.site.86523.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8cdca1724641336a9d5a13f4c17654e384a6a18b547d1fd010a26f5574151246
+size 439928

94m-uni-v2-dual-domain-mvq/finetune_ctc_94m_ls1.sh ADDED Viewed

	@@ -0,0 +1,93 @@

+#!/usr/bin/env bash
+export PYTHONPATH=/root/icefall:$PYTHONPATH
+export CUDA_VISIBLE_DEVICES=$1
+# data related
+use_librispeech=1
+full_libri="ls1"
+causal=0
+lr=0.002
+# finetune checkpoint
+do_finetune=1
+finetune_ckpt=/private_data2/94m-uni-v2-dual-domain-mvq/iter-400000-avg-4.pt
+use_ctc=1
+use_transducer=0
+output_ds=2
+post_output_ds=1
+freeze_encoder=0
+freeze_encoder_steps=-1
+encoder_lr_scale=0.005
+md=500
+exp_dir=zipformer_finetune/94m-uni-v2-dual-domain-mvq-exp_ft_ls1_char_ctc_ws1_md500_lr1e-5_baselr0.002_bf16
+echo $exp_dir
+if true; then
+torchrun --nproc_per_node=1 --master_port=19193 \
+  zipformer_finetune/finetune_asr.py \
+    --num-epochs 8000 \
+    --use-fp16 0 \
+    --use-bf16 1 \
+    --start-epoch 1 \
+    --use-librispeech $use_librispeech --full-libri $full_libri \
+    --exp-dir $exp_dir \
+    --manifest-dir data/fbank \
+    --lang-dir data/lang_char \
+    --base-lr $lr \
+    --use-ctc $use_ctc --use-transducer $use_transducer \
+    --do-finetune $do_finetune --init-modules "encoder_embed,encoder" --finetune-ckpt $finetune_ckpt \
+    --freeze-encoder $freeze_encoder --freeze-encoder-steps $freeze_encoder_steps \
+    --encoder-lr-scale $encoder_lr_scale \
+    --causal $causal \
+    --downsampling-factor 1,2,4,8,4,2,1 \
+    --num-encoder-layers 1,2,3,3,1,1,1 \
+    --feedforward-dim 1536,1536,1536,1536,1536,1536,1536 \
+    --encoder-dim 512,512,512,512,512,512,512 \
+    --encoder-unmasked-dim 256,256,256,256,256,256,256 \
+    --num-heads 8,8,8,8,8,8,8 \
+    --cnn-module-kernel 31,31,15,15,15,31,31 \
+    --output-downsampling-factor $output_ds \
+    --post-encoder-downsampling-factor $post_output_ds \
+    --on-the-fly-feats 1 \
+    --max-duration $md
+fi
+# start=$2
+if true; then
+for m in ctc-decoding; do
+    for epoch in $(seq 400 -20 100); do
+        for avg in $(seq $((epoch-1)) -20 50); do
+            python zipformer_finetune/decode_ctc.py \
+                --epoch $epoch \
+                --avg $avg \
+                --manifest-dir data/fbank \
+                --lang-dir data/lang_char \
+                --use-averaged-model 1 \
+                --downsampling-factor 1,2,4,8,4,2,1 \
+                --num-encoder-layers 1,2,3,3,1,1,1 \
+                --feedforward-dim 1536,1536,1536,1536,1536,1536,1536 \
+                --encoder-dim 512,512,512,512,512,512,512 \
+                --encoder-unmasked-dim 256,256,256,256,256,256,256 \
+                --num-heads 8,8,8,8,8,8,8 \
+                --cnn-module-kernel 31,31,15,15,15,31,31 \
+                --use-ctc $use_ctc --use-transducer $use_transducer \
+                --output-downsampling-factor $output_ds \
+                --post-encoder-downsampling-factor $post_output_ds \
+                --on-the-fly-feats 1 \
+                --exp-dir $exp_dir \
+                --decoding-method $m \
+                --max-duration 2000
+        done
+    done
+done
+fi
+echo "Done"
+python ~/busygpu/run.py &

94m-uni-v2-dual-domain-mvq/finetune_ctc_94m_ls10.sh ADDED Viewed

	@@ -0,0 +1,93 @@

+#!/usr/bin/env bash
+export PYTHONPATH=/root/icefall:$PYTHONPATH
+export CUDA_VISIBLE_DEVICES=$1
+# data related
+use_librispeech=1
+full_libri="ls10"
+causal=0
+lr=0.045
+# finetune checkpoint
+do_finetune=1
+finetune_ckpt=/private_data2/94m-uni-v2-dual-domain-mvq/iter-400000-avg-4.pt
+use_ctc=1
+use_transducer=0
+output_ds=2
+post_output_ds=1
+freeze_encoder=0
+freeze_encoder_steps=-1
+encoder_lr_scale=0.02222
+md=1000
+exp_dir=zipformer_finetune/94m-uni-v2-dual-domain-mvq-exp_ft_ls10_char_ctc_ws1_md1000_lr1e-3_bf16
+echo $exp_dir
+if false; then
+torchrun --nproc_per_node=1 --master_port=19293 \
+  zipformer_finetune/finetune_asr.py \
+    --num-epochs 500 \
+    --use-fp16 0 \
+    --use-bf16 1 \
+    --start-epoch 1 \
+    --use-librispeech $use_librispeech --full-libri $full_libri \
+    --exp-dir $exp_dir \
+    --manifest-dir data/fbank \
+    --lang-dir data/lang_char \
+    --base-lr $lr \
+    --use-ctc $use_ctc --use-transducer $use_transducer \
+    --do-finetune $do_finetune --init-modules "encoder_embed,encoder" --finetune-ckpt $finetune_ckpt \
+    --freeze-encoder $freeze_encoder --freeze-encoder-steps $freeze_encoder_steps \
+    --encoder-lr-scale $encoder_lr_scale \
+    --causal $causal \
+    --downsampling-factor 1,2,4,8,4,2,1 \
+    --num-encoder-layers 1,2,3,3,1,1,1 \
+    --feedforward-dim 1536,1536,1536,1536,1536,1536,1536 \
+    --encoder-dim 512,512,512,512,512,512,512 \
+    --encoder-unmasked-dim 256,256,256,256,256,256,256 \
+    --num-heads 8,8,8,8,8,8,8 \
+    --cnn-module-kernel 31,31,15,15,15,31,31 \
+    --output-downsampling-factor $output_ds \
+    --post-encoder-downsampling-factor $post_output_ds \
+    --on-the-fly-feats 1 \
+    --max-duration $md
+fi
+start=$2
+if true; then
+for m in ctc-decoding; do
+    for epoch in $(seq $start -1 $((start-29))); do
+        for avg in $(seq $((epoch-1)) -1 $((epoch-20))); do
+            python zipformer_finetune/decode_ctc.py \
+                --epoch $epoch \
+                --avg $avg \
+                --manifest-dir data/fbank \
+                --lang-dir data/lang_char \
+                --use-averaged-model 1 \
+                --downsampling-factor 1,2,4,8,4,2,1 \
+                --num-encoder-layers 1,2,3,3,1,1,1 \
+                --feedforward-dim 1536,1536,1536,1536,1536,1536,1536 \
+                --encoder-dim 512,512,512,512,512,512,512 \
+                --encoder-unmasked-dim 256,256,256,256,256,256,256 \
+                --num-heads 8,8,8,8,8,8,8 \
+                --cnn-module-kernel 31,31,15,15,15,31,31 \
+                --use-ctc $use_ctc --use-transducer $use_transducer \
+                --output-downsampling-factor $output_ds \
+                --post-encoder-downsampling-factor $post_output_ds \
+                --on-the-fly-feats 1 \
+                --exp-dir $exp_dir \
+                --decoding-method $m \
+                --max-duration 2000
+        done
+    done
+done
+fi
+echo "Done"
+python ~/busygpu/run.py &

94m-uni-v2-dual-domain-mvq/finetune_ctc_94m_ls100.sh ADDED Viewed

	@@ -0,0 +1,95 @@

+#!/usr/bin/env bash
+export PYTHONPATH=/root/icefall:$PYTHONPATH
+# export CUDA_VISIBLE_DEVICES=0,1,2,3
+export CUDA_VISIBLE_DEVICES=$1
+# data related
+use_librispeech=1
+full_libri=0
+causal=0
+lr=0.045
+# finetune checkpoint
+do_finetune=1
+finetune_ckpt=/private_data2/94m-uni-v2-dual-domain-mvq/iter-400000-avg-4.pt
+use_ctc=1
+use_transducer=0
+output_ds=2
+post_output_ds=1
+freeze_encoder=0
+freeze_encoder_steps=-1
+encoder_lr_scale=0.02222
+md=1000
+exp_dir=/private_data2/94m-uni-v2-dual-domain-mvq/exp_ft_ls100_char_ctc_ws4_md1000_lr1e-3_bf16
+echo $exp_dir
+if false; then
+torchrun --nproc_per_node=4 --master_port=19291 \
+  zipformer_finetune/finetune_asr.py \
+    --num-epochs 50 \
+    --use-fp16 0 \
+    --use-bf16 1 \
+    --start-epoch 1 \
+    --use-librispeech $use_librispeech --full-libri $full_libri \
+    --exp-dir $exp_dir \
+    --manifest-dir data/fbank \
+    --lang-dir data/lang_char \
+    --base-lr $lr \
+    --use-ctc $use_ctc --use-transducer $use_transducer \
+    --do-finetune $do_finetune --init-modules "encoder_embed,encoder" --finetune-ckpt $finetune_ckpt \
+    --freeze-encoder $freeze_encoder --freeze-encoder-steps $freeze_encoder_steps \
+    --encoder-lr-scale $encoder_lr_scale \
+    --causal $causal \
+    --downsampling-factor 1,2,4,8,4,2,1 \
+    --num-encoder-layers 1,2,3,3,1,1,1 \
+    --feedforward-dim 1536,1536,1536,1536,1536,1536,1536 \
+    --encoder-dim 512,512,512,512,512,512,512 \
+    --encoder-unmasked-dim 256,256,256,256,256,256,256 \
+    --num-heads 8,8,8,8,8,8,8 \
+    --cnn-module-kernel 31,31,15,15,15,31,31 \
+    --output-downsampling-factor $output_ds \
+    --post-encoder-downsampling-factor $post_output_ds \
+    --on-the-fly-feats 1 \
+    --max-duration $md
+fi
+start=$2
+if true; then
+for m in ctc-decoding; do
+    for epoch in $(seq $start -1 $((start-10))); do
+        for avg in $(seq $((epoch-1)) -1 10); do
+            python zipformer_finetune/decode_ctc.py \
+                --epoch $epoch \
+                --avg $avg \
+                --manifest-dir data/fbank \
+                --lang-dir data/lang_char \
+                --use-averaged-model 1 \
+                --downsampling-factor 1,2,4,8,4,2,1 \
+                --num-encoder-layers 1,2,3,3,1,1,1 \
+                --feedforward-dim 1536,1536,1536,1536,1536,1536,1536 \
+                --encoder-dim 512,512,512,512,512,512,512 \
+                --encoder-unmasked-dim 256,256,256,256,256,256,256 \
+                --num-heads 8,8,8,8,8,8,8 \
+                --cnn-module-kernel 31,31,15,15,15,31,31 \
+                --use-ctc $use_ctc --use-transducer $use_transducer \
+                --output-downsampling-factor $output_ds \
+                --post-encoder-downsampling-factor $post_output_ds \
+                --on-the-fly-feats 1 \
+                --exp-dir $exp_dir \
+                --decoding-method $m \
+                --max-duration 2000
+        done
+    done
+done
+fi
+echo "Done"
+# for i in {0..3}; do CUDA_VISIBLE_DEVICES=$i python ~/busygpu/run.py & done
+python ~/busygpu/run.py &

94m-uni-v2-dual-domain-mvq/finetune_rnnt_94m_ls100.sh ADDED Viewed

	@@ -0,0 +1,89 @@

+#!/usr/bin/env bash
+export PYTHONPATH=./../../../:$PYTHONPATH
+# data related
+use_librispeech=1
+full_libri=0
+causal=0
+lr=0.045
+# finetune checkpoint
+do_finetune=1
+finetune_ckpt=zipformer_audio_encoder/exp-96M-uniform-v2-zipformer-out-ds-2-lh-large-giga-xl-voxpopuli-1-as-full-x2-all-audio-w2v2-mask-p-0.65-l-10-cha-mask-p-0.25-l-20-musan-p-0.5-min-snr-10-multi-mvq-wavlm-all-wavlm-large-cb16-1.0-dasheng-cb8-0.1-md400/iter-400000-avg-4.pt
+use_ctc=0
+use_transducer=1
+output_ds=2
+post_output_ds=1
+freeze_encoder=0
+freeze_encoder_steps=2000
+# freeze_encoder=1
+# freeze_encoder_steps=-1
+encoder_lr_scale=0.05
+md=1000
+exp_dir=zipformer_finetune/exp-finetune-rnnt-94m-out-ds-${output_ds}
+echo $exp_dir
+torchrun --nproc_per_node=2 --master_port=19291 \
+  zipformer_finetune/finetune_asr.py \
+    --num-epochs 30 \
+    --use-fp16 1 \
+    --start-epoch 1 \
+    --use-librispeech $use_librispeech --full-libri $full_libri \
+    --exp-dir $exp_dir \
+    --manifest-dir data/fbank \
+    --bpe-model data/lang_bpe_500/bpe.model \
+    --base-lr $lr \
+    --use-ctc $use_ctc --use-transducer $use_transducer \
+    --do-finetune $do_finetune --init-modules "encoder_embed,encoder" --finetune-ckpt $finetune_ckpt \
+    --freeze-encoder $freeze_encoder --freeze-encoder-steps $freeze_encoder_steps \
+    --encoder-lr-scale $encoder_lr_scale \
+    --causal $causal \
+    --downsampling-factor 1,2,4,8,4,2,1 \
+    --num-encoder-layers 1,2,3,3,1,1,1 \
+    --feedforward-dim 1536,1536,1536,1536,1536,1536,1536 \
+    --encoder-dim 512,512,512,512,512,512,512 \
+    --encoder-unmasked-dim 256,256,256,256,256,256,256 \
+    --num-heads 8,8,8,8,8,8,8 \
+    --cnn-module-kernel 31,31,15,15,15,31,31 \
+    --output-downsampling-factor $output_ds \
+    --post-encoder-downsampling-factor $post_output_ds \
+    --on-the-fly-feats 1 \
+    --max-duration $md
+for m in greedy_search modified_beam_search; do
+    for epoch in 30; do
+        for avg in $(seq 15 -1 10); do
+            python zipformer_finetune/decode.py \
+                --epoch $epoch \
+                --avg $avg \
+                --manifest-dir data/fbank_librispeech \
+                --bpe-model data/lang_bpe_500/bpe.model \
+                --use-averaged-model 1 \
+                --downsampling-factor 1,2,4,8,4,2,1 \
+                --num-encoder-layers 1,2,3,3,1,1,1 \
+                --feedforward-dim 1536,1536,1536,1536,1536,1536,1536 \
+                --encoder-dim 512,512,512,512,512,512,512 \
+                --encoder-unmasked-dim 256,256,256,256,256,256,256 \
+                --num-heads 8,8,8,8,8,8,8 \
+                --cnn-module-kernel 31,31,15,15,15,31,31 \
+                --use-ctc $use_ctc --use-transducer $use_transducer \
+                --output-downsampling-factor $output_ds \
+                --post-encoder-downsampling-factor $post_output_ds \
+                --on-the-fly-feats 1 \
+                --exp-dir $exp_dir \
+                --decoding-method $m \
+                --max-duration 1000
+        done
+    done
+done
+# rm $exp_dir/*.pt
+echo "Done"

94m-uni-v2-dual-domain-mvq/iter-400000-avg-4.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c96d858101d874a14ea0c2d2452243b0e9626f0a6f89de4309bd7edc95cc8965
+size 374551106