marcoyang
/

general_audio_encoder_zipformer_327M

Model card Files Files and versions

xet

Community

marcoyang commited on Sep 19, 2025

Commit

ab12c11

1 Parent(s): 55c315c

update finetune script

Browse files

Files changed (1) hide show

327M-uni-v2-dual-domain-mvq/finetune_rnnt_300m.sh +89 -0

327M-uni-v2-dual-domain-mvq/finetune_rnnt_300m.sh ADDED Viewed

	@@ -0,0 +1,89 @@

+#!/usr/bin/env bash
+export PYTHONPATH=./../../../:$PYTHONPATH
+# data related
+use_librispeech=1
+full_libri=0
+causal=0
+lr=0.045
+# finetune checkpoint
+do_finetune=1
+finetune_ckpt=zipformer_audio_encoder/exp-316M-uniform-v2-zipformer-out-ds-2-lh-large-giga-xl-voxpopuli-1-as-full-x2-all-audio-w2v2-mask-p-0.65-l-10-cha-mask-p-0.25-l-20-musan-p-0.5-min-snr-10-multi-mvq-wavlm-all-wavlm-large-cb16-1.0-dasheng-cb8-0.1-md300/iter-496000-avg-4.pt
+use_ctc=0
+use_transducer=1
+output_ds=2
+post_output_ds=1
+freeze_encoder=0
+freeze_encoder_steps=2000
+# freeze_encoder=1
+# freeze_encoder_steps=-1
+encoder_lr_scale=0.05
+md=1000
+exp_dir=zipformer_finetune/exp-finetune-rnnt-327M-multi-mvq-out-ds-2
+echo $exp_dir
+torchrun --nproc_per_node=2 --master_port=19291 \
+  zipformer_finetune/finetune_asr.py \
+    --num-epochs 30 \
+    --use-fp16 1 \
+    --start-epoch 1 \
+    --use-librispeech $use_librispeech --full-libri $full_libri \
+    --exp-dir $exp_dir \
+    --manifest-dir data/fbank \
+    --bpe-model data/lang_bpe_500/bpe.model \
+    --base-lr $lr \
+    --use-ctc $use_ctc --use-transducer $use_transducer \
+    --do-finetune $do_finetune --init-modules "encoder_embed,encoder" --finetune-ckpt $finetune_ckpt \
+    --freeze-encoder $freeze_encoder --freeze-encoder-steps $freeze_encoder_steps \
+    --encoder-lr-scale $encoder_lr_scale \
+    --causal $causal \
+    --downsampling-factor 1,2,4,8,4,2,1 \
+    --num-encoder-layers 1,2,2,3,1,1,1 \
+    --feedforward-dim 3072,3072,3072,3072,3072,3072,3072 \
+    --encoder-dim 1024,1024,1024,1024,1024,1024,1024 \
+    --encoder-unmasked-dim 512,512,512,512,512,512,512 \
+    --cnn-module-kernel 31,31,15,15,15,31,31 \
+    --num-heads 8,8,8,8,8,8,8 \
+    --output-downsampling-factor $output_ds \
+    --post-encoder-downsampling-factor $post_output_ds \
+    --on-the-fly-feats 1 \
+    --max-duration $md
+for m in greedy_search modified_beam_search; do
+    for epoch in 23; do
+        for avg in 8; do
+            python zipformer_finetune/decode.py \
+                --epoch $epoch \
+                --avg $avg \
+                --manifest-dir data/fbank_librispeech \
+                --bpe-model data/lang_bpe_500/bpe.model \
+                --use-averaged-model 1 \
+                --downsampling-factor 1,2,4,8,4,2,1 \
+                --num-encoder-layers 1,2,2,3,1,1,1 \
+                --feedforward-dim 3072,3072,3072,3072,3072,3072,3072 \
+                --encoder-dim 1024,1024,1024,1024,1024,1024,1024 \
+                --encoder-unmasked-dim 512,512,512,512,512,512,512 \
+                --cnn-module-kernel 31,31,15,15,15,31,31 \
+                --num-heads 8,8,8,8,8,8,8 \
+                --use-ctc $use_ctc --use-transducer $use_transducer \
+                --output-downsampling-factor $output_ds \
+                --post-encoder-downsampling-factor $post_output_ds \
+                --on-the-fly-feats 1 \
+                --exp-dir $exp_dir \
+                --decoding-method $m \
+                --max-duration 1000
+        done
+    done
+done
+# rm $exp_dir/*.pt
+echo "Done"