Upload 4 files

Files changed (4) hide show

trans_fairseq/scripts/run1.sh CHANGED Viewed

@@ -37,6 +37,7 @@ num_workers=8
 # specified param
 # Global Batch=卡数*max-tokens*梯度累计,对于训练数据较大的语种(train-set几十M),global batch在 100k tokens以上较好
 arch=my_transformer_vaswani_wmt_en_de_big
 use_rmsnorm=0
 use_llama_ffn=0

 # specified param
 # Global Batch=卡数*max-tokens*梯度累计,对于训练数据较大的语种(train-set几十M),global batch在 100k tokens以上较好
+conf_name=my_transformer_big
 arch=my_transformer_vaswani_wmt_en_de_big
 use_rmsnorm=0
 use_llama_ffn=0

trans_fairseq/scripts/run2.sh CHANGED Viewed

@@ -37,6 +37,7 @@ num_workers=8
 # specified param
 # Global Batch=卡数*max-tokens*梯度累计,对于训练数据较大的语种(train-set几十M),global batch在 100k tokens以上较好
 arch=my_transformer_vaswani_wmt_en_de_big
 use_rmsnorm=0
 use_llama_ffn=1

 # specified param
 # Global Batch=卡数*max-tokens*梯度累计,对于训练数据较大的语种(train-set几十M),global batch在 100k tokens以上较好
+conf_name=my_transformer_big
 arch=my_transformer_vaswani_wmt_en_de_big
 use_rmsnorm=0
 use_llama_ffn=1

trans_fairseq/scripts/run3.sh CHANGED Viewed

@@ -37,6 +37,7 @@ num_workers=8
 # specified param
 # Global Batch=卡数*max-tokens*梯度累计,对于训练数据较大的语种(train-set几十M),global batch在 100k tokens以上较好
 arch=my_transformer_vaswani_wmt_en_de_big
 use_rmsnorm=1
 use_llama_ffn=0

 # specified param
 # Global Batch=卡数*max-tokens*梯度累计,对于训练数据较大的语种(train-set几十M),global batch在 100k tokens以上较好
+conf_name=my_transformer_big
 arch=my_transformer_vaswani_wmt_en_de_big
 use_rmsnorm=1
 use_llama_ffn=0

trans_fairseq/scripts/run4.sh CHANGED Viewed

@@ -37,6 +37,7 @@ num_workers=8
 # specified param
 # Global Batch=卡数*max-tokens*梯度累计,对于训练数据较大的语种(train-set几十M),global batch在 100k tokens以上较好
 arch=my_transformer_vaswani_wmt_en_de_big
 use_rmsnorm=1
 use_llama_ffn=1

 # specified param
 # Global Batch=卡数*max-tokens*梯度累计,对于训练数据较大的语种(train-set几十M),global batch在 100k tokens以上较好
+conf_name=my_transformer_big
 arch=my_transformer_vaswani_wmt_en_de_big
 use_rmsnorm=1
 use_llama_ffn=1