quickmt
/

quickmt-uk-en

Eval Results (legacy)

Model card Files Files and versions

quickmt-uk-en / pytorch_model /config.yaml

radinplaid's picture

Upload folder using huggingface_hub

cdb4ffb verified 3 days ago

history blame contribute delete

1.11 kB

	model:
	d_model: 768
	enc_layers: 12
	dec_layers: 2
	n_heads: 16
	ffn_dim: 4096
	max_len: 256
	vocab_size_src: 32000
	vocab_size_tgt: 32000
	dropout: 0.05
	mlp_type: "standard" # standard or gated
	activation: "gelu" # gelu or silu
	norm_type: "layernorm" # layernorm or rmsnorm
	ff_bias: true
	tie_decoder_embeddings: false
	layernorm_eps: 1.0e-5

	data:
	src_lang: "uk"
	tgt_lang: "en"
	src_dev_path: "dev.ukr"
	tgt_dev_path: "dev.eng"
	max_tokens_per_batch: 6000
	src_spm_nbest_size: -1
	src_spm_alpha: 0.5
	tgt_spm_nbest_size: 1
	tgt_spm_alpha: 1.0
	corpora:
	- src_file: "train.cleaned.filtered.ukr"
	tgt_file: "train.cleaned.filtered.eng"
	weight: 1
	start_step: 1000
	- src_file: "finetranslations.ukr_Cyrl-eng_Latn.ukr_Cyrl"
	tgt_file: "finetranslations.ukr_Cyrl-eng_Latn.eng_Latn"
	weight: 1
	start_step: 0
	stop_step: 80000

	train:
	experiment_name: "uken-base"
	lr: 2.5e-3
	grad_clip: 0.5
	accum_steps: 20
	max_checkpoints: 10
	precision: "bfloat16"
	warmup_steps: 5000
	max_steps: 108000
	eval_steps: 1000

	export:
	k: 5