m2m100-en-ky

This model is a fine-tuned version of facebook/m2m100_418M on an unknown dataset. It achieves the following results on the evaluation set:

Model description

More information needed

More information needed

More information needed

The following hyperparameters were used during training:

learning_rate: 0.0001
train_batch_size: 8
eval_batch_size: 16
seed: 42
gradient_accumulation_steps: 2
total_train_batch_size: 16
optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
lr_scheduler_type: linear
lr_scheduler_warmup_steps: 10
num_epochs: 6
mixed_precision_training: Native AMP

Training Loss	Epoch	Step	Validation Loss	Chrf++	Bleu
4.4526	0.4645	180	4.0685	24.8955	0.0506
2.9422	0.9290	360	3.5187	30.7245	0.0900
2.1773	1.3923	540	3.2526	34.0997	0.1075
1.8924	1.8568	720	3.0695	36.0231	0.1271
1.5529	2.32	900	2.9945	38.0174	0.1384
1.33	2.7845	1080	2.9262	38.7927	0.1455
1.1336	3.2477	1260	2.8781	40.0639	0.1540
0.9801	3.7123	1440	2.8405	41.0637	0.1639
0.8629	4.1755	1620	2.8334	41.4410	0.1667
0.7352	4.64	1800	2.8410	41.6745	0.1700
0.6713	5.1032	1980	2.8273	42.1474	0.1717
0.5607	5.5677	2160	2.8407	42.4848	0.1748

Safetensors

Model size

0.5B params

Tensor type

F32

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Base model

Finetuned

(164)

this model