dbed4fa8a33d397d9039df229f3f2ade

This model is a fine-tuned version of google/mt5-small on the Helsinki-NLP/opus_books [it-pt] dataset. It achieves the following results on the evaluation set:

Loss: 2.5175
Data Size: 1.0
Epoch Runtime: 6.4739
Bleu: 3.8302

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 5e-05
train_batch_size: 8
eval_batch_size: 8
seed: 42
distributed_type: multi-GPU
num_devices: 4
total_train_batch_size: 32
total_eval_batch_size: 32
optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
lr_scheduler_type: constant
num_epochs: 50

Training results

Training Loss	Epoch	Step	Validation Loss	Data Size	Epoch Runtime	Bleu
No log	0	0	26.2779	0	1.1744	0.0068
No log	1	29	25.9586	0.0078	1.9209	0.0127
No log	2	58	25.1367	0.0156	1.4629	0.0104
No log	3	87	24.8218	0.0312	1.7947	0.0052
No log	4	116	23.4677	0.0625	2.3529	0.0074
No log	5	145	22.1057	0.125	3.0089	0.0131
2.3617	6	174	18.6065	0.25	3.5469	0.0117
2.3617	7	203	14.7363	0.5	4.5564	0.0136
2.3617	8.0	232	10.9954	1.0	7.0924	0.0213
10.6627	9.0	261	8.8220	1.0	6.9109	0.0252
10.6627	10.0	290	7.1574	1.0	6.7997	0.0365
10.2451	11.0	319	6.0927	1.0	6.8539	0.0368
10.2451	12.0	348	5.3463	1.0	7.1673	0.0339
7.7447	13.0	377	4.5045	1.0	7.3251	0.0262
6.0289	14.0	406	3.6649	1.0	8.1250	0.0966
6.0289	15.0	435	3.3868	1.0	5.5084	0.2746
4.9415	16.0	464	3.2390	1.0	5.6076	1.1464
4.9415	17.0	493	3.1260	1.0	5.8870	1.4617
4.404	18.0	522	3.0449	1.0	6.2157	1.4860
4.1129	19.0	551	2.9807	1.0	7.1596	1.7602
4.1129	20.0	580	2.9318	1.0	6.9954	1.9781
3.8861	21.0	609	2.8955	1.0	7.1986	2.0040
3.8861	22.0	638	2.8558	1.0	6.9807	2.1913
3.767	23.0	667	2.8227	1.0	7.0149	2.3236
3.767	24.0	696	2.7988	1.0	7.5125	2.5216
3.6303	25.0	725	2.7710	1.0	8.2661	2.6151
3.5335	26.0	754	2.7561	1.0	8.1937	2.8109
3.5335	27.0	783	2.7315	1.0	8.3030	2.8490
3.4365	28.0	812	2.7181	1.0	5.8576	2.9338
3.4365	29.0	841	2.6973	1.0	5.5768	2.9671
3.3432	30.0	870	2.6806	1.0	5.4829	3.0154
3.3432	31.0	899	2.6714	1.0	5.5313	3.0290
3.2838	32.0	928	2.6584	1.0	5.8889	3.1056
3.2296	33.0	957	2.6450	1.0	6.3369	3.1736
3.2296	34.0	986	2.6365	1.0	6.3380	3.1543
3.1714	35.0	1015	2.6222	1.0	6.3708	3.3314
3.1714	36.0	1044	2.6076	1.0	6.3102	3.4107
3.1345	37.0	1073	2.6047	1.0	6.6178	3.4284
3.0623	38.0	1102	2.5923	1.0	6.4746	3.5279
3.0623	39.0	1131	2.5842	1.0	6.6475	3.5298
3.0229	40.0	1160	2.5805	1.0	7.0900	3.6507
3.0229	41.0	1189	2.5691	1.0	7.0913	3.6075
2.9571	42.0	1218	2.5633	1.0	7.2156	3.5628
2.9571	43.0	1247	2.5576	1.0	7.7473	3.5878
2.94	44.0	1276	2.5481	1.0	5.7941	3.5755
2.8916	45.0	1305	2.5452	1.0	5.8162	3.6682
2.8916	46.0	1334	2.5358	1.0	5.7676	3.6454
2.8577	47.0	1363	2.5348	1.0	5.9324	3.7170
2.8577	48.0	1392	2.5242	1.0	6.3589	3.7073
2.8343	49.0	1421	2.5200	1.0	6.7387	3.7432
2.7848	50.0	1450	2.5175	1.0	6.4739	3.8302

Framework versions

Transformers 4.57.0
Pytorch 2.8.0+cu128
Datasets 4.2.0
Tokenizers 0.22.1

Downloads last month: 2

Safetensors

Model size

0.6B params

Tensor type

F32

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for contemmcm/dbed4fa8a33d397d9039df229f3f2ade

Base model

google/mt5-small

Finetuned

(746)

this model