outputs / README.md

Curiousfox

Curiousfox/mt5_tai-lo_to_chinese_LoRA_ver1.0.e

176a604 verified 11 days ago

preview code

raw

history blame contribute delete

2.06 kB

metadata

library_name: peft
license: apache-2.0
base_model: google/mt5-base
tags:
  - base_model:adapter:google/mt5-base
  - lora
  - transformers
model-index:
  - name: outputs
    results: []

outputs

This model is a fine-tuned version of google/mt5-base on an unknown dataset. It achieves the following results on the evaluation set:

Loss: 4.1438
Chrf: 0.3504

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 0.01
train_batch_size: 4
eval_batch_size: 8
seed: 1
optimizer: Use OptimizerNames.ADAMW_TORCH_FUSED with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
lr_scheduler_type: linear
lr_scheduler_warmup_steps: 2000.0
training_steps: 20000

Training results

Training Loss	Epoch	Step	Validation Loss	Chrf
6.5309	0.9337	2000	6.1412	0.0
5.0243	1.8674	4000	4.7869	0.0
5.8503	2.8011	6000	4.6079	0.0
4.8561	3.7348	8000	5.4843	0.3906
5.3422	4.6685	10000	4.6969	0.1913
5.1278	5.6022	12000	4.5267	0.0638
4.7362	6.5359	14000	4.4173	0.5746
4.8027	7.4697	16000	4.2625	0.1913
4.4404	8.4034	18000	4.1877	0.1276
4.3010	9.3371	20000	4.1438	0.3504

Framework versions

PEFT 0.19.1
Transformers 5.0.0
Pytorch 2.10.0+cu128
Datasets 4.0.0
Tokenizers 0.22.2