train_svamp_456_1760637774

This model is a fine-tuned version of meta-llama/Meta-Llama-3-8B-Instruct on the svamp dataset. It achieves the following results on the evaluation set:

Loss: 0.0595
Num Input Tokens Seen: 1432752

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 5e-05
train_batch_size: 4
eval_batch_size: 4
seed: 456
optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
lr_scheduler_type: cosine
lr_scheduler_warmup_ratio: 0.1
num_epochs: 20

Training results

Training Loss	Epoch	Step	Validation Loss	Input Tokens Seen
0.0966	1.0	158	0.0995	71728
0.0661	2.0	316	0.0824	143392
0.0458	3.0	474	0.0595	214928
0.0374	4.0	632	0.0747	286624
0.0132	5.0	790	0.0925	358096
0.0003	6.0	948	0.1000	429680
0.0008	7.0	1106	0.0999	501168
0.0001	8.0	1264	0.1230	573152
0.0015	9.0	1422	0.1213	644672
0.0	10.0	1580	0.1293	716272
0.0	11.0	1738	0.1281	787952
0.0	12.0	1896	0.1334	859584
0.0	13.0	2054	0.1342	931280
0.0	14.0	2212	0.1324	1002960
0.0	15.0	2370	0.1348	1074528
0.0	16.0	2528	0.1362	1146144
0.0	17.0	2686	0.1346	1217760
0.0	18.0	2844	0.1355	1289504
0.0	19.0	3002	0.1380	1361040
0.0	20.0	3160	0.1376	1432752

Framework versions

PEFT 0.17.1
Transformers 4.51.3
Pytorch 2.9.0+cu128
Datasets 4.0.0
Tokenizers 0.21.4

Downloads last month: 2

Model tree for rbelanec/train_svamp_456_1760637774

Base model

meta-llama/Meta-Llama-3-8B-Instruct

Adapter

(2115)

this model

rbelanec
/

train_svamp_456_1760637774

train_svamp_456_1760637774

Model description

Intended uses & limitations

Training and evaluation data

Training procedure

Training hyperparameters

Training results

Framework versions

Model tree for rbelanec/train_svamp_456_1760637774

Evaluation results