lemexp-task1-v3-lemma_object_full-deepseek-coder-6.7b-base

This model is a fine-tuned version of deepseek-ai/deepseek-coder-6.7b-base on an unknown dataset. It achieves the following results on the evaluation set:

Loss: 0.1293

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 0.0004
train_batch_size: 4
eval_batch_size: 2
seed: 42
distributed_type: multi-GPU
num_devices: 4
total_train_batch_size: 16
total_eval_batch_size: 8
optimizer: Use OptimizerNames.ADAMW_TORCH_FUSED with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
lr_scheduler_type: linear
num_epochs: 12
mixed_precision_training: Native AMP

Training results

Training Loss	Epoch	Step	Validation Loss
0.2704	0.2000	3114	0.2609
0.2366	0.4000	6228	0.2300
0.2231	0.6000	9342	0.2174
0.2116	0.8001	12456	0.2009
0.2022	1.0001	15570	0.2000
0.1877	1.2001	18684	0.1882
0.1807	1.4001	21798	0.1873
0.1823	1.6001	24912	0.1785
0.1789	1.8001	28026	0.1763
0.1731	2.0001	31140	0.1779
0.1576	2.2001	34254	0.1752
0.1605	2.4002	37368	0.1717
0.1594	2.6002	40482	0.1709
0.1616	2.8002	43596	0.1672
0.1562	3.0002	46710	0.1636
0.1431	3.2002	49824	0.1643
0.1441	3.4002	52938	0.1625
0.142	3.6002	56052	0.1628
0.1421	3.8002	59166	0.1571
0.1429	4.0003	62280	0.1572
0.1278	4.2003	65394	0.1533
0.1303	4.4003	68508	0.1521
0.1275	4.6003	71622	0.1490
0.1312	4.8003	74736	0.1491
0.1287	5.0003	77850	0.1483
0.1145	5.2003	80964	0.1488
0.1191	5.4003	84078	0.1471
0.1187	5.6004	87192	0.1450
0.1175	5.8004	90306	0.1430
0.1169	6.0004	93420	0.1422
0.1049	6.2004	96534	0.1406
0.1053	6.4004	99648	0.1380
0.1071	6.6004	102762	0.1361
0.1065	6.8004	105876	0.1370
0.1078	7.0004	108990	0.1355
0.0937	7.2005	112104	0.1394
0.0918	7.4005	115218	0.1402
0.0929	7.6005	118332	0.1364
0.0949	7.8005	121446	0.1328
0.0937	8.0005	124560	0.1310
0.0829	8.2005	127674	0.1324
0.0824	8.4005	130788	0.1324
0.0845	8.6006	133902	0.1290
0.084	8.8006	137016	0.1297
0.0812	9.0006	140130	0.1286
0.0686	9.2006	143244	0.1314
0.0699	9.4006	146358	0.1291
0.0704	9.6006	149472	0.1286
0.0699	9.8006	152586	0.1261
0.0703	10.0006	155700	0.1252
0.0592	10.2007	158814	0.1315
0.0586	10.4007	161928	0.1300
0.0598	10.6007	165042	0.1265
0.0585	10.8007	168156	0.1266
0.056	11.0007	171270	0.1263
0.0513	11.2007	174384	0.1295
0.0513	11.4007	177498	0.1301
0.0499	11.6007	180612	0.1291
0.0501	11.8008	183726	0.1293

Framework versions

PEFT 0.17.1
Transformers 4.55.4
Pytorch 2.8.0+cu128
Datasets 4.0.0
Tokenizers 0.21.4

Downloads last month: 217

Model tree for yalhessi/lemexp-task1-v3-lemma_object_full-deepseek-coder-6.7b-base

Base model

deepseek-ai/deepseek-coder-6.7b-base

Adapter

(43)

this model

yalhessi
/

lemexp-task1-v3-lemma_object_full-deepseek-coder-6.7b-base

lemexp-task1-v3-lemma_object_full-deepseek-coder-6.7b-base

Model description

Intended uses & limitations

Training and evaluation data

Training procedure

Training hyperparameters

Training results

Framework versions

Model tree for yalhessi/lemexp-task1-v3-lemma_object_full-deepseek-coder-6.7b-base

Evaluation results