train_qnli_1744902612

This model is a fine-tuned version of meta-llama/Meta-Llama-3-8B-Instruct on the qnli dataset. It achieves the following results on the evaluation set:

  • Loss: 0.0425
  • Num Input Tokens Seen: 70340640

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 5e-05
  • train_batch_size: 4
  • eval_batch_size: 4
  • seed: 123
  • gradient_accumulation_steps: 4
  • total_train_batch_size: 16
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: cosine
  • training_steps: 40000

Training results

Training Loss Epoch Step Validation Loss Input Tokens Seen
0.0718 0.0339 200 0.0871 354016
0.0599 0.0679 400 0.0784 710048
0.0763 0.1018 600 0.0726 1061568
0.074 0.1358 800 0.0715 1413312
0.0645 0.1697 1000 0.0673 1761440
0.0726 0.2037 1200 0.0652 2116800
0.0968 0.2376 1400 0.0639 2469600
0.0632 0.2716 1600 0.0622 2820672
0.0416 0.3055 1800 0.0609 3173888
0.0525 0.3395 2000 0.0608 3528672
0.0546 0.3734 2200 0.0601 3885024
0.0451 0.4073 2400 0.0594 4234912
0.0489 0.4413 2600 0.0575 4585440
0.0688 0.4752 2800 0.0565 4936320
0.064 0.5092 3000 0.0562 5287360
0.0577 0.5431 3200 0.0567 5634432
0.0678 0.5771 3400 0.0549 5985504
0.0482 0.6110 3600 0.0550 6339072
0.0514 0.6450 3800 0.0545 6695840
0.0424 0.6789 4000 0.0559 7045536
0.0663 0.7129 4200 0.0530 7399328
0.0326 0.7468 4400 0.0544 7749568
0.0497 0.7808 4600 0.0521 8099584
0.0719 0.8147 4800 0.0529 8450752
0.0519 0.8486 5000 0.0523 8799616
0.0625 0.8826 5200 0.0522 9153824
0.0288 0.9165 5400 0.0511 9503040
0.0443 0.9505 5600 0.0507 9852032
0.0656 0.9844 5800 0.0504 10205248
0.0487 1.0183 6000 0.0520 10556224
0.0553 1.0523 6200 0.0499 10906176
0.0576 1.0862 6400 0.0513 11258848
0.078 1.1202 6600 0.0502 11612736
0.0424 1.1541 6800 0.0494 11965728
0.0329 1.1881 7000 0.0489 12317792
0.0547 1.2220 7200 0.0498 12671680
0.0376 1.2560 7400 0.0492 13026528
0.0722 1.2899 7600 0.0491 13377952
0.0627 1.3238 7800 0.0482 13731648
0.0477 1.3578 8000 0.0493 14079456
0.0274 1.3917 8200 0.0483 14433120
0.0232 1.4257 8400 0.0497 14785792
0.0254 1.4596 8600 0.0475 15133600
0.0346 1.4936 8800 0.0491 15482048
0.0883 1.5275 9000 0.0472 15833280
0.0455 1.5615 9200 0.0479 16184384
0.1009 1.5954 9400 0.0474 16532672
0.0471 1.6294 9600 0.0469 16886240
0.0494 1.6633 9800 0.0468 17236032
0.0464 1.6972 10000 0.0465 17589696
0.0448 1.7312 10200 0.0463 17939200
0.0402 1.7651 10400 0.0463 18290848
0.0509 1.7991 10600 0.0465 18643136
0.0352 1.8330 10800 0.0462 18992096
0.0374 1.8670 11000 0.0461 19348352
0.0621 1.9009 11200 0.0461 19697728
0.0449 1.9349 11400 0.0470 20045504
0.0517 1.9688 11600 0.0457 20399360
0.0689 2.0027 11800 0.0482 20752832
0.034 2.0367 12000 0.0464 21101696
0.0404 2.0706 12200 0.0456 21451008
0.0507 2.1046 12400 0.0454 21798496
0.0405 2.1385 12600 0.0452 22148736
0.0445 2.1724 12800 0.0458 22497472
0.0503 2.2064 13000 0.0458 22847840
0.0303 2.2403 13200 0.0455 23198880
0.0659 2.2743 13400 0.0451 23551168
0.0506 2.3082 13600 0.0451 23901824
0.0523 2.3422 13800 0.0466 24252256
0.0356 2.3761 14000 0.0457 24605280
0.05 2.4101 14200 0.0453 24958496
0.04 2.4440 14400 0.0447 25308416
0.0311 2.4780 14600 0.0447 25656320
0.0584 2.5119 14800 0.0445 26010304
0.0582 2.5458 15000 0.0464 26367744
0.0447 2.5798 15200 0.0443 26720128
0.0384 2.6137 15400 0.0450 27068064
0.0262 2.6477 15600 0.0446 27423584
0.0362 2.6816 15800 0.0444 27776768
0.0466 2.7156 16000 0.0444 28126112
0.0662 2.7495 16200 0.0457 28482048
0.0434 2.7835 16400 0.0443 28833568
0.0397 2.8174 16600 0.0444 29184928
0.0466 2.8514 16800 0.0442 29539168
0.0564 2.8853 17000 0.0443 29890368
0.0423 2.9193 17200 0.0437 30246816
0.0356 2.9532 17400 0.0438 30598112
0.0517 2.9871 17600 0.0441 30947904
0.0475 3.0210 17800 0.0441 31297696
0.0339 3.0550 18000 0.0437 31650784
0.0698 3.0889 18200 0.0445 32003328
0.0337 3.1229 18400 0.0441 32350432
0.0574 3.1568 18600 0.0436 32702560
0.0498 3.1908 18800 0.0436 33054016
0.046 3.2247 19000 0.0433 33410080
0.0586 3.2587 19200 0.0437 33764032
0.045 3.2926 19400 0.0433 34116160
0.0497 3.3266 19600 0.0439 34470432
0.036 3.3605 19800 0.0434 34821536
0.0405 3.3944 20000 0.0435 35169856
0.0305 3.4284 20200 0.0438 35520544
0.047 3.4623 20400 0.0432 35874144
0.0429 3.4963 20600 0.0439 36225408
0.0416 3.5302 20800 0.0435 36573536
0.0272 3.5642 21000 0.0429 36926144
0.0342 3.5981 21200 0.0431 37277024
0.0438 3.6321 21400 0.0430 37630272
0.0341 3.6660 21600 0.0432 37979008
0.0525 3.7000 21800 0.0430 38328768
0.0282 3.7339 22000 0.0445 38679040
0.031 3.7679 22200 0.0429 39032192
0.0433 3.8018 22400 0.0430 39381632
0.0268 3.8357 22600 0.0429 39732416
0.0265 3.8697 22800 0.0430 40083328
0.0369 3.9036 23000 0.0429 40439264
0.0402 3.9376 23200 0.0432 40789056
0.0255 3.9715 23400 0.0430 41141280
0.0291 4.0054 23600 0.0428 41495616
0.0219 4.0394 23800 0.0431 41845216
0.0608 4.0733 24000 0.0428 42198656
0.0463 4.1073 24200 0.0432 42548064
0.0221 4.1412 24400 0.0429 42897248
0.0322 4.1752 24600 0.0431 43253728
0.0331 4.2091 24800 0.0432 43608032
0.0171 4.2431 25000 0.0431 43958240
0.0422 4.2770 25200 0.0428 44310560
0.0438 4.3109 25400 0.0432 44662688
0.0179 4.3449 25600 0.0433 45016000
0.049 4.3788 25800 0.0428 45365856
0.0258 4.4128 26000 0.0443 45716576
0.0575 4.4467 26200 0.0428 46068320
0.035 4.4807 26400 0.0431 46416928
0.0403 4.5146 26600 0.0426 46771968
0.0252 4.5486 26800 0.0429 47123552
0.0231 4.5825 27000 0.0429 47476256
0.037 4.6165 27200 0.0427 47831136
0.0425 4.6504 27400 0.0427 48181856
0.0311 4.6843 27600 0.0433 48531648
0.0379 4.7183 27800 0.0428 48881728
0.0301 4.7522 28000 0.0428 49229248
0.0217 4.7862 28200 0.0427 49577952
0.0252 4.8201 28400 0.0428 49930752
0.0474 4.8541 28600 0.0427 50282304
0.0296 4.8880 28800 0.0428 50635840
0.0457 4.9220 29000 0.0428 50990240
0.0522 4.9559 29200 0.0431 51342976
0.0396 4.9899 29400 0.0428 51696320
0.0326 5.0238 29600 0.0432 52045952
0.0253 5.0577 29800 0.0431 52399008
0.0232 5.0917 30000 0.0430 52748704
0.0216 5.1256 30200 0.0427 53098368
0.0711 5.1595 30400 0.0428 53449792
0.0357 5.1935 30600 0.0429 53800640
0.0314 5.2274 30800 0.0429 54151264
0.0274 5.2614 31000 0.0430 54498144
0.03 5.2953 31200 0.0434 54846400
0.0226 5.3293 31400 0.0429 55200448
0.0475 5.3632 31600 0.0429 55550048
0.0347 5.3972 31800 0.0427 55901856
0.0495 5.4311 32000 0.0425 56259904
0.0478 5.4651 32200 0.0426 56615008
0.0489 5.4990 32400 0.0425 56965760
0.0588 5.5329 32600 0.0425 57316960
0.0324 5.5669 32800 0.0428 57670080
0.0403 5.6008 33000 0.0427 58024256
0.0682 5.6348 33200 0.0427 58378976
0.0436 5.6687 33400 0.0428 58733184
0.0664 5.7027 33600 0.0427 59085760
0.0505 5.7366 33800 0.0426 59438720
0.0251 5.7706 34000 0.0426 59794048
0.0602 5.8045 34200 0.0426 60144576
0.0415 5.8385 34400 0.0425 60495264
0.044 5.8724 34600 0.0426 60843616
0.0208 5.9064 34800 0.0425 61196096
0.0803 5.9403 35000 0.0426 61549696
0.0456 5.9742 35200 0.0427 61901760
0.0318 6.0081 35400 0.0426 62248640
0.0371 6.0421 35600 0.0427 62595488
0.0489 6.0760 35800 0.0427 62948736
0.0513 6.1100 36000 0.0427 63302496
0.0465 6.1439 36200 0.0427 63654144
0.0152 6.1779 36400 0.0427 64010336
0.0361 6.2118 36600 0.0427 64362880
0.0265 6.2458 36800 0.0427 64717120
0.0367 6.2797 37000 0.0428 65067680
0.0424 6.3137 37200 0.0427 65417376
0.042 6.3476 37400 0.0428 65768416
0.0129 6.3816 37600 0.0428 66122624
0.0233 6.4155 37800 0.0427 66474048
0.0209 6.4494 38000 0.0428 66825760
0.0199 6.4834 38200 0.0428 67179008
0.0215 6.5173 38400 0.0427 67533344
0.0242 6.5513 38600 0.0427 67884864
0.0454 6.5852 38800 0.0428 68234656
0.0371 6.6192 39000 0.0426 68586432
0.0384 6.6531 39200 0.0427 68938688
0.0384 6.6871 39400 0.0428 69288384
0.0254 6.7210 39600 0.0427 69637472
0.022 6.7550 39800 0.0427 69989056
0.0237 6.7889 40000 0.0427 70340640

Framework versions

  • PEFT 0.15.1
  • Transformers 4.51.3
  • Pytorch 2.6.0+cu124
  • Datasets 3.5.0
  • Tokenizers 0.21.1
Downloads last month
1
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rbelanec/train_qnli_1744902612

Adapter
(2397)
this model