train_qnli_1744902611

This model is a fine-tuned version of meta-llama/Meta-Llama-3-8B-Instruct on the qnli dataset. It achieves the following results on the evaluation set:

  • Loss: 0.0346
  • Num Input Tokens Seen: 70340640

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 5e-05
  • train_batch_size: 4
  • eval_batch_size: 4
  • seed: 123
  • gradient_accumulation_steps: 4
  • total_train_batch_size: 16
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: cosine
  • training_steps: 40000

Training results

Training Loss Epoch Step Validation Loss Input Tokens Seen
0.0528 0.0339 200 0.0629 354016
0.0428 0.0679 400 0.0512 710048
0.0558 0.1018 600 0.0486 1061568
0.0551 0.1358 800 0.0488 1413312
0.0357 0.1697 1000 0.0447 1761440
0.0506 0.2037 1200 0.0435 2116800
0.0405 0.2376 1400 0.0451 2469600
0.0479 0.2716 1600 0.0470 2820672
0.0303 0.3055 1800 0.0414 3173888
0.0461 0.3395 2000 0.0471 3528672
0.0637 0.3734 2200 0.0390 3885024
0.0305 0.4073 2400 0.0395 4234912
0.0357 0.4413 2600 0.0391 4585440
0.0446 0.4752 2800 0.0399 4936320
0.0417 0.5092 3000 0.0406 5287360
0.0534 0.5431 3200 0.0403 5634432
0.054 0.5771 3400 0.0379 5985504
0.0401 0.6110 3600 0.0391 6339072
0.0329 0.6450 3800 0.0364 6695840
0.0326 0.6789 4000 0.0382 7045536
0.0347 0.7129 4200 0.0362 7399328
0.0262 0.7468 4400 0.0395 7749568
0.0346 0.7808 4600 0.0385 8099584
0.0411 0.8147 4800 0.0372 8450752
0.0285 0.8486 5000 0.0361 8799616
0.0319 0.8826 5200 0.0359 9153824
0.0266 0.9165 5400 0.0385 9503040
0.0163 0.9505 5600 0.0359 9852032
0.0462 0.9844 5800 0.0355 10205248
0.0297 1.0183 6000 0.0403 10556224
0.0308 1.0523 6200 0.0370 10906176
0.0386 1.0862 6400 0.0364 11258848
0.0408 1.1202 6600 0.0358 11612736
0.0324 1.1541 6800 0.0367 11965728
0.0158 1.1881 7000 0.0372 12317792
0.0227 1.2220 7200 0.0396 12671680
0.0413 1.2560 7400 0.0375 13026528
0.0457 1.2899 7600 0.0389 13377952
0.05 1.3238 7800 0.0359 13731648
0.0196 1.3578 8000 0.0359 14079456
0.0114 1.3917 8200 0.0377 14433120
0.0127 1.4257 8400 0.0539 14785792
0.0225 1.4596 8600 0.0349 15133600
0.0258 1.4936 8800 0.0389 15482048
0.0686 1.5275 9000 0.0422 15833280
0.0343 1.5615 9200 0.0361 16184384
0.0822 1.5954 9400 0.0357 16532672
0.026 1.6294 9600 0.0346 16886240
0.0536 1.6633 9800 0.0365 17236032
0.0324 1.6972 10000 0.0356 17589696
0.0109 1.7312 10200 0.0365 17939200
0.0315 1.7651 10400 0.0363 18290848
0.033 1.7991 10600 0.0354 18643136
0.0228 1.8330 10800 0.0380 18992096
0.0237 1.8670 11000 0.0351 19348352
0.023 1.9009 11200 0.0353 19697728
0.0274 1.9349 11400 0.0356 20045504
0.0086 1.9688 11600 0.0352 20399360
0.0223 2.0027 11800 0.0361 20752832
0.0106 2.0367 12000 0.0442 21101696
0.0251 2.0706 12200 0.0401 21451008
0.0091 2.1046 12400 0.0470 21798496
0.0137 2.1385 12600 0.0441 22148736
0.0204 2.1724 12800 0.0427 22497472
0.017 2.2064 13000 0.0455 22847840
0.0117 2.2403 13200 0.0438 23198880
0.0432 2.2743 13400 0.0420 23551168
0.0192 2.3082 13600 0.0423 23901824
0.014 2.3422 13800 0.0445 24252256
0.0262 2.3761 14000 0.0454 24605280
0.0178 2.4101 14200 0.0481 24958496
0.0255 2.4440 14400 0.0418 25308416
0.0186 2.4780 14600 0.0446 25656320
0.0219 2.5119 14800 0.0447 26010304
0.0185 2.5458 15000 0.0487 26367744
0.0132 2.5798 15200 0.0432 26720128
0.021 2.6137 15400 0.0431 27068064
0.021 2.6477 15600 0.0415 27423584
0.0086 2.6816 15800 0.0406 27776768
0.0374 2.7156 16000 0.0451 28126112
0.0531 2.7495 16200 0.0445 28482048
0.0151 2.7835 16400 0.0439 28833568
0.0102 2.8174 16600 0.0484 29184928
0.0065 2.8514 16800 0.0430 29539168
0.0323 2.8853 17000 0.0430 29890368
0.0103 2.9193 17200 0.0444 30246816
0.0109 2.9532 17400 0.0413 30598112
0.0061 2.9871 17600 0.0480 30947904
0.0114 3.0210 17800 0.0562 31297696
0.0015 3.0550 18000 0.0527 31650784
0.0021 3.0889 18200 0.0602 32003328
0.0048 3.1229 18400 0.0576 32350432
0.0134 3.1568 18600 0.0551 32702560
0.0055 3.1908 18800 0.0539 33054016
0.0066 3.2247 19000 0.0540 33410080
0.0139 3.2587 19200 0.0501 33764032
0.0079 3.2926 19400 0.0625 34116160
0.0155 3.3266 19600 0.0587 34470432
0.002 3.3605 19800 0.0560 34821536
0.0073 3.3944 20000 0.0592 35169856
0.0029 3.4284 20200 0.0645 35520544
0.0137 3.4623 20400 0.0629 35874144
0.0102 3.4963 20600 0.0679 36225408
0.0005 3.5302 20800 0.0590 36573536
0.0004 3.5642 21000 0.0646 36926144
0.0014 3.5981 21200 0.0663 37277024
0.0015 3.6321 21400 0.0669 37630272
0.0023 3.6660 21600 0.0614 37979008
0.005 3.7000 21800 0.0496 38328768
0.0006 3.7339 22000 0.0696 38679040
0.0071 3.7679 22200 0.0611 39032192
0.0008 3.8018 22400 0.0602 39381632
0.0035 3.8357 22600 0.0579 39732416
0.0028 3.8697 22800 0.0629 40083328
0.011 3.9036 23000 0.0575 40439264
0.0064 3.9376 23200 0.0569 40789056
0.0104 3.9715 23400 0.0589 41141280
0.0023 4.0054 23600 0.0562 41495616
0.0011 4.0394 23800 0.0615 41845216
0.0005 4.0733 24000 0.0707 42198656
0.0002 4.1073 24200 0.0869 42548064
0.0002 4.1412 24400 0.0877 42897248
0.0006 4.1752 24600 0.0778 43253728
0.0001 4.2091 24800 0.0876 43608032
0.0003 4.2431 25000 0.0870 43958240
0.0004 4.2770 25200 0.0834 44310560
0.0 4.3109 25400 0.0929 44662688
0.0003 4.3449 25600 0.0883 45016000
0.0078 4.3788 25800 0.0764 45365856
0.0002 4.4128 26000 0.0864 45716576
0.0003 4.4467 26200 0.0838 46068320
0.0001 4.4807 26400 0.0912 46416928
0.0005 4.5146 26600 0.0944 46771968
0.0 4.5486 26800 0.0947 47123552
0.0009 4.5825 27000 0.0860 47476256
0.0004 4.6165 27200 0.0842 47831136
0.0001 4.6504 27400 0.0936 48181856
0.0001 4.6843 27600 0.0988 48531648
0.0004 4.7183 27800 0.0931 48881728
0.0011 4.7522 28000 0.0905 49229248
0.0165 4.7862 28200 0.1004 49577952
0.0001 4.8201 28400 0.0919 49930752
0.0005 4.8541 28600 0.0908 50282304
0.0075 4.8880 28800 0.0918 50635840
0.0074 4.9220 29000 0.0914 50990240
0.0103 4.9559 29200 0.0948 51342976
0.0 4.9899 29400 0.0896 51696320
0.0004 5.0238 29600 0.0991 52045952
0.0 5.0577 29800 0.1114 52399008
0.0 5.0917 30000 0.1153 52748704
0.0001 5.1256 30200 0.1153 53098368
0.0001 5.1595 30400 0.1173 53449792
0.0001 5.1935 30600 0.1322 53800640
0.0 5.2274 30800 0.1328 54151264
0.0 5.2614 31000 0.1284 54498144
0.0 5.2953 31200 0.1253 54846400
0.0 5.3293 31400 0.1310 55200448
0.0007 5.3632 31600 0.1363 55550048
0.0 5.3972 31800 0.1402 55901856
0.0 5.4311 32000 0.1412 56259904
0.0069 5.4651 32200 0.1417 56615008
0.0 5.4990 32400 0.1448 56965760
0.0 5.5329 32600 0.1463 57316960
0.0 5.5669 32800 0.1490 57670080
0.0 5.6008 33000 0.1485 58024256
0.0 5.6348 33200 0.1499 58378976
0.0002 5.6687 33400 0.1517 58733184
0.0 5.7027 33600 0.1500 59085760
0.0 5.7366 33800 0.1517 59438720
0.0009 5.7706 34000 0.1574 59794048
0.0 5.8045 34200 0.1611 60144576
0.0 5.8385 34400 0.1592 60495264
0.0 5.8724 34600 0.1566 60843616
0.0 5.9064 34800 0.1572 61196096
0.0 5.9403 35000 0.1531 61549696
0.0001 5.9742 35200 0.1516 61901760
0.0001 6.0081 35400 0.1540 62248640
0.0 6.0421 35600 0.1564 62595488
0.0 6.0760 35800 0.1575 62948736
0.0001 6.1100 36000 0.1587 63302496
0.0 6.1439 36200 0.1612 63654144
0.0 6.1779 36400 0.1614 64010336
0.0 6.2118 36600 0.1620 64362880
0.0 6.2458 36800 0.1628 64717120
0.0 6.2797 37000 0.1633 65067680
0.0001 6.3137 37200 0.1634 65417376
0.0 6.3476 37400 0.1642 65768416
0.0 6.3816 37600 0.1649 66122624
0.0 6.4155 37800 0.1649 66474048
0.0 6.4494 38000 0.1656 66825760
0.0 6.4834 38200 0.1663 67179008
0.0 6.5173 38400 0.1668 67533344
0.0 6.5513 38600 0.1668 67884864
0.0 6.5852 38800 0.1669 68234656
0.0001 6.6192 39000 0.1675 68586432
0.0 6.6531 39200 0.1671 68938688
0.0 6.6871 39400 0.1675 69288384
0.0 6.7210 39600 0.1672 69637472
0.0 6.7550 39800 0.1675 69989056
0.0 6.7889 40000 0.1673 70340640

Framework versions

  • PEFT 0.15.1
  • Transformers 4.51.3
  • Pytorch 2.6.0+cu124
  • Datasets 3.5.0
  • Tokenizers 0.21.1
Downloads last month
-
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rbelanec/train_qnli_1744902611

Adapter
(2399)
this model