train_qqp_1744902598

This model is a fine-tuned version of meta-llama/Meta-Llama-3-8B-Instruct on the qqp dataset. It achieves the following results on the evaluation set:

  • Loss: 0.0798
  • Num Input Tokens Seen: 49022016

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 5e-05
  • train_batch_size: 4
  • eval_batch_size: 4
  • seed: 123
  • gradient_accumulation_steps: 4
  • total_train_batch_size: 16
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: cosine
  • training_steps: 40000

Training results

Training Loss Epoch Step Validation Loss Input Tokens Seen
0.1288 0.0098 200 0.1278 245536
0.0995 0.0195 400 0.1325 489696
0.119 0.0293 600 0.1254 737824
0.1364 0.0391 800 0.1171 981856
0.1542 0.0489 1000 0.1129 1225952
0.1007 0.0586 1200 0.1192 1469920
0.1032 0.0684 1400 0.1088 1715360
0.0545 0.0782 1600 0.1087 1961952
0.0798 0.0879 1800 0.1063 2205952
0.0918 0.0977 2000 0.1124 2453792
0.1076 0.1075 2200 0.1174 2698976
0.1444 0.1173 2400 0.1037 2944000
0.085 0.1270 2600 0.1028 3190496
0.0882 0.1368 2800 0.1017 3439104
0.0923 0.1466 3000 0.1020 3684640
0.1442 0.1564 3200 0.1011 3931744
0.1124 0.1661 3400 0.1054 4179680
0.0834 0.1759 3600 0.1015 4424000
0.1346 0.1857 3800 0.1032 4667488
0.1465 0.1954 4000 0.1037 4910752
0.072 0.2052 4200 0.0977 5157152
0.1107 0.2150 4400 0.0982 5403360
0.0862 0.2248 4600 0.0976 5647360
0.1299 0.2345 4800 0.0980 5889632
0.0541 0.2443 5000 0.0987 6135424
0.1177 0.2541 5200 0.0959 6380320
0.0852 0.2638 5400 0.0948 6627360
0.1096 0.2736 5600 0.0994 6873760
0.116 0.2834 5800 0.0958 7121504
0.0627 0.2932 6000 0.0988 7366208
0.0647 0.3029 6200 0.0959 7615264
0.1011 0.3127 6400 0.0940 7860128
0.1187 0.3225 6600 0.1045 8103360
0.0726 0.3323 6800 0.0926 8350976
0.0849 0.3420 7000 0.0971 8597664
0.0906 0.3518 7200 0.0933 8842400
0.1055 0.3616 7400 0.0934 9087456
0.1064 0.3713 7600 0.1066 9331520
0.0741 0.3811 7800 0.0907 9576704
0.0892 0.3909 8000 0.0908 9819200
0.0813 0.4007 8200 0.0903 10064928
0.0995 0.4104 8400 0.0907 10308768
0.1073 0.4202 8600 0.0943 10551296
0.0845 0.4300 8800 0.0905 10798144
0.0982 0.4397 9000 0.0901 11047776
0.095 0.4495 9200 0.0929 11292384
0.0594 0.4593 9400 0.0892 11534944
0.1071 0.4691 9600 0.0896 11778880
0.1095 0.4788 9800 0.0893 12025472
0.0422 0.4886 10000 0.0892 12267968
0.0915 0.4984 10200 0.0902 12511488
0.0676 0.5081 10400 0.0927 12755904
0.0938 0.5179 10600 0.0885 13002048
0.0794 0.5277 10800 0.0901 13246272
0.1169 0.5375 11000 0.0881 13491456
0.0996 0.5472 11200 0.0889 13735936
0.1069 0.5570 11400 0.0880 13982176
0.0553 0.5668 11600 0.0891 14227136
0.0384 0.5766 11800 0.0933 14472704
0.0757 0.5863 12000 0.0887 14717856
0.1192 0.5961 12200 0.0876 14963520
0.1309 0.6059 12400 0.0873 15208224
0.0643 0.6156 12600 0.0875 15453408
0.071 0.6254 12800 0.0870 15698016
0.0783 0.6352 13000 0.0883 15942720
0.0693 0.6450 13200 0.0879 16186528
0.102 0.6547 13400 0.0889 16433472
0.0609 0.6645 13600 0.0879 16679360
0.0578 0.6743 13800 0.0865 16924896
0.0772 0.6840 14000 0.0896 17171072
0.1302 0.6938 14200 0.0867 17416704
0.0831 0.7036 14400 0.0855 17663488
0.0689 0.7134 14600 0.0863 17910272
0.1129 0.7231 14800 0.0934 18151712
0.102 0.7329 15000 0.0849 18395744
0.0668 0.7427 15200 0.0843 18642368
0.092 0.7524 15400 0.0877 18889312
0.1017 0.7622 15600 0.0841 19133312
0.0453 0.7720 15800 0.0853 19376992
0.0717 0.7818 16000 0.0846 19620672
0.0695 0.7915 16200 0.0834 19866240
0.1176 0.8013 16400 0.0916 20112160
0.1445 0.8111 16600 0.0841 20358464
0.071 0.8209 16800 0.0854 20602112
0.056 0.8306 17000 0.0837 20845696
0.0819 0.8404 17200 0.0838 21089792
0.092 0.8502 17400 0.0828 21334176
0.0602 0.8599 17600 0.0827 21577600
0.1015 0.8697 17800 0.0879 21822848
0.0748 0.8795 18000 0.0838 22067296
0.1195 0.8893 18200 0.0830 22313824
0.0488 0.8990 18400 0.0834 22558912
0.0503 0.9088 18600 0.0862 22803456
0.1248 0.9186 18800 0.0831 23047552
0.1045 0.9283 19000 0.0843 23293856
0.0647 0.9381 19200 0.0818 23539488
0.064 0.9479 19400 0.0847 23786464
0.1245 0.9577 19600 0.0826 24032064
0.0663 0.9674 19800 0.0825 24278464
0.0381 0.9772 20000 0.0823 24521632
0.0916 0.9870 20200 0.0814 24765600
0.0717 0.9968 20400 0.0817 25007520
0.067 1.0065 20600 0.0852 25253920
0.1097 1.0163 20800 0.0837 25498432
0.0654 1.0261 21000 0.0865 25745120
0.0467 1.0359 21200 0.0863 25989952
0.0781 1.0456 21400 0.0846 26234080
0.0616 1.0554 21600 0.0859 26482784
0.0629 1.0652 21800 0.0824 26728608
0.0374 1.0750 22000 0.0840 26977792
0.0774 1.0847 22200 0.0822 27218080
0.0561 1.0945 22400 0.0848 27463456
0.0819 1.1043 22600 0.0841 27708832
0.1069 1.1140 22800 0.0832 27956000
0.0778 1.1238 23000 0.0810 28204704
0.0346 1.1336 23200 0.0827 28452992
0.0706 1.1434 23400 0.0831 28696640
0.06 1.1531 23600 0.0868 28937792
0.0714 1.1629 23800 0.0823 29186016
0.0891 1.1727 24000 0.0830 29431872
0.0812 1.1824 24200 0.0815 29673216
0.0935 1.1922 24400 0.0829 29916864
0.1054 1.2020 24600 0.0813 30163136
0.0839 1.2118 24800 0.0837 30405920
0.0866 1.2215 25000 0.0836 30652960
0.049 1.2313 25200 0.0867 30897184
0.0396 1.2411 25400 0.0817 31141248
0.0467 1.2508 25600 0.0831 31385376
0.074 1.2606 25800 0.0844 31630880
0.1162 1.2704 26000 0.0854 31876320
0.0525 1.2802 26200 0.0835 32120640
0.0808 1.2899 26400 0.0847 32365056
0.117 1.2997 26600 0.0808 32611072
0.0424 1.3095 26800 0.0810 32855648
0.0803 1.3193 27000 0.0816 33097440
0.0378 1.3290 27200 0.0839 33342208
0.0392 1.3388 27400 0.0834 33587968
0.0842 1.3486 27600 0.0830 33831872
0.0551 1.3583 27800 0.0831 34076864
0.0591 1.3681 28000 0.0805 34319616
0.1164 1.3779 28200 0.0813 34563968
0.0463 1.3877 28400 0.0814 34808704
0.0697 1.3974 28600 0.0810 35054656
0.0866 1.4072 28800 0.0808 35297248
0.0459 1.4170 29000 0.0821 35543232
0.0424 1.4267 29200 0.0832 35787200
0.0614 1.4365 29400 0.0828 36033344
0.064 1.4463 29600 0.0828 36277664
0.0663 1.4561 29800 0.0816 36522912
0.0494 1.4658 30000 0.0826 36766912
0.0631 1.4756 30200 0.0814 37010880
0.055 1.4854 30400 0.0814 37255808
0.0675 1.4952 30600 0.0816 37500256
0.0377 1.5049 30800 0.0827 37744128
0.0942 1.5147 31000 0.0831 37989600
0.0563 1.5245 31200 0.0799 38233760
0.0308 1.5342 31400 0.0824 38480384
0.0888 1.5440 31600 0.0812 38728448
0.0367 1.5538 31800 0.0815 38975296
0.0453 1.5636 32000 0.0813 39221728
0.1138 1.5733 32200 0.0807 39465280
0.0592 1.5831 32400 0.0808 39712992
0.0723 1.5929 32600 0.0809 39960032
0.0454 1.6026 32800 0.0814 40206624
0.0983 1.6124 33000 0.0803 40449856
0.0481 1.6222 33200 0.0822 40693312
0.0558 1.6320 33400 0.0814 40936672
0.0604 1.6417 33600 0.0809 41180480
0.0615 1.6515 33800 0.0817 41422272
0.0307 1.6613 34000 0.0824 41666752
0.0586 1.6710 34200 0.0812 41912096
0.0657 1.6808 34400 0.0807 42157856
0.0554 1.6906 34600 0.0805 42402496
0.043 1.7004 34800 0.0805 42645088
0.047 1.7101 35000 0.0803 42889536
0.0529 1.7199 35200 0.0808 43134208
0.0865 1.7297 35400 0.0805 43377824
0.0343 1.7395 35600 0.0798 43623232
0.1021 1.7492 35800 0.0806 43872416
0.0651 1.7590 36000 0.0806 44117632
0.0681 1.7688 36200 0.0809 44363488
0.0582 1.7785 36400 0.0806 44608000
0.0653 1.7883 36600 0.0807 44852672
0.0632 1.7981 36800 0.0806 45098144
0.078 1.8079 37000 0.0806 45342912
0.0761 1.8176 37200 0.0803 45590720
0.071 1.8274 37400 0.0801 45835200
0.0397 1.8372 37600 0.0804 46079328
0.0573 1.8469 37800 0.0804 46322496
0.0872 1.8567 38000 0.0803 46565536
0.0823 1.8665 38200 0.0801 46809376
0.0477 1.8763 38400 0.0799 47052352
0.0858 1.8860 38600 0.0800 47298816
0.0455 1.8958 38800 0.0801 47547712
0.0604 1.9056 39000 0.0801 47794048
0.0596 1.9153 39200 0.0801 48039872
0.065 1.9251 39400 0.0801 48286368
0.0411 1.9349 39600 0.0800 48530880
0.0576 1.9447 39800 0.0801 48774656
0.0374 1.9544 40000 0.0801 49022016

Framework versions

  • PEFT 0.15.1
  • Transformers 4.51.3
  • Pytorch 2.6.0+cu124
  • Datasets 3.5.0
  • Tokenizers 0.21.1
Downloads last month
6
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rbelanec/train_qqp_1744902598

Adapter
(2158)
this model

Evaluation results