train_qqp_1744902599

This model is a fine-tuned version of meta-llama/Meta-Llama-3-8B-Instruct on the qqp dataset. It achieves the following results on the evaluation set:

  • Loss: 0.1030
  • Num Input Tokens Seen: 49022016

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 5e-05
  • train_batch_size: 4
  • eval_batch_size: 4
  • seed: 123
  • gradient_accumulation_steps: 4
  • total_train_batch_size: 16
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: cosine
  • training_steps: 40000

Training results

Training Loss Epoch Step Validation Loss Input Tokens Seen
0.1684 0.0098 200 0.1516 245536
0.1178 0.0195 400 0.1413 489696
0.1357 0.0293 600 0.1407 737824
0.1292 0.0391 800 0.1391 981856
0.1661 0.0489 1000 0.1313 1225952
0.1086 0.0586 1200 0.1299 1469920
0.1327 0.0684 1400 0.1304 1715360
0.1075 0.0782 1600 0.1282 1961952
0.1037 0.0879 1800 0.1263 2205952
0.108 0.0977 2000 0.1257 2453792
0.1192 0.1075 2200 0.1287 2698976
0.1328 0.1173 2400 0.1237 2944000
0.0887 0.1270 2600 0.1241 3190496
0.0951 0.1368 2800 0.1237 3439104
0.1072 0.1466 3000 0.1225 3684640
0.1429 0.1564 3200 0.1229 3931744
0.1112 0.1661 3400 0.1228 4179680
0.0883 0.1759 3600 0.1201 4424000
0.1522 0.1857 3800 0.1207 4667488
0.1616 0.1954 4000 0.1228 4910752
0.0954 0.2052 4200 0.1186 5157152
0.1601 0.2150 4400 0.1193 5403360
0.1052 0.2248 4600 0.1180 5647360
0.1242 0.2345 4800 0.1188 5889632
0.075 0.2443 5000 0.1192 6135424
0.1302 0.2541 5200 0.1191 6380320
0.1122 0.2638 5400 0.1172 6627360
0.1172 0.2736 5600 0.1164 6873760
0.1272 0.2834 5800 0.1171 7121504
0.0769 0.2932 6000 0.1157 7366208
0.1059 0.3029 6200 0.1158 7615264
0.1229 0.3127 6400 0.1145 7860128
0.1478 0.3225 6600 0.1202 8103360
0.0811 0.3323 6800 0.1140 8350976
0.0984 0.3420 7000 0.1143 8597664
0.1087 0.3518 7200 0.1144 8842400
0.1283 0.3616 7400 0.1134 9087456
0.1086 0.3713 7600 0.1151 9331520
0.1114 0.3811 7800 0.1138 9576704
0.1029 0.3909 8000 0.1126 9819200
0.1042 0.4007 8200 0.1127 10064928
0.1221 0.4104 8400 0.1122 10308768
0.137 0.4202 8600 0.1118 10551296
0.133 0.4300 8800 0.1134 10798144
0.1199 0.4397 9000 0.1118 11047776
0.1211 0.4495 9200 0.1130 11292384
0.0839 0.4593 9400 0.1112 11534944
0.102 0.4691 9600 0.1106 11778880
0.1363 0.4788 9800 0.1117 12025472
0.0684 0.4886 10000 0.1123 12267968
0.0992 0.4984 10200 0.1111 12511488
0.087 0.5081 10400 0.1153 12755904
0.116 0.5179 10600 0.1136 13002048
0.1067 0.5277 10800 0.1098 13246272
0.1227 0.5375 11000 0.1104 13491456
0.1037 0.5472 11200 0.1093 13735936
0.1339 0.5570 11400 0.1095 13982176
0.0875 0.5668 11600 0.1090 14227136
0.0632 0.5766 11800 0.1095 14472704
0.0854 0.5863 12000 0.1096 14717856
0.1417 0.5961 12200 0.1091 14963520
0.1341 0.6059 12400 0.1084 15208224
0.0768 0.6156 12600 0.1085 15453408
0.1007 0.6254 12800 0.1091 15698016
0.0953 0.6352 13000 0.1083 15942720
0.1122 0.6450 13200 0.1094 16186528
0.1109 0.6547 13400 0.1089 16433472
0.0925 0.6645 13600 0.1104 16679360
0.0699 0.6743 13800 0.1091 16924896
0.1139 0.6840 14000 0.1119 17171072
0.1196 0.6938 14200 0.1088 17416704
0.0943 0.7036 14400 0.1086 17663488
0.0797 0.7134 14600 0.1082 17910272
0.1009 0.7231 14800 0.1087 18151712
0.1361 0.7329 15000 0.1073 18395744
0.0865 0.7427 15200 0.1083 18642368
0.1033 0.7524 15400 0.1073 18889312
0.1427 0.7622 15600 0.1068 19133312
0.06 0.7720 15800 0.1067 19376992
0.0912 0.7818 16000 0.1066 19620672
0.0915 0.7915 16200 0.1104 19866240
0.1195 0.8013 16400 0.1076 20112160
0.16 0.8111 16600 0.1069 20358464
0.1003 0.8209 16800 0.1089 20602112
0.0959 0.8306 17000 0.1065 20845696
0.1161 0.8404 17200 0.1066 21089792
0.0847 0.8502 17400 0.1064 21334176
0.0881 0.8599 17600 0.1059 21577600
0.1398 0.8697 17800 0.1086 21822848
0.0997 0.8795 18000 0.1059 22067296
0.1427 0.8893 18200 0.1060 22313824
0.0837 0.8990 18400 0.1064 22558912
0.0924 0.9088 18600 0.1079 22803456
0.1481 0.9186 18800 0.1053 23047552
0.1211 0.9283 19000 0.1056 23293856
0.0808 0.9381 19200 0.1051 23539488
0.0917 0.9479 19400 0.1065 23786464
0.1639 0.9577 19600 0.1059 24032064
0.1097 0.9674 19800 0.1052 24278464
0.0966 0.9772 20000 0.1055 24521632
0.1252 0.9870 20200 0.1055 24765600
0.0844 0.9968 20400 0.1046 25007520
0.1204 1.0065 20600 0.1051 25253920
0.1478 1.0163 20800 0.1066 25498432
0.0776 1.0261 21000 0.1049 25745120
0.0661 1.0359 21200 0.1065 25989952
0.1509 1.0456 21400 0.1062 26234080
0.0854 1.0554 21600 0.1051 26482784
0.1067 1.0652 21800 0.1049 26728608
0.0599 1.0750 22000 0.1044 26977792
0.1098 1.0847 22200 0.1044 27218080
0.1194 1.0945 22400 0.1054 27463456
0.0915 1.1043 22600 0.1055 27708832
0.1491 1.1140 22800 0.1050 27956000
0.1361 1.1238 23000 0.1042 28204704
0.0827 1.1336 23200 0.1042 28452992
0.089 1.1434 23400 0.1053 28696640
0.0846 1.1531 23600 0.1068 28937792
0.1104 1.1629 23800 0.1045 29186016
0.1254 1.1727 24000 0.1049 29431872
0.1211 1.1824 24200 0.1041 29673216
0.1212 1.1922 24400 0.1065 29916864
0.1626 1.2020 24600 0.1042 30163136
0.1039 1.2118 24800 0.1044 30405920
0.1152 1.2215 25000 0.1043 30652960
0.0705 1.2313 25200 0.1048 30897184
0.0693 1.2411 25400 0.1039 31141248
0.1023 1.2508 25600 0.1038 31385376
0.1001 1.2606 25800 0.1051 31630880
0.1406 1.2704 26000 0.1041 31876320
0.1055 1.2802 26200 0.1046 32120640
0.1193 1.2899 26400 0.1038 32365056
0.122 1.2997 26600 0.1053 32611072
0.0692 1.3095 26800 0.1033 32855648
0.0978 1.3193 27000 0.1037 33097440
0.064 1.3290 27200 0.1050 33342208
0.0992 1.3388 27400 0.1065 33587968
0.1059 1.3486 27600 0.1039 33831872
0.0988 1.3583 27800 0.1037 34076864
0.0924 1.3681 28000 0.1046 34319616
0.1648 1.3779 28200 0.1035 34563968
0.0832 1.3877 28400 0.1034 34808704
0.0787 1.3974 28600 0.1033 35054656
0.0843 1.4072 28800 0.1036 35297248
0.1155 1.4170 29000 0.1033 35543232
0.069 1.4267 29200 0.1039 35787200
0.1017 1.4365 29400 0.1038 36033344
0.0803 1.4463 29600 0.1037 36277664
0.115 1.4561 29800 0.1033 36522912
0.0916 1.4658 30000 0.1039 36766912
0.1214 1.4756 30200 0.1037 37010880
0.0722 1.4854 30400 0.1039 37255808
0.1031 1.4952 30600 0.1034 37500256
0.0775 1.5049 30800 0.1037 37744128
0.1083 1.5147 31000 0.1043 37989600
0.0974 1.5245 31200 0.1036 38233760
0.0592 1.5342 31400 0.1035 38480384
0.1364 1.5440 31600 0.1033 38728448
0.0834 1.5538 31800 0.1034 38975296
0.0532 1.5636 32000 0.1030 39221728
0.1217 1.5733 32200 0.1030 39465280
0.0984 1.5831 32400 0.1033 39712992
0.145 1.5929 32600 0.1035 39960032
0.068 1.6026 32800 0.1041 40206624
0.1287 1.6124 33000 0.1035 40449856
0.0941 1.6222 33200 0.1035 40693312
0.1175 1.6320 33400 0.1037 40936672
0.0826 1.6417 33600 0.1035 41180480
0.0965 1.6515 33800 0.1035 41422272
0.0771 1.6613 34000 0.1033 41666752
0.1011 1.6710 34200 0.1034 41912096
0.0855 1.6808 34400 0.1036 42157856
0.0968 1.6906 34600 0.1033 42402496
0.0726 1.7004 34800 0.1034 42645088
0.0722 1.7101 35000 0.1031 42889536
0.0967 1.7199 35200 0.1032 43134208
0.0992 1.7297 35400 0.1033 43377824
0.0675 1.7395 35600 0.1031 43623232
0.1106 1.7492 35800 0.1033 43872416
0.0912 1.7590 36000 0.1034 44117632
0.1079 1.7688 36200 0.1033 44363488
0.0979 1.7785 36400 0.1032 44608000
0.1338 1.7883 36600 0.1032 44852672
0.1113 1.7981 36800 0.1031 45098144
0.1018 1.8079 37000 0.1032 45342912
0.0995 1.8176 37200 0.1031 45590720
0.105 1.8274 37400 0.1032 45835200
0.0734 1.8372 37600 0.1032 46079328
0.0949 1.8469 37800 0.1030 46322496
0.1063 1.8567 38000 0.1030 46565536
0.1241 1.8665 38200 0.1032 46809376
0.088 1.8763 38400 0.1031 47052352
0.1178 1.8860 38600 0.1030 47298816
0.0714 1.8958 38800 0.1030 47547712
0.0856 1.9056 39000 0.1030 47794048
0.0903 1.9153 39200 0.1031 48039872
0.1005 1.9251 39400 0.1031 48286368
0.0884 1.9349 39600 0.1032 48530880
0.0726 1.9447 39800 0.1030 48774656
0.075 1.9544 40000 0.1031 49022016

Framework versions

  • PEFT 0.15.1
  • Transformers 4.51.3
  • Pytorch 2.6.0+cu124
  • Datasets 3.5.0
  • Tokenizers 0.21.1
Downloads last month
-
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rbelanec/train_qqp_1744902599

Adapter
(2188)
this model