train_qnli_1744902615

This model is a fine-tuned version of mistralai/Mistral-7B-Instruct-v0.3 on the qnli dataset. It achieves the following results on the evaluation set:

  • Loss: 0.0310
  • Num Input Tokens Seen: 74724160

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 5e-05
  • train_batch_size: 4
  • eval_batch_size: 4
  • seed: 123
  • gradient_accumulation_steps: 4
  • total_train_batch_size: 16
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: cosine
  • training_steps: 40000

Training results

Training Loss Epoch Step Validation Loss Input Tokens Seen
0.055 0.0339 200 0.0534 375872
0.0436 0.0679 400 0.0491 754656
0.0525 0.1018 600 0.0424 1127296
0.0656 0.1358 800 0.0417 1500832
0.0332 0.1697 1000 0.0401 1870752
0.048 0.2037 1200 0.0392 2248448
0.0382 0.2376 1400 0.0369 2622784
0.0522 0.2716 1600 0.0382 2995616
0.0317 0.3055 1800 0.0363 3370144
0.0479 0.3395 2000 0.0367 3747936
0.0495 0.3734 2200 0.0338 4126560
0.0259 0.4073 2400 0.0344 4497920
0.0383 0.4413 2600 0.0347 4870432
0.0451 0.4752 2800 0.0339 5242976
0.0332 0.5092 3000 0.0349 5615808
0.0498 0.5431 3200 0.0334 5984672
0.0601 0.5771 3400 0.0346 6356832
0.0318 0.6110 3600 0.0359 6732928
0.0335 0.6450 3800 0.0335 7111456
0.0232 0.6789 4000 0.0325 7481824
0.0284 0.7129 4200 0.0326 7857440
0.0302 0.7468 4400 0.0335 8229632
0.0267 0.7808 4600 0.0331 8601824
0.0339 0.8147 4800 0.0314 8974688
0.0386 0.8486 5000 0.0335 9345088
0.0341 0.8826 5200 0.0316 9720928
0.0215 0.9165 5400 0.0323 10090976
0.0245 0.9505 5600 0.0310 10461824
0.0521 0.9844 5800 0.0312 10837568
0.0183 1.0183 6000 0.0428 11211008
0.0267 1.0523 6200 0.0356 11582528
0.0273 1.0862 6400 0.0347 11958208
0.0215 1.1202 6600 0.0353 12334752
0.0195 1.1541 6800 0.0344 12710176
0.0109 1.1881 7000 0.0347 13083200
0.0245 1.2220 7200 0.0396 13458944
0.022 1.2560 7400 0.0383 13836256
0.0523 1.2899 7600 0.0441 14209248
0.0493 1.3238 7800 0.0326 14585344
0.0146 1.3578 8000 0.0324 14955328
0.0086 1.3917 8200 0.0394 15331776
0.0053 1.4257 8400 0.0444 15706624
0.0136 1.4596 8600 0.0334 16075392
0.0216 1.4936 8800 0.0387 16445568
0.048 1.5275 9000 0.0357 16819648
0.0273 1.5615 9200 0.0350 17191872
0.0741 1.5954 9400 0.0352 17561280
0.031 1.6294 9600 0.0337 17936128
0.043 1.6633 9800 0.0357 18307616
0.0134 1.6972 10000 0.0363 18683168
0.0071 1.7312 10200 0.0337 19053408
0.0267 1.7651 10400 0.0355 19427296
0.0266 1.7991 10600 0.0329 19802400
0.0225 1.8330 10800 0.0375 20173056
0.0197 1.8670 11000 0.0342 20550720
0.0237 1.9009 11200 0.0350 20920224
0.0238 1.9349 11400 0.0351 21289344
0.0069 1.9688 11600 0.0380 21666048
0.0098 2.0027 11800 0.0359 22041760
0.0013 2.0367 12000 0.0484 22412256
0.0161 2.0706 12200 0.0420 22782848
0.0067 2.1046 12400 0.0583 23151392
0.0025 2.1385 12600 0.0461 23523648
0.0057 2.1724 12800 0.0589 23892992
0.0176 2.2064 13000 0.0491 24264192
0.0012 2.2403 13200 0.0478 24635264
0.0238 2.2743 13400 0.0547 25009664
0.017 2.3082 13600 0.0548 25382432
0.0012 2.3422 13800 0.0462 25755616
0.0154 2.3761 14000 0.0480 26131424
0.0363 2.4101 14200 0.0524 26504960
0.0109 2.4440 14400 0.0493 26877888
0.0113 2.4780 14600 0.0574 27248384
0.0221 2.5119 14800 0.0500 27625376
0.0153 2.5458 15000 0.0529 28005696
0.007 2.5798 15200 0.0516 28379936
0.0085 2.6137 15400 0.0488 28749536
0.0015 2.6477 15600 0.0444 29128672
0.0025 2.6816 15800 0.0472 29503456
0.0404 2.7156 16000 0.0558 29874176
0.0446 2.7495 16200 0.0494 30251904
0.0009 2.7835 16400 0.0495 30626560
0.0022 2.8174 16600 0.0590 30999968
0.0059 2.8514 16800 0.0497 31376704
0.0054 2.8853 17000 0.0490 31749472
0.0047 2.9193 17200 0.0542 32128320
0.0046 2.9532 17400 0.0483 32501056
0.0008 2.9871 17600 0.0610 32872640
0.0001 3.0210 17800 0.0732 33243744
0.0002 3.0550 18000 0.0847 33619808
0.0003 3.0889 18200 0.0851 33994048
0.0001 3.1229 18400 0.0913 34361920
0.0 3.1568 18600 0.1035 34735392
0.0001 3.1908 18800 0.1062 35107872
0.0083 3.2247 19000 0.0742 35486976
0.0002 3.2587 19200 0.0718 35862880
0.0001 3.2926 19400 0.0891 36237280
0.0003 3.3266 19600 0.0928 36614176
0.0193 3.3605 19800 0.0747 36987200
0.0074 3.3944 20000 0.0770 37357312
0.0002 3.4284 20200 0.0814 37728448
0.0001 3.4623 20400 0.0785 38104736
0.0156 3.4963 20600 0.0748 38477696
0.0126 3.5302 20800 0.0760 38847808
0.0001 3.5642 21000 0.0791 39222464
0.0023 3.5981 21200 0.0734 39595392
0.0001 3.6321 21400 0.0802 39971968
0.0003 3.6660 21600 0.0771 40341952
0.0006 3.7000 21800 0.0607 40713376
0.0001 3.7339 22000 0.0831 41085856
0.0007 3.7679 22200 0.0692 41461568
0.0003 3.8018 22400 0.0793 41833280
0.0007 3.8357 22600 0.0744 42205152
0.0066 3.8697 22800 0.0728 42578144
0.0001 3.9036 23000 0.0726 42956608
0.0002 3.9376 23200 0.0719 43327904
0.0026 3.9715 23400 0.0664 43700960
0.0001 4.0054 23600 0.0753 44077568
0.0001 4.0394 23800 0.0783 44449632
0.0 4.0733 24000 0.0915 44825184
0.0 4.1073 24200 0.1011 45195872
0.0 4.1412 24400 0.0975 45566816
0.0063 4.1752 24600 0.0894 45945824
0.0 4.2091 24800 0.1064 46322304
0.0 4.2431 25000 0.1029 46694976
0.0001 4.2770 25200 0.0911 47069472
0.0 4.3109 25400 0.0943 47444064
0.0 4.3449 25600 0.0913 47819744
0.0009 4.3788 25800 0.0976 48190912
0.0002 4.4128 26000 0.1066 48563040
0.0 4.4467 26200 0.1036 48936320
0.0 4.4807 26400 0.1044 49306944
0.0 4.5146 26600 0.1055 49683712
0.0 4.5486 26800 0.1020 50057824
0.0002 4.5825 27000 0.0957 50431552
0.0 4.6165 27200 0.0867 50808576
0.0 4.6504 27400 0.0965 51182144
0.0 4.6843 27600 0.1115 51554016
0.0157 4.7183 27800 0.0977 51925888
0.0 4.7522 28000 0.0898 52295168
0.0 4.7862 28200 0.0968 52664096
0.0004 4.8201 28400 0.0977 53038784
0.0 4.8541 28600 0.1041 53412352
0.0049 4.8880 28800 0.0864 53788608
0.0 4.9220 29000 0.0948 54166176
0.0 4.9559 29200 0.0968 54541216
0.0 4.9899 29400 0.0911 54916928
0.0 5.0238 29600 0.0942 55288160
0.0015 5.0577 29800 0.0952 55662784
0.0 5.0917 30000 0.0990 56034432
0.0 5.1256 30200 0.1023 56405792
0.0 5.1595 30400 0.1033 56777504
0.0 5.1935 30600 0.1066 57149760
0.0 5.2274 30800 0.1079 57521536
0.0 5.2614 31000 0.1076 57889408
0.0 5.2953 31200 0.1040 58258624
0.0 5.3293 31400 0.1064 58635520
0.0 5.3632 31600 0.1078 59006592
0.0 5.3972 31800 0.1036 59381312
0.0 5.4311 32000 0.1048 59761568
0.0 5.4651 32200 0.1080 60138720
0.0005 5.4990 32400 0.1077 60511168
0.0 5.5329 32600 0.1083 60884448
0.0 5.5669 32800 0.1127 61259680
0.0 5.6008 33000 0.1076 61636416
0.0 5.6348 33200 0.1100 62013760
0.0 5.6687 33400 0.1107 62389440
0.0 5.7027 33600 0.1119 62764512
0.0 5.7366 33800 0.1132 63139872
0.0 5.7706 34000 0.1136 63517632
0.0 5.8045 34200 0.1164 63889248
0.0 5.8385 34400 0.1137 64262048
0.0 5.8724 34600 0.1156 64632256
0.0 5.9064 34800 0.1160 65006944
0.0 5.9403 35000 0.1174 65382656
0.0 5.9742 35200 0.1175 65756992
0.0 6.0081 35400 0.1169 66125280
0.0 6.0421 35600 0.1173 66493536
0.0 6.0760 35800 0.1178 66867936
0.0 6.1100 36000 0.1182 67243328
0.0 6.1439 36200 0.1192 67616992
0.0 6.1779 36400 0.1201 67995520
0.0 6.2118 36600 0.1203 68370624
0.0 6.2458 36800 0.1216 68746880
0.0 6.2797 37000 0.1207 69119328
0.0 6.3137 37200 0.1209 69490336
0.0 6.3476 37400 0.1213 69862688
0.0 6.3816 37600 0.1214 70238592
0.0 6.4155 37800 0.1216 70612608
0.0 6.4494 38000 0.1216 70985568
0.0 6.4834 38200 0.1224 71360704
0.0 6.5173 38400 0.1221 71738432
0.0 6.5513 38600 0.1221 72112640
0.0 6.5852 38800 0.1222 72484256
0.0 6.6192 39000 0.1225 72858912
0.0 6.6531 39200 0.1225 73232576
0.0 6.6871 39400 0.1225 73604352
0.0 6.7210 39600 0.1225 73975648
0.0 6.7550 39800 0.1226 74349632
0.0 6.7889 40000 0.1227 74724160

Framework versions

  • PEFT 0.15.1
  • Transformers 4.51.3
  • Pytorch 2.6.0+cu124
  • Datasets 3.5.0
  • Tokenizers 0.21.1
Downloads last month
11
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rbelanec/train_qnli_1744902615

Adapter
(545)
this model

Evaluation results