train_qnli_1744902616

This model is a fine-tuned version of mistralai/Mistral-7B-Instruct-v0.3 on the qnli dataset. It achieves the following results on the evaluation set:

  • Loss: 0.0513
  • Num Input Tokens Seen: 74724160

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 5e-05
  • train_batch_size: 4
  • eval_batch_size: 4
  • seed: 123
  • gradient_accumulation_steps: 4
  • total_train_batch_size: 16
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: cosine
  • training_steps: 40000

Training results

Training Loss Epoch Step Validation Loss Input Tokens Seen
0.1529 0.0339 200 0.1279 375872
0.1128 0.0679 400 0.1065 754656
0.0909 0.1018 600 0.1009 1127296
0.1101 0.1358 800 0.0961 1500832
0.0937 0.1697 1000 0.0936 1870752
0.0823 0.2037 1200 0.0897 2248448
0.1123 0.2376 1400 0.0871 2622784
0.0786 0.2716 1600 0.0847 2995616
0.0674 0.3055 1800 0.0829 3370144
0.0745 0.3395 2000 0.0811 3747936
0.074 0.3734 2200 0.0795 4126560
0.0795 0.4073 2400 0.0788 4497920
0.068 0.4413 2600 0.0770 4870432
0.0948 0.4752 2800 0.0759 5242976
0.0751 0.5092 3000 0.0748 5615808
0.0722 0.5431 3200 0.0738 5984672
0.0915 0.5771 3400 0.0733 6356832
0.0585 0.6110 3600 0.0729 6732928
0.0577 0.6450 3800 0.0723 7111456
0.0511 0.6789 4000 0.0714 7481824
0.0664 0.7129 4200 0.0702 7857440
0.0703 0.7468 4400 0.0699 8229632
0.0676 0.7808 4600 0.0689 8601824
0.0665 0.8147 4800 0.0683 8974688
0.0851 0.8486 5000 0.0682 9345088
0.0874 0.8826 5200 0.0673 9720928
0.063 0.9165 5400 0.0667 10090976
0.0652 0.9505 5600 0.0681 10461824
0.0807 0.9844 5800 0.0660 10837568
0.0644 1.0183 6000 0.0662 11211008
0.0679 1.0523 6200 0.0649 11582528
0.0594 1.0862 6400 0.0647 11958208
0.0808 1.1202 6600 0.0645 12334752
0.0535 1.1541 6800 0.0650 12710176
0.0547 1.1881 7000 0.0650 13083200
0.0692 1.2220 7200 0.0632 13458944
0.0571 1.2560 7400 0.0629 13836256
0.0874 1.2899 7600 0.0630 14209248
0.0752 1.3238 7800 0.0626 14585344
0.0605 1.3578 8000 0.0623 14955328
0.0412 1.3917 8200 0.0616 15331776
0.0396 1.4257 8400 0.0615 15706624
0.0307 1.4596 8600 0.0619 16075392
0.0412 1.4936 8800 0.0610 16445568
0.0981 1.5275 9000 0.0609 16819648
0.0615 1.5615 9200 0.0605 17191872
0.0829 1.5954 9400 0.0611 17561280
0.0505 1.6294 9600 0.0598 17936128
0.0755 1.6633 9800 0.0598 18307616
0.0499 1.6972 10000 0.0593 18683168
0.0665 1.7312 10200 0.0595 19053408
0.0485 1.7651 10400 0.0591 19427296
0.0618 1.7991 10600 0.0589 19802400
0.0495 1.8330 10800 0.0586 20173056
0.054 1.8670 11000 0.0585 20550720
0.0792 1.9009 11200 0.0589 20920224
0.0688 1.9349 11400 0.0581 21289344
0.0484 1.9688 11600 0.0580 21666048
0.0698 2.0027 11800 0.0603 22041760
0.0501 2.0367 12000 0.0576 22412256
0.0569 2.0706 12200 0.0573 22782848
0.048 2.1046 12400 0.0574 23151392
0.0453 2.1385 12600 0.0571 23523648
0.0656 2.1724 12800 0.0569 23892992
0.0461 2.2064 13000 0.0571 24264192
0.0471 2.2403 13200 0.0567 24635264
0.0702 2.2743 13400 0.0564 25009664
0.0558 2.3082 13600 0.0563 25382432
0.0769 2.3422 13800 0.0568 25755616
0.0487 2.3761 14000 0.0560 26131424
0.0775 2.4101 14200 0.0560 26504960
0.0526 2.4440 14400 0.0568 26877888
0.0483 2.4780 14600 0.0558 27248384
0.0695 2.5119 14800 0.0556 27625376
0.0663 2.5458 15000 0.0561 28005696
0.0542 2.5798 15200 0.0555 28379936
0.0754 2.6137 15400 0.0557 28749536
0.0406 2.6477 15600 0.0553 29128672
0.0476 2.6816 15800 0.0552 29503456
0.0725 2.7156 16000 0.0549 29874176
0.07 2.7495 16200 0.0549 30251904
0.0544 2.7835 16400 0.0552 30626560
0.0545 2.8174 16600 0.0547 30999968
0.0425 2.8514 16800 0.0546 31376704
0.0646 2.8853 17000 0.0562 31749472
0.0542 2.9193 17200 0.0546 32128320
0.0445 2.9532 17400 0.0547 32501056
0.065 2.9871 17600 0.0541 32872640
0.0465 3.0210 17800 0.0543 33243744
0.0475 3.0550 18000 0.0546 33619808
0.0886 3.0889 18200 0.0543 33994048
0.0389 3.1229 18400 0.0544 34361920
0.0716 3.1568 18600 0.0537 34735392
0.065 3.1908 18800 0.0537 35107872
0.0658 3.2247 19000 0.0536 35486976
0.063 3.2587 19200 0.0539 35862880
0.0491 3.2926 19400 0.0536 36237280
0.0656 3.3266 19600 0.0535 36614176
0.0568 3.3605 19800 0.0534 36987200
0.058 3.3944 20000 0.0537 37357312
0.0471 3.4284 20200 0.0533 37728448
0.0463 3.4623 20400 0.0535 38104736
0.0691 3.4963 20600 0.0534 38477696
0.0437 3.5302 20800 0.0531 38847808
0.0465 3.5642 21000 0.0529 39222464
0.0529 3.5981 21200 0.0530 39595392
0.0699 3.6321 21400 0.0530 39971968
0.063 3.6660 21600 0.0529 40341952
0.0664 3.7000 21800 0.0530 40713376
0.0464 3.7339 22000 0.0535 41085856
0.0474 3.7679 22200 0.0527 41461568
0.0436 3.8018 22400 0.0526 41833280
0.0458 3.8357 22600 0.0526 42205152
0.0419 3.8697 22800 0.0526 42578144
0.0587 3.9036 23000 0.0527 42956608
0.0522 3.9376 23200 0.0526 43327904
0.0315 3.9715 23400 0.0524 43700960
0.04 4.0054 23600 0.0524 44077568
0.051 4.0394 23800 0.0528 44449632
0.0667 4.0733 24000 0.0524 44825184
0.0606 4.1073 24200 0.0522 45195872
0.0362 4.1412 24400 0.0525 45566816
0.0487 4.1752 24600 0.0523 45945824
0.0492 4.2091 24800 0.0525 46322304
0.0365 4.2431 25000 0.0522 46694976
0.0683 4.2770 25200 0.0521 47069472
0.0513 4.3109 25400 0.0522 47444064
0.0546 4.3449 25600 0.0522 47819744
0.0593 4.3788 25800 0.0522 48190912
0.0514 4.4128 26000 0.0528 48563040
0.0454 4.4467 26200 0.0520 48936320
0.0486 4.4807 26400 0.0519 49306944
0.0393 4.5146 26600 0.0521 49683712
0.0322 4.5486 26800 0.0519 50057824
0.042 4.5825 27000 0.0518 50431552
0.058 4.6165 27200 0.0518 50808576
0.0489 4.6504 27400 0.0518 51182144
0.0376 4.6843 27600 0.0517 51554016
0.0524 4.7183 27800 0.0518 51925888
0.05 4.7522 28000 0.0519 52295168
0.0391 4.7862 28200 0.0519 52664096
0.038 4.8201 28400 0.0517 53038784
0.0566 4.8541 28600 0.0517 53412352
0.0506 4.8880 28800 0.0517 53788608
0.0616 4.9220 29000 0.0518 54166176
0.0675 4.9559 29200 0.0518 54541216
0.066 4.9899 29400 0.0517 54916928
0.0629 5.0238 29600 0.0516 55288160
0.0287 5.0577 29800 0.0516 55662784
0.0421 5.0917 30000 0.0519 56034432
0.0298 5.1256 30200 0.0518 56405792
0.0739 5.1595 30400 0.0516 56777504
0.046 5.1935 30600 0.0516 57149760
0.0529 5.2274 30800 0.0515 57521536
0.0289 5.2614 31000 0.0514 57889408
0.0424 5.2953 31200 0.0519 58258624
0.0427 5.3293 31400 0.0517 58635520
0.0425 5.3632 31600 0.0519 59006592
0.0518 5.3972 31800 0.0515 59381312
0.0716 5.4311 32000 0.0514 59761568
0.059 5.4651 32200 0.0516 60138720
0.0601 5.4990 32400 0.0516 60511168
0.0695 5.5329 32600 0.0514 60884448
0.0269 5.5669 32800 0.0513 61259680
0.0423 5.6008 33000 0.0514 61636416
0.0843 5.6348 33200 0.0514 62013760
0.0657 5.6687 33400 0.0516 62389440
0.0834 5.7027 33600 0.0514 62764512
0.0725 5.7366 33800 0.0514 63139872
0.0354 5.7706 34000 0.0514 63517632
0.0817 5.8045 34200 0.0515 63889248
0.0493 5.8385 34400 0.0513 64262048
0.0603 5.8724 34600 0.0513 64632256
0.0322 5.9064 34800 0.0513 65006944
0.08 5.9403 35000 0.0513 65382656
0.0451 5.9742 35200 0.0514 65756992
0.0516 6.0081 35400 0.0513 66125280
0.0647 6.0421 35600 0.0513 66493536
0.0448 6.0760 35800 0.0514 66867936
0.0546 6.1100 36000 0.0515 67243328
0.0449 6.1439 36200 0.0516 67616992
0.0329 6.1779 36400 0.0516 67995520
0.035 6.2118 36600 0.0514 68370624
0.0461 6.2458 36800 0.0514 68746880
0.0456 6.2797 37000 0.0515 69119328
0.0573 6.3137 37200 0.0514 69490336
0.0501 6.3476 37400 0.0515 69862688
0.0323 6.3816 37600 0.0513 70238592
0.0381 6.4155 37800 0.0514 70612608
0.054 6.4494 38000 0.0514 70985568
0.0242 6.4834 38200 0.0515 71360704
0.0399 6.5173 38400 0.0515 71738432
0.0286 6.5513 38600 0.0514 72112640
0.0532 6.5852 38800 0.0514 72484256
0.0447 6.6192 39000 0.0515 72858912
0.046 6.6531 39200 0.0513 73232576
0.0673 6.6871 39400 0.0516 73604352
0.0389 6.7210 39600 0.0514 73975648
0.0397 6.7550 39800 0.0514 74349632
0.0395 6.7889 40000 0.0514 74724160

Framework versions

  • PEFT 0.15.1
  • Transformers 4.51.3
  • Pytorch 2.6.0+cu124
  • Datasets 3.5.0
  • Tokenizers 0.21.1
Downloads last month
1
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rbelanec/train_qnli_1744902616

Adapter
(543)
this model

Evaluation results