train_qnli_1744902613

This model is a fine-tuned version of mistralai/Mistral-7B-Instruct-v0.3 on the qnli dataset. It achieves the following results on the evaluation set:

  • Loss: 0.0474
  • Num Input Tokens Seen: 74724160

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 5e-05
  • train_batch_size: 4
  • eval_batch_size: 4
  • seed: 123
  • gradient_accumulation_steps: 4
  • total_train_batch_size: 16
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: cosine
  • training_steps: 40000

Training results

Training Loss Epoch Step Validation Loss Input Tokens Seen
0.1374 0.0339 200 0.1152 375872
0.103 0.0679 400 0.1016 754656
0.0895 0.1018 600 0.0965 1127296
0.1046 0.1358 800 0.0916 1500832
0.0902 0.1697 1000 0.0891 1870752
0.0775 0.2037 1200 0.0847 2248448
0.1086 0.2376 1400 0.0819 2622784
0.0715 0.2716 1600 0.0792 2995616
0.063 0.3055 1800 0.0778 3370144
0.069 0.3395 2000 0.0760 3747936
0.0673 0.3734 2200 0.0743 4126560
0.0723 0.4073 2400 0.0737 4497920
0.0667 0.4413 2600 0.0720 4870432
0.0886 0.4752 2800 0.0708 5242976
0.0654 0.5092 3000 0.0698 5615808
0.0724 0.5431 3200 0.0686 5984672
0.0864 0.5771 3400 0.0683 6356832
0.0541 0.6110 3600 0.0678 6732928
0.0541 0.6450 3800 0.0673 7111456
0.0462 0.6789 4000 0.0669 7481824
0.0639 0.7129 4200 0.0653 7857440
0.0622 0.7468 4400 0.0648 8229632
0.0621 0.7808 4600 0.0638 8601824
0.0595 0.8147 4800 0.0637 8974688
0.0787 0.8486 5000 0.0632 9345088
0.0872 0.8826 5200 0.0624 9720928
0.0578 0.9165 5400 0.0617 10090976
0.0605 0.9505 5600 0.0628 10461824
0.0773 0.9844 5800 0.0610 10837568
0.0549 1.0183 6000 0.0609 11211008
0.0628 1.0523 6200 0.0602 11582528
0.0513 1.0862 6400 0.0601 11958208
0.0793 1.1202 6600 0.0597 12334752
0.0492 1.1541 6800 0.0602 12710176
0.0437 1.1881 7000 0.0594 13083200
0.0564 1.2220 7200 0.0583 13458944
0.0497 1.2560 7400 0.0580 13836256
0.0793 1.2899 7600 0.0584 14209248
0.0747 1.3238 7800 0.0578 14585344
0.0533 1.3578 8000 0.0576 14955328
0.0405 1.3917 8200 0.0569 15331776
0.0368 1.4257 8400 0.0571 15706624
0.025 1.4596 8600 0.0568 16075392
0.0391 1.4936 8800 0.0561 16445568
0.0949 1.5275 9000 0.0561 16819648
0.0541 1.5615 9200 0.0559 17191872
0.0791 1.5954 9400 0.0563 17561280
0.0504 1.6294 9600 0.0551 17936128
0.0741 1.6633 9800 0.0549 18307616
0.0533 1.6972 10000 0.0548 18683168
0.0608 1.7312 10200 0.0550 19053408
0.0459 1.7651 10400 0.0545 19427296
0.052 1.7991 10600 0.0545 19802400
0.0457 1.8330 10800 0.0539 20173056
0.0505 1.8670 11000 0.0539 20550720
0.0741 1.9009 11200 0.0539 20920224
0.064 1.9349 11400 0.0535 21289344
0.0407 1.9688 11600 0.0537 21666048
0.0639 2.0027 11800 0.0550 22041760
0.0497 2.0367 12000 0.0532 22412256
0.0525 2.0706 12200 0.0528 22782848
0.0454 2.1046 12400 0.0530 23151392
0.0393 2.1385 12600 0.0525 23523648
0.0561 2.1724 12800 0.0526 23892992
0.0431 2.2064 13000 0.0526 24264192
0.0428 2.2403 13200 0.0523 24635264
0.0763 2.2743 13400 0.0520 25009664
0.0503 2.3082 13600 0.0519 25382432
0.0711 2.3422 13800 0.0526 25755616
0.0479 2.3761 14000 0.0517 26131424
0.074 2.4101 14200 0.0517 26504960
0.0499 2.4440 14400 0.0529 26877888
0.044 2.4780 14600 0.0515 27248384
0.063 2.5119 14800 0.0513 27625376
0.0632 2.5458 15000 0.0517 28005696
0.0482 2.5798 15200 0.0513 28379936
0.0729 2.6137 15400 0.0516 28749536
0.0347 2.6477 15600 0.0509 29128672
0.0432 2.6816 15800 0.0512 29503456
0.0668 2.7156 16000 0.0507 29874176
0.0676 2.7495 16200 0.0507 30251904
0.051 2.7835 16400 0.0514 30626560
0.0504 2.8174 16600 0.0507 30999968
0.0461 2.8514 16800 0.0503 31376704
0.0688 2.8853 17000 0.0515 31749472
0.0503 2.9193 17200 0.0504 32128320
0.0387 2.9532 17400 0.0504 32501056
0.0709 2.9871 17600 0.0500 32872640
0.0408 3.0210 17800 0.0501 33243744
0.038 3.0550 18000 0.0503 33619808
0.082 3.0889 18200 0.0500 33994048
0.0356 3.1229 18400 0.0501 34361920
0.0629 3.1568 18600 0.0496 34735392
0.0598 3.1908 18800 0.0496 35107872
0.061 3.2247 19000 0.0496 35486976
0.0576 3.2587 19200 0.0496 35862880
0.0426 3.2926 19400 0.0494 36237280
0.0589 3.3266 19600 0.0494 36614176
0.0551 3.3605 19800 0.0493 36987200
0.0588 3.3944 20000 0.0498 37357312
0.0471 3.4284 20200 0.0493 37728448
0.049 3.4623 20400 0.0494 38104736
0.0631 3.4963 20600 0.0495 38477696
0.0437 3.5302 20800 0.0491 38847808
0.043 3.5642 21000 0.0490 39222464
0.0448 3.5981 21200 0.0491 39595392
0.0558 3.6321 21400 0.0491 39971968
0.0547 3.6660 21600 0.0488 40341952
0.0633 3.7000 21800 0.0490 40713376
0.0394 3.7339 22000 0.0494 41085856
0.044 3.7679 22200 0.0488 41461568
0.0416 3.8018 22400 0.0487 41833280
0.0446 3.8357 22600 0.0487 42205152
0.0443 3.8697 22800 0.0486 42578144
0.0552 3.9036 23000 0.0487 42956608
0.0466 3.9376 23200 0.0486 43327904
0.0266 3.9715 23400 0.0485 43700960
0.0391 4.0054 23600 0.0484 44077568
0.0452 4.0394 23800 0.0489 44449632
0.065 4.0733 24000 0.0485 44825184
0.0519 4.1073 24200 0.0484 45195872
0.0281 4.1412 24400 0.0484 45566816
0.0458 4.1752 24600 0.0485 45945824
0.0452 4.2091 24800 0.0487 46322304
0.0333 4.2431 25000 0.0483 46694976
0.0632 4.2770 25200 0.0482 47069472
0.049 4.3109 25400 0.0482 47444064
0.0513 4.3449 25600 0.0485 47819744
0.0596 4.3788 25800 0.0482 48190912
0.0448 4.4128 26000 0.0487 48563040
0.0463 4.4467 26200 0.0482 48936320
0.0466 4.4807 26400 0.0481 49306944
0.0371 4.5146 26600 0.0481 49683712
0.0294 4.5486 26800 0.0481 50057824
0.036 4.5825 27000 0.0479 50431552
0.0516 4.6165 27200 0.0479 50808576
0.0443 4.6504 27400 0.0479 51182144
0.0361 4.6843 27600 0.0478 51554016
0.0463 4.7183 27800 0.0479 51925888
0.0441 4.7522 28000 0.0481 52295168
0.035 4.7862 28200 0.0480 52664096
0.0369 4.8201 28400 0.0477 53038784
0.0522 4.8541 28600 0.0479 53412352
0.0416 4.8880 28800 0.0478 53788608
0.0591 4.9220 29000 0.0479 54166176
0.0699 4.9559 29200 0.0480 54541216
0.0618 4.9899 29400 0.0479 54916928
0.062 5.0238 29600 0.0478 55288160
0.0229 5.0577 29800 0.0477 55662784
0.0391 5.0917 30000 0.0479 56034432
0.0264 5.1256 30200 0.0480 56405792
0.073 5.1595 30400 0.0477 56777504
0.0425 5.1935 30600 0.0477 57149760
0.0509 5.2274 30800 0.0477 57521536
0.027 5.2614 31000 0.0477 57889408
0.0374 5.2953 31200 0.0481 58258624
0.041 5.3293 31400 0.0481 58635520
0.0415 5.3632 31600 0.0479 59006592
0.0464 5.3972 31800 0.0478 59381312
0.0615 5.4311 32000 0.0475 59761568
0.0592 5.4651 32200 0.0478 60138720
0.0571 5.4990 32400 0.0479 60511168
0.0729 5.5329 32600 0.0476 60884448
0.0252 5.5669 32800 0.0476 61259680
0.0415 5.6008 33000 0.0477 61636416
0.0764 5.6348 33200 0.0476 62013760
0.0607 5.6687 33400 0.0477 62389440
0.0786 5.7027 33600 0.0476 62764512
0.0671 5.7366 33800 0.0476 63139872
0.0255 5.7706 34000 0.0475 63517632
0.0707 5.8045 34200 0.0476 63889248
0.046 5.8385 34400 0.0476 64262048
0.0541 5.8724 34600 0.0475 64632256
0.0307 5.9064 34800 0.0474 65006944
0.0741 5.9403 35000 0.0475 65382656
0.0435 5.9742 35200 0.0475 65756992
0.0484 6.0081 35400 0.0475 66125280
0.0539 6.0421 35600 0.0475 66493536
0.0492 6.0760 35800 0.0475 66867936
0.0456 6.1100 36000 0.0477 67243328
0.0462 6.1439 36200 0.0477 67616992
0.0271 6.1779 36400 0.0475 67995520
0.0311 6.2118 36600 0.0476 68370624
0.044 6.2458 36800 0.0475 68746880
0.0402 6.2797 37000 0.0475 69119328
0.0548 6.3137 37200 0.0476 69490336
0.0494 6.3476 37400 0.0476 69862688
0.0251 6.3816 37600 0.0477 70238592
0.035 6.4155 37800 0.0476 70612608
0.048 6.4494 38000 0.0475 70985568
0.023 6.4834 38200 0.0476 71360704
0.0372 6.5173 38400 0.0476 71738432
0.0267 6.5513 38600 0.0475 72112640
0.0485 6.5852 38800 0.0476 72484256
0.0427 6.6192 39000 0.0475 72858912
0.0402 6.6531 39200 0.0476 73232576
0.0677 6.6871 39400 0.0475 73604352
0.0384 6.7210 39600 0.0474 73975648
0.0327 6.7550 39800 0.0474 74349632
0.0358 6.7889 40000 0.0474 74724160

Framework versions

  • PEFT 0.15.1
  • Transformers 4.51.3
  • Pytorch 2.6.0+cu124
  • Datasets 3.5.0
  • Tokenizers 0.21.1
Downloads last month
2
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rbelanec/train_qnli_1744902613

Adapter
(934)
this model