train_sst2_1744902627

This model is a fine-tuned version of mistralai/Mistral-7B-Instruct-v0.3 on the sst2 dataset. It achieves the following results on the evaluation set:

  • Loss: 0.0593
  • Num Input Tokens Seen: 33458560

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 5e-05
  • train_batch_size: 4
  • eval_batch_size: 4
  • seed: 123
  • gradient_accumulation_steps: 4
  • total_train_batch_size: 16
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: cosine
  • training_steps: 40000

Training results

Training Loss Epoch Step Validation Loss Input Tokens Seen
0.0745 0.0528 200 0.0783 166688
0.1164 0.1056 400 0.1055 334048
0.0125 0.1584 600 0.0809 500448
0.0293 0.2112 800 0.0696 667872
0.0633 0.2640 1000 0.0697 834848
0.037 0.3167 1200 0.0937 1002816
0.0586 0.3695 1400 0.0752 1169088
0.1164 0.4223 1600 0.0692 1337088
0.0527 0.4751 1800 0.0690 1505536
0.0513 0.5279 2000 0.0648 1673024
0.0544 0.5807 2200 0.0687 1842304
0.0687 0.6335 2400 0.0648 2007328
0.0739 0.6863 2600 0.0617 2174880
0.1184 0.7391 2800 0.0758 2341280
0.113 0.7919 3000 0.0676 2509440
0.0589 0.8447 3200 0.0651 2674784
0.0484 0.8975 3400 0.0629 2843680
0.1224 0.9502 3600 0.0674 3011904
0.0241 1.0029 3800 0.0719 3178064
0.0495 1.0557 4000 0.0655 3345904
0.0462 1.1085 4200 0.0620 3514608
0.0457 1.1613 4400 0.0608 3680560
0.0455 1.2141 4600 0.0638 3849328
0.0395 1.2669 4800 0.0638 4017200
0.037 1.3197 5000 0.0653 4187184
0.0199 1.3724 5200 0.0640 4354416
0.0455 1.4252 5400 0.0654 4519856
0.0231 1.4780 5600 0.0632 4687280
0.0568 1.5308 5800 0.0660 4856112
0.0563 1.5836 6000 0.0604 5022736
0.1588 1.6364 6200 0.0595 5188656
0.0301 1.6892 6400 0.0716 5356208
0.0572 1.7420 6600 0.0593 5523952
0.0309 1.7948 6800 0.0615 5690672
0.0549 1.8476 7000 0.0636 5857072
0.0461 1.9004 7200 0.0662 6024976
0.0753 1.9531 7400 0.0680 6191664
0.0403 2.0058 7600 0.0632 6357472
0.0261 2.0586 7800 0.0631 6525984
0.0126 2.1114 8000 0.0692 6692320
0.0039 2.1642 8200 0.0756 6860064
0.0463 2.2170 8400 0.0737 7026528
0.0118 2.2698 8600 0.0701 7192384
0.0211 2.3226 8800 0.0734 7358816
0.0369 2.3753 9000 0.0806 7526496
0.0336 2.4281 9200 0.1007 7696064
0.0252 2.4809 9400 0.0934 7863456
0.0041 2.5337 9600 0.0711 8031776
0.0297 2.5865 9800 0.0753 8199584
0.0712 2.6393 10000 0.0741 8366016
0.008 2.6921 10200 0.0924 8531808
0.0324 2.7449 10400 0.0728 8702976
0.0155 2.7977 10600 0.0793 8870944
0.057 2.8505 10800 0.0790 9039680
0.0472 2.9033 11000 0.0685 9206880
0.0067 2.9561 11200 0.0759 9372128
0.023 3.0087 11400 0.1036 9538768
0.0009 3.0615 11600 0.1041 9705232
0.0026 3.1143 11800 0.1420 9871632
0.007 3.1671 12000 0.1002 10039472
0.0023 3.2199 12200 0.1041 10206320
0.003 3.2727 12400 0.1281 10376240
0.0087 3.3255 12600 0.1209 10544464
0.0146 3.3782 12800 0.1133 10712240
0.0024 3.4310 13000 0.1138 10879120
0.0002 3.4838 13200 0.1368 11045072
0.0046 3.5366 13400 0.1290 11211312
0.0263 3.5894 13600 0.1125 11378128
0.0051 3.6422 13800 0.1019 11544592
0.019 3.6950 14000 0.0911 11713040
0.0066 3.7478 14200 0.1016 11880432
0.0148 3.8006 14400 0.1121 12048176
0.0001 3.8534 14600 0.1492 12215792
0.0281 3.9062 14800 0.1034 12383792
0.0056 3.9590 15000 0.0986 12549680
0.0001 4.0116 15200 0.1283 12716448
0.0037 4.0644 15400 0.2098 12882752
0.0078 4.1172 15600 0.1637 13051200
0.0078 4.1700 15800 0.1420 13217024
0.0162 4.2228 16000 0.1648 13382784
0.0003 4.2756 16200 0.1115 13549216
0.0021 4.3284 16400 0.1300 13719072
0.0028 4.3812 16600 0.1370 13884928
0.0028 4.4339 16800 0.1263 14051584
0.0001 4.4867 17000 0.1414 14220704
0.0038 4.5395 17200 0.1233 14387008
0.0052 4.5923 17400 0.2157 14555808
0.0 4.6451 17600 0.2525 14723456
0.0196 4.6979 17800 0.1433 14890880
0.0229 4.7507 18000 0.1838 15059744
0.057 4.8035 18200 0.1577 15224512
0.0453 4.8563 18400 0.1232 15392960
0.0066 4.9091 18600 0.1784 15561696
0.0162 4.9619 18800 0.1757 15728800
0.0485 5.0145 19000 0.1900 15897552
0.0009 5.0673 19200 0.1809 16064688
0.0005 5.1201 19400 0.1684 16231120
0.0044 5.1729 19600 0.1712 16397744
0.1072 5.2257 19800 0.1722 16564176
0.037 5.2785 20000 0.1688 16731600
0.0052 5.3313 20200 0.1799 16898064
0.0 5.3841 20400 0.1782 17064080
0.0002 5.4368 20600 0.2476 17231888
0.0057 5.4896 20800 0.1952 17399184
0.0022 5.5424 21000 0.2121 17566160
0.0063 5.5952 21200 0.1922 17732304
0.004 5.6480 21400 0.1764 17900880
0.0001 5.7008 21600 0.1741 18070192
0.0001 5.7536 21800 0.1708 18237168
0.0058 5.8064 22000 0.2006 18403856
0.002 5.8592 22200 0.2176 18571248
0.0 5.9120 22400 0.2260 18738672
0.0002 5.9648 22600 0.1856 18905744
0.0 6.0174 22800 0.2380 19073440
0.0 6.0702 23000 0.1898 19241920
0.0036 6.1230 23200 0.1885 19409408
0.0 6.1758 23400 0.1937 19577024
0.0532 6.2286 23600 0.1851 19744608
0.0036 6.2814 23800 0.1758 19911488
0.0001 6.3342 24000 0.2023 20078944
0.0 6.3870 24200 0.2283 20244928
0.0107 6.4398 24400 0.1919 20411232
0.0 6.4925 24600 0.2069 20578080
0.0002 6.5453 24800 0.1839 20746592
0.0 6.5981 25000 0.1915 20913344
0.0 6.6509 25200 0.2142 21081952
0.0051 6.7037 25400 0.1797 21248384
0.0027 6.7565 25600 0.1834 21415872
0.0004 6.8093 25800 0.1750 21584000
0.0004 6.8621 26000 0.2093 21751168
0.0 6.9149 26200 0.1849 21918816
0.0291 6.9677 26400 0.1955 22084384
0.0001 7.0203 26600 0.2036 22251776
0.0 7.0731 26800 0.2368 22418080
0.0 7.1259 27000 0.2574 22587392
0.0 7.1787 27200 0.2346 22753056
0.0 7.2315 27400 0.2273 22920768
0.0 7.2843 27600 0.2511 23087296
0.0 7.3371 27800 0.2544 23254400
0.0 7.3899 28000 0.2559 23422752
0.0 7.4427 28200 0.2674 23588352
0.0055 7.4954 28400 0.2443 23755840
0.0001 7.5482 28600 0.2886 23923680
0.0 7.6010 28800 0.3007 24091168
0.0 7.6538 29000 0.2789 24258016
0.0 7.7066 29200 0.2825 24427808
0.0 7.7594 29400 0.2882 24596288
0.0 7.8122 29600 0.2831 24764192
0.0 7.8650 29800 0.2660 24932000
0.0 7.9178 30000 0.2519 25100224
0.0229 7.9706 30200 0.2555 25267808
0.0 8.0232 30400 0.2564 25433440
0.0 8.0760 30600 0.2685 25600672
0.0 8.1288 30800 0.2806 25769408
0.0 8.1816 31000 0.2828 25936160
0.0 8.2344 31200 0.2733 26103744
0.0 8.2872 31400 0.2767 26270560
0.0 8.3400 31600 0.2765 26437536
0.0 8.3928 31800 0.2866 26604480
0.0 8.4456 32000 0.2873 26771680
0.0 8.4984 32200 0.2827 26940256
0.0 8.5511 32400 0.2836 27107680
0.0 8.6039 32600 0.2861 27274048
0.0 8.6567 32800 0.2895 27440544
0.0 8.7095 33000 0.2866 27608000
0.0 8.7623 33200 0.2908 27776704
0.0 8.8151 33400 0.2903 27942752
0.0 8.8679 33600 0.2963 28108864
0.0 8.9207 33800 0.2992 28275296
0.0 8.9735 34000 0.2939 28443520
0.0 9.0261 34200 0.3001 28609776
0.0 9.0789 34400 0.3015 28777712
0.0 9.1317 34600 0.3028 28944144
0.0 9.1845 34800 0.3033 29111152
0.0002 9.2373 35000 0.2992 29278000
0.0 9.2901 35200 0.2962 29443792
0.0 9.3429 35400 0.2975 29609072
0.0 9.3957 35600 0.2983 29776592
0.0 9.4485 35800 0.2987 29941616
0.0 9.5013 36000 0.2990 30110160
0.0 9.5540 36200 0.2988 30277744
0.0 9.6068 36400 0.2996 30447152
0.0 9.6596 36600 0.3006 30612976
0.0 9.7124 36800 0.3007 30780240
0.0 9.7652 37000 0.3018 30948048
0.0 9.8180 37200 0.3031 31116368
0.0 9.8708 37400 0.3022 31283888
0.0 9.9236 37600 0.3025 31452560
0.0 9.9764 37800 0.3033 31620720
0.0 10.0290 38000 0.3030 31786016
0.0 10.0818 38200 0.3018 31952768
0.0 10.1346 38400 0.3032 32120320
0.0 10.1874 38600 0.3024 32287584
0.0 10.2402 38800 0.3030 32455072
0.0 10.2930 39000 0.3025 32621184
0.0 10.3458 39200 0.3031 32788960
0.0 10.3986 39400 0.3028 32955776
0.0 10.4514 39600 0.3024 33122816
0.0 10.5042 39800 0.3032 33291072
0.0 10.5569 40000 0.3027 33458560

Framework versions

  • PEFT 0.15.1
  • Transformers 4.51.3
  • Pytorch 2.6.0+cu124
  • Datasets 3.5.0
  • Tokenizers 0.21.1
Downloads last month
22
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rbelanec/train_sst2_1744902627

Adapter
(540)
this model

Evaluation results