train_stsb_1745333594

This model is a fine-tuned version of mistralai/Mistral-7B-Instruct-v0.3 on the stsb dataset. It achieves the following results on the evaluation set:

  • Loss: 0.2578
  • Num Input Tokens Seen: 61177152

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 5e-05
  • train_batch_size: 4
  • eval_batch_size: 4
  • seed: 123
  • gradient_accumulation_steps: 4
  • total_train_batch_size: 16
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: cosine
  • training_steps: 40000

Training results

Training Loss Epoch Step Validation Loss Input Tokens Seen
1.1408 0.6182 200 1.1980 304960
0.6514 1.2349 400 0.7094 610112
0.5739 1.8532 600 0.5844 918240
0.4737 2.4699 800 0.5212 1223440
0.4095 3.0866 1000 0.4767 1529568
0.543 3.7048 1200 0.4422 1838464
0.3819 4.3215 1400 0.4167 2144560
0.3508 4.9397 1600 0.4011 2450736
0.289 5.5564 1800 0.3869 2755856
0.3401 6.1731 2000 0.3772 3063440
0.3427 6.7913 2200 0.3680 3368976
0.3522 7.4080 2400 0.3597 3677040
0.2672 8.0247 2600 0.3530 3983872
0.3567 8.6430 2800 0.3461 4292480
0.302 9.2597 3000 0.3419 4594560
0.2629 9.8779 3200 0.3354 4900544
0.2605 10.4946 3400 0.3304 5206928
0.2483 11.1113 3600 0.3272 5511472
0.2704 11.7295 3800 0.3226 5815280
0.2376 12.3462 4000 0.3176 6122240
0.2961 12.9645 4200 0.3142 6427616
0.2723 13.5811 4400 0.3114 6733776
0.2547 14.1978 4600 0.3075 7038848
0.314 14.8161 4800 0.3053 7344384
0.2025 15.4328 5000 0.3023 7651280
0.2161 16.0495 5200 0.2997 7955504
0.2162 16.6677 5400 0.2989 8262864
0.2489 17.2844 5600 0.2959 8568256
0.2541 17.9026 5800 0.2931 8873856
0.2416 18.5193 6000 0.2930 9180288
0.2231 19.1360 6200 0.2898 9486288
0.2633 19.7543 6400 0.2893 9792720
0.2002 20.3709 6600 0.2870 10100576
0.2033 20.9892 6800 0.2859 10406848
0.224 21.6059 7000 0.2842 10713296
0.2494 22.2226 7200 0.2830 11016800
0.1923 22.8408 7400 0.2822 11325536
0.2161 23.4575 7600 0.2807 11631392
0.2469 24.0742 7800 0.2804 11936144
0.2134 24.6924 8000 0.2781 12244560
0.2081 25.3091 8200 0.2783 12549728
0.2213 25.9274 8400 0.2769 12858400
0.2315 26.5440 8600 0.2757 13163216
0.2169 27.1607 8800 0.2755 13469440
0.2733 27.7790 9000 0.2753 13774400
0.2019 28.3957 9200 0.2744 14082512
0.2284 29.0124 9400 0.2732 14385408
0.2029 29.6306 9600 0.2734 14692096
0.26 30.2473 9800 0.2712 14996480
0.2225 30.8655 10000 0.2717 15302624
0.2316 31.4822 10200 0.2713 15609936
0.2086 32.0989 10400 0.2697 15915040
0.2378 32.7172 10600 0.2705 16222112
0.1819 33.3338 10800 0.2694 16525360
0.1905 33.9521 11000 0.2679 16833040
0.1874 34.5688 11200 0.2678 17138928
0.2019 35.1855 11400 0.2680 17446224
0.2465 35.8037 11600 0.2675 17754192
0.2248 36.4204 11800 0.2669 18056816
0.1962 37.0371 12000 0.2668 18365904
0.2319 37.6553 12200 0.2671 18669424
0.194 38.2720 12400 0.2658 18975680
0.2476 38.8903 12600 0.2655 19284128
0.2057 39.5070 12800 0.2657 19589440
0.1907 40.1236 13000 0.2650 19892304
0.2098 40.7419 13200 0.2654 20201904
0.196 41.3586 13400 0.2645 20507296
0.2066 41.9768 13600 0.2636 20814240
0.2009 42.5935 13800 0.2641 21117472
0.216 43.2102 14000 0.2638 21424352
0.2272 43.8284 14200 0.2637 21729344
0.1996 44.4451 14400 0.2630 22035168
0.1884 45.0618 14600 0.2641 22341904
0.1858 45.6801 14800 0.2627 22646640
0.1908 46.2968 15000 0.2633 22952944
0.197 46.9150 15200 0.2634 23260240
0.1978 47.5317 15400 0.2621 23566048
0.1858 48.1484 15600 0.2624 23871504
0.2324 48.7666 15800 0.2620 24175696
0.2127 49.3833 16000 0.2631 24480832
0.1882 50.0 16200 0.2621 24786896
0.2136 50.6182 16400 0.2616 25092208
0.2221 51.2349 16600 0.2618 25398288
0.1956 51.8532 16800 0.2623 25707024
0.1962 52.4699 17000 0.2619 26010848
0.1906 53.0866 17200 0.2617 26319616
0.2018 53.7048 17400 0.2621 26623232
0.1782 54.3215 17600 0.2608 26932512
0.1857 54.9397 17800 0.2610 27238304
0.2198 55.5564 18000 0.2610 27542688
0.2209 56.1731 18200 0.2608 27848608
0.2617 56.7913 18400 0.2603 28156128
0.1819 57.4080 18600 0.2596 28463824
0.1799 58.0247 18800 0.2604 28768304
0.1957 58.6430 19000 0.2613 29076400
0.1806 59.2597 19200 0.2611 29381968
0.2458 59.8779 19400 0.2599 29688144
0.182 60.4946 19600 0.2607 29993744
0.2739 61.1113 19800 0.2603 30299024
0.217 61.7295 20000 0.2596 30604816
0.207 62.3462 20200 0.2600 30909520
0.1909 62.9645 20400 0.2599 31217744
0.1821 63.5811 20600 0.2595 31523296
0.1964 64.1978 20800 0.2609 31827424
0.1984 64.8161 21000 0.2596 32135904
0.2542 65.4328 21200 0.2598 32439120
0.2194 66.0495 21400 0.2592 32747712
0.2016 66.6677 21600 0.2595 33052672
0.1857 67.2844 21800 0.2594 33358560
0.2738 67.9026 22000 0.2591 33664736
0.1867 68.5193 22200 0.2589 33967392
0.2347 69.1360 22400 0.2601 34272592
0.1573 69.7543 22600 0.2585 34578896
0.1818 70.3709 22800 0.2589 34883440
0.1858 70.9892 23000 0.2589 35188496
0.1775 71.6059 23200 0.2587 35492880
0.253 72.2226 23400 0.2598 35798304
0.1684 72.8408 23600 0.2591 36105856
0.1831 73.4575 23800 0.2592 36408816
0.2034 74.0742 24000 0.2600 36716560
0.2082 74.6924 24200 0.2600 37025168
0.208 75.3091 24400 0.2595 37330368
0.1537 75.9274 24600 0.2592 37636736
0.2042 76.5440 24800 0.2596 37941312
0.1784 77.1607 25000 0.2584 38246144
0.2047 77.7790 25200 0.2589 38552576
0.2373 78.3957 25400 0.2587 38857104
0.2111 79.0124 25600 0.2585 39165040
0.1717 79.6306 25800 0.2588 39472304
0.2539 80.2473 26000 0.2595 39777616
0.1696 80.8655 26200 0.2589 40084368
0.2251 81.4822 26400 0.2586 40388032
0.2133 82.0989 26600 0.2591 40694320
0.2267 82.7172 26800 0.2589 41001712
0.1751 83.3338 27000 0.2586 41305200
0.1853 83.9521 27200 0.2589 41615216
0.1936 84.5688 27400 0.2590 41920400
0.1856 85.1855 27600 0.2590 42224944
0.1917 85.8037 27800 0.2589 42528304
0.2037 86.4204 28000 0.2588 42836528
0.2441 87.0371 28200 0.2586 43141440
0.2165 87.6553 28400 0.2591 43445216
0.2219 88.2720 28600 0.2588 43750304
0.1785 88.8903 28800 0.2595 44055584
0.1702 89.5070 29000 0.2586 44361616
0.1693 90.1236 29200 0.2588 44665936
0.1683 90.7419 29400 0.2578 44972144
0.1642 91.3586 29600 0.2587 45276416
0.2106 91.9768 29800 0.2585 45583712
0.1905 92.5935 30000 0.2583 45888688
0.1882 93.2102 30200 0.2587 46195456
0.1962 93.8284 30400 0.2584 46500288
0.1863 94.4451 30600 0.2583 46804992
0.1779 95.0618 30800 0.2592 47112576
0.1852 95.6801 31000 0.2583 47418816
0.2103 96.2968 31200 0.2583 47723232
0.1674 96.9150 31400 0.2587 48029888
0.1903 97.5317 31600 0.2590 48335504
0.1823 98.1484 31800 0.2582 48640352
0.1784 98.7666 32000 0.2582 48945632
0.1914 99.3833 32200 0.2590 49253952
0.1915 100.0 32400 0.2589 49557760
0.1615 100.6182 32600 0.2589 49863392
0.2094 101.2349 32800 0.2594 50171184
0.2017 101.8532 33000 0.2590 50477424
0.1815 102.4699 33200 0.2589 50781472
0.226 103.0866 33400 0.2591 51085008
0.203 103.7048 33600 0.2587 51393296
0.2227 104.3215 33800 0.2586 51697808
0.2012 104.9397 34000 0.2588 52004880
0.1931 105.5564 34200 0.2584 52308944
0.1729 106.1731 34400 0.2593 52616512
0.1955 106.7913 34600 0.2580 52921600
0.1513 107.4080 34800 0.2584 53227040
0.2017 108.0247 35000 0.2588 53533488
0.1659 108.6430 35200 0.2589 53838704
0.2016 109.2597 35400 0.2584 54143984
0.1948 109.8779 35600 0.2582 54449808
0.1809 110.4946 35800 0.2592 54754304
0.224 111.1113 36000 0.2586 55060864
0.1728 111.7295 36200 0.2582 55367296
0.1722 112.3462 36400 0.2585 55670672
0.2217 112.9645 36600 0.2587 55978256
0.1949 113.5811 36800 0.2592 56283024
0.1783 114.1978 37000 0.2585 56590928
0.1887 114.8161 37200 0.2582 56897936
0.1683 115.4328 37400 0.2584 57200192
0.2087 116.0495 37600 0.2586 57505872
0.172 116.6677 37800 0.2591 57811120
0.1708 117.2844 38000 0.2589 58116320
0.1882 117.9026 38200 0.2588 58425376
0.2038 118.5193 38400 0.2580 58732208
0.1888 119.1360 38600 0.2586 59038688
0.1751 119.7543 38800 0.2587 59342656
0.1748 120.3709 39000 0.2591 59647664
0.198 120.9892 39200 0.2582 59954128
0.2414 121.6059 39400 0.2583 60260256
0.1777 122.2226 39600 0.2583 60563120
0.1807 122.8408 39800 0.2583 60870320
0.1913 123.4575 40000 0.2583 61177152

Framework versions

  • PEFT 0.15.1
  • Transformers 4.51.3
  • Pytorch 2.6.0+cu124
  • Datasets 3.5.0
  • Tokenizers 0.21.1
Downloads last month
2
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rbelanec/train_stsb_1745333594

Adapter
(540)
this model

Evaluation results