train_wic_1745950292

This model is a fine-tuned version of mistralai/Mistral-7B-Instruct-v0.3 on the wic dataset. It achieves the following results on the evaluation set:

  • Loss: 0.2495
  • Num Input Tokens Seen: 12845616

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 5e-05
  • train_batch_size: 2
  • eval_batch_size: 2
  • seed: 123
  • gradient_accumulation_steps: 2
  • total_train_batch_size: 4
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: cosine
  • training_steps: 40000

Training results

Training Loss Epoch Step Validation Loss Input Tokens Seen
1.065 0.1637 200 0.6054 64080
0.397 0.3275 400 0.3437 128048
0.3675 0.4912 600 0.3234 192224
0.3431 0.6549 800 0.3205 256832
0.3425 0.8187 1000 0.3183 321264
0.36 0.9824 1200 0.3125 385728
0.2579 1.1457 1400 0.3114 449768
0.3617 1.3095 1600 0.3066 514072
0.2951 1.4732 1800 0.3054 578408
0.3551 1.6369 2000 0.3018 642248
0.2932 1.8007 2200 0.3003 706488
0.2541 1.9644 2400 0.2989 770888
0.3475 2.1277 2600 0.2980 835216
0.272 2.2914 2800 0.2934 899312
0.2623 2.4552 3000 0.2918 963696
0.2896 2.6189 3200 0.2963 1027904
0.3231 2.7826 3400 0.2876 1092016
0.2949 2.9464 3600 0.2888 1156240
0.2821 3.1097 3800 0.2971 1220568
0.2786 3.2734 4000 0.2814 1285128
0.2411 3.4372 4200 0.2789 1349032
0.2132 3.6009 4400 0.2771 1413096
0.2799 3.7646 4600 0.2757 1477816
0.3957 3.9284 4800 0.2751 1541800
0.2368 4.0917 5000 0.2766 1605480
0.219 4.2554 5200 0.2742 1669464
0.2074 4.4192 5400 0.2711 1733528
0.2602 4.5829 5600 0.2710 1797608
0.2386 4.7466 5800 0.2714 1862328
0.3009 4.9104 6000 0.2679 1926824
0.2729 5.0737 6200 0.2674 1990752
0.1951 5.2374 6400 0.2657 2055200
0.2533 5.4011 6600 0.2661 2119232
0.294 5.5649 6800 0.2643 2183440
0.2201 5.7286 7000 0.2631 2247920
0.3302 5.8923 7200 0.2652 2312032
0.3364 6.0557 7400 0.2641 2376200
0.2591 6.2194 7600 0.2754 2440472
0.1731 6.3831 7800 0.2627 2504760
0.3217 6.5469 8000 0.2615 2568840
0.3626 6.7106 8200 0.2606 2632776
0.2861 6.8743 8400 0.2613 2697176
0.3409 7.0377 8600 0.2616 2761240
0.2855 7.2014 8800 0.2599 2825240
0.266 7.3651 9000 0.2595 2889368
0.2523 7.5289 9200 0.2610 2953752
0.1544 7.6926 9400 0.2598 3018440
0.1975 7.8563 9600 0.2588 3082552
0.1452 8.0196 9800 0.2579 3146472
0.3104 8.1834 10000 0.2601 3211320
0.1796 8.3471 10200 0.2602 3275192
0.3172 8.5108 10400 0.2563 3339400
0.3422 8.6746 10600 0.2576 3403656
0.2857 8.8383 10800 0.2554 3467848
0.1421 9.0016 11000 0.2570 3531952
0.1991 9.1654 11200 0.2585 3596368
0.2137 9.3291 11400 0.2593 3660496
0.2779 9.4928 11600 0.2544 3724480
0.3321 9.6566 11800 0.2541 3788928
0.266 9.8203 12000 0.2536 3853296
0.1935 9.9840 12200 0.2562 3917232
0.3103 10.1474 12400 0.2642 3981568
0.2376 10.3111 12600 0.2526 4045600
0.3557 10.4748 12800 0.2516 4110048
0.3063 10.6386 13000 0.2586 4174432
0.1961 10.8023 13200 0.2559 4238512
0.1865 10.9660 13400 0.2572 4302800
0.1632 11.1293 13600 0.2556 4366728
0.3335 11.2931 13800 0.2546 4431112
0.1797 11.4568 14000 0.2547 4495320
0.2778 11.6205 14200 0.2555 4559336
0.3095 11.7843 14400 0.2546 4623464
0.4696 11.9480 14600 0.2550 4687880
0.1484 12.1113 14800 0.2495 4752088
0.4003 12.2751 15000 0.2536 4816376
0.1753 12.4388 15200 0.2536 4881000
0.1378 12.6025 15400 0.2569 4944776
0.2191 12.7663 15600 0.2559 5009528
0.2157 12.9300 15800 0.2562 5073448
0.3725 13.0933 16000 0.2580 5137696
0.3977 13.2571 16200 0.2617 5202256
0.2069 13.4208 16400 0.2543 5266128
0.2662 13.5845 16600 0.2537 5330256
0.2155 13.7483 16800 0.2614 5395072
0.2221 13.9120 17000 0.2550 5458672
0.3302 14.0753 17200 0.2557 5522480
0.226 14.2391 17400 0.2557 5586480
0.3213 14.4028 17600 0.2559 5650208
0.1673 14.5665 17800 0.2543 5714704
0.2464 14.7302 18000 0.2637 5779488
0.1911 14.8940 18200 0.2594 5843728
0.1855 15.0573 18400 0.2559 5908152
0.1872 15.2210 18600 0.2580 5972168
0.1885 15.3848 18800 0.2606 6037144
0.1354 15.5485 19000 0.2584 6101800
0.315 15.7122 19200 0.2575 6165416
0.314 15.8760 19400 0.2626 6229672
0.35 16.0393 19600 0.2620 6293504
0.1541 16.2030 19800 0.2599 6357840
0.0953 16.3668 20000 0.2587 6422352
0.127 16.5305 20200 0.2621 6486352
0.1143 16.6942 20400 0.2629 6550928
0.162 16.8580 20600 0.2666 6615008
0.2295 17.0213 20800 0.2598 6678864
0.1191 17.1850 21000 0.2661 6743040
0.2979 17.3488 21200 0.2646 6807664
0.2828 17.5125 21400 0.2629 6871648
0.0938 17.6762 21600 0.2592 6936048
0.3715 17.8400 21800 0.2624 7000448
0.4384 18.0033 22000 0.2592 7064224
0.1807 18.1670 22200 0.2577 7128848
0.1758 18.3307 22400 0.2606 7192992
0.2917 18.4945 22600 0.2627 7256624
0.151 18.6582 22800 0.2612 7321520
0.1655 18.8219 23000 0.2696 7385552
0.3899 18.9857 23200 0.2630 7449600
0.1952 19.1490 23400 0.2644 7513504
0.2715 19.3127 23600 0.2673 7577776
0.2506 19.4765 23800 0.2676 7642048
0.3504 19.6402 24000 0.2710 7706720
0.109 19.8039 24200 0.2665 7770896
0.1035 19.9677 24400 0.2635 7835136
0.1745 20.1310 24600 0.2719 7899176
0.2571 20.2947 24800 0.2704 7963800
0.0994 20.4585 25000 0.2685 8028584
0.2209 20.6222 25200 0.2701 8092616
0.2055 20.7859 25400 0.2684 8157000
0.1311 20.9497 25600 0.2690 8220920
0.0832 21.1130 25800 0.2710 8284832
0.1868 21.2767 26000 0.2736 8348832
0.118 21.4404 26200 0.2718 8412992
0.3674 21.6042 26400 0.2707 8476944
0.1726 21.7679 26600 0.2817 8541536
0.3738 21.9316 26800 0.2710 8606128
0.16 22.0950 27000 0.2677 8670264
0.206 22.2587 27200 0.2727 8734456
0.2325 22.4224 27400 0.2725 8798776
0.1386 22.5862 27600 0.2683 8862888
0.2311 22.7499 27800 0.2707 8927464
0.155 22.9136 28000 0.2703 8991912
0.1872 23.0770 28200 0.2734 9055920
0.1359 23.2407 28400 0.2747 9120064
0.3627 23.4044 28600 0.2725 9184496
0.1371 23.5682 28800 0.2713 9248672
0.1274 23.7319 29000 0.2693 9312880
0.2631 23.8956 29200 0.2712 9377264
0.0851 24.0589 29400 0.2671 9441584
0.1753 24.2227 29600 0.2749 9505936
0.1505 24.3864 29800 0.2710 9570272
0.1706 24.5501 30000 0.2742 9634480
0.2413 24.7139 30200 0.2738 9698784
0.1365 24.8776 30400 0.2747 9762800
0.1536 25.0409 30600 0.2737 9826744
0.0935 25.2047 30800 0.2744 9890760
0.1175 25.3684 31000 0.2757 9955112
0.0647 25.5321 31200 0.2762 10019448
0.0706 25.6959 31400 0.2754 10083848
0.1959 25.8596 31600 0.2763 10147752
0.0815 26.0229 31800 0.2732 10211912
0.0958 26.1867 32000 0.2718 10275928
0.2121 26.3504 32200 0.2726 10340168
0.1873 26.5141 32400 0.2753 10404376
0.2403 26.6779 32600 0.2764 10469048
0.4694 26.8416 32800 0.2751 10533640
0.112 27.0049 33000 0.2752 10597888
0.1696 27.1686 33200 0.2756 10662240
0.2199 27.3324 33400 0.2791 10726640
0.2027 27.4961 33600 0.2739 10790608
0.3929 27.6598 33800 0.2741 10854688
0.2251 27.8236 34000 0.2732 10919360
0.6245 27.9873 34200 0.2770 10983664
0.168 28.1506 34400 0.2767 11047464
0.1867 28.3144 34600 0.2752 11111848
0.2178 28.4781 34800 0.2752 11176376
0.3184 28.6418 35000 0.2750 11241256
0.0956 28.8056 35200 0.2733 11305112
0.1752 28.9693 35400 0.2751 11369464
0.0748 29.1326 35600 0.2733 11433608
0.2524 29.2964 35800 0.2760 11497944
0.1013 29.4601 36000 0.2769 11562200
0.1035 29.6238 36200 0.2740 11626152
0.1606 29.7876 36400 0.2771 11690824
0.2424 29.9513 36600 0.2762 11755016
0.396 30.1146 36800 0.2758 11818880
0.2195 30.2783 37000 0.2782 11882768
0.1137 30.4421 37200 0.2756 11946912
0.1453 30.6058 37400 0.2766 12011696
0.2008 30.7695 37600 0.2748 12075664
0.2322 30.9333 37800 0.2764 12139680
0.4384 31.0966 38000 0.2753 12204000
0.2095 31.2603 38200 0.2747 12268800
0.1355 31.4241 38400 0.2748 12333024
0.3045 31.5878 38600 0.2748 12396976
0.1678 31.7515 38800 0.2755 12461104
0.1953 31.9153 39000 0.2750 12524768
0.2007 32.0786 39200 0.2764 12588496
0.3706 32.2423 39400 0.2764 12653136
0.1886 32.4061 39600 0.2764 12717328
0.139 32.5698 39800 0.2764 12781536
0.1119 32.7335 40000 0.2764 12845616

Framework versions

  • PEFT 0.15.2.dev0
  • Transformers 4.51.3
  • Pytorch 2.6.0+cu124
  • Datasets 3.5.0
  • Tokenizers 0.21.1
Downloads last month
1
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rbelanec/train_wic_1745950292

Adapter
(545)
this model

Evaluation results