train_multirc_1745950265

This model is a fine-tuned version of meta-llama/Meta-Llama-3-8B-Instruct on the multirc dataset. It achieves the following results on the evaluation set:

  • Loss: 0.1151
  • Num Input Tokens Seen: 75778784

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 5e-05
  • train_batch_size: 2
  • eval_batch_size: 2
  • seed: 123
  • gradient_accumulation_steps: 2
  • total_train_batch_size: 4
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: cosine
  • training_steps: 40000

Training results

Training Loss Epoch Step Validation Loss Input Tokens Seen
0.0613 0.0326 200 0.2503 378944
0.1856 0.0653 400 0.1878 758192
0.1722 0.0979 600 0.1691 1141408
0.2227 0.1305 800 0.1482 1518336
0.001 0.1631 1000 0.2181 1901264
0.2756 0.1958 1200 0.1717 2279552
0.1551 0.2284 1400 0.1335 2668256
0.1616 0.2610 1600 0.1811 3047328
0.1418 0.2937 1800 0.1367 3429984
0.2208 0.3263 2000 0.1312 3814576
0.0869 0.3589 2200 0.1339 4190352
0.121 0.3915 2400 0.1417 4567440
0.3097 0.4242 2600 0.1807 4944384
0.2244 0.4568 2800 0.1395 5325216
0.3335 0.4894 3000 0.1628 5698896
0.2415 0.5221 3200 0.1244 6074432
0.0321 0.5547 3400 0.1256 6454208
0.1509 0.5873 3600 0.1669 6831056
0.1002 0.6200 3800 0.1296 7209536
0.1316 0.6526 4000 0.1353 7593024
0.0123 0.6852 4200 0.1278 7977072
0.1803 0.7178 4400 0.1271 8353296
0.1114 0.7505 4600 0.1273 8733232
0.2534 0.7831 4800 0.1243 9113632
0.0137 0.8157 5000 0.1401 9487952
0.0952 0.8484 5200 0.1311 9861104
0.1068 0.8810 5400 0.1278 10239088
0.1917 0.9136 5600 0.1161 10619840
0.2227 0.9462 5800 0.1195 10994720
0.1419 0.9789 6000 0.1151 11376976
0.0218 1.0114 6200 0.1538 11758656
0.1791 1.0440 6400 0.1649 12144016
0.0192 1.0767 6600 0.1401 12531776
0.1681 1.1093 6800 0.1617 12905136
0.0873 1.1419 7000 0.1498 13278096
0.1126 1.1746 7200 0.1478 13651520
0.0065 1.2072 7400 0.1271 14034784
0.1551 1.2398 7600 0.1179 14415120
0.083 1.2725 7800 0.1571 14794784
0.0707 1.3051 8000 0.1341 15176240
0.0316 1.3377 8200 0.1392 15548080
0.0064 1.3703 8400 0.1390 15926832
0.0327 1.4030 8600 0.1469 16305344
0.0886 1.4356 8800 0.1384 16686528
0.1824 1.4682 9000 0.1457 17073648
0.0089 1.5009 9200 0.1383 17457952
0.2741 1.5335 9400 0.1507 17831104
0.0438 1.5661 9600 0.1594 18215168
0.0896 1.5987 9800 0.1432 18592816
0.1483 1.6314 10000 0.1272 18972864
0.0149 1.6640 10200 0.1292 19350160
0.0384 1.6966 10400 0.1280 19735024
0.1823 1.7293 10600 0.1238 20108768
0.0987 1.7619 10800 0.1481 20489424
0.0503 1.7945 11000 0.1444 20870832
0.1438 1.8271 11200 0.1395 21240960
0.0223 1.8598 11400 0.1240 21615744
0.2403 1.8924 11600 0.1288 21991984
0.011 1.9250 11800 0.1375 22366624
0.0304 1.9577 12000 0.1436 22746000
0.1027 1.9903 12200 0.1368 23122688
0.008 2.0228 12400 0.1493 23494112
0.0101 2.0555 12600 0.1741 23876160
0.0025 2.0881 12800 0.1607 24261904
0.0052 2.1207 13000 0.1821 24643776
0.0703 2.1534 13200 0.1745 25020496
0.002 2.1860 13400 0.2266 25391072
0.0007 2.2186 13600 0.2077 25762416
0.0515 2.2512 13800 0.1770 26139456
0.0002 2.2839 14000 0.2102 26511344
0.0335 2.3165 14200 0.2190 26891616
0.2543 2.3491 14400 0.2210 27274960
0.0197 2.3818 14600 0.1804 27652224
0.096 2.4144 14800 0.1741 28033168
0.1006 2.4470 15000 0.1748 28414784
0.1264 2.4796 15200 0.1666 28787168
0.0005 2.5123 15400 0.2133 29164512
0.1132 2.5449 15600 0.2094 29545056
0.0895 2.5775 15800 0.1872 29922176
0.0004 2.6102 16000 0.2028 30304336
0.0109 2.6428 16200 0.1964 30688608
0.0933 2.6754 16400 0.1895 31067744
0.0668 2.7081 16600 0.1783 31455328
0.0024 2.7407 16800 0.1771 31833136
0.078 2.7733 17000 0.1932 32213296
0.0019 2.8059 17200 0.2108 32588128
0.24 2.8386 17400 0.1512 32971552
0.003 2.8712 17600 0.1733 33356064
0.1105 2.9038 17800 0.1935 33739984
0.0027 2.9365 18000 0.1673 34121824
0.008 2.9691 18200 0.1870 34498368
0.0335 3.0016 18400 0.1887 34866272
0.0016 3.0343 18600 0.2062 35258768
0.1094 3.0669 18800 0.2380 35644416
0.0025 3.0995 19000 0.2508 36017808
0.2564 3.1321 19200 0.2515 36393536
0.0005 3.1648 19400 0.2621 36770432
0.1377 3.1974 19600 0.2748 37152448
0.0005 3.2300 19800 0.2862 37532496
0.0426 3.2627 20000 0.3194 37910480
0.0355 3.2953 20200 0.2726 38286080
0.0002 3.3279 20400 0.2818 38664512
0.0005 3.3606 20600 0.2895 39053472
0.1314 3.3932 20800 0.2901 39432032
0.0022 3.4258 21000 0.2823 39812704
0.0002 3.4584 21200 0.2889 40191088
0.0028 3.4911 21400 0.2483 40567216
0.0004 3.5237 21600 0.2792 40947696
0.0002 3.5563 21800 0.2509 41330624
0.0009 3.5890 22000 0.2885 41708800
0.0001 3.6216 22200 0.2949 42087824
0.0002 3.6542 22400 0.2762 42461936
0.0004 3.6868 22600 0.2839 42843696
0.2685 3.7195 22800 0.2594 43221120
0.0944 3.7521 23000 0.2491 43597776
0.0006 3.7847 23200 0.3087 43979312
0.3018 3.8174 23400 0.2826 44354480
0.0946 3.8500 23600 0.2675 44727696
0.0005 3.8826 23800 0.2448 45108608
0.0048 3.9152 24000 0.2526 45482928
0.0897 3.9479 24200 0.2370 45861584
0.0677 3.9805 24400 0.2758 46243072
0.0004 4.0131 24600 0.3141 46619680
0.0 4.0457 24800 0.3310 47007360
0.0016 4.0783 25000 0.3400 47391600
0.1159 4.1109 25200 0.3607 47768320
0.0 4.1436 25400 0.3962 48143424
0.0 4.1762 25600 0.3957 48524368
0.0001 4.2088 25800 0.3657 48899856
0.0001 4.2415 26000 0.3431 49280208
0.0 4.2741 26200 0.3348 49658080
0.1813 4.3067 26400 0.3752 50034848
0.0 4.3393 26600 0.3694 50413376
0.0478 4.3720 26800 0.3373 50793248
0.0021 4.4046 27000 0.3488 51170976
0.0002 4.4372 27200 0.3317 51559504
0.0001 4.4699 27400 0.3014 51928704
0.0561 4.5025 27600 0.3671 52297776
0.0 4.5351 27800 0.3960 52669472
0.0002 4.5677 28000 0.3787 53045856
0.0002 4.6004 28200 0.3886 53429232
0.0018 4.6330 28400 0.4075 53810560
0.0001 4.6656 28600 0.3656 54191536
0.1284 4.6983 28800 0.3269 54572176
0.0002 4.7309 29000 0.3831 54952896
0.0006 4.7635 29200 0.4159 55327776
0.0 4.7961 29400 0.4174 55708896
0.0 4.8288 29600 0.4384 56085712
0.0007 4.8614 29800 0.3953 56467376
0.0 4.8940 30000 0.4200 56841328
0.0001 4.9267 30200 0.3685 57227184
0.0098 4.9593 30400 0.3776 57605632
0.0003 4.9919 30600 0.3688 57987472
0.0003 5.0245 30800 0.3970 58367056
0.0001 5.0571 31000 0.3891 58746720
0.0 5.0897 31200 0.4249 59124272
0.0 5.1224 31400 0.4417 59504688
0.0 5.1550 31600 0.4560 59875840
0.0 5.1876 31800 0.4220 60247360
0.0 5.2202 32000 0.4524 60622464
0.0 5.2529 32200 0.4530 61006768
0.0 5.2855 32400 0.4560 61386992
0.0852 5.3181 32600 0.4682 61770000
0.0 5.3508 32800 0.4613 62154640
0.0 5.3834 33000 0.4687 62541664
0.0 5.4160 33200 0.4673 62912976
0.0004 5.4486 33400 0.4833 63289520
0.0001 5.4813 33600 0.5028 63668416
0.0 5.5139 33800 0.5196 64043792
0.0 5.5465 34000 0.4946 64433840
0.0 5.5792 34200 0.4728 64808624
0.0 5.6118 34400 0.4699 65182704
0.0 5.6444 34600 0.5052 65562192
0.0 5.6771 34800 0.5188 65940816
0.0 5.7097 35000 0.5143 66326768
0.0 5.7423 35200 0.5124 66705744
0.0 5.7749 35400 0.5134 67084928
0.0 5.8076 35600 0.5225 67462064
0.0 5.8402 35800 0.5205 67846112
0.0 5.8728 36000 0.5039 68221552
0.0 5.9055 36200 0.5070 68606416
0.0 5.9381 36400 0.4980 68980176
0.0 5.9707 36600 0.4966 69349984
0.0 6.0033 36800 0.4959 69729984
0.0 6.0359 37000 0.4991 70107936
0.0 6.0685 37200 0.5019 70487856
0.0001 6.1012 37400 0.5081 70865792
0.0 6.1338 37600 0.5063 71244784
0.0 6.1664 37800 0.5065 71630704
0.0 6.1990 38000 0.5086 72002688
0.0001 6.2317 38200 0.5054 72385776
0.0 6.2643 38400 0.5044 72773152
0.0 6.2969 38600 0.5042 73149584
0.0 6.3296 38800 0.5054 73519536
0.0002 6.3622 39000 0.5057 73902896
0.0 6.3948 39200 0.5068 74278960
0.0 6.4274 39400 0.5051 74655728
0.0 6.4601 39600 0.5073 75025808
0.0 6.4927 39800 0.5073 75402576
0.0 6.5253 40000 0.5051 75778784

Framework versions

  • PEFT 0.15.2.dev0
  • Transformers 4.51.3
  • Pytorch 2.6.0+cu124
  • Datasets 3.5.0
  • Tokenizers 0.21.1
Downloads last month
5
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rbelanec/train_multirc_1745950265

Adapter
(2100)
this model

Evaluation results