train_sst2_1744902623

This model is a fine-tuned version of meta-llama/Meta-Llama-3-8B-Instruct on the sst2 dataset. It achieves the following results on the evaluation set:

  • Loss: 0.0563
  • Num Input Tokens Seen: 35754976

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 5e-05
  • train_batch_size: 4
  • eval_batch_size: 4
  • seed: 123
  • gradient_accumulation_steps: 4
  • total_train_batch_size: 16
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: cosine
  • training_steps: 40000

Training results

Training Loss Epoch Step Validation Loss Input Tokens Seen
0.0567 0.0528 200 0.0760 178464
0.0724 0.1056 400 0.0731 357184
0.0265 0.1584 600 0.0689 535488
0.0251 0.2112 800 0.0649 714592
0.0589 0.2640 1000 0.0708 893216
0.0349 0.3167 1200 0.0658 1072832
0.042 0.3695 1400 0.0637 1250688
0.096 0.4223 1600 0.0627 1429824
0.0434 0.4751 1800 0.0610 1608736
0.0651 0.5279 2000 0.0594 1787552
0.038 0.5807 2200 0.0685 1968064
0.0723 0.6335 2400 0.0709 2145056
0.0667 0.6863 2600 0.0593 2323552
0.1265 0.7391 2800 0.0658 2501632
0.116 0.7919 3000 0.0651 2681600
0.0472 0.8447 3200 0.0603 2859456
0.052 0.8975 3400 0.0622 3039712
0.1263 0.9502 3600 0.0633 3218400
0.0183 1.0029 3800 0.0614 3395632
0.0538 1.0557 4000 0.0590 3575248
0.0446 1.1085 4200 0.0605 3754960
0.0519 1.1613 4400 0.0568 3932752
0.0331 1.2141 4600 0.0565 4112272
0.0367 1.2669 4800 0.0585 4291792
0.0434 1.3197 5000 0.0681 4472784
0.0171 1.3724 5200 0.0626 4651696
0.0647 1.4252 5400 0.0602 4829360
0.0438 1.4780 5600 0.0599 5007920
0.0531 1.5308 5800 0.0677 5188208
0.0421 1.5836 6000 0.0578 5366384
0.1363 1.6364 6200 0.0563 5544176
0.0144 1.6892 6400 0.0619 5723216
0.0547 1.7420 6600 0.0606 5902896
0.0353 1.7948 6800 0.0569 6081040
0.0625 1.8476 7000 0.0607 6259056
0.0343 1.9004 7200 0.0578 6437904
0.0895 1.9531 7400 0.0612 6616176
0.0486 2.0058 7600 0.0609 6793648
0.033 2.0586 7800 0.0587 6973744
0.0242 2.1114 8000 0.0613 7150896
0.0057 2.1642 8200 0.0679 7330032
0.0367 2.2170 8400 0.0732 7508816
0.0164 2.2698 8600 0.0639 7686352
0.0427 2.3226 8800 0.0653 7864080
0.0467 2.3753 9000 0.0659 8042928
0.0445 2.4281 9200 0.0744 8223824
0.0192 2.4809 9400 0.0719 8402448
0.0155 2.5337 9600 0.0685 8581936
0.0246 2.5865 9800 0.0754 8762128
0.0788 2.6393 10000 0.0670 8939600
0.0368 2.6921 10200 0.0743 9117424
0.0254 2.7449 10400 0.0672 9299120
0.022 2.7977 10600 0.0627 9477968
0.0464 2.8505 10800 0.0721 9658192
0.0271 2.9033 11000 0.0655 9837392
0.0095 2.9561 11200 0.0610 10014320
0.0357 3.0087 11400 0.0785 10191904
0.0017 3.0615 11600 0.0787 10369824
0.0022 3.1143 11800 0.0873 10547296
0.0288 3.1671 12000 0.0720 10726592
0.0013 3.2199 12200 0.0767 10905760
0.0012 3.2727 12400 0.0933 11086528
0.0129 3.3255 12600 0.0854 11266208
0.0046 3.3782 12800 0.0828 11445184
0.0186 3.4310 13000 0.0790 11623936
0.0004 3.4838 13200 0.0899 11801312
0.0024 3.5366 13400 0.0792 11979552
0.0405 3.5894 13600 0.0732 12158496
0.0025 3.6422 13800 0.0734 12336928
0.0481 3.6950 14000 0.0643 12516800
0.0123 3.7478 14200 0.0734 12695648
0.0426 3.8006 14400 0.0729 12874656
0.0032 3.8534 14600 0.0774 13053184
0.027 3.9062 14800 0.0735 13232576
0.0091 3.9590 15000 0.0736 13410176
0.017 4.0116 15200 0.0887 13588176
0.0187 4.0644 15400 0.1046 13766160
0.0142 4.1172 15600 0.0953 13945776
0.0217 4.1700 15800 0.1051 14123120
0.0019 4.2228 16000 0.1151 14300816
0.023 4.2756 16200 0.1099 14479248
0.0078 4.3284 16400 0.0960 14660976
0.0062 4.3812 16600 0.0903 14839056
0.0246 4.4339 16800 0.0936 15016048
0.0001 4.4867 17000 0.1255 15196432
0.0121 4.5395 17200 0.0973 15374128
0.0358 4.5923 17400 0.1066 15553776
0.0223 4.6451 17600 0.0953 15733520
0.0268 4.6979 17800 0.0885 15911728
0.028 4.7507 18000 0.1190 16091728
0.0468 4.8035 18200 0.1133 16268208
0.0416 4.8563 18400 0.0945 16446704
0.0161 4.9091 18600 0.1205 16627152
0.0017 4.9619 18800 0.1061 16806032
0.0002 5.0145 19000 0.1350 16986160
0.0143 5.0673 19200 0.1268 17164848
0.0007 5.1201 19400 0.1248 17342800
0.0044 5.1729 19600 0.1084 17520144
0.0176 5.2257 19800 0.1469 17697936
0.0061 5.2785 20000 0.1226 17876496
0.0121 5.3313 20200 0.1508 18054800
0.0004 5.3841 20400 0.1303 18232176
0.0024 5.4368 20600 0.1270 18411760
0.0149 5.4896 20800 0.1354 18590672
0.0531 5.5424 21000 0.1558 18770000
0.0228 5.5952 21200 0.1366 18947664
0.0025 5.6480 21400 0.1308 19127344
0.0009 5.7008 21600 0.1561 19306864
0.0042 5.7536 21800 0.1369 19485200
0.0055 5.8064 22000 0.1510 19664112
0.039 5.8592 22200 0.1475 19843216
0.0005 5.9120 22400 0.1365 20022672
0.0163 5.9648 22600 0.1454 20201808
0.0001 6.0174 22800 0.2027 20380512
0.0027 6.0702 23000 0.2067 20560608
0.0041 6.1230 23200 0.2319 20739200
0.0018 6.1758 23400 0.2455 20917728
0.0 6.2286 23600 0.2526 21097088
0.0094 6.2814 23800 0.1756 21275360
0.0 6.3342 24000 0.1984 21454048
0.0003 6.3870 24200 0.1888 21631232
0.0048 6.4398 24400 0.1767 21809632
0.0 6.4925 24600 0.1909 21988192
0.0012 6.5453 24800 0.1893 22168864
0.0005 6.5981 25000 0.1934 22347392
0.0001 6.6509 25200 0.1830 22526048
0.0454 6.7037 25400 0.1598 22704800
0.0 6.7565 25600 0.1792 22883200
0.0001 6.8093 25800 0.1684 23063104
0.0115 6.8621 26000 0.1936 23242080
0.0004 6.9149 26200 0.1604 23421312
0.0104 6.9677 26400 0.2178 23599008
0.0006 7.0203 26600 0.2073 23777520
0.0 7.0731 26800 0.2610 23954320
0.0 7.1259 27000 0.2793 24134608
0.0072 7.1787 27200 0.2332 24312464
0.0 7.2315 27400 0.2281 24491696
0.0 7.2843 27600 0.2514 24670160
0.0 7.3371 27800 0.2319 24848976
0.0 7.3899 28000 0.2542 25027536
0.0 7.4427 28200 0.2711 25205648
0.0059 7.4954 28400 0.2343 25384496
0.0005 7.5482 28600 0.2937 25563856
0.0003 7.6010 28800 0.2266 25743536
0.0 7.6538 29000 0.2407 25921616
0.0036 7.7066 29200 0.2125 26103376
0.0001 7.7594 29400 0.2219 26283664
0.0 7.8122 29600 0.2392 26463440
0.0016 7.8650 29800 0.2667 26642352
0.0 7.9178 30000 0.2620 26822096
0.014 7.9706 30200 0.2524 27000688
0.0 8.0232 30400 0.2682 27178304
0.0 8.0760 30600 0.2654 27356864
0.0001 8.1288 30800 0.2663 27536640
0.0 8.1816 31000 0.2781 27714496
0.0 8.2344 31200 0.2797 27893536
0.0 8.2872 31400 0.2839 28071808
0.0 8.3400 31600 0.2890 28250112
0.0 8.3928 31800 0.2925 28428832
0.0 8.4456 32000 0.2713 28607296
0.0 8.4984 32200 0.2855 28787040
0.0 8.5511 32400 0.2947 28966560
0.0 8.6039 32600 0.2886 29144544
0.0 8.6567 32800 0.3028 29323040
0.0 8.7095 33000 0.3002 29502176
0.0 8.7623 33200 0.3033 29682560
0.0 8.8151 33400 0.3066 29860768
0.0 8.8679 33600 0.3096 30038624
0.0 8.9207 33800 0.3010 30216384
0.0 8.9735 34000 0.2981 30395872
0.0 9.0261 34200 0.2909 30573920
0.0003 9.0789 34400 0.2931 30753536
0.0 9.1317 34600 0.2980 30931776
0.0 9.1845 34800 0.3000 31110592
0.1055 9.2373 35000 0.3023 31288160
0.0 9.2901 35200 0.3027 31465760
0.0 9.3429 35400 0.3055 31643168
0.0 9.3957 35600 0.3036 31821856
0.0 9.4485 35800 0.3018 31998368
0.0 9.5013 36000 0.3026 32178176
0.0 9.5540 36200 0.3042 32356768
0.0009 9.6068 36400 0.3067 32537792
0.0 9.6596 36600 0.3095 32714880
0.0 9.7124 36800 0.3110 32893312
0.0001 9.7652 37000 0.3113 33071840
0.0 9.8180 37200 0.3115 33251936
0.0 9.8708 37400 0.3106 33431008
0.0 9.9236 37600 0.3133 33610816
0.0 9.9764 37800 0.3129 33790528
0.0 10.0290 38000 0.3129 33967520
0.0 10.0818 38200 0.3130 34145280
0.0 10.1346 38400 0.3133 34324448
0.0 10.1874 38600 0.3132 34503808
0.0 10.2402 38800 0.3135 34683552
0.0 10.2930 39000 0.3132 34860896
0.0 10.3458 39200 0.3137 35039424
0.0 10.3986 39400 0.3123 35217792
0.0 10.4514 39600 0.3150 35396000
0.0 10.5042 39800 0.3129 35575872
0.0 10.5569 40000 0.3141 35754976

Framework versions

  • PEFT 0.15.1
  • Transformers 4.51.3
  • Pytorch 2.6.0+cu124
  • Datasets 3.5.0
  • Tokenizers 0.21.1
Downloads last month
35
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rbelanec/train_sst2_1744902623

Adapter
(2105)
this model

Evaluation results