train_copa_1745950326

This model is a fine-tuned version of meta-llama/Meta-Llama-3-8B-Instruct on the copa dataset. It achieves the following results on the evaluation set:

  • Loss: 0.2317
  • Num Input Tokens Seen: 10717440

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 0.3
  • train_batch_size: 2
  • eval_batch_size: 2
  • seed: 123
  • gradient_accumulation_steps: 2
  • total_train_batch_size: 4
  • optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: cosine
  • training_steps: 40000

Training results

Training Loss Epoch Step Validation Loss Input Tokens Seen
0.2267 2.2222 200 0.2456 53616
0.2227 4.4444 400 0.2489 107088
0.2283 6.6667 600 0.2423 160704
0.2261 8.8889 800 0.2375 214352
0.2264 11.1111 1000 0.2475 267952
0.2353 13.3333 1200 0.2360 321488
0.2346 15.5556 1400 0.2388 374992
0.2258 17.7778 1600 0.2327 428624
0.2343 20.0 1800 0.2364 482064
0.2242 22.2222 2000 0.2338 535648
0.2136 24.4444 2200 0.2484 589072
0.2387 26.6667 2400 0.2377 642784
0.2345 28.8889 2600 0.2342 696288
0.2294 31.1111 2800 0.2333 749968
0.2461 33.3333 3000 0.2377 803504
0.2464 35.5556 3200 0.2456 857200
0.2315 37.7778 3400 0.2317 910768
0.2267 40.0 3600 0.2386 964400
0.2377 42.2222 3800 0.2369 1017840
0.217 44.4444 4000 0.2373 1071552
0.2267 46.6667 4200 0.2364 1125296
0.2342 48.8889 4400 0.2375 1178960
0.2291 51.1111 4600 0.2326 1232640
0.2548 53.3333 4800 0.2404 1286048
0.2235 55.5556 5000 0.2329 1339712
0.2264 57.7778 5200 0.2356 1393248
0.2339 60.0 5400 0.2373 1446832
0.2481 62.2222 5600 0.2405 1500496
0.2401 64.4444 5800 0.2363 1554112
0.2282 66.6667 6000 0.2453 1607856
0.2627 68.8889 6200 0.2402 1661408
0.2389 71.1111 6400 0.2334 1714960
0.2309 73.3333 6600 0.2345 1768352
0.2321 75.5556 6800 0.2358 1821936
0.2231 77.7778 7000 0.2385 1875424
0.2226 80.0 7200 0.2420 1929008
0.2434 82.2222 7400 0.2341 1982720
0.2423 84.4444 7600 0.2400 2036336
0.2252 86.6667 7800 0.2458 2089872
0.2333 88.8889 8000 0.2582 2143520
0.2376 91.1111 8200 0.2418 2197072
0.2267 93.3333 8400 0.2505 2250672
0.2461 95.5556 8600 0.2409 2304256
0.2279 97.7778 8800 0.2365 2357840
0.2281 100.0 9000 0.2381 2411392
0.2283 102.2222 9200 0.2389 2464928
0.2255 104.4444 9400 0.2423 2518544
0.2141 106.6667 9600 0.2399 2572032
0.2407 108.8889 9800 0.2412 2625568
0.2197 111.1111 10000 0.2389 2679136
0.2294 113.3333 10200 0.2392 2732608
0.2164 115.5556 10400 0.2401 2786240
0.2275 117.7778 10600 0.2420 2839920
0.2337 120.0 10800 0.2469 2893488
0.255 122.2222 11000 0.2545 2947104
0.2332 124.4444 11200 0.2400 3000560
0.2321 126.6667 11400 0.2426 3054176
0.2479 128.8889 11600 0.2468 3107744
0.2312 131.1111 11800 0.2388 3161488
0.238 133.3333 12000 0.2424 3215088
0.2237 135.5556 12200 0.2423 3268640
0.2297 137.7778 12400 0.2398 3322144
0.2338 140.0 12600 0.2411 3375792
0.2213 142.2222 12800 0.2412 3429312
0.213 144.4444 13000 0.2425 3482800
0.2117 146.6667 13200 0.2447 3536544
0.2194 148.8889 13400 0.2449 3590208
0.2194 151.1111 13600 0.2505 3643872
0.2616 153.3333 13800 0.2392 3697456
0.2425 155.5556 14000 0.2381 3751008
0.2308 157.7778 14200 0.2403 3804608
0.2321 160.0 14400 0.2493 3858240
0.2425 162.2222 14600 0.2385 3911808
0.2308 164.4444 14800 0.2361 3965376
0.2266 166.6667 15000 0.2344 4018880
0.2288 168.8889 15200 0.2371 4072432
0.2381 171.1111 15400 0.2367 4125888
0.2466 173.3333 15600 0.2407 4179552
0.2151 175.5556 15800 0.2447 4233072
0.2196 177.7778 16000 0.2393 4286672
0.2221 180.0 16200 0.2453 4340240
0.2174 182.2222 16400 0.2440 4393824
0.2241 184.4444 16600 0.2458 4447408
0.2534 186.6667 16800 0.2622 4500864
0.2111 188.8889 17000 0.2572 4554512
0.2131 191.1111 17200 0.2605 4608128
0.1698 193.3333 17400 0.2482 4661856
0.1878 195.5556 17600 0.2551 4715392
0.2061 197.7778 17800 0.2551 4768912
0.1512 200.0 18000 0.2634 4822464
0.1697 202.2222 18200 0.3017 4876096
0.105 204.4444 18400 0.3672 4929776
0.1305 206.6667 18600 0.3480 4983440
0.14 208.8889 18800 0.3133 5036880
0.1255 211.1111 19000 0.4144 5090400
0.4549 213.3333 19200 0.4646 5144016
0.1034 215.5556 19400 0.4098 5197664
0.1504 217.7778 19600 0.3450 5251232
0.1252 220.0 19800 0.5392 5304880
0.0351 222.2222 20000 0.6601 5358528
0.0357 224.4444 20200 0.7920 5412064
0.1112 226.6667 20400 0.7390 5465696
0.0566 228.8889 20600 0.6791 5519328
0.0429 231.1111 20800 0.6422 5572928
0.0672 233.3333 21000 0.7846 5626480
0.1694 235.5556 21200 0.8497 5680080
0.0431 237.7778 21400 0.6676 5733584
0.0715 240.0 21600 0.8413 5787248
0.1007 242.2222 21800 0.9957 5840896
0.0039 244.4444 22000 1.1651 5894480
0.0379 246.6667 22200 0.9652 5948128
0.0226 248.8889 22400 1.2573 6001664
0.0251 251.1111 22600 1.2634 6055168
0.0215 253.3333 22800 1.1883 6108640
0.1272 255.5556 23000 0.4755 6162224
0.0922 257.7778 23200 0.6402 6215760
0.0246 260.0 23400 0.7849 6269472
0.0034 262.2222 23600 1.0948 6323056
0.0287 264.4444 23800 1.1641 6376544
0.0341 266.6667 24000 1.3936 6430112
0.0136 268.8889 24200 0.7743 6483760
0.0013 271.1111 24400 1.0691 6537312
0.0237 273.3333 24600 1.3292 6590736
0.0002 275.5556 24800 1.5082 6644544
0.1302 277.7778 25000 1.2710 6697952
0.0221 280.0 25200 1.0506 6751696
0.113 282.2222 25400 0.7922 6805232
0.017 284.4444 25600 1.1128 6858992
0.0076 286.6667 25800 1.2544 6912336
0.0103 288.8889 26000 1.3158 6966000
0.0001 291.1111 26200 1.4079 7019648
0.0007 293.3333 26400 1.4288 7073328
0.0001 295.5556 26600 1.4787 7126848
0.0076 297.7778 26800 0.9634 7180368
0.0134 300.0 27000 1.2281 7233952
0.005 302.2222 27200 1.4003 7287584
0.0003 304.4444 27400 1.4633 7341280
0.0001 306.6667 27600 1.5582 7394736
0.0001 308.8889 27800 1.6205 7448256
0.0004 311.1111 28000 1.6584 7501952
0.0001 313.3333 28200 1.7353 7555536
0.0002 315.5556 28400 1.8501 7608976
0.0001 317.7778 28600 1.8763 7662624
0.0138 320.0 28800 1.9015 7716176
0.0 322.2222 29000 1.9122 7769696
0.0 324.4444 29200 1.9175 7823248
0.0001 326.6667 29400 1.9460 7876800
0.0001 328.8889 29600 1.9600 7930352
0.0 331.1111 29800 1.9467 7984000
0.0 333.3333 30000 1.9529 8037664
0.0 335.5556 30200 1.9314 8091056
0.0 337.7778 30400 2.1102 8144624
0.0 340.0 30600 2.0891 8198256
0.0 342.2222 30800 2.0720 8251856
0.0 344.4444 31000 2.0576 8305456
0.0176 346.6667 31200 0.9734 8359104
0.0014 348.8889 31400 1.0325 8412784
0.0003 351.1111 31600 1.0855 8466240
0.0004 353.3333 31800 1.1351 8520000
0.0003 355.5556 32000 1.1786 8573472
0.0003 357.7778 32200 1.2081 8627184
0.0003 360.0 32400 1.2506 8680880
0.0118 362.2222 32600 1.2723 8734512
0.0116 364.4444 32800 1.3051 8788064
0.0001 366.6667 33000 1.3267 8841744
0.0002 368.8889 33200 1.3561 8895200
0.0001 371.1111 33400 1.3673 8948880
0.0013 373.3333 33600 1.3877 9002400
0.0001 375.5556 33800 1.4017 9056032
0.0002 377.7778 34000 1.3951 9109600
0.0001 380.0 34200 1.4249 9163168
0.0 382.2222 34400 1.4399 9216832
0.0 384.4444 34600 1.4488 9270352
0.0002 386.6667 34800 1.4613 9324080
0.0001 388.8889 35000 1.4722 9377712
0.0 391.1111 35200 1.4799 9431360
0.0028 393.3333 35400 1.4939 9484880
0.0001 395.5556 35600 1.5077 9538464
0.0001 397.7778 35800 1.5119 9592208
0.0001 400.0 36000 1.5098 9645776
0.0001 402.2222 36200 1.5306 9699488
0.0 404.4444 36400 1.5415 9753088
0.0001 406.6667 36600 1.5382 9806544
0.0 408.8889 36800 1.5462 9859984
0.0 411.1111 37000 1.5521 9913568
0.0001 413.3333 37200 1.5459 9967168
0.0 415.5556 37400 1.5531 10020864
0.0 417.7778 37600 1.5643 10074384
0.0 420.0 37800 1.5652 10127968
0.0001 422.2222 38000 1.5795 10181584
0.0001 424.4444 38200 1.5809 10235168
0.0 426.6667 38400 1.5704 10288720
0.0 428.8889 38600 1.5868 10342320
0.0 431.1111 38800 1.5873 10395824
0.0 433.3333 39000 1.5879 10449408
0.0 435.5556 39200 1.5796 10503040
0.0 437.7778 39400 1.5760 10556640
0.0003 440.0 39600 1.5783 10610256
0.0 442.2222 39800 1.5844 10663840
0.0001 444.4444 40000 1.5843 10717440

Framework versions

  • PEFT 0.15.2.dev0
  • Transformers 4.51.3
  • Pytorch 2.6.0+cu124
  • Datasets 3.5.0
  • Tokenizers 0.21.1
Downloads last month
1
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rbelanec/train_copa_1745950326

Adapter
(2100)
this model

Evaluation results