irodkin commited on
Commit
f24d4d2
·
verified ·
1 Parent(s): 7d9a4bb

Training checkpoint at step 10000

Browse files
Files changed (1) hide show
  1. trainer_state.json +365 -5
trainer_state.json CHANGED
@@ -1,10 +1,10 @@
1
  {
2
- "best_global_step": 9000,
3
- "best_metric": 2.410008430480957,
4
  "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_21/checkpoint-9000",
5
- "epoch": 0.18,
6
  "eval_steps": 100,
7
- "global_step": 9000,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
@@ -3248,6 +3248,366 @@
3248
  "eval_samples_per_second": 3.168,
3249
  "eval_steps_per_second": 1.584,
3250
  "step": 9000
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3251
  }
3252
  ],
3253
  "logging_steps": 25,
@@ -3267,7 +3627,7 @@
3267
  "attributes": {}
3268
  }
3269
  },
3270
- "total_flos": 2.8648820684944835e+19,
3271
  "train_batch_size": 1,
3272
  "trial_name": null,
3273
  "trial_params": null
 
1
  {
2
+ "best_global_step": 9800,
3
+ "best_metric": 2.4076178073883057,
4
  "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_21/checkpoint-9000",
5
+ "epoch": 0.2,
6
  "eval_steps": 100,
7
+ "global_step": 10000,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
 
3248
  "eval_samples_per_second": 3.168,
3249
  "eval_steps_per_second": 1.584,
3250
  "step": 9000
3251
+ },
3252
+ {
3253
+ "epoch": 0.1805,
3254
+ "grad_norm": 0.5908878679870805,
3255
+ "learning_rate": 9.105777777777779e-06,
3256
+ "loss": 2.3938,
3257
+ "step": 9025
3258
+ },
3259
+ {
3260
+ "epoch": 0.181,
3261
+ "grad_norm": 0.5496267273049,
3262
+ "learning_rate": 9.100222222222223e-06,
3263
+ "loss": 2.3961,
3264
+ "step": 9050
3265
+ },
3266
+ {
3267
+ "epoch": 0.1815,
3268
+ "grad_norm": 0.5979695738071065,
3269
+ "learning_rate": 9.094666666666668e-06,
3270
+ "loss": 2.3858,
3271
+ "step": 9075
3272
+ },
3273
+ {
3274
+ "epoch": 0.182,
3275
+ "grad_norm": 0.5938166893318079,
3276
+ "learning_rate": 9.089111111111111e-06,
3277
+ "loss": 2.3862,
3278
+ "step": 9100
3279
+ },
3280
+ {
3281
+ "epoch": 0.182,
3282
+ "eval_loss": 2.410053253173828,
3283
+ "eval_runtime": 32.2577,
3284
+ "eval_samples_per_second": 3.162,
3285
+ "eval_steps_per_second": 1.581,
3286
+ "step": 9100
3287
+ },
3288
+ {
3289
+ "epoch": 0.1825,
3290
+ "grad_norm": 0.5958942390294701,
3291
+ "learning_rate": 9.083555555555557e-06,
3292
+ "loss": 2.3928,
3293
+ "step": 9125
3294
+ },
3295
+ {
3296
+ "epoch": 0.183,
3297
+ "grad_norm": 0.5859164810125311,
3298
+ "learning_rate": 9.078000000000002e-06,
3299
+ "loss": 2.4022,
3300
+ "step": 9150
3301
+ },
3302
+ {
3303
+ "epoch": 0.1835,
3304
+ "grad_norm": 0.5798241289951321,
3305
+ "learning_rate": 9.072444444444445e-06,
3306
+ "loss": 2.3928,
3307
+ "step": 9175
3308
+ },
3309
+ {
3310
+ "epoch": 0.184,
3311
+ "grad_norm": 0.5882407091400851,
3312
+ "learning_rate": 9.066888888888889e-06,
3313
+ "loss": 2.3973,
3314
+ "step": 9200
3315
+ },
3316
+ {
3317
+ "epoch": 0.184,
3318
+ "eval_loss": 2.409634590148926,
3319
+ "eval_runtime": 32.249,
3320
+ "eval_samples_per_second": 3.163,
3321
+ "eval_steps_per_second": 1.581,
3322
+ "step": 9200
3323
+ },
3324
+ {
3325
+ "epoch": 0.1845,
3326
+ "grad_norm": 0.5903772748051019,
3327
+ "learning_rate": 9.061333333333334e-06,
3328
+ "loss": 2.3831,
3329
+ "step": 9225
3330
+ },
3331
+ {
3332
+ "epoch": 0.185,
3333
+ "grad_norm": 0.6211646089814673,
3334
+ "learning_rate": 9.05577777777778e-06,
3335
+ "loss": 2.3983,
3336
+ "step": 9250
3337
+ },
3338
+ {
3339
+ "epoch": 0.1855,
3340
+ "grad_norm": 0.6172378815389531,
3341
+ "learning_rate": 9.050222222222223e-06,
3342
+ "loss": 2.3961,
3343
+ "step": 9275
3344
+ },
3345
+ {
3346
+ "epoch": 0.186,
3347
+ "grad_norm": 0.6117693503941964,
3348
+ "learning_rate": 9.044666666666667e-06,
3349
+ "loss": 2.3991,
3350
+ "step": 9300
3351
+ },
3352
+ {
3353
+ "epoch": 0.186,
3354
+ "eval_loss": 2.4100780487060547,
3355
+ "eval_runtime": 31.6698,
3356
+ "eval_samples_per_second": 3.221,
3357
+ "eval_steps_per_second": 1.61,
3358
+ "step": 9300
3359
+ },
3360
+ {
3361
+ "epoch": 0.1865,
3362
+ "grad_norm": 0.5955035334939845,
3363
+ "learning_rate": 9.039111111111112e-06,
3364
+ "loss": 2.4013,
3365
+ "step": 9325
3366
+ },
3367
+ {
3368
+ "epoch": 0.187,
3369
+ "grad_norm": 0.6304889803867978,
3370
+ "learning_rate": 9.033555555555557e-06,
3371
+ "loss": 2.4045,
3372
+ "step": 9350
3373
+ },
3374
+ {
3375
+ "epoch": 0.1875,
3376
+ "grad_norm": 0.5650857479280212,
3377
+ "learning_rate": 9.028e-06,
3378
+ "loss": 2.3993,
3379
+ "step": 9375
3380
+ },
3381
+ {
3382
+ "epoch": 0.188,
3383
+ "grad_norm": 0.6102368092141387,
3384
+ "learning_rate": 9.022444444444444e-06,
3385
+ "loss": 2.3969,
3386
+ "step": 9400
3387
+ },
3388
+ {
3389
+ "epoch": 0.188,
3390
+ "eval_loss": 2.4091312885284424,
3391
+ "eval_runtime": 31.7427,
3392
+ "eval_samples_per_second": 3.213,
3393
+ "eval_steps_per_second": 1.607,
3394
+ "step": 9400
3395
+ },
3396
+ {
3397
+ "epoch": 0.1885,
3398
+ "grad_norm": 0.5647006274355659,
3399
+ "learning_rate": 9.01688888888889e-06,
3400
+ "loss": 2.3962,
3401
+ "step": 9425
3402
+ },
3403
+ {
3404
+ "epoch": 0.189,
3405
+ "grad_norm": 0.639478683787589,
3406
+ "learning_rate": 9.011333333333335e-06,
3407
+ "loss": 2.3957,
3408
+ "step": 9450
3409
+ },
3410
+ {
3411
+ "epoch": 0.1895,
3412
+ "grad_norm": 0.5788568545073746,
3413
+ "learning_rate": 9.005777777777778e-06,
3414
+ "loss": 2.3914,
3415
+ "step": 9475
3416
+ },
3417
+ {
3418
+ "epoch": 0.19,
3419
+ "grad_norm": 0.7290164754099147,
3420
+ "learning_rate": 9.000222222222222e-06,
3421
+ "loss": 2.386,
3422
+ "step": 9500
3423
+ },
3424
+ {
3425
+ "epoch": 0.19,
3426
+ "eval_loss": 2.4086694717407227,
3427
+ "eval_runtime": 31.8061,
3428
+ "eval_samples_per_second": 3.207,
3429
+ "eval_steps_per_second": 1.603,
3430
+ "step": 9500
3431
+ },
3432
+ {
3433
+ "epoch": 0.1905,
3434
+ "grad_norm": 0.5817637514180484,
3435
+ "learning_rate": 8.994666666666667e-06,
3436
+ "loss": 2.4006,
3437
+ "step": 9525
3438
+ },
3439
+ {
3440
+ "epoch": 0.191,
3441
+ "grad_norm": 0.5697879107784812,
3442
+ "learning_rate": 8.989111111111112e-06,
3443
+ "loss": 2.3899,
3444
+ "step": 9550
3445
+ },
3446
+ {
3447
+ "epoch": 0.1915,
3448
+ "grad_norm": 0.584610269954786,
3449
+ "learning_rate": 8.983555555555556e-06,
3450
+ "loss": 2.3944,
3451
+ "step": 9575
3452
+ },
3453
+ {
3454
+ "epoch": 0.192,
3455
+ "grad_norm": 0.608795413325502,
3456
+ "learning_rate": 8.978000000000001e-06,
3457
+ "loss": 2.398,
3458
+ "step": 9600
3459
+ },
3460
+ {
3461
+ "epoch": 0.192,
3462
+ "eval_loss": 2.408263683319092,
3463
+ "eval_runtime": 31.6859,
3464
+ "eval_samples_per_second": 3.219,
3465
+ "eval_steps_per_second": 1.61,
3466
+ "step": 9600
3467
+ },
3468
+ {
3469
+ "epoch": 0.1925,
3470
+ "grad_norm": 0.5915130204472873,
3471
+ "learning_rate": 8.972444444444445e-06,
3472
+ "loss": 2.407,
3473
+ "step": 9625
3474
+ },
3475
+ {
3476
+ "epoch": 0.193,
3477
+ "grad_norm": 0.59521034646126,
3478
+ "learning_rate": 8.96688888888889e-06,
3479
+ "loss": 2.3924,
3480
+ "step": 9650
3481
+ },
3482
+ {
3483
+ "epoch": 0.1935,
3484
+ "grad_norm": 0.6050238690396914,
3485
+ "learning_rate": 8.961333333333333e-06,
3486
+ "loss": 2.3869,
3487
+ "step": 9675
3488
+ },
3489
+ {
3490
+ "epoch": 0.194,
3491
+ "grad_norm": 0.5691067223521449,
3492
+ "learning_rate": 8.955777777777779e-06,
3493
+ "loss": 2.3874,
3494
+ "step": 9700
3495
+ },
3496
+ {
3497
+ "epoch": 0.194,
3498
+ "eval_loss": 2.408264398574829,
3499
+ "eval_runtime": 31.8579,
3500
+ "eval_samples_per_second": 3.202,
3501
+ "eval_steps_per_second": 1.601,
3502
+ "step": 9700
3503
+ },
3504
+ {
3505
+ "epoch": 0.1945,
3506
+ "grad_norm": 0.5753054034666798,
3507
+ "learning_rate": 8.950222222222224e-06,
3508
+ "loss": 2.4027,
3509
+ "step": 9725
3510
+ },
3511
+ {
3512
+ "epoch": 0.195,
3513
+ "grad_norm": 0.5864767839913545,
3514
+ "learning_rate": 8.944666666666668e-06,
3515
+ "loss": 2.3924,
3516
+ "step": 9750
3517
+ },
3518
+ {
3519
+ "epoch": 0.1955,
3520
+ "grad_norm": 0.6642807256080032,
3521
+ "learning_rate": 8.939111111111111e-06,
3522
+ "loss": 2.3709,
3523
+ "step": 9775
3524
+ },
3525
+ {
3526
+ "epoch": 0.196,
3527
+ "grad_norm": 0.6084139101409156,
3528
+ "learning_rate": 8.933555555555556e-06,
3529
+ "loss": 2.3958,
3530
+ "step": 9800
3531
+ },
3532
+ {
3533
+ "epoch": 0.196,
3534
+ "eval_loss": 2.4076178073883057,
3535
+ "eval_runtime": 31.7733,
3536
+ "eval_samples_per_second": 3.21,
3537
+ "eval_steps_per_second": 1.605,
3538
+ "step": 9800
3539
+ },
3540
+ {
3541
+ "epoch": 0.1965,
3542
+ "grad_norm": 0.592206064244208,
3543
+ "learning_rate": 8.928000000000002e-06,
3544
+ "loss": 2.3922,
3545
+ "step": 9825
3546
+ },
3547
+ {
3548
+ "epoch": 0.197,
3549
+ "grad_norm": 0.5685236067589632,
3550
+ "learning_rate": 8.922444444444445e-06,
3551
+ "loss": 2.3908,
3552
+ "step": 9850
3553
+ },
3554
+ {
3555
+ "epoch": 0.1975,
3556
+ "grad_norm": 0.6034821273699428,
3557
+ "learning_rate": 8.916888888888889e-06,
3558
+ "loss": 2.3903,
3559
+ "step": 9875
3560
+ },
3561
+ {
3562
+ "epoch": 0.198,
3563
+ "grad_norm": 0.5910198540350765,
3564
+ "learning_rate": 8.911333333333334e-06,
3565
+ "loss": 2.3767,
3566
+ "step": 9900
3567
+ },
3568
+ {
3569
+ "epoch": 0.198,
3570
+ "eval_loss": 2.407928705215454,
3571
+ "eval_runtime": 31.7033,
3572
+ "eval_samples_per_second": 3.217,
3573
+ "eval_steps_per_second": 1.609,
3574
+ "step": 9900
3575
+ },
3576
+ {
3577
+ "epoch": 0.1985,
3578
+ "grad_norm": 0.5849079897115376,
3579
+ "learning_rate": 8.90577777777778e-06,
3580
+ "loss": 2.3956,
3581
+ "step": 9925
3582
+ },
3583
+ {
3584
+ "epoch": 0.199,
3585
+ "grad_norm": 0.5683901924605945,
3586
+ "learning_rate": 8.900222222222223e-06,
3587
+ "loss": 2.3884,
3588
+ "step": 9950
3589
+ },
3590
+ {
3591
+ "epoch": 0.1995,
3592
+ "grad_norm": 0.6037241225699064,
3593
+ "learning_rate": 8.894666666666666e-06,
3594
+ "loss": 2.3934,
3595
+ "step": 9975
3596
+ },
3597
+ {
3598
+ "epoch": 0.2,
3599
+ "grad_norm": 0.5807810374364664,
3600
+ "learning_rate": 8.889111111111112e-06,
3601
+ "loss": 2.3999,
3602
+ "step": 10000
3603
+ },
3604
+ {
3605
+ "epoch": 0.2,
3606
+ "eval_loss": 2.40779447555542,
3607
+ "eval_runtime": 31.7288,
3608
+ "eval_samples_per_second": 3.215,
3609
+ "eval_steps_per_second": 1.607,
3610
+ "step": 10000
3611
  }
3612
  ],
3613
  "logging_steps": 25,
 
3627
  "attributes": {}
3628
  }
3629
  },
3630
+ "total_flos": 3.183202298327204e+19,
3631
  "train_batch_size": 1,
3632
  "trial_name": null,
3633
  "trial_params": null