Training in progress, epoch 58, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +860 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:daf6a721ebf3a96f2b514a2cb1ed1307852739082e350442f1ff9b0bc1203cc8
 size 13132

 version https://git-lfs.github.com/spec/v1
+oid sha256:593f45feb57b6cf6b72deb4c2b645da0e09ef0560bb117ead2f8e48a01ba523c
 size 13132

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cb851a217d2d2b9d9d61040b4ea630d41fd2ad1896f1843bb23c2baaf77c21e1
 size 29970

 version https://git-lfs.github.com/spec/v1
+oid sha256:a83b182f0c5a15cc7cc60e05979466978862b18bd2943c1c557801b2452f1335
 size 29970

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2b66e3cc7c452b707ddac5caf0aa17618afb9bc1a0333600a22c4afb353f3165
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:1d6dbaea400350134c87609f2a6e7d568a19190ab54bccf06fc0c89f270eb6d2
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b15aa4812dcef7f4211bf5dd0a9f6e03dda77ee314ae3cfe7bc5f3ef8d762a87
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5815cf5dbd0e8e9b0a43084f1040b0b93a4a2d0c9a55323787cef2a001436293
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 1,
-  "best_metric": 0.328641802072525,
-  "best_model_checkpoint": "./results/checkpoint-1",
-  "epoch": 1.0,
   "eval_steps": 500,
-  "global_step": 1,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -23,6 +23,861 @@
       "eval_samples_per_second": 644.821,
       "eval_steps_per_second": 128.964,
       "step": 1
     }
   ],
   "logging_steps": 1,

 {
+  "best_global_step": 58,
+  "best_metric": 0.32613325119018555,
+  "best_model_checkpoint": "./results/checkpoint-58",
+  "epoch": 58.0,
   "eval_steps": 500,
+  "global_step": 58,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 644.821,
       "eval_steps_per_second": 128.964,
       "step": 1
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.8384326100349426,
+      "learning_rate": 9.9e-06,
+      "loss": 0.3286,
+      "step": 2
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.3285800814628601,
+      "eval_runtime": 0.0447,
+      "eval_samples_per_second": 223.596,
+      "eval_steps_per_second": 44.719,
+      "step": 2
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 0.8382521867752075,
+      "learning_rate": 9.800000000000001e-06,
+      "loss": 0.3286,
+      "step": 3
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 0.3285190165042877,
+      "eval_runtime": 0.0147,
+      "eval_samples_per_second": 681.358,
+      "eval_steps_per_second": 136.272,
+      "step": 3
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 0.8380736112594604,
+      "learning_rate": 9.7e-06,
+      "loss": 0.3285,
+      "step": 4
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 0.3284585475921631,
+      "eval_runtime": 0.015,
+      "eval_samples_per_second": 664.929,
+      "eval_steps_per_second": 132.986,
+      "step": 4
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.8378969430923462,
+      "learning_rate": 9.600000000000001e-06,
+      "loss": 0.3285,
+      "step": 5
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 0.32839876413345337,
+      "eval_runtime": 0.0146,
+      "eval_samples_per_second": 682.967,
+      "eval_steps_per_second": 136.593,
+      "step": 5
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 0.8377220034599304,
+      "learning_rate": 9.5e-06,
+      "loss": 0.3284,
+      "step": 6
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 0.3283396065235138,
+      "eval_runtime": 0.0171,
+      "eval_samples_per_second": 584.458,
+      "eval_steps_per_second": 116.892,
+      "step": 6
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 0.8375489711761475,
+      "learning_rate": 9.4e-06,
+      "loss": 0.3283,
+      "step": 7
+    },
+    {
+      "epoch": 7.0,
+      "eval_loss": 0.328281044960022,
+      "eval_runtime": 0.0139,
+      "eval_samples_per_second": 719.089,
+      "eval_steps_per_second": 143.818,
+      "step": 7
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 0.8373778462409973,
+      "learning_rate": 9.3e-06,
+      "loss": 0.3283,
+      "step": 8
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 0.3282231390476227,
+      "eval_runtime": 0.0142,
+      "eval_samples_per_second": 705.138,
+      "eval_steps_per_second": 141.028,
+      "step": 8
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 0.8372084498405457,
+      "learning_rate": 9.200000000000002e-06,
+      "loss": 0.3282,
+      "step": 9
+    },
+    {
+      "epoch": 9.0,
+      "eval_loss": 0.32816585898399353,
+      "eval_runtime": 0.0144,
+      "eval_samples_per_second": 695.135,
+      "eval_steps_per_second": 139.027,
+      "step": 9
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 0.837040901184082,
+      "learning_rate": 9.100000000000001e-06,
+      "loss": 0.3282,
+      "step": 10
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 0.328109472990036,
+      "eval_runtime": 0.0164,
+      "eval_samples_per_second": 609.921,
+      "eval_steps_per_second": 121.984,
+      "step": 10
+    },
+    {
+      "epoch": 11.0,
+      "grad_norm": 0.8362537622451782,
+      "learning_rate": 9e-06,
+      "loss": 0.3281,
+      "step": 11
+    },
+    {
+      "epoch": 11.0,
+      "eval_loss": 0.3280538320541382,
+      "eval_runtime": 0.0139,
+      "eval_samples_per_second": 720.72,
+      "eval_steps_per_second": 144.144,
+      "step": 11
+    },
+    {
+      "epoch": 12.0,
+      "grad_norm": 0.8360907435417175,
+      "learning_rate": 8.900000000000001e-06,
+      "loss": 0.3281,
+      "step": 12
+    },
+    {
+      "epoch": 12.0,
+      "eval_loss": 0.3279987871646881,
+      "eval_runtime": 0.0164,
+      "eval_samples_per_second": 611.219,
+      "eval_steps_per_second": 122.244,
+      "step": 12
+    },
+    {
+      "epoch": 13.0,
+      "grad_norm": 0.8359295129776001,
+      "learning_rate": 8.8e-06,
+      "loss": 0.328,
+      "step": 13
+    },
+    {
+      "epoch": 13.0,
+      "eval_loss": 0.32794439792633057,
+      "eval_runtime": 0.0145,
+      "eval_samples_per_second": 689.977,
+      "eval_steps_per_second": 137.995,
+      "step": 13
+    },
+    {
+      "epoch": 14.0,
+      "grad_norm": 0.8357701301574707,
+      "learning_rate": 8.700000000000001e-06,
+      "loss": 0.3279,
+      "step": 14
+    },
+    {
+      "epoch": 14.0,
+      "eval_loss": 0.3278906047344208,
+      "eval_runtime": 0.0146,
+      "eval_samples_per_second": 686.398,
+      "eval_steps_per_second": 137.28,
+      "step": 14
+    },
+    {
+      "epoch": 15.0,
+      "grad_norm": 0.8356127142906189,
+      "learning_rate": 8.6e-06,
+      "loss": 0.3279,
+      "step": 15
+    },
+    {
+      "epoch": 15.0,
+      "eval_loss": 0.3278374969959259,
+      "eval_runtime": 0.0164,
+      "eval_samples_per_second": 610.347,
+      "eval_steps_per_second": 122.069,
+      "step": 15
+    },
+    {
+      "epoch": 16.0,
+      "grad_norm": 0.8354570269584656,
+      "learning_rate": 8.5e-06,
+      "loss": 0.3278,
+      "step": 16
+    },
+    {
+      "epoch": 16.0,
+      "eval_loss": 0.3277849853038788,
+      "eval_runtime": 0.0141,
+      "eval_samples_per_second": 708.402,
+      "eval_steps_per_second": 141.68,
+      "step": 16
+    },
+    {
+      "epoch": 17.0,
+      "grad_norm": 0.8353032469749451,
+      "learning_rate": 8.400000000000001e-06,
+      "loss": 0.3278,
+      "step": 17
+    },
+    {
+      "epoch": 17.0,
+      "eval_loss": 0.3277330994606018,
+      "eval_runtime": 0.0172,
+      "eval_samples_per_second": 581.516,
+      "eval_steps_per_second": 116.303,
+      "step": 17
+    },
+    {
+      "epoch": 18.0,
+      "grad_norm": 0.8351512551307678,
+      "learning_rate": 8.3e-06,
+      "loss": 0.3277,
+      "step": 18
+    },
+    {
+      "epoch": 18.0,
+      "eval_loss": 0.32768189907073975,
+      "eval_runtime": 0.0189,
+      "eval_samples_per_second": 529.918,
+      "eval_steps_per_second": 105.984,
+      "step": 18
+    },
+    {
+      "epoch": 19.0,
+      "grad_norm": 0.8350011706352234,
+      "learning_rate": 8.2e-06,
+      "loss": 0.3277,
+      "step": 19
+    },
+    {
+      "epoch": 19.0,
+      "eval_loss": 0.3276313245296478,
+      "eval_runtime": 0.0147,
+      "eval_samples_per_second": 679.691,
+      "eval_steps_per_second": 135.938,
+      "step": 19
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 0.8348528742790222,
+      "learning_rate": 8.1e-06,
+      "loss": 0.3276,
+      "step": 20
+    },
+    {
+      "epoch": 20.0,
+      "eval_loss": 0.32758134603500366,
+      "eval_runtime": 0.0141,
+      "eval_samples_per_second": 707.672,
+      "eval_steps_per_second": 141.534,
+      "step": 20
+    },
+    {
+      "epoch": 21.0,
+      "grad_norm": 0.8347064852714539,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.3276,
+      "step": 21
+    },
+    {
+      "epoch": 21.0,
+      "eval_loss": 0.32753199338912964,
+      "eval_runtime": 0.0192,
+      "eval_samples_per_second": 522.167,
+      "eval_steps_per_second": 104.433,
+      "step": 21
+    },
+    {
+      "epoch": 22.0,
+      "grad_norm": 0.834561824798584,
+      "learning_rate": 7.9e-06,
+      "loss": 0.3275,
+      "step": 22
+    },
+    {
+      "epoch": 22.0,
+      "eval_loss": 0.3274833559989929,
+      "eval_runtime": 0.0135,
+      "eval_samples_per_second": 738.109,
+      "eval_steps_per_second": 147.622,
+      "step": 22
+    },
+    {
+      "epoch": 23.0,
+      "grad_norm": 0.8344190716743469,
+      "learning_rate": 7.800000000000002e-06,
+      "loss": 0.3275,
+      "step": 23
+    },
+    {
+      "epoch": 23.0,
+      "eval_loss": 0.3274352252483368,
+      "eval_runtime": 0.0144,
+      "eval_samples_per_second": 694.812,
+      "eval_steps_per_second": 138.962,
+      "step": 23
+    },
+    {
+      "epoch": 24.0,
+      "grad_norm": 0.8342781662940979,
+      "learning_rate": 7.7e-06,
+      "loss": 0.3274,
+      "step": 24
+    },
+    {
+      "epoch": 24.0,
+      "eval_loss": 0.32738780975341797,
+      "eval_runtime": 0.0141,
+      "eval_samples_per_second": 710.779,
+      "eval_steps_per_second": 142.156,
+      "step": 24
+    },
+    {
+      "epoch": 25.0,
+      "grad_norm": 0.8341390490531921,
+      "learning_rate": 7.600000000000001e-06,
+      "loss": 0.3274,
+      "step": 25
+    },
+    {
+      "epoch": 25.0,
+      "eval_loss": 0.3273409605026245,
+      "eval_runtime": 0.0141,
+      "eval_samples_per_second": 709.072,
+      "eval_steps_per_second": 141.814,
+      "step": 25
+    },
+    {
+      "epoch": 26.0,
+      "grad_norm": 0.8340017795562744,
+      "learning_rate": 7.500000000000001e-06,
+      "loss": 0.3273,
+      "step": 26
+    },
+    {
+      "epoch": 26.0,
+      "eval_loss": 0.32729482650756836,
+      "eval_runtime": 0.0158,
+      "eval_samples_per_second": 634.194,
+      "eval_steps_per_second": 126.839,
+      "step": 26
+    },
+    {
+      "epoch": 27.0,
+      "grad_norm": 0.8338663578033447,
+      "learning_rate": 7.4e-06,
+      "loss": 0.3273,
+      "step": 27
+    },
+    {
+      "epoch": 27.0,
+      "eval_loss": 0.3272492289543152,
+      "eval_runtime": 0.0137,
+      "eval_samples_per_second": 729.495,
+      "eval_steps_per_second": 145.899,
+      "step": 27
+    },
+    {
+      "epoch": 28.0,
+      "grad_norm": 0.8337326645851135,
+      "learning_rate": 7.3e-06,
+      "loss": 0.3272,
+      "step": 28
+    },
+    {
+      "epoch": 28.0,
+      "eval_loss": 0.32720428705215454,
+      "eval_runtime": 0.0156,
+      "eval_samples_per_second": 639.834,
+      "eval_steps_per_second": 127.967,
+      "step": 28
+    },
+    {
+      "epoch": 29.0,
+      "grad_norm": 0.8336009383201599,
+      "learning_rate": 7.2000000000000005e-06,
+      "loss": 0.3272,
+      "step": 29
+    },
+    {
+      "epoch": 29.0,
+      "eval_loss": 0.32715997099876404,
+      "eval_runtime": 0.0135,
+      "eval_samples_per_second": 741.24,
+      "eval_steps_per_second": 148.248,
+      "step": 29
+    },
+    {
+      "epoch": 30.0,
+      "grad_norm": 0.8334709405899048,
+      "learning_rate": 7.100000000000001e-06,
+      "loss": 0.3272,
+      "step": 30
+    },
+    {
+      "epoch": 30.0,
+      "eval_loss": 0.3271161913871765,
+      "eval_runtime": 0.0157,
+      "eval_samples_per_second": 638.908,
+      "eval_steps_per_second": 127.782,
+      "step": 30
+    },
+    {
+      "epoch": 31.0,
+      "grad_norm": 0.834907054901123,
+      "learning_rate": 7e-06,
+      "loss": 0.3271,
+      "step": 31
+    },
+    {
+      "epoch": 31.0,
+      "eval_loss": 0.32707276940345764,
+      "eval_runtime": 0.0147,
+      "eval_samples_per_second": 678.679,
+      "eval_steps_per_second": 135.736,
+      "step": 31
+    },
+    {
+      "epoch": 32.0,
+      "grad_norm": 0.8347804546356201,
+      "learning_rate": 6.9e-06,
+      "loss": 0.3271,
+      "step": 32
+    },
+    {
+      "epoch": 32.0,
+      "eval_loss": 0.32702988386154175,
+      "eval_runtime": 0.0137,
+      "eval_samples_per_second": 731.48,
+      "eval_steps_per_second": 146.296,
+      "step": 32
+    },
+    {
+      "epoch": 33.0,
+      "grad_norm": 0.8346555829048157,
+      "learning_rate": 6.800000000000001e-06,
+      "loss": 0.327,
+      "step": 33
+    },
+    {
+      "epoch": 33.0,
+      "eval_loss": 0.326987624168396,
+      "eval_runtime": 0.0154,
+      "eval_samples_per_second": 647.809,
+      "eval_steps_per_second": 129.562,
+      "step": 33
+    },
+    {
+      "epoch": 34.0,
+      "grad_norm": 0.8345323801040649,
+      "learning_rate": 6.700000000000001e-06,
+      "loss": 0.327,
+      "step": 34
+    },
+    {
+      "epoch": 34.0,
+      "eval_loss": 0.326945960521698,
+      "eval_runtime": 0.015,
+      "eval_samples_per_second": 668.532,
+      "eval_steps_per_second": 133.706,
+      "step": 34
+    },
+    {
+      "epoch": 35.0,
+      "grad_norm": 0.8344109654426575,
+      "learning_rate": 6.600000000000001e-06,
+      "loss": 0.3269,
+      "step": 35
+    },
+    {
+      "epoch": 35.0,
+      "eval_loss": 0.32690495252609253,
+      "eval_runtime": 0.0141,
+      "eval_samples_per_second": 711.152,
+      "eval_steps_per_second": 142.23,
+      "step": 35
+    },
+    {
+      "epoch": 36.0,
+      "grad_norm": 0.8342913389205933,
+      "learning_rate": 6.5000000000000004e-06,
+      "loss": 0.3269,
+      "step": 36
+    },
+    {
+      "epoch": 36.0,
+      "eval_loss": 0.3268645405769348,
+      "eval_runtime": 0.0148,
+      "eval_samples_per_second": 676.653,
+      "eval_steps_per_second": 135.331,
+      "step": 36
+    },
+    {
+      "epoch": 37.0,
+      "grad_norm": 0.8341735005378723,
+      "learning_rate": 6.4000000000000006e-06,
+      "loss": 0.3269,
+      "step": 37
+    },
+    {
+      "epoch": 37.0,
+      "eval_loss": 0.32682472467422485,
+      "eval_runtime": 0.0184,
+      "eval_samples_per_second": 544.856,
+      "eval_steps_per_second": 108.971,
+      "step": 37
+    },
+    {
+      "epoch": 38.0,
+      "grad_norm": 0.8340575098991394,
+      "learning_rate": 6.300000000000001e-06,
+      "loss": 0.3268,
+      "step": 38
+    },
+    {
+      "epoch": 38.0,
+      "eval_loss": 0.32678553462028503,
+      "eval_runtime": 0.0135,
+      "eval_samples_per_second": 738.577,
+      "eval_steps_per_second": 147.715,
+      "step": 38
+    },
+    {
+      "epoch": 39.0,
+      "grad_norm": 0.8339433073997498,
+      "learning_rate": 6.200000000000001e-06,
+      "loss": 0.3268,
+      "step": 39
+    },
+    {
+      "epoch": 39.0,
+      "eval_loss": 0.32674694061279297,
+      "eval_runtime": 0.0139,
+      "eval_samples_per_second": 720.337,
+      "eval_steps_per_second": 144.067,
+      "step": 39
+    },
+    {
+      "epoch": 40.0,
+      "grad_norm": 0.8338308334350586,
+      "learning_rate": 6.1e-06,
+      "loss": 0.3267,
+      "step": 40
+    },
+    {
+      "epoch": 40.0,
+      "eval_loss": 0.3267090320587158,
+      "eval_runtime": 0.0146,
+      "eval_samples_per_second": 685.064,
+      "eval_steps_per_second": 137.013,
+      "step": 40
+    },
+    {
+      "epoch": 41.0,
+      "grad_norm": 0.8337202668190002,
+      "learning_rate": 6e-06,
+      "loss": 0.3267,
+      "step": 41
+    },
+    {
+      "epoch": 41.0,
+      "eval_loss": 0.32667168974876404,
+      "eval_runtime": 0.0137,
+      "eval_samples_per_second": 729.584,
+      "eval_steps_per_second": 145.917,
+      "step": 41
+    },
+    {
+      "epoch": 42.0,
+      "grad_norm": 0.8336114883422852,
+      "learning_rate": 5.9e-06,
+      "loss": 0.3267,
+      "step": 42
+    },
+    {
+      "epoch": 42.0,
+      "eval_loss": 0.32663506269454956,
+      "eval_runtime": 0.0139,
+      "eval_samples_per_second": 721.154,
+      "eval_steps_per_second": 144.231,
+      "step": 42
+    },
+    {
+      "epoch": 43.0,
+      "grad_norm": 0.8335044384002686,
+      "learning_rate": 5.8e-06,
+      "loss": 0.3266,
+      "step": 43
+    },
+    {
+      "epoch": 43.0,
+      "eval_loss": 0.32659897208213806,
+      "eval_runtime": 0.0163,
+      "eval_samples_per_second": 613.75,
+      "eval_steps_per_second": 122.75,
+      "step": 43
+    },
+    {
+      "epoch": 44.0,
+      "grad_norm": 0.8333994150161743,
+      "learning_rate": 5.7e-06,
+      "loss": 0.3266,
+      "step": 44
+    },
+    {
+      "epoch": 44.0,
+      "eval_loss": 0.3265635371208191,
+      "eval_runtime": 0.0137,
+      "eval_samples_per_second": 730.842,
+      "eval_steps_per_second": 146.168,
+      "step": 44
+    },
+    {
+      "epoch": 45.0,
+      "grad_norm": 0.8332960605621338,
+      "learning_rate": 5.600000000000001e-06,
+      "loss": 0.3266,
+      "step": 45
+    },
+    {
+      "epoch": 45.0,
+      "eval_loss": 0.32652872800827026,
+      "eval_runtime": 0.015,
+      "eval_samples_per_second": 667.819,
+      "eval_steps_per_second": 133.564,
+      "step": 45
+    },
+    {
+      "epoch": 46.0,
+      "grad_norm": 0.8331945538520813,
+      "learning_rate": 5.500000000000001e-06,
+      "loss": 0.3265,
+      "step": 46
+    },
+    {
+      "epoch": 46.0,
+      "eval_loss": 0.3264945149421692,
+      "eval_runtime": 0.0148,
+      "eval_samples_per_second": 674.141,
+      "eval_steps_per_second": 134.828,
+      "step": 46
+    },
+    {
+      "epoch": 47.0,
+      "grad_norm": 0.8330948948860168,
+      "learning_rate": 5.400000000000001e-06,
+      "loss": 0.3265,
+      "step": 47
+    },
+    {
+      "epoch": 47.0,
+      "eval_loss": 0.32646098732948303,
+      "eval_runtime": 0.0147,
+      "eval_samples_per_second": 678.086,
+      "eval_steps_per_second": 135.617,
+      "step": 47
+    },
+    {
+      "epoch": 48.0,
+      "grad_norm": 0.8329970240592957,
+      "learning_rate": 5.300000000000001e-06,
+      "loss": 0.3265,
+      "step": 48
+    },
+    {
+      "epoch": 48.0,
+      "eval_loss": 0.32642805576324463,
+      "eval_runtime": 0.0151,
+      "eval_samples_per_second": 663.53,
+      "eval_steps_per_second": 132.706,
+      "step": 48
+    },
+    {
+      "epoch": 49.0,
+      "grad_norm": 0.8329010009765625,
+      "learning_rate": 5.2e-06,
+      "loss": 0.3264,
+      "step": 49
+    },
+    {
+      "epoch": 49.0,
+      "eval_loss": 0.32639575004577637,
+      "eval_runtime": 0.0141,
+      "eval_samples_per_second": 707.1,
+      "eval_steps_per_second": 141.42,
+      "step": 49
+    },
+    {
+      "epoch": 50.0,
+      "grad_norm": 0.8328068852424622,
+      "learning_rate": 5.1e-06,
+      "loss": 0.3264,
+      "step": 50
+    },
+    {
+      "epoch": 50.0,
+      "eval_loss": 0.32636409997940063,
+      "eval_runtime": 0.0154,
+      "eval_samples_per_second": 650.905,
+      "eval_steps_per_second": 130.181,
+      "step": 50
+    },
+    {
+      "epoch": 51.0,
+      "grad_norm": 0.8327144384384155,
+      "learning_rate": 5e-06,
+      "loss": 0.3264,
+      "step": 51
+    },
+    {
+      "epoch": 51.0,
+      "eval_loss": 0.3263329863548279,
+      "eval_runtime": 0.0156,
+      "eval_samples_per_second": 639.142,
+      "eval_steps_per_second": 127.828,
+      "step": 51
+    },
+    {
+      "epoch": 52.0,
+      "grad_norm": 0.8326238989830017,
+      "learning_rate": 4.9000000000000005e-06,
+      "loss": 0.3263,
+      "step": 52
+    },
+    {
+      "epoch": 52.0,
+      "eval_loss": 0.32630258798599243,
+      "eval_runtime": 0.0155,
+      "eval_samples_per_second": 645.069,
+      "eval_steps_per_second": 129.014,
+      "step": 52
+    },
+    {
+      "epoch": 53.0,
+      "grad_norm": 0.8325351476669312,
+      "learning_rate": 4.800000000000001e-06,
+      "loss": 0.3263,
+      "step": 53
+    },
+    {
+      "epoch": 53.0,
+      "eval_loss": 0.32627278566360474,
+      "eval_runtime": 0.0138,
+      "eval_samples_per_second": 724.205,
+      "eval_steps_per_second": 144.841,
+      "step": 53
+    },
+    {
+      "epoch": 54.0,
+      "grad_norm": 0.8324483036994934,
+      "learning_rate": 4.7e-06,
+      "loss": 0.3263,
+      "step": 54
+    },
+    {
+      "epoch": 54.0,
+      "eval_loss": 0.32624363899230957,
+      "eval_runtime": 0.0156,
+      "eval_samples_per_second": 642.933,
+      "eval_steps_per_second": 128.587,
+      "step": 54
+    },
+    {
+      "epoch": 55.0,
+      "grad_norm": 0.8323632478713989,
+      "learning_rate": 4.600000000000001e-06,
+      "loss": 0.3262,
+      "step": 55
+    },
+    {
+      "epoch": 55.0,
+      "eval_loss": 0.32621514797210693,
+      "eval_runtime": 0.0137,
+      "eval_samples_per_second": 728.203,
+      "eval_steps_per_second": 145.641,
+      "step": 55
+    },
+    {
+      "epoch": 56.0,
+      "grad_norm": 0.8322799205780029,
+      "learning_rate": 4.5e-06,
+      "loss": 0.3262,
+      "step": 56
+    },
+    {
+      "epoch": 56.0,
+      "eval_loss": 0.3261871933937073,
+      "eval_runtime": 0.0148,
+      "eval_samples_per_second": 674.466,
+      "eval_steps_per_second": 134.893,
+      "step": 56
+    },
+    {
+      "epoch": 57.0,
+      "grad_norm": 0.8321985602378845,
+      "learning_rate": 4.4e-06,
+      "loss": 0.3262,
+      "step": 57
+    },
+    {
+      "epoch": 57.0,
+      "eval_loss": 0.32615989446640015,
+      "eval_runtime": 0.0139,
+      "eval_samples_per_second": 718.24,
+      "eval_steps_per_second": 143.648,
+      "step": 57
+    },
+    {
+      "epoch": 58.0,
+      "grad_norm": 0.8321189880371094,
+      "learning_rate": 4.3e-06,
+      "loss": 0.3262,
+      "step": 58
+    },
+    {
+      "epoch": 58.0,
+      "eval_loss": 0.32613325119018555,
+      "eval_runtime": 0.015,
+      "eval_samples_per_second": 664.865,
+      "eval_steps_per_second": 132.973,
+      "step": 58
     }
   ],
   "logging_steps": 1,