Training in progress, step 4000, checkpoint

Browse files

Files changed (12) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +711 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6a158678a9913c22e822b56e488bc5beae7ec2a0c2aed4dcac0b3f632242ce08
 size 791869518

 version https://git-lfs.github.com/spec/v1
+oid sha256:2bbb7854b2bafc4b0e3606708ae4d48e79f7dae198813843750b86a3309c3ff2
 size 791869518

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f9b4d8078da3a562ec7c1abfe025ead553b88b222214f46c5cace69dac85c305
 size 2375752250

 version https://git-lfs.github.com/spec/v1
+oid sha256:8f4c6b74ce94790e80aeccdcc0c96350cf3007ec072e27d539b8d75b3737cd30
 size 2375752250

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:04cb5208648fd09a2e0403d51973f74ffbfd93cbd5da59e1e99c8df03769a86c
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:e735ed11597ed40a2b6854e0229902e1a21fedc0a0dbc608ca905fae57d5b06b
 size 15984

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7034685b36b93a4dd3a50697b0b1c314b249b2189ec2cb96b757312b1514a579
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:2ba3815fc0953b1b7f08cea092dfc0a62c4bbc2a2c68780d3f4dd0b5e22582a7
 size 15984

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6e851fe1c1de0057f4eecefed6a131fa9021334eb43f6e7e65fdb270a25ac864
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:647ac15563fcad903adbb616e9b2c36b237a3ed5939d088620212da969930f6c
 size 15984

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:978379030048e432baa510ec4fc9514faa08fe564ab964b3a4d05e8f60306495
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:93e3733c5b180986b7efbec17b663bf5231343d187374d184768fcd913797167
 size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bdbc75d90af112615b53d15931e8157a80e37bcd110aac9a3089f5f6f5344171
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:9820ea4fec1b01f3da091290c3e8b5ddb86a3a3fa17285c248b64910c2d0b4f0
 size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c8a310f6ca2ca89570eb2cc68544656b30224f00b2d6d96eeda6e0cb8be50ab
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:7413035def085e41776a629afc94fc24fe5a955f1ad83b32f9b370ab60f9a18d
 size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7c5b8110fcf6e044b6860c6305be969cfe03129549b92dc6fc2394448e9265d6
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:91e3953bcbf4089415abffbd914fbbe4580121f6c843eabbf70624c5ed144814
 size 15984

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6f936acaf5a2d5fe8c38d945450417facbf1577584c216908a396d3cc20bec88
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:369fde7bff4dfc0d6b9cf773cf9b0352696083f84763999e05a631ee6d52c5e3
 size 15984

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:215e4654fd9445711cb9dfea2667862985f77e204a2b8b6ad2d7416e86b834fc
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:10c4704142b6f369cf4bf151e113e45f019dc64e0a7de8f91691f0f749dea2d6
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.809108247124776,
   "eval_steps": 500,
-  "global_step": 3500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4963,6 +4963,714 @@
       "eval_samples_per_second": 1103.838,
       "eval_steps_per_second": 34.498,
       "step": 3500
     }
   ],
   "logging_steps": 5,
@@ -4982,7 +5690,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.5163252974760755e+19,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9246951395711727,
   "eval_steps": 500,
+  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1103.838,
       "eval_steps_per_second": 34.498,
       "step": 3500
+    },
+    {
+      "epoch": 0.81026411604924,
+      "grad_norm": 165.75,
+      "learning_rate": 1.0534429599177801e-06,
+      "loss": 66.3025,
+      "step": 3505
+    },
+    {
+      "epoch": 0.8114199849737039,
+      "grad_norm": 181.625,
+      "learning_rate": 1.0470195272353546e-06,
+      "loss": 65.6947,
+      "step": 3510
+    },
+    {
+      "epoch": 0.812575853898168,
+      "grad_norm": 172.25,
+      "learning_rate": 1.0405960945529292e-06,
+      "loss": 66.646,
+      "step": 3515
+    },
+    {
+      "epoch": 0.813731722822632,
+      "grad_norm": 168.375,
+      "learning_rate": 1.0341726618705036e-06,
+      "loss": 66.0262,
+      "step": 3520
+    },
+    {
+      "epoch": 0.8148875917470959,
+      "grad_norm": 171.625,
+      "learning_rate": 1.0277492291880783e-06,
+      "loss": 67.0085,
+      "step": 3525
+    },
+    {
+      "epoch": 0.8160434606715599,
+      "grad_norm": 174.5,
+      "learning_rate": 1.0213257965056527e-06,
+      "loss": 65.7099,
+      "step": 3530
+    },
+    {
+      "epoch": 0.8171993295960238,
+      "grad_norm": 167.375,
+      "learning_rate": 1.0149023638232273e-06,
+      "loss": 67.0235,
+      "step": 3535
+    },
+    {
+      "epoch": 0.8183551985204878,
+      "grad_norm": 174.625,
+      "learning_rate": 1.0084789311408017e-06,
+      "loss": 66.8565,
+      "step": 3540
+    },
+    {
+      "epoch": 0.8195110674449517,
+      "grad_norm": 165.25,
+      "learning_rate": 1.0020554984583762e-06,
+      "loss": 67.6963,
+      "step": 3545
+    },
+    {
+      "epoch": 0.8206669363694157,
+      "grad_norm": 182.625,
+      "learning_rate": 9.956320657759508e-07,
+      "loss": 66.9619,
+      "step": 3550
+    },
+    {
+      "epoch": 0.8218228052938796,
+      "grad_norm": 173.0,
+      "learning_rate": 9.892086330935252e-07,
+      "loss": 68.0282,
+      "step": 3555
+    },
+    {
+      "epoch": 0.8229786742183436,
+      "grad_norm": 167.625,
+      "learning_rate": 9.827852004110999e-07,
+      "loss": 66.8721,
+      "step": 3560
+    },
+    {
+      "epoch": 0.8241345431428077,
+      "grad_norm": 163.375,
+      "learning_rate": 9.763617677286743e-07,
+      "loss": 64.3104,
+      "step": 3565
+    },
+    {
+      "epoch": 0.8252904120672716,
+      "grad_norm": 173.375,
+      "learning_rate": 9.699383350462487e-07,
+      "loss": 66.3384,
+      "step": 3570
+    },
+    {
+      "epoch": 0.8264462809917356,
+      "grad_norm": 185.625,
+      "learning_rate": 9.635149023638233e-07,
+      "loss": 65.7862,
+      "step": 3575
+    },
+    {
+      "epoch": 0.8276021499161995,
+      "grad_norm": 165.375,
+      "learning_rate": 9.570914696813978e-07,
+      "loss": 66.4101,
+      "step": 3580
+    },
+    {
+      "epoch": 0.8287580188406635,
+      "grad_norm": 169.125,
+      "learning_rate": 9.506680369989724e-07,
+      "loss": 67.1195,
+      "step": 3585
+    },
+    {
+      "epoch": 0.8299138877651274,
+      "grad_norm": 167.25,
+      "learning_rate": 9.442446043165468e-07,
+      "loss": 66.6352,
+      "step": 3590
+    },
+    {
+      "epoch": 0.8310697566895914,
+      "grad_norm": 159.125,
+      "learning_rate": 9.378211716341213e-07,
+      "loss": 66.0377,
+      "step": 3595
+    },
+    {
+      "epoch": 0.8322256256140553,
+      "grad_norm": 189.125,
+      "learning_rate": 9.313977389516958e-07,
+      "loss": 67.3261,
+      "step": 3600
+    },
+    {
+      "epoch": 0.8333814945385193,
+      "grad_norm": 165.375,
+      "learning_rate": 9.249743062692704e-07,
+      "loss": 67.397,
+      "step": 3605
+    },
+    {
+      "epoch": 0.8345373634629834,
+      "grad_norm": 173.375,
+      "learning_rate": 9.185508735868449e-07,
+      "loss": 67.4292,
+      "step": 3610
+    },
+    {
+      "epoch": 0.8356932323874473,
+      "grad_norm": 174.5,
+      "learning_rate": 9.121274409044194e-07,
+      "loss": 66.4497,
+      "step": 3615
+    },
+    {
+      "epoch": 0.8368491013119113,
+      "grad_norm": 163.75,
+      "learning_rate": 9.05704008221994e-07,
+      "loss": 67.061,
+      "step": 3620
+    },
+    {
+      "epoch": 0.8380049702363752,
+      "grad_norm": 169.25,
+      "learning_rate": 8.992805755395684e-07,
+      "loss": 65.7249,
+      "step": 3625
+    },
+    {
+      "epoch": 0.8391608391608392,
+      "grad_norm": 168.5,
+      "learning_rate": 8.928571428571429e-07,
+      "loss": 65.5726,
+      "step": 3630
+    },
+    {
+      "epoch": 0.8403167080853031,
+      "grad_norm": 188.25,
+      "learning_rate": 8.864337101747174e-07,
+      "loss": 67.4626,
+      "step": 3635
+    },
+    {
+      "epoch": 0.8414725770097671,
+      "grad_norm": 181.5,
+      "learning_rate": 8.80010277492292e-07,
+      "loss": 67.5812,
+      "step": 3640
+    },
+    {
+      "epoch": 0.842628445934231,
+      "grad_norm": 180.5,
+      "learning_rate": 8.735868448098665e-07,
+      "loss": 67.5507,
+      "step": 3645
+    },
+    {
+      "epoch": 0.843784314858695,
+      "grad_norm": 178.125,
+      "learning_rate": 8.67163412127441e-07,
+      "loss": 65.7228,
+      "step": 3650
+    },
+    {
+      "epoch": 0.8449401837831589,
+      "grad_norm": 172.25,
+      "learning_rate": 8.607399794450155e-07,
+      "loss": 65.4235,
+      "step": 3655
+    },
+    {
+      "epoch": 0.846096052707623,
+      "grad_norm": 164.375,
+      "learning_rate": 8.543165467625899e-07,
+      "loss": 66.6319,
+      "step": 3660
+    },
+    {
+      "epoch": 0.847251921632087,
+      "grad_norm": 167.625,
+      "learning_rate": 8.478931140801645e-07,
+      "loss": 65.731,
+      "step": 3665
+    },
+    {
+      "epoch": 0.8484077905565509,
+      "grad_norm": 189.5,
+      "learning_rate": 8.41469681397739e-07,
+      "loss": 66.946,
+      "step": 3670
+    },
+    {
+      "epoch": 0.8495636594810149,
+      "grad_norm": 163.0,
+      "learning_rate": 8.350462487153135e-07,
+      "loss": 66.6999,
+      "step": 3675
+    },
+    {
+      "epoch": 0.8507195284054788,
+      "grad_norm": 167.875,
+      "learning_rate": 8.286228160328881e-07,
+      "loss": 66.8708,
+      "step": 3680
+    },
+    {
+      "epoch": 0.8518753973299428,
+      "grad_norm": 189.125,
+      "learning_rate": 8.221993833504626e-07,
+      "loss": 65.4334,
+      "step": 3685
+    },
+    {
+      "epoch": 0.8530312662544067,
+      "grad_norm": 170.125,
+      "learning_rate": 8.157759506680371e-07,
+      "loss": 66.7173,
+      "step": 3690
+    },
+    {
+      "epoch": 0.8541871351788707,
+      "grad_norm": 177.75,
+      "learning_rate": 8.093525179856115e-07,
+      "loss": 65.8568,
+      "step": 3695
+    },
+    {
+      "epoch": 0.8553430041033346,
+      "grad_norm": 171.125,
+      "learning_rate": 8.029290853031861e-07,
+      "loss": 66.3738,
+      "step": 3700
+    },
+    {
+      "epoch": 0.8564988730277987,
+      "grad_norm": 186.625,
+      "learning_rate": 7.965056526207606e-07,
+      "loss": 66.5799,
+      "step": 3705
+    },
+    {
+      "epoch": 0.8576547419522627,
+      "grad_norm": 166.75,
+      "learning_rate": 7.900822199383351e-07,
+      "loss": 66.2826,
+      "step": 3710
+    },
+    {
+      "epoch": 0.8588106108767266,
+      "grad_norm": 163.25,
+      "learning_rate": 7.836587872559097e-07,
+      "loss": 65.4569,
+      "step": 3715
+    },
+    {
+      "epoch": 0.8599664798011906,
+      "grad_norm": 172.5,
+      "learning_rate": 7.772353545734842e-07,
+      "loss": 66.8164,
+      "step": 3720
+    },
+    {
+      "epoch": 0.8611223487256545,
+      "grad_norm": 172.875,
+      "learning_rate": 7.708119218910587e-07,
+      "loss": 65.8996,
+      "step": 3725
+    },
+    {
+      "epoch": 0.8622782176501185,
+      "grad_norm": 167.625,
+      "learning_rate": 7.643884892086331e-07,
+      "loss": 66.3647,
+      "step": 3730
+    },
+    {
+      "epoch": 0.8634340865745824,
+      "grad_norm": 178.5,
+      "learning_rate": 7.579650565262076e-07,
+      "loss": 66.4823,
+      "step": 3735
+    },
+    {
+      "epoch": 0.8645899554990464,
+      "grad_norm": 171.875,
+      "learning_rate": 7.515416238437822e-07,
+      "loss": 64.8069,
+      "step": 3740
+    },
+    {
+      "epoch": 0.8657458244235103,
+      "grad_norm": 186.0,
+      "learning_rate": 7.451181911613567e-07,
+      "loss": 65.7009,
+      "step": 3745
+    },
+    {
+      "epoch": 0.8669016933479743,
+      "grad_norm": 181.625,
+      "learning_rate": 7.386947584789312e-07,
+      "loss": 67.0425,
+      "step": 3750
+    },
+    {
+      "epoch": 0.8680575622724384,
+      "grad_norm": 177.625,
+      "learning_rate": 7.322713257965057e-07,
+      "loss": 67.3124,
+      "step": 3755
+    },
+    {
+      "epoch": 0.8692134311969023,
+      "grad_norm": 161.75,
+      "learning_rate": 7.258478931140803e-07,
+      "loss": 67.4977,
+      "step": 3760
+    },
+    {
+      "epoch": 0.8703693001213663,
+      "grad_norm": 169.625,
+      "learning_rate": 7.194244604316547e-07,
+      "loss": 66.7436,
+      "step": 3765
+    },
+    {
+      "epoch": 0.8715251690458302,
+      "grad_norm": 174.625,
+      "learning_rate": 7.130010277492292e-07,
+      "loss": 66.0341,
+      "step": 3770
+    },
+    {
+      "epoch": 0.8726810379702942,
+      "grad_norm": 168.625,
+      "learning_rate": 7.065775950668037e-07,
+      "loss": 66.7868,
+      "step": 3775
+    },
+    {
+      "epoch": 0.8738369068947581,
+      "grad_norm": 168.5,
+      "learning_rate": 7.001541623843783e-07,
+      "loss": 66.8334,
+      "step": 3780
+    },
+    {
+      "epoch": 0.8749927758192221,
+      "grad_norm": 172.5,
+      "learning_rate": 6.937307297019528e-07,
+      "loss": 66.601,
+      "step": 3785
+    },
+    {
+      "epoch": 0.876148644743686,
+      "grad_norm": 171.0,
+      "learning_rate": 6.873072970195273e-07,
+      "loss": 66.1991,
+      "step": 3790
+    },
+    {
+      "epoch": 0.87730451366815,
+      "grad_norm": 167.75,
+      "learning_rate": 6.808838643371019e-07,
+      "loss": 66.5028,
+      "step": 3795
+    },
+    {
+      "epoch": 0.878460382592614,
+      "grad_norm": 186.125,
+      "learning_rate": 6.744604316546763e-07,
+      "loss": 67.2106,
+      "step": 3800
+    },
+    {
+      "epoch": 0.879616251517078,
+      "grad_norm": 173.5,
+      "learning_rate": 6.680369989722508e-07,
+      "loss": 65.993,
+      "step": 3805
+    },
+    {
+      "epoch": 0.880772120441542,
+      "grad_norm": 162.75,
+      "learning_rate": 6.616135662898253e-07,
+      "loss": 65.3315,
+      "step": 3810
+    },
+    {
+      "epoch": 0.8819279893660059,
+      "grad_norm": 173.875,
+      "learning_rate": 6.551901336073999e-07,
+      "loss": 66.5064,
+      "step": 3815
+    },
+    {
+      "epoch": 0.8830838582904699,
+      "grad_norm": 170.125,
+      "learning_rate": 6.487667009249743e-07,
+      "loss": 66.6228,
+      "step": 3820
+    },
+    {
+      "epoch": 0.8842397272149338,
+      "grad_norm": 176.75,
+      "learning_rate": 6.423432682425489e-07,
+      "loss": 66.9273,
+      "step": 3825
+    },
+    {
+      "epoch": 0.8853955961393978,
+      "grad_norm": 161.25,
+      "learning_rate": 6.359198355601234e-07,
+      "loss": 66.3972,
+      "step": 3830
+    },
+    {
+      "epoch": 0.8865514650638617,
+      "grad_norm": 160.5,
+      "learning_rate": 6.294964028776979e-07,
+      "loss": 65.0881,
+      "step": 3835
+    },
+    {
+      "epoch": 0.8877073339883257,
+      "grad_norm": 163.875,
+      "learning_rate": 6.230729701952724e-07,
+      "loss": 67.1789,
+      "step": 3840
+    },
+    {
+      "epoch": 0.8888632029127896,
+      "grad_norm": 159.625,
+      "learning_rate": 6.16649537512847e-07,
+      "loss": 65.1281,
+      "step": 3845
+    },
+    {
+      "epoch": 0.8900190718372537,
+      "grad_norm": 166.125,
+      "learning_rate": 6.102261048304214e-07,
+      "loss": 65.8177,
+      "step": 3850
+    },
+    {
+      "epoch": 0.8911749407617177,
+      "grad_norm": 170.5,
+      "learning_rate": 6.038026721479959e-07,
+      "loss": 65.8602,
+      "step": 3855
+    },
+    {
+      "epoch": 0.8923308096861816,
+      "grad_norm": 167.375,
+      "learning_rate": 5.973792394655705e-07,
+      "loss": 67.0154,
+      "step": 3860
+    },
+    {
+      "epoch": 0.8934866786106456,
+      "grad_norm": 177.0,
+      "learning_rate": 5.90955806783145e-07,
+      "loss": 66.4106,
+      "step": 3865
+    },
+    {
+      "epoch": 0.8946425475351095,
+      "grad_norm": 171.0,
+      "learning_rate": 5.845323741007194e-07,
+      "loss": 64.8226,
+      "step": 3870
+    },
+    {
+      "epoch": 0.8957984164595735,
+      "grad_norm": 170.25,
+      "learning_rate": 5.78108941418294e-07,
+      "loss": 65.3194,
+      "step": 3875
+    },
+    {
+      "epoch": 0.8969542853840374,
+      "grad_norm": 164.375,
+      "learning_rate": 5.716855087358686e-07,
+      "loss": 66.7081,
+      "step": 3880
+    },
+    {
+      "epoch": 0.8981101543085014,
+      "grad_norm": 173.125,
+      "learning_rate": 5.65262076053443e-07,
+      "loss": 65.5161,
+      "step": 3885
+    },
+    {
+      "epoch": 0.8992660232329653,
+      "grad_norm": 179.375,
+      "learning_rate": 5.588386433710175e-07,
+      "loss": 65.9439,
+      "step": 3890
+    },
+    {
+      "epoch": 0.9004218921574293,
+      "grad_norm": 180.875,
+      "learning_rate": 5.524152106885921e-07,
+      "loss": 64.9139,
+      "step": 3895
+    },
+    {
+      "epoch": 0.9015777610818934,
+      "grad_norm": 168.75,
+      "learning_rate": 5.459917780061665e-07,
+      "loss": 64.3953,
+      "step": 3900
+    },
+    {
+      "epoch": 0.9027336300063573,
+      "grad_norm": 178.125,
+      "learning_rate": 5.39568345323741e-07,
+      "loss": 66.4299,
+      "step": 3905
+    },
+    {
+      "epoch": 0.9038894989308213,
+      "grad_norm": 171.0,
+      "learning_rate": 5.331449126413155e-07,
+      "loss": 65.5295,
+      "step": 3910
+    },
+    {
+      "epoch": 0.9050453678552852,
+      "grad_norm": 168.875,
+      "learning_rate": 5.267214799588901e-07,
+      "loss": 67.0198,
+      "step": 3915
+    },
+    {
+      "epoch": 0.9062012367797492,
+      "grad_norm": 167.25,
+      "learning_rate": 5.202980472764646e-07,
+      "loss": 65.2047,
+      "step": 3920
+    },
+    {
+      "epoch": 0.9073571057042131,
+      "grad_norm": 163.625,
+      "learning_rate": 5.138746145940391e-07,
+      "loss": 66.2454,
+      "step": 3925
+    },
+    {
+      "epoch": 0.9085129746286771,
+      "grad_norm": 168.375,
+      "learning_rate": 5.074511819116137e-07,
+      "loss": 65.8559,
+      "step": 3930
+    },
+    {
+      "epoch": 0.909668843553141,
+      "grad_norm": 191.25,
+      "learning_rate": 5.010277492291881e-07,
+      "loss": 65.7141,
+      "step": 3935
+    },
+    {
+      "epoch": 0.910824712477605,
+      "grad_norm": 159.25,
+      "learning_rate": 4.946043165467626e-07,
+      "loss": 65.7896,
+      "step": 3940
+    },
+    {
+      "epoch": 0.9119805814020691,
+      "grad_norm": 157.375,
+      "learning_rate": 4.881808838643371e-07,
+      "loss": 65.8169,
+      "step": 3945
+    },
+    {
+      "epoch": 0.913136450326533,
+      "grad_norm": 186.5,
+      "learning_rate": 4.817574511819117e-07,
+      "loss": 64.8462,
+      "step": 3950
+    },
+    {
+      "epoch": 0.914292319250997,
+      "grad_norm": 157.625,
+      "learning_rate": 4.753340184994862e-07,
+      "loss": 65.2834,
+      "step": 3955
+    },
+    {
+      "epoch": 0.9154481881754609,
+      "grad_norm": 175.75,
+      "learning_rate": 4.6891058581706067e-07,
+      "loss": 66.5881,
+      "step": 3960
+    },
+    {
+      "epoch": 0.9166040570999249,
+      "grad_norm": 163.375,
+      "learning_rate": 4.624871531346352e-07,
+      "loss": 66.1449,
+      "step": 3965
+    },
+    {
+      "epoch": 0.9177599260243888,
+      "grad_norm": 166.875,
+      "learning_rate": 4.560637204522097e-07,
+      "loss": 65.73,
+      "step": 3970
+    },
+    {
+      "epoch": 0.9189157949488528,
+      "grad_norm": 159.125,
+      "learning_rate": 4.496402877697842e-07,
+      "loss": 65.5529,
+      "step": 3975
+    },
+    {
+      "epoch": 0.9200716638733167,
+      "grad_norm": 170.375,
+      "learning_rate": 4.432168550873587e-07,
+      "loss": 64.6188,
+      "step": 3980
+    },
+    {
+      "epoch": 0.9212275327977807,
+      "grad_norm": 155.375,
+      "learning_rate": 4.3679342240493327e-07,
+      "loss": 64.926,
+      "step": 3985
+    },
+    {
+      "epoch": 0.9223834017222446,
+      "grad_norm": 166.375,
+      "learning_rate": 4.3036998972250774e-07,
+      "loss": 65.8812,
+      "step": 3990
+    },
+    {
+      "epoch": 0.9235392706467087,
+      "grad_norm": 176.5,
+      "learning_rate": 4.2394655704008227e-07,
+      "loss": 64.8619,
+      "step": 3995
+    },
+    {
+      "epoch": 0.9246951395711727,
+      "grad_norm": 163.75,
+      "learning_rate": 4.1752312435765675e-07,
+      "loss": 66.7275,
+      "step": 4000
+    },
+    {
+      "epoch": 0.9246951395711727,
+      "eval_loss": 2.0627987384796143,
+      "eval_runtime": 212.1215,
+      "eval_samples_per_second": 1099.059,
+      "eval_steps_per_second": 34.348,
+      "step": 4000
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 1.7329431971155149e+19,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null