Training in progress, step 3500, checkpoint

Browse files

Files changed (12) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +711 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:134e57c437da3518ea8269ee92134c3b16585f1346c30dea0e53a9d8197fa8df
 size 791869518

 version https://git-lfs.github.com/spec/v1
+oid sha256:4d699e6077f7e0a2262e01e2cf744e043159167e08c292678e89d1e823bd8c3a
 size 791869518

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:019e1f958012915cab603503bb19c6eaa7b4f267c9885fdcba78f784be58d581
 size 2375752250

 version https://git-lfs.github.com/spec/v1
+oid sha256:18323a214562a89b9d0ebfd04d88a0d2337d75f03c9137f636efe3dca80e3ec3
 size 2375752250

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cb18ac8d6db3307b1c242f7cb069fc8b8dab957434ddfcafcac997cfd6a43abf
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:04cb5208648fd09a2e0403d51973f74ffbfd93cbd5da59e1e99c8df03769a86c
 size 15984

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4bdab708057b5f34a402d9a2b4443f5f93a8e8ee2ddb66d955f0a15ad394ecc5
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:7034685b36b93a4dd3a50697b0b1c314b249b2189ec2cb96b757312b1514a579
 size 15984

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:599882a30c163a5a2a000c4e74b320ecc4a55aa1b079882fd66aa3d2559d19e7
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:6e851fe1c1de0057f4eecefed6a131fa9021334eb43f6e7e65fdb270a25ac864
 size 15984

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:567c3b482c209c2778fc017e39a38642c488edda20673ef29f571ef7177ad81e
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:978379030048e432baa510ec4fc9514faa08fe564ab964b3a4d05e8f60306495
 size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0f9ffe9a916e778423aaed4ec842923c9ccfdd3d7a4fbad10dc6a3bfc278fb8e
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:bdbc75d90af112615b53d15931e8157a80e37bcd110aac9a3089f5f6f5344171
 size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c7ede8a81aa3c780fb9c3cb57537752a782c4aed1dcecb7aafd6ca5a7ea90252
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:8c8a310f6ca2ca89570eb2cc68544656b30224f00b2d6d96eeda6e0cb8be50ab
 size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5b1c5c0c0afa907d332467e631e6cee80ba476689aa0caa77689ca273d83b3e4
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:7c5b8110fcf6e044b6860c6305be969cfe03129549b92dc6fc2394448e9265d6
 size 15984

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:73025ac422abb13303ee974109cf39f6f848de7f7013e828d04aa4e2ec0e6757
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:6f936acaf5a2d5fe8c38d945450417facbf1577584c216908a396d3cc20bec88
 size 15984

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d9d8199d9e7b3ae63abb12d7c73bc1fb489f7fda2279e2e9c845c176c996029
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:9b7f4828ab30c267dcfaed4db9aeb5ef2cb8454b571d2209b8b318981bd14890
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.8447580999982401,
   "eval_steps": 500,
-  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4255,6 +4255,714 @@
       "eval_samples_per_second": 1099.256,
       "eval_steps_per_second": 34.357,
       "step": 3000
     }
   ],
   "logging_steps": 5,
@@ -4274,7 +4982,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.2997073978366362e+19,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9855511166646135,
   "eval_steps": 500,
+  "global_step": 3500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1099.256,
       "eval_steps_per_second": 34.357,
       "step": 3000
+    },
+    {
+      "epoch": 0.8461660301649038,
+      "grad_norm": 101.6875,
+      "learning_rate": 3.417840375586855e-07,
+      "loss": 73.6585,
+      "step": 3005
+    },
+    {
+      "epoch": 0.8475739603315675,
+      "grad_norm": 98.25,
+      "learning_rate": 3.386541471048513e-07,
+      "loss": 73.544,
+      "step": 3010
+    },
+    {
+      "epoch": 0.8489818904982313,
+      "grad_norm": 96.375,
+      "learning_rate": 3.355242566510172e-07,
+      "loss": 73.8583,
+      "step": 3015
+    },
+    {
+      "epoch": 0.850389820664895,
+      "grad_norm": 99.625,
+      "learning_rate": 3.3239436619718306e-07,
+      "loss": 73.6583,
+      "step": 3020
+    },
+    {
+      "epoch": 0.8517977508315587,
+      "grad_norm": 100.0625,
+      "learning_rate": 3.2926447574334897e-07,
+      "loss": 74.1854,
+      "step": 3025
+    },
+    {
+      "epoch": 0.8532056809982225,
+      "grad_norm": 99.875,
+      "learning_rate": 3.261345852895149e-07,
+      "loss": 74.4489,
+      "step": 3030
+    },
+    {
+      "epoch": 0.8546136111648862,
+      "grad_norm": 100.0,
+      "learning_rate": 3.230046948356807e-07,
+      "loss": 74.7492,
+      "step": 3035
+    },
+    {
+      "epoch": 0.85602154133155,
+      "grad_norm": 101.1875,
+      "learning_rate": 3.198748043818466e-07,
+      "loss": 72.8641,
+      "step": 3040
+    },
+    {
+      "epoch": 0.8574294714982137,
+      "grad_norm": 99.75,
+      "learning_rate": 3.167449139280125e-07,
+      "loss": 73.3046,
+      "step": 3045
+    },
+    {
+      "epoch": 0.8588374016648774,
+      "grad_norm": 102.125,
+      "learning_rate": 3.136150234741784e-07,
+      "loss": 73.5787,
+      "step": 3050
+    },
+    {
+      "epoch": 0.8602453318315412,
+      "grad_norm": 99.75,
+      "learning_rate": 3.104851330203443e-07,
+      "loss": 74.2624,
+      "step": 3055
+    },
+    {
+      "epoch": 0.8616532619982049,
+      "grad_norm": 100.0,
+      "learning_rate": 3.073552425665101e-07,
+      "loss": 73.2848,
+      "step": 3060
+    },
+    {
+      "epoch": 0.8630611921648687,
+      "grad_norm": 98.0625,
+      "learning_rate": 3.04225352112676e-07,
+      "loss": 73.0147,
+      "step": 3065
+    },
+    {
+      "epoch": 0.8644691223315324,
+      "grad_norm": 99.8125,
+      "learning_rate": 3.0109546165884194e-07,
+      "loss": 74.4966,
+      "step": 3070
+    },
+    {
+      "epoch": 0.8658770524981961,
+      "grad_norm": 101.25,
+      "learning_rate": 2.979655712050078e-07,
+      "loss": 73.1046,
+      "step": 3075
+    },
+    {
+      "epoch": 0.8672849826648599,
+      "grad_norm": 99.875,
+      "learning_rate": 2.948356807511737e-07,
+      "loss": 73.1981,
+      "step": 3080
+    },
+    {
+      "epoch": 0.8686929128315236,
+      "grad_norm": 99.9375,
+      "learning_rate": 2.917057902973396e-07,
+      "loss": 74.1154,
+      "step": 3085
+    },
+    {
+      "epoch": 0.8701008429981872,
+      "grad_norm": 101.6875,
+      "learning_rate": 2.8857589984350543e-07,
+      "loss": 72.7754,
+      "step": 3090
+    },
+    {
+      "epoch": 0.871508773164851,
+      "grad_norm": 98.4375,
+      "learning_rate": 2.8544600938967135e-07,
+      "loss": 74.1031,
+      "step": 3095
+    },
+    {
+      "epoch": 0.8729167033315147,
+      "grad_norm": 98.625,
+      "learning_rate": 2.823161189358372e-07,
+      "loss": 72.6659,
+      "step": 3100
+    },
+    {
+      "epoch": 0.8743246334981785,
+      "grad_norm": 98.3125,
+      "learning_rate": 2.791862284820031e-07,
+      "loss": 72.9441,
+      "step": 3105
+    },
+    {
+      "epoch": 0.8757325636648422,
+      "grad_norm": 99.1875,
+      "learning_rate": 2.7605633802816904e-07,
+      "loss": 73.2805,
+      "step": 3110
+    },
+    {
+      "epoch": 0.8771404938315059,
+      "grad_norm": 101.0,
+      "learning_rate": 2.7292644757433484e-07,
+      "loss": 73.3267,
+      "step": 3115
+    },
+    {
+      "epoch": 0.8785484239981697,
+      "grad_norm": 98.625,
+      "learning_rate": 2.6979655712050076e-07,
+      "loss": 72.7271,
+      "step": 3120
+    },
+    {
+      "epoch": 0.8799563541648334,
+      "grad_norm": 99.375,
+      "learning_rate": 2.6666666666666667e-07,
+      "loss": 72.9903,
+      "step": 3125
+    },
+    {
+      "epoch": 0.8813642843314972,
+      "grad_norm": 101.0,
+      "learning_rate": 2.6353677621283253e-07,
+      "loss": 73.381,
+      "step": 3130
+    },
+    {
+      "epoch": 0.8827722144981609,
+      "grad_norm": 94.625,
+      "learning_rate": 2.6040688575899845e-07,
+      "loss": 72.6671,
+      "step": 3135
+    },
+    {
+      "epoch": 0.8841801446648246,
+      "grad_norm": 100.5625,
+      "learning_rate": 2.572769953051643e-07,
+      "loss": 74.6931,
+      "step": 3140
+    },
+    {
+      "epoch": 0.8855880748314884,
+      "grad_norm": 98.875,
+      "learning_rate": 2.5414710485133017e-07,
+      "loss": 73.1691,
+      "step": 3145
+    },
+    {
+      "epoch": 0.8869960049981521,
+      "grad_norm": 98.5625,
+      "learning_rate": 2.510172143974961e-07,
+      "loss": 73.6215,
+      "step": 3150
+    },
+    {
+      "epoch": 0.8884039351648159,
+      "grad_norm": 100.5,
+      "learning_rate": 2.4788732394366194e-07,
+      "loss": 73.0588,
+      "step": 3155
+    },
+    {
+      "epoch": 0.8898118653314796,
+      "grad_norm": 103.25,
+      "learning_rate": 2.4475743348982786e-07,
+      "loss": 72.9316,
+      "step": 3160
+    },
+    {
+      "epoch": 0.8912197954981433,
+      "grad_norm": 101.25,
+      "learning_rate": 2.416275430359937e-07,
+      "loss": 73.9514,
+      "step": 3165
+    },
+    {
+      "epoch": 0.892627725664807,
+      "grad_norm": 101.875,
+      "learning_rate": 2.3849765258215963e-07,
+      "loss": 72.7598,
+      "step": 3170
+    },
+    {
+      "epoch": 0.8940356558314707,
+      "grad_norm": 98.8125,
+      "learning_rate": 2.353677621283255e-07,
+      "loss": 71.3763,
+      "step": 3175
+    },
+    {
+      "epoch": 0.8954435859981345,
+      "grad_norm": 101.4375,
+      "learning_rate": 2.3223787167449138e-07,
+      "loss": 72.6348,
+      "step": 3180
+    },
+    {
+      "epoch": 0.8968515161647982,
+      "grad_norm": 100.125,
+      "learning_rate": 2.2910798122065727e-07,
+      "loss": 73.4665,
+      "step": 3185
+    },
+    {
+      "epoch": 0.8982594463314619,
+      "grad_norm": 100.8125,
+      "learning_rate": 2.2597809076682313e-07,
+      "loss": 72.4653,
+      "step": 3190
+    },
+    {
+      "epoch": 0.8996673764981257,
+      "grad_norm": 98.5625,
+      "learning_rate": 2.2284820031298905e-07,
+      "loss": 72.8895,
+      "step": 3195
+    },
+    {
+      "epoch": 0.9010753066647894,
+      "grad_norm": 97.875,
+      "learning_rate": 2.1971830985915493e-07,
+      "loss": 71.8399,
+      "step": 3200
+    },
+    {
+      "epoch": 0.9024832368314532,
+      "grad_norm": 100.8125,
+      "learning_rate": 2.165884194053208e-07,
+      "loss": 72.2365,
+      "step": 3205
+    },
+    {
+      "epoch": 0.9038911669981169,
+      "grad_norm": 98.5625,
+      "learning_rate": 2.1345852895148668e-07,
+      "loss": 72.4189,
+      "step": 3210
+    },
+    {
+      "epoch": 0.9052990971647806,
+      "grad_norm": 98.5,
+      "learning_rate": 2.1032863849765257e-07,
+      "loss": 72.8921,
+      "step": 3215
+    },
+    {
+      "epoch": 0.9067070273314444,
+      "grad_norm": 100.0625,
+      "learning_rate": 2.0719874804381846e-07,
+      "loss": 72.6931,
+      "step": 3220
+    },
+    {
+      "epoch": 0.9081149574981081,
+      "grad_norm": 97.4375,
+      "learning_rate": 2.0406885758998434e-07,
+      "loss": 72.8769,
+      "step": 3225
+    },
+    {
+      "epoch": 0.9095228876647719,
+      "grad_norm": 100.25,
+      "learning_rate": 2.009389671361502e-07,
+      "loss": 72.7839,
+      "step": 3230
+    },
+    {
+      "epoch": 0.9109308178314356,
+      "grad_norm": 100.875,
+      "learning_rate": 1.9780907668231612e-07,
+      "loss": 73.6267,
+      "step": 3235
+    },
+    {
+      "epoch": 0.9123387479980993,
+      "grad_norm": 101.875,
+      "learning_rate": 1.94679186228482e-07,
+      "loss": 71.5955,
+      "step": 3240
+    },
+    {
+      "epoch": 0.9137466781647631,
+      "grad_norm": 99.3125,
+      "learning_rate": 1.9154929577464787e-07,
+      "loss": 73.861,
+      "step": 3245
+    },
+    {
+      "epoch": 0.9151546083314268,
+      "grad_norm": 100.0625,
+      "learning_rate": 1.8841940532081376e-07,
+      "loss": 72.515,
+      "step": 3250
+    },
+    {
+      "epoch": 0.9165625384980904,
+      "grad_norm": 100.25,
+      "learning_rate": 1.8528951486697964e-07,
+      "loss": 72.6746,
+      "step": 3255
+    },
+    {
+      "epoch": 0.9179704686647542,
+      "grad_norm": 100.25,
+      "learning_rate": 1.8215962441314553e-07,
+      "loss": 71.9783,
+      "step": 3260
+    },
+    {
+      "epoch": 0.9193783988314179,
+      "grad_norm": 98.8125,
+      "learning_rate": 1.7902973395931142e-07,
+      "loss": 73.1412,
+      "step": 3265
+    },
+    {
+      "epoch": 0.9207863289980817,
+      "grad_norm": 100.25,
+      "learning_rate": 1.7589984350547728e-07,
+      "loss": 72.7368,
+      "step": 3270
+    },
+    {
+      "epoch": 0.9221942591647454,
+      "grad_norm": 98.4375,
+      "learning_rate": 1.727699530516432e-07,
+      "loss": 73.0083,
+      "step": 3275
+    },
+    {
+      "epoch": 0.9236021893314091,
+      "grad_norm": 96.875,
+      "learning_rate": 1.6964006259780908e-07,
+      "loss": 72.9673,
+      "step": 3280
+    },
+    {
+      "epoch": 0.9250101194980729,
+      "grad_norm": 98.5,
+      "learning_rate": 1.6651017214397494e-07,
+      "loss": 73.1493,
+      "step": 3285
+    },
+    {
+      "epoch": 0.9264180496647366,
+      "grad_norm": 102.0,
+      "learning_rate": 1.6338028169014083e-07,
+      "loss": 72.7894,
+      "step": 3290
+    },
+    {
+      "epoch": 0.9278259798314004,
+      "grad_norm": 98.5625,
+      "learning_rate": 1.6025039123630672e-07,
+      "loss": 72.8775,
+      "step": 3295
+    },
+    {
+      "epoch": 0.9292339099980641,
+      "grad_norm": 96.75,
+      "learning_rate": 1.571205007824726e-07,
+      "loss": 73.8995,
+      "step": 3300
+    },
+    {
+      "epoch": 0.9306418401647278,
+      "grad_norm": 99.375,
+      "learning_rate": 1.539906103286385e-07,
+      "loss": 71.6156,
+      "step": 3305
+    },
+    {
+      "epoch": 0.9320497703313916,
+      "grad_norm": 97.5625,
+      "learning_rate": 1.5086071987480435e-07,
+      "loss": 72.5478,
+      "step": 3310
+    },
+    {
+      "epoch": 0.9334577004980553,
+      "grad_norm": 95.25,
+      "learning_rate": 1.4773082942097027e-07,
+      "loss": 73.963,
+      "step": 3315
+    },
+    {
+      "epoch": 0.9348656306647191,
+      "grad_norm": 99.25,
+      "learning_rate": 1.4460093896713616e-07,
+      "loss": 72.381,
+      "step": 3320
+    },
+    {
+      "epoch": 0.9362735608313828,
+      "grad_norm": 98.0625,
+      "learning_rate": 1.4147104851330202e-07,
+      "loss": 71.5912,
+      "step": 3325
+    },
+    {
+      "epoch": 0.9376814909980465,
+      "grad_norm": 101.4375,
+      "learning_rate": 1.383411580594679e-07,
+      "loss": 74.614,
+      "step": 3330
+    },
+    {
+      "epoch": 0.9390894211647103,
+      "grad_norm": 98.25,
+      "learning_rate": 1.352112676056338e-07,
+      "loss": 71.0281,
+      "step": 3335
+    },
+    {
+      "epoch": 0.9404973513313739,
+      "grad_norm": 99.4375,
+      "learning_rate": 1.3208137715179968e-07,
+      "loss": 73.2102,
+      "step": 3340
+    },
+    {
+      "epoch": 0.9419052814980376,
+      "grad_norm": 101.4375,
+      "learning_rate": 1.2895148669796557e-07,
+      "loss": 72.8009,
+      "step": 3345
+    },
+    {
+      "epoch": 0.9433132116647014,
+      "grad_norm": 96.625,
+      "learning_rate": 1.2582159624413143e-07,
+      "loss": 71.7365,
+      "step": 3350
+    },
+    {
+      "epoch": 0.9447211418313651,
+      "grad_norm": 100.0,
+      "learning_rate": 1.2269170579029734e-07,
+      "loss": 73.0646,
+      "step": 3355
+    },
+    {
+      "epoch": 0.9461290719980289,
+      "grad_norm": 96.5,
+      "learning_rate": 1.195618153364632e-07,
+      "loss": 72.5101,
+      "step": 3360
+    },
+    {
+      "epoch": 0.9475370021646926,
+      "grad_norm": 99.3125,
+      "learning_rate": 1.164319248826291e-07,
+      "loss": 72.0814,
+      "step": 3365
+    },
+    {
+      "epoch": 0.9489449323313564,
+      "grad_norm": 104.6875,
+      "learning_rate": 1.1330203442879499e-07,
+      "loss": 72.8902,
+      "step": 3370
+    },
+    {
+      "epoch": 0.9503528624980201,
+      "grad_norm": 99.375,
+      "learning_rate": 1.1017214397496087e-07,
+      "loss": 73.1125,
+      "step": 3375
+    },
+    {
+      "epoch": 0.9517607926646838,
+      "grad_norm": 99.625,
+      "learning_rate": 1.0704225352112675e-07,
+      "loss": 72.2983,
+      "step": 3380
+    },
+    {
+      "epoch": 0.9531687228313476,
+      "grad_norm": 102.75,
+      "learning_rate": 1.0391236306729264e-07,
+      "loss": 71.7325,
+      "step": 3385
+    },
+    {
+      "epoch": 0.9545766529980113,
+      "grad_norm": 100.0,
+      "learning_rate": 1.0078247261345853e-07,
+      "loss": 72.928,
+      "step": 3390
+    },
+    {
+      "epoch": 0.955984583164675,
+      "grad_norm": 99.875,
+      "learning_rate": 9.76525821596244e-08,
+      "loss": 71.7651,
+      "step": 3395
+    },
+    {
+      "epoch": 0.9573925133313388,
+      "grad_norm": 99.4375,
+      "learning_rate": 9.452269170579029e-08,
+      "loss": 72.5716,
+      "step": 3400
+    },
+    {
+      "epoch": 0.9588004434980025,
+      "grad_norm": 99.3125,
+      "learning_rate": 9.139280125195618e-08,
+      "loss": 72.9828,
+      "step": 3405
+    },
+    {
+      "epoch": 0.9602083736646663,
+      "grad_norm": 99.1875,
+      "learning_rate": 8.826291079812207e-08,
+      "loss": 71.8136,
+      "step": 3410
+    },
+    {
+      "epoch": 0.96161630383133,
+      "grad_norm": 98.3125,
+      "learning_rate": 8.513302034428794e-08,
+      "loss": 71.9029,
+      "step": 3415
+    },
+    {
+      "epoch": 0.9630242339979938,
+      "grad_norm": 98.5625,
+      "learning_rate": 8.200312989045383e-08,
+      "loss": 72.1606,
+      "step": 3420
+    },
+    {
+      "epoch": 0.9644321641646574,
+      "grad_norm": 100.6875,
+      "learning_rate": 7.887323943661972e-08,
+      "loss": 72.1675,
+      "step": 3425
+    },
+    {
+      "epoch": 0.9658400943313211,
+      "grad_norm": 98.6875,
+      "learning_rate": 7.57433489827856e-08,
+      "loss": 70.1811,
+      "step": 3430
+    },
+    {
+      "epoch": 0.9672480244979849,
+      "grad_norm": 98.125,
+      "learning_rate": 7.261345852895148e-08,
+      "loss": 71.2637,
+      "step": 3435
+    },
+    {
+      "epoch": 0.9686559546646486,
+      "grad_norm": 98.75,
+      "learning_rate": 6.948356807511737e-08,
+      "loss": 71.6337,
+      "step": 3440
+    },
+    {
+      "epoch": 0.9700638848313123,
+      "grad_norm": 99.75,
+      "learning_rate": 6.635367762128325e-08,
+      "loss": 73.4452,
+      "step": 3445
+    },
+    {
+      "epoch": 0.9714718149979761,
+      "grad_norm": 99.875,
+      "learning_rate": 6.322378716744914e-08,
+      "loss": 72.6214,
+      "step": 3450
+    },
+    {
+      "epoch": 0.9728797451646398,
+      "grad_norm": 98.5625,
+      "learning_rate": 6.009389671361502e-08,
+      "loss": 72.0335,
+      "step": 3455
+    },
+    {
+      "epoch": 0.9742876753313036,
+      "grad_norm": 98.0,
+      "learning_rate": 5.6964006259780904e-08,
+      "loss": 73.7114,
+      "step": 3460
+    },
+    {
+      "epoch": 0.9756956054979673,
+      "grad_norm": 98.6875,
+      "learning_rate": 5.3834115805946785e-08,
+      "loss": 73.0734,
+      "step": 3465
+    },
+    {
+      "epoch": 0.977103535664631,
+      "grad_norm": 98.875,
+      "learning_rate": 5.070422535211267e-08,
+      "loss": 71.0571,
+      "step": 3470
+    },
+    {
+      "epoch": 0.9785114658312948,
+      "grad_norm": 98.5625,
+      "learning_rate": 4.7574334898278553e-08,
+      "loss": 73.1747,
+      "step": 3475
+    },
+    {
+      "epoch": 0.9799193959979585,
+      "grad_norm": 98.625,
+      "learning_rate": 4.444444444444444e-08,
+      "loss": 71.283,
+      "step": 3480
+    },
+    {
+      "epoch": 0.9813273261646223,
+      "grad_norm": 99.3125,
+      "learning_rate": 4.131455399061032e-08,
+      "loss": 73.1183,
+      "step": 3485
+    },
+    {
+      "epoch": 0.982735256331286,
+      "grad_norm": 98.6875,
+      "learning_rate": 3.818466353677621e-08,
+      "loss": 72.1214,
+      "step": 3490
+    },
+    {
+      "epoch": 0.9841431864979497,
+      "grad_norm": 97.4375,
+      "learning_rate": 3.505477308294209e-08,
+      "loss": 73.2526,
+      "step": 3495
+    },
+    {
+      "epoch": 0.9855511166646135,
+      "grad_norm": 99.125,
+      "learning_rate": 3.192488262910798e-08,
+      "loss": 72.6053,
+      "step": 3500
+    },
+    {
+      "epoch": 0.9855511166646135,
+      "eval_loss": 2.2642199993133545,
+      "eval_runtime": 172.1274,
+      "eval_samples_per_second": 1111.944,
+      "eval_steps_per_second": 34.753,
+      "step": 3500
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 1.5163252974760755e+19,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null