Training in progress, step 500, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/ar_diffusion_info.bin +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +33 -1925
last-checkpoint/training_args.bin +1 -1

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4a9e090bf1b3b09dbe8cb6b79d3a7e692232fb851dc5e22f221471a638858e73
 size 36730224

 version https://git-lfs.github.com/spec/v1
+oid sha256:56e8ec13f5b750bff43bf95c8f426d5c76de12c9614c601c59257c731d90aad9
 size 36730224

last-checkpoint/ar_diffusion_info.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:30fc997f014f8771605ac175a0becd64846b6e365b7b344cbcd1952ce4ff7b9d
 size 1736

 version https://git-lfs.github.com/spec/v1
+oid sha256:dcf5fd030c264f8615af2d6bd5dd8f07c7ac6052929ca71266901b45d38e573c
 size 1736

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8d50e12c43bc31ea78337ba4c2a352e47dae2a51ea081d7c0d57df4add4243c5
 size 73588346

 version https://git-lfs.github.com/spec/v1
+oid sha256:ed69c86e6661b1f68a99aa8b123937781810ccc7aacd7d2f7ad96f9fb90dd267
 size 73588346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b95749af35857001e40598a88328f44c58838ef1911894bdba44fd9cf3d356b1
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:aa10217fea7d7bdff8c6b7812212a3b0fcc34c0411d6adbf4710eb28a9f096e8
 size 14244

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d7532c7a02e2aeb7c936b6d9813b2c402b9be5b25d9e0bb18270e536f6014e58
 size 988

 version https://git-lfs.github.com/spec/v1
+oid sha256:a6d2c7b185157ea92508fe4deec82c591b54fb96c18b69b1ba12fb4fa0a5f624
 size 988

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:129303cede08862e45aff723e13523f2863b1a8c5dd6144e719bcbf05975af10
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:65d8086826e16c0b4479d43a31b6b223fba2daaa33e58ffbb91a05247a535912
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,1991 +1,99 @@
 {
-  "best_global_step": 11500,
-  "best_metric": 1.792478322982788,
-  "best_model_checkpoint": "./ar-diffusion-checkpoints-progressive-attention/checkpoint-11500",
-  "epoch": 0.8845473425121144,
   "eval_steps": 250,
-  "global_step": 11500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.003845858010922237,
-      "grad_norm": 12.771480560302734,
       "learning_rate": 1.84e-05,
-      "loss": 12.0004,
       "step": 50
     },
     {
       "epoch": 0.007691716021844474,
-      "grad_norm": 5.099525451660156,
       "learning_rate": 3.8e-05,
-      "loss": 5.8445,
       "step": 100
     },
     {
       "epoch": 0.01153757403276671,
-      "grad_norm": 7.0865478515625,
       "learning_rate": 5.8e-05,
-      "loss": 4.5083,
       "step": 150
     },
     {
       "epoch": 0.015383432043688947,
-      "grad_norm": 4.829924583435059,
       "learning_rate": 7.800000000000001e-05,
-      "loss": 3.8954,
       "step": 200
     },
     {
       "epoch": 0.019229290054611183,
-      "grad_norm": 4.646179676055908,
       "learning_rate": 9.8e-05,
-      "loss": 3.8418,
       "step": 250
     },
     {
       "epoch": 0.019229290054611183,
-      "eval_loss": 3.765653371810913,
-      "eval_runtime": 17.5085,
-      "eval_samples_per_second": 57.115,
-      "eval_steps_per_second": 14.279,
       "step": 250
     },
     {
       "epoch": 0.02307514806553342,
-      "grad_norm": 8.012557029724121,
       "learning_rate": 0.000118,
-      "loss": 3.5471,
       "step": 300
     },
     {
       "epoch": 0.02692100607645566,
-      "grad_norm": 4.200570106506348,
       "learning_rate": 0.000138,
-      "loss": 3.398,
       "step": 350
     },
     {
       "epoch": 0.030766864087377895,
-      "grad_norm": 5.796392440795898,
       "learning_rate": 0.00015800000000000002,
-      "loss": 3.5043,
       "step": 400
     },
     {
       "epoch": 0.03461272209830013,
-      "grad_norm": 3.202223300933838,
       "learning_rate": 0.00017800000000000002,
-      "loss": 3.4124,
       "step": 450
     },
     {
       "epoch": 0.038458580109222366,
-      "grad_norm": 4.212994575500488,
       "learning_rate": 0.00019800000000000002,
-      "loss": 3.3327,
       "step": 500
     },
     {
       "epoch": 0.038458580109222366,
-      "eval_loss": 3.3062171936035156,
-      "eval_runtime": 17.4889,
-      "eval_samples_per_second": 57.179,
-      "eval_steps_per_second": 14.295,
       "step": 500
-    },
-    {
-      "epoch": 0.0423044381201446,
-      "grad_norm": 3.885101079940796,
-      "learning_rate": 0.0001997662519803652,
-      "loss": 3.3463,
-      "step": 550
-    },
-    {
-      "epoch": 0.04615029613106684,
-      "grad_norm": 5.273513317108154,
-      "learning_rate": 0.0001995065319585487,
-      "loss": 3.252,
-      "step": 600
-    },
-    {
-      "epoch": 0.04999615414198908,
-      "grad_norm": 3.779219627380371,
-      "learning_rate": 0.0001992468119367322,
-      "loss": 3.1188,
-      "step": 650
-    },
-    {
-      "epoch": 0.05384201215291132,
-      "grad_norm": 3.2600204944610596,
-      "learning_rate": 0.00019898709191491573,
-      "loss": 2.9879,
-      "step": 700
-    },
-    {
-      "epoch": 0.05768787016383355,
-      "grad_norm": 7.561593055725098,
-      "learning_rate": 0.00019872737189309924,
-      "loss": 3.2548,
-      "step": 750
-    },
-    {
-      "epoch": 0.05768787016383355,
-      "eval_loss": 3.1286704540252686,
-      "eval_runtime": 17.5722,
-      "eval_samples_per_second": 56.908,
-      "eval_steps_per_second": 14.227,
-      "step": 750
-    },
-    {
-      "epoch": 0.06153372817475579,
-      "grad_norm": 3.786135673522949,
-      "learning_rate": 0.00019846765187128275,
-      "loss": 3.1959,
-      "step": 800
-    },
-    {
-      "epoch": 0.06537958618567802,
-      "grad_norm": 4.230893611907959,
-      "learning_rate": 0.0001982079318494663,
-      "loss": 3.1453,
-      "step": 850
-    },
-    {
-      "epoch": 0.06922544419660026,
-      "grad_norm": 2.7769834995269775,
-      "learning_rate": 0.0001979482118276498,
-      "loss": 3.1789,
-      "step": 900
-    },
-    {
-      "epoch": 0.0730713022075225,
-      "grad_norm": 1.746205449104309,
-      "learning_rate": 0.00019768849180583334,
-      "loss": 2.9569,
-      "step": 950
-    },
-    {
-      "epoch": 0.07691716021844473,
-      "grad_norm": 3.5990424156188965,
-      "learning_rate": 0.00019742877178401683,
-      "loss": 3.0739,
-      "step": 1000
-    },
-    {
-      "epoch": 0.07691716021844473,
-      "eval_loss": 3.0572922229766846,
-      "eval_runtime": 17.4776,
-      "eval_samples_per_second": 57.216,
-      "eval_steps_per_second": 14.304,
-      "step": 1000
-    },
-    {
-      "epoch": 0.08076301822936698,
-      "grad_norm": 2.302044153213501,
-      "learning_rate": 0.00019716905176220034,
-      "loss": 2.9218,
-      "step": 1050
-    },
-    {
-      "epoch": 0.0846088762402892,
-      "grad_norm": 2.9099605083465576,
-      "learning_rate": 0.00019690933174038388,
-      "loss": 3.027,
-      "step": 1100
-    },
-    {
-      "epoch": 0.08845473425121145,
-      "grad_norm": 2.307961940765381,
-      "learning_rate": 0.0001966496117185674,
-      "loss": 2.9845,
-      "step": 1150
-    },
-    {
-      "epoch": 0.09230059226213368,
-      "grad_norm": 4.332247734069824,
-      "learning_rate": 0.0001963898916967509,
-      "loss": 2.9047,
-      "step": 1200
-    },
-    {
-      "epoch": 0.09614645027305592,
-      "grad_norm": 3.9856581687927246,
-      "learning_rate": 0.00019613017167493445,
-      "loss": 3.0003,
-      "step": 1250
-    },
-    {
-      "epoch": 0.09614645027305592,
-      "eval_loss": 2.8999271392822266,
-      "eval_runtime": 17.4674,
-      "eval_samples_per_second": 57.25,
-      "eval_steps_per_second": 14.312,
-      "step": 1250
-    },
-    {
-      "epoch": 0.09999230828397816,
-      "grad_norm": 8.007057189941406,
-      "learning_rate": 0.00019587045165311796,
-      "loss": 2.9034,
-      "step": 1300
-    },
-    {
-      "epoch": 0.10383816629490039,
-      "grad_norm": 2.3496313095092773,
-      "learning_rate": 0.00019561073163130145,
-      "loss": 2.8742,
-      "step": 1350
-    },
-    {
-      "epoch": 0.10768402430582263,
-      "grad_norm": 2.3679521083831787,
-      "learning_rate": 0.000195351011609485,
-      "loss": 2.8189,
-      "step": 1400
-    },
-    {
-      "epoch": 0.11152988231674486,
-      "grad_norm": 5.371161937713623,
-      "learning_rate": 0.0001950912915876685,
-      "loss": 2.826,
-      "step": 1450
-    },
-    {
-      "epoch": 0.1153757403276671,
-      "grad_norm": 4.442603588104248,
-      "learning_rate": 0.000194831571565852,
-      "loss": 2.9645,
-      "step": 1500
-    },
-    {
-      "epoch": 0.1153757403276671,
-      "eval_loss": 2.864973783493042,
-      "eval_runtime": 17.4467,
-      "eval_samples_per_second": 57.317,
-      "eval_steps_per_second": 14.329,
-      "step": 1500
-    },
-    {
-      "epoch": 0.11922159833858934,
-      "grad_norm": 3.153311252593994,
-      "learning_rate": 0.00019457185154403555,
-      "loss": 2.8506,
-      "step": 1550
-    },
-    {
-      "epoch": 0.12306745634951158,
-      "grad_norm": 4.94291877746582,
-      "learning_rate": 0.00019431213152221907,
-      "loss": 2.9362,
-      "step": 1600
-    },
-    {
-      "epoch": 0.12691331436043382,
-      "grad_norm": 3.0833139419555664,
-      "learning_rate": 0.00019405241150040255,
-      "loss": 2.7926,
-      "step": 1650
-    },
-    {
-      "epoch": 0.13075917237135604,
-      "grad_norm": 4.330313205718994,
-      "learning_rate": 0.00019379788587902243,
-      "loss": 3.0154,
-      "step": 1700
-    },
-    {
-      "epoch": 0.13460503038227828,
-      "grad_norm": 3.247084379196167,
-      "learning_rate": 0.00019353816585720594,
-      "loss": 2.8993,
-      "step": 1750
-    },
-    {
-      "epoch": 0.13460503038227828,
-      "eval_loss": 2.797525644302368,
-      "eval_runtime": 17.3938,
-      "eval_samples_per_second": 57.492,
-      "eval_steps_per_second": 14.373,
-      "step": 1750
-    },
-    {
-      "epoch": 0.13845088839320052,
-      "grad_norm": 1.2497533559799194,
-      "learning_rate": 0.00019327844583538946,
-      "loss": 2.8769,
-      "step": 1800
-    },
-    {
-      "epoch": 0.14229674640412276,
-      "grad_norm": 3.2852976322174072,
-      "learning_rate": 0.000193018725813573,
-      "loss": 2.7027,
-      "step": 1850
-    },
-    {
-      "epoch": 0.146142604415045,
-      "grad_norm": 3.199697732925415,
-      "learning_rate": 0.0001927590057917565,
-      "loss": 2.8646,
-      "step": 1900
-    },
-    {
-      "epoch": 0.14998846242596722,
-      "grad_norm": 2.30946946144104,
-      "learning_rate": 0.00019249928576994002,
-      "loss": 2.7485,
-      "step": 1950
-    },
-    {
-      "epoch": 0.15383432043688947,
-      "grad_norm": 2.7489562034606934,
-      "learning_rate": 0.00019223956574812353,
-      "loss": 2.8288,
-      "step": 2000
-    },
-    {
-      "epoch": 0.15383432043688947,
-      "eval_loss": 2.732482671737671,
-      "eval_runtime": 17.4426,
-      "eval_samples_per_second": 57.331,
-      "eval_steps_per_second": 14.333,
-      "step": 2000
-    },
-    {
-      "epoch": 0.1576801784478117,
-      "grad_norm": 2.094149351119995,
-      "learning_rate": 0.00019197984572630705,
-      "loss": 2.8181,
-      "step": 2050
-    },
-    {
-      "epoch": 0.16152603645873395,
-      "grad_norm": 2.880585193634033,
-      "learning_rate": 0.00019172012570449056,
-      "loss": 2.7495,
-      "step": 2100
-    },
-    {
-      "epoch": 0.16537189446965617,
-      "grad_norm": 3.0462090969085693,
-      "learning_rate": 0.0001914604056826741,
-      "loss": 2.6552,
-      "step": 2150
-    },
-    {
-      "epoch": 0.1692177524805784,
-      "grad_norm": 2.8088278770446777,
-      "learning_rate": 0.0001912006856608576,
-      "loss": 2.6424,
-      "step": 2200
-    },
-    {
-      "epoch": 0.17306361049150065,
-      "grad_norm": 2.3041441440582275,
-      "learning_rate": 0.00019094096563904112,
-      "loss": 2.6002,
-      "step": 2250
-    },
-    {
-      "epoch": 0.17306361049150065,
-      "eval_loss": 2.6283011436462402,
-      "eval_runtime": 17.4951,
-      "eval_samples_per_second": 57.159,
-      "eval_steps_per_second": 14.29,
-      "step": 2250
-    },
-    {
-      "epoch": 0.1769094685024229,
-      "grad_norm": 2.4782445430755615,
-      "learning_rate": 0.00019068124561722464,
-      "loss": 2.7373,
-      "step": 2300
-    },
-    {
-      "epoch": 0.18075532651334514,
-      "grad_norm": 2.799548864364624,
-      "learning_rate": 0.00019042152559540815,
-      "loss": 2.6528,
-      "step": 2350
-    },
-    {
-      "epoch": 0.18460118452426735,
-      "grad_norm": 3.158393144607544,
-      "learning_rate": 0.00019016180557359166,
-      "loss": 2.6495,
-      "step": 2400
-    },
-    {
-      "epoch": 0.1884470425351896,
-      "grad_norm": 2.4797089099884033,
-      "learning_rate": 0.0001899020855517752,
-      "loss": 2.6815,
-      "step": 2450
-    },
-    {
-      "epoch": 0.19229290054611184,
-      "grad_norm": 2.5662102699279785,
-      "learning_rate": 0.00018964236552995872,
-      "loss": 2.6435,
-      "step": 2500
-    },
-    {
-      "epoch": 0.19229290054611184,
-      "eval_loss": 2.6090738773345947,
-      "eval_runtime": 17.3946,
-      "eval_samples_per_second": 57.489,
-      "eval_steps_per_second": 14.372,
-      "step": 2500
-    },
-    {
-      "epoch": 0.19613875855703408,
-      "grad_norm": 2.0812065601348877,
-      "learning_rate": 0.00018938264550814223,
-      "loss": 2.4975,
-      "step": 2550
-    },
-    {
-      "epoch": 0.19998461656795632,
-      "grad_norm": 3.9404165744781494,
-      "learning_rate": 0.00018912292548632574,
-      "loss": 2.6395,
-      "step": 2600
-    },
-    {
-      "epoch": 0.20383047457887854,
-      "grad_norm": 2.122506856918335,
-      "learning_rate": 0.00018886320546450925,
-      "loss": 2.59,
-      "step": 2650
-    },
-    {
-      "epoch": 0.20767633258980078,
-      "grad_norm": 4.2281293869018555,
-      "learning_rate": 0.0001886034854426928,
-      "loss": 2.5563,
-      "step": 2700
-    },
-    {
-      "epoch": 0.21152219060072303,
-      "grad_norm": 2.492363691329956,
-      "learning_rate": 0.0001883437654208763,
-      "loss": 2.4601,
-      "step": 2750
-    },
-    {
-      "epoch": 0.21152219060072303,
-      "eval_loss": 2.576280355453491,
-      "eval_runtime": 17.2831,
-      "eval_samples_per_second": 57.86,
-      "eval_steps_per_second": 14.465,
-      "step": 2750
-    },
-    {
-      "epoch": 0.21536804861164527,
-      "grad_norm": 3.6676604747772217,
-      "learning_rate": 0.00018808404539905982,
-      "loss": 2.4723,
-      "step": 2800
-    },
-    {
-      "epoch": 0.21921390662256748,
-      "grad_norm": 2.855665922164917,
-      "learning_rate": 0.00018782432537724336,
-      "loss": 2.5224,
-      "step": 2850
-    },
-    {
-      "epoch": 0.22305976463348973,
-      "grad_norm": 2.6359572410583496,
-      "learning_rate": 0.00018756460535542685,
-      "loss": 2.6181,
-      "step": 2900
-    },
-    {
-      "epoch": 0.22690562264441197,
-      "grad_norm": 2.5210607051849365,
-      "learning_rate": 0.00018730488533361036,
-      "loss": 2.4691,
-      "step": 2950
-    },
-    {
-      "epoch": 0.2307514806553342,
-      "grad_norm": 3.2655303478240967,
-      "learning_rate": 0.0001870451653117939,
-      "loss": 2.5791,
-      "step": 3000
-    },
-    {
-      "epoch": 0.2307514806553342,
-      "eval_loss": 2.5004756450653076,
-      "eval_runtime": 17.3413,
-      "eval_samples_per_second": 57.666,
-      "eval_steps_per_second": 14.416,
-      "step": 3000
-    },
-    {
-      "epoch": 0.23459733866625646,
-      "grad_norm": 3.1443817615509033,
-      "learning_rate": 0.0001867854452899774,
-      "loss": 2.5689,
-      "step": 3050
-    },
-    {
-      "epoch": 0.23844319667717867,
-      "grad_norm": 2.394235610961914,
-      "learning_rate": 0.00018652572526816092,
-      "loss": 2.4802,
-      "step": 3100
-    },
-    {
-      "epoch": 0.2422890546881009,
-      "grad_norm": 3.216654062271118,
-      "learning_rate": 0.00018626600524634446,
-      "loss": 2.5239,
-      "step": 3150
-    },
-    {
-      "epoch": 0.24613491269902316,
-      "grad_norm": 2.438185691833496,
-      "learning_rate": 0.00018600628522452798,
-      "loss": 2.6504,
-      "step": 3200
-    },
-    {
-      "epoch": 0.2499807707099454,
-      "grad_norm": 3.8275232315063477,
-      "learning_rate": 0.00018574656520271146,
-      "loss": 2.4848,
-      "step": 3250
-    },
-    {
-      "epoch": 0.2499807707099454,
-      "eval_loss": 2.4598114490509033,
-      "eval_runtime": 17.3676,
-      "eval_samples_per_second": 57.578,
-      "eval_steps_per_second": 14.395,
-      "step": 3250
-    },
-    {
-      "epoch": 0.25382662872086764,
-      "grad_norm": 2.3598976135253906,
-      "learning_rate": 0.000185486845180895,
-      "loss": 2.3763,
-      "step": 3300
-    },
-    {
-      "epoch": 0.2576724867317899,
-      "grad_norm": 2.642561912536621,
-      "learning_rate": 0.00018522712515907852,
-      "loss": 2.5,
-      "step": 3350
-    },
-    {
-      "epoch": 0.26151834474271207,
-      "grad_norm": 1.7602814435958862,
-      "learning_rate": 0.00018496740513726206,
-      "loss": 2.4706,
-      "step": 3400
-    },
-    {
-      "epoch": 0.2653642027536343,
-      "grad_norm": 1.542140245437622,
-      "learning_rate": 0.00018470768511544557,
-      "loss": 2.4107,
-      "step": 3450
-    },
-    {
-      "epoch": 0.26921006076455656,
-      "grad_norm": 1.7666794061660767,
-      "learning_rate": 0.00018444796509362908,
-      "loss": 2.4018,
-      "step": 3500
-    },
-    {
-      "epoch": 0.26921006076455656,
-      "eval_loss": 2.4329559803009033,
-      "eval_runtime": 17.3412,
-      "eval_samples_per_second": 57.666,
-      "eval_steps_per_second": 14.417,
-      "step": 3500
-    },
-    {
-      "epoch": 0.2730559187754788,
-      "grad_norm": 2.434197425842285,
-      "learning_rate": 0.0001841882450718126,
-      "loss": 2.4402,
-      "step": 3550
-    },
-    {
-      "epoch": 0.27690177678640104,
-      "grad_norm": 2.393425226211548,
-      "learning_rate": 0.0001839285250499961,
-      "loss": 2.4952,
-      "step": 3600
-    },
-    {
-      "epoch": 0.2807476347973233,
-      "grad_norm": 2.2749860286712646,
-      "learning_rate": 0.00018366880502817962,
-      "loss": 2.4638,
-      "step": 3650
-    },
-    {
-      "epoch": 0.28459349280824553,
-      "grad_norm": 1.988981008529663,
-      "learning_rate": 0.00018340908500636316,
-      "loss": 2.3414,
-      "step": 3700
-    },
-    {
-      "epoch": 0.2884393508191678,
-      "grad_norm": 2.1251513957977295,
-      "learning_rate": 0.00018314936498454667,
-      "loss": 2.4272,
-      "step": 3750
-    },
-    {
-      "epoch": 0.2884393508191678,
-      "eval_loss": 2.4050426483154297,
-      "eval_runtime": 17.2358,
-      "eval_samples_per_second": 58.019,
-      "eval_steps_per_second": 14.505,
-      "step": 3750
-    },
-    {
-      "epoch": 0.29228520883009,
-      "grad_norm": 2.7036380767822266,
-      "learning_rate": 0.00018288964496273019,
-      "loss": 2.3573,
-      "step": 3800
-    },
-    {
-      "epoch": 0.2961310668410122,
-      "grad_norm": 2.6849310398101807,
-      "learning_rate": 0.0001826299249409137,
-      "loss": 2.3911,
-      "step": 3850
-    },
-    {
-      "epoch": 0.29997692485193445,
-      "grad_norm": 3.012932777404785,
-      "learning_rate": 0.0001823702049190972,
-      "loss": 2.451,
-      "step": 3900
-    },
-    {
-      "epoch": 0.3038227828628567,
-      "grad_norm": 2.8903510570526123,
-      "learning_rate": 0.00018211048489728072,
-      "loss": 2.3306,
-      "step": 3950
-    },
-    {
-      "epoch": 0.30766864087377893,
-      "grad_norm": 1.4737602472305298,
-      "learning_rate": 0.00018185076487546426,
-      "loss": 2.3145,
-      "step": 4000
-    },
-    {
-      "epoch": 0.30766864087377893,
-      "eval_loss": 2.364640712738037,
-      "eval_runtime": 17.2167,
-      "eval_samples_per_second": 58.083,
-      "eval_steps_per_second": 14.521,
-      "step": 4000
-    },
-    {
-      "epoch": 0.3115144988847012,
-      "grad_norm": 1.781186819076538,
-      "learning_rate": 0.00018159104485364778,
-      "loss": 2.3993,
-      "step": 4050
-    },
-    {
-      "epoch": 0.3153603568956234,
-      "grad_norm": 2.6136422157287598,
-      "learning_rate": 0.0001813313248318313,
-      "loss": 2.3217,
-      "step": 4100
-    },
-    {
-      "epoch": 0.31920621490654566,
-      "grad_norm": 2.6466028690338135,
-      "learning_rate": 0.00018107160481001483,
-      "loss": 2.369,
-      "step": 4150
-    },
-    {
-      "epoch": 0.3230520729174679,
-      "grad_norm": 2.442426919937134,
-      "learning_rate": 0.00018081188478819832,
-      "loss": 2.3943,
-      "step": 4200
-    },
-    {
-      "epoch": 0.32689793092839015,
-      "grad_norm": 5.356844902038574,
-      "learning_rate": 0.00018055216476638186,
-      "loss": 2.39,
-      "step": 4250
-    },
-    {
-      "epoch": 0.32689793092839015,
-      "eval_loss": 2.3410093784332275,
-      "eval_runtime": 17.2633,
-      "eval_samples_per_second": 57.926,
-      "eval_steps_per_second": 14.482,
-      "step": 4250
-    },
-    {
-      "epoch": 0.33074378893931233,
-      "grad_norm": 1.8614141941070557,
-      "learning_rate": 0.00018029244474456537,
-      "loss": 2.3852,
-      "step": 4300
-    },
-    {
-      "epoch": 0.3345896469502346,
-      "grad_norm": 1.7005974054336548,
-      "learning_rate": 0.00018003272472274888,
-      "loss": 2.2891,
-      "step": 4350
-    },
-    {
-      "epoch": 0.3384355049611568,
-      "grad_norm": 2.0309245586395264,
-      "learning_rate": 0.00017977300470093242,
-      "loss": 2.3093,
-      "step": 4400
-    },
-    {
-      "epoch": 0.34228136297207906,
-      "grad_norm": 2.6562678813934326,
-      "learning_rate": 0.00017951328467911593,
-      "loss": 2.2637,
-      "step": 4450
-    },
-    {
-      "epoch": 0.3461272209830013,
-      "grad_norm": 1.352026343345642,
-      "learning_rate": 0.00017925356465729945,
-      "loss": 2.2263,
-      "step": 4500
-    },
-    {
-      "epoch": 0.3461272209830013,
-      "eval_loss": 2.2719833850860596,
-      "eval_runtime": 17.4568,
-      "eval_samples_per_second": 57.284,
-      "eval_steps_per_second": 14.321,
-      "step": 4500
-    },
-    {
-      "epoch": 0.34997307899392355,
-      "grad_norm": 2.6207292079925537,
-      "learning_rate": 0.00017899384463548296,
-      "loss": 2.325,
-      "step": 4550
-    },
-    {
-      "epoch": 0.3538189370048458,
-      "grad_norm": 1.9380669593811035,
-      "learning_rate": 0.00017873412461366647,
-      "loss": 2.3208,
-      "step": 4600
-    },
-    {
-      "epoch": 0.35766479501576803,
-      "grad_norm": 2.2287373542785645,
-      "learning_rate": 0.00017847440459184999,
-      "loss": 2.3115,
-      "step": 4650
-    },
-    {
-      "epoch": 0.3615106530266903,
-      "grad_norm": 2.3176259994506836,
-      "learning_rate": 0.00017821468457003353,
-      "loss": 2.2203,
-      "step": 4700
-    },
-    {
-      "epoch": 0.36535651103761246,
-      "grad_norm": 1.9587980508804321,
-      "learning_rate": 0.00017795496454821704,
-      "loss": 2.2162,
-      "step": 4750
-    },
-    {
-      "epoch": 0.36535651103761246,
-      "eval_loss": 2.263962984085083,
-      "eval_runtime": 17.2653,
-      "eval_samples_per_second": 57.92,
-      "eval_steps_per_second": 14.48,
-      "step": 4750
-    },
-    {
-      "epoch": 0.3692023690485347,
-      "grad_norm": 1.8225115537643433,
-      "learning_rate": 0.00017769524452640055,
-      "loss": 2.2906,
-      "step": 4800
-    },
-    {
-      "epoch": 0.37304822705945695,
-      "grad_norm": 2.2642672061920166,
-      "learning_rate": 0.00017743552450458406,
-      "loss": 2.2819,
-      "step": 4850
-    },
-    {
-      "epoch": 0.3768940850703792,
-      "grad_norm": 2.1667556762695312,
-      "learning_rate": 0.00017717580448276758,
-      "loss": 2.2756,
-      "step": 4900
-    },
-    {
-      "epoch": 0.38073994308130144,
-      "grad_norm": 2.112743854522705,
-      "learning_rate": 0.0001769160844609511,
-      "loss": 2.2583,
-      "step": 4950
-    },
-    {
-      "epoch": 0.3845858010922237,
-      "grad_norm": 3.304570436477661,
-      "learning_rate": 0.00017665636443913463,
-      "loss": 2.2407,
-      "step": 5000
-    },
-    {
-      "epoch": 0.3845858010922237,
-      "eval_loss": 2.229123830795288,
-      "eval_runtime": 17.1378,
-      "eval_samples_per_second": 58.351,
-      "eval_steps_per_second": 14.588,
-      "step": 5000
-    },
-    {
-      "epoch": 0.3884316591031459,
-      "grad_norm": 1.6103578805923462,
-      "learning_rate": 0.00017639664441731814,
-      "loss": 2.3529,
-      "step": 5050
-    },
-    {
-      "epoch": 0.39227751711406816,
-      "grad_norm": 1.2587641477584839,
-      "learning_rate": 0.00017613692439550165,
-      "loss": 2.2583,
-      "step": 5100
-    },
-    {
-      "epoch": 0.3961233751249904,
-      "grad_norm": 3.0143070220947266,
-      "learning_rate": 0.00017587720437368517,
-      "loss": 2.1529,
-      "step": 5150
-    },
-    {
-      "epoch": 0.39996923313591265,
-      "grad_norm": 2.145265579223633,
-      "learning_rate": 0.00017561748435186868,
-      "loss": 2.2835,
-      "step": 5200
-    },
-    {
-      "epoch": 0.40381509114683484,
-      "grad_norm": 1.7174979448318481,
-      "learning_rate": 0.00017535776433005222,
-      "loss": 2.2701,
-      "step": 5250
-    },
-    {
-      "epoch": 0.40381509114683484,
-      "eval_loss": 2.215972661972046,
-      "eval_runtime": 17.0477,
-      "eval_samples_per_second": 58.659,
-      "eval_steps_per_second": 14.665,
-      "step": 5250
-    },
-    {
-      "epoch": 0.4076609491577571,
-      "grad_norm": 1.8635681867599487,
-      "learning_rate": 0.00017509804430823573,
-      "loss": 2.1989,
-      "step": 5300
-    },
-    {
-      "epoch": 0.4115068071686793,
-      "grad_norm": 4.2349700927734375,
-      "learning_rate": 0.00017483832428641925,
-      "loss": 2.2203,
-      "step": 5350
-    },
-    {
-      "epoch": 0.41535266517960157,
-      "grad_norm": 2.0099525451660156,
-      "learning_rate": 0.00017457860426460279,
-      "loss": 2.2021,
-      "step": 5400
-    },
-    {
-      "epoch": 0.4191985231905238,
-      "grad_norm": 2.215400457382202,
-      "learning_rate": 0.00017431888424278627,
-      "loss": 2.1583,
-      "step": 5450
-    },
-    {
-      "epoch": 0.42304438120144605,
-      "grad_norm": 2.2177133560180664,
-      "learning_rate": 0.00017405916422096978,
-      "loss": 2.2502,
-      "step": 5500
-    },
-    {
-      "epoch": 0.42304438120144605,
-      "eval_loss": 2.16481876373291,
-      "eval_runtime": 17.3392,
-      "eval_samples_per_second": 57.673,
-      "eval_steps_per_second": 14.418,
-      "step": 5500
-    },
-    {
-      "epoch": 0.4268902392123683,
-      "grad_norm": 2.4246537685394287,
-      "learning_rate": 0.00017379944419915332,
-      "loss": 2.1506,
-      "step": 5550
-    },
-    {
-      "epoch": 0.43073609722329054,
-      "grad_norm": 2.5737595558166504,
-      "learning_rate": 0.00017353972417733684,
-      "loss": 2.1155,
-      "step": 5600
-    },
-    {
-      "epoch": 0.4345819552342128,
-      "grad_norm": 1.9406490325927734,
-      "learning_rate": 0.00017328000415552035,
-      "loss": 2.1716,
-      "step": 5650
-    },
-    {
-      "epoch": 0.43842781324513497,
-      "grad_norm": 1.8545359373092651,
-      "learning_rate": 0.0001730202841337039,
-      "loss": 2.3107,
-      "step": 5700
-    },
-    {
-      "epoch": 0.4422736712560572,
-      "grad_norm": 1.4506388902664185,
-      "learning_rate": 0.0001727605641118874,
-      "loss": 2.1839,
-      "step": 5750
-    },
-    {
-      "epoch": 0.4422736712560572,
-      "eval_loss": 2.1573686599731445,
-      "eval_runtime": 17.1406,
-      "eval_samples_per_second": 58.341,
-      "eval_steps_per_second": 14.585,
-      "step": 5750
-    },
-    {
-      "epoch": 0.44611952926697945,
-      "grad_norm": 2.4454505443573,
-      "learning_rate": 0.0001725008440900709,
-      "loss": 2.2399,
-      "step": 5800
-    },
-    {
-      "epoch": 0.4499653872779017,
-      "grad_norm": 1.7306182384490967,
-      "learning_rate": 0.00017224112406825443,
-      "loss": 2.2319,
-      "step": 5850
-    },
-    {
-      "epoch": 0.45381124528882394,
-      "grad_norm": 1.8138234615325928,
-      "learning_rate": 0.00017198140404643794,
-      "loss": 2.1173,
-      "step": 5900
-    },
-    {
-      "epoch": 0.4576571032997462,
-      "grad_norm": 1.6768412590026855,
-      "learning_rate": 0.00017172168402462148,
-      "loss": 2.2145,
-      "step": 5950
-    },
-    {
-      "epoch": 0.4615029613106684,
-      "grad_norm": 2.1484451293945312,
-      "learning_rate": 0.000171461964002805,
-      "loss": 2.171,
-      "step": 6000
-    },
-    {
-      "epoch": 0.4615029613106684,
-      "eval_loss": 2.1329145431518555,
-      "eval_runtime": 17.1772,
-      "eval_samples_per_second": 58.217,
-      "eval_steps_per_second": 14.554,
-      "step": 6000
-    },
-    {
-      "epoch": 0.46534881932159067,
-      "grad_norm": 2.217759609222412,
-      "learning_rate": 0.0001712022439809885,
-      "loss": 2.1679,
-      "step": 6050
-    },
-    {
-      "epoch": 0.4691946773325129,
-      "grad_norm": 1.4925270080566406,
-      "learning_rate": 0.00017094252395917202,
-      "loss": 2.1634,
-      "step": 6100
-    },
-    {
-      "epoch": 0.4730405353434351,
-      "grad_norm": 1.500253438949585,
-      "learning_rate": 0.00017068280393735553,
-      "loss": 2.1947,
-      "step": 6150
-    },
-    {
-      "epoch": 0.47688639335435734,
-      "grad_norm": 1.7444700002670288,
-      "learning_rate": 0.00017042308391553905,
-      "loss": 2.1864,
-      "step": 6200
-    },
-    {
-      "epoch": 0.4807322513652796,
-      "grad_norm": 2.21281099319458,
-      "learning_rate": 0.00017016336389372259,
-      "loss": 2.1346,
-      "step": 6250
-    },
-    {
-      "epoch": 0.4807322513652796,
-      "eval_loss": 2.1062209606170654,
-      "eval_runtime": 17.175,
-      "eval_samples_per_second": 58.224,
-      "eval_steps_per_second": 14.556,
-      "step": 6250
-    },
-    {
-      "epoch": 0.4845781093762018,
-      "grad_norm": 2.066366672515869,
-      "learning_rate": 0.0001699036438719061,
-      "loss": 2.1034,
-      "step": 6300
-    },
-    {
-      "epoch": 0.48842396738712407,
-      "grad_norm": 2.236504554748535,
-      "learning_rate": 0.0001696439238500896,
-      "loss": 2.1293,
-      "step": 6350
-    },
-    {
-      "epoch": 0.4922698253980463,
-      "grad_norm": 2.368986129760742,
-      "learning_rate": 0.00016938420382827312,
-      "loss": 2.2147,
-      "step": 6400
-    },
-    {
-      "epoch": 0.49611568340896856,
-      "grad_norm": 3.3609116077423096,
-      "learning_rate": 0.00016912448380645664,
-      "loss": 2.1395,
-      "step": 6450
-    },
-    {
-      "epoch": 0.4999615414198908,
-      "grad_norm": 1.7160570621490479,
-      "learning_rate": 0.00016886476378464015,
-      "loss": 2.0777,
-      "step": 6500
-    },
-    {
-      "epoch": 0.4999615414198908,
-      "eval_loss": 2.0895941257476807,
-      "eval_runtime": 17.0411,
-      "eval_samples_per_second": 58.682,
-      "eval_steps_per_second": 14.67,
-      "step": 6500
-    },
-    {
-      "epoch": 0.503807399430813,
-      "grad_norm": 2.2851459980010986,
-      "learning_rate": 0.0001686050437628237,
-      "loss": 2.155,
-      "step": 6550
-    },
-    {
-      "epoch": 0.5076532574417353,
-      "grad_norm": 3.6158559322357178,
-      "learning_rate": 0.0001683453237410072,
-      "loss": 2.1105,
-      "step": 6600
-    },
-    {
-      "epoch": 0.5114991154526575,
-      "grad_norm": 1.608955979347229,
-      "learning_rate": 0.00016808560371919072,
-      "loss": 2.0908,
-      "step": 6650
-    },
-    {
-      "epoch": 0.5153449734635798,
-      "grad_norm": 2.7433218955993652,
-      "learning_rate": 0.00016782588369737426,
-      "loss": 2.04,
-      "step": 6700
-    },
-    {
-      "epoch": 0.519190831474502,
-      "grad_norm": 3.286970376968384,
-      "learning_rate": 0.00016756616367555774,
-      "loss": 2.1608,
-      "step": 6750
-    },
-    {
-      "epoch": 0.519190831474502,
-      "eval_loss": 2.0548338890075684,
-      "eval_runtime": 17.3257,
-      "eval_samples_per_second": 57.718,
-      "eval_steps_per_second": 14.429,
-      "step": 6750
-    },
-    {
-      "epoch": 0.5230366894854241,
-      "grad_norm": 1.7461440563201904,
-      "learning_rate": 0.00016730644365374128,
-      "loss": 2.0562,
-      "step": 6800
-    },
-    {
-      "epoch": 0.5268825474963464,
-      "grad_norm": 3.4528918266296387,
-      "learning_rate": 0.0001670467236319248,
-      "loss": 2.0983,
-      "step": 6850
-    },
-    {
-      "epoch": 0.5307284055072686,
-      "grad_norm": 2.23818302154541,
-      "learning_rate": 0.0001667870036101083,
-      "loss": 2.0187,
-      "step": 6900
-    },
-    {
-      "epoch": 0.5345742635181909,
-      "grad_norm": 1.7558523416519165,
-      "learning_rate": 0.00016652728358829185,
-      "loss": 2.0996,
-      "step": 6950
-    },
-    {
-      "epoch": 0.5384201215291131,
-      "grad_norm": 1.8939173221588135,
-      "learning_rate": 0.00016626756356647536,
-      "loss": 2.0499,
-      "step": 7000
-    },
-    {
-      "epoch": 0.5384201215291131,
-      "eval_loss": 2.0413780212402344,
-      "eval_runtime": 17.1018,
-      "eval_samples_per_second": 58.473,
-      "eval_steps_per_second": 14.618,
-      "step": 7000
-    },
-    {
-      "epoch": 0.5422659795400354,
-      "grad_norm": 2.8039333820343018,
-      "learning_rate": 0.00016600784354465885,
-      "loss": 2.0606,
-      "step": 7050
-    },
-    {
-      "epoch": 0.5461118375509576,
-      "grad_norm": 1.4562283754348755,
-      "learning_rate": 0.00016574812352284239,
-      "loss": 2.1611,
-      "step": 7100
-    },
-    {
-      "epoch": 0.5499576955618799,
-      "grad_norm": 1.4812073707580566,
-      "learning_rate": 0.0001654884035010259,
-      "loss": 2.125,
-      "step": 7150
-    },
-    {
-      "epoch": 0.5538035535728021,
-      "grad_norm": 2.279209613800049,
-      "learning_rate": 0.0001652286834792094,
-      "loss": 2.0865,
-      "step": 7200
-    },
-    {
-      "epoch": 0.5576494115837243,
-      "grad_norm": 3.1694416999816895,
-      "learning_rate": 0.00016496896345739295,
-      "loss": 2.1783,
-      "step": 7250
-    },
-    {
-      "epoch": 0.5576494115837243,
-      "eval_loss": 2.0270566940307617,
-      "eval_runtime": 16.9999,
-      "eval_samples_per_second": 58.824,
-      "eval_steps_per_second": 14.706,
-      "step": 7250
-    },
-    {
-      "epoch": 0.5614952695946466,
-      "grad_norm": 2.7421817779541016,
-      "learning_rate": 0.00016470924343557646,
-      "loss": 2.0691,
-      "step": 7300
-    },
-    {
-      "epoch": 0.5653411276055688,
-      "grad_norm": 1.6490452289581299,
-      "learning_rate": 0.00016444952341375998,
-      "loss": 2.0467,
-      "step": 7350
-    },
-    {
-      "epoch": 0.5691869856164911,
-      "grad_norm": 2.1511409282684326,
-      "learning_rate": 0.0001641898033919435,
-      "loss": 2.0369,
-      "step": 7400
-    },
-    {
-      "epoch": 0.5730328436274132,
-      "grad_norm": 1.9185343980789185,
-      "learning_rate": 0.000163930083370127,
-      "loss": 2.1182,
-      "step": 7450
-    },
-    {
-      "epoch": 0.5768787016383355,
-      "grad_norm": 1.5140857696533203,
-      "learning_rate": 0.00016367036334831052,
-      "loss": 2.1145,
-      "step": 7500
-    },
-    {
-      "epoch": 0.5768787016383355,
-      "eval_loss": 2.016103744506836,
-      "eval_runtime": 17.1749,
-      "eval_samples_per_second": 58.225,
-      "eval_steps_per_second": 14.556,
-      "step": 7500
-    },
-    {
-      "epoch": 0.5807245596492577,
-      "grad_norm": 1.6893503665924072,
-      "learning_rate": 0.00016341064332649406,
-      "loss": 2.0415,
-      "step": 7550
-    },
-    {
-      "epoch": 0.58457041766018,
-      "grad_norm": 2.099968433380127,
-      "learning_rate": 0.00016315092330467757,
-      "loss": 1.9203,
-      "step": 7600
-    },
-    {
-      "epoch": 0.5884162756711022,
-      "grad_norm": 2.0659477710723877,
-      "learning_rate": 0.00016289120328286108,
-      "loss": 2.1188,
-      "step": 7650
-    },
-    {
-      "epoch": 0.5922621336820244,
-      "grad_norm": 1.599091649055481,
-      "learning_rate": 0.0001626314832610446,
-      "loss": 1.9583,
-      "step": 7700
-    },
-    {
-      "epoch": 0.5961079916929467,
-      "grad_norm": 2.5325448513031006,
-      "learning_rate": 0.0001623717632392281,
-      "loss": 2.088,
-      "step": 7750
-    },
-    {
-      "epoch": 0.5961079916929467,
-      "eval_loss": 1.9883803129196167,
-      "eval_runtime": 17.4065,
-      "eval_samples_per_second": 57.45,
-      "eval_steps_per_second": 14.362,
-      "step": 7750
-    },
-    {
-      "epoch": 0.5999538497038689,
-      "grad_norm": 1.6605775356292725,
-      "learning_rate": 0.00016211204321741165,
-      "loss": 2.0767,
-      "step": 7800
-    },
-    {
-      "epoch": 0.6037997077147912,
-      "grad_norm": 1.4154255390167236,
-      "learning_rate": 0.00016185232319559516,
-      "loss": 1.9914,
-      "step": 7850
-    },
-    {
-      "epoch": 0.6076455657257134,
-      "grad_norm": 1.7516275644302368,
-      "learning_rate": 0.00016159260317377867,
-      "loss": 2.0046,
-      "step": 7900
-    },
-    {
-      "epoch": 0.6114914237366357,
-      "grad_norm": 1.6723463535308838,
-      "learning_rate": 0.0001613328831519622,
-      "loss": 2.0312,
-      "step": 7950
-    },
-    {
-      "epoch": 0.6153372817475579,
-      "grad_norm": 2.417466163635254,
-      "learning_rate": 0.0001610731631301457,
-      "loss": 2.1176,
-      "step": 8000
-    },
-    {
-      "epoch": 0.6153372817475579,
-      "eval_loss": 1.9759701490402222,
-      "eval_runtime": 17.031,
-      "eval_samples_per_second": 58.717,
-      "eval_steps_per_second": 14.679,
-      "step": 8000
-    },
-    {
-      "epoch": 0.6191831397584802,
-      "grad_norm": 2.4189867973327637,
-      "learning_rate": 0.0001608134431083292,
-      "loss": 1.9562,
-      "step": 8050
-    },
-    {
-      "epoch": 0.6230289977694023,
-      "grad_norm": 2.1052446365356445,
-      "learning_rate": 0.00016055372308651275,
-      "loss": 2.0396,
-      "step": 8100
-    },
-    {
-      "epoch": 0.6268748557803245,
-      "grad_norm": 2.675004482269287,
-      "learning_rate": 0.00016029400306469626,
-      "loss": 2.0172,
-      "step": 8150
-    },
-    {
-      "epoch": 0.6307207137912468,
-      "grad_norm": 3.2394967079162598,
-      "learning_rate": 0.00016003947744331611,
-      "loss": 2.0258,
-      "step": 8200
-    },
-    {
-      "epoch": 0.634566571802169,
-      "grad_norm": 1.610350489616394,
-      "learning_rate": 0.00015977975742149963,
-      "loss": 1.9348,
-      "step": 8250
-    },
-    {
-      "epoch": 0.634566571802169,
-      "eval_loss": 1.9506243467330933,
-      "eval_runtime": 17.1568,
-      "eval_samples_per_second": 58.286,
-      "eval_steps_per_second": 14.571,
-      "step": 8250
-    },
-    {
-      "epoch": 0.6384124298130913,
-      "grad_norm": 2.4209282398223877,
-      "learning_rate": 0.00015952003739968314,
-      "loss": 1.9787,
-      "step": 8300
-    },
-    {
-      "epoch": 0.6422582878240135,
-      "grad_norm": 1.3403830528259277,
-      "learning_rate": 0.00015926031737786665,
-      "loss": 1.9947,
-      "step": 8350
-    },
-    {
-      "epoch": 0.6461041458349358,
-      "grad_norm": 1.963592290878296,
-      "learning_rate": 0.0001590005973560502,
-      "loss": 1.9534,
-      "step": 8400
-    },
-    {
-      "epoch": 0.649950003845858,
-      "grad_norm": 1.5136828422546387,
-      "learning_rate": 0.0001587408773342337,
-      "loss": 1.9946,
-      "step": 8450
-    },
-    {
-      "epoch": 0.6537958618567803,
-      "grad_norm": 2.382208824157715,
-      "learning_rate": 0.00015848115731241722,
-      "loss": 2.1216,
-      "step": 8500
-    },
-    {
-      "epoch": 0.6537958618567803,
-      "eval_loss": 1.9431382417678833,
-      "eval_runtime": 17.244,
-      "eval_samples_per_second": 57.991,
-      "eval_steps_per_second": 14.498,
-      "step": 8500
-    },
-    {
-      "epoch": 0.6576417198677025,
-      "grad_norm": 1.2141226530075073,
-      "learning_rate": 0.00015822143729060076,
-      "loss": 1.9762,
-      "step": 8550
-    },
-    {
-      "epoch": 0.6614875778786247,
-      "grad_norm": 2.0325729846954346,
-      "learning_rate": 0.00015796171726878427,
-      "loss": 1.9871,
-      "step": 8600
-    },
-    {
-      "epoch": 0.665333435889547,
-      "grad_norm": 1.6352391242980957,
-      "learning_rate": 0.00015770199724696776,
-      "loss": 1.9289,
-      "step": 8650
-    },
-    {
-      "epoch": 0.6691792939004692,
-      "grad_norm": 1.546341896057129,
-      "learning_rate": 0.0001574422772251513,
-      "loss": 1.9499,
-      "step": 8700
-    },
-    {
-      "epoch": 0.6730251519113915,
-      "grad_norm": 2.183812141418457,
-      "learning_rate": 0.0001571825572033348,
-      "loss": 1.9727,
-      "step": 8750
-    },
-    {
-      "epoch": 0.6730251519113915,
-      "eval_loss": 1.9287711381912231,
-      "eval_runtime": 17.0409,
-      "eval_samples_per_second": 58.682,
-      "eval_steps_per_second": 14.671,
-      "step": 8750
-    },
-    {
-      "epoch": 0.6768710099223136,
-      "grad_norm": 2.3215548992156982,
-      "learning_rate": 0.00015692283718151832,
-      "loss": 2.0059,
-      "step": 8800
-    },
-    {
-      "epoch": 0.6807168679332359,
-      "grad_norm": 1.9137969017028809,
-      "learning_rate": 0.00015666311715970186,
-      "loss": 1.9883,
-      "step": 8850
-    },
-    {
-      "epoch": 0.6845627259441581,
-      "grad_norm": 2.4092469215393066,
-      "learning_rate": 0.00015640339713788538,
-      "loss": 1.9236,
-      "step": 8900
-    },
-    {
-      "epoch": 0.6884085839550804,
-      "grad_norm": 2.448526620864868,
-      "learning_rate": 0.0001561436771160689,
-      "loss": 1.9178,
-      "step": 8950
-    },
-    {
-      "epoch": 0.6922544419660026,
-      "grad_norm": 1.0038529634475708,
-      "learning_rate": 0.0001558839570942524,
-      "loss": 1.8992,
-      "step": 9000
-    },
-    {
-      "epoch": 0.6922544419660026,
-      "eval_loss": 1.902275800704956,
-      "eval_runtime": 16.9573,
-      "eval_samples_per_second": 58.972,
-      "eval_steps_per_second": 14.743,
-      "step": 9000
-    },
-    {
-      "epoch": 0.6961002999769248,
-      "grad_norm": 3.6892011165618896,
-      "learning_rate": 0.00015562423707243591,
-      "loss": 1.9551,
-      "step": 9050
-    },
-    {
-      "epoch": 0.6999461579878471,
-      "grad_norm": 1.524671196937561,
-      "learning_rate": 0.00015536451705061943,
-      "loss": 1.9109,
-      "step": 9100
-    },
-    {
-      "epoch": 0.7037920159987693,
-      "grad_norm": 1.5293575525283813,
-      "learning_rate": 0.00015510479702880297,
-      "loss": 1.8891,
-      "step": 9150
-    },
-    {
-      "epoch": 0.7076378740096916,
-      "grad_norm": 2.321476697921753,
-      "learning_rate": 0.00015484507700698648,
-      "loss": 1.9021,
-      "step": 9200
-    },
-    {
-      "epoch": 0.7114837320206138,
-      "grad_norm": 2.710942029953003,
-      "learning_rate": 0.00015458535698517,
-      "loss": 1.9414,
-      "step": 9250
-    },
-    {
-      "epoch": 0.7114837320206138,
-      "eval_loss": 1.9107917547225952,
-      "eval_runtime": 16.997,
-      "eval_samples_per_second": 58.834,
-      "eval_steps_per_second": 14.708,
-      "step": 9250
-    },
-    {
-      "epoch": 0.7153295900315361,
-      "grad_norm": 1.9385954141616821,
-      "learning_rate": 0.0001543256369633535,
-      "loss": 1.9401,
-      "step": 9300
-    },
-    {
-      "epoch": 0.7191754480424583,
-      "grad_norm": 2.589629650115967,
-      "learning_rate": 0.00015406591694153702,
-      "loss": 1.9054,
-      "step": 9350
-    },
-    {
-      "epoch": 0.7230213060533806,
-      "grad_norm": 1.6431207656860352,
-      "learning_rate": 0.00015380619691972056,
-      "loss": 1.9324,
-      "step": 9400
-    },
-    {
-      "epoch": 0.7268671640643027,
-      "grad_norm": 4.840892314910889,
-      "learning_rate": 0.00015354647689790407,
-      "loss": 1.993,
-      "step": 9450
-    },
-    {
-      "epoch": 0.7307130220752249,
-      "grad_norm": 0.9328492879867554,
-      "learning_rate": 0.00015328675687608758,
-      "loss": 1.8637,
-      "step": 9500
-    },
-    {
-      "epoch": 0.7307130220752249,
-      "eval_loss": 1.8725571632385254,
-      "eval_runtime": 16.9918,
-      "eval_samples_per_second": 58.852,
-      "eval_steps_per_second": 14.713,
-      "step": 9500
-    },
-    {
-      "epoch": 0.7345588800861472,
-      "grad_norm": 1.6844549179077148,
-      "learning_rate": 0.00015302703685427112,
-      "loss": 1.8262,
-      "step": 9550
-    },
-    {
-      "epoch": 0.7384047380970694,
-      "grad_norm": 2.512157678604126,
-      "learning_rate": 0.0001527673168324546,
-      "loss": 1.9319,
-      "step": 9600
-    },
-    {
-      "epoch": 0.7422505961079917,
-      "grad_norm": 1.3238016366958618,
-      "learning_rate": 0.00015250759681063812,
-      "loss": 1.9001,
-      "step": 9650
-    },
-    {
-      "epoch": 0.7460964541189139,
-      "grad_norm": 1.83181631565094,
-      "learning_rate": 0.00015224787678882166,
-      "loss": 1.8324,
-      "step": 9700
-    },
-    {
-      "epoch": 0.7499423121298362,
-      "grad_norm": 1.6106966733932495,
-      "learning_rate": 0.00015198815676700518,
-      "loss": 1.9535,
-      "step": 9750
-    },
-    {
-      "epoch": 0.7499423121298362,
-      "eval_loss": 1.873831033706665,
-      "eval_runtime": 17.0343,
-      "eval_samples_per_second": 58.705,
-      "eval_steps_per_second": 14.676,
-      "step": 9750
-    },
-    {
-      "epoch": 0.7537881701407584,
-      "grad_norm": 2.3586697578430176,
-      "learning_rate": 0.0001517284367451887,
-      "loss": 1.858,
-      "step": 9800
-    },
-    {
-      "epoch": 0.7576340281516807,
-      "grad_norm": 0.7499716877937317,
-      "learning_rate": 0.00015146871672337223,
-      "loss": 1.866,
-      "step": 9850
-    },
-    {
-      "epoch": 0.7614798861626029,
-      "grad_norm": 1.3573709726333618,
-      "learning_rate": 0.00015120899670155574,
-      "loss": 1.8636,
-      "step": 9900
-    },
-    {
-      "epoch": 0.7653257441735252,
-      "grad_norm": 2.271859884262085,
-      "learning_rate": 0.00015094927667973923,
-      "loss": 1.8625,
-      "step": 9950
-    },
-    {
-      "epoch": 0.7691716021844474,
-      "grad_norm": 1.8813310861587524,
-      "learning_rate": 0.00015068955665792277,
-      "loss": 1.9318,
-      "step": 10000
-    },
-    {
-      "epoch": 0.7691716021844474,
-      "eval_loss": 1.8548085689544678,
-      "eval_runtime": 17.0223,
-      "eval_samples_per_second": 58.746,
-      "eval_steps_per_second": 14.687,
-      "step": 10000
-    },
-    {
-      "epoch": 0.7730174601953695,
-      "grad_norm": 1.4667410850524902,
-      "learning_rate": 0.00015042983663610628,
-      "loss": 1.9318,
-      "step": 10050
-    },
-    {
-      "epoch": 0.7768633182062918,
-      "grad_norm": 2.0754499435424805,
-      "learning_rate": 0.00015017011661428982,
-      "loss": 1.753,
-      "step": 10100
-    },
-    {
-      "epoch": 0.780709176217214,
-      "grad_norm": 1.634293794631958,
-      "learning_rate": 0.00014991039659247333,
-      "loss": 1.9328,
-      "step": 10150
-    },
-    {
-      "epoch": 0.7845550342281363,
-      "grad_norm": 1.5003916025161743,
-      "learning_rate": 0.00014965067657065684,
-      "loss": 1.8237,
-      "step": 10200
-    },
-    {
-      "epoch": 0.7884008922390585,
-      "grad_norm": 1.7433470487594604,
-      "learning_rate": 0.00014939095654884036,
-      "loss": 1.859,
-      "step": 10250
-    },
-    {
-      "epoch": 0.7884008922390585,
-      "eval_loss": 1.842873215675354,
-      "eval_runtime": 16.9242,
-      "eval_samples_per_second": 59.087,
-      "eval_steps_per_second": 14.772,
-      "step": 10250
-    },
-    {
-      "epoch": 0.7922467502499808,
-      "grad_norm": 1.8703033924102783,
-      "learning_rate": 0.00014913123652702387,
-      "loss": 1.9019,
-      "step": 10300
-    },
-    {
-      "epoch": 0.796092608260903,
-      "grad_norm": 1.1216288805007935,
-      "learning_rate": 0.00014887151650520738,
-      "loss": 1.9812,
-      "step": 10350
-    },
-    {
-      "epoch": 0.7999384662718253,
-      "grad_norm": 3.2229816913604736,
-      "learning_rate": 0.00014861179648339092,
-      "loss": 1.7986,
-      "step": 10400
-    },
-    {
-      "epoch": 0.8037843242827475,
-      "grad_norm": 2.366506814956665,
-      "learning_rate": 0.00014835207646157444,
-      "loss": 1.8995,
-      "step": 10450
-    },
-    {
-      "epoch": 0.8076301822936697,
-      "grad_norm": 2.0333054065704346,
-      "learning_rate": 0.00014809235643975795,
-      "loss": 1.916,
-      "step": 10500
-    },
-    {
-      "epoch": 0.8076301822936697,
-      "eval_loss": 1.8220328092575073,
-      "eval_runtime": 17.063,
-      "eval_samples_per_second": 58.606,
-      "eval_steps_per_second": 14.652,
-      "step": 10500
-    },
-    {
-      "epoch": 0.811476040304592,
-      "grad_norm": 1.8630917072296143,
-      "learning_rate": 0.00014783263641794146,
-      "loss": 1.9692,
-      "step": 10550
-    },
-    {
-      "epoch": 0.8153218983155142,
-      "grad_norm": 1.744325876235962,
-      "learning_rate": 0.00014757291639612497,
-      "loss": 1.8893,
-      "step": 10600
-    },
-    {
-      "epoch": 0.8191677563264365,
-      "grad_norm": 1.8451564311981201,
-      "learning_rate": 0.0001473131963743085,
-      "loss": 1.7862,
-      "step": 10650
-    },
-    {
-      "epoch": 0.8230136143373586,
-      "grad_norm": 1.9895585775375366,
-      "learning_rate": 0.00014705347635249203,
-      "loss": 1.9978,
-      "step": 10700
-    },
-    {
-      "epoch": 0.8268594723482809,
-      "grad_norm": 2.574155330657959,
-      "learning_rate": 0.00014679375633067554,
-      "loss": 1.8705,
-      "step": 10750
-    },
-    {
-      "epoch": 0.8268594723482809,
-      "eval_loss": 1.8234485387802124,
-      "eval_runtime": 17.061,
-      "eval_samples_per_second": 58.613,
-      "eval_steps_per_second": 14.653,
-      "step": 10750
-    },
-    {
-      "epoch": 0.8307053303592031,
-      "grad_norm": 1.347955584526062,
-      "learning_rate": 0.00014653403630885905,
-      "loss": 1.7948,
-      "step": 10800
-    },
-    {
-      "epoch": 0.8345511883701254,
-      "grad_norm": 2.8867287635803223,
-      "learning_rate": 0.00014627431628704257,
-      "loss": 1.8986,
-      "step": 10850
-    },
-    {
-      "epoch": 0.8383970463810476,
-      "grad_norm": 2.692473888397217,
-      "learning_rate": 0.00014601459626522608,
-      "loss": 1.9209,
-      "step": 10900
-    },
-    {
-      "epoch": 0.8422429043919698,
-      "grad_norm": 1.7835667133331299,
-      "learning_rate": 0.00014575487624340962,
-      "loss": 1.8406,
-      "step": 10950
-    },
-    {
-      "epoch": 0.8460887624028921,
-      "grad_norm": 1.8864330053329468,
-      "learning_rate": 0.00014549515622159313,
-      "loss": 1.8001,
-      "step": 11000
-    },
-    {
-      "epoch": 0.8460887624028921,
-      "eval_loss": 1.807216763496399,
-      "eval_runtime": 17.2188,
-      "eval_samples_per_second": 58.076,
-      "eval_steps_per_second": 14.519,
-      "step": 11000
-    },
-    {
-      "epoch": 0.8499346204138143,
-      "grad_norm": 2.47654128074646,
-      "learning_rate": 0.00014523543619977664,
-      "loss": 1.8003,
-      "step": 11050
-    },
-    {
-      "epoch": 0.8537804784247366,
-      "grad_norm": 1.6507407426834106,
-      "learning_rate": 0.00014497571617796018,
-      "loss": 1.8999,
-      "step": 11100
-    },
-    {
-      "epoch": 0.8576263364356588,
-      "grad_norm": 1.4758163690567017,
-      "learning_rate": 0.0001447159961561437,
-      "loss": 1.837,
-      "step": 11150
-    },
-    {
-      "epoch": 0.8614721944465811,
-      "grad_norm": 2.2486917972564697,
-      "learning_rate": 0.00014445627613432718,
-      "loss": 1.8501,
-      "step": 11200
-    },
-    {
-      "epoch": 0.8653180524575033,
-      "grad_norm": 1.682785987854004,
-      "learning_rate": 0.00014419655611251072,
-      "loss": 1.8486,
-      "step": 11250
-    },
-    {
-      "epoch": 0.8653180524575033,
-      "eval_loss": 1.8015695810317993,
-      "eval_runtime": 16.9649,
-      "eval_samples_per_second": 58.945,
-      "eval_steps_per_second": 14.736,
-      "step": 11250
-    },
-    {
-      "epoch": 0.8691639104684256,
-      "grad_norm": 1.687892198562622,
-      "learning_rate": 0.00014393683609069424,
-      "loss": 1.8196,
-      "step": 11300
-    },
-    {
-      "epoch": 0.8730097684793477,
-      "grad_norm": 1.6149276494979858,
-      "learning_rate": 0.00014367711606887775,
-      "loss": 1.829,
-      "step": 11350
-    },
-    {
-      "epoch": 0.8768556264902699,
-      "grad_norm": 1.2599520683288574,
-      "learning_rate": 0.0001434173960470613,
-      "loss": 1.8398,
-      "step": 11400
-    },
-    {
-      "epoch": 0.8807014845011922,
-      "grad_norm": 2.5826971530914307,
-      "learning_rate": 0.0001431576760252448,
-      "loss": 1.8362,
-      "step": 11450
-    },
-    {
-      "epoch": 0.8845473425121144,
-      "grad_norm": 1.9814509153366089,
-      "learning_rate": 0.00014289795600342831,
-      "loss": 1.7922,
-      "step": 11500
-    },
-    {
-      "epoch": 0.8845473425121144,
-      "eval_loss": 1.792478322982788,
-      "eval_runtime": 16.8513,
-      "eval_samples_per_second": 59.343,
-      "eval_steps_per_second": 14.836,
-      "step": 11500
     }
   ],
   "logging_steps": 50,

 {
+  "best_global_step": 500,
+  "best_metric": 3.3119897842407227,
+  "best_model_checkpoint": "./ar-diffusion-checkpoints-progressive-attention/checkpoint-500",
+  "epoch": 0.038458580109222366,
   "eval_steps": 250,
+  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.003845858010922237,
+      "grad_norm": 13.142335891723633,
       "learning_rate": 1.84e-05,
+      "loss": 12.0117,
       "step": 50
     },
     {
       "epoch": 0.007691716021844474,
+      "grad_norm": 5.153238296508789,
       "learning_rate": 3.8e-05,
+      "loss": 5.8408,
       "step": 100
     },
     {
       "epoch": 0.01153757403276671,
+      "grad_norm": 7.471889019012451,
       "learning_rate": 5.8e-05,
+      "loss": 4.5173,
       "step": 150
     },
     {
       "epoch": 0.015383432043688947,
+      "grad_norm": 4.756172180175781,
       "learning_rate": 7.800000000000001e-05,
+      "loss": 3.8946,
       "step": 200
     },
     {
       "epoch": 0.019229290054611183,
+      "grad_norm": 4.0329108238220215,
       "learning_rate": 9.8e-05,
+      "loss": 3.842,
       "step": 250
     },
     {
       "epoch": 0.019229290054611183,
+      "eval_loss": 3.7754223346710205,
+      "eval_runtime": 18.0149,
+      "eval_samples_per_second": 55.51,
+      "eval_steps_per_second": 13.877,
       "step": 250
     },
     {
       "epoch": 0.02307514806553342,
+      "grad_norm": 7.410353660583496,
       "learning_rate": 0.000118,
+      "loss": 3.5501,
       "step": 300
     },
     {
       "epoch": 0.02692100607645566,
+      "grad_norm": 4.085294246673584,
       "learning_rate": 0.000138,
+      "loss": 3.4015,
       "step": 350
     },
     {
       "epoch": 0.030766864087377895,
+      "grad_norm": 5.78131103515625,
       "learning_rate": 0.00015800000000000002,
+      "loss": 3.4988,
       "step": 400
     },
     {
       "epoch": 0.03461272209830013,
+      "grad_norm": 3.2009644508361816,
       "learning_rate": 0.00017800000000000002,
+      "loss": 3.4145,
       "step": 450
     },
     {
       "epoch": 0.038458580109222366,
+      "grad_norm": 4.380056858062744,
       "learning_rate": 0.00019800000000000002,
+      "loss": 3.3179,
       "step": 500
     },
     {
       "epoch": 0.038458580109222366,
+      "eval_loss": 3.3119897842407227,
+      "eval_runtime": 17.9539,
+      "eval_samples_per_second": 55.698,
+      "eval_steps_per_second": 13.925,
       "step": 500
     }
   ],
   "logging_steps": 50,

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:367750933f78aafb430c2f507a07ed55588492c9b7b6203a463a9c07c3d92fb6
 size 5432

 version https://git-lfs.github.com/spec/v1
+oid sha256:e44af272c49f1414968320d715761884d929c74fc3d44815afabe4a9422f97fb
 size 5432