Training in progress, step 12000, checkpoint

Browse files

Files changed (12) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +2 -2
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +2 -2
last-checkpoint/rng_state_4.pth +2 -2
last-checkpoint/rng_state_5.pth +2 -2
last-checkpoint/rng_state_6.pth +2 -2
last-checkpoint/rng_state_7.pth +2 -2
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +702 -2

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f780082d28637030284ffc574043a34ddaa98ada59f8a3be1bfdb021c71c2bad
 size 737582948

 version https://git-lfs.github.com/spec/v1
+oid sha256:b198e43aac6859985d7c9cb18c2860594033b256136cc0b0e915d584614c895c
 size 737582948

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e671142c88647d06eb6e0a94f1a24408c862ffed004bb1ca30f0573a2d1c7012
 size 1475256250

 version https://git-lfs.github.com/spec/v1
+oid sha256:64ec40cbe8543eb2855a915aee21dd1f77e088ec666a079a32133adde9da7af4
 size 1475256250

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc0e9f2e59db7655969dde1769cc75a30dad30f3fb3535bb1fb168c359c23919
-size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:ae238f666763a7993ec652c03f60677cb3de9003ea7ee1bc1dac41c2065a9c25
+size 15920

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cd453d78ea5ca1a82b6f584465a57ad489bfab9616cbdb9a319d2dab9ab08613
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:d5ab92b6e335feba5c54de89db3c87b707994c34e8ae94b68ceaf1c0e44c4698
 size 15920

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4f12a9c4c1465a704b7b3eaf4aa2d8035411567425c5ecce8b3c4ae7135320de
 size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:2632a9a94c203af7029ed1ba1b5fb0c1a8126e97bbd443fb5dba117f62e54913
 size 15920

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:239b5759365c936b114c9dcc21e7ab09914f3a9a4c108de0bdb1302b0f35c2e7
-size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:add85b850cbfe5b8cf5c4f2e6f71a61a7d77d12000e589671d2903fa92c8b4c3
+size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ca26abb54fe1044979e1329080f72484b4242cf1804164290d4589e9fdbb36c
-size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:7645a2766e30c501c310ca2b1baf3bd1106ec431388b54ca1a7f2f6cc5531dbd
+size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c8981e55cd625904ad1dee349576a81728c47048cacc714333032c180a5a297e
-size 15920

 version https://git-lfs.github.com/spec/v1
+oid sha256:cad911d83e601a147b8872de9ba34bade0b9837051abcd270f992115bb282348
+size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:65a2dd7e2640e0c36b079249689491f8727a8030baf600b1fd43563b4bdc8180
-size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:36c25b50d403f4b10a416c3c4294b21a8f3a8f0d8b348d5a613cd951ffd7b66c
+size 15920

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:735fc97734689aa61f8105f95f09470f72d267ae593ce19591b5e87bb4d95bbc
-size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:f4aa3be7aba10932fe3b181dbc7c647b64be83ff98de84fe2b9cd6b26e86aafe
+size 15920

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:79f4d900a561875f28344d42b001a83b1900f32917ac0099a98da66cf1c47ef8
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:4297fd04c7ed2579ce63e17f4b5a76a418be4b988ee50b810797fa07318b7ac1
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 5.598259319957358,
   "eval_steps": 500,
-  "global_step": 11000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -7707,6 +7707,706 @@
       "learning_rate": 4.98437306883095e-05,
       "loss": 0.682,
       "step": 11000
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 6.106922942290251,
   "eval_steps": 500,
+  "global_step": 12000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 4.98437306883095e-05,
       "loss": 0.682,
       "step": 11000
+    },
+    {
+      "epoch": 5.603350888637847,
+      "grad_norm": 0.10835061222314835,
+      "learning_rate": 4.9843588625298863e-05,
+      "loss": 0.6829,
+      "step": 11010
+    },
+    {
+      "epoch": 5.6084424573183345,
+      "grad_norm": 0.1209336370229721,
+      "learning_rate": 4.9843446562288236e-05,
+      "loss": 0.6808,
+      "step": 11020
+    },
+    {
+      "epoch": 5.613534025998822,
+      "grad_norm": 0.12438962608575821,
+      "learning_rate": 4.984330449927761e-05,
+      "loss": 0.6768,
+      "step": 11030
+    },
+    {
+      "epoch": 5.618625594679311,
+      "grad_norm": 0.1364268809556961,
+      "learning_rate": 4.984316243626698e-05,
+      "loss": 0.6781,
+      "step": 11040
+    },
+    {
+      "epoch": 5.623717163359799,
+      "grad_norm": 0.11569849401712418,
+      "learning_rate": 4.9843020373256356e-05,
+      "loss": 0.6825,
+      "step": 11050
+    },
+    {
+      "epoch": 5.628808732040287,
+      "grad_norm": 0.10072596371173859,
+      "learning_rate": 4.984287831024573e-05,
+      "loss": 0.6764,
+      "step": 11060
+    },
+    {
+      "epoch": 5.633900300720775,
+      "grad_norm": 0.15180449187755585,
+      "learning_rate": 4.98427362472351e-05,
+      "loss": 0.6782,
+      "step": 11070
+    },
+    {
+      "epoch": 5.638991869401263,
+      "grad_norm": 0.14204277098178864,
+      "learning_rate": 4.9842594184224475e-05,
+      "loss": 0.6806,
+      "step": 11080
+    },
+    {
+      "epoch": 5.6440834380817515,
+      "grad_norm": 0.12409929186105728,
+      "learning_rate": 4.984245212121385e-05,
+      "loss": 0.6806,
+      "step": 11090
+    },
+    {
+      "epoch": 5.649175006762239,
+      "grad_norm": 0.1692194640636444,
+      "learning_rate": 4.9842310058203215e-05,
+      "loss": 0.6723,
+      "step": 11100
+    },
+    {
+      "epoch": 5.654266575442728,
+      "grad_norm": 0.2566402852535248,
+      "learning_rate": 4.984216799519259e-05,
+      "loss": 0.6845,
+      "step": 11110
+    },
+    {
+      "epoch": 5.659358144123216,
+      "grad_norm": 0.13745322823524475,
+      "learning_rate": 4.984202593218196e-05,
+      "loss": 0.6748,
+      "step": 11120
+    },
+    {
+      "epoch": 5.664449712803704,
+      "grad_norm": 0.16598811745643616,
+      "learning_rate": 4.9841883869171334e-05,
+      "loss": 0.6798,
+      "step": 11130
+    },
+    {
+      "epoch": 5.669541281484192,
+      "grad_norm": 0.13570183515548706,
+      "learning_rate": 4.984174180616071e-05,
+      "loss": 0.6797,
+      "step": 11140
+    },
+    {
+      "epoch": 5.674632850164681,
+      "grad_norm": 0.17549622058868408,
+      "learning_rate": 4.984159974315008e-05,
+      "loss": 0.6773,
+      "step": 11150
+    },
+    {
+      "epoch": 5.6797244188451685,
+      "grad_norm": 0.15479332208633423,
+      "learning_rate": 4.984145768013945e-05,
+      "loss": 0.6795,
+      "step": 11160
+    },
+    {
+      "epoch": 5.684815987525656,
+      "grad_norm": 0.1562296450138092,
+      "learning_rate": 4.9841315617128826e-05,
+      "loss": 0.6803,
+      "step": 11170
+    },
+    {
+      "epoch": 5.689907556206145,
+      "grad_norm": 0.13014480471611023,
+      "learning_rate": 4.98411735541182e-05,
+      "loss": 0.6793,
+      "step": 11180
+    },
+    {
+      "epoch": 5.694999124886633,
+      "grad_norm": 0.1577223241329193,
+      "learning_rate": 4.984103149110757e-05,
+      "loss": 0.6845,
+      "step": 11190
+    },
+    {
+      "epoch": 5.700090693567121,
+      "grad_norm": 0.14906632900238037,
+      "learning_rate": 4.9840889428096946e-05,
+      "loss": 0.6771,
+      "step": 11200
+    },
+    {
+      "epoch": 5.705182262247609,
+      "grad_norm": 0.15042632818222046,
+      "learning_rate": 4.984074736508632e-05,
+      "loss": 0.6737,
+      "step": 11210
+    },
+    {
+      "epoch": 5.710273830928098,
+      "grad_norm": 0.1530093252658844,
+      "learning_rate": 4.9840605302075685e-05,
+      "loss": 0.6804,
+      "step": 11220
+    },
+    {
+      "epoch": 5.715365399608586,
+      "grad_norm": 0.18300846219062805,
+      "learning_rate": 4.984046323906506e-05,
+      "loss": 0.6752,
+      "step": 11230
+    },
+    {
+      "epoch": 5.720456968289074,
+      "grad_norm": 0.14398545026779175,
+      "learning_rate": 4.9840321176054424e-05,
+      "loss": 0.6793,
+      "step": 11240
+    },
+    {
+      "epoch": 5.725548536969562,
+      "grad_norm": 0.12745435535907745,
+      "learning_rate": 4.98401791130438e-05,
+      "loss": 0.6765,
+      "step": 11250
+    },
+    {
+      "epoch": 5.73064010565005,
+      "grad_norm": 0.15162277221679688,
+      "learning_rate": 4.984003705003317e-05,
+      "loss": 0.6744,
+      "step": 11260
+    },
+    {
+      "epoch": 5.735731674330538,
+      "grad_norm": 0.12970998883247375,
+      "learning_rate": 4.9839894987022544e-05,
+      "loss": 0.6818,
+      "step": 11270
+    },
+    {
+      "epoch": 5.740823243011026,
+      "grad_norm": 0.1195228323340416,
+      "learning_rate": 4.983975292401192e-05,
+      "loss": 0.6749,
+      "step": 11280
+    },
+    {
+      "epoch": 5.745914811691515,
+      "grad_norm": 0.14821238815784454,
+      "learning_rate": 4.983961086100129e-05,
+      "loss": 0.6759,
+      "step": 11290
+    },
+    {
+      "epoch": 5.751006380372003,
+      "grad_norm": 0.18345175683498383,
+      "learning_rate": 4.983946879799066e-05,
+      "loss": 0.6736,
+      "step": 11300
+    },
+    {
+      "epoch": 5.75609794905249,
+      "grad_norm": 0.14165613055229187,
+      "learning_rate": 4.9839326734980036e-05,
+      "loss": 0.6777,
+      "step": 11310
+    },
+    {
+      "epoch": 5.761189517732979,
+      "grad_norm": 0.16045770049095154,
+      "learning_rate": 4.983918467196941e-05,
+      "loss": 0.678,
+      "step": 11320
+    },
+    {
+      "epoch": 5.766281086413467,
+      "grad_norm": 0.1490974873304367,
+      "learning_rate": 4.983904260895878e-05,
+      "loss": 0.68,
+      "step": 11330
+    },
+    {
+      "epoch": 5.7713726550939555,
+      "grad_norm": 0.11064887046813965,
+      "learning_rate": 4.9838900545948156e-05,
+      "loss": 0.6832,
+      "step": 11340
+    },
+    {
+      "epoch": 5.776464223774443,
+      "grad_norm": 0.11848734319210052,
+      "learning_rate": 4.983875848293753e-05,
+      "loss": 0.6792,
+      "step": 11350
+    },
+    {
+      "epoch": 5.781555792454932,
+      "grad_norm": 0.1246313750743866,
+      "learning_rate": 4.9838616419926895e-05,
+      "loss": 0.6794,
+      "step": 11360
+    },
+    {
+      "epoch": 5.78664736113542,
+      "grad_norm": 0.17359575629234314,
+      "learning_rate": 4.983847435691627e-05,
+      "loss": 0.6762,
+      "step": 11370
+    },
+    {
+      "epoch": 5.791738929815908,
+      "grad_norm": 0.16471154987812042,
+      "learning_rate": 4.983833229390564e-05,
+      "loss": 0.6742,
+      "step": 11380
+    },
+    {
+      "epoch": 5.796830498496396,
+      "grad_norm": 0.1479930430650711,
+      "learning_rate": 4.9838190230895014e-05,
+      "loss": 0.678,
+      "step": 11390
+    },
+    {
+      "epoch": 5.801922067176884,
+      "grad_norm": 0.11385341733694077,
+      "learning_rate": 4.983804816788439e-05,
+      "loss": 0.6791,
+      "step": 11400
+    },
+    {
+      "epoch": 5.8070136358573725,
+      "grad_norm": 0.13574256002902985,
+      "learning_rate": 4.983790610487376e-05,
+      "loss": 0.6795,
+      "step": 11410
+    },
+    {
+      "epoch": 5.81210520453786,
+      "grad_norm": 0.1701575517654419,
+      "learning_rate": 4.9837764041863134e-05,
+      "loss": 0.6791,
+      "step": 11420
+    },
+    {
+      "epoch": 5.817196773218349,
+      "grad_norm": 0.11972179263830185,
+      "learning_rate": 4.98376219788525e-05,
+      "loss": 0.6802,
+      "step": 11430
+    },
+    {
+      "epoch": 5.822288341898837,
+      "grad_norm": 0.15830230712890625,
+      "learning_rate": 4.983747991584187e-05,
+      "loss": 0.6761,
+      "step": 11440
+    },
+    {
+      "epoch": 5.827379910579325,
+      "grad_norm": 0.16592001914978027,
+      "learning_rate": 4.9837337852831246e-05,
+      "loss": 0.6768,
+      "step": 11450
+    },
+    {
+      "epoch": 5.832471479259813,
+      "grad_norm": 0.21496979892253876,
+      "learning_rate": 4.983719578982062e-05,
+      "loss": 0.6783,
+      "step": 11460
+    },
+    {
+      "epoch": 5.837563047940302,
+      "grad_norm": 0.14850680530071259,
+      "learning_rate": 4.983705372680999e-05,
+      "loss": 0.6781,
+      "step": 11470
+    },
+    {
+      "epoch": 5.8426546166207896,
+      "grad_norm": 0.12256158143281937,
+      "learning_rate": 4.9836911663799365e-05,
+      "loss": 0.6776,
+      "step": 11480
+    },
+    {
+      "epoch": 5.847746185301277,
+      "grad_norm": 0.14311592280864716,
+      "learning_rate": 4.983676960078874e-05,
+      "loss": 0.6717,
+      "step": 11490
+    },
+    {
+      "epoch": 5.852837753981766,
+      "grad_norm": 0.1648699939250946,
+      "learning_rate": 4.9836627537778105e-05,
+      "loss": 0.6779,
+      "step": 11500
+    },
+    {
+      "epoch": 5.857929322662254,
+      "grad_norm": 0.13590501248836517,
+      "learning_rate": 4.983648547476748e-05,
+      "loss": 0.6824,
+      "step": 11510
+    },
+    {
+      "epoch": 5.863020891342742,
+      "grad_norm": 0.13972793519496918,
+      "learning_rate": 4.983634341175685e-05,
+      "loss": 0.679,
+      "step": 11520
+    },
+    {
+      "epoch": 5.86811246002323,
+      "grad_norm": 0.11360618472099304,
+      "learning_rate": 4.9836201348746224e-05,
+      "loss": 0.6746,
+      "step": 11530
+    },
+    {
+      "epoch": 5.873204028703718,
+      "grad_norm": 0.14063167572021484,
+      "learning_rate": 4.98360592857356e-05,
+      "loss": 0.6818,
+      "step": 11540
+    },
+    {
+      "epoch": 5.878295597384207,
+      "grad_norm": 0.12393573671579361,
+      "learning_rate": 4.983591722272497e-05,
+      "loss": 0.6771,
+      "step": 11550
+    },
+    {
+      "epoch": 5.883387166064694,
+      "grad_norm": 0.12383928149938583,
+      "learning_rate": 4.9835775159714344e-05,
+      "loss": 0.6807,
+      "step": 11560
+    },
+    {
+      "epoch": 5.888478734745183,
+      "grad_norm": 0.11464569717645645,
+      "learning_rate": 4.983563309670372e-05,
+      "loss": 0.6823,
+      "step": 11570
+    },
+    {
+      "epoch": 5.893570303425671,
+      "grad_norm": 0.15896569192409515,
+      "learning_rate": 4.983549103369309e-05,
+      "loss": 0.678,
+      "step": 11580
+    },
+    {
+      "epoch": 5.898661872106159,
+      "grad_norm": 0.11153749376535416,
+      "learning_rate": 4.983534897068246e-05,
+      "loss": 0.6799,
+      "step": 11590
+    },
+    {
+      "epoch": 5.903753440786647,
+      "grad_norm": 0.13557817041873932,
+      "learning_rate": 4.9835206907671836e-05,
+      "loss": 0.678,
+      "step": 11600
+    },
+    {
+      "epoch": 5.908845009467136,
+      "grad_norm": 0.12681804597377777,
+      "learning_rate": 4.98350648446612e-05,
+      "loss": 0.6853,
+      "step": 11610
+    },
+    {
+      "epoch": 5.913936578147624,
+      "grad_norm": 0.11007581651210785,
+      "learning_rate": 4.9834922781650575e-05,
+      "loss": 0.6799,
+      "step": 11620
+    },
+    {
+      "epoch": 5.919028146828111,
+      "grad_norm": 0.14073921740055084,
+      "learning_rate": 4.983478071863995e-05,
+      "loss": 0.6809,
+      "step": 11630
+    },
+    {
+      "epoch": 5.9241197155086,
+      "grad_norm": 0.17294389009475708,
+      "learning_rate": 4.9834638655629315e-05,
+      "loss": 0.677,
+      "step": 11640
+    },
+    {
+      "epoch": 5.929211284189088,
+      "grad_norm": 0.11901852488517761,
+      "learning_rate": 4.983449659261869e-05,
+      "loss": 0.6814,
+      "step": 11650
+    },
+    {
+      "epoch": 5.9343028528695765,
+      "grad_norm": 0.1563209444284439,
+      "learning_rate": 4.983435452960806e-05,
+      "loss": 0.6803,
+      "step": 11660
+    },
+    {
+      "epoch": 5.939394421550064,
+      "grad_norm": 0.1763051152229309,
+      "learning_rate": 4.9834212466597434e-05,
+      "loss": 0.6713,
+      "step": 11670
+    },
+    {
+      "epoch": 5.944485990230553,
+      "grad_norm": 0.1412787139415741,
+      "learning_rate": 4.983407040358681e-05,
+      "loss": 0.6791,
+      "step": 11680
+    },
+    {
+      "epoch": 5.949577558911041,
+      "grad_norm": 0.13946793973445892,
+      "learning_rate": 4.983392834057618e-05,
+      "loss": 0.674,
+      "step": 11690
+    },
+    {
+      "epoch": 5.954669127591529,
+      "grad_norm": 0.1848699301481247,
+      "learning_rate": 4.9833786277565553e-05,
+      "loss": 0.6785,
+      "step": 11700
+    },
+    {
+      "epoch": 5.959760696272017,
+      "grad_norm": 0.14714594185352325,
+      "learning_rate": 4.9833644214554927e-05,
+      "loss": 0.6764,
+      "step": 11710
+    },
+    {
+      "epoch": 5.964852264952505,
+      "grad_norm": 0.14410807192325592,
+      "learning_rate": 4.98335021515443e-05,
+      "loss": 0.6755,
+      "step": 11720
+    },
+    {
+      "epoch": 5.9699438336329935,
+      "grad_norm": 0.11196265369653702,
+      "learning_rate": 4.983336008853367e-05,
+      "loss": 0.6801,
+      "step": 11730
+    },
+    {
+      "epoch": 5.975035402313481,
+      "grad_norm": 0.14931631088256836,
+      "learning_rate": 4.9833218025523046e-05,
+      "loss": 0.6761,
+      "step": 11740
+    },
+    {
+      "epoch": 5.98012697099397,
+      "grad_norm": 0.1235998123884201,
+      "learning_rate": 4.983307596251241e-05,
+      "loss": 0.6816,
+      "step": 11750
+    },
+    {
+      "epoch": 5.985218539674458,
+      "grad_norm": 0.14235694706439972,
+      "learning_rate": 4.9832933899501785e-05,
+      "loss": 0.6784,
+      "step": 11760
+    },
+    {
+      "epoch": 5.9903101083549455,
+      "grad_norm": 0.11291839182376862,
+      "learning_rate": 4.983279183649116e-05,
+      "loss": 0.6857,
+      "step": 11770
+    },
+    {
+      "epoch": 5.995401677035434,
+      "grad_norm": 0.12273520231246948,
+      "learning_rate": 4.983264977348053e-05,
+      "loss": 0.6801,
+      "step": 11780
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 0.025783156976103783,
+      "learning_rate": 4.9832507710469905e-05,
+      "loss": 0.6142,
+      "step": 11790
+    },
+    {
+      "epoch": 6.005091568680488,
+      "grad_norm": 0.1227310448884964,
+      "learning_rate": 4.983236564745928e-05,
+      "loss": 0.679,
+      "step": 11800
+    },
+    {
+      "epoch": 6.010183137360976,
+      "grad_norm": 0.14122678339481354,
+      "learning_rate": 4.983222358444865e-05,
+      "loss": 0.677,
+      "step": 11810
+    },
+    {
+      "epoch": 6.015274706041464,
+      "grad_norm": 0.14405541121959686,
+      "learning_rate": 4.9832081521438024e-05,
+      "loss": 0.6799,
+      "step": 11820
+    },
+    {
+      "epoch": 6.020366274721953,
+      "grad_norm": 0.18694424629211426,
+      "learning_rate": 4.98319394584274e-05,
+      "loss": 0.675,
+      "step": 11830
+    },
+    {
+      "epoch": 6.025457843402441,
+      "grad_norm": 0.1961718052625656,
+      "learning_rate": 4.983179739541677e-05,
+      "loss": 0.6819,
+      "step": 11840
+    },
+    {
+      "epoch": 6.030549412082929,
+      "grad_norm": 0.1102224811911583,
+      "learning_rate": 4.9831655332406137e-05,
+      "loss": 0.682,
+      "step": 11850
+    },
+    {
+      "epoch": 6.035640980763417,
+      "grad_norm": 0.1295260190963745,
+      "learning_rate": 4.983151326939551e-05,
+      "loss": 0.6794,
+      "step": 11860
+    },
+    {
+      "epoch": 6.040732549443905,
+      "grad_norm": 0.12580661475658417,
+      "learning_rate": 4.983137120638488e-05,
+      "loss": 0.6791,
+      "step": 11870
+    },
+    {
+      "epoch": 6.0458241181243935,
+      "grad_norm": 0.1288338154554367,
+      "learning_rate": 4.9831229143374256e-05,
+      "loss": 0.6805,
+      "step": 11880
+    },
+    {
+      "epoch": 6.050915686804881,
+      "grad_norm": 0.1211671456694603,
+      "learning_rate": 4.983108708036362e-05,
+      "loss": 0.6764,
+      "step": 11890
+    },
+    {
+      "epoch": 6.05600725548537,
+      "grad_norm": 0.15219536423683167,
+      "learning_rate": 4.9830945017352995e-05,
+      "loss": 0.6806,
+      "step": 11900
+    },
+    {
+      "epoch": 6.061098824165858,
+      "grad_norm": 0.12759484350681305,
+      "learning_rate": 4.983080295434237e-05,
+      "loss": 0.676,
+      "step": 11910
+    },
+    {
+      "epoch": 6.066190392846346,
+      "grad_norm": 0.1949695497751236,
+      "learning_rate": 4.983066089133174e-05,
+      "loss": 0.6832,
+      "step": 11920
+    },
+    {
+      "epoch": 6.071281961526834,
+      "grad_norm": 0.11879277229309082,
+      "learning_rate": 4.9830518828321115e-05,
+      "loss": 0.6781,
+      "step": 11930
+    },
+    {
+      "epoch": 6.076373530207323,
+      "grad_norm": 0.12636293470859528,
+      "learning_rate": 4.983037676531049e-05,
+      "loss": 0.6774,
+      "step": 11940
+    },
+    {
+      "epoch": 6.0814650988878105,
+      "grad_norm": 0.13675157725811005,
+      "learning_rate": 4.983023470229986e-05,
+      "loss": 0.6789,
+      "step": 11950
+    },
+    {
+      "epoch": 6.086556667568298,
+      "grad_norm": 0.13322140276432037,
+      "learning_rate": 4.9830092639289234e-05,
+      "loss": 0.6805,
+      "step": 11960
+    },
+    {
+      "epoch": 6.091648236248787,
+      "grad_norm": 0.1352871060371399,
+      "learning_rate": 4.982995057627861e-05,
+      "loss": 0.6808,
+      "step": 11970
+    },
+    {
+      "epoch": 6.096739804929275,
+      "grad_norm": 0.14976170659065247,
+      "learning_rate": 4.982980851326798e-05,
+      "loss": 0.6775,
+      "step": 11980
+    },
+    {
+      "epoch": 6.101831373609763,
+      "grad_norm": 0.1250462532043457,
+      "learning_rate": 4.982966645025735e-05,
+      "loss": 0.6782,
+      "step": 11990
+    },
+    {
+      "epoch": 6.106922942290251,
+      "grad_norm": 0.16815803945064545,
+      "learning_rate": 4.9829524387246726e-05,
+      "loss": 0.6721,
+      "step": 12000
     }
   ],
   "logging_steps": 10,