Training in progress, step 19000, checkpoint

Browse files

Files changed (9) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +703 -3
last-checkpoint/training_args.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be544058c4751e703a4ec8c2013eada2330e6d5c7aa24362e068eb53a6938d4d
 size 319352826

 version https://git-lfs.github.com/spec/v1
+oid sha256:ab7e50a79158952ab424ab7ae47a767f43dd77ab5efa58f1c20364aafc8f4444
 size 319352826

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:312dce25dc2593a989e8ee8633873ef8c63a80d4cb42027f3420be4110015970
 size 900372486

 version https://git-lfs.github.com/spec/v1
+oid sha256:283bafb4e9fbde7c821fb56a77898801608d89a269482dd42ff3b049de3b174d
 size 900372486

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6b5df2d2fa735d20c8f00ba2067db2ad6fedd52e281087b1411f87f36a3ead77
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:c58e23cb46599bfa6012c57f3293aeed5f59a390ff6d37d78d6c6802513b8457
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6e6f98fe4ab30806827f8242e794e8b4bd53ab606931bab0e78baebbf2906e4b
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:9c3045e09a7577232ab7444c86fce4c0ecee225103bf65652dd401b98c1eae36
 size 14960

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:904fc905567dd575059267bd1f3cedc0cc5d4d87836fb0cda26ccda93267d61c
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:250944245eda57266dafa26260cf889e09b45cb83fffef97827f1db3bbce4e82
 size 14960

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:801ca15b2a0d6a238eafee118a23666b98d16d0c5986c1ae3bf85746a8e4c64c
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:2fed5f1522f5929dc84aace87a480ae5413e80fdd410689b437d7ddd60a1a3b7
 size 14960

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:24ac5aa530159ba5ad7d935b074e3772b6251ca7ea058831f8c31d34d3925149
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b27f15f40a69175f98dea375bde05ce9bab4efa689d0532fb9627215e3ffe02e
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.025182349839129224,
   "eval_steps": 500,
-  "global_step": 17000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5958,6 +5958,706 @@
       "learning_rate": 4.959256255655081e-05,
       "loss": 24.1711,
       "step": 17000
     }
   ],
   "logging_steps": 20,
@@ -5977,7 +6677,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.1454415273993437e+19,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.028144979231967956,
   "eval_steps": 500,
+  "global_step": 19000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 4.959256255655081e-05,
       "loss": 24.1711,
       "step": 17000
+    },
+    {
+      "epoch": 0.02521197613305761,
+      "grad_norm": 7.59375,
+      "learning_rate": 4.9592068663050054e-05,
+      "loss": 24.1804,
+      "step": 17020
+    },
+    {
+      "epoch": 0.025241602426985997,
+      "grad_norm": 7.71875,
+      "learning_rate": 4.959157476954929e-05,
+      "loss": 24.0944,
+      "step": 17040
+    },
+    {
+      "epoch": 0.025271228720914387,
+      "grad_norm": 6.6875,
+      "learning_rate": 4.959108087604854e-05,
+      "loss": 24.0414,
+      "step": 17060
+    },
+    {
+      "epoch": 0.025300855014842773,
+      "grad_norm": 10.3125,
+      "learning_rate": 4.9590586982547784e-05,
+      "loss": 24.1683,
+      "step": 17080
+    },
+    {
+      "epoch": 0.02533048130877116,
+      "grad_norm": 10.625,
+      "learning_rate": 4.959009308904702e-05,
+      "loss": 24.1671,
+      "step": 17100
+    },
+    {
+      "epoch": 0.025360107602699546,
+      "grad_norm": 7.15625,
+      "learning_rate": 4.9589599195546264e-05,
+      "loss": 24.1452,
+      "step": 17120
+    },
+    {
+      "epoch": 0.025389733896627936,
+      "grad_norm": 8.5,
+      "learning_rate": 4.9589105302045515e-05,
+      "loss": 24.245,
+      "step": 17140
+    },
+    {
+      "epoch": 0.025419360190556323,
+      "grad_norm": 7.8125,
+      "learning_rate": 4.958861140854476e-05,
+      "loss": 24.1189,
+      "step": 17160
+    },
+    {
+      "epoch": 0.02544898648448471,
+      "grad_norm": 7.90625,
+      "learning_rate": 4.9588117515043995e-05,
+      "loss": 24.064,
+      "step": 17180
+    },
+    {
+      "epoch": 0.025478612778413096,
+      "grad_norm": 7.96875,
+      "learning_rate": 4.9587623621543245e-05,
+      "loss": 24.2102,
+      "step": 17200
+    },
+    {
+      "epoch": 0.025508239072341485,
+      "grad_norm": 8.5625,
+      "learning_rate": 4.958712972804249e-05,
+      "loss": 24.1539,
+      "step": 17220
+    },
+    {
+      "epoch": 0.025537865366269872,
+      "grad_norm": 8.0625,
+      "learning_rate": 4.9586635834541725e-05,
+      "loss": 24.1354,
+      "step": 17240
+    },
+    {
+      "epoch": 0.02556749166019826,
+      "grad_norm": 12.5625,
+      "learning_rate": 4.958614194104097e-05,
+      "loss": 24.1707,
+      "step": 17260
+    },
+    {
+      "epoch": 0.025597117954126645,
+      "grad_norm": 10.5,
+      "learning_rate": 4.958564804754022e-05,
+      "loss": 24.0564,
+      "step": 17280
+    },
+    {
+      "epoch": 0.025626744248055035,
+      "grad_norm": 8.375,
+      "learning_rate": 4.958515415403946e-05,
+      "loss": 24.0725,
+      "step": 17300
+    },
+    {
+      "epoch": 0.02565637054198342,
+      "grad_norm": 8.3125,
+      "learning_rate": 4.95846602605387e-05,
+      "loss": 24.176,
+      "step": 17320
+    },
+    {
+      "epoch": 0.025685996835911808,
+      "grad_norm": 7.65625,
+      "learning_rate": 4.958416636703794e-05,
+      "loss": 24.1942,
+      "step": 17340
+    },
+    {
+      "epoch": 0.025715623129840194,
+      "grad_norm": 8.375,
+      "learning_rate": 4.958367247353719e-05,
+      "loss": 24.0173,
+      "step": 17360
+    },
+    {
+      "epoch": 0.025745249423768584,
+      "grad_norm": 8.25,
+      "learning_rate": 4.9583178580036436e-05,
+      "loss": 24.0805,
+      "step": 17380
+    },
+    {
+      "epoch": 0.02577487571769697,
+      "grad_norm": 8.6875,
+      "learning_rate": 4.958268468653567e-05,
+      "loss": 24.1161,
+      "step": 17400
+    },
+    {
+      "epoch": 0.025804502011625357,
+      "grad_norm": 7.78125,
+      "learning_rate": 4.9582190793034916e-05,
+      "loss": 24.1395,
+      "step": 17420
+    },
+    {
+      "epoch": 0.025834128305553743,
+      "grad_norm": 8.4375,
+      "learning_rate": 4.9581696899534166e-05,
+      "loss": 24.1628,
+      "step": 17440
+    },
+    {
+      "epoch": 0.025863754599482133,
+      "grad_norm": 8.25,
+      "learning_rate": 4.95812030060334e-05,
+      "loss": 24.1601,
+      "step": 17460
+    },
+    {
+      "epoch": 0.02589338089341052,
+      "grad_norm": 8.1875,
+      "learning_rate": 4.9580709112532646e-05,
+      "loss": 24.1186,
+      "step": 17480
+    },
+    {
+      "epoch": 0.025923007187338906,
+      "grad_norm": 7.625,
+      "learning_rate": 4.9580215219031896e-05,
+      "loss": 24.1463,
+      "step": 17500
+    },
+    {
+      "epoch": 0.025952633481267293,
+      "grad_norm": 8.875,
+      "learning_rate": 4.957972132553114e-05,
+      "loss": 24.142,
+      "step": 17520
+    },
+    {
+      "epoch": 0.025982259775195683,
+      "grad_norm": 9.1875,
+      "learning_rate": 4.9579227432030376e-05,
+      "loss": 24.1378,
+      "step": 17540
+    },
+    {
+      "epoch": 0.02601188606912407,
+      "grad_norm": 9.1875,
+      "learning_rate": 4.957873353852962e-05,
+      "loss": 24.0645,
+      "step": 17560
+    },
+    {
+      "epoch": 0.026041512363052455,
+      "grad_norm": 10.9375,
+      "learning_rate": 4.957823964502887e-05,
+      "loss": 24.0567,
+      "step": 17580
+    },
+    {
+      "epoch": 0.026071138656980845,
+      "grad_norm": 7.71875,
+      "learning_rate": 4.9577745751528107e-05,
+      "loss": 24.0838,
+      "step": 17600
+    },
+    {
+      "epoch": 0.026100764950909232,
+      "grad_norm": 8.125,
+      "learning_rate": 4.957725185802735e-05,
+      "loss": 24.124,
+      "step": 17620
+    },
+    {
+      "epoch": 0.02613039124483762,
+      "grad_norm": 7.78125,
+      "learning_rate": 4.9576757964526593e-05,
+      "loss": 24.0202,
+      "step": 17640
+    },
+    {
+      "epoch": 0.026160017538766005,
+      "grad_norm": 8.0,
+      "learning_rate": 4.9576264071025844e-05,
+      "loss": 24.1524,
+      "step": 17660
+    },
+    {
+      "epoch": 0.026189643832694395,
+      "grad_norm": 7.90625,
+      "learning_rate": 4.957577017752508e-05,
+      "loss": 24.1435,
+      "step": 17680
+    },
+    {
+      "epoch": 0.02621927012662278,
+      "grad_norm": 7.71875,
+      "learning_rate": 4.9575276284024324e-05,
+      "loss": 24.0919,
+      "step": 17700
+    },
+    {
+      "epoch": 0.026248896420551168,
+      "grad_norm": 8.125,
+      "learning_rate": 4.957478239052357e-05,
+      "loss": 24.1923,
+      "step": 17720
+    },
+    {
+      "epoch": 0.026278522714479554,
+      "grad_norm": 7.59375,
+      "learning_rate": 4.957428849702281e-05,
+      "loss": 24.1385,
+      "step": 17740
+    },
+    {
+      "epoch": 0.026308149008407944,
+      "grad_norm": 8.25,
+      "learning_rate": 4.9573794603522054e-05,
+      "loss": 24.0698,
+      "step": 17760
+    },
+    {
+      "epoch": 0.02633777530233633,
+      "grad_norm": 7.8125,
+      "learning_rate": 4.95733007100213e-05,
+      "loss": 24.0787,
+      "step": 17780
+    },
+    {
+      "epoch": 0.026367401596264717,
+      "grad_norm": 8.5625,
+      "learning_rate": 4.957280681652055e-05,
+      "loss": 24.0752,
+      "step": 17800
+    },
+    {
+      "epoch": 0.026397027890193103,
+      "grad_norm": 6.9375,
+      "learning_rate": 4.9572312923019784e-05,
+      "loss": 24.0701,
+      "step": 17820
+    },
+    {
+      "epoch": 0.026426654184121493,
+      "grad_norm": 9.5,
+      "learning_rate": 4.957181902951903e-05,
+      "loss": 24.1038,
+      "step": 17840
+    },
+    {
+      "epoch": 0.02645628047804988,
+      "grad_norm": 8.125,
+      "learning_rate": 4.957132513601827e-05,
+      "loss": 24.0736,
+      "step": 17860
+    },
+    {
+      "epoch": 0.026485906771978266,
+      "grad_norm": 8.25,
+      "learning_rate": 4.957083124251752e-05,
+      "loss": 24.049,
+      "step": 17880
+    },
+    {
+      "epoch": 0.026515533065906653,
+      "grad_norm": 8.75,
+      "learning_rate": 4.957033734901676e-05,
+      "loss": 24.1319,
+      "step": 17900
+    },
+    {
+      "epoch": 0.026545159359835042,
+      "grad_norm": 7.25,
+      "learning_rate": 4.9569843455516e-05,
+      "loss": 24.1071,
+      "step": 17920
+    },
+    {
+      "epoch": 0.02657478565376343,
+      "grad_norm": 10.125,
+      "learning_rate": 4.9569349562015245e-05,
+      "loss": 24.1587,
+      "step": 17940
+    },
+    {
+      "epoch": 0.026604411947691815,
+      "grad_norm": 8.9375,
+      "learning_rate": 4.956885566851449e-05,
+      "loss": 24.0234,
+      "step": 17960
+    },
+    {
+      "epoch": 0.026634038241620202,
+      "grad_norm": 9.25,
+      "learning_rate": 4.956836177501373e-05,
+      "loss": 24.0215,
+      "step": 17980
+    },
+    {
+      "epoch": 0.02666366453554859,
+      "grad_norm": 9.625,
+      "learning_rate": 4.9567867881512975e-05,
+      "loss": 24.0976,
+      "step": 18000
+    },
+    {
+      "epoch": 0.026693290829476978,
+      "grad_norm": 7.65625,
+      "learning_rate": 4.956737398801222e-05,
+      "loss": 24.0219,
+      "step": 18020
+    },
+    {
+      "epoch": 0.026722917123405365,
+      "grad_norm": 7.15625,
+      "learning_rate": 4.956688009451146e-05,
+      "loss": 24.0564,
+      "step": 18040
+    },
+    {
+      "epoch": 0.02675254341733375,
+      "grad_norm": 7.90625,
+      "learning_rate": 4.9566386201010705e-05,
+      "loss": 24.0368,
+      "step": 18060
+    },
+    {
+      "epoch": 0.02678216971126214,
+      "grad_norm": 8.75,
+      "learning_rate": 4.956589230750995e-05,
+      "loss": 23.9664,
+      "step": 18080
+    },
+    {
+      "epoch": 0.026811796005190527,
+      "grad_norm": 7.03125,
+      "learning_rate": 4.956539841400919e-05,
+      "loss": 24.0162,
+      "step": 18100
+    },
+    {
+      "epoch": 0.026841422299118914,
+      "grad_norm": 7.21875,
+      "learning_rate": 4.9564904520508436e-05,
+      "loss": 24.0582,
+      "step": 18120
+    },
+    {
+      "epoch": 0.0268710485930473,
+      "grad_norm": 8.1875,
+      "learning_rate": 4.956441062700768e-05,
+      "loss": 24.0407,
+      "step": 18140
+    },
+    {
+      "epoch": 0.02690067488697569,
+      "grad_norm": 8.625,
+      "learning_rate": 4.956391673350692e-05,
+      "loss": 24.0271,
+      "step": 18160
+    },
+    {
+      "epoch": 0.026930301180904077,
+      "grad_norm": 7.84375,
+      "learning_rate": 4.9563422840006166e-05,
+      "loss": 24.0241,
+      "step": 18180
+    },
+    {
+      "epoch": 0.026959927474832463,
+      "grad_norm": 7.75,
+      "learning_rate": 4.956292894650541e-05,
+      "loss": 24.0187,
+      "step": 18200
+    },
+    {
+      "epoch": 0.02698955376876085,
+      "grad_norm": 6.875,
+      "learning_rate": 4.956243505300465e-05,
+      "loss": 24.0737,
+      "step": 18220
+    },
+    {
+      "epoch": 0.02701918006268924,
+      "grad_norm": 7.6875,
+      "learning_rate": 4.9561941159503896e-05,
+      "loss": 24.0664,
+      "step": 18240
+    },
+    {
+      "epoch": 0.027048806356617626,
+      "grad_norm": 8.0625,
+      "learning_rate": 4.956144726600314e-05,
+      "loss": 23.9322,
+      "step": 18260
+    },
+    {
+      "epoch": 0.027078432650546012,
+      "grad_norm": 9.4375,
+      "learning_rate": 4.956095337250238e-05,
+      "loss": 24.0489,
+      "step": 18280
+    },
+    {
+      "epoch": 0.0271080589444744,
+      "grad_norm": 8.6875,
+      "learning_rate": 4.9560459479001626e-05,
+      "loss": 24.0831,
+      "step": 18300
+    },
+    {
+      "epoch": 0.02713768523840279,
+      "grad_norm": 8.5625,
+      "learning_rate": 4.955996558550087e-05,
+      "loss": 24.0794,
+      "step": 18320
+    },
+    {
+      "epoch": 0.027167311532331175,
+      "grad_norm": 7.59375,
+      "learning_rate": 4.955947169200011e-05,
+      "loss": 23.9772,
+      "step": 18340
+    },
+    {
+      "epoch": 0.02719693782625956,
+      "grad_norm": 7.375,
+      "learning_rate": 4.955897779849936e-05,
+      "loss": 24.1268,
+      "step": 18360
+    },
+    {
+      "epoch": 0.027226564120187948,
+      "grad_norm": 7.625,
+      "learning_rate": 4.95584839049986e-05,
+      "loss": 24.0586,
+      "step": 18380
+    },
+    {
+      "epoch": 0.027256190414116338,
+      "grad_norm": 7.5,
+      "learning_rate": 4.9557990011497844e-05,
+      "loss": 24.0107,
+      "step": 18400
+    },
+    {
+      "epoch": 0.027285816708044724,
+      "grad_norm": 8.3125,
+      "learning_rate": 4.955749611799709e-05,
+      "loss": 24.0178,
+      "step": 18420
+    },
+    {
+      "epoch": 0.02731544300197311,
+      "grad_norm": 7.40625,
+      "learning_rate": 4.955700222449633e-05,
+      "loss": 24.0978,
+      "step": 18440
+    },
+    {
+      "epoch": 0.027345069295901497,
+      "grad_norm": 7.53125,
+      "learning_rate": 4.9556508330995574e-05,
+      "loss": 24.046,
+      "step": 18460
+    },
+    {
+      "epoch": 0.027374695589829887,
+      "grad_norm": 8.75,
+      "learning_rate": 4.955601443749482e-05,
+      "loss": 23.984,
+      "step": 18480
+    },
+    {
+      "epoch": 0.027404321883758274,
+      "grad_norm": 10.1875,
+      "learning_rate": 4.955552054399406e-05,
+      "loss": 23.9507,
+      "step": 18500
+    },
+    {
+      "epoch": 0.02743394817768666,
+      "grad_norm": 8.0625,
+      "learning_rate": 4.9555026650493304e-05,
+      "loss": 24.0807,
+      "step": 18520
+    },
+    {
+      "epoch": 0.027463574471615047,
+      "grad_norm": 8.9375,
+      "learning_rate": 4.955453275699255e-05,
+      "loss": 23.9955,
+      "step": 18540
+    },
+    {
+      "epoch": 0.027493200765543437,
+      "grad_norm": 8.625,
+      "learning_rate": 4.955403886349179e-05,
+      "loss": 23.9839,
+      "step": 18560
+    },
+    {
+      "epoch": 0.027522827059471823,
+      "grad_norm": 7.90625,
+      "learning_rate": 4.9553544969991034e-05,
+      "loss": 23.9817,
+      "step": 18580
+    },
+    {
+      "epoch": 0.02755245335340021,
+      "grad_norm": 8.1875,
+      "learning_rate": 4.955305107649028e-05,
+      "loss": 23.9895,
+      "step": 18600
+    },
+    {
+      "epoch": 0.027582079647328596,
+      "grad_norm": 7.375,
+      "learning_rate": 4.9552557182989514e-05,
+      "loss": 24.0384,
+      "step": 18620
+    },
+    {
+      "epoch": 0.027611705941256986,
+      "grad_norm": 8.6875,
+      "learning_rate": 4.9552063289488765e-05,
+      "loss": 23.9931,
+      "step": 18640
+    },
+    {
+      "epoch": 0.027641332235185372,
+      "grad_norm": 9.375,
+      "learning_rate": 4.955156939598801e-05,
+      "loss": 24.0053,
+      "step": 18660
+    },
+    {
+      "epoch": 0.02767095852911376,
+      "grad_norm": 6.9375,
+      "learning_rate": 4.955107550248725e-05,
+      "loss": 23.9771,
+      "step": 18680
+    },
+    {
+      "epoch": 0.027700584823042145,
+      "grad_norm": 7.125,
+      "learning_rate": 4.9550581608986495e-05,
+      "loss": 23.9985,
+      "step": 18700
+    },
+    {
+      "epoch": 0.027730211116970535,
+      "grad_norm": 8.625,
+      "learning_rate": 4.955008771548574e-05,
+      "loss": 23.929,
+      "step": 18720
+    },
+    {
+      "epoch": 0.02775983741089892,
+      "grad_norm": 9.125,
+      "learning_rate": 4.954959382198498e-05,
+      "loss": 24.1382,
+      "step": 18740
+    },
+    {
+      "epoch": 0.027789463704827308,
+      "grad_norm": 7.46875,
+      "learning_rate": 4.954909992848422e-05,
+      "loss": 24.0646,
+      "step": 18760
+    },
+    {
+      "epoch": 0.027819089998755694,
+      "grad_norm": 10.75,
+      "learning_rate": 4.954860603498347e-05,
+      "loss": 23.9292,
+      "step": 18780
+    },
+    {
+      "epoch": 0.027848716292684084,
+      "grad_norm": 8.875,
+      "learning_rate": 4.954811214148271e-05,
+      "loss": 23.9326,
+      "step": 18800
+    },
+    {
+      "epoch": 0.02787834258661247,
+      "grad_norm": 7.71875,
+      "learning_rate": 4.9547618247981956e-05,
+      "loss": 23.9914,
+      "step": 18820
+    },
+    {
+      "epoch": 0.027907968880540857,
+      "grad_norm": 8.75,
+      "learning_rate": 4.954712435448119e-05,
+      "loss": 23.9243,
+      "step": 18840
+    },
+    {
+      "epoch": 0.027937595174469244,
+      "grad_norm": 9.1875,
+      "learning_rate": 4.954663046098044e-05,
+      "loss": 23.9705,
+      "step": 18860
+    },
+    {
+      "epoch": 0.027967221468397634,
+      "grad_norm": 7.71875,
+      "learning_rate": 4.9546136567479686e-05,
+      "loss": 23.9516,
+      "step": 18880
+    },
+    {
+      "epoch": 0.02799684776232602,
+      "grad_norm": 7.90625,
+      "learning_rate": 4.954564267397893e-05,
+      "loss": 23.9473,
+      "step": 18900
+    },
+    {
+      "epoch": 0.028026474056254407,
+      "grad_norm": 7.09375,
+      "learning_rate": 4.9545148780478166e-05,
+      "loss": 23.9625,
+      "step": 18920
+    },
+    {
+      "epoch": 0.028056100350182793,
+      "grad_norm": 9.3125,
+      "learning_rate": 4.9544654886977416e-05,
+      "loss": 23.9841,
+      "step": 18940
+    },
+    {
+      "epoch": 0.028085726644111183,
+      "grad_norm": 8.1875,
+      "learning_rate": 4.954416099347666e-05,
+      "loss": 23.9801,
+      "step": 18960
+    },
+    {
+      "epoch": 0.02811535293803957,
+      "grad_norm": 7.21875,
+      "learning_rate": 4.9543667099975896e-05,
+      "loss": 23.9958,
+      "step": 18980
+    },
+    {
+      "epoch": 0.028144979231967956,
+      "grad_norm": 8.875,
+      "learning_rate": 4.9543173206475146e-05,
+      "loss": 23.9279,
+      "step": 19000
     }
   ],
   "logging_steps": 20,
       "attributes": {}
     }
   },
+  "total_flos": 3.5154933639955874e+19,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eaf058f9c69fe5d0d1948263dc652aae1ab6b9e94617746e58f9fff63039f515
 size 5432

 version https://git-lfs.github.com/spec/v1
+oid sha256:bfb002641c9997dcb364a38bb417a9ff3d31f1f51c9f2ad8e398d4de90a740cf
 size 5432