Training in progress, step 11000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +361 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b5fec734d804f38e6a6185a808dee5da674e72210df9519b259fe7268fc0f656
 size 328277848

 version https://git-lfs.github.com/spec/v1
+oid sha256:62f77201047c0ff7c5527ffc5ccf11b4138f77fae747adff964ee88ae1f98afc
 size 328277848

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0663ccd7ad33c0549c2779e5d083150bba32ec4d7c6fbd8222ef934fa81f78bc
 size 318646859

 version https://git-lfs.github.com/spec/v1
+oid sha256:ace327ac217bad5e9c3541a67c8adbffd0c6930f7ad271ab5e15f9a6306ce52e
 size 318646859

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0abf895a019505b4c56af8dcadc1605517fe2ff5671df4ee01bebae31eb06b83
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:ca9715fac08ad0b70edb3a378bc21ad649dabc882b316cdb77b215f678babe3b
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2f96c5626b64f285225e7bd0540a942ee4b22f3baba9f0a0f2189b039b8bf46c
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:d77946d2c30708215d82675369c6b0f4ea0ac50e0bfa8851a58c893e34baac40
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.7739483020780538,
   "eval_steps": 500,
-  "global_step": 10500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -7533,6 +7533,364 @@
       "eval_samples_per_second": 246.863,
       "eval_steps_per_second": 5.184,
       "step": 10500
     }
   ],
   "logging_steps": 10,
@@ -7552,7 +7910,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.511775715466936e+17,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.8584220307484371,
   "eval_steps": 500,
+  "global_step": 11000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 246.863,
       "eval_steps_per_second": 5.184,
       "step": 10500
+    },
+    {
+      "epoch": 1.7756377766514615,
+      "grad_norm": 0.45778968930244446,
+      "learning_rate": 1.330666277084756e-05,
+      "loss": 4.324074172973633,
+      "step": 10510
+    },
+    {
+      "epoch": 1.777327251224869,
+      "grad_norm": 0.44530189037323,
+      "learning_rate": 1.3110123947820345e-05,
+      "loss": 4.296671295166016,
+      "step": 10520
+    },
+    {
+      "epoch": 1.7790167257982767,
+      "grad_norm": 0.4516686797142029,
+      "learning_rate": 1.2914981033673616e-05,
+      "loss": 4.3019359588623045,
+      "step": 10530
+    },
+    {
+      "epoch": 1.7807062003716845,
+      "grad_norm": 0.4497534930706024,
+      "learning_rate": 1.2721236018340675e-05,
+      "loss": 4.252984237670899,
+      "step": 10540
+    },
+    {
+      "epoch": 1.782395674945092,
+      "grad_norm": 0.4479978680610657,
+      "learning_rate": 1.2528890877500025e-05,
+      "loss": 4.305055618286133,
+      "step": 10550
+    },
+    {
+      "epoch": 1.7840851495184997,
+      "grad_norm": 0.462827205657959,
+      "learning_rate": 1.2337947572555257e-05,
+      "loss": 4.314754486083984,
+      "step": 10560
+    },
+    {
+      "epoch": 1.7857746240919075,
+      "grad_norm": 0.4561219811439514,
+      "learning_rate": 1.2148408050614961e-05,
+      "loss": 4.2755790710449215,
+      "step": 10570
+    },
+    {
+      "epoch": 1.787464098665315,
+      "grad_norm": 0.4636087119579315,
+      "learning_rate": 1.1960274244472928e-05,
+      "loss": 4.280724716186524,
+      "step": 10580
+    },
+    {
+      "epoch": 1.7891535732387227,
+      "grad_norm": 0.4560607373714447,
+      "learning_rate": 1.1773548072588352e-05,
+      "loss": 4.296182632446289,
+      "step": 10590
+    },
+    {
+      "epoch": 1.7908430478121304,
+      "grad_norm": 0.46516045928001404,
+      "learning_rate": 1.158823143906652e-05,
+      "loss": 4.301852416992188,
+      "step": 10600
+    },
+    {
+      "epoch": 1.792532522385538,
+      "grad_norm": 0.4671533703804016,
+      "learning_rate": 1.1404326233639056e-05,
+      "loss": 4.321551132202148,
+      "step": 10610
+    },
+    {
+      "epoch": 1.794221996958946,
+      "grad_norm": 0.46711355447769165,
+      "learning_rate": 1.1221834331644857e-05,
+      "loss": 4.292984390258789,
+      "step": 10620
+    },
+    {
+      "epoch": 1.7959114715323534,
+      "grad_norm": 0.46830058097839355,
+      "learning_rate": 1.1040757594010908e-05,
+      "loss": 4.294471740722656,
+      "step": 10630
+    },
+    {
+      "epoch": 1.7976009461057612,
+      "grad_norm": 0.45422518253326416,
+      "learning_rate": 1.0861097867233375e-05,
+      "loss": 4.302399444580078,
+      "step": 10640
+    },
+    {
+      "epoch": 1.799290420679169,
+      "grad_norm": 0.46243947744369507,
+      "learning_rate": 1.0682856983358645e-05,
+      "loss": 4.300415420532227,
+      "step": 10650
+    },
+    {
+      "epoch": 1.8009798952525764,
+      "grad_norm": 0.45327311754226685,
+      "learning_rate": 1.050603675996477e-05,
+      "loss": 4.294659042358399,
+      "step": 10660
+    },
+    {
+      "epoch": 1.8026693698259841,
+      "grad_norm": 0.4481427073478699,
+      "learning_rate": 1.0330639000142877e-05,
+      "loss": 4.29761962890625,
+      "step": 10670
+    },
+    {
+      "epoch": 1.8043588443993919,
+      "grad_norm": 0.45235884189605713,
+      "learning_rate": 1.0156665492478794e-05,
+      "loss": 4.2950092315673825,
+      "step": 10680
+    },
+    {
+      "epoch": 1.8060483189727994,
+      "grad_norm": 0.4574648439884186,
+      "learning_rate": 9.984118011034787e-06,
+      "loss": 4.296451187133789,
+      "step": 10690
+    },
+    {
+      "epoch": 1.8077377935462071,
+      "grad_norm": 0.44989126920700073,
+      "learning_rate": 9.812998315331449e-06,
+      "loss": 4.295338821411133,
+      "step": 10700
+    },
+    {
+      "epoch": 1.8094272681196149,
+      "grad_norm": 0.44825267791748047,
+      "learning_rate": 9.64330815032991e-06,
+      "loss": 4.29632682800293,
+      "step": 10710
+    },
+    {
+      "epoch": 1.8111167426930224,
+      "grad_norm": 0.44391629099845886,
+      "learning_rate": 9.475049246413801e-06,
+      "loss": 4.282930374145508,
+      "step": 10720
+    },
+    {
+      "epoch": 1.81280621726643,
+      "grad_norm": 0.4501837491989136,
+      "learning_rate": 9.308223319371789e-06,
+      "loss": 4.3113666534423825,
+      "step": 10730
+    },
+    {
+      "epoch": 1.8144956918398378,
+      "grad_norm": 0.45159661769866943,
+      "learning_rate": 9.142832070380051e-06,
+      "loss": 4.275300979614258,
+      "step": 10740
+    },
+    {
+      "epoch": 1.8161851664132453,
+      "grad_norm": 0.4615607261657715,
+      "learning_rate": 8.978877185984895e-06,
+      "loss": 4.27879753112793,
+      "step": 10750
+    },
+    {
+      "epoch": 1.8178746409866533,
+      "grad_norm": 0.4554959535598755,
+      "learning_rate": 8.816360338085537e-06,
+      "loss": 4.320524597167969,
+      "step": 10760
+    },
+    {
+      "epoch": 1.8195641155600608,
+      "grad_norm": 0.4588150978088379,
+      "learning_rate": 8.655283183917094e-06,
+      "loss": 4.305972671508789,
+      "step": 10770
+    },
+    {
+      "epoch": 1.8212535901334683,
+      "grad_norm": 0.4642908275127411,
+      "learning_rate": 8.495647366033708e-06,
+      "loss": 4.303414154052734,
+      "step": 10780
+    },
+    {
+      "epoch": 1.8229430647068763,
+      "grad_norm": 0.44532260298728943,
+      "learning_rate": 8.33745451229173e-06,
+      "loss": 4.2890056610107425,
+      "step": 10790
+    },
+    {
+      "epoch": 1.8246325392802838,
+      "grad_norm": 0.44421857595443726,
+      "learning_rate": 8.180706235833162e-06,
+      "loss": 4.27965087890625,
+      "step": 10800
+    },
+    {
+      "epoch": 1.8263220138536915,
+      "grad_norm": 0.4534235894680023,
+      "learning_rate": 8.025404135069207e-06,
+      "loss": 4.3062583923339846,
+      "step": 10810
+    },
+    {
+      "epoch": 1.8280114884270993,
+      "grad_norm": 0.44868797063827515,
+      "learning_rate": 7.871549793663985e-06,
+      "loss": 4.286159896850586,
+      "step": 10820
+    },
+    {
+      "epoch": 1.8297009630005068,
+      "grad_norm": 0.4559250771999359,
+      "learning_rate": 7.719144780518315e-06,
+      "loss": 4.280204391479492,
+      "step": 10830
+    },
+    {
+      "epoch": 1.8313904375739145,
+      "grad_norm": 0.4582137167453766,
+      "learning_rate": 7.568190649753753e-06,
+      "loss": 4.293819427490234,
+      "step": 10840
+    },
+    {
+      "epoch": 1.8330799121473222,
+      "grad_norm": 0.44784441590309143,
+      "learning_rate": 7.418688940696843e-06,
+      "loss": 4.301911163330078,
+      "step": 10850
+    },
+    {
+      "epoch": 1.8347693867207298,
+      "grad_norm": 0.4547264575958252,
+      "learning_rate": 7.270641177863251e-06,
+      "loss": 4.318780136108399,
+      "step": 10860
+    },
+    {
+      "epoch": 1.8364588612941375,
+      "grad_norm": 0.44876977801322937,
+      "learning_rate": 7.124048870942301e-06,
+      "loss": 4.305691528320312,
+      "step": 10870
+    },
+    {
+      "epoch": 1.8381483358675452,
+      "grad_norm": 0.4435437321662903,
+      "learning_rate": 6.97891351478157e-06,
+      "loss": 4.285098648071289,
+      "step": 10880
+    },
+    {
+      "epoch": 1.8398378104409527,
+      "grad_norm": 0.4529848098754883,
+      "learning_rate": 6.83523658937174e-06,
+      "loss": 4.30163345336914,
+      "step": 10890
+    },
+    {
+      "epoch": 1.8415272850143607,
+      "grad_norm": 0.44488754868507385,
+      "learning_rate": 6.693019559831319e-06,
+      "loss": 4.272104644775391,
+      "step": 10900
+    },
+    {
+      "epoch": 1.8432167595877682,
+      "grad_norm": 0.44506925344467163,
+      "learning_rate": 6.552263876391878e-06,
+      "loss": 4.296164703369141,
+      "step": 10910
+    },
+    {
+      "epoch": 1.8449062341611757,
+      "grad_norm": 0.453124076128006,
+      "learning_rate": 6.412970974383069e-06,
+      "loss": 4.268503189086914,
+      "step": 10920
+    },
+    {
+      "epoch": 1.8465957087345837,
+      "grad_norm": 0.45630943775177,
+      "learning_rate": 6.275142274218264e-06,
+      "loss": 4.276957702636719,
+      "step": 10930
+    },
+    {
+      "epoch": 1.8482851833079912,
+      "grad_norm": 0.4438062012195587,
+      "learning_rate": 6.138779181379777e-06,
+      "loss": 4.31237564086914,
+      "step": 10940
+    },
+    {
+      "epoch": 1.849974657881399,
+      "grad_norm": 0.4586540460586548,
+      "learning_rate": 6.003883086404709e-06,
+      "loss": 4.296250915527343,
+      "step": 10950
+    },
+    {
+      "epoch": 1.8516641324548067,
+      "grad_norm": 0.4555058777332306,
+      "learning_rate": 5.870455364870747e-06,
+      "loss": 4.289797973632813,
+      "step": 10960
+    },
+    {
+      "epoch": 1.8533536070282142,
+      "grad_norm": 0.4580257833003998,
+      "learning_rate": 5.738497377382117e-06,
+      "loss": 4.288161849975586,
+      "step": 10970
+    },
+    {
+      "epoch": 1.855043081601622,
+      "grad_norm": 0.44520384073257446,
+      "learning_rate": 5.608010469555674e-06,
+      "loss": 4.309579467773437,
+      "step": 10980
+    },
+    {
+      "epoch": 1.8567325561750296,
+      "grad_norm": 0.4458165168762207,
+      "learning_rate": 5.4789959720071995e-06,
+      "loss": 4.300251007080078,
+      "step": 10990
+    },
+    {
+      "epoch": 1.8584220307484371,
+      "grad_norm": 0.4537349343299866,
+      "learning_rate": 5.3514552003379395e-06,
+      "loss": 4.293206024169922,
+      "step": 11000
+    },
+    {
+      "epoch": 1.8584220307484371,
+      "eval_loss": 4.268224716186523,
+      "eval_runtime": 3.8046,
+      "eval_samples_per_second": 262.842,
+      "eval_steps_per_second": 5.52,
+      "step": 11000
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 3.679004125896376e+17,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": null