Training in progress, step 9000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +361 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b08dad283213606d07f6ab5db889fe475967297819d0fa97888daa2251428bc5
 size 328277848

 version https://git-lfs.github.com/spec/v1
+oid sha256:4b6a100ff38d4f00b501f20a5190982d96bca76e8f9a3dd9afd41838295e088c
 size 328277848

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a825b2575d588500993f41103ac272cc25e9d2d7632d64e83467f98084e396cb
 size 318646859

 version https://git-lfs.github.com/spec/v1
+oid sha256:318e4ae9012739627ee7e1642d03ed5987f8ac51a72f0db40543b41f04528304
 size 318646859

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b2170c077dd4bfe6d0d497b721bc49c7786a9b4086e60e7a16be839d33838b66
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:3343121e0ab3aeb674ab29d872307564462c4bd82cdd92e6577a4ff26999fc00
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6cda9bcc9266ec91d2da20eab50cd7cea609c16666645a54519c40bab7f69f1a
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:528ba9a1d2a5739586b1652bb1454f9e977f93a6ae9e9c38a71b51bc41c45de4
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.4360533873965196,
   "eval_steps": 500,
-  "global_step": 8500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6101,6 +6101,364 @@
       "eval_samples_per_second": 186.962,
       "eval_steps_per_second": 3.926,
       "step": 8500
     }
   ],
   "logging_steps": 10,
@@ -6120,7 +6478,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.8428620737491763e+17,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.5205271160669032,
   "eval_steps": 500,
+  "global_step": 9000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 186.962,
       "eval_steps_per_second": 3.926,
       "step": 8500
+    },
+    {
+      "epoch": 1.4377428619699273,
+      "grad_norm": 0.4886073172092438,
+      "learning_rate": 7.706964398504293e-05,
+      "loss": 4.375003814697266,
+      "step": 8510
+    },
+    {
+      "epoch": 1.439432336543335,
+      "grad_norm": 0.48204493522644043,
+      "learning_rate": 7.665144535049224e-05,
+      "loss": 4.33798828125,
+      "step": 8520
+    },
+    {
+      "epoch": 1.4411218111167428,
+      "grad_norm": 0.46427401900291443,
+      "learning_rate": 7.623399467409416e-05,
+      "loss": 4.350474166870117,
+      "step": 8530
+    },
+    {
+      "epoch": 1.4428112856901505,
+      "grad_norm": 0.48773905634880066,
+      "learning_rate": 7.581729621272386e-05,
+      "loss": 4.331120300292969,
+      "step": 8540
+    },
+    {
+      "epoch": 1.444500760263558,
+      "grad_norm": 0.49667221307754517,
+      "learning_rate": 7.540135421558585e-05,
+      "loss": 4.313655090332031,
+      "step": 8550
+    },
+    {
+      "epoch": 1.4461902348369657,
+      "grad_norm": 0.4690784215927124,
+      "learning_rate": 7.498617292417074e-05,
+      "loss": 4.368997573852539,
+      "step": 8560
+    },
+    {
+      "epoch": 1.4478797094103735,
+      "grad_norm": 0.48315441608428955,
+      "learning_rate": 7.457175657221194e-05,
+      "loss": 4.365554428100586,
+      "step": 8570
+    },
+    {
+      "epoch": 1.449569183983781,
+      "grad_norm": 0.47335466742515564,
+      "learning_rate": 7.415810938564277e-05,
+      "loss": 4.337088394165039,
+      "step": 8580
+    },
+    {
+      "epoch": 1.4512586585571887,
+      "grad_norm": 0.45826077461242676,
+      "learning_rate": 7.37452355825528e-05,
+      "loss": 4.34198112487793,
+      "step": 8590
+    },
+    {
+      "epoch": 1.4529481331305965,
+      "grad_norm": 0.4623316824436188,
+      "learning_rate": 7.333313937314548e-05,
+      "loss": 4.346709442138672,
+      "step": 8600
+    },
+    {
+      "epoch": 1.454637607704004,
+      "grad_norm": 0.48673200607299805,
+      "learning_rate": 7.292182495969462e-05,
+      "loss": 4.370217514038086,
+      "step": 8610
+    },
+    {
+      "epoch": 1.4563270822774117,
+      "grad_norm": 0.4870317280292511,
+      "learning_rate": 7.251129653650206e-05,
+      "loss": 4.340325927734375,
+      "step": 8620
+    },
+    {
+      "epoch": 1.4580165568508194,
+      "grad_norm": 0.4829833507537842,
+      "learning_rate": 7.210155828985447e-05,
+      "loss": 4.333442687988281,
+      "step": 8630
+    },
+    {
+      "epoch": 1.459706031424227,
+      "grad_norm": 0.4647566080093384,
+      "learning_rate": 7.169261439798083e-05,
+      "loss": 4.3144184112548825,
+      "step": 8640
+    },
+    {
+      "epoch": 1.4613955059976347,
+      "grad_norm": 0.48941001296043396,
+      "learning_rate": 7.128446903101004e-05,
+      "loss": 4.31253662109375,
+      "step": 8650
+    },
+    {
+      "epoch": 1.4630849805710424,
+      "grad_norm": 0.46602746844291687,
+      "learning_rate": 7.087712635092802e-05,
+      "loss": 4.346303176879883,
+      "step": 8660
+    },
+    {
+      "epoch": 1.4647744551444501,
+      "grad_norm": 0.5055034756660461,
+      "learning_rate": 7.047059051153538e-05,
+      "loss": 4.3370361328125,
+      "step": 8670
+    },
+    {
+      "epoch": 1.4664639297178579,
+      "grad_norm": 0.49361884593963623,
+      "learning_rate": 7.006486565840532e-05,
+      "loss": 4.337132263183594,
+      "step": 8680
+    },
+    {
+      "epoch": 1.4681534042912654,
+      "grad_norm": 0.4785706400871277,
+      "learning_rate": 6.96599559288411e-05,
+      "loss": 4.349030303955078,
+      "step": 8690
+    },
+    {
+      "epoch": 1.4698428788646731,
+      "grad_norm": 0.49940159916877747,
+      "learning_rate": 6.925586545183383e-05,
+      "loss": 4.356793212890625,
+      "step": 8700
+    },
+    {
+      "epoch": 1.4715323534380809,
+      "grad_norm": 0.4632912576198578,
+      "learning_rate": 6.885259834802042e-05,
+      "loss": 4.333657836914062,
+      "step": 8710
+    },
+    {
+      "epoch": 1.4732218280114884,
+      "grad_norm": 0.4802776575088501,
+      "learning_rate": 6.845015872964179e-05,
+      "loss": 4.345002365112305,
+      "step": 8720
+    },
+    {
+      "epoch": 1.4749113025848961,
+      "grad_norm": 0.4794064164161682,
+      "learning_rate": 6.80485507005005e-05,
+      "loss": 4.348992538452149,
+      "step": 8730
+    },
+    {
+      "epoch": 1.4766007771583038,
+      "grad_norm": 0.48898664116859436,
+      "learning_rate": 6.764777835591921e-05,
+      "loss": 4.341244125366211,
+      "step": 8740
+    },
+    {
+      "epoch": 1.4782902517317114,
+      "grad_norm": 0.4965602159500122,
+      "learning_rate": 6.724784578269892e-05,
+      "loss": 4.321900939941406,
+      "step": 8750
+    },
+    {
+      "epoch": 1.479979726305119,
+      "grad_norm": 0.4652167856693268,
+      "learning_rate": 6.684875705907722e-05,
+      "loss": 4.334490203857422,
+      "step": 8760
+    },
+    {
+      "epoch": 1.4816692008785268,
+      "grad_norm": 0.4919753968715668,
+      "learning_rate": 6.645051625468657e-05,
+      "loss": 4.318844604492187,
+      "step": 8770
+    },
+    {
+      "epoch": 1.4833586754519343,
+      "grad_norm": 0.48315659165382385,
+      "learning_rate": 6.605312743051297e-05,
+      "loss": 4.349975967407227,
+      "step": 8780
+    },
+    {
+      "epoch": 1.485048150025342,
+      "grad_norm": 0.4814257323741913,
+      "learning_rate": 6.565659463885467e-05,
+      "loss": 4.339570236206055,
+      "step": 8790
+    },
+    {
+      "epoch": 1.4867376245987498,
+      "grad_norm": 0.48735612630844116,
+      "learning_rate": 6.526092192328048e-05,
+      "loss": 4.335529708862305,
+      "step": 8800
+    },
+    {
+      "epoch": 1.4884270991721575,
+      "grad_norm": 0.4753458499908447,
+      "learning_rate": 6.486611331858879e-05,
+      "loss": 4.328804779052734,
+      "step": 8810
+    },
+    {
+      "epoch": 1.490116573745565,
+      "grad_norm": 0.46705493330955505,
+      "learning_rate": 6.447217285076651e-05,
+      "loss": 4.353744125366211,
+      "step": 8820
+    },
+    {
+      "epoch": 1.4918060483189728,
+      "grad_norm": 0.4967743456363678,
+      "learning_rate": 6.407910453694782e-05,
+      "loss": 4.356158065795898,
+      "step": 8830
+    },
+    {
+      "epoch": 1.4934955228923805,
+      "grad_norm": 0.4624764621257782,
+      "learning_rate": 6.368691238537321e-05,
+      "loss": 4.316521453857422,
+      "step": 8840
+    },
+    {
+      "epoch": 1.4951849974657883,
+      "grad_norm": 0.5081548094749451,
+      "learning_rate": 6.329560039534874e-05,
+      "loss": 4.3620750427246096,
+      "step": 8850
+    },
+    {
+      "epoch": 1.4968744720391958,
+      "grad_norm": 0.486570805311203,
+      "learning_rate": 6.290517255720505e-05,
+      "loss": 4.351879501342774,
+      "step": 8860
+    },
+    {
+      "epoch": 1.4985639466126035,
+      "grad_norm": 0.4706440567970276,
+      "learning_rate": 6.251563285225707e-05,
+      "loss": 4.324571228027343,
+      "step": 8870
+    },
+    {
+      "epoch": 1.5002534211860112,
+      "grad_norm": 0.49965882301330566,
+      "learning_rate": 6.212698525276294e-05,
+      "loss": 4.34442367553711,
+      "step": 8880
+    },
+    {
+      "epoch": 1.5019428957594188,
+      "grad_norm": 0.4871665835380554,
+      "learning_rate": 6.173923372188372e-05,
+      "loss": 4.329629516601562,
+      "step": 8890
+    },
+    {
+      "epoch": 1.5036323703328265,
+      "grad_norm": 0.47697439789772034,
+      "learning_rate": 6.135238221364313e-05,
+      "loss": 4.3523296356201175,
+      "step": 8900
+    },
+    {
+      "epoch": 1.5053218449062342,
+      "grad_norm": 0.48661452531814575,
+      "learning_rate": 6.096643467288703e-05,
+      "loss": 4.330023956298828,
+      "step": 8910
+    },
+    {
+      "epoch": 1.5070113194796417,
+      "grad_norm": 0.4829593002796173,
+      "learning_rate": 6.058139503524314e-05,
+      "loss": 4.348539352416992,
+      "step": 8920
+    },
+    {
+      "epoch": 1.5087007940530495,
+      "grad_norm": 0.47934937477111816,
+      "learning_rate": 6.019726722708104e-05,
+      "loss": 4.323921966552734,
+      "step": 8930
+    },
+    {
+      "epoch": 1.5103902686264572,
+      "grad_norm": 0.5149379372596741,
+      "learning_rate": 5.981405516547222e-05,
+      "loss": 4.312050628662109,
+      "step": 8940
+    },
+    {
+      "epoch": 1.5120797431998647,
+      "grad_norm": 0.48116961121559143,
+      "learning_rate": 5.9431762758149875e-05,
+      "loss": 4.327413940429688,
+      "step": 8950
+    },
+    {
+      "epoch": 1.5137692177732727,
+      "grad_norm": 0.49428287148475647,
+      "learning_rate": 5.9050393903469215e-05,
+      "loss": 4.323257827758789,
+      "step": 8960
+    },
+    {
+      "epoch": 1.5154586923466802,
+      "grad_norm": 0.5180572271347046,
+      "learning_rate": 5.866995249036775e-05,
+      "loss": 4.333328628540039,
+      "step": 8970
+    },
+    {
+      "epoch": 1.5171481669200877,
+      "grad_norm": 0.4911746382713318,
+      "learning_rate": 5.829044239832564e-05,
+      "loss": 4.323813247680664,
+      "step": 8980
+    },
+    {
+      "epoch": 1.5188376414934956,
+      "grad_norm": 0.49372172355651855,
+      "learning_rate": 5.791186749732594e-05,
+      "loss": 4.345953750610351,
+      "step": 8990
+    },
+    {
+      "epoch": 1.5205271160669032,
+      "grad_norm": 0.4822508990764618,
+      "learning_rate": 5.7534231647815244e-05,
+      "loss": 4.349853134155273,
+      "step": 9000
+    },
+    {
+      "epoch": 1.5205271160669032,
+      "eval_loss": 4.292741298675537,
+      "eval_runtime": 3.7165,
+      "eval_samples_per_second": 269.07,
+      "eval_steps_per_second": 5.65,
+      "step": 9000
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 3.010090484178616e+17,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": null