Training in progress, step 66000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:97f833e77e28bcce2d00fc8f583d642be803be2e4268c16065f001da61ccfb12
 size 301235464

 version https://git-lfs.github.com/spec/v1
+oid sha256:a6627f46453f0eddcb5503378a89a14a6529d63c8f3e731e04b523860ef73959
 size 301235464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e6fb466dd570b07209b2b66d3759663a3b462b568c13bb8f7963bf1191bda0a0
 size 602335994

 version https://git-lfs.github.com/spec/v1
+oid sha256:55adb983e10ce2c91d34635b0e2c61b12341302e3599339214fbe162d24db56d
 size 602335994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c5abe0ab18889dbab668e6d9fae1d62109a3226e616d0e681a91c9a668ea4330
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:5506f8ab70fc0520e3fcff77fee663d3576573119296fd847d8ec1a26a45a3cf
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:83439c671f875b1f809ad8f03d85b4a006312176c0266e869dc1f2efa804bb73
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d828325c04baaeca4bef8dd14dbbff2a89fb26da8a22793521965c92d2ced694
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.4372224268198963,
   "eval_steps": 500,
-  "global_step": 65000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -11578,11 +11578,189 @@
       "eval_steps_per_second": 23.574,
       "num_input_tokens_seen": 17039360000,
       "step": 65000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
-  "num_input_tokens_seen": 17039360000,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -11597,7 +11775,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.5581951041536e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.44394892569404854,
   "eval_steps": 500,
+  "global_step": 66000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 23.574,
       "num_input_tokens_seen": 17039360000,
       "step": 65000
+    },
+    {
+      "epoch": 0.4375587517636039,
+      "grad_norm": 0.16188842058181763,
+      "learning_rate": 0.00021814686889249158,
+      "loss": 2.9812,
+      "num_input_tokens_seen": 17052467200,
+      "step": 65050
+    },
+    {
+      "epoch": 0.43789507670731154,
+      "grad_norm": 0.14550812542438507,
+      "learning_rate": 0.00021410601988619394,
+      "loss": 2.9856,
+      "num_input_tokens_seen": 17065574400,
+      "step": 65100
+    },
+    {
+      "epoch": 0.43823140165101915,
+      "grad_norm": 0.1500539779663086,
+      "learning_rate": 0.00021009272593674322,
+      "loss": 2.9827,
+      "num_input_tokens_seen": 17078681600,
+      "step": 65150
+    },
+    {
+      "epoch": 0.43856772659472676,
+      "grad_norm": 0.1571357101202011,
+      "learning_rate": 0.00020610737385376348,
+      "loss": 2.9788,
+      "num_input_tokens_seen": 17091788800,
+      "step": 65200
+    },
+    {
+      "epoch": 0.43890405153843437,
+      "grad_norm": 0.1671544760465622,
+      "learning_rate": 0.00020215034775378332,
+      "loss": 2.9758,
+      "num_input_tokens_seen": 17104896000,
+      "step": 65250
+    },
+    {
+      "epoch": 0.439240376482142,
+      "grad_norm": 0.15525776147842407,
+      "learning_rate": 0.0001982220290232143,
+      "loss": 2.9823,
+      "num_input_tokens_seen": 17118003200,
+      "step": 65300
+    },
+    {
+      "epoch": 0.4395767014258496,
+      "grad_norm": 0.14799903333187103,
+      "learning_rate": 0.00019432279628159188,
+      "loss": 2.9781,
+      "num_input_tokens_seen": 17131110400,
+      "step": 65350
+    },
+    {
+      "epoch": 0.4399130263695572,
+      "grad_norm": 0.16087676584720612,
+      "learning_rate": 0.00019045302534508295,
+      "loss": 2.9805,
+      "num_input_tokens_seen": 17144217600,
+      "step": 65400
+    },
+    {
+      "epoch": 0.4402493513132648,
+      "grad_norm": 0.15892113745212555,
+      "learning_rate": 0.0001866130891902653,
+      "loss": 2.9823,
+      "num_input_tokens_seen": 17157324800,
+      "step": 65450
+    },
+    {
+      "epoch": 0.4405856762569724,
+      "grad_norm": 0.187602236866951,
+      "learning_rate": 0.00018280335791817732,
+      "loss": 2.9804,
+      "num_input_tokens_seen": 17170432000,
+      "step": 65500
+    },
+    {
+      "epoch": 0.4405856762569724,
+      "eval_loss": 2.875824451446533,
+      "eval_runtime": 53.0867,
+      "eval_samples_per_second": 94.186,
+      "eval_steps_per_second": 23.546,
+      "num_input_tokens_seen": 17170432000,
+      "step": 65500
+    },
+    {
+      "epoch": 0.44092200120068004,
+      "grad_norm": 0.15579210221767426,
+      "learning_rate": 0.0001790241987186485,
+      "loss": 2.9734,
+      "num_input_tokens_seen": 17183539200,
+      "step": 65550
+    },
+    {
+      "epoch": 0.44125832614438765,
+      "grad_norm": 0.15250550210475922,
+      "learning_rate": 0.00017527597583490823,
+      "loss": 2.9787,
+      "num_input_tokens_seen": 17196646400,
+      "step": 65600
+    },
+    {
+      "epoch": 0.44159465108809526,
+      "grad_norm": 0.15954890847206116,
+      "learning_rate": 0.00017155905052847938,
+      "loss": 2.978,
+      "num_input_tokens_seen": 17209753600,
+      "step": 65650
+    },
+    {
+      "epoch": 0.44193097603180287,
+      "grad_norm": 0.15598754584789276,
+      "learning_rate": 0.00016787378104435928,
+      "loss": 2.9809,
+      "num_input_tokens_seen": 17222860800,
+      "step": 65700
+    },
+    {
+      "epoch": 0.4422673009755105,
+      "grad_norm": 0.14709477126598358,
+      "learning_rate": 0.00016422052257649078,
+      "loss": 2.9793,
+      "num_input_tokens_seen": 17235968000,
+      "step": 65750
+    },
+    {
+      "epoch": 0.4426036259192181,
+      "grad_norm": 0.15505217015743256,
+      "learning_rate": 0.0001605996272335291,
+      "loss": 2.9763,
+      "num_input_tokens_seen": 17249075200,
+      "step": 65800
+    },
+    {
+      "epoch": 0.4429399508629257,
+      "grad_norm": 0.14491549134254456,
+      "learning_rate": 0.0001570114440049037,
+      "loss": 2.9756,
+      "num_input_tokens_seen": 17262182400,
+      "step": 65850
+    },
+    {
+      "epoch": 0.4432762758066333,
+      "grad_norm": 0.1571652740240097,
+      "learning_rate": 0.00015345631872718213,
+      "loss": 2.977,
+      "num_input_tokens_seen": 17275289600,
+      "step": 65900
+    },
+    {
+      "epoch": 0.4436126007503409,
+      "grad_norm": 0.18299035727977753,
+      "learning_rate": 0.00014993459405073824,
+      "loss": 2.9788,
+      "num_input_tokens_seen": 17288396800,
+      "step": 65950
+    },
+    {
+      "epoch": 0.44394892569404854,
+      "grad_norm": 0.14829285442829132,
+      "learning_rate": 0.00014644660940672628,
+      "loss": 2.9851,
+      "num_input_tokens_seen": 17301504000,
+      "step": 66000
+    },
+    {
+      "epoch": 0.44394892569404854,
+      "eval_loss": 2.8729286193847656,
+      "eval_runtime": 53.2839,
+      "eval_samples_per_second": 93.837,
+      "eval_steps_per_second": 23.459,
+      "num_input_tokens_seen": 17301504000,
+      "step": 66000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
+  "num_input_tokens_seen": 17301504000,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 4.62832118267904e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null