Training in progress, step 58000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c12b0497c316584eab0a6471e97deaea6b6c97411924d2517f029fde79d3b1c2
 size 301235464

 version https://git-lfs.github.com/spec/v1
+oid sha256:24ebb1df57ac2ee9b586e62f321c007518f59293b5104f6e4c9cd4556be49e20
 size 301235464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3e51e859ffdf4b3059a027d7764e0788d882ec9bf060bed69c183a774f7373cd
 size 602335994

 version https://git-lfs.github.com/spec/v1
+oid sha256:284d00e91b8ed248cc64cf350da118b741fc38fb51627a69c88a312c68a088a3
 size 602335994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b80a94302b027aba469e721f259f7cea336e0f08145beaf0eef00eec23f3459c
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ec1bfb0db1c21e8b4cd52af95928aa8366b624cdfe8a7ae4baa053e84325dfb8
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:25aca1947c52853a475b5e869ec5722620ca13248105b9ec208f0e66ff7cf239
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:546d8e8727a1368f14dcaccf9c4cddd7ddc8e71b1cf1d15c1ef9e8250409d1c7
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.27189143422731554,
   "eval_steps": 500,
-  "global_step": 57000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -10154,11 +10154,189 @@
       "eval_steps_per_second": 23.418,
       "num_input_tokens_seen": 14942203456,
       "step": 57000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
-  "num_input_tokens_seen": 14942203456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -10173,7 +10351,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.9971852603857306e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.2766614593891983,
   "eval_steps": 500,
+  "global_step": 58000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 23.418,
       "num_input_tokens_seen": 14942203456,
       "step": 57000
+    },
+    {
+      "epoch": 0.2721299354854097,
+      "grad_norm": 0.22044019401073456,
+      "learning_rate": 0.0009861849601988384,
+      "loss": 2.6119,
+      "num_input_tokens_seen": 14955310656,
+      "step": 57050
+    },
+    {
+      "epoch": 0.2723684367435038,
+      "grad_norm": 0.2155238389968872,
+      "learning_rate": 0.0009848447601883434,
+      "loss": 2.5869,
+      "num_input_tokens_seen": 14968417856,
+      "step": 57100
+    },
+    {
+      "epoch": 0.27260693800159796,
+      "grad_norm": 0.21131549775600433,
+      "learning_rate": 0.0009834435247725033,
+      "loss": 2.5988,
+      "num_input_tokens_seen": 14981525056,
+      "step": 57150
+    },
+    {
+      "epoch": 0.27284543925969207,
+      "grad_norm": 0.21247337758541107,
+      "learning_rate": 0.0009819814303479266,
+      "loss": 2.6198,
+      "num_input_tokens_seen": 14994632256,
+      "step": 57200
+    },
+    {
+      "epoch": 0.27308394051778623,
+      "grad_norm": 0.21916711330413818,
+      "learning_rate": 0.00098045866097255,
+      "loss": 2.6019,
+      "num_input_tokens_seen": 15007739456,
+      "step": 57250
+    },
+    {
+      "epoch": 0.2733224417758804,
+      "grad_norm": 0.1925441473722458,
+      "learning_rate": 0.0009788754083424652,
+      "loss": 2.6143,
+      "num_input_tokens_seen": 15020846656,
+      "step": 57300
+    },
+    {
+      "epoch": 0.2735609430339745,
+      "grad_norm": 0.38578665256500244,
+      "learning_rate": 0.0009772318717677904,
+      "loss": 2.6037,
+      "num_input_tokens_seen": 15033953856,
+      "step": 57350
+    },
+    {
+      "epoch": 0.27379944429206865,
+      "grad_norm": 0.19650611281394958,
+      "learning_rate": 0.0009755282581475768,
+      "loss": 2.5745,
+      "num_input_tokens_seen": 15047061056,
+      "step": 57400
+    },
+    {
+      "epoch": 0.27403794555016275,
+      "grad_norm": 0.2376088798046112,
+      "learning_rate": 0.0009737647819437645,
+      "loss": 2.5968,
+      "num_input_tokens_seen": 15060168256,
+      "step": 57450
+    },
+    {
+      "epoch": 0.2742764468082569,
+      "grad_norm": 0.21746863424777985,
+      "learning_rate": 0.0009719416651541838,
+      "loss": 2.5965,
+      "num_input_tokens_seen": 15073275456,
+      "step": 57500
+    },
+    {
+      "epoch": 0.2742764468082569,
+      "eval_loss": 2.483751058578491,
+      "eval_runtime": 53.9622,
+      "eval_samples_per_second": 92.657,
+      "eval_steps_per_second": 23.164,
+      "num_input_tokens_seen": 15073275456,
+      "step": 57500
+    },
+    {
+      "epoch": 0.27451494806635107,
+      "grad_norm": 0.2898815870285034,
+      "learning_rate": 0.0009700591372846095,
+      "loss": 2.6105,
+      "num_input_tokens_seen": 15086382656,
+      "step": 57550
+    },
+    {
+      "epoch": 0.2747534493244452,
+      "grad_norm": 0.24887384474277496,
+      "learning_rate": 0.0009681174353198686,
+      "loss": 2.6103,
+      "num_input_tokens_seen": 15099489856,
+      "step": 57600
+    },
+    {
+      "epoch": 0.27499195058253934,
+      "grad_norm": 0.26613715291023254,
+      "learning_rate": 0.0009661168036940071,
+      "loss": 2.6296,
+      "num_input_tokens_seen": 15112597056,
+      "step": 57650
+    },
+    {
+      "epoch": 0.27523045184063344,
+      "grad_norm": 0.23983849585056305,
+      "learning_rate": 0.0009640574942595195,
+      "loss": 2.6008,
+      "num_input_tokens_seen": 15125704256,
+      "step": 57700
+    },
+    {
+      "epoch": 0.2754689530987276,
+      "grad_norm": 0.23169022798538208,
+      "learning_rate": 0.0009619397662556434,
+      "loss": 2.596,
+      "num_input_tokens_seen": 15138811456,
+      "step": 57750
+    },
+    {
+      "epoch": 0.27570745435682176,
+      "grad_norm": 0.21353812515735626,
+      "learning_rate": 0.0009597638862757254,
+      "loss": 2.6039,
+      "num_input_tokens_seen": 15151918656,
+      "step": 57800
+    },
+    {
+      "epoch": 0.27594595561491586,
+      "grad_norm": 0.2561227083206177,
+      "learning_rate": 0.00095753012823366,
+      "loss": 2.6046,
+      "num_input_tokens_seen": 15165025856,
+      "step": 57850
+    },
+    {
+      "epoch": 0.27618445687301,
+      "grad_norm": 0.20380394160747528,
+      "learning_rate": 0.000955238773329408,
+      "loss": 2.5968,
+      "num_input_tokens_seen": 15178133056,
+      "step": 57900
+    },
+    {
+      "epoch": 0.2764229581311041,
+      "grad_norm": 0.26447024941444397,
+      "learning_rate": 0.000952890110013597,
+      "loss": 2.5848,
+      "num_input_tokens_seen": 15191240256,
+      "step": 57950
+    },
+    {
+      "epoch": 0.2766614593891983,
+      "grad_norm": 0.23530781269073486,
+      "learning_rate": 0.0009504844339512095,
+      "loss": 2.582,
+      "num_input_tokens_seen": 15204347456,
+      "step": 58000
+    },
+    {
+      "epoch": 0.2766614593891983,
+      "eval_loss": 2.482050895690918,
+      "eval_runtime": 53.5775,
+      "eval_samples_per_second": 93.323,
+      "eval_steps_per_second": 23.331,
+      "num_input_tokens_seen": 15204347456,
+      "step": 58000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
+  "num_input_tokens_seen": 15204347456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 4.0673113389111706e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null