Training in progress, step 55000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aa0a1572ea481edcf54695292d1afeb45339e9d2c4b988649cdfc68bb148006f
 size 301235464

 version https://git-lfs.github.com/spec/v1
+oid sha256:b5142916764b6385c48d096b2a7f336531a047dd5a1c0cd7b8aa09a2fdd35007
 size 301235464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:88539436cc04b7ab674c4b703cc9d0b734fa709baeed11a8b4233a791dc8b00e
 size 602335994

 version https://git-lfs.github.com/spec/v1
+oid sha256:8c871f297ec758cbe8e1e4a52c756dfd036112baba8fbed3f20c9699d23ba9b0
 size 602335994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e516d1931a63763a7fdfb84f01f54aaada25beb218520b62969ba08ff897cee4
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:9a5eacfa99e53a8a1de73851121ef39f03223e9cc67398ac06a0e84e6dbf4ae3
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b89459823d581d70469027e8df5427d5b9a07aadbd42c55eac43368b994e74e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:aaffe7b6e7bde964bb6e6784b39ca6209cca3589a90aff9795b02fa93025464e
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.2575813587416674,
   "eval_steps": 500,
-  "global_step": 54000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -9620,11 +9620,189 @@
       "eval_steps_per_second": 23.204,
       "num_input_tokens_seen": 14155771456,
       "step": 54000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
-  "num_input_tokens_seen": 14155771456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -9639,7 +9817,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.7868070248094106e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.2623513839035501,
   "eval_steps": 500,
+  "global_step": 55000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 23.204,
       "num_input_tokens_seen": 14155771456,
       "step": 54000
+    },
+    {
+      "epoch": 0.2578198599997615,
+      "grad_norm": 0.2028844654560089,
+      "learning_rate": 0.001,
+      "loss": 2.6039,
+      "num_input_tokens_seen": 14168878656,
+      "step": 54050
+    },
+    {
+      "epoch": 0.25805836125785564,
+      "grad_norm": 0.19936658442020416,
+      "learning_rate": 0.001,
+      "loss": 2.5985,
+      "num_input_tokens_seen": 14181985856,
+      "step": 54100
+    },
+    {
+      "epoch": 0.2582968625159498,
+      "grad_norm": 0.2087993025779724,
+      "learning_rate": 0.001,
+      "loss": 2.62,
+      "num_input_tokens_seen": 14195093056,
+      "step": 54150
+    },
+    {
+      "epoch": 0.2585353637740439,
+      "grad_norm": 0.18972960114479065,
+      "learning_rate": 0.001,
+      "loss": 2.5936,
+      "num_input_tokens_seen": 14208200256,
+      "step": 54200
+    },
+    {
+      "epoch": 0.25877386503213806,
+      "grad_norm": 0.2162945419549942,
+      "learning_rate": 0.001,
+      "loss": 2.6125,
+      "num_input_tokens_seen": 14221307456,
+      "step": 54250
+    },
+    {
+      "epoch": 0.25901236629023217,
+      "grad_norm": 0.2538411319255829,
+      "learning_rate": 0.001,
+      "loss": 2.6197,
+      "num_input_tokens_seen": 14234414656,
+      "step": 54300
+    },
+    {
+      "epoch": 0.2592508675483263,
+      "grad_norm": 0.28060850501060486,
+      "learning_rate": 0.001,
+      "loss": 2.6194,
+      "num_input_tokens_seen": 14247521856,
+      "step": 54350
+    },
+    {
+      "epoch": 0.25948936880642043,
+      "grad_norm": 0.21557608246803284,
+      "learning_rate": 0.001,
+      "loss": 2.623,
+      "num_input_tokens_seen": 14260629056,
+      "step": 54400
+    },
+    {
+      "epoch": 0.2597278700645146,
+      "grad_norm": 0.21628426015377045,
+      "learning_rate": 0.001,
+      "loss": 2.6077,
+      "num_input_tokens_seen": 14273736256,
+      "step": 54450
+    },
+    {
+      "epoch": 0.25996637132260875,
+      "grad_norm": 0.19123327732086182,
+      "learning_rate": 0.001,
+      "loss": 2.5991,
+      "num_input_tokens_seen": 14286843456,
+      "step": 54500
+    },
+    {
+      "epoch": 0.25996637132260875,
+      "eval_loss": 2.4861645698547363,
+      "eval_runtime": 53.6448,
+      "eval_samples_per_second": 93.206,
+      "eval_steps_per_second": 23.301,
+      "num_input_tokens_seen": 14286843456,
+      "step": 54500
+    },
+    {
+      "epoch": 0.26020487258070285,
+      "grad_norm": 0.20462968945503235,
+      "learning_rate": 0.001,
+      "loss": 2.5887,
+      "num_input_tokens_seen": 14299950656,
+      "step": 54550
+    },
+    {
+      "epoch": 0.260443373838797,
+      "grad_norm": 0.20952938497066498,
+      "learning_rate": 0.001,
+      "loss": 2.608,
+      "num_input_tokens_seen": 14313057856,
+      "step": 54600
+    },
+    {
+      "epoch": 0.2606818750968911,
+      "grad_norm": 0.2095402032136917,
+      "learning_rate": 0.001,
+      "loss": 2.6079,
+      "num_input_tokens_seen": 14326165056,
+      "step": 54650
+    },
+    {
+      "epoch": 0.2609203763549853,
+      "grad_norm": 0.2343517541885376,
+      "learning_rate": 0.001,
+      "loss": 2.6124,
+      "num_input_tokens_seen": 14339272256,
+      "step": 54700
+    },
+    {
+      "epoch": 0.26115887761307943,
+      "grad_norm": 0.23840700089931488,
+      "learning_rate": 0.001,
+      "loss": 2.6015,
+      "num_input_tokens_seen": 14352379456,
+      "step": 54750
+    },
+    {
+      "epoch": 0.26139737887117354,
+      "grad_norm": 0.22024671733379364,
+      "learning_rate": 0.001,
+      "loss": 2.5812,
+      "num_input_tokens_seen": 14365486656,
+      "step": 54800
+    },
+    {
+      "epoch": 0.2616358801292677,
+      "grad_norm": 0.19884246587753296,
+      "learning_rate": 0.001,
+      "loss": 2.6118,
+      "num_input_tokens_seen": 14378593856,
+      "step": 54850
+    },
+    {
+      "epoch": 0.2618743813873618,
+      "grad_norm": 0.46560585498809814,
+      "learning_rate": 0.001,
+      "loss": 2.6024,
+      "num_input_tokens_seen": 14391701056,
+      "step": 54900
+    },
+    {
+      "epoch": 0.26211288264545596,
+      "grad_norm": 0.2956256568431854,
+      "learning_rate": 0.001,
+      "loss": 2.6073,
+      "num_input_tokens_seen": 14404808256,
+      "step": 54950
+    },
+    {
+      "epoch": 0.2623513839035501,
+      "grad_norm": 0.286327064037323,
+      "learning_rate": 0.001,
+      "loss": 2.5946,
+      "num_input_tokens_seen": 14417915456,
+      "step": 55000
+    },
+    {
+      "epoch": 0.2623513839035501,
+      "eval_loss": 2.4892399311065674,
+      "eval_runtime": 53.3184,
+      "eval_samples_per_second": 93.776,
+      "eval_steps_per_second": 23.444,
+      "num_input_tokens_seen": 14417915456,
+      "step": 55000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
+  "num_input_tokens_seen": 14417915456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 3.8569331033348506e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null