Training in progress, step 19000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c92b8ea1ab7aa1c3c704ca60e66275b713cae4225ae135b904f4c11a6b994994
 size 517931840

 version https://git-lfs.github.com/spec/v1
+oid sha256:50692c69fe3ea90614dc625956890e6dd059a4900ffb733cb441c9d9b0be1ed6
 size 517931840

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7a3f3c04ed042650af1b9c11df2cc35ac490889b1116ef774fd4222e5f41e410
 size 1035661434

 version https://git-lfs.github.com/spec/v1
+oid sha256:f34ad85e7a64410399bc0984c1c1c25765a6659574c5d382b0c132a27be2f0f8
 size 1035661434

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e5e2f21ad13dc4eb631067c76b1a1560519d302bc60e4e9cb00bba81ca70a316
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:09184de0af072dcf6f15e331e61deb81a6900d407b5c7ebcb519d56082f36e97
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a234e8f8153fe3070553b0b2d9439870baa50cef586f11ec979ecf56399b8c74
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:02c3d80aaacee80212417a329afbc88c74b35bad8004900a2301b44b629b4ab7
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.3953887783722338,
   "eval_steps": 500,
-  "global_step": 18000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3212,11 +3212,189 @@
       "eval_steps_per_second": 19.114,
       "num_input_tokens_seen": 18874368000,
       "step": 18000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
-  "num_input_tokens_seen": 18874368000,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -3231,7 +3409,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.0749090887368704e+19,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.4173548216151357,
   "eval_steps": 500,
+  "global_step": 19000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 19.114,
       "num_input_tokens_seen": 18874368000,
       "step": 18000
+    },
+    {
+      "epoch": 0.3964870805343789,
+      "grad_norm": 0.1353403478860855,
+      "learning_rate": 0.001,
+      "loss": 2.724,
+      "num_input_tokens_seen": 18926796800,
+      "step": 18050
+    },
+    {
+      "epoch": 0.397585382696524,
+      "grad_norm": 0.15004459023475647,
+      "learning_rate": 0.001,
+      "loss": 2.717,
+      "num_input_tokens_seen": 18979225600,
+      "step": 18100
+    },
+    {
+      "epoch": 0.3986836848586691,
+      "grad_norm": 0.1293007880449295,
+      "learning_rate": 0.001,
+      "loss": 2.7187,
+      "num_input_tokens_seen": 19031654400,
+      "step": 18150
+    },
+    {
+      "epoch": 0.3997819870208142,
+      "grad_norm": 0.16373878717422485,
+      "learning_rate": 0.001,
+      "loss": 2.7217,
+      "num_input_tokens_seen": 19084083200,
+      "step": 18200
+    },
+    {
+      "epoch": 0.4008802891829593,
+      "grad_norm": 0.1529611349105835,
+      "learning_rate": 0.001,
+      "loss": 2.722,
+      "num_input_tokens_seen": 19136512000,
+      "step": 18250
+    },
+    {
+      "epoch": 0.4019785913451044,
+      "grad_norm": 0.14109951257705688,
+      "learning_rate": 0.001,
+      "loss": 2.7232,
+      "num_input_tokens_seen": 19188940800,
+      "step": 18300
+    },
+    {
+      "epoch": 0.40307689350724946,
+      "grad_norm": 0.13841493427753448,
+      "learning_rate": 0.001,
+      "loss": 2.7195,
+      "num_input_tokens_seen": 19241369600,
+      "step": 18350
+    },
+    {
+      "epoch": 0.4041751956693946,
+      "grad_norm": 0.13508476316928864,
+      "learning_rate": 0.001,
+      "loss": 2.7166,
+      "num_input_tokens_seen": 19293798400,
+      "step": 18400
+    },
+    {
+      "epoch": 0.40527349783153965,
+      "grad_norm": 0.1372646540403366,
+      "learning_rate": 0.001,
+      "loss": 2.7212,
+      "num_input_tokens_seen": 19346227200,
+      "step": 18450
+    },
+    {
+      "epoch": 0.4063717999936848,
+      "grad_norm": 0.1485033482313156,
+      "learning_rate": 0.001,
+      "loss": 2.7186,
+      "num_input_tokens_seen": 19398656000,
+      "step": 18500
+    },
+    {
+      "epoch": 0.4063717999936848,
+      "eval_loss": 2.622330904006958,
+      "eval_runtime": 66.3601,
+      "eval_samples_per_second": 75.346,
+      "eval_steps_per_second": 18.837,
+      "num_input_tokens_seen": 19398656000,
+      "step": 18500
+    },
+    {
+      "epoch": 0.40747010215582985,
+      "grad_norm": 0.1484711617231369,
+      "learning_rate": 0.001,
+      "loss": 2.7235,
+      "num_input_tokens_seen": 19451084800,
+      "step": 18550
+    },
+    {
+      "epoch": 0.408568404317975,
+      "grad_norm": 0.141770601272583,
+      "learning_rate": 0.001,
+      "loss": 2.7225,
+      "num_input_tokens_seen": 19503513600,
+      "step": 18600
+    },
+    {
+      "epoch": 0.40966670648012005,
+      "grad_norm": 0.1213323250412941,
+      "learning_rate": 0.001,
+      "loss": 2.7212,
+      "num_input_tokens_seen": 19555942400,
+      "step": 18650
+    },
+    {
+      "epoch": 0.4107650086422651,
+      "grad_norm": 0.14149373769760132,
+      "learning_rate": 0.001,
+      "loss": 2.7181,
+      "num_input_tokens_seen": 19608371200,
+      "step": 18700
+    },
+    {
+      "epoch": 0.41186331080441024,
+      "grad_norm": 0.13964049518108368,
+      "learning_rate": 0.001,
+      "loss": 2.7147,
+      "num_input_tokens_seen": 19660800000,
+      "step": 18750
+    },
+    {
+      "epoch": 0.4129616129665553,
+      "grad_norm": 0.1384592205286026,
+      "learning_rate": 0.001,
+      "loss": 2.7141,
+      "num_input_tokens_seen": 19713228800,
+      "step": 18800
+    },
+    {
+      "epoch": 0.41405991512870044,
+      "grad_norm": 0.15027381479740143,
+      "learning_rate": 0.001,
+      "loss": 2.7185,
+      "num_input_tokens_seen": 19765657600,
+      "step": 18850
+    },
+    {
+      "epoch": 0.4151582172908455,
+      "grad_norm": 0.15221597254276276,
+      "learning_rate": 0.001,
+      "loss": 2.7206,
+      "num_input_tokens_seen": 19818086400,
+      "step": 18900
+    },
+    {
+      "epoch": 0.4162565194529906,
+      "grad_norm": 0.1272735893726349,
+      "learning_rate": 0.001,
+      "loss": 2.7183,
+      "num_input_tokens_seen": 19870515200,
+      "step": 18950
+    },
+    {
+      "epoch": 0.4173548216151357,
+      "grad_norm": 0.1258268654346466,
+      "learning_rate": 0.001,
+      "loss": 2.7117,
+      "num_input_tokens_seen": 19922944000,
+      "step": 19000
+    },
+    {
+      "epoch": 0.4173548216151357,
+      "eval_loss": 2.619187116622925,
+      "eval_runtime": 65.7537,
+      "eval_samples_per_second": 76.041,
+      "eval_steps_per_second": 19.01,
+      "num_input_tokens_seen": 19922944000,
+      "step": 19000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
+  "num_input_tokens_seen": 19922944000,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 1.1346262603333632e+19,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null