Training in progress, step 2000, checkpoint

Browse files

Files changed (8) hide show

checkpoint-2000/model.safetensors +1 -1
checkpoint-2000/optimizer.pt +1 -1
checkpoint-2000/rng_state.pth +1 -1
checkpoint-2000/scaler.pt +3 -0
checkpoint-2000/scheduler.pt +1 -1
checkpoint-2000/tokenizer.json +0 -0
checkpoint-2000/trainer_state.json +47 -27
checkpoint-2000/training_args.bin +1 -1

checkpoint-2000/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b7ef501245cab36951ffbc368622440ccb8abff1a5d4cae896b51162b3d3474f
 size 435544704

 version https://git-lfs.github.com/spec/v1
+oid sha256:92bf2ce48e8f6b47c2bdd084954a9a31723d1dd2eaffb94f92e2a19f6a6919c6
 size 435544704

checkpoint-2000/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:38e8c7d41ae296f1baf229587ce4accf7da5f3cf2437c9a2e7934230552369fe
 size 871183627

 version https://git-lfs.github.com/spec/v1
+oid sha256:f7809189c297b6fcd1364a9948878a7a909dbed481baaec7485bcec1cb29f1bf
 size 871183627

checkpoint-2000/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:84ed9aea9531213b3bd8e1b6c76a640fc631139a5416eed6660fc9cc59215653
 size 14709

 version https://git-lfs.github.com/spec/v1
+oid sha256:b8c48da2a25aa191b4ec410b8050371253a3b1cc35199ae599d4c1c2c01dc3d2
 size 14709

checkpoint-2000/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f4aa03f6e0cd07cf67ce1fbe3101d545f5771ef9148b9debf02b11cf6948da5c
+size 1383

checkpoint-2000/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0f70fe7298867fed663d1ff8e535a73bf05f135252ce7b79eaa00f66ec9b92df
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:49b00ffe724ca6b73e99f53f62318aca0890f3ad003cefa141b877072b3ea38f
 size 1465

checkpoint-2000/tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-2000/trainer_state.json CHANGED Viewed

@@ -1,49 +1,69 @@
 {
-  "best_global_step": 1964,
-  "best_metric": 3.5689728260040283,
   "best_model_checkpoint": null,
-  "epoch": 4.0733197556008145,
   "eval_steps": 500,
   "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_loss": 4.097745895385742,
-      "eval_runtime": 66.4624,
-      "eval_samples_per_second": 504.782,
-      "eval_steps_per_second": 1.986,
-      "step": 491
     },
     {
       "epoch": 2.0,
-      "eval_loss": 3.760134696960449,
-      "eval_runtime": 66.4623,
-      "eval_samples_per_second": 504.783,
-      "eval_steps_per_second": 1.986,
-      "step": 982
     },
     {
       "epoch": 3.0,
-      "eval_loss": 3.632955312728882,
-      "eval_runtime": 66.4406,
-      "eval_samples_per_second": 504.947,
-      "eval_steps_per_second": 1.987,
-      "step": 1473
     },
     {
-      "epoch": 4.0,
-      "eval_loss": 3.5689728260040283,
-      "eval_runtime": 66.4551,
-      "eval_samples_per_second": 504.837,
-      "eval_steps_per_second": 1.986,
-      "step": 1964
     }
   ],
-  "logging_steps": 4000,
-  "max_steps": 2455,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 5,
   "save_steps": 500,
@@ -59,7 +79,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.3434405830656e+16,
   "train_batch_size": 256,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 1503,
+  "best_metric": 3.3919992446899414,
   "best_model_checkpoint": null,
+  "epoch": 3.992015968063872,
   "eval_steps": 500,
   "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
+    {
+      "epoch": 0.001996007984031936,
+      "grad_norm": 30.08072853088379,
+      "learning_rate": 0.0,
+      "loss": 10.3965,
+      "step": 1
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 1.243941068649292,
+      "learning_rate": 0.0001,
+      "loss": 4.8834,
+      "step": 501
+    },
     {
       "epoch": 1.0,
+      "eval_loss": 3.908651113510132,
+      "eval_runtime": 19.9819,
+      "eval_samples_per_second": 1586.036,
+      "eval_steps_per_second": 6.206,
+      "step": 501
     },
     {
       "epoch": 2.0,
+      "grad_norm": 0.9641751050949097,
+      "learning_rate": 7.495e-05,
+      "loss": 3.6523,
+      "step": 1002
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 3.5351648330688477,
+      "eval_runtime": 19.9653,
+      "eval_samples_per_second": 1587.356,
+      "eval_steps_per_second": 6.211,
+      "step": 1002
     },
     {
       "epoch": 3.0,
+      "grad_norm": 0.8552572131156921,
+      "learning_rate": 4.99e-05,
+      "loss": 3.3936,
+      "step": 1503
     },
     {
+      "epoch": 3.0,
+      "eval_loss": 3.3919992446899414,
+      "eval_runtime": 32.8666,
+      "eval_samples_per_second": 964.261,
+      "eval_steps_per_second": 3.773,
+      "step": 1503
     }
   ],
+  "logging_steps": 500,
+  "max_steps": 2505,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 5,
   "save_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 3.3440284901376e+16,
   "train_batch_size": 256,
   "trial_name": null,
   "trial_params": null

checkpoint-2000/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9a57dba9b9c8c3226400ebcad0a2060a021a094dd027a7ac1acf9378f5c6cc27
 size 5969

 version https://git-lfs.github.com/spec/v1
+oid sha256:cb7a8afa9c6745812d26be318b1c7d9348962a9c4c0d9cbb9442934f28d74eb6
 size 5969