Training in progress, step 1500, checkpoint

Files changed (8) hide show

checkpoint-1500/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c9544c5e4c90db360cba5429b9e6d82f61b7d097443d0d5eee1e67cca8ce28ca
 size 435544704

 version https://git-lfs.github.com/spec/v1
+oid sha256:f1e8032fe6e2b361176c658949a7944ff5451ace2677bced8d9d648430bb30c5
 size 435544704

checkpoint-1500/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:077f6e457ca163e65e6965512d6c70c058b4354f40d064f5c7b6c6a8119be0fd
 size 871183627

 version https://git-lfs.github.com/spec/v1
+oid sha256:f24a0f2d586b9c45412afdd1903570ccc56c5ebb7c95aaad362b0ea54f6ebf7a
 size 871183627

checkpoint-1500/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:20c27b687f67409fa19b30413659b9d44e1bfcba7c27b49a084aa2c5cf01e814
 size 14709

 version https://git-lfs.github.com/spec/v1
+oid sha256:5736fc4f79b049d43cebb82bd8d6e381c56b5d731c447ebb08a84d1fa2ff4850
 size 14709

checkpoint-1500/scaler.pt ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:ca372268f4fa9335030c0cb7aedb6cdba75f457da50e7a4034abb1a2d0843689
+size 1383

checkpoint-1500/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9315627fa2833233ff9b197f9fc0f1bf1637a88d74b2d6257547556641609ee4
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:8259265c70704be41b3a0660d7303797b6c392f95a832ca95ac25d45da51f204
 size 1465

checkpoint-1500/tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1500/trainer_state.json CHANGED Viewed

@@ -1,41 +1,54 @@
 {
-  "best_global_step": 1479,
-  "best_metric": 3.420259475708008,
   "best_model_checkpoint": null,
-  "epoch": 3.0425963488843815,
   "eval_steps": 500,
   "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_loss": 3.699713945388794,
-      "eval_runtime": 66.4234,
-      "eval_samples_per_second": 505.078,
-      "eval_steps_per_second": 1.987,
-      "step": 493
     },
     {
       "epoch": 2.0,
-      "eval_loss": 3.4864065647125244,
-      "eval_runtime": 66.5023,
-      "eval_samples_per_second": 504.478,
-      "eval_steps_per_second": 1.985,
-      "step": 986
     },
     {
-      "epoch": 3.0,
-      "eval_loss": 3.420259475708008,
-      "eval_runtime": 66.4744,
-      "eval_samples_per_second": 504.691,
-      "eval_steps_per_second": 1.986,
-      "step": 1479
     }
   ],
-  "logging_steps": 4000,
-  "max_steps": 2465,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 5,
   "save_steps": 500,
@@ -51,7 +64,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.5081291505664e+16,
   "train_batch_size": 256,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 1006,
+  "best_metric": 3.3002562522888184,
   "best_model_checkpoint": null,
+  "epoch": 2.982107355864811,
   "eval_steps": 500,
   "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
+    {
+      "epoch": 0.0019880715705765406,
+      "grad_norm": 30.286874771118164,
+      "learning_rate": 0.0,
+      "loss": 10.4037,
+      "step": 1
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 4.5649309158325195,
+      "learning_rate": 9.990049751243782e-05,
+      "loss": 4.5769,
+      "step": 503
+    },
     {
       "epoch": 1.0,
+      "eval_loss": 3.519712209701538,
+      "eval_runtime": 20.0659,
+      "eval_samples_per_second": 1582.434,
+      "eval_steps_per_second": 6.229,
+      "step": 503
     },
     {
       "epoch": 2.0,
+      "grad_norm": 4.33253812789917,
+      "learning_rate": 7.487562189054727e-05,
+      "loss": 3.322,
+      "step": 1006
     },
     {
+      "epoch": 2.0,
+      "eval_loss": 3.3002562522888184,
+      "eval_runtime": 19.9319,
+      "eval_samples_per_second": 1593.072,
+      "eval_steps_per_second": 6.271,
+      "step": 1006
     }
   ],
+  "logging_steps": 500,
+  "max_steps": 2515,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 5,
   "save_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 2.5051112275968e+16,
   "train_batch_size": 256,
   "trial_name": null,
   "trial_params": null

checkpoint-1500/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1285c1203d7b7d0bc2c5cf4438755682a229df180e1a3302dd60ed4cd53422e8
 size 5969

 version https://git-lfs.github.com/spec/v1
+oid sha256:dbadbc9569720773994790c3cab01a01ad3d053aeceb5489a3f461ffef8d7cba
 size 5969