Training in progress, step 2520, checkpoint

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4e02f0b07888a18f78925c80c0abe3ec0dab6ba81ca6e3ea35f268d2aae3756f
 size 100697728

 version https://git-lfs.github.com/spec/v1
+oid sha256:6346a70cf6093679d4d5b93fd3421bc7a3e8ca9f233962b574cc1e605da07a63
 size 100697728

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:812c8fcbd607abcc509d9f623a466c6bab8999f10f3fd5d8ccfb7735c9b588b5
 size 201541754

 version https://git-lfs.github.com/spec/v1
+oid sha256:2970350d5affaa1384aa18b2fcabe3041d0121f55ef78024ff71924e2b9bd97d
 size 201541754

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:91cbcad44b892d298ee950eef6c79d786cbfe7529198d9a47e907a2ee94a28c1
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:9eccae15e2cae4c77b5aefc4760075dc2fa9e695d63c8bcac7425551f60d749f
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a3bc27445dbff80295e46a0b4562f639afc40afb528b8350a5016c11891bb6dd
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a5c37c503fee750e3269106b2ec8e747f83501e7f65e6d8e35bc17a08fbb85e
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.8944543828264758,
   "eval_steps": 500,
-  "global_step": 2500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2007,14 +2007,30 @@
       "loss": 0.391,
       "num_input_tokens_seen": 1694486,
       "step": 2500
     }
   ],
   "logging_steps": 10,
   "max_steps": 2795,
-  "num_input_tokens_seen": 1694486,
   "num_train_epochs": 1,
   "save_steps": 20,
-  "total_flos": 3.810300624569549e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9016100178890877,
   "eval_steps": 500,
+  "global_step": 2520,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "loss": 0.391,
       "num_input_tokens_seen": 1694486,
       "step": 2500
+    },
+    {
+      "epoch": 0.8980322003577818,
+      "grad_norm": 0.2778749167919159,
+      "learning_rate": 2.039355992844365e-05,
+      "loss": 0.3755,
+      "num_input_tokens_seen": 1701728,
+      "step": 2510
+    },
+    {
+      "epoch": 0.9016100178890877,
+      "grad_norm": 0.45739054679870605,
+      "learning_rate": 1.967799642218247e-05,
+      "loss": 0.3857,
+      "num_input_tokens_seen": 1707744,
+      "step": 2520
     }
   ],
   "logging_steps": 10,
   "max_steps": 2795,
+  "num_input_tokens_seen": 1707744,
   "num_train_epochs": 1,
   "save_steps": 20,
+  "total_flos": 3.840113184650035e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null