Training in progress, step 680, checkpoint

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:66333af72e1725806c8e221908e16e38b77dc29f7dce82420a71ceea2996f731
 size 100697728

 version https://git-lfs.github.com/spec/v1
+oid sha256:47a786cb7e329ab254056667d426149e3d8fdebab584d397cb89abcf19af80a5
 size 100697728

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4cf47a1463ac1ceb4c0c1e0ba9c8532a53101f3ec7c5d55cdea529cb461d992b
 size 201541754

 version https://git-lfs.github.com/spec/v1
+oid sha256:56515d5bf8b580a1af4072d013fcbb554ac9e14c88047bc94ba821081fe267fc
 size 201541754

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fc6353f9c4c4d14c6900d066e87c1879de52f1aa09da8179a11a66235a737911
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:921d9fb33186cf89374abb76830ea684f9fce9b882a59843abd028a94eb6a3ca
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5d7053aaab2445f905f900c08b42128e5713d6d142ebe37c511ff095c7697e08
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2df9b5bd996870bb5715debb3fbbd7b3fa2c91fccb5940591d8533888c8fdda4
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.23613595706618962,
   "eval_steps": 500,
-  "global_step": 660,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -535,14 +535,30 @@
       "loss": 0.4527,
       "num_input_tokens_seen": 444368,
       "step": 660
     }
   ],
   "logging_steps": 10,
   "max_steps": 2795,
-  "num_input_tokens_seen": 444368,
   "num_train_epochs": 1,
   "save_steps": 20,
-  "total_flos": 9992267082399744.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.24329159212880144,
   "eval_steps": 500,
+  "global_step": 680,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "loss": 0.4527,
       "num_input_tokens_seen": 444368,
       "step": 660
+    },
+    {
+      "epoch": 0.23971377459749552,
+      "grad_norm": 0.3075689375400543,
+      "learning_rate": 0.0001520572450805009,
+      "loss": 0.4057,
+      "num_input_tokens_seen": 449919,
+      "step": 670
+    },
+    {
+      "epoch": 0.24329159212880144,
+      "grad_norm": 0.3819845914840698,
+      "learning_rate": 0.00015134168157423971,
+      "loss": 0.3951,
+      "num_input_tokens_seen": 455612,
+      "step": 680
     }
   ],
   "logging_steps": 10,
   "max_steps": 2795,
+  "num_input_tokens_seen": 455612,
   "num_train_epochs": 1,
   "save_steps": 20,
+  "total_flos": 1.0245104935428096e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null