Training in progress, step 1470, checkpoint

Files changed (7) hide show

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -20,11 +20,11 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "lm_head",
     "query_key_value",
     "dense",
-    "dense_h_to_4h",
-    "dense_4h_to_h"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "query_key_value",
+    "lm_head",
+    "dense_4h_to_h",
     "dense",
+    "dense_h_to_4h"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eaa1a251c60709477d0d8c482aeeb1eeb49429fe0b9a6641c945fd96f9e946da
 size 1316913776

 version https://git-lfs.github.com/spec/v1
+oid sha256:3aa442a7b0a850e10f76551b4fc32c47a42a8fc8ae52fe78c48295baf3448481
 size 1316913776

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f4372b065710baf1bb08c3b4a94e8f177b87ea1e7c2a1f05f93288bc856c4e20
 size 8908124

 version https://git-lfs.github.com/spec/v1
+oid sha256:912608e1f46c072dd62554a214c457e0bb9fbc29265936c8921001ea187536d0
 size 8908124

last-checkpoint/rng_state.pth CHANGED Viewed

Binary files a/last-checkpoint/rng_state.pth and b/last-checkpoint/rng_state.pth differ

last-checkpoint/scheduler.pt CHANGED Viewed

Binary files a/last-checkpoint/scheduler.pt and b/last-checkpoint/scheduler.pt differ

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.30914555603263205,
   "eval_steps": 500,
-  "global_step": 1440,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1015,14 +1015,35 @@
       "learning_rate": 0.00034542722198368397,
       "loss": 0.7839,
       "step": 1440
     }
   ],
   "logging_steps": 10,
   "max_steps": 4658,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
-  "save_steps": 10,
-  "total_flos": 1.0907404405212672e+17,
   "train_batch_size": 3,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.31558608844997854,
   "eval_steps": 500,
+  "global_step": 1470,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.00034542722198368397,
       "loss": 0.7839,
       "step": 1440
+    },
+    {
+      "epoch": 0.31129240017174753,
+      "grad_norm": 1.4786028861999512,
+      "learning_rate": 0.00034435379991412624,
+      "loss": 0.7995,
+      "step": 1450
+    },
+    {
+      "epoch": 0.313439244310863,
+      "grad_norm": 1.392654538154602,
+      "learning_rate": 0.0003432803778445685,
+      "loss": 0.8046,
+      "step": 1460
+    },
+    {
+      "epoch": 0.31558608844997854,
+      "grad_norm": 1.730966567993164,
+      "learning_rate": 0.00034220695577501074,
+      "loss": 0.7909,
+      "step": 1470
     }
   ],
   "logging_steps": 10,
   "max_steps": 4658,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
+  "save_steps": 30,
+  "total_flos": 1.1131927713309773e+17,
   "train_batch_size": 3,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

Binary files a/last-checkpoint/training_args.bin and b/last-checkpoint/training_args.bin differ