update model

Files changed (7) hide show

adapter_config.json +2 -2
adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +48 -5
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -20,10 +20,10 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "v_proj",
     "q_proj",
-    "o_proj",
-    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "k_proj",
     "v_proj",
     "q_proj",
+    "o_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9d5072921ec4867fb9c6c1292707d2d982293cc138ee7d959a9c2a95840eb8b8
 size 109086672

 version https://git-lfs.github.com/spec/v1
+oid sha256:a25f2ed275ea072e432db4a0587f317b13e4cda88d58e95fce0afc570a015947
 size 109086672

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8a05221272abd2199bcafc4910a4a2e7cb072420e5ade714b5708c7ccedb8190
 size 218319610

 version https://git-lfs.github.com/spec/v1
+oid sha256:696016ee9b60b8db3b5cc6401701bb2091ea344917571914ed8464dc4e2ce933
 size 218319610

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0132374830d5dc19b4b6343e986f2b95b1e82201adc3295f03c8efd9e306924f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:c8d15991fe4f291e07056c30e4272fb349859451b58691ae79afa0e3bbe1e0cc
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:15190fdae8b44036d8090dd5fd1f034d735830cbb1eec373b75c5a8823bf1b7e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e3fc1e90bfe44ed29af9520a74f7b0ae82010d7c23e55da07bc01b4a4e4a50a0
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9959404600811907,
   "eval_steps": 500,
-  "global_step": 23,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -43,14 +43,57 @@
       "eval_samples_per_second": 1.145,
       "eval_steps_per_second": 1.145,
       "step": 23
     }
   ],
   "logging_steps": 5,
-  "max_steps": 23,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 1,
   "save_steps": 500,
-  "total_flos": 2.5920685332863386e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.9959404600811907,
   "eval_steps": 500,
+  "global_step": 46,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1.145,
       "eval_steps_per_second": 1.145,
       "step": 23
+    },
+    {
+      "epoch": 1.09,
+      "grad_norm": 0.1162109375,
+      "learning_rate": 1.1661750237200673e-05,
+      "loss": 1.8002,
+      "step": 25
+    },
+    {
+      "epoch": 1.3,
+      "grad_norm": 0.1162109375,
+      "learning_rate": 7.289121990629446e-06,
+      "loss": 1.8029,
+      "step": 30
+    },
+    {
+      "epoch": 1.52,
+      "grad_norm": 0.11181640625,
+      "learning_rate": 3.633714482245324e-06,
+      "loss": 1.7975,
+      "step": 35
+    },
+    {
+      "epoch": 1.74,
+      "grad_norm": 0.1181640625,
+      "learning_rate": 1.1176474296763868e-06,
+      "loss": 1.7978,
+      "step": 40
+    },
+    {
+      "epoch": 1.95,
+      "grad_norm": 0.1142578125,
+      "learning_rate": 3.147161592771996e-08,
+      "loss": 1.7977,
+      "step": 45
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 1.8171756267547607,
+      "eval_runtime": 534.6688,
+      "eval_samples_per_second": 1.126,
+      "eval_steps_per_second": 1.126,
+      "step": 46
     }
   ],
   "logging_steps": 5,
+  "max_steps": 46,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
   "save_steps": 500,
+  "total_flos": 5.184137066572677e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b54122e9e2f1ba0caa1d7401cc7367c7363d117ff0a143742c08377762a230d3
 size 4920

 version https://git-lfs.github.com/spec/v1
+oid sha256:b15578583779f65d412f2aff5e1de01a6d75c5544cb874fb5e608930057e2130
 size 4920