Training in progress, step 150, checkpoint

Browse files

Files changed (10) hide show

last-checkpoint/lora_lower/adapter_config.json +45 -45
last-checkpoint/lora_lower/adapter_model.safetensors +1 -1
last-checkpoint/lora_middle/adapter_config.json +21 -21
last-checkpoint/lora_middle/adapter_model.safetensors +1 -1
last-checkpoint/lora_top/adapter_config.json +8 -8
last-checkpoint/lora_top/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/scheduler.pt +2 -2
last-checkpoint/trainer_state.json +50 -50
last-checkpoint/training_args.bin +2 -2

last-checkpoint/lora_lower/adapter_config.json CHANGED Viewed

@@ -216,62 +216,62 @@
   },
   "revision": null,
   "target_modules": [
-    "transformer.h.10.mlp.dense_4h_to_h",
     "transformer.h.3.mlp.dense_h_to_4h",
-    "transformer.h.9.self_attention.dense",
-    "transformer.h.6.mlp.dense_4h_to_h",
     "transformer.h.11.self_attention.dense",
     "transformer.h.12.mlp.dense_h_to_4h",
-    "transformer.h.0.mlp.dense_4h_to_h",
-    "transformer.h.0.self_attention.dense",
-    "transformer.h.8.mlp.dense_h_to_4h",
-    "transformer.h.13.self_attention.dense",
-    "transformer.h.1.self_attention.dense",
-    "transformer.h.7.mlp.dense_4h_to_h",
-    "transformer.h.1.mlp.dense_4h_to_h",
-    "transformer.h.0.self_attention.query_key_value",
-    "transformer.h.11.self_attention.query_key_value",
     "transformer.h.12.mlp.dense_4h_to_h",
-    "transformer.h.6.mlp.dense_h_to_4h",
-    "transformer.h.7.self_attention.dense",
-    "transformer.h.8.mlp.dense_4h_to_h",
     "transformer.h.11.mlp.dense_h_to_4h",
-    "transformer.h.13.self_attention.query_key_value",
-    "transformer.h.1.self_attention.query_key_value",
-    "transformer.h.9.mlp.dense_h_to_4h",
-    "transformer.h.4.mlp.dense_4h_to_h",
-    "transformer.h.7.self_attention.query_key_value",
-    "transformer.h.4.mlp.dense_h_to_4h",
     "transformer.h.1.mlp.dense_h_to_4h",
-    "transformer.h.11.mlp.dense_4h_to_h",
-    "transformer.h.2.mlp.dense_h_to_4h",
-    "transformer.h.12.self_attention.query_key_value",
-    "transformer.h.3.self_attention.query_key_value",
-    "transformer.h.2.self_attention.query_key_value",
-    "transformer.h.2.self_attention.dense",
-    "transformer.h.2.mlp.dense_4h_to_h",
-    "transformer.h.4.self_attention.query_key_value",
-    "transformer.h.8.self_attention.query_key_value",
-    "transformer.h.4.self_attention.dense",
-    "transformer.h.13.mlp.dense_4h_to_h",
-    "transformer.h.10.mlp.dense_h_to_4h",
     "transformer.h.5.mlp.dense_h_to_4h",
     "transformer.h.9.self_attention.query_key_value",
-    "transformer.h.7.mlp.dense_h_to_4h",
-    "transformer.h.5.self_attention.query_key_value",
-    "transformer.h.5.self_attention.dense",
-    "transformer.h.3.mlp.dense_4h_to_h",
-    "transformer.h.0.mlp.dense_h_to_4h",
-    "transformer.h.6.self_attention.query_key_value",
     "transformer.h.5.mlp.dense_4h_to_h",
-    "transformer.h.9.mlp.dense_4h_to_h",
-    "transformer.h.10.self_attention.query_key_value",
-    "transformer.h.12.self_attention.dense",
-    "transformer.h.6.self_attention.dense",
     "transformer.h.8.self_attention.dense",
-    "transformer.h.10.self_attention.dense",
     "transformer.h.3.self_attention.dense",
-    "transformer.h.13.mlp.dense_h_to_4h"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   },
   "revision": null,
   "target_modules": [
+    "transformer.h.8.mlp.dense_4h_to_h",
+    "transformer.h.6.self_attention.query_key_value",
+    "transformer.h.4.mlp.dense_h_to_4h",
+    "transformer.h.11.mlp.dense_4h_to_h",
+    "transformer.h.5.self_attention.query_key_value",
+    "transformer.h.10.mlp.dense_h_to_4h",
+    "transformer.h.4.self_attention.query_key_value",
+    "transformer.h.4.mlp.dense_4h_to_h",
+    "transformer.h.1.mlp.dense_4h_to_h",
+    "transformer.h.13.mlp.dense_4h_to_h",
+    "transformer.h.6.self_attention.dense",
+    "transformer.h.13.mlp.dense_h_to_4h",
     "transformer.h.3.mlp.dense_h_to_4h",
+    "transformer.h.2.mlp.dense_4h_to_h",
+    "transformer.h.9.mlp.dense_4h_to_h",
+    "transformer.h.7.self_attention.dense",
+    "transformer.h.8.self_attention.query_key_value",
+    "transformer.h.6.mlp.dense_h_to_4h",
     "transformer.h.11.self_attention.dense",
+    "transformer.h.10.mlp.dense_4h_to_h",
+    "transformer.h.12.self_attention.query_key_value",
     "transformer.h.12.mlp.dense_h_to_4h",
     "transformer.h.12.mlp.dense_4h_to_h",
+    "transformer.h.0.mlp.dense_h_to_4h",
     "transformer.h.11.mlp.dense_h_to_4h",
+    "transformer.h.7.mlp.dense_h_to_4h",
     "transformer.h.1.mlp.dense_h_to_4h",
+    "transformer.h.13.self_attention.query_key_value",
+    "transformer.h.9.self_attention.dense",
     "transformer.h.5.mlp.dense_h_to_4h",
+    "transformer.h.10.self_attention.dense",
+    "transformer.h.0.mlp.dense_4h_to_h",
+    "transformer.h.11.self_attention.query_key_value",
+    "transformer.h.2.mlp.dense_h_to_4h",
+    "transformer.h.10.self_attention.query_key_value",
     "transformer.h.9.self_attention.query_key_value",
+    "transformer.h.8.mlp.dense_h_to_4h",
+    "transformer.h.0.self_attention.query_key_value",
+    "transformer.h.0.self_attention.dense",
+    "transformer.h.4.self_attention.dense",
+    "transformer.h.13.self_attention.dense",
+    "transformer.h.2.self_attention.query_key_value",
+    "transformer.h.3.self_attention.query_key_value",
+    "transformer.h.7.self_attention.query_key_value",
     "transformer.h.5.mlp.dense_4h_to_h",
     "transformer.h.8.self_attention.dense",
+    "transformer.h.9.mlp.dense_h_to_4h",
+    "transformer.h.6.mlp.dense_4h_to_h",
+    "transformer.h.7.mlp.dense_4h_to_h",
+    "transformer.h.3.mlp.dense_4h_to_h",
     "transformer.h.3.self_attention.dense",
+    "transformer.h.1.self_attention.query_key_value",
+    "transformer.h.1.self_attention.dense",
+    "transformer.h.5.self_attention.dense",
+    "transformer.h.12.self_attention.dense",
+    "transformer.h.2.self_attention.dense"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

last-checkpoint/lora_lower/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c71de63d57b7240e7fbd8d372357da2c05fa7745f15eba2264834b73152da4e1
 size 2058899176

 version https://git-lfs.github.com/spec/v1
+oid sha256:1843627ca7f5c8892cc27ec365b7b71475f9c7c28bf3db1528f68975cab934af
 size 2058899176

last-checkpoint/lora_middle/adapter_config.json CHANGED Viewed

@@ -216,34 +216,34 @@
   },
   "revision": null,
   "target_modules": [
-    "transformer.h.19.mlp.dense_h_to_4h",
-    "transformer.h.20.mlp.dense_4h_to_h",
-    "transformer.h.17.self_attention.dense",
-    "transformer.h.19.mlp.dense_4h_to_h",
-    "transformer.h.16.mlp.dense_4h_to_h",
-    "transformer.h.20.self_attention.dense",
     "transformer.h.20.mlp.dense_h_to_4h",
-    "transformer.h.17.self_attention.query_key_value",
-    "transformer.h.15.self_attention.dense",
-    "transformer.h.18.mlp.dense_4h_to_h",
     "transformer.h.20.self_attention.query_key_value",
     "transformer.h.16.mlp.dense_h_to_4h",
     "transformer.h.19.self_attention.dense",
-    "transformer.h.14.self_attention.query_key_value",
-    "transformer.h.15.mlp.dense_4h_to_h",
-    "transformer.h.17.mlp.dense_h_to_4h",
-    "transformer.h.16.self_attention.dense",
-    "transformer.h.17.mlp.dense_4h_to_h",
     "transformer.h.19.self_attention.query_key_value",
-    "transformer.h.18.self_attention.query_key_value",
-    "transformer.h.18.mlp.dense_h_to_4h",
-    "transformer.h.14.mlp.dense_h_to_4h",
     "transformer.h.18.self_attention.dense",
-    "transformer.h.14.self_attention.dense",
-    "transformer.h.15.mlp.dense_h_to_4h",
-    "transformer.h.14.mlp.dense_4h_to_h",
     "transformer.h.16.self_attention.query_key_value",
-    "transformer.h.15.self_attention.query_key_value"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   },
   "revision": null,
   "target_modules": [
     "transformer.h.20.mlp.dense_h_to_4h",
+    "transformer.h.17.mlp.dense_h_to_4h",
+    "transformer.h.14.self_attention.dense",
     "transformer.h.20.self_attention.query_key_value",
+    "transformer.h.14.mlp.dense_4h_to_h",
     "transformer.h.16.mlp.dense_h_to_4h",
     "transformer.h.19.self_attention.dense",
+    "transformer.h.20.mlp.dense_4h_to_h",
+    "transformer.h.15.mlp.dense_h_to_4h",
+    "transformer.h.15.self_attention.query_key_value",
+    "transformer.h.18.mlp.dense_4h_to_h",
+    "transformer.h.16.mlp.dense_4h_to_h",
+    "transformer.h.19.mlp.dense_h_to_4h",
     "transformer.h.19.self_attention.query_key_value",
+    "transformer.h.15.self_attention.dense",
     "transformer.h.18.self_attention.dense",
+    "transformer.h.17.mlp.dense_4h_to_h",
     "transformer.h.16.self_attention.query_key_value",
+    "transformer.h.19.mlp.dense_4h_to_h",
+    "transformer.h.20.self_attention.dense",
+    "transformer.h.18.self_attention.query_key_value",
+    "transformer.h.15.mlp.dense_4h_to_h",
+    "transformer.h.14.mlp.dense_h_to_4h",
+    "transformer.h.17.self_attention.dense",
+    "transformer.h.16.self_attention.dense",
+    "transformer.h.18.mlp.dense_h_to_4h",
+    "transformer.h.17.self_attention.query_key_value",
+    "transformer.h.14.self_attention.query_key_value"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

last-checkpoint/lora_middle/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2213d810c5041f54706922363673f8eb5b59dcb31caea318ab503635efa556b8
 size 2058889288

 version https://git-lfs.github.com/spec/v1
+oid sha256:e2705a293473662f885bc2c9b4b1643921a5f4db0ad8025e88a7dcd2aa0221f5
 size 2058889288

last-checkpoint/lora_top/adapter_config.json CHANGED Viewed

@@ -216,18 +216,18 @@
   },
   "revision": null,
   "target_modules": [
-    "transformer.h.23.self_attention.query_key_value",
-    "transformer.h.23.self_attention.dense",
-    "transformer.h.23.mlp.dense_4h_to_h",
     "transformer.h.21.self_attention.query_key_value",
-    "transformer.h.22.mlp.dense_4h_to_h",
-    "transformer.h.22.mlp.dense_h_to_4h",
     "transformer.h.21.mlp.dense_4h_to_h",
     "transformer.h.22.self_attention.dense",
-    "transformer.h.21.self_attention.dense",
     "transformer.h.21.mlp.dense_h_to_4h",
-    "transformer.h.22.self_attention.query_key_value",
-    "transformer.h.23.mlp.dense_h_to_4h"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   },
   "revision": null,
   "target_modules": [
+    "transformer.h.21.self_attention.dense",
+    "transformer.h.22.self_attention.query_key_value",
     "transformer.h.21.self_attention.query_key_value",
+    "transformer.h.23.self_attention.query_key_value",
     "transformer.h.21.mlp.dense_4h_to_h",
     "transformer.h.22.self_attention.dense",
+    "transformer.h.23.self_attention.dense",
+    "transformer.h.22.mlp.dense_4h_to_h",
+    "transformer.h.23.mlp.dense_h_to_4h",
     "transformer.h.21.mlp.dense_h_to_4h",
+    "transformer.h.23.mlp.dense_4h_to_h",
+    "transformer.h.22.mlp.dense_h_to_4h"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

last-checkpoint/lora_top/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2d4aea319a00da26eded5fb5f7b6e929fc49a6e7d9f7345dd93d7aa68210429b
 size 2058359328

 version https://git-lfs.github.com/spec/v1
+oid sha256:4a788bb0ebd30119e21444b5ca652ef18fb146fe392e34129c932ff9be592f7a
 size 2058359328

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3eee6627247442ca4d139e5d97b358ae844921bc8a42352b9613fadfdcea5ccb
-size 2061521939

 version https://git-lfs.github.com/spec/v1
+oid sha256:839291e7974e74a87e53a123a3881b8e276d083b1f2193ef431e4dc80bb107c3
+size 2061522259

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ab0b438a7c81238d9b63833459e05c2d46a240a047ece3e60377286affa39c62
-size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b6f51347b38751994e31f402f6d1cbfdce41c21e3b2e0fd15f1fdf02faa3c7d5
+size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "best_metric": 4.293993949890137,
   "best_model_checkpoint": "./output/checkpoint-150",
   "epoch": 0.02449779519843214,
   "eval_steps": 150,
@@ -10,115 +10,115 @@
   "log_history": [
     {
       "epoch": 0.0016331863465621427,
-      "grad_norm": 53.87973403930664,
-      "learning_rate": 5e-06,
-      "loss": 4.9073,
       "step": 10
     },
     {
       "epoch": 0.0032663726931242854,
-      "grad_norm": 45.79116439819336,
-      "learning_rate": 1e-05,
-      "loss": 4.551,
       "step": 20
     },
     {
       "epoch": 0.004899559039686428,
-      "grad_norm": 51.187843322753906,
-      "learning_rate": 1.5e-05,
-      "loss": 4.6312,
       "step": 30
     },
     {
       "epoch": 0.006532745386248571,
-      "grad_norm": 50.05643081665039,
-      "learning_rate": 2e-05,
-      "loss": 4.6128,
       "step": 40
     },
     {
       "epoch": 0.008165931732810714,
-      "grad_norm": 49.844581604003906,
-      "learning_rate": 2.5e-05,
-      "loss": 4.5007,
       "step": 50
     },
     {
       "epoch": 0.009799118079372856,
-      "grad_norm": 53.74774169921875,
-      "learning_rate": 3e-05,
-      "loss": 4.4041,
       "step": 60
     },
     {
       "epoch": 0.011432304425935,
-      "grad_norm": 52.074703216552734,
-      "learning_rate": 3.5e-05,
-      "loss": 4.4002,
       "step": 70
     },
     {
       "epoch": 0.013065490772497142,
-      "grad_norm": 51.11018371582031,
-      "learning_rate": 4e-05,
-      "loss": 4.3201,
       "step": 80
     },
     {
       "epoch": 0.014698677119059285,
-      "grad_norm": 54.45034408569336,
-      "learning_rate": 4.5e-05,
-      "loss": 4.2208,
       "step": 90
     },
     {
       "epoch": 0.01633186346562143,
-      "grad_norm": 55.54214859008789,
-      "learning_rate": 5e-05,
-      "loss": 4.3211,
       "step": 100
     },
     {
       "epoch": 0.01796504981218357,
-      "grad_norm": 60.387210845947266,
-      "learning_rate": 4.999948617395915e-05,
-      "loss": 4.2806,
       "step": 110
     },
     {
       "epoch": 0.019598236158745713,
-      "grad_norm": 55.413124084472656,
-      "learning_rate": 4.9997944716957985e-05,
-      "loss": 4.2696,
       "step": 120
     },
     {
       "epoch": 0.021231422505307854,
-      "grad_norm": 58.15327835083008,
-      "learning_rate": 4.9995375692359755e-05,
-      "loss": 4.2277,
       "step": 130
     },
     {
       "epoch": 0.02286460885187,
-      "grad_norm": 54.6749153137207,
-      "learning_rate": 4.9991779205767e-05,
-      "loss": 4.1476,
       "step": 140
     },
     {
       "epoch": 0.02449779519843214,
-      "grad_norm": 58.392120361328125,
-      "learning_rate": 4.99871554050172e-05,
-      "loss": 4.2109,
       "step": 150
     },
     {
       "epoch": 0.02449779519843214,
-      "eval_loss": 4.293993949890137,
-      "eval_runtime": 12.3191,
-      "eval_samples_per_second": 40.587,
-      "eval_steps_per_second": 40.587,
       "step": 150
     }
   ],

 {
+  "best_metric": 4.046905040740967,
   "best_model_checkpoint": "./output/checkpoint-150",
   "epoch": 0.02449779519843214,
   "eval_steps": 150,
   "log_history": [
     {
       "epoch": 0.0016331863465621427,
+      "grad_norm": 60.602169036865234,
+      "learning_rate": 2.154434690031884e-06,
+      "loss": 4.2742,
       "step": 10
     },
     {
       "epoch": 0.0032663726931242854,
+      "grad_norm": 57.758113861083984,
+      "learning_rate": 4.308869380063768e-06,
+      "loss": 4.0288,
       "step": 20
     },
     {
       "epoch": 0.004899559039686428,
+      "grad_norm": 55.49625778198242,
+      "learning_rate": 6.463304070095652e-06,
+      "loss": 4.1612,
       "step": 30
     },
     {
       "epoch": 0.006532745386248571,
+      "grad_norm": 46.22760772705078,
+      "learning_rate": 8.617738760127536e-06,
+      "loss": 4.1069,
       "step": 40
     },
     {
       "epoch": 0.008165931732810714,
+      "grad_norm": 47.324954986572266,
+      "learning_rate": 1.077217345015942e-05,
+      "loss": 4.0317,
       "step": 50
     },
     {
       "epoch": 0.009799118079372856,
+      "grad_norm": 46.110965728759766,
+      "learning_rate": 1.2926608140191304e-05,
+      "loss": 3.9325,
       "step": 60
     },
     {
       "epoch": 0.011432304425935,
+      "grad_norm": 47.741973876953125,
+      "learning_rate": 1.5081042830223187e-05,
+      "loss": 3.9713,
       "step": 70
     },
     {
       "epoch": 0.013065490772497142,
+      "grad_norm": 40.646671295166016,
+      "learning_rate": 1.723547752025507e-05,
+      "loss": 3.9214,
       "step": 80
     },
     {
       "epoch": 0.014698677119059285,
+      "grad_norm": 44.510902404785156,
+      "learning_rate": 1.9389912210286956e-05,
+      "loss": 3.9046,
       "step": 90
     },
     {
       "epoch": 0.01633186346562143,
+      "grad_norm": 43.503135681152344,
+      "learning_rate": 2.154434690031884e-05,
+      "loss": 3.971,
       "step": 100
     },
     {
       "epoch": 0.01796504981218357,
+      "grad_norm": 53.51116180419922,
+      "learning_rate": 2.154412549938943e-05,
+      "loss": 3.9408,
       "step": 110
     },
     {
       "epoch": 0.019598236158745713,
+      "grad_norm": 45.50636672973633,
+      "learning_rate": 2.1543461305702127e-05,
+      "loss": 3.955,
       "step": 120
     },
     {
       "epoch": 0.021231422505307854,
+      "grad_norm": 45.04021072387695,
+      "learning_rate": 2.1542354346559332e-05,
+      "loss": 3.9399,
       "step": 130
     },
     {
       "epoch": 0.02286460885187,
+      "grad_norm": 41.114078521728516,
+      "learning_rate": 2.15408046674638e-05,
+      "loss": 3.857,
       "step": 140
     },
     {
       "epoch": 0.02449779519843214,
+      "grad_norm": 55.586185455322266,
+      "learning_rate": 2.1538812332116767e-05,
+      "loss": 3.9741,
       "step": 150
     },
     {
       "epoch": 0.02449779519843214,
+      "eval_loss": 4.046905040740967,
+      "eval_runtime": 12.6477,
+      "eval_samples_per_second": 39.533,
+      "eval_steps_per_second": 39.533,
       "step": 150
     }
   ],

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d8b68c731a984c7f0b77d284b1920ecf8f7068a1a51d636a4e6cfc2dbaf30e2b
-size 5368

 version https://git-lfs.github.com/spec/v1
+oid sha256:f40345b3fd623d3ea644b5cebfee50c24fbc32ad1c4eb11de85e1691db783a37
+size 5496