Training in progress, step 2100, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_config.json +5 -5
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +115 -3
last-checkpoint/training_args.bin +1 -1

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -29,13 +29,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "k_proj",
-    "down_proj",
-    "o_proj",
-    "q_proj",
     "v_proj",
     "gate_proj",
-    "up_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "v_proj",
+    "k_proj",
     "gate_proj",
+    "o_proj",
+    "up_proj",
+    "down_proj",
+    "q_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:875e11864c60557b1ce9d0f4a3628b1921ba20dcfcb047f1194317ca21dd647e
 size 228140600

 version https://git-lfs.github.com/spec/v1
+oid sha256:c9e46ae2720088669da0e7f9e660e9df21b3f13cd814ef2c054173a76a40c0a8
 size 228140600

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:de1ef9fce3501f8a10d1279e16882931ece02414376645b57e1c3a181bf8a440
 size 117931203

 version https://git-lfs.github.com/spec/v1
+oid sha256:76b3121a237388d42068dd86668509dc36abd8695d8ccbfd6fb7b924e1a73d7f
 size 117931203

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b9eb46347e03fd2a32788474d53b64aa40655ea04df926d70dd4416068652168
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:6df16b3659f33d85607b74fb7cdd42ccb03ca1d0dc5313a9352883e092924860
 size 14645

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:61bb68517c2e5d425f2cd920b30f02d4e60fd1e393f4dd6c263b9f530746bef3
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:1ed5fdd6f9fe5f0de5d43635eeeee3253ccf660833d7fe6d9be640b40bec6bbe
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9cbbe8c194b3272da66f1fba8ab4ba395d75f317a59ad44137b928cbb13dbc0e
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:fc835731ce73222513c24c9953cdc95225ff0e18509f3befa431f270d3d03450
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 750,
   "best_metric": 0.5089643597602844,
   "best_model_checkpoint": "./adapter-phase1/checkpoint-750",
-  "epoch": 3.2,
   "eval_steps": 300,
-  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2140,6 +2140,118 @@
       "eval_samples_per_second": 2.036,
       "eval_steps_per_second": 0.509,
       "step": 2000
     }
   ],
   "logging_steps": 10,
@@ -2159,7 +2271,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.452158742886605e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "best_global_step": 750,
   "best_metric": 0.5089643597602844,
   "best_model_checkpoint": "./adapter-phase1/checkpoint-750",
+  "epoch": 3.36,
   "eval_steps": 300,
+  "global_step": 2100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 2.036,
       "eval_steps_per_second": 0.509,
       "step": 2000
+    },
+    {
+      "entropy": 0.3617474281229079,
+      "epoch": 3.216,
+      "grad_norm": 0.7705036997795105,
+      "learning_rate": 3.5744e-05,
+      "loss": 0.3175,
+      "mean_token_accuracy": 0.9062783475965261,
+      "num_tokens": 20779.0,
+      "step": 2010
+    },
+    {
+      "entropy": 0.3887558562681079,
+      "epoch": 3.232,
+      "grad_norm": 0.9926668405532837,
+      "learning_rate": 3.5424e-05,
+      "loss": 0.3243,
+      "mean_token_accuracy": 0.9048940639942884,
+      "num_tokens": 37039.0,
+      "step": 2020
+    },
+    {
+      "entropy": 0.36308987056836484,
+      "epoch": 3.248,
+      "grad_norm": 0.5336251258850098,
+      "learning_rate": 3.5104e-05,
+      "loss": 0.3286,
+      "mean_token_accuracy": 0.9028704173862934,
+      "num_tokens": 66230.0,
+      "step": 2030
+    },
+    {
+      "entropy": 0.3100855226628482,
+      "epoch": 3.2640000000000002,
+      "grad_norm": 0.6235008239746094,
+      "learning_rate": 3.4784e-05,
+      "loss": 0.3026,
+      "mean_token_accuracy": 0.9074051853269338,
+      "num_tokens": 98315.0,
+      "step": 2040
+    },
+    {
+      "entropy": 0.33463340234011413,
+      "epoch": 3.2800000000000002,
+      "grad_norm": 0.6380220651626587,
+      "learning_rate": 3.4464e-05,
+      "loss": 0.3058,
+      "mean_token_accuracy": 0.9115277793258428,
+      "num_tokens": 123538.0,
+      "step": 2050
+    },
+    {
+      "entropy": 0.3619419479742646,
+      "epoch": 3.296,
+      "grad_norm": 0.7604582905769348,
+      "learning_rate": 3.4144000000000004e-05,
+      "loss": 0.3112,
+      "mean_token_accuracy": 0.9084025923162699,
+      "num_tokens": 143855.0,
+      "step": 2060
+    },
+    {
+      "entropy": 0.3980453579686582,
+      "epoch": 3.312,
+      "grad_norm": 0.8576037883758545,
+      "learning_rate": 3.3824e-05,
+      "loss": 0.3267,
+      "mean_token_accuracy": 0.9037791218608617,
+      "num_tokens": 159314.0,
+      "step": 2070
+    },
+    {
+      "entropy": 0.35077386572957037,
+      "epoch": 3.328,
+      "grad_norm": 0.5504621863365173,
+      "learning_rate": 3.3504e-05,
+      "loss": 0.3004,
+      "mean_token_accuracy": 0.9084354028105736,
+      "num_tokens": 187464.0,
+      "step": 2080
+    },
+    {
+      "entropy": 0.28209723997861147,
+      "epoch": 3.344,
+      "grad_norm": 0.8361979126930237,
+      "learning_rate": 3.3184000000000006e-05,
+      "loss": 0.2903,
+      "mean_token_accuracy": 0.9112230580300092,
+      "num_tokens": 219657.0,
+      "step": 2090
+    },
+    {
+      "entropy": 0.3153431011363864,
+      "epoch": 3.36,
+      "grad_norm": 0.6275749802589417,
+      "learning_rate": 3.2864e-05,
+      "loss": 0.2894,
+      "mean_token_accuracy": 0.9114996068179607,
+      "num_tokens": 245396.0,
+      "step": 2100
+    },
+    {
+      "epoch": 3.36,
+      "eval_accuracy": 0.026501569905019107,
+      "eval_entropy": 0.4113759865760803,
+      "eval_loss": 0.541074275970459,
+      "eval_mean_token_accuracy": 0.8583663606643677,
+      "eval_num_tokens": 245396.0,
+      "eval_runtime": 869.6626,
+      "eval_samples_per_second": 2.3,
+      "eval_steps_per_second": 0.575,
+      "step": 2100
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 3.6234506980141056e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1429883e942c6b0b337507f32bd2f9e9b227b047e8eeab1d3295f008840498d1
 size 6353

 version https://git-lfs.github.com/spec/v1
+oid sha256:dc0c9c43aae96575e8afc416e967ac5674d13cc1a38c487b69cd4534aafef005
 size 6353