Training in progress, step 100, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_config.json +4 -4
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +17 -149
last-checkpoint/training_args.bin +1 -1

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -20,13 +20,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "o_proj",
     "q_proj",
     "k_proj",
-    "v_proj",
     "up_proj",
-    "gate_proj",
-    "down_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "v_proj",
     "q_proj",
+    "o_proj",
+    "down_proj",
     "k_proj",
     "up_proj",
+    "gate_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7a4fe9a8d061e269b4ecf9497557df4a3b79024e949961c9b3f5107954fcaa6e
 size 335604696

 version https://git-lfs.github.com/spec/v1
+oid sha256:60956d4123c40702e76ca8864d83217c1dc95a2e0d8ec133ff6c3b057383fd24
 size 335604696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cbd18d01c35c65c21e7e47169045c0f5bd5bd616cf14690b113bc8526a377bd2
-size 170920532

 version https://git-lfs.github.com/spec/v1
+oid sha256:a7140f8d37aefe0c3e09cbca9e3ccc91afbfba7f1af0069327732abc6b46868c
+size 170920084

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d9c39ce6b0873a5ec9d657fe833fd9cbd0b01bb8cfae95545a4d03900874ab13
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:c7948bdba81d8f5f193578cce546ee1f9832c818d1624438f1cea32d257d1417
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2b38320f40535085de37905499e1385aa34aad6a41a68078b15be5cc295f0a80
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:820d227375038f02873567923da684b2500a67bbf69535a5b7d5b614defc8040
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,174 +1,42 @@
 {
-  "best_metric": 2.347598075866699,
-  "best_model_checkpoint": "miner_id_24/checkpoint-200",
-  "epoch": 0.09556966345825654,
   "eval_steps": 100,
-  "global_step": 700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0001365280906546522,
-      "eval_loss": 3.062295436859131,
-      "eval_runtime": 175.46,
-      "eval_samples_per_second": 35.153,
-      "eval_steps_per_second": 8.788,
       "step": 1
     },
     {
       "epoch": 0.00682640453273261,
-      "grad_norm": 70.176025390625,
       "learning_rate": 0.00025,
-      "loss": 8.7436,
       "step": 50
     },
     {
       "epoch": 0.01365280906546522,
-      "grad_norm": 62.00896453857422,
       "learning_rate": 0.00025,
-      "loss": 8.9827,
       "step": 100
     },
     {
       "epoch": 0.01365280906546522,
-      "eval_loss": 2.4358701705932617,
-      "eval_runtime": 175.0684,
-      "eval_samples_per_second": 35.232,
-      "eval_steps_per_second": 8.808,
       "step": 100
-    },
-    {
-      "epoch": 0.020479213598197828,
-      "grad_norm": 71.84336853027344,
-      "learning_rate": 0.00025,
-      "loss": 8.512,
-      "step": 150
-    },
-    {
-      "epoch": 0.02730561813093044,
-      "grad_norm": 98.38690948486328,
-      "learning_rate": 0.00025,
-      "loss": 8.9938,
-      "step": 200
-    },
-    {
-      "epoch": 0.02730561813093044,
-      "eval_loss": 2.347598075866699,
-      "eval_runtime": 175.3596,
-      "eval_samples_per_second": 35.173,
-      "eval_steps_per_second": 8.793,
-      "step": 200
-    },
-    {
-      "epoch": 0.034132022663663046,
-      "grad_norm": 114.78697204589844,
-      "learning_rate": 0.00025,
-      "loss": 8.9744,
-      "step": 250
-    },
-    {
-      "epoch": 0.040958427196395655,
-      "grad_norm": 73.92906951904297,
-      "learning_rate": 0.00025,
-      "loss": 8.8146,
-      "step": 300
-    },
-    {
-      "epoch": 0.040958427196395655,
-      "eval_loss": 2.367624044418335,
-      "eval_runtime": 174.9282,
-      "eval_samples_per_second": 35.26,
-      "eval_steps_per_second": 8.815,
-      "step": 300
-    },
-    {
-      "epoch": 0.04778483172912827,
-      "grad_norm": 61.38362503051758,
-      "learning_rate": 0.00025,
-      "loss": 8.7201,
-      "step": 350
-    },
-    {
-      "epoch": 0.05461123626186088,
-      "grad_norm": 85.3577880859375,
-      "learning_rate": 0.00025,
-      "loss": 8.8152,
-      "step": 400
-    },
-    {
-      "epoch": 0.05461123626186088,
-      "eval_loss": 2.380793809890747,
-      "eval_runtime": 174.9714,
-      "eval_samples_per_second": 35.251,
-      "eval_steps_per_second": 8.813,
-      "step": 400
-    },
-    {
-      "epoch": 0.06143764079459349,
-      "grad_norm": 126.75369262695312,
-      "learning_rate": 0.00025,
-      "loss": 8.8341,
-      "step": 450
-    },
-    {
-      "epoch": 0.06826404532732609,
-      "grad_norm": 77.14250946044922,
-      "learning_rate": 0.00025,
-      "loss": 8.8336,
-      "step": 500
-    },
-    {
-      "epoch": 0.06826404532732609,
-      "eval_loss": 2.465590000152588,
-      "eval_runtime": 175.1619,
-      "eval_samples_per_second": 35.213,
-      "eval_steps_per_second": 8.803,
-      "step": 500
-    },
-    {
-      "epoch": 0.07509044986005871,
-      "grad_norm": 154.3630828857422,
-      "learning_rate": 0.00025,
-      "loss": 8.9199,
-      "step": 550
-    },
-    {
-      "epoch": 0.08191685439279131,
-      "grad_norm": 96.36137390136719,
-      "learning_rate": 0.00025,
-      "loss": 9.0899,
-      "step": 600
-    },
-    {
-      "epoch": 0.08191685439279131,
-      "eval_loss": 2.384577989578247,
-      "eval_runtime": 175.3324,
-      "eval_samples_per_second": 35.179,
-      "eval_steps_per_second": 8.795,
-      "step": 600
-    },
-    {
-      "epoch": 0.08874325892552393,
-      "grad_norm": 108.7186508178711,
-      "learning_rate": 0.00025,
-      "loss": 9.1215,
-      "step": 650
-    },
-    {
-      "epoch": 0.09556966345825654,
-      "grad_norm": 92.59368896484375,
-      "learning_rate": 0.00025,
-      "loss": 9.2024,
-      "step": 700
-    },
-    {
-      "epoch": 0.09556966345825654,
-      "eval_loss": 2.4196524620056152,
-      "eval_runtime": 175.6839,
-      "eval_samples_per_second": 35.109,
-      "eval_steps_per_second": 8.777,
-      "step": 700
     }
   ],
   "logging_steps": 50,
@@ -188,7 +56,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.475384335499264e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 2.436293601989746,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.01365280906546522,
   "eval_steps": 100,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0001365280906546522,
+      "eval_loss": 3.0683064460754395,
+      "eval_runtime": 176.1658,
+      "eval_samples_per_second": 35.012,
+      "eval_steps_per_second": 8.753,
       "step": 1
     },
     {
       "epoch": 0.00682640453273261,
+      "grad_norm": 47.15786361694336,
       "learning_rate": 0.00025,
+      "loss": 8.7525,
       "step": 50
     },
     {
       "epoch": 0.01365280906546522,
+      "grad_norm": 86.82730102539062,
       "learning_rate": 0.00025,
+      "loss": 8.94,
       "step": 100
     },
     {
       "epoch": 0.01365280906546522,
+      "eval_loss": 2.436293601989746,
+      "eval_runtime": 176.1858,
+      "eval_samples_per_second": 35.009,
+      "eval_steps_per_second": 8.752,
       "step": 100
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 3.53626333642752e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e914a4e5888a1c0b239ff8cc1241b42a96888544eea02802cc1a066a8c763b0c
 size 6776

 version https://git-lfs.github.com/spec/v1
+oid sha256:0f4f8aae3baeda401bd6f9758e8af16e75c2a1ef864c98d43053f4089ef95e26
 size 6776