Training in progress, step 5, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_config.json +5 -5
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +53 -225
last-checkpoint/training_args.bin +1 -1

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -20,13 +20,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "v_proj",
-    "gate_proj",
-    "q_proj",
     "o_proj",
-    "up_proj",
     "k_proj",
-    "down_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
     "k_proj",
+    "down_proj",
+    "q_proj",
+    "v_proj",
+    "gate_proj",
+    "up_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:31cbaf9f678fb5252161490e7de95855e09d9f5a4bee67c60dc0b199da4a6b53
 size 45118424

 version https://git-lfs.github.com/spec/v1
+oid sha256:618d4dffa48aa304c89e57556f5a754f77703341912518007c0973875435650d
 size 45118424

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4fe342709cbad6397e41ae1e5c634ef6e4b377eb7e04ad4b2e12e258c1aeb717
 size 23159290

 version https://git-lfs.github.com/spec/v1
+oid sha256:1a7263f6678616c895fcb41276c3a31a171dd3cc7d8b9b556e243780ec5aee8f
 size 23159290

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7e90410ed8d75deee232d46a71672a78439ef812c0e8c37ade4c255c49bee23b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e378f86598b07f914582636a0353a13b8e8c042e0abc3b7613d98f9ca9baf0b
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cc8ae5b9632b883900417a4b328f111a055e2a3387d176daa619ce2ea248142d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:cda2d7da3ce8a95be6df505b84eace6ccd5aa18ffc6d1bcc9a79572045c8d78f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,265 +1,93 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.3333333333333335,
-  "eval_steps": 3,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.09523809523809523,
-      "grad_norm": 0.5386500358581543,
       "learning_rate": 2e-05,
-      "loss": 1.3356,
       "step": 1
     },
     {
-      "epoch": 0.09523809523809523,
-      "eval_loss": 1.2671657800674438,
-      "eval_runtime": 6.3713,
-      "eval_samples_per_second": 15.695,
-      "eval_steps_per_second": 7.848,
       "step": 1
     },
     {
-      "epoch": 0.19047619047619047,
-      "grad_norm": 0.5549973845481873,
       "learning_rate": 4e-05,
-      "loss": 1.3576,
       "step": 2
     },
     {
-      "epoch": 0.2857142857142857,
-      "grad_norm": 0.4884030818939209,
       "learning_rate": 6e-05,
-      "loss": 1.2158,
       "step": 3
     },
     {
-      "epoch": 0.2857142857142857,
-      "eval_loss": 1.2561376094818115,
-      "eval_runtime": 6.1155,
-      "eval_samples_per_second": 16.352,
-      "eval_steps_per_second": 8.176,
       "step": 3
     },
     {
-      "epoch": 0.38095238095238093,
-      "grad_norm": 0.45884644985198975,
       "learning_rate": 8e-05,
-      "loss": 1.2199,
       "step": 4
     },
     {
-      "epoch": 0.47619047619047616,
-      "grad_norm": 0.3866402208805084,
-      "learning_rate": 0.0001,
-      "loss": 1.2785,
-      "step": 5
-    },
-    {
-      "epoch": 0.5714285714285714,
-      "grad_norm": 0.26828739047050476,
-      "learning_rate": 0.00012,
-      "loss": 1.2706,
-      "step": 6
-    },
-    {
-      "epoch": 0.5714285714285714,
-      "eval_loss": 1.2105836868286133,
-      "eval_runtime": 6.3215,
-      "eval_samples_per_second": 15.819,
-      "eval_steps_per_second": 7.91,
-      "step": 6
-    },
-    {
-      "epoch": 0.6666666666666666,
-      "grad_norm": 0.3657456636428833,
-      "learning_rate": 0.00014,
-      "loss": 1.2182,
-      "step": 7
-    },
-    {
-      "epoch": 0.7619047619047619,
-      "grad_norm": 0.49670976400375366,
-      "learning_rate": 0.00016,
-      "loss": 1.2607,
-      "step": 8
-    },
-    {
-      "epoch": 0.8571428571428571,
-      "grad_norm": 0.42949965596199036,
-      "learning_rate": 0.00018,
-      "loss": 1.2699,
-      "step": 9
-    },
-    {
-      "epoch": 0.8571428571428571,
-      "eval_loss": 1.1932201385498047,
-      "eval_runtime": 6.3734,
-      "eval_samples_per_second": 15.69,
-      "eval_steps_per_second": 7.845,
-      "step": 9
-    },
-    {
-      "epoch": 0.9523809523809523,
-      "grad_norm": 0.281423419713974,
-      "learning_rate": 0.0002,
-      "loss": 1.2143,
-      "step": 10
-    },
-    {
-      "epoch": 1.0238095238095237,
-      "grad_norm": 0.24105204641819,
-      "learning_rate": 0.00019876883405951377,
-      "loss": 1.2345,
-      "step": 11
-    },
-    {
-      "epoch": 1.119047619047619,
-      "grad_norm": 0.20358140766620636,
-      "learning_rate": 0.00019510565162951537,
-      "loss": 1.2237,
-      "step": 12
-    },
-    {
-      "epoch": 1.119047619047619,
-      "eval_loss": 1.175634741783142,
-      "eval_runtime": 6.3529,
-      "eval_samples_per_second": 15.741,
-      "eval_steps_per_second": 7.87,
-      "step": 12
-    },
-    {
-      "epoch": 1.2142857142857142,
-      "grad_norm": 0.2333052158355713,
-      "learning_rate": 0.0001891006524188368,
-      "loss": 1.1478,
-      "step": 13
-    },
-    {
-      "epoch": 1.3095238095238095,
-      "grad_norm": 0.2163972407579422,
-      "learning_rate": 0.00018090169943749476,
-      "loss": 1.14,
-      "step": 14
-    },
-    {
-      "epoch": 1.4047619047619047,
-      "grad_norm": 0.19463765621185303,
-      "learning_rate": 0.00017071067811865476,
-      "loss": 1.197,
-      "step": 15
-    },
-    {
-      "epoch": 1.4047619047619047,
-      "eval_loss": 1.1602592468261719,
-      "eval_runtime": 6.3444,
-      "eval_samples_per_second": 15.762,
-      "eval_steps_per_second": 7.881,
-      "step": 15
-    },
-    {
-      "epoch": 1.5,
-      "grad_norm": 0.1736566573381424,
-      "learning_rate": 0.00015877852522924732,
-      "loss": 1.1874,
-      "step": 16
-    },
-    {
-      "epoch": 1.5952380952380953,
-      "grad_norm": 0.16423116624355316,
-      "learning_rate": 0.00014539904997395468,
-      "loss": 1.1152,
-      "step": 17
-    },
-    {
-      "epoch": 1.6904761904761905,
-      "grad_norm": 0.19566665589809418,
-      "learning_rate": 0.00013090169943749476,
-      "loss": 1.1665,
-      "step": 18
-    },
-    {
-      "epoch": 1.6904761904761905,
-      "eval_loss": 1.148561954498291,
-      "eval_runtime": 6.4854,
-      "eval_samples_per_second": 15.419,
-      "eval_steps_per_second": 7.71,
-      "step": 18
-    },
-    {
-      "epoch": 1.7857142857142856,
-      "grad_norm": 0.21023060381412506,
-      "learning_rate": 0.0001156434465040231,
-      "loss": 1.2285,
-      "step": 19
     },
     {
-      "epoch": 1.880952380952381,
-      "grad_norm": 0.21021750569343567,
       "learning_rate": 0.0001,
-      "loss": 1.2653,
-      "step": 20
-    },
-    {
-      "epoch": 1.9761904761904763,
-      "grad_norm": 0.17035318911075592,
-      "learning_rate": 8.435655349597689e-05,
-      "loss": 1.1873,
-      "step": 21
-    },
-    {
-      "epoch": 1.9761904761904763,
-      "eval_loss": 1.1423017978668213,
-      "eval_runtime": 6.2847,
-      "eval_samples_per_second": 15.912,
-      "eval_steps_per_second": 7.956,
-      "step": 21
-    },
-    {
-      "epoch": 2.0476190476190474,
-      "grad_norm": 0.20932504534721375,
-      "learning_rate": 6.909830056250527e-05,
-      "loss": 1.1359,
-      "step": 22
-    },
-    {
-      "epoch": 2.142857142857143,
-      "grad_norm": 0.1693231463432312,
-      "learning_rate": 5.4600950026045326e-05,
-      "loss": 1.1202,
-      "step": 23
-    },
-    {
-      "epoch": 2.238095238095238,
-      "grad_norm": 0.16167840361595154,
-      "learning_rate": 4.12214747707527e-05,
-      "loss": 1.1978,
-      "step": 24
-    },
-    {
-      "epoch": 2.238095238095238,
-      "eval_loss": 1.1400079727172852,
-      "eval_runtime": 6.3594,
-      "eval_samples_per_second": 15.725,
-      "eval_steps_per_second": 7.862,
-      "step": 24
     },
     {
-      "epoch": 2.3333333333333335,
-      "grad_norm": 0.16464297473430634,
-      "learning_rate": 2.9289321881345254e-05,
-      "loss": 1.1135,
-      "step": 25
     }
   ],
   "logging_steps": 1,
-  "max_steps": 30,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 3,
   "save_steps": 5,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -273,8 +101,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 4707063061020672.0,
-  "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.25,
+  "eval_steps": 1,
+  "global_step": 5,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.5,
+      "grad_norm": 0.5036605000495911,
       "learning_rate": 2e-05,
+      "loss": 1.2878,
       "step": 1
     },
     {
+      "epoch": 0.5,
+      "eval_loss": 1.2575896978378296,
+      "eval_runtime": 3.7164,
+      "eval_samples_per_second": 26.908,
+      "eval_steps_per_second": 2.691,
       "step": 1
     },
     {
+      "epoch": 1.0,
+      "grad_norm": 0.5406743288040161,
       "learning_rate": 4e-05,
+      "loss": 1.294,
       "step": 2
     },
     {
+      "epoch": 1.0,
+      "eval_loss": 1.2571214437484741,
+      "eval_runtime": 3.1758,
+      "eval_samples_per_second": 31.489,
+      "eval_steps_per_second": 3.149,
+      "step": 2
+    },
+    {
+      "epoch": 1.375,
+      "grad_norm": 0.513503909111023,
       "learning_rate": 6e-05,
+      "loss": 1.2719,
       "step": 3
     },
     {
+      "epoch": 1.375,
+      "eval_loss": 1.2467983961105347,
+      "eval_runtime": 3.1914,
+      "eval_samples_per_second": 31.334,
+      "eval_steps_per_second": 3.133,
       "step": 3
     },
     {
+      "epoch": 1.875,
+      "grad_norm": 0.46774598956108093,
       "learning_rate": 8e-05,
+      "loss": 1.2869,
       "step": 4
     },
     {
+      "epoch": 1.875,
+      "eval_loss": 1.2302355766296387,
+      "eval_runtime": 2.6979,
+      "eval_samples_per_second": 37.066,
+      "eval_steps_per_second": 3.707,
+      "step": 4
     },
     {
+      "epoch": 2.25,
+      "grad_norm": 0.3603326678276062,
       "learning_rate": 0.0001,
+      "loss": 1.2828,
+      "step": 5
     },
     {
+      "epoch": 2.25,
+      "eval_loss": 1.2147082090377808,
+      "eval_runtime": 3.2232,
+      "eval_samples_per_second": 31.025,
+      "eval_steps_per_second": 3.103,
+      "step": 5
     }
   ],
   "logging_steps": 1,
+  "max_steps": 10,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
   "save_steps": 5,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 4510872430706688.0,
+  "train_batch_size": 10,
   "trial_name": null,
   "trial_params": null
 }

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:992cb611dfba558f000caff8c8336327eaecf852390523fd335dc016a4bf9fd7
 size 6648

 version https://git-lfs.github.com/spec/v1
+oid sha256:bd62ee7ea8812c424f5e6128f1308129a16dbbf40f504753e5dc76062e826242
 size 6648