Training in progress, step 200, checkpoint

Browse files

Files changed (8) hide show

checkpoint-200/README.md +2 -2
checkpoint-200/adapter_config.json +2 -0
checkpoint-200/adapter_model.safetensors +1 -1
checkpoint-200/optimizer.pt +1 -1
checkpoint-200/rng_state.pth +1 -1
checkpoint-200/scheduler.pt +1 -1
checkpoint-200/trainer_state.json +62 -42
checkpoint-200/training_args.bin +2 -2

checkpoint-200/README.md CHANGED Viewed

@@ -201,5 +201,5 @@ Carbon emissions can be estimated using the [Machine Learning Impact calculator]
 ### Framework versions
-- PEFT 0.8.2
-- PEFT 0.7.1

 ### Framework versions
+- PEFT 0.10.0
+- PEFT 0.8.2

checkpoint-200/adapter_config.json CHANGED Viewed

@@ -6,6 +6,7 @@
   "fan_in_fan_out": false,
   "inference_mode": true,
   "init_lora_weights": true,
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
@@ -22,5 +23,6 @@
     "c_attn"
   ],
   "task_type": "CAUSAL_LM",
   "use_rslora": false
 }

   "fan_in_fan_out": false,
   "inference_mode": true,
   "init_lora_weights": true,
+  "layer_replication": null,
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
     "c_attn"
   ],
   "task_type": "CAUSAL_LM",
+  "use_dora": false,
   "use_rslora": false
 }

checkpoint-200/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9589f3acca05c13aa4c73b4a2cf488f113c6aa7efb90ad3c443f0eb3d7148b85
 size 9443384

 version https://git-lfs.github.com/spec/v1
+oid sha256:ed0f8a25c99bf0c4ece72eaba3a91a8ce363d040554758830c308008a85b8220
 size 9443384

checkpoint-200/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:393ca752c28abe23d40f30f7207bc6ede7e063b8e8165452969f9159cf788557
 size 18914450

 version https://git-lfs.github.com/spec/v1
+oid sha256:41a6fc26fd7b5026ca3631c40fc12ae6e5d9e13b4c209b07c2b04a2930045f4a
 size 18914450

checkpoint-200/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9725a066742779d96c921f5f7073a1a23056dd3248a6947bd5720b0306ff606c
 size 14168

 version https://git-lfs.github.com/spec/v1
+oid sha256:a1eea912470e6b4cd46b7542517282753ef83722547642edfbc4744d8b77eaf0
 size 14168

checkpoint-200/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8eeaff60190187c5a099d5ee7c23e25fa6f5dd8d654469a0c8ba0019b00e60fc
 size 1056

 version https://git-lfs.github.com/spec/v1
+oid sha256:9a4c70499dd3107fca70fe56610df257c36dff9d7702a8aa9ddd4d6235c99938
 size 1056

checkpoint-200/trainer_state.json CHANGED Viewed

@@ -9,132 +9,152 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.02,
       "learning_rate": 2.9999999999999997e-05,
-      "loss": 3.623,
       "step": 10
     },
     {
-      "epoch": 0.05,
       "learning_rate": 5.9999999999999995e-05,
-      "loss": 3.605,
       "step": 20
     },
     {
-      "epoch": 0.07,
       "learning_rate": 8.999999999999999e-05,
-      "loss": 3.5168,
       "step": 30
     },
     {
-      "epoch": 0.1,
       "learning_rate": 0.00011999999999999999,
-      "loss": 3.3511,
       "step": 40
     },
     {
-      "epoch": 0.12,
       "learning_rate": 0.00015,
-      "loss": 3.1952,
       "step": 50
     },
     {
-      "epoch": 0.15,
       "learning_rate": 0.00017999999999999998,
-      "loss": 3.0575,
       "step": 60
     },
     {
-      "epoch": 0.17,
       "learning_rate": 0.00020999999999999998,
-      "loss": 2.8575,
       "step": 70
     },
     {
-      "epoch": 0.2,
       "learning_rate": 0.00023999999999999998,
-      "loss": 2.7029,
       "step": 80
     },
     {
-      "epoch": 0.22,
       "learning_rate": 0.00027,
-      "loss": 2.6392,
       "step": 90
     },
     {
-      "epoch": 0.25,
       "learning_rate": 0.0003,
-      "loss": 2.5679,
       "step": 100
     },
     {
       "epoch": 0.27,
-      "learning_rate": 0.00027,
-      "loss": 2.5392,
       "step": 110
     },
     {
       "epoch": 0.3,
-      "learning_rate": 0.00023999999999999998,
-      "loss": 2.5153,
       "step": 120
     },
     {
       "epoch": 0.32,
-      "learning_rate": 0.00020999999999999998,
-      "loss": 2.4822,
       "step": 130
     },
     {
       "epoch": 0.34,
-      "learning_rate": 0.00017999999999999998,
-      "loss": 2.4678,
       "step": 140
     },
     {
       "epoch": 0.37,
-      "learning_rate": 0.00015,
-      "loss": 2.4438,
       "step": 150
     },
     {
       "epoch": 0.39,
-      "learning_rate": 0.00011999999999999999,
-      "loss": 2.4351,
       "step": 160
     },
     {
       "epoch": 0.42,
-      "learning_rate": 8.999999999999999e-05,
-      "loss": 2.4147,
       "step": 170
     },
     {
       "epoch": 0.44,
-      "learning_rate": 5.9999999999999995e-05,
-      "loss": 2.3935,
       "step": 180
     },
     {
       "epoch": 0.47,
-      "learning_rate": 2.9999999999999997e-05,
-      "loss": 2.4104,
       "step": 190
     },
     {
       "epoch": 0.49,
-      "learning_rate": 0.0,
-      "loss": 2.3838,
       "step": 200
     }
   ],
   "logging_steps": 10,
-  "max_steps": 200,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 100,
-  "total_flos": 2.723845771535155e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.42,
+      "grad_norm": 0.1815568506717682,
       "learning_rate": 2.9999999999999997e-05,
+      "loss": 3.8657,
       "step": 10
     },
     {
+      "epoch": 0.84,
+      "grad_norm": 0.23455914855003357,
       "learning_rate": 5.9999999999999995e-05,
+      "loss": 3.8223,
       "step": 20
     },
     {
+      "epoch": 1.25,
+      "grad_norm": 0.32260793447494507,
       "learning_rate": 8.999999999999999e-05,
+      "loss": 3.7255,
       "step": 30
     },
     {
+      "epoch": 1.67,
+      "grad_norm": 0.38705918192863464,
       "learning_rate": 0.00011999999999999999,
+      "loss": 3.4952,
       "step": 40
     },
     {
+      "epoch": 2.09,
+      "grad_norm": 0.5273059606552124,
       "learning_rate": 0.00015,
+      "loss": 3.098,
       "step": 50
     },
     {
+      "epoch": 2.51,
+      "grad_norm": 0.6030514240264893,
       "learning_rate": 0.00017999999999999998,
+      "loss": 2.5299,
       "step": 60
     },
     {
+      "epoch": 2.92,
+      "grad_norm": 0.459722101688385,
       "learning_rate": 0.00020999999999999998,
+      "loss": 1.899,
       "step": 70
     },
     {
+      "epoch": 3.34,
+      "grad_norm": 0.1655016839504242,
       "learning_rate": 0.00023999999999999998,
+      "loss": 1.6018,
       "step": 80
     },
     {
+      "epoch": 3.76,
+      "grad_norm": 0.10938003659248352,
       "learning_rate": 0.00027,
+      "loss": 1.4726,
       "step": 90
     },
     {
+      "epoch": 4.18,
+      "grad_norm": 0.09813433140516281,
       "learning_rate": 0.0003,
+      "loss": 1.4336,
       "step": 100
     },
     {
       "epoch": 0.27,
+      "grad_norm": 0.2995990812778473,
+      "learning_rate": 0.000285,
+      "loss": 3.3878,
       "step": 110
     },
     {
       "epoch": 0.3,
+      "grad_norm": 0.2459421455860138,
+      "learning_rate": 0.00027,
+      "loss": 3.0843,
       "step": 120
     },
     {
       "epoch": 0.32,
+      "grad_norm": 0.2377060502767563,
+      "learning_rate": 0.00025499999999999996,
+      "loss": 2.8413,
       "step": 130
     },
     {
       "epoch": 0.34,
+      "grad_norm": 0.1750001609325409,
+      "learning_rate": 0.00023999999999999998,
+      "loss": 2.7303,
       "step": 140
     },
     {
       "epoch": 0.37,
+      "grad_norm": 0.1821776032447815,
+      "learning_rate": 0.000225,
+      "loss": 2.6535,
       "step": 150
     },
     {
       "epoch": 0.39,
+      "grad_norm": 0.16587179899215698,
+      "learning_rate": 0.00020999999999999998,
+      "loss": 2.6147,
       "step": 160
     },
     {
       "epoch": 0.42,
+      "grad_norm": 0.15111136436462402,
+      "learning_rate": 0.000195,
+      "loss": 2.5929,
       "step": 170
     },
     {
       "epoch": 0.44,
+      "grad_norm": 0.13922317326068878,
+      "learning_rate": 0.00017999999999999998,
+      "loss": 2.554,
       "step": 180
     },
     {
       "epoch": 0.47,
+      "grad_norm": 0.14242495596408844,
+      "learning_rate": 0.000165,
+      "loss": 2.5381,
       "step": 190
     },
     {
       "epoch": 0.49,
+      "grad_norm": 0.1816890388727188,
+      "learning_rate": 0.00015,
+      "loss": 2.5145,
       "step": 200
     }
   ],
   "logging_steps": 10,
+  "max_steps": 300,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 100,
+  "total_flos": 3.2322500059336704e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

checkpoint-200/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7d7fe1522993e9d0465d19bb981aba89a2d40513d15ab46cef263ce1ebaa4eb5
-size 4768

 version https://git-lfs.github.com/spec/v1
+oid sha256:7189ea50d3101204ed0a14552e3e368c7afb6c90ecc8b189f33ef27c2f23742e
+size 4960