Training in progress, step 200, checkpoint

Browse files

Files changed (7) hide show

checkpoint-200/README.md +2 -1
checkpoint-200/adapter_config.json +1 -1
checkpoint-200/adapter_model.safetensors +1 -1
checkpoint-200/optimizer.pt +1 -1
checkpoint-200/rng_state.pth +1 -1
checkpoint-200/trainer_state.json +63 -63
checkpoint-200/training_args.bin +2 -2

checkpoint-200/README.md CHANGED Viewed

@@ -202,4 +202,5 @@ Carbon emissions can be estimated using the [Machine Learning Impact calculator]
 ### Framework versions
 - PEFT 0.10.0
-- PEFT 0.8.2

 ### Framework versions
 - PEFT 0.10.0
+- PEFT 0.8.2
+- PEFT 0.7.1

checkpoint-200/adapter_config.json CHANGED Viewed

@@ -3,7 +3,7 @@
   "auto_mapping": null,
   "base_model_name_or_path": "exontidev/SISUS_SIKERS",
   "bias": "none",
-  "fan_in_fan_out": false,
   "inference_mode": true,
   "init_lora_weights": true,
   "layer_replication": null,

   "auto_mapping": null,
   "base_model_name_or_path": "exontidev/SISUS_SIKERS",
   "bias": "none",
+  "fan_in_fan_out": true,
   "inference_mode": true,
   "init_lora_weights": true,
   "layer_replication": null,

checkpoint-200/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ed0f8a25c99bf0c4ece72eaba3a91a8ce363d040554758830c308008a85b8220
 size 9443384

 version https://git-lfs.github.com/spec/v1
+oid sha256:71674582f3c925fa5981ad28b64ef40fdc52f8835fc0c1b1e5d7975a9f2a9df9
 size 9443384

checkpoint-200/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:41a6fc26fd7b5026ca3631c40fc12ae6e5d9e13b4c209b07c2b04a2930045f4a
 size 18914450

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a6c13af21915fcb2a1612b1ad57e18218f8d524c9473f3630e0f05a64d19030
 size 18914450

checkpoint-200/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a1eea912470e6b4cd46b7542517282753ef83722547642edfbc4744d8b77eaf0
 size 14168

 version https://git-lfs.github.com/spec/v1
+oid sha256:de5ac2b40ae2cc9772fa4e3c73beb2b9702b79b18cb50371312d46079b5e66fe
 size 14168

checkpoint-200/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.4922698253980463,
   "eval_steps": 500,
   "global_step": 200,
   "is_hyper_param_search": false,
@@ -9,152 +9,152 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.42,
-      "grad_norm": 0.1815568506717682,
       "learning_rate": 2.9999999999999997e-05,
-      "loss": 3.8657,
       "step": 10
     },
     {
-      "epoch": 0.84,
-      "grad_norm": 0.23455914855003357,
       "learning_rate": 5.9999999999999995e-05,
-      "loss": 3.8223,
       "step": 20
     },
     {
-      "epoch": 1.25,
-      "grad_norm": 0.32260793447494507,
       "learning_rate": 8.999999999999999e-05,
-      "loss": 3.7255,
       "step": 30
     },
     {
-      "epoch": 1.67,
-      "grad_norm": 0.38705918192863464,
       "learning_rate": 0.00011999999999999999,
-      "loss": 3.4952,
       "step": 40
     },
     {
-      "epoch": 2.09,
-      "grad_norm": 0.5273059606552124,
       "learning_rate": 0.00015,
-      "loss": 3.098,
       "step": 50
     },
     {
-      "epoch": 2.51,
-      "grad_norm": 0.6030514240264893,
       "learning_rate": 0.00017999999999999998,
-      "loss": 2.5299,
       "step": 60
     },
     {
-      "epoch": 2.92,
-      "grad_norm": 0.459722101688385,
       "learning_rate": 0.00020999999999999998,
-      "loss": 1.899,
       "step": 70
     },
     {
-      "epoch": 3.34,
-      "grad_norm": 0.1655016839504242,
       "learning_rate": 0.00023999999999999998,
-      "loss": 1.6018,
       "step": 80
     },
     {
-      "epoch": 3.76,
-      "grad_norm": 0.10938003659248352,
       "learning_rate": 0.00027,
-      "loss": 1.4726,
       "step": 90
     },
     {
-      "epoch": 4.18,
-      "grad_norm": 0.09813433140516281,
       "learning_rate": 0.0003,
-      "loss": 1.4336,
       "step": 100
     },
     {
-      "epoch": 0.27,
-      "grad_norm": 0.2995990812778473,
       "learning_rate": 0.000285,
-      "loss": 3.3878,
       "step": 110
     },
     {
-      "epoch": 0.3,
-      "grad_norm": 0.2459421455860138,
       "learning_rate": 0.00027,
-      "loss": 3.0843,
       "step": 120
     },
     {
-      "epoch": 0.32,
-      "grad_norm": 0.2377060502767563,
       "learning_rate": 0.00025499999999999996,
-      "loss": 2.8413,
       "step": 130
     },
     {
-      "epoch": 0.34,
-      "grad_norm": 0.1750001609325409,
       "learning_rate": 0.00023999999999999998,
-      "loss": 2.7303,
       "step": 140
     },
     {
-      "epoch": 0.37,
-      "grad_norm": 0.1821776032447815,
       "learning_rate": 0.000225,
-      "loss": 2.6535,
       "step": 150
     },
     {
-      "epoch": 0.39,
-      "grad_norm": 0.16587179899215698,
       "learning_rate": 0.00020999999999999998,
-      "loss": 2.6147,
       "step": 160
     },
     {
-      "epoch": 0.42,
-      "grad_norm": 0.15111136436462402,
       "learning_rate": 0.000195,
-      "loss": 2.5929,
       "step": 170
     },
     {
-      "epoch": 0.44,
-      "grad_norm": 0.13922317326068878,
       "learning_rate": 0.00017999999999999998,
-      "loss": 2.554,
       "step": 180
     },
     {
-      "epoch": 0.47,
-      "grad_norm": 0.14242495596408844,
       "learning_rate": 0.000165,
-      "loss": 2.5381,
       "step": 190
     },
     {
-      "epoch": 0.49,
-      "grad_norm": 0.1816890388727188,
       "learning_rate": 0.00015,
-      "loss": 2.5145,
       "step": 200
     }
   ],
   "logging_steps": 10,
   "max_steps": 300,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 1,
   "save_steps": 100,
-  "total_flos": 3.2322500059336704e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 8.35509138381201,
   "eval_steps": 500,
   "global_step": 200,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.4177545691906005,
+      "grad_norm": 0.28227752447128296,
       "learning_rate": 2.9999999999999997e-05,
+      "loss": 4.1508,
       "step": 10
     },
     {
+      "epoch": 0.835509138381201,
+      "grad_norm": 0.31433430314064026,
       "learning_rate": 5.9999999999999995e-05,
+      "loss": 4.1593,
       "step": 20
     },
     {
+      "epoch": 1.2532637075718016,
+      "grad_norm": 0.3350953161716461,
       "learning_rate": 8.999999999999999e-05,
+      "loss": 4.0414,
       "step": 30
     },
     {
+      "epoch": 1.671018276762402,
+      "grad_norm": 0.2885706126689911,
       "learning_rate": 0.00011999999999999999,
+      "loss": 3.8411,
       "step": 40
     },
     {
+      "epoch": 2.0887728459530024,
+      "grad_norm": 0.23711609840393066,
       "learning_rate": 0.00015,
+      "loss": 3.6434,
       "step": 50
     },
     {
+      "epoch": 2.506527415143603,
+      "grad_norm": 0.21583135426044464,
       "learning_rate": 0.00017999999999999998,
+      "loss": 3.4636,
       "step": 60
     },
     {
+      "epoch": 2.9242819843342036,
+      "grad_norm": 0.18754692375659943,
       "learning_rate": 0.00020999999999999998,
+      "loss": 3.3154,
       "step": 70
     },
     {
+      "epoch": 3.342036553524804,
+      "grad_norm": 0.15951760113239288,
       "learning_rate": 0.00023999999999999998,
+      "loss": 3.2195,
       "step": 80
     },
     {
+      "epoch": 3.759791122715405,
+      "grad_norm": 0.14639759063720703,
       "learning_rate": 0.00027,
+      "loss": 3.122,
       "step": 90
     },
     {
+      "epoch": 4.177545691906005,
+      "grad_norm": 0.1860765665769577,
       "learning_rate": 0.0003,
+      "loss": 3.0677,
       "step": 100
     },
     {
+      "epoch": 4.595300261096606,
+      "grad_norm": 0.1737535446882248,
       "learning_rate": 0.000285,
+      "loss": 2.9992,
       "step": 110
     },
     {
+      "epoch": 5.013054830287206,
+      "grad_norm": 0.181383416056633,
       "learning_rate": 0.00027,
+      "loss": 2.9761,
       "step": 120
     },
     {
+      "epoch": 5.430809399477806,
+      "grad_norm": 0.1873219609260559,
       "learning_rate": 0.00025499999999999996,
+      "loss": 2.9281,
       "step": 130
     },
     {
+      "epoch": 5.848563968668407,
+      "grad_norm": 0.19864186644554138,
       "learning_rate": 0.00023999999999999998,
+      "loss": 2.9168,
       "step": 140
     },
     {
+      "epoch": 6.266318537859008,
+      "grad_norm": 0.22326301038265228,
       "learning_rate": 0.000225,
+      "loss": 2.8549,
       "step": 150
     },
     {
+      "epoch": 6.684073107049608,
+      "grad_norm": 0.2200121283531189,
       "learning_rate": 0.00020999999999999998,
+      "loss": 2.855,
       "step": 160
     },
     {
+      "epoch": 7.101827676240209,
+      "grad_norm": 0.2546086311340332,
       "learning_rate": 0.000195,
+      "loss": 2.8509,
       "step": 170
     },
     {
+      "epoch": 7.51958224543081,
+      "grad_norm": 0.26345309615135193,
       "learning_rate": 0.00017999999999999998,
+      "loss": 2.8144,
       "step": 180
     },
     {
+      "epoch": 7.93733681462141,
+      "grad_norm": 0.21533280611038208,
       "learning_rate": 0.000165,
+      "loss": 2.8006,
       "step": 190
     },
     {
+      "epoch": 8.35509138381201,
+      "grad_norm": 0.2510657012462616,
       "learning_rate": 0.00015,
+      "loss": 2.7816,
       "step": 200
     }
   ],
   "logging_steps": 10,
   "max_steps": 300,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 14,
   "save_steps": 100,
+  "total_flos": 3.235965641452339e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

checkpoint-200/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7189ea50d3101204ed0a14552e3e368c7afb6c90ecc8b189f33ef27c2f23742e
-size 4960

 version https://git-lfs.github.com/spec/v1
+oid sha256:42329f5345a3c120af37c6fdbce453b0541524f81257e209baeb9a0b15e22c94
+size 5024