Upload folder using huggingface_hub

Browse files

Files changed (9) hide show

adapter_config.json +1 -1
adapter_model.bin +2 -2
optimizer.pt +2 -2
rng_state.pth +1 -1
scheduler.pt +1 -1
special_tokens_map.json +0 -5
tokenizer.json +0 -27
trainer_state.json +106 -190
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "auto_mapping": null,
-  "base_model_name_or_path": "EleutherAI/pythia-410m",
   "bias": "none",
   "fan_in_fan_out": false,
   "inference_mode": true,

 {
   "auto_mapping": null,
+  "base_model_name_or_path": "EleutherAI/pythia-1b",
   "bias": "none",
   "fan_in_fan_out": false,
   "inference_mode": true,

adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:83ba5898fc17f29e89e4e62186c37829e2be4928676e3460b0612f936b60503b
-size 100733581

 version https://git-lfs.github.com/spec/v1
+oid sha256:22e5cbc8fa28cee4021d4acf72bd92e2441965783d1c5518f2a251ea7c32dcf6
+size 134264397

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:00196e2e03f69797d92ee6c265ea1f184be227f27c70a771778aff76ebd1235a
-size 201442181

 version https://git-lfs.github.com/spec/v1
+oid sha256:b60e9722292b450a6571c03598f9618313d03c19df711a4f6e1b72eb11d99a62
+size 268514437

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4babfd4a3d3b22e6223f179a08b4cfa2ae518b4d44d2c70a19f39410076f73f0
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:be88a98357fe6d24017dbd3742b993a8ee121932cabe10fdd1365c8c4a39df66
 size 14575

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:39f44b759122c3c879d266cd63b8d0b929867b61b815abaa9f3e43a6f98624ee
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:a03bd55ec967989abd72e176bb55c4192fe56bafe1ccfdaea2dc4dd09d252069
 size 627

special_tokens_map.json CHANGED Viewed

@@ -1,9 +1,4 @@
 {
-  "additional_special_tokens": [
-    "<|prompter|>",
-    "<|assistant|>",
-    "<|end|>"
-  ],
   "bos_token": "<|endoftext|>",
   "eos_token": "<|endoftext|>",
   "pad_token": "<|endoftext|>",

 {
   "bos_token": "<|endoftext|>",
   "eos_token": "<|endoftext|>",
   "pad_token": "<|endoftext|>",

tokenizer.json CHANGED Viewed

@@ -232,33 +232,6 @@
       "rstrip": false,
       "normalized": true,
       "special": false
-    },
-    {
-      "id": 50277,
-      "content": "<|prompter|>",
-      "single_word": false,
-      "lstrip": false,
-      "rstrip": false,
-      "normalized": false,
-      "special": true
-    },
-    {
-      "id": 50278,
-      "content": "<|assistant|>",
-      "single_word": false,
-      "lstrip": false,
-      "rstrip": false,
-      "normalized": false,
-      "special": true
-    },
-    {
-      "id": 50279,
-      "content": "<|end|>",
-      "single_word": false,
-      "lstrip": false,
-      "rstrip": false,
-      "normalized": false,
-      "special": true
     }
   ],
   "normalizer": {

       "rstrip": false,
       "normalized": true,
       "special": false
     }
   ],
   "normalizer": {

trainer_state.json CHANGED Viewed

@@ -1,403 +1,319 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.9883495145631067,
   "eval_steps": 500,
-  "global_step": 128,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.03,
       "learning_rate": 2e-05,
-      "loss": 2.5792,
       "step": 2
     },
     {
-      "epoch": 0.06,
       "learning_rate": 2e-05,
-      "loss": 2.816,
       "step": 4
     },
     {
-      "epoch": 0.09,
       "learning_rate": 2e-05,
-      "loss": 2.7111,
       "step": 6
     },
     {
-      "epoch": 0.12,
       "learning_rate": 2e-05,
-      "loss": 2.8995,
       "step": 8
     },
     {
-      "epoch": 0.16,
       "learning_rate": 2e-05,
-      "loss": 2.9567,
       "step": 10
     },
     {
-      "epoch": 0.19,
       "learning_rate": 2e-05,
-      "loss": 3.1137,
       "step": 12
     },
     {
-      "epoch": 0.22,
       "learning_rate": 2e-05,
-      "loss": 3.0994,
       "step": 14
     },
     {
-      "epoch": 0.25,
       "learning_rate": 2e-05,
-      "loss": 3.9126,
       "step": 16
     },
     {
-      "epoch": 0.28,
       "learning_rate": 2e-05,
-      "loss": 2.5394,
       "step": 18
     },
     {
-      "epoch": 0.31,
       "learning_rate": 2e-05,
-      "loss": 2.6201,
       "step": 20
     },
     {
-      "epoch": 0.34,
       "learning_rate": 2e-05,
-      "loss": 2.6232,
       "step": 22
     },
     {
-      "epoch": 0.37,
       "learning_rate": 2e-05,
-      "loss": 2.9296,
       "step": 24
     },
     {
-      "epoch": 0.4,
       "learning_rate": 2e-05,
-      "loss": 2.9391,
       "step": 26
     },
     {
-      "epoch": 0.43,
       "learning_rate": 2e-05,
-      "loss": 3.1474,
       "step": 28
     },
     {
-      "epoch": 0.47,
       "learning_rate": 2e-05,
-      "loss": 3.1631,
       "step": 30
     },
     {
-      "epoch": 0.5,
       "learning_rate": 2e-05,
-      "loss": 4.1919,
       "step": 32
     },
     {
-      "epoch": 0.53,
       "learning_rate": 2e-05,
-      "loss": 2.5069,
       "step": 34
     },
     {
-      "epoch": 0.56,
       "learning_rate": 2e-05,
-      "loss": 2.771,
       "step": 36
     },
     {
-      "epoch": 0.59,
       "learning_rate": 2e-05,
-      "loss": 2.8112,
       "step": 38
     },
     {
-      "epoch": 0.62,
       "learning_rate": 2e-05,
-      "loss": 2.8988,
       "step": 40
     },
     {
-      "epoch": 0.65,
       "learning_rate": 2e-05,
-      "loss": 2.994,
       "step": 42
     },
     {
-      "epoch": 0.68,
       "learning_rate": 2e-05,
-      "loss": 2.94,
       "step": 44
     },
     {
-      "epoch": 0.71,
       "learning_rate": 2e-05,
-      "loss": 3.0248,
       "step": 46
     },
     {
-      "epoch": 0.75,
       "learning_rate": 2e-05,
-      "loss": 3.7811,
       "step": 48
     },
     {
-      "epoch": 0.78,
       "learning_rate": 2e-05,
-      "loss": 2.5554,
       "step": 50
     },
     {
-      "epoch": 0.81,
       "learning_rate": 2e-05,
-      "loss": 2.656,
       "step": 52
     },
     {
-      "epoch": 0.84,
       "learning_rate": 2e-05,
-      "loss": 2.7889,
       "step": 54
     },
     {
-      "epoch": 0.87,
       "learning_rate": 2e-05,
-      "loss": 2.7613,
       "step": 56
     },
     {
-      "epoch": 0.9,
       "learning_rate": 2e-05,
-      "loss": 2.8959,
       "step": 58
     },
     {
-      "epoch": 0.93,
       "learning_rate": 2e-05,
-      "loss": 2.914,
       "step": 60
     },
     {
-      "epoch": 0.96,
       "learning_rate": 2e-05,
-      "loss": 3.1729,
       "step": 62
     },
     {
-      "epoch": 0.99,
       "learning_rate": 2e-05,
-      "loss": 3.6644,
       "step": 64
     },
     {
-      "epoch": 1.03,
       "learning_rate": 2e-05,
-      "loss": 2.5554,
       "step": 66
     },
     {
-      "epoch": 1.06,
       "learning_rate": 2e-05,
-      "loss": 2.5432,
       "step": 68
     },
     {
-      "epoch": 1.09,
       "learning_rate": 2e-05,
-      "loss": 2.6235,
       "step": 70
     },
     {
-      "epoch": 1.12,
       "learning_rate": 2e-05,
-      "loss": 2.7702,
       "step": 72
     },
     {
-      "epoch": 1.15,
       "learning_rate": 2e-05,
-      "loss": 2.943,
       "step": 74
     },
     {
-      "epoch": 1.18,
       "learning_rate": 2e-05,
-      "loss": 2.8071,
       "step": 76
     },
     {
-      "epoch": 1.21,
       "learning_rate": 2e-05,
-      "loss": 3.1157,
       "step": 78
     },
     {
-      "epoch": 1.24,
       "learning_rate": 2e-05,
-      "loss": 3.4279,
       "step": 80
     },
     {
-      "epoch": 1.27,
       "learning_rate": 2e-05,
-      "loss": 2.8172,
       "step": 82
     },
     {
-      "epoch": 1.3,
       "learning_rate": 2e-05,
-      "loss": 2.4719,
       "step": 84
     },
     {
-      "epoch": 1.34,
       "learning_rate": 2e-05,
-      "loss": 2.6784,
       "step": 86
     },
     {
-      "epoch": 1.37,
       "learning_rate": 2e-05,
-      "loss": 2.7028,
       "step": 88
     },
     {
-      "epoch": 1.4,
       "learning_rate": 2e-05,
-      "loss": 2.8362,
       "step": 90
     },
     {
-      "epoch": 1.43,
       "learning_rate": 2e-05,
-      "loss": 2.8774,
       "step": 92
     },
     {
-      "epoch": 1.46,
       "learning_rate": 2e-05,
-      "loss": 2.9223,
       "step": 94
     },
     {
-      "epoch": 1.49,
       "learning_rate": 2e-05,
-      "loss": 3.4649,
       "step": 96
     },
     {
-      "epoch": 1.52,
       "learning_rate": 2e-05,
-      "loss": 2.9887,
       "step": 98
     },
     {
-      "epoch": 1.55,
       "learning_rate": 2e-05,
-      "loss": 2.4352,
       "step": 100
-    },
-    {
-      "epoch": 1.58,
-      "learning_rate": 2e-05,
-      "loss": 2.6306,
-      "step": 102
-    },
-    {
-      "epoch": 1.62,
-      "learning_rate": 2e-05,
-      "loss": 2.7199,
-      "step": 104
-    },
-    {
-      "epoch": 1.65,
-      "learning_rate": 2e-05,
-      "loss": 2.8404,
-      "step": 106
-    },
-    {
-      "epoch": 1.68,
-      "learning_rate": 2e-05,
-      "loss": 2.9678,
-      "step": 108
-    },
-    {
-      "epoch": 1.71,
-      "learning_rate": 2e-05,
-      "loss": 2.987,
-      "step": 110
-    },
-    {
-      "epoch": 1.74,
-      "learning_rate": 2e-05,
-      "loss": 3.3557,
-      "step": 112
-    },
-    {
-      "epoch": 1.77,
-      "learning_rate": 2e-05,
-      "loss": 2.9119,
-      "step": 114
-    },
-    {
-      "epoch": 1.8,
-      "learning_rate": 2e-05,
-      "loss": 2.6182,
-      "step": 116
-    },
-    {
-      "epoch": 1.83,
-      "learning_rate": 2e-05,
-      "loss": 2.7202,
-      "step": 118
-    },
-    {
-      "epoch": 1.86,
-      "learning_rate": 2e-05,
-      "loss": 2.8067,
-      "step": 120
-    },
-    {
-      "epoch": 1.9,
-      "learning_rate": 2e-05,
-      "loss": 2.7643,
-      "step": 122
-    },
-    {
-      "epoch": 1.93,
-      "learning_rate": 2e-05,
-      "loss": 2.8363,
-      "step": 124
-    },
-    {
-      "epoch": 1.96,
-      "learning_rate": 2e-05,
-      "loss": 3.0004,
-      "step": 126
-    },
-    {
-      "epoch": 1.99,
-      "learning_rate": 2e-05,
-      "loss": 3.1952,
-      "step": 128
     }
   ],
   "logging_steps": 2,
-  "max_steps": 640,
-  "num_train_epochs": 10,
-  "save_steps": 64,
-  "total_flos": 1466230489497600.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.19337684312303602,
   "eval_steps": 500,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.0,
       "learning_rate": 2e-05,
+      "loss": 1.9977,
       "step": 2
     },
     {
+      "epoch": 0.01,
       "learning_rate": 2e-05,
+      "loss": 1.7981,
       "step": 4
     },
     {
+      "epoch": 0.01,
       "learning_rate": 2e-05,
+      "loss": 1.8322,
       "step": 6
     },
     {
+      "epoch": 0.02,
       "learning_rate": 2e-05,
+      "loss": 1.8531,
       "step": 8
     },
     {
+      "epoch": 0.02,
       "learning_rate": 2e-05,
+      "loss": 2.0386,
       "step": 10
     },
     {
+      "epoch": 0.02,
       "learning_rate": 2e-05,
+      "loss": 1.9196,
       "step": 12
     },
     {
+      "epoch": 0.03,
       "learning_rate": 2e-05,
+      "loss": 1.9542,
       "step": 14
     },
     {
+      "epoch": 0.03,
       "learning_rate": 2e-05,
+      "loss": 1.9752,
       "step": 16
     },
     {
+      "epoch": 0.03,
       "learning_rate": 2e-05,
+      "loss": 1.9978,
       "step": 18
     },
     {
+      "epoch": 0.04,
       "learning_rate": 2e-05,
+      "loss": 2.1557,
       "step": 20
     },
     {
+      "epoch": 0.04,
       "learning_rate": 2e-05,
+      "loss": 2.2696,
       "step": 22
     },
     {
+      "epoch": 0.05,
       "learning_rate": 2e-05,
+      "loss": 2.1076,
       "step": 24
     },
     {
+      "epoch": 0.05,
       "learning_rate": 2e-05,
+      "loss": 2.147,
       "step": 26
     },
     {
+      "epoch": 0.05,
       "learning_rate": 2e-05,
+      "loss": 2.24,
       "step": 28
     },
     {
+      "epoch": 0.06,
       "learning_rate": 2e-05,
+      "loss": 2.5256,
       "step": 30
     },
     {
+      "epoch": 0.06,
       "learning_rate": 2e-05,
+      "loss": 2.5508,
       "step": 32
     },
     {
+      "epoch": 0.07,
       "learning_rate": 2e-05,
+      "loss": 2.4477,
       "step": 34
     },
     {
+      "epoch": 0.07,
       "learning_rate": 2e-05,
+      "loss": 2.5753,
       "step": 36
     },
     {
+      "epoch": 0.07,
       "learning_rate": 2e-05,
+      "loss": 2.4712,
       "step": 38
     },
     {
+      "epoch": 0.08,
       "learning_rate": 2e-05,
+      "loss": 2.5571,
       "step": 40
     },
     {
+      "epoch": 0.08,
       "learning_rate": 2e-05,
+      "loss": 2.6571,
       "step": 42
     },
     {
+      "epoch": 0.09,
       "learning_rate": 2e-05,
+      "loss": 2.6046,
       "step": 44
     },
     {
+      "epoch": 0.09,
       "learning_rate": 2e-05,
+      "loss": 2.6356,
       "step": 46
     },
     {
+      "epoch": 0.09,
       "learning_rate": 2e-05,
+      "loss": 2.4726,
       "step": 48
     },
     {
+      "epoch": 0.1,
       "learning_rate": 2e-05,
+      "loss": 1.9312,
       "step": 50
     },
     {
+      "epoch": 0.1,
       "learning_rate": 2e-05,
+      "loss": 1.521,
       "step": 52
     },
     {
+      "epoch": 0.1,
       "learning_rate": 2e-05,
+      "loss": 1.6335,
       "step": 54
     },
     {
+      "epoch": 0.11,
       "learning_rate": 2e-05,
+      "loss": 1.8708,
       "step": 56
     },
     {
+      "epoch": 0.11,
       "learning_rate": 2e-05,
+      "loss": 1.7963,
       "step": 58
     },
     {
+      "epoch": 0.12,
       "learning_rate": 2e-05,
+      "loss": 1.7056,
       "step": 60
     },
     {
+      "epoch": 0.12,
       "learning_rate": 2e-05,
+      "loss": 1.6456,
       "step": 62
     },
     {
+      "epoch": 0.12,
       "learning_rate": 2e-05,
+      "loss": 1.8106,
       "step": 64
     },
     {
+      "epoch": 0.13,
       "learning_rate": 2e-05,
+      "loss": 1.7857,
       "step": 66
     },
     {
+      "epoch": 0.13,
       "learning_rate": 2e-05,
+      "loss": 1.8581,
       "step": 68
     },
     {
+      "epoch": 0.14,
       "learning_rate": 2e-05,
+      "loss": 1.8207,
       "step": 70
     },
     {
+      "epoch": 0.14,
       "learning_rate": 2e-05,
+      "loss": 1.8455,
       "step": 72
     },
     {
+      "epoch": 0.14,
       "learning_rate": 2e-05,
+      "loss": 1.914,
       "step": 74
     },
     {
+      "epoch": 0.15,
       "learning_rate": 2e-05,
+      "loss": 2.0813,
       "step": 76
     },
     {
+      "epoch": 0.15,
       "learning_rate": 2e-05,
+      "loss": 2.1496,
       "step": 78
     },
     {
+      "epoch": 0.15,
       "learning_rate": 2e-05,
+      "loss": 2.1145,
       "step": 80
     },
     {
+      "epoch": 0.16,
       "learning_rate": 2e-05,
+      "loss": 2.1483,
       "step": 82
     },
     {
+      "epoch": 0.16,
       "learning_rate": 2e-05,
+      "loss": 2.0732,
       "step": 84
     },
     {
+      "epoch": 0.17,
       "learning_rate": 2e-05,
+      "loss": 2.0453,
       "step": 86
     },
     {
+      "epoch": 0.17,
       "learning_rate": 2e-05,
+      "loss": 2.1725,
       "step": 88
     },
     {
+      "epoch": 0.17,
       "learning_rate": 2e-05,
+      "loss": 2.4606,
       "step": 90
     },
     {
+      "epoch": 0.18,
       "learning_rate": 2e-05,
+      "loss": 2.2959,
       "step": 92
     },
     {
+      "epoch": 0.18,
       "learning_rate": 2e-05,
+      "loss": 2.2003,
       "step": 94
     },
     {
+      "epoch": 0.19,
       "learning_rate": 2e-05,
+      "loss": 2.2841,
       "step": 96
     },
     {
+      "epoch": 0.19,
       "learning_rate": 2e-05,
+      "loss": 2.2107,
       "step": 98
     },
     {
+      "epoch": 0.19,
       "learning_rate": 2e-05,
+      "loss": 1.5669,
       "step": 100
     }
   ],
   "logging_steps": 2,
+  "max_steps": 1551,
+  "num_train_epochs": 3,
+  "save_steps": 50,
+  "total_flos": 1353986076180480.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:56858e9a674ce140574860fbcec77a85eb683295eeceb03666fa0328f632f049
 size 4027

 version https://git-lfs.github.com/spec/v1
+oid sha256:b09c3f97320eac73d411d21a50ec73cb2ab5f72af12d2d7fc2cf1c67c56b0c96
 size 4027