Upload folder using huggingface_hub

Browse files

Files changed (10) hide show

adapter_config.json +8 -5
adapter_model.bin +2 -2
optimizer.pt +2 -2
rng_state.pth +1 -1
scheduler.pt +1 -1
special_tokens_map.json +22 -4
tokenizer.json +0 -0
tokenizer_config.json +29 -6
trainer_state.json +154 -304
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "auto_mapping": null,
-  "base_model_name_or_path": "EleutherAI/pythia-1b-deduped",
   "bias": "none",
   "fan_in_fan_out": false,
   "inference_mode": true,
@@ -14,10 +14,13 @@
   "r": 64,
   "revision": null,
   "target_modules": [
-    "query_key_value",
-    "dense",
-    "dense_h_to_4h",
-    "dense_4h_to_h"
   ],
   "task_type": "CAUSAL_LM"
 }

 {
   "auto_mapping": null,
+  "base_model_name_or_path": "TinyPixel/Llama-2-7B-bf16-sharded",
   "bias": "none",
   "fan_in_fan_out": false,
   "inference_mode": true,
   "r": 64,
   "revision": null,
   "target_modules": [
+    "q_proj",
+    "up_proj",
+    "o_proj",
+    "k_proj",
+    "down_proj",
+    "gate_proj",
+    "v_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:268392da518a9d270d6334c47b13de4c67de1c1e83c72ceba6580a4c6489b9e8
-size 134264397

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c9ae532e3cec3b710f321de1b5892ac28f8ab697699e062b0c419aef1d9d8f2
+size 639792909

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9f34399e6b00072f7f84227fb1e87aea9a737b5245f3500801be9a3412d5ebdb
-size 268514437

 version https://git-lfs.github.com/spec/v1
+oid sha256:c89dacf1f9b939b0694976c996793adda0c8ee62d532cd64a1e08c26e805a7a5
+size 1279539525

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c1d2ca86f5a045f8c3244ae93f984c7fb23597360d07087fc81ba1e92306a8eb
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:82411149ee2cc60f04bc1d8a9b0ba676449770832e5f1441a68fb74b0b3e264c
 size 14575

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f4880f3f40e7ab04d8efce4fc909327351c41d3ccafff780222b4189f527a9a0
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:a250a3b5a8afb528c2d83a3fb3075f603c379d3aebfde28691ff7602adbed742
 size 627

special_tokens_map.json CHANGED Viewed

@@ -1,6 +1,24 @@
 {
-  "bos_token": "<|endoftext|>",
-  "eos_token": "<|endoftext|>",
-  "pad_token": "<|endoftext|>",
-  "unk_token": "<|endoftext|>"
 }

 {
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "</s>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
 }

tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json CHANGED Viewed

@@ -1,9 +1,32 @@
 {
-  "add_prefix_space": false,
-  "bos_token": "<|endoftext|>",
-  "clean_up_tokenization_spaces": true,
-  "eos_token": "<|endoftext|>",
   "model_max_length": 1000000000000000019884624838656,
-  "tokenizer_class": "GPTNeoXTokenizer",
-  "unk_token": "<|endoftext|>"
 }

 {
+  "bos_token": {
+    "__type": "AddedToken",
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "clean_up_tokenization_spaces": false,
+  "eos_token": {
+    "__type": "AddedToken",
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
   "model_max_length": 1000000000000000019884624838656,
+  "pad_token": null,
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": {
+    "__type": "AddedToken",
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "use_default_system_prompt": true
 }

trainer_state.json CHANGED Viewed

@@ -1,619 +1,469 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.0922535820336149,
   "eval_steps": 500,
-  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.0,
       "learning_rate": 2e-05,
-      "loss": 2.2297,
       "step": 2
     },
     {
-      "epoch": 0.0,
       "learning_rate": 2e-05,
-      "loss": 2.4114,
       "step": 4
     },
     {
-      "epoch": 0.0,
       "learning_rate": 2e-05,
-      "loss": 2.5589,
       "step": 6
     },
     {
-      "epoch": 0.0,
       "learning_rate": 2e-05,
-      "loss": 2.6596,
       "step": 8
     },
     {
-      "epoch": 0.0,
       "learning_rate": 2e-05,
-      "loss": 2.6748,
       "step": 10
     },
     {
-      "epoch": 0.01,
       "learning_rate": 2e-05,
-      "loss": 2.7331,
       "step": 12
     },
     {
-      "epoch": 0.01,
       "learning_rate": 2e-05,
-      "loss": 2.7118,
       "step": 14
     },
     {
-      "epoch": 0.01,
       "learning_rate": 2e-05,
-      "loss": 2.6889,
       "step": 16
     },
     {
-      "epoch": 0.01,
       "learning_rate": 2e-05,
-      "loss": 2.7385,
       "step": 18
     },
     {
-      "epoch": 0.01,
       "learning_rate": 2e-05,
-      "loss": 2.7068,
       "step": 20
     },
     {
-      "epoch": 0.01,
       "learning_rate": 2e-05,
-      "loss": 2.6188,
       "step": 22
     },
     {
-      "epoch": 0.01,
       "learning_rate": 2e-05,
-      "loss": 2.613,
       "step": 24
     },
     {
-      "epoch": 0.01,
       "learning_rate": 2e-05,
-      "loss": 2.5193,
       "step": 26
     },
     {
-      "epoch": 0.01,
       "learning_rate": 2e-05,
-      "loss": 2.59,
       "step": 28
     },
     {
-      "epoch": 0.01,
       "learning_rate": 2e-05,
-      "loss": 2.4855,
       "step": 30
     },
     {
-      "epoch": 0.01,
       "learning_rate": 2e-05,
-      "loss": 2.5357,
       "step": 32
     },
     {
-      "epoch": 0.02,
       "learning_rate": 2e-05,
-      "loss": 2.5067,
       "step": 34
     },
     {
-      "epoch": 0.02,
       "learning_rate": 2e-05,
-      "loss": 2.4844,
       "step": 36
     },
     {
-      "epoch": 0.02,
       "learning_rate": 2e-05,
-      "loss": 2.4234,
       "step": 38
     },
     {
-      "epoch": 0.02,
       "learning_rate": 2e-05,
-      "loss": 2.3767,
       "step": 40
     },
     {
-      "epoch": 0.02,
       "learning_rate": 2e-05,
-      "loss": 2.396,
       "step": 42
     },
     {
-      "epoch": 0.02,
       "learning_rate": 2e-05,
-      "loss": 2.2662,
       "step": 44
     },
     {
-      "epoch": 0.02,
       "learning_rate": 2e-05,
-      "loss": 2.1638,
       "step": 46
     },
     {
-      "epoch": 0.02,
       "learning_rate": 2e-05,
-      "loss": 2.1706,
       "step": 48
     },
     {
-      "epoch": 0.02,
       "learning_rate": 2e-05,
-      "loss": 1.9274,
       "step": 50
     },
     {
-      "epoch": 0.02,
       "learning_rate": 2e-05,
-      "loss": 1.9829,
       "step": 52
     },
     {
-      "epoch": 0.02,
       "learning_rate": 2e-05,
-      "loss": 1.937,
       "step": 54
     },
     {
-      "epoch": 0.03,
       "learning_rate": 2e-05,
-      "loss": 1.9749,
       "step": 56
     },
     {
-      "epoch": 0.03,
       "learning_rate": 2e-05,
-      "loss": 2.1066,
       "step": 58
     },
     {
-      "epoch": 0.03,
       "learning_rate": 2e-05,
-      "loss": 2.073,
       "step": 60
     },
     {
-      "epoch": 0.03,
       "learning_rate": 2e-05,
-      "loss": 2.1405,
       "step": 62
     },
     {
-      "epoch": 0.03,
       "learning_rate": 2e-05,
-      "loss": 2.0468,
       "step": 64
     },
     {
-      "epoch": 0.03,
       "learning_rate": 2e-05,
-      "loss": 1.9769,
       "step": 66
     },
     {
-      "epoch": 0.03,
       "learning_rate": 2e-05,
-      "loss": 2.0645,
       "step": 68
     },
     {
-      "epoch": 0.03,
       "learning_rate": 2e-05,
-      "loss": 2.1321,
       "step": 70
     },
     {
-      "epoch": 0.03,
       "learning_rate": 2e-05,
-      "loss": 2.1039,
       "step": 72
     },
     {
-      "epoch": 0.03,
       "learning_rate": 2e-05,
-      "loss": 2.0137,
       "step": 74
     },
     {
-      "epoch": 0.04,
       "learning_rate": 2e-05,
-      "loss": 2.0714,
       "step": 76
     },
     {
-      "epoch": 0.04,
       "learning_rate": 2e-05,
-      "loss": 2.0487,
       "step": 78
     },
     {
-      "epoch": 0.04,
       "learning_rate": 2e-05,
-      "loss": 2.0397,
       "step": 80
     },
     {
-      "epoch": 0.04,
       "learning_rate": 2e-05,
-      "loss": 2.0557,
       "step": 82
     },
     {
-      "epoch": 0.04,
       "learning_rate": 2e-05,
-      "loss": 1.9866,
       "step": 84
     },
     {
-      "epoch": 0.04,
       "learning_rate": 2e-05,
-      "loss": 2.0334,
       "step": 86
     },
     {
-      "epoch": 0.04,
       "learning_rate": 2e-05,
-      "loss": 1.9322,
       "step": 88
     },
     {
-      "epoch": 0.04,
       "learning_rate": 2e-05,
-      "loss": 1.9863,
       "step": 90
     },
     {
-      "epoch": 0.04,
       "learning_rate": 2e-05,
-      "loss": 1.9943,
       "step": 92
     },
     {
-      "epoch": 0.04,
       "learning_rate": 2e-05,
-      "loss": 1.8851,
       "step": 94
     },
     {
-      "epoch": 0.04,
       "learning_rate": 2e-05,
-      "loss": 1.9012,
       "step": 96
     },
     {
-      "epoch": 0.05,
       "learning_rate": 2e-05,
-      "loss": 1.7702,
       "step": 98
     },
     {
-      "epoch": 0.05,
       "learning_rate": 2e-05,
-      "loss": 1.4807,
       "step": 100
     },
     {
-      "epoch": 0.05,
       "learning_rate": 2e-05,
-      "loss": 1.829,
       "step": 102
     },
     {
-      "epoch": 0.05,
       "learning_rate": 2e-05,
-      "loss": 1.7121,
       "step": 104
     },
     {
-      "epoch": 0.05,
       "learning_rate": 2e-05,
-      "loss": 1.913,
       "step": 106
     },
     {
-      "epoch": 0.05,
       "learning_rate": 2e-05,
-      "loss": 1.9668,
       "step": 108
     },
     {
-      "epoch": 0.05,
       "learning_rate": 2e-05,
-      "loss": 1.9368,
       "step": 110
     },
     {
-      "epoch": 0.05,
       "learning_rate": 2e-05,
-      "loss": 1.9563,
       "step": 112
     },
     {
-      "epoch": 0.05,
       "learning_rate": 2e-05,
-      "loss": 1.9124,
       "step": 114
     },
     {
-      "epoch": 0.05,
       "learning_rate": 2e-05,
-      "loss": 1.9937,
       "step": 116
     },
     {
-      "epoch": 0.05,
       "learning_rate": 2e-05,
-      "loss": 1.9534,
       "step": 118
     },
     {
-      "epoch": 0.06,
       "learning_rate": 2e-05,
-      "loss": 1.9646,
       "step": 120
     },
     {
-      "epoch": 0.06,
       "learning_rate": 2e-05,
-      "loss": 1.8869,
       "step": 122
     },
     {
-      "epoch": 0.06,
       "learning_rate": 2e-05,
-      "loss": 1.9113,
       "step": 124
     },
     {
-      "epoch": 0.06,
       "learning_rate": 2e-05,
-      "loss": 1.8423,
       "step": 126
     },
     {
-      "epoch": 0.06,
       "learning_rate": 2e-05,
-      "loss": 1.9589,
       "step": 128
     },
     {
-      "epoch": 0.06,
       "learning_rate": 2e-05,
-      "loss": 1.9223,
       "step": 130
     },
     {
-      "epoch": 0.06,
       "learning_rate": 2e-05,
-      "loss": 1.8867,
       "step": 132
     },
     {
-      "epoch": 0.06,
       "learning_rate": 2e-05,
-      "loss": 1.8103,
       "step": 134
     },
     {
-      "epoch": 0.06,
       "learning_rate": 2e-05,
-      "loss": 1.9077,
       "step": 136
     },
     {
-      "epoch": 0.06,
       "learning_rate": 2e-05,
-      "loss": 1.8303,
       "step": 138
     },
     {
-      "epoch": 0.06,
       "learning_rate": 2e-05,
-      "loss": 1.8349,
       "step": 140
     },
     {
-      "epoch": 0.07,
       "learning_rate": 2e-05,
-      "loss": 1.7763,
       "step": 142
     },
     {
-      "epoch": 0.07,
       "learning_rate": 2e-05,
-      "loss": 1.8196,
       "step": 144
     },
     {
-      "epoch": 0.07,
       "learning_rate": 2e-05,
-      "loss": 1.8212,
       "step": 146
     },
     {
-      "epoch": 0.07,
       "learning_rate": 2e-05,
-      "loss": 1.6991,
       "step": 148
     },
     {
-      "epoch": 0.07,
       "learning_rate": 2e-05,
-      "loss": 1.6176,
       "step": 150
-    },
-    {
-      "epoch": 0.07,
-      "learning_rate": 2e-05,
-      "loss": 1.8508,
-      "step": 152
-    },
-    {
-      "epoch": 0.07,
-      "learning_rate": 2e-05,
-      "loss": 1.8574,
-      "step": 154
-    },
-    {
-      "epoch": 0.07,
-      "learning_rate": 2e-05,
-      "loss": 1.8352,
-      "step": 156
-    },
-    {
-      "epoch": 0.07,
-      "learning_rate": 2e-05,
-      "loss": 1.9877,
-      "step": 158
-    },
-    {
-      "epoch": 0.07,
-      "learning_rate": 2e-05,
-      "loss": 1.9674,
-      "step": 160
-    },
-    {
-      "epoch": 0.07,
-      "learning_rate": 2e-05,
-      "loss": 1.9151,
-      "step": 162
-    },
-    {
-      "epoch": 0.08,
-      "learning_rate": 2e-05,
-      "loss": 1.8725,
-      "step": 164
-    },
-    {
-      "epoch": 0.08,
-      "learning_rate": 2e-05,
-      "loss": 1.8877,
-      "step": 166
-    },
-    {
-      "epoch": 0.08,
-      "learning_rate": 2e-05,
-      "loss": 1.9685,
-      "step": 168
-    },
-    {
-      "epoch": 0.08,
-      "learning_rate": 2e-05,
-      "loss": 1.8729,
-      "step": 170
-    },
-    {
-      "epoch": 0.08,
-      "learning_rate": 2e-05,
-      "loss": 1.9164,
-      "step": 172
-    },
-    {
-      "epoch": 0.08,
-      "learning_rate": 2e-05,
-      "loss": 1.9212,
-      "step": 174
-    },
-    {
-      "epoch": 0.08,
-      "learning_rate": 2e-05,
-      "loss": 1.8108,
-      "step": 176
-    },
-    {
-      "epoch": 0.08,
-      "learning_rate": 2e-05,
-      "loss": 1.8292,
-      "step": 178
-    },
-    {
-      "epoch": 0.08,
-      "learning_rate": 2e-05,
-      "loss": 1.7682,
-      "step": 180
-    },
-    {
-      "epoch": 0.08,
-      "learning_rate": 2e-05,
-      "loss": 1.8177,
-      "step": 182
-    },
-    {
-      "epoch": 0.08,
-      "learning_rate": 2e-05,
-      "loss": 1.8236,
-      "step": 184
-    },
-    {
-      "epoch": 0.09,
-      "learning_rate": 2e-05,
-      "loss": 1.847,
-      "step": 186
-    },
-    {
-      "epoch": 0.09,
-      "learning_rate": 2e-05,
-      "loss": 1.8181,
-      "step": 188
-    },
-    {
-      "epoch": 0.09,
-      "learning_rate": 2e-05,
-      "loss": 1.7495,
-      "step": 190
-    },
-    {
-      "epoch": 0.09,
-      "learning_rate": 2e-05,
-      "loss": 1.7743,
-      "step": 192
-    },
-    {
-      "epoch": 0.09,
-      "learning_rate": 2e-05,
-      "loss": 1.7222,
-      "step": 194
-    },
-    {
-      "epoch": 0.09,
-      "learning_rate": 2e-05,
-      "loss": 1.687,
-      "step": 196
-    },
-    {
-      "epoch": 0.09,
-      "learning_rate": 2e-05,
-      "loss": 1.6177,
-      "step": 198
-    },
-    {
-      "epoch": 0.09,
-      "learning_rate": 2e-05,
-      "loss": 1.5484,
-      "step": 200
     }
   ],
   "logging_steps": 2,
-  "max_steps": 6501,
   "num_train_epochs": 3,
   "save_steps": 50,
-  "total_flos": 1334487070654464.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.3300970873786406,
   "eval_steps": 500,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.03,
       "learning_rate": 2e-05,
+      "loss": 1.6659,
       "step": 2
     },
     {
+      "epoch": 0.06,
       "learning_rate": 2e-05,
+      "loss": 1.8104,
       "step": 4
     },
     {
+      "epoch": 0.09,
       "learning_rate": 2e-05,
+      "loss": 1.8184,
       "step": 6
     },
     {
+      "epoch": 0.12,
       "learning_rate": 2e-05,
+      "loss": 1.9193,
       "step": 8
     },
     {
+      "epoch": 0.16,
       "learning_rate": 2e-05,
+      "loss": 1.9341,
       "step": 10
     },
     {
+      "epoch": 0.19,
       "learning_rate": 2e-05,
+      "loss": 1.8737,
       "step": 12
     },
     {
+      "epoch": 0.22,
       "learning_rate": 2e-05,
+      "loss": 1.9135,
       "step": 14
     },
     {
+      "epoch": 0.25,
       "learning_rate": 2e-05,
+      "loss": 1.9457,
       "step": 16
     },
     {
+      "epoch": 0.28,
       "learning_rate": 2e-05,
+      "loss": 1.6069,
       "step": 18
     },
     {
+      "epoch": 0.31,
       "learning_rate": 2e-05,
+      "loss": 1.7064,
       "step": 20
     },
     {
+      "epoch": 0.34,
       "learning_rate": 2e-05,
+      "loss": 1.6918,
       "step": 22
     },
     {
+      "epoch": 0.37,
       "learning_rate": 2e-05,
+      "loss": 1.9197,
       "step": 24
     },
     {
+      "epoch": 0.4,
       "learning_rate": 2e-05,
+      "loss": 1.9259,
       "step": 26
     },
     {
+      "epoch": 0.43,
       "learning_rate": 2e-05,
+      "loss": 1.9266,
       "step": 28
     },
     {
+      "epoch": 0.47,
       "learning_rate": 2e-05,
+      "loss": 1.8352,
       "step": 30
     },
     {
+      "epoch": 0.5,
       "learning_rate": 2e-05,
+      "loss": 1.8955,
       "step": 32
     },
     {
+      "epoch": 0.53,
       "learning_rate": 2e-05,
+      "loss": 1.6058,
       "step": 34
     },
     {
+      "epoch": 0.56,
       "learning_rate": 2e-05,
+      "loss": 1.7857,
       "step": 36
     },
     {
+      "epoch": 0.59,
       "learning_rate": 2e-05,
+      "loss": 1.9138,
       "step": 38
     },
     {
+      "epoch": 0.62,
       "learning_rate": 2e-05,
+      "loss": 1.82,
       "step": 40
     },
     {
+      "epoch": 0.65,
       "learning_rate": 2e-05,
+      "loss": 1.8935,
       "step": 42
     },
     {
+      "epoch": 0.68,
       "learning_rate": 2e-05,
+      "loss": 1.8469,
       "step": 44
     },
     {
+      "epoch": 0.71,
       "learning_rate": 2e-05,
+      "loss": 1.7641,
       "step": 46
     },
     {
+      "epoch": 0.75,
       "learning_rate": 2e-05,
+      "loss": 1.7126,
       "step": 48
     },
     {
+      "epoch": 0.78,
       "learning_rate": 2e-05,
+      "loss": 1.6462,
       "step": 50
     },
     {
+      "epoch": 0.81,
       "learning_rate": 2e-05,
+      "loss": 1.758,
       "step": 52
     },
     {
+      "epoch": 0.84,
       "learning_rate": 2e-05,
+      "loss": 1.7815,
       "step": 54
     },
     {
+      "epoch": 0.87,
       "learning_rate": 2e-05,
+      "loss": 1.8141,
       "step": 56
     },
     {
+      "epoch": 0.9,
       "learning_rate": 2e-05,
+      "loss": 1.9501,
       "step": 58
     },
     {
+      "epoch": 0.93,
       "learning_rate": 2e-05,
+      "loss": 1.7102,
       "step": 60
     },
     {
+      "epoch": 0.96,
       "learning_rate": 2e-05,
+      "loss": 1.8675,
       "step": 62
     },
     {
+      "epoch": 0.99,
       "learning_rate": 2e-05,
+      "loss": 1.5918,
       "step": 64
     },
     {
+      "epoch": 1.03,
       "learning_rate": 2e-05,
+      "loss": 1.6549,
       "step": 66
     },
     {
+      "epoch": 1.06,
       "learning_rate": 2e-05,
+      "loss": 1.7225,
       "step": 68
     },
     {
+      "epoch": 1.09,
       "learning_rate": 2e-05,
+      "loss": 1.6444,
       "step": 70
     },
     {
+      "epoch": 1.12,
       "learning_rate": 2e-05,
+      "loss": 1.8252,
       "step": 72
     },
     {
+      "epoch": 1.15,
       "learning_rate": 2e-05,
+      "loss": 1.9423,
       "step": 74
     },
     {
+      "epoch": 1.18,
       "learning_rate": 2e-05,
+      "loss": 1.7478,
       "step": 76
     },
     {
+      "epoch": 1.21,
       "learning_rate": 2e-05,
+      "loss": 1.759,
       "step": 78
     },
     {
+      "epoch": 1.24,
       "learning_rate": 2e-05,
+      "loss": 1.4916,
       "step": 80
     },
     {
+      "epoch": 1.27,
       "learning_rate": 2e-05,
+      "loss": 1.4533,
       "step": 82
     },
     {
+      "epoch": 1.3,
       "learning_rate": 2e-05,
+      "loss": 1.6403,
       "step": 84
     },
     {
+      "epoch": 1.34,
       "learning_rate": 2e-05,
+      "loss": 1.748,
       "step": 86
     },
     {
+      "epoch": 1.37,
       "learning_rate": 2e-05,
+      "loss": 1.7301,
       "step": 88
     },
     {
+      "epoch": 1.4,
       "learning_rate": 2e-05,
+      "loss": 1.8411,
       "step": 90
     },
     {
+      "epoch": 1.43,
       "learning_rate": 2e-05,
+      "loss": 1.727,
       "step": 92
     },
     {
+      "epoch": 1.46,
       "learning_rate": 2e-05,
+      "loss": 1.6517,
       "step": 94
     },
     {
+      "epoch": 1.49,
       "learning_rate": 2e-05,
+      "loss": 1.7344,
       "step": 96
     },
     {
+      "epoch": 1.52,
       "learning_rate": 2e-05,
+      "loss": 1.6675,
       "step": 98
     },
     {
+      "epoch": 1.55,
       "learning_rate": 2e-05,
+      "loss": 1.5733,
       "step": 100
     },
     {
+      "epoch": 1.58,
       "learning_rate": 2e-05,
+      "loss": 1.6876,
       "step": 102
     },
     {
+      "epoch": 1.62,
       "learning_rate": 2e-05,
+      "loss": 1.8108,
       "step": 104
     },
     {
+      "epoch": 1.65,
       "learning_rate": 2e-05,
+      "loss": 1.8238,
       "step": 106
     },
     {
+      "epoch": 1.68,
       "learning_rate": 2e-05,
+      "loss": 1.8955,
       "step": 108
     },
     {
+      "epoch": 1.71,
       "learning_rate": 2e-05,
+      "loss": 1.8181,
       "step": 110
     },
     {
+      "epoch": 1.74,
       "learning_rate": 2e-05,
+      "loss": 1.5365,
       "step": 112
     },
     {
+      "epoch": 1.77,
       "learning_rate": 2e-05,
+      "loss": 1.5774,
       "step": 114
     },
     {
+      "epoch": 1.8,
       "learning_rate": 2e-05,
+      "loss": 1.7295,
       "step": 116
     },
     {
+      "epoch": 1.83,
       "learning_rate": 2e-05,
+      "loss": 1.8591,
       "step": 118
     },
     {
+      "epoch": 1.86,
       "learning_rate": 2e-05,
+      "loss": 1.7567,
       "step": 120
     },
     {
+      "epoch": 1.9,
       "learning_rate": 2e-05,
+      "loss": 1.7665,
       "step": 122
     },
     {
+      "epoch": 1.93,
       "learning_rate": 2e-05,
+      "loss": 1.6351,
       "step": 124
     },
     {
+      "epoch": 1.96,
       "learning_rate": 2e-05,
+      "loss": 1.8095,
       "step": 126
     },
     {
+      "epoch": 1.99,
       "learning_rate": 2e-05,
+      "loss": 1.6281,
       "step": 128
     },
     {
+      "epoch": 2.02,
       "learning_rate": 2e-05,
+      "loss": 1.4436,
       "step": 130
     },
     {
+      "epoch": 2.05,
       "learning_rate": 2e-05,
+      "loss": 1.7314,
       "step": 132
     },
     {
+      "epoch": 2.08,
       "learning_rate": 2e-05,
+      "loss": 1.7825,
       "step": 134
     },
     {
+      "epoch": 2.11,
       "learning_rate": 2e-05,
+      "loss": 1.772,
       "step": 136
     },
     {
+      "epoch": 2.14,
       "learning_rate": 2e-05,
+      "loss": 1.8624,
       "step": 138
     },
     {
+      "epoch": 2.17,
       "learning_rate": 2e-05,
+      "loss": 1.7946,
       "step": 140
     },
     {
+      "epoch": 2.21,
       "learning_rate": 2e-05,
+      "loss": 1.8185,
       "step": 142
     },
     {
+      "epoch": 2.24,
       "learning_rate": 2e-05,
+      "loss": 1.7431,
       "step": 144
     },
     {
+      "epoch": 2.27,
       "learning_rate": 2e-05,
+      "loss": 1.4705,
       "step": 146
     },
     {
+      "epoch": 2.3,
       "learning_rate": 2e-05,
+      "loss": 1.6185,
       "step": 148
     },
     {
+      "epoch": 2.33,
       "learning_rate": 2e-05,
+      "loss": 1.7702,
       "step": 150
     }
   ],
   "logging_steps": 2,
+  "max_steps": 192,
   "num_train_epochs": 3,
   "save_steps": 50,
+  "total_flos": 2.9550230530523136e+16,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bf78a82702254c8f8180b7e117ddfd70d0006ee1a647152342b51a05191850a4
 size 4027

 version https://git-lfs.github.com/spec/v1
+oid sha256:4c5fabfcc8889b239c84cd7fbad44922525ed681433664d85c0b91f417978bc2
 size 4027