Upload folder using huggingface_hub

Browse files

Files changed (13) hide show

README.md +3 -15
adapter_config.json +7 -10
adapter_model.bin +2 -2
adapter_model/adapter_config.json +5 -8
adapter_model/adapter_model.bin +2 -2
optimizer.pt +2 -2
rng_state.pth +2 -2
scheduler.pt +1 -1
special_tokens_map.json +4 -22
tokenizer.json +0 -0
tokenizer_config.json +7 -28
trainer_state.json +44 -524
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -12,21 +12,9 @@ The following `bitsandbytes` quantization config was used during training:
 - llm_int8_enable_fp32_cpu_offload: False
 - llm_int8_has_fp16_weight: False
 - bnb_4bit_quant_type: nf4
-- bnb_4bit_use_double_quant: False
-- bnb_4bit_compute_dtype: float16
-The following `bitsandbytes` quantization config was used during training:
-- load_in_8bit: False
-- load_in_4bit: True
-- llm_int8_threshold: 6.0
-- llm_int8_skip_modules: None
-- llm_int8_enable_fp32_cpu_offload: False
-- llm_int8_has_fp16_weight: False
-- bnb_4bit_quant_type: nf4
-- bnb_4bit_use_double_quant: False
-- bnb_4bit_compute_dtype: float16
 ### Framework versions
-- PEFT 0.5.0.dev0
-- PEFT 0.5.0.dev0

 - llm_int8_enable_fp32_cpu_offload: False
 - llm_int8_has_fp16_weight: False
 - bnb_4bit_quant_type: nf4
+- bnb_4bit_use_double_quant: True
+- bnb_4bit_compute_dtype: float32
 ### Framework versions
+- PEFT 0.4.0

adapter_config.json CHANGED Viewed

@@ -1,26 +1,23 @@
 {
   "auto_mapping": null,
-  "base_model_name_or_path": "TinyPixel/Llama-2-7B-bf16-sharded",
   "bias": "none",
   "fan_in_fan_out": false,
   "inference_mode": true,
   "init_lora_weights": true,
   "layers_pattern": null,
   "layers_to_transform": null,
-  "lora_alpha": 16,
-  "lora_dropout": 0.1,
   "modules_to_save": null,
   "peft_type": "LORA",
   "r": 64,
   "revision": null,
   "target_modules": [
-    "q_proj",
-    "up_proj",
-    "o_proj",
-    "k_proj",
-    "down_proj",
-    "gate_proj",
-    "v_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

 {
   "auto_mapping": null,
+  "base_model_name_or_path": "EleutherAI/pythia-1.4b-deduped",
   "bias": "none",
   "fan_in_fan_out": false,
   "inference_mode": true,
   "init_lora_weights": true,
   "layers_pattern": null,
   "layers_to_transform": null,
+  "lora_alpha": 16.0,
+  "lora_dropout": 0.05,
   "modules_to_save": null,
   "peft_type": "LORA",
   "r": 64,
   "revision": null,
   "target_modules": [
+    "query_key_value",
+    "dense",
+    "dense_4h_to_h",
+    "dense_h_to_4h"
   ],
   "task_type": "CAUSAL_LM"
 }

adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:69e59b1e6ca86aabe4a134fb6cda6e31c43c152c84e9396f92ab05dcdce8d222
-size 639792909

 version https://git-lfs.github.com/spec/v1
+oid sha256:c131d7ef0152ba05901fcc4d00eb8d3989c4ab25884d85967b687a68fe837221
+size 201396877

adapter_model/adapter_config.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "auto_mapping": null,
-  "base_model_name_or_path": "TinyPixel/Llama-2-7B-bf16-sharded",
   "bias": "none",
   "fan_in_fan_out": false,
   "inference_mode": true,
@@ -14,13 +14,10 @@
   "r": 64,
   "revision": null,
   "target_modules": [
-    "q_proj",
-    "up_proj",
-    "o_proj",
-    "k_proj",
-    "down_proj",
-    "gate_proj",
-    "v_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

 {
   "auto_mapping": null,
+  "base_model_name_or_path": "EleutherAI/pythia-1.4b-deduped",
   "bias": "none",
   "fan_in_fan_out": false,
   "inference_mode": true,
   "r": 64,
   "revision": null,
   "target_modules": [
+    "query_key_value",
+    "dense",
+    "dense_4h_to_h",
+    "dense_h_to_4h"
   ],
   "task_type": "CAUSAL_LM"
 }

adapter_model/adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4590eccec48a795c79c444a5e95a4897a5e1fd17be423ccb30c2452c03c56f0f
-size 639792909

 version https://git-lfs.github.com/spec/v1
+oid sha256:c131d7ef0152ba05901fcc4d00eb8d3989c4ab25884d85967b687a68fe837221
+size 201396877

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:63c22dea1561a4ddccff7a19420a0c4db147310ac0f72710d4ef54be986579f1
-size 1279539525

 version https://git-lfs.github.com/spec/v1
+oid sha256:0451a20c28f34735ef7dfa777a68b2a3a923bed7fac096edb2ac3b648829c015
+size 2050282373

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:21da822cb611592092c4a65da42e66edb941b19dd533aad1e0a40e0228ea3a5e
-size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:d266ddecfade7ae12d89d853bf0985517cf37a6a52c274d08548cfff0d913c51
+size 14511

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1c2c0790105388e71413fa1315b498e3e67fda20e8db9c016f7c880ef11ee42e
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:f4880f3f40e7ab04d8efce4fc909327351c41d3ccafff780222b4189f527a9a0
 size 627

special_tokens_map.json CHANGED Viewed

@@ -1,24 +1,6 @@
 {
-  "bos_token": {
-    "content": "<s>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "eos_token": {
-    "content": "</s>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "pad_token": "</s>",
-  "unk_token": {
-    "content": "<unk>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  }
 }

 {
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|endoftext|>",
+  "pad_token": "[PAD]",
+  "unk_token": "<|endoftext|>"
 }

tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json CHANGED Viewed

@@ -1,31 +1,10 @@
 {
-  "bos_token": {
-    "__type": "AddedToken",
-    "content": "<s>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "clean_up_tokenization_spaces": false,
-  "eos_token": {
-    "__type": "AddedToken",
-    "content": "</s>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
   "model_max_length": 1000000000000000019884624838656,
-  "pad_token": null,
-  "sp_model_kwargs": {},
-  "tokenizer_class": "LlamaTokenizer",
-  "unk_token": {
-    "__type": "AddedToken",
-    "content": "<unk>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  }
 }

 {
+  "add_prefix_space": false,
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
   "model_max_length": 1000000000000000019884624838656,
+  "padding_side": "right",
+  "tokenizer_class": "GPTNeoXTokenizer",
+  "unk_token": "<|endoftext|>"
 }

trainer_state.json CHANGED Viewed

@@ -1,616 +1,136 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.024906018695080284,
   "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.0,
-      "learning_rate": 2e-05,
-      "loss": 0.9985,
-      "step": 2
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 2e-05,
-      "loss": 0.886,
-      "step": 4
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 2e-05,
-      "loss": 1.1051,
-      "step": 6
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 2e-05,
-      "loss": 1.1122,
-      "step": 8
-    },
-    {
-      "epoch": 0.0,
       "learning_rate": 2e-05,
-      "loss": 1.1735,
       "step": 10
     },
     {
-      "epoch": 0.0,
-      "learning_rate": 2e-05,
-      "loss": 1.1521,
-      "step": 12
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 2e-05,
-      "loss": 1.1679,
-      "step": 14
-    },
-    {
-      "epoch": 0.0,
       "learning_rate": 2e-05,
-      "loss": 1.1777,
-      "step": 16
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 2e-05,
-      "loss": 1.1099,
-      "step": 18
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 2e-05,
-      "loss": 1.1247,
       "step": 20
     },
     {
-      "epoch": 0.0,
-      "learning_rate": 2e-05,
-      "loss": 1.2112,
-      "step": 22
-    },
-    {
-      "epoch": 0.0,
       "learning_rate": 2e-05,
-      "loss": 1.1689,
-      "step": 24
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 2e-05,
-      "loss": 1.1411,
-      "step": 26
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 2e-05,
-      "loss": 1.3501,
-      "step": 28
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 2e-05,
-      "loss": 1.1767,
       "step": 30
     },
     {
-      "epoch": 0.0,
-      "learning_rate": 2e-05,
-      "loss": 1.2272,
-      "step": 32
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 2e-05,
-      "loss": 1.2486,
-      "step": 34
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 2e-05,
-      "loss": 1.2727,
-      "step": 36
-    },
-    {
-      "epoch": 0.0,
       "learning_rate": 2e-05,
-      "loss": 1.2661,
-      "step": 38
-    },
-    {
-      "epoch": 0.0,
-      "learning_rate": 2e-05,
-      "loss": 1.333,
       "step": 40
     },
     {
-      "epoch": 0.01,
       "learning_rate": 2e-05,
-      "loss": 1.3674,
-      "step": 42
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 2e-05,
-      "loss": 1.3425,
-      "step": 44
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 2e-05,
-      "loss": 1.3959,
-      "step": 46
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 2e-05,
-      "loss": 1.3078,
-      "step": 48
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 2e-05,
-      "loss": 2.4367,
       "step": 50
     },
     {
-      "epoch": 0.01,
       "learning_rate": 2e-05,
-      "loss": 0.9375,
-      "step": 52
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 2e-05,
-      "loss": 0.7958,
-      "step": 54
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 2e-05,
-      "loss": 0.9266,
-      "step": 56
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 2e-05,
-      "loss": 0.9467,
-      "step": 58
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 2e-05,
-      "loss": 0.9492,
       "step": 60
     },
     {
-      "epoch": 0.01,
-      "learning_rate": 2e-05,
-      "loss": 1.0022,
-      "step": 62
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 2e-05,
-      "loss": 1.0071,
-      "step": 64
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 2e-05,
-      "loss": 0.8606,
-      "step": 66
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 2e-05,
-      "loss": 0.9849,
-      "step": 68
-    },
-    {
-      "epoch": 0.01,
       "learning_rate": 2e-05,
-      "loss": 1.0246,
       "step": 70
     },
     {
-      "epoch": 0.01,
       "learning_rate": 2e-05,
-      "loss": 0.9328,
-      "step": 72
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 2e-05,
-      "loss": 0.9118,
-      "step": 74
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 2e-05,
-      "loss": 1.0096,
-      "step": 76
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 2e-05,
-      "loss": 0.9651,
-      "step": 78
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 2e-05,
-      "loss": 1.0071,
       "step": 80
     },
     {
-      "epoch": 0.01,
-      "learning_rate": 2e-05,
-      "loss": 0.9272,
-      "step": 82
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 2e-05,
-      "loss": 0.9486,
-      "step": 84
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 2e-05,
-      "loss": 1.0818,
-      "step": 86
-    },
-    {
-      "epoch": 0.01,
       "learning_rate": 2e-05,
-      "loss": 0.9924,
-      "step": 88
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 2e-05,
-      "loss": 1.0475,
       "step": 90
     },
     {
-      "epoch": 0.01,
-      "learning_rate": 2e-05,
-      "loss": 1.1217,
-      "step": 92
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 2e-05,
-      "loss": 1.0328,
-      "step": 94
-    },
-    {
-      "epoch": 0.01,
       "learning_rate": 2e-05,
-      "loss": 1.0489,
-      "step": 96
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 2e-05,
-      "loss": 0.9313,
-      "step": 98
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 2e-05,
-      "loss": 1.9119,
       "step": 100
     },
     {
-      "epoch": 0.01,
-      "learning_rate": 2e-05,
-      "loss": 0.7919,
-      "step": 102
-    },
-    {
-      "epoch": 0.01,
       "learning_rate": 2e-05,
-      "loss": 0.7663,
-      "step": 104
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 2e-05,
-      "loss": 0.8743,
-      "step": 106
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 2e-05,
-      "loss": 0.8572,
-      "step": 108
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 2e-05,
-      "loss": 0.8919,
       "step": 110
     },
     {
-      "epoch": 0.01,
       "learning_rate": 2e-05,
-      "loss": 0.8456,
-      "step": 112
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 2e-05,
-      "loss": 0.8218,
-      "step": 114
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 2e-05,
-      "loss": 0.8647,
-      "step": 116
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 2e-05,
-      "loss": 0.8727,
-      "step": 118
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 2e-05,
-      "loss": 0.8096,
       "step": 120
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 2e-05,
-      "loss": 0.9242,
-      "step": 122
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 2e-05,
-      "loss": 0.7764,
-      "step": 124
-    },
-    {
-      "epoch": 0.02,
       "learning_rate": 2e-05,
-      "loss": 0.8185,
-      "step": 126
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 2e-05,
-      "loss": 0.7131,
-      "step": 128
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 2e-05,
-      "loss": 0.8053,
       "step": 130
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 2e-05,
-      "loss": 0.8017,
-      "step": 132
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 2e-05,
-      "loss": 0.8523,
-      "step": 134
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 2e-05,
-      "loss": 0.8351,
-      "step": 136
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 2e-05,
-      "loss": 0.7854,
-      "step": 138
-    },
-    {
-      "epoch": 0.02,
       "learning_rate": 2e-05,
-      "loss": 0.8708,
       "step": 140
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 2e-05,
-      "loss": 0.8467,
-      "step": 142
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 2e-05,
-      "loss": 0.8095,
-      "step": 144
-    },
-    {
-      "epoch": 0.02,
       "learning_rate": 2e-05,
-      "loss": 0.6581,
-      "step": 146
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 2e-05,
-      "loss": 0.9329,
-      "step": 148
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 2e-05,
-      "loss": 1.4044,
       "step": 150
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 2e-05,
-      "loss": 0.6767,
-      "step": 152
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 2e-05,
-      "loss": 0.761,
-      "step": 154
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 2e-05,
-      "loss": 0.792,
-      "step": 156
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 2e-05,
-      "loss": 0.786,
-      "step": 158
-    },
-    {
-      "epoch": 0.02,
       "learning_rate": 2e-05,
-      "loss": 0.8145,
       "step": 160
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 2e-05,
-      "loss": 0.8232,
-      "step": 162
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 2e-05,
-      "loss": 0.755,
-      "step": 164
-    },
-    {
-      "epoch": 0.02,
       "learning_rate": 2e-05,
-      "loss": 0.8011,
-      "step": 166
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 2e-05,
-      "loss": 0.8464,
-      "step": 168
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 2e-05,
-      "loss": 0.8536,
       "step": 170
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 2e-05,
-      "loss": 0.7742,
-      "step": 172
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 2e-05,
-      "loss": 0.804,
-      "step": 174
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 2e-05,
-      "loss": 0.8144,
-      "step": 176
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 2e-05,
-      "loss": 0.729,
-      "step": 178
-    },
-    {
-      "epoch": 0.02,
       "learning_rate": 2e-05,
-      "loss": 0.7371,
       "step": 180
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 2e-05,
-      "loss": 0.7174,
-      "step": 182
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 2e-05,
-      "loss": 0.7451,
-      "step": 184
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 2e-05,
-      "loss": 0.8926,
-      "step": 186
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 2e-05,
-      "loss": 0.8575,
-      "step": 188
-    },
-    {
-      "epoch": 0.02,
       "learning_rate": 2e-05,
-      "loss": 0.9674,
       "step": 190
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 2e-05,
-      "loss": 0.7664,
-      "step": 192
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 2e-05,
-      "loss": 0.8667,
-      "step": 194
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 2e-05,
-      "loss": 0.8064,
-      "step": 196
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 2e-05,
-      "loss": 0.8116,
-      "step": 198
-    },
-    {
-      "epoch": 0.02,
       "learning_rate": 2e-05,
-      "loss": 1.1953,
       "step": 200
     }
   ],
-  "max_steps": 1000,
-  "num_train_epochs": 1,
-  "total_flos": 2.748430712070144e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.36272953978689637,
   "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.02,
       "learning_rate": 2e-05,
+      "loss": 1.9524,
       "step": 10
     },
     {
+      "epoch": 0.04,
       "learning_rate": 2e-05,
+      "loss": 1.9249,
       "step": 20
     },
     {
+      "epoch": 0.05,
       "learning_rate": 2e-05,
+      "loss": 1.9685,
       "step": 30
     },
     {
+      "epoch": 0.07,
       "learning_rate": 2e-05,
+      "loss": 2.1624,
       "step": 40
     },
     {
+      "epoch": 0.09,
       "learning_rate": 2e-05,
+      "loss": 2.3455,
       "step": 50
     },
     {
+      "epoch": 0.11,
       "learning_rate": 2e-05,
+      "loss": 1.7288,
       "step": 60
     },
     {
+      "epoch": 0.13,
       "learning_rate": 2e-05,
+      "loss": 1.712,
       "step": 70
     },
     {
+      "epoch": 0.15,
       "learning_rate": 2e-05,
+      "loss": 1.8443,
       "step": 80
     },
     {
+      "epoch": 0.16,
       "learning_rate": 2e-05,
+      "loss": 1.9731,
       "step": 90
     },
     {
+      "epoch": 0.18,
       "learning_rate": 2e-05,
+      "loss": 2.1967,
       "step": 100
     },
     {
+      "epoch": 0.2,
       "learning_rate": 2e-05,
+      "loss": 1.6612,
       "step": 110
     },
     {
+      "epoch": 0.22,
       "learning_rate": 2e-05,
+      "loss": 1.6775,
       "step": 120
     },
     {
+      "epoch": 0.24,
       "learning_rate": 2e-05,
+      "loss": 1.7389,
       "step": 130
     },
     {
+      "epoch": 0.25,
       "learning_rate": 2e-05,
+      "loss": 1.9169,
       "step": 140
     },
     {
+      "epoch": 0.27,
       "learning_rate": 2e-05,
+      "loss": 2.2075,
       "step": 150
     },
     {
+      "epoch": 0.29,
       "learning_rate": 2e-05,
+      "loss": 1.6245,
       "step": 160
     },
     {
+      "epoch": 0.31,
       "learning_rate": 2e-05,
+      "loss": 1.6433,
       "step": 170
     },
     {
+      "epoch": 0.33,
       "learning_rate": 2e-05,
+      "loss": 1.7877,
       "step": 180
     },
     {
+      "epoch": 0.34,
       "learning_rate": 2e-05,
+      "loss": 1.9041,
       "step": 190
     },
     {
+      "epoch": 0.36,
       "learning_rate": 2e-05,
+      "loss": 2.1649,
       "step": 200
     }
   ],
+  "max_steps": 1875,
+  "num_train_epochs": 4,
+  "total_flos": 4967090265784320.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a46f9ccb8a40684c8a4cca7430124490c6b150e680d2a31cb618fee1006ba524
-size 3963

 version https://git-lfs.github.com/spec/v1
+oid sha256:643cd8215538899410f2288daee01465ee05e777a4971bf0fec462ea7d279181
+size 5691