Phương commited on Jul 26, 2023

Commit

fa86854

1 Parent(s): 6bd95a9

Upload folder using huggingface_hub

Files changed (36) hide show

README.md +44 -0
adapter_config.json +26 -0
adapter_model.bin +3 -0
checkpoint-100/README.md +20 -0
checkpoint-100/adapter_config.json +26 -0
checkpoint-100/adapter_model.bin +3 -0
checkpoint-100/adapter_model/README.md +20 -0
checkpoint-100/adapter_model/adapter_config.json +26 -0
checkpoint-100/adapter_model/adapter_model.bin +3 -0
checkpoint-100/optimizer.pt +3 -0
checkpoint-100/rng_state.pth +3 -0
checkpoint-100/scheduler.pt +3 -0
checkpoint-100/trainer_state.json +776 -0
checkpoint-100/training_args.bin +3 -0
checkpoint-120/README.md +20 -0
checkpoint-120/adapter_config.json +26 -0
checkpoint-120/adapter_model.bin +3 -0
checkpoint-120/adapter_model/README.md +20 -0
checkpoint-120/adapter_model/adapter_config.json +26 -0
checkpoint-120/adapter_model/adapter_model.bin +3 -0
checkpoint-120/optimizer.pt +3 -0
checkpoint-120/rng_state.pth +3 -0
checkpoint-120/scheduler.pt +3 -0
checkpoint-120/trainer_state.json +928 -0
checkpoint-120/training_args.bin +3 -0
checkpoint-140/README.md +20 -0
checkpoint-140/adapter_config.json +26 -0
checkpoint-140/adapter_model.bin +3 -0
checkpoint-140/adapter_model/README.md +20 -0
checkpoint-140/adapter_model/adapter_config.json +26 -0
checkpoint-140/adapter_model/adapter_model.bin +3 -0
checkpoint-140/optimizer.pt +3 -0
checkpoint-140/rng_state.pth +3 -0
checkpoint-140/scheduler.pt +3 -0
checkpoint-140/trainer_state.json +1080 -0
checkpoint-140/training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,44 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- load_in_8bit: True
+- load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+The following `bitsandbytes` quantization config was used during training:
+- load_in_8bit: True
+- load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+The following `bitsandbytes` quantization config was used during training:
+- load_in_8bit: True
+- load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+### Framework versions
+- PEFT 0.4.0
+- PEFT 0.4.0
+- PEFT 0.4.0

adapter_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "fan_in_fan_out": null,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 8,
+  "lora_dropout": 0.0,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 4,
+  "revision": null,
+  "target_modules": [
+    "gate_proj",
+    "down_proj",
+    "up_proj",
+    "q_proj",
+    "v_proj",
+    "k_proj",
+    "o_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:16aded0165ccdf34618552c9774428822fab7840e9b07e0108bd61eb8e7c0510
+size 40137613

checkpoint-100/README.md ADDED Viewed

	@@ -0,0 +1,20 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- load_in_8bit: True
+- load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+### Framework versions
+- PEFT 0.4.0

checkpoint-100/adapter_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "fan_in_fan_out": null,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 8,
+  "lora_dropout": 0.0,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 4,
+  "revision": null,
+  "target_modules": [
+    "gate_proj",
+    "down_proj",
+    "up_proj",
+    "q_proj",
+    "v_proj",
+    "k_proj",
+    "o_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

checkpoint-100/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:be06210c83a582aa636921654ed1b7db1366f254673140e110ee471c1e119727
+size 40137613

checkpoint-100/adapter_model/README.md ADDED Viewed

	@@ -0,0 +1,20 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- load_in_8bit: True
+- load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+### Framework versions
+- PEFT 0.4.0

checkpoint-100/adapter_model/adapter_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "fan_in_fan_out": null,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 8,
+  "lora_dropout": 0.0,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 4,
+  "revision": null,
+  "target_modules": [
+    "gate_proj",
+    "down_proj",
+    "up_proj",
+    "q_proj",
+    "v_proj",
+    "k_proj",
+    "o_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

checkpoint-100/adapter_model/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:be06210c83a582aa636921654ed1b7db1366f254673140e110ee471c1e119727
+size 40137613

checkpoint-100/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5e04e6f433ccc01787e935d43bcd1fddd2e75d58dc1a2d75d5041ba25a502d3c
+size 10264773

checkpoint-100/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6fbc44877a85dc9e31508ab5cdcb4b09e15e4ccd881628820393d3ed5e0b4726
+size 14575

checkpoint-100/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4773e854daa1644290049115865b392563071f7ab7ace9dc2513bd5d4e5afa65
+size 627

checkpoint-100/trainer_state.json ADDED Viewed

	@@ -0,0 +1,776 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.0,
+  "global_step": 100,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 1.8562,
+      "step": 1
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 4e-05,
+      "loss": 1.8114,
+      "step": 2
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 6e-05,
+      "loss": 1.816,
+      "step": 3
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 8e-05,
+      "loss": 1.7654,
+      "step": 4
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0001,
+      "loss": 1.7975,
+      "step": 5
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 1.751416563987732,
+      "eval_runtime": 6.1216,
+      "eval_samples_per_second": 0.327,
+      "eval_steps_per_second": 0.163,
+      "step": 5
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00012,
+      "loss": 1.88,
+      "step": 6
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00014,
+      "loss": 1.7946,
+      "step": 7
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00016,
+      "loss": 1.9499,
+      "step": 8
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.00018,
+      "loss": 1.988,
+      "step": 9
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0002,
+      "loss": 1.6376,
+      "step": 10
+    },
+    {
+      "epoch": 0.2,
+      "eval_loss": 1.722676396369934,
+      "eval_runtime": 6.1182,
+      "eval_samples_per_second": 0.327,
+      "eval_steps_per_second": 0.163,
+      "step": 10
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00019997482349425066,
+      "loss": 1.2851,
+      "step": 11
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00019989930665413147,
+      "loss": 1.3604,
+      "step": 12
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0001997734875046456,
+      "loss": 1.7414,
+      "step": 13
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00019959742939952392,
+      "loss": 1.7797,
+      "step": 14
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00019937122098932428,
+      "loss": 1.7487,
+      "step": 15
+    },
+    {
+      "epoch": 0.3,
+      "eval_loss": 1.7023706436157227,
+      "eval_runtime": 6.1068,
+      "eval_samples_per_second": 0.328,
+      "eval_steps_per_second": 0.164,
+      "step": 15
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00019909497617679348,
+      "loss": 1.8197,
+      "step": 16
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00019876883405951377,
+      "loss": 1.7928,
+      "step": 17
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00019839295885986296,
+      "loss": 1.7864,
+      "step": 18
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00019796753984232358,
+      "loss": 1.8278,
+      "step": 19
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00019749279121818235,
+      "loss": 1.7084,
+      "step": 20
+    },
+    {
+      "epoch": 0.4,
+      "eval_loss": 1.6931452751159668,
+      "eval_runtime": 6.1126,
+      "eval_samples_per_second": 0.327,
+      "eval_steps_per_second": 0.164,
+      "step": 20
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0001969689520376687,
+      "loss": 1.8612,
+      "step": 21
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00019639628606958533,
+      "loss": 1.8796,
+      "step": 22
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00019577508166849304,
+      "loss": 1.4313,
+      "step": 23
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00019510565162951537,
+      "loss": 1.3394,
+      "step": 24
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.00019438833303083678,
+      "loss": 1.8286,
+      "step": 25
+    },
+    {
+      "epoch": 0.5,
+      "eval_loss": 1.6889530420303345,
+      "eval_runtime": 6.1117,
+      "eval_samples_per_second": 0.327,
+      "eval_steps_per_second": 0.164,
+      "step": 25
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00019362348706397373,
+      "loss": 1.6983,
+      "step": 26
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.0001928114988519039,
+      "loss": 1.8419,
+      "step": 27
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.0001919527772551451,
+      "loss": 1.7634,
+      "step": 28
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00019104775466588161,
+      "loss": 1.6784,
+      "step": 29
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.0001900968867902419,
+      "loss": 1.8443,
+      "step": 30
+    },
+    {
+      "epoch": 0.6,
+      "eval_loss": 1.6835517883300781,
+      "eval_runtime": 6.113,
+      "eval_samples_per_second": 0.327,
+      "eval_steps_per_second": 0.164,
+      "step": 30
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.0001891006524188368,
+      "loss": 1.7155,
+      "step": 31
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.0001880595531856738,
+      "loss": 1.8511,
+      "step": 32
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00018697411331556956,
+      "loss": 1.9756,
+      "step": 33
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00018584487936018661,
+      "loss": 1.7614,
+      "step": 34
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.00018467241992282843,
+      "loss": 1.3127,
+      "step": 35
+    },
+    {
+      "epoch": 0.7,
+      "eval_loss": 1.6799031496047974,
+      "eval_runtime": 6.1132,
+      "eval_samples_per_second": 0.327,
+      "eval_steps_per_second": 0.164,
+      "step": 35
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00018345732537213027,
+      "loss": 0.8749,
+      "step": 36
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00018220020754479102,
+      "loss": 1.7892,
+      "step": 37
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.00018090169943749476,
+      "loss": 1.8039,
+      "step": 38
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00017956245488817812,
+      "loss": 1.673,
+      "step": 39
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.000178183148246803,
+      "loss": 1.786,
+      "step": 40
+    },
+    {
+      "epoch": 0.8,
+      "eval_loss": 1.6771162748336792,
+      "eval_runtime": 6.1006,
+      "eval_samples_per_second": 0.328,
+      "eval_steps_per_second": 0.164,
+      "step": 40
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.0001767644740358011,
+      "loss": 1.7318,
+      "step": 41
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.00017530714660036112,
+      "loss": 1.8771,
+      "step": 42
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.00017381189974873407,
+      "loss": 1.8525,
+      "step": 43
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.00017227948638273916,
+      "loss": 1.8761,
+      "step": 44
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.00017071067811865476,
+      "loss": 1.8343,
+      "step": 45
+    },
+    {
+      "epoch": 0.9,
+      "eval_loss": 1.6742032766342163,
+      "eval_runtime": 6.1111,
+      "eval_samples_per_second": 0.327,
+      "eval_steps_per_second": 0.164,
+      "step": 45
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.00016910626489868649,
+      "loss": 1.6979,
+      "step": 46
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.00016746705459320745,
+      "loss": 1.2549,
+      "step": 47
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.00016579387259397127,
+      "loss": 1.0941,
+      "step": 48
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.0001640875613985024,
+      "loss": 1.7805,
+      "step": 49
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.00016234898018587337,
+      "loss": 1.5179,
+      "step": 50
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 1.672481656074524,
+      "eval_runtime": 6.1089,
+      "eval_samples_per_second": 0.327,
+      "eval_steps_per_second": 0.164,
+      "step": 50
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.000160579004384082,
+      "loss": 1.7744,
+      "step": 51
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.00015877852522924732,
+      "loss": 1.7504,
+      "step": 52
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 0.0001569484493168452,
+      "loss": 1.7334,
+      "step": 53
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 0.00015508969814521025,
+      "loss": 1.7141,
+      "step": 54
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 0.00015320320765153367,
+      "loss": 1.8183,
+      "step": 55
+    },
+    {
+      "epoch": 1.1,
+      "eval_loss": 1.6722060441970825,
+      "eval_runtime": 6.1182,
+      "eval_samples_per_second": 0.327,
+      "eval_steps_per_second": 0.163,
+      "step": 55
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.00015128992774059063,
+      "loss": 1.8504,
+      "step": 56
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 0.0001493508218064347,
+      "loss": 1.7066,
+      "step": 57
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 0.00014738686624729986,
+      "loss": 1.7424,
+      "step": 58
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 0.00014539904997395468,
+      "loss": 1.8836,
+      "step": 59
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 0.00014338837391175582,
+      "loss": 1.5515,
+      "step": 60
+    },
+    {
+      "epoch": 1.2,
+      "eval_loss": 1.667909860610962,
+      "eval_runtime": 6.1058,
+      "eval_samples_per_second": 0.328,
+      "eval_steps_per_second": 0.164,
+      "step": 60
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.00014135585049665207,
+      "loss": 1.069,
+      "step": 61
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.00013930250316539238,
+      "loss": 1.2383,
+      "step": 62
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.00013722936584019453,
+      "loss": 1.7975,
+      "step": 63
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 0.0001351374824081343,
+      "loss": 1.7685,
+      "step": 64
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.00013302790619551674,
+      "loss": 1.831,
+      "step": 65
+    },
+    {
+      "epoch": 1.3,
+      "eval_loss": 1.6692527532577515,
+      "eval_runtime": 6.1077,
+      "eval_samples_per_second": 0.327,
+      "eval_steps_per_second": 0.164,
+      "step": 65
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.00013090169943749476,
+      "loss": 1.6875,
+      "step": 66
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.00012875993274320173,
+      "loss": 1.7344,
+      "step": 67
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.00012660368455666752,
+      "loss": 1.6883,
+      "step": 68
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.0001244340406137894,
+      "loss": 1.7168,
+      "step": 69
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 0.00012225209339563145,
+      "loss": 1.7975,
+      "step": 70
+    },
+    {
+      "epoch": 1.4,
+      "eval_loss": 1.6680976152420044,
+      "eval_runtime": 6.1243,
+      "eval_samples_per_second": 0.327,
+      "eval_steps_per_second": 0.163,
+      "step": 70
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 0.00012005894157832729,
+      "loss": 1.869,
+      "step": 71
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 0.00011785568947986367,
+      "loss": 1.6853,
+      "step": 72
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 0.0001156434465040231,
+      "loss": 1.2465,
+      "step": 73
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 0.00011342332658176555,
+      "loss": 0.8489,
+      "step": 74
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 0.00011119644761033078,
+      "loss": 1.7818,
+      "step": 75
+    },
+    {
+      "epoch": 1.5,
+      "eval_loss": 1.669010043144226,
+      "eval_runtime": 6.1095,
+      "eval_samples_per_second": 0.327,
+      "eval_steps_per_second": 0.164,
+      "step": 75
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 0.00010896393089034336,
+      "loss": 1.7696,
+      "step": 76
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 0.00010672690056120399,
+      "loss": 1.7764,
+      "step": 77
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 0.00010448648303505151,
+      "loss": 1.7498,
+      "step": 78
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 0.00010224380642958052,
+      "loss": 1.8195,
+      "step": 79
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 0.0001,
+      "loss": 1.7768,
+      "step": 80
+    },
+    {
+      "epoch": 1.6,
+      "eval_loss": 1.667705774307251,
+      "eval_runtime": 6.1125,
+      "eval_samples_per_second": 0.327,
+      "eval_steps_per_second": 0.164,
+      "step": 80
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 9.775619357041952e-05,
+      "loss": 1.9044,
+      "step": 81
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 9.551351696494854e-05,
+      "loss": 1.8899,
+      "step": 82
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 9.327309943879604e-05,
+      "loss": 1.9218,
+      "step": 83
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 9.103606910965666e-05,
+      "loss": 1.7831,
+      "step": 84
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 8.880355238966923e-05,
+      "loss": 1.3084,
+      "step": 85
+    },
+    {
+      "epoch": 1.7,
+      "eval_loss": 1.667492389678955,
+      "eval_runtime": 6.107,
+      "eval_samples_per_second": 0.327,
+      "eval_steps_per_second": 0.164,
+      "step": 85
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 8.657667341823448e-05,
+      "loss": 0.9686,
+      "step": 86
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 8.435655349597689e-05,
+      "loss": 1.788,
+      "step": 87
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 8.214431052013634e-05,
+      "loss": 1.6448,
+      "step": 88
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 7.994105842167273e-05,
+      "loss": 1.6639,
+      "step": 89
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 7.774790660436858e-05,
+      "loss": 1.7402,
+      "step": 90
+    },
+    {
+      "epoch": 1.8,
+      "eval_loss": 1.6677496433258057,
+      "eval_runtime": 6.0974,
+      "eval_samples_per_second": 0.328,
+      "eval_steps_per_second": 0.164,
+      "step": 90
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 7.556595938621058e-05,
+      "loss": 1.7281,
+      "step": 91
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 7.339631544333249e-05,
+      "loss": 1.7017,
+      "step": 92
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 7.124006725679828e-05,
+      "loss": 1.758,
+      "step": 93
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 6.909830056250527e-05,
+      "loss": 1.7958,
+      "step": 94
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 6.697209380448333e-05,
+      "loss": 1.8462,
+      "step": 95
+    },
+    {
+      "epoch": 1.9,
+      "eval_loss": 1.6652313470840454,
+      "eval_runtime": 6.1048,
+      "eval_samples_per_second": 0.328,
+      "eval_steps_per_second": 0.164,
+      "step": 95
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 6.486251759186572e-05,
+      "loss": 1.8275,
+      "step": 96
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 6.277063415980549e-05,
+      "loss": 1.4802,
+      "step": 97
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 6.069749683460765e-05,
+      "loss": 1.1441,
+      "step": 98
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 5.864414950334796e-05,
+      "loss": 1.7344,
+      "step": 99
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 5.6611626088244194e-05,
+      "loss": 1.6543,
+      "step": 100
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 1.6656206846237183,
+      "eval_runtime": 6.1082,
+      "eval_samples_per_second": 0.327,
+      "eval_steps_per_second": 0.164,
+      "step": 100
+    }
+  ],
+  "max_steps": 150,
+  "num_train_epochs": 3,
+  "total_flos": 2.8763598340286054e+17,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-100/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dd8d23f042a338ad3600f5059478d68d7fca1548633272a68cc6bebfb23ad3ee
+size 3899

checkpoint-120/README.md ADDED Viewed

	@@ -0,0 +1,20 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- load_in_8bit: True
+- load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+### Framework versions
+- PEFT 0.4.0

checkpoint-120/adapter_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "fan_in_fan_out": null,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 8,
+  "lora_dropout": 0.0,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 4,
+  "revision": null,
+  "target_modules": [
+    "gate_proj",
+    "down_proj",
+    "up_proj",
+    "q_proj",
+    "v_proj",
+    "k_proj",
+    "o_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

checkpoint-120/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7390877ef5f362ceb01922c4a999718346af346ba9096ef521fbff5e1593bfa8
+size 40137613

checkpoint-120/adapter_model/README.md ADDED Viewed

	@@ -0,0 +1,20 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- load_in_8bit: True
+- load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+### Framework versions
+- PEFT 0.4.0

checkpoint-120/adapter_model/adapter_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "fan_in_fan_out": null,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 8,
+  "lora_dropout": 0.0,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 4,
+  "revision": null,
+  "target_modules": [
+    "gate_proj",
+    "down_proj",
+    "up_proj",
+    "q_proj",
+    "v_proj",
+    "k_proj",
+    "o_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

checkpoint-120/adapter_model/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7390877ef5f362ceb01922c4a999718346af346ba9096ef521fbff5e1593bfa8
+size 40137613

checkpoint-120/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b53fa9d8c92560599043bb1e77b432d1a86dba073e6b826701cbeb07668c5e6b
+size 10264773

checkpoint-120/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:830e818e6899ff30b431c470cff0e4bafb5e8c7e429469a6fb9dfb5272323c44
+size 14575

checkpoint-120/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:87c65de0f3d90fa8477a7f6d5dce812df67139fc573ed544a861f1535557a37e
+size 627

checkpoint-120/trainer_state.json ADDED Viewed

	@@ -0,0 +1,928 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.4,
+  "global_step": 120,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 1.8562,
+      "step": 1
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 4e-05,
+      "loss": 1.8114,
+      "step": 2
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 6e-05,
+      "loss": 1.816,
+      "step": 3
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 8e-05,
+      "loss": 1.7654,
+      "step": 4
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0001,
+      "loss": 1.7975,
+      "step": 5
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 1.751416563987732,
+      "eval_runtime": 6.1216,
+      "eval_samples_per_second": 0.327,
+      "eval_steps_per_second": 0.163,
+      "step": 5
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00012,
+      "loss": 1.88,
+      "step": 6
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00014,
+      "loss": 1.7946,
+      "step": 7
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00016,
+      "loss": 1.9499,
+      "step": 8
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.00018,
+      "loss": 1.988,
+      "step": 9
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0002,
+      "loss": 1.6376,
+      "step": 10
+    },
+    {
+      "epoch": 0.2,
+      "eval_loss": 1.722676396369934,
+      "eval_runtime": 6.1182,
+      "eval_samples_per_second": 0.327,
+      "eval_steps_per_second": 0.163,
+      "step": 10
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00019997482349425066,
+      "loss": 1.2851,
+      "step": 11
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00019989930665413147,
+      "loss": 1.3604,
+      "step": 12
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0001997734875046456,
+      "loss": 1.7414,
+      "step": 13
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00019959742939952392,
+      "loss": 1.7797,
+      "step": 14
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00019937122098932428,
+      "loss": 1.7487,
+      "step": 15
+    },
+    {
+      "epoch": 0.3,
+      "eval_loss": 1.7023706436157227,
+      "eval_runtime": 6.1068,
+      "eval_samples_per_second": 0.328,
+      "eval_steps_per_second": 0.164,
+      "step": 15
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00019909497617679348,
+      "loss": 1.8197,
+      "step": 16
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00019876883405951377,
+      "loss": 1.7928,
+      "step": 17
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00019839295885986296,
+      "loss": 1.7864,
+      "step": 18
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00019796753984232358,
+      "loss": 1.8278,
+      "step": 19
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00019749279121818235,
+      "loss": 1.7084,
+      "step": 20
+    },
+    {
+      "epoch": 0.4,
+      "eval_loss": 1.6931452751159668,
+      "eval_runtime": 6.1126,
+      "eval_samples_per_second": 0.327,
+      "eval_steps_per_second": 0.164,
+      "step": 20
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0001969689520376687,
+      "loss": 1.8612,
+      "step": 21
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00019639628606958533,
+      "loss": 1.8796,
+      "step": 22
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00019577508166849304,
+      "loss": 1.4313,
+      "step": 23
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00019510565162951537,
+      "loss": 1.3394,
+      "step": 24
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.00019438833303083678,
+      "loss": 1.8286,
+      "step": 25
+    },
+    {
+      "epoch": 0.5,
+      "eval_loss": 1.6889530420303345,
+      "eval_runtime": 6.1117,
+      "eval_samples_per_second": 0.327,
+      "eval_steps_per_second": 0.164,
+      "step": 25
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00019362348706397373,
+      "loss": 1.6983,
+      "step": 26
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.0001928114988519039,
+      "loss": 1.8419,
+      "step": 27
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.0001919527772551451,
+      "loss": 1.7634,
+      "step": 28
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00019104775466588161,
+      "loss": 1.6784,
+      "step": 29
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.0001900968867902419,
+      "loss": 1.8443,
+      "step": 30
+    },
+    {
+      "epoch": 0.6,
+      "eval_loss": 1.6835517883300781,
+      "eval_runtime": 6.113,
+      "eval_samples_per_second": 0.327,
+      "eval_steps_per_second": 0.164,
+      "step": 30
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.0001891006524188368,
+      "loss": 1.7155,
+      "step": 31
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.0001880595531856738,
+      "loss": 1.8511,
+      "step": 32
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00018697411331556956,
+      "loss": 1.9756,
+      "step": 33
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00018584487936018661,
+      "loss": 1.7614,
+      "step": 34
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.00018467241992282843,
+      "loss": 1.3127,
+      "step": 35
+    },
+    {
+      "epoch": 0.7,
+      "eval_loss": 1.6799031496047974,
+      "eval_runtime": 6.1132,
+      "eval_samples_per_second": 0.327,
+      "eval_steps_per_second": 0.164,
+      "step": 35
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00018345732537213027,
+      "loss": 0.8749,
+      "step": 36
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00018220020754479102,
+      "loss": 1.7892,
+      "step": 37
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.00018090169943749476,
+      "loss": 1.8039,
+      "step": 38
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00017956245488817812,
+      "loss": 1.673,
+      "step": 39
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.000178183148246803,
+      "loss": 1.786,
+      "step": 40
+    },
+    {
+      "epoch": 0.8,
+      "eval_loss": 1.6771162748336792,
+      "eval_runtime": 6.1006,
+      "eval_samples_per_second": 0.328,
+      "eval_steps_per_second": 0.164,
+      "step": 40
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.0001767644740358011,
+      "loss": 1.7318,
+      "step": 41
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.00017530714660036112,
+      "loss": 1.8771,
+      "step": 42
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.00017381189974873407,
+      "loss": 1.8525,
+      "step": 43
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.00017227948638273916,
+      "loss": 1.8761,
+      "step": 44
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.00017071067811865476,
+      "loss": 1.8343,
+      "step": 45
+    },
+    {
+      "epoch": 0.9,
+      "eval_loss": 1.6742032766342163,
+      "eval_runtime": 6.1111,
+      "eval_samples_per_second": 0.327,
+      "eval_steps_per_second": 0.164,
+      "step": 45
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.00016910626489868649,
+      "loss": 1.6979,
+      "step": 46
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.00016746705459320745,
+      "loss": 1.2549,
+      "step": 47
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.00016579387259397127,
+      "loss": 1.0941,
+      "step": 48
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.0001640875613985024,
+      "loss": 1.7805,
+      "step": 49
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.00016234898018587337,
+      "loss": 1.5179,
+      "step": 50
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 1.672481656074524,
+      "eval_runtime": 6.1089,
+      "eval_samples_per_second": 0.327,
+      "eval_steps_per_second": 0.164,
+      "step": 50
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.000160579004384082,
+      "loss": 1.7744,
+      "step": 51
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.00015877852522924732,
+      "loss": 1.7504,
+      "step": 52
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 0.0001569484493168452,
+      "loss": 1.7334,
+      "step": 53
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 0.00015508969814521025,
+      "loss": 1.7141,
+      "step": 54
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 0.00015320320765153367,
+      "loss": 1.8183,
+      "step": 55
+    },
+    {
+      "epoch": 1.1,
+      "eval_loss": 1.6722060441970825,
+      "eval_runtime": 6.1182,
+      "eval_samples_per_second": 0.327,
+      "eval_steps_per_second": 0.163,
+      "step": 55
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.00015128992774059063,
+      "loss": 1.8504,
+      "step": 56
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 0.0001493508218064347,
+      "loss": 1.7066,
+      "step": 57
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 0.00014738686624729986,
+      "loss": 1.7424,
+      "step": 58
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 0.00014539904997395468,
+      "loss": 1.8836,
+      "step": 59
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 0.00014338837391175582,
+      "loss": 1.5515,
+      "step": 60
+    },
+    {
+      "epoch": 1.2,
+      "eval_loss": 1.667909860610962,
+      "eval_runtime": 6.1058,
+      "eval_samples_per_second": 0.328,
+      "eval_steps_per_second": 0.164,
+      "step": 60
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.00014135585049665207,
+      "loss": 1.069,
+      "step": 61
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.00013930250316539238,
+      "loss": 1.2383,
+      "step": 62
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.00013722936584019453,
+      "loss": 1.7975,
+      "step": 63
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 0.0001351374824081343,
+      "loss": 1.7685,
+      "step": 64
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.00013302790619551674,
+      "loss": 1.831,
+      "step": 65
+    },
+    {
+      "epoch": 1.3,
+      "eval_loss": 1.6692527532577515,
+      "eval_runtime": 6.1077,
+      "eval_samples_per_second": 0.327,
+      "eval_steps_per_second": 0.164,
+      "step": 65
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.00013090169943749476,
+      "loss": 1.6875,
+      "step": 66
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.00012875993274320173,
+      "loss": 1.7344,
+      "step": 67
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.00012660368455666752,
+      "loss": 1.6883,
+      "step": 68
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.0001244340406137894,
+      "loss": 1.7168,
+      "step": 69
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 0.00012225209339563145,
+      "loss": 1.7975,
+      "step": 70
+    },
+    {
+      "epoch": 1.4,
+      "eval_loss": 1.6680976152420044,
+      "eval_runtime": 6.1243,
+      "eval_samples_per_second": 0.327,
+      "eval_steps_per_second": 0.163,
+      "step": 70
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 0.00012005894157832729,
+      "loss": 1.869,
+      "step": 71
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 0.00011785568947986367,
+      "loss": 1.6853,
+      "step": 72
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 0.0001156434465040231,
+      "loss": 1.2465,
+      "step": 73
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 0.00011342332658176555,
+      "loss": 0.8489,
+      "step": 74
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 0.00011119644761033078,
+      "loss": 1.7818,
+      "step": 75
+    },
+    {
+      "epoch": 1.5,
+      "eval_loss": 1.669010043144226,
+      "eval_runtime": 6.1095,
+      "eval_samples_per_second": 0.327,
+      "eval_steps_per_second": 0.164,
+      "step": 75
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 0.00010896393089034336,
+      "loss": 1.7696,
+      "step": 76
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 0.00010672690056120399,
+      "loss": 1.7764,
+      "step": 77
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 0.00010448648303505151,
+      "loss": 1.7498,
+      "step": 78
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 0.00010224380642958052,
+      "loss": 1.8195,
+      "step": 79
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 0.0001,
+      "loss": 1.7768,
+      "step": 80
+    },
+    {
+      "epoch": 1.6,
+      "eval_loss": 1.667705774307251,
+      "eval_runtime": 6.1125,
+      "eval_samples_per_second": 0.327,
+      "eval_steps_per_second": 0.164,
+      "step": 80
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 9.775619357041952e-05,
+      "loss": 1.9044,
+      "step": 81
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 9.551351696494854e-05,
+      "loss": 1.8899,
+      "step": 82
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 9.327309943879604e-05,
+      "loss": 1.9218,
+      "step": 83
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 9.103606910965666e-05,
+      "loss": 1.7831,
+      "step": 84
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 8.880355238966923e-05,
+      "loss": 1.3084,
+      "step": 85
+    },
+    {
+      "epoch": 1.7,
+      "eval_loss": 1.667492389678955,
+      "eval_runtime": 6.107,
+      "eval_samples_per_second": 0.327,
+      "eval_steps_per_second": 0.164,
+      "step": 85
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 8.657667341823448e-05,
+      "loss": 0.9686,
+      "step": 86
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 8.435655349597689e-05,
+      "loss": 1.788,
+      "step": 87
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 8.214431052013634e-05,
+      "loss": 1.6448,
+      "step": 88
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 7.994105842167273e-05,
+      "loss": 1.6639,
+      "step": 89
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 7.774790660436858e-05,
+      "loss": 1.7402,
+      "step": 90
+    },
+    {
+      "epoch": 1.8,
+      "eval_loss": 1.6677496433258057,
+      "eval_runtime": 6.0974,
+      "eval_samples_per_second": 0.328,
+      "eval_steps_per_second": 0.164,
+      "step": 90
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 7.556595938621058e-05,
+      "loss": 1.7281,
+      "step": 91
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 7.339631544333249e-05,
+      "loss": 1.7017,
+      "step": 92
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 7.124006725679828e-05,
+      "loss": 1.758,
+      "step": 93
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 6.909830056250527e-05,
+      "loss": 1.7958,
+      "step": 94
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 6.697209380448333e-05,
+      "loss": 1.8462,
+      "step": 95
+    },
+    {
+      "epoch": 1.9,
+      "eval_loss": 1.6652313470840454,
+      "eval_runtime": 6.1048,
+      "eval_samples_per_second": 0.328,
+      "eval_steps_per_second": 0.164,
+      "step": 95
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 6.486251759186572e-05,
+      "loss": 1.8275,
+      "step": 96
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 6.277063415980549e-05,
+      "loss": 1.4802,
+      "step": 97
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 6.069749683460765e-05,
+      "loss": 1.1441,
+      "step": 98
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 5.864414950334796e-05,
+      "loss": 1.7344,
+      "step": 99
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 5.6611626088244194e-05,
+      "loss": 1.6543,
+      "step": 100
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 1.6656206846237183,
+      "eval_runtime": 6.1082,
+      "eval_samples_per_second": 0.327,
+      "eval_steps_per_second": 0.164,
+      "step": 100
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 5.4600950026045326e-05,
+      "loss": 1.7825,
+      "step": 101
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 5.261313375270014e-05,
+      "loss": 1.7521,
+      "step": 102
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 5.0649178193565314e-05,
+      "loss": 1.8365,
+      "step": 103
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 4.87100722594094e-05,
+      "loss": 1.738,
+      "step": 104
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 4.6796792348466356e-05,
+      "loss": 1.6954,
+      "step": 105
+    },
+    {
+      "epoch": 2.1,
+      "eval_loss": 1.6637686491012573,
+      "eval_runtime": 6.1031,
+      "eval_samples_per_second": 0.328,
+      "eval_steps_per_second": 0.164,
+      "step": 105
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 4.491030185478976e-05,
+      "loss": 1.7503,
+      "step": 106
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 4.305155068315481e-05,
+      "loss": 1.7676,
+      "step": 107
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 4.12214747707527e-05,
+      "loss": 1.8407,
+      "step": 108
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 3.942099561591802e-05,
+      "loss": 1.7692,
+      "step": 109
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 3.7651019814126654e-05,
+      "loss": 1.8048,
+      "step": 110
+    },
+    {
+      "epoch": 2.2,
+      "eval_loss": 1.663559913635254,
+      "eval_runtime": 6.1093,
+      "eval_samples_per_second": 0.327,
+      "eval_steps_per_second": 0.164,
+      "step": 110
+    },
+    {
+      "epoch": 2.22,
+      "learning_rate": 3.591243860149759e-05,
+      "loss": 1.3587,
+      "step": 111
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 3.4206127406028745e-05,
+      "loss": 1.2887,
+      "step": 112
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 3.253294540679257e-05,
+      "loss": 1.7741,
+      "step": 113
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 3.089373510131354e-05,
+      "loss": 1.609,
+      "step": 114
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 2.9289321881345254e-05,
+      "loss": 1.8432,
+      "step": 115
+    },
+    {
+      "epoch": 2.3,
+      "eval_loss": 1.664933443069458,
+      "eval_runtime": 6.1066,
+      "eval_samples_per_second": 0.328,
+      "eval_steps_per_second": 0.164,
+      "step": 115
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 2.7720513617260856e-05,
+      "loss": 1.6705,
+      "step": 116
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 2.6188100251265945e-05,
+      "loss": 1.8165,
+      "step": 117
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 2.4692853399638917e-05,
+      "loss": 1.806,
+      "step": 118
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 2.323552596419889e-05,
+      "loss": 1.8827,
+      "step": 119
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 2.181685175319702e-05,
+      "loss": 1.833,
+      "step": 120
+    },
+    {
+      "epoch": 2.4,
+      "eval_loss": 1.665120005607605,
+      "eval_runtime": 6.1061,
+      "eval_samples_per_second": 0.328,
+      "eval_steps_per_second": 0.164,
+      "step": 120
+    }
+  ],
+  "max_steps": 150,
+  "num_train_epochs": 3,
+  "total_flos": 3.4890977913687245e+17,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-120/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dd8d23f042a338ad3600f5059478d68d7fca1548633272a68cc6bebfb23ad3ee
+size 3899

checkpoint-140/README.md ADDED Viewed

	@@ -0,0 +1,20 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- load_in_8bit: True
+- load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+### Framework versions
+- PEFT 0.4.0

checkpoint-140/adapter_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "fan_in_fan_out": null,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 8,
+  "lora_dropout": 0.0,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 4,
+  "revision": null,
+  "target_modules": [
+    "gate_proj",
+    "down_proj",
+    "up_proj",
+    "q_proj",
+    "v_proj",
+    "k_proj",
+    "o_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

checkpoint-140/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:66e47731578763be5a30885b9433fca267c5a009659ab58b385f5ebabdf23ddb
+size 40137613

checkpoint-140/adapter_model/README.md ADDED Viewed

	@@ -0,0 +1,20 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- load_in_8bit: True
+- load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+### Framework versions
+- PEFT 0.4.0

checkpoint-140/adapter_model/adapter_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
+  "bias": "none",
+  "fan_in_fan_out": null,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 8,
+  "lora_dropout": 0.0,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 4,
+  "revision": null,
+  "target_modules": [
+    "gate_proj",
+    "down_proj",
+    "up_proj",
+    "q_proj",
+    "v_proj",
+    "k_proj",
+    "o_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

checkpoint-140/adapter_model/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:66e47731578763be5a30885b9433fca267c5a009659ab58b385f5ebabdf23ddb
+size 40137613

checkpoint-140/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0a168336e9a5699ed5a530876fdf4ac993ac8c0f67ce70c747459c18d8f6b065
+size 10264773

checkpoint-140/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:51f3c17c1e7ce128318be2166e96b6dda4d1ff79c8b44e6fb06488bf0bbfcf8d
+size 14575

checkpoint-140/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0900a6fba1d6009e7b51215cdc66f0d705cb3e1d22579b7333dd467a9a360671
+size 627

checkpoint-140/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1080 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.8,
+  "global_step": 140,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 1.8562,
+      "step": 1
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 4e-05,
+      "loss": 1.8114,
+      "step": 2
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 6e-05,
+      "loss": 1.816,
+      "step": 3
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 8e-05,
+      "loss": 1.7654,
+      "step": 4
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0001,
+      "loss": 1.7975,
+      "step": 5
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 1.751416563987732,
+      "eval_runtime": 6.1216,
+      "eval_samples_per_second": 0.327,
+      "eval_steps_per_second": 0.163,
+      "step": 5
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00012,
+      "loss": 1.88,
+      "step": 6
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00014,
+      "loss": 1.7946,
+      "step": 7
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00016,
+      "loss": 1.9499,
+      "step": 8
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.00018,
+      "loss": 1.988,
+      "step": 9
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0002,
+      "loss": 1.6376,
+      "step": 10
+    },
+    {
+      "epoch": 0.2,
+      "eval_loss": 1.722676396369934,
+      "eval_runtime": 6.1182,
+      "eval_samples_per_second": 0.327,
+      "eval_steps_per_second": 0.163,
+      "step": 10
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00019997482349425066,
+      "loss": 1.2851,
+      "step": 11
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00019989930665413147,
+      "loss": 1.3604,
+      "step": 12
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0001997734875046456,
+      "loss": 1.7414,
+      "step": 13
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00019959742939952392,
+      "loss": 1.7797,
+      "step": 14
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00019937122098932428,
+      "loss": 1.7487,
+      "step": 15
+    },
+    {
+      "epoch": 0.3,
+      "eval_loss": 1.7023706436157227,
+      "eval_runtime": 6.1068,
+      "eval_samples_per_second": 0.328,
+      "eval_steps_per_second": 0.164,
+      "step": 15
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00019909497617679348,
+      "loss": 1.8197,
+      "step": 16
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00019876883405951377,
+      "loss": 1.7928,
+      "step": 17
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00019839295885986296,
+      "loss": 1.7864,
+      "step": 18
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00019796753984232358,
+      "loss": 1.8278,
+      "step": 19
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00019749279121818235,
+      "loss": 1.7084,
+      "step": 20
+    },
+    {
+      "epoch": 0.4,
+      "eval_loss": 1.6931452751159668,
+      "eval_runtime": 6.1126,
+      "eval_samples_per_second": 0.327,
+      "eval_steps_per_second": 0.164,
+      "step": 20
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0001969689520376687,
+      "loss": 1.8612,
+      "step": 21
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00019639628606958533,
+      "loss": 1.8796,
+      "step": 22
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00019577508166849304,
+      "loss": 1.4313,
+      "step": 23
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00019510565162951537,
+      "loss": 1.3394,
+      "step": 24
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.00019438833303083678,
+      "loss": 1.8286,
+      "step": 25
+    },
+    {
+      "epoch": 0.5,
+      "eval_loss": 1.6889530420303345,
+      "eval_runtime": 6.1117,
+      "eval_samples_per_second": 0.327,
+      "eval_steps_per_second": 0.164,
+      "step": 25
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00019362348706397373,
+      "loss": 1.6983,
+      "step": 26
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.0001928114988519039,
+      "loss": 1.8419,
+      "step": 27
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.0001919527772551451,
+      "loss": 1.7634,
+      "step": 28
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00019104775466588161,
+      "loss": 1.6784,
+      "step": 29
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.0001900968867902419,
+      "loss": 1.8443,
+      "step": 30
+    },
+    {
+      "epoch": 0.6,
+      "eval_loss": 1.6835517883300781,
+      "eval_runtime": 6.113,
+      "eval_samples_per_second": 0.327,
+      "eval_steps_per_second": 0.164,
+      "step": 30
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.0001891006524188368,
+      "loss": 1.7155,
+      "step": 31
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.0001880595531856738,
+      "loss": 1.8511,
+      "step": 32
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00018697411331556956,
+      "loss": 1.9756,
+      "step": 33
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00018584487936018661,
+      "loss": 1.7614,
+      "step": 34
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.00018467241992282843,
+      "loss": 1.3127,
+      "step": 35
+    },
+    {
+      "epoch": 0.7,
+      "eval_loss": 1.6799031496047974,
+      "eval_runtime": 6.1132,
+      "eval_samples_per_second": 0.327,
+      "eval_steps_per_second": 0.164,
+      "step": 35
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00018345732537213027,
+      "loss": 0.8749,
+      "step": 36
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00018220020754479102,
+      "loss": 1.7892,
+      "step": 37
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.00018090169943749476,
+      "loss": 1.8039,
+      "step": 38
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00017956245488817812,
+      "loss": 1.673,
+      "step": 39
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.000178183148246803,
+      "loss": 1.786,
+      "step": 40
+    },
+    {
+      "epoch": 0.8,
+      "eval_loss": 1.6771162748336792,
+      "eval_runtime": 6.1006,
+      "eval_samples_per_second": 0.328,
+      "eval_steps_per_second": 0.164,
+      "step": 40
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.0001767644740358011,
+      "loss": 1.7318,
+      "step": 41
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.00017530714660036112,
+      "loss": 1.8771,
+      "step": 42
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.00017381189974873407,
+      "loss": 1.8525,
+      "step": 43
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.00017227948638273916,
+      "loss": 1.8761,
+      "step": 44
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.00017071067811865476,
+      "loss": 1.8343,
+      "step": 45
+    },
+    {
+      "epoch": 0.9,
+      "eval_loss": 1.6742032766342163,
+      "eval_runtime": 6.1111,
+      "eval_samples_per_second": 0.327,
+      "eval_steps_per_second": 0.164,
+      "step": 45
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.00016910626489868649,
+      "loss": 1.6979,
+      "step": 46
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.00016746705459320745,
+      "loss": 1.2549,
+      "step": 47
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.00016579387259397127,
+      "loss": 1.0941,
+      "step": 48
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.0001640875613985024,
+      "loss": 1.7805,
+      "step": 49
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.00016234898018587337,
+      "loss": 1.5179,
+      "step": 50
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 1.672481656074524,
+      "eval_runtime": 6.1089,
+      "eval_samples_per_second": 0.327,
+      "eval_steps_per_second": 0.164,
+      "step": 50
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.000160579004384082,
+      "loss": 1.7744,
+      "step": 51
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.00015877852522924732,
+      "loss": 1.7504,
+      "step": 52
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 0.0001569484493168452,
+      "loss": 1.7334,
+      "step": 53
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 0.00015508969814521025,
+      "loss": 1.7141,
+      "step": 54
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 0.00015320320765153367,
+      "loss": 1.8183,
+      "step": 55
+    },
+    {
+      "epoch": 1.1,
+      "eval_loss": 1.6722060441970825,
+      "eval_runtime": 6.1182,
+      "eval_samples_per_second": 0.327,
+      "eval_steps_per_second": 0.163,
+      "step": 55
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.00015128992774059063,
+      "loss": 1.8504,
+      "step": 56
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 0.0001493508218064347,
+      "loss": 1.7066,
+      "step": 57
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 0.00014738686624729986,
+      "loss": 1.7424,
+      "step": 58
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 0.00014539904997395468,
+      "loss": 1.8836,
+      "step": 59
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 0.00014338837391175582,
+      "loss": 1.5515,
+      "step": 60
+    },
+    {
+      "epoch": 1.2,
+      "eval_loss": 1.667909860610962,
+      "eval_runtime": 6.1058,
+      "eval_samples_per_second": 0.328,
+      "eval_steps_per_second": 0.164,
+      "step": 60
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.00014135585049665207,
+      "loss": 1.069,
+      "step": 61
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.00013930250316539238,
+      "loss": 1.2383,
+      "step": 62
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.00013722936584019453,
+      "loss": 1.7975,
+      "step": 63
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 0.0001351374824081343,
+      "loss": 1.7685,
+      "step": 64
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.00013302790619551674,
+      "loss": 1.831,
+      "step": 65
+    },
+    {
+      "epoch": 1.3,
+      "eval_loss": 1.6692527532577515,
+      "eval_runtime": 6.1077,
+      "eval_samples_per_second": 0.327,
+      "eval_steps_per_second": 0.164,
+      "step": 65
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.00013090169943749476,
+      "loss": 1.6875,
+      "step": 66
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.00012875993274320173,
+      "loss": 1.7344,
+      "step": 67
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.00012660368455666752,
+      "loss": 1.6883,
+      "step": 68
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.0001244340406137894,
+      "loss": 1.7168,
+      "step": 69
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 0.00012225209339563145,
+      "loss": 1.7975,
+      "step": 70
+    },
+    {
+      "epoch": 1.4,
+      "eval_loss": 1.6680976152420044,
+      "eval_runtime": 6.1243,
+      "eval_samples_per_second": 0.327,
+      "eval_steps_per_second": 0.163,
+      "step": 70
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 0.00012005894157832729,
+      "loss": 1.869,
+      "step": 71
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 0.00011785568947986367,
+      "loss": 1.6853,
+      "step": 72
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 0.0001156434465040231,
+      "loss": 1.2465,
+      "step": 73
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 0.00011342332658176555,
+      "loss": 0.8489,
+      "step": 74
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 0.00011119644761033078,
+      "loss": 1.7818,
+      "step": 75
+    },
+    {
+      "epoch": 1.5,
+      "eval_loss": 1.669010043144226,
+      "eval_runtime": 6.1095,
+      "eval_samples_per_second": 0.327,
+      "eval_steps_per_second": 0.164,
+      "step": 75
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 0.00010896393089034336,
+      "loss": 1.7696,
+      "step": 76
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 0.00010672690056120399,
+      "loss": 1.7764,
+      "step": 77
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 0.00010448648303505151,
+      "loss": 1.7498,
+      "step": 78
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 0.00010224380642958052,
+      "loss": 1.8195,
+      "step": 79
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 0.0001,
+      "loss": 1.7768,
+      "step": 80
+    },
+    {
+      "epoch": 1.6,
+      "eval_loss": 1.667705774307251,
+      "eval_runtime": 6.1125,
+      "eval_samples_per_second": 0.327,
+      "eval_steps_per_second": 0.164,
+      "step": 80
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 9.775619357041952e-05,
+      "loss": 1.9044,
+      "step": 81
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 9.551351696494854e-05,
+      "loss": 1.8899,
+      "step": 82
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 9.327309943879604e-05,
+      "loss": 1.9218,
+      "step": 83
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 9.103606910965666e-05,
+      "loss": 1.7831,
+      "step": 84
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 8.880355238966923e-05,
+      "loss": 1.3084,
+      "step": 85
+    },
+    {
+      "epoch": 1.7,
+      "eval_loss": 1.667492389678955,
+      "eval_runtime": 6.107,
+      "eval_samples_per_second": 0.327,
+      "eval_steps_per_second": 0.164,
+      "step": 85
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 8.657667341823448e-05,
+      "loss": 0.9686,
+      "step": 86
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 8.435655349597689e-05,
+      "loss": 1.788,
+      "step": 87
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 8.214431052013634e-05,
+      "loss": 1.6448,
+      "step": 88
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 7.994105842167273e-05,
+      "loss": 1.6639,
+      "step": 89
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 7.774790660436858e-05,
+      "loss": 1.7402,
+      "step": 90
+    },
+    {
+      "epoch": 1.8,
+      "eval_loss": 1.6677496433258057,
+      "eval_runtime": 6.0974,
+      "eval_samples_per_second": 0.328,
+      "eval_steps_per_second": 0.164,
+      "step": 90
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 7.556595938621058e-05,
+      "loss": 1.7281,
+      "step": 91
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 7.339631544333249e-05,
+      "loss": 1.7017,
+      "step": 92
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 7.124006725679828e-05,
+      "loss": 1.758,
+      "step": 93
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 6.909830056250527e-05,
+      "loss": 1.7958,
+      "step": 94
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 6.697209380448333e-05,
+      "loss": 1.8462,
+      "step": 95
+    },
+    {
+      "epoch": 1.9,
+      "eval_loss": 1.6652313470840454,
+      "eval_runtime": 6.1048,
+      "eval_samples_per_second": 0.328,
+      "eval_steps_per_second": 0.164,
+      "step": 95
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 6.486251759186572e-05,
+      "loss": 1.8275,
+      "step": 96
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 6.277063415980549e-05,
+      "loss": 1.4802,
+      "step": 97
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 6.069749683460765e-05,
+      "loss": 1.1441,
+      "step": 98
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 5.864414950334796e-05,
+      "loss": 1.7344,
+      "step": 99
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 5.6611626088244194e-05,
+      "loss": 1.6543,
+      "step": 100
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 1.6656206846237183,
+      "eval_runtime": 6.1082,
+      "eval_samples_per_second": 0.327,
+      "eval_steps_per_second": 0.164,
+      "step": 100
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 5.4600950026045326e-05,
+      "loss": 1.7825,
+      "step": 101
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 5.261313375270014e-05,
+      "loss": 1.7521,
+      "step": 102
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 5.0649178193565314e-05,
+      "loss": 1.8365,
+      "step": 103
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 4.87100722594094e-05,
+      "loss": 1.738,
+      "step": 104
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 4.6796792348466356e-05,
+      "loss": 1.6954,
+      "step": 105
+    },
+    {
+      "epoch": 2.1,
+      "eval_loss": 1.6637686491012573,
+      "eval_runtime": 6.1031,
+      "eval_samples_per_second": 0.328,
+      "eval_steps_per_second": 0.164,
+      "step": 105
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 4.491030185478976e-05,
+      "loss": 1.7503,
+      "step": 106
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 4.305155068315481e-05,
+      "loss": 1.7676,
+      "step": 107
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 4.12214747707527e-05,
+      "loss": 1.8407,
+      "step": 108
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 3.942099561591802e-05,
+      "loss": 1.7692,
+      "step": 109
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 3.7651019814126654e-05,
+      "loss": 1.8048,
+      "step": 110
+    },
+    {
+      "epoch": 2.2,
+      "eval_loss": 1.663559913635254,
+      "eval_runtime": 6.1093,
+      "eval_samples_per_second": 0.327,
+      "eval_steps_per_second": 0.164,
+      "step": 110
+    },
+    {
+      "epoch": 2.22,
+      "learning_rate": 3.591243860149759e-05,
+      "loss": 1.3587,
+      "step": 111
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 3.4206127406028745e-05,
+      "loss": 1.2887,
+      "step": 112
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 3.253294540679257e-05,
+      "loss": 1.7741,
+      "step": 113
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 3.089373510131354e-05,
+      "loss": 1.609,
+      "step": 114
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 2.9289321881345254e-05,
+      "loss": 1.8432,
+      "step": 115
+    },
+    {
+      "epoch": 2.3,
+      "eval_loss": 1.664933443069458,
+      "eval_runtime": 6.1066,
+      "eval_samples_per_second": 0.328,
+      "eval_steps_per_second": 0.164,
+      "step": 115
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 2.7720513617260856e-05,
+      "loss": 1.6705,
+      "step": 116
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 2.6188100251265945e-05,
+      "loss": 1.8165,
+      "step": 117
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 2.4692853399638917e-05,
+      "loss": 1.806,
+      "step": 118
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 2.323552596419889e-05,
+      "loss": 1.8827,
+      "step": 119
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 2.181685175319702e-05,
+      "loss": 1.833,
+      "step": 120
+    },
+    {
+      "epoch": 2.4,
+      "eval_loss": 1.665120005607605,
+      "eval_runtime": 6.1061,
+      "eval_samples_per_second": 0.328,
+      "eval_steps_per_second": 0.164,
+      "step": 120
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 2.043754511182191e-05,
+      "loss": 1.8779,
+      "step": 121
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 1.9098300562505266e-05,
+      "loss": 1.7553,
+      "step": 122
+    },
+    {
+      "epoch": 2.46,
+      "learning_rate": 1.7799792455209018e-05,
+      "loss": 1.3448,
+      "step": 123
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 1.6542674627869737e-05,
+      "loss": 0.967,
+      "step": 124
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 1.5327580077171587e-05,
+      "loss": 1.7033,
+      "step": 125
+    },
+    {
+      "epoch": 2.5,
+      "eval_loss": 1.662558674812317,
+      "eval_runtime": 6.1105,
+      "eval_samples_per_second": 0.327,
+      "eval_steps_per_second": 0.164,
+      "step": 125
+    },
+    {
+      "epoch": 2.52,
+      "learning_rate": 1.415512063981339e-05,
+      "loss": 1.7094,
+      "step": 126
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 1.3025886684430467e-05,
+      "loss": 1.6874,
+      "step": 127
+    },
+    {
+      "epoch": 2.56,
+      "learning_rate": 1.19404468143262e-05,
+      "loss": 1.6772,
+      "step": 128
+    },
+    {
+      "epoch": 2.58,
+      "learning_rate": 1.0899347581163221e-05,
+      "loss": 1.6462,
+      "step": 129
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 9.903113209758096e-06,
+      "loss": 1.8013,
+      "step": 130
+    },
+    {
+      "epoch": 2.6,
+      "eval_loss": 1.6647861003875732,
+      "eval_runtime": 6.1104,
+      "eval_samples_per_second": 0.327,
+      "eval_steps_per_second": 0.164,
+      "step": 130
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 8.952245334118414e-06,
+      "loss": 1.7317,
+      "step": 131
+    },
+    {
+      "epoch": 2.64,
+      "learning_rate": 8.047222744854943e-06,
+      "loss": 1.7714,
+      "step": 132
+    },
+    {
+      "epoch": 2.66,
+      "learning_rate": 7.1885011480961164e-06,
+      "loss": 1.8637,
+      "step": 133
+    },
+    {
+      "epoch": 2.68,
+      "learning_rate": 6.37651293602628e-06,
+      "loss": 1.5169,
+      "step": 134
+    },
+    {
+      "epoch": 2.7,
+      "learning_rate": 5.611666969163243e-06,
+      "loss": 1.2576,
+      "step": 135
+    },
+    {
+      "epoch": 2.7,
+      "eval_loss": 1.6650197505950928,
+      "eval_runtime": 6.1138,
+      "eval_samples_per_second": 0.327,
+      "eval_steps_per_second": 0.164,
+      "step": 135
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 4.8943483704846475e-06,
+      "loss": 0.8812,
+      "step": 136
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 4.224918331506955e-06,
+      "loss": 1.7942,
+      "step": 137
+    },
+    {
+      "epoch": 2.76,
+      "learning_rate": 3.6037139304146762e-06,
+      "loss": 1.6483,
+      "step": 138
+    },
+    {
+      "epoch": 2.78,
+      "learning_rate": 3.0310479623313127e-06,
+      "loss": 1.7521,
+      "step": 139
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 2.5072087818176382e-06,
+      "loss": 1.8145,
+      "step": 140
+    },
+    {
+      "epoch": 2.8,
+      "eval_loss": 1.6641619205474854,
+      "eval_runtime": 6.1153,
+      "eval_samples_per_second": 0.327,
+      "eval_steps_per_second": 0.164,
+      "step": 140
+    }
+  ],
+  "max_steps": 150,
+  "num_train_epochs": 3,
+  "total_flos": 4.058841051803812e+17,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-140/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dd8d23f042a338ad3600f5059478d68d7fca1548633272a68cc6bebfb23ad3ee
+size 3899