Sliden commited on Aug 16, 2023

Commit

ebcf144

1 Parent(s): dbb8c70

Upload folder using huggingface_hub

Browse files

Files changed (45) hide show

README.md +21 -0
adapter_config.json +26 -0
adapter_model.bin +3 -0
checkpoint-117/README.md +21 -0
checkpoint-117/adapter_config.json +26 -0
checkpoint-117/adapter_model.bin +3 -0
checkpoint-117/adapter_model/README.md +21 -0
checkpoint-117/adapter_model/adapter_config.json +26 -0
checkpoint-117/adapter_model/adapter_model.bin +3 -0
checkpoint-117/optimizer.pt +3 -0
checkpoint-117/rng_state.pth +3 -0
checkpoint-117/scheduler.pt +3 -0
checkpoint-117/trainer_state.json +737 -0
checkpoint-117/training_args.bin +3 -0
checkpoint-174/README.md +21 -0
checkpoint-174/adapter_config.json +26 -0
checkpoint-174/adapter_model.bin +3 -0
checkpoint-174/adapter_model/README.md +21 -0
checkpoint-174/adapter_model/adapter_config.json +26 -0
checkpoint-174/adapter_model/adapter_model.bin +3 -0
checkpoint-174/optimizer.pt +3 -0
checkpoint-174/rng_state.pth +3 -0
checkpoint-174/scheduler.pt +3 -0
checkpoint-174/trainer_state.json +1087 -0
checkpoint-174/training_args.bin +3 -0
checkpoint-58/README.md +21 -0
checkpoint-58/adapter_config.json +26 -0
checkpoint-58/adapter_model.bin +3 -0
checkpoint-58/adapter_model/README.md +21 -0
checkpoint-58/adapter_model/adapter_config.json +26 -0
checkpoint-58/adapter_model/adapter_model.bin +3 -0
checkpoint-58/optimizer.pt +3 -0
checkpoint-58/rng_state.pth +3 -0
checkpoint-58/scheduler.pt +3 -0
checkpoint-58/trainer_state.json +375 -0
checkpoint-58/training_args.bin +3 -0
merged/config.json +26 -0
merged/generation_config.json +7 -0
merged/pytorch_model.bin +3 -0
merged/special_tokens_map.json +6 -0
merged/tokenizer.model +3 -0
merged/tokenizer_config.json +36 -0
special_tokens_map.json +6 -0
tokenizer.model +3 -0
tokenizer_config.json +36 -0

README.md ADDED Viewed

	@@ -0,0 +1,21 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: True
+- load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+### Framework versions
+- PEFT 0.5.0.dev0

adapter_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "openlm-research/open_llama_3b",
+  "bias": "none",
+  "fan_in_fan_out": null,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 16,
+  "lora_dropout": 0.0,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "revision": null,
+  "target_modules": [
+    "gate_proj",
+    "down_proj",
+    "up_proj",
+    "q_proj",
+    "v_proj",
+    "k_proj",
+    "o_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dbe5aa95043aa532cd69c2de2275ff0da626799b146f8b1fc0d9a27104e97ae1
+size 50982397

checkpoint-117/README.md ADDED Viewed

	@@ -0,0 +1,21 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: True
+- load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+### Framework versions
+- PEFT 0.5.0.dev0

checkpoint-117/adapter_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "openlm-research/open_llama_3b",
+  "bias": "none",
+  "fan_in_fan_out": null,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 16,
+  "lora_dropout": 0.0,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "revision": null,
+  "target_modules": [
+    "gate_proj",
+    "down_proj",
+    "up_proj",
+    "q_proj",
+    "v_proj",
+    "k_proj",
+    "o_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

checkpoint-117/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e498eeab1531f405933578e0969b54f08ea3f427d4f392974f0dfdb55d47fc52
+size 50982397

checkpoint-117/adapter_model/README.md ADDED Viewed

	@@ -0,0 +1,21 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: True
+- load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+### Framework versions
+- PEFT 0.5.0.dev0

checkpoint-117/adapter_model/adapter_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "openlm-research/open_llama_3b",
+  "bias": "none",
+  "fan_in_fan_out": null,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 16,
+  "lora_dropout": 0.0,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "revision": null,
+  "target_modules": [
+    "gate_proj",
+    "down_proj",
+    "up_proj",
+    "q_proj",
+    "v_proj",
+    "k_proj",
+    "o_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

checkpoint-117/adapter_model/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e498eeab1531f405933578e0969b54f08ea3f427d4f392974f0dfdb55d47fc52
+size 50982397

checkpoint-117/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e9e3c392d3c1811b6366e03455bbd7c4a67ebee3df2febdeab2254e191fee92f
+size 25871055

checkpoint-117/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7508d4b8dd267de5cc58e972da25236687927651336a28f292c92f7f23951475
+size 14575

checkpoint-117/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a7700418cf1a4cd51a29cd186ae503e313a55b0836cdcdd770aaf67afad70dc8
+size 627

checkpoint-117/trainer_state.json ADDED Viewed

	@@ -0,0 +1,737 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.9914893617021276,
+  "eval_steps": 50,
+  "global_step": 117,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 1.6896,
+      "step": 1
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 4e-05,
+      "loss": 1.632,
+      "step": 2
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 6e-05,
+      "loss": 1.7197,
+      "step": 3
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 8e-05,
+      "loss": 1.6988,
+      "step": 4
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0001,
+      "loss": 1.4945,
+      "step": 5
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.00012,
+      "loss": 1.4763,
+      "step": 6
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00014,
+      "loss": 1.4645,
+      "step": 7
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00016,
+      "loss": 1.1569,
+      "step": 8
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00018,
+      "loss": 1.4501,
+      "step": 9
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0002,
+      "loss": 1.1972,
+      "step": 10
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.00019998209226697376,
+      "loss": 1.1479,
+      "step": 11
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00019992837548163316,
+      "loss": 1.1791,
+      "step": 12
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00019983886888289514,
+      "loss": 1.1471,
+      "step": 13
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00019971360452796522,
+      "loss": 0.9662,
+      "step": 14
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0001995526272808559,
+      "loss": 1.2166,
+      "step": 15
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0001993559947963185,
+      "loss": 1.1023,
+      "step": 16
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.00019912377749919374,
+      "loss": 0.9719,
+      "step": 17
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00019885605855918885,
+      "loss": 0.9122,
+      "step": 18
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00019855293386108992,
+      "loss": 0.8808,
+      "step": 19
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00019821451197042026,
+      "loss": 1.0081,
+      "step": 20
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00019784091409455728,
+      "loss": 1.0147,
+      "step": 21
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.00019743227403932134,
+      "loss": 0.8792,
+      "step": 22
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00019698873816105273,
+      "loss": 0.8762,
+      "step": 23
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00019651046531419332,
+      "loss": 0.7916,
+      "step": 24
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.0001959976267943923,
+      "loss": 0.8967,
+      "step": 25
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0001954504062771555,
+      "loss": 1.0575,
+      "step": 26
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00019486899975206166,
+      "loss": 0.9374,
+      "step": 27
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00019425361545256727,
+      "loss": 0.8697,
+      "step": 28
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00019360447378142728,
+      "loss": 0.788,
+      "step": 29
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.00019292180723175654,
+      "loss": 0.8215,
+      "step": 30
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.00019220586030376134,
+      "loss": 0.8943,
+      "step": 31
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00019145688941717075,
+      "loss": 0.7825,
+      "step": 32
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.00019067516281939825,
+      "loss": 0.9878,
+      "step": 33
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00018986096048946824,
+      "loss": 0.8517,
+      "step": 34
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00018901457403773967,
+      "loss": 0.8132,
+      "step": 35
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.00018813630660146488,
+      "loss": 0.9143,
+      "step": 36
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.0001872264727362194,
+      "loss": 0.8659,
+      "step": 37
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00018628539830324229,
+      "loss": 0.7977,
+      "step": 38
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00018531342035272766,
+      "loss": 0.8188,
+      "step": 39
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00018431088700310844,
+      "loss": 0.871,
+      "step": 40
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.00018327815731637612,
+      "loss": 0.6939,
+      "step": 41
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00018221560116948103,
+      "loss": 0.8147,
+      "step": 42
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00018112359912185924,
+      "loss": 0.8898,
+      "step": 43
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.00018000254227913348,
+      "loss": 0.8074,
+      "step": 44
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.0001788528321530366,
+      "loss": 0.8351,
+      "step": 45
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00017767488051760857,
+      "loss": 0.8811,
+      "step": 46
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.00017646910926171747,
+      "loss": 0.792,
+      "step": 47
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.00017523595023795813,
+      "loss": 0.8558,
+      "step": 48
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.0001739758451079821,
+      "loss": 0.8308,
+      "step": 49
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.00017268924518431438,
+      "loss": 0.8504,
+      "step": 50
+    },
+    {
+      "epoch": 0.85,
+      "eval_loss": 0.8740054368972778,
+      "eval_runtime": 0.8959,
+      "eval_samples_per_second": 22.324,
+      "eval_steps_per_second": 5.581,
+      "step": 50
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.0001713766112687139,
+      "loss": 0.83,
+      "step": 51
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 0.0001700384134871351,
+      "loss": 0.7499,
+      "step": 52
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.00016867513112135013,
+      "loss": 0.8685,
+      "step": 53
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.0001672872524372919,
+      "loss": 0.807,
+      "step": 54
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.00016587527451017938,
+      "loss": 0.8627,
+      "step": 55
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 0.0001644397030464877,
+      "loss": 0.7606,
+      "step": 56
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 0.00016298105220282713,
+      "loss": 0.8284,
+      "step": 57
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.00016149984440179537,
+      "loss": 0.8585,
+      "step": 58
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.00015999661014486956,
+      "loss": 0.8819,
+      "step": 59
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.0001584718878224047,
+      "loss": 0.6723,
+      "step": 60
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.00015692622352080662,
+      "loss": 0.7435,
+      "step": 61
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 0.00015536017082694846,
+      "loss": 0.7002,
+      "step": 62
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.00015377429062990122,
+      "loss": 0.7433,
+      "step": 63
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 0.00015216915092004847,
+      "loss": 0.7356,
+      "step": 64
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 0.0001505453265856581,
+      "loss": 0.7616,
+      "step": 65
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.00014890339920698334,
+      "loss": 0.7192,
+      "step": 66
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 0.0001472439568479671,
+      "loss": 0.7354,
+      "step": 67
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 0.00014556759384562416,
+      "loss": 0.7623,
+      "step": 68
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 0.00014387491059717652,
+      "loss": 0.724,
+      "step": 69
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 0.0001421665133450184,
+      "loss": 0.8136,
+      "step": 70
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.0001404430139595877,
+      "loss": 0.8083,
+      "step": 71
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 0.00013870502972022173,
+      "loss": 0.7054,
+      "step": 72
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.0001369531830940757,
+      "loss": 0.7301,
+      "step": 73
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.0001351881015131833,
+      "loss": 0.6925,
+      "step": 74
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 0.000133410417149739,
+      "loss": 0.7191,
+      "step": 75
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.0001316207666896824,
+      "loss": 0.6814,
+      "step": 76
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 0.00012981979110466654,
+      "loss": 0.6916,
+      "step": 77
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 0.00012800813542249072,
+      "loss": 0.5781,
+      "step": 78
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.0001261864484960807,
+      "loss": 0.8074,
+      "step": 79
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.0001243553827710992,
+      "loss": 0.6563,
+      "step": 80
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.00012251559405226941,
+      "loss": 0.6436,
+      "step": 81
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 0.00012066774126849529,
+      "loss": 0.7692,
+      "step": 82
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 0.00011881248623686338,
+      "loss": 0.6265,
+      "step": 83
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 0.00011695049342560968,
+      "loss": 0.5772,
+      "step": 84
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 0.00011508242971613741,
+      "loss": 0.6841,
+      "step": 85
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 0.00011320896416417026,
+      "loss": 0.7439,
+      "step": 86
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 0.000111330767760127,
+      "loss": 0.7303,
+      "step": 87
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 0.00010944851318880314,
+      "loss": 0.7767,
+      "step": 88
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 0.00010756287458844569,
+      "loss": 0.6361,
+      "step": 89
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 0.00010567452730930743,
+      "loss": 0.6535,
+      "step": 90
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 0.00010378414767176705,
+      "loss": 0.7178,
+      "step": 91
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 0.0001018924127241019,
+      "loss": 0.6977,
+      "step": 92
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 0.0001,
+      "loss": 0.704,
+      "step": 93
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 9.810758727589813e-05,
+      "loss": 0.8041,
+      "step": 94
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 9.621585232823298e-05,
+      "loss": 0.7026,
+      "step": 95
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 9.432547269069261e-05,
+      "loss": 0.6892,
+      "step": 96
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 9.243712541155436e-05,
+      "loss": 0.7073,
+      "step": 97
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 9.055148681119688e-05,
+      "loss": 0.7765,
+      "step": 98
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 8.866923223987302e-05,
+      "loss": 0.6896,
+      "step": 99
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 8.679103583582979e-05,
+      "loss": 0.6527,
+      "step": 100
+    },
+    {
+      "epoch": 1.7,
+      "eval_loss": 0.8596932291984558,
+      "eval_runtime": 0.897,
+      "eval_samples_per_second": 22.297,
+      "eval_steps_per_second": 5.574,
+      "step": 100
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 8.491757028386263e-05,
+      "loss": 0.6335,
+      "step": 101
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 8.304950657439033e-05,
+      "loss": 0.6348,
+      "step": 102
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 8.118751376313664e-05,
+      "loss": 0.6983,
+      "step": 103
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 7.93322587315047e-05,
+      "loss": 0.7995,
+      "step": 104
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 7.74844059477306e-05,
+      "loss": 0.654,
+      "step": 105
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 7.564461722890081e-05,
+      "loss": 0.6507,
+      "step": 106
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 7.381355150391933e-05,
+      "loss": 0.6623,
+      "step": 107
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 7.19918645775093e-05,
+      "loss": 0.7539,
+      "step": 108
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 7.018020889533348e-05,
+      "loss": 0.755,
+      "step": 109
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 6.83792333103176e-05,
+      "loss": 0.6394,
+      "step": 110
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 6.658958285026102e-05,
+      "loss": 0.7545,
+      "step": 111
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 6.48118984868167e-05,
+      "loss": 0.7215,
+      "step": 112
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 6.304681690592431e-05,
+      "loss": 0.581,
+      "step": 113
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 6.129497027977829e-05,
+      "loss": 0.673,
+      "step": 114
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 5.955698604041231e-05,
+      "loss": 0.6878,
+      "step": 115
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 5.7833486654981606e-05,
+      "loss": 0.738,
+      "step": 116
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 5.6125089402823485e-05,
+      "loss": 0.812,
+      "step": 117
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 174,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "total_flos": 5053549897973760.0,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-117/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:559e05578fbf1f6e78fc368cebf479663b2065af16b04f27bd99e7e2b2e8f04f
+size 4155

checkpoint-174/README.md ADDED Viewed

	@@ -0,0 +1,21 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: True
+- load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+### Framework versions
+- PEFT 0.5.0.dev0

checkpoint-174/adapter_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "openlm-research/open_llama_3b",
+  "bias": "none",
+  "fan_in_fan_out": null,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 16,
+  "lora_dropout": 0.0,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "revision": null,
+  "target_modules": [
+    "gate_proj",
+    "down_proj",
+    "up_proj",
+    "q_proj",
+    "v_proj",
+    "k_proj",
+    "o_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

checkpoint-174/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dbe5aa95043aa532cd69c2de2275ff0da626799b146f8b1fc0d9a27104e97ae1
+size 50982397

checkpoint-174/adapter_model/README.md ADDED Viewed

	@@ -0,0 +1,21 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: True
+- load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+### Framework versions
+- PEFT 0.5.0.dev0

checkpoint-174/adapter_model/adapter_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "openlm-research/open_llama_3b",
+  "bias": "none",
+  "fan_in_fan_out": null,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 16,
+  "lora_dropout": 0.0,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "revision": null,
+  "target_modules": [
+    "gate_proj",
+    "down_proj",
+    "up_proj",
+    "q_proj",
+    "v_proj",
+    "k_proj",
+    "o_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

checkpoint-174/adapter_model/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dbe5aa95043aa532cd69c2de2275ff0da626799b146f8b1fc0d9a27104e97ae1
+size 50982397

checkpoint-174/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6f7882c325d071ed5373d6f2f92186cb51ad9a34bd205cbe3b4bc515a50b671f
+size 25871055

checkpoint-174/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6dd3a816ab8628e6038ecf426e93a907752049203fbc39b63fcde557182a866f
+size 14575

checkpoint-174/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dd8538969d1b6e3c157459906d597cb3ca4c31e75dc24b6f36711f2acf24b57c
+size 627

checkpoint-174/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1087 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.9617021276595743,
+  "eval_steps": 50,
+  "global_step": 174,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 1.6896,
+      "step": 1
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 4e-05,
+      "loss": 1.632,
+      "step": 2
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 6e-05,
+      "loss": 1.7197,
+      "step": 3
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 8e-05,
+      "loss": 1.6988,
+      "step": 4
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0001,
+      "loss": 1.4945,
+      "step": 5
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.00012,
+      "loss": 1.4763,
+      "step": 6
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00014,
+      "loss": 1.4645,
+      "step": 7
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00016,
+      "loss": 1.1569,
+      "step": 8
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00018,
+      "loss": 1.4501,
+      "step": 9
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0002,
+      "loss": 1.1972,
+      "step": 10
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.00019998209226697376,
+      "loss": 1.1479,
+      "step": 11
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00019992837548163316,
+      "loss": 1.1791,
+      "step": 12
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00019983886888289514,
+      "loss": 1.1471,
+      "step": 13
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00019971360452796522,
+      "loss": 0.9662,
+      "step": 14
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0001995526272808559,
+      "loss": 1.2166,
+      "step": 15
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0001993559947963185,
+      "loss": 1.1023,
+      "step": 16
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.00019912377749919374,
+      "loss": 0.9719,
+      "step": 17
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00019885605855918885,
+      "loss": 0.9122,
+      "step": 18
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00019855293386108992,
+      "loss": 0.8808,
+      "step": 19
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00019821451197042026,
+      "loss": 1.0081,
+      "step": 20
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00019784091409455728,
+      "loss": 1.0147,
+      "step": 21
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.00019743227403932134,
+      "loss": 0.8792,
+      "step": 22
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00019698873816105273,
+      "loss": 0.8762,
+      "step": 23
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00019651046531419332,
+      "loss": 0.7916,
+      "step": 24
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.0001959976267943923,
+      "loss": 0.8967,
+      "step": 25
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0001954504062771555,
+      "loss": 1.0575,
+      "step": 26
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00019486899975206166,
+      "loss": 0.9374,
+      "step": 27
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00019425361545256727,
+      "loss": 0.8697,
+      "step": 28
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00019360447378142728,
+      "loss": 0.788,
+      "step": 29
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.00019292180723175654,
+      "loss": 0.8215,
+      "step": 30
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.00019220586030376134,
+      "loss": 0.8943,
+      "step": 31
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00019145688941717075,
+      "loss": 0.7825,
+      "step": 32
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.00019067516281939825,
+      "loss": 0.9878,
+      "step": 33
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00018986096048946824,
+      "loss": 0.8517,
+      "step": 34
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00018901457403773967,
+      "loss": 0.8132,
+      "step": 35
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.00018813630660146488,
+      "loss": 0.9143,
+      "step": 36
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.0001872264727362194,
+      "loss": 0.8659,
+      "step": 37
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00018628539830324229,
+      "loss": 0.7977,
+      "step": 38
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00018531342035272766,
+      "loss": 0.8188,
+      "step": 39
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00018431088700310844,
+      "loss": 0.871,
+      "step": 40
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.00018327815731637612,
+      "loss": 0.6939,
+      "step": 41
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00018221560116948103,
+      "loss": 0.8147,
+      "step": 42
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00018112359912185924,
+      "loss": 0.8898,
+      "step": 43
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.00018000254227913348,
+      "loss": 0.8074,
+      "step": 44
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.0001788528321530366,
+      "loss": 0.8351,
+      "step": 45
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00017767488051760857,
+      "loss": 0.8811,
+      "step": 46
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.00017646910926171747,
+      "loss": 0.792,
+      "step": 47
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.00017523595023795813,
+      "loss": 0.8558,
+      "step": 48
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.0001739758451079821,
+      "loss": 0.8308,
+      "step": 49
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.00017268924518431438,
+      "loss": 0.8504,
+      "step": 50
+    },
+    {
+      "epoch": 0.85,
+      "eval_loss": 0.8740054368972778,
+      "eval_runtime": 0.8959,
+      "eval_samples_per_second": 22.324,
+      "eval_steps_per_second": 5.581,
+      "step": 50
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.0001713766112687139,
+      "loss": 0.83,
+      "step": 51
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 0.0001700384134871351,
+      "loss": 0.7499,
+      "step": 52
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.00016867513112135013,
+      "loss": 0.8685,
+      "step": 53
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.0001672872524372919,
+      "loss": 0.807,
+      "step": 54
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.00016587527451017938,
+      "loss": 0.8627,
+      "step": 55
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 0.0001644397030464877,
+      "loss": 0.7606,
+      "step": 56
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 0.00016298105220282713,
+      "loss": 0.8284,
+      "step": 57
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.00016149984440179537,
+      "loss": 0.8585,
+      "step": 58
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.00015999661014486956,
+      "loss": 0.8819,
+      "step": 59
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.0001584718878224047,
+      "loss": 0.6723,
+      "step": 60
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.00015692622352080662,
+      "loss": 0.7435,
+      "step": 61
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 0.00015536017082694846,
+      "loss": 0.7002,
+      "step": 62
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.00015377429062990122,
+      "loss": 0.7433,
+      "step": 63
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 0.00015216915092004847,
+      "loss": 0.7356,
+      "step": 64
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 0.0001505453265856581,
+      "loss": 0.7616,
+      "step": 65
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.00014890339920698334,
+      "loss": 0.7192,
+      "step": 66
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 0.0001472439568479671,
+      "loss": 0.7354,
+      "step": 67
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 0.00014556759384562416,
+      "loss": 0.7623,
+      "step": 68
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 0.00014387491059717652,
+      "loss": 0.724,
+      "step": 69
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 0.0001421665133450184,
+      "loss": 0.8136,
+      "step": 70
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.0001404430139595877,
+      "loss": 0.8083,
+      "step": 71
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 0.00013870502972022173,
+      "loss": 0.7054,
+      "step": 72
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.0001369531830940757,
+      "loss": 0.7301,
+      "step": 73
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.0001351881015131833,
+      "loss": 0.6925,
+      "step": 74
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 0.000133410417149739,
+      "loss": 0.7191,
+      "step": 75
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.0001316207666896824,
+      "loss": 0.6814,
+      "step": 76
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 0.00012981979110466654,
+      "loss": 0.6916,
+      "step": 77
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 0.00012800813542249072,
+      "loss": 0.5781,
+      "step": 78
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.0001261864484960807,
+      "loss": 0.8074,
+      "step": 79
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.0001243553827710992,
+      "loss": 0.6563,
+      "step": 80
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.00012251559405226941,
+      "loss": 0.6436,
+      "step": 81
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 0.00012066774126849529,
+      "loss": 0.7692,
+      "step": 82
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 0.00011881248623686338,
+      "loss": 0.6265,
+      "step": 83
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 0.00011695049342560968,
+      "loss": 0.5772,
+      "step": 84
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 0.00011508242971613741,
+      "loss": 0.6841,
+      "step": 85
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 0.00011320896416417026,
+      "loss": 0.7439,
+      "step": 86
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 0.000111330767760127,
+      "loss": 0.7303,
+      "step": 87
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 0.00010944851318880314,
+      "loss": 0.7767,
+      "step": 88
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 0.00010756287458844569,
+      "loss": 0.6361,
+      "step": 89
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 0.00010567452730930743,
+      "loss": 0.6535,
+      "step": 90
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 0.00010378414767176705,
+      "loss": 0.7178,
+      "step": 91
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 0.0001018924127241019,
+      "loss": 0.6977,
+      "step": 92
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 0.0001,
+      "loss": 0.704,
+      "step": 93
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 9.810758727589813e-05,
+      "loss": 0.8041,
+      "step": 94
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 9.621585232823298e-05,
+      "loss": 0.7026,
+      "step": 95
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 9.432547269069261e-05,
+      "loss": 0.6892,
+      "step": 96
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 9.243712541155436e-05,
+      "loss": 0.7073,
+      "step": 97
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 9.055148681119688e-05,
+      "loss": 0.7765,
+      "step": 98
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 8.866923223987302e-05,
+      "loss": 0.6896,
+      "step": 99
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 8.679103583582979e-05,
+      "loss": 0.6527,
+      "step": 100
+    },
+    {
+      "epoch": 1.7,
+      "eval_loss": 0.8596932291984558,
+      "eval_runtime": 0.897,
+      "eval_samples_per_second": 22.297,
+      "eval_steps_per_second": 5.574,
+      "step": 100
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 8.491757028386263e-05,
+      "loss": 0.6335,
+      "step": 101
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 8.304950657439033e-05,
+      "loss": 0.6348,
+      "step": 102
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 8.118751376313664e-05,
+      "loss": 0.6983,
+      "step": 103
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 7.93322587315047e-05,
+      "loss": 0.7995,
+      "step": 104
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 7.74844059477306e-05,
+      "loss": 0.654,
+      "step": 105
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 7.564461722890081e-05,
+      "loss": 0.6507,
+      "step": 106
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 7.381355150391933e-05,
+      "loss": 0.6623,
+      "step": 107
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 7.19918645775093e-05,
+      "loss": 0.7539,
+      "step": 108
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 7.018020889533348e-05,
+      "loss": 0.755,
+      "step": 109
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 6.83792333103176e-05,
+      "loss": 0.6394,
+      "step": 110
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 6.658958285026102e-05,
+      "loss": 0.7545,
+      "step": 111
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 6.48118984868167e-05,
+      "loss": 0.7215,
+      "step": 112
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 6.304681690592431e-05,
+      "loss": 0.581,
+      "step": 113
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 6.129497027977829e-05,
+      "loss": 0.673,
+      "step": 114
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 5.955698604041231e-05,
+      "loss": 0.6878,
+      "step": 115
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 5.7833486654981606e-05,
+      "loss": 0.738,
+      "step": 116
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 5.6125089402823485e-05,
+      "loss": 0.812,
+      "step": 117
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 5.443240615437586e-05,
+      "loss": 0.5997,
+      "step": 118
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 5.275604315203293e-05,
+      "loss": 0.6187,
+      "step": 119
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 5.109660079301668e-05,
+      "loss": 0.7232,
+      "step": 120
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 4.945467341434195e-05,
+      "loss": 0.7089,
+      "step": 121
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 4.783084907995156e-05,
+      "loss": 0.6914,
+      "step": 122
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 4.622570937009879e-05,
+      "loss": 0.6114,
+      "step": 123
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 4.4639829173051554e-05,
+      "loss": 0.5577,
+      "step": 124
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 4.307377647919343e-05,
+      "loss": 0.6421,
+      "step": 125
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 4.152811217759529e-05,
+      "loss": 0.6418,
+      "step": 126
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 4.000338985513046e-05,
+      "loss": 0.6358,
+      "step": 127
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 3.8500155598204644e-05,
+      "loss": 0.6426,
+      "step": 128
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 3.701894779717286e-05,
+      "loss": 0.5322,
+      "step": 129
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 3.5560296953512295e-05,
+      "loss": 0.635,
+      "step": 130
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 3.4124725489820645e-05,
+      "loss": 0.5777,
+      "step": 131
+    },
+    {
+      "epoch": 2.25,
+      "learning_rate": 3.2712747562708115e-05,
+      "loss": 0.7093,
+      "step": 132
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 3.132486887864992e-05,
+      "loss": 0.5785,
+      "step": 133
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 2.9961586512864947e-05,
+      "loss": 0.5838,
+      "step": 134
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 2.8623388731286093e-05,
+      "loss": 0.5222,
+      "step": 135
+    },
+    {
+      "epoch": 2.31,
+      "learning_rate": 2.7310754815685624e-05,
+      "loss": 0.6518,
+      "step": 136
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 2.6024154892017937e-05,
+      "loss": 0.5586,
+      "step": 137
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 2.4764049762041874e-05,
+      "loss": 0.5685,
+      "step": 138
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 2.353089073828255e-05,
+      "loss": 0.5602,
+      "step": 139
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 2.2325119482391467e-05,
+      "loss": 0.6436,
+      "step": 140
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 2.1147167846963422e-05,
+      "loss": 0.6939,
+      "step": 141
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 1.999745772086655e-05,
+      "loss": 0.7147,
+      "step": 142
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 1.8876400878140775e-05,
+      "loss": 0.6701,
+      "step": 143
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 1.7784398830519e-05,
+      "loss": 0.691,
+      "step": 144
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 1.672184268362391e-05,
+      "loss": 0.6358,
+      "step": 145
+    },
+    {
+      "epoch": 2.49,
+      "learning_rate": 1.5689112996891576e-05,
+      "loss": 0.5967,
+      "step": 146
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 1.4686579647272336e-05,
+      "loss": 0.6047,
+      "step": 147
+    },
+    {
+      "epoch": 2.52,
+      "learning_rate": 1.3714601696757712e-05,
+      "loss": 0.6241,
+      "step": 148
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 1.2773527263780626e-05,
+      "loss": 0.6553,
+      "step": 149
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 1.1863693398535114e-05,
+      "loss": 0.5639,
+      "step": 150
+    },
+    {
+      "epoch": 2.55,
+      "eval_loss": 0.8483209609985352,
+      "eval_runtime": 0.9949,
+      "eval_samples_per_second": 20.102,
+      "eval_steps_per_second": 5.025,
+      "step": 150
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 1.0985425962260343e-05,
+      "loss": 0.57,
+      "step": 151
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 1.01390395105318e-05,
+      "loss": 0.5924,
+      "step": 152
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 9.324837180601741e-06,
+      "loss": 0.6156,
+      "step": 153
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 8.543110582829272e-06,
+      "loss": 0.5449,
+      "step": 154
+    },
+    {
+      "epoch": 2.64,
+      "learning_rate": 7.794139696238645e-06,
+      "loss": 0.6187,
+      "step": 155
+    },
+    {
+      "epoch": 2.66,
+      "learning_rate": 7.078192768243486e-06,
+      "loss": 0.5636,
+      "step": 156
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 6.395526218572723e-06,
+      "loss": 0.6078,
+      "step": 157
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 5.746384547432737e-06,
+      "loss": 0.5925,
+      "step": 158
+    },
+    {
+      "epoch": 2.71,
+      "learning_rate": 5.131000247938367e-06,
+      "loss": 0.5647,
+      "step": 159
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 4.549593722844492e-06,
+      "loss": 0.5503,
+      "step": 160
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 4.002373205607723e-06,
+      "loss": 0.605,
+      "step": 161
+    },
+    {
+      "epoch": 2.76,
+      "learning_rate": 3.4895346858066724e-06,
+      "loss": 0.6888,
+      "step": 162
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 3.011261838947277e-06,
+      "loss": 0.668,
+      "step": 163
+    },
+    {
+      "epoch": 2.79,
+      "learning_rate": 2.5677259606786684e-06,
+      "loss": 0.5715,
+      "step": 164
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 2.159085905442737e-06,
+      "loss": 0.6772,
+      "step": 165
+    },
+    {
+      "epoch": 2.83,
+      "learning_rate": 1.7854880295797405e-06,
+      "loss": 0.5826,
+      "step": 166
+    },
+    {
+      "epoch": 2.84,
+      "learning_rate": 1.4470661389100804e-06,
+      "loss": 0.7116,
+      "step": 167
+    },
+    {
+      "epoch": 2.86,
+      "learning_rate": 1.143941440811147e-06,
+      "loss": 0.512,
+      "step": 168
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 8.762225008062674e-07,
+      "loss": 0.6045,
+      "step": 169
+    },
+    {
+      "epoch": 2.89,
+      "learning_rate": 6.440052036815081e-07,
+      "loss": 0.5852,
+      "step": 170
+    },
+    {
+      "epoch": 2.91,
+      "learning_rate": 4.4737271914411236e-07,
+      "loss": 0.5565,
+      "step": 171
+    },
+    {
+      "epoch": 2.93,
+      "learning_rate": 2.86395472034795e-07,
+      "loss": 0.7202,
+      "step": 172
+    },
+    {
+      "epoch": 2.94,
+      "learning_rate": 1.611311171048735e-07,
+      "loss": 0.6077,
+      "step": 173
+    },
+    {
+      "epoch": 2.96,
+      "learning_rate": 7.162451836685291e-08,
+      "loss": 0.5935,
+      "step": 174
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 174,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "total_flos": 7493194676305920.0,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-174/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:559e05578fbf1f6e78fc368cebf479663b2065af16b04f27bd99e7e2b2e8f04f
+size 4155

checkpoint-58/README.md ADDED Viewed

	@@ -0,0 +1,21 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: True
+- load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+### Framework versions
+- PEFT 0.5.0.dev0

checkpoint-58/adapter_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "openlm-research/open_llama_3b",
+  "bias": "none",
+  "fan_in_fan_out": null,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 16,
+  "lora_dropout": 0.0,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "revision": null,
+  "target_modules": [
+    "gate_proj",
+    "down_proj",
+    "up_proj",
+    "q_proj",
+    "v_proj",
+    "k_proj",
+    "o_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

checkpoint-58/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:08d8d95a2be0f5363874736804a98386ca5f228eb66423900564477cac9f0882
+size 50982397

checkpoint-58/adapter_model/README.md ADDED Viewed

	@@ -0,0 +1,21 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: True
+- load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+### Framework versions
+- PEFT 0.5.0.dev0

checkpoint-58/adapter_model/adapter_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "openlm-research/open_llama_3b",
+  "bias": "none",
+  "fan_in_fan_out": null,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 16,
+  "lora_dropout": 0.0,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "revision": null,
+  "target_modules": [
+    "gate_proj",
+    "down_proj",
+    "up_proj",
+    "q_proj",
+    "v_proj",
+    "k_proj",
+    "o_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

checkpoint-58/adapter_model/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:08d8d95a2be0f5363874736804a98386ca5f228eb66423900564477cac9f0882
+size 50982397

checkpoint-58/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:691d6dcb5ae651c580cda18c098a72e195894258965523266c8ca073247ea722
+size 25871055

checkpoint-58/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1784c9e20ffdc46b706882695c2108245d7626a328b6d70a37d079ad1fbbc989
+size 14575

checkpoint-58/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b8f691665837dc2e76de0eb8d9e5e7aedb01a74e8a8842c8acb9b4a4a0ae6a4f
+size 627

checkpoint-58/trainer_state.json ADDED Viewed

	@@ -0,0 +1,375 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.9872340425531915,
+  "eval_steps": 50,
+  "global_step": 58,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 1.6896,
+      "step": 1
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 4e-05,
+      "loss": 1.632,
+      "step": 2
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 6e-05,
+      "loss": 1.7197,
+      "step": 3
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 8e-05,
+      "loss": 1.6988,
+      "step": 4
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0001,
+      "loss": 1.4945,
+      "step": 5
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.00012,
+      "loss": 1.4763,
+      "step": 6
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00014,
+      "loss": 1.4645,
+      "step": 7
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00016,
+      "loss": 1.1569,
+      "step": 8
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00018,
+      "loss": 1.4501,
+      "step": 9
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0002,
+      "loss": 1.1972,
+      "step": 10
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.00019998209226697376,
+      "loss": 1.1479,
+      "step": 11
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00019992837548163316,
+      "loss": 1.1791,
+      "step": 12
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00019983886888289514,
+      "loss": 1.1471,
+      "step": 13
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00019971360452796522,
+      "loss": 0.9662,
+      "step": 14
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0001995526272808559,
+      "loss": 1.2166,
+      "step": 15
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0001993559947963185,
+      "loss": 1.1023,
+      "step": 16
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.00019912377749919374,
+      "loss": 0.9719,
+      "step": 17
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00019885605855918885,
+      "loss": 0.9122,
+      "step": 18
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00019855293386108992,
+      "loss": 0.8808,
+      "step": 19
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00019821451197042026,
+      "loss": 1.0081,
+      "step": 20
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00019784091409455728,
+      "loss": 1.0147,
+      "step": 21
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.00019743227403932134,
+      "loss": 0.8792,
+      "step": 22
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00019698873816105273,
+      "loss": 0.8762,
+      "step": 23
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00019651046531419332,
+      "loss": 0.7916,
+      "step": 24
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.0001959976267943923,
+      "loss": 0.8967,
+      "step": 25
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0001954504062771555,
+      "loss": 1.0575,
+      "step": 26
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00019486899975206166,
+      "loss": 0.9374,
+      "step": 27
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00019425361545256727,
+      "loss": 0.8697,
+      "step": 28
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00019360447378142728,
+      "loss": 0.788,
+      "step": 29
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.00019292180723175654,
+      "loss": 0.8215,
+      "step": 30
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.00019220586030376134,
+      "loss": 0.8943,
+      "step": 31
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00019145688941717075,
+      "loss": 0.7825,
+      "step": 32
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.00019067516281939825,
+      "loss": 0.9878,
+      "step": 33
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00018986096048946824,
+      "loss": 0.8517,
+      "step": 34
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00018901457403773967,
+      "loss": 0.8132,
+      "step": 35
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.00018813630660146488,
+      "loss": 0.9143,
+      "step": 36
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.0001872264727362194,
+      "loss": 0.8659,
+      "step": 37
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00018628539830324229,
+      "loss": 0.7977,
+      "step": 38
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00018531342035272766,
+      "loss": 0.8188,
+      "step": 39
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00018431088700310844,
+      "loss": 0.871,
+      "step": 40
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.00018327815731637612,
+      "loss": 0.6939,
+      "step": 41
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00018221560116948103,
+      "loss": 0.8147,
+      "step": 42
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00018112359912185924,
+      "loss": 0.8898,
+      "step": 43
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.00018000254227913348,
+      "loss": 0.8074,
+      "step": 44
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.0001788528321530366,
+      "loss": 0.8351,
+      "step": 45
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00017767488051760857,
+      "loss": 0.8811,
+      "step": 46
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.00017646910926171747,
+      "loss": 0.792,
+      "step": 47
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.00017523595023795813,
+      "loss": 0.8558,
+      "step": 48
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.0001739758451079821,
+      "loss": 0.8308,
+      "step": 49
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.00017268924518431438,
+      "loss": 0.8504,
+      "step": 50
+    },
+    {
+      "epoch": 0.85,
+      "eval_loss": 0.8740054368972778,
+      "eval_runtime": 0.8959,
+      "eval_samples_per_second": 22.324,
+      "eval_steps_per_second": 5.581,
+      "step": 50
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.0001713766112687139,
+      "loss": 0.83,
+      "step": 51
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 0.0001700384134871351,
+      "loss": 0.7499,
+      "step": 52
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.00016867513112135013,
+      "loss": 0.8685,
+      "step": 53
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.0001672872524372919,
+      "loss": 0.807,
+      "step": 54
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.00016587527451017938,
+      "loss": 0.8627,
+      "step": 55
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 0.0001644397030464877,
+      "loss": 0.7606,
+      "step": 56
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 0.00016298105220282713,
+      "loss": 0.8284,
+      "step": 57
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.00016149984440179537,
+      "loss": 0.8585,
+      "step": 58
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 174,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "total_flos": 2526774948986880.0,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-58/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:559e05578fbf1f6e78fc368cebf479663b2065af16b04f27bd99e7e2b2e8f04f
+size 4155

merged/config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "_name_or_path": "openlm-research/open_llama_3b",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "hidden_act": "silu",
+  "hidden_size": 3200,
+  "initializer_range": 0.02,
+  "intermediate_size": 8640,
+  "max_position_embeddings": 2048,
+  "model_type": "llama",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 26,
+  "num_key_value_heads": 32,
+  "pad_token_id": 0,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float16",
+  "transformers_version": "4.32.0.dev0",
+  "use_cache": false,
+  "vocab_size": 32000
+}

merged/generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "pad_token_id": 0,
+  "transformers_version": "4.32.0.dev0"
+}

merged/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e56879fbda600867b4539a13e2ec8d555c248048096af0ccda294049d65e12c9
+size 6853024617

merged/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token": "<s>",
+  "eos_token": "</s>",
+  "pad_token": "[PAD]",
+  "unk_token": "<unk>"
+}

merged/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ab1b681ec7fc02fed5edd3026687d7a692a918c4dd8e150ca2e3994a6229843b
+size 534194

merged/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,36 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "bos_token": {
+    "__type": "AddedToken",
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "clean_up_tokenization_spaces": false,
+  "eos_token": {
+    "__type": "AddedToken",
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "legacy": null,
+  "model_max_length": 2048,
+  "pad_token": null,
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "trust_remote_code": false,
+  "unk_token": {
+    "__type": "AddedToken",
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "use_fast": true
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token": "<s>",
+  "eos_token": "</s>",
+  "pad_token": "[PAD]",
+  "unk_token": "<unk>"
+}

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ab1b681ec7fc02fed5edd3026687d7a692a918c4dd8e150ca2e3994a6229843b
+size 534194

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,36 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "bos_token": {
+    "__type": "AddedToken",
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "clean_up_tokenization_spaces": false,
+  "eos_token": {
+    "__type": "AddedToken",
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "legacy": null,
+  "model_max_length": 2048,
+  "pad_token": null,
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "trust_remote_code": false,
+  "unk_token": {
+    "__type": "AddedToken",
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "use_fast": true
+}