Upload 8 files

Browse files

Files changed (8) hide show

README.md +21 -0
adapter_config.json +22 -0
adapter_model.bin +3 -0
optimizer.pt +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
trainer_state.json +619 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,21 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: True
+- load_in_4bit: False
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: fp4
+- bnb_4bit_use_double_quant: False
+- bnb_4bit_compute_dtype: float32
+### Framework versions
+- PEFT 0.5.0.dev0

adapter_config.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "DopeorNope/COKAL-13b-v1",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 16,
+  "lora_dropout": 0.05,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 16,
+  "revision": null,
+  "target_modules": [
+    "gate_proj",
+    "down_proj",
+    "up_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0caecad22a42849485bea450d4363b76e52f0b543ebbb63ec17acf47cc3e410c
+size 145576202

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:33b5ae0ac06f6d91de75d4bc75c497bc52fa1368312209a90a491affa236bc02
+size 291182202

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:122892c62c3cabc6cf8fa914201322598c0dab7ce959861f2b1127efe09d1f55
+size 14244

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c1c15e6f8c2ff53feb785328b55555b41d928d4b307dbe488cb8acac812e17af
+size 1064

trainer_state.json ADDED Viewed

	@@ -0,0 +1,619 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.1374629494394089,
+  "eval_steps": 500,
+  "global_step": 100,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 9.999953315763929e-06,
+      "loss": 7.3258,
+      "step": 1
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 9.999813263927483e-06,
+      "loss": 5.3323,
+      "step": 2
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 9.999579847105947e-06,
+      "loss": 4.8026,
+      "step": 3
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 9.999253069658074e-06,
+      "loss": 4.693,
+      "step": 4
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 9.99883293768601e-06,
+      "loss": 5.4127,
+      "step": 5
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 9.998319459035168e-06,
+      "loss": 4.9792,
+      "step": 6
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 9.997712643294093e-06,
+      "loss": 5.1656,
+      "step": 7
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 9.997012501794273e-06,
+      "loss": 4.5127,
+      "step": 8
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 9.996219047609943e-06,
+      "loss": 4.9538,
+      "step": 9
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 9.995332295557818e-06,
+      "loss": 4.5908,
+      "step": 10
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 9.994352262196839e-06,
+      "loss": 5.3602,
+      "step": 11
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 9.993278965827844e-06,
+      "loss": 4.705,
+      "step": 12
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 9.992112426493247e-06,
+      "loss": 4.7682,
+      "step": 13
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 9.990852665976648e-06,
+      "loss": 4.5893,
+      "step": 14
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 9.989499707802424e-06,
+      "loss": 4.9069,
+      "step": 15
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 9.988053577235306e-06,
+      "loss": 9.8812,
+      "step": 16
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 9.986514301279894e-06,
+      "loss": 4.8938,
+      "step": 17
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 9.984881908680157e-06,
+      "loss": 4.7196,
+      "step": 18
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 9.983156429918895e-06,
+      "loss": 5.1751,
+      "step": 19
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 9.981337897217171e-06,
+      "loss": 5.1721,
+      "step": 20
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 9.979426344533712e-06,
+      "loss": 5.693,
+      "step": 21
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 9.977421807564264e-06,
+      "loss": 4.7993,
+      "step": 22
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 9.97532432374094e-06,
+      "loss": 4.8612,
+      "step": 23
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 9.973133932231514e-06,
+      "loss": 4.7676,
+      "step": 24
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 9.970850673938684e-06,
+      "loss": 7.3205,
+      "step": 25
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 9.96847459149932e-06,
+      "loss": 4.4044,
+      "step": 26
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 9.966005729283658e-06,
+      "loss": 4.6814,
+      "step": 27
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 9.963444133394478e-06,
+      "loss": 4.999,
+      "step": 28
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 9.960789851666237e-06,
+      "loss": 4.5622,
+      "step": 29
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 9.958042933664186e-06,
+      "loss": 4.7441,
+      "step": 30
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 9.955203430683425e-06,
+      "loss": 6.912,
+      "step": 31
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 9.952271395747969e-06,
+      "loss": 5.1326,
+      "step": 32
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 9.949246883609743e-06,
+      "loss": 5.7146,
+      "step": 33
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 9.94612995074756e-06,
+      "loss": 4.6791,
+      "step": 34
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 9.942920655366075e-06,
+      "loss": 4.877,
+      "step": 35
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 9.939619057394687e-06,
+      "loss": 6.1258,
+      "step": 36
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 9.936225218486428e-06,
+      "loss": 4.5972,
+      "step": 37
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 9.93273920201681e-06,
+      "loss": 5.1205,
+      "step": 38
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 9.929161073082636e-06,
+      "loss": 4.785,
+      "step": 39
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 9.925490898500796e-06,
+      "loss": 4.2566,
+      "step": 40
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 9.921728746807008e-06,
+      "loss": 4.9092,
+      "step": 41
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 9.917874688254542e-06,
+      "loss": 4.4576,
+      "step": 42
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 9.913928794812909e-06,
+      "loss": 9.2704,
+      "step": 43
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 9.90989114016652e-06,
+      "loss": 4.8584,
+      "step": 44
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 9.905761799713302e-06,
+      "loss": 4.6457,
+      "step": 45
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 9.901540850563295e-06,
+      "loss": 4.7786,
+      "step": 46
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 9.89722837153722e-06,
+      "loss": 3.9414,
+      "step": 47
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 9.892824443164987e-06,
+      "loss": 5.1103,
+      "step": 48
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 9.88832914768421e-06,
+      "loss": 4.974,
+      "step": 49
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 9.883742569038663e-06,
+      "loss": 5.0371,
+      "step": 50
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 9.879064792876717e-06,
+      "loss": 5.6217,
+      "step": 51
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 9.874295906549728e-06,
+      "loss": 5.0545,
+      "step": 52
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 9.869435999110428e-06,
+      "loss": 4.2826,
+      "step": 53
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 9.864485161311242e-06,
+      "loss": 4.9842,
+      "step": 54
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 9.859443485602603e-06,
+      "loss": 5.1379,
+      "step": 55
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 9.85431106613122e-06,
+      "loss": 4.3783,
+      "step": 56
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 9.849087998738328e-06,
+      "loss": 5.0505,
+      "step": 57
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 9.84377438095789e-06,
+      "loss": 4.3546,
+      "step": 58
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 9.838370312014783e-06,
+      "loss": 3.8583,
+      "step": 59
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 9.832875892822937e-06,
+      "loss": 5.3064,
+      "step": 60
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 9.827291225983458e-06,
+      "loss": 4.9614,
+      "step": 61
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 9.821616415782708e-06,
+      "loss": 4.6139,
+      "step": 62
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 9.815851568190358e-06,
+      "loss": 4.377,
+      "step": 63
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 9.80999679085741e-06,
+      "loss": 4.7139,
+      "step": 64
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 9.80405219311419e-06,
+      "loss": 4.6675,
+      "step": 65
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 9.798017885968295e-06,
+      "loss": 4.9449,
+      "step": 66
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 9.791893982102537e-06,
+      "loss": 4.0762,
+      "step": 67
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 9.785680595872824e-06,
+      "loss": 4.7968,
+      "step": 68
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 9.77937784330603e-06,
+      "loss": 4.8185,
+      "step": 69
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 9.772985842097832e-06,
+      "loss": 4.2703,
+      "step": 70
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 9.766504711610507e-06,
+      "loss": 4.9194,
+      "step": 71
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 9.759934572870706e-06,
+      "loss": 4.1361,
+      "step": 72
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 9.753275548567192e-06,
+      "loss": 4.1172,
+      "step": 73
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 9.74652776304855e-06,
+      "loss": 3.9886,
+      "step": 74
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 9.739691342320866e-06,
+      "loss": 4.671,
+      "step": 75
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 9.732766414045368e-06,
+      "loss": 4.0636,
+      "step": 76
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 9.725753107536053e-06,
+      "loss": 4.1989,
+      "step": 77
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 9.718651553757266e-06,
+      "loss": 8.7987,
+      "step": 78
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 9.711461885321247e-06,
+      "loss": 4.2278,
+      "step": 79
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 9.704184236485672e-06,
+      "loss": 4.8235,
+      "step": 80
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 9.696818743151128e-06,
+      "loss": 4.5301,
+      "step": 81
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 9.68936554285859e-06,
+      "loss": 4.3466,
+      "step": 82
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 9.68182477478684e-06,
+      "loss": 4.0524,
+      "step": 83
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 9.67419657974988e-06,
+      "loss": 4.7024,
+      "step": 84
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 9.66648110019429e-06,
+      "loss": 4.9533,
+      "step": 85
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 9.658678480196579e-06,
+      "loss": 4.568,
+      "step": 86
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 9.650788865460487e-06,
+      "loss": 4.8176,
+      "step": 87
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 9.642812403314272e-06,
+      "loss": 5.1862,
+      "step": 88
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 9.634749242707948e-06,
+      "loss": 6.4518,
+      "step": 89
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 9.626599534210514e-06,
+      "loss": 4.2189,
+      "step": 90
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 9.618363430007134e-06,
+      "loss": 4.8472,
+      "step": 91
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 9.610041083896304e-06,
+      "loss": 3.8581,
+      "step": 92
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 9.60163265128697e-06,
+      "loss": 4.1841,
+      "step": 93
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 9.593138289195634e-06,
+      "loss": 4.8045,
+      "step": 94
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 9.584558156243418e-06,
+      "loss": 4.7419,
+      "step": 95
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 9.575892412653102e-06,
+      "loss": 4.8213,
+      "step": 96
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 9.567141220246136e-06,
+      "loss": 4.4465,
+      "step": 97
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 9.55830474243961e-06,
+      "loss": 4.3745,
+      "step": 98
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 9.549383144243213e-06,
+      "loss": 4.8063,
+      "step": 99
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 9.540376592256142e-06,
+      "loss": 4.2272,
+      "step": 100
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 727,
+  "num_train_epochs": 1,
+  "save_steps": 25,
+  "total_flos": 2.4358617964044288e+17,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c42aaf2174ad5ae869b72a3e32f7e9cb08492775bd8975f1af0df2b52e382b76
+size 4536