Initial commit

Browse files

Files changed (4) hide show

adapter_config.json +17 -0
adapter_model.bin +3 -0
added_tokens.json +3 -0
trainer_state.json +250 -0

adapter_config.json ADDED Viewed

	@@ -0,0 +1,17 @@

+{
+  "base_model_name_or_path": "alpaca-7B",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "lora_alpha": 16,
+  "lora_dropout": 0.05,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ba70975dae2a4f1452e8cd777c91087d68807a83c51863ddcab225b15776bdc3
+size 8434381

added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[PAD]": 32000
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,250 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 17.999285459092533,
+  "global_step": 5038,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0002,
+      "loss": 1.2306,
+      "step": 128
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 0.0002,
+      "loss": 1.0373,
+      "step": 256
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 0.0002,
+      "loss": 0.983,
+      "step": 384
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 0.0002,
+      "loss": 0.97,
+      "step": 512
+    },
+    {
+      "epoch": 2.29,
+      "learning_rate": 0.0002,
+      "loss": 0.9417,
+      "step": 640
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 0.0002,
+      "loss": 0.9256,
+      "step": 768
+    },
+    {
+      "epoch": 3.2,
+      "learning_rate": 0.0002,
+      "loss": 0.9053,
+      "step": 896
+    },
+    {
+      "epoch": 3.66,
+      "learning_rate": 0.0002,
+      "loss": 0.8893,
+      "step": 1024
+    },
+    {
+      "epoch": 4.12,
+      "learning_rate": 0.0002,
+      "loss": 0.8817,
+      "step": 1152
+    },
+    {
+      "epoch": 4.57,
+      "learning_rate": 0.0002,
+      "loss": 0.8662,
+      "step": 1280
+    },
+    {
+      "epoch": 5.03,
+      "learning_rate": 0.0002,
+      "loss": 0.8612,
+      "step": 1408
+    },
+    {
+      "epoch": 5.49,
+      "learning_rate": 0.0002,
+      "loss": 0.8391,
+      "step": 1536
+    },
+    {
+      "epoch": 5.94,
+      "learning_rate": 0.0002,
+      "loss": 0.8434,
+      "step": 1664
+    },
+    {
+      "epoch": 6.4,
+      "learning_rate": 0.0002,
+      "loss": 0.8167,
+      "step": 1792
+    },
+    {
+      "epoch": 6.86,
+      "learning_rate": 0.0002,
+      "loss": 0.8239,
+      "step": 1920
+    },
+    {
+      "epoch": 7.32,
+      "learning_rate": 0.0002,
+      "loss": 0.8046,
+      "step": 2048
+    },
+    {
+      "epoch": 7.77,
+      "learning_rate": 0.0002,
+      "loss": 0.8053,
+      "step": 2176
+    },
+    {
+      "epoch": 8.23,
+      "learning_rate": 0.0002,
+      "loss": 0.7903,
+      "step": 2304
+    },
+    {
+      "epoch": 8.69,
+      "learning_rate": 0.0002,
+      "loss": 0.7868,
+      "step": 2432
+    },
+    {
+      "epoch": 9.15,
+      "learning_rate": 0.0002,
+      "loss": 0.7763,
+      "step": 2560
+    },
+    {
+      "epoch": 9.6,
+      "learning_rate": 0.0002,
+      "loss": 0.7658,
+      "step": 2688
+    },
+    {
+      "epoch": 10.06,
+      "learning_rate": 0.0002,
+      "loss": 0.7669,
+      "step": 2816
+    },
+    {
+      "epoch": 10.52,
+      "learning_rate": 0.0002,
+      "loss": 0.7443,
+      "step": 2944
+    },
+    {
+      "epoch": 10.98,
+      "learning_rate": 0.0002,
+      "loss": 0.7597,
+      "step": 3072
+    },
+    {
+      "epoch": 11.43,
+      "learning_rate": 0.0002,
+      "loss": 0.7313,
+      "step": 3200
+    },
+    {
+      "epoch": 11.89,
+      "learning_rate": 0.0002,
+      "loss": 0.7388,
+      "step": 3328
+    },
+    {
+      "epoch": 12.35,
+      "learning_rate": 0.0002,
+      "loss": 0.7202,
+      "step": 3456
+    },
+    {
+      "epoch": 12.8,
+      "learning_rate": 0.0002,
+      "loss": 0.7231,
+      "step": 3584
+    },
+    {
+      "epoch": 13.26,
+      "learning_rate": 0.0002,
+      "loss": 0.711,
+      "step": 3712
+    },
+    {
+      "epoch": 13.72,
+      "learning_rate": 0.0002,
+      "loss": 0.7066,
+      "step": 3840
+    },
+    {
+      "epoch": 14.18,
+      "learning_rate": 0.0002,
+      "loss": 0.7015,
+      "step": 3968
+    },
+    {
+      "epoch": 14.63,
+      "learning_rate": 0.0002,
+      "loss": 0.6885,
+      "step": 4096
+    },
+    {
+      "epoch": 15.09,
+      "learning_rate": 0.0002,
+      "loss": 0.6938,
+      "step": 4224
+    },
+    {
+      "epoch": 15.55,
+      "learning_rate": 0.0002,
+      "loss": 0.6753,
+      "step": 4352
+    },
+    {
+      "epoch": 16.01,
+      "learning_rate": 0.0002,
+      "loss": 0.6863,
+      "step": 4480
+    },
+    {
+      "epoch": 16.46,
+      "learning_rate": 0.0002,
+      "loss": 0.6546,
+      "step": 4608
+    },
+    {
+      "epoch": 16.92,
+      "learning_rate": 0.0002,
+      "loss": 0.6739,
+      "step": 4736
+    },
+    {
+      "epoch": 17.38,
+      "learning_rate": 0.0002,
+      "loss": 0.6436,
+      "step": 4864
+    },
+    {
+      "epoch": 17.83,
+      "learning_rate": 0.0002,
+      "loss": 0.6589,
+      "step": 4992
+    }
+  ],
+  "max_steps": 5580,
+  "num_train_epochs": 20,
+  "total_flos": 2.989931152539648e+16,
+  "trial_name": null,
+  "trial_params": null
+}