initial

Browse files

Files changed (16) hide show

output/adapter_config.json +19 -0
output/adapter_model.bin +3 -0
output/checkpoint-200/optimizer.pt +3 -0
output/checkpoint-200/pytorch_model.bin +3 -0
output/checkpoint-200/rng_state.pth +3 -0
output/checkpoint-200/scaler.pt +3 -0
output/checkpoint-200/scheduler.pt +3 -0
output/checkpoint-200/trainer_state.json +144 -0
output/checkpoint-200/training_args.bin +3 -0
output/checkpoint-400/optimizer.pt +3 -0
output/checkpoint-400/pytorch_model.bin +3 -0
output/checkpoint-400/rng_state.pth +3 -0
output/checkpoint-400/scaler.pt +3 -0
output/checkpoint-400/scheduler.pt +3 -0
output/checkpoint-400/trainer_state.json +272 -0
output/checkpoint-400/training_args.bin +3 -0

output/adapter_config.json ADDED Viewed

	@@ -0,0 +1,19 @@

+{
+  "base_model_name_or_path": "decapoda-research/llama-7b-hf",
+  "bias": "none",
+  "enable_lora": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "lora_alpha": 16,
+  "lora_dropout": 0.05,
+  "merge_weights": false,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

output/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:264ddd3f28010ed2b3694ad851bfabf22177a5f2dd3bc83d3559e4957795916d
+size 16822989

output/checkpoint-200/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:63c42f5446e07f8fdaa2033bf0d8f37570b439506b8ad6642138c012304b787d
+size 33661573

output/checkpoint-200/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:71b2505f42aa0ff61b4406a8139865c60599c0c4077ef16f301ee4e04a855d4a
+size 16822989

output/checkpoint-200/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:601d4500e39cb956c51c0f30a51406f3b11a9e8229a2f77210205587ec4663b2
+size 14575

output/checkpoint-200/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4fccf0f9be1bb8f24861e4393745b3e09cc2687125a69e3757955fb0f0925ea5
+size 557

output/checkpoint-200/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5847d9cb02afd98e15bd9d3c1a9609ab5d64f04e31347c2e0420149d64790a46
+size 627

output/checkpoint-200/trainer_state.json ADDED Viewed

	@@ -0,0 +1,144 @@

+{
+  "best_metric": 0.4859355092048645,
+  "best_model_checkpoint": "./output/checkpoint-200",
+  "epoch": 2.1498152502519314,
+  "global_step": 200,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.11,
+      "learning_rate": 5e-06,
+      "loss": 1.5355,
+      "step": 10
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 1e-05,
+      "loss": 1.5218,
+      "step": 20
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 1.5e-05,
+      "loss": 1.4822,
+      "step": 30
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 2e-05,
+      "loss": 1.4292,
+      "step": 40
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 2.5e-05,
+      "loss": 1.3539,
+      "step": 50
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 3e-05,
+      "loss": 1.2282,
+      "step": 60
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 3.5e-05,
+      "loss": 1.0398,
+      "step": 70
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 4e-05,
+      "loss": 0.8365,
+      "step": 80
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 4.5e-05,
+      "loss": 0.6591,
+      "step": 90
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 5e-05,
+      "loss": 0.5647,
+      "step": 100
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 4.863013698630137e-05,
+      "loss": 0.5343,
+      "step": 110
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 4.726027397260274e-05,
+      "loss": 0.5249,
+      "step": 120
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 4.589041095890411e-05,
+      "loss": 0.5126,
+      "step": 130
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 4.452054794520548e-05,
+      "loss": 0.5099,
+      "step": 140
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 4.3150684931506855e-05,
+      "loss": 0.5067,
+      "step": 150
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 4.1780821917808224e-05,
+      "loss": 0.5047,
+      "step": 160
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 4.041095890410959e-05,
+      "loss": 0.4949,
+      "step": 170
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 3.904109589041096e-05,
+      "loss": 0.4961,
+      "step": 180
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 3.767123287671233e-05,
+      "loss": 0.4933,
+      "step": 190
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 3.63013698630137e-05,
+      "loss": 0.488,
+      "step": 200
+    },
+    {
+      "epoch": 2.15,
+      "eval_loss": 0.4859355092048645,
+      "eval_runtime": 182.5747,
+      "eval_samples_per_second": 10.954,
+      "eval_steps_per_second": 1.369,
+      "step": 200
+    }
+  ],
+  "max_steps": 465,
+  "num_train_epochs": 5,
+  "total_flos": 1.0396612701664051e+18,
+  "trial_name": null,
+  "trial_params": null
+}

output/checkpoint-200/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ffa36d102a7c05bde31c70e8c3969cc59f38e6bbea8fa02842c42b16923b4cbe
+size 3899

output/checkpoint-400/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:79eaea366a249efe8d0f6ce8b45c1d0632cd88cca387bfe5d8fb0dad8038173f
+size 33661573

output/checkpoint-400/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d83107d6383e8e913fd506b45b52b5e8aec39ed53f3355232c01818e1f9267bf
+size 16822989

output/checkpoint-400/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5e1d4cf89ceee65d888e964ca4066fc976bb2f8e750e435b6eb2d1e97d43ca0f
+size 14575

output/checkpoint-400/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cc40a4be6a52cee4d7658df4041e660ffa02b0d8b5bd143bb8bb397f7b71b1a5
+size 557

output/checkpoint-400/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:738a2afbc585e0ae0fb6c994dcc0db2ea2a077e0ec8539560958f8a2dfc96a47
+size 627

output/checkpoint-400/trainer_state.json ADDED Viewed

	@@ -0,0 +1,272 @@

+{
+  "best_metric": 0.4640955328941345,
+  "best_model_checkpoint": "./output/checkpoint-400",
+  "epoch": 4.299630500503863,
+  "global_step": 400,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.11,
+      "learning_rate": 5e-06,
+      "loss": 1.5355,
+      "step": 10
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 1e-05,
+      "loss": 1.5218,
+      "step": 20
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 1.5e-05,
+      "loss": 1.4822,
+      "step": 30
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 2e-05,
+      "loss": 1.4292,
+      "step": 40
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 2.5e-05,
+      "loss": 1.3539,
+      "step": 50
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 3e-05,
+      "loss": 1.2282,
+      "step": 60
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 3.5e-05,
+      "loss": 1.0398,
+      "step": 70
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 4e-05,
+      "loss": 0.8365,
+      "step": 80
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 4.5e-05,
+      "loss": 0.6591,
+      "step": 90
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 5e-05,
+      "loss": 0.5647,
+      "step": 100
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 4.863013698630137e-05,
+      "loss": 0.5343,
+      "step": 110
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 4.726027397260274e-05,
+      "loss": 0.5249,
+      "step": 120
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 4.589041095890411e-05,
+      "loss": 0.5126,
+      "step": 130
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 4.452054794520548e-05,
+      "loss": 0.5099,
+      "step": 140
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 4.3150684931506855e-05,
+      "loss": 0.5067,
+      "step": 150
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 4.1780821917808224e-05,
+      "loss": 0.5047,
+      "step": 160
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 4.041095890410959e-05,
+      "loss": 0.4949,
+      "step": 170
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 3.904109589041096e-05,
+      "loss": 0.4961,
+      "step": 180
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 3.767123287671233e-05,
+      "loss": 0.4933,
+      "step": 190
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 3.63013698630137e-05,
+      "loss": 0.488,
+      "step": 200
+    },
+    {
+      "epoch": 2.15,
+      "eval_loss": 0.4859355092048645,
+      "eval_runtime": 182.5747,
+      "eval_samples_per_second": 10.954,
+      "eval_steps_per_second": 1.369,
+      "step": 200
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 3.493150684931507e-05,
+      "loss": 0.4836,
+      "step": 210
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 3.356164383561644e-05,
+      "loss": 0.4798,
+      "step": 220
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 3.219178082191781e-05,
+      "loss": 0.4815,
+      "step": 230
+    },
+    {
+      "epoch": 2.58,
+      "learning_rate": 3.082191780821918e-05,
+      "loss": 0.4738,
+      "step": 240
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 2.945205479452055e-05,
+      "loss": 0.4751,
+      "step": 250
+    },
+    {
+      "epoch": 2.79,
+      "learning_rate": 2.808219178082192e-05,
+      "loss": 0.4771,
+      "step": 260
+    },
+    {
+      "epoch": 2.9,
+      "learning_rate": 2.671232876712329e-05,
+      "loss": 0.4767,
+      "step": 270
+    },
+    {
+      "epoch": 3.01,
+      "learning_rate": 2.534246575342466e-05,
+      "loss": 0.4756,
+      "step": 280
+    },
+    {
+      "epoch": 3.12,
+      "learning_rate": 2.3972602739726026e-05,
+      "loss": 0.4681,
+      "step": 290
+    },
+    {
+      "epoch": 3.22,
+      "learning_rate": 2.2602739726027396e-05,
+      "loss": 0.4707,
+      "step": 300
+    },
+    {
+      "epoch": 3.33,
+      "learning_rate": 2.1232876712328768e-05,
+      "loss": 0.4704,
+      "step": 310
+    },
+    {
+      "epoch": 3.44,
+      "learning_rate": 1.9863013698630137e-05,
+      "loss": 0.4677,
+      "step": 320
+    },
+    {
+      "epoch": 3.55,
+      "learning_rate": 1.8493150684931506e-05,
+      "loss": 0.4676,
+      "step": 330
+    },
+    {
+      "epoch": 3.65,
+      "learning_rate": 1.7123287671232875e-05,
+      "loss": 0.4659,
+      "step": 340
+    },
+    {
+      "epoch": 3.76,
+      "learning_rate": 1.5753424657534248e-05,
+      "loss": 0.4717,
+      "step": 350
+    },
+    {
+      "epoch": 3.87,
+      "learning_rate": 1.4383561643835617e-05,
+      "loss": 0.4679,
+      "step": 360
+    },
+    {
+      "epoch": 3.98,
+      "learning_rate": 1.3013698630136986e-05,
+      "loss": 0.466,
+      "step": 370
+    },
+    {
+      "epoch": 4.08,
+      "learning_rate": 1.1643835616438355e-05,
+      "loss": 0.4644,
+      "step": 380
+    },
+    {
+      "epoch": 4.19,
+      "learning_rate": 1.0273972602739726e-05,
+      "loss": 0.4671,
+      "step": 390
+    },
+    {
+      "epoch": 4.3,
+      "learning_rate": 8.904109589041095e-06,
+      "loss": 0.4649,
+      "step": 400
+    },
+    {
+      "epoch": 4.3,
+      "eval_loss": 0.4640955328941345,
+      "eval_runtime": 182.5257,
+      "eval_samples_per_second": 10.957,
+      "eval_steps_per_second": 1.37,
+      "step": 400
+    }
+  ],
+  "max_steps": 465,
+  "num_train_epochs": 5,
+  "total_flos": 2.0793225403328102e+18,
+  "trial_name": null,
+  "trial_params": null
+}

output/checkpoint-400/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ffa36d102a7c05bde31c70e8c3969cc59f38e6bbea8fa02842c42b16923b4cbe
+size 3899