Upload 7 files

Browse files

Files changed (7) hide show

adapter_config.json +29 -0
adapter_model.safetensors +3 -0
optimizer.pt +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
trainer_state.json +188 -0
training_args.bin +3 -0

adapter_config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "filipealmeida/Mistral-7B-v0.1-sharded",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 64,
+  "lora_dropout": 0.05,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 32,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "k_proj",
+    "up_proj",
+    "v_proj",
+    "lm_head",
+    "q_proj",
+    "gate_proj",
+    "o_proj",
+    "down_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:304b78450733e7f3ebcfb1e54c544d2cffa6f9f4ed2c760b70beda2fe4db5315
+size 340225224

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6b4fdaa9307c3654b770d22104b0603837a78c7f2b872c3ffdf0973e4bfa3234
+size 170951068

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3785253b2a2cd1c32045ff55ab786308b69aa6389827f0371daf27f9e5310394
+size 14244

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a9791fab4c3a763dba5281d6ca071c917b80084acdd9a02fabb44788c90d8f4b
+size 1064

trainer_state.json ADDED Viewed

	@@ -0,0 +1,188 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.3,
+  "eval_steps": 10,
+  "global_step": 120,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.03,
+      "learning_rate": 2.4549098196392788e-05,
+      "loss": 1.5765,
+      "step": 10
+    },
+    {
+      "epoch": 0.03,
+      "eval_loss": 1.4641923904418945,
+      "eval_runtime": 221.9956,
+      "eval_samples_per_second": 0.901,
+      "eval_steps_per_second": 0.113,
+      "step": 10
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 2.404809619238477e-05,
+      "loss": 1.5681,
+      "step": 20
+    },
+    {
+      "epoch": 0.05,
+      "eval_loss": 1.4410793781280518,
+      "eval_runtime": 221.7333,
+      "eval_samples_per_second": 0.902,
+      "eval_steps_per_second": 0.113,
+      "step": 20
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 2.3547094188376757e-05,
+      "loss": 1.2801,
+      "step": 30
+    },
+    {
+      "epoch": 0.07,
+      "eval_loss": 1.4293081760406494,
+      "eval_runtime": 221.7604,
+      "eval_samples_per_second": 0.902,
+      "eval_steps_per_second": 0.113,
+      "step": 30
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 2.304609218436874e-05,
+      "loss": 1.5474,
+      "step": 40
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 1.430722951889038,
+      "eval_runtime": 221.7555,
+      "eval_samples_per_second": 0.902,
+      "eval_steps_per_second": 0.113,
+      "step": 40
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 2.2545090180360722e-05,
+      "loss": 1.3972,
+      "step": 50
+    },
+    {
+      "epoch": 0.12,
+      "eval_loss": 1.4295932054519653,
+      "eval_runtime": 221.7379,
+      "eval_samples_per_second": 0.902,
+      "eval_steps_per_second": 0.113,
+      "step": 50
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 2.2044088176352705e-05,
+      "loss": 1.578,
+      "step": 60
+    },
+    {
+      "epoch": 0.15,
+      "eval_loss": 1.425429344177246,
+      "eval_runtime": 221.7329,
+      "eval_samples_per_second": 0.902,
+      "eval_steps_per_second": 0.113,
+      "step": 60
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 2.1543086172344688e-05,
+      "loss": 1.3322,
+      "step": 70
+    },
+    {
+      "epoch": 0.17,
+      "eval_loss": 1.4246026277542114,
+      "eval_runtime": 221.7499,
+      "eval_samples_per_second": 0.902,
+      "eval_steps_per_second": 0.113,
+      "step": 70
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 2.1042084168336674e-05,
+      "loss": 1.4031,
+      "step": 80
+    },
+    {
+      "epoch": 0.2,
+      "eval_loss": 1.4232592582702637,
+      "eval_runtime": 221.7409,
+      "eval_samples_per_second": 0.902,
+      "eval_steps_per_second": 0.113,
+      "step": 80
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 2.054108216432866e-05,
+      "loss": 1.454,
+      "step": 90
+    },
+    {
+      "epoch": 0.23,
+      "eval_loss": 1.4188882112503052,
+      "eval_runtime": 221.7396,
+      "eval_samples_per_second": 0.902,
+      "eval_steps_per_second": 0.113,
+      "step": 90
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 2.0040080160320643e-05,
+      "loss": 1.4341,
+      "step": 100
+    },
+    {
+      "epoch": 0.25,
+      "eval_loss": 1.416797161102295,
+      "eval_runtime": 221.7427,
+      "eval_samples_per_second": 0.902,
+      "eval_steps_per_second": 0.113,
+      "step": 100
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 1.9539078156312626e-05,
+      "loss": 1.4684,
+      "step": 110
+    },
+    {
+      "epoch": 0.28,
+      "eval_loss": 1.4176369905471802,
+      "eval_runtime": 221.7309,
+      "eval_samples_per_second": 0.902,
+      "eval_steps_per_second": 0.113,
+      "step": 110
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 1.903807615230461e-05,
+      "loss": 1.2462,
+      "step": 120
+    },
+    {
+      "epoch": 0.3,
+      "eval_loss": 1.4165884256362915,
+      "eval_runtime": 221.7346,
+      "eval_samples_per_second": 0.902,
+      "eval_steps_per_second": 0.113,
+      "step": 120
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 500,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 10,
+  "total_flos": 2.072361959424e+16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fa60f08d6af67edbafca8b9cbcbb0067beec5a9a8336ba7c9d20d4d84336c11f
+size 4600