End of training

Browse files

Files changed (7) hide show

README.md +2 -2
all_results.json +10 -10
eval_results.json +5 -5
train_results.json +6 -6
trainer_state.json +40 -11
training_eval_loss.png +0 -0
training_loss.png +0 -0

README.md CHANGED Viewed

@@ -16,9 +16,9 @@ should probably proofread and complete it, then remove this comment. -->
 # llama3_70b_lora_sft_cooking
-This model is a fine-tuned version of [meta-llama/Meta-Llama-3-70B-Instruct](https://huggingface.co/meta-llama/Meta-Llama-3-70B-Instruct) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.3289
 ## Model description

 # llama3_70b_lora_sft_cooking
+This model is a fine-tuned version of [meta-llama/Meta-Llama-3-70B-Instruct](https://huggingface.co/meta-llama/Meta-Llama-3-70B-Instruct) on the identity and the filtered_cooking_train_data datasets.
 It achieves the following results on the evaluation set:
+- Loss: 0.3297
 ## Model description

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
-    "epoch": 0.9552238805970149,
-    "eval_loss": 0.8879265189170837,
-    "eval_runtime": 4.3461,
-    "eval_samples_per_second": 5.062,
-    "eval_steps_per_second": 0.69,
-    "total_flos": 706712843583488.0,
-    "train_loss": 0.7195637822151184,
-    "train_runtime": 712.756,
-    "train_samples_per_second": 1.5,
-    "train_steps_per_second": 0.011
 }

 {
+    "epoch": 0.9959839357429718,
+    "eval_loss": 0.32974663376808167,
+    "eval_runtime": 16.1177,
+    "eval_samples_per_second": 5.088,
+    "eval_steps_per_second": 0.682,
+    "total_flos": 2886883717677056.0,
+    "train_loss": 0.46779590124084103,
+    "train_runtime": 2530.0595,
+    "train_samples_per_second": 1.575,
+    "train_steps_per_second": 0.012
 }

eval_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-    "epoch": 0.9552238805970149,
-    "eval_loss": 0.8879265189170837,
-    "eval_runtime": 4.3461,
-    "eval_samples_per_second": 5.062,
-    "eval_steps_per_second": 0.69
 }

 {
+    "epoch": 0.9959839357429718,
+    "eval_loss": 0.32974663376808167,
+    "eval_runtime": 16.1177,
+    "eval_samples_per_second": 5.088,
+    "eval_steps_per_second": 0.682
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 0.9552238805970149,
-    "total_flos": 706712843583488.0,
-    "train_loss": 0.7195637822151184,
-    "train_runtime": 712.756,
-    "train_samples_per_second": 1.5,
-    "train_steps_per_second": 0.011
 }

 {
+    "epoch": 0.9959839357429718,
+    "total_flos": 2886883717677056.0,
+    "train_loss": 0.46779590124084103,
+    "train_runtime": 2530.0595,
+    "train_samples_per_second": 1.575,
+    "train_steps_per_second": 0.012
 }

trainer_state.json CHANGED Viewed

@@ -1,25 +1,54 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9552238805970149,
   "eval_steps": 30,
-  "global_step": 8,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.9552238805970149,
-      "step": 8,
-      "total_flos": 706712843583488.0,
-      "train_loss": 0.7195637822151184,
-      "train_runtime": 712.756,
-      "train_samples_per_second": 1.5,
-      "train_steps_per_second": 0.011
     }
   ],
   "logging_steps": 10,
-  "max_steps": 8,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
@@ -35,7 +64,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 706712843583488.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9959839357429718,
   "eval_steps": 30,
+  "global_step": 31,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.321285140562249,
+      "grad_norm": 0.5042463327687016,
+      "learning_rate": 8.83022221559489e-05,
+      "loss": 0.668,
+      "step": 10
+    },
+    {
+      "epoch": 0.642570281124498,
+      "grad_norm": 0.4073430870409904,
+      "learning_rate": 3.5659838364445505e-05,
+      "loss": 0.4073,
+      "step": 20
+    },
+    {
+      "epoch": 0.963855421686747,
+      "grad_norm": 0.3439649236092943,
+      "learning_rate": 3.380821129028489e-07,
+      "loss": 0.3531,
+      "step": 30
+    },
+    {
+      "epoch": 0.963855421686747,
+      "eval_loss": 0.32887399196624756,
+      "eval_runtime": 16.2654,
+      "eval_samples_per_second": 5.041,
+      "eval_steps_per_second": 0.676,
+      "step": 30
+    },
+    {
+      "epoch": 0.9959839357429718,
+      "step": 31,
+      "total_flos": 2886883717677056.0,
+      "train_loss": 0.46779590124084103,
+      "train_runtime": 2530.0595,
+      "train_samples_per_second": 1.575,
+      "train_steps_per_second": 0.012
     }
   ],
   "logging_steps": 10,
+  "max_steps": 31,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 2886883717677056.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

training_eval_loss.png ADDED Viewed

training_loss.png ADDED Viewed