Model save

Files changed (7) hide show

README.md CHANGED Viewed

@@ -4,6 +4,8 @@ license: llama3.2
 base_model: meta-llama/Llama-3.2-1B
 tags:
 - generated_from_trainer
 model-index:
 - name: test
   results: []
@@ -15,6 +17,9 @@ should probably proofread and complete it, then remove this comment. -->
 # test
 This model is a fine-tuned version of [meta-llama/Llama-3.2-1B](https://huggingface.co/meta-llama/Llama-3.2-1B) on an unknown dataset.
 ## Model description

 base_model: meta-llama/Llama-3.2-1B
 tags:
 - generated_from_trainer
+metrics:
+- accuracy
 model-index:
 - name: test
   results: []
 # test
 This model is a fine-tuned version of [meta-llama/Llama-3.2-1B](https://huggingface.co/meta-llama/Llama-3.2-1B) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 2.6568
+- Accuracy: 0.5230
 ## Model description

all_results.json CHANGED Viewed

@@ -1,16 +1,15 @@
 {
     "epoch": 1.0,
-    "eval_accuracy": 0.5619722863264766,
-    "eval_loss": 2.4340596199035645,
-    "eval_runtime": 13.228,
-    "eval_samples": 1138,
-    "eval_samples_per_second": 86.03,
-    "eval_steps_per_second": 10.81,
-    "perplexity": 11.405088550670825,
-    "total_flos": 1.3626163133939712e+16,
-    "train_loss": 2.4788927044784814,
-    "train_runtime": 196.8793,
-    "train_samples": 4558,
-    "train_samples_per_second": 23.151,
-    "train_steps_per_second": 5.79
 }

 {
     "epoch": 1.0,
+    "eval_accuracy": 0.5230333635625984,
+    "eval_loss": 2.656813859939575,
+    "eval_runtime": 59.8639,
+    "eval_samples_per_second": 85.611,
+    "eval_steps_per_second": 10.708,
+    "perplexity": 14.250811606566634,
+    "total_flos": 1695049253388288.0,
+    "train_loss": 2.6765631017550615,
+    "train_runtime": 106.623,
+    "train_samples": 567,
+    "train_samples_per_second": 5.318,
+    "train_steps_per_second": 1.332
 }

eval_epoch_1_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 1.0,
-    "eval_accuracy": 0.5619722863264766,
-    "eval_loss": 2.4340596199035645,
-    "eval_runtime": 13.1565,
-    "eval_samples_per_second": 86.497,
-    "eval_steps_per_second": 10.869,
-    "perplexity": 11.405088550670825
 }

 {
     "epoch": 1.0,
+    "eval_accuracy": 0.5230333635625984,
+    "eval_loss": 2.656813859939575,
+    "eval_runtime": 59.8639,
+    "eval_samples_per_second": 85.611,
+    "eval_steps_per_second": 10.708,
+    "perplexity": 14.250811606566634
 }

special_tokens_map.json CHANGED Viewed

@@ -12,5 +12,6 @@
     "normalized": false,
     "rstrip": false,
     "single_word": false
-  }
 }

     "normalized": false,
     "rstrip": false,
     "single_word": false
+  },
+  "pad_token": "<|end_of_text|>"
 }

tokenizer_config.json CHANGED Viewed

@@ -2058,5 +2058,6 @@
     "attention_mask"
   ],
   "model_max_length": 131072,
   "tokenizer_class": "PreTrainedTokenizerFast"
 }

     "attention_mask"
   ],
   "model_max_length": 131072,
+  "pad_token": "<|end_of_text|>",
   "tokenizer_class": "PreTrainedTokenizerFast"
 }

train_epoch_1_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 1.0,
-    "total_flos": 1.3626163133939712e+16,
-    "train_loss": 2.4788927044784814,
-    "train_runtime": 196.8793,
-    "train_samples": 4558,
-    "train_samples_per_second": 23.151,
-    "train_steps_per_second": 5.79
 }

 {
     "epoch": 1.0,
+    "total_flos": 1695049253388288.0,
+    "train_loss": 2.6765631017550615,
+    "train_runtime": 106.623,
+    "train_samples": 567,
+    "train_samples_per_second": 5.318,
+    "train_steps_per_second": 1.332
 }

trainer_state.json CHANGED Viewed

@@ -4,37 +4,32 @@
   "best_model_checkpoint": null,
   "epoch": 1.0,
   "eval_steps": 500,
-  "global_step": 1140,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.43859649122807015,
-      "grad_norm": 17.125,
-      "learning_rate": 5.622807017543859e-07,
-      "loss": 2.5341,
-      "step": 500
-    },
-    {
-      "epoch": 0.8771929824561403,
-      "grad_norm": 17.75,
-      "learning_rate": 1.2368421052631579e-07,
-      "loss": 2.4372,
-      "step": 1000
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5619722863264766,
-      "eval_loss": 2.4340596199035645,
-      "eval_runtime": 13.1971,
-      "eval_samples_per_second": 86.231,
-      "eval_steps_per_second": 10.836,
-      "step": 1140
     }
   ],
   "logging_steps": 500,
-  "max_steps": 1140,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
@@ -50,7 +45,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.3626163133939712e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

   "best_model_checkpoint": null,
   "epoch": 1.0,
   "eval_steps": 500,
+  "global_step": 142,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 1.0,
+      "eval_accuracy": 0.5230333635625984,
+      "eval_loss": 2.656813859939575,
+      "eval_runtime": 59.8708,
+      "eval_samples_per_second": 85.601,
+      "eval_steps_per_second": 10.706,
+      "step": 142
     },
     {
       "epoch": 1.0,
+      "step": 142,
+      "total_flos": 1695049253388288.0,
+      "train_loss": 2.6765631017550615,
+      "train_runtime": 106.623,
+      "train_samples_per_second": 5.318,
+      "train_steps_per_second": 1.332
     }
   ],
   "logging_steps": 500,
+  "max_steps": 142,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 1695049253388288.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null