End of training

Files changed (8) hide show

README.md CHANGED Viewed

@@ -29,7 +29,7 @@ print(output["generated_text"])
 ## Training procedure
-[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/s18574s18574-/huggingface/runs/rcrsaono)
 This model was trained with SFT.

 ## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/s18574s18574-/huggingface/runs/mxp3bnxq)
 This model was trained with SFT.

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
-    "eval_runtime": 0.2994,
     "eval_samples": 100,
-    "eval_samples_per_second": 160.331,
-    "eval_steps_per_second": 10.021,
     "total_flos": 541940076511232.0,
-    "train_loss": 11.15435606060606,
-    "train_runtime": 94.2378,
     "train_samples": 19883,
-    "train_samples_per_second": 11.217,
-    "train_steps_per_second": 0.35
 }

 {
+    "eval_runtime": 0.3004,
     "eval_samples": 100,
+    "eval_samples_per_second": 159.784,
+    "eval_steps_per_second": 9.986,
     "total_flos": 541940076511232.0,
+    "train_loss": 11.083806818181818,
+    "train_runtime": 94.123,
     "train_samples": 19883,
+    "train_samples_per_second": 11.231,
+    "train_steps_per_second": 0.351
 }

config.json CHANGED Viewed

@@ -108,7 +108,7 @@
   "layer_norm_epsilon": 1e-05,
   "max_n_segments": 2,
   "memory_size": 10,
-  "model_type": "rmt",
   "n_ctx": 1024,
   "n_embd": 768,
   "n_head": 12,

   "layer_norm_epsilon": 1e-05,
   "max_n_segments": 2,
   "memory_size": 10,
+  "model_type": "rmt_gpt2",
   "n_ctx": 1024,
   "n_embd": 768,
   "n_head": 12,

eval_results.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-    "eval_runtime": 0.2994,
     "eval_samples": 100,
-    "eval_samples_per_second": 160.331,
-    "eval_steps_per_second": 10.021
 }

 {
+    "eval_runtime": 0.3004,
     "eval_samples": 100,
+    "eval_samples_per_second": 159.784,
+    "eval_steps_per_second": 9.986
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4870deede1c59d1238c79bc6d709ccc904369d2ae0f0152655442e873dabed8e
 size 248915448

 version https://git-lfs.github.com/spec/v1
+oid sha256:8962c0515fa0d48da5c7580517140ceaf68d56b6db4e406420b7abe5c011cb4f
 size 248915448

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 541940076511232.0,
-    "train_loss": 11.15435606060606,
-    "train_runtime": 94.2378,
     "train_samples": 19883,
-    "train_samples_per_second": 11.217,
-    "train_steps_per_second": 0.35
 }

 {
     "total_flos": 541940076511232.0,
+    "train_loss": 11.083806818181818,
+    "train_runtime": 94.123,
     "train_samples": 19883,
+    "train_samples_per_second": 11.231,
+    "train_steps_per_second": 0.351
 }

trainer_state.json CHANGED Viewed

@@ -10,37 +10,37 @@
   "log_history": [
     {
       "epoch": 0.030257186081694403,
-      "grad_norm": 33.9524709855141,
       "learning_rate": 1.796093065705644e-05,
-      "loss": 13.7859,
-      "mean_token_accuracy": 0.14343010634183884,
       "step": 10
     },
     {
       "epoch": 0.060514372163388806,
-      "grad_norm": 22.121727837935666,
       "learning_rate": 8.382180034472353e-06,
-      "loss": 10.7016,
-      "mean_token_accuracy": 0.1894416406750679,
       "step": 20
     },
     {
       "epoch": 0.0907715582450832,
-      "grad_norm": 16.822257873051857,
       "learning_rate": 5.234682881719766e-07,
-      "loss": 9.5219,
-      "mean_token_accuracy": 0.23306636586785318,
       "step": 30
     },
     {
       "epoch": 0.09984871406959153,
-      "mean_token_accuracy": 0.23704166958729425,
       "step": 33,
       "total_flos": 541940076511232.0,
-      "train_loss": 11.15435606060606,
-      "train_runtime": 94.2378,
-      "train_samples_per_second": 11.217,
-      "train_steps_per_second": 0.35
     }
   ],
   "logging_steps": 10,

   "log_history": [
     {
       "epoch": 0.030257186081694403,
+      "grad_norm": 42.71687990882081,
       "learning_rate": 1.796093065705644e-05,
+      "loss": 13.7703,
+      "mean_token_accuracy": 0.14362930804491042,
       "step": 10
     },
     {
       "epoch": 0.060514372163388806,
+      "grad_norm": 19.960173331726278,
       "learning_rate": 8.382180034472353e-06,
+      "loss": 10.6266,
+      "mean_token_accuracy": 0.19221007749438285,
       "step": 20
     },
     {
       "epoch": 0.0907715582450832,
+      "grad_norm": 15.458977965471425,
       "learning_rate": 5.234682881719766e-07,
+      "loss": 9.4109,
+      "mean_token_accuracy": 0.23769470453262329,
       "step": 30
     },
     {
       "epoch": 0.09984871406959153,
+      "mean_token_accuracy": 0.24192221214373907,
       "step": 33,
       "total_flos": 541940076511232.0,
+      "train_loss": 11.083806818181818,
+      "train_runtime": 94.123,
+      "train_samples_per_second": 11.231,
+      "train_steps_per_second": 0.351
     }
   ],
   "logging_steps": 10,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8784bbcd5ea3e35207cbdf2ad1f9312e30add2af75f6acc233ad47ea38262496
 size 7352

 version https://git-lfs.github.com/spec/v1
+oid sha256:8b41b1c74f95fdcc8429018e39d8362538a976be2b8bc7ecee4b5f4f11b83012
 size 7352