Model save

Browse files

Files changed (6) hide show

README.md +4 -4
all_results.json +4 -4
model-00001-of-00002.safetensors +1 -1
model-00002-of-00002.safetensors +1 -1
train_results.json +4 -4
trainer_state.json +76 -76

README.md CHANGED Viewed

@@ -20,7 +20,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [google/gemma-2-2b-it](https://huggingface.co/google/gemma-2-2b-it) on the generator dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.9877
 ## Model description
@@ -57,9 +57,9 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
-| 1.2963        | 0.9180 | 7    | 1.2142          |
-| 0.954         | 1.9672 | 15   | 1.0018          |
-| 0.8356        | 2.7541 | 21   | 0.9877          |
 ### Framework versions

 This model is a fine-tuned version of [google/gemma-2-2b-it](https://huggingface.co/google/gemma-2-2b-it) on the generator dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.0156
 ## Model description
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
+| 1.3675        | 0.9180 | 7    | 1.2845          |
+| 0.9289        | 1.9672 | 15   | 1.0186          |
+| 0.7336        | 2.7541 | 21   | 1.0156          |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 2.7540983606557377,
     "total_flos": 3971544514560.0,
-    "train_loss": 0.0,
-    "train_runtime": 11.242,
     "train_samples": 725,
-    "train_samples_per_second": 128.892,
-    "train_steps_per_second": 1.868
 }

 {
     "epoch": 2.7540983606557377,
     "total_flos": 3971544514560.0,
+    "train_loss": 1.26855130422683,
+    "train_runtime": 385.6521,
     "train_samples": 725,
+    "train_samples_per_second": 3.757,
+    "train_steps_per_second": 0.054
 }

model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:679815afad561b9f08e9a30b4d955907c2185180cc65560f7cec06e72080f34f
 size 4988025760

 version https://git-lfs.github.com/spec/v1
+oid sha256:7dcff2d834517f116d11bb21e10303ce38f4453fd72f581734f5f3d7aecb1336
 size 4988025760

model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0e413fd577635aea4005f4a402d7e827ad3e8fdb78d080b5b6188909acb151f8
 size 240691728

 version https://git-lfs.github.com/spec/v1
+oid sha256:135f2ee801e93f5389fcc1f19c6c7bc6f1dcf4344f079ff6dc0e5b3a5ac3f5d7
 size 240691728

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 2.7540983606557377,
     "total_flos": 3971544514560.0,
-    "train_loss": 0.0,
-    "train_runtime": 11.242,
     "train_samples": 725,
-    "train_samples_per_second": 128.892,
-    "train_steps_per_second": 1.868
 }

 {
     "epoch": 2.7540983606557377,
     "total_flos": 3971544514560.0,
+    "train_loss": 1.26855130422683,
+    "train_runtime": 385.6521,
     "train_samples": 725,
+    "train_samples_per_second": 3.757,
+    "train_steps_per_second": 0.054
 }

trainer_state.json CHANGED Viewed

@@ -10,183 +10,183 @@
   "log_history": [
     {
       "epoch": 0.13114754098360656,
-      "grad_norm": 38.4906907414524,
-      "learning_rate": 6.666666666666667e-06,
       "loss": 2.4278,
       "step": 1
     },
     {
       "epoch": 0.26229508196721313,
-      "grad_norm": 39.35649873095453,
-      "learning_rate": 1.3333333333333333e-05,
       "loss": 2.4386,
       "step": 2
     },
     {
       "epoch": 0.39344262295081966,
-      "grad_norm": 15.02300885231628,
-      "learning_rate": 2e-05,
-      "loss": 1.8851,
       "step": 3
     },
     {
       "epoch": 0.5245901639344263,
-      "grad_norm": 30.015021153424833,
-      "learning_rate": 1.9848077530122083e-05,
-      "loss": 1.8762,
       "step": 4
     },
     {
       "epoch": 0.6557377049180327,
-      "grad_norm": 11.906470741405201,
-      "learning_rate": 1.9396926207859085e-05,
-      "loss": 1.7922,
       "step": 5
     },
     {
       "epoch": 0.7868852459016393,
-      "grad_norm": 6.013424294278915,
-      "learning_rate": 1.866025403784439e-05,
-      "loss": 1.4363,
       "step": 6
     },
     {
       "epoch": 0.9180327868852459,
-      "grad_norm": 5.488571980550277,
-      "learning_rate": 1.766044443118978e-05,
-      "loss": 1.2963,
       "step": 7
     },
     {
       "epoch": 0.9180327868852459,
-      "eval_loss": 1.2142459154129028,
-      "eval_runtime": 9.3088,
-      "eval_samples_per_second": 20.626,
-      "eval_steps_per_second": 2.578,
       "step": 7
     },
     {
       "epoch": 1.0491803278688525,
-      "grad_norm": 4.278302382312637,
-      "learning_rate": 1.6427876096865394e-05,
-      "loss": 1.1874,
       "step": 8
     },
     {
       "epoch": 1.180327868852459,
-      "grad_norm": 3.204774458338129,
-      "learning_rate": 1.5000000000000002e-05,
-      "loss": 1.1064,
       "step": 9
     },
     {
       "epoch": 1.3114754098360657,
-      "grad_norm": 2.8914531523767013,
-      "learning_rate": 1.342020143325669e-05,
-      "loss": 1.0671,
       "step": 10
     },
     {
       "epoch": 1.4426229508196722,
-      "grad_norm": 2.2472150773134363,
-      "learning_rate": 1.1736481776669307e-05,
-      "loss": 1.0103,
       "step": 11
     },
     {
       "epoch": 1.5737704918032787,
-      "grad_norm": 2.093742944888527,
-      "learning_rate": 1e-05,
-      "loss": 1.0028,
       "step": 12
     },
     {
       "epoch": 1.7049180327868854,
-      "grad_norm": 1.8675088356857141,
-      "learning_rate": 8.263518223330698e-06,
-      "loss": 0.9762,
       "step": 13
     },
     {
       "epoch": 1.8360655737704918,
-      "grad_norm": 1.6366608455568707,
-      "learning_rate": 6.579798566743314e-06,
-      "loss": 0.9678,
       "step": 14
     },
     {
       "epoch": 1.9672131147540983,
-      "grad_norm": 1.5464740113993372,
-      "learning_rate": 5.000000000000003e-06,
-      "loss": 0.954,
       "step": 15
     },
     {
       "epoch": 1.9672131147540983,
-      "eval_loss": 1.001825213432312,
-      "eval_runtime": 9.0799,
-      "eval_samples_per_second": 21.145,
-      "eval_steps_per_second": 2.643,
       "step": 15
     },
     {
       "epoch": 2.098360655737705,
-      "grad_norm": 1.4407616891998447,
-      "learning_rate": 3.5721239031346067e-06,
-      "loss": 0.8805,
       "step": 16
     },
     {
       "epoch": 2.2295081967213113,
-      "grad_norm": 1.4358137476258483,
-      "learning_rate": 2.339555568810221e-06,
-      "loss": 0.8681,
       "step": 17
     },
     {
       "epoch": 2.360655737704918,
-      "grad_norm": 1.332633367234562,
-      "learning_rate": 1.339745962155613e-06,
-      "loss": 0.8592,
       "step": 18
     },
     {
       "epoch": 2.4918032786885247,
-      "grad_norm": 1.2284953779578738,
-      "learning_rate": 6.030737921409169e-07,
-      "loss": 0.8545,
       "step": 19
     },
     {
       "epoch": 2.6229508196721314,
-      "grad_norm": 1.2207700124089214,
-      "learning_rate": 1.519224698779198e-07,
-      "loss": 0.8337,
       "step": 20
     },
     {
       "epoch": 2.7540983606557377,
-      "grad_norm": 1.1315984846861744,
       "learning_rate": 0.0,
-      "loss": 0.8356,
       "step": 21
     },
     {
       "epoch": 2.7540983606557377,
-      "eval_loss": 0.9876740574836731,
-      "eval_runtime": 8.9893,
-      "eval_samples_per_second": 21.359,
-      "eval_steps_per_second": 2.67,
       "step": 21
     },
     {
       "epoch": 2.7540983606557377,
       "step": 21,
       "total_flos": 3971544514560.0,
-      "train_loss": 0.0,
-      "train_runtime": 11.242,
-      "train_samples_per_second": 128.892,
-      "train_steps_per_second": 1.868
     }
   ],
   "logging_steps": 1,

   "log_history": [
     {
       "epoch": 0.13114754098360656,
+      "grad_norm": 38.48949567054442,
+      "learning_rate": 1.6666666666666667e-05,
       "loss": 2.4278,
       "step": 1
     },
     {
       "epoch": 0.26229508196721313,
+      "grad_norm": 39.356777754899475,
+      "learning_rate": 3.3333333333333335e-05,
       "loss": 2.4386,
       "step": 2
     },
     {
       "epoch": 0.39344262295081966,
+      "grad_norm": 33.30743701183079,
+      "learning_rate": 5e-05,
+      "loss": 1.9706,
       "step": 3
     },
     {
       "epoch": 0.5245901639344263,
+      "grad_norm": 14.11009284862285,
+      "learning_rate": 4.962019382530521e-05,
+      "loss": 2.046,
       "step": 4
     },
     {
       "epoch": 0.6557377049180327,
+      "grad_norm": 15.728498285095311,
+      "learning_rate": 4.849231551964771e-05,
+      "loss": 1.8774,
       "step": 5
     },
     {
       "epoch": 0.7868852459016393,
+      "grad_norm": 7.811945380246204,
+      "learning_rate": 4.665063509461097e-05,
+      "loss": 1.555,
       "step": 6
     },
     {
       "epoch": 0.9180327868852459,
+      "grad_norm": 4.212013153204252,
+      "learning_rate": 4.415111107797445e-05,
+      "loss": 1.3675,
       "step": 7
     },
     {
       "epoch": 0.9180327868852459,
+      "eval_loss": 1.2844842672348022,
+      "eval_runtime": 9.2887,
+      "eval_samples_per_second": 20.67,
+      "eval_steps_per_second": 2.584,
       "step": 7
     },
     {
       "epoch": 1.0491803278688525,
+      "grad_norm": 4.5268328646450735,
+      "learning_rate": 4.1069690242163484e-05,
+      "loss": 1.2474,
       "step": 8
     },
     {
       "epoch": 1.180327868852459,
+      "grad_norm": 3.2715775686151596,
+      "learning_rate": 3.7500000000000003e-05,
+      "loss": 1.1467,
       "step": 9
     },
     {
       "epoch": 1.3114754098360657,
+      "grad_norm": 2.0643659092546915,
+      "learning_rate": 3.355050358314172e-05,
+      "loss": 1.0749,
       "step": 10
     },
     {
       "epoch": 1.4426229508196722,
+      "grad_norm": 2.304739353698177,
+      "learning_rate": 2.9341204441673266e-05,
+      "loss": 1.0221,
       "step": 11
     },
     {
       "epoch": 1.5737704918032787,
+      "grad_norm": 2.127617323697091,
+      "learning_rate": 2.5e-05,
+      "loss": 1.0107,
       "step": 12
     },
     {
       "epoch": 1.7049180327868854,
+      "grad_norm": 2.0707864059238807,
+      "learning_rate": 2.0658795558326743e-05,
+      "loss": 0.9786,
       "step": 13
     },
     {
       "epoch": 1.8360655737704918,
+      "grad_norm": 1.3495555593879531,
+      "learning_rate": 1.6449496416858284e-05,
+      "loss": 0.956,
       "step": 14
     },
     {
       "epoch": 1.9672131147540983,
+      "grad_norm": 1.420785537317645,
+      "learning_rate": 1.2500000000000006e-05,
+      "loss": 0.9289,
       "step": 15
     },
     {
       "epoch": 1.9672131147540983,
+      "eval_loss": 1.018620491027832,
+      "eval_runtime": 9.0608,
+      "eval_samples_per_second": 21.19,
+      "eval_steps_per_second": 2.649,
       "step": 15
     },
     {
       "epoch": 2.098360655737705,
+      "grad_norm": 1.2601137070878647,
+      "learning_rate": 8.930309757836517e-06,
+      "loss": 0.8122,
       "step": 16
     },
     {
       "epoch": 2.2295081967213113,
+      "grad_norm": 1.3786806913074527,
+      "learning_rate": 5.848888922025553e-06,
+      "loss": 0.7862,
       "step": 17
     },
     {
       "epoch": 2.360655737704918,
+      "grad_norm": 1.1372265617537292,
+      "learning_rate": 3.3493649053890326e-06,
+      "loss": 0.7698,
       "step": 18
     },
     {
       "epoch": 2.4918032786885247,
+      "grad_norm": 1.085080138353371,
+      "learning_rate": 1.5076844803522922e-06,
+      "loss": 0.7537,
       "step": 19
     },
     {
       "epoch": 2.6229508196721314,
+      "grad_norm": 1.067963510724275,
+      "learning_rate": 3.7980617469479953e-07,
+      "loss": 0.7358,
       "step": 20
     },
     {
       "epoch": 2.7540983606557377,
+      "grad_norm": 1.0345534581342344,
       "learning_rate": 0.0,
+      "loss": 0.7336,
       "step": 21
     },
     {
       "epoch": 2.7540983606557377,
+      "eval_loss": 1.0155988931655884,
+      "eval_runtime": 8.9999,
+      "eval_samples_per_second": 21.334,
+      "eval_steps_per_second": 2.667,
       "step": 21
     },
     {
       "epoch": 2.7540983606557377,
       "step": 21,
       "total_flos": 3971544514560.0,
+      "train_loss": 1.26855130422683,
+      "train_runtime": 385.6521,
+      "train_samples_per_second": 3.757,
+      "train_steps_per_second": 0.054
     }
   ],
   "logging_steps": 1,