Upload folder using huggingface_hub

Browse files

Files changed (5) hide show

adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +42 -126

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e5a50d5521adeff20945a7719949087357d4cd8f287db88632b0da4e7b7caf85
 size 664584480

 version https://git-lfs.github.com/spec/v1
+oid sha256:e325566f131c65e9ade91ef4d6b36bf75f4d6d3f099460bf3dccbd2564d075c3
 size 664584480

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb68b11a39516e8f06bd559c4d177450f1a4e9dfebf14172a2847449ea3a0597
 size 1329377575

 version https://git-lfs.github.com/spec/v1
+oid sha256:bb20f5cc62e14285d3b8a72eaca1ae71faf3b293ee954757b7f91023a0fca6d9
 size 1329377575

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d85b518b1add175fef95a2cd66cf2e301b338be446b49c058da16fb22164c09d
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:e1599b40990af505c591b8a948a922af153eca9aff68fc7776ee92dc8b2dd2b0
 size 14645

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f36b49862996c84ec71df64aef02c8b667bafc5196ea03b019509144d50963b4
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:8db2bbbb37be651c165fdb7fb553d8117ad58dbacc21093c0131c68d882ce6e4
 size 1465

trainer_state.json CHANGED Viewed

@@ -1,160 +1,76 @@
 {
-  "best_global_step": 140,
-  "best_metric": 0.21776749193668365,
-  "best_model_checkpoint": "/content/models/gemma_jigsaw_lmh/checkpoint-140",
-  "epoch": 2.7450980392156863,
   "eval_steps": 20,
-  "global_step": 140,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "entropy": 2.5688398241996766,
       "epoch": 0.39215686274509803,
-      "grad_norm": 6.326695442199707,
       "learning_rate": 8.758169934640524e-06,
-      "loss": 0.5574,
-      "mean_token_accuracy": 0.75078125,
-      "num_tokens": 67412.0,
       "step": 20
     },
     {
       "epoch": 0.39215686274509803,
-      "eval_entropy": 2.5053940552931566,
-      "eval_loss": 0.3418131172657013,
-      "eval_mean_token_accuracy": 0.793924826842088,
-      "eval_num_tokens": 67412.0,
-      "eval_runtime": 2.6834,
-      "eval_samples_per_second": 75.649,
-      "eval_steps_per_second": 4.845,
       "step": 20
     },
     {
-      "entropy": 2.434329295158386,
       "epoch": 0.7843137254901961,
-      "grad_norm": 7.59612512588501,
       "learning_rate": 7.450980392156863e-06,
-      "loss": 0.3467,
-      "mean_token_accuracy": 0.80703125,
-      "num_tokens": 134808.0,
       "step": 40
     },
     {
       "epoch": 0.7843137254901961,
-      "eval_entropy": 2.478470985706036,
-      "eval_loss": 0.28553512692451477,
-      "eval_mean_token_accuracy": 0.8583916104756869,
-      "eval_num_tokens": 134808.0,
-      "eval_runtime": 2.7069,
-      "eval_samples_per_second": 74.993,
-      "eval_steps_per_second": 4.803,
       "step": 40
     },
     {
-      "entropy": 2.4949795722961428,
       "epoch": 1.1764705882352942,
-      "grad_norm": 9.272110939025879,
       "learning_rate": 6.143790849673204e-06,
-      "loss": 0.2735,
-      "mean_token_accuracy": 0.8612723216414452,
-      "num_tokens": 201046.0,
       "step": 60
     },
     {
       "epoch": 1.1764705882352942,
-      "eval_entropy": 2.478868062679584,
-      "eval_loss": 0.23516832292079926,
-      "eval_mean_token_accuracy": 0.8848339181679946,
-      "eval_num_tokens": 201046.0,
-      "eval_runtime": 2.6624,
-      "eval_samples_per_second": 76.246,
-      "eval_steps_per_second": 4.883,
-      "step": 60
-    },
-    {
-      "entropy": 2.3844941794872283,
-      "epoch": 1.5686274509803921,
-      "grad_norm": 5.027565956115723,
-      "learning_rate": 4.836601307189543e-06,
-      "loss": 0.2427,
-      "mean_token_accuracy": 0.8828125,
-      "num_tokens": 269334.0,
-      "step": 80
-    },
-    {
-      "epoch": 1.5686274509803921,
-      "eval_entropy": 2.4057154105259824,
-      "eval_loss": 0.2731766998767853,
-      "eval_mean_token_accuracy": 0.8730332163664011,
-      "eval_num_tokens": 269334.0,
-      "eval_runtime": 2.7181,
-      "eval_samples_per_second": 74.685,
-      "eval_steps_per_second": 4.783,
-      "step": 80
-    },
-    {
-      "entropy": 2.388584631681442,
-      "epoch": 1.9607843137254903,
-      "grad_norm": 4.1141252517700195,
-      "learning_rate": 3.529411764705883e-06,
-      "loss": 0.2321,
-      "mean_token_accuracy": 0.88828125,
-      "num_tokens": 337424.0,
-      "step": 100
-    },
-    {
-      "epoch": 1.9607843137254903,
-      "eval_entropy": 2.409378546934861,
-      "eval_loss": 0.223977193236351,
-      "eval_mean_token_accuracy": 0.8955419567915109,
-      "eval_num_tokens": 337424.0,
-      "eval_runtime": 2.6976,
-      "eval_samples_per_second": 75.252,
-      "eval_steps_per_second": 4.819,
-      "step": 100
-    },
-    {
-      "entropy": 2.3580436170101167,
-      "epoch": 2.3529411764705883,
-      "grad_norm": 7.861292362213135,
-      "learning_rate": 2.222222222222222e-06,
-      "loss": 0.2025,
-      "mean_token_accuracy": 0.9146205350756645,
-      "num_tokens": 404955.0,
-      "step": 120
-    },
-    {
-      "epoch": 2.3529411764705883,
-      "eval_entropy": 2.4057958676264835,
-      "eval_loss": 0.24806056916713715,
-      "eval_mean_token_accuracy": 0.8933566441902747,
-      "eval_num_tokens": 404955.0,
-      "eval_runtime": 2.6948,
-      "eval_samples_per_second": 75.329,
-      "eval_steps_per_second": 4.824,
-      "step": 120
-    },
-    {
-      "entropy": 2.3841957092285155,
-      "epoch": 2.7450980392156863,
-      "grad_norm": 10.065418243408203,
-      "learning_rate": 9.150326797385621e-07,
-      "loss": 0.1868,
-      "mean_token_accuracy": 0.92421875,
-      "num_tokens": 472246.0,
-      "step": 140
-    },
-    {
-      "epoch": 2.7450980392156863,
-      "eval_entropy": 2.4176712219531717,
-      "eval_loss": 0.21776749193668365,
       "eval_mean_token_accuracy": 0.8944493027833792,
-      "eval_num_tokens": 472246.0,
-      "eval_runtime": 2.7057,
-      "eval_samples_per_second": 75.027,
-      "eval_steps_per_second": 4.805,
-      "step": 140
     }
   ],
   "logging_steps": 20,
@@ -174,7 +90,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.0222031863807488e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 60,
+  "best_metric": 0.21963942050933838,
+  "best_model_checkpoint": "/content/models/gemma_jigsaw_lmh/checkpoint-60",
+  "epoch": 1.1764705882352942,
   "eval_steps": 20,
+  "global_step": 60,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "entropy": 2.3684401620518076,
       "epoch": 0.39215686274509803,
+      "grad_norm": 5.825000286102295,
       "learning_rate": 8.758169934640524e-06,
+      "loss": 0.2165,
+      "mean_token_accuracy": 0.9179518394397966,
+      "num_tokens": 581990.0,
       "step": 20
     },
     {
       "epoch": 0.39215686274509803,
+      "eval_entropy": 2.3978513204134426,
+      "eval_loss": 0.22738918662071228,
+      "eval_mean_token_accuracy": 0.892045456629533,
+      "eval_num_tokens": 581990.0,
+      "eval_runtime": 2.7348,
+      "eval_samples_per_second": 74.228,
+      "eval_steps_per_second": 4.754,
       "step": 20
     },
     {
+      "entropy": 2.366195046901703,
       "epoch": 0.7843137254901961,
+      "grad_norm": 15.021644592285156,
       "learning_rate": 7.450980392156863e-06,
+      "loss": 0.188,
+      "mean_token_accuracy": 0.92265625,
+      "num_tokens": 649386.0,
       "step": 40
     },
     {
       "epoch": 0.7843137254901961,
+      "eval_entropy": 2.3892184037428637,
+      "eval_loss": 0.28083646297454834,
+      "eval_mean_token_accuracy": 0.8824300720141485,
+      "eval_num_tokens": 649386.0,
+      "eval_runtime": 2.7229,
+      "eval_samples_per_second": 74.553,
+      "eval_steps_per_second": 4.774,
       "step": 40
     },
     {
+      "entropy": 2.4170044481754305,
       "epoch": 1.1764705882352942,
+      "grad_norm": 12.809877395629883,
       "learning_rate": 6.143790849673204e-06,
+      "loss": 0.182,
+      "mean_token_accuracy": 0.9083705350756646,
+      "num_tokens": 715624.0,
       "step": 60
     },
     {
       "epoch": 1.1764705882352942,
+      "eval_entropy": 2.436244304363544,
+      "eval_loss": 0.21963942050933838,
       "eval_mean_token_accuracy": 0.8944493027833792,
+      "eval_num_tokens": 715624.0,
+      "eval_runtime": 2.7838,
+      "eval_samples_per_second": 72.923,
+      "eval_steps_per_second": 4.67,
+      "step": 60
     }
   ],
   "logging_steps": 20,
       "attributes": {}
     }
   },
+  "total_flos": 4282364704969728.0,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null