End of training

Browse files

Files changed (7) hide show

README.md +2 -1
all_results.json +12 -0
eval_results.json +7 -0
train_results.json +8 -0
trainer_state.json +528 -0
training_eval_loss.png +0 -0
training_loss.png +0 -0

README.md CHANGED Viewed

@@ -4,6 +4,7 @@ license: gemma
 base_model: google/gemma-2-9b
 tags:
 - llama-factory
 - generated_from_trainer
 model-index:
 - name: hp_ablations_gemma_bsz1024
@@ -15,7 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 # hp_ablations_gemma_bsz1024
-This model is a fine-tuned version of [google/gemma-2-9b](https://huggingface.co/google/gemma-2-9b) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.5917

 base_model: google/gemma-2-9b
 tags:
 - llama-factory
+- full
 - generated_from_trainer
 model-index:
 - name: hp_ablations_gemma_bsz1024
 # hp_ablations_gemma_bsz1024
+This model is a fine-tuned version of [google/gemma-2-9b](https://huggingface.co/google/gemma-2-9b) on the mlfoundations-dev/oh-dcft-v3.1-gpt-4o-mini dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.5917

all_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 2.9946403385049365,
+    "eval_loss": 0.5917297005653381,
+    "eval_runtime": 356.383,
+    "eval_samples_per_second": 33.506,
+    "eval_steps_per_second": 0.525,
+    "total_flos": 5052524767739904.0,
+    "train_loss": 0.5641303292586612,
+    "train_runtime": 61418.5213,
+    "train_samples_per_second": 11.081,
+    "train_steps_per_second": 0.011
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 2.9946403385049365,
+    "eval_loss": 0.5917297005653381,
+    "eval_runtime": 356.383,
+    "eval_samples_per_second": 33.506,
+    "eval_steps_per_second": 0.525
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 2.9946403385049365,
+    "total_flos": 5052524767739904.0,
+    "train_loss": 0.5641303292586612,
+    "train_runtime": 61418.5213,
+    "train_samples_per_second": 11.081,
+    "train_steps_per_second": 0.011
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,528 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.9946403385049365,
+  "eval_steps": 500,
+  "global_step": 663,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.045133991537376586,
+      "grad_norm": 1.0502111381705257,
+      "learning_rate": 5e-06,
+      "loss": 0.7438,
+      "step": 10
+    },
+    {
+      "epoch": 0.09026798307475317,
+      "grad_norm": 0.7055928208506984,
+      "learning_rate": 5e-06,
+      "loss": 0.6709,
+      "step": 20
+    },
+    {
+      "epoch": 0.13540197461212977,
+      "grad_norm": 0.5033134209699918,
+      "learning_rate": 5e-06,
+      "loss": 0.6463,
+      "step": 30
+    },
+    {
+      "epoch": 0.18053596614950634,
+      "grad_norm": 0.618156041678536,
+      "learning_rate": 5e-06,
+      "loss": 0.6389,
+      "step": 40
+    },
+    {
+      "epoch": 0.22566995768688294,
+      "grad_norm": 0.49695878808904403,
+      "learning_rate": 5e-06,
+      "loss": 0.6349,
+      "step": 50
+    },
+    {
+      "epoch": 0.27080394922425954,
+      "grad_norm": 0.5844890023067665,
+      "learning_rate": 5e-06,
+      "loss": 0.6247,
+      "step": 60
+    },
+    {
+      "epoch": 0.3159379407616361,
+      "grad_norm": 0.6341705695305015,
+      "learning_rate": 5e-06,
+      "loss": 0.6227,
+      "step": 70
+    },
+    {
+      "epoch": 0.3610719322990127,
+      "grad_norm": 0.9851855606862004,
+      "learning_rate": 5e-06,
+      "loss": 0.6225,
+      "step": 80
+    },
+    {
+      "epoch": 0.40620592383638926,
+      "grad_norm": 0.6200620013182269,
+      "learning_rate": 5e-06,
+      "loss": 0.6161,
+      "step": 90
+    },
+    {
+      "epoch": 0.4513399153737659,
+      "grad_norm": 0.4866582707983752,
+      "learning_rate": 5e-06,
+      "loss": 0.6118,
+      "step": 100
+    },
+    {
+      "epoch": 0.49647390691114246,
+      "grad_norm": 0.4846006073335934,
+      "learning_rate": 5e-06,
+      "loss": 0.6071,
+      "step": 110
+    },
+    {
+      "epoch": 0.5416078984485191,
+      "grad_norm": 0.4640299470151304,
+      "learning_rate": 5e-06,
+      "loss": 0.6108,
+      "step": 120
+    },
+    {
+      "epoch": 0.5867418899858956,
+      "grad_norm": 0.5199888815602103,
+      "learning_rate": 5e-06,
+      "loss": 0.6056,
+      "step": 130
+    },
+    {
+      "epoch": 0.6318758815232722,
+      "grad_norm": 0.5702031853447341,
+      "learning_rate": 5e-06,
+      "loss": 0.6056,
+      "step": 140
+    },
+    {
+      "epoch": 0.6770098730606487,
+      "grad_norm": 0.8001760897422481,
+      "learning_rate": 5e-06,
+      "loss": 0.6054,
+      "step": 150
+    },
+    {
+      "epoch": 0.7221438645980254,
+      "grad_norm": 0.5587666551476193,
+      "learning_rate": 5e-06,
+      "loss": 0.6031,
+      "step": 160
+    },
+    {
+      "epoch": 0.767277856135402,
+      "grad_norm": 0.43674759924584844,
+      "learning_rate": 5e-06,
+      "loss": 0.5996,
+      "step": 170
+    },
+    {
+      "epoch": 0.8124118476727785,
+      "grad_norm": 0.5559456367161821,
+      "learning_rate": 5e-06,
+      "loss": 0.6003,
+      "step": 180
+    },
+    {
+      "epoch": 0.8575458392101551,
+      "grad_norm": 0.44306696302984344,
+      "learning_rate": 5e-06,
+      "loss": 0.6049,
+      "step": 190
+    },
+    {
+      "epoch": 0.9026798307475318,
+      "grad_norm": 0.5092942073450014,
+      "learning_rate": 5e-06,
+      "loss": 0.5985,
+      "step": 200
+    },
+    {
+      "epoch": 0.9478138222849083,
+      "grad_norm": 0.47841352538603515,
+      "learning_rate": 5e-06,
+      "loss": 0.5975,
+      "step": 210
+    },
+    {
+      "epoch": 0.9929478138222849,
+      "grad_norm": 0.757057117339616,
+      "learning_rate": 5e-06,
+      "loss": 0.5944,
+      "step": 220
+    },
+    {
+      "epoch": 0.9974612129760225,
+      "eval_loss": 0.5952667593955994,
+      "eval_runtime": 354.3828,
+      "eval_samples_per_second": 33.695,
+      "eval_steps_per_second": 0.528,
+      "step": 221
+    },
+    {
+      "epoch": 1.039210155148096,
+      "grad_norm": 0.6288422422717695,
+      "learning_rate": 5e-06,
+      "loss": 0.5957,
+      "step": 230
+    },
+    {
+      "epoch": 1.0843441466854724,
+      "grad_norm": 0.5368840934195099,
+      "learning_rate": 5e-06,
+      "loss": 0.5546,
+      "step": 240
+    },
+    {
+      "epoch": 1.1294781382228491,
+      "grad_norm": 0.5562178733269311,
+      "learning_rate": 5e-06,
+      "loss": 0.5576,
+      "step": 250
+    },
+    {
+      "epoch": 1.1746121297602257,
+      "grad_norm": 0.44566707316498066,
+      "learning_rate": 5e-06,
+      "loss": 0.5531,
+      "step": 260
+    },
+    {
+      "epoch": 1.2197461212976022,
+      "grad_norm": 0.5774903613750582,
+      "learning_rate": 5e-06,
+      "loss": 0.5549,
+      "step": 270
+    },
+    {
+      "epoch": 1.264880112834979,
+      "grad_norm": 0.429832871209753,
+      "learning_rate": 5e-06,
+      "loss": 0.5572,
+      "step": 280
+    },
+    {
+      "epoch": 1.3100141043723554,
+      "grad_norm": 0.5244854621545229,
+      "learning_rate": 5e-06,
+      "loss": 0.5565,
+      "step": 290
+    },
+    {
+      "epoch": 1.355148095909732,
+      "grad_norm": 0.50009636557672,
+      "learning_rate": 5e-06,
+      "loss": 0.5587,
+      "step": 300
+    },
+    {
+      "epoch": 1.4002820874471085,
+      "grad_norm": 0.46468247492051845,
+      "learning_rate": 5e-06,
+      "loss": 0.5557,
+      "step": 310
+    },
+    {
+      "epoch": 1.4454160789844852,
+      "grad_norm": 0.6185616791546158,
+      "learning_rate": 5e-06,
+      "loss": 0.555,
+      "step": 320
+    },
+    {
+      "epoch": 1.4905500705218617,
+      "grad_norm": 0.5522113108694092,
+      "learning_rate": 5e-06,
+      "loss": 0.5578,
+      "step": 330
+    },
+    {
+      "epoch": 1.5356840620592385,
+      "grad_norm": 0.5687883176073543,
+      "learning_rate": 5e-06,
+      "loss": 0.5519,
+      "step": 340
+    },
+    {
+      "epoch": 1.580818053596615,
+      "grad_norm": 0.4317341125326038,
+      "learning_rate": 5e-06,
+      "loss": 0.5523,
+      "step": 350
+    },
+    {
+      "epoch": 1.6259520451339915,
+      "grad_norm": 0.4415467428367944,
+      "learning_rate": 5e-06,
+      "loss": 0.561,
+      "step": 360
+    },
+    {
+      "epoch": 1.671086036671368,
+      "grad_norm": 0.5437873630019581,
+      "learning_rate": 5e-06,
+      "loss": 0.5562,
+      "step": 370
+    },
+    {
+      "epoch": 1.7162200282087448,
+      "grad_norm": 0.46394331744324036,
+      "learning_rate": 5e-06,
+      "loss": 0.5552,
+      "step": 380
+    },
+    {
+      "epoch": 1.7613540197461213,
+      "grad_norm": 0.4475505593561043,
+      "learning_rate": 5e-06,
+      "loss": 0.5528,
+      "step": 390
+    },
+    {
+      "epoch": 1.806488011283498,
+      "grad_norm": 0.5295023528850353,
+      "learning_rate": 5e-06,
+      "loss": 0.5517,
+      "step": 400
+    },
+    {
+      "epoch": 1.8516220028208745,
+      "grad_norm": 0.5025367324019494,
+      "learning_rate": 5e-06,
+      "loss": 0.5543,
+      "step": 410
+    },
+    {
+      "epoch": 1.896755994358251,
+      "grad_norm": 0.46331161327776976,
+      "learning_rate": 5e-06,
+      "loss": 0.5578,
+      "step": 420
+    },
+    {
+      "epoch": 1.9418899858956276,
+      "grad_norm": 0.5483627384227747,
+      "learning_rate": 5e-06,
+      "loss": 0.5486,
+      "step": 430
+    },
+    {
+      "epoch": 1.987023977433004,
+      "grad_norm": 0.4673744718040457,
+      "learning_rate": 5e-06,
+      "loss": 0.5591,
+      "step": 440
+    },
+    {
+      "epoch": 1.9960507757404795,
+      "eval_loss": 0.5866958498954773,
+      "eval_runtime": 356.554,
+      "eval_samples_per_second": 33.49,
+      "eval_steps_per_second": 0.524,
+      "step": 442
+    },
+    {
+      "epoch": 2.0332863187588153,
+      "grad_norm": 0.7455137586802161,
+      "learning_rate": 5e-06,
+      "loss": 0.5574,
+      "step": 450
+    },
+    {
+      "epoch": 2.078420310296192,
+      "grad_norm": 0.7317716271008468,
+      "learning_rate": 5e-06,
+      "loss": 0.5064,
+      "step": 460
+    },
+    {
+      "epoch": 2.1235543018335683,
+      "grad_norm": 0.7140712178378773,
+      "learning_rate": 5e-06,
+      "loss": 0.5109,
+      "step": 470
+    },
+    {
+      "epoch": 2.168688293370945,
+      "grad_norm": 0.5219136342087098,
+      "learning_rate": 5e-06,
+      "loss": 0.5119,
+      "step": 480
+    },
+    {
+      "epoch": 2.213822284908322,
+      "grad_norm": 0.6942766993148072,
+      "learning_rate": 5e-06,
+      "loss": 0.5045,
+      "step": 490
+    },
+    {
+      "epoch": 2.2589562764456983,
+      "grad_norm": 0.4751025500905717,
+      "learning_rate": 5e-06,
+      "loss": 0.5058,
+      "step": 500
+    },
+    {
+      "epoch": 2.304090267983075,
+      "grad_norm": 0.5526788063335546,
+      "learning_rate": 5e-06,
+      "loss": 0.5134,
+      "step": 510
+    },
+    {
+      "epoch": 2.3492242595204513,
+      "grad_norm": 0.5471049911581812,
+      "learning_rate": 5e-06,
+      "loss": 0.5135,
+      "step": 520
+    },
+    {
+      "epoch": 2.394358251057828,
+      "grad_norm": 0.5542894654716121,
+      "learning_rate": 5e-06,
+      "loss": 0.5115,
+      "step": 530
+    },
+    {
+      "epoch": 2.4394922425952044,
+      "grad_norm": 0.5478659351590376,
+      "learning_rate": 5e-06,
+      "loss": 0.5102,
+      "step": 540
+    },
+    {
+      "epoch": 2.4846262341325813,
+      "grad_norm": 0.5494840585563637,
+      "learning_rate": 5e-06,
+      "loss": 0.5163,
+      "step": 550
+    },
+    {
+      "epoch": 2.529760225669958,
+      "grad_norm": 0.49237680882767904,
+      "learning_rate": 5e-06,
+      "loss": 0.5115,
+      "step": 560
+    },
+    {
+      "epoch": 2.5748942172073344,
+      "grad_norm": 0.47486464629996683,
+      "learning_rate": 5e-06,
+      "loss": 0.5129,
+      "step": 570
+    },
+    {
+      "epoch": 2.620028208744711,
+      "grad_norm": 0.5165043118582577,
+      "learning_rate": 5e-06,
+      "loss": 0.5121,
+      "step": 580
+    },
+    {
+      "epoch": 2.6651622002820874,
+      "grad_norm": 0.5794476922681516,
+      "learning_rate": 5e-06,
+      "loss": 0.5117,
+      "step": 590
+    },
+    {
+      "epoch": 2.710296191819464,
+      "grad_norm": 0.45233116281434377,
+      "learning_rate": 5e-06,
+      "loss": 0.5162,
+      "step": 600
+    },
+    {
+      "epoch": 2.7554301833568404,
+      "grad_norm": 0.5214525369766981,
+      "learning_rate": 5e-06,
+      "loss": 0.5132,
+      "step": 610
+    },
+    {
+      "epoch": 2.800564174894217,
+      "grad_norm": 0.5938791442315001,
+      "learning_rate": 5e-06,
+      "loss": 0.518,
+      "step": 620
+    },
+    {
+      "epoch": 2.845698166431594,
+      "grad_norm": 0.5796881742506971,
+      "learning_rate": 5e-06,
+      "loss": 0.5195,
+      "step": 630
+    },
+    {
+      "epoch": 2.8908321579689704,
+      "grad_norm": 0.47397608879546316,
+      "learning_rate": 5e-06,
+      "loss": 0.5135,
+      "step": 640
+    },
+    {
+      "epoch": 2.935966149506347,
+      "grad_norm": 0.471420002781148,
+      "learning_rate": 5e-06,
+      "loss": 0.5154,
+      "step": 650
+    },
+    {
+      "epoch": 2.9811001410437235,
+      "grad_norm": 0.45834788024298295,
+      "learning_rate": 5e-06,
+      "loss": 0.5153,
+      "step": 660
+    },
+    {
+      "epoch": 2.9946403385049365,
+      "eval_loss": 0.5917297005653381,
+      "eval_runtime": 356.1014,
+      "eval_samples_per_second": 33.533,
+      "eval_steps_per_second": 0.525,
+      "step": 663
+    },
+    {
+      "epoch": 2.9946403385049365,
+      "step": 663,
+      "total_flos": 5052524767739904.0,
+      "train_loss": 0.5641303292586612,
+      "train_runtime": 61418.5213,
+      "train_samples_per_second": 11.081,
+      "train_steps_per_second": 0.011
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 663,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 5052524767739904.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

training_eval_loss.png ADDED Viewed

training_loss.png ADDED Viewed