visolex
/

vit5-hsd-span

+{
+  "best_global_step": 5040,
+  "best_metric": 0.8438760541734693,
+  "best_model_checkpoint": "outputs/runs/vit5/checkpoint-5040",
+  "epoch": 16.0,
+  "eval_steps": 500,
+  "global_step": 5040,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.9968253968253968,
+      "grad_norm": 48.960147857666016,
+      "learning_rate": 4.999432333543028e-06,
+      "loss": 4.2164,
+      "step": 314
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.8120646345156866,
+      "eval_f1": 0.7880041194112739,
+      "eval_loss": 1.4588117599487305,
+      "eval_precision": 0.8369479599718508,
+      "eval_recall": 0.7755522799379979,
+      "eval_runtime": 1.628,
+      "eval_samples_per_second": 799.123,
+      "eval_steps_per_second": 25.184,
+      "step": 315
+    },
+    {
+      "epoch": 1.9936507936507937,
+      "grad_norm": 15.666463851928711,
+      "learning_rate": 4.996525669931999e-06,
+      "loss": 1.5636,
+      "step": 628
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.8272790436657106,
+      "eval_f1": 0.8200906148872792,
+      "eval_loss": 0.8009101748466492,
+      "eval_precision": 0.819129062168523,
+      "eval_recall": 0.8211574663523349,
+      "eval_runtime": 1.6386,
+      "eval_samples_per_second": 793.961,
+      "eval_steps_per_second": 25.021,
+      "step": 630
+    },
+    {
+      "epoch": 2.9904761904761905,
+      "grad_norm": 19.285402297973633,
+      "learning_rate": 4.991155236893945e-06,
+      "loss": 1.1621,
+      "step": 942
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.8486576045322549,
+      "eval_f1": 0.8387492829457615,
+      "eval_loss": 0.6665186285972595,
+      "eval_precision": 0.8476389137544842,
+      "eval_recall": 0.833091047050099,
+      "eval_runtime": 1.6403,
+      "eval_samples_per_second": 793.151,
+      "eval_steps_per_second": 24.996,
+      "step": 945
+    },
+    {
+      "epoch": 3.9873015873015873,
+      "grad_norm": 28.716716766357422,
+      "learning_rate": 4.983326334397891e-06,
+      "loss": 0.9673,
+      "step": 1256
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.8452548502609966,
+      "eval_f1": 0.8306632859859202,
+      "eval_loss": 0.7017992734909058,
+      "eval_precision": 0.8573660674461923,
+      "eval_recall": 0.8196344002399345,
+      "eval_runtime": 1.6405,
+      "eval_samples_per_second": 793.027,
+      "eval_steps_per_second": 24.992,
+      "step": 1260
+    },
+    {
+      "epoch": 4.984126984126984,
+      "grad_norm": 62.80952072143555,
+      "learning_rate": 4.97304668862541e-06,
+      "loss": 0.8578,
+      "step": 1570
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.8483012951844792,
+      "eval_f1": 0.8374094515073132,
+      "eval_loss": 0.5731419920921326,
+      "eval_precision": 0.8497690158969053,
+      "eval_recall": 0.8303468421765257,
+      "eval_runtime": 1.6424,
+      "eval_samples_per_second": 792.155,
+      "eval_steps_per_second": 24.964,
+      "step": 1575
+    },
+    {
+      "epoch": 5.980952380952381,
+      "grad_norm": 28.359893798828125,
+      "learning_rate": 4.9603264443458e-06,
+      "loss": 0.7528,
+      "step": 1884
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.8424043754787907,
+      "eval_f1": 0.8368542522225871,
+      "eval_loss": 0.5212520360946655,
+      "eval_precision": 0.8343696637314615,
+      "eval_recall": 0.8403125137303477,
+      "eval_runtime": 1.6431,
+      "eval_samples_per_second": 791.777,
+      "eval_steps_per_second": 24.952,
+      "step": 1890
+    },
+    {
+      "epoch": 6.977777777777778,
+      "grad_norm": 13.184873580932617,
+      "learning_rate": 4.945178154904432e-06,
+      "loss": 0.6746,
+      "step": 2198
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.8452726657283853,
+      "eval_f1": 0.8388474476297365,
+      "eval_loss": 0.5077288746833801,
+      "eval_precision": 0.8378019445498359,
+      "eval_recall": 0.8400070136197805,
+      "eval_runtime": 1.6424,
+      "eval_samples_per_second": 792.11,
+      "eval_steps_per_second": 24.963,
+      "step": 2205
+    },
+    {
+      "epoch": 7.974603174603175,
+      "grad_norm": 9.050921440124512,
+      "learning_rate": 4.92761676983411e-06,
+      "loss": 0.6276,
+      "step": 2512
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.8498868717820812,
+      "eval_f1": 0.8402758437579932,
+      "eval_loss": 0.48333004117012024,
+      "eval_precision": 0.8484423552268903,
+      "eval_recall": 0.8349357523808886,
+      "eval_runtime": 1.6444,
+      "eval_samples_per_second": 791.192,
+      "eval_steps_per_second": 24.934,
+      "step": 2520
+    },
+    {
+      "epoch": 8.971428571428572,
+      "grad_norm": 14.836031913757324,
+      "learning_rate": 4.9076596201016856e-06,
+      "loss": 0.591,
+      "step": 2826
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.8510092462275748,
+      "eval_f1": 0.8380468647887628,
+      "eval_loss": 0.5170930624008179,
+      "eval_precision": 0.8600643338742522,
+      "eval_recall": 0.8279538920826988,
+      "eval_runtime": 1.6449,
+      "eval_samples_per_second": 790.913,
+      "eval_steps_per_second": 24.925,
+      "step": 2835
+    },
+    {
+      "epoch": 9.968253968253968,
+      "grad_norm": 17.490633010864258,
+      "learning_rate": 4.88532640100449e-06,
+      "loss": 0.5411,
+      "step": 3140
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.840872245283355,
+      "eval_f1": 0.8357643191911723,
+      "eval_loss": 0.4666968882083893,
+      "eval_precision": 0.8328248424035201,
+      "eval_recall": 0.8404652389103109,
+      "eval_runtime": 1.6447,
+      "eval_samples_per_second": 791.007,
+      "eval_steps_per_second": 24.928,
+      "step": 3150
+    },
+    {
+      "epoch": 10.965079365079365,
+      "grad_norm": 27.608245849609375,
+      "learning_rate": 4.860639152733449e-06,
+      "loss": 0.5193,
+      "step": 3454
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.8485863426626997,
+      "eval_f1": 0.8406162312164841,
+      "eval_loss": 0.4396151602268219,
+      "eval_precision": 0.8434539842909232,
+      "eval_recall": 0.8382779460247154,
+      "eval_runtime": 1.6435,
+      "eval_samples_per_second": 791.592,
+      "eval_steps_per_second": 24.946,
+      "step": 3465
+    },
+    {
+      "epoch": 11.961904761904762,
+      "grad_norm": 7.845660209655762,
+      "learning_rate": 4.833622238622079e-06,
+      "loss": 0.4943,
+      "step": 3768
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.8496374552386382,
+      "eval_f1": 0.842659244060233,
+      "eval_loss": 0.43954724073410034,
+      "eval_precision": 0.843136531563339,
+      "eval_recall": 0.8422001823877059,
+      "eval_runtime": 1.6428,
+      "eval_samples_per_second": 791.964,
+      "eval_steps_per_second": 24.958,
+      "step": 3780
+    },
+    {
+      "epoch": 12.958730158730159,
+      "grad_norm": 9.281864166259766,
+      "learning_rate": 4.804302321102816e-06,
+      "loss": 0.4715,
+      "step": 4082
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.8486576045322549,
+      "eval_f1": 0.8384831543048918,
+      "eval_loss": 0.478777676820755,
+      "eval_precision": 0.8483098559263628,
+      "eval_recall": 0.8324188900247866,
+      "eval_runtime": 1.6428,
+      "eval_samples_per_second": 791.931,
+      "eval_steps_per_second": 24.957,
+      "step": 4095
+    },
+    {
+      "epoch": 13.955555555555556,
+      "grad_norm": 21.69331169128418,
+      "learning_rate": 4.772708335394416e-06,
+      "loss": 0.4482,
+      "step": 4396
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.8356344978710516,
+      "eval_f1": 0.8313378359536021,
+      "eval_loss": 0.49439841508865356,
+      "eval_precision": 0.8281393298498705,
+      "eval_recall": 0.8386230277449718,
+      "eval_runtime": 1.6423,
+      "eval_samples_per_second": 792.192,
+      "eval_steps_per_second": 24.965,
+      "step": 4410
+    },
+    {
+      "epoch": 14.952380952380953,
+      "grad_norm": 11.402544021606445,
+      "learning_rate": 4.738871460946384e-06,
+      "loss": 0.4305,
+      "step": 4710
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.8504569667385223,
+      "eval_f1": 0.8397878915405506,
+      "eval_loss": 0.4550122618675232,
+      "eval_precision": 0.8519608079867367,
+      "eval_recall": 0.8327656095361328,
+      "eval_runtime": 1.6443,
+      "eval_samples_per_second": 791.219,
+      "eval_steps_per_second": 24.935,
+      "step": 4725
+    },
+    {
+      "epoch": 15.94920634920635,
+      "grad_norm": 9.356096267700195,
+      "learning_rate": 4.702825090668624e-06,
+      "loss": 0.4115,
+      "step": 5024
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.8531114713794516,
+      "eval_f1": 0.8438760541734693,
+      "eval_loss": 0.4762667417526245,
+      "eval_precision": 0.8515227136302977,
+      "eval_recall": 0.8387574009086176,
+      "eval_runtime": 1.6403,
+      "eval_samples_per_second": 793.152,
+      "eval_steps_per_second": 24.996,
+      "step": 5040
+    }
+  ],
+  "logging_steps": 314,
+  "max_steps": 31500,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 100,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 5,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 5258284886974464.0,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}