Model save

Browse files

Files changed (5) hide show

README.md +10 -6
all_results.json +6 -6
test_results.json +6 -6
trainer_state.json +666 -112
val_results.json +6 -6

README.md CHANGED Viewed

@@ -17,8 +17,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [facebook/timesformer-base-finetuned-k400](https://huggingface.co/facebook/timesformer-base-finetuned-k400) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.6248
-- Accuracy: 0.7469
 ## Model description
@@ -44,13 +44,17 @@ The following hyperparameters were used during training:
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_ratio: 0.1
-- training_steps: 185
 ### Training results
-| Training Loss | Epoch | Step | Validation Loss | Accuracy |
-|:-------------:|:-----:|:----:|:---------------:|:--------:|
-| 0.3519        | 1.0   | 185  | 0.6248          | 0.7469   |
 ### Framework versions

 This model is a fine-tuned version of [facebook/timesformer-base-finetuned-k400](https://huggingface.co/facebook/timesformer-base-finetuned-k400) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.5500
+- Accuracy: 0.8548
 ## Model description
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_ratio: 0.1
+- training_steps: 925
 ### Training results
+| Training Loss | Epoch  | Step | Validation Loss | Accuracy |
+|:-------------:|:------:|:----:|:---------------:|:--------:|
+| 0.4309        | 0.2011 | 186  | 0.6522          | 0.7220   |
+| 0.6819        | 1.2011 | 372  | 0.7019          | 0.7552   |
+| 0.5011        | 2.2011 | 558  | 0.5440          | 0.8216   |
+| 0.3274        | 3.2011 | 744  | 0.6834          | 0.8257   |
+| 0.0083        | 4.1957 | 925  | 0.5500          | 0.8548   |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 1.0,
-    "eval_accuracy": 0.7468879668049793,
-    "eval_loss": 0.6247833371162415,
-    "eval_runtime": 480.9608,
-    "eval_samples_per_second": 0.501,
-    "eval_steps_per_second": 0.127
 }

 {
+    "epoch": 4.195675675675676,
+    "eval_accuracy": 0.8547717842323651,
+    "eval_loss": 0.5500420928001404,
+    "eval_runtime": 434.3892,
+    "eval_samples_per_second": 0.555,
+    "eval_steps_per_second": 0.14
 }

test_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 1.0,
-    "eval_accuracy": 0.7595505617977528,
-    "eval_loss": 0.6546679735183716,
-    "eval_runtime": 894.0936,
-    "eval_samples_per_second": 0.498,
-    "eval_steps_per_second": 0.125
 }

 {
+    "epoch": 4.195675675675676,
+    "eval_accuracy": 0.8269662921348314,
+    "eval_loss": 0.7350317239761353,
+    "eval_runtime": 796.0622,
+    "eval_samples_per_second": 0.559,
+    "eval_steps_per_second": 0.141
 }

trainer_state.json CHANGED Viewed

@@ -1,187 +1,741 @@
 {
-  "best_metric": 0.7468879668049793,
-  "best_model_checkpoint": "videomae-timesformer-surf-analytics\\checkpoint-185",
-  "epoch": 1.0,
   "eval_steps": 500,
-  "global_step": 185,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.05405405405405406,
-      "grad_norm": 14.17848014831543,
-      "learning_rate": 2.6315789473684212e-05,
-      "loss": 1.3698,
       "step": 10
     },
     {
-      "epoch": 0.10810810810810811,
-      "grad_norm": 16.72647476196289,
-      "learning_rate": 4.9698795180722894e-05,
-      "loss": 1.0755,
       "step": 20
     },
     {
-      "epoch": 0.16216216216216217,
-      "grad_norm": 18.17704200744629,
-      "learning_rate": 4.668674698795181e-05,
-      "loss": 1.4432,
       "step": 30
     },
     {
-      "epoch": 0.21621621621621623,
-      "grad_norm": 20.910032272338867,
-      "learning_rate": 4.3674698795180726e-05,
-      "loss": 1.0146,
       "step": 40
     },
     {
-      "epoch": 0.2702702702702703,
-      "grad_norm": 10.354851722717285,
-      "learning_rate": 4.066265060240964e-05,
-      "loss": 1.0673,
       "step": 50
     },
     {
-      "epoch": 0.32432432432432434,
-      "grad_norm": 7.187958240509033,
-      "learning_rate": 3.765060240963856e-05,
-      "loss": 0.7366,
       "step": 60
     },
     {
-      "epoch": 0.3783783783783784,
-      "grad_norm": 9.815324783325195,
-      "learning_rate": 3.463855421686747e-05,
-      "loss": 1.0463,
       "step": 70
     },
     {
-      "epoch": 0.43243243243243246,
-      "grad_norm": 4.608554840087891,
-      "learning_rate": 3.162650602409639e-05,
-      "loss": 0.4352,
       "step": 80
     },
     {
-      "epoch": 0.4864864864864865,
-      "grad_norm": 11.857942581176758,
-      "learning_rate": 2.86144578313253e-05,
-      "loss": 0.6602,
       "step": 90
     },
     {
-      "epoch": 0.5405405405405406,
-      "grad_norm": 1.6288377046585083,
-      "learning_rate": 2.560240963855422e-05,
-      "loss": 0.5549,
       "step": 100
     },
     {
-      "epoch": 0.5945945945945946,
-      "grad_norm": 11.936553001403809,
-      "learning_rate": 2.2590361445783133e-05,
-      "loss": 0.5939,
       "step": 110
     },
     {
-      "epoch": 0.6486486486486487,
-      "grad_norm": 3.940782308578491,
-      "learning_rate": 1.957831325301205e-05,
-      "loss": 0.2964,
       "step": 120
     },
     {
-      "epoch": 0.7027027027027027,
-      "grad_norm": 33.594818115234375,
-      "learning_rate": 1.6566265060240965e-05,
-      "loss": 0.4994,
       "step": 130
     },
     {
-      "epoch": 0.7567567567567568,
-      "grad_norm": 3.192025899887085,
-      "learning_rate": 1.3554216867469879e-05,
-      "loss": 0.3885,
       "step": 140
     },
     {
-      "epoch": 0.8108108108108109,
-      "grad_norm": 11.03485107421875,
-      "learning_rate": 1.0542168674698796e-05,
-      "loss": 0.4043,
       "step": 150
     },
     {
-      "epoch": 0.8648648648648649,
-      "grad_norm": 20.232900619506836,
-      "learning_rate": 7.530120481927712e-06,
-      "loss": 0.6208,
       "step": 160
     },
     {
-      "epoch": 0.918918918918919,
-      "grad_norm": 11.275419235229492,
-      "learning_rate": 4.518072289156626e-06,
-      "loss": 0.2811,
       "step": 170
     },
     {
-      "epoch": 0.972972972972973,
-      "grad_norm": 8.59189510345459,
-      "learning_rate": 1.5060240963855423e-06,
-      "loss": 0.3519,
       "step": 180
     },
     {
-      "epoch": 1.0,
-      "eval_accuracy": 0.7468879668049793,
-      "eval_loss": 0.6247833371162415,
-      "eval_runtime": 490.3895,
-      "eval_samples_per_second": 0.491,
-      "eval_steps_per_second": 0.124,
-      "step": 185
     },
     {
-      "epoch": 1.0,
-      "step": 185,
-      "total_flos": 6.483572318129357e+17,
-      "train_loss": 0.7087372805621173,
-      "train_runtime": 4701.0958,
-      "train_samples_per_second": 0.157,
-      "train_steps_per_second": 0.039
     },
     {
-      "epoch": 1.0,
-      "eval_accuracy": 0.9014844804318488,
-      "eval_loss": 0.27916327118873596,
-      "eval_runtime": 1639.1829,
-      "eval_samples_per_second": 0.452,
-      "eval_steps_per_second": 0.113,
-      "step": 185
     },
     {
-      "epoch": 1.0,
-      "eval_accuracy": 0.7595505617977528,
-      "eval_loss": 0.6546679735183716,
-      "eval_runtime": 894.0936,
-      "eval_samples_per_second": 0.498,
-      "eval_steps_per_second": 0.125,
-      "step": 185
     },
     {
-      "epoch": 1.0,
-      "eval_accuracy": 0.7468879668049793,
-      "eval_loss": 0.6247833371162415,
-      "eval_runtime": 480.9608,
-      "eval_samples_per_second": 0.501,
       "eval_steps_per_second": 0.127,
-      "step": 185
     }
   ],
   "logging_steps": 10,
-  "max_steps": 185,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 9223372036854775807,
   "save_steps": 500,
@@ -197,7 +751,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.483572318129357e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.8547717842323651,
+  "best_model_checkpoint": "videomae-timesformer-surf-analytics\\checkpoint-925",
+  "epoch": 4.195675675675676,
   "eval_steps": 500,
+  "global_step": 925,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.010810810810810811,
+      "grad_norm": 10.205573081970215,
+      "learning_rate": 5.376344086021506e-06,
+      "loss": 1.5305,
       "step": 10
     },
     {
+      "epoch": 0.021621621621621623,
+      "grad_norm": 11.725934028625488,
+      "learning_rate": 1.0752688172043012e-05,
+      "loss": 1.2199,
       "step": 20
     },
     {
+      "epoch": 0.032432432432432434,
+      "grad_norm": 6.974359035491943,
+      "learning_rate": 1.6129032258064517e-05,
+      "loss": 1.281,
       "step": 30
     },
     {
+      "epoch": 0.043243243243243246,
+      "grad_norm": 7.546658515930176,
+      "learning_rate": 2.1505376344086024e-05,
+      "loss": 1.0878,
       "step": 40
     },
     {
+      "epoch": 0.05405405405405406,
+      "grad_norm": 9.739876747131348,
+      "learning_rate": 2.6881720430107527e-05,
+      "loss": 1.133,
       "step": 50
     },
     {
+      "epoch": 0.06486486486486487,
+      "grad_norm": 14.410557746887207,
+      "learning_rate": 3.2258064516129034e-05,
+      "loss": 1.049,
       "step": 60
     },
     {
+      "epoch": 0.07567567567567568,
+      "grad_norm": 8.305644989013672,
+      "learning_rate": 3.763440860215054e-05,
+      "loss": 1.0185,
       "step": 70
     },
     {
+      "epoch": 0.08648648648648649,
+      "grad_norm": 5.283512115478516,
+      "learning_rate": 4.301075268817205e-05,
+      "loss": 0.6385,
       "step": 80
     },
     {
+      "epoch": 0.0972972972972973,
+      "grad_norm": 9.341029167175293,
+      "learning_rate": 4.8387096774193554e-05,
+      "loss": 0.7407,
       "step": 90
     },
     {
+      "epoch": 0.10810810810810811,
+      "grad_norm": 6.474923610687256,
+      "learning_rate": 4.957932692307692e-05,
+      "loss": 0.5965,
       "step": 100
     },
     {
+      "epoch": 0.11891891891891893,
+      "grad_norm": 7.116113662719727,
+      "learning_rate": 4.897836538461539e-05,
+      "loss": 0.9715,
       "step": 110
     },
     {
+      "epoch": 0.12972972972972974,
+      "grad_norm": 10.062265396118164,
+      "learning_rate": 4.8377403846153846e-05,
+      "loss": 0.5473,
       "step": 120
     },
     {
+      "epoch": 0.14054054054054055,
+      "grad_norm": 32.85737228393555,
+      "learning_rate": 4.777644230769231e-05,
+      "loss": 0.8372,
       "step": 130
     },
     {
+      "epoch": 0.15135135135135136,
+      "grad_norm": 16.32477378845215,
+      "learning_rate": 4.717548076923077e-05,
+      "loss": 0.653,
       "step": 140
     },
     {
+      "epoch": 0.16216216216216217,
+      "grad_norm": 11.066850662231445,
+      "learning_rate": 4.657451923076923e-05,
+      "loss": 0.6233,
       "step": 150
     },
     {
+      "epoch": 0.17297297297297298,
+      "grad_norm": 4.975943565368652,
+      "learning_rate": 4.5973557692307694e-05,
+      "loss": 1.0554,
       "step": 160
     },
     {
+      "epoch": 0.1837837837837838,
+      "grad_norm": 11.884200096130371,
+      "learning_rate": 4.5372596153846156e-05,
+      "loss": 0.6109,
       "step": 170
     },
     {
+      "epoch": 0.1945945945945946,
+      "grad_norm": 11.737774848937988,
+      "learning_rate": 4.477163461538462e-05,
+      "loss": 0.4309,
       "step": 180
     },
     {
+      "epoch": 0.20108108108108108,
+      "eval_accuracy": 0.7219917012448133,
+      "eval_loss": 0.652153491973877,
+      "eval_runtime": 361.5654,
+      "eval_samples_per_second": 0.667,
+      "eval_steps_per_second": 0.169,
+      "step": 186
+    },
+    {
+      "epoch": 1.0043243243243243,
+      "grad_norm": 4.409055709838867,
+      "learning_rate": 4.417067307692308e-05,
+      "loss": 0.5466,
+      "step": 190
+    },
+    {
+      "epoch": 1.0151351351351352,
+      "grad_norm": 5.313009262084961,
+      "learning_rate": 4.3569711538461535e-05,
+      "loss": 0.0821,
+      "step": 200
+    },
+    {
+      "epoch": 1.025945945945946,
+      "grad_norm": 1.3797563314437866,
+      "learning_rate": 4.2968750000000004e-05,
+      "loss": 0.2795,
+      "step": 210
+    },
+    {
+      "epoch": 1.0367567567567568,
+      "grad_norm": 1.0455204248428345,
+      "learning_rate": 4.2367788461538466e-05,
+      "loss": 0.798,
+      "step": 220
+    },
+    {
+      "epoch": 1.0475675675675675,
+      "grad_norm": 17.128549575805664,
+      "learning_rate": 4.176682692307692e-05,
+      "loss": 0.3279,
+      "step": 230
+    },
+    {
+      "epoch": 1.0583783783783784,
+      "grad_norm": 18.71080207824707,
+      "learning_rate": 4.116586538461539e-05,
+      "loss": 0.5378,
+      "step": 240
+    },
+    {
+      "epoch": 1.0691891891891891,
+      "grad_norm": 15.340435028076172,
+      "learning_rate": 4.0564903846153846e-05,
+      "loss": 0.3799,
+      "step": 250
+    },
+    {
+      "epoch": 1.08,
+      "grad_norm": 3.928271532058716,
+      "learning_rate": 3.996394230769231e-05,
+      "loss": 0.3517,
+      "step": 260
+    },
+    {
+      "epoch": 1.0908108108108108,
+      "grad_norm": 14.76327133178711,
+      "learning_rate": 3.936298076923077e-05,
+      "loss": 0.5122,
+      "step": 270
+    },
+    {
+      "epoch": 1.1016216216216217,
+      "grad_norm": 18.79231071472168,
+      "learning_rate": 3.876201923076923e-05,
+      "loss": 0.4962,
+      "step": 280
+    },
+    {
+      "epoch": 1.1124324324324324,
+      "grad_norm": 19.632802963256836,
+      "learning_rate": 3.8161057692307694e-05,
+      "loss": 0.5597,
+      "step": 290
+    },
+    {
+      "epoch": 1.1232432432432433,
+      "grad_norm": 19.008041381835938,
+      "learning_rate": 3.7560096153846156e-05,
+      "loss": 0.3686,
+      "step": 300
+    },
+    {
+      "epoch": 1.134054054054054,
+      "grad_norm": 19.428789138793945,
+      "learning_rate": 3.695913461538462e-05,
+      "loss": 0.4503,
+      "step": 310
+    },
+    {
+      "epoch": 1.144864864864865,
+      "grad_norm": 14.225759506225586,
+      "learning_rate": 3.635817307692308e-05,
+      "loss": 0.4095,
+      "step": 320
+    },
+    {
+      "epoch": 1.1556756756756756,
+      "grad_norm": 4.436385631561279,
+      "learning_rate": 3.5757211538461535e-05,
+      "loss": 0.3878,
+      "step": 330
+    },
+    {
+      "epoch": 1.1664864864864866,
+      "grad_norm": 0.6838646531105042,
+      "learning_rate": 3.5156250000000004e-05,
+      "loss": 0.3264,
+      "step": 340
+    },
+    {
+      "epoch": 1.1772972972972973,
+      "grad_norm": 0.13564491271972656,
+      "learning_rate": 3.4555288461538466e-05,
+      "loss": 0.4799,
+      "step": 350
+    },
+    {
+      "epoch": 1.1881081081081082,
+      "grad_norm": 7.611846923828125,
+      "learning_rate": 3.395432692307692e-05,
+      "loss": 0.3353,
+      "step": 360
+    },
+    {
+      "epoch": 1.1989189189189189,
+      "grad_norm": 19.25046730041504,
+      "learning_rate": 3.335336538461539e-05,
+      "loss": 0.6819,
+      "step": 370
+    },
+    {
+      "epoch": 1.201081081081081,
+      "eval_accuracy": 0.7551867219917012,
+      "eval_loss": 0.7018738985061646,
+      "eval_runtime": 356.8316,
+      "eval_samples_per_second": 0.675,
+      "eval_steps_per_second": 0.171,
+      "step": 372
+    },
+    {
+      "epoch": 2.0086486486486486,
+      "grad_norm": 0.20281045138835907,
+      "learning_rate": 3.2752403846153846e-05,
+      "loss": 0.1651,
+      "step": 380
+    },
+    {
+      "epoch": 2.0194594594594593,
+      "grad_norm": 28.839569091796875,
+      "learning_rate": 3.215144230769231e-05,
+      "loss": 0.3506,
+      "step": 390
+    },
+    {
+      "epoch": 2.0302702702702704,
+      "grad_norm": 22.747913360595703,
+      "learning_rate": 3.155048076923077e-05,
+      "loss": 0.6242,
+      "step": 400
+    },
+    {
+      "epoch": 2.041081081081081,
+      "grad_norm": 29.88939094543457,
+      "learning_rate": 3.094951923076923e-05,
+      "loss": 0.4168,
+      "step": 410
+    },
+    {
+      "epoch": 2.051891891891892,
+      "grad_norm": 0.13965100049972534,
+      "learning_rate": 3.0348557692307694e-05,
+      "loss": 0.0609,
+      "step": 420
+    },
+    {
+      "epoch": 2.0627027027027025,
+      "grad_norm": 7.307075500488281,
+      "learning_rate": 2.974759615384616e-05,
+      "loss": 0.4065,
+      "step": 430
+    },
+    {
+      "epoch": 2.0735135135135137,
+      "grad_norm": 0.021403660997748375,
+      "learning_rate": 2.9146634615384614e-05,
+      "loss": 0.3352,
+      "step": 440
+    },
+    {
+      "epoch": 2.0843243243243244,
+      "grad_norm": 17.655433654785156,
+      "learning_rate": 2.854567307692308e-05,
+      "loss": 0.1129,
+      "step": 450
+    },
+    {
+      "epoch": 2.095135135135135,
+      "grad_norm": 0.23121196031570435,
+      "learning_rate": 2.794471153846154e-05,
+      "loss": 0.1074,
+      "step": 460
+    },
+    {
+      "epoch": 2.1059459459459458,
+      "grad_norm": 0.016081752255558968,
+      "learning_rate": 2.734375e-05,
+      "loss": 0.5961,
+      "step": 470
+    },
+    {
+      "epoch": 2.116756756756757,
+      "grad_norm": 0.013322114944458008,
+      "learning_rate": 2.6742788461538466e-05,
+      "loss": 0.2839,
+      "step": 480
+    },
+    {
+      "epoch": 2.1275675675675676,
+      "grad_norm": 4.522771835327148,
+      "learning_rate": 2.6141826923076925e-05,
+      "loss": 0.0814,
+      "step": 490
+    },
+    {
+      "epoch": 2.1383783783783783,
+      "grad_norm": 0.02786172181367874,
+      "learning_rate": 2.5540865384615387e-05,
+      "loss": 0.0448,
+      "step": 500
+    },
+    {
+      "epoch": 2.149189189189189,
+      "grad_norm": 16.996612548828125,
+      "learning_rate": 2.493990384615385e-05,
+      "loss": 0.3222,
+      "step": 510
+    },
+    {
+      "epoch": 2.16,
+      "grad_norm": 1.9226462841033936,
+      "learning_rate": 2.4338942307692307e-05,
+      "loss": 0.1569,
+      "step": 520
+    },
+    {
+      "epoch": 2.170810810810811,
+      "grad_norm": 1.0920050144195557,
+      "learning_rate": 2.373798076923077e-05,
+      "loss": 0.1651,
+      "step": 530
+    },
+    {
+      "epoch": 2.1816216216216215,
+      "grad_norm": 0.230145663022995,
+      "learning_rate": 2.313701923076923e-05,
+      "loss": 0.2688,
+      "step": 540
+    },
+    {
+      "epoch": 2.1924324324324322,
+      "grad_norm": 5.873709201812744,
+      "learning_rate": 2.2536057692307694e-05,
+      "loss": 0.5011,
+      "step": 550
+    },
+    {
+      "epoch": 2.2010810810810812,
+      "eval_accuracy": 0.8215767634854771,
+      "eval_loss": 0.5440417528152466,
+      "eval_runtime": 588.0061,
+      "eval_samples_per_second": 0.41,
+      "eval_steps_per_second": 0.104,
+      "step": 558
+    },
+    {
+      "epoch": 3.002162162162162,
+      "grad_norm": 12.916172981262207,
+      "learning_rate": 2.1935096153846156e-05,
+      "loss": 0.6714,
+      "step": 560
+    },
+    {
+      "epoch": 3.012972972972973,
+      "grad_norm": 18.048948287963867,
+      "learning_rate": 2.1334134615384614e-05,
+      "loss": 0.1235,
+      "step": 570
+    },
+    {
+      "epoch": 3.023783783783784,
+      "grad_norm": 0.9115002751350403,
+      "learning_rate": 2.073317307692308e-05,
+      "loss": 0.1749,
+      "step": 580
+    },
+    {
+      "epoch": 3.0345945945945947,
+      "grad_norm": 18.67428207397461,
+      "learning_rate": 2.0132211538461542e-05,
+      "loss": 0.1547,
+      "step": 590
+    },
+    {
+      "epoch": 3.0454054054054054,
+      "grad_norm": 0.07008351385593414,
+      "learning_rate": 1.953125e-05,
+      "loss": 0.0246,
+      "step": 600
+    },
+    {
+      "epoch": 3.056216216216216,
+      "grad_norm": 0.0067512416280806065,
+      "learning_rate": 1.8930288461538462e-05,
+      "loss": 0.0041,
+      "step": 610
+    },
+    {
+      "epoch": 3.0670270270270272,
+      "grad_norm": 0.01588040590286255,
+      "learning_rate": 1.832932692307692e-05,
+      "loss": 0.1187,
+      "step": 620
+    },
+    {
+      "epoch": 3.077837837837838,
+      "grad_norm": 13.167031288146973,
+      "learning_rate": 1.7728365384615387e-05,
+      "loss": 0.0238,
+      "step": 630
+    },
+    {
+      "epoch": 3.0886486486486486,
+      "grad_norm": 0.06922053545713425,
+      "learning_rate": 1.712740384615385e-05,
+      "loss": 0.1063,
+      "step": 640
+    },
+    {
+      "epoch": 3.0994594594594593,
+      "grad_norm": 74.04322814941406,
+      "learning_rate": 1.6526442307692307e-05,
+      "loss": 0.376,
+      "step": 650
+    },
+    {
+      "epoch": 3.1102702702702705,
+      "grad_norm": 32.97873306274414,
+      "learning_rate": 1.592548076923077e-05,
+      "loss": 0.4791,
+      "step": 660
+    },
+    {
+      "epoch": 3.121081081081081,
+      "grad_norm": 0.11083012819290161,
+      "learning_rate": 1.532451923076923e-05,
+      "loss": 0.0166,
+      "step": 670
+    },
+    {
+      "epoch": 3.131891891891892,
+      "grad_norm": 0.01234583742916584,
+      "learning_rate": 1.4723557692307693e-05,
+      "loss": 0.0195,
+      "step": 680
+    },
+    {
+      "epoch": 3.1427027027027026,
+      "grad_norm": 19.750049591064453,
+      "learning_rate": 1.4122596153846154e-05,
+      "loss": 0.1691,
+      "step": 690
+    },
+    {
+      "epoch": 3.1535135135135137,
+      "grad_norm": 0.6507856249809265,
+      "learning_rate": 1.3521634615384616e-05,
+      "loss": 0.2198,
+      "step": 700
+    },
+    {
+      "epoch": 3.1643243243243244,
+      "grad_norm": 0.04525623098015785,
+      "learning_rate": 1.292067307692308e-05,
+      "loss": 0.3103,
+      "step": 710
+    },
+    {
+      "epoch": 3.175135135135135,
+      "grad_norm": 0.009144825860857964,
+      "learning_rate": 1.231971153846154e-05,
+      "loss": 0.0903,
+      "step": 720
+    },
+    {
+      "epoch": 3.185945945945946,
+      "grad_norm": 6.008044719696045,
+      "learning_rate": 1.171875e-05,
+      "loss": 0.2296,
+      "step": 730
+    },
+    {
+      "epoch": 3.1967567567567565,
+      "grad_norm": 0.15373368561267853,
+      "learning_rate": 1.111778846153846e-05,
+      "loss": 0.3274,
+      "step": 740
     },
     {
+      "epoch": 3.2010810810810812,
+      "eval_accuracy": 0.8257261410788381,
+      "eval_loss": 0.683351993560791,
+      "eval_runtime": 459.2726,
+      "eval_samples_per_second": 0.525,
+      "eval_steps_per_second": 0.133,
+      "step": 744
     },
     {
+      "epoch": 4.006486486486486,
+      "grad_norm": 0.008657727390527725,
+      "learning_rate": 1.0516826923076924e-05,
+      "loss": 0.1495,
+      "step": 750
     },
     {
+      "epoch": 4.017297297297297,
+      "grad_norm": 0.033678218722343445,
+      "learning_rate": 9.915865384615385e-06,
+      "loss": 0.0142,
+      "step": 760
     },
     {
+      "epoch": 4.028108108108108,
+      "grad_norm": 50.353580474853516,
+      "learning_rate": 9.314903846153847e-06,
+      "loss": 0.1612,
+      "step": 770
+    },
+    {
+      "epoch": 4.0389189189189185,
+      "grad_norm": 0.035760682076215744,
+      "learning_rate": 8.713942307692307e-06,
+      "loss": 0.2428,
+      "step": 780
+    },
+    {
+      "epoch": 4.04972972972973,
+      "grad_norm": 12.059436798095703,
+      "learning_rate": 8.112980769230769e-06,
+      "loss": 0.2061,
+      "step": 790
+    },
+    {
+      "epoch": 4.060540540540541,
+      "grad_norm": 0.006958181504160166,
+      "learning_rate": 7.512019230769231e-06,
+      "loss": 0.0098,
+      "step": 800
+    },
+    {
+      "epoch": 4.0713513513513515,
+      "grad_norm": 0.04333299770951271,
+      "learning_rate": 6.911057692307693e-06,
+      "loss": 0.2669,
+      "step": 810
+    },
+    {
+      "epoch": 4.082162162162162,
+      "grad_norm": 0.02775268815457821,
+      "learning_rate": 6.310096153846154e-06,
+      "loss": 0.0539,
+      "step": 820
+    },
+    {
+      "epoch": 4.092972972972973,
+      "grad_norm": 0.48154217004776,
+      "learning_rate": 5.709134615384616e-06,
+      "loss": 0.0897,
+      "step": 830
+    },
+    {
+      "epoch": 4.103783783783784,
+      "grad_norm": 0.012652811594307423,
+      "learning_rate": 5.108173076923077e-06,
+      "loss": 0.0778,
+      "step": 840
+    },
+    {
+      "epoch": 4.114594594594594,
+      "grad_norm": 0.006140949670225382,
+      "learning_rate": 4.507211538461539e-06,
+      "loss": 0.0017,
+      "step": 850
+    },
+    {
+      "epoch": 4.125405405405405,
+      "grad_norm": 11.695226669311523,
+      "learning_rate": 3.90625e-06,
+      "loss": 0.0203,
+      "step": 860
+    },
+    {
+      "epoch": 4.136216216216217,
+      "grad_norm": 0.015799295157194138,
+      "learning_rate": 3.3052884615384617e-06,
+      "loss": 0.0149,
+      "step": 870
+    },
+    {
+      "epoch": 4.147027027027027,
+      "grad_norm": 21.965198516845703,
+      "learning_rate": 2.7043269230769233e-06,
+      "loss": 0.3756,
+      "step": 880
+    },
+    {
+      "epoch": 4.157837837837838,
+      "grad_norm": 0.17932982742786407,
+      "learning_rate": 2.103365384615385e-06,
+      "loss": 0.1004,
+      "step": 890
+    },
+    {
+      "epoch": 4.168648648648649,
+      "grad_norm": 0.005346647929400206,
+      "learning_rate": 1.5024038461538464e-06,
+      "loss": 0.1684,
+      "step": 900
+    },
+    {
+      "epoch": 4.179459459459459,
+      "grad_norm": 6.568191051483154,
+      "learning_rate": 9.014423076923077e-07,
+      "loss": 0.0342,
+      "step": 910
+    },
+    {
+      "epoch": 4.19027027027027,
+      "grad_norm": 0.2238602489233017,
+      "learning_rate": 3.0048076923076924e-07,
+      "loss": 0.0083,
+      "step": 920
+    },
+    {
+      "epoch": 4.195675675675676,
+      "eval_accuracy": 0.8547717842323651,
+      "eval_loss": 0.5500421524047852,
+      "eval_runtime": 452.3168,
+      "eval_samples_per_second": 0.533,
+      "eval_steps_per_second": 0.135,
+      "step": 925
+    },
+    {
+      "epoch": 4.195675675675676,
+      "step": 925,
+      "total_flos": 3.2312722580082524e+18,
+      "train_loss": 0.3789604688234426,
+      "train_runtime": 19695.7134,
+      "train_samples_per_second": 0.188,
+      "train_steps_per_second": 0.047
+    },
+    {
+      "epoch": 4.195675675675676,
+      "eval_accuracy": 0.9676113360323887,
+      "eval_loss": 0.1311430186033249,
+      "eval_runtime": 1467.8713,
+      "eval_samples_per_second": 0.505,
       "eval_steps_per_second": 0.127,
+      "step": 925
+    },
+    {
+      "epoch": 4.195675675675676,
+      "eval_accuracy": 0.8269662921348314,
+      "eval_loss": 0.7350317239761353,
+      "eval_runtime": 796.0622,
+      "eval_samples_per_second": 0.559,
+      "eval_steps_per_second": 0.141,
+      "step": 925
+    },
+    {
+      "epoch": 4.195675675675676,
+      "eval_accuracy": 0.8547717842323651,
+      "eval_loss": 0.5500420928001404,
+      "eval_runtime": 434.3892,
+      "eval_samples_per_second": 0.555,
+      "eval_steps_per_second": 0.14,
+      "step": 925
     }
   ],
   "logging_steps": 10,
+  "max_steps": 925,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 9223372036854775807,
   "save_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 3.2312722580082524e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

val_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 1.0,
-    "eval_accuracy": 0.7468879668049793,
-    "eval_loss": 0.6247833371162415,
-    "eval_runtime": 480.9608,
-    "eval_samples_per_second": 0.501,
-    "eval_steps_per_second": 0.127
 }

 {
+    "epoch": 4.195675675675676,
+    "eval_accuracy": 0.8547717842323651,
+    "eval_loss": 0.5500420928001404,
+    "eval_runtime": 434.3892,
+    "eval_samples_per_second": 0.555,
+    "eval_steps_per_second": 0.14
 }