🍻 cheers

Browse files

Files changed (6) hide show

README.md +6 -5
all_results.json +11 -11
eval_results.json +6 -6
runs/Dec26_19-24-41_37ea9fdc1c3c/events.out.tfevents.1703622620.37ea9fdc1c3c.47.3 +3 -0
train_results.json +6 -6
trainer_state.json +514 -151

README.md CHANGED Viewed

@@ -2,6 +2,7 @@
 license: apache-2.0
 base_model: Raihan004/Hierarchical_Agent_Action
 tags:
 - generated_from_trainer
 datasets:
 - image_folder
@@ -14,7 +15,7 @@ model-index:
       name: Image Classification
       type: image-classification
     dataset:
-      name: image_folder
       type: image_folder
       config: hierarchical-action-agent
       split: train
@@ -22,7 +23,7 @@ model-index:
     metrics:
     - name: Accuracy
       type: accuracy
-      value: 0.7913669064748201
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -30,10 +31,10 @@ should probably proofread and complete it, then remove this comment. -->
 # Hierarchical_Agent_Action
-This model is a fine-tuned version of [Raihan004/Hierarchical_Agent_Action](https://huggingface.co/Raihan004/Hierarchical_Agent_Action) on the image_folder dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.8794
-- Accuracy: 0.7914
 ## Model description

 license: apache-2.0
 base_model: Raihan004/Hierarchical_Agent_Action
 tags:
+- image-classification
 - generated_from_trainer
 datasets:
 - image_folder
       name: Image Classification
       type: image-classification
     dataset:
+      name: agent_action_class
       type: image_folder
       config: hierarchical-action-agent
       split: train
     metrics:
     - name: Accuracy
       type: accuracy
+      value: 0.7856115107913669
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # Hierarchical_Agent_Action
+This model is a fine-tuned version of [Raihan004/Hierarchical_Agent_Action](https://huggingface.co/Raihan004/Hierarchical_Agent_Action) on the agent_action_class dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.8558
+- Accuracy: 0.7856
 ## Model description

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 15.0,
-    "eval_accuracy": 0.8129496402877698,
-    "eval_loss": 0.6429479122161865,
-    "eval_runtime": 13.5771,
-    "eval_samples_per_second": 51.189,
-    "eval_steps_per_second": 6.408,
-    "total_flos": 4.5776019534039245e+18,
-    "train_loss": 0.7704572311011694,
-    "train_runtime": 1921.5202,
-    "train_samples_per_second": 30.733,
-    "train_steps_per_second": 0.484
 }

 {
+    "epoch": 30.0,
+    "eval_accuracy": 0.7856115107913669,
+    "eval_loss": 0.855847954750061,
+    "eval_runtime": 14.4633,
+    "eval_samples_per_second": 48.053,
+    "eval_steps_per_second": 6.015,
+    "total_flos": 9.155203906807849e+18,
+    "train_loss": 0.21589128868554228,
+    "train_runtime": 3907.045,
+    "train_samples_per_second": 30.23,
+    "train_steps_per_second": 0.476
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 15.0,
-    "eval_accuracy": 0.8129496402877698,
-    "eval_loss": 0.6429479122161865,
-    "eval_runtime": 13.5771,
-    "eval_samples_per_second": 51.189,
-    "eval_steps_per_second": 6.408
 }

 {
+    "epoch": 30.0,
+    "eval_accuracy": 0.7856115107913669,
+    "eval_loss": 0.855847954750061,
+    "eval_runtime": 14.4633,
+    "eval_samples_per_second": 48.053,
+    "eval_steps_per_second": 6.015
 }

runs/Dec26_19-24-41_37ea9fdc1c3c/events.out.tfevents.1703622620.37ea9fdc1c3c.47.3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d4fb94f5cd1121f29cceec3fdfea694dfb0af68896b299af4f9a87d678e68a2e
+size 411

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 15.0,
-    "total_flos": 4.5776019534039245e+18,
-    "train_loss": 0.7704572311011694,
-    "train_runtime": 1921.5202,
-    "train_samples_per_second": 30.733,
-    "train_steps_per_second": 0.484
 }

 {
+    "epoch": 30.0,
+    "total_flos": 9.155203906807849e+18,
+    "train_loss": 0.21589128868554228,
+    "train_runtime": 3907.045,
+    "train_samples_per_second": 30.23,
+    "train_steps_per_second": 0.476
 }

trainer_state.json CHANGED Viewed

@@ -1,385 +1,748 @@
 {
-  "best_metric": 0.6429479122161865,
-  "best_model_checkpoint": "Hierarchical_Agent_Action/checkpoint-900",
-  "epoch": 15.0,
   "eval_steps": 100,
-  "global_step": 930,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.32,
-      "learning_rate": 0.0001956989247311828,
-      "loss": 3.2878,
       "step": 20
     },
     {
       "epoch": 0.65,
-      "learning_rate": 0.0001913978494623656,
-      "loss": 2.7048,
       "step": 40
     },
     {
       "epoch": 0.97,
-      "learning_rate": 0.0001870967741935484,
-      "loss": 2.285,
       "step": 60
     },
     {
       "epoch": 1.29,
-      "learning_rate": 0.0001827956989247312,
-      "loss": 1.934,
       "step": 80
     },
     {
       "epoch": 1.61,
-      "learning_rate": 0.00017849462365591398,
-      "loss": 1.6851,
       "step": 100
     },
     {
       "epoch": 1.61,
-      "eval_accuracy": 0.7568345323741007,
-      "eval_loss": 1.5225424766540527,
-      "eval_runtime": 13.5302,
-      "eval_samples_per_second": 51.366,
-      "eval_steps_per_second": 6.43,
       "step": 100
     },
     {
       "epoch": 1.94,
-      "learning_rate": 0.00017419354838709678,
-      "loss": 1.5182,
       "step": 120
     },
     {
       "epoch": 2.26,
-      "learning_rate": 0.00016989247311827957,
-      "loss": 1.2911,
       "step": 140
     },
     {
       "epoch": 2.58,
-      "learning_rate": 0.0001655913978494624,
-      "loss": 1.1929,
       "step": 160
     },
     {
       "epoch": 2.9,
-      "learning_rate": 0.00016129032258064516,
-      "loss": 1.0997,
       "step": 180
     },
     {
       "epoch": 3.23,
-      "learning_rate": 0.00015698924731182796,
-      "loss": 0.9569,
       "step": 200
     },
     {
       "epoch": 3.23,
-      "eval_accuracy": 0.7769784172661871,
-      "eval_loss": 0.9738827347755432,
-      "eval_runtime": 13.5802,
-      "eval_samples_per_second": 51.177,
-      "eval_steps_per_second": 6.406,
       "step": 200
     },
     {
       "epoch": 3.55,
-      "learning_rate": 0.00015268817204301075,
-      "loss": 0.9299,
       "step": 220
     },
     {
       "epoch": 3.87,
-      "learning_rate": 0.00014838709677419355,
-      "loss": 0.8698,
       "step": 240
     },
     {
       "epoch": 4.19,
-      "learning_rate": 0.00014408602150537637,
-      "loss": 0.8559,
       "step": 260
     },
     {
       "epoch": 4.52,
-      "learning_rate": 0.00013978494623655916,
-      "loss": 0.7397,
       "step": 280
     },
     {
       "epoch": 4.84,
-      "learning_rate": 0.00013548387096774193,
-      "loss": 0.7947,
       "step": 300
     },
     {
       "epoch": 4.84,
-      "eval_accuracy": 0.8071942446043165,
-      "eval_loss": 0.7677171230316162,
-      "eval_runtime": 13.5251,
-      "eval_samples_per_second": 51.386,
-      "eval_steps_per_second": 6.432,
       "step": 300
     },
     {
       "epoch": 5.16,
-      "learning_rate": 0.00013118279569892472,
-      "loss": 0.7,
       "step": 320
     },
     {
       "epoch": 5.48,
-      "learning_rate": 0.00012688172043010752,
-      "loss": 0.6085,
       "step": 340
     },
     {
       "epoch": 5.81,
-      "learning_rate": 0.00012258064516129034,
-      "loss": 0.6686,
       "step": 360
     },
     {
       "epoch": 6.13,
-      "learning_rate": 0.00011827956989247313,
-      "loss": 0.6064,
       "step": 380
     },
     {
       "epoch": 6.45,
-      "learning_rate": 0.00011397849462365593,
-      "loss": 0.6196,
       "step": 400
     },
     {
       "epoch": 6.45,
-      "eval_accuracy": 0.7928057553956834,
-      "eval_loss": 0.7337872385978699,
-      "eval_runtime": 13.5683,
-      "eval_samples_per_second": 51.222,
-      "eval_steps_per_second": 6.412,
       "step": 400
     },
     {
       "epoch": 6.77,
-      "learning_rate": 0.00010967741935483871,
-      "loss": 0.575,
       "step": 420
     },
     {
       "epoch": 7.1,
-      "learning_rate": 0.0001053763440860215,
-      "loss": 0.5475,
       "step": 440
     },
     {
       "epoch": 7.42,
-      "learning_rate": 0.0001010752688172043,
-      "loss": 0.5107,
       "step": 460
     },
     {
       "epoch": 7.74,
-      "learning_rate": 9.677419354838711e-05,
-      "loss": 0.5313,
       "step": 480
     },
     {
       "epoch": 8.06,
-      "learning_rate": 9.268817204301076e-05,
-      "loss": 0.4951,
       "step": 500
     },
     {
       "epoch": 8.06,
-      "eval_accuracy": 0.8014388489208633,
-      "eval_loss": 0.7010597586631775,
-      "eval_runtime": 13.5437,
-      "eval_samples_per_second": 51.315,
-      "eval_steps_per_second": 6.424,
       "step": 500
     },
     {
       "epoch": 8.39,
-      "learning_rate": 8.838709677419355e-05,
-      "loss": 0.4507,
       "step": 520
     },
     {
       "epoch": 8.71,
-      "learning_rate": 8.408602150537634e-05,
-      "loss": 0.4825,
       "step": 540
     },
     {
       "epoch": 9.03,
-      "learning_rate": 7.978494623655914e-05,
-      "loss": 0.4517,
       "step": 560
     },
     {
       "epoch": 9.35,
-      "learning_rate": 7.548387096774195e-05,
-      "loss": 0.4049,
       "step": 580
     },
     {
       "epoch": 9.68,
-      "learning_rate": 7.13978494623656e-05,
-      "loss": 0.3935,
       "step": 600
     },
     {
       "epoch": 9.68,
-      "eval_accuracy": 0.7913669064748201,
-      "eval_loss": 0.7296842336654663,
-      "eval_runtime": 13.4431,
-      "eval_samples_per_second": 51.699,
-      "eval_steps_per_second": 6.472,
       "step": 600
     },
     {
       "epoch": 10.0,
-      "learning_rate": 6.709677419354839e-05,
-      "loss": 0.4355,
       "step": 620
     },
     {
       "epoch": 10.32,
-      "learning_rate": 6.279569892473119e-05,
-      "loss": 0.4131,
       "step": 640
     },
     {
       "epoch": 10.65,
-      "learning_rate": 5.849462365591398e-05,
-      "loss": 0.4059,
       "step": 660
     },
     {
       "epoch": 10.97,
-      "learning_rate": 5.419354838709678e-05,
-      "loss": 0.3698,
       "step": 680
     },
     {
       "epoch": 11.29,
-      "learning_rate": 4.989247311827957e-05,
-      "loss": 0.3646,
       "step": 700
     },
     {
       "epoch": 11.29,
-      "eval_accuracy": 0.8100719424460432,
-      "eval_loss": 0.6603276133537292,
-      "eval_runtime": 13.4983,
-      "eval_samples_per_second": 51.488,
-      "eval_steps_per_second": 6.445,
       "step": 700
     },
     {
       "epoch": 11.61,
-      "learning_rate": 4.559139784946237e-05,
-      "loss": 0.3585,
       "step": 720
     },
     {
       "epoch": 11.94,
-      "learning_rate": 4.1290322580645165e-05,
-      "loss": 0.3363,
       "step": 740
     },
     {
       "epoch": 12.26,
-      "learning_rate": 3.698924731182796e-05,
-      "loss": 0.343,
       "step": 760
     },
     {
       "epoch": 12.58,
-      "learning_rate": 3.2688172043010754e-05,
-      "loss": 0.3284,
       "step": 780
     },
     {
       "epoch": 12.9,
-      "learning_rate": 2.838709677419355e-05,
-      "loss": 0.3382,
       "step": 800
     },
     {
       "epoch": 12.9,
-      "eval_accuracy": 0.8158273381294964,
-      "eval_loss": 0.6626977324485779,
-      "eval_runtime": 13.6829,
-      "eval_samples_per_second": 50.793,
-      "eval_steps_per_second": 6.358,
       "step": 800
     },
     {
       "epoch": 13.23,
-      "learning_rate": 2.4086021505376347e-05,
-      "loss": 0.3016,
       "step": 820
     },
     {
       "epoch": 13.55,
-      "learning_rate": 1.978494623655914e-05,
-      "loss": 0.2865,
       "step": 840
     },
     {
       "epoch": 13.87,
-      "learning_rate": 1.5483870967741936e-05,
-      "loss": 0.308,
       "step": 860
     },
     {
       "epoch": 14.19,
-      "learning_rate": 1.1182795698924732e-05,
-      "loss": 0.3115,
       "step": 880
     },
     {
       "epoch": 14.52,
-      "learning_rate": 6.881720430107527e-06,
-      "loss": 0.3133,
       "step": 900
     },
     {
       "epoch": 14.52,
-      "eval_accuracy": 0.8129496402877698,
-      "eval_loss": 0.6429479122161865,
-      "eval_runtime": 13.0863,
-      "eval_samples_per_second": 53.109,
-      "eval_steps_per_second": 6.648,
       "step": 900
     },
     {
       "epoch": 14.84,
-      "learning_rate": 2.580645161290323e-06,
-      "loss": 0.3048,
       "step": 920
     },
     {
-      "epoch": 15.0,
-      "step": 930,
-      "total_flos": 4.5776019534039245e+18,
-      "train_loss": 0.7704572311011694,
-      "train_runtime": 1921.5202,
-      "train_samples_per_second": 30.733,
-      "train_steps_per_second": 0.484
     }
   ],
   "logging_steps": 20,
-  "max_steps": 930,
-  "num_train_epochs": 15,
   "save_steps": 100,
-  "total_flos": 4.5776019534039245e+18,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.855847954750061,
+  "best_model_checkpoint": "Hierarchical_Agent_Action/checkpoint-1600",
+  "epoch": 30.0,
   "eval_steps": 100,
+  "global_step": 1860,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.32,
+      "learning_rate": 0.00019784946236559142,
+      "loss": 0.4563,
       "step": 20
     },
     {
       "epoch": 0.65,
+      "learning_rate": 0.0001956989247311828,
+      "loss": 0.4173,
       "step": 40
     },
     {
       "epoch": 0.97,
+      "learning_rate": 0.00019365591397849463,
+      "loss": 0.3669,
       "step": 60
     },
     {
       "epoch": 1.29,
+      "learning_rate": 0.00019150537634408604,
+      "loss": 0.2848,
       "step": 80
     },
     {
       "epoch": 1.61,
+      "learning_rate": 0.00018935483870967742,
+      "loss": 0.2855,
       "step": 100
     },
     {
       "epoch": 1.61,
+      "eval_accuracy": 0.7841726618705036,
+      "eval_loss": 0.8655692934989929,
+      "eval_runtime": 14.3186,
+      "eval_samples_per_second": 48.538,
+      "eval_steps_per_second": 6.076,
       "step": 100
     },
     {
       "epoch": 1.94,
+      "learning_rate": 0.00018720430107526883,
+      "loss": 0.2924,
       "step": 120
     },
     {
       "epoch": 2.26,
+      "learning_rate": 0.00018505376344086022,
+      "loss": 0.2681,
       "step": 140
     },
     {
       "epoch": 2.58,
+      "learning_rate": 0.00018290322580645163,
+      "loss": 0.2849,
       "step": 160
     },
     {
       "epoch": 2.9,
+      "learning_rate": 0.00018075268817204304,
+      "loss": 0.2872,
       "step": 180
     },
     {
       "epoch": 3.23,
+      "learning_rate": 0.00017860215053763442,
+      "loss": 0.2304,
       "step": 200
     },
     {
       "epoch": 3.23,
+      "eval_accuracy": 0.7496402877697842,
+      "eval_loss": 0.9936912655830383,
+      "eval_runtime": 14.2202,
+      "eval_samples_per_second": 48.874,
+      "eval_steps_per_second": 6.118,
       "step": 200
     },
     {
       "epoch": 3.55,
+      "learning_rate": 0.0001764516129032258,
+      "loss": 0.2441,
       "step": 220
     },
     {
       "epoch": 3.87,
+      "learning_rate": 0.00017430107526881722,
+      "loss": 0.2692,
       "step": 240
     },
     {
       "epoch": 4.19,
+      "learning_rate": 0.0001721505376344086,
+      "loss": 0.2872,
       "step": 260
     },
     {
       "epoch": 4.52,
+      "learning_rate": 0.00017,
+      "loss": 0.2347,
       "step": 280
     },
     {
       "epoch": 4.84,
+      "learning_rate": 0.0001678494623655914,
+      "loss": 0.3009,
       "step": 300
     },
     {
       "epoch": 4.84,
+      "eval_accuracy": 0.7482014388489209,
+      "eval_loss": 1.0166507959365845,
+      "eval_runtime": 14.2233,
+      "eval_samples_per_second": 48.863,
+      "eval_steps_per_second": 6.117,
       "step": 300
     },
     {
       "epoch": 5.16,
+      "learning_rate": 0.0001656989247311828,
+      "loss": 0.2292,
       "step": 320
     },
     {
       "epoch": 5.48,
+      "learning_rate": 0.0001635483870967742,
+      "loss": 0.2113,
       "step": 340
     },
     {
       "epoch": 5.81,
+      "learning_rate": 0.0001613978494623656,
+      "loss": 0.2343,
       "step": 360
     },
     {
       "epoch": 6.13,
+      "learning_rate": 0.000159247311827957,
+      "loss": 0.2554,
       "step": 380
     },
     {
       "epoch": 6.45,
+      "learning_rate": 0.0001570967741935484,
+      "loss": 0.2438,
       "step": 400
     },
     {
       "epoch": 6.45,
+      "eval_accuracy": 0.7424460431654676,
+      "eval_loss": 1.0789364576339722,
+      "eval_runtime": 14.0121,
+      "eval_samples_per_second": 49.6,
+      "eval_steps_per_second": 6.209,
       "step": 400
     },
     {
       "epoch": 6.77,
+      "learning_rate": 0.0001549462365591398,
+      "loss": 0.2667,
       "step": 420
     },
     {
       "epoch": 7.1,
+      "learning_rate": 0.0001527956989247312,
+      "loss": 0.2425,
       "step": 440
     },
     {
       "epoch": 7.42,
+      "learning_rate": 0.00015064516129032257,
+      "loss": 0.2405,
       "step": 460
     },
     {
       "epoch": 7.74,
+      "learning_rate": 0.00014849462365591399,
+      "loss": 0.2509,
       "step": 480
     },
     {
       "epoch": 8.06,
+      "learning_rate": 0.00014634408602150537,
+      "loss": 0.222,
       "step": 500
     },
     {
       "epoch": 8.06,
+      "eval_accuracy": 0.7697841726618705,
+      "eval_loss": 0.886641800403595,
+      "eval_runtime": 14.2992,
+      "eval_samples_per_second": 48.604,
+      "eval_steps_per_second": 6.084,
       "step": 500
     },
     {
       "epoch": 8.39,
+      "learning_rate": 0.00014419354838709678,
+      "loss": 0.2118,
       "step": 520
     },
     {
       "epoch": 8.71,
+      "learning_rate": 0.00014204301075268816,
+      "loss": 0.2346,
       "step": 540
     },
     {
       "epoch": 9.03,
+      "learning_rate": 0.00013989247311827957,
+      "loss": 0.2422,
       "step": 560
     },
     {
       "epoch": 9.35,
+      "learning_rate": 0.00013774193548387099,
+      "loss": 0.2259,
       "step": 580
     },
     {
       "epoch": 9.68,
+      "learning_rate": 0.00013559139784946237,
+      "loss": 0.2174,
       "step": 600
     },
     {
       "epoch": 9.68,
+      "eval_accuracy": 0.7798561151079136,
+      "eval_loss": 0.8679013252258301,
+      "eval_runtime": 14.2534,
+      "eval_samples_per_second": 48.76,
+      "eval_steps_per_second": 6.104,
       "step": 600
     },
     {
       "epoch": 10.0,
+      "learning_rate": 0.00013344086021505378,
+      "loss": 0.2519,
       "step": 620
     },
     {
       "epoch": 10.32,
+      "learning_rate": 0.00013129032258064516,
+      "loss": 0.2167,
       "step": 640
     },
     {
       "epoch": 10.65,
+      "learning_rate": 0.00012913978494623657,
+      "loss": 0.2184,
       "step": 660
     },
     {
       "epoch": 10.97,
+      "learning_rate": 0.00012698924731182796,
+      "loss": 0.2143,
       "step": 680
     },
     {
       "epoch": 11.29,
+      "learning_rate": 0.00012483870967741934,
+      "loss": 0.2177,
       "step": 700
     },
     {
       "epoch": 11.29,
+      "eval_accuracy": 0.7654676258992805,
+      "eval_loss": 0.979772686958313,
+      "eval_runtime": 14.1285,
+      "eval_samples_per_second": 49.191,
+      "eval_steps_per_second": 6.158,
       "step": 700
     },
     {
       "epoch": 11.61,
+      "learning_rate": 0.00012268817204301075,
+      "loss": 0.2061,
       "step": 720
     },
     {
       "epoch": 11.94,
+      "learning_rate": 0.00012053763440860215,
+      "loss": 0.2389,
       "step": 740
     },
     {
       "epoch": 12.26,
+      "learning_rate": 0.00011838709677419355,
+      "loss": 0.2323,
       "step": 760
     },
     {
       "epoch": 12.58,
+      "learning_rate": 0.00011623655913978494,
+      "loss": 0.2404,
       "step": 780
     },
     {
       "epoch": 12.9,
+      "learning_rate": 0.00011408602150537636,
+      "loss": 0.2471,
       "step": 800
     },
     {
       "epoch": 12.9,
+      "eval_accuracy": 0.7726618705035971,
+      "eval_loss": 1.0291355848312378,
+      "eval_runtime": 14.1227,
+      "eval_samples_per_second": 49.212,
+      "eval_steps_per_second": 6.16,
       "step": 800
     },
     {
       "epoch": 13.23,
+      "learning_rate": 0.00011193548387096775,
+      "loss": 0.2054,
       "step": 820
     },
     {
       "epoch": 13.55,
+      "learning_rate": 0.00010978494623655915,
+      "loss": 0.2303,
       "step": 840
     },
     {
       "epoch": 13.87,
+      "learning_rate": 0.00010763440860215055,
+      "loss": 0.2336,
       "step": 860
     },
     {
       "epoch": 14.19,
+      "learning_rate": 0.00010548387096774195,
+      "loss": 0.249,
       "step": 880
     },
     {
       "epoch": 14.52,
+      "learning_rate": 0.00010333333333333334,
+      "loss": 0.2782,
       "step": 900
     },
     {
       "epoch": 14.52,
+      "eval_accuracy": 0.7798561151079136,
+      "eval_loss": 0.8910142779350281,
+      "eval_runtime": 14.1009,
+      "eval_samples_per_second": 49.288,
+      "eval_steps_per_second": 6.17,
       "step": 900
     },
     {
       "epoch": 14.84,
+      "learning_rate": 0.00010118279569892473,
+      "loss": 0.2677,
       "step": 920
     },
     {
+      "epoch": 15.16,
+      "learning_rate": 9.903225806451614e-05,
+      "loss": 0.2355,
+      "step": 940
+    },
+    {
+      "epoch": 15.48,
+      "learning_rate": 9.688172043010753e-05,
+      "loss": 0.2132,
+      "step": 960
+    },
+    {
+      "epoch": 15.81,
+      "learning_rate": 9.473118279569893e-05,
+      "loss": 0.2291,
+      "step": 980
+    },
+    {
+      "epoch": 16.13,
+      "learning_rate": 9.258064516129033e-05,
+      "loss": 0.2149,
+      "step": 1000
+    },
+    {
+      "epoch": 16.13,
+      "eval_accuracy": 0.7712230215827338,
+      "eval_loss": 0.87116539478302,
+      "eval_runtime": 14.1714,
+      "eval_samples_per_second": 49.042,
+      "eval_steps_per_second": 6.139,
+      "step": 1000
+    },
+    {
+      "epoch": 16.45,
+      "learning_rate": 9.053763440860215e-05,
+      "loss": 0.2691,
+      "step": 1020
+    },
+    {
+      "epoch": 16.77,
+      "learning_rate": 8.838709677419355e-05,
+      "loss": 0.2236,
+      "step": 1040
+    },
+    {
+      "epoch": 17.1,
+      "learning_rate": 8.623655913978495e-05,
+      "loss": 0.2445,
+      "step": 1060
+    },
+    {
+      "epoch": 17.42,
+      "learning_rate": 8.408602150537634e-05,
+      "loss": 0.2325,
+      "step": 1080
+    },
+    {
+      "epoch": 17.74,
+      "learning_rate": 8.193548387096774e-05,
+      "loss": 0.2141,
+      "step": 1100
+    },
+    {
+      "epoch": 17.74,
+      "eval_accuracy": 0.7741007194244605,
+      "eval_loss": 0.9116857051849365,
+      "eval_runtime": 14.1821,
+      "eval_samples_per_second": 49.005,
+      "eval_steps_per_second": 6.134,
+      "step": 1100
+    },
+    {
+      "epoch": 18.06,
+      "learning_rate": 7.978494623655914e-05,
+      "loss": 0.2006,
+      "step": 1120
+    },
+    {
+      "epoch": 18.39,
+      "learning_rate": 7.763440860215054e-05,
+      "loss": 0.2067,
+      "step": 1140
+    },
+    {
+      "epoch": 18.71,
+      "learning_rate": 7.548387096774195e-05,
+      "loss": 0.2099,
+      "step": 1160
+    },
+    {
+      "epoch": 19.03,
+      "learning_rate": 7.333333333333333e-05,
+      "loss": 0.2355,
+      "step": 1180
+    },
+    {
+      "epoch": 19.35,
+      "learning_rate": 7.118279569892473e-05,
+      "loss": 0.1863,
+      "step": 1200
+    },
+    {
+      "epoch": 19.35,
+      "eval_accuracy": 0.7769784172661871,
+      "eval_loss": 0.8968440890312195,
+      "eval_runtime": 14.2697,
+      "eval_samples_per_second": 48.704,
+      "eval_steps_per_second": 6.097,
+      "step": 1200
+    },
+    {
+      "epoch": 19.68,
+      "learning_rate": 6.903225806451613e-05,
+      "loss": 0.1932,
+      "step": 1220
+    },
+    {
+      "epoch": 20.0,
+      "learning_rate": 6.688172043010754e-05,
+      "loss": 0.1745,
+      "step": 1240
+    },
+    {
+      "epoch": 20.32,
+      "learning_rate": 6.473118279569893e-05,
+      "loss": 0.1846,
+      "step": 1260
+    },
+    {
+      "epoch": 20.65,
+      "learning_rate": 6.258064516129033e-05,
+      "loss": 0.1794,
+      "step": 1280
+    },
+    {
+      "epoch": 20.97,
+      "learning_rate": 6.0430107526881715e-05,
+      "loss": 0.2194,
+      "step": 1300
+    },
+    {
+      "epoch": 20.97,
+      "eval_accuracy": 0.7726618705035971,
+      "eval_loss": 0.8560822606086731,
+      "eval_runtime": 14.1334,
+      "eval_samples_per_second": 49.174,
+      "eval_steps_per_second": 6.156,
+      "step": 1300
+    },
+    {
+      "epoch": 21.29,
+      "learning_rate": 5.827956989247312e-05,
+      "loss": 0.1749,
+      "step": 1320
+    },
+    {
+      "epoch": 21.61,
+      "learning_rate": 5.612903225806452e-05,
+      "loss": 0.1527,
+      "step": 1340
+    },
+    {
+      "epoch": 21.94,
+      "learning_rate": 5.397849462365592e-05,
+      "loss": 0.2119,
+      "step": 1360
+    },
+    {
+      "epoch": 22.26,
+      "learning_rate": 5.182795698924732e-05,
+      "loss": 0.1753,
+      "step": 1380
+    },
+    {
+      "epoch": 22.58,
+      "learning_rate": 4.967741935483871e-05,
+      "loss": 0.1635,
+      "step": 1400
+    },
+    {
+      "epoch": 22.58,
+      "eval_accuracy": 0.781294964028777,
+      "eval_loss": 0.856007993221283,
+      "eval_runtime": 14.183,
+      "eval_samples_per_second": 49.002,
+      "eval_steps_per_second": 6.134,
+      "step": 1400
+    },
+    {
+      "epoch": 22.9,
+      "learning_rate": 4.752688172043011e-05,
+      "loss": 0.19,
+      "step": 1420
+    },
+    {
+      "epoch": 23.23,
+      "learning_rate": 4.53763440860215e-05,
+      "loss": 0.1711,
+      "step": 1440
+    },
+    {
+      "epoch": 23.55,
+      "learning_rate": 4.322580645161291e-05,
+      "loss": 0.1491,
+      "step": 1460
+    },
+    {
+      "epoch": 23.87,
+      "learning_rate": 4.1075268817204305e-05,
+      "loss": 0.1536,
+      "step": 1480
+    },
+    {
+      "epoch": 24.19,
+      "learning_rate": 3.8924731182795695e-05,
+      "loss": 0.1528,
+      "step": 1500
+    },
+    {
+      "epoch": 24.19,
+      "eval_accuracy": 0.7884892086330936,
+      "eval_loss": 0.8994219899177551,
+      "eval_runtime": 14.0742,
+      "eval_samples_per_second": 49.381,
+      "eval_steps_per_second": 6.182,
+      "step": 1500
+    },
+    {
+      "epoch": 24.52,
+      "learning_rate": 3.67741935483871e-05,
+      "loss": 0.1572,
+      "step": 1520
+    },
+    {
+      "epoch": 24.84,
+      "learning_rate": 3.4623655913978497e-05,
+      "loss": 0.1478,
+      "step": 1540
+    },
+    {
+      "epoch": 25.16,
+      "learning_rate": 3.2473118279569894e-05,
+      "loss": 0.1322,
+      "step": 1560
+    },
+    {
+      "epoch": 25.48,
+      "learning_rate": 3.032258064516129e-05,
+      "loss": 0.1408,
+      "step": 1580
+    },
+    {
+      "epoch": 25.81,
+      "learning_rate": 2.8172043010752692e-05,
+      "loss": 0.1416,
+      "step": 1600
+    },
+    {
+      "epoch": 25.81,
+      "eval_accuracy": 0.7856115107913669,
+      "eval_loss": 0.855847954750061,
+      "eval_runtime": 14.3352,
+      "eval_samples_per_second": 48.482,
+      "eval_steps_per_second": 6.069,
+      "step": 1600
+    },
+    {
+      "epoch": 26.13,
+      "learning_rate": 2.6021505376344086e-05,
+      "loss": 0.1351,
+      "step": 1620
+    },
+    {
+      "epoch": 26.45,
+      "learning_rate": 2.3870967741935486e-05,
+      "loss": 0.1345,
+      "step": 1640
+    },
+    {
+      "epoch": 26.77,
+      "learning_rate": 2.172043010752688e-05,
+      "loss": 0.1551,
+      "step": 1660
+    },
+    {
+      "epoch": 27.1,
+      "learning_rate": 1.956989247311828e-05,
+      "loss": 0.1727,
+      "step": 1680
+    },
+    {
+      "epoch": 27.42,
+      "learning_rate": 1.741935483870968e-05,
+      "loss": 0.1454,
+      "step": 1700
+    },
+    {
+      "epoch": 27.42,
+      "eval_accuracy": 0.7956834532374101,
+      "eval_loss": 0.8568124175071716,
+      "eval_runtime": 14.2245,
+      "eval_samples_per_second": 48.859,
+      "eval_steps_per_second": 6.116,
+      "step": 1700
+    },
+    {
+      "epoch": 27.74,
+      "learning_rate": 1.5268817204301076e-05,
+      "loss": 0.1293,
+      "step": 1720
+    },
+    {
+      "epoch": 28.06,
+      "learning_rate": 1.3118279569892475e-05,
+      "loss": 0.1059,
+      "step": 1740
+    },
+    {
+      "epoch": 28.39,
+      "learning_rate": 1.0967741935483872e-05,
+      "loss": 0.1655,
+      "step": 1760
+    },
+    {
+      "epoch": 28.71,
+      "learning_rate": 8.81720430107527e-06,
+      "loss": 0.1181,
+      "step": 1780
+    },
+    {
+      "epoch": 29.03,
+      "learning_rate": 6.774193548387098e-06,
+      "loss": 0.1642,
+      "step": 1800
+    },
+    {
+      "epoch": 29.03,
+      "eval_accuracy": 0.7913669064748201,
+      "eval_loss": 0.8794375658035278,
+      "eval_runtime": 14.2696,
+      "eval_samples_per_second": 48.705,
+      "eval_steps_per_second": 6.097,
+      "step": 1800
+    },
+    {
+      "epoch": 29.35,
+      "learning_rate": 4.623655913978495e-06,
+      "loss": 0.1297,
+      "step": 1820
+    },
+    {
+      "epoch": 29.68,
+      "learning_rate": 2.4731182795698927e-06,
+      "loss": 0.1257,
+      "step": 1840
+    },
+    {
+      "epoch": 30.0,
+      "learning_rate": 3.2258064516129035e-07,
+      "loss": 0.1283,
+      "step": 1860
+    },
+    {
+      "epoch": 30.0,
+      "step": 1860,
+      "total_flos": 9.155203906807849e+18,
+      "train_loss": 0.21589128868554228,
+      "train_runtime": 3907.045,
+      "train_samples_per_second": 30.23,
+      "train_steps_per_second": 0.476
     }
   ],
   "logging_steps": 20,
+  "max_steps": 1860,
+  "num_train_epochs": 30,
   "save_steps": 100,
+  "total_flos": 9.155203906807849e+18,
   "trial_name": null,
   "trial_params": null
 }