End of training

Browse files

Files changed (6) hide show

README.md +4 -3
all_results.json +10 -10
eval_results.json +5 -5
runs/Sep18_12-52-12_user/events.out.tfevents.1726645427.user.2655605.1 +3 -0
train_results.json +6 -6
trainer_state.json +511 -315

README.md CHANGED Viewed

@@ -3,6 +3,7 @@ library_name: transformers
 license: apache-2.0
 base_model: facebook/wav2vec2-base
 tags:
 - generated_from_trainer
 datasets:
 - fleurs
@@ -15,7 +16,7 @@ model-index:
       name: Audio Classification
       type: audio-classification
     dataset:
-      name: fleurs
       type: fleurs
       config: bn_in
       split: validation
@@ -31,9 +32,9 @@ should probably proofread and complete it, then remove this comment. -->
 # wav2vec2-base-lang-id
-This model is a fine-tuned version of [facebook/wav2vec2-base](https://huggingface.co/facebook/wav2vec2-base) on the fleurs dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0000
 - Accuracy: 1.0
 ## Model description

 license: apache-2.0
 base_model: facebook/wav2vec2-base
 tags:
+- audio-classification
 - generated_from_trainer
 datasets:
 - fleurs
       name: Audio Classification
       type: audio-classification
     dataset:
+      name: google/fleurs
       type: fleurs
       config: bn_in
       split: validation
 # wav2vec2-base-lang-id
+This model is a fine-tuned version of [facebook/wav2vec2-base](https://huggingface.co/facebook/wav2vec2-base) on the google/fleurs dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0001
 - Accuracy: 1.0
 ## Model description

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 9.962264150943396,
     "eval_accuracy": 1.0,
-    "eval_loss": 6.413459777832031e-05,
-    "eval_runtime": 7.1664,
-    "eval_samples_per_second": 33.35,
-    "eval_steps_per_second": 33.35,
-    "total_flos": 2.937323868434565e+18,
-    "train_loss": 0.1621207386876146,
-    "train_runtime": 757.3573,
-    "train_samples_per_second": 27.992,
-    "train_steps_per_second": 0.871
 }

 {
+    "epoch": 10.0,
     "eval_accuracy": 1.0,
+    "eval_loss": 5.837103526573628e-05,
+    "eval_runtime": 9.8113,
+    "eval_samples_per_second": 40.973,
+    "eval_steps_per_second": 40.973,
+    "total_flos": 4.315241031363276e+18,
+    "train_loss": 0.13065080859353445,
+    "train_runtime": 1086.1024,
+    "train_samples_per_second": 27.677,
+    "train_steps_per_second": 0.865
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 9.962264150943396,
     "eval_accuracy": 1.0,
-    "eval_loss": 6.413459777832031e-05,
-    "eval_runtime": 7.1664,
-    "eval_samples_per_second": 33.35,
-    "eval_steps_per_second": 33.35
 }

 {
+    "epoch": 10.0,
     "eval_accuracy": 1.0,
+    "eval_loss": 5.837103526573628e-05,
+    "eval_runtime": 9.8113,
+    "eval_samples_per_second": 40.973,
+    "eval_steps_per_second": 40.973
 }

runs/Sep18_12-52-12_user/events.out.tfevents.1726645427.user.2655605.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d3b22c9014b7f71890514c01e5ca7a5172f2eb8d2d9d0bb88d8a9fa1faaec2d7
+size 411

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 9.962264150943396,
-    "total_flos": 2.937323868434565e+18,
-    "train_loss": 0.1621207386876146,
-    "train_runtime": 757.3573,
-    "train_samples_per_second": 27.992,
-    "train_steps_per_second": 0.871
 }

 {
+    "epoch": 10.0,
+    "total_flos": 4.315241031363276e+18,
+    "train_loss": 0.13065080859353445,
+    "train_runtime": 1086.1024,
+    "train_samples_per_second": 27.677,
+    "train_steps_per_second": 0.865
 }

trainer_state.json CHANGED Viewed

@@ -1,577 +1,773 @@
 {
   "best_metric": 1.0,
-  "best_model_checkpoint": "wav2vec2-base-lang-id/checkpoint-66",
-  "epoch": 9.962264150943396,
   "eval_steps": 500,
-  "global_step": 660,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.1509433962264151,
-      "grad_norm": 4.237973690032959,
-      "learning_rate": 4.545454545454545e-05,
-      "loss": 4.3975,
       "step": 10
     },
     {
-      "epoch": 0.3018867924528302,
-      "grad_norm": 7.205986499786377,
-      "learning_rate": 9.09090909090909e-05,
-      "loss": 3.27,
       "step": 20
     },
     {
-      "epoch": 0.4528301886792453,
-      "grad_norm": 8.798068046569824,
-      "learning_rate": 0.00013636363636363634,
-      "loss": 2.1171,
       "step": 30
     },
     {
-      "epoch": 0.6037735849056604,
-      "grad_norm": 4.440766334533691,
-      "learning_rate": 0.0001818181818181818,
-      "loss": 0.8282,
       "step": 40
     },
     {
-      "epoch": 0.7547169811320755,
-      "grad_norm": 0.20978114008903503,
-      "learning_rate": 0.00022727272727272725,
-      "loss": 0.0841,
       "step": 50
     },
     {
-      "epoch": 0.9056603773584906,
-      "grad_norm": 0.009890351444482803,
-      "learning_rate": 0.0002727272727272727,
-      "loss": 0.002,
       "step": 60
     },
     {
-      "epoch": 0.9962264150943396,
-      "eval_accuracy": 1.0,
-      "eval_loss": 6.413459777832031e-05,
-      "eval_runtime": 7.9133,
-      "eval_samples_per_second": 30.202,
-      "eval_steps_per_second": 30.202,
-      "step": 66
-    },
-    {
-      "epoch": 1.0566037735849056,
-      "grad_norm": 0.0018947708886116743,
-      "learning_rate": 0.00029797979797979794,
-      "loss": 0.0001,
       "step": 70
     },
     {
-      "epoch": 1.2075471698113207,
-      "grad_norm": 0.0009346603183075786,
-      "learning_rate": 0.0002929292929292929,
-      "loss": 0.0,
       "step": 80
     },
     {
-      "epoch": 1.3584905660377358,
-      "grad_norm": 0.0007128348806872964,
-      "learning_rate": 0.00028787878787878786,
-      "loss": 0.0,
       "step": 90
     },
     {
-      "epoch": 1.509433962264151,
-      "grad_norm": 0.0006472347886301577,
-      "learning_rate": 0.0002828282828282828,
-      "loss": 0.0,
       "step": 100
     },
     {
-      "epoch": 1.6603773584905661,
-      "grad_norm": 0.0006166133098304272,
-      "learning_rate": 0.0002777777777777778,
-      "loss": 0.0,
       "step": 110
     },
     {
-      "epoch": 1.8113207547169812,
-      "grad_norm": 0.0006039089639671147,
-      "learning_rate": 0.0002727272727272727,
-      "loss": 0.0,
       "step": 120
     },
     {
-      "epoch": 1.9622641509433962,
-      "grad_norm": 0.000593557779211551,
-      "learning_rate": 0.00026767676767676764,
-      "loss": 0.0,
       "step": 130
     },
     {
-      "epoch": 1.9924528301886792,
-      "eval_accuracy": 1.0,
-      "eval_loss": 1.2636184692382812e-05,
-      "eval_runtime": 7.1786,
-      "eval_samples_per_second": 33.293,
-      "eval_steps_per_second": 33.293,
-      "step": 132
-    },
-    {
-      "epoch": 2.1132075471698113,
-      "grad_norm": 0.0005885771824978292,
-      "learning_rate": 0.0002626262626262626,
-      "loss": 0.0,
       "step": 140
     },
     {
-      "epoch": 2.2641509433962264,
-      "grad_norm": 0.0005855397321283817,
-      "learning_rate": 0.00025757575757575756,
-      "loss": 0.0,
       "step": 150
     },
     {
-      "epoch": 2.4150943396226414,
-      "grad_norm": 0.000579712213948369,
-      "learning_rate": 0.0002525252525252525,
-      "loss": 0.0,
       "step": 160
     },
     {
-      "epoch": 2.5660377358490565,
-      "grad_norm": 0.0005738649051636457,
-      "learning_rate": 0.0002474747474747475,
-      "loss": 0.0,
       "step": 170
     },
     {
-      "epoch": 2.7169811320754715,
-      "grad_norm": 0.0005652164691127837,
-      "learning_rate": 0.0002424242424242424,
-      "loss": 0.0,
       "step": 180
     },
     {
-      "epoch": 2.867924528301887,
-      "grad_norm": 0.0005594562389887869,
-      "learning_rate": 0.00023737373737373732,
-      "loss": 0.0,
-      "step": 190
     },
     {
-      "epoch": 2.988679245283019,
-      "eval_accuracy": 1.0,
-      "eval_loss": 1.1682510375976562e-05,
-      "eval_runtime": 7.0786,
-      "eval_samples_per_second": 33.764,
-      "eval_steps_per_second": 33.764,
-      "step": 198
     },
     {
-      "epoch": 3.018867924528302,
-      "grad_norm": 0.0005571797373704612,
-      "learning_rate": 0.0002323232323232323,
-      "loss": 0.0,
       "step": 200
     },
     {
-      "epoch": 3.169811320754717,
-      "grad_norm": 0.0005533109069801867,
-      "learning_rate": 0.00022727272727272725,
       "loss": 0.0,
       "step": 210
     },
     {
-      "epoch": 3.3207547169811322,
-      "grad_norm": 0.0005470027681440115,
-      "learning_rate": 0.00022222222222222218,
       "loss": 0.0,
       "step": 220
     },
     {
-      "epoch": 3.4716981132075473,
-      "grad_norm": 0.0005392919410951436,
-      "learning_rate": 0.00021717171717171717,
       "loss": 0.0,
       "step": 230
     },
     {
-      "epoch": 3.6226415094339623,
-      "grad_norm": 0.0005366892437450588,
-      "learning_rate": 0.0002121212121212121,
       "loss": 0.0,
       "step": 240
     },
     {
-      "epoch": 3.7735849056603774,
-      "grad_norm": 0.0005334424204193056,
-      "learning_rate": 0.00020707070707070703,
       "loss": 0.0,
       "step": 250
     },
     {
-      "epoch": 3.9245283018867925,
-      "grad_norm": 0.000528818869497627,
-      "learning_rate": 0.00020202020202020202,
       "loss": 0.0,
       "step": 260
     },
     {
-      "epoch": 4.0,
-      "eval_accuracy": 1.0,
-      "eval_loss": 1.0967254638671875e-05,
-      "eval_runtime": 7.0836,
-      "eval_samples_per_second": 33.74,
-      "eval_steps_per_second": 33.74,
-      "step": 265
-    },
-    {
-      "epoch": 4.0754716981132075,
-      "grad_norm": 0.0005262196063995361,
-      "learning_rate": 0.00019696969696969695,
       "loss": 0.0,
       "step": 270
     },
     {
-      "epoch": 4.226415094339623,
-      "grad_norm": 0.000520399131346494,
-      "learning_rate": 0.0001919191919191919,
       "loss": 0.0,
       "step": 280
     },
     {
-      "epoch": 4.377358490566038,
-      "grad_norm": 0.0005163260502740741,
-      "learning_rate": 0.00018686868686868687,
       "loss": 0.0,
       "step": 290
     },
     {
-      "epoch": 4.528301886792453,
-      "grad_norm": 0.0005078270332887769,
-      "learning_rate": 0.0001818181818181818,
       "loss": 0.0,
       "step": 300
     },
     {
-      "epoch": 4.679245283018868,
-      "grad_norm": 0.0005045266589149833,
-      "learning_rate": 0.00017676767676767674,
       "loss": 0.0,
       "step": 310
     },
     {
-      "epoch": 4.830188679245283,
-      "grad_norm": 0.0005001064273528755,
-      "learning_rate": 0.00017171717171717167,
       "loss": 0.0,
       "step": 320
     },
     {
-      "epoch": 4.981132075471698,
-      "grad_norm": 0.0004999340162612498,
-      "learning_rate": 0.00016666666666666666,
       "loss": 0.0,
       "step": 330
     },
     {
-      "epoch": 4.996226415094339,
-      "eval_accuracy": 1.0,
-      "eval_loss": 1.0251998901367188e-05,
-      "eval_runtime": 7.0645,
-      "eval_samples_per_second": 33.831,
-      "eval_steps_per_second": 33.831,
-      "step": 331
-    },
-    {
-      "epoch": 5.132075471698113,
-      "grad_norm": 0.0004946214030496776,
-      "learning_rate": 0.0001616161616161616,
       "loss": 0.0,
       "step": 340
     },
     {
-      "epoch": 5.283018867924528,
-      "grad_norm": 0.0004907374386675656,
-      "learning_rate": 0.00015656565656565653,
       "loss": 0.0,
       "step": 350
     },
     {
-      "epoch": 5.433962264150943,
-      "grad_norm": 0.00048724733642302454,
-      "learning_rate": 0.00015151515151515152,
       "loss": 0.0,
       "step": 360
     },
     {
-      "epoch": 5.584905660377358,
-      "grad_norm": 0.00048625547788105905,
-      "learning_rate": 0.00014646464646464645,
       "loss": 0.0,
       "step": 370
     },
     {
-      "epoch": 5.735849056603773,
-      "grad_norm": 0.0004835619474761188,
-      "learning_rate": 0.0001414141414141414,
       "loss": 0.0,
       "step": 380
     },
     {
-      "epoch": 5.886792452830189,
-      "grad_norm": 0.00048138212878257036,
-      "learning_rate": 0.00013636363636363634,
       "loss": 0.0,
       "step": 390
     },
     {
-      "epoch": 5.992452830188679,
-      "eval_accuracy": 1.0,
-      "eval_loss": 9.655952453613281e-06,
-      "eval_runtime": 7.2087,
-      "eval_samples_per_second": 33.154,
-      "eval_steps_per_second": 33.154,
-      "step": 397
-    },
-    {
-      "epoch": 6.037735849056604,
-      "grad_norm": 0.00047443213406950235,
-      "learning_rate": 0.0001313131313131313,
       "loss": 0.0,
       "step": 400
     },
     {
-      "epoch": 6.188679245283019,
-      "grad_norm": 0.00047414255095645785,
-      "learning_rate": 0.00012626262626262626,
       "loss": 0.0,
       "step": 410
     },
     {
-      "epoch": 6.339622641509434,
-      "grad_norm": 0.0004742112651001662,
-      "learning_rate": 0.0001212121212121212,
       "loss": 0.0,
       "step": 420
     },
     {
-      "epoch": 6.490566037735849,
-      "grad_norm": 0.0004664694133680314,
-      "learning_rate": 0.00011616161616161616,
       "loss": 0.0,
       "step": 430
     },
     {
-      "epoch": 6.6415094339622645,
-      "grad_norm": 0.00046457306598313153,
-      "learning_rate": 0.00011111111111111109,
       "loss": 0.0,
       "step": 440
     },
     {
-      "epoch": 6.7924528301886795,
-      "grad_norm": 0.0004610670148395002,
-      "learning_rate": 0.00010606060606060605,
       "loss": 0.0,
       "step": 450
     },
     {
-      "epoch": 6.943396226415095,
-      "grad_norm": 0.0004591474134940654,
-      "learning_rate": 0.00010101010101010101,
       "loss": 0.0,
       "step": 460
     },
     {
-      "epoch": 6.988679245283019,
-      "eval_accuracy": 1.0,
-      "eval_loss": 9.298324584960938e-06,
-      "eval_runtime": 7.0591,
-      "eval_samples_per_second": 33.857,
-      "eval_steps_per_second": 33.857,
-      "step": 463
     },
     {
-      "epoch": 7.09433962264151,
-      "grad_norm": 0.00045856498763896525,
-      "learning_rate": 9.595959595959594e-05,
-      "loss": 0.0,
       "step": 470
     },
     {
-      "epoch": 7.245283018867925,
-      "grad_norm": 0.00045752941514365375,
-      "learning_rate": 9.09090909090909e-05,
       "loss": 0.0,
       "step": 480
     },
     {
-      "epoch": 7.39622641509434,
-      "grad_norm": 0.000454788125352934,
-      "learning_rate": 8.585858585858584e-05,
       "loss": 0.0,
       "step": 490
     },
     {
-      "epoch": 7.547169811320755,
-      "grad_norm": 0.00044687636545859277,
-      "learning_rate": 8.08080808080808e-05,
       "loss": 0.0,
       "step": 500
     },
     {
-      "epoch": 7.69811320754717,
-      "grad_norm": 0.00044597158557735384,
-      "learning_rate": 7.575757575757576e-05,
       "loss": 0.0,
       "step": 510
     },
     {
-      "epoch": 7.849056603773585,
-      "grad_norm": 0.00044422256178222597,
-      "learning_rate": 7.07070707070707e-05,
       "loss": 0.0,
       "step": 520
     },
     {
-      "epoch": 8.0,
-      "grad_norm": 0.0004414164577610791,
-      "learning_rate": 6.565656565656565e-05,
       "loss": 0.0,
       "step": 530
     },
     {
-      "epoch": 8.0,
-      "eval_accuracy": 1.0,
-      "eval_loss": 9.059906005859375e-06,
-      "eval_runtime": 7.273,
-      "eval_samples_per_second": 32.861,
-      "eval_steps_per_second": 32.861,
-      "step": 530
-    },
-    {
-      "epoch": 8.150943396226415,
-      "grad_norm": 0.00044037611223757267,
-      "learning_rate": 6.06060606060606e-05,
       "loss": 0.0,
       "step": 540
     },
     {
-      "epoch": 8.30188679245283,
-      "grad_norm": 0.00044043423258699477,
-      "learning_rate": 5.5555555555555545e-05,
       "loss": 0.0,
       "step": 550
     },
     {
-      "epoch": 8.452830188679245,
-      "grad_norm": 0.00043952648411504924,
-      "learning_rate": 5.0505050505050505e-05,
       "loss": 0.0,
       "step": 560
     },
     {
-      "epoch": 8.60377358490566,
-      "grad_norm": 0.00043861393351107836,
-      "learning_rate": 4.545454545454545e-05,
       "loss": 0.0,
       "step": 570
     },
     {
-      "epoch": 8.754716981132075,
-      "grad_norm": 0.000436424306826666,
-      "learning_rate": 4.04040404040404e-05,
       "loss": 0.0,
       "step": 580
     },
     {
-      "epoch": 8.90566037735849,
-      "grad_norm": 0.00043321994598954916,
-      "learning_rate": 3.535353535353535e-05,
       "loss": 0.0,
       "step": 590
     },
     {
-      "epoch": 8.99622641509434,
-      "eval_accuracy": 1.0,
-      "eval_loss": 8.940696716308594e-06,
-      "eval_runtime": 7.0835,
-      "eval_samples_per_second": 33.74,
-      "eval_steps_per_second": 33.74,
-      "step": 596
-    },
-    {
-      "epoch": 9.056603773584905,
-      "grad_norm": 0.0004325976187828928,
-      "learning_rate": 3.03030303030303e-05,
       "loss": 0.0,
       "step": 600
     },
     {
-      "epoch": 9.20754716981132,
-      "grad_norm": 0.0004321152810007334,
-      "learning_rate": 2.5252525252525253e-05,
       "loss": 0.0,
       "step": 610
     },
     {
-      "epoch": 9.358490566037736,
-      "grad_norm": 0.00043118096073158085,
-      "learning_rate": 2.02020202020202e-05,
       "loss": 0.0,
       "step": 620
     },
     {
-      "epoch": 9.50943396226415,
-      "grad_norm": 0.00043104574433527887,
-      "learning_rate": 1.515151515151515e-05,
       "loss": 0.0,
       "step": 630
     },
     {
-      "epoch": 9.660377358490566,
-      "grad_norm": 0.00043100357288494706,
-      "learning_rate": 1.01010101010101e-05,
       "loss": 0.0,
       "step": 640
     },
     {
-      "epoch": 9.81132075471698,
-      "grad_norm": 0.00043099047616124153,
-      "learning_rate": 5.05050505050505e-06,
       "loss": 0.0,
       "step": 650
     },
     {
-      "epoch": 9.962264150943396,
-      "grad_norm": 0.00043099172762595117,
-      "learning_rate": 0.0,
       "loss": 0.0,
       "step": 660
     },
     {
-      "epoch": 9.962264150943396,
       "eval_accuracy": 1.0,
-      "eval_loss": 8.821487426757812e-06,
-      "eval_runtime": 7.157,
-      "eval_samples_per_second": 33.394,
-      "eval_steps_per_second": 33.394,
-      "step": 660
     },
     {
-      "epoch": 9.962264150943396,
-      "step": 660,
-      "total_flos": 2.937323868434565e+18,
-      "train_loss": 0.1621207386876146,
-      "train_runtime": 757.3573,
-      "train_samples_per_second": 27.992,
-      "train_steps_per_second": 0.871
     }
   ],
   "logging_steps": 10,
-  "max_steps": 660,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
@@ -587,7 +783,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.937323868434565e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 1.0,
+  "best_model_checkpoint": "wav2vec2-base-lang-id/checkpoint-94",
+  "epoch": 10.0,
   "eval_steps": 500,
+  "global_step": 940,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.10638297872340426,
+      "grad_norm": 3.8006672859191895,
+      "learning_rate": 3.1914893617021275e-05,
+      "loss": 4.4798,
       "step": 10
     },
     {
+      "epoch": 0.2127659574468085,
+      "grad_norm": 6.771675109863281,
+      "learning_rate": 6.382978723404255e-05,
+      "loss": 3.4754,
       "step": 20
     },
     {
+      "epoch": 0.3191489361702128,
+      "grad_norm": 8.21432113647461,
+      "learning_rate": 9.574468085106382e-05,
+      "loss": 2.4467,
       "step": 30
     },
     {
+      "epoch": 0.425531914893617,
+      "grad_norm": 7.680928707122803,
+      "learning_rate": 0.0001276595744680851,
+      "loss": 1.4232,
       "step": 40
     },
     {
+      "epoch": 0.5319148936170213,
+      "grad_norm": 2.195053815841675,
+      "learning_rate": 0.00015957446808510637,
+      "loss": 0.4151,
       "step": 50
     },
     {
+      "epoch": 0.6382978723404256,
+      "grad_norm": 0.13116297125816345,
+      "learning_rate": 0.00019148936170212765,
+      "loss": 0.0361,
       "step": 60
     },
     {
+      "epoch": 0.7446808510638298,
+      "grad_norm": 0.014657862484455109,
+      "learning_rate": 0.0002234042553191489,
+      "loss": 0.0017,
       "step": 70
     },
     {
+      "epoch": 0.851063829787234,
+      "grad_norm": 0.004712587222456932,
+      "learning_rate": 0.0002553191489361702,
+      "loss": 0.0003,
       "step": 80
     },
     {
+      "epoch": 0.9574468085106383,
+      "grad_norm": 0.0027682166546583176,
+      "learning_rate": 0.0002872340425531915,
+      "loss": 0.0001,
       "step": 90
     },
     {
+      "epoch": 1.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 5.837103526573628e-05,
+      "eval_runtime": 11.542,
+      "eval_samples_per_second": 34.829,
+      "eval_steps_per_second": 34.829,
+      "step": 94
+    },
+    {
+      "epoch": 1.0638297872340425,
+      "grad_norm": 0.0021660495549440384,
+      "learning_rate": 0.00029787234042553186,
+      "loss": 0.0001,
       "step": 100
     },
     {
+      "epoch": 1.1702127659574468,
+      "grad_norm": 0.001946191769093275,
+      "learning_rate": 0.00029432624113475173,
+      "loss": 0.0001,
       "step": 110
     },
     {
+      "epoch": 1.2765957446808511,
+      "grad_norm": 0.001837807591073215,
+      "learning_rate": 0.0002907801418439716,
+      "loss": 0.0001,
       "step": 120
     },
     {
+      "epoch": 1.3829787234042552,
+      "grad_norm": 0.0017718354938551784,
+      "learning_rate": 0.0002872340425531915,
+      "loss": 0.0001,
       "step": 130
     },
     {
+      "epoch": 1.4893617021276595,
+      "grad_norm": 0.0017246523639187217,
+      "learning_rate": 0.00028368794326241134,
+      "loss": 0.0001,
       "step": 140
     },
     {
+      "epoch": 1.5957446808510638,
+      "grad_norm": 0.0016802914906293154,
+      "learning_rate": 0.00028014184397163116,
+      "loss": 0.0001,
       "step": 150
     },
     {
+      "epoch": 1.702127659574468,
+      "grad_norm": 0.0016365655465051532,
+      "learning_rate": 0.00027659574468085103,
+      "loss": 0.0001,
       "step": 160
     },
     {
+      "epoch": 1.8085106382978724,
+      "grad_norm": 0.001596157904714346,
+      "learning_rate": 0.0002730496453900709,
+      "loss": 0.0001,
       "step": 170
     },
     {
+      "epoch": 1.9148936170212765,
+      "grad_norm": 0.0015629915287718177,
+      "learning_rate": 0.00026950354609929077,
+      "loss": 0.0001,
       "step": 180
     },
     {
+      "epoch": 2.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 3.635883331298828e-05,
+      "eval_runtime": 10.0577,
+      "eval_samples_per_second": 39.969,
+      "eval_steps_per_second": 39.969,
+      "step": 188
     },
     {
+      "epoch": 2.021276595744681,
+      "grad_norm": 0.001525467843748629,
+      "learning_rate": 0.0002659574468085106,
+      "loss": 0.0001,
+      "step": 190
     },
     {
+      "epoch": 2.127659574468085,
+      "grad_norm": 0.0014883955009281635,
+      "learning_rate": 0.00026241134751773046,
+      "loss": 0.0001,
       "step": 200
     },
     {
+      "epoch": 2.2340425531914896,
+      "grad_norm": 0.0014570483472198248,
+      "learning_rate": 0.00025886524822695033,
       "loss": 0.0,
       "step": 210
     },
     {
+      "epoch": 2.3404255319148937,
+      "grad_norm": 0.0014193649403750896,
+      "learning_rate": 0.0002553191489361702,
       "loss": 0.0,
       "step": 220
     },
     {
+      "epoch": 2.4468085106382977,
+      "grad_norm": 0.0013909874251112342,
+      "learning_rate": 0.00025177304964539007,
       "loss": 0.0,
       "step": 230
     },
     {
+      "epoch": 2.5531914893617023,
+      "grad_norm": 0.0013578328071162105,
+      "learning_rate": 0.0002482269503546099,
       "loss": 0.0,
       "step": 240
     },
     {
+      "epoch": 2.6595744680851063,
+      "grad_norm": 0.0013242242857813835,
+      "learning_rate": 0.00024468085106382976,
       "loss": 0.0,
       "step": 250
     },
     {
+      "epoch": 2.7659574468085104,
+      "grad_norm": 0.0013041673228144646,
+      "learning_rate": 0.00024113475177304963,
       "loss": 0.0,
       "step": 260
     },
     {
+      "epoch": 2.872340425531915,
+      "grad_norm": 0.0012726597487926483,
+      "learning_rate": 0.0002375886524822695,
       "loss": 0.0,
       "step": 270
     },
     {
+      "epoch": 2.978723404255319,
+      "grad_norm": 0.0012477930868044496,
+      "learning_rate": 0.00023404255319148934,
       "loss": 0.0,
       "step": 280
     },
     {
+      "epoch": 3.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 2.9017082852078602e-05,
+      "eval_runtime": 9.9982,
+      "eval_samples_per_second": 40.207,
+      "eval_steps_per_second": 40.207,
+      "step": 282
+    },
+    {
+      "epoch": 3.0851063829787235,
+      "grad_norm": 0.0012191747082397342,
+      "learning_rate": 0.0002304964539007092,
       "loss": 0.0,
       "step": 290
     },
     {
+      "epoch": 3.1914893617021276,
+      "grad_norm": 0.0011935862712562084,
+      "learning_rate": 0.00022695035460992905,
       "loss": 0.0,
       "step": 300
     },
     {
+      "epoch": 3.297872340425532,
+      "grad_norm": 0.0011742267524823546,
+      "learning_rate": 0.0002234042553191489,
       "loss": 0.0,
       "step": 310
     },
     {
+      "epoch": 3.404255319148936,
+      "grad_norm": 0.0011481853434816003,
+      "learning_rate": 0.00021985815602836877,
       "loss": 0.0,
       "step": 320
     },
     {
+      "epoch": 3.5106382978723403,
+      "grad_norm": 0.0011253234697505832,
+      "learning_rate": 0.00021631205673758864,
       "loss": 0.0,
       "step": 330
     },
     {
+      "epoch": 3.617021276595745,
+      "grad_norm": 0.0011064092395827174,
+      "learning_rate": 0.0002127659574468085,
       "loss": 0.0,
       "step": 340
     },
     {
+      "epoch": 3.723404255319149,
+      "grad_norm": 0.0010885618394240737,
+      "learning_rate": 0.00020921985815602835,
       "loss": 0.0,
       "step": 350
     },
     {
+      "epoch": 3.829787234042553,
+      "grad_norm": 0.001064595184288919,
+      "learning_rate": 0.0002056737588652482,
       "loss": 0.0,
       "step": 360
     },
     {
+      "epoch": 3.9361702127659575,
+      "grad_norm": 0.0010447927052155137,
+      "learning_rate": 0.00020212765957446807,
       "loss": 0.0,
       "step": 370
     },
     {
+      "epoch": 4.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 2.372264862060547e-05,
+      "eval_runtime": 9.9011,
+      "eval_samples_per_second": 40.602,
+      "eval_steps_per_second": 40.602,
+      "step": 376
+    },
+    {
+      "epoch": 4.042553191489362,
+      "grad_norm": 0.001030342886224389,
+      "learning_rate": 0.0001985815602836879,
       "loss": 0.0,
       "step": 380
     },
     {
+      "epoch": 4.148936170212766,
+      "grad_norm": 0.0010120035149157047,
+      "learning_rate": 0.0001950354609929078,
       "loss": 0.0,
       "step": 390
     },
     {
+      "epoch": 4.25531914893617,
+      "grad_norm": 0.0009937717113643885,
+      "learning_rate": 0.00019148936170212765,
       "loss": 0.0,
       "step": 400
     },
     {
+      "epoch": 4.361702127659575,
+      "grad_norm": 0.0009758667438291013,
+      "learning_rate": 0.0001879432624113475,
       "loss": 0.0,
       "step": 410
     },
     {
+      "epoch": 4.468085106382979,
+      "grad_norm": 0.0009558630990795791,
+      "learning_rate": 0.00018439716312056736,
       "loss": 0.0,
       "step": 420
     },
     {
+      "epoch": 4.574468085106383,
+      "grad_norm": 0.0009456143015995622,
+      "learning_rate": 0.0001808510638297872,
       "loss": 0.0,
       "step": 430
     },
     {
+      "epoch": 4.680851063829787,
+      "grad_norm": 0.0009262987296096981,
+      "learning_rate": 0.00017730496453900708,
       "loss": 0.0,
       "step": 440
     },
     {
+      "epoch": 4.787234042553192,
+      "grad_norm": 0.0009140170877799392,
+      "learning_rate": 0.00017375886524822692,
       "loss": 0.0,
       "step": 450
     },
     {
+      "epoch": 4.8936170212765955,
+      "grad_norm": 0.000904095999430865,
+      "learning_rate": 0.00017021276595744682,
       "loss": 0.0,
       "step": 460
     },
     {
+      "epoch": 5.0,
+      "grad_norm": 0.0008834420586936176,
+      "learning_rate": 0.00016666666666666666,
+      "loss": 0.0,
+      "step": 470
     },
     {
+      "epoch": 5.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 2.014636993408203e-05,
+      "eval_runtime": 9.9558,
+      "eval_samples_per_second": 40.379,
+      "eval_steps_per_second": 40.379,
       "step": 470
     },
     {
+      "epoch": 5.1063829787234045,
+      "grad_norm": 0.0008752320427447557,
+      "learning_rate": 0.0001631205673758865,
       "loss": 0.0,
       "step": 480
     },
     {
+      "epoch": 5.212765957446808,
+      "grad_norm": 0.0008663799380883574,
+      "learning_rate": 0.00015957446808510637,
       "loss": 0.0,
       "step": 490
     },
     {
+      "epoch": 5.319148936170213,
+      "grad_norm": 0.0008535313536413014,
+      "learning_rate": 0.00015602836879432622,
       "loss": 0.0,
       "step": 500
     },
     {
+      "epoch": 5.425531914893617,
+      "grad_norm": 0.0008452454931102693,
+      "learning_rate": 0.00015248226950354606,
       "loss": 0.0,
       "step": 510
     },
     {
+      "epoch": 5.531914893617021,
+      "grad_norm": 0.0008268958772532642,
+      "learning_rate": 0.00014893617021276593,
       "loss": 0.0,
       "step": 520
     },
     {
+      "epoch": 5.638297872340425,
+      "grad_norm": 0.0008181555895134807,
+      "learning_rate": 0.0001453900709219858,
       "loss": 0.0,
       "step": 530
     },
     {
+      "epoch": 5.74468085106383,
+      "grad_norm": 0.0008063354762271047,
+      "learning_rate": 0.00014184397163120567,
       "loss": 0.0,
       "step": 540
     },
     {
+      "epoch": 5.851063829787234,
+      "grad_norm": 0.0007958101341500878,
+      "learning_rate": 0.00013829787234042552,
       "loss": 0.0,
       "step": 550
     },
     {
+      "epoch": 5.957446808510638,
+      "grad_norm": 0.0007865344523452222,
+      "learning_rate": 0.00013475177304964539,
       "loss": 0.0,
       "step": 560
     },
     {
+      "epoch": 6.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 1.7642974853515625e-05,
+      "eval_runtime": 9.9723,
+      "eval_samples_per_second": 40.312,
+      "eval_steps_per_second": 40.312,
+      "step": 564
+    },
+    {
+      "epoch": 6.0638297872340425,
+      "grad_norm": 0.0007770307711325586,
+      "learning_rate": 0.00013120567375886523,
       "loss": 0.0,
       "step": 570
     },
     {
+      "epoch": 6.170212765957447,
+      "grad_norm": 0.0007697618566453457,
+      "learning_rate": 0.0001276595744680851,
       "loss": 0.0,
       "step": 580
     },
     {
+      "epoch": 6.276595744680851,
+      "grad_norm": 0.0007645227597095072,
+      "learning_rate": 0.00012411347517730494,
       "loss": 0.0,
       "step": 590
     },
     {
+      "epoch": 6.382978723404255,
+      "grad_norm": 0.0007574139162898064,
+      "learning_rate": 0.00012056737588652481,
       "loss": 0.0,
       "step": 600
     },
     {
+      "epoch": 6.48936170212766,
+      "grad_norm": 0.000741077761631459,
+      "learning_rate": 0.00011702127659574467,
       "loss": 0.0,
       "step": 610
     },
     {
+      "epoch": 6.595744680851064,
+      "grad_norm": 0.000734071247279644,
+      "learning_rate": 0.00011347517730496453,
       "loss": 0.0,
       "step": 620
     },
     {
+      "epoch": 6.702127659574468,
+      "grad_norm": 0.000728779355995357,
+      "learning_rate": 0.00010992907801418438,
       "loss": 0.0,
       "step": 630
     },
     {
+      "epoch": 6.808510638297872,
+      "grad_norm": 0.0007212815107777715,
+      "learning_rate": 0.00010638297872340425,
       "loss": 0.0,
       "step": 640
     },
     {
+      "epoch": 6.914893617021277,
+      "grad_norm": 0.0007169453892856836,
+      "learning_rate": 0.0001028368794326241,
       "loss": 0.0,
       "step": 650
     },
     {
+      "epoch": 7.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 1.596455513208639e-05,
+      "eval_runtime": 9.9126,
+      "eval_samples_per_second": 40.554,
+      "eval_steps_per_second": 40.554,
+      "step": 658
+    },
+    {
+      "epoch": 7.0212765957446805,
+      "grad_norm": 0.000711097614839673,
+      "learning_rate": 9.929078014184395e-05,
       "loss": 0.0,
       "step": 660
     },
     {
+      "epoch": 7.127659574468085,
+      "grad_norm": 0.0007094301981851459,
+      "learning_rate": 9.574468085106382e-05,
+      "loss": 0.0,
+      "step": 670
+    },
+    {
+      "epoch": 7.23404255319149,
+      "grad_norm": 0.0006968958768993616,
+      "learning_rate": 9.219858156028368e-05,
+      "loss": 0.0,
+      "step": 680
+    },
+    {
+      "epoch": 7.340425531914893,
+      "grad_norm": 0.0006909930380061269,
+      "learning_rate": 8.865248226950354e-05,
+      "loss": 0.0,
+      "step": 690
+    },
+    {
+      "epoch": 7.446808510638298,
+      "grad_norm": 0.0006865290924906731,
+      "learning_rate": 8.510638297872341e-05,
+      "loss": 0.0,
+      "step": 700
+    },
+    {
+      "epoch": 7.553191489361702,
+      "grad_norm": 0.0006844609742984176,
+      "learning_rate": 8.156028368794325e-05,
+      "loss": 0.0,
+      "step": 710
+    },
+    {
+      "epoch": 7.659574468085106,
+      "grad_norm": 0.0006792008061893284,
+      "learning_rate": 7.801418439716311e-05,
+      "loss": 0.0,
+      "step": 720
+    },
+    {
+      "epoch": 7.76595744680851,
+      "grad_norm": 0.0006731408648192883,
+      "learning_rate": 7.446808510638297e-05,
+      "loss": 0.0,
+      "step": 730
+    },
+    {
+      "epoch": 7.872340425531915,
+      "grad_norm": 0.0006701324600726366,
+      "learning_rate": 7.092198581560284e-05,
+      "loss": 0.0,
+      "step": 740
+    },
+    {
+      "epoch": 7.9787234042553195,
+      "grad_norm": 0.0006633326993323863,
+      "learning_rate": 6.737588652482269e-05,
+      "loss": 0.0,
+      "step": 750
+    },
+    {
+      "epoch": 8.0,
       "eval_accuracy": 1.0,
+      "eval_loss": 1.4901161193847656e-05,
+      "eval_runtime": 9.9494,
+      "eval_samples_per_second": 40.405,
+      "eval_steps_per_second": 40.405,
+      "step": 752
+    },
+    {
+      "epoch": 8.085106382978724,
+      "grad_norm": 0.0006632324075326324,
+      "learning_rate": 6.382978723404255e-05,
+      "loss": 0.0,
+      "step": 760
     },
     {
+      "epoch": 8.191489361702128,
+      "grad_norm": 0.000655403477139771,
+      "learning_rate": 6.028368794326241e-05,
+      "loss": 0.0,
+      "step": 770
+    },
+    {
+      "epoch": 8.297872340425531,
+      "grad_norm": 0.0006541645270772278,
+      "learning_rate": 5.6737588652482264e-05,
+      "loss": 0.0,
+      "step": 780
+    },
+    {
+      "epoch": 8.404255319148936,
+      "grad_norm": 0.0006483749020844698,
+      "learning_rate": 5.319148936170213e-05,
+      "loss": 0.0,
+      "step": 790
+    },
+    {
+      "epoch": 8.51063829787234,
+      "grad_norm": 0.0006471078377217054,
+      "learning_rate": 4.964539007092198e-05,
+      "loss": 0.0,
+      "step": 800
+    },
+    {
+      "epoch": 8.617021276595745,
+      "grad_norm": 0.0006466888007707894,
+      "learning_rate": 4.609929078014184e-05,
+      "loss": 0.0,
+      "step": 810
+    },
+    {
+      "epoch": 8.72340425531915,
+      "grad_norm": 0.0006407785695046186,
+      "learning_rate": 4.2553191489361704e-05,
+      "loss": 0.0,
+      "step": 820
+    },
+    {
+      "epoch": 8.829787234042554,
+      "grad_norm": 0.0006384547450579703,
+      "learning_rate": 3.9007092198581555e-05,
+      "loss": 0.0,
+      "step": 830
+    },
+    {
+      "epoch": 8.936170212765958,
+      "grad_norm": 0.0006379844271577895,
+      "learning_rate": 3.546099290780142e-05,
+      "loss": 0.0,
+      "step": 840
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 1.4424324035644531e-05,
+      "eval_runtime": 9.9315,
+      "eval_samples_per_second": 40.477,
+      "eval_steps_per_second": 40.477,
+      "step": 846
+    },
+    {
+      "epoch": 9.042553191489361,
+      "grad_norm": 0.0006334384088404477,
+      "learning_rate": 3.1914893617021275e-05,
+      "loss": 0.0,
+      "step": 850
+    },
+    {
+      "epoch": 9.148936170212766,
+      "grad_norm": 0.0006309397285804152,
+      "learning_rate": 2.8368794326241132e-05,
+      "loss": 0.0,
+      "step": 860
+    },
+    {
+      "epoch": 9.25531914893617,
+      "grad_norm": 0.0006310406024567783,
+      "learning_rate": 2.482269503546099e-05,
+      "loss": 0.0,
+      "step": 870
+    },
+    {
+      "epoch": 9.361702127659575,
+      "grad_norm": 0.0006308447918854654,
+      "learning_rate": 2.1276595744680852e-05,
+      "loss": 0.0,
+      "step": 880
+    },
+    {
+      "epoch": 9.46808510638298,
+      "grad_norm": 0.0006286040297709405,
+      "learning_rate": 1.773049645390071e-05,
+      "loss": 0.0,
+      "step": 890
+    },
+    {
+      "epoch": 9.574468085106384,
+      "grad_norm": 0.0006258686189539731,
+      "learning_rate": 1.4184397163120566e-05,
+      "loss": 0.0,
+      "step": 900
+    },
+    {
+      "epoch": 9.680851063829786,
+      "grad_norm": 0.0006251951563172042,
+      "learning_rate": 1.0638297872340426e-05,
+      "loss": 0.0,
+      "step": 910
+    },
+    {
+      "epoch": 9.787234042553191,
+      "grad_norm": 0.0006240535294637084,
+      "learning_rate": 7.092198581560283e-06,
+      "loss": 0.0,
+      "step": 920
+    },
+    {
+      "epoch": 9.893617021276595,
+      "grad_norm": 0.0006240674993023276,
+      "learning_rate": 3.5460992907801415e-06,
+      "loss": 0.0,
+      "step": 930
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 0.0006238200003281236,
+      "learning_rate": 0.0,
+      "loss": 0.0,
+      "step": 940
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 1.0,
+      "eval_loss": 1.4065806681173854e-05,
+      "eval_runtime": 9.9903,
+      "eval_samples_per_second": 40.239,
+      "eval_steps_per_second": 40.239,
+      "step": 940
+    },
+    {
+      "epoch": 10.0,
+      "step": 940,
+      "total_flos": 4.315241031363276e+18,
+      "train_loss": 0.13065080859353445,
+      "train_runtime": 1086.1024,
+      "train_samples_per_second": 27.677,
+      "train_steps_per_second": 0.865
     }
   ],
   "logging_steps": 10,
+  "max_steps": 940,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 4.315241031363276e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null