mtzig commited on Nov 23, 2024

Commit

26c063f

verified ·

1 Parent(s): 49a3738

Training in progress, step 100, checkpoint

Browse files

Files changed (17) hide show

.gitattributes +8 -0
last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +3 -0
last-checkpoint/optimizer_0/__1_0.distcp +3 -0
last-checkpoint/optimizer_0/__2_0.distcp +3 -0
last-checkpoint/optimizer_0/__3_0.distcp +3 -0
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +3 -0
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +3 -0
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +3 -0
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +3 -0
last-checkpoint/rng_state_0.pth +3 -0
last-checkpoint/rng_state_1.pth +3 -0
last-checkpoint/rng_state_2.pth +3 -0
last-checkpoint/rng_state_3.pth +3 -0
last-checkpoint/scheduler.pt +3 -0
last-checkpoint/trainer_state.json +805 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,11 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/optimizer_0/__0_0.distcp filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/optimizer_0/__1_0.distcp filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/optimizer_0/__2_0.distcp filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/optimizer_0/__3_0.distcp filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp filter=lfs diff=lfs merge=lfs -text
+last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp filter=lfs diff=lfs merge=lfs -text

last-checkpoint/optimizer_0/.metadata ADDED Viewed

Binary file (369 kB). View file

last-checkpoint/optimizer_0/__0_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ff052676913de0926615cb1f2b71af95e015945f2a54a0470098476fd22fb5f9
+size 13934748

last-checkpoint/optimizer_0/__1_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:95417982dd0c51b14604eaa0aff61973b18e62e3a2b70afb785a559085acf026
+size 13999412

last-checkpoint/optimizer_0/__2_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:521840236f819147dd8863a7e29e2b411b5a26067409ee98e9abf463f06eb9e6
+size 13990904

last-checkpoint/optimizer_0/__3_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:646c8474af8f5ba95be0aca0fa2dfa998e25f6eaa8703f836fa6d1fa8d4e4cbf
+size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata ADDED Viewed

Binary file (135 kB). View file

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:920847f1cff8fc1527a736b7c4b551adfb32f773a942bef70a4b46cd67738e14
+size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:64bd405e5019796ba13caf7d1f804b8b8d337ad50283bb455ff335b979782437
+size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1a2a96245294c4e0e2161bf1bd1203d983c92d8534ba9d65758e0c41cdb08c4d
+size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2ab3ce924bf5586c0cd87abb18d5d2a7a88a5c6553011aeb4d9923bb81ce2d78
+size 6966784

last-checkpoint/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7b9a1f1e453a43f83aa53b56d67647ccab7a6102d29ca677d252db57c6d84112
+size 15088

last-checkpoint/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f37b096e91cd08927cf4ae4abd0d391ce5ada891c3fc1b2de21881502f3589eb
+size 15088

last-checkpoint/rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3e41f09d05169607eee8dce8b84f8f78818000c06c0c89cf2ba601fd24a650bd
+size 15088

last-checkpoint/rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:418fcb9eed9f4b34f4356e235c9f424e1c20f8f4d59e678e6ebeeb8a33e83523
+size 15088

last-checkpoint/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:afecba1fad91cfcc309b7789abc8c48e2a84100fb8c489eb3925241bd70b9c9d
+size 1064

last-checkpoint/trainer_state.json ADDED Viewed

	@@ -0,0 +1,805 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.12886597938144329,
+  "eval_steps": 20,
+  "global_step": 100,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0,
+      "eval_accuracy": 0.9369414101290964,
+      "eval_f1": 0.18064516129032257,
+      "eval_loss": 0.32557418942451477,
+      "eval_precision": 0.14285714285714285,
+      "eval_recall": 0.24561403508771928,
+      "eval_runtime": 85.4903,
+      "eval_samples_per_second": 5.322,
+      "eval_steps_per_second": 0.175,
+      "step": 0
+    },
+    {
+      "epoch": 0.001288659793814433,
+      "grad_norm": 4.25856876373291,
+      "learning_rate": 2.564102564102564e-07,
+      "loss": 0.5948,
+      "step": 1
+    },
+    {
+      "epoch": 0.002577319587628866,
+      "grad_norm": 3.965942144393921,
+      "learning_rate": 5.128205128205128e-07,
+      "loss": 0.5193,
+      "step": 2
+    },
+    {
+      "epoch": 0.003865979381443299,
+      "grad_norm": 4.168001174926758,
+      "learning_rate": 7.692307692307694e-07,
+      "loss": 0.5634,
+      "step": 3
+    },
+    {
+      "epoch": 0.005154639175257732,
+      "grad_norm": 3.510260820388794,
+      "learning_rate": 1.0256410256410257e-06,
+      "loss": 0.5141,
+      "step": 4
+    },
+    {
+      "epoch": 0.006443298969072165,
+      "grad_norm": 3.4605071544647217,
+      "learning_rate": 1.282051282051282e-06,
+      "loss": 0.4554,
+      "step": 5
+    },
+    {
+      "epoch": 0.007731958762886598,
+      "grad_norm": 3.9275991916656494,
+      "learning_rate": 1.5384615384615387e-06,
+      "loss": 0.5348,
+      "step": 6
+    },
+    {
+      "epoch": 0.00902061855670103,
+      "grad_norm": 3.4560351371765137,
+      "learning_rate": 1.794871794871795e-06,
+      "loss": 0.4784,
+      "step": 7
+    },
+    {
+      "epoch": 0.010309278350515464,
+      "grad_norm": 3.93674373626709,
+      "learning_rate": 2.0512820512820513e-06,
+      "loss": 0.5567,
+      "step": 8
+    },
+    {
+      "epoch": 0.011597938144329897,
+      "grad_norm": 3.893137216567993,
+      "learning_rate": 2.307692307692308e-06,
+      "loss": 0.5175,
+      "step": 9
+    },
+    {
+      "epoch": 0.01288659793814433,
+      "grad_norm": 3.8920130729675293,
+      "learning_rate": 2.564102564102564e-06,
+      "loss": 0.5187,
+      "step": 10
+    },
+    {
+      "epoch": 0.014175257731958763,
+      "grad_norm": 4.420604228973389,
+      "learning_rate": 2.8205128205128207e-06,
+      "loss": 0.5764,
+      "step": 11
+    },
+    {
+      "epoch": 0.015463917525773196,
+      "grad_norm": 3.916328191757202,
+      "learning_rate": 3.0769230769230774e-06,
+      "loss": 0.5103,
+      "step": 12
+    },
+    {
+      "epoch": 0.01675257731958763,
+      "grad_norm": 3.8103713989257812,
+      "learning_rate": 3.3333333333333333e-06,
+      "loss": 0.5271,
+      "step": 13
+    },
+    {
+      "epoch": 0.01804123711340206,
+      "grad_norm": 3.2343883514404297,
+      "learning_rate": 3.58974358974359e-06,
+      "loss": 0.4981,
+      "step": 14
+    },
+    {
+      "epoch": 0.019329896907216496,
+      "grad_norm": 3.556180953979492,
+      "learning_rate": 3.846153846153847e-06,
+      "loss": 0.472,
+      "step": 15
+    },
+    {
+      "epoch": 0.020618556701030927,
+      "grad_norm": 3.4665050506591797,
+      "learning_rate": 4.102564102564103e-06,
+      "loss": 0.463,
+      "step": 16
+    },
+    {
+      "epoch": 0.02190721649484536,
+      "grad_norm": 3.6362946033477783,
+      "learning_rate": 4.358974358974359e-06,
+      "loss": 0.5137,
+      "step": 17
+    },
+    {
+      "epoch": 0.023195876288659795,
+      "grad_norm": 3.6967854499816895,
+      "learning_rate": 4.615384615384616e-06,
+      "loss": 0.5288,
+      "step": 18
+    },
+    {
+      "epoch": 0.024484536082474227,
+      "grad_norm": 3.482665538787842,
+      "learning_rate": 4.871794871794872e-06,
+      "loss": 0.4946,
+      "step": 19
+    },
+    {
+      "epoch": 0.02577319587628866,
+      "grad_norm": 3.539522647857666,
+      "learning_rate": 5.128205128205128e-06,
+      "loss": 0.4529,
+      "step": 20
+    },
+    {
+      "epoch": 0.02577319587628866,
+      "eval_accuracy": 0.9483614697120158,
+      "eval_f1": 0.16129032258064516,
+      "eval_loss": 0.28827786445617676,
+      "eval_precision": 0.14925373134328357,
+      "eval_recall": 0.17543859649122806,
+      "eval_runtime": 85.2267,
+      "eval_samples_per_second": 5.339,
+      "eval_steps_per_second": 0.176,
+      "step": 20
+    },
+    {
+      "epoch": 0.027061855670103094,
+      "grad_norm": 3.701735496520996,
+      "learning_rate": 5.384615384615385e-06,
+      "loss": 0.457,
+      "step": 21
+    },
+    {
+      "epoch": 0.028350515463917526,
+      "grad_norm": 3.351079225540161,
+      "learning_rate": 5.641025641025641e-06,
+      "loss": 0.4086,
+      "step": 22
+    },
+    {
+      "epoch": 0.029639175257731958,
+      "grad_norm": 3.3507163524627686,
+      "learning_rate": 5.897435897435898e-06,
+      "loss": 0.3953,
+      "step": 23
+    },
+    {
+      "epoch": 0.030927835051546393,
+      "grad_norm": 4.022622108459473,
+      "learning_rate": 6.153846153846155e-06,
+      "loss": 0.4388,
+      "step": 24
+    },
+    {
+      "epoch": 0.03221649484536082,
+      "grad_norm": 3.652367353439331,
+      "learning_rate": 6.410256410256412e-06,
+      "loss": 0.415,
+      "step": 25
+    },
+    {
+      "epoch": 0.03350515463917526,
+      "grad_norm": 3.2059590816497803,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 0.3946,
+      "step": 26
+    },
+    {
+      "epoch": 0.03479381443298969,
+      "grad_norm": 3.6049065589904785,
+      "learning_rate": 6.923076923076923e-06,
+      "loss": 0.3836,
+      "step": 27
+    },
+    {
+      "epoch": 0.03608247422680412,
+      "grad_norm": 3.0256381034851074,
+      "learning_rate": 7.17948717948718e-06,
+      "loss": 0.3502,
+      "step": 28
+    },
+    {
+      "epoch": 0.037371134020618556,
+      "grad_norm": 2.608344793319702,
+      "learning_rate": 7.435897435897437e-06,
+      "loss": 0.322,
+      "step": 29
+    },
+    {
+      "epoch": 0.03865979381443299,
+      "grad_norm": 2.5998220443725586,
+      "learning_rate": 7.692307692307694e-06,
+      "loss": 0.3078,
+      "step": 30
+    },
+    {
+      "epoch": 0.03994845360824742,
+      "grad_norm": 3.184544801712036,
+      "learning_rate": 7.948717948717949e-06,
+      "loss": 0.3189,
+      "step": 31
+    },
+    {
+      "epoch": 0.041237113402061855,
+      "grad_norm": 2.9103171825408936,
+      "learning_rate": 8.205128205128205e-06,
+      "loss": 0.3387,
+      "step": 32
+    },
+    {
+      "epoch": 0.04252577319587629,
+      "grad_norm": 2.9772467613220215,
+      "learning_rate": 8.461538461538462e-06,
+      "loss": 0.3093,
+      "step": 33
+    },
+    {
+      "epoch": 0.04381443298969072,
+      "grad_norm": 2.77077054977417,
+      "learning_rate": 8.717948717948719e-06,
+      "loss": 0.2961,
+      "step": 34
+    },
+    {
+      "epoch": 0.045103092783505154,
+      "grad_norm": 2.3303472995758057,
+      "learning_rate": 8.974358974358976e-06,
+      "loss": 0.2714,
+      "step": 35
+    },
+    {
+      "epoch": 0.04639175257731959,
+      "grad_norm": 2.529663324356079,
+      "learning_rate": 9.230769230769232e-06,
+      "loss": 0.2592,
+      "step": 36
+    },
+    {
+      "epoch": 0.04768041237113402,
+      "grad_norm": 2.3244917392730713,
+      "learning_rate": 9.487179487179487e-06,
+      "loss": 0.2439,
+      "step": 37
+    },
+    {
+      "epoch": 0.04896907216494845,
+      "grad_norm": 2.4089925289154053,
+      "learning_rate": 9.743589743589744e-06,
+      "loss": 0.237,
+      "step": 38
+    },
+    {
+      "epoch": 0.05025773195876289,
+      "grad_norm": 1.9498683214187622,
+      "learning_rate": 1e-05,
+      "loss": 0.202,
+      "step": 39
+    },
+    {
+      "epoch": 0.05154639175257732,
+      "grad_norm": 1.967588186264038,
+      "learning_rate": 1.0256410256410256e-05,
+      "loss": 0.2483,
+      "step": 40
+    },
+    {
+      "epoch": 0.05154639175257732,
+      "eval_accuracy": 0.9672293942403177,
+      "eval_f1": 0.08333333333333333,
+      "eval_loss": 0.14610709249973297,
+      "eval_precision": 0.2,
+      "eval_recall": 0.05263157894736842,
+      "eval_runtime": 84.9582,
+      "eval_samples_per_second": 5.356,
+      "eval_steps_per_second": 0.177,
+      "step": 40
+    },
+    {
+      "epoch": 0.05283505154639175,
+      "grad_norm": 1.6313542127609253,
+      "learning_rate": 1.0512820512820514e-05,
+      "loss": 0.2022,
+      "step": 41
+    },
+    {
+      "epoch": 0.05412371134020619,
+      "grad_norm": 1.4857121706008911,
+      "learning_rate": 1.076923076923077e-05,
+      "loss": 0.1911,
+      "step": 42
+    },
+    {
+      "epoch": 0.055412371134020616,
+      "grad_norm": 1.229911208152771,
+      "learning_rate": 1.1025641025641028e-05,
+      "loss": 0.2323,
+      "step": 43
+    },
+    {
+      "epoch": 0.05670103092783505,
+      "grad_norm": 1.344585657119751,
+      "learning_rate": 1.1282051282051283e-05,
+      "loss": 0.1473,
+      "step": 44
+    },
+    {
+      "epoch": 0.05798969072164949,
+      "grad_norm": 0.909356951713562,
+      "learning_rate": 1.1538461538461538e-05,
+      "loss": 0.1828,
+      "step": 45
+    },
+    {
+      "epoch": 0.059278350515463915,
+      "grad_norm": 0.9276474118232727,
+      "learning_rate": 1.1794871794871796e-05,
+      "loss": 0.1573,
+      "step": 46
+    },
+    {
+      "epoch": 0.06056701030927835,
+      "grad_norm": 0.984527051448822,
+      "learning_rate": 1.2051282051282051e-05,
+      "loss": 0.2004,
+      "step": 47
+    },
+    {
+      "epoch": 0.061855670103092786,
+      "grad_norm": 0.7970030307769775,
+      "learning_rate": 1.230769230769231e-05,
+      "loss": 0.1276,
+      "step": 48
+    },
+    {
+      "epoch": 0.06314432989690721,
+      "grad_norm": 1.0922330617904663,
+      "learning_rate": 1.2564102564102565e-05,
+      "loss": 0.168,
+      "step": 49
+    },
+    {
+      "epoch": 0.06443298969072164,
+      "grad_norm": 1.187216877937317,
+      "learning_rate": 1.2820512820512823e-05,
+      "loss": 0.2007,
+      "step": 50
+    },
+    {
+      "epoch": 0.06572164948453608,
+      "grad_norm": 1.1624428033828735,
+      "learning_rate": 1.3076923076923078e-05,
+      "loss": 0.1665,
+      "step": 51
+    },
+    {
+      "epoch": 0.06701030927835051,
+      "grad_norm": 1.346639633178711,
+      "learning_rate": 1.3333333333333333e-05,
+      "loss": 0.2013,
+      "step": 52
+    },
+    {
+      "epoch": 0.06829896907216494,
+      "grad_norm": 0.9596057534217834,
+      "learning_rate": 1.3589743589743592e-05,
+      "loss": 0.1412,
+      "step": 53
+    },
+    {
+      "epoch": 0.06958762886597938,
+      "grad_norm": 1.3882497549057007,
+      "learning_rate": 1.3846153846153847e-05,
+      "loss": 0.191,
+      "step": 54
+    },
+    {
+      "epoch": 0.07087628865979381,
+      "grad_norm": 0.7435745000839233,
+      "learning_rate": 1.4102564102564105e-05,
+      "loss": 0.1115,
+      "step": 55
+    },
+    {
+      "epoch": 0.07216494845360824,
+      "grad_norm": 0.8442493081092834,
+      "learning_rate": 1.435897435897436e-05,
+      "loss": 0.1239,
+      "step": 56
+    },
+    {
+      "epoch": 0.07345360824742268,
+      "grad_norm": 1.1027814149856567,
+      "learning_rate": 1.4615384615384615e-05,
+      "loss": 0.1605,
+      "step": 57
+    },
+    {
+      "epoch": 0.07474226804123711,
+      "grad_norm": 0.9518107771873474,
+      "learning_rate": 1.4871794871794874e-05,
+      "loss": 0.1253,
+      "step": 58
+    },
+    {
+      "epoch": 0.07603092783505154,
+      "grad_norm": 0.8097633719444275,
+      "learning_rate": 1.5128205128205129e-05,
+      "loss": 0.1258,
+      "step": 59
+    },
+    {
+      "epoch": 0.07731958762886598,
+      "grad_norm": 0.9735177159309387,
+      "learning_rate": 1.5384615384615387e-05,
+      "loss": 0.1622,
+      "step": 60
+    },
+    {
+      "epoch": 0.07731958762886598,
+      "eval_accuracy": 0.9687189672293942,
+      "eval_f1": 0.18181818181818182,
+      "eval_loss": 0.10798302292823792,
+      "eval_precision": 0.35,
+      "eval_recall": 0.12280701754385964,
+      "eval_runtime": 84.7661,
+      "eval_samples_per_second": 5.368,
+      "eval_steps_per_second": 0.177,
+      "step": 60
+    },
+    {
+      "epoch": 0.07860824742268041,
+      "grad_norm": 0.9637501835823059,
+      "learning_rate": 1.5641025641025644e-05,
+      "loss": 0.1333,
+      "step": 61
+    },
+    {
+      "epoch": 0.07989690721649484,
+      "grad_norm": 0.6378239393234253,
+      "learning_rate": 1.5897435897435897e-05,
+      "loss": 0.076,
+      "step": 62
+    },
+    {
+      "epoch": 0.08118556701030928,
+      "grad_norm": 0.7773278951644897,
+      "learning_rate": 1.6153846153846154e-05,
+      "loss": 0.0937,
+      "step": 63
+    },
+    {
+      "epoch": 0.08247422680412371,
+      "grad_norm": 0.5744358897209167,
+      "learning_rate": 1.641025641025641e-05,
+      "loss": 0.089,
+      "step": 64
+    },
+    {
+      "epoch": 0.08376288659793814,
+      "grad_norm": 0.6605228781700134,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 0.058,
+      "step": 65
+    },
+    {
+      "epoch": 0.08505154639175258,
+      "grad_norm": 0.68232661485672,
+      "learning_rate": 1.6923076923076924e-05,
+      "loss": 0.1027,
+      "step": 66
+    },
+    {
+      "epoch": 0.08634020618556701,
+      "grad_norm": 0.7368768453598022,
+      "learning_rate": 1.717948717948718e-05,
+      "loss": 0.1222,
+      "step": 67
+    },
+    {
+      "epoch": 0.08762886597938144,
+      "grad_norm": 1.2759743928909302,
+      "learning_rate": 1.7435897435897438e-05,
+      "loss": 0.1637,
+      "step": 68
+    },
+    {
+      "epoch": 0.08891752577319588,
+      "grad_norm": 1.383555293083191,
+      "learning_rate": 1.7692307692307694e-05,
+      "loss": 0.1774,
+      "step": 69
+    },
+    {
+      "epoch": 0.09020618556701031,
+      "grad_norm": 1.048829436302185,
+      "learning_rate": 1.794871794871795e-05,
+      "loss": 0.0908,
+      "step": 70
+    },
+    {
+      "epoch": 0.09149484536082474,
+      "grad_norm": 1.0387591123580933,
+      "learning_rate": 1.8205128205128208e-05,
+      "loss": 0.1263,
+      "step": 71
+    },
+    {
+      "epoch": 0.09278350515463918,
+      "grad_norm": 0.9198775291442871,
+      "learning_rate": 1.8461538461538465e-05,
+      "loss": 0.1042,
+      "step": 72
+    },
+    {
+      "epoch": 0.09407216494845361,
+      "grad_norm": 0.8574474453926086,
+      "learning_rate": 1.8717948717948718e-05,
+      "loss": 0.0845,
+      "step": 73
+    },
+    {
+      "epoch": 0.09536082474226804,
+      "grad_norm": 0.9596143364906311,
+      "learning_rate": 1.8974358974358975e-05,
+      "loss": 0.1468,
+      "step": 74
+    },
+    {
+      "epoch": 0.09664948453608248,
+      "grad_norm": 0.9079321026802063,
+      "learning_rate": 1.923076923076923e-05,
+      "loss": 0.0647,
+      "step": 75
+    },
+    {
+      "epoch": 0.0979381443298969,
+      "grad_norm": 1.2310247421264648,
+      "learning_rate": 1.9487179487179488e-05,
+      "loss": 0.1315,
+      "step": 76
+    },
+    {
+      "epoch": 0.09922680412371133,
+      "grad_norm": 0.9216123223304749,
+      "learning_rate": 1.9743589743589745e-05,
+      "loss": 0.0794,
+      "step": 77
+    },
+    {
+      "epoch": 0.10051546391752578,
+      "grad_norm": 0.8806676864624023,
+      "learning_rate": 2e-05,
+      "loss": 0.0733,
+      "step": 78
+    },
+    {
+      "epoch": 0.1018041237113402,
+      "grad_norm": 1.0531110763549805,
+      "learning_rate": 1.999989871195906e-05,
+      "loss": 0.045,
+      "step": 79
+    },
+    {
+      "epoch": 0.10309278350515463,
+      "grad_norm": 1.5389978885650635,
+      "learning_rate": 1.9999594849888083e-05,
+      "loss": 0.1243,
+      "step": 80
+    },
+    {
+      "epoch": 0.10309278350515463,
+      "eval_accuracy": 0.9697120158887785,
+      "eval_f1": 0.3838383838383838,
+      "eval_loss": 0.08788777142763138,
+      "eval_precision": 0.4523809523809524,
+      "eval_recall": 0.3333333333333333,
+      "eval_runtime": 84.9491,
+      "eval_samples_per_second": 5.356,
+      "eval_steps_per_second": 0.177,
+      "step": 80
+    },
+    {
+      "epoch": 0.10438144329896908,
+      "grad_norm": 1.1171326637268066,
+      "learning_rate": 1.9999088419942598e-05,
+      "loss": 0.081,
+      "step": 81
+    },
+    {
+      "epoch": 0.1056701030927835,
+      "grad_norm": 1.4132601022720337,
+      "learning_rate": 1.999837943238166e-05,
+      "loss": 0.0699,
+      "step": 82
+    },
+    {
+      "epoch": 0.10695876288659793,
+      "grad_norm": 2.1418771743774414,
+      "learning_rate": 1.999746790156766e-05,
+      "loss": 0.1157,
+      "step": 83
+    },
+    {
+      "epoch": 0.10824742268041238,
+      "grad_norm": 2.2251861095428467,
+      "learning_rate": 1.9996353845966033e-05,
+      "loss": 0.1371,
+      "step": 84
+    },
+    {
+      "epoch": 0.1095360824742268,
+      "grad_norm": 1.8240890502929688,
+      "learning_rate": 1.999503728814488e-05,
+      "loss": 0.0972,
+      "step": 85
+    },
+    {
+      "epoch": 0.11082474226804123,
+      "grad_norm": 2.1466102600097656,
+      "learning_rate": 1.9993518254774517e-05,
+      "loss": 0.0827,
+      "step": 86
+    },
+    {
+      "epoch": 0.11211340206185567,
+      "grad_norm": 1.60856032371521,
+      "learning_rate": 1.999179677662692e-05,
+      "loss": 0.0902,
+      "step": 87
+    },
+    {
+      "epoch": 0.1134020618556701,
+      "grad_norm": 1.7380954027175903,
+      "learning_rate": 1.998987288857513e-05,
+      "loss": 0.1057,
+      "step": 88
+    },
+    {
+      "epoch": 0.11469072164948453,
+      "grad_norm": 0.9695951342582703,
+      "learning_rate": 1.9987746629592506e-05,
+      "loss": 0.0485,
+      "step": 89
+    },
+    {
+      "epoch": 0.11597938144329897,
+      "grad_norm": 2.6375732421875,
+      "learning_rate": 1.9985418042751975e-05,
+      "loss": 0.0962,
+      "step": 90
+    },
+    {
+      "epoch": 0.1172680412371134,
+      "grad_norm": 1.3601967096328735,
+      "learning_rate": 1.9982887175225136e-05,
+      "loss": 0.0402,
+      "step": 91
+    },
+    {
+      "epoch": 0.11855670103092783,
+      "grad_norm": 1.6553303003311157,
+      "learning_rate": 1.998015407828131e-05,
+      "loss": 0.0576,
+      "step": 92
+    },
+    {
+      "epoch": 0.11984536082474227,
+      "grad_norm": 1.6685421466827393,
+      "learning_rate": 1.9977218807286507e-05,
+      "loss": 0.0666,
+      "step": 93
+    },
+    {
+      "epoch": 0.1211340206185567,
+      "grad_norm": 3.0571939945220947,
+      "learning_rate": 1.9974081421702296e-05,
+      "loss": 0.0754,
+      "step": 94
+    },
+    {
+      "epoch": 0.12242268041237113,
+      "grad_norm": 1.3410394191741943,
+      "learning_rate": 1.99707419850846e-05,
+      "loss": 0.0545,
+      "step": 95
+    },
+    {
+      "epoch": 0.12371134020618557,
+      "grad_norm": 1.2060542106628418,
+      "learning_rate": 1.9967200565082426e-05,
+      "loss": 0.0423,
+      "step": 96
+    },
+    {
+      "epoch": 0.125,
+      "grad_norm": 2.734278678894043,
+      "learning_rate": 1.9963457233436468e-05,
+      "loss": 0.0951,
+      "step": 97
+    },
+    {
+      "epoch": 0.12628865979381443,
+      "grad_norm": 1.210222601890564,
+      "learning_rate": 1.9959512065977673e-05,
+      "loss": 0.0476,
+      "step": 98
+    },
+    {
+      "epoch": 0.12757731958762886,
+      "grad_norm": 2.3914737701416016,
+      "learning_rate": 1.9955365142625694e-05,
+      "loss": 0.0498,
+      "step": 99
+    },
+    {
+      "epoch": 0.12886597938144329,
+      "grad_norm": 2.5380992889404297,
+      "learning_rate": 1.9951016547387286e-05,
+      "loss": 0.0678,
+      "step": 100
+    },
+    {
+      "epoch": 0.12886597938144329,
+      "eval_accuracy": 0.9692154915590864,
+      "eval_f1": 0.5753424657534246,
+      "eval_loss": 0.06998522579669952,
+      "eval_precision": 0.47191011235955055,
+      "eval_recall": 0.7368421052631579,
+      "eval_runtime": 84.7785,
+      "eval_samples_per_second": 5.367,
+      "eval_steps_per_second": 0.177,
+      "step": 100
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 776,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 3.347688371467059e+16,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}