🍻 cheers

Browse files

Files changed (6) hide show

README.md +2 -1
all_results.json +13 -0
eval_results.json +8 -0
runs/May05_23-58-49_e46320ea8c60/events.out.tfevents.1746491613.e46320ea8c60.554.1 +3 -0
train_results.json +8 -0
trainer_state.json +1249 -0

README.md CHANGED Viewed

@@ -3,6 +3,7 @@ library_name: transformers
 license: apache-2.0
 base_model: timm/beitv2_base_patch16_224.in1k_ft_in22k
 tags:
 - timm
 - generated_from_trainer
 metrics:
@@ -17,7 +18,7 @@ should probably proofread and complete it, then remove this comment. -->
 # beitv2-ena24
-This model is a fine-tuned version of [timm/beitv2_base_patch16_224.in1k_ft_in22k](https://huggingface.co/timm/beitv2_base_patch16_224.in1k_ft_in22k) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 1.1010
 - Accuracy: 0.6542

 license: apache-2.0
 base_model: timm/beitv2_base_patch16_224.in1k_ft_in22k
 tags:
+- image-classification
 - timm
 - generated_from_trainer
 metrics:
 # beitv2-ena24
+This model is a fine-tuned version of [timm/beitv2_base_patch16_224.in1k_ft_in22k](https://huggingface.co/timm/beitv2_base_patch16_224.in1k_ft_in22k) on the ena24 dataset.
 It achieves the following results on the evaluation set:
 - Loss: 1.1010
 - Accuracy: 0.6542

all_results.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "epoch": 2.0,
+    "eval_accuracy": 0.6541984732824427,
+    "eval_loss": 1.101027488708496,
+    "eval_runtime": 62.0148,
+    "eval_samples_per_second": 21.124,
+    "eval_steps_per_second": 2.645,
+    "total_flos": 9.516753759971082e+17,
+    "train_loss": 1.8588488856330514,
+    "train_runtime": 1944.1645,
+    "train_samples_per_second": 6.318,
+    "train_steps_per_second": 0.79
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 2.0,
+    "eval_accuracy": 0.6541984732824427,
+    "eval_loss": 1.101027488708496,
+    "eval_runtime": 62.0148,
+    "eval_samples_per_second": 21.124,
+    "eval_steps_per_second": 2.645
+}

runs/May05_23-58-49_e46320ea8c60/events.out.tfevents.1746491613.e46320ea8c60.554.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:92e5cd8bf8dfc56d139be947478266d98bd28f25c4cc8155764ef1bfe2ee6dcb
+size 411

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 2.0,
+    "total_flos": 9.516753759971082e+17,
+    "train_loss": 1.8588488856330514,
+    "train_runtime": 1944.1645,
+    "train_samples_per_second": 6.318,
+    "train_steps_per_second": 0.79
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1249 @@

+{
+  "best_global_step": 1500,
+  "best_metric": 1.101027488708496,
+  "best_model_checkpoint": "./beitv2-ena24/checkpoint-1500",
+  "epoch": 2.0,
+  "eval_steps": 100,
+  "global_step": 1536,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.013020833333333334,
+      "grad_norm": Infinity,
+      "learning_rate": 0.000199609375,
+      "loss": 3.039,
+      "step": 10
+    },
+    {
+      "epoch": 0.026041666666666668,
+      "grad_norm": 14.776506423950195,
+      "learning_rate": 0.00019856770833333334,
+      "loss": 3.2506,
+      "step": 20
+    },
+    {
+      "epoch": 0.0390625,
+      "grad_norm": 6.92782735824585,
+      "learning_rate": 0.000197265625,
+      "loss": 3.1745,
+      "step": 30
+    },
+    {
+      "epoch": 0.052083333333333336,
+      "grad_norm": 5.374546527862549,
+      "learning_rate": 0.0001959635416666667,
+      "loss": 3.0302,
+      "step": 40
+    },
+    {
+      "epoch": 0.06510416666666667,
+      "grad_norm": 5.931521415710449,
+      "learning_rate": 0.00019466145833333333,
+      "loss": 3.0462,
+      "step": 50
+    },
+    {
+      "epoch": 0.078125,
+      "grad_norm": 6.442591190338135,
+      "learning_rate": 0.000193359375,
+      "loss": 3.0591,
+      "step": 60
+    },
+    {
+      "epoch": 0.09114583333333333,
+      "grad_norm": 4.480038166046143,
+      "learning_rate": 0.00019205729166666668,
+      "loss": 2.9282,
+      "step": 70
+    },
+    {
+      "epoch": 0.10416666666666667,
+      "grad_norm": 9.986929893493652,
+      "learning_rate": 0.00019075520833333333,
+      "loss": 2.8821,
+      "step": 80
+    },
+    {
+      "epoch": 0.1171875,
+      "grad_norm": 4.782121181488037,
+      "learning_rate": 0.000189453125,
+      "loss": 2.8212,
+      "step": 90
+    },
+    {
+      "epoch": 0.13020833333333334,
+      "grad_norm": 8.07295036315918,
+      "learning_rate": 0.00018815104166666668,
+      "loss": 2.8219,
+      "step": 100
+    },
+    {
+      "epoch": 0.13020833333333334,
+      "eval_accuracy": 0.17480916030534352,
+      "eval_loss": 2.6877520084381104,
+      "eval_runtime": 65.7898,
+      "eval_samples_per_second": 19.912,
+      "eval_steps_per_second": 2.493,
+      "step": 100
+    },
+    {
+      "epoch": 0.14322916666666666,
+      "grad_norm": 6.001428604125977,
+      "learning_rate": 0.00018684895833333333,
+      "loss": 2.7008,
+      "step": 110
+    },
+    {
+      "epoch": 0.15625,
+      "grad_norm": 6.088842868804932,
+      "learning_rate": 0.000185546875,
+      "loss": 2.7502,
+      "step": 120
+    },
+    {
+      "epoch": 0.16927083333333334,
+      "grad_norm": 5.8013787269592285,
+      "learning_rate": 0.00018424479166666668,
+      "loss": 2.6856,
+      "step": 130
+    },
+    {
+      "epoch": 0.18229166666666666,
+      "grad_norm": 6.421254634857178,
+      "learning_rate": 0.00018294270833333332,
+      "loss": 2.6374,
+      "step": 140
+    },
+    {
+      "epoch": 0.1953125,
+      "grad_norm": 10.831088066101074,
+      "learning_rate": 0.000181640625,
+      "loss": 2.5165,
+      "step": 150
+    },
+    {
+      "epoch": 0.20833333333333334,
+      "grad_norm": 7.270912170410156,
+      "learning_rate": 0.00018033854166666667,
+      "loss": 2.5425,
+      "step": 160
+    },
+    {
+      "epoch": 0.22135416666666666,
+      "grad_norm": 27.348251342773438,
+      "learning_rate": 0.00017903645833333335,
+      "loss": 2.6162,
+      "step": 170
+    },
+    {
+      "epoch": 0.234375,
+      "grad_norm": 16.71619415283203,
+      "learning_rate": 0.000177734375,
+      "loss": 2.591,
+      "step": 180
+    },
+    {
+      "epoch": 0.24739583333333334,
+      "grad_norm": 28.398574829101562,
+      "learning_rate": 0.00017643229166666667,
+      "loss": 2.5311,
+      "step": 190
+    },
+    {
+      "epoch": 0.2604166666666667,
+      "grad_norm": 8.409342765808105,
+      "learning_rate": 0.00017513020833333334,
+      "loss": 2.8794,
+      "step": 200
+    },
+    {
+      "epoch": 0.2604166666666667,
+      "eval_accuracy": 0.18244274809160305,
+      "eval_loss": 2.6517014503479004,
+      "eval_runtime": 62.0039,
+      "eval_samples_per_second": 21.128,
+      "eval_steps_per_second": 2.645,
+      "step": 200
+    },
+    {
+      "epoch": 0.2734375,
+      "grad_norm": 4.787074565887451,
+      "learning_rate": 0.00017382812500000002,
+      "loss": 2.5732,
+      "step": 210
+    },
+    {
+      "epoch": 0.2864583333333333,
+      "grad_norm": 6.101160526275635,
+      "learning_rate": 0.0001725260416666667,
+      "loss": 2.4337,
+      "step": 220
+    },
+    {
+      "epoch": 0.2994791666666667,
+      "grad_norm": 5.220091342926025,
+      "learning_rate": 0.00017122395833333334,
+      "loss": 2.5733,
+      "step": 230
+    },
+    {
+      "epoch": 0.3125,
+      "grad_norm": 7.132243633270264,
+      "learning_rate": 0.00016992187500000002,
+      "loss": 2.5063,
+      "step": 240
+    },
+    {
+      "epoch": 0.3255208333333333,
+      "grad_norm": 6.824313163757324,
+      "learning_rate": 0.0001686197916666667,
+      "loss": 2.4292,
+      "step": 250
+    },
+    {
+      "epoch": 0.3385416666666667,
+      "grad_norm": 10.382131576538086,
+      "learning_rate": 0.00016731770833333334,
+      "loss": 2.527,
+      "step": 260
+    },
+    {
+      "epoch": 0.3515625,
+      "grad_norm": 5.441108703613281,
+      "learning_rate": 0.000166015625,
+      "loss": 2.3351,
+      "step": 270
+    },
+    {
+      "epoch": 0.3645833333333333,
+      "grad_norm": 17.155088424682617,
+      "learning_rate": 0.0001647135416666667,
+      "loss": 2.2949,
+      "step": 280
+    },
+    {
+      "epoch": 0.3776041666666667,
+      "grad_norm": 12.775150299072266,
+      "learning_rate": 0.00016341145833333333,
+      "loss": 2.3052,
+      "step": 290
+    },
+    {
+      "epoch": 0.390625,
+      "grad_norm": 9.569974899291992,
+      "learning_rate": 0.000162109375,
+      "loss": 2.2815,
+      "step": 300
+    },
+    {
+      "epoch": 0.390625,
+      "eval_accuracy": 0.28015267175572517,
+      "eval_loss": 2.3204853534698486,
+      "eval_runtime": 62.5489,
+      "eval_samples_per_second": 20.944,
+      "eval_steps_per_second": 2.622,
+      "step": 300
+    },
+    {
+      "epoch": 0.4036458333333333,
+      "grad_norm": 14.159195899963379,
+      "learning_rate": 0.00016080729166666668,
+      "loss": 2.4804,
+      "step": 310
+    },
+    {
+      "epoch": 0.4166666666666667,
+      "grad_norm": 6.52683162689209,
+      "learning_rate": 0.00015950520833333333,
+      "loss": 2.5346,
+      "step": 320
+    },
+    {
+      "epoch": 0.4296875,
+      "grad_norm": 12.09903335571289,
+      "learning_rate": 0.000158203125,
+      "loss": 2.1983,
+      "step": 330
+    },
+    {
+      "epoch": 0.4427083333333333,
+      "grad_norm": 4.688809394836426,
+      "learning_rate": 0.00015690104166666668,
+      "loss": 2.2841,
+      "step": 340
+    },
+    {
+      "epoch": 0.4557291666666667,
+      "grad_norm": 6.31483793258667,
+      "learning_rate": 0.00015559895833333333,
+      "loss": 2.1813,
+      "step": 350
+    },
+    {
+      "epoch": 0.46875,
+      "grad_norm": 5.422014236450195,
+      "learning_rate": 0.000154296875,
+      "loss": 2.0422,
+      "step": 360
+    },
+    {
+      "epoch": 0.4817708333333333,
+      "grad_norm": 10.97143840789795,
+      "learning_rate": 0.00015299479166666668,
+      "loss": 2.2088,
+      "step": 370
+    },
+    {
+      "epoch": 0.4947916666666667,
+      "grad_norm": 8.516188621520996,
+      "learning_rate": 0.00015169270833333332,
+      "loss": 2.5296,
+      "step": 380
+    },
+    {
+      "epoch": 0.5078125,
+      "grad_norm": 13.854727745056152,
+      "learning_rate": 0.000150390625,
+      "loss": 2.0928,
+      "step": 390
+    },
+    {
+      "epoch": 0.5208333333333334,
+      "grad_norm": 9.708393096923828,
+      "learning_rate": 0.00014908854166666667,
+      "loss": 2.1651,
+      "step": 400
+    },
+    {
+      "epoch": 0.5208333333333334,
+      "eval_accuracy": 0.35038167938931297,
+      "eval_loss": 2.167991876602173,
+      "eval_runtime": 61.7993,
+      "eval_samples_per_second": 21.198,
+      "eval_steps_per_second": 2.654,
+      "step": 400
+    },
+    {
+      "epoch": 0.5338541666666666,
+      "grad_norm": 7.419209957122803,
+      "learning_rate": 0.00014778645833333332,
+      "loss": 2.1624,
+      "step": 410
+    },
+    {
+      "epoch": 0.546875,
+      "grad_norm": 7.767328262329102,
+      "learning_rate": 0.000146484375,
+      "loss": 2.2072,
+      "step": 420
+    },
+    {
+      "epoch": 0.5598958333333334,
+      "grad_norm": 14.611408233642578,
+      "learning_rate": 0.00014518229166666667,
+      "loss": 2.1106,
+      "step": 430
+    },
+    {
+      "epoch": 0.5729166666666666,
+      "grad_norm": 5.225481033325195,
+      "learning_rate": 0.00014388020833333334,
+      "loss": 2.3682,
+      "step": 440
+    },
+    {
+      "epoch": 0.5859375,
+      "grad_norm": 10.717113494873047,
+      "learning_rate": 0.00014257812500000002,
+      "loss": 2.2256,
+      "step": 450
+    },
+    {
+      "epoch": 0.5989583333333334,
+      "grad_norm": 13.808488845825195,
+      "learning_rate": 0.0001412760416666667,
+      "loss": 2.212,
+      "step": 460
+    },
+    {
+      "epoch": 0.6119791666666666,
+      "grad_norm": 6.799715518951416,
+      "learning_rate": 0.00013997395833333334,
+      "loss": 2.2726,
+      "step": 470
+    },
+    {
+      "epoch": 0.625,
+      "grad_norm": 6.2194437980651855,
+      "learning_rate": 0.00013867187500000001,
+      "loss": 2.2296,
+      "step": 480
+    },
+    {
+      "epoch": 0.6380208333333334,
+      "grad_norm": 6.755204677581787,
+      "learning_rate": 0.0001373697916666667,
+      "loss": 2.0764,
+      "step": 490
+    },
+    {
+      "epoch": 0.6510416666666666,
+      "grad_norm": 5.835976600646973,
+      "learning_rate": 0.00013606770833333334,
+      "loss": 2.2386,
+      "step": 500
+    },
+    {
+      "epoch": 0.6510416666666666,
+      "eval_accuracy": 0.35572519083969467,
+      "eval_loss": 2.101144313812256,
+      "eval_runtime": 61.3207,
+      "eval_samples_per_second": 21.363,
+      "eval_steps_per_second": 2.674,
+      "step": 500
+    },
+    {
+      "epoch": 0.6640625,
+      "grad_norm": 7.9891791343688965,
+      "learning_rate": 0.000134765625,
+      "loss": 2.1535,
+      "step": 510
+    },
+    {
+      "epoch": 0.6770833333333334,
+      "grad_norm": 8.268142700195312,
+      "learning_rate": 0.00013346354166666669,
+      "loss": 2.2551,
+      "step": 520
+    },
+    {
+      "epoch": 0.6901041666666666,
+      "grad_norm": 7.744507789611816,
+      "learning_rate": 0.00013216145833333333,
+      "loss": 2.3442,
+      "step": 530
+    },
+    {
+      "epoch": 0.703125,
+      "grad_norm": 4.878718852996826,
+      "learning_rate": 0.000130859375,
+      "loss": 1.8175,
+      "step": 540
+    },
+    {
+      "epoch": 0.7161458333333334,
+      "grad_norm": 18.14910316467285,
+      "learning_rate": 0.00012955729166666668,
+      "loss": 2.265,
+      "step": 550
+    },
+    {
+      "epoch": 0.7291666666666666,
+      "grad_norm": 10.696211814880371,
+      "learning_rate": 0.00012825520833333333,
+      "loss": 2.0738,
+      "step": 560
+    },
+    {
+      "epoch": 0.7421875,
+      "grad_norm": 5.670561790466309,
+      "learning_rate": 0.000126953125,
+      "loss": 2.0173,
+      "step": 570
+    },
+    {
+      "epoch": 0.7552083333333334,
+      "grad_norm": 17.021509170532227,
+      "learning_rate": 0.00012565104166666668,
+      "loss": 2.1172,
+      "step": 580
+    },
+    {
+      "epoch": 0.7682291666666666,
+      "grad_norm": 5.123804092407227,
+      "learning_rate": 0.00012434895833333333,
+      "loss": 1.7117,
+      "step": 590
+    },
+    {
+      "epoch": 0.78125,
+      "grad_norm": 11.131023406982422,
+      "learning_rate": 0.000123046875,
+      "loss": 2.2215,
+      "step": 600
+    },
+    {
+      "epoch": 0.78125,
+      "eval_accuracy": 0.3931297709923664,
+      "eval_loss": 1.9811813831329346,
+      "eval_runtime": 61.4975,
+      "eval_samples_per_second": 21.302,
+      "eval_steps_per_second": 2.667,
+      "step": 600
+    },
+    {
+      "epoch": 0.7942708333333334,
+      "grad_norm": 14.288865089416504,
+      "learning_rate": 0.00012174479166666668,
+      "loss": 1.8272,
+      "step": 610
+    },
+    {
+      "epoch": 0.8072916666666666,
+      "grad_norm": 8.024924278259277,
+      "learning_rate": 0.00012044270833333334,
+      "loss": 1.9843,
+      "step": 620
+    },
+    {
+      "epoch": 0.8203125,
+      "grad_norm": 11.102864265441895,
+      "learning_rate": 0.00011914062500000001,
+      "loss": 2.1209,
+      "step": 630
+    },
+    {
+      "epoch": 0.8333333333333334,
+      "grad_norm": 10.264240264892578,
+      "learning_rate": 0.00011783854166666669,
+      "loss": 1.8675,
+      "step": 640
+    },
+    {
+      "epoch": 0.8463541666666666,
+      "grad_norm": 38.51216506958008,
+      "learning_rate": 0.00011653645833333333,
+      "loss": 2.0455,
+      "step": 650
+    },
+    {
+      "epoch": 0.859375,
+      "grad_norm": 15.57908821105957,
+      "learning_rate": 0.00011523437500000001,
+      "loss": 1.8323,
+      "step": 660
+    },
+    {
+      "epoch": 0.8723958333333334,
+      "grad_norm": 15.00413703918457,
+      "learning_rate": 0.00011393229166666668,
+      "loss": 1.5324,
+      "step": 670
+    },
+    {
+      "epoch": 0.8854166666666666,
+      "grad_norm": 5.070932388305664,
+      "learning_rate": 0.00011263020833333333,
+      "loss": 2.29,
+      "step": 680
+    },
+    {
+      "epoch": 0.8984375,
+      "grad_norm": 6.253166198730469,
+      "learning_rate": 0.000111328125,
+      "loss": 2.0513,
+      "step": 690
+    },
+    {
+      "epoch": 0.9114583333333334,
+      "grad_norm": 8.700178146362305,
+      "learning_rate": 0.00011002604166666668,
+      "loss": 1.692,
+      "step": 700
+    },
+    {
+      "epoch": 0.9114583333333334,
+      "eval_accuracy": 0.42824427480916033,
+      "eval_loss": 1.8440021276474,
+      "eval_runtime": 61.2987,
+      "eval_samples_per_second": 21.371,
+      "eval_steps_per_second": 2.675,
+      "step": 700
+    },
+    {
+      "epoch": 0.9244791666666666,
+      "grad_norm": 15.94517993927002,
+      "learning_rate": 0.00010872395833333333,
+      "loss": 2.1201,
+      "step": 710
+    },
+    {
+      "epoch": 0.9375,
+      "grad_norm": 9.457595825195312,
+      "learning_rate": 0.000107421875,
+      "loss": 1.841,
+      "step": 720
+    },
+    {
+      "epoch": 0.9505208333333334,
+      "grad_norm": 8.457929611206055,
+      "learning_rate": 0.00010611979166666668,
+      "loss": 1.7869,
+      "step": 730
+    },
+    {
+      "epoch": 0.9635416666666666,
+      "grad_norm": 9.553553581237793,
+      "learning_rate": 0.00010481770833333334,
+      "loss": 1.7781,
+      "step": 740
+    },
+    {
+      "epoch": 0.9765625,
+      "grad_norm": 20.70500373840332,
+      "learning_rate": 0.00010351562500000001,
+      "loss": 1.9509,
+      "step": 750
+    },
+    {
+      "epoch": 0.9895833333333334,
+      "grad_norm": 12.38322925567627,
+      "learning_rate": 0.00010221354166666669,
+      "loss": 1.8533,
+      "step": 760
+    },
+    {
+      "epoch": 1.0026041666666667,
+      "grad_norm": 11.95076847076416,
+      "learning_rate": 0.00010091145833333333,
+      "loss": 1.655,
+      "step": 770
+    },
+    {
+      "epoch": 1.015625,
+      "grad_norm": 12.819039344787598,
+      "learning_rate": 9.960937500000001e-05,
+      "loss": 2.0869,
+      "step": 780
+    },
+    {
+      "epoch": 1.0286458333333333,
+      "grad_norm": 19.228614807128906,
+      "learning_rate": 9.830729166666667e-05,
+      "loss": 1.839,
+      "step": 790
+    },
+    {
+      "epoch": 1.0416666666666667,
+      "grad_norm": 11.485426902770996,
+      "learning_rate": 9.700520833333334e-05,
+      "loss": 1.925,
+      "step": 800
+    },
+    {
+      "epoch": 1.0416666666666667,
+      "eval_accuracy": 0.45725190839694657,
+      "eval_loss": 1.7082406282424927,
+      "eval_runtime": 61.5781,
+      "eval_samples_per_second": 21.274,
+      "eval_steps_per_second": 2.663,
+      "step": 800
+    },
+    {
+      "epoch": 1.0546875,
+      "grad_norm": 6.027112007141113,
+      "learning_rate": 9.5703125e-05,
+      "loss": 1.5587,
+      "step": 810
+    },
+    {
+      "epoch": 1.0677083333333333,
+      "grad_norm": 11.737372398376465,
+      "learning_rate": 9.440104166666666e-05,
+      "loss": 1.6711,
+      "step": 820
+    },
+    {
+      "epoch": 1.0807291666666667,
+      "grad_norm": 13.169365882873535,
+      "learning_rate": 9.309895833333334e-05,
+      "loss": 1.7146,
+      "step": 830
+    },
+    {
+      "epoch": 1.09375,
+      "grad_norm": 13.459263801574707,
+      "learning_rate": 9.1796875e-05,
+      "loss": 1.4564,
+      "step": 840
+    },
+    {
+      "epoch": 1.1067708333333333,
+      "grad_norm": 13.749167442321777,
+      "learning_rate": 9.049479166666666e-05,
+      "loss": 1.9533,
+      "step": 850
+    },
+    {
+      "epoch": 1.1197916666666667,
+      "grad_norm": 7.2763519287109375,
+      "learning_rate": 8.919270833333334e-05,
+      "loss": 1.5154,
+      "step": 860
+    },
+    {
+      "epoch": 1.1328125,
+      "grad_norm": 8.36424732208252,
+      "learning_rate": 8.789062500000001e-05,
+      "loss": 1.4275,
+      "step": 870
+    },
+    {
+      "epoch": 1.1458333333333333,
+      "grad_norm": 10.810942649841309,
+      "learning_rate": 8.658854166666667e-05,
+      "loss": 1.7471,
+      "step": 880
+    },
+    {
+      "epoch": 1.1588541666666667,
+      "grad_norm": 10.02784252166748,
+      "learning_rate": 8.528645833333335e-05,
+      "loss": 1.711,
+      "step": 890
+    },
+    {
+      "epoch": 1.171875,
+      "grad_norm": 17.436981201171875,
+      "learning_rate": 8.398437500000001e-05,
+      "loss": 1.6596,
+      "step": 900
+    },
+    {
+      "epoch": 1.171875,
+      "eval_accuracy": 0.4847328244274809,
+      "eval_loss": 1.664871096611023,
+      "eval_runtime": 61.8718,
+      "eval_samples_per_second": 21.173,
+      "eval_steps_per_second": 2.651,
+      "step": 900
+    },
+    {
+      "epoch": 1.1848958333333333,
+      "grad_norm": 23.6259822845459,
+      "learning_rate": 8.268229166666667e-05,
+      "loss": 1.6094,
+      "step": 910
+    },
+    {
+      "epoch": 1.1979166666666667,
+      "grad_norm": 10.717123985290527,
+      "learning_rate": 8.138020833333334e-05,
+      "loss": 1.6189,
+      "step": 920
+    },
+    {
+      "epoch": 1.2109375,
+      "grad_norm": 8.009198188781738,
+      "learning_rate": 8.0078125e-05,
+      "loss": 1.9471,
+      "step": 930
+    },
+    {
+      "epoch": 1.2239583333333333,
+      "grad_norm": 10.098549842834473,
+      "learning_rate": 7.877604166666666e-05,
+      "loss": 1.5541,
+      "step": 940
+    },
+    {
+      "epoch": 1.2369791666666667,
+      "grad_norm": 8.674778938293457,
+      "learning_rate": 7.747395833333334e-05,
+      "loss": 1.6554,
+      "step": 950
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 6.6000823974609375,
+      "learning_rate": 7.6171875e-05,
+      "loss": 1.5485,
+      "step": 960
+    },
+    {
+      "epoch": 1.2630208333333333,
+      "grad_norm": 10.687252044677734,
+      "learning_rate": 7.486979166666666e-05,
+      "loss": 1.6659,
+      "step": 970
+    },
+    {
+      "epoch": 1.2760416666666667,
+      "grad_norm": 4.032899379730225,
+      "learning_rate": 7.356770833333334e-05,
+      "loss": 1.5693,
+      "step": 980
+    },
+    {
+      "epoch": 1.2890625,
+      "grad_norm": 10.584949493408203,
+      "learning_rate": 7.226562500000001e-05,
+      "loss": 1.4774,
+      "step": 990
+    },
+    {
+      "epoch": 1.3020833333333333,
+      "grad_norm": 5.531164169311523,
+      "learning_rate": 7.096354166666667e-05,
+      "loss": 1.5171,
+      "step": 1000
+    },
+    {
+      "epoch": 1.3020833333333333,
+      "eval_accuracy": 0.4862595419847328,
+      "eval_loss": 1.5891896486282349,
+      "eval_runtime": 62.2047,
+      "eval_samples_per_second": 21.059,
+      "eval_steps_per_second": 2.636,
+      "step": 1000
+    },
+    {
+      "epoch": 1.3151041666666667,
+      "grad_norm": 11.320353507995605,
+      "learning_rate": 6.966145833333335e-05,
+      "loss": 1.4783,
+      "step": 1010
+    },
+    {
+      "epoch": 1.328125,
+      "grad_norm": 9.439470291137695,
+      "learning_rate": 6.8359375e-05,
+      "loss": 1.5991,
+      "step": 1020
+    },
+    {
+      "epoch": 1.3411458333333333,
+      "grad_norm": 19.882692337036133,
+      "learning_rate": 6.705729166666667e-05,
+      "loss": 1.7561,
+      "step": 1030
+    },
+    {
+      "epoch": 1.3541666666666667,
+      "grad_norm": 16.27409553527832,
+      "learning_rate": 6.575520833333334e-05,
+      "loss": 1.5257,
+      "step": 1040
+    },
+    {
+      "epoch": 1.3671875,
+      "grad_norm": 5.662678241729736,
+      "learning_rate": 6.4453125e-05,
+      "loss": 1.3748,
+      "step": 1050
+    },
+    {
+      "epoch": 1.3802083333333333,
+      "grad_norm": 7.453941822052002,
+      "learning_rate": 6.315104166666666e-05,
+      "loss": 1.4179,
+      "step": 1060
+    },
+    {
+      "epoch": 1.3932291666666667,
+      "grad_norm": 5.913275241851807,
+      "learning_rate": 6.184895833333334e-05,
+      "loss": 1.6794,
+      "step": 1070
+    },
+    {
+      "epoch": 1.40625,
+      "grad_norm": 10.056464195251465,
+      "learning_rate": 6.0546875e-05,
+      "loss": 1.6162,
+      "step": 1080
+    },
+    {
+      "epoch": 1.4192708333333333,
+      "grad_norm": 19.47242546081543,
+      "learning_rate": 5.924479166666667e-05,
+      "loss": 1.285,
+      "step": 1090
+    },
+    {
+      "epoch": 1.4322916666666667,
+      "grad_norm": 6.933910846710205,
+      "learning_rate": 5.794270833333334e-05,
+      "loss": 1.1392,
+      "step": 1100
+    },
+    {
+      "epoch": 1.4322916666666667,
+      "eval_accuracy": 0.5641221374045802,
+      "eval_loss": 1.465259313583374,
+      "eval_runtime": 61.3608,
+      "eval_samples_per_second": 21.349,
+      "eval_steps_per_second": 2.673,
+      "step": 1100
+    },
+    {
+      "epoch": 1.4453125,
+      "grad_norm": 10.805746078491211,
+      "learning_rate": 5.6640625e-05,
+      "loss": 1.4576,
+      "step": 1110
+    },
+    {
+      "epoch": 1.4583333333333333,
+      "grad_norm": 7.334717273712158,
+      "learning_rate": 5.5338541666666664e-05,
+      "loss": 1.0282,
+      "step": 1120
+    },
+    {
+      "epoch": 1.4713541666666667,
+      "grad_norm": 11.267937660217285,
+      "learning_rate": 5.403645833333334e-05,
+      "loss": 1.2412,
+      "step": 1130
+    },
+    {
+      "epoch": 1.484375,
+      "grad_norm": 12.98930835723877,
+      "learning_rate": 5.2734375e-05,
+      "loss": 1.1597,
+      "step": 1140
+    },
+    {
+      "epoch": 1.4973958333333333,
+      "grad_norm": 14.882040023803711,
+      "learning_rate": 5.143229166666667e-05,
+      "loss": 1.6789,
+      "step": 1150
+    },
+    {
+      "epoch": 1.5104166666666665,
+      "grad_norm": 9.60672664642334,
+      "learning_rate": 5.013020833333334e-05,
+      "loss": 1.282,
+      "step": 1160
+    },
+    {
+      "epoch": 1.5234375,
+      "grad_norm": 4.651318073272705,
+      "learning_rate": 4.8828125e-05,
+      "loss": 1.2623,
+      "step": 1170
+    },
+    {
+      "epoch": 1.5364583333333335,
+      "grad_norm": 18.720874786376953,
+      "learning_rate": 4.752604166666667e-05,
+      "loss": 1.2181,
+      "step": 1180
+    },
+    {
+      "epoch": 1.5494791666666665,
+      "grad_norm": 29.319862365722656,
+      "learning_rate": 4.622395833333333e-05,
+      "loss": 1.6477,
+      "step": 1190
+    },
+    {
+      "epoch": 1.5625,
+      "grad_norm": 16.204391479492188,
+      "learning_rate": 4.4921875e-05,
+      "loss": 1.4759,
+      "step": 1200
+    },
+    {
+      "epoch": 1.5625,
+      "eval_accuracy": 0.5709923664122137,
+      "eval_loss": 1.364412546157837,
+      "eval_runtime": 62.5016,
+      "eval_samples_per_second": 20.959,
+      "eval_steps_per_second": 2.624,
+      "step": 1200
+    },
+    {
+      "epoch": 1.5755208333333335,
+      "grad_norm": 17.961008071899414,
+      "learning_rate": 4.3619791666666674e-05,
+      "loss": 1.0689,
+      "step": 1210
+    },
+    {
+      "epoch": 1.5885416666666665,
+      "grad_norm": 12.91933822631836,
+      "learning_rate": 4.2317708333333335e-05,
+      "loss": 1.3695,
+      "step": 1220
+    },
+    {
+      "epoch": 1.6015625,
+      "grad_norm": 9.124815940856934,
+      "learning_rate": 4.1015625e-05,
+      "loss": 1.2604,
+      "step": 1230
+    },
+    {
+      "epoch": 1.6145833333333335,
+      "grad_norm": 15.050168991088867,
+      "learning_rate": 3.971354166666667e-05,
+      "loss": 1.425,
+      "step": 1240
+    },
+    {
+      "epoch": 1.6276041666666665,
+      "grad_norm": 10.37255573272705,
+      "learning_rate": 3.841145833333333e-05,
+      "loss": 1.1547,
+      "step": 1250
+    },
+    {
+      "epoch": 1.640625,
+      "grad_norm": 4.829516887664795,
+      "learning_rate": 3.7109375e-05,
+      "loss": 1.257,
+      "step": 1260
+    },
+    {
+      "epoch": 1.6536458333333335,
+      "grad_norm": 4.607377052307129,
+      "learning_rate": 3.580729166666667e-05,
+      "loss": 1.5243,
+      "step": 1270
+    },
+    {
+      "epoch": 1.6666666666666665,
+      "grad_norm": 14.61783504486084,
+      "learning_rate": 3.4505208333333335e-05,
+      "loss": 1.0446,
+      "step": 1280
+    },
+    {
+      "epoch": 1.6796875,
+      "grad_norm": 16.958330154418945,
+      "learning_rate": 3.3203125e-05,
+      "loss": 1.2175,
+      "step": 1290
+    },
+    {
+      "epoch": 1.6927083333333335,
+      "grad_norm": 17.922603607177734,
+      "learning_rate": 3.190104166666667e-05,
+      "loss": 1.175,
+      "step": 1300
+    },
+    {
+      "epoch": 1.6927083333333335,
+      "eval_accuracy": 0.6099236641221374,
+      "eval_loss": 1.272031545639038,
+      "eval_runtime": 61.2889,
+      "eval_samples_per_second": 21.374,
+      "eval_steps_per_second": 2.676,
+      "step": 1300
+    },
+    {
+      "epoch": 1.7057291666666665,
+      "grad_norm": 12.703574180603027,
+      "learning_rate": 3.059895833333333e-05,
+      "loss": 1.3538,
+      "step": 1310
+    },
+    {
+      "epoch": 1.71875,
+      "grad_norm": 17.6568546295166,
+      "learning_rate": 2.9296875000000002e-05,
+      "loss": 1.2926,
+      "step": 1320
+    },
+    {
+      "epoch": 1.7317708333333335,
+      "grad_norm": 17.854629516601562,
+      "learning_rate": 2.799479166666667e-05,
+      "loss": 1.388,
+      "step": 1330
+    },
+    {
+      "epoch": 1.7447916666666665,
+      "grad_norm": 6.6978759765625,
+      "learning_rate": 2.6692708333333334e-05,
+      "loss": 1.2791,
+      "step": 1340
+    },
+    {
+      "epoch": 1.7578125,
+      "grad_norm": 12.86587142944336,
+      "learning_rate": 2.5390625000000002e-05,
+      "loss": 1.2273,
+      "step": 1350
+    },
+    {
+      "epoch": 1.7708333333333335,
+      "grad_norm": 17.528553009033203,
+      "learning_rate": 2.4088541666666667e-05,
+      "loss": 1.1705,
+      "step": 1360
+    },
+    {
+      "epoch": 1.7838541666666665,
+      "grad_norm": 7.595549583435059,
+      "learning_rate": 2.2786458333333334e-05,
+      "loss": 1.4756,
+      "step": 1370
+    },
+    {
+      "epoch": 1.796875,
+      "grad_norm": 15.547664642333984,
+      "learning_rate": 2.1484375000000002e-05,
+      "loss": 1.2231,
+      "step": 1380
+    },
+    {
+      "epoch": 1.8098958333333335,
+      "grad_norm": 13.09683895111084,
+      "learning_rate": 2.0182291666666667e-05,
+      "loss": 1.0805,
+      "step": 1390
+    },
+    {
+      "epoch": 1.8229166666666665,
+      "grad_norm": 32.82133102416992,
+      "learning_rate": 1.8880208333333334e-05,
+      "loss": 1.0121,
+      "step": 1400
+    },
+    {
+      "epoch": 1.8229166666666665,
+      "eval_accuracy": 0.6549618320610687,
+      "eval_loss": 1.1418578624725342,
+      "eval_runtime": 61.7605,
+      "eval_samples_per_second": 21.211,
+      "eval_steps_per_second": 2.655,
+      "step": 1400
+    },
+    {
+      "epoch": 1.8359375,
+      "grad_norm": 21.872119903564453,
+      "learning_rate": 1.7578125000000002e-05,
+      "loss": 1.3589,
+      "step": 1410
+    },
+    {
+      "epoch": 1.8489583333333335,
+      "grad_norm": 12.93798828125,
+      "learning_rate": 1.6276041666666666e-05,
+      "loss": 1.111,
+      "step": 1420
+    },
+    {
+      "epoch": 1.8619791666666665,
+      "grad_norm": 9.703911781311035,
+      "learning_rate": 1.4973958333333334e-05,
+      "loss": 0.8222,
+      "step": 1430
+    },
+    {
+      "epoch": 1.875,
+      "grad_norm": 8.125261306762695,
+      "learning_rate": 1.3671875e-05,
+      "loss": 0.9044,
+      "step": 1440
+    },
+    {
+      "epoch": 1.8880208333333335,
+      "grad_norm": 20.70644760131836,
+      "learning_rate": 1.2369791666666668e-05,
+      "loss": 1.0717,
+      "step": 1450
+    },
+    {
+      "epoch": 1.9010416666666665,
+      "grad_norm": 12.871353149414062,
+      "learning_rate": 1.1067708333333334e-05,
+      "loss": 1.1019,
+      "step": 1460
+    },
+    {
+      "epoch": 1.9140625,
+      "grad_norm": 22.509063720703125,
+      "learning_rate": 9.765625e-06,
+      "loss": 1.0015,
+      "step": 1470
+    },
+    {
+      "epoch": 1.9270833333333335,
+      "grad_norm": 8.438760757446289,
+      "learning_rate": 8.463541666666668e-06,
+      "loss": 1.1198,
+      "step": 1480
+    },
+    {
+      "epoch": 1.9401041666666665,
+      "grad_norm": 14.156661033630371,
+      "learning_rate": 7.161458333333333e-06,
+      "loss": 1.4639,
+      "step": 1490
+    },
+    {
+      "epoch": 1.953125,
+      "grad_norm": 15.844815254211426,
+      "learning_rate": 5.859375e-06,
+      "loss": 0.8563,
+      "step": 1500
+    },
+    {
+      "epoch": 1.953125,
+      "eval_accuracy": 0.6541984732824427,
+      "eval_loss": 1.101027488708496,
+      "eval_runtime": 61.7436,
+      "eval_samples_per_second": 21.217,
+      "eval_steps_per_second": 2.656,
+      "step": 1500
+    },
+    {
+      "epoch": 1.9661458333333335,
+      "grad_norm": 9.091082572937012,
+      "learning_rate": 4.557291666666667e-06,
+      "loss": 1.1192,
+      "step": 1510
+    },
+    {
+      "epoch": 1.9791666666666665,
+      "grad_norm": 11.635936737060547,
+      "learning_rate": 3.2552083333333335e-06,
+      "loss": 1.3413,
+      "step": 1520
+    },
+    {
+      "epoch": 1.9921875,
+      "grad_norm": 15.317086219787598,
+      "learning_rate": 1.953125e-06,
+      "loss": 1.1254,
+      "step": 1530
+    },
+    {
+      "epoch": 2.0,
+      "step": 1536,
+      "total_flos": 9.516753759971082e+17,
+      "train_loss": 1.8588488856330514,
+      "train_runtime": 1944.1645,
+      "train_samples_per_second": 6.318,
+      "train_steps_per_second": 0.79
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1536,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 9.516753759971082e+17,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}