Training in progress, step 1500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +728 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3cd890db48dacc3d3b3df0971ab6f506777ee6324b5fe98afa58345c1314ac67
 size 527048968

 version https://git-lfs.github.com/spec/v1
+oid sha256:be8a45329c3e8e3a2f45c77d7ac9080fd0aad7fa0e5966556ccab7ad8fa2f098
 size 527048968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f50b123a4aeda0cacc062ede7b0235cc81f9613e4e55cf6e5de746a463a52fea
 size 1054135994

 version https://git-lfs.github.com/spec/v1
+oid sha256:1178946cf0771c850e2a43f81c79255d308890814174c3df8070c8810c0eba4c
 size 1054135994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4ca9142fcbd976a2b9880762578e5776f18d9cad34016a627060f41ab78ec47d
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:86a4d2549b1634b5162bba6559970b4387f95d4c5153179e15ae2066cc09b884
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e8974fc0327a603be8a90ee235d3ef81c4ee4af2818c873bdeb9bfb38f108e1a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d00fd7759971df004f86f26240bbcec291b25e581e60ea022fb56951da465e4f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.7166430950164795,
   "best_model_checkpoint": "./output/checkpoint-450",
-  "epoch": 32.608695652173914,
   "eval_steps": 150,
-  "global_step": 750,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -732,6 +732,731 @@
       "EMA_steps_per_second": 24.839,
       "epoch": 32.608695652173914,
       "step": 750
     }
   ],
   "logging_steps": 10,
@@ -751,7 +1476,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.9231766387195904e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.7166430950164795,
   "best_model_checkpoint": "./output/checkpoint-450",
+  "epoch": 65.21739130434783,
   "eval_steps": 150,
+  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "EMA_steps_per_second": 24.839,
       "epoch": 32.608695652173914,
       "step": 750
+    },
+    {
+      "epoch": 33.04347826086956,
+      "grad_norm": 1.4949195384979248,
+      "learning_rate": 2.998705251845287e-05,
+      "loss": 0.43,
+      "step": 760
+    },
+    {
+      "epoch": 33.47826086956522,
+      "grad_norm": 1.6518038511276245,
+      "learning_rate": 2.9986657256812e-05,
+      "loss": 0.4301,
+      "step": 770
+    },
+    {
+      "epoch": 33.91304347826087,
+      "grad_norm": 1.2894669771194458,
+      "learning_rate": 2.9986256054939022e-05,
+      "loss": 0.408,
+      "step": 780
+    },
+    {
+      "epoch": 34.34782608695652,
+      "grad_norm": 1.4762516021728516,
+      "learning_rate": 2.9985848912992956e-05,
+      "loss": 0.4029,
+      "step": 790
+    },
+    {
+      "epoch": 34.78260869565217,
+      "grad_norm": 1.5660409927368164,
+      "learning_rate": 2.9985435831135184e-05,
+      "loss": 0.3832,
+      "step": 800
+    },
+    {
+      "epoch": 35.21739130434783,
+      "grad_norm": 1.3075863122940063,
+      "learning_rate": 2.9985016809529437e-05,
+      "loss": 0.4744,
+      "step": 810
+    },
+    {
+      "epoch": 35.65217391304348,
+      "grad_norm": 1.3411126136779785,
+      "learning_rate": 2.9984591848341806e-05,
+      "loss": 0.403,
+      "step": 820
+    },
+    {
+      "epoch": 36.08695652173913,
+      "grad_norm": 1.0828583240509033,
+      "learning_rate": 2.9984160947740723e-05,
+      "loss": 0.4181,
+      "step": 830
+    },
+    {
+      "epoch": 36.52173913043478,
+      "grad_norm": 1.1622037887573242,
+      "learning_rate": 2.9983724107896993e-05,
+      "loss": 0.3806,
+      "step": 840
+    },
+    {
+      "epoch": 36.95652173913044,
+      "grad_norm": 1.4791110754013062,
+      "learning_rate": 2.9983281328983757e-05,
+      "loss": 0.4499,
+      "step": 850
+    },
+    {
+      "epoch": 37.391304347826086,
+      "grad_norm": 1.8963046073913574,
+      "learning_rate": 2.9982832611176523e-05,
+      "loss": 0.4181,
+      "step": 860
+    },
+    {
+      "epoch": 37.82608695652174,
+      "grad_norm": 1.270815372467041,
+      "learning_rate": 2.998237795465315e-05,
+      "loss": 0.3714,
+      "step": 870
+    },
+    {
+      "epoch": 38.26086956521739,
+      "grad_norm": 1.264829397201538,
+      "learning_rate": 2.9981917359593843e-05,
+      "loss": 0.4013,
+      "step": 880
+    },
+    {
+      "epoch": 38.69565217391305,
+      "grad_norm": 1.4431074857711792,
+      "learning_rate": 2.9981450826181172e-05,
+      "loss": 0.3552,
+      "step": 890
+    },
+    {
+      "epoch": 39.130434782608695,
+      "grad_norm": 1.9556941986083984,
+      "learning_rate": 2.9980978354600057e-05,
+      "loss": 0.463,
+      "step": 900
+    },
+    {
+      "epoch": 39.130434782608695,
+      "eval_loss": 0.7511647343635559,
+      "eval_runtime": 0.4145,
+      "eval_samples_per_second": 24.126,
+      "eval_steps_per_second": 24.126,
+      "step": 900
+    },
+    {
+      "Start_State_loss": 0.8601926565170288,
+      "Start_State_runtime": 0.4115,
+      "Start_State_samples_per_second": 24.303,
+      "Start_State_steps_per_second": 24.303,
+      "epoch": 39.130434782608695,
+      "step": 900
+    },
+    {
+      "Raw_Model_loss": 0.7511647343635559,
+      "Raw_Model_runtime": 0.399,
+      "Raw_Model_samples_per_second": 25.063,
+      "Raw_Model_steps_per_second": 25.063,
+      "epoch": 39.130434782608695,
+      "step": 900
+    },
+    {
+      "SWA_loss": 0.7235903739929199,
+      "SWA_runtime": 0.3941,
+      "SWA_samples_per_second": 25.377,
+      "SWA_steps_per_second": 25.377,
+      "epoch": 39.130434782608695,
+      "step": 900
+    },
+    {
+      "EMA_loss": 0.8609917759895325,
+      "EMA_runtime": 0.3995,
+      "EMA_samples_per_second": 25.033,
+      "EMA_steps_per_second": 25.033,
+      "epoch": 39.130434782608695,
+      "step": 900
+    },
+    {
+      "epoch": 39.56521739130435,
+      "grad_norm": 1.542538046836853,
+      "learning_rate": 2.9980499945037765e-05,
+      "loss": 0.3835,
+      "step": 910
+    },
+    {
+      "epoch": 40.0,
+      "grad_norm": 3.0124218463897705,
+      "learning_rate": 2.998001559768393e-05,
+      "loss": 0.3867,
+      "step": 920
+    },
+    {
+      "epoch": 40.43478260869565,
+      "grad_norm": 1.5339196920394897,
+      "learning_rate": 2.9979525312730525e-05,
+      "loss": 0.4492,
+      "step": 930
+    },
+    {
+      "epoch": 40.869565217391305,
+      "grad_norm": 1.6727086305618286,
+      "learning_rate": 2.9979029090371885e-05,
+      "loss": 0.3412,
+      "step": 940
+    },
+    {
+      "epoch": 41.30434782608695,
+      "grad_norm": 2.2182319164276123,
+      "learning_rate": 2.99785269308047e-05,
+      "loss": 0.3413,
+      "step": 950
+    },
+    {
+      "epoch": 41.73913043478261,
+      "grad_norm": 1.5122953653335571,
+      "learning_rate": 2.9978018834228007e-05,
+      "loss": 0.365,
+      "step": 960
+    },
+    {
+      "epoch": 42.17391304347826,
+      "grad_norm": 1.5070980787277222,
+      "learning_rate": 2.9977504800843197e-05,
+      "loss": 0.4346,
+      "step": 970
+    },
+    {
+      "epoch": 42.608695652173914,
+      "grad_norm": 1.5313963890075684,
+      "learning_rate": 2.9976984830854022e-05,
+      "loss": 0.3752,
+      "step": 980
+    },
+    {
+      "epoch": 43.04347826086956,
+      "grad_norm": 1.653640866279602,
+      "learning_rate": 2.997645892446658e-05,
+      "loss": 0.367,
+      "step": 990
+    },
+    {
+      "epoch": 43.47826086956522,
+      "grad_norm": 1.4292306900024414,
+      "learning_rate": 2.9975927081889322e-05,
+      "loss": 0.391,
+      "step": 1000
+    },
+    {
+      "epoch": 43.91304347826087,
+      "grad_norm": 1.1838629245758057,
+      "learning_rate": 2.9975389303333047e-05,
+      "loss": 0.3456,
+      "step": 1010
+    },
+    {
+      "epoch": 44.34782608695652,
+      "grad_norm": 2.111812114715576,
+      "learning_rate": 2.997484558901093e-05,
+      "loss": 0.3922,
+      "step": 1020
+    },
+    {
+      "epoch": 44.78260869565217,
+      "grad_norm": 1.6915301084518433,
+      "learning_rate": 2.9974295939138465e-05,
+      "loss": 0.3804,
+      "step": 1030
+    },
+    {
+      "epoch": 45.21739130434783,
+      "grad_norm": 1.2465533018112183,
+      "learning_rate": 2.9973740353933523e-05,
+      "loss": 0.2648,
+      "step": 1040
+    },
+    {
+      "epoch": 45.65217391304348,
+      "grad_norm": 1.68025541305542,
+      "learning_rate": 2.997317883361632e-05,
+      "loss": 0.3611,
+      "step": 1050
+    },
+    {
+      "epoch": 45.65217391304348,
+      "eval_loss": 0.7759392261505127,
+      "eval_runtime": 0.5365,
+      "eval_samples_per_second": 18.64,
+      "eval_steps_per_second": 18.64,
+      "step": 1050
+    },
+    {
+      "Start_State_loss": 0.8601926565170288,
+      "Start_State_runtime": 0.5037,
+      "Start_State_samples_per_second": 19.854,
+      "Start_State_steps_per_second": 19.854,
+      "epoch": 45.65217391304348,
+      "step": 1050
+    },
+    {
+      "Raw_Model_loss": 0.7759392261505127,
+      "Raw_Model_runtime": 0.4675,
+      "Raw_Model_samples_per_second": 21.389,
+      "Raw_Model_steps_per_second": 21.389,
+      "epoch": 45.65217391304348,
+      "step": 1050
+    },
+    {
+      "SWA_loss": 0.7227687835693359,
+      "SWA_runtime": 0.4756,
+      "SWA_samples_per_second": 21.025,
+      "SWA_steps_per_second": 21.025,
+      "epoch": 45.65217391304348,
+      "step": 1050
+    },
+    {
+      "EMA_loss": 0.8605559468269348,
+      "EMA_runtime": 0.4881,
+      "EMA_samples_per_second": 20.489,
+      "EMA_steps_per_second": 20.489,
+      "epoch": 45.65217391304348,
+      "step": 1050
+    },
+    {
+      "epoch": 46.08695652173913,
+      "grad_norm": 1.7922283411026,
+      "learning_rate": 2.997261137840943e-05,
+      "loss": 0.4104,
+      "step": 1060
+    },
+    {
+      "epoch": 46.52173913043478,
+      "grad_norm": 2.145780324935913,
+      "learning_rate": 2.9972037988537758e-05,
+      "loss": 0.3784,
+      "step": 1070
+    },
+    {
+      "epoch": 46.95652173913044,
+      "grad_norm": 1.9540642499923706,
+      "learning_rate": 2.9971458664228595e-05,
+      "loss": 0.3325,
+      "step": 1080
+    },
+    {
+      "epoch": 47.391304347826086,
+      "grad_norm": 2.150164842605591,
+      "learning_rate": 2.997087340571156e-05,
+      "loss": 0.3369,
+      "step": 1090
+    },
+    {
+      "epoch": 47.82608695652174,
+      "grad_norm": 1.539474606513977,
+      "learning_rate": 2.997028221321863e-05,
+      "loss": 0.3564,
+      "step": 1100
+    },
+    {
+      "epoch": 48.26086956521739,
+      "grad_norm": 2.3236191272735596,
+      "learning_rate": 2.9969685086984132e-05,
+      "loss": 0.3736,
+      "step": 1110
+    },
+    {
+      "epoch": 48.69565217391305,
+      "grad_norm": 1.6481757164001465,
+      "learning_rate": 2.9969082027244755e-05,
+      "loss": 0.2999,
+      "step": 1120
+    },
+    {
+      "epoch": 49.130434782608695,
+      "grad_norm": 1.8113096952438354,
+      "learning_rate": 2.996847303423953e-05,
+      "loss": 0.4149,
+      "step": 1130
+    },
+    {
+      "epoch": 49.56521739130435,
+      "grad_norm": 1.3106703758239746,
+      "learning_rate": 2.9967858108209838e-05,
+      "loss": 0.3714,
+      "step": 1140
+    },
+    {
+      "epoch": 50.0,
+      "grad_norm": 2.9416587352752686,
+      "learning_rate": 2.9967237249399417e-05,
+      "loss": 0.292,
+      "step": 1150
+    },
+    {
+      "epoch": 50.43478260869565,
+      "grad_norm": 1.5631065368652344,
+      "learning_rate": 2.996661045805436e-05,
+      "loss": 0.2963,
+      "step": 1160
+    },
+    {
+      "epoch": 50.869565217391305,
+      "grad_norm": 1.8589760065078735,
+      "learning_rate": 2.9965977734423106e-05,
+      "loss": 0.3415,
+      "step": 1170
+    },
+    {
+      "epoch": 51.30434782608695,
+      "grad_norm": 1.9185295104980469,
+      "learning_rate": 2.9965339078756445e-05,
+      "loss": 0.3539,
+      "step": 1180
+    },
+    {
+      "epoch": 51.73913043478261,
+      "grad_norm": 1.1838868856430054,
+      "learning_rate": 2.9964694491307514e-05,
+      "loss": 0.2803,
+      "step": 1190
+    },
+    {
+      "epoch": 52.17391304347826,
+      "grad_norm": 2.4929492473602295,
+      "learning_rate": 2.996404397233182e-05,
+      "loss": 0.4083,
+      "step": 1200
+    },
+    {
+      "epoch": 52.17391304347826,
+      "eval_loss": 0.8023056983947754,
+      "eval_runtime": 0.4133,
+      "eval_samples_per_second": 24.196,
+      "eval_steps_per_second": 24.196,
+      "step": 1200
+    },
+    {
+      "Start_State_loss": 0.8601926565170288,
+      "Start_State_runtime": 0.407,
+      "Start_State_samples_per_second": 24.569,
+      "Start_State_steps_per_second": 24.569,
+      "epoch": 52.17391304347826,
+      "step": 1200
+    },
+    {
+      "Raw_Model_loss": 0.8023056983947754,
+      "Raw_Model_runtime": 0.3981,
+      "Raw_Model_samples_per_second": 25.122,
+      "Raw_Model_steps_per_second": 25.122,
+      "epoch": 52.17391304347826,
+      "step": 1200
+    },
+    {
+      "SWA_loss": 0.7237697243690491,
+      "SWA_runtime": 0.4024,
+      "SWA_samples_per_second": 24.852,
+      "SWA_steps_per_second": 24.852,
+      "epoch": 52.17391304347826,
+      "step": 1200
+    },
+    {
+      "EMA_loss": 0.8598647117614746,
+      "EMA_runtime": 0.4326,
+      "EMA_samples_per_second": 23.115,
+      "EMA_steps_per_second": 23.115,
+      "epoch": 52.17391304347826,
+      "step": 1200
+    },
+    {
+      "epoch": 52.608695652173914,
+      "grad_norm": 1.6113795042037964,
+      "learning_rate": 1.4982021986165911e-06,
+      "loss": 0.2866,
+      "step": 1210
+    },
+    {
+      "epoch": 53.04347826086956,
+      "grad_norm": 1.7770823240280151,
+      "learning_rate": 2.9964043972331822e-06,
+      "loss": 0.365,
+      "step": 1220
+    },
+    {
+      "epoch": 53.47826086956522,
+      "grad_norm": 1.4132719039916992,
+      "learning_rate": 4.494606595849773e-06,
+      "loss": 0.2718,
+      "step": 1230
+    },
+    {
+      "epoch": 53.91304347826087,
+      "grad_norm": 1.9334650039672852,
+      "learning_rate": 5.9928087944663644e-06,
+      "loss": 0.3338,
+      "step": 1240
+    },
+    {
+      "epoch": 54.34782608695652,
+      "grad_norm": 1.9728986024856567,
+      "learning_rate": 7.491010993082955e-06,
+      "loss": 0.3853,
+      "step": 1250
+    },
+    {
+      "epoch": 54.78260869565217,
+      "grad_norm": 1.1599531173706055,
+      "learning_rate": 8.989213191699545e-06,
+      "loss": 0.2838,
+      "step": 1260
+    },
+    {
+      "epoch": 55.21739130434783,
+      "grad_norm": 1.558973789215088,
+      "learning_rate": 1.0487415390316136e-05,
+      "loss": 0.311,
+      "step": 1270
+    },
+    {
+      "epoch": 55.65217391304348,
+      "grad_norm": 1.7310874462127686,
+      "learning_rate": 1.1985617588932729e-05,
+      "loss": 0.3553,
+      "step": 1280
+    },
+    {
+      "epoch": 56.08695652173913,
+      "grad_norm": 2.2715365886688232,
+      "learning_rate": 1.348381978754932e-05,
+      "loss": 0.2844,
+      "step": 1290
+    },
+    {
+      "epoch": 56.52173913043478,
+      "grad_norm": 1.467916488647461,
+      "learning_rate": 1.498202198616591e-05,
+      "loss": 0.3391,
+      "step": 1300
+    },
+    {
+      "epoch": 56.95652173913044,
+      "grad_norm": 1.974404215812683,
+      "learning_rate": 1.4982020501567203e-05,
+      "loss": 0.3314,
+      "step": 1310
+    },
+    {
+      "epoch": 57.391304347826086,
+      "grad_norm": 1.4068485498428345,
+      "learning_rate": 1.4982016047771664e-05,
+      "loss": 0.3113,
+      "step": 1320
+    },
+    {
+      "epoch": 57.82608695652174,
+      "grad_norm": 2.7793936729431152,
+      "learning_rate": 1.4982008624781062e-05,
+      "loss": 0.3372,
+      "step": 1330
+    },
+    {
+      "epoch": 58.26086956521739,
+      "grad_norm": 1.4399445056915283,
+      "learning_rate": 1.4981998232598337e-05,
+      "loss": 0.3301,
+      "step": 1340
+    },
+    {
+      "epoch": 58.69565217391305,
+      "grad_norm": 1.8218740224838257,
+      "learning_rate": 1.4981984871227611e-05,
+      "loss": 0.3077,
+      "step": 1350
+    },
+    {
+      "epoch": 58.69565217391305,
+      "eval_loss": 0.8209422826766968,
+      "eval_runtime": 0.4642,
+      "eval_samples_per_second": 21.544,
+      "eval_steps_per_second": 21.544,
+      "step": 1350
+    },
+    {
+      "Start_State_loss": 0.8601926565170288,
+      "Start_State_runtime": 0.4587,
+      "Start_State_samples_per_second": 21.801,
+      "Start_State_steps_per_second": 21.801,
+      "epoch": 58.69565217391305,
+      "step": 1350
+    },
+    {
+      "Raw_Model_loss": 0.8209422826766968,
+      "Raw_Model_runtime": 0.5144,
+      "Raw_Model_samples_per_second": 19.438,
+      "Raw_Model_steps_per_second": 19.438,
+      "epoch": 58.69565217391305,
+      "step": 1350
+    },
+    {
+      "SWA_loss": 0.7251114249229431,
+      "SWA_runtime": 0.4605,
+      "SWA_samples_per_second": 21.718,
+      "SWA_steps_per_second": 21.718,
+      "epoch": 58.69565217391305,
+      "step": 1350
+    },
+    {
+      "EMA_loss": 0.8608489036560059,
+      "EMA_runtime": 0.4317,
+      "EMA_samples_per_second": 23.166,
+      "EMA_steps_per_second": 23.166,
+      "epoch": 58.69565217391305,
+      "step": 1350
+    },
+    {
+      "epoch": 59.130434782608695,
+      "grad_norm": 1.5807944536209106,
+      "learning_rate": 1.4981968540674177e-05,
+      "loss": 0.3206,
+      "step": 1360
+    },
+    {
+      "epoch": 59.56521739130435,
+      "grad_norm": 1.40355384349823,
+      "learning_rate": 1.4981949240944509e-05,
+      "loss": 0.3012,
+      "step": 1370
+    },
+    {
+      "epoch": 60.0,
+      "grad_norm": 1.6165056228637695,
+      "learning_rate": 1.4981926972046258e-05,
+      "loss": 0.3098,
+      "step": 1380
+    },
+    {
+      "epoch": 60.43478260869565,
+      "grad_norm": 1.9167027473449707,
+      "learning_rate": 1.498190173398825e-05,
+      "loss": 0.3171,
+      "step": 1390
+    },
+    {
+      "epoch": 60.869565217391305,
+      "grad_norm": 1.539297342300415,
+      "learning_rate": 1.4981873526780487e-05,
+      "loss": 0.3049,
+      "step": 1400
+    },
+    {
+      "epoch": 61.30434782608695,
+      "grad_norm": 1.4211211204528809,
+      "learning_rate": 1.4981842350434152e-05,
+      "loss": 0.3045,
+      "step": 1410
+    },
+    {
+      "epoch": 61.73913043478261,
+      "grad_norm": 1.4864341020584106,
+      "learning_rate": 1.49818082049616e-05,
+      "loss": 0.3207,
+      "step": 1420
+    },
+    {
+      "epoch": 62.17391304347826,
+      "grad_norm": 2.1776299476623535,
+      "learning_rate": 1.4981771090376367e-05,
+      "loss": 0.2862,
+      "step": 1430
+    },
+    {
+      "epoch": 62.608695652173914,
+      "grad_norm": 1.8853501081466675,
+      "learning_rate": 1.4981731006693164e-05,
+      "loss": 0.3212,
+      "step": 1440
+    },
+    {
+      "epoch": 63.04347826086956,
+      "grad_norm": 1.3142286539077759,
+      "learning_rate": 1.4981687953927875e-05,
+      "loss": 0.3127,
+      "step": 1450
+    },
+    {
+      "epoch": 63.47826086956522,
+      "grad_norm": 1.9734851121902466,
+      "learning_rate": 1.498164193209757e-05,
+      "loss": 0.3447,
+      "step": 1460
+    },
+    {
+      "epoch": 63.91304347826087,
+      "grad_norm": 1.655447006225586,
+      "learning_rate": 1.498159294122049e-05,
+      "loss": 0.2921,
+      "step": 1470
+    },
+    {
+      "epoch": 64.34782608695652,
+      "grad_norm": 1.7767964601516724,
+      "learning_rate": 1.4981540981316052e-05,
+      "loss": 0.269,
+      "step": 1480
+    },
+    {
+      "epoch": 64.78260869565217,
+      "grad_norm": 1.5196256637573242,
+      "learning_rate": 1.4981486052404848e-05,
+      "loss": 0.3583,
+      "step": 1490
+    },
+    {
+      "epoch": 65.21739130434783,
+      "grad_norm": 1.4027047157287598,
+      "learning_rate": 1.4981428154508652e-05,
+      "loss": 0.2693,
+      "step": 1500
+    },
+    {
+      "epoch": 65.21739130434783,
+      "eval_loss": 0.832839846611023,
+      "eval_runtime": 0.4275,
+      "eval_samples_per_second": 23.391,
+      "eval_steps_per_second": 23.391,
+      "step": 1500
+    },
+    {
+      "Start_State_loss": 0.8601926565170288,
+      "Start_State_runtime": 0.4059,
+      "Start_State_samples_per_second": 24.634,
+      "Start_State_steps_per_second": 24.634,
+      "epoch": 65.21739130434783,
+      "step": 1500
+    },
+    {
+      "Raw_Model_loss": 0.832839846611023,
+      "Raw_Model_runtime": 0.3946,
+      "Raw_Model_samples_per_second": 25.341,
+      "Raw_Model_steps_per_second": 25.341,
+      "epoch": 65.21739130434783,
+      "step": 1500
+    },
+    {
+      "SWA_loss": 0.7298181056976318,
+      "SWA_runtime": 0.3986,
+      "SWA_samples_per_second": 25.087,
+      "SWA_steps_per_second": 25.087,
+      "epoch": 65.21739130434783,
+      "step": 1500
+    },
+    {
+      "EMA_loss": 0.8607869148254395,
+      "EMA_runtime": 0.4036,
+      "EMA_samples_per_second": 24.774,
+      "EMA_steps_per_second": 24.774,
+      "epoch": 65.21739130434783,
+      "step": 1500
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 3.854430872108237e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null