{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.9999398785546805,
  "eval_steps": 500,
  "global_step": 8316,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "auxiliary_loss_clip": 0.02309395,
      "auxiliary_loss_mlp": 0.02290668,
      "balance_loss_clip": 1.9459002,
      "balance_loss_mlp": 1.94028807,
      "epoch": 0.00012024289063909097,
      "flos": 24934754787840.0,
      "grad_norm": 40.224866492612186,
      "language_loss": 2.58038282,
      "learning_rate": 0.0,
      "loss": 1.88439643,
      "num_input_tokens_seen": 20375,
      "step": 1,
      "time_per_iteration": 14.052396774291992
    },
    {
      "auxiliary_loss_clip": 0.01544498,
      "auxiliary_loss_mlp": 0.01469487,
      "balance_loss_clip": 1.30071759,
      "balance_loss_mlp": 1.24003255,
      "epoch": 0.00024048578127818193,
      "flos": 30667258264320.0,
      "grad_norm": 54.843180308996516,
      "language_loss": 1.88820755,
      "learning_rate": 5.021476677069823e-07,
      "loss": 1.91834736,
      "num_input_tokens_seen": 39035,
      "step": 2,
      "time_per_iteration": 2.5715739727020264
    },
    {
      "auxiliary_loss_clip": 0.01542337,
      "auxiliary_loss_mlp": 0.0148859,
      "balance_loss_clip": 1.30008626,
      "balance_loss_mlp": 1.2591362,
      "epoch": 0.0003607286719172729,
      "flos": 19028244476160.0,
      "grad_norm": 40.766288060891334,
      "language_loss": 1.61563945,
      "learning_rate": 7.958852231401551e-07,
      "loss": 1.64594865,
      "num_input_tokens_seen": 57600,
      "step": 3,
      "time_per_iteration": 2.449897050857544
    },
    {
      "auxiliary_loss_clip": 0.01540001,
      "auxiliary_loss_mlp": 0.01557807,
      "balance_loss_clip": 1.29652929,
      "balance_loss_mlp": 1.32396603,
      "epoch": 0.00048097156255636386,
      "flos": 19318246525440.0,
      "grad_norm": 36.80217774829083,
      "language_loss": 1.64305234,
      "learning_rate": 1.0042953354139647e-06,
      "loss": 1.6740303,
      "num_input_tokens_seen": 76465,
      "step": 4,
      "time_per_iteration": 2.4846746921539307
    },
    {
      "auxiliary_loss_clip": 0.01542485,
      "auxiliary_loss_mlp": 0.01497336,
      "balance_loss_clip": 1.29965854,
      "balance_loss_mlp": 1.26597488,
      "epoch": 0.0006012144531954548,
      "flos": 13993004782080.0,
      "grad_norm": 55.29122827585855,
      "language_loss": 1.93830979,
      "learning_rate": 1.1659507774310057e-06,
      "loss": 1.96870792,
      "num_input_tokens_seen": 94350,
      "step": 5,
      "time_per_iteration": 2.6569032669067383
    },
    {
      "auxiliary_loss_clip": 0.01542662,
      "auxiliary_loss_mlp": 0.01502362,
      "balance_loss_clip": 1.29999232,
      "balance_loss_mlp": 1.27443337,
      "epoch": 0.0007214573438345458,
      "flos": 23151227230080.0,
      "grad_norm": 45.19915548235882,
      "language_loss": 1.61304092,
      "learning_rate": 1.2980328908471373e-06,
      "loss": 1.64349103,
      "num_input_tokens_seen": 114595,
      "step": 6,
      "time_per_iteration": 2.693020820617676
    },
    {
      "auxiliary_loss_clip": 0.01657794,
      "auxiliary_loss_mlp": 0.01466277,
      "balance_loss_clip": 1.41872573,
      "balance_loss_mlp": 1.28851211,
      "epoch": 0.0008417002344736367,
      "flos": 67670091469440.0,
      "grad_norm": 4.577703496520387,
      "language_loss": 0.81475282,
      "learning_rate": 1.4097067265369432e-06,
      "loss": 0.84599352,
      "num_input_tokens_seen": 179590,
      "step": 7,
      "time_per_iteration": 3.180110454559326
    },
    {
      "auxiliary_loss_clip": 0.01540137,
      "auxiliary_loss_mlp": 0.01535437,
      "balance_loss_clip": 1.2969662,
      "balance_loss_mlp": 1.30808103,
      "epoch": 0.0009619431251127277,
      "flos": 21283135424640.0,
      "grad_norm": 40.63890771478753,
      "language_loss": 1.58453953,
      "learning_rate": 1.506443003120947e-06,
      "loss": 1.61529529,
      "num_input_tokens_seen": 195090,
      "step": 8,
      "time_per_iteration": 2.684267044067383
    },
    {
      "auxiliary_loss_clip": 0.01543679,
      "auxiliary_loss_mlp": 0.01524123,
      "balance_loss_clip": 1.30153608,
      "balance_loss_mlp": 1.29314327,
      "epoch": 0.0010821860157518186,
      "flos": 23333587614720.0,
      "grad_norm": 17.609749843177017,
      "language_loss": 1.47833633,
      "learning_rate": 1.5917704462803102e-06,
      "loss": 1.50901425,
      "num_input_tokens_seen": 211635,
      "step": 9,
      "time_per_iteration": 2.738215208053589
    },
    {
      "auxiliary_loss_clip": 0.01543233,
      "auxiliary_loss_mlp": 0.0148996,
      "balance_loss_clip": 1.30138803,
      "balance_loss_mlp": 1.25917089,
      "epoch": 0.0012024289063909096,
      "flos": 17011549428480.0,
      "grad_norm": 14.914471587307494,
      "language_loss": 1.5311718,
      "learning_rate": 1.6680984451379884e-06,
      "loss": 1.56150377,
      "num_input_tokens_seen": 224705,
      "step": 10,
      "time_per_iteration": 2.6762514114379883
    },
    {
      "auxiliary_loss_clip": 0.01543271,
      "auxiliary_loss_mlp": 0.01507562,
      "balance_loss_clip": 1.30089641,
      "balance_loss_mlp": 1.28516483,
      "epoch": 0.0013226717970300007,
      "flos": 21290264023680.0,
      "grad_norm": 14.523851925488321,
      "language_loss": 1.32554495,
      "learning_rate": 1.7371455188905097e-06,
      "loss": 1.35605311,
      "num_input_tokens_seen": 244635,
      "step": 11,
      "time_per_iteration": 2.702483654022217
    },
    {
      "auxiliary_loss_clip": 0.01542973,
      "auxiliary_loss_mlp": 0.0151459,
      "balance_loss_clip": 1.30010724,
      "balance_loss_mlp": 1.2822752,
      "epoch": 0.0014429146876690916,
      "flos": 27240490759680.0,
      "grad_norm": 11.653688625169952,
      "language_loss": 1.25381088,
      "learning_rate": 1.8001805585541196e-06,
      "loss": 1.28438652,
      "num_input_tokens_seen": 265765,
      "step": 12,
      "time_per_iteration": 2.7518303394317627
    },
    {
      "auxiliary_loss_clip": 0.01540886,
      "auxiliary_loss_mlp": 0.01484528,
      "balance_loss_clip": 1.29792511,
      "balance_loss_mlp": 1.26308489,
      "epoch": 0.0015631575783081825,
      "flos": 19064162949120.0,
      "grad_norm": 6.598778700634159,
      "language_loss": 1.29166412,
      "learning_rate": 1.8581671739548328e-06,
      "loss": 1.32191825,
      "num_input_tokens_seen": 283500,
      "step": 13,
      "time_per_iteration": 2.7243447303771973
    },
    {
      "auxiliary_loss_clip": 0.01539202,
      "auxiliary_loss_mlp": 0.01468073,
      "balance_loss_clip": 1.29577625,
      "balance_loss_mlp": 1.24281561,
      "epoch": 0.0016834004689472734,
      "flos": 48142979821440.0,
      "grad_norm": 8.711033107512618,
      "language_loss": 1.13598871,
      "learning_rate": 1.9118543942439254e-06,
      "loss": 1.1660614,
      "num_input_tokens_seen": 305685,
      "step": 14,
      "time_per_iteration": 4.616049289703369
    },
    {
      "auxiliary_loss_clip": 0.01538676,
      "auxiliary_loss_mlp": 0.01507731,
      "balance_loss_clip": 1.29668093,
      "balance_loss_mlp": 1.28209186,
      "epoch": 0.0018036433595863645,
      "flos": 34972904747520.0,
      "grad_norm": 5.738362941650559,
      "language_loss": 1.12840223,
      "learning_rate": 1.961836000571161e-06,
      "loss": 1.15886617,
      "num_input_tokens_seen": 327340,
      "step": 15,
      "time_per_iteration": 2.7920968532562256
    },
    {
      "auxiliary_loss_clip": 0.01649387,
      "auxiliary_loss_mlp": 0.01379289,
      "balance_loss_clip": 1.41074216,
      "balance_loss_mlp": 1.20762813,
      "epoch": 0.0019238862502254555,
      "flos": 59773907007360.0,
      "grad_norm": 3.7764885484301236,
      "language_loss": 0.64675063,
      "learning_rate": 2.0085906708279293e-06,
      "loss": 0.67703736,
      "num_input_tokens_seen": 382710,
      "step": 16,
      "time_per_iteration": 3.182215929031372
    },
    {
      "auxiliary_loss_clip": 0.01539715,
      "auxiliary_loss_mlp": 0.0147742,
      "balance_loss_clip": 1.29701018,
      "balance_loss_mlp": 1.25139916,
      "epoch": 0.0020441291408645466,
      "flos": 20816688211200.0,
      "grad_norm": 4.537232820092353,
      "language_loss": 1.16248691,
      "learning_rate": 2.0525099325728135e-06,
      "loss": 1.19265819,
      "num_input_tokens_seen": 400890,
      "step": 17,
      "time_per_iteration": 2.7067813873291016
    },
    {
      "auxiliary_loss_clip": 0.01647136,
      "auxiliary_loss_mlp": 0.01357894,
      "balance_loss_clip": 1.40875959,
      "balance_loss_mlp": 1.18852139,
      "epoch": 0.0021643720315036373,
      "flos": 63862980946560.0,
      "grad_norm": 3.517443521893304,
      "language_loss": 0.72162509,
      "learning_rate": 2.0939181139872922e-06,
      "loss": 0.75167543,
      "num_input_tokens_seen": 462605,
      "step": 18,
      "time_per_iteration": 3.1841530799865723
    },
    {
      "auxiliary_loss_clip": 0.01536003,
      "auxiliary_loss_mlp": 0.01458957,
      "balance_loss_clip": 1.29366899,
      "balance_loss_mlp": 1.23408055,
      "epoch": 0.0022846149221427284,
      "flos": 31287655169280.0,
      "grad_norm": 5.95675257221173,
      "language_loss": 1.01669025,
      "learning_rate": 2.1330868934640175e-06,
      "loss": 1.04663992,
      "num_input_tokens_seen": 483280,
      "step": 19,
      "time_per_iteration": 2.8643288612365723
    },
    {
      "auxiliary_loss_clip": 0.01643769,
      "auxiliary_loss_mlp": 0.01346252,
      "balance_loss_clip": 1.40553427,
      "balance_loss_mlp": 1.17840528,
      "epoch": 0.002404857812781819,
      "flos": 51088729518720.0,
      "grad_norm": 3.560182004708671,
      "language_loss": 0.76466286,
      "learning_rate": 2.170246112844971e-06,
      "loss": 0.79456306,
      "num_input_tokens_seen": 537620,
      "step": 20,
      "time_per_iteration": 2.956664562225342
    },
    {
      "auxiliary_loss_clip": 0.01534002,
      "auxiliary_loss_mlp": 0.01415242,
      "balance_loss_clip": 1.29188752,
      "balance_loss_mlp": 1.1922729,
      "epoch": 0.0025251007034209102,
      "flos": 15817177399680.0,
      "grad_norm": 4.071481352745039,
      "language_loss": 1.01642346,
      "learning_rate": 2.2055919496770983e-06,
      "loss": 1.04591584,
      "num_input_tokens_seen": 555760,
      "step": 21,
      "time_per_iteration": 2.7175166606903076
    },
    {
      "auxiliary_loss_clip": 0.01533189,
      "auxiliary_loss_mlp": 0.01393833,
      "balance_loss_clip": 1.29095781,
      "balance_loss_mlp": 1.17372465,
      "epoch": 0.0026453435940600014,
      "flos": 37854866183040.0,
      "grad_norm": 4.767283552404944,
      "language_loss": 0.89503497,
      "learning_rate": 2.2392931865974923e-06,
      "loss": 0.9243052,
      "num_input_tokens_seen": 578450,
      "step": 22,
      "time_per_iteration": 2.860809803009033
    },
    {
      "auxiliary_loss_clip": 0.0152925,
      "auxiliary_loss_mlp": 0.01389996,
      "balance_loss_clip": 1.28688812,
      "balance_loss_mlp": 1.16702676,
      "epoch": 0.002765586484699092,
      "flos": 21144087538560.0,
      "grad_norm": 6.435208753075278,
      "language_loss": 1.0193522,
      "learning_rate": 2.271496085962064e-06,
      "loss": 1.04854465,
      "num_input_tokens_seen": 596145,
      "step": 23,
      "time_per_iteration": 2.668765068054199
    },
    {
      "auxiliary_loss_clip": 0.01521995,
      "auxiliary_loss_mlp": 0.01395274,
      "balance_loss_clip": 1.27993107,
      "balance_loss_mlp": 1.17325902,
      "epoch": 0.002885829375338183,
      "flos": 20669450019840.0,
      "grad_norm": 3.144481925718023,
      "language_loss": 1.02790427,
      "learning_rate": 2.3023282262611022e-06,
      "loss": 1.05707693,
      "num_input_tokens_seen": 614920,
      "step": 24,
      "time_per_iteration": 2.7136223316192627
    },
    {
      "auxiliary_loss_clip": 0.01527607,
      "auxiliary_loss_mlp": 0.0137256,
      "balance_loss_clip": 1.28550398,
      "balance_loss_mlp": 1.15302455,
      "epoch": 0.003006072265977274,
      "flos": 34826728262400.0,
      "grad_norm": 3.9626788368399057,
      "language_loss": 0.92522383,
      "learning_rate": 2.3319015548620114e-06,
      "loss": 0.95422554,
      "num_input_tokens_seen": 636060,
      "step": 25,
      "time_per_iteration": 2.811429500579834
    },
    {
      "auxiliary_loss_clip": 0.01520535,
      "auxiliary_loss_mlp": 0.01361776,
      "balance_loss_clip": 1.27913392,
      "balance_loss_mlp": 1.1483438,
      "epoch": 0.003126315156616365,
      "flos": 24424109786880.0,
      "grad_norm": 2.5693186893267286,
      "language_loss": 0.92933369,
      "learning_rate": 2.3603148416618152e-06,
      "loss": 0.95815676,
      "num_input_tokens_seen": 655575,
      "step": 26,
      "time_per_iteration": 2.7478318214416504
    },
    {
      "auxiliary_loss_clip": 0.01525806,
      "auxiliary_loss_mlp": 0.01354713,
      "balance_loss_clip": 1.28345251,
      "balance_loss_mlp": 1.13899159,
      "epoch": 0.003246558047255456,
      "flos": 23624537616000.0,
      "grad_norm": 2.4701820986226686,
      "language_loss": 1.01017344,
      "learning_rate": 2.3876556694204647e-06,
      "loss": 1.0389787,
      "num_input_tokens_seen": 675730,
      "step": 27,
      "time_per_iteration": 2.7207396030426025
    },
    {
      "auxiliary_loss_clip": 0.01520501,
      "auxiliary_loss_mlp": 0.01342688,
      "balance_loss_clip": 1.27971971,
      "balance_loss_mlp": 1.12334311,
      "epoch": 0.003366800937894547,
      "flos": 17822117842560.0,
      "grad_norm": 3.5179383944282514,
      "language_loss": 0.90747142,
      "learning_rate": 2.414002061950908e-06,
      "loss": 0.93610328,
      "num_input_tokens_seen": 694605,
      "step": 28,
      "time_per_iteration": 2.6983425617218018
    },
    {
      "auxiliary_loss_clip": 0.01518555,
      "auxiliary_loss_mlp": 0.01330786,
      "balance_loss_clip": 1.27602541,
      "balance_loss_mlp": 1.11983287,
      "epoch": 0.003487043828533638,
      "flos": 24428432448000.0,
      "grad_norm": 2.3764114631240996,
      "language_loss": 1.00039458,
      "learning_rate": 2.4394238264681557e-06,
      "loss": 1.02888787,
      "num_input_tokens_seen": 714340,
      "step": 29,
      "time_per_iteration": 2.747986078262329
    },
    {
      "auxiliary_loss_clip": 0.0151675,
      "auxiliary_loss_mlp": 0.01339014,
      "balance_loss_clip": 1.27511024,
      "balance_loss_mlp": 1.12367463,
      "epoch": 0.003607286719172729,
      "flos": 26142688316160.0,
      "grad_norm": 2.4149884229849756,
      "language_loss": 0.99545127,
      "learning_rate": 2.4639836682781433e-06,
      "loss": 1.02400887,
      "num_input_tokens_seen": 734470,
      "step": 30,
      "time_per_iteration": 2.813955783843994
    },
    {
      "auxiliary_loss_clip": 0.01525519,
      "auxiliary_loss_mlp": 0.01324091,
      "balance_loss_clip": 1.28344321,
      "balance_loss_mlp": 1.10569954,
      "epoch": 0.00372752960981182,
      "flos": 20595072562560.0,
      "grad_norm": 2.5477338954820477,
      "language_loss": 1.00354528,
      "learning_rate": 2.487738122623307e-06,
      "loss": 1.03204131,
      "num_input_tokens_seen": 753380,
      "step": 31,
      "time_per_iteration": 2.6937618255615234
    },
    {
      "auxiliary_loss_clip": 0.01516402,
      "auxiliary_loss_mlp": 0.01297289,
      "balance_loss_clip": 1.27511024,
      "balance_loss_mlp": 1.0832845,
      "epoch": 0.003847772500450911,
      "flos": 22676817219840.0,
      "grad_norm": 2.46523734060152,
      "language_loss": 0.98979247,
      "learning_rate": 2.510738338534912e-06,
      "loss": 1.01792932,
      "num_input_tokens_seen": 772105,
      "step": 32,
      "time_per_iteration": 2.751391649246216
    },
    {
      "auxiliary_loss_clip": 0.01499528,
      "auxiliary_loss_mlp": 0.01277514,
      "balance_loss_clip": 1.25826216,
      "balance_loss_mlp": 1.06427264,
      "epoch": 0.003968015391090002,
      "flos": 17969735214720.0,
      "grad_norm": 2.3424542777069957,
      "language_loss": 1.02558172,
      "learning_rate": 2.5330307420306648e-06,
      "loss": 1.05335212,
      "num_input_tokens_seen": 788955,
      "step": 33,
      "time_per_iteration": 2.734961748123169
    },
    {
      "auxiliary_loss_clip": 0.01499802,
      "auxiliary_loss_mlp": 0.01273835,
      "balance_loss_clip": 1.25924313,
      "balance_loss_mlp": 1.07299137,
      "epoch": 0.004088258281729093,
      "flos": 27306336648960.0,
      "grad_norm": 2.2650924845313263,
      "language_loss": 0.88233864,
      "learning_rate": 2.554657600279796e-06,
      "loss": 0.91007501,
      "num_input_tokens_seen": 810230,
      "step": 34,
      "time_per_iteration": 2.7427704334259033
    },
    {
      "auxiliary_loss_clip": 0.01497644,
      "auxiliary_loss_mlp": 0.01254891,
      "balance_loss_clip": 1.25687838,
      "balance_loss_mlp": 1.05099547,
      "epoch": 0.004208501172368184,
      "flos": 23260840634880.0,
      "grad_norm": 2.3472074808115195,
      "language_loss": 1.03239036,
      "learning_rate": 2.5756575039679493e-06,
      "loss": 1.05991578,
      "num_input_tokens_seen": 829780,
      "step": 35,
      "time_per_iteration": 2.730135202407837
    },
    {
      "auxiliary_loss_clip": 0.01489169,
      "auxiliary_loss_mlp": 0.01275324,
      "balance_loss_clip": 1.24921966,
      "balance_loss_mlp": 1.06799543,
      "epoch": 0.0043287440630072746,
      "flos": 17314064444160.0,
      "grad_norm": 1.8651449486240783,
      "language_loss": 0.9495489,
      "learning_rate": 2.5960657816942747e-06,
      "loss": 0.97719383,
      "num_input_tokens_seen": 848695,
      "step": 36,
      "time_per_iteration": 2.7123303413391113
    },
    {
      "auxiliary_loss_clip": 0.01582925,
      "auxiliary_loss_mlp": 0.01347398,
      "balance_loss_clip": 1.34798193,
      "balance_loss_mlp": 1.20472801,
      "epoch": 0.004448986953646365,
      "flos": 53097803032320.0,
      "grad_norm": 1.362125348687724,
      "language_loss": 0.60928297,
      "learning_rate": 2.6159148575788668e-06,
      "loss": 0.63858622,
      "num_input_tokens_seen": 906730,
      "step": 37,
      "time_per_iteration": 3.2338643074035645
    },
    {
      "auxiliary_loss_clip": 0.01489761,
      "auxiliary_loss_mlp": 0.01260524,
      "balance_loss_clip": 1.25024772,
      "balance_loss_mlp": 1.05767703,
      "epoch": 0.004569229844285457,
      "flos": 13445885710080.0,
      "grad_norm": 2.4361419143976053,
      "language_loss": 0.98624718,
      "learning_rate": 2.635234561171e-06,
      "loss": 1.01375008,
      "num_input_tokens_seen": 925125,
      "step": 38,
      "time_per_iteration": 2.701822519302368
    },
    {
      "auxiliary_loss_clip": 0.01484011,
      "auxiliary_loss_mlp": 0.01255735,
      "balance_loss_clip": 1.24421263,
      "balance_loss_mlp": 1.05708468,
      "epoch": 0.0046894727349245475,
      "flos": 16211067223680.0,
      "grad_norm": 2.2265820894812687,
      "language_loss": 0.94047129,
      "learning_rate": 2.6540523970949877e-06,
      "loss": 0.96786875,
      "num_input_tokens_seen": 939970,
      "step": 39,
      "time_per_iteration": 2.6965837478637695
    },
    {
      "auxiliary_loss_clip": 0.01487295,
      "auxiliary_loss_mlp": 0.01245435,
      "balance_loss_clip": 1.24776506,
      "balance_loss_mlp": 1.04668927,
      "epoch": 0.004809715625563638,
      "flos": 23916473487360.0,
      "grad_norm": 3.307957063793088,
      "language_loss": 0.92454767,
      "learning_rate": 2.6723937805519533e-06,
      "loss": 0.95187497,
      "num_input_tokens_seen": 957470,
      "step": 40,
      "time_per_iteration": 4.06853461265564
    },
    {
      "auxiliary_loss_clip": 0.01484501,
      "auxiliary_loss_mlp": 0.01233957,
      "balance_loss_clip": 1.24429905,
      "balance_loss_mlp": 1.03549731,
      "epoch": 0.00492995851620273,
      "flos": 20774892435840.0,
      "grad_norm": 2.108823464301635,
      "language_loss": 0.92925698,
      "learning_rate": 2.690282243737839e-06,
      "loss": 0.95644146,
      "num_input_tokens_seen": 976405,
      "step": 41,
      "time_per_iteration": 3.4826884269714355
    },
    {
      "auxiliary_loss_clip": 0.01478739,
      "auxiliary_loss_mlp": 0.01251996,
      "balance_loss_clip": 1.23964775,
      "balance_loss_mlp": 1.05410862,
      "epoch": 0.0050502014068418205,
      "flos": 20340685641600.0,
      "grad_norm": 5.152027161485321,
      "language_loss": 0.99254704,
      "learning_rate": 2.7077396173840807e-06,
      "loss": 1.01985431,
      "num_input_tokens_seen": 994690,
      "step": 42,
      "time_per_iteration": 2.7155706882476807
    },
    {
      "auxiliary_loss_clip": 0.01474685,
      "auxiliary_loss_mlp": 0.01247516,
      "balance_loss_clip": 1.23544347,
      "balance_loss_mlp": 1.05649471,
      "epoch": 0.005170444297480911,
      "flos": 25997270192640.0,
      "grad_norm": 2.320728864557993,
      "language_loss": 0.92634428,
      "learning_rate": 2.7247861909342594e-06,
      "loss": 0.95356631,
      "num_input_tokens_seen": 1015615,
      "step": 43,
      "time_per_iteration": 2.8171637058258057
    },
    {
      "auxiliary_loss_clip": 0.0147673,
      "auxiliary_loss_mlp": 0.01232702,
      "balance_loss_clip": 1.23780608,
      "balance_loss_mlp": 1.04387474,
      "epoch": 0.005290687188120003,
      "flos": 20955849851520.0,
      "grad_norm": 2.6577069930466575,
      "language_loss": 0.82780927,
      "learning_rate": 2.7414408543044743e-06,
      "loss": 0.85490358,
      "num_input_tokens_seen": 1031255,
      "step": 44,
      "time_per_iteration": 2.6937501430511475
    },
    {
      "auxiliary_loss_clip": 0.01471855,
      "auxiliary_loss_mlp": 0.01244129,
      "balance_loss_clip": 1.23312235,
      "balance_loss_mlp": 1.05377579,
      "epoch": 0.005410930078759093,
      "flos": 15853209626880.0,
      "grad_norm": 4.3644624928414215,
      "language_loss": 0.79191434,
      "learning_rate": 2.7577212237113157e-06,
      "loss": 0.81907415,
      "num_input_tokens_seen": 1048295,
      "step": 45,
      "time_per_iteration": 2.7272520065307617
    },
    {
      "auxiliary_loss_clip": 0.01468869,
      "auxiliary_loss_mlp": 0.01235705,
      "balance_loss_clip": 1.22989583,
      "balance_loss_mlp": 1.04544711,
      "epoch": 0.005531172969398184,
      "flos": 21107069441280.0,
      "grad_norm": 1.8650547562529423,
      "language_loss": 1.04132628,
      "learning_rate": 2.7736437536690466e-06,
      "loss": 1.06837201,
      "num_input_tokens_seen": 1067925,
      "step": 46,
      "time_per_iteration": 2.7371044158935547
    },
    {
      "auxiliary_loss_clip": 0.01468706,
      "auxiliary_loss_mlp": 0.01227364,
      "balance_loss_clip": 1.22934651,
      "balance_loss_mlp": 1.03920412,
      "epoch": 0.005651415860037276,
      "flos": 20846691463680.0,
      "grad_norm": 2.54996333646245,
      "language_loss": 1.07898366,
      "learning_rate": 2.789223836941131e-06,
      "loss": 1.1059444,
      "num_input_tokens_seen": 1088060,
      "step": 47,
      "time_per_iteration": 2.7527353763580322
    },
    {
      "auxiliary_loss_clip": 0.0146469,
      "auxiliary_loss_mlp": 0.01220357,
      "balance_loss_clip": 1.22669744,
      "balance_loss_mlp": 1.03620291,
      "epoch": 0.005771658750676366,
      "flos": 13261819011840.0,
      "grad_norm": 2.2815533084230455,
      "language_loss": 1.08804739,
      "learning_rate": 2.8044758939680847e-06,
      "loss": 1.11489785,
      "num_input_tokens_seen": 1104130,
      "step": 48,
      "time_per_iteration": 2.6529102325439453
    },
    {
      "auxiliary_loss_clip": 0.01466895,
      "auxiliary_loss_mlp": 0.01222842,
      "balance_loss_clip": 1.22922158,
      "balance_loss_mlp": 1.0378294,
      "epoch": 0.005891901641315457,
      "flos": 24427674086400.0,
      "grad_norm": 3.2577755557053343,
      "language_loss": 1.02091002,
      "learning_rate": 2.8194134530738863e-06,
      "loss": 1.04780746,
      "num_input_tokens_seen": 1122900,
      "step": 49,
      "time_per_iteration": 2.750990629196167
    },
    {
      "auxiliary_loss_clip": 0.01467789,
      "auxiliary_loss_mlp": 0.01227856,
      "balance_loss_clip": 1.22995317,
      "balance_loss_mlp": 1.04494143,
      "epoch": 0.006012144531954548,
      "flos": 23078442332160.0,
      "grad_norm": 5.523431637173003,
      "language_loss": 0.90159249,
      "learning_rate": 2.834049222568994e-06,
      "loss": 0.92854899,
      "num_input_tokens_seen": 1140250,
      "step": 50,
      "time_per_iteration": 2.6918067932128906
    },
    {
      "auxiliary_loss_clip": 0.0146243,
      "auxiliary_loss_mlp": 0.0121983,
      "balance_loss_clip": 1.22433281,
      "balance_loss_mlp": 1.03949034,
      "epoch": 0.006132387422593639,
      "flos": 22530981997440.0,
      "grad_norm": 2.007578906306136,
      "language_loss": 0.92460835,
      "learning_rate": 2.848395155712969e-06,
      "loss": 0.95143092,
      "num_input_tokens_seen": 1160470,
      "step": 51,
      "time_per_iteration": 2.711996078491211
    },
    {
      "auxiliary_loss_clip": 0.01466516,
      "auxiliary_loss_mlp": 0.01234755,
      "balance_loss_clip": 1.22919106,
      "balance_loss_mlp": 1.04993343,
      "epoch": 0.00625263031323273,
      "flos": 27630361267200.0,
      "grad_norm": 2.4731041906733333,
      "language_loss": 0.97607005,
      "learning_rate": 2.8624625093687977e-06,
      "loss": 1.00308275,
      "num_input_tokens_seen": 1177605,
      "step": 52,
      "time_per_iteration": 2.7250545024871826
    },
    {
      "auxiliary_loss_clip": 0.01460593,
      "auxiliary_loss_mlp": 0.01214145,
      "balance_loss_clip": 1.22311699,
      "balance_loss_mlp": 1.03723884,
      "epoch": 0.006372873203871821,
      "flos": 23112806163840.0,
      "grad_norm": 2.766082512233815,
      "language_loss": 0.88835204,
      "learning_rate": 2.876261897070029e-06,
      "loss": 0.91509944,
      "num_input_tokens_seen": 1197735,
      "step": 53,
      "time_per_iteration": 2.742830753326416
    },
    {
      "auxiliary_loss_clip": 0.0146219,
      "auxiliary_loss_mlp": 0.01226921,
      "balance_loss_clip": 1.2251488,
      "balance_loss_mlp": 1.04991901,
      "epoch": 0.006493116094510912,
      "flos": 22858191734400.0,
      "grad_norm": 6.7940093466852876,
      "language_loss": 0.92442679,
      "learning_rate": 2.889803337127447e-06,
      "loss": 0.95131791,
      "num_input_tokens_seen": 1216335,
      "step": 54,
      "time_per_iteration": 2.7326431274414062
    },
    {
      "auxiliary_loss_clip": 0.01459852,
      "auxiliary_loss_mlp": 0.01227541,
      "balance_loss_clip": 1.22313249,
      "balance_loss_mlp": 1.04825068,
      "epoch": 0.006613358985150003,
      "flos": 23073702572160.0,
      "grad_norm": 2.7954137299691064,
      "language_loss": 0.84697938,
      "learning_rate": 2.903096296321516e-06,
      "loss": 0.87385333,
      "num_input_tokens_seen": 1234480,
      "step": 55,
      "time_per_iteration": 2.683547258377075
    },
    {
      "auxiliary_loss_clip": 0.014603,
      "auxiliary_loss_mlp": 0.01211279,
      "balance_loss_clip": 1.22286141,
      "balance_loss_mlp": 1.03923666,
      "epoch": 0.006733601875789094,
      "flos": 26539839095040.0,
      "grad_norm": 2.0276246247946546,
      "language_loss": 0.91530621,
      "learning_rate": 2.9161497296578907e-06,
      "loss": 0.94202197,
      "num_input_tokens_seen": 1253870,
      "step": 56,
      "time_per_iteration": 2.770209550857544
    },
    {
      "auxiliary_loss_clip": 0.01458752,
      "auxiliary_loss_mlp": 0.01213877,
      "balance_loss_clip": 1.2216332,
      "balance_loss_mlp": 1.04355049,
      "epoch": 0.006853844766428185,
      "flos": 15524976101760.0,
      "grad_norm": 2.765942347470019,
      "language_loss": 0.86125833,
      "learning_rate": 2.928972116604173e-06,
      "loss": 0.88798463,
      "num_input_tokens_seen": 1270145,
      "step": 57,
      "time_per_iteration": 2.6739771366119385
    },
    {
      "auxiliary_loss_clip": 0.01457385,
      "auxiliary_loss_mlp": 0.01199921,
      "balance_loss_clip": 1.22062445,
      "balance_loss_mlp": 1.03188372,
      "epoch": 0.006974087657067276,
      "flos": 24246072063360.0,
      "grad_norm": 2.851871742153143,
      "language_loss": 1.01977682,
      "learning_rate": 2.9415714941751377e-06,
      "loss": 1.04634988,
      "num_input_tokens_seen": 1291365,
      "step": 58,
      "time_per_iteration": 2.73681902885437
    },
    {
      "auxiliary_loss_clip": 0.01457258,
      "auxiliary_loss_mlp": 0.01207591,
      "balance_loss_clip": 1.22019601,
      "balance_loss_mlp": 1.03831387,
      "epoch": 0.007094330547706367,
      "flos": 25774706592000.0,
      "grad_norm": 2.53891362834293,
      "language_loss": 0.93497747,
      "learning_rate": 2.9539554871897396e-06,
      "loss": 0.96162605,
      "num_input_tokens_seen": 1311535,
      "step": 59,
      "time_per_iteration": 2.6957459449768066
    },
    {
      "auxiliary_loss_clip": 0.01456344,
      "auxiliary_loss_mlp": 0.01204937,
      "balance_loss_clip": 1.21957839,
      "balance_loss_mlp": 1.04004645,
      "epoch": 0.007214573438345458,
      "flos": 21320836047360.0,
      "grad_norm": 2.0190115117559624,
      "language_loss": 0.97379637,
      "learning_rate": 2.9661313359851253e-06,
      "loss": 1.00040925,
      "num_input_tokens_seen": 1329420,
      "step": 60,
      "time_per_iteration": 2.7422568798065186
    },
    {
      "auxiliary_loss_clip": 0.01453471,
      "auxiliary_loss_mlp": 0.01196829,
      "balance_loss_clip": 1.21816611,
      "balance_loss_mlp": 1.03479946,
      "epoch": 0.007334816328984549,
      "flos": 24939443456640.0,
      "grad_norm": 1.9402085746274003,
      "language_loss": 0.93944275,
      "learning_rate": 2.978105921839922e-06,
      "loss": 0.96594572,
      "num_input_tokens_seen": 1349965,
      "step": 61,
      "time_per_iteration": 2.683331251144409
    },
    {
      "auxiliary_loss_clip": 0.01453946,
      "auxiliary_loss_mlp": 0.01208827,
      "balance_loss_clip": 1.21884465,
      "balance_loss_mlp": 1.04565334,
      "epoch": 0.00745505921962364,
      "flos": 18512304117120.0,
      "grad_norm": 2.265668066406516,
      "language_loss": 0.72129029,
      "learning_rate": 2.9898857903302893e-06,
      "loss": 0.74791801,
      "num_input_tokens_seen": 1368915,
      "step": 62,
      "time_per_iteration": 2.7585864067077637
    },
    {
      "auxiliary_loss_clip": 0.01454371,
      "auxiliary_loss_mlp": 0.0121489,
      "balance_loss_clip": 1.21798658,
      "balance_loss_mlp": 1.04885578,
      "epoch": 0.007575302110262731,
      "flos": 18479570762880.0,
      "grad_norm": 6.368601900876662,
      "language_loss": 0.87889731,
      "learning_rate": 3.001477172817253e-06,
      "loss": 0.90558994,
      "num_input_tokens_seen": 1386805,
      "step": 63,
      "time_per_iteration": 2.633906126022339
    },
    {
      "auxiliary_loss_clip": 0.01448506,
      "auxiliary_loss_mlp": 0.01204082,
      "balance_loss_clip": 1.21306205,
      "balance_loss_mlp": 1.04615355,
      "epoch": 0.007695545000901822,
      "flos": 24975513601920.0,
      "grad_norm": 2.853011794278437,
      "language_loss": 0.96311027,
      "learning_rate": 3.012886006241894e-06,
      "loss": 0.98963618,
      "num_input_tokens_seen": 1406190,
      "step": 64,
      "time_per_iteration": 2.747241735458374
    },
    {
      "auxiliary_loss_clip": 0.01449568,
      "auxiliary_loss_mlp": 0.01205827,
      "balance_loss_clip": 1.2134794,
      "balance_loss_mlp": 1.0434165,
      "epoch": 0.007815787891540913,
      "flos": 21326334168960.0,
      "grad_norm": 2.1482810390616676,
      "language_loss": 0.88087893,
      "learning_rate": 3.0241179513858383e-06,
      "loss": 0.90743291,
      "num_input_tokens_seen": 1425500,
      "step": 65,
      "time_per_iteration": 2.754251480102539
    },
    {
      "auxiliary_loss_clip": 0.01447211,
      "auxiliary_loss_mlp": 0.01222428,
      "balance_loss_clip": 1.21108103,
      "balance_loss_mlp": 1.05658436,
      "epoch": 0.007936030782180003,
      "flos": 21577687643520.0,
      "grad_norm": 5.761759248741406,
      "language_loss": 0.87695634,
      "learning_rate": 3.035178409737647e-06,
      "loss": 0.90365273,
      "num_input_tokens_seen": 1442950,
      "step": 66,
      "time_per_iteration": 3.692361831665039
    },
    {
      "auxiliary_loss_clip": 0.01444308,
      "auxiliary_loss_mlp": 0.01206076,
      "balance_loss_clip": 1.20870066,
      "balance_loss_mlp": 1.05682611,
      "epoch": 0.008056273672819095,
      "flos": 20122861800960.0,
      "grad_norm": 2.7096381790467876,
      "language_loss": 0.88944656,
      "learning_rate": 3.046072539090907e-06,
      "loss": 0.91595042,
      "num_input_tokens_seen": 1460915,
      "step": 67,
      "time_per_iteration": 3.5389461517333984
    },
    {
      "auxiliary_loss_clip": 0.01445626,
      "auxiliary_loss_mlp": 0.01194163,
      "balance_loss_clip": 1.21069717,
      "balance_loss_mlp": 1.04052567,
      "epoch": 0.008176516563458186,
      "flos": 18335100591360.0,
      "grad_norm": 2.263968780969589,
      "language_loss": 1.0495379,
      "learning_rate": 3.056805267986779e-06,
      "loss": 1.07593584,
      "num_input_tokens_seen": 1478385,
      "step": 68,
      "time_per_iteration": 2.7612791061401367
    },
    {
      "auxiliary_loss_clip": 0.0144237,
      "auxiliary_loss_mlp": 0.01195997,
      "balance_loss_clip": 1.20688164,
      "balance_loss_mlp": 1.04350436,
      "epoch": 0.008296759454097276,
      "flos": 21874249520640.0,
      "grad_norm": 2.5078427305796014,
      "language_loss": 0.95321357,
      "learning_rate": 3.0673813091022194e-06,
      "loss": 0.97959727,
      "num_input_tokens_seen": 1497605,
      "step": 69,
      "time_per_iteration": 2.6907920837402344
    },
    {
      "auxiliary_loss_clip": 0.01505036,
      "auxiliary_loss_mlp": 0.0126097,
      "balance_loss_clip": 1.27687526,
      "balance_loss_mlp": 1.16941679,
      "epoch": 0.008417002344736368,
      "flos": 63415606527360.0,
      "grad_norm": 1.3213002776734133,
      "language_loss": 0.62042511,
      "learning_rate": 3.0778051716749317e-06,
      "loss": 0.64808518,
      "num_input_tokens_seen": 1561150,
      "step": 70,
      "time_per_iteration": 3.3049252033233643
    },
    {
      "auxiliary_loss_clip": 0.01433945,
      "auxiliary_loss_mlp": 0.01203439,
      "balance_loss_clip": 1.19947934,
      "balance_loss_mlp": 1.0487529,
      "epoch": 0.008537245235375458,
      "flos": 22968677255040.0,
      "grad_norm": 2.1104734113974226,
      "language_loss": 0.90487778,
      "learning_rate": 3.0880811730470094e-06,
      "loss": 0.93125159,
      "num_input_tokens_seen": 1580605,
      "step": 71,
      "time_per_iteration": 2.658834457397461
    },
    {
      "auxiliary_loss_clip": 0.01495986,
      "auxiliary_loss_mlp": 0.01224791,
      "balance_loss_clip": 1.2683332,
      "balance_loss_mlp": 1.13743484,
      "epoch": 0.008657488126014549,
      "flos": 61991276872320.0,
      "grad_norm": 1.1927845399963173,
      "language_loss": 0.58631444,
      "learning_rate": 3.098213449401257e-06,
      "loss": 0.61352217,
      "num_input_tokens_seen": 1647535,
      "step": 72,
      "time_per_iteration": 3.1808738708496094
    },
    {
      "auxiliary_loss_clip": 0.01428592,
      "auxiliary_loss_mlp": 0.01197362,
      "balance_loss_clip": 1.19397545,
      "balance_loss_mlp": 1.04830229,
      "epoch": 0.00877773101665364,
      "flos": 30299238622080.0,
      "grad_norm": 4.688177583475183,
      "language_loss": 0.99007523,
      "learning_rate": 3.1082059657570015e-06,
      "loss": 1.01633477,
      "num_input_tokens_seen": 1666770,
      "step": 73,
      "time_per_iteration": 2.788959264755249
    },
    {
      "auxiliary_loss_clip": 0.01424742,
      "auxiliary_loss_mlp": 0.01187269,
      "balance_loss_clip": 1.19090438,
      "balance_loss_mlp": 1.03744638,
      "epoch": 0.00889797390729273,
      "flos": 23516327180160.0,
      "grad_norm": 2.528357317571725,
      "language_loss": 0.96652633,
      "learning_rate": 3.1180625252858496e-06,
      "loss": 0.99264646,
      "num_input_tokens_seen": 1685200,
      "step": 74,
      "time_per_iteration": 2.7326266765594482
    },
    {
      "auxiliary_loss_clip": 0.01425461,
      "auxiliary_loss_mlp": 0.0119265,
      "balance_loss_clip": 1.19171047,
      "balance_loss_mlp": 1.04464006,
      "epoch": 0.009018216797931822,
      "flos": 23078063151360.0,
      "grad_norm": 2.593876074910171,
      "language_loss": 0.80048835,
      "learning_rate": 3.1277867780021663e-06,
      "loss": 0.82666945,
      "num_input_tokens_seen": 1701835,
      "step": 75,
      "time_per_iteration": 2.715397596359253
    },
    {
      "auxiliary_loss_clip": 0.01420135,
      "auxiliary_loss_mlp": 0.01171801,
      "balance_loss_clip": 1.18676734,
      "balance_loss_mlp": 1.03227854,
      "epoch": 0.009138459688570914,
      "flos": 15920382648960.0,
      "grad_norm": 1.9165497213408356,
      "language_loss": 0.95704341,
      "learning_rate": 3.1373822288779824e-06,
      "loss": 0.98296285,
      "num_input_tokens_seen": 1718415,
      "step": 76,
      "time_per_iteration": 2.679856777191162
    },
    {
      "auxiliary_loss_clip": 0.01419673,
      "auxiliary_loss_mlp": 0.01181107,
      "balance_loss_clip": 1.18708432,
      "balance_loss_mlp": 1.04110801,
      "epoch": 0.009258702579210003,
      "flos": 27018988865280.0,
      "grad_norm": 2.248373017390153,
      "language_loss": 0.79833096,
      "learning_rate": 3.1468522454274533e-06,
      "loss": 0.82433879,
      "num_input_tokens_seen": 1738770,
      "step": 77,
      "time_per_iteration": 2.7329962253570557
    },
    {
      "auxiliary_loss_clip": 0.01416412,
      "auxiliary_loss_mlp": 0.01175794,
      "balance_loss_clip": 1.18356001,
      "balance_loss_mlp": 1.03436446,
      "epoch": 0.009378945469849095,
      "flos": 26905431980160.0,
      "grad_norm": 1.9194578590040996,
      "language_loss": 0.91729999,
      "learning_rate": 3.15620006480197e-06,
      "loss": 0.94322205,
      "num_input_tokens_seen": 1758040,
      "step": 78,
      "time_per_iteration": 2.6855833530426025
    },
    {
      "auxiliary_loss_clip": 0.01417119,
      "auxiliary_loss_mlp": 0.01183257,
      "balance_loss_clip": 1.18457997,
      "balance_loss_mlp": 1.04030108,
      "epoch": 0.009499188360488187,
      "flos": 35696848164480.0,
      "grad_norm": 3.9724206253688568,
      "language_loss": 0.74892092,
      "learning_rate": 3.1654288004333087e-06,
      "loss": 0.77492464,
      "num_input_tokens_seen": 1776705,
      "step": 79,
      "time_per_iteration": 2.8043112754821777
    },
    {
      "auxiliary_loss_clip": 0.01414476,
      "auxiliary_loss_mlp": 0.01177089,
      "balance_loss_clip": 1.18198216,
      "balance_loss_mlp": 1.04004598,
      "epoch": 0.009619431251127276,
      "flos": 21505130254080.0,
      "grad_norm": 2.541832778388232,
      "language_loss": 0.76233315,
      "learning_rate": 3.1745414482589353e-06,
      "loss": 0.78824878,
      "num_input_tokens_seen": 1795915,
      "step": 80,
      "time_per_iteration": 2.6704962253570557
    },
    {
      "auxiliary_loss_clip": 0.01411681,
      "auxiliary_loss_mlp": 0.01178441,
      "balance_loss_clip": 1.17951977,
      "balance_loss_mlp": 1.04111195,
      "epoch": 0.009739674141766368,
      "flos": 17422995323520.0,
      "grad_norm": 3.1648179413887227,
      "language_loss": 0.86926723,
      "learning_rate": 3.1835408925606204e-06,
      "loss": 0.89516842,
      "num_input_tokens_seen": 1814055,
      "step": 81,
      "time_per_iteration": 2.743307113647461
    },
    {
      "auxiliary_loss_clip": 0.01409727,
      "auxiliary_loss_mlp": 0.01182462,
      "balance_loss_clip": 1.1784066,
      "balance_loss_mlp": 1.04379821,
      "epoch": 0.00985991703240546,
      "flos": 27529582775040.0,
      "grad_norm": 2.6697056880255734,
      "language_loss": 0.8927595,
      "learning_rate": 3.1924299114448214e-06,
      "loss": 0.9186815,
      "num_input_tokens_seen": 1834535,
      "step": 82,
      "time_per_iteration": 2.711143970489502
    },
    {
      "auxiliary_loss_clip": 0.014115,
      "auxiliary_loss_mlp": 0.01181777,
      "balance_loss_clip": 1.17953086,
      "balance_loss_mlp": 1.04740477,
      "epoch": 0.00998015992304455,
      "flos": 13809772281600.0,
      "grad_norm": 2.9952280026794846,
      "language_loss": 0.8339107,
      "learning_rate": 3.2012111819909055e-06,
      "loss": 0.85984355,
      "num_input_tokens_seen": 1851865,
      "step": 83,
      "time_per_iteration": 2.684319257736206
    },
    {
      "auxiliary_loss_clip": 0.01407405,
      "auxiliary_loss_mlp": 0.01175688,
      "balance_loss_clip": 1.17613232,
      "balance_loss_mlp": 1.04160142,
      "epoch": 0.010100402813683641,
      "flos": 20193333696000.0,
      "grad_norm": 2.4538154349816814,
      "language_loss": 0.95189279,
      "learning_rate": 3.2098872850910627e-06,
      "loss": 0.97772372,
      "num_input_tokens_seen": 1868540,
      "step": 84,
      "time_per_iteration": 2.672565221786499
    },
    {
      "auxiliary_loss_clip": 0.01406708,
      "auxiliary_loss_mlp": 0.01169676,
      "balance_loss_clip": 1.17553747,
      "balance_loss_mlp": 1.03816426,
      "epoch": 0.010220645704322733,
      "flos": 17203541005440.0,
      "grad_norm": 2.1739551631473732,
      "language_loss": 0.89242876,
      "learning_rate": 3.2184607100038194e-06,
      "loss": 0.91819257,
      "num_input_tokens_seen": 1887180,
      "step": 85,
      "time_per_iteration": 2.7063543796539307
    },
    {
      "auxiliary_loss_clip": 0.01408817,
      "auxiliary_loss_mlp": 0.011837,
      "balance_loss_clip": 1.17732823,
      "balance_loss_mlp": 1.05190182,
      "epoch": 0.010340888594961822,
      "flos": 21472548572160.0,
      "grad_norm": 2.058848228280648,
      "language_loss": 0.9315117,
      "learning_rate": 3.2269338586412414e-06,
      "loss": 0.95743692,
      "num_input_tokens_seen": 1904765,
      "step": 86,
      "time_per_iteration": 2.738964080810547
    },
    {
      "auxiliary_loss_clip": 0.01406265,
      "auxiliary_loss_mlp": 0.01161981,
      "balance_loss_clip": 1.17514205,
      "balance_loss_mlp": 1.03418875,
      "epoch": 0.010461131485600914,
      "flos": 23005050744960.0,
      "grad_norm": 2.5352253265226015,
      "language_loss": 0.96290171,
      "learning_rate": 3.2353090496083106e-06,
      "loss": 0.98858422,
      "num_input_tokens_seen": 1922600,
      "step": 87,
      "time_per_iteration": 2.6734015941619873
    },
    {
      "auxiliary_loss_clip": 0.01401325,
      "auxiliary_loss_mlp": 0.0115833,
      "balance_loss_clip": 1.1710124,
      "balance_loss_mlp": 1.03654611,
      "epoch": 0.010581374376240005,
      "flos": 33549636798720.0,
      "grad_norm": 2.1355106489184155,
      "language_loss": 0.81198406,
      "learning_rate": 3.2435885220114572e-06,
      "loss": 0.83758062,
      "num_input_tokens_seen": 1943950,
      "step": 88,
      "time_per_iteration": 2.8595776557922363
    },
    {
      "auxiliary_loss_clip": 0.0140531,
      "auxiliary_loss_mlp": 0.01159438,
      "balance_loss_clip": 1.17492008,
      "balance_loss_mlp": 1.03393424,
      "epoch": 0.010701617266879095,
      "flos": 21765280723200.0,
      "grad_norm": 2.30773090942889,
      "language_loss": 0.94015986,
      "learning_rate": 3.2517744390519113e-06,
      "loss": 0.96580732,
      "num_input_tokens_seen": 1962815,
      "step": 89,
      "time_per_iteration": 2.6935274600982666
    },
    {
      "auxiliary_loss_clip": 0.01399079,
      "auxiliary_loss_mlp": 0.01161315,
      "balance_loss_clip": 1.16834807,
      "balance_loss_mlp": 1.03819597,
      "epoch": 0.010821860157518187,
      "flos": 19062077454720.0,
      "grad_norm": 2.1152242542964284,
      "language_loss": 0.75176734,
      "learning_rate": 3.259868891418298e-06,
      "loss": 0.77737129,
      "num_input_tokens_seen": 1980580,
      "step": 90,
      "time_per_iteration": 2.7056679725646973
    },
    {
      "auxiliary_loss_clip": 0.01405519,
      "auxiliary_loss_mlp": 0.01173431,
      "balance_loss_clip": 1.17508602,
      "balance_loss_mlp": 1.04821372,
      "epoch": 0.010942103048157278,
      "flos": 25449734021760.0,
      "grad_norm": 2.018704655033399,
      "language_loss": 0.84938967,
      "learning_rate": 3.2678739004917757e-06,
      "loss": 0.87517917,
      "num_input_tokens_seen": 2000315,
      "step": 91,
      "time_per_iteration": 2.6955525875091553
    },
    {
      "auxiliary_loss_clip": 0.01401871,
      "auxiliary_loss_mlp": 0.01164701,
      "balance_loss_clip": 1.17233706,
      "balance_loss_mlp": 1.04244041,
      "epoch": 0.011062345938796368,
      "flos": 27496583994240.0,
      "grad_norm": 2.1446288106805387,
      "language_loss": 0.92135715,
      "learning_rate": 3.275791421376029e-06,
      "loss": 0.94702291,
      "num_input_tokens_seen": 2023760,
      "step": 92,
      "time_per_iteration": 3.6125807762145996
    },
    {
      "auxiliary_loss_clip": 0.01395961,
      "auxiliary_loss_mlp": 0.01156863,
      "balance_loss_clip": 1.16632175,
      "balance_loss_mlp": 1.04013324,
      "epoch": 0.01118258882943546,
      "flos": 16073081043840.0,
      "grad_norm": 4.216286936554385,
      "language_loss": 0.9608565,
      "learning_rate": 3.2836233457634622e-06,
      "loss": 0.98638475,
      "num_input_tokens_seen": 2041895,
      "step": 93,
      "time_per_iteration": 3.516115427017212
    },
    {
      "auxiliary_loss_clip": 0.01396338,
      "auxiliary_loss_mlp": 0.01167969,
      "balance_loss_clip": 1.16637731,
      "balance_loss_mlp": 1.04532659,
      "epoch": 0.011302831720074551,
      "flos": 20670739234560.0,
      "grad_norm": 2.635893866936109,
      "language_loss": 0.85346979,
      "learning_rate": 3.2913715046481135e-06,
      "loss": 0.87911284,
      "num_input_tokens_seen": 2061640,
      "step": 94,
      "time_per_iteration": 2.6648337841033936
    },
    {
      "auxiliary_loss_clip": 0.01395805,
      "auxiliary_loss_mlp": 0.01165183,
      "balance_loss_clip": 1.16624355,
      "balance_loss_mlp": 1.04883432,
      "epoch": 0.011423074610713641,
      "flos": 13073543406720.0,
      "grad_norm": 2.303517514323599,
      "language_loss": 0.88872421,
      "learning_rate": 3.299037670895023e-06,
      "loss": 0.91433406,
      "num_input_tokens_seen": 2078255,
      "step": 95,
      "time_per_iteration": 2.711174964904785
    },
    {
      "auxiliary_loss_clip": 0.0139727,
      "auxiliary_loss_mlp": 0.01156509,
      "balance_loss_clip": 1.16822803,
      "balance_loss_mlp": 1.04101896,
      "epoch": 0.011543317501352733,
      "flos": 30338228459520.0,
      "grad_norm": 1.7463532276605704,
      "language_loss": 0.8021974,
      "learning_rate": 3.3066235616750667e-06,
      "loss": 0.82773519,
      "num_input_tokens_seen": 2099490,
      "step": 96,
      "time_per_iteration": 2.7079973220825195
    },
    {
      "auxiliary_loss_clip": 0.01393662,
      "auxiliary_loss_mlp": 0.01151447,
      "balance_loss_clip": 1.16480875,
      "balance_loss_mlp": 1.03710139,
      "epoch": 0.011663560391991824,
      "flos": 15524748593280.0,
      "grad_norm": 3.1330451098531666,
      "language_loss": 0.92279887,
      "learning_rate": 3.3141308407736276e-06,
      "loss": 0.94825,
      "num_input_tokens_seen": 2116125,
      "step": 97,
      "time_per_iteration": 2.6859312057495117
    },
    {
      "auxiliary_loss_clip": 0.01390935,
      "auxiliary_loss_mlp": 0.0115268,
      "balance_loss_clip": 1.16158664,
      "balance_loss_mlp": 1.03957415,
      "epoch": 0.011783803282630914,
      "flos": 19904203762560.0,
      "grad_norm": 2.1375752780634945,
      "language_loss": 0.86640078,
      "learning_rate": 3.321561120780869e-06,
      "loss": 0.89183688,
      "num_input_tokens_seen": 2134835,
      "step": 98,
      "time_per_iteration": 2.68491530418396
    },
    {
      "auxiliary_loss_clip": 0.01396345,
      "auxiliary_loss_mlp": 0.01150477,
      "balance_loss_clip": 1.16790152,
      "balance_loss_mlp": 1.04442835,
      "epoch": 0.011904046173270006,
      "flos": 22342554720000.0,
      "grad_norm": 2.971306728452566,
      "language_loss": 1.0146358,
      "learning_rate": 3.3289159651708192e-06,
      "loss": 1.04010403,
      "num_input_tokens_seen": 2152410,
      "step": 99,
      "time_per_iteration": 2.686469793319702
    },
    {
      "auxiliary_loss_clip": 0.01391497,
      "auxiliary_loss_mlp": 0.01150771,
      "balance_loss_clip": 1.1628654,
      "balance_loss_mlp": 1.04138446,
      "epoch": 0.012024289063909096,
      "flos": 19102128998400.0,
      "grad_norm": 2.9133965215700655,
      "language_loss": 0.97629207,
      "learning_rate": 3.3361968902759768e-06,
      "loss": 1.00171483,
      "num_input_tokens_seen": 2172090,
      "step": 100,
      "time_per_iteration": 2.6695237159729004
    },
    {
      "auxiliary_loss_clip": 0.01392415,
      "auxiliary_loss_mlp": 0.0113959,
      "balance_loss_clip": 1.16438711,
      "balance_loss_mlp": 1.03649759,
      "epoch": 0.012144531954548187,
      "flos": 15013965093120.0,
      "grad_norm": 2.423759809979362,
      "language_loss": 0.93728876,
      "learning_rate": 3.343405367163663e-06,
      "loss": 0.96260887,
      "num_input_tokens_seen": 2189020,
      "step": 101,
      "time_per_iteration": 2.7166895866394043
    },
    {
      "auxiliary_loss_clip": 0.01391237,
      "auxiliary_loss_mlp": 0.01143549,
      "balance_loss_clip": 1.16279149,
      "balance_loss_mlp": 1.03754783,
      "epoch": 0.012264774845187279,
      "flos": 15123806006400.0,
      "grad_norm": 2.4077013785851906,
      "language_loss": 0.81215751,
      "learning_rate": 3.350542823419951e-06,
      "loss": 0.83750534,
      "num_input_tokens_seen": 2205620,
      "step": 102,
      "time_per_iteration": 2.675881862640381
    },
    {
      "auxiliary_loss_clip": 0.01389116,
      "auxiliary_loss_mlp": 0.01156019,
      "balance_loss_clip": 1.16057372,
      "balance_loss_mlp": 1.05049491,
      "epoch": 0.012385017735826368,
      "flos": 13950678153600.0,
      "grad_norm": 3.3823254306608215,
      "language_loss": 0.87084734,
      "learning_rate": 3.3576106448465615e-06,
      "loss": 0.89629871,
      "num_input_tokens_seen": 2219000,
      "step": 103,
      "time_per_iteration": 2.6329336166381836
    },
    {
      "auxiliary_loss_clip": 0.01387645,
      "auxiliary_loss_mlp": 0.01146785,
      "balance_loss_clip": 1.15943062,
      "balance_loss_mlp": 1.0418812,
      "epoch": 0.01250526062646546,
      "flos": 23625523486080.0,
      "grad_norm": 2.1522956222866756,
      "language_loss": 0.8827253,
      "learning_rate": 3.3646101770757797e-06,
      "loss": 0.90806961,
      "num_input_tokens_seen": 2237790,
      "step": 104,
      "time_per_iteration": 2.7559916973114014
    },
    {
      "auxiliary_loss_clip": 0.01384616,
      "auxiliary_loss_mlp": 0.01147533,
      "balance_loss_clip": 1.15692556,
      "balance_loss_mlp": 1.03871846,
      "epoch": 0.012625503517104552,
      "flos": 34642851154560.0,
      "grad_norm": 1.826345765851434,
      "language_loss": 0.85582471,
      "learning_rate": 3.371542727108104e-06,
      "loss": 0.88114619,
      "num_input_tokens_seen": 2259965,
      "step": 105,
      "time_per_iteration": 2.843461036682129
    },
    {
      "auxiliary_loss_clip": 0.01383466,
      "auxiliary_loss_mlp": 0.01159135,
      "balance_loss_clip": 1.15670323,
      "balance_loss_mlp": 1.05542278,
      "epoch": 0.012745746407743641,
      "flos": 17823824156160.0,
      "grad_norm": 2.8780281119532574,
      "language_loss": 0.89817119,
      "learning_rate": 3.3784095647770114e-06,
      "loss": 0.92359722,
      "num_input_tokens_seen": 2278610,
      "step": 106,
      "time_per_iteration": 2.697181224822998
    },
    {
      "auxiliary_loss_clip": 0.01380421,
      "auxiliary_loss_mlp": 0.01135358,
      "balance_loss_clip": 1.15203118,
      "balance_loss_mlp": 1.03388715,
      "epoch": 0.012865989298382733,
      "flos": 20597158056960.0,
      "grad_norm": 2.049520854478316,
      "language_loss": 0.88616931,
      "learning_rate": 3.3852119241449547e-06,
      "loss": 0.91132712,
      "num_input_tokens_seen": 2297730,
      "step": 107,
      "time_per_iteration": 2.719636917114258
    },
    {
      "auxiliary_loss_clip": 0.013785,
      "auxiliary_loss_mlp": 0.01144946,
      "balance_loss_clip": 1.15131938,
      "balance_loss_mlp": 1.04314089,
      "epoch": 0.012986232189021825,
      "flos": 23951102745600.0,
      "grad_norm": 3.5894444765366496,
      "language_loss": 0.96419621,
      "learning_rate": 3.3919510048344295e-06,
      "loss": 0.98943067,
      "num_input_tokens_seen": 2315740,
      "step": 108,
      "time_per_iteration": 2.7544472217559814
    },
    {
      "auxiliary_loss_clip": 0.01377064,
      "auxiliary_loss_mlp": 0.01129054,
      "balance_loss_clip": 1.1503278,
      "balance_loss_mlp": 1.03254175,
      "epoch": 0.013106475079660914,
      "flos": 23727287848320.0,
      "grad_norm": 2.102698338739972,
      "language_loss": 0.86903036,
      "learning_rate": 3.3986279732976907e-06,
      "loss": 0.89409149,
      "num_input_tokens_seen": 2334215,
      "step": 109,
      "time_per_iteration": 2.6810455322265625
    },
    {
      "auxiliary_loss_clip": 0.01374422,
      "auxiliary_loss_mlp": 0.01125888,
      "balance_loss_clip": 1.14720869,
      "balance_loss_mlp": 1.02942359,
      "epoch": 0.013226717970300006,
      "flos": 21104377257600.0,
      "grad_norm": 2.347069954976694,
      "language_loss": 0.95466191,
      "learning_rate": 3.4052439640284983e-06,
      "loss": 0.97966492,
      "num_input_tokens_seen": 2353130,
      "step": 110,
      "time_per_iteration": 2.702332019805908
    },
    {
      "auxiliary_loss_clip": 0.01374897,
      "auxiliary_loss_mlp": 0.01137194,
      "balance_loss_clip": 1.14798856,
      "balance_loss_mlp": 1.04010999,
      "epoch": 0.013346960860939098,
      "flos": 24866241459840.0,
      "grad_norm": 3.188867960432998,
      "language_loss": 0.81015348,
      "learning_rate": 3.4118000807190217e-06,
      "loss": 0.83527434,
      "num_input_tokens_seen": 2374010,
      "step": 111,
      "time_per_iteration": 2.7252426147460938
    },
    {
      "auxiliary_loss_clip": 0.01370474,
      "auxiliary_loss_mlp": 0.0113769,
      "balance_loss_clip": 1.14374399,
      "balance_loss_mlp": 1.04084444,
      "epoch": 0.013467203751578187,
      "flos": 28184343511680.0,
      "grad_norm": 1.8072320844274588,
      "language_loss": 0.75918746,
      "learning_rate": 3.4182973973648723e-06,
      "loss": 0.78426915,
      "num_input_tokens_seen": 2395220,
      "step": 112,
      "time_per_iteration": 2.8242223262786865
    },
    {
      "auxiliary_loss_clip": 0.01372383,
      "auxiliary_loss_mlp": 0.01133711,
      "balance_loss_clip": 1.14627886,
      "balance_loss_mlp": 1.03777122,
      "epoch": 0.013587446642217279,
      "flos": 18918213972480.0,
      "grad_norm": 3.1478291730517656,
      "language_loss": 0.94887161,
      "learning_rate": 3.424736959321014e-06,
      "loss": 0.97393262,
      "num_input_tokens_seen": 2413025,
      "step": 113,
      "time_per_iteration": 2.7027738094329834
    },
    {
      "auxiliary_loss_clip": 0.01369575,
      "auxiliary_loss_mlp": 0.01138668,
      "balance_loss_clip": 1.14396048,
      "balance_loss_mlp": 1.04258502,
      "epoch": 0.01370768953285637,
      "flos": 23990926780800.0,
      "grad_norm": 2.021960935628463,
      "language_loss": 0.88516247,
      "learning_rate": 3.431119784311155e-06,
      "loss": 0.91024494,
      "num_input_tokens_seen": 2432700,
      "step": 114,
      "time_per_iteration": 2.677797555923462
    },
    {
      "auxiliary_loss_clip": 0.01367288,
      "auxiliary_loss_mlp": 0.01125456,
      "balance_loss_clip": 1.14190638,
      "balance_loss_mlp": 1.03380823,
      "epoch": 0.01382793242349546,
      "flos": 39205690496640.0,
      "grad_norm": 1.7995172360823983,
      "language_loss": 0.77618504,
      "learning_rate": 3.43744686339307e-06,
      "loss": 0.80111253,
      "num_input_tokens_seen": 2455020,
      "step": 115,
      "time_per_iteration": 2.875246047973633
    },
    {
      "auxiliary_loss_clip": 0.01361812,
      "auxiliary_loss_mlp": 0.01119593,
      "balance_loss_clip": 1.13624823,
      "balance_loss_mlp": 1.02999496,
      "epoch": 0.013948175314134552,
      "flos": 41356655752320.0,
      "grad_norm": 2.2047443073286455,
      "language_loss": 0.90878546,
      "learning_rate": 3.44371916188212e-06,
      "loss": 0.93359953,
      "num_input_tokens_seen": 2475775,
      "step": 116,
      "time_per_iteration": 2.865300178527832
    },
    {
      "auxiliary_loss_clip": 0.01361944,
      "auxiliary_loss_mlp": 0.011276,
      "balance_loss_clip": 1.13729227,
      "balance_loss_mlp": 1.03948045,
      "epoch": 0.014068418204773643,
      "flos": 22455618670080.0,
      "grad_norm": 2.0547739661184736,
      "language_loss": 0.86151481,
      "learning_rate": 3.449937620235143e-06,
      "loss": 0.88641024,
      "num_input_tokens_seen": 2496370,
      "step": 117,
      "time_per_iteration": 2.7340335845947266
    },
    {
      "auxiliary_loss_clip": 0.01364733,
      "auxiliary_loss_mlp": 0.01130925,
      "balance_loss_clip": 1.13928401,
      "balance_loss_mlp": 1.04018331,
      "epoch": 0.014188661095412733,
      "flos": 23807390935680.0,
      "grad_norm": 1.7983587355928825,
      "language_loss": 0.89220738,
      "learning_rate": 3.456103154896722e-06,
      "loss": 0.91716397,
      "num_input_tokens_seen": 2517645,
      "step": 118,
      "time_per_iteration": 3.7219340801239014
    },
    {
      "auxiliary_loss_clip": 0.0135986,
      "auxiliary_loss_mlp": 0.01132752,
      "balance_loss_clip": 1.13465679,
      "balance_loss_mlp": 1.04663467,
      "epoch": 0.014308903986051825,
      "flos": 23662541583360.0,
      "grad_norm": 1.9629235097149813,
      "language_loss": 0.92368793,
      "learning_rate": 3.462216659109757e-06,
      "loss": 0.94861406,
      "num_input_tokens_seen": 2537825,
      "step": 119,
      "time_per_iteration": 3.5756304264068604
    },
    {
      "auxiliary_loss_clip": 0.01364118,
      "auxiliary_loss_mlp": 0.01128791,
      "balance_loss_clip": 1.13934493,
      "balance_loss_mlp": 1.04048133,
      "epoch": 0.014429146876690916,
      "flos": 20670094627200.0,
      "grad_norm": 2.269643287244047,
      "language_loss": 0.85079312,
      "learning_rate": 3.4682790036921077e-06,
      "loss": 0.87572223,
      "num_input_tokens_seen": 2556485,
      "step": 120,
      "time_per_iteration": 2.7323267459869385
    },
    {
      "auxiliary_loss_clip": 0.0135786,
      "auxiliary_loss_mlp": 0.0111536,
      "balance_loss_clip": 1.13456821,
      "balance_loss_mlp": 1.03444123,
      "epoch": 0.014549389767330006,
      "flos": 20231223909120.0,
      "grad_norm": 1.9540883923826387,
      "language_loss": 0.83146322,
      "learning_rate": 3.4742910377810193e-06,
      "loss": 0.85619539,
      "num_input_tokens_seen": 2573945,
      "step": 121,
      "time_per_iteration": 2.653559446334839
    },
    {
      "auxiliary_loss_clip": 0.01357305,
      "auxiliary_loss_mlp": 0.01123527,
      "balance_loss_clip": 1.13329363,
      "balance_loss_mlp": 1.04146338,
      "epoch": 0.014669632657969098,
      "flos": 18006108704640.0,
      "grad_norm": 2.156095438007926,
      "language_loss": 0.88624752,
      "learning_rate": 3.4802535895469042e-06,
      "loss": 0.91105574,
      "num_input_tokens_seen": 2592695,
      "step": 122,
      "time_per_iteration": 2.7356905937194824
    },
    {
      "auxiliary_loss_clip": 0.01356909,
      "auxiliary_loss_mlp": 0.01126382,
      "balance_loss_clip": 1.13307822,
      "balance_loss_mlp": 1.04493785,
      "epoch": 0.01478987554860819,
      "flos": 22743686897280.0,
      "grad_norm": 2.2422708349763285,
      "language_loss": 0.89526045,
      "learning_rate": 3.4861674668779934e-06,
      "loss": 0.92009336,
      "num_input_tokens_seen": 2610925,
      "step": 123,
      "time_per_iteration": 2.693387269973755
    },
    {
      "auxiliary_loss_clip": 0.01352516,
      "auxiliary_loss_mlp": 0.01122918,
      "balance_loss_clip": 1.12912357,
      "balance_loss_mlp": 1.03780293,
      "epoch": 0.01491011843924728,
      "flos": 17200317968640.0,
      "grad_norm": 4.124461511777303,
      "language_loss": 0.84037596,
      "learning_rate": 3.492033458037272e-06,
      "loss": 0.86513031,
      "num_input_tokens_seen": 2629495,
      "step": 124,
      "time_per_iteration": 2.6884303092956543
    },
    {
      "auxiliary_loss_clip": 0.0134969,
      "auxiliary_loss_mlp": 0.01110898,
      "balance_loss_clip": 1.12629521,
      "balance_loss_mlp": 1.03317308,
      "epoch": 0.01503036132988637,
      "flos": 17675675930880.0,
      "grad_norm": 2.5597322746607953,
      "language_loss": 0.86841291,
      "learning_rate": 3.497852332293018e-06,
      "loss": 0.89301872,
      "num_input_tokens_seen": 2645070,
      "step": 125,
      "time_per_iteration": 2.650508403778076
    },
    {
      "auxiliary_loss_clip": 0.01352232,
      "auxiliary_loss_mlp": 0.01121822,
      "balance_loss_clip": 1.12960625,
      "balance_loss_mlp": 1.04362106,
      "epoch": 0.015150604220525462,
      "flos": 18880134168960.0,
      "grad_norm": 2.4252607919517337,
      "language_loss": 0.9668256,
      "learning_rate": 3.5036248405242356e-06,
      "loss": 0.99156612,
      "num_input_tokens_seen": 2663825,
      "step": 126,
      "time_per_iteration": 2.6815361976623535
    },
    {
      "auxiliary_loss_clip": 0.01352408,
      "auxiliary_loss_mlp": 0.01119084,
      "balance_loss_clip": 1.12873101,
      "balance_loss_mlp": 1.03954768,
      "epoch": 0.015270847111164552,
      "flos": 39423248910720.0,
      "grad_norm": 2.0827312324673994,
      "language_loss": 0.82739806,
      "learning_rate": 3.509351715802146e-06,
      "loss": 0.85211295,
      "num_input_tokens_seen": 2684710,
      "step": 127,
      "time_per_iteration": 2.857733964920044
    },
    {
      "auxiliary_loss_clip": 0.01350476,
      "auxiliary_loss_mlp": 0.01118774,
      "balance_loss_clip": 1.12706375,
      "balance_loss_mlp": 1.04014337,
      "epoch": 0.015391090001803644,
      "flos": 43765799736960.0,
      "grad_norm": 2.2590516207775377,
      "language_loss": 0.78542495,
      "learning_rate": 3.5150336739488763e-06,
      "loss": 0.81011748,
      "num_input_tokens_seen": 2706995,
      "step": 128,
      "time_per_iteration": 2.8420603275299072
    },
    {
      "auxiliary_loss_clip": 0.01350394,
      "auxiliary_loss_mlp": 0.0111333,
      "balance_loss_clip": 1.12751985,
      "balance_loss_mlp": 1.03675032,
      "epoch": 0.015511332892442733,
      "flos": 18918327726720.0,
      "grad_norm": 2.0730104861514986,
      "language_loss": 0.83912122,
      "learning_rate": 3.5206714140744143e-06,
      "loss": 0.86375856,
      "num_input_tokens_seen": 2727050,
      "step": 129,
      "time_per_iteration": 2.7659690380096436
    },
    {
      "auxiliary_loss_clip": 0.01354245,
      "auxiliary_loss_mlp": 0.01117907,
      "balance_loss_clip": 1.13150597,
      "balance_loss_mlp": 1.04213774,
      "epoch": 0.015631575783081827,
      "flos": 24537590835840.0,
      "grad_norm": 3.2536486196730166,
      "language_loss": 0.87597734,
      "learning_rate": 3.5262656190928208e-06,
      "loss": 0.9006989,
      "num_input_tokens_seen": 2745350,
      "step": 130,
      "time_per_iteration": 2.7189266681671143
    },
    {
      "auxiliary_loss_clip": 0.01379461,
      "auxiliary_loss_mlp": 0.01066107,
      "balance_loss_clip": 1.16674924,
      "balance_loss_mlp": 1.03444529,
      "epoch": 0.015751818673720917,
      "flos": 62334649762560.0,
      "grad_norm": 1.0552296085368966,
      "language_loss": 0.71526206,
      "learning_rate": 3.5318169562186737e-06,
      "loss": 0.73971772,
      "num_input_tokens_seen": 2814195,
      "step": 131,
      "time_per_iteration": 3.2733399868011475
    },
    {
      "auxiliary_loss_clip": 0.01348612,
      "auxiliary_loss_mlp": 0.01127482,
      "balance_loss_clip": 1.12672126,
      "balance_loss_mlp": 1.05261827,
      "epoch": 0.015872061564360006,
      "flos": 23880820440960.0,
      "grad_norm": 1.8226439520970819,
      "language_loss": 0.82025236,
      "learning_rate": 3.5373260774446292e-06,
      "loss": 0.84501332,
      "num_input_tokens_seen": 2834645,
      "step": 132,
      "time_per_iteration": 2.6711740493774414
    },
    {
      "auxiliary_loss_clip": 0.01345783,
      "auxiliary_loss_mlp": 0.0111621,
      "balance_loss_clip": 1.12404144,
      "balance_loss_mlp": 1.04368305,
      "epoch": 0.0159923044549991,
      "flos": 23370150695040.0,
      "grad_norm": 2.179948726459991,
      "language_loss": 0.90119976,
      "learning_rate": 3.542793620000961e-06,
      "loss": 0.92581969,
      "num_input_tokens_seen": 2854120,
      "step": 133,
      "time_per_iteration": 2.7695817947387695
    },
    {
      "auxiliary_loss_clip": 0.01344513,
      "auxiliary_loss_mlp": 0.01103225,
      "balance_loss_clip": 1.12324524,
      "balance_loss_mlp": 1.03389263,
      "epoch": 0.01611254734563819,
      "flos": 17860235564160.0,
      "grad_norm": 2.0872765474731767,
      "language_loss": 0.8701241,
      "learning_rate": 3.5482202067978894e-06,
      "loss": 0.89460152,
      "num_input_tokens_seen": 2871330,
      "step": 134,
      "time_per_iteration": 2.710514783859253
    },
    {
      "auxiliary_loss_clip": 0.01345259,
      "auxiliary_loss_mlp": 0.01112852,
      "balance_loss_clip": 1.12352812,
      "balance_loss_mlp": 1.04099286,
      "epoch": 0.01623279023627728,
      "flos": 20956608213120.0,
      "grad_norm": 1.9920969586120645,
      "language_loss": 0.76061517,
      "learning_rate": 3.553606446851471e-06,
      "loss": 0.78519624,
      "num_input_tokens_seen": 2888070,
      "step": 135,
      "time_per_iteration": 2.639314889907837
    },
    {
      "auxiliary_loss_clip": 0.01340104,
      "auxiliary_loss_mlp": 0.011088,
      "balance_loss_clip": 1.11928952,
      "balance_loss_mlp": 1.03932488,
      "epoch": 0.016353033126916373,
      "flos": 15744240829440.0,
      "grad_norm": 1.7767534187632326,
      "language_loss": 0.83465594,
      "learning_rate": 3.5589529356937613e-06,
      "loss": 0.85914499,
      "num_input_tokens_seen": 2906465,
      "step": 136,
      "time_per_iteration": 2.7091314792633057
    },
    {
      "auxiliary_loss_clip": 0.01341711,
      "auxiliary_loss_mlp": 0.01108825,
      "balance_loss_clip": 1.1204114,
      "balance_loss_mlp": 1.03977942,
      "epoch": 0.016473276017555463,
      "flos": 18809283093120.0,
      "grad_norm": 1.909611775956154,
      "language_loss": 0.76840925,
      "learning_rate": 3.5642602557679627e-06,
      "loss": 0.79291463,
      "num_input_tokens_seen": 2924915,
      "step": 137,
      "time_per_iteration": 2.662937641143799
    },
    {
      "auxiliary_loss_clip": 0.01345401,
      "auxiliary_loss_mlp": 0.01102523,
      "balance_loss_clip": 1.12502539,
      "balance_loss_mlp": 1.0367198,
      "epoch": 0.016593518908194552,
      "flos": 24354927106560.0,
      "grad_norm": 2.3113728407328145,
      "language_loss": 0.84193313,
      "learning_rate": 3.569528976809202e-06,
      "loss": 0.8664124,
      "num_input_tokens_seen": 2942130,
      "step": 138,
      "time_per_iteration": 2.7324564456939697
    },
    {
      "auxiliary_loss_clip": 0.01340203,
      "auxiliary_loss_mlp": 0.01111799,
      "balance_loss_clip": 1.11922359,
      "balance_loss_mlp": 1.04427862,
      "epoch": 0.016713761798833646,
      "flos": 22348318268160.0,
      "grad_norm": 1.8538362482873438,
      "language_loss": 0.89954811,
      "learning_rate": 3.5747596562115522e-06,
      "loss": 0.92406809,
      "num_input_tokens_seen": 2962745,
      "step": 139,
      "time_per_iteration": 2.7030892372131348
    },
    {
      "auxiliary_loss_clip": 0.01339142,
      "auxiliary_loss_mlp": 0.01107221,
      "balance_loss_clip": 1.11849308,
      "balance_loss_mlp": 1.04141736,
      "epoch": 0.016834004689472735,
      "flos": 17823748320000.0,
      "grad_norm": 2.7602000443855466,
      "language_loss": 0.90784299,
      "learning_rate": 3.5799528393819138e-06,
      "loss": 0.93230665,
      "num_input_tokens_seen": 2981825,
      "step": 140,
      "time_per_iteration": 2.7222304344177246
    },
    {
      "auxiliary_loss_clip": 0.01335387,
      "auxiliary_loss_mlp": 0.01106913,
      "balance_loss_clip": 1.11473846,
      "balance_loss_mlp": 1.04163444,
      "epoch": 0.016954247580111825,
      "flos": 20521453466880.0,
      "grad_norm": 2.0127923068003177,
      "language_loss": 0.881356,
      "learning_rate": 3.585109060081286e-06,
      "loss": 0.90577906,
      "num_input_tokens_seen": 3001625,
      "step": 141,
      "time_per_iteration": 2.677832841873169
    },
    {
      "auxiliary_loss_clip": 0.01336789,
      "auxiliary_loss_mlp": 0.01106454,
      "balance_loss_clip": 1.1169374,
      "balance_loss_mlp": 1.04108012,
      "epoch": 0.017074490470750915,
      "flos": 22090935818880.0,
      "grad_norm": 1.7935585654443982,
      "language_loss": 0.78434741,
      "learning_rate": 3.590228840753992e-06,
      "loss": 0.8087799,
      "num_input_tokens_seen": 3022055,
      "step": 142,
      "time_per_iteration": 2.7219128608703613
    },
    {
      "auxiliary_loss_clip": 0.01334387,
      "auxiliary_loss_mlp": 0.01114714,
      "balance_loss_clip": 1.11435294,
      "balance_loss_mlp": 1.05134201,
      "epoch": 0.01719473336139001,
      "flos": 15999082767360.0,
      "grad_norm": 1.9694161990260841,
      "language_loss": 0.87207687,
      "learning_rate": 3.5953126928453423e-06,
      "loss": 0.89656794,
      "num_input_tokens_seen": 3039605,
      "step": 143,
      "time_per_iteration": 2.619027614593506
    },
    {
      "auxiliary_loss_clip": 0.01330799,
      "auxiliary_loss_mlp": 0.01091455,
      "balance_loss_clip": 1.11104894,
      "balance_loss_mlp": 1.03194547,
      "epoch": 0.017314976252029098,
      "flos": 22494229326720.0,
      "grad_norm": 1.9097742206445378,
      "language_loss": 0.80610025,
      "learning_rate": 3.600361117108239e-06,
      "loss": 0.8303228,
      "num_input_tokens_seen": 3059405,
      "step": 144,
      "time_per_iteration": 5.0140299797058105
    },
    {
      "auxiliary_loss_clip": 0.0133167,
      "auxiliary_loss_mlp": 0.01099967,
      "balance_loss_clip": 1.11203659,
      "balance_loss_mlp": 1.03802574,
      "epoch": 0.017435219142668188,
      "flos": 22020236415360.0,
      "grad_norm": 1.9276492242745968,
      "language_loss": 0.97112775,
      "learning_rate": 3.6053746038991616e-06,
      "loss": 0.99544418,
      "num_input_tokens_seen": 3078490,
      "step": 145,
      "time_per_iteration": 3.449070692062378
    },
    {
      "auxiliary_loss_clip": 0.01356572,
      "auxiliary_loss_mlp": 0.01027693,
      "balance_loss_clip": 1.1475265,
      "balance_loss_mlp": 1.00604427,
      "epoch": 0.01755546203330728,
      "flos": 72246515535360.0,
      "grad_norm": 1.0710303746850902,
      "language_loss": 0.58472651,
      "learning_rate": 3.6103536334639843e-06,
      "loss": 0.60856915,
      "num_input_tokens_seen": 3131755,
      "step": 146,
      "time_per_iteration": 3.228226661682129
    },
    {
      "auxiliary_loss_clip": 0.01328558,
      "auxiliary_loss_mlp": 0.01093663,
      "balance_loss_clip": 1.10954428,
      "balance_loss_mlp": 1.0347017,
      "epoch": 0.01767570492394637,
      "flos": 25339362255360.0,
      "grad_norm": 2.9325704467566664,
      "language_loss": 0.85471809,
      "learning_rate": 3.615298676214041e-06,
      "loss": 0.87894022,
      "num_input_tokens_seen": 3152035,
      "step": 147,
      "time_per_iteration": 2.6628262996673584
    },
    {
      "auxiliary_loss_clip": 0.01327375,
      "auxiliary_loss_mlp": 0.01101682,
      "balance_loss_clip": 1.10801101,
      "balance_loss_mlp": 1.04369831,
      "epoch": 0.01779594781458546,
      "flos": 20451284916480.0,
      "grad_norm": 1.9317941751202434,
      "language_loss": 0.88994324,
      "learning_rate": 3.6202101929928317e-06,
      "loss": 0.91423386,
      "num_input_tokens_seen": 3170625,
      "step": 148,
      "time_per_iteration": 2.696828842163086
    },
    {
      "auxiliary_loss_clip": 0.01324927,
      "auxiliary_loss_mlp": 0.01097312,
      "balance_loss_clip": 1.10570264,
      "balance_loss_mlp": 1.04180861,
      "epoch": 0.017916190705224554,
      "flos": 16255479346560.0,
      "grad_norm": 1.9713407542627746,
      "language_loss": 0.88308495,
      "learning_rate": 3.6250886353337413e-06,
      "loss": 0.90730733,
      "num_input_tokens_seen": 3188155,
      "step": 149,
      "time_per_iteration": 2.667435646057129
    },
    {
      "auxiliary_loss_clip": 0.0132823,
      "auxiliary_loss_mlp": 0.01098883,
      "balance_loss_clip": 1.10992515,
      "balance_loss_mlp": 1.04213905,
      "epoch": 0.018036433595863644,
      "flos": 23332791335040.0,
      "grad_norm": 1.965288251687698,
      "language_loss": 0.86367089,
      "learning_rate": 3.6299344457091488e-06,
      "loss": 0.88794202,
      "num_input_tokens_seen": 3209015,
      "step": 150,
      "time_per_iteration": 2.6704089641571045
    },
    {
      "auxiliary_loss_clip": 0.01326672,
      "auxiliary_loss_mlp": 0.01092421,
      "balance_loss_clip": 1.10828865,
      "balance_loss_mlp": 1.03939652,
      "epoch": 0.018156676486502734,
      "flos": 18589980447360.0,
      "grad_norm": 2.2929485427463527,
      "language_loss": 0.93914008,
      "learning_rate": 3.634748057771256e-06,
      "loss": 0.96333104,
      "num_input_tokens_seen": 3224955,
      "step": 151,
      "time_per_iteration": 2.602262496948242
    },
    {
      "auxiliary_loss_clip": 0.01323227,
      "auxiliary_loss_mlp": 0.01092391,
      "balance_loss_clip": 1.10542941,
      "balance_loss_mlp": 1.03781724,
      "epoch": 0.018276919377141827,
      "flos": 25451136990720.0,
      "grad_norm": 1.8062994437251871,
      "language_loss": 0.85692358,
      "learning_rate": 3.639529896584965e-06,
      "loss": 0.88107979,
      "num_input_tokens_seen": 3246330,
      "step": 152,
      "time_per_iteration": 2.743321657180786
    },
    {
      "auxiliary_loss_clip": 0.01323043,
      "auxiliary_loss_mlp": 0.01084609,
      "balance_loss_clip": 1.1051023,
      "balance_loss_mlp": 1.0310123,
      "epoch": 0.018397162267780917,
      "flos": 20049356459520.0,
      "grad_norm": 3.111060252908124,
      "language_loss": 0.89112461,
      "learning_rate": 3.6442803788531233e-06,
      "loss": 0.91520113,
      "num_input_tokens_seen": 3264290,
      "step": 153,
      "time_per_iteration": 2.6533873081207275
    },
    {
      "auxiliary_loss_clip": 0.01321282,
      "auxiliary_loss_mlp": 0.01096052,
      "balance_loss_clip": 1.10326374,
      "balance_loss_mlp": 1.03895068,
      "epoch": 0.018517405158420007,
      "flos": 27567852168960.0,
      "grad_norm": 4.153441636468505,
      "language_loss": 0.95978624,
      "learning_rate": 3.6489999131344357e-06,
      "loss": 0.98395956,
      "num_input_tokens_seen": 3287065,
      "step": 154,
      "time_per_iteration": 2.6961193084716797
    },
    {
      "auxiliary_loss_clip": 0.01319519,
      "auxiliary_loss_mlp": 0.01085098,
      "balance_loss_clip": 1.10201907,
      "balance_loss_mlp": 1.03333759,
      "epoch": 0.0186376480490591,
      "flos": 19356060902400.0,
      "grad_norm": 1.852474991409161,
      "language_loss": 0.90643597,
      "learning_rate": 3.653688900054313e-06,
      "loss": 0.93048203,
      "num_input_tokens_seen": 3305595,
      "step": 155,
      "time_per_iteration": 2.6809537410736084
    },
    {
      "auxiliary_loss_clip": 0.01317078,
      "auxiliary_loss_mlp": 0.01080044,
      "balance_loss_clip": 1.09983993,
      "balance_loss_mlp": 1.02811623,
      "epoch": 0.01875789093969819,
      "flos": 26690262405120.0,
      "grad_norm": 1.9739141116849062,
      "language_loss": 0.75782639,
      "learning_rate": 3.6583477325089526e-06,
      "loss": 0.78179759,
      "num_input_tokens_seen": 3326135,
      "step": 156,
      "time_per_iteration": 2.636523485183716
    },
    {
      "auxiliary_loss_clip": 0.01317976,
      "auxiliary_loss_mlp": 0.0108113,
      "balance_loss_clip": 1.10142159,
      "balance_loss_mlp": 1.03203917,
      "epoch": 0.01887813383033728,
      "flos": 24355306287360.0,
      "grad_norm": 2.2023984988789804,
      "language_loss": 1.04266238,
      "learning_rate": 3.6629767958628916e-06,
      "loss": 1.06665349,
      "num_input_tokens_seen": 3343510,
      "step": 157,
      "time_per_iteration": 2.7367584705352783
    },
    {
      "auxiliary_loss_clip": 0.01316658,
      "auxiliary_loss_mlp": 0.01084042,
      "balance_loss_clip": 1.10124302,
      "balance_loss_mlp": 1.0340457,
      "epoch": 0.018998376720976373,
      "flos": 14649282241920.0,
      "grad_norm": 2.191048024074243,
      "language_loss": 0.85517132,
      "learning_rate": 3.667576468140291e-06,
      "loss": 0.87917835,
      "num_input_tokens_seen": 3361325,
      "step": 158,
      "time_per_iteration": 2.5750162601470947
    },
    {
      "auxiliary_loss_clip": 0.0131366,
      "auxiliary_loss_mlp": 0.01077132,
      "balance_loss_clip": 1.09822369,
      "balance_loss_mlp": 1.02975869,
      "epoch": 0.019118619611615463,
      "flos": 29307295693440.0,
      "grad_norm": 2.3153304233785854,
      "language_loss": 0.88820863,
      "learning_rate": 3.672147120210184e-06,
      "loss": 0.91211653,
      "num_input_tokens_seen": 3377925,
      "step": 159,
      "time_per_iteration": 2.6867077350616455
    },
    {
      "auxiliary_loss_clip": 0.01318869,
      "auxiliary_loss_mlp": 0.01074718,
      "balance_loss_clip": 1.10271144,
      "balance_loss_mlp": 1.02758253,
      "epoch": 0.019238862502254553,
      "flos": 20888828501760.0,
      "grad_norm": 4.639234314511362,
      "language_loss": 0.86279869,
      "learning_rate": 3.6766891159659177e-06,
      "loss": 0.8867346,
      "num_input_tokens_seen": 3396335,
      "step": 160,
      "time_per_iteration": 2.615175247192383
    },
    {
      "auxiliary_loss_clip": 0.01316326,
      "auxiliary_loss_mlp": 0.01082834,
      "balance_loss_clip": 1.10060358,
      "balance_loss_mlp": 1.0364852,
      "epoch": 0.019359105392893646,
      "flos": 21362783495040.0,
      "grad_norm": 3.4195496298067707,
      "language_loss": 0.87753022,
      "learning_rate": 3.6812028124990075e-06,
      "loss": 0.9015218,
      "num_input_tokens_seen": 3413605,
      "step": 161,
      "time_per_iteration": 2.646960735321045
    },
    {
      "auxiliary_loss_clip": 0.01315228,
      "auxiliary_loss_mlp": 0.01079559,
      "balance_loss_clip": 1.09950781,
      "balance_loss_mlp": 1.03416395,
      "epoch": 0.019479348283532736,
      "flos": 16285255090560.0,
      "grad_norm": 4.718953847032411,
      "language_loss": 0.81619561,
      "learning_rate": 3.6856885602676016e-06,
      "loss": 0.84014356,
      "num_input_tokens_seen": 3429640,
      "step": 162,
      "time_per_iteration": 2.554138660430908
    },
    {
      "auxiliary_loss_clip": 0.01313517,
      "auxiliary_loss_mlp": 0.01087063,
      "balance_loss_clip": 1.09857893,
      "balance_loss_mlp": 1.04142976,
      "epoch": 0.019599591174171826,
      "flos": 22093438412160.0,
      "grad_norm": 2.2807722687376146,
      "language_loss": 0.94048584,
      "learning_rate": 3.6901467032597733e-06,
      "loss": 0.96449172,
      "num_input_tokens_seen": 3448125,
      "step": 163,
      "time_per_iteration": 2.688603162765503
    },
    {
      "auxiliary_loss_clip": 0.01313312,
      "auxiliary_loss_mlp": 0.01077178,
      "balance_loss_clip": 1.09788346,
      "balance_loss_mlp": 1.02925611,
      "epoch": 0.01971983406481092,
      "flos": 19611699120000.0,
      "grad_norm": 2.609510692954443,
      "language_loss": 0.87290764,
      "learning_rate": 3.694577579151804e-06,
      "loss": 0.89681256,
      "num_input_tokens_seen": 3466535,
      "step": 164,
      "time_per_iteration": 2.5736496448516846
    },
    {
      "auxiliary_loss_clip": 0.01313214,
      "auxiliary_loss_mlp": 0.01079463,
      "balance_loss_clip": 1.09807801,
      "balance_loss_mlp": 1.03340054,
      "epoch": 0.01984007695545001,
      "flos": 19101370636800.0,
      "grad_norm": 2.264335030066975,
      "language_loss": 0.73674405,
      "learning_rate": 3.6989815194616703e-06,
      "loss": 0.76067078,
      "num_input_tokens_seen": 3483730,
      "step": 165,
      "time_per_iteration": 2.632408857345581
    },
    {
      "auxiliary_loss_clip": 0.01311467,
      "auxiliary_loss_mlp": 0.01081868,
      "balance_loss_clip": 1.09601927,
      "balance_loss_mlp": 1.0329442,
      "epoch": 0.0199603198460891,
      "flos": 20850407435520.0,
      "grad_norm": 5.406085363909134,
      "language_loss": 0.796004,
      "learning_rate": 3.703358849697888e-06,
      "loss": 0.81993735,
      "num_input_tokens_seen": 3503640,
      "step": 166,
      "time_per_iteration": 2.596092700958252
    },
    {
      "auxiliary_loss_clip": 0.01311899,
      "auxiliary_loss_mlp": 0.01086967,
      "balance_loss_clip": 1.09714472,
      "balance_loss_mlp": 1.04250169,
      "epoch": 0.020080562736728192,
      "flos": 21872846551680.0,
      "grad_norm": 2.0559948682231908,
      "language_loss": 0.82702756,
      "learning_rate": 3.7077098895038803e-06,
      "loss": 0.85101628,
      "num_input_tokens_seen": 3523010,
      "step": 167,
      "time_per_iteration": 2.646589756011963
    },
    {
      "auxiliary_loss_clip": 0.01310778,
      "auxiliary_loss_mlp": 0.01085134,
      "balance_loss_clip": 1.09623933,
      "balance_loss_mlp": 1.04159856,
      "epoch": 0.020200805627367282,
      "flos": 21690903265920.0,
      "grad_norm": 2.147673524575834,
      "language_loss": 0.96684444,
      "learning_rate": 3.712034952798045e-06,
      "loss": 0.9908036,
      "num_input_tokens_seen": 3541125,
      "step": 168,
      "time_per_iteration": 2.5797324180603027
    },
    {
      "auxiliary_loss_clip": 0.01309407,
      "auxiliary_loss_mlp": 0.01077008,
      "balance_loss_clip": 1.09463513,
      "balance_loss_mlp": 1.03418815,
      "epoch": 0.02032104851800637,
      "flos": 33545617482240.0,
      "grad_norm": 2.2792926194032543,
      "language_loss": 0.8443718,
      "learning_rate": 3.7163343479096656e-06,
      "loss": 0.86823595,
      "num_input_tokens_seen": 3562700,
      "step": 169,
      "time_per_iteration": 2.823786735534668
    },
    {
      "auxiliary_loss_clip": 0.01310479,
      "auxiliary_loss_mlp": 0.0107227,
      "balance_loss_clip": 1.09615397,
      "balance_loss_mlp": 1.0325973,
      "epoch": 0.020441291408645465,
      "flos": 31689697380480.0,
      "grad_norm": 2.114982845610315,
      "language_loss": 0.82763445,
      "learning_rate": 3.720608377710802e-06,
      "loss": 0.85146195,
      "num_input_tokens_seen": 3582790,
      "step": 170,
      "time_per_iteration": 4.4151129722595215
    },
    {
      "auxiliary_loss_clip": 0.01305291,
      "auxiliary_loss_mlp": 0.01075185,
      "balance_loss_clip": 1.09146619,
      "balance_loss_mlp": 1.03298473,
      "epoch": 0.020561534299284555,
      "flos": 20888790583680.0,
      "grad_norm": 1.9117172816205243,
      "language_loss": 0.86258727,
      "learning_rate": 3.7248573397443277e-06,
      "loss": 0.886392,
      "num_input_tokens_seen": 3601715,
      "step": 171,
      "time_per_iteration": 3.4240405559539795
    },
    {
      "auxiliary_loss_clip": 0.01307161,
      "auxiliary_loss_mlp": 0.01080878,
      "balance_loss_clip": 1.09348106,
      "balance_loss_mlp": 1.03812945,
      "epoch": 0.020681777189923645,
      "flos": 20998745251200.0,
      "grad_norm": 2.1387668346111837,
      "language_loss": 0.97612166,
      "learning_rate": 3.729081526348224e-06,
      "loss": 1.00000215,
      "num_input_tokens_seen": 3620245,
      "step": 172,
      "time_per_iteration": 2.603179931640625
    },
    {
      "auxiliary_loss_clip": 0.01306905,
      "auxiliary_loss_mlp": 0.01074802,
      "balance_loss_clip": 1.09314108,
      "balance_loss_mlp": 1.03448522,
      "epoch": 0.020802020080562738,
      "flos": 28260086019840.0,
      "grad_norm": 2.0672288779875663,
      "language_loss": 0.84985852,
      "learning_rate": 3.7332812247762777e-06,
      "loss": 0.87367558,
      "num_input_tokens_seen": 3641545,
      "step": 173,
      "time_per_iteration": 2.7230937480926514
    },
    {
      "auxiliary_loss_clip": 0.01305548,
      "auxiliary_loss_mlp": 0.01069498,
      "balance_loss_clip": 1.09296596,
      "balance_loss_mlp": 1.02884793,
      "epoch": 0.020922262971201828,
      "flos": 19683232721280.0,
      "grad_norm": 3.2056104432161496,
      "language_loss": 0.95352542,
      "learning_rate": 3.737456717315293e-06,
      "loss": 0.97727591,
      "num_input_tokens_seen": 3660510,
      "step": 174,
      "time_per_iteration": 2.5912790298461914
    },
    {
      "auxiliary_loss_clip": 0.01304548,
      "auxiliary_loss_mlp": 0.01079798,
      "balance_loss_clip": 1.09213924,
      "balance_loss_mlp": 1.03988671,
      "epoch": 0.021042505861840918,
      "flos": 15668005386240.0,
      "grad_norm": 1.7913645725551122,
      "language_loss": 0.90674323,
      "learning_rate": 3.7416082813989552e-06,
      "loss": 0.9305867,
      "num_input_tokens_seen": 3677505,
      "step": 175,
      "time_per_iteration": 2.6137096881866455
    },
    {
      "auxiliary_loss_clip": 0.01304788,
      "auxiliary_loss_mlp": 0.01071952,
      "balance_loss_clip": 1.0916568,
      "balance_loss_mlp": 1.03149223,
      "epoch": 0.02116274875248001,
      "flos": 21144125456640.0,
      "grad_norm": 1.91871116189369,
      "language_loss": 0.89467418,
      "learning_rate": 3.745736189718439e-06,
      "loss": 0.91844153,
      "num_input_tokens_seen": 3696760,
      "step": 176,
      "time_per_iteration": 2.6043806076049805
    },
    {
      "auxiliary_loss_clip": 0.01303112,
      "auxiliary_loss_mlp": 0.01070735,
      "balance_loss_clip": 1.09029245,
      "balance_loss_mlp": 1.0330646,
      "epoch": 0.0212829916431191,
      "flos": 24717979480320.0,
      "grad_norm": 2.9609444146619404,
      "language_loss": 0.72506213,
      "learning_rate": 3.749840710329894e-06,
      "loss": 0.74880064,
      "num_input_tokens_seen": 3717465,
      "step": 177,
      "time_per_iteration": 2.6876697540283203
    },
    {
      "auxiliary_loss_clip": 0.01305147,
      "auxiliary_loss_mlp": 0.01077607,
      "balance_loss_clip": 1.09204006,
      "balance_loss_mlp": 1.03755271,
      "epoch": 0.02140323453375819,
      "flos": 16646866577280.0,
      "grad_norm": 2.5510974326431914,
      "language_loss": 0.97744262,
      "learning_rate": 3.7539221067588938e-06,
      "loss": 1.00127017,
      "num_input_tokens_seen": 3731440,
      "step": 178,
      "time_per_iteration": 2.5680367946624756
    },
    {
      "auxiliary_loss_clip": 0.01302903,
      "auxiliary_loss_mlp": 0.01078976,
      "balance_loss_clip": 1.08985949,
      "balance_loss_mlp": 1.03970826,
      "epoch": 0.021523477424397284,
      "flos": 20301202869120.0,
      "grad_norm": 4.030617610889438,
      "language_loss": 0.93684363,
      "learning_rate": 3.757980638101964e-06,
      "loss": 0.96066236,
      "num_input_tokens_seen": 3744935,
      "step": 179,
      "time_per_iteration": 2.6257200241088867
    },
    {
      "auxiliary_loss_clip": 0.01303619,
      "auxiliary_loss_mlp": 0.01072177,
      "balance_loss_clip": 1.09102321,
      "balance_loss_mlp": 1.03102565,
      "epoch": 0.021643720315036374,
      "flos": 26106390662400.0,
      "grad_norm": 2.2578054422080345,
      "language_loss": 0.8951242,
      "learning_rate": 3.7620165591252806e-06,
      "loss": 0.91888213,
      "num_input_tokens_seen": 3763035,
      "step": 180,
      "time_per_iteration": 2.621964931488037
    },
    {
      "auxiliary_loss_clip": 0.01302589,
      "auxiliary_loss_mlp": 0.01068725,
      "balance_loss_clip": 1.09100246,
      "balance_loss_mlp": 1.03305793,
      "epoch": 0.021763963205675464,
      "flos": 24789816426240.0,
      "grad_norm": 1.8480541513853983,
      "language_loss": 0.9441784,
      "learning_rate": 3.766030120360636e-06,
      "loss": 0.96789157,
      "num_input_tokens_seen": 3782665,
      "step": 181,
      "time_per_iteration": 2.6926681995391846
    },
    {
      "auxiliary_loss_clip": 0.01302915,
      "auxiliary_loss_mlp": 0.0107223,
      "balance_loss_clip": 1.09025741,
      "balance_loss_mlp": 1.0366106,
      "epoch": 0.021884206096314557,
      "flos": 25816009432320.0,
      "grad_norm": 2.294450958149015,
      "language_loss": 0.90143681,
      "learning_rate": 3.7700215681987578e-06,
      "loss": 0.92518818,
      "num_input_tokens_seen": 3802435,
      "step": 182,
      "time_per_iteration": 2.626570224761963
    },
    {
      "auxiliary_loss_clip": 0.01300947,
      "auxiliary_loss_mlp": 0.01068162,
      "balance_loss_clip": 1.08908296,
      "balance_loss_mlp": 1.03199375,
      "epoch": 0.022004448986953647,
      "flos": 20084706161280.0,
      "grad_norm": 1.7071232208404121,
      "language_loss": 0.82083565,
      "learning_rate": 3.7739911449800767e-06,
      "loss": 0.84452671,
      "num_input_tokens_seen": 3822490,
      "step": 183,
      "time_per_iteration": 2.6503965854644775
    },
    {
      "auxiliary_loss_clip": 0.01298701,
      "auxiliary_loss_mlp": 0.01078822,
      "balance_loss_clip": 1.08703279,
      "balance_loss_mlp": 1.04205751,
      "epoch": 0.022124691877592736,
      "flos": 20482425711360.0,
      "grad_norm": 2.663742808593763,
      "language_loss": 0.80618882,
      "learning_rate": 3.7779390890830114e-06,
      "loss": 0.82996404,
      "num_input_tokens_seen": 3841140,
      "step": 184,
      "time_per_iteration": 2.572366714477539
    },
    {
      "auxiliary_loss_clip": 0.01298577,
      "auxiliary_loss_mlp": 0.0107905,
      "balance_loss_clip": 1.08665204,
      "balance_loss_mlp": 1.04188108,
      "epoch": 0.02224493476823183,
      "flos": 23589112078080.0,
      "grad_norm": 2.3696370704341785,
      "language_loss": 0.85976404,
      "learning_rate": 3.7818656350098723e-06,
      "loss": 0.88354027,
      "num_input_tokens_seen": 3862090,
      "step": 185,
      "time_per_iteration": 2.685401201248169
    },
    {
      "auxiliary_loss_clip": 0.01297592,
      "auxiliary_loss_mlp": 0.01074712,
      "balance_loss_clip": 1.08635163,
      "balance_loss_mlp": 1.03694642,
      "epoch": 0.02236517765887092,
      "flos": 16911832642560.0,
      "grad_norm": 3.993580761013629,
      "language_loss": 0.7706573,
      "learning_rate": 3.7857710134704447e-06,
      "loss": 0.79438037,
      "num_input_tokens_seen": 3881025,
      "step": 186,
      "time_per_iteration": 2.546375274658203
    },
    {
      "auxiliary_loss_clip": 0.01299036,
      "auxiliary_loss_mlp": 0.01057514,
      "balance_loss_clip": 1.08807659,
      "balance_loss_mlp": 1.02454042,
      "epoch": 0.02248542054951001,
      "flos": 43511564488320.0,
      "grad_norm": 2.2759875792323303,
      "language_loss": 0.79473197,
      "learning_rate": 3.7896554514633234e-06,
      "loss": 0.81829751,
      "num_input_tokens_seen": 3905310,
      "step": 187,
      "time_per_iteration": 2.8374245166778564
    },
    {
      "auxiliary_loss_clip": 0.01295798,
      "auxiliary_loss_mlp": 0.01067827,
      "balance_loss_clip": 1.08498931,
      "balance_loss_mlp": 1.03525925,
      "epoch": 0.022605663440149103,
      "flos": 23369885268480.0,
      "grad_norm": 1.8659722356354813,
      "language_loss": 0.84250194,
      "learning_rate": 3.7935191723550955e-06,
      "loss": 0.86613816,
      "num_input_tokens_seen": 3924265,
      "step": 188,
      "time_per_iteration": 2.6300883293151855
    },
    {
      "auxiliary_loss_clip": 0.01295132,
      "auxiliary_loss_mlp": 0.01062352,
      "balance_loss_clip": 1.08459187,
      "balance_loss_mlp": 1.03002286,
      "epoch": 0.022725906330788193,
      "flos": 29022298830720.0,
      "grad_norm": 2.374526533768409,
      "language_loss": 0.88503093,
      "learning_rate": 3.797362395957408e-06,
      "loss": 0.90860581,
      "num_input_tokens_seen": 3944830,
      "step": 189,
      "time_per_iteration": 2.7159430980682373
    },
    {
      "auxiliary_loss_clip": 0.01300503,
      "auxiliary_loss_mlp": 0.01062672,
      "balance_loss_clip": 1.08971691,
      "balance_loss_mlp": 1.02981782,
      "epoch": 0.022846149221427282,
      "flos": 24498335571840.0,
      "grad_norm": 2.7643438422759377,
      "language_loss": 0.78086281,
      "learning_rate": 3.8011853386020055e-06,
      "loss": 0.8044945,
      "num_input_tokens_seen": 3965735,
      "step": 190,
      "time_per_iteration": 2.7186343669891357
    },
    {
      "auxiliary_loss_clip": 0.01296441,
      "auxiliary_loss_mlp": 0.01071871,
      "balance_loss_clip": 1.08677793,
      "balance_loss_mlp": 1.03806305,
      "epoch": 0.022966392112066376,
      "flos": 15525355282560.0,
      "grad_norm": 4.072728871316875,
      "language_loss": 0.89643115,
      "learning_rate": 3.804988213213804e-06,
      "loss": 0.92011428,
      "num_input_tokens_seen": 3983975,
      "step": 191,
      "time_per_iteration": 2.610805034637451
    },
    {
      "auxiliary_loss_clip": 0.01317192,
      "auxiliary_loss_mlp": 0.01011999,
      "balance_loss_clip": 1.11923063,
      "balance_loss_mlp": 1.00432205,
      "epoch": 0.023086635002705466,
      "flos": 55656081112320.0,
      "grad_norm": 1.0272985200816667,
      "language_loss": 0.63190907,
      "learning_rate": 3.808771229382049e-06,
      "loss": 0.65520096,
      "num_input_tokens_seen": 4043440,
      "step": 192,
      "time_per_iteration": 3.14595365524292
    },
    {
      "auxiliary_loss_clip": 0.01296201,
      "auxiliary_loss_mlp": 0.01068006,
      "balance_loss_clip": 1.08675909,
      "balance_loss_mlp": 1.0369879,
      "epoch": 0.023206877893344555,
      "flos": 19315213079040.0,
      "grad_norm": 1.963313432455285,
      "language_loss": 0.84604466,
      "learning_rate": 3.8125345934296324e-06,
      "loss": 0.86968672,
      "num_input_tokens_seen": 4061750,
      "step": 193,
      "time_per_iteration": 2.594399929046631
    },
    {
      "auxiliary_loss_clip": 0.01294432,
      "auxiliary_loss_mlp": 0.01064922,
      "balance_loss_clip": 1.08472466,
      "balance_loss_mlp": 1.03345084,
      "epoch": 0.02332712078398365,
      "flos": 23075029704960.0,
      "grad_norm": 3.3091475765828426,
      "language_loss": 0.87634164,
      "learning_rate": 3.81627850848061e-06,
      "loss": 0.89993519,
      "num_input_tokens_seen": 4082345,
      "step": 194,
      "time_per_iteration": 2.647955894470215
    },
    {
      "auxiliary_loss_clip": 0.01292634,
      "auxiliary_loss_mlp": 0.01059786,
      "balance_loss_clip": 1.08373475,
      "balance_loss_mlp": 1.02867222,
      "epoch": 0.02344736367462274,
      "flos": 24428280775680.0,
      "grad_norm": 2.3241145927763736,
      "language_loss": 0.86104178,
      "learning_rate": 3.820003174525994e-06,
      "loss": 0.88456595,
      "num_input_tokens_seen": 4101770,
      "step": 195,
      "time_per_iteration": 3.910921096801758
    },
    {
      "auxiliary_loss_clip": 0.0129409,
      "auxiliary_loss_mlp": 0.01072218,
      "balance_loss_clip": 1.08474004,
      "balance_loss_mlp": 1.04212999,
      "epoch": 0.02356760656526183,
      "flos": 21581934468480.0,
      "grad_norm": 2.5326285017851844,
      "language_loss": 0.82841146,
      "learning_rate": 3.823708788487851e-06,
      "loss": 0.8520745,
      "num_input_tokens_seen": 4118770,
      "step": 196,
      "time_per_iteration": 3.3511087894439697
    },
    {
      "auxiliary_loss_clip": 0.01292632,
      "auxiliary_loss_mlp": 0.01069326,
      "balance_loss_clip": 1.08442688,
      "balance_loss_mlp": 1.04023862,
      "epoch": 0.02368784945590092,
      "flos": 25196029626240.0,
      "grad_norm": 2.224537590500709,
      "language_loss": 0.84347647,
      "learning_rate": 3.827395544281781e-06,
      "loss": 0.86709607,
      "num_input_tokens_seen": 4141110,
      "step": 197,
      "time_per_iteration": 3.4925241470336914
    },
    {
      "auxiliary_loss_clip": 0.01295827,
      "auxiliary_loss_mlp": 0.01064984,
      "balance_loss_clip": 1.08730865,
      "balance_loss_mlp": 1.03588533,
      "epoch": 0.02380809234654001,
      "flos": 27564894558720.0,
      "grad_norm": 2.1483529920539497,
      "language_loss": 0.78977478,
      "learning_rate": 3.831063632877802e-06,
      "loss": 0.81338286,
      "num_input_tokens_seen": 4161430,
      "step": 198,
      "time_per_iteration": 2.663165330886841
    },
    {
      "auxiliary_loss_clip": 0.01295392,
      "auxiliary_loss_mlp": 0.01068209,
      "balance_loss_clip": 1.08723235,
      "balance_loss_mlp": 1.0410769,
      "epoch": 0.0239283352371791,
      "flos": 18261746922240.0,
      "grad_norm": 3.2563311454707455,
      "language_loss": 0.75831604,
      "learning_rate": 3.834713242359712e-06,
      "loss": 0.78195202,
      "num_input_tokens_seen": 4179260,
      "step": 199,
      "time_per_iteration": 2.6310975551605225
    },
    {
      "auxiliary_loss_clip": 0.01292686,
      "auxiliary_loss_mlp": 0.01063343,
      "balance_loss_clip": 1.08379793,
      "balance_loss_mlp": 1.03439856,
      "epoch": 0.02404857812781819,
      "flos": 21397109408640.0,
      "grad_norm": 1.760168184856952,
      "language_loss": 0.87059569,
      "learning_rate": 3.838344557982959e-06,
      "loss": 0.89415604,
      "num_input_tokens_seen": 4200640,
      "step": 200,
      "time_per_iteration": 2.6756601333618164
    },
    {
      "auxiliary_loss_clip": 0.0129015,
      "auxiliary_loss_mlp": 0.01064654,
      "balance_loss_clip": 1.08228314,
      "balance_loss_mlp": 1.03607917,
      "epoch": 0.024168821018457284,
      "flos": 16656118588800.0,
      "grad_norm": 2.6685418743014204,
      "language_loss": 0.84620953,
      "learning_rate": 3.841957762231063e-06,
      "loss": 0.86975753,
      "num_input_tokens_seen": 4218170,
      "step": 201,
      "time_per_iteration": 2.604436159133911
    },
    {
      "auxiliary_loss_clip": 0.01287162,
      "auxiliary_loss_mlp": 0.01058704,
      "balance_loss_clip": 1.07957613,
      "balance_loss_mlp": 1.02925909,
      "epoch": 0.024289063909096374,
      "flos": 22823107459200.0,
      "grad_norm": 2.1125249682870866,
      "language_loss": 0.87727016,
      "learning_rate": 3.8455530348706454e-06,
      "loss": 0.90072882,
      "num_input_tokens_seen": 4237770,
      "step": 202,
      "time_per_iteration": 2.6422970294952393
    },
    {
      "auxiliary_loss_clip": 0.01290905,
      "auxiliary_loss_mlp": 0.01064049,
      "balance_loss_clip": 1.08362746,
      "balance_loss_mlp": 1.03711963,
      "epoch": 0.024409306799735464,
      "flos": 17750508405120.0,
      "grad_norm": 2.256451654976959,
      "language_loss": 0.77477103,
      "learning_rate": 3.849130553005099e-06,
      "loss": 0.79832053,
      "num_input_tokens_seen": 4255985,
      "step": 203,
      "time_per_iteration": 2.6322054862976074
    },
    {
      "auxiliary_loss_clip": 0.01289086,
      "auxiliary_loss_mlp": 0.01060415,
      "balance_loss_clip": 1.0816927,
      "balance_loss_mlp": 1.03501129,
      "epoch": 0.024529549690374557,
      "flos": 21618345876480.0,
      "grad_norm": 1.8327695210572235,
      "language_loss": 0.83656192,
      "learning_rate": 3.852690491126933e-06,
      "loss": 0.86005694,
      "num_input_tokens_seen": 4276035,
      "step": 204,
      "time_per_iteration": 2.6604039669036865
    },
    {
      "auxiliary_loss_clip": 0.01287479,
      "auxiliary_loss_mlp": 0.01059276,
      "balance_loss_clip": 1.07984579,
      "balance_loss_mlp": 1.03060615,
      "epoch": 0.024649792581013647,
      "flos": 25553735550720.0,
      "grad_norm": 2.688598776583029,
      "language_loss": 0.91201484,
      "learning_rate": 3.856233021168845e-06,
      "loss": 0.93548238,
      "num_input_tokens_seen": 4295730,
      "step": 205,
      "time_per_iteration": 2.670417547225952
    },
    {
      "auxiliary_loss_clip": 0.01286562,
      "auxiliary_loss_mlp": 0.01053543,
      "balance_loss_clip": 1.07990265,
      "balance_loss_mlp": 1.0282464,
      "epoch": 0.024770035471652737,
      "flos": 34498418901120.0,
      "grad_norm": 2.393297140079797,
      "language_loss": 0.91117346,
      "learning_rate": 3.859758312553544e-06,
      "loss": 0.93457448,
      "num_input_tokens_seen": 4317950,
      "step": 206,
      "time_per_iteration": 2.7374799251556396
    },
    {
      "auxiliary_loss_clip": 0.01290288,
      "auxiliary_loss_mlp": 0.01064108,
      "balance_loss_clip": 1.08345854,
      "balance_loss_mlp": 1.03817987,
      "epoch": 0.02489027836229183,
      "flos": 21507481175040.0,
      "grad_norm": 1.883156628212616,
      "language_loss": 0.91887534,
      "learning_rate": 3.8632665322423735e-06,
      "loss": 0.94241923,
      "num_input_tokens_seen": 4337605,
      "step": 207,
      "time_per_iteration": 2.6196155548095703
    },
    {
      "auxiliary_loss_clip": 0.0128927,
      "auxiliary_loss_mlp": 0.01056912,
      "balance_loss_clip": 1.08251715,
      "balance_loss_mlp": 1.03075719,
      "epoch": 0.02501052125293092,
      "flos": 23221092435840.0,
      "grad_norm": 1.7257697132591319,
      "language_loss": 0.85754347,
      "learning_rate": 3.866757844782762e-06,
      "loss": 0.88100529,
      "num_input_tokens_seen": 4358110,
      "step": 208,
      "time_per_iteration": 2.709068775177002
    },
    {
      "auxiliary_loss_clip": 0.01287619,
      "auxiliary_loss_mlp": 0.01062405,
      "balance_loss_clip": 1.08169341,
      "balance_loss_mlp": 1.0363462,
      "epoch": 0.02513076414357001,
      "flos": 26390932508160.0,
      "grad_norm": 2.581212423857277,
      "language_loss": 0.91349936,
      "learning_rate": 3.870232412354527e-06,
      "loss": 0.93699956,
      "num_input_tokens_seen": 4374955,
      "step": 209,
      "time_per_iteration": 2.6124136447906494
    },
    {
      "auxiliary_loss_clip": 0.0128604,
      "auxiliary_loss_mlp": 0.01055318,
      "balance_loss_clip": 1.08001375,
      "balance_loss_mlp": 1.03091538,
      "epoch": 0.025251007034209103,
      "flos": 13592175949440.0,
      "grad_norm": 2.0685541025233927,
      "language_loss": 0.92641938,
      "learning_rate": 3.873690394815086e-06,
      "loss": 0.94983292,
      "num_input_tokens_seen": 4391535,
      "step": 210,
      "time_per_iteration": 2.5917670726776123
    },
    {
      "auxiliary_loss_clip": 0.01284782,
      "auxiliary_loss_mlp": 0.0106004,
      "balance_loss_clip": 1.07916188,
      "balance_loss_mlp": 1.03338504,
      "epoch": 0.025371249924848193,
      "flos": 15051021108480.0,
      "grad_norm": 2.4771081964194583,
      "language_loss": 0.91290534,
      "learning_rate": 3.877131949743587e-06,
      "loss": 0.93635356,
      "num_input_tokens_seen": 4408400,
      "step": 211,
      "time_per_iteration": 2.5778121948242188
    },
    {
      "auxiliary_loss_clip": 0.01286206,
      "auxiliary_loss_mlp": 0.01067845,
      "balance_loss_clip": 1.08021879,
      "balance_loss_mlp": 1.0426681,
      "epoch": 0.025491492815487283,
      "flos": 25556048553600.0,
      "grad_norm": 1.8467954821048207,
      "language_loss": 0.77775675,
      "learning_rate": 3.880557232483993e-06,
      "loss": 0.80129719,
      "num_input_tokens_seen": 4427840,
      "step": 212,
      "time_per_iteration": 2.663532018661499
    },
    {
      "auxiliary_loss_clip": 0.01285158,
      "auxiliary_loss_mlp": 0.01061773,
      "balance_loss_clip": 1.07903409,
      "balance_loss_mlp": 1.03574991,
      "epoch": 0.025611735706126376,
      "flos": 20632811103360.0,
      "grad_norm": 1.940927864166128,
      "language_loss": 0.86763388,
      "learning_rate": 3.883966396187164e-06,
      "loss": 0.89110315,
      "num_input_tokens_seen": 4447110,
      "step": 213,
      "time_per_iteration": 2.663536310195923
    },
    {
      "auxiliary_loss_clip": 0.01285006,
      "auxiliary_loss_mlp": 0.01053533,
      "balance_loss_clip": 1.08034396,
      "balance_loss_mlp": 1.02936959,
      "epoch": 0.025731978596765466,
      "flos": 19064276703360.0,
      "grad_norm": 2.1465176837840607,
      "language_loss": 0.89870226,
      "learning_rate": 3.887359591851937e-06,
      "loss": 0.92208767,
      "num_input_tokens_seen": 4464715,
      "step": 214,
      "time_per_iteration": 2.6281867027282715
    },
    {
      "auxiliary_loss_clip": 0.01283801,
      "auxiliary_loss_mlp": 0.01053192,
      "balance_loss_clip": 1.07934952,
      "balance_loss_mlp": 1.02868307,
      "epoch": 0.025852221487404556,
      "flos": 22165995801600.0,
      "grad_norm": 1.6406549803894979,
      "language_loss": 0.92221415,
      "learning_rate": 3.890736968365265e-06,
      "loss": 0.94558406,
      "num_input_tokens_seen": 4485030,
      "step": 215,
      "time_per_iteration": 2.656215190887451
    },
    {
      "auxiliary_loss_clip": 0.0128212,
      "auxiliary_loss_mlp": 0.01056262,
      "balance_loss_clip": 1.07782757,
      "balance_loss_mlp": 1.02996421,
      "epoch": 0.02597246437804365,
      "flos": 26544389264640.0,
      "grad_norm": 2.119111666338367,
      "language_loss": 0.85073161,
      "learning_rate": 3.894098672541412e-06,
      "loss": 0.87411541,
      "num_input_tokens_seen": 4505935,
      "step": 216,
      "time_per_iteration": 2.678765296936035
    },
    {
      "auxiliary_loss_clip": 0.01282162,
      "auxiliary_loss_mlp": 0.01060785,
      "balance_loss_clip": 1.07805729,
      "balance_loss_mlp": 1.03522682,
      "epoch": 0.02609270726868274,
      "flos": 32674435873920.0,
      "grad_norm": 1.7108927380749455,
      "language_loss": 0.75481105,
      "learning_rate": 3.89744484916025e-06,
      "loss": 0.7782405,
      "num_input_tokens_seen": 4527045,
      "step": 217,
      "time_per_iteration": 2.7597928047180176
    },
    {
      "auxiliary_loss_clip": 0.01284263,
      "auxiliary_loss_mlp": 0.01058931,
      "balance_loss_clip": 1.07914817,
      "balance_loss_mlp": 1.03351545,
      "epoch": 0.02621295015932183,
      "flos": 26245590220800.0,
      "grad_norm": 2.241146483985154,
      "language_loss": 0.87122095,
      "learning_rate": 3.900775641004673e-06,
      "loss": 0.89465284,
      "num_input_tokens_seen": 4546360,
      "step": 218,
      "time_per_iteration": 2.6452527046203613
    },
    {
      "auxiliary_loss_clip": 0.0128538,
      "auxiliary_loss_mlp": 0.01057606,
      "balance_loss_clip": 1.0811162,
      "balance_loss_mlp": 1.03146315,
      "epoch": 0.026333193049960922,
      "flos": 42924583463040.0,
      "grad_norm": 2.622872565899354,
      "language_loss": 0.73934227,
      "learning_rate": 3.904091188897156e-06,
      "loss": 0.76277214,
      "num_input_tokens_seen": 4565495,
      "step": 219,
      "time_per_iteration": 2.8200857639312744
    },
    {
      "auxiliary_loss_clip": 0.01282663,
      "auxiliary_loss_mlp": 0.01062341,
      "balance_loss_clip": 1.07858944,
      "balance_loss_mlp": 1.03672302,
      "epoch": 0.026453435940600012,
      "flos": 17965564225920.0,
      "grad_norm": 2.133047311367369,
      "language_loss": 0.81882143,
      "learning_rate": 3.90739163173548e-06,
      "loss": 0.84227145,
      "num_input_tokens_seen": 4583330,
      "step": 220,
      "time_per_iteration": 2.604367971420288
    },
    {
      "auxiliary_loss_clip": 0.01280553,
      "auxiliary_loss_mlp": 0.01058465,
      "balance_loss_clip": 1.07736194,
      "balance_loss_mlp": 1.03424191,
      "epoch": 0.026573678831239102,
      "flos": 18986031601920.0,
      "grad_norm": 2.602477990779104,
      "language_loss": 0.88260895,
      "learning_rate": 3.910677106527646e-06,
      "loss": 0.90599912,
      "num_input_tokens_seen": 4600520,
      "step": 221,
      "time_per_iteration": 3.551800012588501
    },
    {
      "auxiliary_loss_clip": 0.01280179,
      "auxiliary_loss_mlp": 0.01062034,
      "balance_loss_clip": 1.07704115,
      "balance_loss_mlp": 1.03967083,
      "epoch": 0.026693921721878195,
      "flos": 29243990315520.0,
      "grad_norm": 2.088321045292907,
      "language_loss": 0.84206867,
      "learning_rate": 3.913947748426004e-06,
      "loss": 0.86549079,
      "num_input_tokens_seen": 4617340,
      "step": 222,
      "time_per_iteration": 3.440518617630005
    },
    {
      "auxiliary_loss_clip": 0.01280789,
      "auxiliary_loss_mlp": 0.01061339,
      "balance_loss_clip": 1.07753563,
      "balance_loss_mlp": 1.03793848,
      "epoch": 0.026814164612517285,
      "flos": 14129322566400.0,
      "grad_norm": 3.581542306012447,
      "language_loss": 0.7639209,
      "learning_rate": 3.9172036907606136e-06,
      "loss": 0.78734219,
      "num_input_tokens_seen": 4630820,
      "step": 223,
      "time_per_iteration": 3.293189525604248
    },
    {
      "auxiliary_loss_clip": 0.01280708,
      "auxiliary_loss_mlp": 0.01057517,
      "balance_loss_clip": 1.07719493,
      "balance_loss_mlp": 1.03356814,
      "epoch": 0.026934407503156375,
      "flos": 23514127931520.0,
      "grad_norm": 2.0123105654965796,
      "language_loss": 0.94871116,
      "learning_rate": 3.920445065071855e-06,
      "loss": 0.97209346,
      "num_input_tokens_seen": 4651985,
      "step": 224,
      "time_per_iteration": 2.6532633304595947
    },
    {
      "auxiliary_loss_clip": 0.01277906,
      "auxiliary_loss_mlp": 0.01055759,
      "balance_loss_clip": 1.07532477,
      "balance_loss_mlp": 1.03214335,
      "epoch": 0.027054650393795468,
      "flos": 28952926560000.0,
      "grad_norm": 2.850136353663296,
      "language_loss": 0.79723758,
      "learning_rate": 3.923672001142322e-06,
      "loss": 0.82057422,
      "num_input_tokens_seen": 4672295,
      "step": 225,
      "time_per_iteration": 2.6646060943603516
    },
    {
      "auxiliary_loss_clip": 0.01279317,
      "auxiliary_loss_mlp": 0.0106282,
      "balance_loss_clip": 1.07700253,
      "balance_loss_mlp": 1.03909755,
      "epoch": 0.027174893284434558,
      "flos": 31434286671360.0,
      "grad_norm": 1.8000580207044687,
      "language_loss": 0.84161031,
      "learning_rate": 3.926884627027996e-06,
      "loss": 0.86503172,
      "num_input_tokens_seen": 4696065,
      "step": 226,
      "time_per_iteration": 2.6654183864593506
    },
    {
      "auxiliary_loss_clip": 0.01277161,
      "auxiliary_loss_mlp": 0.01063915,
      "balance_loss_clip": 1.07511365,
      "balance_loss_mlp": 1.04128861,
      "epoch": 0.027295136175073648,
      "flos": 22056647823360.0,
      "grad_norm": 2.375983884703306,
      "language_loss": 0.77384162,
      "learning_rate": 3.930083069088744e-06,
      "loss": 0.79725236,
      "num_input_tokens_seen": 4716065,
      "step": 227,
      "time_per_iteration": 2.6390089988708496
    },
    {
      "auxiliary_loss_clip": 0.01292944,
      "auxiliary_loss_mlp": 0.01014446,
      "balance_loss_clip": 1.10363448,
      "balance_loss_mlp": 1.00724602,
      "epoch": 0.02741537906571274,
      "flos": 60807039022080.0,
      "grad_norm": 0.9884018486422185,
      "language_loss": 0.59323066,
      "learning_rate": 3.933267452018137e-06,
      "loss": 0.61630458,
      "num_input_tokens_seen": 4775860,
      "step": 228,
      "time_per_iteration": 3.2051544189453125
    },
    {
      "auxiliary_loss_clip": 0.01277854,
      "auxiliary_loss_mlp": 0.01052871,
      "balance_loss_clip": 1.07583559,
      "balance_loss_mlp": 1.03116345,
      "epoch": 0.02753562195635183,
      "flos": 24608479829760.0,
      "grad_norm": 1.9500333483015182,
      "language_loss": 0.84314215,
      "learning_rate": 3.936437898872622e-06,
      "loss": 0.86644936,
      "num_input_tokens_seen": 4795835,
      "step": 229,
      "time_per_iteration": 2.6946897506713867
    },
    {
      "auxiliary_loss_clip": 0.01276337,
      "auxiliary_loss_mlp": 0.01050698,
      "balance_loss_clip": 1.07484436,
      "balance_loss_mlp": 1.02981257,
      "epoch": 0.02765586484699092,
      "flos": 34097059215360.0,
      "grad_norm": 2.5657571023295227,
      "language_loss": 0.79477149,
      "learning_rate": 3.9395945311000525e-06,
      "loss": 0.8180418,
      "num_input_tokens_seen": 4817460,
      "step": 230,
      "time_per_iteration": 2.7083730697631836
    },
    {
      "auxiliary_loss_clip": 0.01276769,
      "auxiliary_loss_mlp": 0.01058546,
      "balance_loss_clip": 1.07538831,
      "balance_loss_mlp": 1.03711188,
      "epoch": 0.027776107737630014,
      "flos": 14831680544640.0,
      "grad_norm": 2.277475030931179,
      "language_loss": 0.90758789,
      "learning_rate": 3.942737468567608e-06,
      "loss": 0.93094105,
      "num_input_tokens_seen": 4835475,
      "step": 231,
      "time_per_iteration": 2.6226141452789307
    },
    {
      "auxiliary_loss_clip": 0.01277471,
      "auxiliary_loss_mlp": 0.01058362,
      "balance_loss_clip": 1.07585454,
      "balance_loss_mlp": 1.03772676,
      "epoch": 0.027896350628269104,
      "flos": 47923828848000.0,
      "grad_norm": 2.905625710022147,
      "language_loss": 0.8598547,
      "learning_rate": 3.9458668295891026e-06,
      "loss": 0.88321304,
      "num_input_tokens_seen": 4857760,
      "step": 232,
      "time_per_iteration": 2.8229806423187256
    },
    {
      "auxiliary_loss_clip": 0.01273365,
      "auxiliary_loss_mlp": 0.01050773,
      "balance_loss_clip": 1.07189417,
      "balance_loss_mlp": 1.02774167,
      "epoch": 0.028016593518908194,
      "flos": 21686428932480.0,
      "grad_norm": 2.840673047389694,
      "language_loss": 0.86567891,
      "learning_rate": 3.948982730951712e-06,
      "loss": 0.88892031,
      "num_input_tokens_seen": 4875855,
      "step": 233,
      "time_per_iteration": 2.6584484577178955
    },
    {
      "auxiliary_loss_clip": 0.01276281,
      "auxiliary_loss_mlp": 0.01057068,
      "balance_loss_clip": 1.07496381,
      "balance_loss_mlp": 1.03522897,
      "epoch": 0.028136836409547287,
      "flos": 18441301368960.0,
      "grad_norm": 2.8457519540209764,
      "language_loss": 0.8189463,
      "learning_rate": 3.9520852879421254e-06,
      "loss": 0.84227985,
      "num_input_tokens_seen": 4893200,
      "step": 234,
      "time_per_iteration": 2.5945868492126465
    },
    {
      "auxiliary_loss_clip": 0.01274063,
      "auxiliary_loss_mlp": 0.0105392,
      "balance_loss_clip": 1.07359982,
      "balance_loss_mlp": 1.03426206,
      "epoch": 0.028257079300186377,
      "flos": 31579628958720.0,
      "grad_norm": 2.1734353610846076,
      "language_loss": 0.81774712,
      "learning_rate": 3.955174614372137e-06,
      "loss": 0.84102696,
      "num_input_tokens_seen": 4912965,
      "step": 235,
      "time_per_iteration": 2.7634665966033936
    },
    {
      "auxiliary_loss_clip": 0.01274299,
      "auxiliary_loss_mlp": 0.0105039,
      "balance_loss_clip": 1.07336164,
      "balance_loss_mlp": 1.02946866,
      "epoch": 0.028377322190825467,
      "flos": 23515568818560.0,
      "grad_norm": 2.1944540761793916,
      "language_loss": 0.84453183,
      "learning_rate": 3.9582508226037045e-06,
      "loss": 0.86777878,
      "num_input_tokens_seen": 4933105,
      "step": 236,
      "time_per_iteration": 2.629693031311035
    },
    {
      "auxiliary_loss_clip": 0.01275214,
      "auxiliary_loss_mlp": 0.01056074,
      "balance_loss_clip": 1.07432902,
      "balance_loss_mlp": 1.03379416,
      "epoch": 0.02849756508146456,
      "flos": 20481364005120.0,
      "grad_norm": 6.243047337141129,
      "language_loss": 0.94085425,
      "learning_rate": 3.9613140235734636e-06,
      "loss": 0.96416712,
      "num_input_tokens_seen": 4950085,
      "step": 237,
      "time_per_iteration": 2.630521774291992
    },
    {
      "auxiliary_loss_clip": 0.01273552,
      "auxiliary_loss_mlp": 0.0104913,
      "balance_loss_clip": 1.07293105,
      "balance_loss_mlp": 1.02758849,
      "epoch": 0.02861780797210365,
      "flos": 14285130243840.0,
      "grad_norm": 2.1411712799923626,
      "language_loss": 0.81280357,
      "learning_rate": 3.96436432681674e-06,
      "loss": 0.83603042,
      "num_input_tokens_seen": 4968075,
      "step": 238,
      "time_per_iteration": 2.6084535121917725
    },
    {
      "auxiliary_loss_clip": 0.0127256,
      "auxiliary_loss_mlp": 0.01053253,
      "balance_loss_clip": 1.07253265,
      "balance_loss_mlp": 1.03267717,
      "epoch": 0.02873805086274274,
      "flos": 25810700901120.0,
      "grad_norm": 2.213260048236568,
      "language_loss": 0.89204419,
      "learning_rate": 3.967401840491044e-06,
      "loss": 0.91530234,
      "num_input_tokens_seen": 4987355,
      "step": 239,
      "time_per_iteration": 2.721449851989746
    },
    {
      "auxiliary_loss_clip": 0.01272397,
      "auxiliary_loss_mlp": 0.01051535,
      "balance_loss_clip": 1.07329249,
      "balance_loss_mlp": 1.03323674,
      "epoch": 0.028858293753381833,
      "flos": 17305760384640.0,
      "grad_norm": 2.5314595076351685,
      "language_loss": 0.87405276,
      "learning_rate": 3.97042667139909e-06,
      "loss": 0.89729202,
      "num_input_tokens_seen": 5004680,
      "step": 240,
      "time_per_iteration": 2.6036243438720703
    },
    {
      "auxiliary_loss_clip": 0.01271843,
      "auxiliary_loss_mlp": 0.01048159,
      "balance_loss_clip": 1.07253861,
      "balance_loss_mlp": 1.02890706,
      "epoch": 0.028978536644020923,
      "flos": 23040514200960.0,
      "grad_norm": 2.176860516894149,
      "language_loss": 0.87293231,
      "learning_rate": 3.973438925011327e-06,
      "loss": 0.89613223,
      "num_input_tokens_seen": 5022965,
      "step": 241,
      "time_per_iteration": 2.664604425430298
    },
    {
      "auxiliary_loss_clip": 0.01270168,
      "auxiliary_loss_mlp": 0.01044239,
      "balance_loss_clip": 1.0703975,
      "balance_loss_mlp": 1.02397382,
      "epoch": 0.029098779534660012,
      "flos": 28332226310400.0,
      "grad_norm": 3.070055293794614,
      "language_loss": 0.9126941,
      "learning_rate": 3.976438705488002e-06,
      "loss": 0.93583822,
      "num_input_tokens_seen": 5042625,
      "step": 242,
      "time_per_iteration": 2.7129955291748047
    },
    {
      "auxiliary_loss_clip": 0.01273176,
      "auxiliary_loss_mlp": 0.01052351,
      "balance_loss_clip": 1.07470584,
      "balance_loss_mlp": 1.03387332,
      "epoch": 0.029219022425299106,
      "flos": 13883391377280.0,
      "grad_norm": 2.610280701531326,
      "language_loss": 0.93076336,
      "learning_rate": 3.9794261157007744e-06,
      "loss": 0.95401859,
      "num_input_tokens_seen": 5060380,
      "step": 243,
      "time_per_iteration": 2.7510406970977783
    },
    {
      "auxiliary_loss_clip": 0.01273898,
      "auxiliary_loss_mlp": 0.01049311,
      "balance_loss_clip": 1.07477522,
      "balance_loss_mlp": 1.02890265,
      "epoch": 0.029339265315938196,
      "flos": 19424257712640.0,
      "grad_norm": 2.3128951662573547,
      "language_loss": 0.84694737,
      "learning_rate": 3.982401257253887e-06,
      "loss": 0.87017947,
      "num_input_tokens_seen": 5078720,
      "step": 244,
      "time_per_iteration": 2.648526668548584
    },
    {
      "auxiliary_loss_clip": 0.01271006,
      "auxiliary_loss_mlp": 0.01050688,
      "balance_loss_clip": 1.07166004,
      "balance_loss_mlp": 1.03204322,
      "epoch": 0.029459508206577285,
      "flos": 15671380095360.0,
      "grad_norm": 2.173992198078478,
      "language_loss": 0.89670026,
      "learning_rate": 3.985364230504893e-06,
      "loss": 0.91991723,
      "num_input_tokens_seen": 5096605,
      "step": 245,
      "time_per_iteration": 2.6062417030334473
    },
    {
      "auxiliary_loss_clip": 0.01273847,
      "auxiliary_loss_mlp": 0.01047959,
      "balance_loss_clip": 1.07522225,
      "balance_loss_mlp": 1.03013682,
      "epoch": 0.02957975109721638,
      "flos": 28223522939520.0,
      "grad_norm": 2.0229153279898284,
      "language_loss": 0.84254646,
      "learning_rate": 3.988315134584976e-06,
      "loss": 0.86576456,
      "num_input_tokens_seen": 5116285,
      "step": 246,
      "time_per_iteration": 2.7195212841033936
    },
    {
      "auxiliary_loss_clip": 0.01271717,
      "auxiliary_loss_mlp": 0.01054624,
      "balance_loss_clip": 1.07290339,
      "balance_loss_mlp": 1.03607488,
      "epoch": 0.02969999398785547,
      "flos": 24318136517760.0,
      "grad_norm": 1.9505878068307787,
      "language_loss": 0.80364549,
      "learning_rate": 3.991254067418851e-06,
      "loss": 0.82690889,
      "num_input_tokens_seen": 5136825,
      "step": 247,
      "time_per_iteration": 3.4865293502807617
    },
    {
      "auxiliary_loss_clip": 0.01269695,
      "auxiliary_loss_mlp": 0.01047796,
      "balance_loss_clip": 1.07185161,
      "balance_loss_mlp": 1.02998579,
      "epoch": 0.02982023687849456,
      "flos": 35081418528000.0,
      "grad_norm": 2.346464468227213,
      "language_loss": 0.82899189,
      "learning_rate": 3.994181125744254e-06,
      "loss": 0.85216677,
      "num_input_tokens_seen": 5158630,
      "step": 248,
      "time_per_iteration": 2.7625114917755127
    },
    {
      "auxiliary_loss_clip": 0.01269988,
      "auxiliary_loss_mlp": 0.01049157,
      "balance_loss_clip": 1.07156003,
      "balance_loss_mlp": 1.03071499,
      "epoch": 0.02994047976913365,
      "flos": 26179554741120.0,
      "grad_norm": 2.243717846103365,
      "language_loss": 0.73851311,
      "learning_rate": 3.99709640513106e-06,
      "loss": 0.76170456,
      "num_input_tokens_seen": 5179510,
      "step": 249,
      "time_per_iteration": 4.180019378662109
    },
    {
      "auxiliary_loss_clip": 0.0126949,
      "auxiliary_loss_mlp": 0.01058519,
      "balance_loss_clip": 1.07120526,
      "balance_loss_mlp": 1.03843188,
      "epoch": 0.03006072265977274,
      "flos": 25627127137920.0,
      "grad_norm": 2.4497394862259334,
      "language_loss": 0.85523212,
      "learning_rate": 4e-06,
      "loss": 0.8785122,
      "num_input_tokens_seen": 5199345,
      "step": 250,
      "time_per_iteration": 2.6539735794067383
    },
    {
      "auxiliary_loss_clip": 0.0126968,
      "auxiliary_loss_mlp": 0.01050933,
      "balance_loss_clip": 1.07267356,
      "balance_loss_mlp": 1.03259873,
      "epoch": 0.03018096555041183,
      "flos": 22129243130880.0,
      "grad_norm": 2.700522390460484,
      "language_loss": 0.8820408,
      "learning_rate": 3.999999848300794e-06,
      "loss": 0.90524685,
      "num_input_tokens_seen": 5218330,
      "step": 251,
      "time_per_iteration": 2.6926541328430176
    },
    {
      "auxiliary_loss_clip": 0.01265731,
      "auxiliary_loss_mlp": 0.01044464,
      "balance_loss_clip": 1.06882787,
      "balance_loss_mlp": 1.02660632,
      "epoch": 0.030301208441050925,
      "flos": 30190686923520.0,
      "grad_norm": 2.1138160104037995,
      "language_loss": 0.89044642,
      "learning_rate": 3.999999393203203e-06,
      "loss": 0.91354841,
      "num_input_tokens_seen": 5240740,
      "step": 252,
      "time_per_iteration": 2.7487001419067383
    },
    {
      "auxiliary_loss_clip": 0.0126731,
      "auxiliary_loss_mlp": 0.01049105,
      "balance_loss_clip": 1.06954718,
      "balance_loss_mlp": 1.03210592,
      "epoch": 0.030421451331690014,
      "flos": 23623551745920.0,
      "grad_norm": 2.004675526194158,
      "language_loss": 0.85115725,
      "learning_rate": 3.999998634707293e-06,
      "loss": 0.8743214,
      "num_input_tokens_seen": 5260290,
      "step": 253,
      "time_per_iteration": 2.6826045513153076
    },
    {
      "auxiliary_loss_clip": 0.01271463,
      "auxiliary_loss_mlp": 0.01045725,
      "balance_loss_clip": 1.07462907,
      "balance_loss_mlp": 1.02805877,
      "epoch": 0.030541694222329104,
      "flos": 27930942460800.0,
      "grad_norm": 2.3035391923641293,
      "language_loss": 0.96686459,
      "learning_rate": 3.999997572813182e-06,
      "loss": 0.99003649,
      "num_input_tokens_seen": 5278100,
      "step": 254,
      "time_per_iteration": 2.6835923194885254
    },
    {
      "auxiliary_loss_clip": 0.01266668,
      "auxiliary_loss_mlp": 0.01053657,
      "balance_loss_clip": 1.06951809,
      "balance_loss_mlp": 1.03700376,
      "epoch": 0.030661937112968194,
      "flos": 18590435464320.0,
      "grad_norm": 2.115315431232061,
      "language_loss": 0.87507379,
      "learning_rate": 3.999996207521028e-06,
      "loss": 0.89827698,
      "num_input_tokens_seen": 5296810,
      "step": 255,
      "time_per_iteration": 2.644700288772583
    },
    {
      "auxiliary_loss_clip": 0.01267548,
      "auxiliary_loss_mlp": 0.01047669,
      "balance_loss_clip": 1.07069552,
      "balance_loss_mlp": 1.02858353,
      "epoch": 0.030782180003607287,
      "flos": 12970793174400.0,
      "grad_norm": 2.283439453562894,
      "language_loss": 0.81841362,
      "learning_rate": 3.999994538831039e-06,
      "loss": 0.84156585,
      "num_input_tokens_seen": 5313395,
      "step": 256,
      "time_per_iteration": 2.6326167583465576
    },
    {
      "auxiliary_loss_clip": 0.01265874,
      "auxiliary_loss_mlp": 0.01044718,
      "balance_loss_clip": 1.06968701,
      "balance_loss_mlp": 1.02731323,
      "epoch": 0.030902422894246377,
      "flos": 23337834439680.0,
      "grad_norm": 3.4274896114100586,
      "language_loss": 0.85442948,
      "learning_rate": 3.99999256674347e-06,
      "loss": 0.87753546,
      "num_input_tokens_seen": 5333545,
      "step": 257,
      "time_per_iteration": 2.6770126819610596
    },
    {
      "auxiliary_loss_clip": 0.01281672,
      "auxiliary_loss_mlp": 0.0101289,
      "balance_loss_clip": 1.09854364,
      "balance_loss_mlp": 1.00568998,
      "epoch": 0.031022665784885467,
      "flos": 55099292929920.0,
      "grad_norm": 1.010008640086251,
      "language_loss": 0.53529364,
      "learning_rate": 3.999990291258618e-06,
      "loss": 0.55823928,
      "num_input_tokens_seen": 5392235,
      "step": 258,
      "time_per_iteration": 3.1578073501586914
    },
    {
      "auxiliary_loss_clip": 0.01268764,
      "auxiliary_loss_mlp": 0.01045566,
      "balance_loss_clip": 1.07229066,
      "balance_loss_mlp": 1.02786303,
      "epoch": 0.03114290867552456,
      "flos": 19319801166720.0,
      "grad_norm": 2.3691424741662055,
      "language_loss": 0.86637282,
      "learning_rate": 3.999987712376829e-06,
      "loss": 0.88951612,
      "num_input_tokens_seen": 5410555,
      "step": 259,
      "time_per_iteration": 2.628234624862671
    },
    {
      "auxiliary_loss_clip": 0.01267793,
      "auxiliary_loss_mlp": 0.01053288,
      "balance_loss_clip": 1.07167244,
      "balance_loss_mlp": 1.03534675,
      "epoch": 0.031263151566163654,
      "flos": 20961537563520.0,
      "grad_norm": 2.3257821386127135,
      "language_loss": 0.82069874,
      "learning_rate": 3.999984830098494e-06,
      "loss": 0.8439095,
      "num_input_tokens_seen": 5430135,
      "step": 260,
      "time_per_iteration": 2.694122314453125
    },
    {
      "auxiliary_loss_clip": 0.01266977,
      "auxiliary_loss_mlp": 0.01049209,
      "balance_loss_clip": 1.0706948,
      "balance_loss_mlp": 1.03138733,
      "epoch": 0.03138339445680274,
      "flos": 14794738283520.0,
      "grad_norm": 2.8728418994361844,
      "language_loss": 0.9750613,
      "learning_rate": 3.999981644424051e-06,
      "loss": 0.99822319,
      "num_input_tokens_seen": 5444935,
      "step": 261,
      "time_per_iteration": 2.564816951751709
    },
    {
      "auxiliary_loss_clip": 0.01267703,
      "auxiliary_loss_mlp": 0.01055847,
      "balance_loss_clip": 1.07199383,
      "balance_loss_mlp": 1.03766727,
      "epoch": 0.03150363734744183,
      "flos": 11657176548480.0,
      "grad_norm": 4.868079880494422,
      "language_loss": 0.85992843,
      "learning_rate": 3.999978155353982e-06,
      "loss": 0.88316387,
      "num_input_tokens_seen": 5462080,
      "step": 262,
      "time_per_iteration": 2.601860523223877
    },
    {
      "auxiliary_loss_clip": 0.01265782,
      "auxiliary_loss_mlp": 0.01054242,
      "balance_loss_clip": 1.07053995,
      "balance_loss_mlp": 1.03622949,
      "epoch": 0.03162388023808092,
      "flos": 33730442542080.0,
      "grad_norm": 7.5813105525866025,
      "language_loss": 0.80376345,
      "learning_rate": 3.9999743628888186e-06,
      "loss": 0.82696366,
      "num_input_tokens_seen": 5483870,
      "step": 263,
      "time_per_iteration": 2.708000659942627
    },
    {
      "auxiliary_loss_clip": 0.0126414,
      "auxiliary_loss_mlp": 0.01045863,
      "balance_loss_clip": 1.06921268,
      "balance_loss_mlp": 1.02832699,
      "epoch": 0.03174412312872001,
      "flos": 20812896403200.0,
      "grad_norm": 2.8174366587874684,
      "language_loss": 0.89716172,
      "learning_rate": 3.999970267029133e-06,
      "loss": 0.92026174,
      "num_input_tokens_seen": 5502830,
      "step": 264,
      "time_per_iteration": 2.6925764083862305
    },
    {
      "auxiliary_loss_clip": 0.01264258,
      "auxiliary_loss_mlp": 0.01042338,
      "balance_loss_clip": 1.06989264,
      "balance_loss_mlp": 1.0262866,
      "epoch": 0.0318643660193591,
      "flos": 23729942113920.0,
      "grad_norm": 1.9944622223984605,
      "language_loss": 0.80270207,
      "learning_rate": 3.999965867775548e-06,
      "loss": 0.82576799,
      "num_input_tokens_seen": 5523225,
      "step": 265,
      "time_per_iteration": 2.6297152042388916
    },
    {
      "auxiliary_loss_clip": 0.01265349,
      "auxiliary_loss_mlp": 0.01051978,
      "balance_loss_clip": 1.07089257,
      "balance_loss_mlp": 1.03556275,
      "epoch": 0.0319846089099982,
      "flos": 13919575276800.0,
      "grad_norm": 4.977112989511647,
      "language_loss": 0.86877656,
      "learning_rate": 3.9999611651287315e-06,
      "loss": 0.89194983,
      "num_input_tokens_seen": 5541380,
      "step": 266,
      "time_per_iteration": 2.6914567947387695
    },
    {
      "auxiliary_loss_clip": 0.012664,
      "auxiliary_loss_mlp": 0.01045787,
      "balance_loss_clip": 1.07105732,
      "balance_loss_mlp": 1.02803648,
      "epoch": 0.03210485180063729,
      "flos": 14754800494080.0,
      "grad_norm": 3.015352600618671,
      "language_loss": 0.78979737,
      "learning_rate": 3.999956159089396e-06,
      "loss": 0.81291926,
      "num_input_tokens_seen": 5558830,
      "step": 267,
      "time_per_iteration": 2.5661027431488037
    },
    {
      "auxiliary_loss_clip": 0.01267567,
      "auxiliary_loss_mlp": 0.01049584,
      "balance_loss_clip": 1.0727036,
      "balance_loss_mlp": 1.03240609,
      "epoch": 0.03222509469127638,
      "flos": 28915680954240.0,
      "grad_norm": 2.366759931435472,
      "language_loss": 0.7968393,
      "learning_rate": 3.999950849658302e-06,
      "loss": 0.82001084,
      "num_input_tokens_seen": 5577750,
      "step": 268,
      "time_per_iteration": 2.680040121078491
    },
    {
      "auxiliary_loss_clip": 0.01266847,
      "auxiliary_loss_mlp": 0.01052087,
      "balance_loss_clip": 1.07220542,
      "balance_loss_mlp": 1.03568411,
      "epoch": 0.03234533758191547,
      "flos": 16948281968640.0,
      "grad_norm": 3.356225054339358,
      "language_loss": 0.8431282,
      "learning_rate": 3.999945236836254e-06,
      "loss": 0.86631751,
      "num_input_tokens_seen": 5596715,
      "step": 269,
      "time_per_iteration": 2.608278512954712
    },
    {
      "auxiliary_loss_clip": 0.01267861,
      "auxiliary_loss_mlp": 0.01050685,
      "balance_loss_clip": 1.07295775,
      "balance_loss_mlp": 1.03334045,
      "epoch": 0.03246558047255456,
      "flos": 18991074706560.0,
      "grad_norm": 2.803589996677739,
      "language_loss": 0.94728637,
      "learning_rate": 3.999939320624103e-06,
      "loss": 0.97047192,
      "num_input_tokens_seen": 5611865,
      "step": 270,
      "time_per_iteration": 2.598533868789673
    },
    {
      "auxiliary_loss_clip": 0.01265497,
      "auxiliary_loss_mlp": 0.01048681,
      "balance_loss_clip": 1.07106864,
      "balance_loss_mlp": 1.03236139,
      "epoch": 0.03258582336319365,
      "flos": 23730359212800.0,
      "grad_norm": 2.095389035558247,
      "language_loss": 0.89965516,
      "learning_rate": 3.999933101022749e-06,
      "loss": 0.92279696,
      "num_input_tokens_seen": 5632270,
      "step": 271,
      "time_per_iteration": 2.678067922592163
    },
    {
      "auxiliary_loss_clip": 0.0126541,
      "auxiliary_loss_mlp": 0.01052942,
      "balance_loss_clip": 1.07129264,
      "balance_loss_mlp": 1.03706288,
      "epoch": 0.032706066253832745,
      "flos": 27673180830720.0,
      "grad_norm": 2.0734879597377547,
      "language_loss": 0.866467,
      "learning_rate": 3.999926578033132e-06,
      "loss": 0.88965046,
      "num_input_tokens_seen": 5652085,
      "step": 272,
      "time_per_iteration": 2.650568962097168
    },
    {
      "auxiliary_loss_clip": 0.01263695,
      "auxiliary_loss_mlp": 0.01053032,
      "balance_loss_clip": 1.069906,
      "balance_loss_mlp": 1.03666472,
      "epoch": 0.032826309144471835,
      "flos": 45628203830400.0,
      "grad_norm": 2.1037600845352946,
      "language_loss": 0.62814438,
      "learning_rate": 3.999919751656244e-06,
      "loss": 0.65131164,
      "num_input_tokens_seen": 5678985,
      "step": 273,
      "time_per_iteration": 3.745375156402588
    },
    {
      "auxiliary_loss_clip": 0.01263382,
      "auxiliary_loss_mlp": 0.0104322,
      "balance_loss_clip": 1.06954873,
      "balance_loss_mlp": 1.02613759,
      "epoch": 0.032946552035110925,
      "flos": 25814758135680.0,
      "grad_norm": 4.721142099141589,
      "language_loss": 0.75647771,
      "learning_rate": 3.9999126218931195e-06,
      "loss": 0.77954376,
      "num_input_tokens_seen": 5697020,
      "step": 274,
      "time_per_iteration": 3.458667278289795
    },
    {
      "auxiliary_loss_clip": 0.01265402,
      "auxiliary_loss_mlp": 0.01043559,
      "balance_loss_clip": 1.07154965,
      "balance_loss_mlp": 1.02716768,
      "epoch": 0.033066794925750015,
      "flos": 15123768088320.0,
      "grad_norm": 2.342422612124508,
      "language_loss": 0.89882004,
      "learning_rate": 3.99990518874484e-06,
      "loss": 0.92190969,
      "num_input_tokens_seen": 5713460,
      "step": 275,
      "time_per_iteration": 3.37916898727417
    },
    {
      "auxiliary_loss_clip": 0.01264873,
      "auxiliary_loss_mlp": 0.01048896,
      "balance_loss_clip": 1.07107615,
      "balance_loss_mlp": 1.03269506,
      "epoch": 0.033187037816389105,
      "flos": 22778391991680.0,
      "grad_norm": 2.4917493661701933,
      "language_loss": 0.92410338,
      "learning_rate": 3.999897452212534e-06,
      "loss": 0.94724107,
      "num_input_tokens_seen": 5730790,
      "step": 276,
      "time_per_iteration": 2.843355178833008
    },
    {
      "auxiliary_loss_clip": 0.01262095,
      "auxiliary_loss_mlp": 0.01048477,
      "balance_loss_clip": 1.06883073,
      "balance_loss_mlp": 1.03323638,
      "epoch": 0.033307280707028195,
      "flos": 23333663450880.0,
      "grad_norm": 2.2354472160692236,
      "language_loss": 0.99938172,
      "learning_rate": 3.999889412297374e-06,
      "loss": 1.02248752,
      "num_input_tokens_seen": 5750215,
      "step": 277,
      "time_per_iteration": 2.6556222438812256
    },
    {
      "auxiliary_loss_clip": 0.01261198,
      "auxiliary_loss_mlp": 0.01034384,
      "balance_loss_clip": 1.06762207,
      "balance_loss_mlp": 1.0188036,
      "epoch": 0.03342752359766729,
      "flos": 28842820220160.0,
      "grad_norm": 2.1161273026810967,
      "language_loss": 0.78939033,
      "learning_rate": 3.999881069000581e-06,
      "loss": 0.81234622,
      "num_input_tokens_seen": 5769945,
      "step": 278,
      "time_per_iteration": 2.689265012741089
    },
    {
      "auxiliary_loss_clip": 0.01261023,
      "auxiliary_loss_mlp": 0.01040423,
      "balance_loss_clip": 1.06779456,
      "balance_loss_mlp": 1.02483618,
      "epoch": 0.03354776648830638,
      "flos": 19386215827200.0,
      "grad_norm": 2.913566797069588,
      "language_loss": 0.8677417,
      "learning_rate": 3.99987242232342e-06,
      "loss": 0.89075619,
      "num_input_tokens_seen": 5784950,
      "step": 279,
      "time_per_iteration": 2.7642579078674316
    },
    {
      "auxiliary_loss_clip": 0.01263232,
      "auxiliary_loss_mlp": 0.01046083,
      "balance_loss_clip": 1.07056165,
      "balance_loss_mlp": 1.02995431,
      "epoch": 0.03366800937894547,
      "flos": 17860576826880.0,
      "grad_norm": 1.9009744217915439,
      "language_loss": 0.79259759,
      "learning_rate": 3.9998634722672026e-06,
      "loss": 0.81569076,
      "num_input_tokens_seen": 5805005,
      "step": 280,
      "time_per_iteration": 2.8781213760375977
    },
    {
      "auxiliary_loss_clip": 0.01263429,
      "auxiliary_loss_mlp": 0.01046939,
      "balance_loss_clip": 1.07070112,
      "balance_loss_mlp": 1.0326519,
      "epoch": 0.03378825226958456,
      "flos": 35953737678720.0,
      "grad_norm": 2.6480335456550255,
      "language_loss": 0.78602862,
      "learning_rate": 3.999854218833286e-06,
      "loss": 0.80913234,
      "num_input_tokens_seen": 5825825,
      "step": 281,
      "time_per_iteration": 2.9391047954559326
    },
    {
      "auxiliary_loss_clip": 0.0126179,
      "auxiliary_loss_mlp": 0.01047627,
      "balance_loss_clip": 1.06891131,
      "balance_loss_mlp": 1.03166509,
      "epoch": 0.03390849516022365,
      "flos": 25704841386240.0,
      "grad_norm": 2.3934559989518265,
      "language_loss": 0.81847531,
      "learning_rate": 3.999844662023075e-06,
      "loss": 0.84156942,
      "num_input_tokens_seen": 5845700,
      "step": 282,
      "time_per_iteration": 2.6293113231658936
    },
    {
      "auxiliary_loss_clip": 0.01258345,
      "auxiliary_loss_mlp": 0.01046953,
      "balance_loss_clip": 1.0661335,
      "balance_loss_mlp": 1.03198004,
      "epoch": 0.03402873805086274,
      "flos": 21286434297600.0,
      "grad_norm": 2.949255846386485,
      "language_loss": 0.92254519,
      "learning_rate": 3.999834801838018e-06,
      "loss": 0.94559824,
      "num_input_tokens_seen": 5864680,
      "step": 283,
      "time_per_iteration": 2.7750375270843506
    },
    {
      "auxiliary_loss_clip": 0.01259187,
      "auxiliary_loss_mlp": 0.01044022,
      "balance_loss_clip": 1.06736493,
      "balance_loss_mlp": 1.02857256,
      "epoch": 0.03414898094150183,
      "flos": 22713114873600.0,
      "grad_norm": 2.1613115138195846,
      "language_loss": 0.73922795,
      "learning_rate": 3.9998246382796115e-06,
      "loss": 0.76226002,
      "num_input_tokens_seen": 5884260,
      "step": 284,
      "time_per_iteration": 2.646177053451538
    },
    {
      "auxiliary_loss_clip": 0.01257461,
      "auxiliary_loss_mlp": 0.01040455,
      "balance_loss_clip": 1.06511664,
      "balance_loss_mlp": 1.02481484,
      "epoch": 0.03426922383214093,
      "flos": 18881916318720.0,
      "grad_norm": 2.4775216011992467,
      "language_loss": 0.90905309,
      "learning_rate": 3.999814171349399e-06,
      "loss": 0.93203223,
      "num_input_tokens_seen": 5902120,
      "step": 285,
      "time_per_iteration": 2.637237787246704
    },
    {
      "auxiliary_loss_clip": 0.01257303,
      "auxiliary_loss_mlp": 0.01040833,
      "balance_loss_clip": 1.0656383,
      "balance_loss_mlp": 1.02645612,
      "epoch": 0.03438946672278002,
      "flos": 34754929234560.0,
      "grad_norm": 2.6138241720111512,
      "language_loss": 0.73513955,
      "learning_rate": 3.9998034010489655e-06,
      "loss": 0.75812089,
      "num_input_tokens_seen": 5925810,
      "step": 286,
      "time_per_iteration": 2.729048728942871
    },
    {
      "auxiliary_loss_clip": 0.01260032,
      "auxiliary_loss_mlp": 0.01045686,
      "balance_loss_clip": 1.068133,
      "balance_loss_mlp": 1.03058779,
      "epoch": 0.03450970961341911,
      "flos": 22166299146240.0,
      "grad_norm": 2.28039295153197,
      "language_loss": 0.75938702,
      "learning_rate": 3.999792327379946e-06,
      "loss": 0.78244412,
      "num_input_tokens_seen": 5945185,
      "step": 287,
      "time_per_iteration": 2.6771302223205566
    },
    {
      "auxiliary_loss_clip": 0.01260809,
      "auxiliary_loss_mlp": 0.01046456,
      "balance_loss_clip": 1.06901717,
      "balance_loss_mlp": 1.03234196,
      "epoch": 0.034629952504058197,
      "flos": 21727883445120.0,
      "grad_norm": 2.251241731377753,
      "language_loss": 0.96356082,
      "learning_rate": 3.999780950344021e-06,
      "loss": 0.98663348,
      "num_input_tokens_seen": 5963375,
      "step": 288,
      "time_per_iteration": 2.6060945987701416
    },
    {
      "auxiliary_loss_clip": 0.01258794,
      "auxiliary_loss_mlp": 0.01043719,
      "balance_loss_clip": 1.06688118,
      "balance_loss_mlp": 1.02807868,
      "epoch": 0.034750195394697286,
      "flos": 20050076903040.0,
      "grad_norm": 2.246697890896018,
      "language_loss": 0.82669592,
      "learning_rate": 3.999769269942916e-06,
      "loss": 0.84972101,
      "num_input_tokens_seen": 5983415,
      "step": 289,
      "time_per_iteration": 2.6792824268341064
    },
    {
      "auxiliary_loss_clip": 0.01255996,
      "auxiliary_loss_mlp": 0.0103907,
      "balance_loss_clip": 1.0648551,
      "balance_loss_mlp": 1.02458,
      "epoch": 0.034870438285336376,
      "flos": 27968415575040.0,
      "grad_norm": 1.8716625953542856,
      "language_loss": 0.80956876,
      "learning_rate": 3.999757286178402e-06,
      "loss": 0.83251941,
      "num_input_tokens_seen": 6005850,
      "step": 290,
      "time_per_iteration": 2.7656681537628174
    },
    {
      "auxiliary_loss_clip": 0.01256901,
      "auxiliary_loss_mlp": 0.01040549,
      "balance_loss_clip": 1.0657084,
      "balance_loss_mlp": 1.02601707,
      "epoch": 0.03499068117597547,
      "flos": 22019667644160.0,
      "grad_norm": 1.9530534706302844,
      "language_loss": 0.90540278,
      "learning_rate": 3.999744999052299e-06,
      "loss": 0.92837727,
      "num_input_tokens_seen": 6027240,
      "step": 291,
      "time_per_iteration": 2.679239273071289
    },
    {
      "auxiliary_loss_clip": 0.01285733,
      "auxiliary_loss_mlp": 0.01011748,
      "balance_loss_clip": 1.10724902,
      "balance_loss_mlp": 1.00278342,
      "epoch": 0.03511092406661456,
      "flos": 57247148903040.0,
      "grad_norm": 0.9535310454268694,
      "language_loss": 0.61171693,
      "learning_rate": 3.9997324085664675e-06,
      "loss": 0.63469172,
      "num_input_tokens_seen": 6087470,
      "step": 292,
      "time_per_iteration": 3.1925036907196045
    },
    {
      "auxiliary_loss_clip": 0.01254314,
      "auxiliary_loss_mlp": 0.01043739,
      "balance_loss_clip": 1.06311524,
      "balance_loss_mlp": 1.02852809,
      "epoch": 0.03523116695725365,
      "flos": 22930180352640.0,
      "grad_norm": 2.6454239927992806,
      "language_loss": 0.92003518,
      "learning_rate": 3.999719514722821e-06,
      "loss": 0.94301569,
      "num_input_tokens_seen": 6107600,
      "step": 293,
      "time_per_iteration": 2.638969659805298
    },
    {
      "auxiliary_loss_clip": 0.01254386,
      "auxiliary_loss_mlp": 0.01042338,
      "balance_loss_clip": 1.06395555,
      "balance_loss_mlp": 1.02849722,
      "epoch": 0.03535140984789274,
      "flos": 36906197834880.0,
      "grad_norm": 2.4452924473057203,
      "language_loss": 0.74532765,
      "learning_rate": 3.999706317523314e-06,
      "loss": 0.76829487,
      "num_input_tokens_seen": 6126160,
      "step": 294,
      "time_per_iteration": 2.7816500663757324
    },
    {
      "auxiliary_loss_clip": 0.0125272,
      "auxiliary_loss_mlp": 0.0104381,
      "balance_loss_clip": 1.06300187,
      "balance_loss_mlp": 1.02977896,
      "epoch": 0.03547165273853183,
      "flos": 20451246998400.0,
      "grad_norm": 4.903387311973344,
      "language_loss": 0.86082643,
      "learning_rate": 3.999692816969948e-06,
      "loss": 0.88379169,
      "num_input_tokens_seen": 6145695,
      "step": 295,
      "time_per_iteration": 2.648588180541992
    },
    {
      "auxiliary_loss_clip": 0.01278359,
      "auxiliary_loss_mlp": 0.01008447,
      "balance_loss_clip": 1.10102034,
      "balance_loss_mlp": 0.9996258,
      "epoch": 0.03559189562917092,
      "flos": 69857430215040.0,
      "grad_norm": 1.0005694021913725,
      "language_loss": 0.69416916,
      "learning_rate": 3.999679013064772e-06,
      "loss": 0.7170372,
      "num_input_tokens_seen": 6212440,
      "step": 296,
      "time_per_iteration": 3.263634443283081
    },
    {
      "auxiliary_loss_clip": 0.0125431,
      "auxiliary_loss_mlp": 0.01040144,
      "balance_loss_clip": 1.0642364,
      "balance_loss_mlp": 1.02633357,
      "epoch": 0.03571213851981002,
      "flos": 21654036840960.0,
      "grad_norm": 3.0896250023830345,
      "language_loss": 0.85575324,
      "learning_rate": 3.99966490580988e-06,
      "loss": 0.87869781,
      "num_input_tokens_seen": 6229800,
      "step": 297,
      "time_per_iteration": 2.5909879207611084
    },
    {
      "auxiliary_loss_clip": 0.01255729,
      "auxiliary_loss_mlp": 0.01040806,
      "balance_loss_clip": 1.06516707,
      "balance_loss_mlp": 1.02642989,
      "epoch": 0.03583238141044911,
      "flos": 43948994319360.0,
      "grad_norm": 2.2607915507928187,
      "language_loss": 0.65534067,
      "learning_rate": 3.999650495207411e-06,
      "loss": 0.67830604,
      "num_input_tokens_seen": 6255825,
      "step": 298,
      "time_per_iteration": 2.8113181591033936
    },
    {
      "auxiliary_loss_clip": 0.01252302,
      "auxiliary_loss_mlp": 0.01042768,
      "balance_loss_clip": 1.06266427,
      "balance_loss_mlp": 1.02855814,
      "epoch": 0.0359526243010882,
      "flos": 18912488342400.0,
      "grad_norm": 2.7287819547015584,
      "language_loss": 0.90138572,
      "learning_rate": 3.999635781259553e-06,
      "loss": 0.92433649,
      "num_input_tokens_seen": 6271090,
      "step": 299,
      "time_per_iteration": 3.521624803543091
    },
    {
      "auxiliary_loss_clip": 0.01267066,
      "auxiliary_loss_mlp": 0.01008178,
      "balance_loss_clip": 1.09108925,
      "balance_loss_mlp": 0.999309,
      "epoch": 0.03607286719172729,
      "flos": 61674808003200.0,
      "grad_norm": 0.9194007852419454,
      "language_loss": 0.52290148,
      "learning_rate": 3.999620763968535e-06,
      "loss": 0.54565388,
      "num_input_tokens_seen": 6329965,
      "step": 300,
      "time_per_iteration": 3.7669625282287598
    },
    {
      "auxiliary_loss_clip": 0.01252937,
      "auxiliary_loss_mlp": 0.0104178,
      "balance_loss_clip": 1.06390059,
      "balance_loss_mlp": 1.02733231,
      "epoch": 0.03619311008236638,
      "flos": 27821556564480.0,
      "grad_norm": 1.7776513795323514,
      "language_loss": 0.86449921,
      "learning_rate": 3.999605443336638e-06,
      "loss": 0.88744634,
      "num_input_tokens_seen": 6352095,
      "step": 301,
      "time_per_iteration": 3.380345344543457
    },
    {
      "auxiliary_loss_clip": 0.01252809,
      "auxiliary_loss_mlp": 0.01045228,
      "balance_loss_clip": 1.06361628,
      "balance_loss_mlp": 1.03085148,
      "epoch": 0.03631335297300547,
      "flos": 13622558382720.0,
      "grad_norm": 2.4751718055317973,
      "language_loss": 0.89490479,
      "learning_rate": 3.999589819366185e-06,
      "loss": 0.91788512,
      "num_input_tokens_seen": 6365885,
      "step": 302,
      "time_per_iteration": 2.601793050765991
    },
    {
      "auxiliary_loss_clip": 0.01250874,
      "auxiliary_loss_mlp": 0.01041316,
      "balance_loss_clip": 1.06230414,
      "balance_loss_mlp": 1.02634299,
      "epoch": 0.036433595863644565,
      "flos": 27634001402880.0,
      "grad_norm": 2.242945442533911,
      "language_loss": 0.84983015,
      "learning_rate": 3.999573892059547e-06,
      "loss": 0.87275201,
      "num_input_tokens_seen": 6385015,
      "step": 303,
      "time_per_iteration": 2.638847589492798
    },
    {
      "auxiliary_loss_clip": 0.01252358,
      "auxiliary_loss_mlp": 0.0104045,
      "balance_loss_clip": 1.06270313,
      "balance_loss_mlp": 1.02446389,
      "epoch": 0.036553838754283655,
      "flos": 24574343506560.0,
      "grad_norm": 3.0646278311525603,
      "language_loss": 0.8098343,
      "learning_rate": 3.999557661419138e-06,
      "loss": 0.83276242,
      "num_input_tokens_seen": 6405165,
      "step": 304,
      "time_per_iteration": 2.6616005897521973
    },
    {
      "auxiliary_loss_clip": 0.01251333,
      "auxiliary_loss_mlp": 0.01041096,
      "balance_loss_clip": 1.06285858,
      "balance_loss_mlp": 1.02694595,
      "epoch": 0.036674081644922744,
      "flos": 23406562103040.0,
      "grad_norm": 2.1648016789733373,
      "language_loss": 0.81515849,
      "learning_rate": 3.9995411274474225e-06,
      "loss": 0.83808279,
      "num_input_tokens_seen": 6424445,
      "step": 305,
      "time_per_iteration": 2.60622239112854
    },
    {
      "auxiliary_loss_clip": 0.01250627,
      "auxiliary_loss_mlp": 0.01050206,
      "balance_loss_clip": 1.06207752,
      "balance_loss_mlp": 1.03543591,
      "epoch": 0.036794324535561834,
      "flos": 27492109660800.0,
      "grad_norm": 10.37878212610502,
      "language_loss": 0.81250203,
      "learning_rate": 3.999524290146908e-06,
      "loss": 0.83551037,
      "num_input_tokens_seen": 6444650,
      "step": 306,
      "time_per_iteration": 2.6640989780426025
    },
    {
      "auxiliary_loss_clip": 0.01250973,
      "auxiliary_loss_mlp": 0.01049461,
      "balance_loss_clip": 1.06326854,
      "balance_loss_mlp": 1.03472698,
      "epoch": 0.036914567426200924,
      "flos": 19465484716800.0,
      "grad_norm": 2.6832606579364913,
      "language_loss": 0.92342043,
      "learning_rate": 3.9995071495201485e-06,
      "loss": 0.94642478,
      "num_input_tokens_seen": 6461755,
      "step": 307,
      "time_per_iteration": 2.6088507175445557
    },
    {
      "auxiliary_loss_clip": 0.0125103,
      "auxiliary_loss_mlp": 0.01041395,
      "balance_loss_clip": 1.06315875,
      "balance_loss_mlp": 1.0264225,
      "epoch": 0.037034810316840014,
      "flos": 22311489761280.0,
      "grad_norm": 3.7531352834102774,
      "language_loss": 0.97686386,
      "learning_rate": 3.999489705569744e-06,
      "loss": 0.99978817,
      "num_input_tokens_seen": 6479455,
      "step": 308,
      "time_per_iteration": 2.6366705894470215
    },
    {
      "auxiliary_loss_clip": 0.01247327,
      "auxiliary_loss_mlp": 0.0104547,
      "balance_loss_clip": 1.05929554,
      "balance_loss_mlp": 1.03126597,
      "epoch": 0.03715505320747911,
      "flos": 18590321710080.0,
      "grad_norm": 9.019383688066702,
      "language_loss": 0.86404538,
      "learning_rate": 3.999471958298341e-06,
      "loss": 0.88697338,
      "num_input_tokens_seen": 6498365,
      "step": 309,
      "time_per_iteration": 2.593982458114624
    },
    {
      "auxiliary_loss_clip": 0.01249311,
      "auxiliary_loss_mlp": 0.01048292,
      "balance_loss_clip": 1.06114244,
      "balance_loss_mlp": 1.03239572,
      "epoch": 0.0372752960981182,
      "flos": 35958287848320.0,
      "grad_norm": 2.0678228494428605,
      "language_loss": 0.76049513,
      "learning_rate": 3.999453907708631e-06,
      "loss": 0.78347111,
      "num_input_tokens_seen": 6520770,
      "step": 310,
      "time_per_iteration": 2.8179128170013428
    },
    {
      "auxiliary_loss_clip": 0.01249794,
      "auxiliary_loss_mlp": 0.01035445,
      "balance_loss_clip": 1.06211233,
      "balance_loss_mlp": 1.0219748,
      "epoch": 0.03739553898875729,
      "flos": 20816157358080.0,
      "grad_norm": 1.8801163711324973,
      "language_loss": 0.81186295,
      "learning_rate": 3.999435553803353e-06,
      "loss": 0.83471537,
      "num_input_tokens_seen": 6540170,
      "step": 311,
      "time_per_iteration": 2.597727060317993
    },
    {
      "auxiliary_loss_clip": 0.01246807,
      "auxiliary_loss_mlp": 0.01046867,
      "balance_loss_clip": 1.06004477,
      "balance_loss_mlp": 1.03229392,
      "epoch": 0.03751578187939638,
      "flos": 20266080675840.0,
      "grad_norm": 2.267882931427267,
      "language_loss": 0.83132493,
      "learning_rate": 3.999416896585292e-06,
      "loss": 0.8542617,
      "num_input_tokens_seen": 6557200,
      "step": 312,
      "time_per_iteration": 2.6696341037750244
    },
    {
      "auxiliary_loss_clip": 0.01246876,
      "auxiliary_loss_mlp": 0.01042618,
      "balance_loss_clip": 1.05932963,
      "balance_loss_mlp": 1.02839661,
      "epoch": 0.03763602477003547,
      "flos": 20670170463360.0,
      "grad_norm": 3.165829077695885,
      "language_loss": 0.85840726,
      "learning_rate": 3.9993979360572775e-06,
      "loss": 0.88130212,
      "num_input_tokens_seen": 6577340,
      "step": 313,
      "time_per_iteration": 2.656134843826294
    },
    {
      "auxiliary_loss_clip": 0.01250509,
      "auxiliary_loss_mlp": 0.01043341,
      "balance_loss_clip": 1.06307101,
      "balance_loss_mlp": 1.0279454,
      "epoch": 0.03775626766067456,
      "flos": 16693250440320.0,
      "grad_norm": 3.1082010926117523,
      "language_loss": 0.83006811,
      "learning_rate": 3.999378672222185e-06,
      "loss": 0.8530066,
      "num_input_tokens_seen": 6595125,
      "step": 314,
      "time_per_iteration": 2.618967056274414
    },
    {
      "auxiliary_loss_clip": 0.01248595,
      "auxiliary_loss_mlp": 0.01044053,
      "balance_loss_clip": 1.06171656,
      "balance_loss_mlp": 1.02831721,
      "epoch": 0.03787651055131366,
      "flos": 21143897948160.0,
      "grad_norm": 2.2323075579221046,
      "language_loss": 0.82672745,
      "learning_rate": 3.9993591050829385e-06,
      "loss": 0.84965396,
      "num_input_tokens_seen": 6612990,
      "step": 315,
      "time_per_iteration": 2.5756924152374268
    },
    {
      "auxiliary_loss_clip": 0.01248131,
      "auxiliary_loss_mlp": 0.01047919,
      "balance_loss_clip": 1.06151497,
      "balance_loss_mlp": 1.03300619,
      "epoch": 0.037996753441952746,
      "flos": 22020274333440.0,
      "grad_norm": 1.9125174096469715,
      "language_loss": 0.79155445,
      "learning_rate": 3.999339234642506e-06,
      "loss": 0.81451499,
      "num_input_tokens_seen": 6632740,
      "step": 316,
      "time_per_iteration": 2.6408355236053467
    },
    {
      "auxiliary_loss_clip": 0.01249134,
      "auxiliary_loss_mlp": 0.01038143,
      "balance_loss_clip": 1.06254268,
      "balance_loss_mlp": 1.02235937,
      "epoch": 0.038116996332591836,
      "flos": 27711867323520.0,
      "grad_norm": 1.9874597232272164,
      "language_loss": 0.83811653,
      "learning_rate": 3.9993190609038994e-06,
      "loss": 0.86098933,
      "num_input_tokens_seen": 6651505,
      "step": 317,
      "time_per_iteration": 2.6572906970977783
    },
    {
      "auxiliary_loss_clip": 0.01245257,
      "auxiliary_loss_mlp": 0.01038937,
      "balance_loss_clip": 1.05903125,
      "balance_loss_mlp": 1.02364254,
      "epoch": 0.038237239223230926,
      "flos": 21180157683840.0,
      "grad_norm": 4.7221028255534865,
      "language_loss": 0.82897162,
      "learning_rate": 3.999298583870182e-06,
      "loss": 0.85181355,
      "num_input_tokens_seen": 6671090,
      "step": 318,
      "time_per_iteration": 2.5842549800872803
    },
    {
      "auxiliary_loss_clip": 0.0124629,
      "auxiliary_loss_mlp": 0.0104571,
      "balance_loss_clip": 1.05926049,
      "balance_loss_mlp": 1.03161991,
      "epoch": 0.038357482113870016,
      "flos": 25558968245760.0,
      "grad_norm": 3.428662117469337,
      "language_loss": 0.77408111,
      "learning_rate": 3.999277803544458e-06,
      "loss": 0.79700106,
      "num_input_tokens_seen": 6691245,
      "step": 319,
      "time_per_iteration": 2.6607906818389893
    },
    {
      "auxiliary_loss_clip": 0.01241513,
      "auxiliary_loss_mlp": 0.01009605,
      "balance_loss_clip": 1.06976867,
      "balance_loss_mlp": 1.00183249,
      "epoch": 0.038477725004509106,
      "flos": 59233537353600.0,
      "grad_norm": 0.9519716943613054,
      "language_loss": 0.62417126,
      "learning_rate": 3.999256719929882e-06,
      "loss": 0.64668244,
      "num_input_tokens_seen": 6752520,
      "step": 320,
      "time_per_iteration": 3.108815908432007
    },
    {
      "auxiliary_loss_clip": 0.01241106,
      "auxiliary_loss_mlp": 0.0100966,
      "balance_loss_clip": 1.06953156,
      "balance_loss_mlp": 1.00207806,
      "epoch": 0.0385979678951482,
      "flos": 67323543511680.0,
      "grad_norm": 1.2244186578227585,
      "language_loss": 0.67105258,
      "learning_rate": 3.999235333029651e-06,
      "loss": 0.69356024,
      "num_input_tokens_seen": 6806460,
      "step": 321,
      "time_per_iteration": 3.1175384521484375
    },
    {
      "auxiliary_loss_clip": 0.01246501,
      "auxiliary_loss_mlp": 0.01045845,
      "balance_loss_clip": 1.06112719,
      "balance_loss_mlp": 1.03202295,
      "epoch": 0.03871821078578729,
      "flos": 22748919592320.0,
      "grad_norm": 1.9042905565426391,
      "language_loss": 0.81905723,
      "learning_rate": 3.999213642847009e-06,
      "loss": 0.8419807,
      "num_input_tokens_seen": 6827045,
      "step": 322,
      "time_per_iteration": 2.5851845741271973
    },
    {
      "auxiliary_loss_clip": 0.01245445,
      "auxiliary_loss_mlp": 0.01039513,
      "balance_loss_clip": 1.05914593,
      "balance_loss_mlp": 1.02595925,
      "epoch": 0.03883845367642638,
      "flos": 26282684154240.0,
      "grad_norm": 1.6625268822107668,
      "language_loss": 0.91446888,
      "learning_rate": 3.999191649385247e-06,
      "loss": 0.93731844,
      "num_input_tokens_seen": 6848220,
      "step": 323,
      "time_per_iteration": 2.6640353202819824
    },
    {
      "auxiliary_loss_clip": 0.01237017,
      "auxiliary_loss_mlp": 0.01004267,
      "balance_loss_clip": 1.0665096,
      "balance_loss_mlp": 0.99778223,
      "epoch": 0.03895869656706547,
      "flos": 56968522277760.0,
      "grad_norm": 0.9654223697994841,
      "language_loss": 0.59814179,
      "learning_rate": 3.999169352647702e-06,
      "loss": 0.62055469,
      "num_input_tokens_seen": 6909400,
      "step": 324,
      "time_per_iteration": 3.065420150756836
    },
    {
      "auxiliary_loss_clip": 0.01245506,
      "auxiliary_loss_mlp": 0.01059647,
      "balance_loss_clip": 1.05951858,
      "balance_loss_mlp": 1.04398894,
      "epoch": 0.03907893945770456,
      "flos": 24865672688640.0,
      "grad_norm": 1.8185551029583482,
      "language_loss": 0.82958221,
      "learning_rate": 3.999146752637755e-06,
      "loss": 0.85263371,
      "num_input_tokens_seen": 6930445,
      "step": 325,
      "time_per_iteration": 3.457716226577759
    },
    {
      "auxiliary_loss_clip": 0.01244461,
      "auxiliary_loss_mlp": 0.01047285,
      "balance_loss_clip": 1.05893683,
      "balance_loss_mlp": 1.03323638,
      "epoch": 0.03919918234834365,
      "flos": 18370526129280.0,
      "grad_norm": 2.199574529494231,
      "language_loss": 0.89630949,
      "learning_rate": 3.999123849358836e-06,
      "loss": 0.91922688,
      "num_input_tokens_seen": 6948110,
      "step": 326,
      "time_per_iteration": 3.379753351211548
    },
    {
      "auxiliary_loss_clip": 0.01244216,
      "auxiliary_loss_mlp": 0.01044748,
      "balance_loss_clip": 1.05921721,
      "balance_loss_mlp": 1.02983522,
      "epoch": 0.03931942523898275,
      "flos": 25227587520000.0,
      "grad_norm": 11.387578955587127,
      "language_loss": 0.74722469,
      "learning_rate": 3.999100642814418e-06,
      "loss": 0.77011436,
      "num_input_tokens_seen": 6968550,
      "step": 327,
      "time_per_iteration": 3.3732664585113525
    },
    {
      "auxiliary_loss_clip": 0.01245974,
      "auxiliary_loss_mlp": 0.01051297,
      "balance_loss_clip": 1.06128478,
      "balance_loss_mlp": 1.03553724,
      "epoch": 0.03943966812962184,
      "flos": 23260120191360.0,
      "grad_norm": 2.461583063594985,
      "language_loss": 0.88029563,
      "learning_rate": 3.999077133008022e-06,
      "loss": 0.90326834,
      "num_input_tokens_seen": 6987135,
      "step": 328,
      "time_per_iteration": 2.567289352416992
    },
    {
      "auxiliary_loss_clip": 0.01244787,
      "auxiliary_loss_mlp": 0.01050117,
      "balance_loss_clip": 1.05982327,
      "balance_loss_mlp": 1.03426218,
      "epoch": 0.03955991102026093,
      "flos": 29171395008000.0,
      "grad_norm": 2.1539754725624958,
      "language_loss": 0.90551943,
      "learning_rate": 3.9990533199432145e-06,
      "loss": 0.92846847,
      "num_input_tokens_seen": 7008630,
      "step": 329,
      "time_per_iteration": 2.6746909618377686
    },
    {
      "auxiliary_loss_clip": 0.01244273,
      "auxiliary_loss_mlp": 0.0104394,
      "balance_loss_clip": 1.06054354,
      "balance_loss_mlp": 1.02978396,
      "epoch": 0.03968015391090002,
      "flos": 17604331920000.0,
      "grad_norm": 4.163627675041462,
      "language_loss": 0.75335753,
      "learning_rate": 3.999029203623608e-06,
      "loss": 0.77623963,
      "num_input_tokens_seen": 7026350,
      "step": 330,
      "time_per_iteration": 2.5271120071411133
    },
    {
      "auxiliary_loss_clip": 0.01244014,
      "auxiliary_loss_mlp": 0.01042488,
      "balance_loss_clip": 1.06021619,
      "balance_loss_mlp": 1.0276463,
      "epoch": 0.03980039680153911,
      "flos": 21801464622720.0,
      "grad_norm": 2.196343882144767,
      "language_loss": 0.86664975,
      "learning_rate": 3.99900478405286e-06,
      "loss": 0.88951468,
      "num_input_tokens_seen": 7045660,
      "step": 331,
      "time_per_iteration": 2.625694751739502
    },
    {
      "auxiliary_loss_clip": 0.0124456,
      "auxiliary_loss_mlp": 0.01042993,
      "balance_loss_clip": 1.06114364,
      "balance_loss_mlp": 1.03036296,
      "epoch": 0.0399206396921782,
      "flos": 15196932167040.0,
      "grad_norm": 3.926615307149951,
      "language_loss": 0.82135427,
      "learning_rate": 3.998980061234676e-06,
      "loss": 0.84422982,
      "num_input_tokens_seen": 7063575,
      "step": 332,
      "time_per_iteration": 2.577214479446411
    },
    {
      "auxiliary_loss_clip": 0.01244277,
      "auxiliary_loss_mlp": 0.0103942,
      "balance_loss_clip": 1.06004167,
      "balance_loss_mlp": 1.02438188,
      "epoch": 0.040040882582817294,
      "flos": 14424329802240.0,
      "grad_norm": 2.875971856320137,
      "language_loss": 0.75887215,
      "learning_rate": 3.9989550351728055e-06,
      "loss": 0.78170913,
      "num_input_tokens_seen": 7080505,
      "step": 333,
      "time_per_iteration": 2.5704469680786133
    },
    {
      "auxiliary_loss_clip": 0.01243901,
      "auxiliary_loss_mlp": 0.01042739,
      "balance_loss_clip": 1.06077266,
      "balance_loss_mlp": 1.02915502,
      "epoch": 0.040161125473456384,
      "flos": 19282896823680.0,
      "grad_norm": 2.427307111435378,
      "language_loss": 0.84455085,
      "learning_rate": 3.998929705871046e-06,
      "loss": 0.86741728,
      "num_input_tokens_seen": 7097860,
      "step": 334,
      "time_per_iteration": 2.530738592147827
    },
    {
      "auxiliary_loss_clip": 0.01244527,
      "auxiliary_loss_mlp": 0.01049325,
      "balance_loss_clip": 1.06150961,
      "balance_loss_mlp": 1.03569961,
      "epoch": 0.040281368364095474,
      "flos": 17822989958400.0,
      "grad_norm": 3.1480091036270785,
      "language_loss": 0.8883754,
      "learning_rate": 3.99890407333324e-06,
      "loss": 0.91131389,
      "num_input_tokens_seen": 7116390,
      "step": 335,
      "time_per_iteration": 2.585298538208008
    },
    {
      "auxiliary_loss_clip": 0.01239413,
      "auxiliary_loss_mlp": 0.01047285,
      "balance_loss_clip": 1.05593061,
      "balance_loss_mlp": 1.03317094,
      "epoch": 0.040401611254734564,
      "flos": 19575818565120.0,
      "grad_norm": 4.130852406266808,
      "language_loss": 0.87312758,
      "learning_rate": 3.998878137563275e-06,
      "loss": 0.89599454,
      "num_input_tokens_seen": 7135940,
      "step": 336,
      "time_per_iteration": 2.5476176738739014
    },
    {
      "auxiliary_loss_clip": 0.012421,
      "auxiliary_loss_mlp": 0.01038794,
      "balance_loss_clip": 1.05863082,
      "balance_loss_mlp": 1.02346396,
      "epoch": 0.040521854145373654,
      "flos": 22056647823360.0,
      "grad_norm": 3.03896965562858,
      "language_loss": 0.84899074,
      "learning_rate": 3.998851898565085e-06,
      "loss": 0.87179965,
      "num_input_tokens_seen": 7155745,
      "step": 337,
      "time_per_iteration": 2.626190423965454
    },
    {
      "auxiliary_loss_clip": 0.01242035,
      "auxiliary_loss_mlp": 0.01037506,
      "balance_loss_clip": 1.0586158,
      "balance_loss_mlp": 1.02286708,
      "epoch": 0.04064209703601274,
      "flos": 22676855137920.0,
      "grad_norm": 5.204485103304062,
      "language_loss": 0.82827795,
      "learning_rate": 3.998825356342653e-06,
      "loss": 0.85107338,
      "num_input_tokens_seen": 7175920,
      "step": 338,
      "time_per_iteration": 2.610912322998047
    },
    {
      "auxiliary_loss_clip": 0.01240342,
      "auxiliary_loss_mlp": 0.01046644,
      "balance_loss_clip": 1.05736578,
      "balance_loss_mlp": 1.03219628,
      "epoch": 0.04076233992665183,
      "flos": 38585255673600.0,
      "grad_norm": 2.7500950370296438,
      "language_loss": 0.73233533,
      "learning_rate": 3.998798510900003e-06,
      "loss": 0.75520515,
      "num_input_tokens_seen": 7198720,
      "step": 339,
      "time_per_iteration": 2.7970340251922607
    },
    {
      "auxiliary_loss_clip": 0.01241558,
      "auxiliary_loss_mlp": 0.01039281,
      "balance_loss_clip": 1.05914485,
      "balance_loss_mlp": 1.02508342,
      "epoch": 0.04088258281729093,
      "flos": 25887694705920.0,
      "grad_norm": 2.297230561153309,
      "language_loss": 0.83864343,
      "learning_rate": 3.998771362241207e-06,
      "loss": 0.8614518,
      "num_input_tokens_seen": 7219125,
      "step": 340,
      "time_per_iteration": 2.5891668796539307
    },
    {
      "auxiliary_loss_clip": 0.01238703,
      "auxiliary_loss_mlp": 0.01044923,
      "balance_loss_clip": 1.05685174,
      "balance_loss_mlp": 1.03059959,
      "epoch": 0.04100282570793002,
      "flos": 19791746501760.0,
      "grad_norm": 1.8836054685856334,
      "language_loss": 0.87655258,
      "learning_rate": 3.998743910370385e-06,
      "loss": 0.89938879,
      "num_input_tokens_seen": 7237985,
      "step": 341,
      "time_per_iteration": 2.642249822616577
    },
    {
      "auxiliary_loss_clip": 0.01245295,
      "auxiliary_loss_mlp": 0.01040112,
      "balance_loss_clip": 1.06322873,
      "balance_loss_mlp": 1.02457869,
      "epoch": 0.04112306859856911,
      "flos": 22567355487360.0,
      "grad_norm": 2.7435570153505933,
      "language_loss": 0.73258036,
      "learning_rate": 3.998716155291702e-06,
      "loss": 0.75543445,
      "num_input_tokens_seen": 7255825,
      "step": 342,
      "time_per_iteration": 2.5526576042175293
    },
    {
      "auxiliary_loss_clip": 0.01242578,
      "auxiliary_loss_mlp": 0.01044659,
      "balance_loss_clip": 1.06034184,
      "balance_loss_mlp": 1.03068173,
      "epoch": 0.0412433114892082,
      "flos": 25042686624000.0,
      "grad_norm": 2.158196818209638,
      "language_loss": 0.90525627,
      "learning_rate": 3.998688097009366e-06,
      "loss": 0.92812866,
      "num_input_tokens_seen": 7276590,
      "step": 343,
      "time_per_iteration": 2.6722848415374756
    },
    {
      "auxiliary_loss_clip": 0.01241899,
      "auxiliary_loss_mlp": 0.01040799,
      "balance_loss_clip": 1.05981493,
      "balance_loss_mlp": 1.02782917,
      "epoch": 0.04136355437984729,
      "flos": 25193678705280.0,
      "grad_norm": 2.7801823943817747,
      "language_loss": 0.80017233,
      "learning_rate": 3.998659735527636e-06,
      "loss": 0.82299936,
      "num_input_tokens_seen": 7295680,
      "step": 344,
      "time_per_iteration": 2.5967650413513184
    },
    {
      "auxiliary_loss_clip": 0.0124102,
      "auxiliary_loss_mlp": 0.01042175,
      "balance_loss_clip": 1.05893385,
      "balance_loss_mlp": 1.02866244,
      "epoch": 0.04148379727048638,
      "flos": 22969018517760.0,
      "grad_norm": 1.7467839331711863,
      "language_loss": 0.77593756,
      "learning_rate": 3.998631070850813e-06,
      "loss": 0.79876953,
      "num_input_tokens_seen": 7316300,
      "step": 345,
      "time_per_iteration": 2.640664577484131
    },
    {
      "auxiliary_loss_clip": 0.01243031,
      "auxiliary_loss_mlp": 0.01048291,
      "balance_loss_clip": 1.06142104,
      "balance_loss_mlp": 1.0354228,
      "epoch": 0.041604040161125476,
      "flos": 14065182990720.0,
      "grad_norm": 2.5277746894825444,
      "language_loss": 0.83522606,
      "learning_rate": 3.9986021029832455e-06,
      "loss": 0.85813928,
      "num_input_tokens_seen": 7333615,
      "step": 346,
      "time_per_iteration": 2.577589511871338
    },
    {
      "auxiliary_loss_clip": 0.01238686,
      "auxiliary_loss_mlp": 0.01039831,
      "balance_loss_clip": 1.05771518,
      "balance_loss_mlp": 1.02478063,
      "epoch": 0.041724283051764566,
      "flos": 12093393000960.0,
      "grad_norm": 3.7538974078745198,
      "language_loss": 0.91377968,
      "learning_rate": 3.9985728319293285e-06,
      "loss": 0.9365648,
      "num_input_tokens_seen": 7347590,
      "step": 347,
      "time_per_iteration": 2.615213632583618
    },
    {
      "auxiliary_loss_clip": 0.01240679,
      "auxiliary_loss_mlp": 0.01047653,
      "balance_loss_clip": 1.05840123,
      "balance_loss_mlp": 1.03269863,
      "epoch": 0.041844525942403656,
      "flos": 12386921431680.0,
      "grad_norm": 2.240619620190405,
      "language_loss": 0.85038447,
      "learning_rate": 3.998543257693501e-06,
      "loss": 0.87326777,
      "num_input_tokens_seen": 7364345,
      "step": 348,
      "time_per_iteration": 2.5228426456451416
    },
    {
      "auxiliary_loss_clip": 0.012407,
      "auxiliary_loss_mlp": 0.01050164,
      "balance_loss_clip": 1.05895948,
      "balance_loss_mlp": 1.0361805,
      "epoch": 0.041964768833042745,
      "flos": 23771624135040.0,
      "grad_norm": 2.3994723806786795,
      "language_loss": 0.87800318,
      "learning_rate": 3.998513380280251e-06,
      "loss": 0.90091181,
      "num_input_tokens_seen": 7384625,
      "step": 349,
      "time_per_iteration": 2.6710126399993896
    },
    {
      "auxiliary_loss_clip": 0.01241014,
      "auxiliary_loss_mlp": 0.01053471,
      "balance_loss_clip": 1.05973577,
      "balance_loss_mlp": 1.03859377,
      "epoch": 0.042085011723681835,
      "flos": 11876972129280.0,
      "grad_norm": 2.743312378495285,
      "language_loss": 0.94930542,
      "learning_rate": 3.99848319969411e-06,
      "loss": 0.97225022,
      "num_input_tokens_seen": 7402225,
      "step": 350,
      "time_per_iteration": 3.446974754333496
    },
    {
      "auxiliary_loss_clip": 0.01241002,
      "auxiliary_loss_mlp": 0.01049602,
      "balance_loss_clip": 1.06003881,
      "balance_loss_mlp": 1.03394961,
      "epoch": 0.042205254614320925,
      "flos": 16875876251520.0,
      "grad_norm": 2.220436882230696,
      "language_loss": 0.79336637,
      "learning_rate": 3.9984527159396564e-06,
      "loss": 0.81627238,
      "num_input_tokens_seen": 7420865,
      "step": 351,
      "time_per_iteration": 3.429722547531128
    },
    {
      "auxiliary_loss_clip": 0.01239977,
      "auxiliary_loss_mlp": 0.01042463,
      "balance_loss_clip": 1.05902028,
      "balance_loss_mlp": 1.02927876,
      "epoch": 0.04232549750496002,
      "flos": 25120817971200.0,
      "grad_norm": 2.6638090948062327,
      "language_loss": 0.84493649,
      "learning_rate": 3.9984219290215154e-06,
      "loss": 0.8677609,
      "num_input_tokens_seen": 7441040,
      "step": 352,
      "time_per_iteration": 2.615631580352783
    },
    {
      "auxiliary_loss_clip": 0.01239486,
      "auxiliary_loss_mlp": 0.01041747,
      "balance_loss_clip": 1.05917084,
      "balance_loss_mlp": 1.02892029,
      "epoch": 0.04244574039559911,
      "flos": 26726977157760.0,
      "grad_norm": 1.5947938855779404,
      "language_loss": 0.88940221,
      "learning_rate": 3.998390838944356e-06,
      "loss": 0.91221452,
      "num_input_tokens_seen": 7462545,
      "step": 353,
      "time_per_iteration": 3.433095693588257
    },
    {
      "auxiliary_loss_clip": 0.01239839,
      "auxiliary_loss_mlp": 0.01045584,
      "balance_loss_clip": 1.05934656,
      "balance_loss_mlp": 1.03190517,
      "epoch": 0.0425659832862382,
      "flos": 20925353664000.0,
      "grad_norm": 14.384109704341347,
      "language_loss": 0.90566778,
      "learning_rate": 3.998359445712895e-06,
      "loss": 0.92852205,
      "num_input_tokens_seen": 7481650,
      "step": 354,
      "time_per_iteration": 2.57170033454895
    },
    {
      "auxiliary_loss_clip": 0.01238079,
      "auxiliary_loss_mlp": 0.01039319,
      "balance_loss_clip": 1.05705869,
      "balance_loss_mlp": 1.02580118,
      "epoch": 0.04268622617687729,
      "flos": 23333360106240.0,
      "grad_norm": 2.2594061411306767,
      "language_loss": 0.80804253,
      "learning_rate": 3.9983277493318955e-06,
      "loss": 0.83081651,
      "num_input_tokens_seen": 7500945,
      "step": 355,
      "time_per_iteration": 2.6191246509552
    },
    {
      "auxiliary_loss_clip": 0.01239371,
      "auxiliary_loss_mlp": 0.01042038,
      "balance_loss_clip": 1.05841136,
      "balance_loss_mlp": 1.02923536,
      "epoch": 0.04280646906751638,
      "flos": 25996360158720.0,
      "grad_norm": 2.8222759475115073,
      "language_loss": 0.81108499,
      "learning_rate": 3.998295749806165e-06,
      "loss": 0.83389902,
      "num_input_tokens_seen": 7522170,
      "step": 356,
      "time_per_iteration": 2.5911574363708496
    },
    {
      "auxiliary_loss_clip": 0.0124121,
      "auxiliary_loss_mlp": 0.01050801,
      "balance_loss_clip": 1.06093729,
      "balance_loss_mlp": 1.03626382,
      "epoch": 0.04292671195815547,
      "flos": 26909261706240.0,
      "grad_norm": 2.047135259705625,
      "language_loss": 0.833323,
      "learning_rate": 3.998263447140558e-06,
      "loss": 0.85624313,
      "num_input_tokens_seen": 7542370,
      "step": 357,
      "time_per_iteration": 2.6167819499969482
    },
    {
      "auxiliary_loss_clip": 0.01236439,
      "auxiliary_loss_mlp": 0.01038444,
      "balance_loss_clip": 1.05671036,
      "balance_loss_mlp": 1.02577853,
      "epoch": 0.04304695484879457,
      "flos": 39460418680320.0,
      "grad_norm": 1.8812365216317783,
      "language_loss": 0.81608987,
      "learning_rate": 3.998230841339976e-06,
      "loss": 0.8388387,
      "num_input_tokens_seen": 7564380,
      "step": 358,
      "time_per_iteration": 2.736379623413086
    },
    {
      "auxiliary_loss_clip": 0.01240456,
      "auxiliary_loss_mlp": 0.01039827,
      "balance_loss_clip": 1.06037009,
      "balance_loss_mlp": 1.02654159,
      "epoch": 0.04316719773943366,
      "flos": 19648338036480.0,
      "grad_norm": 3.287717996232917,
      "language_loss": 0.84753382,
      "learning_rate": 3.998197932409363e-06,
      "loss": 0.87033671,
      "num_input_tokens_seen": 7582390,
      "step": 359,
      "time_per_iteration": 2.55450439453125
    },
    {
      "auxiliary_loss_clip": 0.01238781,
      "auxiliary_loss_mlp": 0.01046519,
      "balance_loss_clip": 1.05914855,
      "balance_loss_mlp": 1.03346515,
      "epoch": 0.04328744063007275,
      "flos": 22454329455360.0,
      "grad_norm": 2.331951428896571,
      "language_loss": 0.86120117,
      "learning_rate": 3.9981647203537125e-06,
      "loss": 0.88405418,
      "num_input_tokens_seen": 7599890,
      "step": 360,
      "time_per_iteration": 2.554692268371582
    },
    {
      "auxiliary_loss_clip": 0.01236895,
      "auxiliary_loss_mlp": 0.01048576,
      "balance_loss_clip": 1.05709076,
      "balance_loss_mlp": 1.03512883,
      "epoch": 0.04340768352071184,
      "flos": 21284879656320.0,
      "grad_norm": 2.1642703194138604,
      "language_loss": 0.96016037,
      "learning_rate": 3.998131205178063e-06,
      "loss": 0.98301506,
      "num_input_tokens_seen": 7618360,
      "step": 361,
      "time_per_iteration": 2.6024155616760254
    },
    {
      "auxiliary_loss_clip": 0.0123732,
      "auxiliary_loss_mlp": 0.01044322,
      "balance_loss_clip": 1.0581429,
      "balance_loss_mlp": 1.03085709,
      "epoch": 0.04352792641135093,
      "flos": 11585339602560.0,
      "grad_norm": 3.6159195563281514,
      "language_loss": 0.76668918,
      "learning_rate": 3.998097386887498e-06,
      "loss": 0.78950554,
      "num_input_tokens_seen": 7635435,
      "step": 362,
      "time_per_iteration": 2.5083303451538086
    },
    {
      "auxiliary_loss_clip": 0.01237646,
      "auxiliary_loss_mlp": 0.01052622,
      "balance_loss_clip": 1.05829334,
      "balance_loss_mlp": 1.03996229,
      "epoch": 0.04364816930199002,
      "flos": 23625826830720.0,
      "grad_norm": 1.7594744034829684,
      "language_loss": 0.84789968,
      "learning_rate": 3.998063265487148e-06,
      "loss": 0.87080234,
      "num_input_tokens_seen": 7656485,
      "step": 363,
      "time_per_iteration": 2.636453628540039
    },
    {
      "auxiliary_loss_clip": 0.01238654,
      "auxiliary_loss_mlp": 0.01043339,
      "balance_loss_clip": 1.05984676,
      "balance_loss_mlp": 1.03026223,
      "epoch": 0.043768412192629114,
      "flos": 14431534237440.0,
      "grad_norm": 2.375297362315454,
      "language_loss": 0.80904996,
      "learning_rate": 3.99802884098219e-06,
      "loss": 0.83186984,
      "num_input_tokens_seen": 7674595,
      "step": 364,
      "time_per_iteration": 2.5226876735687256
    },
    {
      "auxiliary_loss_clip": 0.01236985,
      "auxiliary_loss_mlp": 0.01038065,
      "balance_loss_clip": 1.05762184,
      "balance_loss_mlp": 1.02432644,
      "epoch": 0.043888655083268203,
      "flos": 26471301022080.0,
      "grad_norm": 4.085353516106533,
      "language_loss": 0.82257235,
      "learning_rate": 3.997994113377845e-06,
      "loss": 0.84532285,
      "num_input_tokens_seen": 7693495,
      "step": 365,
      "time_per_iteration": 2.651432752609253
    },
    {
      "auxiliary_loss_clip": 0.01237311,
      "auxiliary_loss_mlp": 0.01040553,
      "balance_loss_clip": 1.05890048,
      "balance_loss_mlp": 1.02761889,
      "epoch": 0.04400889797390729,
      "flos": 27237722739840.0,
      "grad_norm": 2.247929079354133,
      "language_loss": 0.82975113,
      "learning_rate": 3.9979590826793815e-06,
      "loss": 0.85252976,
      "num_input_tokens_seen": 7714685,
      "step": 366,
      "time_per_iteration": 2.5947580337524414
    },
    {
      "auxiliary_loss_clip": 0.01239664,
      "auxiliary_loss_mlp": 0.01040873,
      "balance_loss_clip": 1.0611676,
      "balance_loss_mlp": 1.02736068,
      "epoch": 0.04412914086454638,
      "flos": 20121534668160.0,
      "grad_norm": 2.0989297827384013,
      "language_loss": 0.80909348,
      "learning_rate": 3.997923748892113e-06,
      "loss": 0.83189887,
      "num_input_tokens_seen": 7734005,
      "step": 367,
      "time_per_iteration": 2.6060447692871094
    },
    {
      "auxiliary_loss_clip": 0.01237027,
      "auxiliary_loss_mlp": 0.01045351,
      "balance_loss_clip": 1.05903721,
      "balance_loss_mlp": 1.03302526,
      "epoch": 0.04424938375518547,
      "flos": 22606989932160.0,
      "grad_norm": 1.8106932636468964,
      "language_loss": 0.88651043,
      "learning_rate": 3.9978881120214015e-06,
      "loss": 0.90933424,
      "num_input_tokens_seen": 7755525,
      "step": 368,
      "time_per_iteration": 2.667741537094116
    },
    {
      "auxiliary_loss_clip": 0.01236448,
      "auxiliary_loss_mlp": 0.01039605,
      "balance_loss_clip": 1.05815268,
      "balance_loss_mlp": 1.02643824,
      "epoch": 0.04436962664582456,
      "flos": 24134562754560.0,
      "grad_norm": 2.3111558366632745,
      "language_loss": 0.79111445,
      "learning_rate": 3.997852172072652e-06,
      "loss": 0.81387496,
      "num_input_tokens_seen": 7776740,
      "step": 369,
      "time_per_iteration": 2.671430826187134
    },
    {
      "auxiliary_loss_clip": 0.01237944,
      "auxiliary_loss_mlp": 0.01047427,
      "balance_loss_clip": 1.05901539,
      "balance_loss_mlp": 1.03372979,
      "epoch": 0.04448986953646366,
      "flos": 18224842579200.0,
      "grad_norm": 3.1238431053181857,
      "language_loss": 0.89210987,
      "learning_rate": 3.9978159290513155e-06,
      "loss": 0.91496354,
      "num_input_tokens_seen": 7794820,
      "step": 370,
      "time_per_iteration": 2.6187853813171387
    },
    {
      "auxiliary_loss_clip": 0.01238539,
      "auxiliary_loss_mlp": 0.01049457,
      "balance_loss_clip": 1.05965829,
      "balance_loss_mlp": 1.03581977,
      "epoch": 0.04461011242710275,
      "flos": 30120556291200.0,
      "grad_norm": 2.0710386323607395,
      "language_loss": 0.80196512,
      "learning_rate": 3.997779382962892e-06,
      "loss": 0.82484508,
      "num_input_tokens_seen": 7817705,
      "step": 371,
      "time_per_iteration": 2.681783437728882
    },
    {
      "auxiliary_loss_clip": 0.01236246,
      "auxiliary_loss_mlp": 0.01040471,
      "balance_loss_clip": 1.05823863,
      "balance_loss_mlp": 1.02835298,
      "epoch": 0.04473035531774184,
      "flos": 29755115078400.0,
      "grad_norm": 2.345044377229956,
      "language_loss": 0.73643851,
      "learning_rate": 3.997742533812924e-06,
      "loss": 0.7592057,
      "num_input_tokens_seen": 7840970,
      "step": 372,
      "time_per_iteration": 2.7065088748931885
    },
    {
      "auxiliary_loss_clip": 0.01237893,
      "auxiliary_loss_mlp": 0.0105021,
      "balance_loss_clip": 1.05990803,
      "balance_loss_mlp": 1.03737092,
      "epoch": 0.04485059820838093,
      "flos": 13153229395200.0,
      "grad_norm": 5.004227421058113,
      "language_loss": 0.9219954,
      "learning_rate": 3.997705381607001e-06,
      "loss": 0.94487643,
      "num_input_tokens_seen": 7857785,
      "step": 373,
      "time_per_iteration": 2.59145450592041
    },
    {
      "auxiliary_loss_clip": 0.01230335,
      "auxiliary_loss_mlp": 0.01010848,
      "balance_loss_clip": 1.07028222,
      "balance_loss_mlp": 1.00548398,
      "epoch": 0.04497084109902002,
      "flos": 68100696046080.0,
      "grad_norm": 1.4469240094420477,
      "language_loss": 0.60236967,
      "learning_rate": 3.997667926350761e-06,
      "loss": 0.62478149,
      "num_input_tokens_seen": 7916115,
      "step": 374,
      "time_per_iteration": 3.0899760723114014
    },
    {
      "auxiliary_loss_clip": 0.01229377,
      "auxiliary_loss_mlp": 0.01013057,
      "balance_loss_clip": 1.06954718,
      "balance_loss_mlp": 1.00778759,
      "epoch": 0.04509108398965911,
      "flos": 64348880135040.0,
      "grad_norm": 1.0391640369098527,
      "language_loss": 0.577371,
      "learning_rate": 3.997630168049886e-06,
      "loss": 0.59979534,
      "num_input_tokens_seen": 7974480,
      "step": 375,
      "time_per_iteration": 3.1789073944091797
    },
    {
      "auxiliary_loss_clip": 0.01236679,
      "auxiliary_loss_mlp": 0.01044819,
      "balance_loss_clip": 1.05843794,
      "balance_loss_mlp": 1.03158712,
      "epoch": 0.045211326880298205,
      "flos": 22273182449280.0,
      "grad_norm": 1.8204928222543986,
      "language_loss": 0.773139,
      "learning_rate": 3.997592106710101e-06,
      "loss": 0.79595399,
      "num_input_tokens_seen": 7993940,
      "step": 376,
      "time_per_iteration": 2.7307708263397217
    },
    {
      "auxiliary_loss_clip": 0.01235574,
      "auxiliary_loss_mlp": 0.0104059,
      "balance_loss_clip": 1.05840945,
      "balance_loss_mlp": 1.02822232,
      "epoch": 0.045331569770937295,
      "flos": 32162097732480.0,
      "grad_norm": 2.74914088134152,
      "language_loss": 0.65522915,
      "learning_rate": 3.997553742337182e-06,
      "loss": 0.67799079,
      "num_input_tokens_seen": 8013365,
      "step": 377,
      "time_per_iteration": 4.028069734573364
    },
    {
      "auxiliary_loss_clip": 0.01236706,
      "auxiliary_loss_mlp": 0.0104119,
      "balance_loss_clip": 1.05962741,
      "balance_loss_mlp": 1.02772546,
      "epoch": 0.045451812661576385,
      "flos": 22165616620800.0,
      "grad_norm": 1.760110595480179,
      "language_loss": 0.91209728,
      "learning_rate": 3.997515074936949e-06,
      "loss": 0.9348762,
      "num_input_tokens_seen": 8034240,
      "step": 378,
      "time_per_iteration": 3.410679340362549
    },
    {
      "auxiliary_loss_clip": 0.01235804,
      "auxiliary_loss_mlp": 0.01046151,
      "balance_loss_clip": 1.05854344,
      "balance_loss_mlp": 1.03362203,
      "epoch": 0.045572055552215475,
      "flos": 16583864544000.0,
      "grad_norm": 7.69849706106605,
      "language_loss": 0.86803293,
      "learning_rate": 3.997476104515268e-06,
      "loss": 0.89085257,
      "num_input_tokens_seen": 8052430,
      "step": 379,
      "time_per_iteration": 3.4603052139282227
    },
    {
      "auxiliary_loss_clip": 0.01236012,
      "auxiliary_loss_mlp": 0.01038558,
      "balance_loss_clip": 1.05986178,
      "balance_loss_mlp": 1.0268693,
      "epoch": 0.045692298442854565,
      "flos": 17605317790080.0,
      "grad_norm": 1.9372605040263957,
      "language_loss": 0.77389789,
      "learning_rate": 3.9974368310780485e-06,
      "loss": 0.7966435,
      "num_input_tokens_seen": 8069605,
      "step": 380,
      "time_per_iteration": 2.5980255603790283
    },
    {
      "auxiliary_loss_clip": 0.01239041,
      "auxiliary_loss_mlp": 0.0104757,
      "balance_loss_clip": 1.06109071,
      "balance_loss_mlp": 1.0335331,
      "epoch": 0.045812541333493655,
      "flos": 26763540238080.0,
      "grad_norm": 3.2304460737641123,
      "language_loss": 0.74277109,
      "learning_rate": 3.997397254631251e-06,
      "loss": 0.76563728,
      "num_input_tokens_seen": 8090225,
      "step": 381,
      "time_per_iteration": 2.6274149417877197
    },
    {
      "auxiliary_loss_clip": 0.01226917,
      "auxiliary_loss_mlp": 0.01006205,
      "balance_loss_clip": 1.06874514,
      "balance_loss_mlp": 1.00105512,
      "epoch": 0.04593278422413275,
      "flos": 60256431486720.0,
      "grad_norm": 0.8154360622871177,
      "language_loss": 0.60038233,
      "learning_rate": 3.997357375180878e-06,
      "loss": 0.62271357,
      "num_input_tokens_seen": 8154505,
      "step": 382,
      "time_per_iteration": 3.2534427642822266
    },
    {
      "auxiliary_loss_clip": 0.01234807,
      "auxiliary_loss_mlp": 0.01037501,
      "balance_loss_clip": 1.05869055,
      "balance_loss_mlp": 1.02386308,
      "epoch": 0.04605302711477184,
      "flos": 21801426704640.0,
      "grad_norm": 1.8122148323628542,
      "language_loss": 0.75055027,
      "learning_rate": 3.997317192732979e-06,
      "loss": 0.77327335,
      "num_input_tokens_seen": 8173285,
      "step": 383,
      "time_per_iteration": 2.591768503189087
    },
    {
      "auxiliary_loss_clip": 0.01235934,
      "auxiliary_loss_mlp": 0.01049449,
      "balance_loss_clip": 1.05918241,
      "balance_loss_mlp": 1.03554356,
      "epoch": 0.04617327000541093,
      "flos": 19461503318400.0,
      "grad_norm": 2.2965301674500673,
      "language_loss": 0.81942296,
      "learning_rate": 3.99727670729365e-06,
      "loss": 0.84227681,
      "num_input_tokens_seen": 8191845,
      "step": 384,
      "time_per_iteration": 2.630499839782715
    },
    {
      "auxiliary_loss_clip": 0.01238229,
      "auxiliary_loss_mlp": 0.01048342,
      "balance_loss_clip": 1.06127441,
      "balance_loss_mlp": 1.0355444,
      "epoch": 0.04629351289605002,
      "flos": 25413853466880.0,
      "grad_norm": 2.2787111552539376,
      "language_loss": 0.78029168,
      "learning_rate": 3.997235918869033e-06,
      "loss": 0.80315745,
      "num_input_tokens_seen": 8212880,
      "step": 385,
      "time_per_iteration": 2.6025524139404297
    },
    {
      "auxiliary_loss_clip": 0.01236872,
      "auxiliary_loss_mlp": 0.01037312,
      "balance_loss_clip": 1.0613277,
      "balance_loss_mlp": 1.02545631,
      "epoch": 0.04641375578668911,
      "flos": 20560367468160.0,
      "grad_norm": 2.3012974785784737,
      "language_loss": 0.82564896,
      "learning_rate": 3.997194827465315e-06,
      "loss": 0.84839082,
      "num_input_tokens_seen": 8231475,
      "step": 386,
      "time_per_iteration": 2.611821413040161
    },
    {
      "auxiliary_loss_clip": 0.01234393,
      "auxiliary_loss_mlp": 0.01038361,
      "balance_loss_clip": 1.0586319,
      "balance_loss_mlp": 1.02517641,
      "epoch": 0.0465339986773282,
      "flos": 13190361246720.0,
      "grad_norm": 2.876751765492417,
      "language_loss": 0.91206145,
      "learning_rate": 3.997153433088728e-06,
      "loss": 0.93478906,
      "num_input_tokens_seen": 8248600,
      "step": 387,
      "time_per_iteration": 2.5084497928619385
    },
    {
      "auxiliary_loss_clip": 0.0123644,
      "auxiliary_loss_mlp": 0.01044402,
      "balance_loss_clip": 1.06055665,
      "balance_loss_mlp": 1.03014469,
      "epoch": 0.0466542415679673,
      "flos": 25558892409600.0,
      "grad_norm": 2.4390953458666615,
      "language_loss": 0.81445962,
      "learning_rate": 3.997111735745554e-06,
      "loss": 0.83726805,
      "num_input_tokens_seen": 8271570,
      "step": 388,
      "time_per_iteration": 2.638400077819824
    },
    {
      "auxiliary_loss_clip": 0.01235481,
      "auxiliary_loss_mlp": 0.01045596,
      "balance_loss_clip": 1.06026173,
      "balance_loss_mlp": 1.03132629,
      "epoch": 0.04677448445860639,
      "flos": 22238932371840.0,
      "grad_norm": 3.557701999918069,
      "language_loss": 0.82619166,
      "learning_rate": 3.997069735442118e-06,
      "loss": 0.84900236,
      "num_input_tokens_seen": 8291265,
      "step": 389,
      "time_per_iteration": 2.6065714359283447
    },
    {
      "auxiliary_loss_clip": 0.01232383,
      "auxiliary_loss_mlp": 0.01043322,
      "balance_loss_clip": 1.057477,
      "balance_loss_mlp": 1.03070998,
      "epoch": 0.04689472734924548,
      "flos": 28150358860800.0,
      "grad_norm": 2.2519991425661905,
      "language_loss": 0.80261075,
      "learning_rate": 3.997027432184792e-06,
      "loss": 0.82536781,
      "num_input_tokens_seen": 8315925,
      "step": 390,
      "time_per_iteration": 2.668071985244751
    },
    {
      "auxiliary_loss_clip": 0.01233801,
      "auxiliary_loss_mlp": 0.0104109,
      "balance_loss_clip": 1.05866468,
      "balance_loss_mlp": 1.0283525,
      "epoch": 0.04701497023988457,
      "flos": 23151189312000.0,
      "grad_norm": 2.1078698592760885,
      "language_loss": 0.8939507,
      "learning_rate": 3.99698482597999e-06,
      "loss": 0.91669965,
      "num_input_tokens_seen": 8333605,
      "step": 391,
      "time_per_iteration": 2.562431573867798
    },
    {
      "auxiliary_loss_clip": 0.01222259,
      "auxiliary_loss_mlp": 0.01012872,
      "balance_loss_clip": 1.06627011,
      "balance_loss_mlp": 1.00736451,
      "epoch": 0.04713521313052366,
      "flos": 64834930995840.0,
      "grad_norm": 0.8644188652668587,
      "language_loss": 0.63924325,
      "learning_rate": 3.99694191683418e-06,
      "loss": 0.66159463,
      "num_input_tokens_seen": 8394405,
      "step": 392,
      "time_per_iteration": 3.2025201320648193
    },
    {
      "auxiliary_loss_clip": 0.01235326,
      "auxiliary_loss_mlp": 0.01042384,
      "balance_loss_clip": 1.06049752,
      "balance_loss_mlp": 1.02909231,
      "epoch": 0.047255456021162746,
      "flos": 18773630046720.0,
      "grad_norm": 1.8447974923643475,
      "language_loss": 0.82197082,
      "learning_rate": 3.996898704753867e-06,
      "loss": 0.8447479,
      "num_input_tokens_seen": 8412355,
      "step": 393,
      "time_per_iteration": 2.720254421234131
    },
    {
      "auxiliary_loss_clip": 0.01232282,
      "auxiliary_loss_mlp": 0.01040745,
      "balance_loss_clip": 1.05767238,
      "balance_loss_mlp": 1.02793562,
      "epoch": 0.04737569891180184,
      "flos": 22055965297920.0,
      "grad_norm": 3.3133254934445007,
      "language_loss": 0.87870401,
      "learning_rate": 3.996855189745609e-06,
      "loss": 0.9014343,
      "num_input_tokens_seen": 8431620,
      "step": 394,
      "time_per_iteration": 2.5753941535949707
    },
    {
      "auxiliary_loss_clip": 0.01231983,
      "auxiliary_loss_mlp": 0.0104341,
      "balance_loss_clip": 1.05732942,
      "balance_loss_mlp": 1.03069043,
      "epoch": 0.04749594180244093,
      "flos": 29059809863040.0,
      "grad_norm": 2.054490794887046,
      "language_loss": 0.92559791,
      "learning_rate": 3.996811371816007e-06,
      "loss": 0.94835186,
      "num_input_tokens_seen": 8454045,
      "step": 395,
      "time_per_iteration": 2.6472885608673096
    },
    {
      "auxiliary_loss_clip": 0.0123346,
      "auxiliary_loss_mlp": 0.01047395,
      "balance_loss_clip": 1.05912983,
      "balance_loss_mlp": 1.03536057,
      "epoch": 0.04761618469308002,
      "flos": 35114948161920.0,
      "grad_norm": 2.5412138233122423,
      "language_loss": 0.77975589,
      "learning_rate": 3.996767250971707e-06,
      "loss": 0.8025645,
      "num_input_tokens_seen": 8476785,
      "step": 396,
      "time_per_iteration": 2.6715004444122314
    },
    {
      "auxiliary_loss_clip": 0.01236208,
      "auxiliary_loss_mlp": 0.01040637,
      "balance_loss_clip": 1.06136537,
      "balance_loss_mlp": 1.02769089,
      "epoch": 0.04773642758371911,
      "flos": 25633118194560.0,
      "grad_norm": 4.704708519096274,
      "language_loss": 0.87040222,
      "learning_rate": 3.996722827219403e-06,
      "loss": 0.89317071,
      "num_input_tokens_seen": 8498400,
      "step": 397,
      "time_per_iteration": 2.635460615158081
    },
    {
      "auxiliary_loss_clip": 0.01236382,
      "auxiliary_loss_mlp": 0.01045765,
      "balance_loss_clip": 1.06192982,
      "balance_loss_mlp": 1.03212702,
      "epoch": 0.0478566704743582,
      "flos": 20633607383040.0,
      "grad_norm": 3.2036145678533625,
      "language_loss": 0.82526267,
      "learning_rate": 3.996678100565833e-06,
      "loss": 0.84808409,
      "num_input_tokens_seen": 8517455,
      "step": 398,
      "time_per_iteration": 2.552868366241455
    },
    {
      "auxiliary_loss_clip": 0.01232577,
      "auxiliary_loss_mlp": 0.01044701,
      "balance_loss_clip": 1.05893314,
      "balance_loss_mlp": 1.03154004,
      "epoch": 0.04797691336499729,
      "flos": 18837276687360.0,
      "grad_norm": 10.311637107563971,
      "language_loss": 0.88290048,
      "learning_rate": 3.996633071017783e-06,
      "loss": 0.90567327,
      "num_input_tokens_seen": 8534085,
      "step": 399,
      "time_per_iteration": 2.5647013187408447
    },
    {
      "auxiliary_loss_clip": 0.01232593,
      "auxiliary_loss_mlp": 0.01041504,
      "balance_loss_clip": 1.05945837,
      "balance_loss_mlp": 1.02951765,
      "epoch": 0.04809715625563638,
      "flos": 21101457565440.0,
      "grad_norm": 2.206246956393533,
      "language_loss": 0.81513345,
      "learning_rate": 3.996587738582084e-06,
      "loss": 0.83787441,
      "num_input_tokens_seen": 8550885,
      "step": 400,
      "time_per_iteration": 2.536790609359741
    },
    {
      "auxiliary_loss_clip": 0.01231113,
      "auxiliary_loss_mlp": 0.01033103,
      "balance_loss_clip": 1.05744636,
      "balance_loss_mlp": 1.02088976,
      "epoch": 0.04821739914627548,
      "flos": 23807921788800.0,
      "grad_norm": 2.698209390812706,
      "language_loss": 0.86146128,
      "learning_rate": 3.9965421032656115e-06,
      "loss": 0.88410342,
      "num_input_tokens_seen": 8570815,
      "step": 401,
      "time_per_iteration": 2.625368118286133
    },
    {
      "auxiliary_loss_clip": 0.01231329,
      "auxiliary_loss_mlp": 0.01040241,
      "balance_loss_clip": 1.05782127,
      "balance_loss_mlp": 1.02669871,
      "epoch": 0.04833764203691457,
      "flos": 22202786390400.0,
      "grad_norm": 2.803838408523824,
      "language_loss": 0.93539047,
      "learning_rate": 3.99649616507529e-06,
      "loss": 0.95810616,
      "num_input_tokens_seen": 8589910,
      "step": 402,
      "time_per_iteration": 2.5367324352264404
    },
    {
      "auxiliary_loss_clip": 0.01217263,
      "auxiliary_loss_mlp": 0.01007336,
      "balance_loss_clip": 1.06397581,
      "balance_loss_mlp": 1.00228202,
      "epoch": 0.04845788492755366,
      "flos": 65910703034880.0,
      "grad_norm": 0.8918122996829708,
      "language_loss": 0.63187039,
      "learning_rate": 3.996449924018088e-06,
      "loss": 0.65411639,
      "num_input_tokens_seen": 8650370,
      "step": 403,
      "time_per_iteration": 5.132178783416748
    },
    {
      "auxiliary_loss_clip": 0.01229268,
      "auxiliary_loss_mlp": 0.01042597,
      "balance_loss_clip": 1.05678725,
      "balance_loss_mlp": 1.03078294,
      "epoch": 0.04857812781819275,
      "flos": 19283313922560.0,
      "grad_norm": 2.051345761584914,
      "language_loss": 0.79149348,
      "learning_rate": 3.99640338010102e-06,
      "loss": 0.81421208,
      "num_input_tokens_seen": 8669475,
      "step": 404,
      "time_per_iteration": 2.600294828414917
    },
    {
      "auxiliary_loss_clip": 0.01228376,
      "auxiliary_loss_mlp": 0.01036828,
      "balance_loss_clip": 1.05557489,
      "balance_loss_mlp": 1.02448404,
      "epoch": 0.04869837070883184,
      "flos": 24064735466880.0,
      "grad_norm": 5.860691389745506,
      "language_loss": 0.78746057,
      "learning_rate": 3.996356533331146e-06,
      "loss": 0.8101126,
      "num_input_tokens_seen": 8691345,
      "step": 405,
      "time_per_iteration": 3.375269889831543
    },
    {
      "auxiliary_loss_clip": 0.01233063,
      "auxiliary_loss_mlp": 0.01037753,
      "balance_loss_clip": 1.05908895,
      "balance_loss_mlp": 1.02474725,
      "epoch": 0.04881861359947093,
      "flos": 25189242289920.0,
      "grad_norm": 2.539136108203386,
      "language_loss": 0.61637151,
      "learning_rate": 3.996309383715573e-06,
      "loss": 0.63907963,
      "num_input_tokens_seen": 8710125,
      "step": 406,
      "time_per_iteration": 2.6496548652648926
    },
    {
      "auxiliary_loss_clip": 0.0123042,
      "auxiliary_loss_mlp": 0.0103715,
      "balance_loss_clip": 1.05703056,
      "balance_loss_mlp": 1.0247581,
      "epoch": 0.048938856490110025,
      "flos": 16364789406720.0,
      "grad_norm": 3.398131822465239,
      "language_loss": 0.73268139,
      "learning_rate": 3.996261931261454e-06,
      "loss": 0.75535709,
      "num_input_tokens_seen": 8728705,
      "step": 407,
      "time_per_iteration": 2.565878391265869
    },
    {
      "auxiliary_loss_clip": 0.01232522,
      "auxiliary_loss_mlp": 0.01041003,
      "balance_loss_clip": 1.0598731,
      "balance_loss_mlp": 1.02863526,
      "epoch": 0.049059099380749115,
      "flos": 29897499755520.0,
      "grad_norm": 1.8701191980533987,
      "language_loss": 0.86267138,
      "learning_rate": 3.996214175975987e-06,
      "loss": 0.88540661,
      "num_input_tokens_seen": 8749225,
      "step": 408,
      "time_per_iteration": 2.6104626655578613
    },
    {
      "auxiliary_loss_clip": 0.01233004,
      "auxiliary_loss_mlp": 0.01040917,
      "balance_loss_clip": 1.05978918,
      "balance_loss_mlp": 1.02839983,
      "epoch": 0.049179342271388204,
      "flos": 35921800604160.0,
      "grad_norm": 2.442901145794508,
      "language_loss": 0.78753662,
      "learning_rate": 3.996166117866417e-06,
      "loss": 0.81027579,
      "num_input_tokens_seen": 8771160,
      "step": 409,
      "time_per_iteration": 2.6960995197296143
    },
    {
      "auxiliary_loss_clip": 0.01228907,
      "auxiliary_loss_mlp": 0.0103793,
      "balance_loss_clip": 1.05656266,
      "balance_loss_mlp": 1.02569318,
      "epoch": 0.049299585162027294,
      "flos": 14612984588160.0,
      "grad_norm": 2.6096892259359707,
      "language_loss": 0.86881876,
      "learning_rate": 3.996117756940035e-06,
      "loss": 0.89148712,
      "num_input_tokens_seen": 8787845,
      "step": 410,
      "time_per_iteration": 2.5319223403930664
    },
    {
      "auxiliary_loss_clip": 0.01231327,
      "auxiliary_loss_mlp": 0.01036279,
      "balance_loss_clip": 1.05867982,
      "balance_loss_mlp": 1.02436996,
      "epoch": 0.049419828052666384,
      "flos": 19569675836160.0,
      "grad_norm": 1.9660855627293563,
      "language_loss": 0.97713834,
      "learning_rate": 3.996069093204175e-06,
      "loss": 0.99981433,
      "num_input_tokens_seen": 8803805,
      "step": 411,
      "time_per_iteration": 2.582770347595215
    },
    {
      "auxiliary_loss_clip": 0.0123447,
      "auxiliary_loss_mlp": 0.01043235,
      "balance_loss_clip": 1.06142688,
      "balance_loss_mlp": 1.03004432,
      "epoch": 0.049540070943305474,
      "flos": 13661472384000.0,
      "grad_norm": 4.121522055150799,
      "language_loss": 0.87835485,
      "learning_rate": 3.996020126666221e-06,
      "loss": 0.90113193,
      "num_input_tokens_seen": 8820785,
      "step": 412,
      "time_per_iteration": 2.5355989933013916
    },
    {
      "auxiliary_loss_clip": 0.01230717,
      "auxiliary_loss_mlp": 0.01040115,
      "balance_loss_clip": 1.05801392,
      "balance_loss_mlp": 1.02824235,
      "epoch": 0.04966031383394457,
      "flos": 21834008386560.0,
      "grad_norm": 3.158824637898556,
      "language_loss": 0.82001692,
      "learning_rate": 3.995970857333601e-06,
      "loss": 0.84272522,
      "num_input_tokens_seen": 8841195,
      "step": 413,
      "time_per_iteration": 2.6443607807159424
    },
    {
      "auxiliary_loss_clip": 0.01231196,
      "auxiliary_loss_mlp": 0.01044005,
      "balance_loss_clip": 1.05800879,
      "balance_loss_mlp": 1.03105903,
      "epoch": 0.04978055672458366,
      "flos": 28621166653440.0,
      "grad_norm": 1.764383513156545,
      "language_loss": 0.79343081,
      "learning_rate": 3.995921285213789e-06,
      "loss": 0.81618285,
      "num_input_tokens_seen": 8861455,
      "step": 414,
      "time_per_iteration": 2.6043307781219482
    },
    {
      "auxiliary_loss_clip": 0.01230035,
      "auxiliary_loss_mlp": 0.01040911,
      "balance_loss_clip": 1.05844367,
      "balance_loss_mlp": 1.02953899,
      "epoch": 0.04990079961522275,
      "flos": 19830243404160.0,
      "grad_norm": 2.356273669127626,
      "language_loss": 0.80666167,
      "learning_rate": 3.995871410314305e-06,
      "loss": 0.82937115,
      "num_input_tokens_seen": 8880015,
      "step": 415,
      "time_per_iteration": 2.564713716506958
    },
    {
      "auxiliary_loss_clip": 0.01199556,
      "auxiliary_loss_mlp": 0.01009705,
      "balance_loss_clip": 1.06200826,
      "balance_loss_mlp": 1.00467491,
      "epoch": 0.05002104250586184,
      "flos": 62741469651840.0,
      "grad_norm": 0.907626873066629,
      "language_loss": 0.59585357,
      "learning_rate": 3.995821232642714e-06,
      "loss": 0.61794615,
      "num_input_tokens_seen": 8938420,
      "step": 416,
      "time_per_iteration": 3.243654489517212
    },
    {
      "auxiliary_loss_clip": 0.01211622,
      "auxiliary_loss_mlp": 0.01041008,
      "balance_loss_clip": 1.05697501,
      "balance_loss_mlp": 1.02929568,
      "epoch": 0.05014128539650093,
      "flos": 27931018296960.0,
      "grad_norm": 2.6026953006728,
      "language_loss": 0.82252985,
      "learning_rate": 3.995770752206629e-06,
      "loss": 0.84505618,
      "num_input_tokens_seen": 8959495,
      "step": 417,
      "time_per_iteration": 2.649312734603882
    },
    {
      "auxiliary_loss_clip": 0.01230636,
      "auxiliary_loss_mlp": 0.01034262,
      "balance_loss_clip": 1.05887532,
      "balance_loss_mlp": 1.02098203,
      "epoch": 0.05026152828714002,
      "flos": 17707120070400.0,
      "grad_norm": 2.0081543925865883,
      "language_loss": 0.97136909,
      "learning_rate": 3.995719969013709e-06,
      "loss": 0.99401808,
      "num_input_tokens_seen": 8976675,
      "step": 418,
      "time_per_iteration": 2.5310115814208984
    },
    {
      "auxiliary_loss_clip": 0.01194498,
      "auxiliary_loss_mlp": 0.01040479,
      "balance_loss_clip": 1.05400836,
      "balance_loss_mlp": 1.02765799,
      "epoch": 0.05038177117777912,
      "flos": 19135165697280.0,
      "grad_norm": 4.762142695698614,
      "language_loss": 0.85583031,
      "learning_rate": 3.995668883071655e-06,
      "loss": 0.87818003,
      "num_input_tokens_seen": 8992900,
      "step": 419,
      "time_per_iteration": 2.6428098678588867
    },
    {
      "auxiliary_loss_clip": 0.01229199,
      "auxiliary_loss_mlp": 0.01041044,
      "balance_loss_clip": 1.05808806,
      "balance_loss_mlp": 1.0282464,
      "epoch": 0.050502014068418206,
      "flos": 20669791282560.0,
      "grad_norm": 2.448454433520874,
      "language_loss": 0.90793216,
      "learning_rate": 3.995617494388219e-06,
      "loss": 0.93063462,
      "num_input_tokens_seen": 9011020,
      "step": 420,
      "time_per_iteration": 2.7057225704193115
    },
    {
      "auxiliary_loss_clip": 0.01197638,
      "auxiliary_loss_mlp": 0.01034054,
      "balance_loss_clip": 1.05527747,
      "balance_loss_mlp": 1.02150774,
      "epoch": 0.050622256959057296,
      "flos": 21363238512000.0,
      "grad_norm": 2.5382097537172865,
      "language_loss": 0.80261964,
      "learning_rate": 3.995565802971196e-06,
      "loss": 0.82493657,
      "num_input_tokens_seen": 9030995,
      "step": 421,
      "time_per_iteration": 2.649935245513916
    },
    {
      "auxiliary_loss_clip": 0.01199681,
      "auxiliary_loss_mlp": 0.01039554,
      "balance_loss_clip": 1.05455434,
      "balance_loss_mlp": 1.02799106,
      "epoch": 0.050742499849696386,
      "flos": 27676100522880.0,
      "grad_norm": 1.8459045377709273,
      "language_loss": 0.67548937,
      "learning_rate": 3.995513808828427e-06,
      "loss": 0.6978817,
      "num_input_tokens_seen": 9053790,
      "step": 422,
      "time_per_iteration": 2.733250856399536
    },
    {
      "auxiliary_loss_clip": 0.0119294,
      "auxiliary_loss_mlp": 0.01037852,
      "balance_loss_clip": 1.05514157,
      "balance_loss_mlp": 1.02604473,
      "epoch": 0.050862742740335476,
      "flos": 19868095699200.0,
      "grad_norm": 2.129121258687303,
      "language_loss": 0.76664144,
      "learning_rate": 3.9954615119678e-06,
      "loss": 0.78894937,
      "num_input_tokens_seen": 9072345,
      "step": 423,
      "time_per_iteration": 2.623990535736084
    },
    {
      "auxiliary_loss_clip": 0.01213076,
      "auxiliary_loss_mlp": 0.01041479,
      "balance_loss_clip": 1.05647135,
      "balance_loss_mlp": 1.02966547,
      "epoch": 0.050982985630974566,
      "flos": 22086954420480.0,
      "grad_norm": 2.1373454935780334,
      "language_loss": 0.80936366,
      "learning_rate": 3.995408912397248e-06,
      "loss": 0.83190918,
      "num_input_tokens_seen": 9090240,
      "step": 424,
      "time_per_iteration": 2.6528239250183105
    },
    {
      "auxiliary_loss_clip": 0.01193641,
      "auxiliary_loss_mlp": 0.01039974,
      "balance_loss_clip": 1.0538336,
      "balance_loss_mlp": 1.026986,
      "epoch": 0.05110322852161366,
      "flos": 20743069115520.0,
      "grad_norm": 3.0506776436899243,
      "language_loss": 0.93348181,
      "learning_rate": 3.99535601012475e-06,
      "loss": 0.955818,
      "num_input_tokens_seen": 9105570,
      "step": 425,
      "time_per_iteration": 2.629056930541992
    },
    {
      "auxiliary_loss_clip": 0.0117649,
      "auxiliary_loss_mlp": 0.00758553,
      "balance_loss_clip": 1.05434334,
      "balance_loss_mlp": 1.00023103,
      "epoch": 0.05122347141225275,
      "flos": 28549746806400.0,
      "grad_norm": 1.6185078953016745,
      "language_loss": 0.75332451,
      "learning_rate": 3.995302805158333e-06,
      "loss": 0.77267492,
      "num_input_tokens_seen": 9128225,
      "step": 426,
      "time_per_iteration": 2.7565925121307373
    },
    {
      "auxiliary_loss_clip": 0.0119604,
      "auxiliary_loss_mlp": 0.01040637,
      "balance_loss_clip": 1.05474877,
      "balance_loss_mlp": 1.02745199,
      "epoch": 0.05134371430289184,
      "flos": 19724914742400.0,
      "grad_norm": 2.031555089174968,
      "language_loss": 0.83823788,
      "learning_rate": 3.9952492975060665e-06,
      "loss": 0.8606047,
      "num_input_tokens_seen": 9148295,
      "step": 427,
      "time_per_iteration": 2.6847715377807617
    },
    {
      "auxiliary_loss_clip": 0.01210055,
      "auxiliary_loss_mlp": 0.01032937,
      "balance_loss_clip": 1.05538845,
      "balance_loss_mlp": 1.02167153,
      "epoch": 0.05146395719353093,
      "flos": 34461779984640.0,
      "grad_norm": 2.7803878172494483,
      "language_loss": 0.84932184,
      "learning_rate": 3.995195487176067e-06,
      "loss": 0.87175179,
      "num_input_tokens_seen": 9168525,
      "step": 428,
      "time_per_iteration": 2.82189679145813
    },
    {
      "auxiliary_loss_clip": 0.01227936,
      "auxiliary_loss_mlp": 0.0103841,
      "balance_loss_clip": 1.05784559,
      "balance_loss_mlp": 1.02670407,
      "epoch": 0.05158420008417002,
      "flos": 21762323112960.0,
      "grad_norm": 2.285879838423039,
      "language_loss": 0.85455173,
      "learning_rate": 3.995141374176499e-06,
      "loss": 0.87721515,
      "num_input_tokens_seen": 9186920,
      "step": 429,
      "time_per_iteration": 3.8158812522888184
    },
    {
      "auxiliary_loss_clip": 0.01165382,
      "auxiliary_loss_mlp": 0.00754024,
      "balance_loss_clip": 1.06055927,
      "balance_loss_mlp": 1.00050342,
      "epoch": 0.05170444297480911,
      "flos": 72561164336640.0,
      "grad_norm": 0.8855316301648238,
      "language_loss": 0.63116753,
      "learning_rate": 3.995086958515572e-06,
      "loss": 0.65036166,
      "num_input_tokens_seen": 9244940,
      "step": 430,
      "time_per_iteration": 4.016160488128662
    },
    {
      "auxiliary_loss_clip": 0.01213219,
      "auxiliary_loss_mlp": 0.00754027,
      "balance_loss_clip": 1.06516325,
      "balance_loss_mlp": 1.00036764,
      "epoch": 0.05182468586544821,
      "flos": 62423094827520.0,
      "grad_norm": 1.277602657922555,
      "language_loss": 0.59912586,
      "learning_rate": 3.995032240201538e-06,
      "loss": 0.61879826,
      "num_input_tokens_seen": 9307335,
      "step": 431,
      "time_per_iteration": 3.884838104248047
    },
    {
      "auxiliary_loss_clip": 0.01183701,
      "auxiliary_loss_mlp": 0.01010655,
      "balance_loss_clip": 1.06386042,
      "balance_loss_mlp": 1.00548172,
      "epoch": 0.0519449287560873,
      "flos": 41230158750720.0,
      "grad_norm": 0.9370201889782406,
      "language_loss": 0.63148266,
      "learning_rate": 3.9949772192427e-06,
      "loss": 0.65342623,
      "num_input_tokens_seen": 9353960,
      "step": 432,
      "time_per_iteration": 2.8868443965911865
    },
    {
      "auxiliary_loss_clip": 0.01195087,
      "auxiliary_loss_mlp": 0.01039791,
      "balance_loss_clip": 1.05403233,
      "balance_loss_mlp": 1.02809644,
      "epoch": 0.05206517164672639,
      "flos": 17496500664960.0,
      "grad_norm": 2.458516523857227,
      "language_loss": 0.79870611,
      "learning_rate": 3.994921895647405e-06,
      "loss": 0.82105494,
      "num_input_tokens_seen": 9372130,
      "step": 433,
      "time_per_iteration": 2.5858852863311768
    },
    {
      "auxiliary_loss_clip": 0.01210507,
      "auxiliary_loss_mlp": 0.01007288,
      "balance_loss_clip": 1.06338882,
      "balance_loss_mlp": 1.00228107,
      "epoch": 0.05218541453736548,
      "flos": 64008740332800.0,
      "grad_norm": 0.8599935795343409,
      "language_loss": 0.55333328,
      "learning_rate": 3.994866269424043e-06,
      "loss": 0.57551122,
      "num_input_tokens_seen": 9428500,
      "step": 434,
      "time_per_iteration": 3.0708229541778564
    },
    {
      "auxiliary_loss_clip": 0.01144709,
      "auxiliary_loss_mlp": 0.01042815,
      "balance_loss_clip": 1.04815328,
      "balance_loss_mlp": 1.03017271,
      "epoch": 0.05230565742800457,
      "flos": 19319308231680.0,
      "grad_norm": 2.1310743484457753,
      "language_loss": 0.78397435,
      "learning_rate": 3.9948103405810545e-06,
      "loss": 0.80584955,
      "num_input_tokens_seen": 9447450,
      "step": 435,
      "time_per_iteration": 2.673069715499878
    },
    {
      "auxiliary_loss_clip": 0.01181855,
      "auxiliary_loss_mlp": 0.01042777,
      "balance_loss_clip": 1.0541445,
      "balance_loss_mlp": 1.0319531,
      "epoch": 0.05242590031864366,
      "flos": 25300827434880.0,
      "grad_norm": 2.0008517381824107,
      "language_loss": 0.85851777,
      "learning_rate": 3.994754109126923e-06,
      "loss": 0.88076413,
      "num_input_tokens_seen": 9468945,
      "step": 436,
      "time_per_iteration": 2.7302610874176025
    },
    {
      "auxiliary_loss_clip": 0.01149915,
      "auxiliary_loss_mlp": 0.01037363,
      "balance_loss_clip": 1.05121529,
      "balance_loss_mlp": 1.02619898,
      "epoch": 0.052546143209282754,
      "flos": 26213918572800.0,
      "grad_norm": 1.8561211965824174,
      "language_loss": 0.93313187,
      "learning_rate": 3.994697575070181e-06,
      "loss": 0.95500463,
      "num_input_tokens_seen": 9488405,
      "step": 437,
      "time_per_iteration": 2.716536283493042
    },
    {
      "auxiliary_loss_clip": 0.01189805,
      "auxiliary_loss_mlp": 0.01041925,
      "balance_loss_clip": 1.05350709,
      "balance_loss_mlp": 1.0302304,
      "epoch": 0.052666386099921844,
      "flos": 22160004744960.0,
      "grad_norm": 1.9151779151090988,
      "language_loss": 0.91586107,
      "learning_rate": 3.994640738419402e-06,
      "loss": 0.93817836,
      "num_input_tokens_seen": 9507780,
      "step": 438,
      "time_per_iteration": 2.669050693511963
    },
    {
      "auxiliary_loss_clip": 0.01206638,
      "auxiliary_loss_mlp": 0.0103703,
      "balance_loss_clip": 1.05399621,
      "balance_loss_mlp": 1.02532959,
      "epoch": 0.052786628990560934,
      "flos": 23884270986240.0,
      "grad_norm": 3.2180293997282137,
      "language_loss": 0.80843961,
      "learning_rate": 3.9945835991832075e-06,
      "loss": 0.83087635,
      "num_input_tokens_seen": 9529665,
      "step": 439,
      "time_per_iteration": 2.6801013946533203
    },
    {
      "auxiliary_loss_clip": 0.01226393,
      "auxiliary_loss_mlp": 0.0104631,
      "balance_loss_clip": 1.05908203,
      "balance_loss_mlp": 1.03516388,
      "epoch": 0.052906871881200024,
      "flos": 24607152696960.0,
      "grad_norm": 2.184870732791338,
      "language_loss": 0.93094683,
      "learning_rate": 3.994526157370268e-06,
      "loss": 0.95367384,
      "num_input_tokens_seen": 9548280,
      "step": 440,
      "time_per_iteration": 2.640812873840332
    },
    {
      "auxiliary_loss_clip": 0.01171464,
      "auxiliary_loss_mlp": 0.01005379,
      "balance_loss_clip": 1.05781424,
      "balance_loss_mlp": 1.00056291,
      "epoch": 0.053027114771839114,
      "flos": 56467824986880.0,
      "grad_norm": 0.8940417916513613,
      "language_loss": 0.5928278,
      "learning_rate": 3.994468412989296e-06,
      "loss": 0.61459625,
      "num_input_tokens_seen": 9609690,
      "step": 441,
      "time_per_iteration": 3.311776638031006
    },
    {
      "auxiliary_loss_clip": 0.01196453,
      "auxiliary_loss_mlp": 0.01042393,
      "balance_loss_clip": 1.05439782,
      "balance_loss_mlp": 1.03066313,
      "epoch": 0.053147357662478203,
      "flos": 17313002737920.0,
      "grad_norm": 2.1636886516547262,
      "language_loss": 0.92743105,
      "learning_rate": 3.994410366049052e-06,
      "loss": 0.94981956,
      "num_input_tokens_seen": 9627550,
      "step": 442,
      "time_per_iteration": 2.5949389934539795
    },
    {
      "auxiliary_loss_clip": 0.01203665,
      "auxiliary_loss_mlp": 0.01035677,
      "balance_loss_clip": 1.05258775,
      "balance_loss_mlp": 1.02380991,
      "epoch": 0.0532676005531173,
      "flos": 17166864170880.0,
      "grad_norm": 3.042792354390474,
      "language_loss": 0.82658678,
      "learning_rate": 3.994352016558341e-06,
      "loss": 0.84898019,
      "num_input_tokens_seen": 9644855,
      "step": 443,
      "time_per_iteration": 2.604267120361328
    },
    {
      "auxiliary_loss_clip": 0.01207211,
      "auxiliary_loss_mlp": 0.01041772,
      "balance_loss_clip": 1.05603981,
      "balance_loss_mlp": 1.03008366,
      "epoch": 0.05338784344375639,
      "flos": 27822504516480.0,
      "grad_norm": 2.1708012589404064,
      "language_loss": 0.73835921,
      "learning_rate": 3.994293364526014e-06,
      "loss": 0.76084912,
      "num_input_tokens_seen": 9665740,
      "step": 444,
      "time_per_iteration": 2.6158032417297363
    },
    {
      "auxiliary_loss_clip": 0.01193352,
      "auxiliary_loss_mlp": 0.01035433,
      "balance_loss_clip": 1.05604601,
      "balance_loss_mlp": 1.02313662,
      "epoch": 0.05350808633439548,
      "flos": 21509870014080.0,
      "grad_norm": 5.162899511861437,
      "language_loss": 0.85036933,
      "learning_rate": 3.99423440996097e-06,
      "loss": 0.87265718,
      "num_input_tokens_seen": 9685280,
      "step": 445,
      "time_per_iteration": 2.6839487552642822
    },
    {
      "auxiliary_loss_clip": 0.01190186,
      "auxiliary_loss_mlp": 0.01036247,
      "balance_loss_clip": 1.05681324,
      "balance_loss_mlp": 1.02439785,
      "epoch": 0.05362832922503457,
      "flos": 20086374556800.0,
      "grad_norm": 7.040002236654071,
      "language_loss": 0.81418437,
      "learning_rate": 3.994175152872152e-06,
      "loss": 0.83644873,
      "num_input_tokens_seen": 9704365,
      "step": 446,
      "time_per_iteration": 2.588287591934204
    },
    {
      "auxiliary_loss_clip": 0.01205537,
      "auxiliary_loss_mlp": 0.01033633,
      "balance_loss_clip": 1.05569243,
      "balance_loss_mlp": 1.02280903,
      "epoch": 0.05374857211567366,
      "flos": 26139427361280.0,
      "grad_norm": 2.560649279490344,
      "language_loss": 0.78885549,
      "learning_rate": 3.994115593268548e-06,
      "loss": 0.81124723,
      "num_input_tokens_seen": 9724145,
      "step": 447,
      "time_per_iteration": 2.641191005706787
    },
    {
      "auxiliary_loss_clip": 0.01225104,
      "auxiliary_loss_mlp": 0.01039222,
      "balance_loss_clip": 1.05777013,
      "balance_loss_mlp": 1.02806377,
      "epoch": 0.05386881500631275,
      "flos": 27489076214400.0,
      "grad_norm": 2.093105314351418,
      "language_loss": 0.82121575,
      "learning_rate": 3.994055731159195e-06,
      "loss": 0.84385896,
      "num_input_tokens_seen": 9741615,
      "step": 448,
      "time_per_iteration": 2.586015224456787
    },
    {
      "auxiliary_loss_clip": 0.0121079,
      "auxiliary_loss_mlp": 0.01044241,
      "balance_loss_clip": 1.0578084,
      "balance_loss_mlp": 1.03296959,
      "epoch": 0.053989057896951846,
      "flos": 23587254092160.0,
      "grad_norm": 2.834666310552064,
      "language_loss": 0.87067807,
      "learning_rate": 3.993995566553172e-06,
      "loss": 0.89322841,
      "num_input_tokens_seen": 9760580,
      "step": 449,
      "time_per_iteration": 2.6235554218292236
    },
    {
      "auxiliary_loss_clip": 0.01187653,
      "auxiliary_loss_mlp": 0.01038256,
      "balance_loss_clip": 1.05267,
      "balance_loss_mlp": 1.02768183,
      "epoch": 0.054109300787590936,
      "flos": 25231227655680.0,
      "grad_norm": 1.821052772840797,
      "language_loss": 0.77113348,
      "learning_rate": 3.993935099459607e-06,
      "loss": 0.7933926,
      "num_input_tokens_seen": 9782195,
      "step": 450,
      "time_per_iteration": 2.641545057296753
    },
    {
      "auxiliary_loss_clip": 0.01221597,
      "auxiliary_loss_mlp": 0.01038306,
      "balance_loss_clip": 1.05654454,
      "balance_loss_mlp": 1.02747571,
      "epoch": 0.054229543678230026,
      "flos": 23843764425600.0,
      "grad_norm": 2.018489181339602,
      "language_loss": 0.74229884,
      "learning_rate": 3.993874329887673e-06,
      "loss": 0.76489788,
      "num_input_tokens_seen": 9800850,
      "step": 451,
      "time_per_iteration": 2.604930877685547
    },
    {
      "auxiliary_loss_clip": 0.01207152,
      "auxiliary_loss_mlp": 0.01042036,
      "balance_loss_clip": 1.05525684,
      "balance_loss_mlp": 1.03000176,
      "epoch": 0.054349786568869116,
      "flos": 16322500696320.0,
      "grad_norm": 3.1021427604723173,
      "language_loss": 0.86702728,
      "learning_rate": 3.993813257846589e-06,
      "loss": 0.88951916,
      "num_input_tokens_seen": 9817605,
      "step": 452,
      "time_per_iteration": 2.5736560821533203
    },
    {
      "auxiliary_loss_clip": 0.01206924,
      "auxiliary_loss_mlp": 0.01038536,
      "balance_loss_clip": 1.05666602,
      "balance_loss_mlp": 1.02691305,
      "epoch": 0.054470029459508205,
      "flos": 18662689509120.0,
      "grad_norm": 3.9742706933940433,
      "language_loss": 0.9284721,
      "learning_rate": 3.993751883345619e-06,
      "loss": 0.95092666,
      "num_input_tokens_seen": 9835965,
      "step": 453,
      "time_per_iteration": 2.631088972091675
    },
    {
      "auxiliary_loss_clip": 0.01190116,
      "auxiliary_loss_mlp": 0.01039645,
      "balance_loss_clip": 1.05563831,
      "balance_loss_mlp": 1.02868378,
      "epoch": 0.054590272350147295,
      "flos": 17787223157760.0,
      "grad_norm": 2.941924708196795,
      "language_loss": 0.87429452,
      "learning_rate": 3.993690206394073e-06,
      "loss": 0.89659214,
      "num_input_tokens_seen": 9852265,
      "step": 454,
      "time_per_iteration": 2.618525743484497
    },
    {
      "auxiliary_loss_clip": 0.01189603,
      "auxiliary_loss_mlp": 0.01041373,
      "balance_loss_clip": 1.05567193,
      "balance_loss_mlp": 1.0299226,
      "epoch": 0.054710515240786385,
      "flos": 17787905683200.0,
      "grad_norm": 2.267590573768151,
      "language_loss": 0.87832046,
      "learning_rate": 3.993628227001307e-06,
      "loss": 0.90063024,
      "num_input_tokens_seen": 9870465,
      "step": 455,
      "time_per_iteration": 3.432204246520996
    },
    {
      "auxiliary_loss_clip": 0.01190225,
      "auxiliary_loss_mlp": 0.01041804,
      "balance_loss_clip": 1.05439699,
      "balance_loss_mlp": 1.0310154,
      "epoch": 0.05483075813142548,
      "flos": 48214323832320.0,
      "grad_norm": 1.939741187086995,
      "language_loss": 0.71244133,
      "learning_rate": 3.993565945176726e-06,
      "loss": 0.7347616,
      "num_input_tokens_seen": 9891490,
      "step": 456,
      "time_per_iteration": 3.629122018814087
    },
    {
      "auxiliary_loss_clip": 0.01180884,
      "auxiliary_loss_mlp": 0.01039679,
      "balance_loss_clip": 1.0507952,
      "balance_loss_mlp": 1.02866995,
      "epoch": 0.05495100102206457,
      "flos": 19684256509440.0,
      "grad_norm": 2.251652786210103,
      "language_loss": 0.84207499,
      "learning_rate": 3.993503360929776e-06,
      "loss": 0.86428064,
      "num_input_tokens_seen": 9910375,
      "step": 457,
      "time_per_iteration": 3.3765032291412354
    },
    {
      "auxiliary_loss_clip": 0.01109662,
      "auxiliary_loss_mlp": 0.01038624,
      "balance_loss_clip": 1.04117775,
      "balance_loss_mlp": 1.02656579,
      "epoch": 0.05507124391270366,
      "flos": 26362483896960.0,
      "grad_norm": 1.627465750385995,
      "language_loss": 0.81073523,
      "learning_rate": 3.99344047426995e-06,
      "loss": 0.83221811,
      "num_input_tokens_seen": 9931635,
      "step": 458,
      "time_per_iteration": 2.9645183086395264
    },
    {
      "auxiliary_loss_clip": 0.01151308,
      "auxiliary_loss_mlp": 0.01040821,
      "balance_loss_clip": 1.0484848,
      "balance_loss_mlp": 1.02869129,
      "epoch": 0.05519148680334275,
      "flos": 22603501468800.0,
      "grad_norm": 2.196863132057002,
      "language_loss": 0.93378597,
      "learning_rate": 3.993377285206789e-06,
      "loss": 0.95570719,
      "num_input_tokens_seen": 9951420,
      "step": 459,
      "time_per_iteration": 3.0140514373779297
    },
    {
      "auxiliary_loss_clip": 0.01177983,
      "auxiliary_loss_mlp": 0.01042807,
      "balance_loss_clip": 1.05243301,
      "balance_loss_mlp": 1.03166056,
      "epoch": 0.05531172969398184,
      "flos": 40555718530560.0,
      "grad_norm": 1.683090034014376,
      "language_loss": 0.86168325,
      "learning_rate": 3.99331379374988e-06,
      "loss": 0.88389122,
      "num_input_tokens_seen": 9975025,
      "step": 460,
      "time_per_iteration": 2.8191540241241455
    },
    {
      "auxiliary_loss_clip": 0.01192438,
      "auxiliary_loss_mlp": 0.01034753,
      "balance_loss_clip": 1.05482721,
      "balance_loss_mlp": 1.02459025,
      "epoch": 0.05543197258462093,
      "flos": 23480181198720.0,
      "grad_norm": 2.237635417389108,
      "language_loss": 0.80137336,
      "learning_rate": 3.993249999908852e-06,
      "loss": 0.82364523,
      "num_input_tokens_seen": 9995175,
      "step": 461,
      "time_per_iteration": 2.685258388519287
    },
    {
      "auxiliary_loss_clip": 0.01220555,
      "auxiliary_loss_mlp": 0.01038851,
      "balance_loss_clip": 1.0546509,
      "balance_loss_mlp": 1.02784848,
      "epoch": 0.05555221547526003,
      "flos": 18626581445760.0,
      "grad_norm": 7.416891657822896,
      "language_loss": 0.87018752,
      "learning_rate": 3.993185903693384e-06,
      "loss": 0.89278162,
      "num_input_tokens_seen": 10011975,
      "step": 462,
      "time_per_iteration": 2.5480105876922607
    },
    {
      "auxiliary_loss_clip": 0.01185062,
      "auxiliary_loss_mlp": 0.01030628,
      "balance_loss_clip": 1.05269408,
      "balance_loss_mlp": 1.02008963,
      "epoch": 0.05567245836589912,
      "flos": 23589377504640.0,
      "grad_norm": 2.4442410028787758,
      "language_loss": 0.82227921,
      "learning_rate": 3.9931215051131995e-06,
      "loss": 0.84443611,
      "num_input_tokens_seen": 10032620,
      "step": 463,
      "time_per_iteration": 2.695627212524414
    },
    {
      "auxiliary_loss_clip": 0.01190366,
      "auxiliary_loss_mlp": 0.01037042,
      "balance_loss_clip": 1.05500197,
      "balance_loss_mlp": 1.02667069,
      "epoch": 0.05579270125653821,
      "flos": 27749188765440.0,
      "grad_norm": 1.6557765268358302,
      "language_loss": 0.80208492,
      "learning_rate": 3.993056804178068e-06,
      "loss": 0.82435906,
      "num_input_tokens_seen": 10054165,
      "step": 464,
      "time_per_iteration": 2.686232089996338
    },
    {
      "auxiliary_loss_clip": 0.01154921,
      "auxiliary_loss_mlp": 0.01038519,
      "balance_loss_clip": 1.0478704,
      "balance_loss_mlp": 1.02709329,
      "epoch": 0.0559129441471773,
      "flos": 27016486272000.0,
      "grad_norm": 2.12225950894169,
      "language_loss": 0.84337687,
      "learning_rate": 3.992991800897803e-06,
      "loss": 0.86531126,
      "num_input_tokens_seen": 10073970,
      "step": 465,
      "time_per_iteration": 2.719748020172119
    },
    {
      "auxiliary_loss_clip": 0.0121951,
      "auxiliary_loss_mlp": 0.01036284,
      "balance_loss_clip": 1.05481148,
      "balance_loss_mlp": 1.02519131,
      "epoch": 0.05603318703781639,
      "flos": 15231485589120.0,
      "grad_norm": 2.1618441195136,
      "language_loss": 0.90000206,
      "learning_rate": 3.9929264952822665e-06,
      "loss": 0.92255998,
      "num_input_tokens_seen": 10091505,
      "step": 466,
      "time_per_iteration": 2.545790195465088
    },
    {
      "auxiliary_loss_clip": 0.01201576,
      "auxiliary_loss_mlp": 0.01043152,
      "balance_loss_clip": 1.05327058,
      "balance_loss_mlp": 1.03234518,
      "epoch": 0.05615342992845548,
      "flos": 22268291016960.0,
      "grad_norm": 1.8909211271674735,
      "language_loss": 0.88286465,
      "learning_rate": 3.992860887341366e-06,
      "loss": 0.90531194,
      "num_input_tokens_seen": 10109675,
      "step": 467,
      "time_per_iteration": 2.6135590076446533
    },
    {
      "auxiliary_loss_clip": 0.0117342,
      "auxiliary_loss_mlp": 0.01034116,
      "balance_loss_clip": 1.05219376,
      "balance_loss_mlp": 1.02232015,
      "epoch": 0.056273672819094574,
      "flos": 23587140337920.0,
      "grad_norm": 2.228232007975427,
      "language_loss": 0.81284189,
      "learning_rate": 3.992794977085052e-06,
      "loss": 0.83491731,
      "num_input_tokens_seen": 10127675,
      "step": 468,
      "time_per_iteration": 2.6772148609161377
    },
    {
      "auxiliary_loss_clip": 0.01163804,
      "auxiliary_loss_mlp": 0.01042726,
      "balance_loss_clip": 1.04941046,
      "balance_loss_mlp": 1.03182435,
      "epoch": 0.056393915709733664,
      "flos": 19860398328960.0,
      "grad_norm": 2.1900683383121247,
      "language_loss": 0.84934485,
      "learning_rate": 3.992728764523326e-06,
      "loss": 0.87141013,
      "num_input_tokens_seen": 10146620,
      "step": 469,
      "time_per_iteration": 2.637298583984375
    },
    {
      "auxiliary_loss_clip": 0.01183408,
      "auxiliary_loss_mlp": 0.01037653,
      "balance_loss_clip": 1.04923868,
      "balance_loss_mlp": 1.02635741,
      "epoch": 0.05651415860037275,
      "flos": 22165957883520.0,
      "grad_norm": 1.6811498249632486,
      "language_loss": 0.80628836,
      "learning_rate": 3.99266224966623e-06,
      "loss": 0.82849896,
      "num_input_tokens_seen": 10167535,
      "step": 470,
      "time_per_iteration": 2.6542181968688965
    },
    {
      "auxiliary_loss_clip": 0.01185002,
      "auxiliary_loss_mlp": 0.0103609,
      "balance_loss_clip": 1.05012703,
      "balance_loss_mlp": 1.02585578,
      "epoch": 0.05663440149101184,
      "flos": 19465560552960.0,
      "grad_norm": 3.844844400103714,
      "language_loss": 0.87750089,
      "learning_rate": 3.992595432523855e-06,
      "loss": 0.89971173,
      "num_input_tokens_seen": 10184825,
      "step": 471,
      "time_per_iteration": 2.6187644004821777
    },
    {
      "auxiliary_loss_clip": 0.01160934,
      "auxiliary_loss_mlp": 0.01039177,
      "balance_loss_clip": 1.04475951,
      "balance_loss_mlp": 1.0288595,
      "epoch": 0.05675464438165093,
      "flos": 22672191214080.0,
      "grad_norm": 1.949305834488632,
      "language_loss": 0.85958421,
      "learning_rate": 3.992528313106338e-06,
      "loss": 0.88158536,
      "num_input_tokens_seen": 10203025,
      "step": 472,
      "time_per_iteration": 2.666289806365967
    },
    {
      "auxiliary_loss_clip": 0.01221331,
      "auxiliary_loss_mlp": 0.00758757,
      "balance_loss_clip": 1.05814648,
      "balance_loss_mlp": 1.00004601,
      "epoch": 0.05687488727229002,
      "flos": 16902580631040.0,
      "grad_norm": 2.545479544446398,
      "language_loss": 0.81925392,
      "learning_rate": 3.9924608914238595e-06,
      "loss": 0.83905482,
      "num_input_tokens_seen": 10218020,
      "step": 473,
      "time_per_iteration": 2.536515235900879
    },
    {
      "auxiliary_loss_clip": 0.01197919,
      "auxiliary_loss_mlp": 0.01041183,
      "balance_loss_clip": 1.05170035,
      "balance_loss_mlp": 1.03024006,
      "epoch": 0.05699513016292912,
      "flos": 29171546680320.0,
      "grad_norm": 3.2482900873894445,
      "language_loss": 0.83879071,
      "learning_rate": 3.992393167486648e-06,
      "loss": 0.86118174,
      "num_input_tokens_seen": 10237170,
      "step": 474,
      "time_per_iteration": 2.688601016998291
    },
    {
      "auxiliary_loss_clip": 0.01219629,
      "auxiliary_loss_mlp": 0.01042987,
      "balance_loss_clip": 1.05639434,
      "balance_loss_mlp": 1.03142393,
      "epoch": 0.05711537305356821,
      "flos": 18918176054400.0,
      "grad_norm": 2.2915283035009946,
      "language_loss": 0.80559146,
      "learning_rate": 3.992325141304977e-06,
      "loss": 0.82821757,
      "num_input_tokens_seen": 10255125,
      "step": 475,
      "time_per_iteration": 2.5316927433013916
    },
    {
      "auxiliary_loss_clip": 0.01168039,
      "auxiliary_loss_mlp": 0.01037516,
      "balance_loss_clip": 1.04740739,
      "balance_loss_mlp": 1.02736568,
      "epoch": 0.0572356159442073,
      "flos": 26761303071360.0,
      "grad_norm": 2.1760056560009238,
      "language_loss": 0.86328614,
      "learning_rate": 3.992256812889166e-06,
      "loss": 0.88534164,
      "num_input_tokens_seen": 10271230,
      "step": 476,
      "time_per_iteration": 2.693347454071045
    },
    {
      "auxiliary_loss_clip": 0.01222416,
      "auxiliary_loss_mlp": 0.01037974,
      "balance_loss_clip": 1.05921531,
      "balance_loss_mlp": 1.02728128,
      "epoch": 0.05735585883484639,
      "flos": 35119043314560.0,
      "grad_norm": 2.2453825347043144,
      "language_loss": 0.76690185,
      "learning_rate": 3.992188182249582e-06,
      "loss": 0.78950578,
      "num_input_tokens_seen": 10293125,
      "step": 477,
      "time_per_iteration": 2.679035186767578
    },
    {
      "auxiliary_loss_clip": 0.01181443,
      "auxiliary_loss_mlp": 0.01041431,
      "balance_loss_clip": 1.05144191,
      "balance_loss_mlp": 1.03048205,
      "epoch": 0.05747610172548548,
      "flos": 18736384440960.0,
      "grad_norm": 2.937530730246174,
      "language_loss": 0.90582764,
      "learning_rate": 3.992119249396633e-06,
      "loss": 0.92805636,
      "num_input_tokens_seen": 10311810,
      "step": 478,
      "time_per_iteration": 2.619004487991333
    },
    {
      "auxiliary_loss_clip": 0.01186421,
      "auxiliary_loss_mlp": 0.00758454,
      "balance_loss_clip": 1.05199671,
      "balance_loss_mlp": 1.0001049,
      "epoch": 0.05759634461612457,
      "flos": 27967240114560.0,
      "grad_norm": 1.9301601597479872,
      "language_loss": 0.81984246,
      "learning_rate": 3.992050014340778e-06,
      "loss": 0.83929121,
      "num_input_tokens_seen": 10332165,
      "step": 479,
      "time_per_iteration": 2.669264554977417
    },
    {
      "auxiliary_loss_clip": 0.01176138,
      "auxiliary_loss_mlp": 0.0101447,
      "balance_loss_clip": 1.05211639,
      "balance_loss_mlp": 1.00870025,
      "epoch": 0.057716587506763666,
      "flos": 69298215275520.0,
      "grad_norm": 0.9261372795897636,
      "language_loss": 0.55072385,
      "learning_rate": 3.99198047709252e-06,
      "loss": 0.57262993,
      "num_input_tokens_seen": 10393685,
      "step": 480,
      "time_per_iteration": 3.2691454887390137
    },
    {
      "auxiliary_loss_clip": 0.01159913,
      "auxiliary_loss_mlp": 0.01038177,
      "balance_loss_clip": 1.04454374,
      "balance_loss_mlp": 1.02709627,
      "epoch": 0.057836830397402755,
      "flos": 25011507911040.0,
      "grad_norm": 2.0648370521849726,
      "language_loss": 0.78678197,
      "learning_rate": 3.991910637662408e-06,
      "loss": 0.80876291,
      "num_input_tokens_seen": 10413975,
      "step": 481,
      "time_per_iteration": 4.213382720947266
    },
    {
      "auxiliary_loss_clip": 0.01219091,
      "auxiliary_loss_mlp": 0.01034218,
      "balance_loss_clip": 1.05673862,
      "balance_loss_mlp": 1.02363825,
      "epoch": 0.057957073288041845,
      "flos": 25596289687680.0,
      "grad_norm": 2.1175901790605933,
      "language_loss": 0.80429041,
      "learning_rate": 3.9918404960610355e-06,
      "loss": 0.82682359,
      "num_input_tokens_seen": 10433005,
      "step": 482,
      "time_per_iteration": 4.118013858795166
    },
    {
      "auxiliary_loss_clip": 0.01203023,
      "auxiliary_loss_mlp": 0.01038638,
      "balance_loss_clip": 1.05474591,
      "balance_loss_mlp": 1.0277009,
      "epoch": 0.058077316178680935,
      "flos": 20779518441600.0,
      "grad_norm": 2.177328066953192,
      "language_loss": 0.7733283,
      "learning_rate": 3.991770052299043e-06,
      "loss": 0.7957449,
      "num_input_tokens_seen": 10451235,
      "step": 483,
      "time_per_iteration": 2.559579372406006
    },
    {
      "auxiliary_loss_clip": 0.01188127,
      "auxiliary_loss_mlp": 0.0103198,
      "balance_loss_clip": 1.05174804,
      "balance_loss_mlp": 1.02194905,
      "epoch": 0.058197559069320025,
      "flos": 18918479399040.0,
      "grad_norm": 2.3004870684766905,
      "language_loss": 0.87741315,
      "learning_rate": 3.991699306387118e-06,
      "loss": 0.89961427,
      "num_input_tokens_seen": 10469705,
      "step": 484,
      "time_per_iteration": 2.636435031890869
    },
    {
      "auxiliary_loss_clip": 0.01199623,
      "auxiliary_loss_mlp": 0.01039647,
      "balance_loss_clip": 1.05566573,
      "balance_loss_mlp": 1.02930582,
      "epoch": 0.058317801959959115,
      "flos": 24865634770560.0,
      "grad_norm": 2.1524618424489894,
      "language_loss": 0.77991331,
      "learning_rate": 3.991628258335991e-06,
      "loss": 0.80230606,
      "num_input_tokens_seen": 10491910,
      "step": 485,
      "time_per_iteration": 2.5953545570373535
    },
    {
      "auxiliary_loss_clip": 0.01166435,
      "auxiliary_loss_mlp": 0.01036951,
      "balance_loss_clip": 1.04960227,
      "balance_loss_mlp": 1.02678287,
      "epoch": 0.05843804485059821,
      "flos": 23260196027520.0,
      "grad_norm": 3.2101046674088596,
      "language_loss": 0.87880248,
      "learning_rate": 3.991556908156442e-06,
      "loss": 0.90083635,
      "num_input_tokens_seen": 10508435,
      "step": 486,
      "time_per_iteration": 2.6621978282928467
    },
    {
      "auxiliary_loss_clip": 0.01188924,
      "auxiliary_loss_mlp": 0.01042221,
      "balance_loss_clip": 1.05310345,
      "balance_loss_mlp": 1.03169441,
      "epoch": 0.0585582877412373,
      "flos": 23152857707520.0,
      "grad_norm": 2.9269635131400005,
      "language_loss": 0.87808168,
      "learning_rate": 3.9914852558592914e-06,
      "loss": 0.90039313,
      "num_input_tokens_seen": 10529485,
      "step": 487,
      "time_per_iteration": 2.645747423171997
    },
    {
      "auxiliary_loss_clip": 0.01201937,
      "auxiliary_loss_mlp": 0.01035409,
      "balance_loss_clip": 1.05636322,
      "balance_loss_mlp": 1.02409577,
      "epoch": 0.05867853063187639,
      "flos": 23508250629120.0,
      "grad_norm": 3.7789660391154323,
      "language_loss": 0.80491483,
      "learning_rate": 3.991413301455413e-06,
      "loss": 0.82728833,
      "num_input_tokens_seen": 10545935,
      "step": 488,
      "time_per_iteration": 2.6064260005950928
    },
    {
      "auxiliary_loss_clip": 0.0118535,
      "auxiliary_loss_mlp": 0.0103526,
      "balance_loss_clip": 1.05229139,
      "balance_loss_mlp": 1.02543688,
      "epoch": 0.05879877352251548,
      "flos": 29498301400320.0,
      "grad_norm": 11.018375534998478,
      "language_loss": 0.77525437,
      "learning_rate": 3.991341044955719e-06,
      "loss": 0.7974605,
      "num_input_tokens_seen": 10565690,
      "step": 489,
      "time_per_iteration": 2.657996416091919
    },
    {
      "auxiliary_loss_clip": 0.01200652,
      "auxiliary_loss_mlp": 0.00758823,
      "balance_loss_clip": 1.05251503,
      "balance_loss_mlp": 1.00020695,
      "epoch": 0.05891901641315457,
      "flos": 20159576553600.0,
      "grad_norm": 2.291717966522724,
      "language_loss": 0.81544691,
      "learning_rate": 3.991268486371172e-06,
      "loss": 0.83504164,
      "num_input_tokens_seen": 10584245,
      "step": 490,
      "time_per_iteration": 2.629520893096924
    },
    {
      "auxiliary_loss_clip": 0.01183257,
      "auxiliary_loss_mlp": 0.01038142,
      "balance_loss_clip": 1.05294454,
      "balance_loss_mlp": 1.02641129,
      "epoch": 0.05903925930379366,
      "flos": 24646483797120.0,
      "grad_norm": 2.3411570119998633,
      "language_loss": 0.8799659,
      "learning_rate": 3.991195625712779e-06,
      "loss": 0.90217996,
      "num_input_tokens_seen": 10601210,
      "step": 491,
      "time_per_iteration": 2.6273162364959717
    },
    {
      "auxiliary_loss_clip": 0.01219575,
      "auxiliary_loss_mlp": 0.01034694,
      "balance_loss_clip": 1.05859995,
      "balance_loss_mlp": 1.02410841,
      "epoch": 0.05915950219443276,
      "flos": 21252449646720.0,
      "grad_norm": 1.8739700889759134,
      "language_loss": 0.81473136,
      "learning_rate": 3.991122462991592e-06,
      "loss": 0.83727396,
      "num_input_tokens_seen": 10620730,
      "step": 492,
      "time_per_iteration": 2.585566759109497
    },
    {
      "auxiliary_loss_clip": 0.01216862,
      "auxiliary_loss_mlp": 0.0104063,
      "balance_loss_clip": 1.05522704,
      "balance_loss_mlp": 1.02953744,
      "epoch": 0.05927974508507185,
      "flos": 9904120433280.0,
      "grad_norm": 4.096693694154655,
      "language_loss": 0.81366974,
      "learning_rate": 3.991048998218712e-06,
      "loss": 0.83624464,
      "num_input_tokens_seen": 10634035,
      "step": 493,
      "time_per_iteration": 2.507511615753174
    },
    {
      "auxiliary_loss_clip": 0.01202759,
      "auxiliary_loss_mlp": 0.01036285,
      "balance_loss_clip": 1.0546726,
      "balance_loss_mlp": 1.02607489,
      "epoch": 0.05939998797571094,
      "flos": 18261443577600.0,
      "grad_norm": 2.43888370377722,
      "language_loss": 0.76529217,
      "learning_rate": 3.990975231405281e-06,
      "loss": 0.78768265,
      "num_input_tokens_seen": 10652485,
      "step": 494,
      "time_per_iteration": 2.557232141494751
    },
    {
      "auxiliary_loss_clip": 0.01201339,
      "auxiliary_loss_mlp": 0.01036035,
      "balance_loss_clip": 1.05539203,
      "balance_loss_mlp": 1.02565193,
      "epoch": 0.05952023086635003,
      "flos": 28259100149760.0,
      "grad_norm": 2.0059986080313146,
      "language_loss": 0.78868222,
      "learning_rate": 3.990901162562491e-06,
      "loss": 0.8110559,
      "num_input_tokens_seen": 10673175,
      "step": 495,
      "time_per_iteration": 2.640247106552124
    },
    {
      "auxiliary_loss_clip": 0.01164297,
      "auxiliary_loss_mlp": 0.00759005,
      "balance_loss_clip": 1.04936945,
      "balance_loss_mlp": 1.00021744,
      "epoch": 0.05964047375698912,
      "flos": 14904237934080.0,
      "grad_norm": 2.0022511897021325,
      "language_loss": 0.90438986,
      "learning_rate": 3.9908267917015765e-06,
      "loss": 0.92362291,
      "num_input_tokens_seen": 10691235,
      "step": 496,
      "time_per_iteration": 2.6464974880218506
    },
    {
      "auxiliary_loss_clip": 0.01201773,
      "auxiliary_loss_mlp": 0.01044597,
      "balance_loss_clip": 1.05348778,
      "balance_loss_mlp": 1.0336175,
      "epoch": 0.059760716647628206,
      "flos": 23187828228480.0,
      "grad_norm": 2.087512514880113,
      "language_loss": 0.92768484,
      "learning_rate": 3.990752118833821e-06,
      "loss": 0.95014858,
      "num_input_tokens_seen": 10708675,
      "step": 497,
      "time_per_iteration": 2.612600326538086
    },
    {
      "auxiliary_loss_clip": 0.01216148,
      "auxiliary_loss_mlp": 0.01034533,
      "balance_loss_clip": 1.05584979,
      "balance_loss_mlp": 1.02444768,
      "epoch": 0.0598809595382673,
      "flos": 22749147100800.0,
      "grad_norm": 4.196073177845911,
      "language_loss": 0.77842987,
      "learning_rate": 3.990677143970553e-06,
      "loss": 0.8009367,
      "num_input_tokens_seen": 10729485,
      "step": 498,
      "time_per_iteration": 2.585200071334839
    },
    {
      "auxiliary_loss_clip": 0.01162196,
      "auxiliary_loss_mlp": 0.01044184,
      "balance_loss_clip": 1.04845023,
      "balance_loss_mlp": 1.0330255,
      "epoch": 0.06000120242890639,
      "flos": 22129394803200.0,
      "grad_norm": 2.7870864084253473,
      "language_loss": 0.81438768,
      "learning_rate": 3.990601867123144e-06,
      "loss": 0.83645153,
      "num_input_tokens_seen": 10749210,
      "step": 499,
      "time_per_iteration": 2.702746868133545
    },
    {
      "auxiliary_loss_clip": 0.01148833,
      "auxiliary_loss_mlp": 0.01035199,
      "balance_loss_clip": 1.04719925,
      "balance_loss_mlp": 1.02515543,
      "epoch": 0.06012144531954548,
      "flos": 19173776353920.0,
      "grad_norm": 2.1033074054986525,
      "language_loss": 0.85083747,
      "learning_rate": 3.990526288303014e-06,
      "loss": 0.87267786,
      "num_input_tokens_seen": 10768000,
      "step": 500,
      "time_per_iteration": 2.731473684310913
    },
    {
      "auxiliary_loss_clip": 0.0117775,
      "auxiliary_loss_mlp": 0.00758281,
      "balance_loss_clip": 1.05008173,
      "balance_loss_mlp": 1.00016987,
      "epoch": 0.06024168821018457,
      "flos": 22785520590720.0,
      "grad_norm": 1.8411182940833495,
      "language_loss": 0.90701801,
      "learning_rate": 3.9904504075216295e-06,
      "loss": 0.92637837,
      "num_input_tokens_seen": 10788760,
      "step": 501,
      "time_per_iteration": 2.6997451782226562
    },
    {
      "auxiliary_loss_clip": 0.01168864,
      "auxiliary_loss_mlp": 0.01037862,
      "balance_loss_clip": 1.05070591,
      "balance_loss_mlp": 1.02745497,
      "epoch": 0.06036193110082366,
      "flos": 18772682094720.0,
      "grad_norm": 2.389398827364604,
      "language_loss": 0.93930376,
      "learning_rate": 3.990374224790501e-06,
      "loss": 0.96137106,
      "num_input_tokens_seen": 10806965,
      "step": 502,
      "time_per_iteration": 2.681544303894043
    },
    {
      "auxiliary_loss_clip": 0.01181217,
      "auxiliary_loss_mlp": 0.01042037,
      "balance_loss_clip": 1.05123234,
      "balance_loss_mlp": 1.03170192,
      "epoch": 0.06048217399146275,
      "flos": 17203465169280.0,
      "grad_norm": 2.6683672124009608,
      "language_loss": 0.70853382,
      "learning_rate": 3.990297740121185e-06,
      "loss": 0.73076642,
      "num_input_tokens_seen": 10824900,
      "step": 503,
      "time_per_iteration": 2.694157361984253
    },
    {
      "auxiliary_loss_clip": 0.01195572,
      "auxiliary_loss_mlp": 0.0075872,
      "balance_loss_clip": 1.05261755,
      "balance_loss_mlp": 1.00014877,
      "epoch": 0.06060241688210185,
      "flos": 24026390236800.0,
      "grad_norm": 1.8183062790878988,
      "language_loss": 0.78318506,
      "learning_rate": 3.990220953525284e-06,
      "loss": 0.802728,
      "num_input_tokens_seen": 10842010,
      "step": 504,
      "time_per_iteration": 2.604335308074951
    },
    {
      "auxiliary_loss_clip": 0.01183448,
      "auxiliary_loss_mlp": 0.01038398,
      "balance_loss_clip": 1.04997849,
      "balance_loss_mlp": 1.02853382,
      "epoch": 0.06072265977274094,
      "flos": 14612946670080.0,
      "grad_norm": 2.5380537499813833,
      "language_loss": 0.74166405,
      "learning_rate": 3.9901438650144465e-06,
      "loss": 0.76388246,
      "num_input_tokens_seen": 10858260,
      "step": 505,
      "time_per_iteration": 2.655860424041748
    },
    {
      "auxiliary_loss_clip": 0.01202582,
      "auxiliary_loss_mlp": 0.01034143,
      "balance_loss_clip": 1.05454874,
      "balance_loss_mlp": 1.02464247,
      "epoch": 0.06084290266338003,
      "flos": 20560367468160.0,
      "grad_norm": 5.3681273917439905,
      "language_loss": 0.9163717,
      "learning_rate": 3.990066474600367e-06,
      "loss": 0.938739,
      "num_input_tokens_seen": 10876230,
      "step": 506,
      "time_per_iteration": 2.5477194786071777
    },
    {
      "auxiliary_loss_clip": 0.01197107,
      "auxiliary_loss_mlp": 0.01036771,
      "balance_loss_clip": 1.05101407,
      "balance_loss_mlp": 1.0270319,
      "epoch": 0.06096314555401912,
      "flos": 22311376007040.0,
      "grad_norm": 1.9338726230653365,
      "language_loss": 0.68235648,
      "learning_rate": 3.989988782294786e-06,
      "loss": 0.70469522,
      "num_input_tokens_seen": 10896320,
      "step": 507,
      "time_per_iteration": 4.144881010055542
    },
    {
      "auxiliary_loss_clip": 0.01165539,
      "auxiliary_loss_mlp": 0.01041203,
      "balance_loss_clip": 1.04881895,
      "balance_loss_mlp": 1.03106451,
      "epoch": 0.06108338844465821,
      "flos": 19133156039040.0,
      "grad_norm": 2.364551416808218,
      "language_loss": 0.95072848,
      "learning_rate": 3.989910788109489e-06,
      "loss": 0.97279584,
      "num_input_tokens_seen": 10912970,
      "step": 508,
      "time_per_iteration": 4.173816204071045
    },
    {
      "auxiliary_loss_clip": 0.01154609,
      "auxiliary_loss_mlp": 0.01036018,
      "balance_loss_clip": 1.04473305,
      "balance_loss_mlp": 1.0258317,
      "epoch": 0.0612036313352973,
      "flos": 33586844486400.0,
      "grad_norm": 2.416447295378524,
      "language_loss": 0.75100356,
      "learning_rate": 3.989832492056307e-06,
      "loss": 0.77290982,
      "num_input_tokens_seen": 10933995,
      "step": 509,
      "time_per_iteration": 2.7858166694641113
    },
    {
      "auxiliary_loss_clip": 0.01197181,
      "auxiliary_loss_mlp": 0.01038422,
      "balance_loss_clip": 1.05265045,
      "balance_loss_mlp": 1.02754426,
      "epoch": 0.06132387422593639,
      "flos": 27493019694720.0,
      "grad_norm": 3.8409053456576254,
      "language_loss": 0.80912995,
      "learning_rate": 3.989753894147119e-06,
      "loss": 0.83148599,
      "num_input_tokens_seen": 10954120,
      "step": 510,
      "time_per_iteration": 2.6105830669403076
    },
    {
      "auxiliary_loss_clip": 0.0119569,
      "auxiliary_loss_mlp": 0.01033405,
      "balance_loss_clip": 1.05417061,
      "balance_loss_mlp": 1.02378464,
      "epoch": 0.061444117116575485,
      "flos": 25887429279360.0,
      "grad_norm": 4.3610395139205,
      "language_loss": 0.79912108,
      "learning_rate": 3.989674994393846e-06,
      "loss": 0.82141209,
      "num_input_tokens_seen": 10973595,
      "step": 511,
      "time_per_iteration": 2.673536539077759
    },
    {
      "auxiliary_loss_clip": 0.01196669,
      "auxiliary_loss_mlp": 0.0103227,
      "balance_loss_clip": 1.05299783,
      "balance_loss_mlp": 1.02163637,
      "epoch": 0.061564360007214575,
      "flos": 28514548776960.0,
      "grad_norm": 2.0606760028842697,
      "language_loss": 0.93952417,
      "learning_rate": 3.98959579280846e-06,
      "loss": 0.96181345,
      "num_input_tokens_seen": 10991995,
      "step": 512,
      "time_per_iteration": 2.625694990158081
    },
    {
      "auxiliary_loss_clip": 0.01141018,
      "auxiliary_loss_mlp": 0.01032204,
      "balance_loss_clip": 1.04473543,
      "balance_loss_mlp": 1.02196407,
      "epoch": 0.061684602897853665,
      "flos": 12096009348480.0,
      "grad_norm": 2.488123650896457,
      "language_loss": 0.82811368,
      "learning_rate": 3.989516289402973e-06,
      "loss": 0.84984589,
      "num_input_tokens_seen": 11007625,
      "step": 513,
      "time_per_iteration": 2.654428482055664
    },
    {
      "auxiliary_loss_clip": 0.0114101,
      "auxiliary_loss_mlp": 0.01035291,
      "balance_loss_clip": 1.04894567,
      "balance_loss_mlp": 1.02479458,
      "epoch": 0.061804845788492754,
      "flos": 19534439888640.0,
      "grad_norm": 3.916013652945672,
      "language_loss": 0.80420882,
      "learning_rate": 3.989436484189447e-06,
      "loss": 0.82597184,
      "num_input_tokens_seen": 11025570,
      "step": 514,
      "time_per_iteration": 2.6638832092285156
    },
    {
      "auxiliary_loss_clip": 0.01199845,
      "auxiliary_loss_mlp": 0.01034162,
      "balance_loss_clip": 1.05326688,
      "balance_loss_mlp": 1.02389252,
      "epoch": 0.061925088679131844,
      "flos": 15342919061760.0,
      "grad_norm": 38.74992331108386,
      "language_loss": 0.81261182,
      "learning_rate": 3.9893563771799885e-06,
      "loss": 0.83495188,
      "num_input_tokens_seen": 11042045,
      "step": 515,
      "time_per_iteration": 2.6237854957580566
    },
    {
      "auxiliary_loss_clip": 0.01214319,
      "auxiliary_loss_mlp": 0.01039708,
      "balance_loss_clip": 1.0556643,
      "balance_loss_mlp": 1.0284245,
      "epoch": 0.062045331569770934,
      "flos": 25922210209920.0,
      "grad_norm": 2.2040268150679765,
      "language_loss": 0.86363751,
      "learning_rate": 3.989275968386749e-06,
      "loss": 0.88617778,
      "num_input_tokens_seen": 11059955,
      "step": 516,
      "time_per_iteration": 2.621628522872925
    },
    {
      "auxiliary_loss_clip": 0.01185471,
      "auxiliary_loss_mlp": 0.01038522,
      "balance_loss_clip": 1.05299187,
      "balance_loss_mlp": 1.02809715,
      "epoch": 0.06216557446041003,
      "flos": 28113113255040.0,
      "grad_norm": 2.3871198429017135,
      "language_loss": 0.77147776,
      "learning_rate": 3.989195257821926e-06,
      "loss": 0.79371768,
      "num_input_tokens_seen": 11078440,
      "step": 517,
      "time_per_iteration": 2.731771469116211
    },
    {
      "auxiliary_loss_clip": 0.01175012,
      "auxiliary_loss_mlp": 0.01038091,
      "balance_loss_clip": 1.04959381,
      "balance_loss_mlp": 1.02714717,
      "epoch": 0.06228581735104912,
      "flos": 23480484543360.0,
      "grad_norm": 2.241526969303452,
      "language_loss": 0.84551156,
      "learning_rate": 3.989114245497765e-06,
      "loss": 0.86764258,
      "num_input_tokens_seen": 11098240,
      "step": 518,
      "time_per_iteration": 2.6804163455963135
    },
    {
      "auxiliary_loss_clip": 0.01195633,
      "auxiliary_loss_mlp": 0.01034247,
      "balance_loss_clip": 1.05083847,
      "balance_loss_mlp": 1.0239172,
      "epoch": 0.06240606024168821,
      "flos": 15197008003200.0,
      "grad_norm": 2.4535668720525745,
      "language_loss": 0.94870436,
      "learning_rate": 3.989032931426554e-06,
      "loss": 0.97100323,
      "num_input_tokens_seen": 11115395,
      "step": 519,
      "time_per_iteration": 2.635591983795166
    },
    {
      "auxiliary_loss_clip": 0.01172299,
      "auxiliary_loss_mlp": 0.01033246,
      "balance_loss_clip": 1.04778433,
      "balance_loss_mlp": 1.02311945,
      "epoch": 0.06252630313232731,
      "flos": 20633948645760.0,
      "grad_norm": 2.2327978105669444,
      "language_loss": 0.86593282,
      "learning_rate": 3.9889513156206295e-06,
      "loss": 0.88798833,
      "num_input_tokens_seen": 11134835,
      "step": 520,
      "time_per_iteration": 2.6282873153686523
    },
    {
      "auxiliary_loss_clip": 0.01167647,
      "auxiliary_loss_mlp": 0.01037458,
      "balance_loss_clip": 1.05090463,
      "balance_loss_mlp": 1.026896,
      "epoch": 0.06264654602296639,
      "flos": 20780200967040.0,
      "grad_norm": 2.8983868777267583,
      "language_loss": 0.73764497,
      "learning_rate": 3.988869398092371e-06,
      "loss": 0.75969601,
      "num_input_tokens_seen": 11154745,
      "step": 521,
      "time_per_iteration": 2.6722571849823
    },
    {
      "auxiliary_loss_clip": 0.01176938,
      "auxiliary_loss_mlp": 0.01036063,
      "balance_loss_clip": 1.04997277,
      "balance_loss_mlp": 1.02544737,
      "epoch": 0.06276678891360549,
      "flos": 29608331904000.0,
      "grad_norm": 3.629873190181905,
      "language_loss": 0.78691959,
      "learning_rate": 3.988787178854206e-06,
      "loss": 0.80904961,
      "num_input_tokens_seen": 11174280,
      "step": 522,
      "time_per_iteration": 2.6581099033355713
    },
    {
      "auxiliary_loss_clip": 0.01211798,
      "auxiliary_loss_mlp": 0.01038883,
      "balance_loss_clip": 1.05392849,
      "balance_loss_mlp": 1.02843475,
      "epoch": 0.06288703180424457,
      "flos": 22128408933120.0,
      "grad_norm": 2.2291413742270088,
      "language_loss": 0.87822723,
      "learning_rate": 3.988704657918608e-06,
      "loss": 0.90073407,
      "num_input_tokens_seen": 11193340,
      "step": 523,
      "time_per_iteration": 2.582566261291504
    },
    {
      "auxiliary_loss_clip": 0.01194332,
      "auxiliary_loss_mlp": 0.01040131,
      "balance_loss_clip": 1.05346155,
      "balance_loss_mlp": 1.03012931,
      "epoch": 0.06300727469488367,
      "flos": 14978501637120.0,
      "grad_norm": 2.4884964810123207,
      "language_loss": 0.79876816,
      "learning_rate": 3.988621835298094e-06,
      "loss": 0.82111287,
      "num_input_tokens_seen": 11210555,
      "step": 524,
      "time_per_iteration": 2.562378406524658
    },
    {
      "auxiliary_loss_clip": 0.01212492,
      "auxiliary_loss_mlp": 0.01035817,
      "balance_loss_clip": 1.05572736,
      "balance_loss_mlp": 1.02605426,
      "epoch": 0.06312751758552275,
      "flos": 24537704590080.0,
      "grad_norm": 2.1308169783977307,
      "language_loss": 0.91686755,
      "learning_rate": 3.988538711005229e-06,
      "loss": 0.93935061,
      "num_input_tokens_seen": 11230010,
      "step": 525,
      "time_per_iteration": 2.5687851905822754
    },
    {
      "auxiliary_loss_clip": 0.01187922,
      "auxiliary_loss_mlp": 0.01033288,
      "balance_loss_clip": 1.0493176,
      "balance_loss_mlp": 1.023471,
      "epoch": 0.06324776047616185,
      "flos": 21509149570560.0,
      "grad_norm": 2.206641702652969,
      "language_loss": 0.88326311,
      "learning_rate": 3.988455285052622e-06,
      "loss": 0.9054752,
      "num_input_tokens_seen": 11246190,
      "step": 526,
      "time_per_iteration": 2.5869312286376953
    },
    {
      "auxiliary_loss_clip": 0.01198489,
      "auxiliary_loss_mlp": 0.01038121,
      "balance_loss_clip": 1.05526769,
      "balance_loss_mlp": 1.02801836,
      "epoch": 0.06336800336680094,
      "flos": 21690106986240.0,
      "grad_norm": 2.600784492836676,
      "language_loss": 0.83910871,
      "learning_rate": 3.98837155745293e-06,
      "loss": 0.86147487,
      "num_input_tokens_seen": 11264230,
      "step": 527,
      "time_per_iteration": 2.557781457901001
    },
    {
      "auxiliary_loss_clip": 0.01194068,
      "auxiliary_loss_mlp": 0.01033865,
      "balance_loss_clip": 1.05351734,
      "balance_loss_mlp": 1.02391708,
      "epoch": 0.06348824625744003,
      "flos": 19502957831040.0,
      "grad_norm": 2.4971285793667026,
      "language_loss": 0.76148939,
      "learning_rate": 3.988287528218854e-06,
      "loss": 0.78376877,
      "num_input_tokens_seen": 11283015,
      "step": 528,
      "time_per_iteration": 2.5854015350341797
    },
    {
      "auxiliary_loss_clip": 0.01194965,
      "auxiliary_loss_mlp": 0.01033699,
      "balance_loss_clip": 1.05344415,
      "balance_loss_mlp": 1.02385211,
      "epoch": 0.06360848914807912,
      "flos": 15482725309440.0,
      "grad_norm": 2.003293515828349,
      "language_loss": 0.90503407,
      "learning_rate": 3.98820319736314e-06,
      "loss": 0.92732072,
      "num_input_tokens_seen": 11299630,
      "step": 529,
      "time_per_iteration": 2.5327858924865723
    },
    {
      "auxiliary_loss_clip": 0.01166284,
      "auxiliary_loss_mlp": 0.01033933,
      "balance_loss_clip": 1.04959321,
      "balance_loss_mlp": 1.02374661,
      "epoch": 0.0637287320387182,
      "flos": 20595375907200.0,
      "grad_norm": 1.7604035912865743,
      "language_loss": 0.85323769,
      "learning_rate": 3.988118564898582e-06,
      "loss": 0.87523985,
      "num_input_tokens_seen": 11319170,
      "step": 530,
      "time_per_iteration": 2.671018362045288
    },
    {
      "auxiliary_loss_clip": 0.01163141,
      "auxiliary_loss_mlp": 0.00758467,
      "balance_loss_clip": 1.05024981,
      "balance_loss_mlp": 1.00010467,
      "epoch": 0.0638489749293573,
      "flos": 17413667475840.0,
      "grad_norm": 3.0812420367268873,
      "language_loss": 0.89049459,
      "learning_rate": 3.988033630838019e-06,
      "loss": 0.90971071,
      "num_input_tokens_seen": 11333210,
      "step": 531,
      "time_per_iteration": 2.582512140274048
    },
    {
      "auxiliary_loss_clip": 0.01202554,
      "auxiliary_loss_mlp": 0.01038192,
      "balance_loss_clip": 1.05512691,
      "balance_loss_mlp": 1.02791595,
      "epoch": 0.0639692178199964,
      "flos": 23810045201280.0,
      "grad_norm": 1.6494955846319848,
      "language_loss": 0.88007057,
      "learning_rate": 3.987948395194334e-06,
      "loss": 0.90247798,
      "num_input_tokens_seen": 11355590,
      "step": 532,
      "time_per_iteration": 2.6329164505004883
    },
    {
      "auxiliary_loss_clip": 0.01194263,
      "auxiliary_loss_mlp": 0.01041254,
      "balance_loss_clip": 1.05142069,
      "balance_loss_mlp": 1.03136587,
      "epoch": 0.06408946071063548,
      "flos": 18479115745920.0,
      "grad_norm": 2.565463195641854,
      "language_loss": 0.76569116,
      "learning_rate": 3.987862857980458e-06,
      "loss": 0.78804636,
      "num_input_tokens_seen": 11371535,
      "step": 533,
      "time_per_iteration": 4.039469957351685
    },
    {
      "auxiliary_loss_clip": 0.01157596,
      "auxiliary_loss_mlp": 0.01034472,
      "balance_loss_clip": 1.04736698,
      "balance_loss_mlp": 1.02429175,
      "epoch": 0.06420970360127458,
      "flos": 27164672415360.0,
      "grad_norm": 1.9320190864017581,
      "language_loss": 0.76892447,
      "learning_rate": 3.987777019209368e-06,
      "loss": 0.79084516,
      "num_input_tokens_seen": 11392050,
      "step": 534,
      "time_per_iteration": 4.271085977554321
    },
    {
      "auxiliary_loss_clip": 0.01210805,
      "auxiliary_loss_mlp": 0.01031791,
      "balance_loss_clip": 1.0547111,
      "balance_loss_mlp": 1.02202201,
      "epoch": 0.06432994649191366,
      "flos": 23661934894080.0,
      "grad_norm": 2.000164216352724,
      "language_loss": 0.80999041,
      "learning_rate": 3.987690878894084e-06,
      "loss": 0.83241636,
      "num_input_tokens_seen": 11411765,
      "step": 535,
      "time_per_iteration": 2.607496738433838
    },
    {
      "auxiliary_loss_clip": 0.01186528,
      "auxiliary_loss_mlp": 0.01030448,
      "balance_loss_clip": 1.05365038,
      "balance_loss_mlp": 1.01988578,
      "epoch": 0.06445018938255276,
      "flos": 23406182922240.0,
      "grad_norm": 2.5601618062484537,
      "language_loss": 0.85385519,
      "learning_rate": 3.987604437047673e-06,
      "loss": 0.87602496,
      "num_input_tokens_seen": 11431565,
      "step": 536,
      "time_per_iteration": 2.6012961864471436
    },
    {
      "auxiliary_loss_clip": 0.01191882,
      "auxiliary_loss_mlp": 0.01034571,
      "balance_loss_clip": 1.05195558,
      "balance_loss_mlp": 1.02453995,
      "epoch": 0.06457043227319184,
      "flos": 19648755135360.0,
      "grad_norm": 2.6920063857358087,
      "language_loss": 0.78091615,
      "learning_rate": 3.987517693683251e-06,
      "loss": 0.80318069,
      "num_input_tokens_seen": 11450140,
      "step": 537,
      "time_per_iteration": 2.605393171310425
    },
    {
      "auxiliary_loss_clip": 0.011695,
      "auxiliary_loss_mlp": 0.01044538,
      "balance_loss_clip": 1.04627681,
      "balance_loss_mlp": 1.03400612,
      "epoch": 0.06469067516383094,
      "flos": 16980408633600.0,
      "grad_norm": 2.6772236399900518,
      "language_loss": 0.96175706,
      "learning_rate": 3.9874306488139745e-06,
      "loss": 0.98389745,
      "num_input_tokens_seen": 11465400,
      "step": 538,
      "time_per_iteration": 2.569729804992676
    },
    {
      "auxiliary_loss_clip": 0.01158282,
      "auxiliary_loss_mlp": 0.01035832,
      "balance_loss_clip": 1.04718304,
      "balance_loss_mlp": 1.02596128,
      "epoch": 0.06481091805447003,
      "flos": 23298730848000.0,
      "grad_norm": 2.082951860545728,
      "language_loss": 0.87758338,
      "learning_rate": 3.987343302453049e-06,
      "loss": 0.89952457,
      "num_input_tokens_seen": 11486675,
      "step": 539,
      "time_per_iteration": 2.714559316635132
    },
    {
      "auxiliary_loss_clip": 0.01182942,
      "auxiliary_loss_mlp": 0.0103742,
      "balance_loss_clip": 1.05206513,
      "balance_loss_mlp": 1.0267154,
      "epoch": 0.06493116094510912,
      "flos": 29175110979840.0,
      "grad_norm": 1.7570702652049364,
      "language_loss": 0.82536155,
      "learning_rate": 3.987255654613724e-06,
      "loss": 0.84756517,
      "num_input_tokens_seen": 11510440,
      "step": 540,
      "time_per_iteration": 2.695451259613037
    },
    {
      "auxiliary_loss_clip": 0.01160109,
      "auxiliary_loss_mlp": 0.01033443,
      "balance_loss_clip": 1.04967833,
      "balance_loss_mlp": 1.02340007,
      "epoch": 0.06505140383574821,
      "flos": 19867109829120.0,
      "grad_norm": 2.151419654880312,
      "language_loss": 0.69934857,
      "learning_rate": 3.987167705309296e-06,
      "loss": 0.72128403,
      "num_input_tokens_seen": 11529715,
      "step": 541,
      "time_per_iteration": 2.6342716217041016
    },
    {
      "auxiliary_loss_clip": 0.01192293,
      "auxiliary_loss_mlp": 0.00758198,
      "balance_loss_clip": 1.05446362,
      "balance_loss_mlp": 1.00012088,
      "epoch": 0.0651716467263873,
      "flos": 17926271043840.0,
      "grad_norm": 3.608242125181573,
      "language_loss": 0.95107377,
      "learning_rate": 3.987079454553108e-06,
      "loss": 0.97057867,
      "num_input_tokens_seen": 11547665,
      "step": 542,
      "time_per_iteration": 2.593309164047241
    },
    {
      "auxiliary_loss_clip": 0.01157672,
      "auxiliary_loss_mlp": 0.01033935,
      "balance_loss_clip": 1.04824996,
      "balance_loss_mlp": 1.02418399,
      "epoch": 0.0652918896170264,
      "flos": 20844530133120.0,
      "grad_norm": 1.9059387403283017,
      "language_loss": 0.90964991,
      "learning_rate": 3.986990902358546e-06,
      "loss": 0.931566,
      "num_input_tokens_seen": 11564605,
      "step": 543,
      "time_per_iteration": 2.6258492469787598
    },
    {
      "auxiliary_loss_clip": 0.01193111,
      "auxiliary_loss_mlp": 0.01038539,
      "balance_loss_clip": 1.05120921,
      "balance_loss_mlp": 1.02832866,
      "epoch": 0.06541213250766549,
      "flos": 21874704537600.0,
      "grad_norm": 1.9852765113585322,
      "language_loss": 0.93536806,
      "learning_rate": 3.986902048739045e-06,
      "loss": 0.95768458,
      "num_input_tokens_seen": 11584550,
      "step": 544,
      "time_per_iteration": 2.6145670413970947
    },
    {
      "auxiliary_loss_clip": 0.01172448,
      "auxiliary_loss_mlp": 0.01039126,
      "balance_loss_clip": 1.04791319,
      "balance_loss_mlp": 1.02833176,
      "epoch": 0.06553237539830457,
      "flos": 23112882000000.0,
      "grad_norm": 2.7181834864657355,
      "language_loss": 0.80127555,
      "learning_rate": 3.986812893708082e-06,
      "loss": 0.82339132,
      "num_input_tokens_seen": 11600740,
      "step": 545,
      "time_per_iteration": 2.587555170059204
    },
    {
      "auxiliary_loss_clip": 0.01176985,
      "auxiliary_loss_mlp": 0.0104048,
      "balance_loss_clip": 1.05219722,
      "balance_loss_mlp": 1.02975082,
      "epoch": 0.06565261828894367,
      "flos": 17925285173760.0,
      "grad_norm": 2.3124221727720093,
      "language_loss": 0.81357068,
      "learning_rate": 3.9867234372791826e-06,
      "loss": 0.83574528,
      "num_input_tokens_seen": 11618695,
      "step": 546,
      "time_per_iteration": 2.6212313175201416
    },
    {
      "auxiliary_loss_clip": 0.01191399,
      "auxiliary_loss_mlp": 0.01036066,
      "balance_loss_clip": 1.05082357,
      "balance_loss_mlp": 1.02579033,
      "epoch": 0.06577286117958275,
      "flos": 22785217246080.0,
      "grad_norm": 1.796838863777126,
      "language_loss": 0.87054563,
      "learning_rate": 3.986633679465918e-06,
      "loss": 0.89282024,
      "num_input_tokens_seen": 11638850,
      "step": 547,
      "time_per_iteration": 2.6000850200653076
    },
    {
      "auxiliary_loss_clip": 0.0114104,
      "auxiliary_loss_mlp": 0.01039229,
      "balance_loss_clip": 1.04750502,
      "balance_loss_mlp": 1.029531,
      "epoch": 0.06589310407022185,
      "flos": 23698460056320.0,
      "grad_norm": 3.8307998921443702,
      "language_loss": 0.80584359,
      "learning_rate": 3.986543620281904e-06,
      "loss": 0.82764626,
      "num_input_tokens_seen": 11658500,
      "step": 548,
      "time_per_iteration": 2.7355659008026123
    },
    {
      "auxiliary_loss_clip": 0.01176035,
      "auxiliary_loss_mlp": 0.0102832,
      "balance_loss_clip": 1.04920411,
      "balance_loss_mlp": 1.01830614,
      "epoch": 0.06601334696086093,
      "flos": 26866897159680.0,
      "grad_norm": 6.697763348040976,
      "language_loss": 0.91217732,
      "learning_rate": 3.986453259740802e-06,
      "loss": 0.93422085,
      "num_input_tokens_seen": 11676670,
      "step": 549,
      "time_per_iteration": 2.6154494285583496
    },
    {
      "auxiliary_loss_clip": 0.01174312,
      "auxiliary_loss_mlp": 0.01039135,
      "balance_loss_clip": 1.05196905,
      "balance_loss_mlp": 1.02838778,
      "epoch": 0.06613358985150003,
      "flos": 12569319734400.0,
      "grad_norm": 2.9559629751823686,
      "language_loss": 0.789029,
      "learning_rate": 3.986362597856319e-06,
      "loss": 0.81116349,
      "num_input_tokens_seen": 11693170,
      "step": 550,
      "time_per_iteration": 2.610689163208008
    },
    {
      "auxiliary_loss_clip": 0.01177023,
      "auxiliary_loss_mlp": 0.00758802,
      "balance_loss_clip": 1.04995096,
      "balance_loss_mlp": 1.0002079,
      "epoch": 0.06625383274213913,
      "flos": 18334455984000.0,
      "grad_norm": 6.899402040051699,
      "language_loss": 0.81338525,
      "learning_rate": 3.986271634642211e-06,
      "loss": 0.83274341,
      "num_input_tokens_seen": 11710150,
      "step": 551,
      "time_per_iteration": 2.570019006729126
    },
    {
      "auxiliary_loss_clip": 0.01207804,
      "auxiliary_loss_mlp": 0.01037828,
      "balance_loss_clip": 1.05418754,
      "balance_loss_mlp": 1.02730179,
      "epoch": 0.06637407563277821,
      "flos": 15377282893440.0,
      "grad_norm": 2.1681896000738536,
      "language_loss": 0.81625122,
      "learning_rate": 3.986180370112274e-06,
      "loss": 0.83870751,
      "num_input_tokens_seen": 11726670,
      "step": 552,
      "time_per_iteration": 2.54343581199646
    },
    {
      "auxiliary_loss_clip": 0.01189605,
      "auxiliary_loss_mlp": 0.00758845,
      "balance_loss_clip": 1.05134749,
      "balance_loss_mlp": 1.00017929,
      "epoch": 0.0664943185234173,
      "flos": 24027565697280.0,
      "grad_norm": 2.4343948534532496,
      "language_loss": 0.74527502,
      "learning_rate": 3.986088804280354e-06,
      "loss": 0.76475948,
      "num_input_tokens_seen": 11746400,
      "step": 553,
      "time_per_iteration": 2.572629928588867
    },
    {
      "auxiliary_loss_clip": 0.01173556,
      "auxiliary_loss_mlp": 0.01037746,
      "balance_loss_clip": 1.05110753,
      "balance_loss_mlp": 1.02761304,
      "epoch": 0.06661456141405639,
      "flos": 20959489987200.0,
      "grad_norm": 2.3504424238724324,
      "language_loss": 0.93694305,
      "learning_rate": 3.985996937160342e-06,
      "loss": 0.95905608,
      "num_input_tokens_seen": 11765590,
      "step": 554,
      "time_per_iteration": 2.643596887588501
    },
    {
      "auxiliary_loss_clip": 0.01185732,
      "auxiliary_loss_mlp": 0.01042399,
      "balance_loss_clip": 1.04836869,
      "balance_loss_mlp": 1.03241503,
      "epoch": 0.06673480430469549,
      "flos": 52227579427200.0,
      "grad_norm": 2.445993704833188,
      "language_loss": 0.68897891,
      "learning_rate": 3.985904768766173e-06,
      "loss": 0.71126014,
      "num_input_tokens_seen": 11788365,
      "step": 555,
      "time_per_iteration": 2.8134689331054688
    },
    {
      "auxiliary_loss_clip": 0.01157431,
      "auxiliary_loss_mlp": 0.01035971,
      "balance_loss_clip": 1.04841232,
      "balance_loss_mlp": 1.02472365,
      "epoch": 0.06685504719533458,
      "flos": 16218954184320.0,
      "grad_norm": 2.963037243311163,
      "language_loss": 0.75541449,
      "learning_rate": 3.98581229911183e-06,
      "loss": 0.77734852,
      "num_input_tokens_seen": 11807285,
      "step": 556,
      "time_per_iteration": 2.6636900901794434
    },
    {
      "auxiliary_loss_clip": 0.01191502,
      "auxiliary_loss_mlp": 0.01034104,
      "balance_loss_clip": 1.05203676,
      "balance_loss_mlp": 1.02443075,
      "epoch": 0.06697529008597367,
      "flos": 22493698473600.0,
      "grad_norm": 2.1539223984513582,
      "language_loss": 0.9232319,
      "learning_rate": 3.985719528211341e-06,
      "loss": 0.94548798,
      "num_input_tokens_seen": 11826655,
      "step": 557,
      "time_per_iteration": 2.5651774406433105
    },
    {
      "auxiliary_loss_clip": 0.0115409,
      "auxiliary_loss_mlp": 0.01023526,
      "balance_loss_clip": 1.05072296,
      "balance_loss_mlp": 1.01718378,
      "epoch": 0.06709553297661276,
      "flos": 62694062000640.0,
      "grad_norm": 0.868395462368953,
      "language_loss": 0.62995976,
      "learning_rate": 3.985626456078777e-06,
      "loss": 0.6517359,
      "num_input_tokens_seen": 11891310,
      "step": 558,
      "time_per_iteration": 3.29535174369812
    },
    {
      "auxiliary_loss_clip": 0.0115906,
      "auxiliary_loss_mlp": 0.01034125,
      "balance_loss_clip": 1.04834723,
      "balance_loss_mlp": 1.02437401,
      "epoch": 0.06721577586725185,
      "flos": 11218078321920.0,
      "grad_norm": 2.3339723656896743,
      "language_loss": 0.86039543,
      "learning_rate": 3.985533082728259e-06,
      "loss": 0.8823272,
      "num_input_tokens_seen": 11906965,
      "step": 559,
      "time_per_iteration": 4.190750598907471
    },
    {
      "auxiliary_loss_clip": 0.01206666,
      "auxiliary_loss_mlp": 0.010303,
      "balance_loss_clip": 1.05253291,
      "balance_loss_mlp": 1.02007771,
      "epoch": 0.06733601875789094,
      "flos": 25924599048960.0,
      "grad_norm": 2.1153496166052745,
      "language_loss": 0.74567568,
      "learning_rate": 3.985439408173951e-06,
      "loss": 0.76804531,
      "num_input_tokens_seen": 11927190,
      "step": 560,
      "time_per_iteration": 3.3262224197387695
    },
    {
      "auxiliary_loss_clip": 0.0120767,
      "auxiliary_loss_mlp": 0.01042696,
      "balance_loss_clip": 1.05402613,
      "balance_loss_mlp": 1.0316993,
      "epoch": 0.06745626164853002,
      "flos": 20815740259200.0,
      "grad_norm": 2.696056960061953,
      "language_loss": 0.70628792,
      "learning_rate": 3.9853454324300634e-06,
      "loss": 0.72879159,
      "num_input_tokens_seen": 11946400,
      "step": 561,
      "time_per_iteration": 2.5451302528381348
    },
    {
      "auxiliary_loss_clip": 0.01123256,
      "auxiliary_loss_mlp": 0.01032909,
      "balance_loss_clip": 1.0441792,
      "balance_loss_mlp": 1.02208519,
      "epoch": 0.06757650453916912,
      "flos": 19831343028480.0,
      "grad_norm": 2.7039760169034985,
      "language_loss": 0.77797961,
      "learning_rate": 3.985251155510852e-06,
      "loss": 0.79954123,
      "num_input_tokens_seen": 11965430,
      "step": 562,
      "time_per_iteration": 2.7049713134765625
    },
    {
      "auxiliary_loss_clip": 0.01134077,
      "auxiliary_loss_mlp": 0.01034289,
      "balance_loss_clip": 1.04334378,
      "balance_loss_mlp": 1.02385783,
      "epoch": 0.06769674742980822,
      "flos": 25741594056960.0,
      "grad_norm": 1.8626969865409158,
      "language_loss": 0.80527759,
      "learning_rate": 3.98515657743062e-06,
      "loss": 0.82696116,
      "num_input_tokens_seen": 11984895,
      "step": 563,
      "time_per_iteration": 2.682891845703125
    },
    {
      "auxiliary_loss_clip": 0.01163447,
      "auxiliary_loss_mlp": 0.01041448,
      "balance_loss_clip": 1.04435694,
      "balance_loss_mlp": 1.03124976,
      "epoch": 0.0678169903204473,
      "flos": 13076235590400.0,
      "grad_norm": 1.9171931548309464,
      "language_loss": 0.77373075,
      "learning_rate": 3.985061698203711e-06,
      "loss": 0.79577976,
      "num_input_tokens_seen": 12002010,
      "step": 564,
      "time_per_iteration": 2.6001453399658203
    },
    {
      "auxiliary_loss_clip": 0.01184545,
      "auxiliary_loss_mlp": 0.01008452,
      "balance_loss_clip": 1.05336332,
      "balance_loss_mlp": 1.00268269,
      "epoch": 0.0679372332110864,
      "flos": 70872399469440.0,
      "grad_norm": 0.8977214838964087,
      "language_loss": 0.63825721,
      "learning_rate": 3.984966517844523e-06,
      "loss": 0.66018718,
      "num_input_tokens_seen": 12057255,
      "step": 565,
      "time_per_iteration": 3.0809335708618164
    },
    {
      "auxiliary_loss_clip": 0.01205816,
      "auxiliary_loss_mlp": 0.01041669,
      "balance_loss_clip": 1.05304527,
      "balance_loss_mlp": 1.03069544,
      "epoch": 0.06805747610172548,
      "flos": 28258910559360.0,
      "grad_norm": 7.109159648495112,
      "language_loss": 0.80123675,
      "learning_rate": 3.984871036367492e-06,
      "loss": 0.82371157,
      "num_input_tokens_seen": 12077280,
      "step": 566,
      "time_per_iteration": 2.631816864013672
    },
    {
      "auxiliary_loss_clip": 0.01187326,
      "auxiliary_loss_mlp": 0.00758513,
      "balance_loss_clip": 1.0509429,
      "balance_loss_mlp": 1.00020111,
      "epoch": 0.06817771899236458,
      "flos": 20122596374400.0,
      "grad_norm": 1.9518405736550444,
      "language_loss": 0.83184326,
      "learning_rate": 3.984775253787102e-06,
      "loss": 0.85130167,
      "num_input_tokens_seen": 12095570,
      "step": 567,
      "time_per_iteration": 2.556258201599121
    },
    {
      "auxiliary_loss_clip": 0.01186886,
      "auxiliary_loss_mlp": 0.01037998,
      "balance_loss_clip": 1.0504297,
      "balance_loss_mlp": 1.02796102,
      "epoch": 0.06829796188300366,
      "flos": 17932527527040.0,
      "grad_norm": 3.11221073506598,
      "language_loss": 0.88088953,
      "learning_rate": 3.984679170117885e-06,
      "loss": 0.90313834,
      "num_input_tokens_seen": 12111775,
      "step": 568,
      "time_per_iteration": 2.5810742378234863
    },
    {
      "auxiliary_loss_clip": 0.01184091,
      "auxiliary_loss_mlp": 0.01035708,
      "balance_loss_clip": 1.04869246,
      "balance_loss_mlp": 1.0248425,
      "epoch": 0.06841820477364276,
      "flos": 14503371183360.0,
      "grad_norm": 3.7963934578494944,
      "language_loss": 0.78477663,
      "learning_rate": 3.984582785374415e-06,
      "loss": 0.80697465,
      "num_input_tokens_seen": 12129215,
      "step": 569,
      "time_per_iteration": 2.5254063606262207
    },
    {
      "auxiliary_loss_clip": 0.01171071,
      "auxiliary_loss_mlp": 0.00758623,
      "balance_loss_clip": 1.04979277,
      "balance_loss_mlp": 1.00014484,
      "epoch": 0.06853844766428185,
      "flos": 21940285000320.0,
      "grad_norm": 2.0939729172082684,
      "language_loss": 0.80833167,
      "learning_rate": 3.9844860995713155e-06,
      "loss": 0.82762861,
      "num_input_tokens_seen": 12148755,
      "step": 570,
      "time_per_iteration": 2.6505141258239746
    },
    {
      "auxiliary_loss_clip": 0.01190308,
      "auxiliary_loss_mlp": 0.01035491,
      "balance_loss_clip": 1.05488253,
      "balance_loss_mlp": 1.02558482,
      "epoch": 0.06865869055492094,
      "flos": 16802522582400.0,
      "grad_norm": 2.5550663278841252,
      "language_loss": 0.82776392,
      "learning_rate": 3.9843891127232524e-06,
      "loss": 0.8500219,
      "num_input_tokens_seen": 12166290,
      "step": 571,
      "time_per_iteration": 2.534674644470215
    },
    {
      "auxiliary_loss_clip": 0.01135151,
      "auxiliary_loss_mlp": 0.01033073,
      "balance_loss_clip": 1.04289103,
      "balance_loss_mlp": 1.02276731,
      "epoch": 0.06877893344556003,
      "flos": 19939288037760.0,
      "grad_norm": 2.6593892260798366,
      "language_loss": 0.6691457,
      "learning_rate": 3.984291824844938e-06,
      "loss": 0.69082791,
      "num_input_tokens_seen": 12181385,
      "step": 572,
      "time_per_iteration": 2.6789560317993164
    },
    {
      "auxiliary_loss_clip": 0.01204922,
      "auxiliary_loss_mlp": 0.01037126,
      "balance_loss_clip": 1.05317712,
      "balance_loss_mlp": 1.02616477,
      "epoch": 0.06889917633619912,
      "flos": 23041613825280.0,
      "grad_norm": 2.5743513005327885,
      "language_loss": 0.85081285,
      "learning_rate": 3.984194235951132e-06,
      "loss": 0.87323332,
      "num_input_tokens_seen": 12197530,
      "step": 573,
      "time_per_iteration": 2.5441298484802246
    },
    {
      "auxiliary_loss_clip": 0.01207009,
      "auxiliary_loss_mlp": 0.01044728,
      "balance_loss_clip": 1.05424619,
      "balance_loss_mlp": 1.03532803,
      "epoch": 0.06901941922683821,
      "flos": 20962713024000.0,
      "grad_norm": 2.709919968383735,
      "language_loss": 0.84841454,
      "learning_rate": 3.9840963460566375e-06,
      "loss": 0.87093186,
      "num_input_tokens_seen": 12216310,
      "step": 574,
      "time_per_iteration": 2.5780763626098633
    },
    {
      "auxiliary_loss_clip": 0.0112487,
      "auxiliary_loss_mlp": 0.01035617,
      "balance_loss_clip": 1.04250216,
      "balance_loss_mlp": 1.02611041,
      "epoch": 0.06913966211747731,
      "flos": 24823876913280.0,
      "grad_norm": 1.5953358302073166,
      "language_loss": 0.89444453,
      "learning_rate": 3.983998155176305e-06,
      "loss": 0.91604948,
      "num_input_tokens_seen": 12236670,
      "step": 575,
      "time_per_iteration": 2.7556583881378174
    },
    {
      "auxiliary_loss_clip": 0.01181457,
      "auxiliary_loss_mlp": 0.01005141,
      "balance_loss_clip": 1.05181944,
      "balance_loss_mlp": 0.9992277,
      "epoch": 0.06925990500811639,
      "flos": 58374224104320.0,
      "grad_norm": 0.8625025412534753,
      "language_loss": 0.5707711,
      "learning_rate": 3.9838996633250305e-06,
      "loss": 0.59263706,
      "num_input_tokens_seen": 12297185,
      "step": 576,
      "time_per_iteration": 3.0786380767822266
    },
    {
      "auxiliary_loss_clip": 0.01185099,
      "auxiliary_loss_mlp": 0.01035355,
      "balance_loss_clip": 1.0500617,
      "balance_loss_mlp": 1.02645636,
      "epoch": 0.06938014789875549,
      "flos": 12751566364800.0,
      "grad_norm": 2.339636077603673,
      "language_loss": 0.88276851,
      "learning_rate": 3.983800870517753e-06,
      "loss": 0.90497297,
      "num_input_tokens_seen": 12313975,
      "step": 577,
      "time_per_iteration": 2.5844972133636475
    },
    {
      "auxiliary_loss_clip": 0.0118572,
      "auxiliary_loss_mlp": 0.01038036,
      "balance_loss_clip": 1.05174422,
      "balance_loss_mlp": 1.02876186,
      "epoch": 0.06950039078939457,
      "flos": 22822424933760.0,
      "grad_norm": 3.326859881404224,
      "language_loss": 0.78027731,
      "learning_rate": 3.983701776769463e-06,
      "loss": 0.80251491,
      "num_input_tokens_seen": 12331385,
      "step": 578,
      "time_per_iteration": 2.5801329612731934
    },
    {
      "auxiliary_loss_clip": 0.01192991,
      "auxiliary_loss_mlp": 0.01035411,
      "balance_loss_clip": 1.05335557,
      "balance_loss_mlp": 1.02511704,
      "epoch": 0.06962063368003367,
      "flos": 21943318446720.0,
      "grad_norm": 1.9954884591336572,
      "language_loss": 0.85585821,
      "learning_rate": 3.9836023820951885e-06,
      "loss": 0.87814224,
      "num_input_tokens_seen": 12350600,
      "step": 579,
      "time_per_iteration": 2.603750228881836
    },
    {
      "auxiliary_loss_clip": 0.01140017,
      "auxiliary_loss_mlp": 0.01040331,
      "balance_loss_clip": 1.03934169,
      "balance_loss_mlp": 1.0309968,
      "epoch": 0.06974087657067275,
      "flos": 20708212348800.0,
      "grad_norm": 1.9886415177511914,
      "language_loss": 0.68822408,
      "learning_rate": 3.983502686510011e-06,
      "loss": 0.71002758,
      "num_input_tokens_seen": 12371430,
      "step": 580,
      "time_per_iteration": 2.6351308822631836
    },
    {
      "auxiliary_loss_clip": 0.01187035,
      "auxiliary_loss_mlp": 0.00758259,
      "balance_loss_clip": 1.05035293,
      "balance_loss_mlp": 1.00018215,
      "epoch": 0.06986111946131185,
      "flos": 22640443729920.0,
      "grad_norm": 2.7398031067914257,
      "language_loss": 0.73824102,
      "learning_rate": 3.9834026900290525e-06,
      "loss": 0.75769395,
      "num_input_tokens_seen": 12390825,
      "step": 581,
      "time_per_iteration": 2.596273183822632
    },
    {
      "auxiliary_loss_clip": 0.01202368,
      "auxiliary_loss_mlp": 0.01035216,
      "balance_loss_clip": 1.05101633,
      "balance_loss_mlp": 1.02494669,
      "epoch": 0.06998136235195095,
      "flos": 26945900622720.0,
      "grad_norm": 2.260950558525226,
      "language_loss": 1.00341964,
      "learning_rate": 3.983302392667482e-06,
      "loss": 1.02579546,
      "num_input_tokens_seen": 12411670,
      "step": 582,
      "time_per_iteration": 2.5812594890594482
    },
    {
      "auxiliary_loss_clip": 0.01180753,
      "auxiliary_loss_mlp": 0.01038301,
      "balance_loss_clip": 1.04833865,
      "balance_loss_mlp": 1.02835345,
      "epoch": 0.07010160524259003,
      "flos": 22494722261760.0,
      "grad_norm": 3.0935120453666656,
      "language_loss": 0.93614173,
      "learning_rate": 3.983201794440517e-06,
      "loss": 0.95833224,
      "num_input_tokens_seen": 12431245,
      "step": 583,
      "time_per_iteration": 2.655691146850586
    },
    {
      "auxiliary_loss_clip": 0.01172762,
      "auxiliary_loss_mlp": 0.01032416,
      "balance_loss_clip": 1.05007124,
      "balance_loss_mlp": 1.022313,
      "epoch": 0.07022184813322913,
      "flos": 18334493902080.0,
      "grad_norm": 1.9305484756573779,
      "language_loss": 0.67605746,
      "learning_rate": 3.9831008953634165e-06,
      "loss": 0.69810921,
      "num_input_tokens_seen": 12450535,
      "step": 584,
      "time_per_iteration": 3.3168797492980957
    },
    {
      "auxiliary_loss_clip": 0.01136833,
      "auxiliary_loss_mlp": 0.01032694,
      "balance_loss_clip": 1.04483056,
      "balance_loss_mlp": 1.02288902,
      "epoch": 0.07034209102386821,
      "flos": 24677548755840.0,
      "grad_norm": 2.0396968444514183,
      "language_loss": 0.81334686,
      "learning_rate": 3.9829996954514864e-06,
      "loss": 0.83504212,
      "num_input_tokens_seen": 12469675,
      "step": 585,
      "time_per_iteration": 3.563506841659546
    },
    {
      "auxiliary_loss_clip": 0.01189071,
      "auxiliary_loss_mlp": 0.01034049,
      "balance_loss_clip": 1.05128646,
      "balance_loss_mlp": 1.02445292,
      "epoch": 0.0704623339145073,
      "flos": 25998331898880.0,
      "grad_norm": 2.007780167132558,
      "language_loss": 0.83905888,
      "learning_rate": 3.982898194720079e-06,
      "loss": 0.8612901,
      "num_input_tokens_seen": 12490405,
      "step": 586,
      "time_per_iteration": 3.3961095809936523
    },
    {
      "auxiliary_loss_clip": 0.01174414,
      "auxiliary_loss_mlp": 0.00758317,
      "balance_loss_clip": 1.05204606,
      "balance_loss_mlp": 1.00017738,
      "epoch": 0.0705825768051464,
      "flos": 25340689388160.0,
      "grad_norm": 2.136021953267681,
      "language_loss": 0.82698309,
      "learning_rate": 3.982796393184592e-06,
      "loss": 0.84631038,
      "num_input_tokens_seen": 12509485,
      "step": 587,
      "time_per_iteration": 2.643963098526001
    },
    {
      "auxiliary_loss_clip": 0.01166129,
      "auxiliary_loss_mlp": 0.01003375,
      "balance_loss_clip": 1.049582,
      "balance_loss_mlp": 0.99808198,
      "epoch": 0.07070281969578548,
      "flos": 66053732319360.0,
      "grad_norm": 0.7965008892220324,
      "language_loss": 0.62616098,
      "learning_rate": 3.98269429086047e-06,
      "loss": 0.647856,
      "num_input_tokens_seen": 12567325,
      "step": 588,
      "time_per_iteration": 3.0583913326263428
    },
    {
      "auxiliary_loss_clip": 0.01172987,
      "auxiliary_loss_mlp": 0.01042444,
      "balance_loss_clip": 1.05053055,
      "balance_loss_mlp": 1.03145349,
      "epoch": 0.07082306258642458,
      "flos": 23655488820480.0,
      "grad_norm": 2.554084368889356,
      "language_loss": 0.85886943,
      "learning_rate": 3.982591887763199e-06,
      "loss": 0.88102376,
      "num_input_tokens_seen": 12584785,
      "step": 589,
      "time_per_iteration": 2.627750873565674
    },
    {
      "auxiliary_loss_clip": 0.01161152,
      "auxiliary_loss_mlp": 0.01031164,
      "balance_loss_clip": 1.04872668,
      "balance_loss_mlp": 1.02115011,
      "epoch": 0.07094330547706366,
      "flos": 13881685063680.0,
      "grad_norm": 2.6617069298746747,
      "language_loss": 0.81876361,
      "learning_rate": 3.982489183908316e-06,
      "loss": 0.84068668,
      "num_input_tokens_seen": 12601205,
      "step": 590,
      "time_per_iteration": 2.6093103885650635
    },
    {
      "auxiliary_loss_clip": 0.01131902,
      "auxiliary_loss_mlp": 0.01032238,
      "balance_loss_clip": 1.04573154,
      "balance_loss_mlp": 1.02330875,
      "epoch": 0.07106354836770276,
      "flos": 24647431749120.0,
      "grad_norm": 3.308327949436605,
      "language_loss": 0.84509867,
      "learning_rate": 3.982386179311399e-06,
      "loss": 0.86674011,
      "num_input_tokens_seen": 12621725,
      "step": 591,
      "time_per_iteration": 2.740983247756958
    },
    {
      "auxiliary_loss_clip": 0.01188086,
      "auxiliary_loss_mlp": 0.01037665,
      "balance_loss_clip": 1.05157447,
      "balance_loss_mlp": 1.0260241,
      "epoch": 0.07118379125834184,
      "flos": 16219105856640.0,
      "grad_norm": 7.700583372031657,
      "language_loss": 0.87558609,
      "learning_rate": 3.982282873988075e-06,
      "loss": 0.8978436,
      "num_input_tokens_seen": 12639600,
      "step": 592,
      "time_per_iteration": 2.5474331378936768
    },
    {
      "auxiliary_loss_clip": 0.01169299,
      "auxiliary_loss_mlp": 0.01032298,
      "balance_loss_clip": 1.04856491,
      "balance_loss_mlp": 1.02259421,
      "epoch": 0.07130403414898094,
      "flos": 19722070886400.0,
      "grad_norm": 1.8925660283921084,
      "language_loss": 0.86822081,
      "learning_rate": 3.982179267954016e-06,
      "loss": 0.89023674,
      "num_input_tokens_seen": 12660030,
      "step": 593,
      "time_per_iteration": 2.6394708156585693
    },
    {
      "auxiliary_loss_clip": 0.01201907,
      "auxiliary_loss_mlp": 0.01032576,
      "balance_loss_clip": 1.05221558,
      "balance_loss_mlp": 1.02244282,
      "epoch": 0.07142427703962004,
      "flos": 21874097848320.0,
      "grad_norm": 2.205733451945854,
      "language_loss": 0.96073997,
      "learning_rate": 3.982075361224937e-06,
      "loss": 0.9830848,
      "num_input_tokens_seen": 12678395,
      "step": 594,
      "time_per_iteration": 2.56412672996521
    },
    {
      "auxiliary_loss_clip": 0.0117976,
      "auxiliary_loss_mlp": 0.00758177,
      "balance_loss_clip": 1.0483644,
      "balance_loss_mlp": 1.00016975,
      "epoch": 0.07154451993025912,
      "flos": 18298575429120.0,
      "grad_norm": 2.06345582576708,
      "language_loss": 0.8830533,
      "learning_rate": 3.981971153816602e-06,
      "loss": 0.90243268,
      "num_input_tokens_seen": 12696000,
      "step": 595,
      "time_per_iteration": 2.580293893814087
    },
    {
      "auxiliary_loss_clip": 0.01203196,
      "auxiliary_loss_mlp": 0.01034024,
      "balance_loss_clip": 1.0548842,
      "balance_loss_mlp": 1.02501225,
      "epoch": 0.07166476282089822,
      "flos": 22162696928640.0,
      "grad_norm": 1.6356433830067938,
      "language_loss": 0.96176648,
      "learning_rate": 3.981866645744819e-06,
      "loss": 0.98413873,
      "num_input_tokens_seen": 12716715,
      "step": 596,
      "time_per_iteration": 2.567185401916504
    },
    {
      "auxiliary_loss_clip": 0.01203591,
      "auxiliary_loss_mlp": 0.00758406,
      "balance_loss_clip": 1.05387795,
      "balance_loss_mlp": 1.00013936,
      "epoch": 0.0717850057115373,
      "flos": 14138043724800.0,
      "grad_norm": 6.040885334908491,
      "language_loss": 0.81460381,
      "learning_rate": 3.9817618370254416e-06,
      "loss": 0.83422375,
      "num_input_tokens_seen": 12733370,
      "step": 597,
      "time_per_iteration": 2.603823661804199
    },
    {
      "auxiliary_loss_clip": 0.01204203,
      "auxiliary_loss_mlp": 0.01040985,
      "balance_loss_clip": 1.05425143,
      "balance_loss_mlp": 1.03123999,
      "epoch": 0.0719052486021764,
      "flos": 30920318052480.0,
      "grad_norm": 2.89529822447238,
      "language_loss": 0.87535208,
      "learning_rate": 3.9816567276743684e-06,
      "loss": 0.89780402,
      "num_input_tokens_seen": 12753235,
      "step": 598,
      "time_per_iteration": 2.6146998405456543
    },
    {
      "auxiliary_loss_clip": 0.01166538,
      "auxiliary_loss_mlp": 0.01030384,
      "balance_loss_clip": 1.04871356,
      "balance_loss_mlp": 1.02017355,
      "epoch": 0.0720254914928155,
      "flos": 21289088563200.0,
      "grad_norm": 2.28827444789573,
      "language_loss": 0.77282363,
      "learning_rate": 3.9815513177075466e-06,
      "loss": 0.79479283,
      "num_input_tokens_seen": 12772020,
      "step": 599,
      "time_per_iteration": 2.633533000946045
    },
    {
      "auxiliary_loss_clip": 0.01186644,
      "auxiliary_loss_mlp": 0.01034123,
      "balance_loss_clip": 1.05201411,
      "balance_loss_mlp": 1.02480078,
      "epoch": 0.07214573438345458,
      "flos": 27821670318720.0,
      "grad_norm": 1.5169752859506298,
      "language_loss": 0.70230025,
      "learning_rate": 3.9814456071409646e-06,
      "loss": 0.72450793,
      "num_input_tokens_seen": 12792555,
      "step": 600,
      "time_per_iteration": 2.6118640899658203
    },
    {
      "auxiliary_loss_clip": 0.01132402,
      "auxiliary_loss_mlp": 0.01041077,
      "balance_loss_clip": 1.04558456,
      "balance_loss_mlp": 1.03002036,
      "epoch": 0.07226597727409367,
      "flos": 25485917921280.0,
      "grad_norm": 2.346069175205422,
      "language_loss": 0.85355073,
      "learning_rate": 3.981339595990659e-06,
      "loss": 0.87528551,
      "num_input_tokens_seen": 12811085,
      "step": 601,
      "time_per_iteration": 2.722764492034912
    },
    {
      "auxiliary_loss_clip": 0.01182864,
      "auxiliary_loss_mlp": 0.01039325,
      "balance_loss_clip": 1.05006588,
      "balance_loss_mlp": 1.02825665,
      "epoch": 0.07238622016473276,
      "flos": 23516099671680.0,
      "grad_norm": 2.1308505879718678,
      "language_loss": 0.81277984,
      "learning_rate": 3.981233284272713e-06,
      "loss": 0.83500171,
      "num_input_tokens_seen": 12830830,
      "step": 602,
      "time_per_iteration": 2.575108528137207
    },
    {
      "auxiliary_loss_clip": 0.01146843,
      "auxiliary_loss_mlp": 0.01034264,
      "balance_loss_clip": 1.04725921,
      "balance_loss_mlp": 1.02518606,
      "epoch": 0.07250646305537185,
      "flos": 25456218013440.0,
      "grad_norm": 1.5815297657669876,
      "language_loss": 0.90035391,
      "learning_rate": 3.981126672003253e-06,
      "loss": 0.92216498,
      "num_input_tokens_seen": 12853505,
      "step": 603,
      "time_per_iteration": 2.727320432662964
    },
    {
      "auxiliary_loss_clip": 0.01170681,
      "auxiliary_loss_mlp": 0.01039764,
      "balance_loss_clip": 1.04934287,
      "balance_loss_mlp": 1.02978003,
      "epoch": 0.07262670594601094,
      "flos": 27157088799360.0,
      "grad_norm": 2.287551833655984,
      "language_loss": 0.77808261,
      "learning_rate": 3.981019759198451e-06,
      "loss": 0.80018699,
      "num_input_tokens_seen": 12872455,
      "step": 604,
      "time_per_iteration": 2.6323423385620117
    },
    {
      "auxiliary_loss_clip": 0.01168126,
      "auxiliary_loss_mlp": 0.01036017,
      "balance_loss_clip": 1.048895,
      "balance_loss_mlp": 1.02592635,
      "epoch": 0.07274694883665003,
      "flos": 26654040587520.0,
      "grad_norm": 2.870944436437007,
      "language_loss": 0.84295392,
      "learning_rate": 3.980912545874528e-06,
      "loss": 0.86499536,
      "num_input_tokens_seen": 12892620,
      "step": 605,
      "time_per_iteration": 2.668203353881836
    },
    {
      "auxiliary_loss_clip": 0.01188509,
      "auxiliary_loss_mlp": 0.007581,
      "balance_loss_clip": 1.05165076,
      "balance_loss_mlp": 1.00010622,
      "epoch": 0.07286719172728913,
      "flos": 29864955991680.0,
      "grad_norm": 8.161838158444613,
      "language_loss": 0.8537963,
      "learning_rate": 3.980805032047746e-06,
      "loss": 0.87326241,
      "num_input_tokens_seen": 12914090,
      "step": 606,
      "time_per_iteration": 2.6270461082458496
    },
    {
      "auxiliary_loss_clip": 0.01161492,
      "auxiliary_loss_mlp": 0.01032222,
      "balance_loss_clip": 1.04463708,
      "balance_loss_mlp": 1.0213623,
      "epoch": 0.07298743461792821,
      "flos": 17383853813760.0,
      "grad_norm": 2.419553508564601,
      "language_loss": 0.81375563,
      "learning_rate": 3.980697217734415e-06,
      "loss": 0.83569276,
      "num_input_tokens_seen": 12931830,
      "step": 607,
      "time_per_iteration": 2.595386028289795
    },
    {
      "auxiliary_loss_clip": 0.0113646,
      "auxiliary_loss_mlp": 0.00758191,
      "balance_loss_clip": 1.04653013,
      "balance_loss_mlp": 1.00012517,
      "epoch": 0.07310767750856731,
      "flos": 19500113975040.0,
      "grad_norm": 1.8696127140785552,
      "language_loss": 0.91532242,
      "learning_rate": 3.980589102950891e-06,
      "loss": 0.93426895,
      "num_input_tokens_seen": 12949995,
      "step": 608,
      "time_per_iteration": 2.665863275527954
    },
    {
      "auxiliary_loss_clip": 0.01166106,
      "auxiliary_loss_mlp": 0.01034957,
      "balance_loss_clip": 1.04877853,
      "balance_loss_mlp": 1.02466965,
      "epoch": 0.07322792039920639,
      "flos": 29171243335680.0,
      "grad_norm": 2.5802822352894497,
      "language_loss": 0.7581746,
      "learning_rate": 3.9804806877135755e-06,
      "loss": 0.78018522,
      "num_input_tokens_seen": 12968040,
      "step": 609,
      "time_per_iteration": 2.6870064735412598
    },
    {
      "auxiliary_loss_clip": 0.01186128,
      "auxiliary_loss_mlp": 0.00758578,
      "balance_loss_clip": 1.05166936,
      "balance_loss_mlp": 1.00017464,
      "epoch": 0.07334816328984549,
      "flos": 23480105362560.0,
      "grad_norm": 2.2954376906312626,
      "language_loss": 0.86146617,
      "learning_rate": 3.980371972038915e-06,
      "loss": 0.8809132,
      "num_input_tokens_seen": 12988530,
      "step": 610,
      "time_per_iteration": 2.6397032737731934
    },
    {
      "auxiliary_loss_clip": 0.01202409,
      "auxiliary_loss_mlp": 0.01041526,
      "balance_loss_clip": 1.05425751,
      "balance_loss_mlp": 1.03065455,
      "epoch": 0.07346840618048459,
      "flos": 22964468348160.0,
      "grad_norm": 1.9406308981270042,
      "language_loss": 0.8423146,
      "learning_rate": 3.980262955943399e-06,
      "loss": 0.86475396,
      "num_input_tokens_seen": 13008195,
      "step": 611,
      "time_per_iteration": 4.186358690261841
    },
    {
      "auxiliary_loss_clip": 0.01159746,
      "auxiliary_loss_mlp": 0.01036641,
      "balance_loss_clip": 1.04584742,
      "balance_loss_mlp": 1.02716398,
      "epoch": 0.07358864907112367,
      "flos": 17675713848960.0,
      "grad_norm": 3.2645312570645095,
      "language_loss": 0.86599863,
      "learning_rate": 3.980153639443569e-06,
      "loss": 0.88796246,
      "num_input_tokens_seen": 13024180,
      "step": 612,
      "time_per_iteration": 3.368159055709839
    },
    {
      "auxiliary_loss_clip": 0.01168135,
      "auxiliary_loss_mlp": 0.01035522,
      "balance_loss_clip": 1.05152512,
      "balance_loss_mlp": 1.02489424,
      "epoch": 0.07370889196176277,
      "flos": 24099288888960.0,
      "grad_norm": 2.040178172441604,
      "language_loss": 0.79909563,
      "learning_rate": 3.980044022556005e-06,
      "loss": 0.82113218,
      "num_input_tokens_seen": 13043865,
      "step": 613,
      "time_per_iteration": 2.6538963317871094
    },
    {
      "auxiliary_loss_clip": 0.01181344,
      "auxiliary_loss_mlp": 0.01042268,
      "balance_loss_clip": 1.04978395,
      "balance_loss_mlp": 1.03248119,
      "epoch": 0.07382913485240185,
      "flos": 25888339313280.0,
      "grad_norm": 2.3122532685166086,
      "language_loss": 0.73071027,
      "learning_rate": 3.9799341052973375e-06,
      "loss": 0.75294638,
      "num_input_tokens_seen": 13063700,
      "step": 614,
      "time_per_iteration": 2.5984480381011963
    },
    {
      "auxiliary_loss_clip": 0.01169715,
      "auxiliary_loss_mlp": 0.01033305,
      "balance_loss_clip": 1.05149436,
      "balance_loss_mlp": 1.02246904,
      "epoch": 0.07394937774304094,
      "flos": 16875762497280.0,
      "grad_norm": 16.407863501563583,
      "language_loss": 0.75075096,
      "learning_rate": 3.979823887684241e-06,
      "loss": 0.77278113,
      "num_input_tokens_seen": 13082640,
      "step": 615,
      "time_per_iteration": 2.5913918018341064
    },
    {
      "auxiliary_loss_clip": 0.01200119,
      "auxiliary_loss_mlp": 0.01036735,
      "balance_loss_clip": 1.05259931,
      "balance_loss_mlp": 1.02619052,
      "epoch": 0.07406962063368003,
      "flos": 20705520165120.0,
      "grad_norm": 2.922380052200964,
      "language_loss": 0.84957415,
      "learning_rate": 3.979713369733434e-06,
      "loss": 0.8719427,
      "num_input_tokens_seen": 13100505,
      "step": 616,
      "time_per_iteration": 2.52382755279541
    },
    {
      "auxiliary_loss_clip": 0.01190769,
      "auxiliary_loss_mlp": 0.01042861,
      "balance_loss_clip": 1.05419111,
      "balance_loss_mlp": 1.03246665,
      "epoch": 0.07418986352431912,
      "flos": 21432952045440.0,
      "grad_norm": 2.1232213088731493,
      "language_loss": 0.84819245,
      "learning_rate": 3.979602551461683e-06,
      "loss": 0.87052882,
      "num_input_tokens_seen": 13121285,
      "step": 617,
      "time_per_iteration": 2.606794595718384
    },
    {
      "auxiliary_loss_clip": 0.01164551,
      "auxiliary_loss_mlp": 0.01032451,
      "balance_loss_clip": 1.04728937,
      "balance_loss_mlp": 1.0223484,
      "epoch": 0.07431010641495822,
      "flos": 12022769433600.0,
      "grad_norm": 2.3875220458189723,
      "language_loss": 0.91624606,
      "learning_rate": 3.979491432885799e-06,
      "loss": 0.93821609,
      "num_input_tokens_seen": 13137550,
      "step": 618,
      "time_per_iteration": 2.590341329574585
    },
    {
      "auxiliary_loss_clip": 0.01149318,
      "auxiliary_loss_mlp": 0.00758176,
      "balance_loss_clip": 1.0448904,
      "balance_loss_mlp": 1.00009727,
      "epoch": 0.0744303493055973,
      "flos": 20959565823360.0,
      "grad_norm": 2.5060353719617434,
      "language_loss": 0.8265143,
      "learning_rate": 3.97938001402264e-06,
      "loss": 0.84558922,
      "num_input_tokens_seen": 13156675,
      "step": 619,
      "time_per_iteration": 2.669719696044922
    },
    {
      "auxiliary_loss_clip": 0.01144025,
      "auxiliary_loss_mlp": 0.01032469,
      "balance_loss_clip": 1.0452342,
      "balance_loss_mlp": 1.0228672,
      "epoch": 0.0745505921962364,
      "flos": 16254986411520.0,
      "grad_norm": 3.1675893400084054,
      "language_loss": 0.79983306,
      "learning_rate": 3.979268294889105e-06,
      "loss": 0.82159799,
      "num_input_tokens_seen": 13172225,
      "step": 620,
      "time_per_iteration": 2.596252679824829
    },
    {
      "auxiliary_loss_clip": 0.01200044,
      "auxiliary_loss_mlp": 0.01034312,
      "balance_loss_clip": 1.05325103,
      "balance_loss_mlp": 1.02437019,
      "epoch": 0.07467083508687548,
      "flos": 50948061206400.0,
      "grad_norm": 2.3025193007779907,
      "language_loss": 0.73996067,
      "learning_rate": 3.979156275502143e-06,
      "loss": 0.76230419,
      "num_input_tokens_seen": 13195885,
      "step": 621,
      "time_per_iteration": 2.81173038482666
    },
    {
      "auxiliary_loss_clip": 0.0114975,
      "auxiliary_loss_mlp": 0.01041247,
      "balance_loss_clip": 1.04655552,
      "balance_loss_mlp": 1.03066099,
      "epoch": 0.07479107797751458,
      "flos": 17531584940160.0,
      "grad_norm": 2.7428942733899007,
      "language_loss": 0.9156484,
      "learning_rate": 3.979043955878749e-06,
      "loss": 0.93755841,
      "num_input_tokens_seen": 13213730,
      "step": 622,
      "time_per_iteration": 2.5908756256103516
    },
    {
      "auxiliary_loss_clip": 0.01162357,
      "auxiliary_loss_mlp": 0.01034339,
      "balance_loss_clip": 1.04623771,
      "balance_loss_mlp": 1.0243907,
      "epoch": 0.07491132086815366,
      "flos": 23476010209920.0,
      "grad_norm": 2.4176072835892817,
      "language_loss": 0.83014017,
      "learning_rate": 3.978931336035959e-06,
      "loss": 0.85210717,
      "num_input_tokens_seen": 13232540,
      "step": 623,
      "time_per_iteration": 2.6183254718780518
    },
    {
      "auxiliary_loss_clip": 0.01184167,
      "auxiliary_loss_mlp": 0.01041801,
      "balance_loss_clip": 1.05196619,
      "balance_loss_mlp": 1.03137648,
      "epoch": 0.07503156375879276,
      "flos": 20159652389760.0,
      "grad_norm": 2.799336044488289,
      "language_loss": 0.82227057,
      "learning_rate": 3.9788184159908595e-06,
      "loss": 0.84453022,
      "num_input_tokens_seen": 13249670,
      "step": 624,
      "time_per_iteration": 2.5367021560668945
    },
    {
      "auxiliary_loss_clip": 0.01168628,
      "auxiliary_loss_mlp": 0.01039465,
      "balance_loss_clip": 1.04994249,
      "balance_loss_mlp": 1.02955234,
      "epoch": 0.07515180664943186,
      "flos": 15116942833920.0,
      "grad_norm": 4.982642412778355,
      "language_loss": 0.83187306,
      "learning_rate": 3.97870519576058e-06,
      "loss": 0.85395408,
      "num_input_tokens_seen": 13266095,
      "step": 625,
      "time_per_iteration": 2.602789878845215
    },
    {
      "auxiliary_loss_clip": 0.01150399,
      "auxiliary_loss_mlp": 0.00758543,
      "balance_loss_clip": 1.04818583,
      "balance_loss_mlp": 1.00011396,
      "epoch": 0.07527204954007094,
      "flos": 21289809006720.0,
      "grad_norm": 2.4809295786594556,
      "language_loss": 0.81120729,
      "learning_rate": 3.978591675362295e-06,
      "loss": 0.83029675,
      "num_input_tokens_seen": 13284810,
      "step": 626,
      "time_per_iteration": 2.6298410892486572
    },
    {
      "auxiliary_loss_clip": 0.01130967,
      "auxiliary_loss_mlp": 0.01032578,
      "balance_loss_clip": 1.0451777,
      "balance_loss_mlp": 1.02248132,
      "epoch": 0.07539229243071004,
      "flos": 21326296250880.0,
      "grad_norm": 2.059792322125797,
      "language_loss": 0.87386221,
      "learning_rate": 3.978477854813226e-06,
      "loss": 0.89549768,
      "num_input_tokens_seen": 13304150,
      "step": 627,
      "time_per_iteration": 2.6901044845581055
    },
    {
      "auxiliary_loss_clip": 0.01184698,
      "auxiliary_loss_mlp": 0.01035374,
      "balance_loss_clip": 1.05256712,
      "balance_loss_mlp": 1.02575433,
      "epoch": 0.07551253532134912,
      "flos": 13044222679680.0,
      "grad_norm": 2.708155304103679,
      "language_loss": 0.82665312,
      "learning_rate": 3.97836373413064e-06,
      "loss": 0.84885383,
      "num_input_tokens_seen": 13322205,
      "step": 628,
      "time_per_iteration": 2.5702879428863525
    },
    {
      "auxiliary_loss_clip": 0.01196379,
      "auxiliary_loss_mlp": 0.01035007,
      "balance_loss_clip": 1.0503521,
      "balance_loss_mlp": 1.02454054,
      "epoch": 0.07563277821198822,
      "flos": 19210794451200.0,
      "grad_norm": 2.13643394404943,
      "language_loss": 0.74633592,
      "learning_rate": 3.978249313331848e-06,
      "loss": 0.76864982,
      "num_input_tokens_seen": 13340435,
      "step": 629,
      "time_per_iteration": 2.557788610458374
    },
    {
      "auxiliary_loss_clip": 0.01186875,
      "auxiliary_loss_mlp": 0.0075853,
      "balance_loss_clip": 1.05285287,
      "balance_loss_mlp": 1.0001359,
      "epoch": 0.07575302110262731,
      "flos": 19539255484800.0,
      "grad_norm": 3.5208952073502338,
      "language_loss": 0.61893052,
      "learning_rate": 3.978134592434208e-06,
      "loss": 0.63838458,
      "num_input_tokens_seen": 13358185,
      "step": 630,
      "time_per_iteration": 2.5691487789154053
    },
    {
      "auxiliary_loss_clip": 0.01102584,
      "auxiliary_loss_mlp": 0.01025167,
      "balance_loss_clip": 1.0397954,
      "balance_loss_mlp": 1.0207324,
      "epoch": 0.0758732639932664,
      "flos": 67969042185600.0,
      "grad_norm": 1.0196662195468216,
      "language_loss": 0.59425676,
      "learning_rate": 3.978019571455123e-06,
      "loss": 0.61553419,
      "num_input_tokens_seen": 13410130,
      "step": 631,
      "time_per_iteration": 3.272219657897949
    },
    {
      "auxiliary_loss_clip": 0.01197003,
      "auxiliary_loss_mlp": 0.01034887,
      "balance_loss_clip": 1.05187571,
      "balance_loss_mlp": 1.02572596,
      "epoch": 0.07599350688390549,
      "flos": 18991188460800.0,
      "grad_norm": 2.377119636373668,
      "language_loss": 0.8390584,
      "learning_rate": 3.977904250412042e-06,
      "loss": 0.8613773,
      "num_input_tokens_seen": 13429085,
      "step": 632,
      "time_per_iteration": 2.5672831535339355
    },
    {
      "auxiliary_loss_clip": 0.0116813,
      "auxiliary_loss_mlp": 0.01034532,
      "balance_loss_clip": 1.05231476,
      "balance_loss_mlp": 1.02489448,
      "epoch": 0.07611374977454458,
      "flos": 21071113050240.0,
      "grad_norm": 2.2554061251010236,
      "language_loss": 0.85754758,
      "learning_rate": 3.97778862932246e-06,
      "loss": 0.87957418,
      "num_input_tokens_seen": 13446250,
      "step": 633,
      "time_per_iteration": 2.6073431968688965
    },
    {
      "auxiliary_loss_clip": 0.01092104,
      "auxiliary_loss_mlp": 0.01032373,
      "balance_loss_clip": 1.04150486,
      "balance_loss_mlp": 1.0230087,
      "epoch": 0.07623399266518367,
      "flos": 18516475105920.0,
      "grad_norm": 2.24566505107391,
      "language_loss": 0.93758482,
      "learning_rate": 3.9776727082039144e-06,
      "loss": 0.95882952,
      "num_input_tokens_seen": 13463220,
      "step": 634,
      "time_per_iteration": 3.0983169078826904
    },
    {
      "auxiliary_loss_clip": 0.01165934,
      "auxiliary_loss_mlp": 0.01007313,
      "balance_loss_clip": 1.0455699,
      "balance_loss_mlp": 1.00292575,
      "epoch": 0.07635423555582276,
      "flos": 44667808744320.0,
      "grad_norm": 0.818895342287749,
      "language_loss": 0.55425709,
      "learning_rate": 3.977556487073991e-06,
      "loss": 0.5759896,
      "num_input_tokens_seen": 13517775,
      "step": 635,
      "time_per_iteration": 3.377772808074951
    },
    {
      "auxiliary_loss_clip": 0.01169495,
      "auxiliary_loss_mlp": 0.01032904,
      "balance_loss_clip": 1.04873562,
      "balance_loss_mlp": 1.02399909,
      "epoch": 0.07647447844646185,
      "flos": 21763233146880.0,
      "grad_norm": 2.5042667851099614,
      "language_loss": 0.81472075,
      "learning_rate": 3.97743996595032e-06,
      "loss": 0.83674479,
      "num_input_tokens_seen": 13537815,
      "step": 636,
      "time_per_iteration": 3.4421632289886475
    },
    {
      "auxiliary_loss_clip": 0.01198609,
      "auxiliary_loss_mlp": 0.01040526,
      "balance_loss_clip": 1.05377412,
      "balance_loss_mlp": 1.02941561,
      "epoch": 0.07659472133710095,
      "flos": 23809135167360.0,
      "grad_norm": 1.6166516765123826,
      "language_loss": 0.81641644,
      "learning_rate": 3.9773231448505804e-06,
      "loss": 0.83880782,
      "num_input_tokens_seen": 13559605,
      "step": 637,
      "time_per_iteration": 4.121739864349365
    },
    {
      "auxiliary_loss_clip": 0.01163414,
      "auxiliary_loss_mlp": 0.00758622,
      "balance_loss_clip": 1.04941297,
      "balance_loss_mlp": 1.00008678,
      "epoch": 0.07671496422774003,
      "flos": 21472093555200.0,
      "grad_norm": 15.746165890707152,
      "language_loss": 0.78382659,
      "learning_rate": 3.977206023792491e-06,
      "loss": 0.80304694,
      "num_input_tokens_seen": 13579495,
      "step": 638,
      "time_per_iteration": 3.4564900398254395
    },
    {
      "auxiliary_loss_clip": 0.01181985,
      "auxiliary_loss_mlp": 0.01042357,
      "balance_loss_clip": 1.05143762,
      "balance_loss_mlp": 1.03276634,
      "epoch": 0.07683520711837913,
      "flos": 16982759554560.0,
      "grad_norm": 2.428220441292788,
      "language_loss": 0.81263208,
      "learning_rate": 3.97708860279382e-06,
      "loss": 0.83487552,
      "num_input_tokens_seen": 13597605,
      "step": 639,
      "time_per_iteration": 2.5579209327697754
    },
    {
      "auxiliary_loss_clip": 0.01153753,
      "auxiliary_loss_mlp": 0.01037141,
      "balance_loss_clip": 1.04785419,
      "balance_loss_mlp": 1.02759206,
      "epoch": 0.07695545000901821,
      "flos": 23478967820160.0,
      "grad_norm": 2.3394340078611804,
      "language_loss": 0.77979839,
      "learning_rate": 3.97697088187238e-06,
      "loss": 0.80170727,
      "num_input_tokens_seen": 13618120,
      "step": 640,
      "time_per_iteration": 2.69227933883667
    },
    {
      "auxiliary_loss_clip": 0.01164128,
      "auxiliary_loss_mlp": 0.01035999,
      "balance_loss_clip": 1.04998076,
      "balance_loss_mlp": 1.0266825,
      "epoch": 0.07707569289965731,
      "flos": 17635889813760.0,
      "grad_norm": 2.558130476778002,
      "language_loss": 0.92098916,
      "learning_rate": 3.976852861046029e-06,
      "loss": 0.94299036,
      "num_input_tokens_seen": 13634735,
      "step": 641,
      "time_per_iteration": 2.5872843265533447
    },
    {
      "auxiliary_loss_clip": 0.01131033,
      "auxiliary_loss_mlp": 0.0103347,
      "balance_loss_clip": 1.04526329,
      "balance_loss_mlp": 1.0240469,
      "epoch": 0.0771959357902964,
      "flos": 25778043383040.0,
      "grad_norm": 1.5548187835220808,
      "language_loss": 0.80330181,
      "learning_rate": 3.97673454033267e-06,
      "loss": 0.82494688,
      "num_input_tokens_seen": 13656835,
      "step": 642,
      "time_per_iteration": 2.7457847595214844
    },
    {
      "auxiliary_loss_clip": 0.01161836,
      "auxiliary_loss_mlp": 0.01034087,
      "balance_loss_clip": 1.0476371,
      "balance_loss_mlp": 1.02463341,
      "epoch": 0.07731617868093549,
      "flos": 19830698421120.0,
      "grad_norm": 2.1831024988823913,
      "language_loss": 0.82750988,
      "learning_rate": 3.976615919750254e-06,
      "loss": 0.84946907,
      "num_input_tokens_seen": 13674535,
      "step": 643,
      "time_per_iteration": 2.5662143230438232
    },
    {
      "auxiliary_loss_clip": 0.01179359,
      "auxiliary_loss_mlp": 0.01040477,
      "balance_loss_clip": 1.05005741,
      "balance_loss_mlp": 1.03029644,
      "epoch": 0.07743642157157458,
      "flos": 21326789185920.0,
      "grad_norm": 2.161493641475338,
      "language_loss": 0.86761332,
      "learning_rate": 3.976496999316775e-06,
      "loss": 0.88981164,
      "num_input_tokens_seen": 13693290,
      "step": 644,
      "time_per_iteration": 2.6129672527313232
    },
    {
      "auxiliary_loss_clip": 0.0115849,
      "auxiliary_loss_mlp": 0.01032477,
      "balance_loss_clip": 1.04902232,
      "balance_loss_mlp": 1.02232003,
      "epoch": 0.07755666446221367,
      "flos": 19970883849600.0,
      "grad_norm": 2.3637539661602007,
      "language_loss": 0.84337693,
      "learning_rate": 3.976377779050271e-06,
      "loss": 0.86528665,
      "num_input_tokens_seen": 13711420,
      "step": 645,
      "time_per_iteration": 2.5676779747009277
    },
    {
      "auxiliary_loss_clip": 0.01183358,
      "auxiliary_loss_mlp": 0.01038322,
      "balance_loss_clip": 1.05079973,
      "balance_loss_mlp": 1.02793908,
      "epoch": 0.07767690735285276,
      "flos": 23625485568000.0,
      "grad_norm": 2.2900329100877665,
      "language_loss": 0.84417856,
      "learning_rate": 3.976258258968831e-06,
      "loss": 0.86639535,
      "num_input_tokens_seen": 13729965,
      "step": 646,
      "time_per_iteration": 2.6200380325317383
    },
    {
      "auxiliary_loss_clip": 0.01144378,
      "auxiliary_loss_mlp": 0.0103593,
      "balance_loss_clip": 1.04695857,
      "balance_loss_mlp": 1.02638745,
      "epoch": 0.07779715024349185,
      "flos": 22238401518720.0,
      "grad_norm": 2.7004356768197573,
      "language_loss": 0.74354994,
      "learning_rate": 3.976138439090583e-06,
      "loss": 0.76535296,
      "num_input_tokens_seen": 13748045,
      "step": 647,
      "time_per_iteration": 2.60396409034729
    },
    {
      "auxiliary_loss_clip": 0.01147998,
      "auxiliary_loss_mlp": 0.01032254,
      "balance_loss_clip": 1.04792714,
      "balance_loss_mlp": 1.02178752,
      "epoch": 0.07791739313413094,
      "flos": 20956949475840.0,
      "grad_norm": 2.2841850995662254,
      "language_loss": 0.85097086,
      "learning_rate": 3.976018319433706e-06,
      "loss": 0.87277341,
      "num_input_tokens_seen": 13765590,
      "step": 648,
      "time_per_iteration": 2.666290760040283
    },
    {
      "auxiliary_loss_clip": 0.01176455,
      "auxiliary_loss_mlp": 0.01035017,
      "balance_loss_clip": 1.04809904,
      "balance_loss_mlp": 1.02479458,
      "epoch": 0.07803763602477004,
      "flos": 19314037618560.0,
      "grad_norm": 2.487585738133884,
      "language_loss": 0.91278577,
      "learning_rate": 3.9758979000164205e-06,
      "loss": 0.93490046,
      "num_input_tokens_seen": 13782410,
      "step": 649,
      "time_per_iteration": 2.5405499935150146
    },
    {
      "auxiliary_loss_clip": 0.01148848,
      "auxiliary_loss_mlp": 0.01029804,
      "balance_loss_clip": 1.05029178,
      "balance_loss_mlp": 1.01908076,
      "epoch": 0.07815787891540912,
      "flos": 22713001119360.0,
      "grad_norm": 2.3761234104973266,
      "language_loss": 0.71865565,
      "learning_rate": 3.975777180856995e-06,
      "loss": 0.74044216,
      "num_input_tokens_seen": 13801530,
      "step": 650,
      "time_per_iteration": 2.6902084350585938
    },
    {
      "auxiliary_loss_clip": 0.01197655,
      "auxiliary_loss_mlp": 0.01041965,
      "balance_loss_clip": 1.05241537,
      "balance_loss_mlp": 1.03131938,
      "epoch": 0.07827812180604822,
      "flos": 22713342382080.0,
      "grad_norm": 2.2867988050238943,
      "language_loss": 0.86355293,
      "learning_rate": 3.975656161973742e-06,
      "loss": 0.88594913,
      "num_input_tokens_seen": 13820615,
      "step": 651,
      "time_per_iteration": 2.5344583988189697
    },
    {
      "auxiliary_loss_clip": 0.01194841,
      "auxiliary_loss_mlp": 0.01038343,
      "balance_loss_clip": 1.05066466,
      "balance_loss_mlp": 1.02797151,
      "epoch": 0.0783983646966873,
      "flos": 21727731772800.0,
      "grad_norm": 3.368548966260536,
      "language_loss": 0.89065909,
      "learning_rate": 3.9755348433850194e-06,
      "loss": 0.91299093,
      "num_input_tokens_seen": 13835955,
      "step": 652,
      "time_per_iteration": 2.567399263381958
    },
    {
      "auxiliary_loss_clip": 0.01133999,
      "auxiliary_loss_mlp": 0.01019968,
      "balance_loss_clip": 1.04170322,
      "balance_loss_mlp": 1.01474655,
      "epoch": 0.0785186075873264,
      "flos": 60646377830400.0,
      "grad_norm": 0.9630109490650698,
      "language_loss": 0.63615119,
      "learning_rate": 3.975413225109232e-06,
      "loss": 0.65769082,
      "num_input_tokens_seen": 13896505,
      "step": 653,
      "time_per_iteration": 3.213945150375366
    },
    {
      "auxiliary_loss_clip": 0.01176834,
      "auxiliary_loss_mlp": 0.01032401,
      "balance_loss_clip": 1.04843199,
      "balance_loss_mlp": 1.02192283,
      "epoch": 0.0786388504779655,
      "flos": 23880137915520.0,
      "grad_norm": 3.060615431305613,
      "language_loss": 0.93833303,
      "learning_rate": 3.975291307164829e-06,
      "loss": 0.96042538,
      "num_input_tokens_seen": 13915150,
      "step": 654,
      "time_per_iteration": 2.5743207931518555
    },
    {
      "auxiliary_loss_clip": 0.01147089,
      "auxiliary_loss_mlp": 0.01030287,
      "balance_loss_clip": 1.04611683,
      "balance_loss_mlp": 1.02099431,
      "epoch": 0.07875909336860458,
      "flos": 15160482840960.0,
      "grad_norm": 2.1104544782314156,
      "language_loss": 0.8511889,
      "learning_rate": 3.975169089570306e-06,
      "loss": 0.87296271,
      "num_input_tokens_seen": 13933525,
      "step": 655,
      "time_per_iteration": 2.6404647827148438
    },
    {
      "auxiliary_loss_clip": 0.01181341,
      "auxiliary_loss_mlp": 0.01033273,
      "balance_loss_clip": 1.05113637,
      "balance_loss_mlp": 1.02321172,
      "epoch": 0.07887933625924368,
      "flos": 22239046126080.0,
      "grad_norm": 1.9274440445143666,
      "language_loss": 0.91634107,
      "learning_rate": 3.975046572344202e-06,
      "loss": 0.93848723,
      "num_input_tokens_seen": 13949985,
      "step": 656,
      "time_per_iteration": 2.58870530128479
    },
    {
      "auxiliary_loss_clip": 0.01154739,
      "auxiliary_loss_mlp": 0.01039742,
      "balance_loss_clip": 1.04849362,
      "balance_loss_mlp": 1.02939498,
      "epoch": 0.07899957914988276,
      "flos": 20779859704320.0,
      "grad_norm": 1.8769840370004096,
      "language_loss": 0.71259451,
      "learning_rate": 3.974923755505103e-06,
      "loss": 0.73453939,
      "num_input_tokens_seen": 13969215,
      "step": 657,
      "time_per_iteration": 2.6498172283172607
    },
    {
      "auxiliary_loss_clip": 0.01156909,
      "auxiliary_loss_mlp": 0.0103554,
      "balance_loss_clip": 1.05005276,
      "balance_loss_mlp": 1.0254432,
      "epoch": 0.07911982204052186,
      "flos": 23005278253440.0,
      "grad_norm": 1.9958223997646223,
      "language_loss": 0.91108602,
      "learning_rate": 3.974800639071641e-06,
      "loss": 0.93301046,
      "num_input_tokens_seen": 13989935,
      "step": 658,
      "time_per_iteration": 2.6599676609039307
    },
    {
      "auxiliary_loss_clip": 0.01118066,
      "auxiliary_loss_mlp": 0.00758199,
      "balance_loss_clip": 1.04296136,
      "balance_loss_mlp": 1.00013113,
      "epoch": 0.07924006493116094,
      "flos": 23113564525440.0,
      "grad_norm": 6.054823240452193,
      "language_loss": 1.0059433,
      "learning_rate": 3.974677223062492e-06,
      "loss": 1.02470589,
      "num_input_tokens_seen": 14007150,
      "step": 659,
      "time_per_iteration": 2.722691774368286
    },
    {
      "auxiliary_loss_clip": 0.01158524,
      "auxiliary_loss_mlp": 0.01031579,
      "balance_loss_clip": 1.04696727,
      "balance_loss_mlp": 1.02188706,
      "epoch": 0.07936030782180004,
      "flos": 16474023630720.0,
      "grad_norm": 2.45962671771794,
      "language_loss": 0.74411941,
      "learning_rate": 3.974553507496378e-06,
      "loss": 0.7660203,
      "num_input_tokens_seen": 14025725,
      "step": 660,
      "time_per_iteration": 2.5609443187713623
    },
    {
      "auxiliary_loss_clip": 0.01164102,
      "auxiliary_loss_mlp": 0.01036607,
      "balance_loss_clip": 1.04891837,
      "balance_loss_mlp": 1.02534795,
      "epoch": 0.07948055071243913,
      "flos": 23735591907840.0,
      "grad_norm": 2.0822839665568478,
      "language_loss": 0.8911376,
      "learning_rate": 3.974429492392068e-06,
      "loss": 0.91314471,
      "num_input_tokens_seen": 14045750,
      "step": 661,
      "time_per_iteration": 2.677501678466797
    },
    {
      "auxiliary_loss_clip": 0.01193951,
      "auxiliary_loss_mlp": 0.0075805,
      "balance_loss_clip": 1.05165768,
      "balance_loss_mlp": 1.00016296,
      "epoch": 0.07960079360307822,
      "flos": 19575363548160.0,
      "grad_norm": 2.2847709434846117,
      "language_loss": 0.90975481,
      "learning_rate": 3.974305177768373e-06,
      "loss": 0.9292748,
      "num_input_tokens_seen": 14063960,
      "step": 662,
      "time_per_iteration": 3.4056081771850586
    },
    {
      "auxiliary_loss_clip": 0.01143742,
      "auxiliary_loss_mlp": 0.01039098,
      "balance_loss_clip": 1.04561937,
      "balance_loss_mlp": 1.02942467,
      "epoch": 0.07972103649371731,
      "flos": 23515644654720.0,
      "grad_norm": 2.7171239202073574,
      "language_loss": 0.86288738,
      "learning_rate": 3.974180563644152e-06,
      "loss": 0.8847158,
      "num_input_tokens_seen": 14082525,
      "step": 663,
      "time_per_iteration": 3.3741378784179688
    },
    {
      "auxiliary_loss_clip": 0.01166371,
      "auxiliary_loss_mlp": 0.01033641,
      "balance_loss_clip": 1.04957628,
      "balance_loss_mlp": 1.02368736,
      "epoch": 0.0798412793843564,
      "flos": 16728713896320.0,
      "grad_norm": 2.2362928020124646,
      "language_loss": 0.89580125,
      "learning_rate": 3.97405565003831e-06,
      "loss": 0.91780138,
      "num_input_tokens_seen": 14098610,
      "step": 664,
      "time_per_iteration": 3.3600776195526123
    },
    {
      "auxiliary_loss_clip": 0.01140426,
      "auxiliary_loss_mlp": 0.01029359,
      "balance_loss_clip": 1.04593492,
      "balance_loss_mlp": 1.01936328,
      "epoch": 0.07996152227499549,
      "flos": 18225297596160.0,
      "grad_norm": 2.1836246442208775,
      "language_loss": 0.78254962,
      "learning_rate": 3.973930436969794e-06,
      "loss": 0.80424744,
      "num_input_tokens_seen": 14117065,
      "step": 665,
      "time_per_iteration": 2.597794532775879
    },
    {
      "auxiliary_loss_clip": 0.01167281,
      "auxiliary_loss_mlp": 0.01037013,
      "balance_loss_clip": 1.05120635,
      "balance_loss_mlp": 1.02679682,
      "epoch": 0.08008176516563459,
      "flos": 20596968466560.0,
      "grad_norm": 2.0723077359499613,
      "language_loss": 0.85642016,
      "learning_rate": 3.973804924457602e-06,
      "loss": 0.87846315,
      "num_input_tokens_seen": 14135145,
      "step": 666,
      "time_per_iteration": 2.640982151031494
    },
    {
      "auxiliary_loss_clip": 0.01166284,
      "auxiliary_loss_mlp": 0.01041506,
      "balance_loss_clip": 1.05183411,
      "balance_loss_mlp": 1.03189182,
      "epoch": 0.08020200805627367,
      "flos": 31837125162240.0,
      "grad_norm": 1.900120816657421,
      "language_loss": 0.85697365,
      "learning_rate": 3.973679112520771e-06,
      "loss": 0.87905157,
      "num_input_tokens_seen": 14156860,
      "step": 667,
      "time_per_iteration": 2.6985933780670166
    },
    {
      "auxiliary_loss_clip": 0.0114386,
      "auxiliary_loss_mlp": 0.01028956,
      "balance_loss_clip": 1.04413402,
      "balance_loss_mlp": 1.02016485,
      "epoch": 0.08032225094691277,
      "flos": 17785327253760.0,
      "grad_norm": 2.8242700198021473,
      "language_loss": 0.99263573,
      "learning_rate": 3.973553001178389e-06,
      "loss": 1.01436388,
      "num_input_tokens_seen": 14174365,
      "step": 668,
      "time_per_iteration": 2.6461544036865234
    },
    {
      "auxiliary_loss_clip": 0.011469,
      "auxiliary_loss_mlp": 0.0103246,
      "balance_loss_clip": 1.04771304,
      "balance_loss_mlp": 1.02301884,
      "epoch": 0.08044249383755185,
      "flos": 24064015023360.0,
      "grad_norm": 1.9519639413972447,
      "language_loss": 0.75648344,
      "learning_rate": 3.973426590449585e-06,
      "loss": 0.77827698,
      "num_input_tokens_seen": 14192320,
      "step": 669,
      "time_per_iteration": 2.694514751434326
    },
    {
      "auxiliary_loss_clip": 0.01128798,
      "auxiliary_loss_mlp": 0.01034833,
      "balance_loss_clip": 1.04535747,
      "balance_loss_mlp": 1.02511799,
      "epoch": 0.08056273672819095,
      "flos": 18225600940800.0,
      "grad_norm": 2.0372617674090585,
      "language_loss": 0.75154948,
      "learning_rate": 3.9732998803535364e-06,
      "loss": 0.77318573,
      "num_input_tokens_seen": 14210380,
      "step": 670,
      "time_per_iteration": 2.629319190979004
    },
    {
      "auxiliary_loss_clip": 0.01193092,
      "auxiliary_loss_mlp": 0.01038522,
      "balance_loss_clip": 1.05143142,
      "balance_loss_mlp": 1.02868712,
      "epoch": 0.08068297961883003,
      "flos": 19678568797440.0,
      "grad_norm": 2.4595342062241863,
      "language_loss": 0.85385466,
      "learning_rate": 3.973172870909465e-06,
      "loss": 0.87617075,
      "num_input_tokens_seen": 14225145,
      "step": 671,
      "time_per_iteration": 2.5555343627929688
    },
    {
      "auxiliary_loss_clip": 0.01161212,
      "auxiliary_loss_mlp": 0.01035216,
      "balance_loss_clip": 1.04700172,
      "balance_loss_mlp": 1.02465391,
      "epoch": 0.08080322250946913,
      "flos": 23150961803520.0,
      "grad_norm": 3.3300592376697526,
      "language_loss": 0.80508125,
      "learning_rate": 3.973045562136638e-06,
      "loss": 0.82704556,
      "num_input_tokens_seen": 14241960,
      "step": 672,
      "time_per_iteration": 2.594578981399536
    },
    {
      "auxiliary_loss_clip": 0.01182094,
      "auxiliary_loss_mlp": 0.0103271,
      "balance_loss_clip": 1.05236351,
      "balance_loss_mlp": 1.02306008,
      "epoch": 0.08092346540010822,
      "flos": 21765849494400.0,
      "grad_norm": 2.727893540404879,
      "language_loss": 0.9150058,
      "learning_rate": 3.972917954054368e-06,
      "loss": 0.93715394,
      "num_input_tokens_seen": 14260515,
      "step": 673,
      "time_per_iteration": 2.6298205852508545
    },
    {
      "auxiliary_loss_clip": 0.01168084,
      "auxiliary_loss_mlp": 0.0103715,
      "balance_loss_clip": 1.0529815,
      "balance_loss_mlp": 1.02560449,
      "epoch": 0.08104370829074731,
      "flos": 21034587888000.0,
      "grad_norm": 2.8200599532434096,
      "language_loss": 0.82059479,
      "learning_rate": 3.972790046682013e-06,
      "loss": 0.84264708,
      "num_input_tokens_seen": 14279190,
      "step": 674,
      "time_per_iteration": 2.5931196212768555
    },
    {
      "auxiliary_loss_clip": 0.01143667,
      "auxiliary_loss_mlp": 0.01034709,
      "balance_loss_clip": 1.04435754,
      "balance_loss_mlp": 1.02455854,
      "epoch": 0.0811639511813864,
      "flos": 20085199096320.0,
      "grad_norm": 2.683526919298597,
      "language_loss": 0.79286116,
      "learning_rate": 3.972661840038977e-06,
      "loss": 0.81464493,
      "num_input_tokens_seen": 14299480,
      "step": 675,
      "time_per_iteration": 2.6642868518829346
    },
    {
      "auxiliary_loss_clip": 0.01175886,
      "auxiliary_loss_mlp": 0.0103172,
      "balance_loss_clip": 1.04930735,
      "balance_loss_mlp": 1.02205181,
      "epoch": 0.08128419407202549,
      "flos": 16838592727680.0,
      "grad_norm": 2.3417080462980877,
      "language_loss": 0.83354986,
      "learning_rate": 3.972533334144707e-06,
      "loss": 0.85562599,
      "num_input_tokens_seen": 14316405,
      "step": 676,
      "time_per_iteration": 2.5334420204162598
    },
    {
      "auxiliary_loss_clip": 0.01180482,
      "auxiliary_loss_mlp": 0.01035782,
      "balance_loss_clip": 1.05123341,
      "balance_loss_mlp": 1.02555394,
      "epoch": 0.08140443696266458,
      "flos": 23771548298880.0,
      "grad_norm": 2.538586936187245,
      "language_loss": 0.78588122,
      "learning_rate": 3.972404529018699e-06,
      "loss": 0.80804384,
      "num_input_tokens_seen": 14336265,
      "step": 677,
      "time_per_iteration": 2.6078953742980957
    },
    {
      "auxiliary_loss_clip": 0.0116872,
      "auxiliary_loss_mlp": 0.01028099,
      "balance_loss_clip": 1.04863644,
      "balance_loss_mlp": 1.01844907,
      "epoch": 0.08152467985330367,
      "flos": 24392476056960.0,
      "grad_norm": 1.8554336809910776,
      "language_loss": 0.85792458,
      "learning_rate": 3.972275424680493e-06,
      "loss": 0.87989283,
      "num_input_tokens_seen": 14356375,
      "step": 678,
      "time_per_iteration": 2.6349904537200928
    },
    {
      "auxiliary_loss_clip": 0.01191758,
      "auxiliary_loss_mlp": 0.01029047,
      "balance_loss_clip": 1.05145121,
      "balance_loss_mlp": 1.01934922,
      "epoch": 0.08164492274394276,
      "flos": 19319763248640.0,
      "grad_norm": 2.0328457270246854,
      "language_loss": 0.9155159,
      "learning_rate": 3.972146021149673e-06,
      "loss": 0.93772399,
      "num_input_tokens_seen": 14374650,
      "step": 679,
      "time_per_iteration": 2.543832302093506
    },
    {
      "auxiliary_loss_clip": 0.01141147,
      "auxiliary_loss_mlp": 0.01035841,
      "balance_loss_clip": 1.04739702,
      "balance_loss_mlp": 1.02685881,
      "epoch": 0.08176516563458186,
      "flos": 14832249315840.0,
      "grad_norm": 2.1356792728043077,
      "language_loss": 0.78573239,
      "learning_rate": 3.972016318445868e-06,
      "loss": 0.80750227,
      "num_input_tokens_seen": 14392650,
      "step": 680,
      "time_per_iteration": 2.590517997741699
    },
    {
      "auxiliary_loss_clip": 0.01175072,
      "auxiliary_loss_mlp": 0.01037286,
      "balance_loss_clip": 1.04972458,
      "balance_loss_mlp": 1.02776742,
      "epoch": 0.08188540852522094,
      "flos": 22604563175040.0,
      "grad_norm": 2.005969163023398,
      "language_loss": 0.92328882,
      "learning_rate": 3.971886316588757e-06,
      "loss": 0.9454124,
      "num_input_tokens_seen": 14413155,
      "step": 681,
      "time_per_iteration": 2.594989776611328
    },
    {
      "auxiliary_loss_clip": 0.0114707,
      "auxiliary_loss_mlp": 0.01038342,
      "balance_loss_clip": 1.04929709,
      "balance_loss_mlp": 1.02761889,
      "epoch": 0.08200565141586004,
      "flos": 19465750143360.0,
      "grad_norm": 2.390022249198045,
      "language_loss": 0.73051679,
      "learning_rate": 3.9717560155980595e-06,
      "loss": 0.75237089,
      "num_input_tokens_seen": 14428805,
      "step": 682,
      "time_per_iteration": 2.5948519706726074
    },
    {
      "auxiliary_loss_clip": 0.01175057,
      "auxiliary_loss_mlp": 0.0103444,
      "balance_loss_clip": 1.04961944,
      "balance_loss_mlp": 1.02505219,
      "epoch": 0.08212589430649912,
      "flos": 20596740958080.0,
      "grad_norm": 1.9878804964810584,
      "language_loss": 0.92055345,
      "learning_rate": 3.971625415493542e-06,
      "loss": 0.94264841,
      "num_input_tokens_seen": 14447125,
      "step": 683,
      "time_per_iteration": 2.5874063968658447
    },
    {
      "auxiliary_loss_clip": 0.01142188,
      "auxiliary_loss_mlp": 0.01033694,
      "balance_loss_clip": 1.04788733,
      "balance_loss_mlp": 1.02370429,
      "epoch": 0.08224613719713822,
      "flos": 25955739843840.0,
      "grad_norm": 2.9064087490895356,
      "language_loss": 0.87548566,
      "learning_rate": 3.971494516295017e-06,
      "loss": 0.89724457,
      "num_input_tokens_seen": 14466575,
      "step": 684,
      "time_per_iteration": 2.6731278896331787
    },
    {
      "auxiliary_loss_clip": 0.01143106,
      "auxiliary_loss_mlp": 0.01036691,
      "balance_loss_clip": 1.04742324,
      "balance_loss_mlp": 1.02670765,
      "epoch": 0.08236638008777732,
      "flos": 23770979527680.0,
      "grad_norm": 2.143516477175499,
      "language_loss": 0.85336792,
      "learning_rate": 3.971363318022341e-06,
      "loss": 0.87516594,
      "num_input_tokens_seen": 14487915,
      "step": 685,
      "time_per_iteration": 2.6744191646575928
    },
    {
      "auxiliary_loss_clip": 0.01167182,
      "auxiliary_loss_mlp": 0.01037284,
      "balance_loss_clip": 1.04917645,
      "balance_loss_mlp": 1.02718091,
      "epoch": 0.0824866229784164,
      "flos": 38802131562240.0,
      "grad_norm": 2.0113050805616814,
      "language_loss": 0.68549335,
      "learning_rate": 3.971231820695417e-06,
      "loss": 0.70753801,
      "num_input_tokens_seen": 14511530,
      "step": 686,
      "time_per_iteration": 2.735417127609253
    },
    {
      "auxiliary_loss_clip": 0.01166273,
      "auxiliary_loss_mlp": 0.01038882,
      "balance_loss_clip": 1.05188167,
      "balance_loss_mlp": 1.02885079,
      "epoch": 0.0826068658690555,
      "flos": 23109734799360.0,
      "grad_norm": 1.9650023457612515,
      "language_loss": 0.81327415,
      "learning_rate": 3.971100024334193e-06,
      "loss": 0.83532572,
      "num_input_tokens_seen": 14529050,
      "step": 687,
      "time_per_iteration": 3.39766526222229
    },
    {
      "auxiliary_loss_clip": 0.01149011,
      "auxiliary_loss_mlp": 0.01033074,
      "balance_loss_clip": 1.04741144,
      "balance_loss_mlp": 1.02409124,
      "epoch": 0.08272710875969458,
      "flos": 21138172318080.0,
      "grad_norm": 2.0391412190161913,
      "language_loss": 0.86161244,
      "learning_rate": 3.970967928958663e-06,
      "loss": 0.88343334,
      "num_input_tokens_seen": 14546165,
      "step": 688,
      "time_per_iteration": 3.4459736347198486
    },
    {
      "auxiliary_loss_clip": 0.01129233,
      "auxiliary_loss_mlp": 0.01038443,
      "balance_loss_clip": 1.04718137,
      "balance_loss_mlp": 1.02909696,
      "epoch": 0.08284735165033368,
      "flos": 19065035064960.0,
      "grad_norm": 1.734034605237213,
      "language_loss": 0.83557177,
      "learning_rate": 3.970835534588865e-06,
      "loss": 0.85724854,
      "num_input_tokens_seen": 14563660,
      "step": 689,
      "time_per_iteration": 3.4366233348846436
    },
    {
      "auxiliary_loss_clip": 0.0116029,
      "auxiliary_loss_mlp": 0.01041885,
      "balance_loss_clip": 1.05248404,
      "balance_loss_mlp": 1.03253341,
      "epoch": 0.08296759454097276,
      "flos": 16729320585600.0,
      "grad_norm": 2.212029614611017,
      "language_loss": 0.85687435,
      "learning_rate": 3.970702841244883e-06,
      "loss": 0.87889612,
      "num_input_tokens_seen": 14581980,
      "step": 690,
      "time_per_iteration": 3.302121162414551
    },
    {
      "auxiliary_loss_clip": 0.01178448,
      "auxiliary_loss_mlp": 0.01037601,
      "balance_loss_clip": 1.05173135,
      "balance_loss_mlp": 1.02811813,
      "epoch": 0.08308783743161186,
      "flos": 18006904984320.0,
      "grad_norm": 1.7875772725939454,
      "language_loss": 0.8246963,
      "learning_rate": 3.970569848946847e-06,
      "loss": 0.84685677,
      "num_input_tokens_seen": 14601795,
      "step": 691,
      "time_per_iteration": 2.6069304943084717
    },
    {
      "auxiliary_loss_clip": 0.01180551,
      "auxiliary_loss_mlp": 0.01031797,
      "balance_loss_clip": 1.05360734,
      "balance_loss_mlp": 1.02274883,
      "epoch": 0.08320808032225095,
      "flos": 15081251869440.0,
      "grad_norm": 3.593992354229281,
      "language_loss": 0.82888258,
      "learning_rate": 3.970436557714932e-06,
      "loss": 0.85100609,
      "num_input_tokens_seen": 14618315,
      "step": 692,
      "time_per_iteration": 2.555389881134033
    },
    {
      "auxiliary_loss_clip": 0.01152065,
      "auxiliary_loss_mlp": 0.01029977,
      "balance_loss_clip": 1.04323792,
      "balance_loss_mlp": 1.02020824,
      "epoch": 0.08332832321289003,
      "flos": 22385298447360.0,
      "grad_norm": 2.115035650375937,
      "language_loss": 0.86332917,
      "learning_rate": 3.970302967569358e-06,
      "loss": 0.8851496,
      "num_input_tokens_seen": 14636905,
      "step": 693,
      "time_per_iteration": 2.6457438468933105
    },
    {
      "auxiliary_loss_clip": 0.01172004,
      "auxiliary_loss_mlp": 0.01037699,
      "balance_loss_clip": 1.050035,
      "balance_loss_mlp": 1.02780461,
      "epoch": 0.08344856610352913,
      "flos": 24719685793920.0,
      "grad_norm": 2.2341268738549633,
      "language_loss": 0.68198663,
      "learning_rate": 3.9701690785303896e-06,
      "loss": 0.70408368,
      "num_input_tokens_seen": 14656100,
      "step": 694,
      "time_per_iteration": 2.6328673362731934
    },
    {
      "auxiliary_loss_clip": 0.01181043,
      "auxiliary_loss_mlp": 0.01039665,
      "balance_loss_clip": 1.0532918,
      "balance_loss_mlp": 1.03044426,
      "epoch": 0.08356880899416821,
      "flos": 25372323118080.0,
      "grad_norm": 2.6169514341862627,
      "language_loss": 0.8820768,
      "learning_rate": 3.970034890618339e-06,
      "loss": 0.90428394,
      "num_input_tokens_seen": 14675790,
      "step": 695,
      "time_per_iteration": 2.652627944946289
    },
    {
      "auxiliary_loss_clip": 0.01178911,
      "auxiliary_loss_mlp": 0.01031373,
      "balance_loss_clip": 1.05153549,
      "balance_loss_mlp": 1.02264118,
      "epoch": 0.08368905188480731,
      "flos": 24355382123520.0,
      "grad_norm": 2.3358973887592733,
      "language_loss": 0.88266975,
      "learning_rate": 3.969900403853562e-06,
      "loss": 0.90477264,
      "num_input_tokens_seen": 14694830,
      "step": 696,
      "time_per_iteration": 2.576280117034912
    },
    {
      "auxiliary_loss_clip": 0.01193531,
      "auxiliary_loss_mlp": 0.01044686,
      "balance_loss_clip": 1.0538137,
      "balance_loss_mlp": 1.03466022,
      "epoch": 0.08380929477544641,
      "flos": 18039069567360.0,
      "grad_norm": 1.6951471696491773,
      "language_loss": 0.78070402,
      "learning_rate": 3.96976561825646e-06,
      "loss": 0.80308628,
      "num_input_tokens_seen": 14711920,
      "step": 697,
      "time_per_iteration": 2.6382436752319336
    },
    {
      "auxiliary_loss_clip": 0.01129681,
      "auxiliary_loss_mlp": 0.01031221,
      "balance_loss_clip": 1.04855371,
      "balance_loss_mlp": 1.0222919,
      "epoch": 0.08392953766608549,
      "flos": 26288675210880.0,
      "grad_norm": 3.6002191415544607,
      "language_loss": 0.87201738,
      "learning_rate": 3.969630533847479e-06,
      "loss": 0.89362639,
      "num_input_tokens_seen": 14730880,
      "step": 698,
      "time_per_iteration": 2.7004520893096924
    },
    {
      "auxiliary_loss_clip": 0.01174621,
      "auxiliary_loss_mlp": 0.01032692,
      "balance_loss_clip": 1.05243742,
      "balance_loss_mlp": 1.02323318,
      "epoch": 0.08404978055672459,
      "flos": 22494343080960.0,
      "grad_norm": 1.9184048316878688,
      "language_loss": 0.84610826,
      "learning_rate": 3.969495150647113e-06,
      "loss": 0.86818135,
      "num_input_tokens_seen": 14749050,
      "step": 699,
      "time_per_iteration": 2.6178646087646484
    },
    {
      "auxiliary_loss_clip": 0.0113482,
      "auxiliary_loss_mlp": 0.01030509,
      "balance_loss_clip": 1.04435194,
      "balance_loss_mlp": 1.02130604,
      "epoch": 0.08417002344736367,
      "flos": 24829185444480.0,
      "grad_norm": 1.8585288043518953,
      "language_loss": 0.76721412,
      "learning_rate": 3.969359468675899e-06,
      "loss": 0.78886741,
      "num_input_tokens_seen": 14769180,
      "step": 700,
      "time_per_iteration": 2.657193899154663
    },
    {
      "auxiliary_loss_clip": 0.01174263,
      "auxiliary_loss_mlp": 0.01031302,
      "balance_loss_clip": 1.05125701,
      "balance_loss_mlp": 1.02154434,
      "epoch": 0.08429026633800277,
      "flos": 16947789033600.0,
      "grad_norm": 1.985439821202201,
      "language_loss": 0.89288515,
      "learning_rate": 3.969223487954418e-06,
      "loss": 0.91494083,
      "num_input_tokens_seen": 14786640,
      "step": 701,
      "time_per_iteration": 2.5932602882385254
    },
    {
      "auxiliary_loss_clip": 0.01133209,
      "auxiliary_loss_mlp": 0.01035145,
      "balance_loss_clip": 1.04841423,
      "balance_loss_mlp": 1.02586436,
      "epoch": 0.08441050922864185,
      "flos": 23844181524480.0,
      "grad_norm": 2.1958718402151276,
      "language_loss": 0.8297106,
      "learning_rate": 3.969087208503301e-06,
      "loss": 0.85139418,
      "num_input_tokens_seen": 14806720,
      "step": 702,
      "time_per_iteration": 2.6584630012512207
    },
    {
      "auxiliary_loss_clip": 0.01146579,
      "auxiliary_loss_mlp": 0.01033786,
      "balance_loss_clip": 1.04896331,
      "balance_loss_mlp": 1.02429104,
      "epoch": 0.08453075211928095,
      "flos": 25522556837760.0,
      "grad_norm": 12.200412215014168,
      "language_loss": 0.84713483,
      "learning_rate": 3.968950630343219e-06,
      "loss": 0.86893845,
      "num_input_tokens_seen": 14823705,
      "step": 703,
      "time_per_iteration": 2.6937496662139893
    },
    {
      "auxiliary_loss_clip": 0.01161953,
      "auxiliary_loss_mlp": 0.01034317,
      "balance_loss_clip": 1.04909658,
      "balance_loss_mlp": 1.02504826,
      "epoch": 0.08465099500992004,
      "flos": 19534288216320.0,
      "grad_norm": 2.3815800747019784,
      "language_loss": 0.93321395,
      "learning_rate": 3.968813753494892e-06,
      "loss": 0.95517659,
      "num_input_tokens_seen": 14841865,
      "step": 704,
      "time_per_iteration": 2.601522922515869
    },
    {
      "auxiliary_loss_clip": 0.01150084,
      "auxiliary_loss_mlp": 0.0075849,
      "balance_loss_clip": 1.04664731,
      "balance_loss_mlp": 1.00021911,
      "epoch": 0.08477123790055913,
      "flos": 29353869146880.0,
      "grad_norm": 2.3864232933053886,
      "language_loss": 0.75684059,
      "learning_rate": 3.968676577979084e-06,
      "loss": 0.77592635,
      "num_input_tokens_seen": 14861415,
      "step": 705,
      "time_per_iteration": 2.7037618160247803
    },
    {
      "auxiliary_loss_clip": 0.01117803,
      "auxiliary_loss_mlp": 0.01037609,
      "balance_loss_clip": 1.04090619,
      "balance_loss_mlp": 1.02816176,
      "epoch": 0.08489148079119822,
      "flos": 18626467691520.0,
      "grad_norm": 2.3800936511162045,
      "language_loss": 0.7843833,
      "learning_rate": 3.968539103816605e-06,
      "loss": 0.80593741,
      "num_input_tokens_seen": 14879215,
      "step": 706,
      "time_per_iteration": 2.7327048778533936
    },
    {
      "auxiliary_loss_clip": 0.01156009,
      "auxiliary_loss_mlp": 0.00758273,
      "balance_loss_clip": 1.04889822,
      "balance_loss_mlp": 1.00019026,
      "epoch": 0.0850117236818373,
      "flos": 23473318026240.0,
      "grad_norm": 2.165891620287225,
      "language_loss": 0.89575684,
      "learning_rate": 3.9684013310283085e-06,
      "loss": 0.91489971,
      "num_input_tokens_seen": 14897900,
      "step": 707,
      "time_per_iteration": 2.6835012435913086
    },
    {
      "auxiliary_loss_clip": 0.01155525,
      "auxiliary_loss_mlp": 0.01037537,
      "balance_loss_clip": 1.04867768,
      "balance_loss_mlp": 1.02795255,
      "epoch": 0.0851319665724764,
      "flos": 40628238001920.0,
      "grad_norm": 2.318191685344263,
      "language_loss": 0.64270085,
      "learning_rate": 3.9682632596350956e-06,
      "loss": 0.66463149,
      "num_input_tokens_seen": 14919065,
      "step": 708,
      "time_per_iteration": 2.818565607070923
    },
    {
      "auxiliary_loss_clip": 0.01173725,
      "auxiliary_loss_mlp": 0.01028913,
      "balance_loss_clip": 1.0503633,
      "balance_loss_mlp": 1.01950788,
      "epoch": 0.0852522094631155,
      "flos": 15880899876480.0,
      "grad_norm": 1.9668003726859746,
      "language_loss": 0.78407896,
      "learning_rate": 3.968124889657911e-06,
      "loss": 0.80610538,
      "num_input_tokens_seen": 14934165,
      "step": 709,
      "time_per_iteration": 2.5373690128326416
    },
    {
      "auxiliary_loss_clip": 0.01123089,
      "auxiliary_loss_mlp": 0.01032009,
      "balance_loss_clip": 1.04273391,
      "balance_loss_mlp": 1.02305055,
      "epoch": 0.08537245235375458,
      "flos": 14568420792960.0,
      "grad_norm": 2.4402308965587607,
      "language_loss": 0.90617454,
      "learning_rate": 3.967986221117746e-06,
      "loss": 0.92772555,
      "num_input_tokens_seen": 14950105,
      "step": 710,
      "time_per_iteration": 2.6771304607391357
    },
    {
      "auxiliary_loss_clip": 0.01093553,
      "auxiliary_loss_mlp": 0.01027691,
      "balance_loss_clip": 1.04261553,
      "balance_loss_mlp": 1.01882792,
      "epoch": 0.08549269524439368,
      "flos": 26471338940160.0,
      "grad_norm": 2.0431684723334174,
      "language_loss": 0.86675465,
      "learning_rate": 3.967847254035635e-06,
      "loss": 0.88796711,
      "num_input_tokens_seen": 14969490,
      "step": 711,
      "time_per_iteration": 2.925773859024048
    },
    {
      "auxiliary_loss_clip": 0.01136864,
      "auxiliary_loss_mlp": 0.01034393,
      "balance_loss_clip": 1.04316211,
      "balance_loss_mlp": 1.02504098,
      "epoch": 0.08561293813503276,
      "flos": 13591948440960.0,
      "grad_norm": 2.2924076472453954,
      "language_loss": 0.86306959,
      "learning_rate": 3.967707988432661e-06,
      "loss": 0.8847822,
      "num_input_tokens_seen": 14987195,
      "step": 712,
      "time_per_iteration": 2.939945697784424
    },
    {
      "auxiliary_loss_clip": 0.01189131,
      "auxiliary_loss_mlp": 0.01033468,
      "balance_loss_clip": 1.05080426,
      "balance_loss_mlp": 1.02372909,
      "epoch": 0.08573318102567186,
      "flos": 26945976458880.0,
      "grad_norm": 2.517790735309589,
      "language_loss": 0.87646782,
      "learning_rate": 3.967568424329949e-06,
      "loss": 0.8986938,
      "num_input_tokens_seen": 15007620,
      "step": 713,
      "time_per_iteration": 3.4050631523132324
    },
    {
      "auxiliary_loss_clip": 0.01152001,
      "auxiliary_loss_mlp": 0.01008937,
      "balance_loss_clip": 1.06127691,
      "balance_loss_mlp": 1.00555158,
      "epoch": 0.08585342391631094,
      "flos": 67309807115520.0,
      "grad_norm": 0.820647794752658,
      "language_loss": 0.55469024,
      "learning_rate": 3.967428561748671e-06,
      "loss": 0.57629967,
      "num_input_tokens_seen": 15075590,
      "step": 714,
      "time_per_iteration": 4.832921266555786
    },
    {
      "auxiliary_loss_clip": 0.01126891,
      "auxiliary_loss_mlp": 0.0103249,
      "balance_loss_clip": 1.04416251,
      "balance_loss_mlp": 1.02269697,
      "epoch": 0.08597366680695004,
      "flos": 22458841706880.0,
      "grad_norm": 1.9846644336563914,
      "language_loss": 0.87518066,
      "learning_rate": 3.967288400710045e-06,
      "loss": 0.89677441,
      "num_input_tokens_seen": 15095055,
      "step": 715,
      "time_per_iteration": 3.4219069480895996
    },
    {
      "auxiliary_loss_clip": 0.01136015,
      "auxiliary_loss_mlp": 0.01032976,
      "balance_loss_clip": 1.04624236,
      "balance_loss_mlp": 1.02381444,
      "epoch": 0.08609390969758914,
      "flos": 23552776506240.0,
      "grad_norm": 2.227984276445264,
      "language_loss": 0.88263822,
      "learning_rate": 3.9671479412353335e-06,
      "loss": 0.90432811,
      "num_input_tokens_seen": 15113520,
      "step": 716,
      "time_per_iteration": 2.6986160278320312
    },
    {
      "auxiliary_loss_clip": 0.01173673,
      "auxiliary_loss_mlp": 0.0103377,
      "balance_loss_clip": 1.05041194,
      "balance_loss_mlp": 1.02434611,
      "epoch": 0.08621415258822822,
      "flos": 25888263477120.0,
      "grad_norm": 2.238188551429261,
      "language_loss": 0.74114937,
      "learning_rate": 3.967007183345843e-06,
      "loss": 0.76322377,
      "num_input_tokens_seen": 15133375,
      "step": 717,
      "time_per_iteration": 2.6004064083099365
    },
    {
      "auxiliary_loss_clip": 0.01166584,
      "auxiliary_loss_mlp": 0.01033936,
      "balance_loss_clip": 1.04619193,
      "balance_loss_mlp": 1.02467394,
      "epoch": 0.08633439547886732,
      "flos": 13591265915520.0,
      "grad_norm": 2.499878961342933,
      "language_loss": 0.89689529,
      "learning_rate": 3.966866127062927e-06,
      "loss": 0.91890049,
      "num_input_tokens_seen": 15150500,
      "step": 718,
      "time_per_iteration": 2.5641472339630127
    },
    {
      "auxiliary_loss_clip": 0.01155737,
      "auxiliary_loss_mlp": 0.01002395,
      "balance_loss_clip": 1.05954266,
      "balance_loss_mlp": 0.99919969,
      "epoch": 0.0864546383695064,
      "flos": 57773175471360.0,
      "grad_norm": 0.8683171913270861,
      "language_loss": 0.62655532,
      "learning_rate": 3.966724772407982e-06,
      "loss": 0.64813662,
      "num_input_tokens_seen": 15208015,
      "step": 719,
      "time_per_iteration": 3.0077333450317383
    },
    {
      "auxiliary_loss_clip": 0.01144601,
      "auxiliary_loss_mlp": 0.01034289,
      "balance_loss_clip": 1.04713845,
      "balance_loss_mlp": 1.02482963,
      "epoch": 0.0865748812601455,
      "flos": 20048977278720.0,
      "grad_norm": 2.120899639236658,
      "language_loss": 0.88695014,
      "learning_rate": 3.966583119402454e-06,
      "loss": 0.90873903,
      "num_input_tokens_seen": 15224780,
      "step": 720,
      "time_per_iteration": 2.6701788902282715
    },
    {
      "auxiliary_loss_clip": 0.01171934,
      "auxiliary_loss_mlp": 0.00758009,
      "balance_loss_clip": 1.05086541,
      "balance_loss_mlp": 1.00023842,
      "epoch": 0.08669512415078459,
      "flos": 35265371472000.0,
      "grad_norm": 1.897914534348582,
      "language_loss": 0.8220976,
      "learning_rate": 3.9664411680678305e-06,
      "loss": 0.84139705,
      "num_input_tokens_seen": 15246535,
      "step": 721,
      "time_per_iteration": 2.7340927124023438
    },
    {
      "auxiliary_loss_clip": 0.01132688,
      "auxiliary_loss_mlp": 0.01005102,
      "balance_loss_clip": 1.05780494,
      "balance_loss_mlp": 1.00185919,
      "epoch": 0.08681536704142367,
      "flos": 65661510890880.0,
      "grad_norm": 0.845245788868664,
      "language_loss": 0.61451459,
      "learning_rate": 3.966298918425644e-06,
      "loss": 0.63589239,
      "num_input_tokens_seen": 15304025,
      "step": 722,
      "time_per_iteration": 3.289271831512451
    },
    {
      "auxiliary_loss_clip": 0.01172647,
      "auxiliary_loss_mlp": 0.01037974,
      "balance_loss_clip": 1.05130863,
      "balance_loss_mlp": 1.02781177,
      "epoch": 0.08693560993206277,
      "flos": 34532668978560.0,
      "grad_norm": 2.551445917497098,
      "language_loss": 0.82927823,
      "learning_rate": 3.966156370497476e-06,
      "loss": 0.85138446,
      "num_input_tokens_seen": 15327635,
      "step": 723,
      "time_per_iteration": 2.8623383045196533
    },
    {
      "auxiliary_loss_clip": 0.01173128,
      "auxiliary_loss_mlp": 0.0103333,
      "balance_loss_clip": 1.04996729,
      "balance_loss_mlp": 1.02402544,
      "epoch": 0.08705585282270185,
      "flos": 23151682247040.0,
      "grad_norm": 1.8286809987046366,
      "language_loss": 0.88677955,
      "learning_rate": 3.96601352430495e-06,
      "loss": 0.90884405,
      "num_input_tokens_seen": 15347405,
      "step": 724,
      "time_per_iteration": 2.6317739486694336
    },
    {
      "auxiliary_loss_clip": 0.01157712,
      "auxiliary_loss_mlp": 0.01036722,
      "balance_loss_clip": 1.04946828,
      "balance_loss_mlp": 1.02762055,
      "epoch": 0.08717609571334095,
      "flos": 29500197304320.0,
      "grad_norm": 1.812990097143268,
      "language_loss": 0.83285886,
      "learning_rate": 3.965870379869735e-06,
      "loss": 0.8548032,
      "num_input_tokens_seen": 15369450,
      "step": 725,
      "time_per_iteration": 2.6974856853485107
    },
    {
      "auxiliary_loss_clip": 0.01174355,
      "auxiliary_loss_mlp": 0.01037208,
      "balance_loss_clip": 1.04906571,
      "balance_loss_mlp": 1.0282259,
      "epoch": 0.08729633860398003,
      "flos": 20669563774080.0,
      "grad_norm": 2.1597342333838307,
      "language_loss": 0.86949599,
      "learning_rate": 3.965726937213547e-06,
      "loss": 0.89161158,
      "num_input_tokens_seen": 15388085,
      "step": 726,
      "time_per_iteration": 2.5517919063568115
    },
    {
      "auxiliary_loss_clip": 0.01174143,
      "auxiliary_loss_mlp": 0.01036518,
      "balance_loss_clip": 1.04881465,
      "balance_loss_mlp": 1.02665973,
      "epoch": 0.08741658149461913,
      "flos": 18371474081280.0,
      "grad_norm": 2.104948279548659,
      "language_loss": 0.81076092,
      "learning_rate": 3.965583196358144e-06,
      "loss": 0.83286756,
      "num_input_tokens_seen": 15407120,
      "step": 727,
      "time_per_iteration": 2.572761297225952
    },
    {
      "auxiliary_loss_clip": 0.01188155,
      "auxiliary_loss_mlp": 0.01033386,
      "balance_loss_clip": 1.05098915,
      "balance_loss_mlp": 1.02286017,
      "epoch": 0.08753682438525823,
      "flos": 18731417172480.0,
      "grad_norm": 2.1631980677093,
      "language_loss": 0.74353611,
      "learning_rate": 3.965439157325335e-06,
      "loss": 0.76575148,
      "num_input_tokens_seen": 15424485,
      "step": 728,
      "time_per_iteration": 2.483949661254883
    },
    {
      "auxiliary_loss_clip": 0.01160128,
      "auxiliary_loss_mlp": 0.01028583,
      "balance_loss_clip": 1.04794574,
      "balance_loss_mlp": 1.01892674,
      "epoch": 0.08765706727589731,
      "flos": 27778244065920.0,
      "grad_norm": 2.00138950100842,
      "language_loss": 0.76146442,
      "learning_rate": 3.965294820136968e-06,
      "loss": 0.78335148,
      "num_input_tokens_seen": 15446285,
      "step": 729,
      "time_per_iteration": 2.7096915245056152
    },
    {
      "auxiliary_loss_clip": 0.01156034,
      "auxiliary_loss_mlp": 0.01030836,
      "balance_loss_clip": 1.04757869,
      "balance_loss_mlp": 1.02122164,
      "epoch": 0.08777731016653641,
      "flos": 24391414350720.0,
      "grad_norm": 1.853445269111194,
      "language_loss": 0.87002999,
      "learning_rate": 3.965150184814938e-06,
      "loss": 0.89189869,
      "num_input_tokens_seen": 15465770,
      "step": 730,
      "time_per_iteration": 2.605762481689453
    },
    {
      "auxiliary_loss_clip": 0.01164026,
      "auxiliary_loss_mlp": 0.01034377,
      "balance_loss_clip": 1.05203247,
      "balance_loss_mlp": 1.02526903,
      "epoch": 0.08789755305717549,
      "flos": 21984052515840.0,
      "grad_norm": 2.9076209611354926,
      "language_loss": 0.76542783,
      "learning_rate": 3.965005251381189e-06,
      "loss": 0.78741187,
      "num_input_tokens_seen": 15483705,
      "step": 731,
      "time_per_iteration": 2.658090114593506
    },
    {
      "auxiliary_loss_clip": 0.01153023,
      "auxiliary_loss_mlp": 0.01010589,
      "balance_loss_clip": 1.05723941,
      "balance_loss_mlp": 1.00746584,
      "epoch": 0.08801779594781459,
      "flos": 58366488816000.0,
      "grad_norm": 0.896633014040295,
      "language_loss": 0.64650035,
      "learning_rate": 3.964860019857705e-06,
      "loss": 0.66813648,
      "num_input_tokens_seen": 15548620,
      "step": 732,
      "time_per_iteration": 3.1929566860198975
    },
    {
      "auxiliary_loss_clip": 0.01190423,
      "auxiliary_loss_mlp": 0.01033471,
      "balance_loss_clip": 1.05463946,
      "balance_loss_mlp": 1.02488816,
      "epoch": 0.08813803883845367,
      "flos": 23297024534400.0,
      "grad_norm": 1.853811606058749,
      "language_loss": 0.8422308,
      "learning_rate": 3.964714490266518e-06,
      "loss": 0.86446971,
      "num_input_tokens_seen": 15569265,
      "step": 733,
      "time_per_iteration": 2.537306070327759
    },
    {
      "auxiliary_loss_clip": 0.01151059,
      "auxiliary_loss_mlp": 0.01006839,
      "balance_loss_clip": 1.05537164,
      "balance_loss_mlp": 1.00371552,
      "epoch": 0.08825828172909277,
      "flos": 63431200909440.0,
      "grad_norm": 0.8835904754441622,
      "language_loss": 0.64609694,
      "learning_rate": 3.964568662629706e-06,
      "loss": 0.66767597,
      "num_input_tokens_seen": 15630570,
      "step": 734,
      "time_per_iteration": 3.058499813079834
    },
    {
      "auxiliary_loss_clip": 0.01172376,
      "auxiliary_loss_mlp": 0.01032834,
      "balance_loss_clip": 1.05038548,
      "balance_loss_mlp": 1.02377415,
      "epoch": 0.08837852461973186,
      "flos": 26723223267840.0,
      "grad_norm": 2.6480966493763143,
      "language_loss": 0.84480363,
      "learning_rate": 3.9644225369693895e-06,
      "loss": 0.86685568,
      "num_input_tokens_seen": 15650870,
      "step": 735,
      "time_per_iteration": 2.603024959564209
    },
    {
      "auxiliary_loss_clip": 0.01188311,
      "auxiliary_loss_mlp": 0.01030136,
      "balance_loss_clip": 1.05453205,
      "balance_loss_mlp": 1.02084327,
      "epoch": 0.08849876751037095,
      "flos": 27267536401920.0,
      "grad_norm": 2.0132985721729604,
      "language_loss": 0.86704862,
      "learning_rate": 3.964276113307735e-06,
      "loss": 0.88923311,
      "num_input_tokens_seen": 15670835,
      "step": 736,
      "time_per_iteration": 2.6746668815612793
    },
    {
      "auxiliary_loss_clip": 0.01137548,
      "auxiliary_loss_mlp": 0.01038474,
      "balance_loss_clip": 1.04523063,
      "balance_loss_mlp": 1.02867532,
      "epoch": 0.08861901040101004,
      "flos": 19830812175360.0,
      "grad_norm": 1.832394388953459,
      "language_loss": 0.80773962,
      "learning_rate": 3.9641293916669574e-06,
      "loss": 0.82949978,
      "num_input_tokens_seen": 15689795,
      "step": 737,
      "time_per_iteration": 2.6013412475585938
    },
    {
      "auxiliary_loss_clip": 0.01140161,
      "auxiliary_loss_mlp": 0.01030338,
      "balance_loss_clip": 1.04711878,
      "balance_loss_mlp": 1.01988888,
      "epoch": 0.08873925329164913,
      "flos": 23660911105920.0,
      "grad_norm": 1.891012388517686,
      "language_loss": 0.82638323,
      "learning_rate": 3.9639823720693115e-06,
      "loss": 0.84808815,
      "num_input_tokens_seen": 15711650,
      "step": 738,
      "time_per_iteration": 2.7026078701019287
    },
    {
      "auxiliary_loss_clip": 0.01112501,
      "auxiliary_loss_mlp": 0.01005009,
      "balance_loss_clip": 1.04685533,
      "balance_loss_mlp": 1.00155187,
      "epoch": 0.08885949618228822,
      "flos": 71839116823680.0,
      "grad_norm": 0.8446224380833184,
      "language_loss": 0.59979606,
      "learning_rate": 3.963835054537102e-06,
      "loss": 0.6209712,
      "num_input_tokens_seen": 15780615,
      "step": 739,
      "time_per_iteration": 4.049078464508057
    },
    {
      "auxiliary_loss_clip": 0.01156444,
      "auxiliary_loss_mlp": 0.01044403,
      "balance_loss_clip": 1.0486964,
      "balance_loss_mlp": 1.03502703,
      "epoch": 0.08897973907292732,
      "flos": 22348356186240.0,
      "grad_norm": 2.3367782046659222,
      "language_loss": 0.61189693,
      "learning_rate": 3.963687439092676e-06,
      "loss": 0.63390541,
      "num_input_tokens_seen": 15801300,
      "step": 740,
      "time_per_iteration": 4.12265682220459
    },
    {
      "auxiliary_loss_clip": 0.01165354,
      "auxiliary_loss_mlp": 0.01038956,
      "balance_loss_clip": 1.04660714,
      "balance_loss_mlp": 1.02986073,
      "epoch": 0.0890999819635664,
      "flos": 21253966369920.0,
      "grad_norm": 1.8555632309561674,
      "language_loss": 0.80306113,
      "learning_rate": 3.963539525758427e-06,
      "loss": 0.82510424,
      "num_input_tokens_seen": 15820860,
      "step": 741,
      "time_per_iteration": 3.378856658935547
    },
    {
      "auxiliary_loss_clip": 0.01154527,
      "auxiliary_loss_mlp": 0.01032778,
      "balance_loss_clip": 1.04797864,
      "balance_loss_mlp": 1.02277601,
      "epoch": 0.0892202248542055,
      "flos": 25373043561600.0,
      "grad_norm": 5.375742691861356,
      "language_loss": 0.67726529,
      "learning_rate": 3.9633913145567925e-06,
      "loss": 0.69913828,
      "num_input_tokens_seen": 15841350,
      "step": 742,
      "time_per_iteration": 2.651332139968872
    },
    {
      "auxiliary_loss_clip": 0.01156071,
      "auxiliary_loss_mlp": 0.01031051,
      "balance_loss_clip": 1.05066669,
      "balance_loss_mlp": 1.02224183,
      "epoch": 0.08934046774484458,
      "flos": 24459952423680.0,
      "grad_norm": 1.9924563475928134,
      "language_loss": 0.81785595,
      "learning_rate": 3.9632428055102575e-06,
      "loss": 0.83972716,
      "num_input_tokens_seen": 15861360,
      "step": 743,
      "time_per_iteration": 2.6510727405548096
    },
    {
      "auxiliary_loss_clip": 0.01170262,
      "auxiliary_loss_mlp": 0.01033809,
      "balance_loss_clip": 1.05153644,
      "balance_loss_mlp": 1.0234797,
      "epoch": 0.08946071063548368,
      "flos": 35775699955200.0,
      "grad_norm": 2.878742142989044,
      "language_loss": 0.66904587,
      "learning_rate": 3.9630939986413495e-06,
      "loss": 0.69108659,
      "num_input_tokens_seen": 15883160,
      "step": 744,
      "time_per_iteration": 2.7256124019622803
    },
    {
      "auxiliary_loss_clip": 0.01145788,
      "auxiliary_loss_mlp": 0.01034511,
      "balance_loss_clip": 1.050946,
      "balance_loss_mlp": 1.02570713,
      "epoch": 0.08958095352612276,
      "flos": 14358370158720.0,
      "grad_norm": 1.8363022964045546,
      "language_loss": 0.78476393,
      "learning_rate": 3.962944893972643e-06,
      "loss": 0.80656695,
      "num_input_tokens_seen": 15901610,
      "step": 745,
      "time_per_iteration": 2.599410057067871
    },
    {
      "auxiliary_loss_clip": 0.01152911,
      "auxiliary_loss_mlp": 0.01031136,
      "balance_loss_clip": 1.04708517,
      "balance_loss_mlp": 1.02108681,
      "epoch": 0.08970119641676186,
      "flos": 17854927032960.0,
      "grad_norm": 2.4803180719379534,
      "language_loss": 0.90753007,
      "learning_rate": 3.962795491526756e-06,
      "loss": 0.92937058,
      "num_input_tokens_seen": 15918770,
      "step": 746,
      "time_per_iteration": 2.6288840770721436
    },
    {
      "auxiliary_loss_clip": 0.01187634,
      "auxiliary_loss_mlp": 0.01041552,
      "balance_loss_clip": 1.0522604,
      "balance_loss_mlp": 1.0314672,
      "epoch": 0.08982143930740095,
      "flos": 20813654764800.0,
      "grad_norm": 3.3127426236611233,
      "language_loss": 0.89142942,
      "learning_rate": 3.962645791326354e-06,
      "loss": 0.91372132,
      "num_input_tokens_seen": 15938025,
      "step": 747,
      "time_per_iteration": 2.5227253437042236
    },
    {
      "auxiliary_loss_clip": 0.01169109,
      "auxiliary_loss_mlp": 0.01030927,
      "balance_loss_clip": 1.04974115,
      "balance_loss_mlp": 1.02229035,
      "epoch": 0.08994168219804004,
      "flos": 24100009332480.0,
      "grad_norm": 2.0323542005298982,
      "language_loss": 0.83400917,
      "learning_rate": 3.962495793394146e-06,
      "loss": 0.85600954,
      "num_input_tokens_seen": 15957215,
      "step": 748,
      "time_per_iteration": 2.620110273361206
    },
    {
      "auxiliary_loss_clip": 0.01159171,
      "auxiliary_loss_mlp": 0.01017129,
      "balance_loss_clip": 1.05258226,
      "balance_loss_mlp": 1.01400554,
      "epoch": 0.09006192508867913,
      "flos": 57194991440640.0,
      "grad_norm": 0.7683977514978697,
      "language_loss": 0.61159718,
      "learning_rate": 3.9623454977528864e-06,
      "loss": 0.63336027,
      "num_input_tokens_seen": 16015870,
      "step": 749,
      "time_per_iteration": 2.979649305343628
    },
    {
      "auxiliary_loss_clip": 0.01147991,
      "auxiliary_loss_mlp": 0.01038206,
      "balance_loss_clip": 1.0515554,
      "balance_loss_mlp": 1.0286634,
      "epoch": 0.09018216797931822,
      "flos": 20489705982720.0,
      "grad_norm": 1.79294686432296,
      "language_loss": 0.84765434,
      "learning_rate": 3.962194904425375e-06,
      "loss": 0.86951637,
      "num_input_tokens_seen": 16036500,
      "step": 750,
      "time_per_iteration": 2.711003303527832
    },
    {
      "auxiliary_loss_clip": 0.01162043,
      "auxiliary_loss_mlp": 0.01033574,
      "balance_loss_clip": 1.04560971,
      "balance_loss_mlp": 1.02389431,
      "epoch": 0.09030241086995731,
      "flos": 22640329975680.0,
      "grad_norm": 1.9197236387166388,
      "language_loss": 0.68258512,
      "learning_rate": 3.9620440134344566e-06,
      "loss": 0.70454133,
      "num_input_tokens_seen": 16054655,
      "step": 751,
      "time_per_iteration": 2.5766308307647705
    },
    {
      "auxiliary_loss_clip": 0.01130786,
      "auxiliary_loss_mlp": 0.01036713,
      "balance_loss_clip": 1.04261053,
      "balance_loss_mlp": 1.02674711,
      "epoch": 0.09042265376059641,
      "flos": 21873642831360.0,
      "grad_norm": 2.984998381542765,
      "language_loss": 0.82867169,
      "learning_rate": 3.9618928248030215e-06,
      "loss": 0.85034668,
      "num_input_tokens_seen": 16074165,
      "step": 752,
      "time_per_iteration": 2.6759135723114014
    },
    {
      "auxiliary_loss_clip": 0.0116883,
      "auxiliary_loss_mlp": 0.0103771,
      "balance_loss_clip": 1.0510186,
      "balance_loss_mlp": 1.02849483,
      "epoch": 0.0905428966512355,
      "flos": 24318477780480.0,
      "grad_norm": 2.368957907143698,
      "language_loss": 0.83044565,
      "learning_rate": 3.961741338554005e-06,
      "loss": 0.85251105,
      "num_input_tokens_seen": 16092505,
      "step": 753,
      "time_per_iteration": 2.6237730979919434
    },
    {
      "auxiliary_loss_clip": 0.01154603,
      "auxiliary_loss_mlp": 0.01041212,
      "balance_loss_clip": 1.04991627,
      "balance_loss_mlp": 1.03149652,
      "epoch": 0.09066313954187459,
      "flos": 35847954000000.0,
      "grad_norm": 3.173118769780628,
      "language_loss": 0.75705171,
      "learning_rate": 3.9615895547103865e-06,
      "loss": 0.77900982,
      "num_input_tokens_seen": 16116150,
      "step": 754,
      "time_per_iteration": 2.7300429344177246
    },
    {
      "auxiliary_loss_clip": 0.01151685,
      "auxiliary_loss_mlp": 0.01041424,
      "balance_loss_clip": 1.04676878,
      "balance_loss_mlp": 1.03131533,
      "epoch": 0.09078338243251367,
      "flos": 29171281253760.0,
      "grad_norm": 2.0948074900224682,
      "language_loss": 0.78162587,
      "learning_rate": 3.961437473295193e-06,
      "loss": 0.80355692,
      "num_input_tokens_seen": 16136295,
      "step": 755,
      "time_per_iteration": 2.7007617950439453
    },
    {
      "auxiliary_loss_clip": 0.01132857,
      "auxiliary_loss_mlp": 0.01036873,
      "balance_loss_clip": 1.04638338,
      "balance_loss_mlp": 1.02819467,
      "epoch": 0.09090362532315277,
      "flos": 21909826730880.0,
      "grad_norm": 2.4453080600871866,
      "language_loss": 0.72221208,
      "learning_rate": 3.961285094331495e-06,
      "loss": 0.74390948,
      "num_input_tokens_seen": 16154210,
      "step": 756,
      "time_per_iteration": 2.6348354816436768
    },
    {
      "auxiliary_loss_clip": 0.01182252,
      "auxiliary_loss_mlp": 0.01027935,
      "balance_loss_clip": 1.04902375,
      "balance_loss_mlp": 1.01943564,
      "epoch": 0.09102386821379185,
      "flos": 27346956963840.0,
      "grad_norm": 1.9466046341429715,
      "language_loss": 0.86045933,
      "learning_rate": 3.961132417842406e-06,
      "loss": 0.88256121,
      "num_input_tokens_seen": 16173995,
      "step": 757,
      "time_per_iteration": 2.6223814487457275
    },
    {
      "auxiliary_loss_clip": 0.01172201,
      "auxiliary_loss_mlp": 0.01046291,
      "balance_loss_clip": 1.05050182,
      "balance_loss_mlp": 1.03732061,
      "epoch": 0.09114411110443095,
      "flos": 20815588586880.0,
      "grad_norm": 2.629968039122815,
      "language_loss": 0.7523948,
      "learning_rate": 3.960979443851089e-06,
      "loss": 0.7745797,
      "num_input_tokens_seen": 16191020,
      "step": 758,
      "time_per_iteration": 2.5540060997009277
    },
    {
      "auxiliary_loss_clip": 0.01161593,
      "auxiliary_loss_mlp": 0.0103377,
      "balance_loss_clip": 1.05226398,
      "balance_loss_mlp": 1.0244956,
      "epoch": 0.09126435399507005,
      "flos": 26148641454720.0,
      "grad_norm": 1.8082191357648822,
      "language_loss": 0.79083204,
      "learning_rate": 3.96082617238075e-06,
      "loss": 0.81278569,
      "num_input_tokens_seen": 16213645,
      "step": 759,
      "time_per_iteration": 2.7257118225097656
    },
    {
      "auxiliary_loss_clip": 0.0114763,
      "auxiliary_loss_mlp": 0.01030852,
      "balance_loss_clip": 1.04632759,
      "balance_loss_mlp": 1.02183378,
      "epoch": 0.09138459688570913,
      "flos": 24391186842240.0,
      "grad_norm": 2.5168044158180245,
      "language_loss": 0.79976797,
      "learning_rate": 3.960672603454639e-06,
      "loss": 0.82155281,
      "num_input_tokens_seen": 16233625,
      "step": 760,
      "time_per_iteration": 2.6016321182250977
    },
    {
      "auxiliary_loss_clip": 0.01173006,
      "auxiliary_loss_mlp": 0.01035128,
      "balance_loss_clip": 1.05047989,
      "balance_loss_mlp": 1.02527547,
      "epoch": 0.09150483977634823,
      "flos": 21034777478400.0,
      "grad_norm": 3.1616088419437163,
      "language_loss": 0.77264363,
      "learning_rate": 3.960518737096054e-06,
      "loss": 0.794725,
      "num_input_tokens_seen": 16253255,
      "step": 761,
      "time_per_iteration": 2.606978178024292
    },
    {
      "auxiliary_loss_clip": 0.01168983,
      "auxiliary_loss_mlp": 0.01031134,
      "balance_loss_clip": 1.05021298,
      "balance_loss_mlp": 1.02181733,
      "epoch": 0.09162508266698731,
      "flos": 22859215522560.0,
      "grad_norm": 2.2462213841770473,
      "language_loss": 0.72625262,
      "learning_rate": 3.960364573328334e-06,
      "loss": 0.74825382,
      "num_input_tokens_seen": 16272580,
      "step": 762,
      "time_per_iteration": 2.559441089630127
    },
    {
      "auxiliary_loss_clip": 0.01136464,
      "auxiliary_loss_mlp": 0.01031602,
      "balance_loss_clip": 1.04598689,
      "balance_loss_mlp": 1.02197003,
      "epoch": 0.0917453255576264,
      "flos": 21726480476160.0,
      "grad_norm": 2.405834208432221,
      "language_loss": 0.88712525,
      "learning_rate": 3.9602101121748675e-06,
      "loss": 0.90880591,
      "num_input_tokens_seen": 16293075,
      "step": 763,
      "time_per_iteration": 2.6764566898345947
    },
    {
      "auxiliary_loss_clip": 0.01149042,
      "auxiliary_loss_mlp": 0.01034038,
      "balance_loss_clip": 1.04611492,
      "balance_loss_mlp": 1.02549624,
      "epoch": 0.0918655684482655,
      "flos": 14610861175680.0,
      "grad_norm": 1.9657701253182558,
      "language_loss": 0.72442657,
      "learning_rate": 3.960055353659085e-06,
      "loss": 0.74625736,
      "num_input_tokens_seen": 16310185,
      "step": 764,
      "time_per_iteration": 2.5159566402435303
    },
    {
      "auxiliary_loss_clip": 0.01139193,
      "auxiliary_loss_mlp": 0.01025501,
      "balance_loss_clip": 1.04692543,
      "balance_loss_mlp": 1.01669765,
      "epoch": 0.09198581133890459,
      "flos": 23436944536320.0,
      "grad_norm": 1.7245273615330379,
      "language_loss": 0.83901846,
      "learning_rate": 3.959900297804465e-06,
      "loss": 0.86066538,
      "num_input_tokens_seen": 16330355,
      "step": 765,
      "time_per_iteration": 2.6639602184295654
    },
    {
      "auxiliary_loss_clip": 0.01145703,
      "auxiliary_loss_mlp": 0.01031747,
      "balance_loss_clip": 1.04433608,
      "balance_loss_mlp": 1.02289605,
      "epoch": 0.09210605422954368,
      "flos": 16797517395840.0,
      "grad_norm": 5.953065537115889,
      "language_loss": 0.77277768,
      "learning_rate": 3.9597449446345276e-06,
      "loss": 0.79455221,
      "num_input_tokens_seen": 16347600,
      "step": 766,
      "time_per_iteration": 4.801573991775513
    },
    {
      "auxiliary_loss_clip": 0.01158625,
      "auxiliary_loss_mlp": 0.01031621,
      "balance_loss_clip": 1.04905903,
      "balance_loss_mlp": 1.02232909,
      "epoch": 0.09222629712018277,
      "flos": 22676438039040.0,
      "grad_norm": 2.33398269770487,
      "language_loss": 0.83277249,
      "learning_rate": 3.95958929417284e-06,
      "loss": 0.85467494,
      "num_input_tokens_seen": 16365755,
      "step": 767,
      "time_per_iteration": 3.3430399894714355
    },
    {
      "auxiliary_loss_clip": 0.0114183,
      "auxiliary_loss_mlp": 0.01002853,
      "balance_loss_clip": 1.05172944,
      "balance_loss_mlp": 0.99970609,
      "epoch": 0.09234654001082186,
      "flos": 69984561772800.0,
      "grad_norm": 0.7341938199012167,
      "language_loss": 0.58854836,
      "learning_rate": 3.9594333464430145e-06,
      "loss": 0.60999519,
      "num_input_tokens_seen": 16435245,
      "step": 768,
      "time_per_iteration": 3.298187017440796
    },
    {
      "auxiliary_loss_clip": 0.01096877,
      "auxiliary_loss_mlp": 0.01037514,
      "balance_loss_clip": 1.04242206,
      "balance_loss_mlp": 1.02880621,
      "epoch": 0.09246678290146094,
      "flos": 20013513822720.0,
      "grad_norm": 2.7914574909142287,
      "language_loss": 0.87929213,
      "learning_rate": 3.959277101468709e-06,
      "loss": 0.90063608,
      "num_input_tokens_seen": 16454795,
      "step": 769,
      "time_per_iteration": 2.868680477142334
    },
    {
      "auxiliary_loss_clip": 0.01158594,
      "auxiliary_loss_mlp": 0.010371,
      "balance_loss_clip": 1.05178094,
      "balance_loss_mlp": 1.02791464,
      "epoch": 0.09258702579210004,
      "flos": 17749295026560.0,
      "grad_norm": 8.151968550722824,
      "language_loss": 0.78829587,
      "learning_rate": 3.959120559273624e-06,
      "loss": 0.81025279,
      "num_input_tokens_seen": 16472580,
      "step": 770,
      "time_per_iteration": 2.9396615028381348
    },
    {
      "auxiliary_loss_clip": 0.01150199,
      "auxiliary_loss_mlp": 0.01036974,
      "balance_loss_clip": 1.04628062,
      "balance_loss_mlp": 1.02771175,
      "epoch": 0.09270726868273914,
      "flos": 20888638911360.0,
      "grad_norm": 1.844037513947438,
      "language_loss": 0.83567286,
      "learning_rate": 3.958963719881509e-06,
      "loss": 0.8575446,
      "num_input_tokens_seen": 16490670,
      "step": 771,
      "time_per_iteration": 2.625969171524048
    },
    {
      "auxiliary_loss_clip": 0.0116776,
      "auxiliary_loss_mlp": 0.01031644,
      "balance_loss_clip": 1.05164838,
      "balance_loss_mlp": 1.02194655,
      "epoch": 0.09282751157337822,
      "flos": 17017388812800.0,
      "grad_norm": 2.1441249058228493,
      "language_loss": 0.93615776,
      "learning_rate": 3.958806583316154e-06,
      "loss": 0.95815182,
      "num_input_tokens_seen": 16508640,
      "step": 772,
      "time_per_iteration": 2.5288009643554688
    },
    {
      "auxiliary_loss_clip": 0.01184735,
      "auxiliary_loss_mlp": 0.01028624,
      "balance_loss_clip": 1.05300069,
      "balance_loss_mlp": 1.01973665,
      "epoch": 0.09294775446401732,
      "flos": 32526287648640.0,
      "grad_norm": 1.8629268373656698,
      "language_loss": 0.7877174,
      "learning_rate": 3.9586491496013985e-06,
      "loss": 0.80985099,
      "num_input_tokens_seen": 16531035,
      "step": 773,
      "time_per_iteration": 2.6318514347076416
    },
    {
      "auxiliary_loss_clip": 0.01172582,
      "auxiliary_loss_mlp": 0.0104008,
      "balance_loss_clip": 1.05213571,
      "balance_loss_mlp": 1.03053784,
      "epoch": 0.0930679973546564,
      "flos": 18261709004160.0,
      "grad_norm": 4.545649035652169,
      "language_loss": 0.83167768,
      "learning_rate": 3.958491418761124e-06,
      "loss": 0.85380435,
      "num_input_tokens_seen": 16548605,
      "step": 774,
      "time_per_iteration": 2.5123250484466553
    },
    {
      "auxiliary_loss_clip": 0.0115447,
      "auxiliary_loss_mlp": 0.01030087,
      "balance_loss_clip": 1.04809904,
      "balance_loss_mlp": 1.02092004,
      "epoch": 0.0931882402452955,
      "flos": 21101533401600.0,
      "grad_norm": 3.042122330768824,
      "language_loss": 0.72852641,
      "learning_rate": 3.958333390819258e-06,
      "loss": 0.75037199,
      "num_input_tokens_seen": 16565535,
      "step": 775,
      "time_per_iteration": 2.5824928283691406
    },
    {
      "auxiliary_loss_clip": 0.01183141,
      "auxiliary_loss_mlp": 0.01031743,
      "balance_loss_clip": 1.05135107,
      "balance_loss_mlp": 1.02281404,
      "epoch": 0.0933084831359346,
      "flos": 24209584819200.0,
      "grad_norm": 2.2218022491174474,
      "language_loss": 0.80253005,
      "learning_rate": 3.9581750657997754e-06,
      "loss": 0.8246789,
      "num_input_tokens_seen": 16584900,
      "step": 776,
      "time_per_iteration": 2.5269150733947754
    },
    {
      "auxiliary_loss_clip": 0.01151784,
      "auxiliary_loss_mlp": 0.01030077,
      "balance_loss_clip": 1.04797304,
      "balance_loss_mlp": 1.0213685,
      "epoch": 0.09342872602657368,
      "flos": 25482429457920.0,
      "grad_norm": 1.855801358847863,
      "language_loss": 0.89278221,
      "learning_rate": 3.95801644372669e-06,
      "loss": 0.91460085,
      "num_input_tokens_seen": 16604805,
      "step": 777,
      "time_per_iteration": 2.6562955379486084
    },
    {
      "auxiliary_loss_clip": 0.01153633,
      "auxiliary_loss_mlp": 0.010337,
      "balance_loss_clip": 1.04874539,
      "balance_loss_mlp": 1.02453899,
      "epoch": 0.09354896891721277,
      "flos": 23151303066240.0,
      "grad_norm": 2.101048291558386,
      "language_loss": 0.84627843,
      "learning_rate": 3.957857524624068e-06,
      "loss": 0.86815178,
      "num_input_tokens_seen": 16623685,
      "step": 778,
      "time_per_iteration": 2.5799448490142822
    },
    {
      "auxiliary_loss_clip": 0.01149987,
      "auxiliary_loss_mlp": 0.01029849,
      "balance_loss_clip": 1.04874611,
      "balance_loss_mlp": 1.02112246,
      "epoch": 0.09366921180785186,
      "flos": 24281838864000.0,
      "grad_norm": 1.6856732016499962,
      "language_loss": 0.89696741,
      "learning_rate": 3.957698308516016e-06,
      "loss": 0.91876566,
      "num_input_tokens_seen": 16644985,
      "step": 779,
      "time_per_iteration": 2.6350057125091553
    },
    {
      "auxiliary_loss_clip": 0.01165416,
      "auxiliary_loss_mlp": 0.00757815,
      "balance_loss_clip": 1.05037177,
      "balance_loss_mlp": 0.99998254,
      "epoch": 0.09378945469849095,
      "flos": 18731796353280.0,
      "grad_norm": 1.8189592175585036,
      "language_loss": 0.82128787,
      "learning_rate": 3.957538795426688e-06,
      "loss": 0.8405202,
      "num_input_tokens_seen": 16662410,
      "step": 780,
      "time_per_iteration": 2.525190591812134
    },
    {
      "auxiliary_loss_clip": 0.01147479,
      "auxiliary_loss_mlp": 0.01036569,
      "balance_loss_clip": 1.04654527,
      "balance_loss_mlp": 1.02644229,
      "epoch": 0.09390969758913004,
      "flos": 23220902845440.0,
      "grad_norm": 2.7599474532323445,
      "language_loss": 0.76856136,
      "learning_rate": 3.9573789853802804e-06,
      "loss": 0.79040182,
      "num_input_tokens_seen": 16680885,
      "step": 781,
      "time_per_iteration": 2.6271448135375977
    },
    {
      "auxiliary_loss_clip": 0.01153357,
      "auxiliary_loss_mlp": 0.00757841,
      "balance_loss_clip": 1.0509187,
      "balance_loss_mlp": 1.0000298,
      "epoch": 0.09402994047976913,
      "flos": 19648793053440.0,
      "grad_norm": 2.4285407621372754,
      "language_loss": 0.74933499,
      "learning_rate": 3.957218878401037e-06,
      "loss": 0.76844704,
      "num_input_tokens_seen": 16699375,
      "step": 782,
      "time_per_iteration": 2.609776258468628
    },
    {
      "auxiliary_loss_clip": 0.01185465,
      "auxiliary_loss_mlp": 0.01034897,
      "balance_loss_clip": 1.05390429,
      "balance_loss_mlp": 1.02504408,
      "epoch": 0.09415018337040823,
      "flos": 29422824318720.0,
      "grad_norm": 2.374817295570987,
      "language_loss": 0.89143866,
      "learning_rate": 3.957058474513246e-06,
      "loss": 0.91364229,
      "num_input_tokens_seen": 16719230,
      "step": 783,
      "time_per_iteration": 2.648231029510498
    },
    {
      "auxiliary_loss_clip": 0.01167827,
      "auxiliary_loss_mlp": 0.01035776,
      "balance_loss_clip": 1.05187535,
      "balance_loss_mlp": 1.02688956,
      "epoch": 0.09427042626104731,
      "flos": 24574419342720.0,
      "grad_norm": 1.9941071768343246,
      "language_loss": 0.78737062,
      "learning_rate": 3.956897773741241e-06,
      "loss": 0.80940664,
      "num_input_tokens_seen": 16738220,
      "step": 784,
      "time_per_iteration": 2.6477251052856445
    },
    {
      "auxiliary_loss_clip": 0.01147396,
      "auxiliary_loss_mlp": 0.01035764,
      "balance_loss_clip": 1.04559827,
      "balance_loss_mlp": 1.02660322,
      "epoch": 0.09439066915168641,
      "flos": 26361990961920.0,
      "grad_norm": 2.2970992599753854,
      "language_loss": 0.71639764,
      "learning_rate": 3.956736776109398e-06,
      "loss": 0.73822927,
      "num_input_tokens_seen": 16759395,
      "step": 785,
      "time_per_iteration": 2.6762328147888184
    },
    {
      "auxiliary_loss_clip": 0.01171865,
      "auxiliary_loss_mlp": 0.00758084,
      "balance_loss_clip": 1.05123067,
      "balance_loss_mlp": 0.99999553,
      "epoch": 0.09451091204232549,
      "flos": 19429300817280.0,
      "grad_norm": 2.0909830191028043,
      "language_loss": 0.83662975,
      "learning_rate": 3.956575481642143e-06,
      "loss": 0.85592926,
      "num_input_tokens_seen": 16778285,
      "step": 786,
      "time_per_iteration": 2.5846803188323975
    },
    {
      "auxiliary_loss_clip": 0.01120514,
      "auxiliary_loss_mlp": 0.01029433,
      "balance_loss_clip": 1.04433084,
      "balance_loss_mlp": 1.02054596,
      "epoch": 0.09463115493296459,
      "flos": 25370048033280.0,
      "grad_norm": 2.645874055381979,
      "language_loss": 0.74566478,
      "learning_rate": 3.956413890363943e-06,
      "loss": 0.76716423,
      "num_input_tokens_seen": 16795265,
      "step": 787,
      "time_per_iteration": 2.710742712020874
    },
    {
      "auxiliary_loss_clip": 0.01161825,
      "auxiliary_loss_mlp": 0.01032423,
      "balance_loss_clip": 1.04831421,
      "balance_loss_mlp": 1.02376246,
      "epoch": 0.09475139782360369,
      "flos": 10124750211840.0,
      "grad_norm": 2.1784258539693147,
      "language_loss": 0.81745952,
      "learning_rate": 3.956252002299312e-06,
      "loss": 0.83940202,
      "num_input_tokens_seen": 16811165,
      "step": 788,
      "time_per_iteration": 2.6002023220062256
    },
    {
      "auxiliary_loss_clip": 0.01181942,
      "auxiliary_loss_mlp": 0.01024942,
      "balance_loss_clip": 1.05110264,
      "balance_loss_mlp": 1.01669323,
      "epoch": 0.09487164071424277,
      "flos": 17232596305920.0,
      "grad_norm": 1.891067991076131,
      "language_loss": 0.90732145,
      "learning_rate": 3.956089817472807e-06,
      "loss": 0.92939025,
      "num_input_tokens_seen": 16828470,
      "step": 789,
      "time_per_iteration": 2.5524532794952393
    },
    {
      "auxiliary_loss_clip": 0.0114455,
      "auxiliary_loss_mlp": 0.0103205,
      "balance_loss_clip": 1.04630995,
      "balance_loss_mlp": 1.02327049,
      "epoch": 0.09499188360488187,
      "flos": 30852348750720.0,
      "grad_norm": 4.203187815332796,
      "language_loss": 0.85720682,
      "learning_rate": 3.955927335909032e-06,
      "loss": 0.87897289,
      "num_input_tokens_seen": 16851680,
      "step": 790,
      "time_per_iteration": 2.7040646076202393
    },
    {
      "auxiliary_loss_clip": 0.01114403,
      "auxiliary_loss_mlp": 0.01034665,
      "balance_loss_clip": 1.04293346,
      "balance_loss_mlp": 1.0260222,
      "epoch": 0.09511212649552095,
      "flos": 29354286245760.0,
      "grad_norm": 2.4027142541780044,
      "language_loss": 0.76081491,
      "learning_rate": 3.955764557632634e-06,
      "loss": 0.7823056,
      "num_input_tokens_seen": 16871490,
      "step": 791,
      "time_per_iteration": 4.281039476394653
    },
    {
      "auxiliary_loss_clip": 0.01154971,
      "auxiliary_loss_mlp": 0.01029888,
      "balance_loss_clip": 1.05021596,
      "balance_loss_mlp": 1.02109611,
      "epoch": 0.09523236938616005,
      "flos": 10380198839040.0,
      "grad_norm": 2.2768459443214506,
      "language_loss": 0.9463495,
      "learning_rate": 3.955601482668309e-06,
      "loss": 0.96819806,
      "num_input_tokens_seen": 16889350,
      "step": 792,
      "time_per_iteration": 2.565171241760254
    },
    {
      "auxiliary_loss_clip": 0.01128435,
      "auxiliary_loss_mlp": 0.01028938,
      "balance_loss_clip": 1.04707801,
      "balance_loss_mlp": 1.01970506,
      "epoch": 0.09535261227679913,
      "flos": 19063783768320.0,
      "grad_norm": 1.8352470745746794,
      "language_loss": 0.88852179,
      "learning_rate": 3.955438111040794e-06,
      "loss": 0.91009545,
      "num_input_tokens_seen": 16907625,
      "step": 793,
      "time_per_iteration": 4.322360277175903
    },
    {
      "auxiliary_loss_clip": 0.01125687,
      "auxiliary_loss_mlp": 0.01036012,
      "balance_loss_clip": 1.04760242,
      "balance_loss_mlp": 1.02741754,
      "epoch": 0.09547285516743823,
      "flos": 20925088237440.0,
      "grad_norm": 2.243327701730207,
      "language_loss": 0.80239809,
      "learning_rate": 3.955274442774873e-06,
      "loss": 0.82401508,
      "num_input_tokens_seen": 16926205,
      "step": 794,
      "time_per_iteration": 2.6519055366516113
    },
    {
      "auxiliary_loss_clip": 0.0116969,
      "auxiliary_loss_mlp": 0.01037609,
      "balance_loss_clip": 1.05249429,
      "balance_loss_mlp": 1.02772093,
      "epoch": 0.09559309805807732,
      "flos": 30157043535360.0,
      "grad_norm": 2.106859847546991,
      "language_loss": 0.70602179,
      "learning_rate": 3.9551104778953725e-06,
      "loss": 0.72809476,
      "num_input_tokens_seen": 16946500,
      "step": 795,
      "time_per_iteration": 2.6587131023406982
    },
    {
      "auxiliary_loss_clip": 0.01133579,
      "auxiliary_loss_mlp": 0.01026318,
      "balance_loss_clip": 1.04673409,
      "balance_loss_mlp": 1.01742458,
      "epoch": 0.0957133409487164,
      "flos": 21068724211200.0,
      "grad_norm": 2.270672298951753,
      "language_loss": 0.85254085,
      "learning_rate": 3.954946216427167e-06,
      "loss": 0.87413979,
      "num_input_tokens_seen": 16966960,
      "step": 796,
      "time_per_iteration": 2.657705545425415
    },
    {
      "auxiliary_loss_clip": 0.01111917,
      "auxiliary_loss_mlp": 0.01008421,
      "balance_loss_clip": 1.04668486,
      "balance_loss_mlp": 1.00532174,
      "epoch": 0.0958335838393555,
      "flos": 71304255342720.0,
      "grad_norm": 0.8884500370510006,
      "language_loss": 0.61571181,
      "learning_rate": 3.954781658395176e-06,
      "loss": 0.63691521,
      "num_input_tokens_seen": 17023215,
      "step": 797,
      "time_per_iteration": 3.14896559715271
    },
    {
      "auxiliary_loss_clip": 0.01153048,
      "auxiliary_loss_mlp": 0.01031806,
      "balance_loss_clip": 1.05028534,
      "balance_loss_mlp": 1.02269852,
      "epoch": 0.09595382672999458,
      "flos": 21875197472640.0,
      "grad_norm": 1.871900422149283,
      "language_loss": 0.92141771,
      "learning_rate": 3.95461680382436e-06,
      "loss": 0.94326627,
      "num_input_tokens_seen": 17042140,
      "step": 798,
      "time_per_iteration": 2.671558141708374
    },
    {
      "auxiliary_loss_clip": 0.01167658,
      "auxiliary_loss_mlp": 0.0103465,
      "balance_loss_clip": 1.05136979,
      "balance_loss_mlp": 1.0249579,
      "epoch": 0.09607406962063368,
      "flos": 18697432521600.0,
      "grad_norm": 2.407692539600995,
      "language_loss": 0.85848397,
      "learning_rate": 3.9544516527397295e-06,
      "loss": 0.88050705,
      "num_input_tokens_seen": 17058490,
      "step": 799,
      "time_per_iteration": 2.5891129970550537
    },
    {
      "auxiliary_loss_clip": 0.01150235,
      "auxiliary_loss_mlp": 0.01027567,
      "balance_loss_clip": 1.04851472,
      "balance_loss_mlp": 1.018543,
      "epoch": 0.09619431251127276,
      "flos": 22570843950720.0,
      "grad_norm": 2.1366192242901687,
      "language_loss": 0.80607337,
      "learning_rate": 3.954286205166338e-06,
      "loss": 0.82785141,
      "num_input_tokens_seen": 17079655,
      "step": 800,
      "time_per_iteration": 2.6990275382995605
    },
    {
      "auxiliary_loss_clip": 0.01169633,
      "auxiliary_loss_mlp": 0.0103282,
      "balance_loss_clip": 1.05386078,
      "balance_loss_mlp": 1.02328372,
      "epoch": 0.09631455540191186,
      "flos": 14247960474240.0,
      "grad_norm": 2.2597048280405847,
      "language_loss": 0.83907437,
      "learning_rate": 3.954120461129282e-06,
      "loss": 0.86109889,
      "num_input_tokens_seen": 17097065,
      "step": 801,
      "time_per_iteration": 2.5375287532806396
    },
    {
      "auxiliary_loss_clip": 0.0118401,
      "auxiliary_loss_mlp": 0.01035295,
      "balance_loss_clip": 1.054914,
      "balance_loss_mlp": 1.02653933,
      "epoch": 0.09643479829255096,
      "flos": 20742462426240.0,
      "grad_norm": 2.6795711852859148,
      "language_loss": 0.83889759,
      "learning_rate": 3.953954420653706e-06,
      "loss": 0.86109054,
      "num_input_tokens_seen": 17114090,
      "step": 802,
      "time_per_iteration": 2.618533134460449
    },
    {
      "auxiliary_loss_clip": 0.01166434,
      "auxiliary_loss_mlp": 0.01030245,
      "balance_loss_clip": 1.05170655,
      "balance_loss_mlp": 1.02174532,
      "epoch": 0.09655504118319004,
      "flos": 24422479309440.0,
      "grad_norm": 2.117001031666855,
      "language_loss": 0.88009727,
      "learning_rate": 3.953788083764798e-06,
      "loss": 0.90206397,
      "num_input_tokens_seen": 17133325,
      "step": 803,
      "time_per_iteration": 2.571531295776367
    },
    {
      "auxiliary_loss_clip": 0.01112531,
      "auxiliary_loss_mlp": 0.0103737,
      "balance_loss_clip": 1.04244757,
      "balance_loss_mlp": 1.02861381,
      "epoch": 0.09667528407382914,
      "flos": 18443917716480.0,
      "grad_norm": 2.0043053989711526,
      "language_loss": 0.91930759,
      "learning_rate": 3.953621450487792e-06,
      "loss": 0.94080657,
      "num_input_tokens_seen": 17151945,
      "step": 804,
      "time_per_iteration": 2.7095322608947754
    },
    {
      "auxiliary_loss_clip": 0.01156694,
      "auxiliary_loss_mlp": 0.0100779,
      "balance_loss_clip": 1.05614948,
      "balance_loss_mlp": 1.00475025,
      "epoch": 0.09679552696446822,
      "flos": 70824337159680.0,
      "grad_norm": 0.8520035835719877,
      "language_loss": 0.61275923,
      "learning_rate": 3.953454520847964e-06,
      "loss": 0.63440406,
      "num_input_tokens_seen": 17216790,
      "step": 805,
      "time_per_iteration": 3.3043391704559326
    },
    {
      "auxiliary_loss_clip": 0.01155337,
      "auxiliary_loss_mlp": 0.01036011,
      "balance_loss_clip": 1.05069828,
      "balance_loss_mlp": 1.02540779,
      "epoch": 0.09691576985510732,
      "flos": 21947716944000.0,
      "grad_norm": 2.597253352438152,
      "language_loss": 0.73970729,
      "learning_rate": 3.9532872948706395e-06,
      "loss": 0.76162076,
      "num_input_tokens_seen": 17236285,
      "step": 806,
      "time_per_iteration": 2.6180028915405273
    },
    {
      "auxiliary_loss_clip": 0.0114697,
      "auxiliary_loss_mlp": 0.01037101,
      "balance_loss_clip": 1.04932868,
      "balance_loss_mlp": 1.02719426,
      "epoch": 0.09703601274574641,
      "flos": 17967005112960.0,
      "grad_norm": 2.3494186986318417,
      "language_loss": 0.82817125,
      "learning_rate": 3.9531197725811845e-06,
      "loss": 0.85001194,
      "num_input_tokens_seen": 17251670,
      "step": 807,
      "time_per_iteration": 2.580050468444824
    },
    {
      "auxiliary_loss_clip": 0.0118234,
      "auxiliary_loss_mlp": 0.01036793,
      "balance_loss_clip": 1.05459166,
      "balance_loss_mlp": 1.02760756,
      "epoch": 0.0971562556363855,
      "flos": 22164251569920.0,
      "grad_norm": 1.979096643309971,
      "language_loss": 0.88175917,
      "learning_rate": 3.952951954005013e-06,
      "loss": 0.90395045,
      "num_input_tokens_seen": 17271355,
      "step": 808,
      "time_per_iteration": 2.551114320755005
    },
    {
      "auxiliary_loss_clip": 0.01156385,
      "auxiliary_loss_mlp": 0.01025021,
      "balance_loss_clip": 1.04988766,
      "balance_loss_mlp": 1.01661658,
      "epoch": 0.0972764985270246,
      "flos": 25851093707520.0,
      "grad_norm": 1.6607585740895927,
      "language_loss": 0.84706151,
      "learning_rate": 3.952783839167584e-06,
      "loss": 0.8688755,
      "num_input_tokens_seen": 17291400,
      "step": 809,
      "time_per_iteration": 2.66485333442688
    },
    {
      "auxiliary_loss_clip": 0.01162685,
      "auxiliary_loss_mlp": 0.01039451,
      "balance_loss_clip": 1.04893816,
      "balance_loss_mlp": 1.03039074,
      "epoch": 0.09739674141766368,
      "flos": 20341444003200.0,
      "grad_norm": 3.168507472341265,
      "language_loss": 0.74243724,
      "learning_rate": 3.952615428094398e-06,
      "loss": 0.76445866,
      "num_input_tokens_seen": 17310920,
      "step": 810,
      "time_per_iteration": 2.57342267036438
    },
    {
      "auxiliary_loss_clip": 0.01130308,
      "auxiliary_loss_mlp": 0.01033452,
      "balance_loss_clip": 1.04722428,
      "balance_loss_mlp": 1.02436781,
      "epoch": 0.09751698430830277,
      "flos": 15744923354880.0,
      "grad_norm": 1.8716148968170212,
      "language_loss": 0.73411918,
      "learning_rate": 3.952446720811004e-06,
      "loss": 0.75575674,
      "num_input_tokens_seen": 17329245,
      "step": 811,
      "time_per_iteration": 2.6569676399230957
    },
    {
      "auxiliary_loss_clip": 0.01104226,
      "auxiliary_loss_mlp": 0.01003456,
      "balance_loss_clip": 1.04621828,
      "balance_loss_mlp": 1.00042808,
      "epoch": 0.09763722719894186,
      "flos": 63723098862720.0,
      "grad_norm": 0.8453898407214914,
      "language_loss": 0.63704324,
      "learning_rate": 3.952277717342995e-06,
      "loss": 0.65812004,
      "num_input_tokens_seen": 17395680,
      "step": 812,
      "time_per_iteration": 3.311924695968628
    },
    {
      "auxiliary_loss_clip": 0.01154834,
      "auxiliary_loss_mlp": 0.01037432,
      "balance_loss_clip": 1.05170321,
      "balance_loss_mlp": 1.02769291,
      "epoch": 0.09775747008958095,
      "flos": 22093097149440.0,
      "grad_norm": 18.501914622837596,
      "language_loss": 0.85500276,
      "learning_rate": 3.952108417716009e-06,
      "loss": 0.87692541,
      "num_input_tokens_seen": 17415135,
      "step": 813,
      "time_per_iteration": 2.62231183052063
    },
    {
      "auxiliary_loss_clip": 0.0117248,
      "auxiliary_loss_mlp": 0.01031121,
      "balance_loss_clip": 1.05593908,
      "balance_loss_mlp": 1.02110755,
      "epoch": 0.09787771298022005,
      "flos": 21288064775040.0,
      "grad_norm": 2.421215281418113,
      "language_loss": 0.85136074,
      "learning_rate": 3.951938821955727e-06,
      "loss": 0.87339675,
      "num_input_tokens_seen": 17434535,
      "step": 814,
      "time_per_iteration": 2.5561165809631348
    },
    {
      "auxiliary_loss_clip": 0.01152547,
      "auxiliary_loss_mlp": 0.01035288,
      "balance_loss_clip": 1.05127478,
      "balance_loss_mlp": 1.02538812,
      "epoch": 0.09799795587085913,
      "flos": 22056761577600.0,
      "grad_norm": 1.5493372482128807,
      "language_loss": 0.7652449,
      "learning_rate": 3.9517689300878786e-06,
      "loss": 0.78712326,
      "num_input_tokens_seen": 17454270,
      "step": 815,
      "time_per_iteration": 2.6142940521240234
    },
    {
      "auxiliary_loss_clip": 0.01178786,
      "auxiliary_loss_mlp": 0.01034848,
      "balance_loss_clip": 1.05105448,
      "balance_loss_mlp": 1.02541828,
      "epoch": 0.09811819876149823,
      "flos": 22165919965440.0,
      "grad_norm": 1.823854071444434,
      "language_loss": 0.78924179,
      "learning_rate": 3.951598742138236e-06,
      "loss": 0.81137812,
      "num_input_tokens_seen": 17472995,
      "step": 816,
      "time_per_iteration": 3.3402535915374756
    },
    {
      "auxiliary_loss_clip": 0.01152157,
      "auxiliary_loss_mlp": 0.01035865,
      "balance_loss_clip": 1.04892015,
      "balance_loss_mlp": 1.0264709,
      "epoch": 0.09823844165213731,
      "flos": 22232979233280.0,
      "grad_norm": 2.1008244313724567,
      "language_loss": 0.80137533,
      "learning_rate": 3.951428258132615e-06,
      "loss": 0.82325554,
      "num_input_tokens_seen": 17491115,
      "step": 817,
      "time_per_iteration": 2.592862606048584
    },
    {
      "auxiliary_loss_clip": 0.01147787,
      "auxiliary_loss_mlp": 0.01033862,
      "balance_loss_clip": 1.04902959,
      "balance_loss_mlp": 1.02440882,
      "epoch": 0.09835868454277641,
      "flos": 22489679157120.0,
      "grad_norm": 2.42312392342305,
      "language_loss": 0.84123325,
      "learning_rate": 3.951257478096879e-06,
      "loss": 0.86304975,
      "num_input_tokens_seen": 17509480,
      "step": 818,
      "time_per_iteration": 4.262493371963501
    },
    {
      "auxiliary_loss_clip": 0.01147734,
      "auxiliary_loss_mlp": 0.00758429,
      "balance_loss_clip": 1.04791117,
      "balance_loss_mlp": 0.99991262,
      "epoch": 0.0984789274334155,
      "flos": 16364410225920.0,
      "grad_norm": 3.283444775658792,
      "language_loss": 0.68383861,
      "learning_rate": 3.951086402056936e-06,
      "loss": 0.70290023,
      "num_input_tokens_seen": 17524080,
      "step": 819,
      "time_per_iteration": 3.3944897651672363
    },
    {
      "auxiliary_loss_clip": 0.01076236,
      "auxiliary_loss_mlp": 0.00758205,
      "balance_loss_clip": 1.03819561,
      "balance_loss_mlp": 0.99991536,
      "epoch": 0.09859917032405459,
      "flos": 24245844554880.0,
      "grad_norm": 1.665495979443163,
      "language_loss": 0.83866584,
      "learning_rate": 3.950915030038735e-06,
      "loss": 0.85701025,
      "num_input_tokens_seen": 17543875,
      "step": 820,
      "time_per_iteration": 2.751065731048584
    },
    {
      "auxiliary_loss_clip": 0.01155633,
      "auxiliary_loss_mlp": 0.01033113,
      "balance_loss_clip": 1.04620624,
      "balance_loss_mlp": 1.02382064,
      "epoch": 0.09871941321469369,
      "flos": 17422085289600.0,
      "grad_norm": 9.488505476596677,
      "language_loss": 0.83709997,
      "learning_rate": 3.9507433620682765e-06,
      "loss": 0.85898745,
      "num_input_tokens_seen": 17560810,
      "step": 821,
      "time_per_iteration": 2.5696563720703125
    },
    {
      "auxiliary_loss_clip": 0.0113359,
      "auxiliary_loss_mlp": 0.01031529,
      "balance_loss_clip": 1.04623413,
      "balance_loss_mlp": 1.02249241,
      "epoch": 0.09883965610533277,
      "flos": 28479957436800.0,
      "grad_norm": 3.531680749506804,
      "language_loss": 0.88249743,
      "learning_rate": 3.9505713981716e-06,
      "loss": 0.9041487,
      "num_input_tokens_seen": 17583640,
      "step": 822,
      "time_per_iteration": 2.716641664505005
    },
    {
      "auxiliary_loss_clip": 0.01150113,
      "auxiliary_loss_mlp": 0.01031033,
      "balance_loss_clip": 1.0494647,
      "balance_loss_mlp": 1.02246189,
      "epoch": 0.09895989899597187,
      "flos": 23696071217280.0,
      "grad_norm": 1.8415766203314334,
      "language_loss": 0.80848837,
      "learning_rate": 3.950399138374795e-06,
      "loss": 0.83029974,
      "num_input_tokens_seen": 17602720,
      "step": 823,
      "time_per_iteration": 2.6974546909332275
    },
    {
      "auxiliary_loss_clip": 0.01160163,
      "auxiliary_loss_mlp": 0.01035901,
      "balance_loss_clip": 1.04742312,
      "balance_loss_mlp": 1.02645397,
      "epoch": 0.09908014188661095,
      "flos": 24681833498880.0,
      "grad_norm": 1.8223166015639005,
      "language_loss": 0.7434696,
      "learning_rate": 3.95022658270399e-06,
      "loss": 0.76543027,
      "num_input_tokens_seen": 17623085,
      "step": 824,
      "time_per_iteration": 2.6405251026153564
    },
    {
      "auxiliary_loss_clip": 0.01145521,
      "auxiliary_loss_mlp": 0.01032333,
      "balance_loss_clip": 1.04858744,
      "balance_loss_mlp": 1.02330327,
      "epoch": 0.09920038477725004,
      "flos": 14066055106560.0,
      "grad_norm": 1.9796515925969276,
      "language_loss": 0.78233278,
      "learning_rate": 3.9500537311853635e-06,
      "loss": 0.8041113,
      "num_input_tokens_seen": 17641040,
      "step": 825,
      "time_per_iteration": 2.611614942550659
    },
    {
      "auxiliary_loss_clip": 0.01163608,
      "auxiliary_loss_mlp": 0.0103378,
      "balance_loss_clip": 1.04812706,
      "balance_loss_mlp": 1.02405834,
      "epoch": 0.09932062766788914,
      "flos": 13408753858560.0,
      "grad_norm": 2.4438952019758022,
      "language_loss": 0.83177382,
      "learning_rate": 3.949880583845136e-06,
      "loss": 0.85374773,
      "num_input_tokens_seen": 17659115,
      "step": 826,
      "time_per_iteration": 2.581808567047119
    },
    {
      "auxiliary_loss_clip": 0.01153083,
      "auxiliary_loss_mlp": 0.01029306,
      "balance_loss_clip": 1.05069184,
      "balance_loss_mlp": 1.02013254,
      "epoch": 0.09944087055852822,
      "flos": 19502806158720.0,
      "grad_norm": 2.0221208069298062,
      "language_loss": 0.81577992,
      "learning_rate": 3.949707140709575e-06,
      "loss": 0.83760375,
      "num_input_tokens_seen": 17678845,
      "step": 827,
      "time_per_iteration": 2.618021011352539
    },
    {
      "auxiliary_loss_clip": 0.01164736,
      "auxiliary_loss_mlp": 0.01031822,
      "balance_loss_clip": 1.05078173,
      "balance_loss_mlp": 1.02219534,
      "epoch": 0.09956111344916732,
      "flos": 17751039258240.0,
      "grad_norm": 2.3103500796868897,
      "language_loss": 0.82988113,
      "learning_rate": 3.949533401804991e-06,
      "loss": 0.85184675,
      "num_input_tokens_seen": 17695750,
      "step": 828,
      "time_per_iteration": 2.587850570678711
    },
    {
      "auxiliary_loss_clip": 0.01160422,
      "auxiliary_loss_mlp": 0.00758376,
      "balance_loss_clip": 1.04887271,
      "balance_loss_mlp": 0.99988693,
      "epoch": 0.0996813563398064,
      "flos": 17969507706240.0,
      "grad_norm": 2.172458839103729,
      "language_loss": 0.90638304,
      "learning_rate": 3.949359367157739e-06,
      "loss": 0.92557096,
      "num_input_tokens_seen": 17714445,
      "step": 829,
      "time_per_iteration": 2.585706949234009
    },
    {
      "auxiliary_loss_clip": 0.01162138,
      "auxiliary_loss_mlp": 0.01033177,
      "balance_loss_clip": 1.04752922,
      "balance_loss_mlp": 1.02367055,
      "epoch": 0.0998015992304455,
      "flos": 17458951714560.0,
      "grad_norm": 4.594522078520175,
      "language_loss": 0.75420976,
      "learning_rate": 3.949185036794222e-06,
      "loss": 0.77616286,
      "num_input_tokens_seen": 17732455,
      "step": 830,
      "time_per_iteration": 2.5674421787261963
    },
    {
      "auxiliary_loss_clip": 0.01177804,
      "auxiliary_loss_mlp": 0.01035802,
      "balance_loss_clip": 1.05131483,
      "balance_loss_mlp": 1.02734447,
      "epoch": 0.0999218421210846,
      "flos": 25891334841600.0,
      "grad_norm": 1.830353247487833,
      "language_loss": 0.78701198,
      "learning_rate": 3.949010410740884e-06,
      "loss": 0.80914795,
      "num_input_tokens_seen": 17755280,
      "step": 831,
      "time_per_iteration": 2.627781867980957
    },
    {
      "auxiliary_loss_clip": 0.01146539,
      "auxiliary_loss_mlp": 0.00758196,
      "balance_loss_clip": 1.04593003,
      "balance_loss_mlp": 0.99994636,
      "epoch": 0.10004208501172368,
      "flos": 21218085815040.0,
      "grad_norm": 1.6407929849772651,
      "language_loss": 0.86251158,
      "learning_rate": 3.948835489024216e-06,
      "loss": 0.8815589,
      "num_input_tokens_seen": 17775015,
      "step": 832,
      "time_per_iteration": 2.62300968170166
    },
    {
      "auxiliary_loss_clip": 0.01161198,
      "auxiliary_loss_mlp": 0.01033245,
      "balance_loss_clip": 1.05022502,
      "balance_loss_mlp": 1.02399421,
      "epoch": 0.10016232790236278,
      "flos": 17350362097920.0,
      "grad_norm": 2.0473220328730766,
      "language_loss": 0.90682679,
      "learning_rate": 3.948660271670755e-06,
      "loss": 0.92877126,
      "num_input_tokens_seen": 17792165,
      "step": 833,
      "time_per_iteration": 2.6029140949249268
    },
    {
      "auxiliary_loss_clip": 0.01139569,
      "auxiliary_loss_mlp": 0.01029187,
      "balance_loss_clip": 1.04416203,
      "balance_loss_mlp": 1.02056861,
      "epoch": 0.10028257079300186,
      "flos": 25668922913280.0,
      "grad_norm": 2.2557055849093612,
      "language_loss": 0.84101743,
      "learning_rate": 3.948484758707079e-06,
      "loss": 0.86270499,
      "num_input_tokens_seen": 17811765,
      "step": 834,
      "time_per_iteration": 2.66926908493042
    },
    {
      "auxiliary_loss_clip": 0.01130026,
      "auxiliary_loss_mlp": 0.01033106,
      "balance_loss_clip": 1.04200399,
      "balance_loss_mlp": 1.02393293,
      "epoch": 0.10040281368364096,
      "flos": 25158404839680.0,
      "grad_norm": 15.643245728426129,
      "language_loss": 0.83700383,
      "learning_rate": 3.948308950159815e-06,
      "loss": 0.85863507,
      "num_input_tokens_seen": 17830445,
      "step": 835,
      "time_per_iteration": 2.66804838180542
    },
    {
      "auxiliary_loss_clip": 0.01136415,
      "auxiliary_loss_mlp": 0.01038402,
      "balance_loss_clip": 1.04473567,
      "balance_loss_mlp": 1.02878809,
      "epoch": 0.10052305657428004,
      "flos": 17605241953920.0,
      "grad_norm": 2.8026954267360664,
      "language_loss": 0.75860173,
      "learning_rate": 3.9481328460556326e-06,
      "loss": 0.78034985,
      "num_input_tokens_seen": 17847665,
      "step": 836,
      "time_per_iteration": 2.6553871631622314
    },
    {
      "auxiliary_loss_clip": 0.01148435,
      "auxiliary_loss_mlp": 0.01029856,
      "balance_loss_clip": 1.04779506,
      "balance_loss_mlp": 1.02081966,
      "epoch": 0.10064329946491914,
      "flos": 18662082819840.0,
      "grad_norm": 2.0005550610403358,
      "language_loss": 0.8987844,
      "learning_rate": 3.9479564464212455e-06,
      "loss": 0.92056727,
      "num_input_tokens_seen": 17866825,
      "step": 837,
      "time_per_iteration": 2.6044673919677734
    },
    {
      "auxiliary_loss_clip": 0.01177284,
      "auxiliary_loss_mlp": 0.0103254,
      "balance_loss_clip": 1.04937446,
      "balance_loss_mlp": 1.02353954,
      "epoch": 0.10076354235555823,
      "flos": 17200810903680.0,
      "grad_norm": 2.087337961759559,
      "language_loss": 0.76131415,
      "learning_rate": 3.947779751283414e-06,
      "loss": 0.78341234,
      "num_input_tokens_seen": 17883995,
      "step": 838,
      "time_per_iteration": 2.5762946605682373
    },
    {
      "auxiliary_loss_clip": 0.01155907,
      "auxiliary_loss_mlp": 0.00758491,
      "balance_loss_clip": 1.0487051,
      "balance_loss_mlp": 0.99987191,
      "epoch": 0.10088378524619732,
      "flos": 22964240839680.0,
      "grad_norm": 1.7328782916399705,
      "language_loss": 0.75973403,
      "learning_rate": 3.947602760668944e-06,
      "loss": 0.77887797,
      "num_input_tokens_seen": 17903785,
      "step": 839,
      "time_per_iteration": 2.580949068069458
    },
    {
      "auxiliary_loss_clip": 0.01157047,
      "auxiliary_loss_mlp": 0.01034726,
      "balance_loss_clip": 1.04703355,
      "balance_loss_mlp": 1.02509964,
      "epoch": 0.10100402813683641,
      "flos": 37888699161600.0,
      "grad_norm": 2.4267186951749773,
      "language_loss": 0.71602416,
      "learning_rate": 3.947425474604684e-06,
      "loss": 0.73794192,
      "num_input_tokens_seen": 17927720,
      "step": 840,
      "time_per_iteration": 2.7397348880767822
    },
    {
      "auxiliary_loss_clip": 0.01144183,
      "auxiliary_loss_mlp": 0.01035514,
      "balance_loss_clip": 1.04634881,
      "balance_loss_mlp": 1.02654982,
      "epoch": 0.1011242710274755,
      "flos": 21545598896640.0,
      "grad_norm": 2.2626040683062465,
      "language_loss": 0.92311168,
      "learning_rate": 3.947247893117528e-06,
      "loss": 0.94490862,
      "num_input_tokens_seen": 17946225,
      "step": 841,
      "time_per_iteration": 2.6090781688690186
    },
    {
      "auxiliary_loss_clip": 0.01164942,
      "auxiliary_loss_mlp": 0.01037528,
      "balance_loss_clip": 1.04944861,
      "balance_loss_mlp": 1.02774119,
      "epoch": 0.10124451391811459,
      "flos": 13622899645440.0,
      "grad_norm": 5.916452015051299,
      "language_loss": 0.69267362,
      "learning_rate": 3.947070016234413e-06,
      "loss": 0.71469831,
      "num_input_tokens_seen": 17962015,
      "step": 842,
      "time_per_iteration": 3.3648529052734375
    },
    {
      "auxiliary_loss_clip": 0.01148747,
      "auxiliary_loss_mlp": 0.01032317,
      "balance_loss_clip": 1.04862642,
      "balance_loss_mlp": 1.02319145,
      "epoch": 0.10136475680875369,
      "flos": 16650810057600.0,
      "grad_norm": 2.7078562783534803,
      "language_loss": 0.74752104,
      "learning_rate": 3.946891843982326e-06,
      "loss": 0.76933169,
      "num_input_tokens_seen": 17979680,
      "step": 843,
      "time_per_iteration": 2.587022304534912
    },
    {
      "auxiliary_loss_clip": 0.01156437,
      "auxiliary_loss_mlp": 0.01030969,
      "balance_loss_clip": 1.04635346,
      "balance_loss_mlp": 1.02147961,
      "epoch": 0.10148499969939277,
      "flos": 19462906287360.0,
      "grad_norm": 2.152795883176385,
      "language_loss": 0.74438202,
      "learning_rate": 3.9467133763882935e-06,
      "loss": 0.76625609,
      "num_input_tokens_seen": 17998145,
      "step": 844,
      "time_per_iteration": 4.154219627380371
    },
    {
      "auxiliary_loss_clip": 0.01164593,
      "auxiliary_loss_mlp": 0.01031503,
      "balance_loss_clip": 1.05037141,
      "balance_loss_mlp": 1.0222702,
      "epoch": 0.10160524259003187,
      "flos": 21107069441280.0,
      "grad_norm": 2.111615691341649,
      "language_loss": 0.863159,
      "learning_rate": 3.9465346134793905e-06,
      "loss": 0.88511992,
      "num_input_tokens_seen": 18017955,
      "step": 845,
      "time_per_iteration": 2.588160991668701
    },
    {
      "auxiliary_loss_clip": 0.01129123,
      "auxiliary_loss_mlp": 0.01030661,
      "balance_loss_clip": 1.04635096,
      "balance_loss_mlp": 1.02151763,
      "epoch": 0.10172548548067095,
      "flos": 17714627850240.0,
      "grad_norm": 2.273597232940891,
      "language_loss": 0.79358226,
      "learning_rate": 3.9463555552827335e-06,
      "loss": 0.81518006,
      "num_input_tokens_seen": 18035125,
      "step": 846,
      "time_per_iteration": 2.5857198238372803
    },
    {
      "auxiliary_loss_clip": 0.01164516,
      "auxiliary_loss_mlp": 0.01039004,
      "balance_loss_clip": 1.05016065,
      "balance_loss_mlp": 1.02997351,
      "epoch": 0.10184572837131005,
      "flos": 21106917768960.0,
      "grad_norm": 4.224392761584045,
      "language_loss": 0.86203015,
      "learning_rate": 3.946176201825487e-06,
      "loss": 0.88406533,
      "num_input_tokens_seen": 18053160,
      "step": 847,
      "time_per_iteration": 2.6090972423553467
    },
    {
      "auxiliary_loss_clip": 0.01144555,
      "auxiliary_loss_mlp": 0.01037245,
      "balance_loss_clip": 1.04723716,
      "balance_loss_mlp": 1.02762461,
      "epoch": 0.10196597126194913,
      "flos": 26069979254400.0,
      "grad_norm": 1.87933791865362,
      "language_loss": 0.83804142,
      "learning_rate": 3.9459965531348575e-06,
      "loss": 0.85985941,
      "num_input_tokens_seen": 18072815,
      "step": 848,
      "time_per_iteration": 2.6212542057037354
    },
    {
      "auxiliary_loss_clip": 0.01143751,
      "auxiliary_loss_mlp": 0.00758343,
      "balance_loss_clip": 1.0464654,
      "balance_loss_mlp": 0.99989182,
      "epoch": 0.10208621415258823,
      "flos": 29317192312320.0,
      "grad_norm": 2.1526918608606,
      "language_loss": 0.8588798,
      "learning_rate": 3.945816609238098e-06,
      "loss": 0.87790078,
      "num_input_tokens_seen": 18092225,
      "step": 849,
      "time_per_iteration": 2.672302007675171
    },
    {
      "auxiliary_loss_clip": 0.01119654,
      "auxiliary_loss_mlp": 0.0103612,
      "balance_loss_clip": 1.0474503,
      "balance_loss_mlp": 1.02629089,
      "epoch": 0.10220645704322733,
      "flos": 23808073461120.0,
      "grad_norm": 2.2787536232402945,
      "language_loss": 0.8524859,
      "learning_rate": 3.945636370162507e-06,
      "loss": 0.8740437,
      "num_input_tokens_seen": 18112335,
      "step": 850,
      "time_per_iteration": 2.6511871814727783
    },
    {
      "auxiliary_loss_clip": 0.01158463,
      "auxiliary_loss_mlp": 0.01038084,
      "balance_loss_clip": 1.0472393,
      "balance_loss_mlp": 1.02981067,
      "epoch": 0.10232669993386641,
      "flos": 23220599500800.0,
      "grad_norm": 4.427671656880968,
      "language_loss": 0.79269326,
      "learning_rate": 3.945455835935425e-06,
      "loss": 0.8146587,
      "num_input_tokens_seen": 18131520,
      "step": 851,
      "time_per_iteration": 2.596923351287842
    },
    {
      "auxiliary_loss_clip": 0.01148046,
      "auxiliary_loss_mlp": 0.01033465,
      "balance_loss_clip": 1.0464921,
      "balance_loss_mlp": 1.02429748,
      "epoch": 0.1024469428245055,
      "flos": 22924758067200.0,
      "grad_norm": 2.1748573618956653,
      "language_loss": 0.75033033,
      "learning_rate": 3.94527500658424e-06,
      "loss": 0.77214539,
      "num_input_tokens_seen": 18149185,
      "step": 852,
      "time_per_iteration": 2.567819118499756
    },
    {
      "auxiliary_loss_clip": 0.0111547,
      "auxiliary_loss_mlp": 0.01029938,
      "balance_loss_clip": 1.04354107,
      "balance_loss_mlp": 1.02174795,
      "epoch": 0.10256718571514459,
      "flos": 31362260135040.0,
      "grad_norm": 1.9853087475364897,
      "language_loss": 0.8103894,
      "learning_rate": 3.945093882136382e-06,
      "loss": 0.83184344,
      "num_input_tokens_seen": 18172960,
      "step": 853,
      "time_per_iteration": 2.77846360206604
    },
    {
      "auxiliary_loss_clip": 0.01137291,
      "auxiliary_loss_mlp": 0.0075766,
      "balance_loss_clip": 1.04399824,
      "balance_loss_mlp": 0.99988008,
      "epoch": 0.10268742860578368,
      "flos": 23476996080000.0,
      "grad_norm": 2.074171894246232,
      "language_loss": 0.84600407,
      "learning_rate": 3.944912462619329e-06,
      "loss": 0.86495358,
      "num_input_tokens_seen": 18191925,
      "step": 854,
      "time_per_iteration": 2.6078312397003174
    },
    {
      "auxiliary_loss_clip": 0.01149934,
      "auxiliary_loss_mlp": 0.01039277,
      "balance_loss_clip": 1.04881167,
      "balance_loss_mlp": 1.02935255,
      "epoch": 0.10280767149642277,
      "flos": 25522670592000.0,
      "grad_norm": 2.1739229951220613,
      "language_loss": 0.80677515,
      "learning_rate": 3.9447307480606025e-06,
      "loss": 0.82866728,
      "num_input_tokens_seen": 18212010,
      "step": 855,
      "time_per_iteration": 2.6292974948883057
    },
    {
      "auxiliary_loss_clip": 0.01144727,
      "auxiliary_loss_mlp": 0.01034155,
      "balance_loss_clip": 1.04662228,
      "balance_loss_mlp": 1.02498186,
      "epoch": 0.10292791438706186,
      "flos": 17349603736320.0,
      "grad_norm": 2.0266034561971464,
      "language_loss": 0.9006902,
      "learning_rate": 3.944548738487767e-06,
      "loss": 0.92247903,
      "num_input_tokens_seen": 18229525,
      "step": 856,
      "time_per_iteration": 2.59157133102417
    },
    {
      "auxiliary_loss_clip": 0.01176962,
      "auxiliary_loss_mlp": 0.01032576,
      "balance_loss_clip": 1.05158985,
      "balance_loss_mlp": 1.02355218,
      "epoch": 0.10304815727770096,
      "flos": 27055134846720.0,
      "grad_norm": 2.0752067209707814,
      "language_loss": 0.90722692,
      "learning_rate": 3.944366433928434e-06,
      "loss": 0.92932236,
      "num_input_tokens_seen": 18249505,
      "step": 857,
      "time_per_iteration": 2.5646088123321533
    },
    {
      "auxiliary_loss_clip": 0.01147196,
      "auxiliary_loss_mlp": 0.01035746,
      "balance_loss_clip": 1.04694724,
      "balance_loss_mlp": 1.02740097,
      "epoch": 0.10316840016834004,
      "flos": 22784724311040.0,
      "grad_norm": 1.5146244311234487,
      "language_loss": 0.83343911,
      "learning_rate": 3.9441838344102594e-06,
      "loss": 0.85526848,
      "num_input_tokens_seen": 18269230,
      "step": 858,
      "time_per_iteration": 2.61728835105896
    },
    {
      "auxiliary_loss_clip": 0.01148788,
      "auxiliary_loss_mlp": 0.01031574,
      "balance_loss_clip": 1.04714417,
      "balance_loss_mlp": 1.0227766,
      "epoch": 0.10328864305897914,
      "flos": 20706695625600.0,
      "grad_norm": 2.4588024977358254,
      "language_loss": 0.67780614,
      "learning_rate": 3.944000939960943e-06,
      "loss": 0.69960982,
      "num_input_tokens_seen": 18287955,
      "step": 859,
      "time_per_iteration": 2.5709123611450195
    },
    {
      "auxiliary_loss_clip": 0.01162347,
      "auxiliary_loss_mlp": 0.01029019,
      "balance_loss_clip": 1.0484643,
      "balance_loss_mlp": 1.02107406,
      "epoch": 0.10340888594961822,
      "flos": 28481512078080.0,
      "grad_norm": 1.7821932513976186,
      "language_loss": 0.79637623,
      "learning_rate": 3.943817750608229e-06,
      "loss": 0.81828988,
      "num_input_tokens_seen": 18310505,
      "step": 860,
      "time_per_iteration": 2.6582155227661133
    },
    {
      "auxiliary_loss_clip": 0.01161001,
      "auxiliary_loss_mlp": 0.01029551,
      "balance_loss_clip": 1.04966474,
      "balance_loss_mlp": 1.02128983,
      "epoch": 0.10352912884025732,
      "flos": 13372001187840.0,
      "grad_norm": 2.2088571218197637,
      "language_loss": 0.82053262,
      "learning_rate": 3.943634266379908e-06,
      "loss": 0.8424381,
      "num_input_tokens_seen": 18327400,
      "step": 861,
      "time_per_iteration": 2.5069198608398438
    },
    {
      "auxiliary_loss_clip": 0.01160726,
      "auxiliary_loss_mlp": 0.01027423,
      "balance_loss_clip": 1.04870272,
      "balance_loss_mlp": 1.01895356,
      "epoch": 0.10364937173089642,
      "flos": 25561015822080.0,
      "grad_norm": 1.7956403450842577,
      "language_loss": 0.84689742,
      "learning_rate": 3.943450487303815e-06,
      "loss": 0.86877888,
      "num_input_tokens_seen": 18347895,
      "step": 862,
      "time_per_iteration": 2.613769769668579
    },
    {
      "auxiliary_loss_clip": 0.01151101,
      "auxiliary_loss_mlp": 0.01028531,
      "balance_loss_clip": 1.04487848,
      "balance_loss_mlp": 1.0196501,
      "epoch": 0.1037696146215355,
      "flos": 21217630798080.0,
      "grad_norm": 1.9988182451953465,
      "language_loss": 0.8520996,
      "learning_rate": 3.943266413407827e-06,
      "loss": 0.87389588,
      "num_input_tokens_seen": 18367170,
      "step": 863,
      "time_per_iteration": 2.606271982192993
    },
    {
      "auxiliary_loss_clip": 0.01157607,
      "auxiliary_loss_mlp": 0.0103063,
      "balance_loss_clip": 1.04715419,
      "balance_loss_mlp": 1.02211213,
      "epoch": 0.1038898575121746,
      "flos": 25809487522560.0,
      "grad_norm": 1.9170027168668031,
      "language_loss": 0.85260046,
      "learning_rate": 3.94308204471987e-06,
      "loss": 0.87448287,
      "num_input_tokens_seen": 18386185,
      "step": 864,
      "time_per_iteration": 2.6286351680755615
    },
    {
      "auxiliary_loss_clip": 0.01134539,
      "auxiliary_loss_mlp": 0.0102696,
      "balance_loss_clip": 1.04761171,
      "balance_loss_mlp": 1.01851428,
      "epoch": 0.10401010040281368,
      "flos": 19064428375680.0,
      "grad_norm": 3.358772156299215,
      "language_loss": 0.74943256,
      "learning_rate": 3.942897381267912e-06,
      "loss": 0.77104753,
      "num_input_tokens_seen": 18402550,
      "step": 865,
      "time_per_iteration": 2.6109659671783447
    },
    {
      "auxiliary_loss_clip": 0.01158943,
      "auxiliary_loss_mlp": 0.01029214,
      "balance_loss_clip": 1.04823613,
      "balance_loss_mlp": 1.02004123,
      "epoch": 0.10413034329345278,
      "flos": 16356561183360.0,
      "grad_norm": 3.456861491907484,
      "language_loss": 0.65961945,
      "learning_rate": 3.942712423079965e-06,
      "loss": 0.68150103,
      "num_input_tokens_seen": 18418940,
      "step": 866,
      "time_per_iteration": 2.6233391761779785
    },
    {
      "auxiliary_loss_clip": 0.01133143,
      "auxiliary_loss_mlp": 0.01028684,
      "balance_loss_clip": 1.0459435,
      "balance_loss_mlp": 1.02089953,
      "epoch": 0.10425058618409186,
      "flos": 17238321936000.0,
      "grad_norm": 2.5196092098299476,
      "language_loss": 0.90054154,
      "learning_rate": 3.942527170184088e-06,
      "loss": 0.92215979,
      "num_input_tokens_seen": 18435560,
      "step": 867,
      "time_per_iteration": 2.5919501781463623
    },
    {
      "auxiliary_loss_clip": 0.01175254,
      "auxiliary_loss_mlp": 0.01036804,
      "balance_loss_clip": 1.05071712,
      "balance_loss_mlp": 1.02761936,
      "epoch": 0.10437082907473096,
      "flos": 17969280197760.0,
      "grad_norm": 2.733385509102984,
      "language_loss": 0.77649724,
      "learning_rate": 3.942341622608385e-06,
      "loss": 0.79861784,
      "num_input_tokens_seen": 18452590,
      "step": 868,
      "time_per_iteration": 3.2537522315979004
    },
    {
      "auxiliary_loss_clip": 0.01146157,
      "auxiliary_loss_mlp": 0.01031829,
      "balance_loss_clip": 1.04940271,
      "balance_loss_mlp": 1.0232935,
      "epoch": 0.10449107196537005,
      "flos": 36286255946880.0,
      "grad_norm": 1.6766372263145568,
      "language_loss": 0.77975959,
      "learning_rate": 3.942155780381001e-06,
      "loss": 0.80153942,
      "num_input_tokens_seen": 18476325,
      "step": 869,
      "time_per_iteration": 2.7212653160095215
    },
    {
      "auxiliary_loss_clip": 0.01142242,
      "auxiliary_loss_mlp": 0.01033091,
      "balance_loss_clip": 1.04502952,
      "balance_loss_mlp": 1.02383494,
      "epoch": 0.10461131485600914,
      "flos": 23804167898880.0,
      "grad_norm": 2.3848983003950024,
      "language_loss": 0.76080608,
      "learning_rate": 3.94196964353013e-06,
      "loss": 0.78255951,
      "num_input_tokens_seen": 18495775,
      "step": 870,
      "time_per_iteration": 3.554882526397705
    },
    {
      "auxiliary_loss_clip": 0.01149746,
      "auxiliary_loss_mlp": 0.00757803,
      "balance_loss_clip": 1.04727173,
      "balance_loss_mlp": 0.99984699,
      "epoch": 0.10473155774664823,
      "flos": 18407430472320.0,
      "grad_norm": 2.044837680811656,
      "language_loss": 0.80715209,
      "learning_rate": 3.941783212084008e-06,
      "loss": 0.82622761,
      "num_input_tokens_seen": 18513530,
      "step": 871,
      "time_per_iteration": 3.3057594299316406
    },
    {
      "auxiliary_loss_clip": 0.01142885,
      "auxiliary_loss_mlp": 0.01035104,
      "balance_loss_clip": 1.04681623,
      "balance_loss_mlp": 1.02652729,
      "epoch": 0.10485180063728732,
      "flos": 25594962554880.0,
      "grad_norm": 2.8611478367668886,
      "language_loss": 0.78695977,
      "learning_rate": 3.941596486070916e-06,
      "loss": 0.80873966,
      "num_input_tokens_seen": 18531575,
      "step": 872,
      "time_per_iteration": 2.603285789489746
    },
    {
      "auxiliary_loss_clip": 0.01108941,
      "auxiliary_loss_mlp": 0.01029492,
      "balance_loss_clip": 1.04224658,
      "balance_loss_mlp": 1.02002668,
      "epoch": 0.10497204352792641,
      "flos": 27091167073920.0,
      "grad_norm": 2.9019444647578103,
      "language_loss": 0.58533347,
      "learning_rate": 3.941409465519182e-06,
      "loss": 0.60671782,
      "num_input_tokens_seen": 18552100,
      "step": 873,
      "time_per_iteration": 2.7054171562194824
    },
    {
      "auxiliary_loss_clip": 0.01159826,
      "auxiliary_loss_mlp": 0.01032653,
      "balance_loss_clip": 1.04764819,
      "balance_loss_mlp": 1.02387285,
      "epoch": 0.10509228641856551,
      "flos": 32861498100480.0,
      "grad_norm": 1.7142709198189532,
      "language_loss": 0.85344487,
      "learning_rate": 3.941222150457176e-06,
      "loss": 0.87536967,
      "num_input_tokens_seen": 18575355,
      "step": 874,
      "time_per_iteration": 2.681907892227173
    },
    {
      "auxiliary_loss_clip": 0.01159306,
      "auxiliary_loss_mlp": 0.01030878,
      "balance_loss_clip": 1.04761553,
      "balance_loss_mlp": 1.02184749,
      "epoch": 0.10521252930920459,
      "flos": 14320897044480.0,
      "grad_norm": 2.6603635553581,
      "language_loss": 0.7130329,
      "learning_rate": 3.941034540913311e-06,
      "loss": 0.73493475,
      "num_input_tokens_seen": 18592885,
      "step": 875,
      "time_per_iteration": 2.5831315517425537
    },
    {
      "auxiliary_loss_clip": 0.0115631,
      "auxiliary_loss_mlp": 0.00757986,
      "balance_loss_clip": 1.04800844,
      "balance_loss_mlp": 0.99984807,
      "epoch": 0.10533277219984369,
      "flos": 21689045280000.0,
      "grad_norm": 1.6122353403288452,
      "language_loss": 0.82544565,
      "learning_rate": 3.940846636916051e-06,
      "loss": 0.84458864,
      "num_input_tokens_seen": 18612920,
      "step": 876,
      "time_per_iteration": 2.5698561668395996
    },
    {
      "auxiliary_loss_clip": 0.01141691,
      "auxiliary_loss_mlp": 0.01032995,
      "balance_loss_clip": 1.04808331,
      "balance_loss_mlp": 1.02417922,
      "epoch": 0.10545301509048277,
      "flos": 22271779480320.0,
      "grad_norm": 2.1639973275891844,
      "language_loss": 0.86347413,
      "learning_rate": 3.940658438493899e-06,
      "loss": 0.88522094,
      "num_input_tokens_seen": 18630765,
      "step": 877,
      "time_per_iteration": 2.646912097930908
    },
    {
      "auxiliary_loss_clip": 0.01170383,
      "auxiliary_loss_mlp": 0.01033147,
      "balance_loss_clip": 1.04640055,
      "balance_loss_mlp": 1.02428412,
      "epoch": 0.10557325798112187,
      "flos": 22201876356480.0,
      "grad_norm": 2.37157373569017,
      "language_loss": 0.75893116,
      "learning_rate": 3.940469945675405e-06,
      "loss": 0.78096646,
      "num_input_tokens_seen": 18649150,
      "step": 878,
      "time_per_iteration": 2.6132447719573975
    },
    {
      "auxiliary_loss_clip": 0.01112727,
      "auxiliary_loss_mlp": 0.01036415,
      "balance_loss_clip": 1.04319811,
      "balance_loss_mlp": 1.02804601,
      "epoch": 0.10569350087176095,
      "flos": 25778270891520.0,
      "grad_norm": 1.953231071104511,
      "language_loss": 0.9167133,
      "learning_rate": 3.940281158489163e-06,
      "loss": 0.93820477,
      "num_input_tokens_seen": 18668380,
      "step": 879,
      "time_per_iteration": 2.6915719509124756
    },
    {
      "auxiliary_loss_clip": 0.01090842,
      "auxiliary_loss_mlp": 0.01031084,
      "balance_loss_clip": 1.03921378,
      "balance_loss_mlp": 1.02247453,
      "epoch": 0.10581374376240005,
      "flos": 17313306082560.0,
      "grad_norm": 1.8977609159312123,
      "language_loss": 0.82732153,
      "learning_rate": 3.940092076963812e-06,
      "loss": 0.84854078,
      "num_input_tokens_seen": 18685875,
      "step": 880,
      "time_per_iteration": 2.6950607299804688
    },
    {
      "auxiliary_loss_clip": 0.01144899,
      "auxiliary_loss_mlp": 0.01033122,
      "balance_loss_clip": 1.04759943,
      "balance_loss_mlp": 1.02377009,
      "epoch": 0.10593398665303914,
      "flos": 34352280334080.0,
      "grad_norm": 2.235070889362527,
      "language_loss": 0.79134536,
      "learning_rate": 3.9399027011280355e-06,
      "loss": 0.81312555,
      "num_input_tokens_seen": 18707970,
      "step": 881,
      "time_per_iteration": 2.712075710296631
    },
    {
      "auxiliary_loss_clip": 0.0113492,
      "auxiliary_loss_mlp": 0.01033101,
      "balance_loss_clip": 1.04344487,
      "balance_loss_mlp": 1.02363539,
      "epoch": 0.10605422954367823,
      "flos": 23260196027520.0,
      "grad_norm": 2.6092614989781904,
      "language_loss": 0.7706399,
      "learning_rate": 3.939713031010561e-06,
      "loss": 0.79232013,
      "num_input_tokens_seen": 18726335,
      "step": 882,
      "time_per_iteration": 2.639387369155884
    },
    {
      "auxiliary_loss_clip": 0.01116162,
      "auxiliary_loss_mlp": 0.01031552,
      "balance_loss_clip": 1.0401926,
      "balance_loss_mlp": 1.02177072,
      "epoch": 0.10617447243431732,
      "flos": 22822311179520.0,
      "grad_norm": 2.201024690557878,
      "language_loss": 0.77760118,
      "learning_rate": 3.939523066640163e-06,
      "loss": 0.79907835,
      "num_input_tokens_seen": 18745230,
      "step": 883,
      "time_per_iteration": 2.6220831871032715
    },
    {
      "auxiliary_loss_clip": 0.01161471,
      "auxiliary_loss_mlp": 0.01031428,
      "balance_loss_clip": 1.0482018,
      "balance_loss_mlp": 1.02239799,
      "epoch": 0.10629471532495641,
      "flos": 24388722167040.0,
      "grad_norm": 1.7318501028966629,
      "language_loss": 0.81166601,
      "learning_rate": 3.939332808045657e-06,
      "loss": 0.83359504,
      "num_input_tokens_seen": 18764880,
      "step": 884,
      "time_per_iteration": 2.5948030948638916
    },
    {
      "auxiliary_loss_clip": 0.01124616,
      "auxiliary_loss_mlp": 0.01031406,
      "balance_loss_clip": 1.04277253,
      "balance_loss_mlp": 1.02291203,
      "epoch": 0.1064149582155955,
      "flos": 21107600294400.0,
      "grad_norm": 1.6703958617103936,
      "language_loss": 0.84811366,
      "learning_rate": 3.939142255255906e-06,
      "loss": 0.86967391,
      "num_input_tokens_seen": 18785765,
      "step": 885,
      "time_per_iteration": 2.658562421798706
    },
    {
      "auxiliary_loss_clip": 0.01155478,
      "auxiliary_loss_mlp": 0.01027551,
      "balance_loss_clip": 1.04645419,
      "balance_loss_mlp": 1.01838946,
      "epoch": 0.1065352011062346,
      "flos": 20704003441920.0,
      "grad_norm": 1.9988108446211,
      "language_loss": 0.86837548,
      "learning_rate": 3.938951408299817e-06,
      "loss": 0.89020574,
      "num_input_tokens_seen": 18804605,
      "step": 886,
      "time_per_iteration": 2.6046955585479736
    },
    {
      "auxiliary_loss_clip": 0.01069073,
      "auxiliary_loss_mlp": 0.01003139,
      "balance_loss_clip": 1.03348696,
      "balance_loss_mlp": 1.00013494,
      "epoch": 0.10665544399687368,
      "flos": 62665916734080.0,
      "grad_norm": 0.7997001219154738,
      "language_loss": 0.54387605,
      "learning_rate": 3.938760267206342e-06,
      "loss": 0.5645982,
      "num_input_tokens_seen": 18866425,
      "step": 887,
      "time_per_iteration": 3.1235008239746094
    },
    {
      "auxiliary_loss_clip": 0.0117142,
      "auxiliary_loss_mlp": 0.01028977,
      "balance_loss_clip": 1.04961109,
      "balance_loss_mlp": 1.02032828,
      "epoch": 0.10677568688751278,
      "flos": 26142764152320.0,
      "grad_norm": 9.265480085467527,
      "language_loss": 0.78602457,
      "learning_rate": 3.938568832004475e-06,
      "loss": 0.80802858,
      "num_input_tokens_seen": 18885130,
      "step": 888,
      "time_per_iteration": 2.5984811782836914
    },
    {
      "auxiliary_loss_clip": 0.0114179,
      "auxiliary_loss_mlp": 0.01038068,
      "balance_loss_clip": 1.0434562,
      "balance_loss_mlp": 1.02880502,
      "epoch": 0.10689592977815186,
      "flos": 12788167363200.0,
      "grad_norm": 2.180527505404509,
      "language_loss": 0.75155711,
      "learning_rate": 3.938377102723257e-06,
      "loss": 0.77335572,
      "num_input_tokens_seen": 18902265,
      "step": 889,
      "time_per_iteration": 2.56563663482666
    },
    {
      "auxiliary_loss_clip": 0.01117007,
      "auxiliary_loss_mlp": 0.01039669,
      "balance_loss_clip": 1.04407406,
      "balance_loss_mlp": 1.02958965,
      "epoch": 0.10701617266879096,
      "flos": 22128826032000.0,
      "grad_norm": 2.1201281783214854,
      "language_loss": 0.8332113,
      "learning_rate": 3.938185079391774e-06,
      "loss": 0.85477805,
      "num_input_tokens_seen": 18919310,
      "step": 890,
      "time_per_iteration": 2.706012010574341
    },
    {
      "auxiliary_loss_clip": 0.01170483,
      "auxiliary_loss_mlp": 0.0102726,
      "balance_loss_clip": 1.04783213,
      "balance_loss_mlp": 1.01817083,
      "epoch": 0.10713641555943004,
      "flos": 19747106870400.0,
      "grad_norm": 2.8180143177924712,
      "language_loss": 1.05796909,
      "learning_rate": 3.937992762039157e-06,
      "loss": 1.07994652,
      "num_input_tokens_seen": 18932635,
      "step": 891,
      "time_per_iteration": 2.4910717010498047
    },
    {
      "auxiliary_loss_clip": 0.0115287,
      "auxiliary_loss_mlp": 0.01036077,
      "balance_loss_clip": 1.04551363,
      "balance_loss_mlp": 1.02722526,
      "epoch": 0.10725665845006914,
      "flos": 23955349570560.0,
      "grad_norm": 1.7043467761536844,
      "language_loss": 0.80154788,
      "learning_rate": 3.937800150694577e-06,
      "loss": 0.82343733,
      "num_input_tokens_seen": 18953810,
      "step": 892,
      "time_per_iteration": 2.6394360065460205
    },
    {
      "auxiliary_loss_clip": 0.01105995,
      "auxiliary_loss_mlp": 0.01029478,
      "balance_loss_clip": 1.04172206,
      "balance_loss_mlp": 1.01975608,
      "epoch": 0.10737690134070824,
      "flos": 18553682793600.0,
      "grad_norm": 2.3035283985460966,
      "language_loss": 0.7589947,
      "learning_rate": 3.937607245387255e-06,
      "loss": 0.78034937,
      "num_input_tokens_seen": 18973175,
      "step": 893,
      "time_per_iteration": 2.690553665161133
    },
    {
      "auxiliary_loss_clip": 0.01142464,
      "auxiliary_loss_mlp": 0.01034237,
      "balance_loss_clip": 1.04685569,
      "balance_loss_mlp": 1.02604163,
      "epoch": 0.10749714423134732,
      "flos": 22709626410240.0,
      "grad_norm": 2.092538948202594,
      "language_loss": 0.72012866,
      "learning_rate": 3.937414046146455e-06,
      "loss": 0.74189568,
      "num_input_tokens_seen": 18991130,
      "step": 894,
      "time_per_iteration": 3.295642852783203
    },
    {
      "auxiliary_loss_clip": 0.01170342,
      "auxiliary_loss_mlp": 0.01036361,
      "balance_loss_clip": 1.04889345,
      "balance_loss_mlp": 1.02649617,
      "epoch": 0.10761738712198642,
      "flos": 21108206983680.0,
      "grad_norm": 2.441731682136512,
      "language_loss": 0.75560236,
      "learning_rate": 3.9372205530014845e-06,
      "loss": 0.77766943,
      "num_input_tokens_seen": 19009610,
      "step": 895,
      "time_per_iteration": 2.5955967903137207
    },
    {
      "auxiliary_loss_clip": 0.01168621,
      "auxiliary_loss_mlp": 0.01039342,
      "balance_loss_clip": 1.04581237,
      "balance_loss_mlp": 1.03068137,
      "epoch": 0.1077376300126255,
      "flos": 23768856115200.0,
      "grad_norm": 2.357230894929273,
      "language_loss": 0.71786928,
      "learning_rate": 3.937026765981696e-06,
      "loss": 0.73994887,
      "num_input_tokens_seen": 19029680,
      "step": 896,
      "time_per_iteration": 4.74796199798584
    },
    {
      "auxiliary_loss_clip": 0.01126901,
      "auxiliary_loss_mlp": 0.01035511,
      "balance_loss_clip": 1.04512787,
      "balance_loss_mlp": 1.0263679,
      "epoch": 0.1078578729032646,
      "flos": 20921486019840.0,
      "grad_norm": 2.1038632089221716,
      "language_loss": 0.79531634,
      "learning_rate": 3.936832685116488e-06,
      "loss": 0.81694043,
      "num_input_tokens_seen": 19047775,
      "step": 897,
      "time_per_iteration": 2.6065731048583984
    },
    {
      "auxiliary_loss_clip": 0.01168815,
      "auxiliary_loss_mlp": 0.01033655,
      "balance_loss_clip": 1.04727721,
      "balance_loss_mlp": 1.02440476,
      "epoch": 0.10797811579390369,
      "flos": 14831642626560.0,
      "grad_norm": 2.225345919443582,
      "language_loss": 0.89935112,
      "learning_rate": 3.936638310435301e-06,
      "loss": 0.92137587,
      "num_input_tokens_seen": 19065640,
      "step": 898,
      "time_per_iteration": 2.569913148880005
    },
    {
      "auxiliary_loss_clip": 0.01156641,
      "auxiliary_loss_mlp": 0.01030058,
      "balance_loss_clip": 1.0482527,
      "balance_loss_mlp": 1.02046752,
      "epoch": 0.10809835868454278,
      "flos": 19539027976320.0,
      "grad_norm": 1.9156392433705953,
      "language_loss": 0.8154788,
      "learning_rate": 3.936443641967623e-06,
      "loss": 0.83734572,
      "num_input_tokens_seen": 19084470,
      "step": 899,
      "time_per_iteration": 2.5650269985198975
    },
    {
      "auxiliary_loss_clip": 0.01139698,
      "auxiliary_loss_mlp": 0.01033219,
      "balance_loss_clip": 1.04555094,
      "balance_loss_mlp": 1.02412295,
      "epoch": 0.10821860157518187,
      "flos": 18444296897280.0,
      "grad_norm": 1.879526730982998,
      "language_loss": 0.83074456,
      "learning_rate": 3.936248679742983e-06,
      "loss": 0.85247374,
      "num_input_tokens_seen": 19102965,
      "step": 900,
      "time_per_iteration": 2.636967420578003
    },
    {
      "auxiliary_loss_clip": 0.01081635,
      "auxiliary_loss_mlp": 0.01005259,
      "balance_loss_clip": 1.03308511,
      "balance_loss_mlp": 1.00218296,
      "epoch": 0.10833884446582095,
      "flos": 49363932424320.0,
      "grad_norm": 1.0551650776955876,
      "language_loss": 0.70213443,
      "learning_rate": 3.936053423790959e-06,
      "loss": 0.72300333,
      "num_input_tokens_seen": 19151285,
      "step": 901,
      "time_per_iteration": 2.9990272521972656
    },
    {
      "auxiliary_loss_clip": 0.01171388,
      "auxiliary_loss_mlp": 0.01036033,
      "balance_loss_clip": 1.04933,
      "balance_loss_mlp": 1.02760518,
      "epoch": 0.10845908735646005,
      "flos": 20413963474560.0,
      "grad_norm": 1.7654129752983847,
      "language_loss": 0.77564049,
      "learning_rate": 3.935857874141168e-06,
      "loss": 0.79771477,
      "num_input_tokens_seen": 19170120,
      "step": 902,
      "time_per_iteration": 2.5637733936309814
    },
    {
      "auxiliary_loss_clip": 0.01123936,
      "auxiliary_loss_mlp": 0.01028179,
      "balance_loss_clip": 1.03739023,
      "balance_loss_mlp": 1.01861799,
      "epoch": 0.10857933024709913,
      "flos": 14029492026240.0,
      "grad_norm": 2.200351073658478,
      "language_loss": 0.83654886,
      "learning_rate": 3.935662030823279e-06,
      "loss": 0.85807002,
      "num_input_tokens_seen": 19186305,
      "step": 903,
      "time_per_iteration": 2.551236867904663
    },
    {
      "auxiliary_loss_clip": 0.01152836,
      "auxiliary_loss_mlp": 0.01035584,
      "balance_loss_clip": 1.04558897,
      "balance_loss_mlp": 1.02647674,
      "epoch": 0.10869957313773823,
      "flos": 13370598218880.0,
      "grad_norm": 2.303773491680938,
      "language_loss": 0.72072738,
      "learning_rate": 3.935465893866998e-06,
      "loss": 0.74261153,
      "num_input_tokens_seen": 19204530,
      "step": 904,
      "time_per_iteration": 2.566511869430542
    },
    {
      "auxiliary_loss_clip": 0.01139832,
      "auxiliary_loss_mlp": 0.01029122,
      "balance_loss_clip": 1.04484427,
      "balance_loss_mlp": 1.01994312,
      "epoch": 0.10881981602837733,
      "flos": 25809184177920.0,
      "grad_norm": 11.289848486783967,
      "language_loss": 0.80156827,
      "learning_rate": 3.935269463302079e-06,
      "loss": 0.8232578,
      "num_input_tokens_seen": 19222735,
      "step": 905,
      "time_per_iteration": 2.605259895324707
    },
    {
      "auxiliary_loss_clip": 0.01155684,
      "auxiliary_loss_mlp": 0.01036557,
      "balance_loss_clip": 1.04751611,
      "balance_loss_mlp": 1.02675807,
      "epoch": 0.10894005891901641,
      "flos": 20779670113920.0,
      "grad_norm": 1.7673891969592852,
      "language_loss": 0.76666105,
      "learning_rate": 3.935072739158322e-06,
      "loss": 0.7885834,
      "num_input_tokens_seen": 19242445,
      "step": 906,
      "time_per_iteration": 2.5938990116119385
    },
    {
      "auxiliary_loss_clip": 0.01141378,
      "auxiliary_loss_mlp": 0.01034606,
      "balance_loss_clip": 1.04624414,
      "balance_loss_mlp": 1.02530813,
      "epoch": 0.10906030180965551,
      "flos": 26652220519680.0,
      "grad_norm": 2.176039222603112,
      "language_loss": 0.79834205,
      "learning_rate": 3.934875721465569e-06,
      "loss": 0.82010192,
      "num_input_tokens_seen": 19262865,
      "step": 907,
      "time_per_iteration": 2.630906343460083
    },
    {
      "auxiliary_loss_clip": 0.01134002,
      "auxiliary_loss_mlp": 0.01028569,
      "balance_loss_clip": 1.04168415,
      "balance_loss_mlp": 1.01838303,
      "epoch": 0.10918054470029459,
      "flos": 36537116486400.0,
      "grad_norm": 2.5986524575796692,
      "language_loss": 0.7149384,
      "learning_rate": 3.9346784102537076e-06,
      "loss": 0.73656416,
      "num_input_tokens_seen": 19285000,
      "step": 908,
      "time_per_iteration": 2.7530665397644043
    },
    {
      "auxiliary_loss_clip": 0.01168203,
      "auxiliary_loss_mlp": 0.0102535,
      "balance_loss_clip": 1.04693365,
      "balance_loss_mlp": 1.01664782,
      "epoch": 0.10930078759093369,
      "flos": 21764711952000.0,
      "grad_norm": 1.9633689024112306,
      "language_loss": 0.78502083,
      "learning_rate": 3.934480805552669e-06,
      "loss": 0.80695629,
      "num_input_tokens_seen": 19306010,
      "step": 909,
      "time_per_iteration": 2.5167882442474365
    },
    {
      "auxiliary_loss_clip": 0.01167224,
      "auxiliary_loss_mlp": 0.00758047,
      "balance_loss_clip": 1.04711103,
      "balance_loss_mlp": 0.99989462,
      "epoch": 0.10942103048157277,
      "flos": 22603994403840.0,
      "grad_norm": 2.34478269873384,
      "language_loss": 0.88363481,
      "learning_rate": 3.93428290739243e-06,
      "loss": 0.90288746,
      "num_input_tokens_seen": 19325380,
      "step": 910,
      "time_per_iteration": 2.558093309402466
    },
    {
      "auxiliary_loss_clip": 0.01137678,
      "auxiliary_loss_mlp": 0.01034685,
      "balance_loss_clip": 1.04417372,
      "balance_loss_mlp": 1.02523768,
      "epoch": 0.10954127337221187,
      "flos": 15047380972800.0,
      "grad_norm": 2.431547987511746,
      "language_loss": 0.80270922,
      "learning_rate": 3.9340847158030125e-06,
      "loss": 0.82443285,
      "num_input_tokens_seen": 19338960,
      "step": 911,
      "time_per_iteration": 2.545450448989868
    },
    {
      "auxiliary_loss_clip": 0.01152844,
      "auxiliary_loss_mlp": 0.01033869,
      "balance_loss_clip": 1.04501677,
      "balance_loss_mlp": 1.02531576,
      "epoch": 0.10966151626285096,
      "flos": 21653013052800.0,
      "grad_norm": 2.061353599294403,
      "language_loss": 0.75612164,
      "learning_rate": 3.9338862308144814e-06,
      "loss": 0.77798879,
      "num_input_tokens_seen": 19357780,
      "step": 912,
      "time_per_iteration": 2.5662903785705566
    },
    {
      "auxiliary_loss_clip": 0.01168543,
      "auxiliary_loss_mlp": 0.01030288,
      "balance_loss_clip": 1.04781711,
      "balance_loss_mlp": 1.02150178,
      "epoch": 0.10978175915349005,
      "flos": 20123468490240.0,
      "grad_norm": 1.7009851536594063,
      "language_loss": 0.84583807,
      "learning_rate": 3.933687452456946e-06,
      "loss": 0.8678264,
      "num_input_tokens_seen": 19377680,
      "step": 913,
      "time_per_iteration": 2.547311782836914
    },
    {
      "auxiliary_loss_clip": 0.01109321,
      "auxiliary_loss_mlp": 0.01030717,
      "balance_loss_clip": 1.03716326,
      "balance_loss_mlp": 1.02081084,
      "epoch": 0.10990200204412914,
      "flos": 20414759754240.0,
      "grad_norm": 2.887272191571276,
      "language_loss": 0.86461598,
      "learning_rate": 3.933488380760562e-06,
      "loss": 0.88601637,
      "num_input_tokens_seen": 19397040,
      "step": 914,
      "time_per_iteration": 2.6624257564544678
    },
    {
      "auxiliary_loss_clip": 0.01169045,
      "auxiliary_loss_mlp": 0.00758236,
      "balance_loss_clip": 1.0475179,
      "balance_loss_mlp": 0.99993354,
      "epoch": 0.11002224493476823,
      "flos": 17532039957120.0,
      "grad_norm": 2.2251188075336046,
      "language_loss": 0.8738637,
      "learning_rate": 3.9332890157555286e-06,
      "loss": 0.8931365,
      "num_input_tokens_seen": 19413975,
      "step": 915,
      "time_per_iteration": 2.524576187133789
    },
    {
      "auxiliary_loss_clip": 0.01141107,
      "auxiliary_loss_mlp": 0.01034562,
      "balance_loss_clip": 1.04579258,
      "balance_loss_mlp": 1.0251503,
      "epoch": 0.11014248782540732,
      "flos": 12204712719360.0,
      "grad_norm": 3.6799477278821118,
      "language_loss": 0.76321173,
      "learning_rate": 3.933089357472088e-06,
      "loss": 0.7849685,
      "num_input_tokens_seen": 19432005,
      "step": 916,
      "time_per_iteration": 2.520754337310791
    },
    {
      "auxiliary_loss_clip": 0.01168062,
      "auxiliary_loss_mlp": 0.01030745,
      "balance_loss_clip": 1.04805517,
      "balance_loss_mlp": 1.02174473,
      "epoch": 0.11026273071604642,
      "flos": 22385184693120.0,
      "grad_norm": 1.9817526541435804,
      "language_loss": 0.85934973,
      "learning_rate": 3.932889405940529e-06,
      "loss": 0.88133776,
      "num_input_tokens_seen": 19450100,
      "step": 917,
      "time_per_iteration": 2.5632214546203613
    },
    {
      "auxiliary_loss_clip": 0.01137946,
      "auxiliary_loss_mlp": 0.01032983,
      "balance_loss_clip": 1.04556763,
      "balance_loss_mlp": 1.02412581,
      "epoch": 0.1103829736066855,
      "flos": 19831115520000.0,
      "grad_norm": 2.297756795490691,
      "language_loss": 0.79859936,
      "learning_rate": 3.932689161191184e-06,
      "loss": 0.82030857,
      "num_input_tokens_seen": 19467805,
      "step": 918,
      "time_per_iteration": 2.5432820320129395
    },
    {
      "auxiliary_loss_clip": 0.01153091,
      "auxiliary_loss_mlp": 0.01031017,
      "balance_loss_clip": 1.04502821,
      "balance_loss_mlp": 1.02134335,
      "epoch": 0.1105032164973246,
      "flos": 22671546606720.0,
      "grad_norm": 2.121870292364029,
      "language_loss": 0.88041729,
      "learning_rate": 3.93248862325443e-06,
      "loss": 0.90225834,
      "num_input_tokens_seen": 19486710,
      "step": 919,
      "time_per_iteration": 3.362356662750244
    },
    {
      "auxiliary_loss_clip": 0.01127016,
      "auxiliary_loss_mlp": 0.01003418,
      "balance_loss_clip": 1.04608083,
      "balance_loss_mlp": 1.0002234,
      "epoch": 0.11062345938796368,
      "flos": 66489607509120.0,
      "grad_norm": 0.9304432349915241,
      "language_loss": 0.64429063,
      "learning_rate": 3.932287792160688e-06,
      "loss": 0.665595,
      "num_input_tokens_seen": 19545170,
      "step": 920,
      "time_per_iteration": 3.060556650161743
    },
    {
      "auxiliary_loss_clip": 0.01155659,
      "auxiliary_loss_mlp": 0.01033202,
      "balance_loss_clip": 1.04769444,
      "balance_loss_mlp": 1.02300406,
      "epoch": 0.11074370227860278,
      "flos": 21909902567040.0,
      "grad_norm": 3.0848970111603857,
      "language_loss": 0.80642045,
      "learning_rate": 3.932086667940424e-06,
      "loss": 0.82830906,
      "num_input_tokens_seen": 19561875,
      "step": 921,
      "time_per_iteration": 3.3596863746643066
    },
    {
      "auxiliary_loss_clip": 0.01151448,
      "auxiliary_loss_mlp": 0.00758042,
      "balance_loss_clip": 1.0458715,
      "balance_loss_mlp": 0.99988186,
      "epoch": 0.11086394516924186,
      "flos": 28660649425920.0,
      "grad_norm": 1.8831748336317762,
      "language_loss": 0.8162967,
      "learning_rate": 3.93188525062415e-06,
      "loss": 0.83539158,
      "num_input_tokens_seen": 19582340,
      "step": 922,
      "time_per_iteration": 3.4814374446868896
    },
    {
      "auxiliary_loss_clip": 0.01152216,
      "auxiliary_loss_mlp": 0.01039317,
      "balance_loss_clip": 1.04659486,
      "balance_loss_mlp": 1.02993488,
      "epoch": 0.11098418805988096,
      "flos": 24537552917760.0,
      "grad_norm": 2.4036871130676345,
      "language_loss": 0.86185771,
      "learning_rate": 3.931683540242418e-06,
      "loss": 0.88377309,
      "num_input_tokens_seen": 19603405,
      "step": 923,
      "time_per_iteration": 2.5724642276763916
    },
    {
      "auxiliary_loss_clip": 0.0115522,
      "auxiliary_loss_mlp": 0.01030951,
      "balance_loss_clip": 1.04726362,
      "balance_loss_mlp": 1.02139592,
      "epoch": 0.11110443095052006,
      "flos": 22962269099520.0,
      "grad_norm": 2.708042259578315,
      "language_loss": 0.91513658,
      "learning_rate": 3.9314815368258295e-06,
      "loss": 0.93699825,
      "num_input_tokens_seen": 19619885,
      "step": 924,
      "time_per_iteration": 2.5974526405334473
    },
    {
      "auxiliary_loss_clip": 0.01156355,
      "auxiliary_loss_mlp": 0.01030515,
      "balance_loss_clip": 1.05084991,
      "balance_loss_mlp": 1.02161646,
      "epoch": 0.11122467384115914,
      "flos": 18951857360640.0,
      "grad_norm": 1.8132349324954384,
      "language_loss": 0.78803694,
      "learning_rate": 3.9312792404050275e-06,
      "loss": 0.80990571,
      "num_input_tokens_seen": 19637940,
      "step": 925,
      "time_per_iteration": 2.5184855461120605
    },
    {
      "auxiliary_loss_clip": 0.01166527,
      "auxiliary_loss_mlp": 0.01033294,
      "balance_loss_clip": 1.04751241,
      "balance_loss_mlp": 1.02552772,
      "epoch": 0.11134491673179824,
      "flos": 25085316597120.0,
      "grad_norm": 1.877349211424468,
      "language_loss": 0.77161378,
      "learning_rate": 3.9310766510107e-06,
      "loss": 0.793612,
      "num_input_tokens_seen": 19657115,
      "step": 926,
      "time_per_iteration": 2.626889705657959
    },
    {
      "auxiliary_loss_clip": 0.01117897,
      "auxiliary_loss_mlp": 0.0103323,
      "balance_loss_clip": 1.04109538,
      "balance_loss_mlp": 1.02299547,
      "epoch": 0.11146515962243732,
      "flos": 24501444854400.0,
      "grad_norm": 3.375572515098719,
      "language_loss": 0.92120302,
      "learning_rate": 3.9308737686735806e-06,
      "loss": 0.94271427,
      "num_input_tokens_seen": 19677075,
      "step": 927,
      "time_per_iteration": 2.614225387573242
    },
    {
      "auxiliary_loss_clip": 0.01169404,
      "auxiliary_loss_mlp": 0.01035215,
      "balance_loss_clip": 1.04983878,
      "balance_loss_mlp": 1.02638769,
      "epoch": 0.11158540251307641,
      "flos": 22345815674880.0,
      "grad_norm": 2.1047601285727224,
      "language_loss": 0.8288886,
      "learning_rate": 3.9306705934244455e-06,
      "loss": 0.85093474,
      "num_input_tokens_seen": 19697155,
      "step": 928,
      "time_per_iteration": 2.569241523742676
    },
    {
      "auxiliary_loss_clip": 0.01140172,
      "auxiliary_loss_mlp": 0.01026562,
      "balance_loss_clip": 1.04494071,
      "balance_loss_mlp": 1.01811647,
      "epoch": 0.11170564540371551,
      "flos": 19904393352960.0,
      "grad_norm": 38.30418534360458,
      "language_loss": 0.87929749,
      "learning_rate": 3.930467125294116e-06,
      "loss": 0.9009648,
      "num_input_tokens_seen": 19716705,
      "step": 929,
      "time_per_iteration": 2.601008892059326
    },
    {
      "auxiliary_loss_clip": 0.01063923,
      "auxiliary_loss_mlp": 0.01005417,
      "balance_loss_clip": 1.0369606,
      "balance_loss_mlp": 1.00229347,
      "epoch": 0.1118258882943546,
      "flos": 64592232894720.0,
      "grad_norm": 0.9213751339409834,
      "language_loss": 0.60476404,
      "learning_rate": 3.930263364313458e-06,
      "loss": 0.62545747,
      "num_input_tokens_seen": 19767275,
      "step": 930,
      "time_per_iteration": 3.0926425457000732
    },
    {
      "auxiliary_loss_clip": 0.01129698,
      "auxiliary_loss_mlp": 0.01037368,
      "balance_loss_clip": 1.04696929,
      "balance_loss_mlp": 1.02755713,
      "epoch": 0.11194613118499369,
      "flos": 17203882268160.0,
      "grad_norm": 2.3941853534905024,
      "language_loss": 0.83006608,
      "learning_rate": 3.930059310513384e-06,
      "loss": 0.85173672,
      "num_input_tokens_seen": 19786315,
      "step": 931,
      "time_per_iteration": 2.631577730178833
    },
    {
      "auxiliary_loss_clip": 0.01128025,
      "auxiliary_loss_mlp": 0.00757896,
      "balance_loss_clip": 1.04594672,
      "balance_loss_mlp": 0.9998976,
      "epoch": 0.11206637407563277,
      "flos": 31865877118080.0,
      "grad_norm": 2.0809986712894157,
      "language_loss": 0.84241992,
      "learning_rate": 3.929854963924846e-06,
      "loss": 0.86127913,
      "num_input_tokens_seen": 19806580,
      "step": 932,
      "time_per_iteration": 2.7353529930114746
    },
    {
      "auxiliary_loss_clip": 0.011226,
      "auxiliary_loss_mlp": 0.01029789,
      "balance_loss_clip": 1.04260719,
      "balance_loss_mlp": 1.02153945,
      "epoch": 0.11218661696627187,
      "flos": 21947830698240.0,
      "grad_norm": 1.7866230561238108,
      "language_loss": 0.7747103,
      "learning_rate": 3.929650324578845e-06,
      "loss": 0.79623419,
      "num_input_tokens_seen": 19826045,
      "step": 933,
      "time_per_iteration": 2.6453661918640137
    },
    {
      "auxiliary_loss_clip": 0.01137216,
      "auxiliary_loss_mlp": 0.01031408,
      "balance_loss_clip": 1.04387438,
      "balance_loss_mlp": 1.02139449,
      "epoch": 0.11230685985691095,
      "flos": 25880186926080.0,
      "grad_norm": 2.4960745585299775,
      "language_loss": 0.82076108,
      "learning_rate": 3.929445392506423e-06,
      "loss": 0.84244734,
      "num_input_tokens_seen": 19843985,
      "step": 934,
      "time_per_iteration": 2.6175789833068848
    },
    {
      "auxiliary_loss_clip": 0.01152153,
      "auxiliary_loss_mlp": 0.0103614,
      "balance_loss_clip": 1.04716802,
      "balance_loss_mlp": 1.0275625,
      "epoch": 0.11242710274755005,
      "flos": 22233396332160.0,
      "grad_norm": 1.9258668523094666,
      "language_loss": 0.75744188,
      "learning_rate": 3.92924016773867e-06,
      "loss": 0.77932477,
      "num_input_tokens_seen": 19860480,
      "step": 935,
      "time_per_iteration": 2.5582363605499268
    },
    {
      "auxiliary_loss_clip": 0.01140454,
      "auxiliary_loss_mlp": 0.0075771,
      "balance_loss_clip": 1.04584551,
      "balance_loss_mlp": 0.99996114,
      "epoch": 0.11254734563818915,
      "flos": 17714096997120.0,
      "grad_norm": 2.4267929910434787,
      "language_loss": 0.73626912,
      "learning_rate": 3.9290346503067175e-06,
      "loss": 0.75525075,
      "num_input_tokens_seen": 19877145,
      "step": 936,
      "time_per_iteration": 2.5990259647369385
    },
    {
      "auxiliary_loss_clip": 0.01150356,
      "auxiliary_loss_mlp": 0.01031813,
      "balance_loss_clip": 1.046,
      "balance_loss_mlp": 1.02262807,
      "epoch": 0.11266758852882823,
      "flos": 54934536585600.0,
      "grad_norm": 1.700045233969951,
      "language_loss": 0.79075378,
      "learning_rate": 3.9288288402417415e-06,
      "loss": 0.81257546,
      "num_input_tokens_seen": 19903405,
      "step": 937,
      "time_per_iteration": 2.904775857925415
    },
    {
      "auxiliary_loss_clip": 0.01152124,
      "auxiliary_loss_mlp": 0.01035969,
      "balance_loss_clip": 1.04690289,
      "balance_loss_mlp": 1.02632535,
      "epoch": 0.11278783141946733,
      "flos": 18880020414720.0,
      "grad_norm": 4.7916892268140225,
      "language_loss": 0.70778251,
      "learning_rate": 3.928622737574964e-06,
      "loss": 0.72966337,
      "num_input_tokens_seen": 19918740,
      "step": 938,
      "time_per_iteration": 2.5564024448394775
    },
    {
      "auxiliary_loss_clip": 0.01138434,
      "auxiliary_loss_mlp": 0.0103264,
      "balance_loss_clip": 1.04481745,
      "balance_loss_mlp": 1.02363944,
      "epoch": 0.11290807431010641,
      "flos": 26471680202880.0,
      "grad_norm": 1.9057635165228315,
      "language_loss": 0.91085112,
      "learning_rate": 3.928416342337652e-06,
      "loss": 0.93256187,
      "num_input_tokens_seen": 19938475,
      "step": 939,
      "time_per_iteration": 2.7258522510528564
    },
    {
      "auxiliary_loss_clip": 0.01141328,
      "auxiliary_loss_mlp": 0.01033973,
      "balance_loss_clip": 1.04519248,
      "balance_loss_mlp": 1.02528238,
      "epoch": 0.1130283172007455,
      "flos": 22712773610880.0,
      "grad_norm": 2.0571945038389643,
      "language_loss": 0.82588387,
      "learning_rate": 3.928209654561113e-06,
      "loss": 0.84763688,
      "num_input_tokens_seen": 19959310,
      "step": 940,
      "time_per_iteration": 2.586416006088257
    },
    {
      "auxiliary_loss_clip": 0.01130762,
      "auxiliary_loss_mlp": 0.0102929,
      "balance_loss_clip": 1.04271817,
      "balance_loss_mlp": 1.02067661,
      "epoch": 0.1131485600913846,
      "flos": 23222040387840.0,
      "grad_norm": 2.0424250560937445,
      "language_loss": 0.81695396,
      "learning_rate": 3.928002674276703e-06,
      "loss": 0.83855444,
      "num_input_tokens_seen": 19978700,
      "step": 941,
      "time_per_iteration": 2.6167173385620117
    },
    {
      "auxiliary_loss_clip": 0.01112809,
      "auxiliary_loss_mlp": 0.0103266,
      "balance_loss_clip": 1.04237556,
      "balance_loss_mlp": 1.02320051,
      "epoch": 0.11326880298202369,
      "flos": 14066017188480.0,
      "grad_norm": 2.392645769921749,
      "language_loss": 0.75725442,
      "learning_rate": 3.92779540151582e-06,
      "loss": 0.77870905,
      "num_input_tokens_seen": 19995785,
      "step": 942,
      "time_per_iteration": 2.608943223953247
    },
    {
      "auxiliary_loss_clip": 0.01131546,
      "auxiliary_loss_mlp": 0.01025482,
      "balance_loss_clip": 1.04294324,
      "balance_loss_mlp": 1.01696455,
      "epoch": 0.11338904587266278,
      "flos": 16327202538240.0,
      "grad_norm": 1.874881799062413,
      "language_loss": 0.8552407,
      "learning_rate": 3.927587836309907e-06,
      "loss": 0.87681097,
      "num_input_tokens_seen": 20013615,
      "step": 943,
      "time_per_iteration": 2.573026418685913
    },
    {
      "auxiliary_loss_clip": 0.01138305,
      "auxiliary_loss_mlp": 0.01033258,
      "balance_loss_clip": 1.04505134,
      "balance_loss_mlp": 1.02429366,
      "epoch": 0.11350928876330187,
      "flos": 24428584120320.0,
      "grad_norm": 2.031895304317173,
      "language_loss": 0.78058201,
      "learning_rate": 3.927379978690452e-06,
      "loss": 0.80229765,
      "num_input_tokens_seen": 20032880,
      "step": 944,
      "time_per_iteration": 2.6116011142730713
    },
    {
      "auxiliary_loss_clip": 0.01128148,
      "auxiliary_loss_mlp": 0.0103671,
      "balance_loss_clip": 1.0454793,
      "balance_loss_mlp": 1.02784085,
      "epoch": 0.11362953165394096,
      "flos": 24499283523840.0,
      "grad_norm": 2.438976372575121,
      "language_loss": 0.87648296,
      "learning_rate": 3.927171828688987e-06,
      "loss": 0.89813149,
      "num_input_tokens_seen": 20052405,
      "step": 945,
      "time_per_iteration": 3.479597330093384
    },
    {
      "auxiliary_loss_clip": 0.01168095,
      "auxiliary_loss_mlp": 0.01031094,
      "balance_loss_clip": 1.0505749,
      "balance_loss_mlp": 1.02204597,
      "epoch": 0.11374977454458005,
      "flos": 24063104989440.0,
      "grad_norm": 2.4531478315510666,
      "language_loss": 0.82257664,
      "learning_rate": 3.926963386337088e-06,
      "loss": 0.84456849,
      "num_input_tokens_seen": 20070635,
      "step": 946,
      "time_per_iteration": 2.587587594985962
    },
    {
      "auxiliary_loss_clip": 0.01168518,
      "auxiliary_loss_mlp": 0.010342,
      "balance_loss_clip": 1.0498085,
      "balance_loss_mlp": 1.02397156,
      "epoch": 0.11387001743521914,
      "flos": 39460759943040.0,
      "grad_norm": 2.229169502536248,
      "language_loss": 0.7025016,
      "learning_rate": 3.926754651666375e-06,
      "loss": 0.72452873,
      "num_input_tokens_seen": 20091195,
      "step": 947,
      "time_per_iteration": 4.152026176452637
    },
    {
      "auxiliary_loss_clip": 0.01125101,
      "auxiliary_loss_mlp": 0.01031459,
      "balance_loss_clip": 1.04550898,
      "balance_loss_mlp": 1.0226438,
      "epoch": 0.11399026032585824,
      "flos": 25084785744000.0,
      "grad_norm": 3.028305783905118,
      "language_loss": 0.78185153,
      "learning_rate": 3.926545624708513e-06,
      "loss": 0.80341715,
      "num_input_tokens_seen": 20110435,
      "step": 948,
      "time_per_iteration": 3.4315648078918457
    },
    {
      "auxiliary_loss_clip": 0.01126274,
      "auxiliary_loss_mlp": 0.01036675,
      "balance_loss_clip": 1.04499006,
      "balance_loss_mlp": 1.0277524,
      "epoch": 0.11411050321649732,
      "flos": 17963440813440.0,
      "grad_norm": 13.327510851871729,
      "language_loss": 0.8547194,
      "learning_rate": 3.926336305495213e-06,
      "loss": 0.87634885,
      "num_input_tokens_seen": 20128995,
      "step": 949,
      "time_per_iteration": 2.62890887260437
    },
    {
      "auxiliary_loss_clip": 0.01127754,
      "auxiliary_loss_mlp": 0.01034856,
      "balance_loss_clip": 1.04695082,
      "balance_loss_mlp": 1.02578425,
      "epoch": 0.11423074610713642,
      "flos": 22457590410240.0,
      "grad_norm": 2.0345854392912055,
      "language_loss": 0.89036465,
      "learning_rate": 3.926126694058226e-06,
      "loss": 0.91199064,
      "num_input_tokens_seen": 20148145,
      "step": 950,
      "time_per_iteration": 2.6344215869903564
    },
    {
      "auxiliary_loss_clip": 0.01104727,
      "auxiliary_loss_mlp": 0.01035315,
      "balance_loss_clip": 1.04307628,
      "balance_loss_mlp": 1.02723253,
      "epoch": 0.1143509889977755,
      "flos": 19719644129280.0,
      "grad_norm": 1.4548718851728526,
      "language_loss": 0.82112533,
      "learning_rate": 3.92591679042935e-06,
      "loss": 0.84252572,
      "num_input_tokens_seen": 20168035,
      "step": 951,
      "time_per_iteration": 2.6917366981506348
    },
    {
      "auxiliary_loss_clip": 0.01147126,
      "auxiliary_loss_mlp": 0.01035724,
      "balance_loss_clip": 1.04610741,
      "balance_loss_mlp": 1.02575779,
      "epoch": 0.1144712318884146,
      "flos": 19824593610240.0,
      "grad_norm": 1.737223804661011,
      "language_loss": 0.82309604,
      "learning_rate": 3.92570659464043e-06,
      "loss": 0.84492457,
      "num_input_tokens_seen": 20186095,
      "step": 952,
      "time_per_iteration": 2.5487449169158936
    },
    {
      "auxiliary_loss_clip": 0.01149272,
      "auxiliary_loss_mlp": 0.0075795,
      "balance_loss_clip": 1.0475415,
      "balance_loss_mlp": 0.9999122,
      "epoch": 0.1145914747790537,
      "flos": 14940952686720.0,
      "grad_norm": 2.069135230946138,
      "language_loss": 0.79452395,
      "learning_rate": 3.925496106723349e-06,
      "loss": 0.81359613,
      "num_input_tokens_seen": 20203535,
      "step": 953,
      "time_per_iteration": 2.5806491374969482
    },
    {
      "auxiliary_loss_clip": 0.01156685,
      "auxiliary_loss_mlp": 0.01031164,
      "balance_loss_clip": 1.05029333,
      "balance_loss_mlp": 1.02241969,
      "epoch": 0.11471171766969278,
      "flos": 19867071911040.0,
      "grad_norm": 2.8050892648271515,
      "language_loss": 0.83902061,
      "learning_rate": 3.9252853267100405e-06,
      "loss": 0.86089909,
      "num_input_tokens_seen": 20222780,
      "step": 954,
      "time_per_iteration": 2.5562145709991455
    },
    {
      "auxiliary_loss_clip": 0.01124118,
      "auxiliary_loss_mlp": 0.01032262,
      "balance_loss_clip": 1.04546499,
      "balance_loss_mlp": 1.02304077,
      "epoch": 0.11483196056033187,
      "flos": 22528555240320.0,
      "grad_norm": 5.111932247752666,
      "language_loss": 0.84065056,
      "learning_rate": 3.9250742546324786e-06,
      "loss": 0.86221433,
      "num_input_tokens_seen": 20243015,
      "step": 955,
      "time_per_iteration": 2.65592360496521
    },
    {
      "auxiliary_loss_clip": 0.01139045,
      "auxiliary_loss_mlp": 0.01030981,
      "balance_loss_clip": 1.04648221,
      "balance_loss_mlp": 1.0229584,
      "epoch": 0.11495220345097096,
      "flos": 28222802496000.0,
      "grad_norm": 1.9805862347449181,
      "language_loss": 0.86952734,
      "learning_rate": 3.924862890522683e-06,
      "loss": 0.89122766,
      "num_input_tokens_seen": 20263025,
      "step": 956,
      "time_per_iteration": 2.6492931842803955
    },
    {
      "auxiliary_loss_clip": 0.01154929,
      "auxiliary_loss_mlp": 0.01027613,
      "balance_loss_clip": 1.04910898,
      "balance_loss_mlp": 1.01831424,
      "epoch": 0.11507244634161005,
      "flos": 17494111825920.0,
      "grad_norm": 2.1487014943608083,
      "language_loss": 0.86073744,
      "learning_rate": 3.9246512344127174e-06,
      "loss": 0.88256282,
      "num_input_tokens_seen": 20280685,
      "step": 957,
      "time_per_iteration": 2.6238210201263428
    },
    {
      "auxiliary_loss_clip": 0.01081249,
      "auxiliary_loss_mlp": 0.01028688,
      "balance_loss_clip": 1.03719294,
      "balance_loss_mlp": 1.02044439,
      "epoch": 0.11519268923224914,
      "flos": 22567127978880.0,
      "grad_norm": 2.621670706901019,
      "language_loss": 0.82042599,
      "learning_rate": 3.9244392863346895e-06,
      "loss": 0.84152538,
      "num_input_tokens_seen": 20300090,
      "step": 958,
      "time_per_iteration": 2.69838547706604
    },
    {
      "auxiliary_loss_clip": 0.01134056,
      "auxiliary_loss_mlp": 0.01031754,
      "balance_loss_clip": 1.04693937,
      "balance_loss_mlp": 1.02191961,
      "epoch": 0.11531293212288823,
      "flos": 16984731294720.0,
      "grad_norm": 2.4905148929468672,
      "language_loss": 0.92319739,
      "learning_rate": 3.9242270463207524e-06,
      "loss": 0.94485551,
      "num_input_tokens_seen": 20318480,
      "step": 959,
      "time_per_iteration": 2.608729839324951
    },
    {
      "auxiliary_loss_clip": 0.01107756,
      "auxiliary_loss_mlp": 0.01032636,
      "balance_loss_clip": 1.04414415,
      "balance_loss_mlp": 1.02373672,
      "epoch": 0.11543317501352733,
      "flos": 12423636184320.0,
      "grad_norm": 3.0248894394110173,
      "language_loss": 0.85163265,
      "learning_rate": 3.924014514403102e-06,
      "loss": 0.87303656,
      "num_input_tokens_seen": 20334635,
      "step": 960,
      "time_per_iteration": 2.6026017665863037
    },
    {
      "auxiliary_loss_clip": 0.01109073,
      "auxiliary_loss_mlp": 0.01037637,
      "balance_loss_clip": 1.04338503,
      "balance_loss_mlp": 1.02759957,
      "epoch": 0.11555341790416641,
      "flos": 19823304395520.0,
      "grad_norm": 1.9285378609709563,
      "language_loss": 0.91424453,
      "learning_rate": 3.92380169061398e-06,
      "loss": 0.93571162,
      "num_input_tokens_seen": 20352415,
      "step": 961,
      "time_per_iteration": 2.685767412185669
    },
    {
      "auxiliary_loss_clip": 0.01119674,
      "auxiliary_loss_mlp": 0.00757841,
      "balance_loss_clip": 1.04272699,
      "balance_loss_mlp": 0.999915,
      "epoch": 0.11567366079480551,
      "flos": 25741214876160.0,
      "grad_norm": 3.4563625688924073,
      "language_loss": 0.83822238,
      "learning_rate": 3.9235885749856705e-06,
      "loss": 0.85699749,
      "num_input_tokens_seen": 20371095,
      "step": 962,
      "time_per_iteration": 2.6693050861358643
    },
    {
      "auxiliary_loss_clip": 0.0113583,
      "auxiliary_loss_mlp": 0.0103375,
      "balance_loss_clip": 1.04778814,
      "balance_loss_mlp": 1.0245409,
      "epoch": 0.1157939036854446,
      "flos": 18225259678080.0,
      "grad_norm": 2.0188833002573636,
      "language_loss": 0.82832175,
      "learning_rate": 3.9233751675505035e-06,
      "loss": 0.85001755,
      "num_input_tokens_seen": 20389805,
      "step": 963,
      "time_per_iteration": 2.567345142364502
    },
    {
      "auxiliary_loss_clip": 0.01141793,
      "auxiliary_loss_mlp": 0.01029198,
      "balance_loss_clip": 1.04939747,
      "balance_loss_mlp": 1.02010846,
      "epoch": 0.11591414657608369,
      "flos": 23075863902720.0,
      "grad_norm": 2.6867803084711124,
      "language_loss": 0.84960389,
      "learning_rate": 3.923161468340853e-06,
      "loss": 0.87131381,
      "num_input_tokens_seen": 20409640,
      "step": 964,
      "time_per_iteration": 2.6173720359802246
    },
    {
      "auxiliary_loss_clip": 0.0111519,
      "auxiliary_loss_mlp": 0.01030335,
      "balance_loss_clip": 1.04495847,
      "balance_loss_mlp": 1.02123356,
      "epoch": 0.11603438946672277,
      "flos": 19463626730880.0,
      "grad_norm": 1.734492859415317,
      "language_loss": 0.81700742,
      "learning_rate": 3.9229474773891374e-06,
      "loss": 0.83846271,
      "num_input_tokens_seen": 20428180,
      "step": 965,
      "time_per_iteration": 2.5954771041870117
    },
    {
      "auxiliary_loss_clip": 0.01126247,
      "auxiliary_loss_mlp": 0.01038912,
      "balance_loss_clip": 1.04479885,
      "balance_loss_mlp": 1.02891064,
      "epoch": 0.11615463235736187,
      "flos": 26834315477760.0,
      "grad_norm": 1.9235224809373366,
      "language_loss": 0.83608663,
      "learning_rate": 3.922733194727818e-06,
      "loss": 0.85773814,
      "num_input_tokens_seen": 20447975,
      "step": 966,
      "time_per_iteration": 2.6731674671173096
    },
    {
      "auxiliary_loss_clip": 0.01152808,
      "auxiliary_loss_mlp": 0.01030257,
      "balance_loss_clip": 1.04871488,
      "balance_loss_mlp": 1.02085733,
      "epoch": 0.11627487524800097,
      "flos": 18581865978240.0,
      "grad_norm": 2.326585350441093,
      "language_loss": 0.87452191,
      "learning_rate": 3.922518620389402e-06,
      "loss": 0.89635253,
      "num_input_tokens_seen": 20464840,
      "step": 967,
      "time_per_iteration": 2.4976351261138916
    },
    {
      "auxiliary_loss_clip": 0.01079822,
      "auxiliary_loss_mlp": 0.01031892,
      "balance_loss_clip": 1.04278088,
      "balance_loss_mlp": 1.02302897,
      "epoch": 0.11639511813864005,
      "flos": 18152436862080.0,
      "grad_norm": 2.051216387341088,
      "language_loss": 0.89591205,
      "learning_rate": 3.922303754406439e-06,
      "loss": 0.91702914,
      "num_input_tokens_seen": 20482680,
      "step": 968,
      "time_per_iteration": 2.7697715759277344
    },
    {
      "auxiliary_loss_clip": 0.01132124,
      "auxiliary_loss_mlp": 0.01037404,
      "balance_loss_clip": 1.04892313,
      "balance_loss_mlp": 1.02827847,
      "epoch": 0.11651536102927915,
      "flos": 20924064449280.0,
      "grad_norm": 2.5559188625550195,
      "language_loss": 0.79105532,
      "learning_rate": 3.922088596811526e-06,
      "loss": 0.81275064,
      "num_input_tokens_seen": 20501810,
      "step": 969,
      "time_per_iteration": 3.041938066482544
    },
    {
      "auxiliary_loss_clip": 0.01154594,
      "auxiliary_loss_mlp": 0.01031048,
      "balance_loss_clip": 1.0484333,
      "balance_loss_mlp": 1.02229238,
      "epoch": 0.11663560391991823,
      "flos": 16510472956800.0,
      "grad_norm": 2.1114812613388843,
      "language_loss": 0.8715722,
      "learning_rate": 3.9218731476373e-06,
      "loss": 0.89342856,
      "num_input_tokens_seen": 20517995,
      "step": 970,
      "time_per_iteration": 2.5766849517822266
    },
    {
      "auxiliary_loss_clip": 0.01153357,
      "auxiliary_loss_mlp": 0.0103515,
      "balance_loss_clip": 1.04900026,
      "balance_loss_mlp": 1.02556527,
      "epoch": 0.11675584681055733,
      "flos": 19867071911040.0,
      "grad_norm": 3.138838769659482,
      "language_loss": 0.85118186,
      "learning_rate": 3.9216574069164455e-06,
      "loss": 0.8730669,
      "num_input_tokens_seen": 20536970,
      "step": 971,
      "time_per_iteration": 3.2737109661102295
    },
    {
      "auxiliary_loss_clip": 0.0116549,
      "auxiliary_loss_mlp": 0.0103038,
      "balance_loss_clip": 1.04879475,
      "balance_loss_mlp": 1.02189195,
      "epoch": 0.11687608970119642,
      "flos": 21946503565440.0,
      "grad_norm": 1.8482707256414694,
      "language_loss": 0.80105329,
      "learning_rate": 3.921441374681691e-06,
      "loss": 0.82301199,
      "num_input_tokens_seen": 20557030,
      "step": 972,
      "time_per_iteration": 2.5736160278320312
    },
    {
      "auxiliary_loss_clip": 0.01127602,
      "auxiliary_loss_mlp": 0.01029788,
      "balance_loss_clip": 1.04271817,
      "balance_loss_mlp": 1.02122247,
      "epoch": 0.1169963325918355,
      "flos": 24063446252160.0,
      "grad_norm": 2.0661554636414756,
      "language_loss": 0.65378958,
      "learning_rate": 3.921225050965808e-06,
      "loss": 0.67536348,
      "num_input_tokens_seen": 20576915,
      "step": 973,
      "time_per_iteration": 4.2046058177948
    },
    {
      "auxiliary_loss_clip": 0.01114162,
      "auxiliary_loss_mlp": 0.01031482,
      "balance_loss_clip": 1.04150558,
      "balance_loss_mlp": 1.02212405,
      "epoch": 0.1171165754824746,
      "flos": 23370416121600.0,
      "grad_norm": 2.508508771161094,
      "language_loss": 0.75389993,
      "learning_rate": 3.921008435801612e-06,
      "loss": 0.77535641,
      "num_input_tokens_seen": 20596000,
      "step": 974,
      "time_per_iteration": 3.3160181045532227
    },
    {
      "auxiliary_loss_clip": 0.01154413,
      "auxiliary_loss_mlp": 0.01033545,
      "balance_loss_clip": 1.0485456,
      "balance_loss_mlp": 1.02411568,
      "epoch": 0.11723681837311369,
      "flos": 18554251564800.0,
      "grad_norm": 2.1958454036359343,
      "language_loss": 0.75480545,
      "learning_rate": 3.920791529221963e-06,
      "loss": 0.776685,
      "num_input_tokens_seen": 20614675,
      "step": 975,
      "time_per_iteration": 2.56416916847229
    },
    {
      "auxiliary_loss_clip": 0.01135769,
      "auxiliary_loss_mlp": 0.00757695,
      "balance_loss_clip": 1.04416132,
      "balance_loss_mlp": 0.99991083,
      "epoch": 0.11735706126375278,
      "flos": 23552814424320.0,
      "grad_norm": 3.342933854865428,
      "language_loss": 0.76545179,
      "learning_rate": 3.920574331259768e-06,
      "loss": 0.7843864,
      "num_input_tokens_seen": 20635875,
      "step": 976,
      "time_per_iteration": 2.7014873027801514
    },
    {
      "auxiliary_loss_clip": 0.01133538,
      "auxiliary_loss_mlp": 0.01030773,
      "balance_loss_clip": 1.04416895,
      "balance_loss_mlp": 1.02217793,
      "epoch": 0.11747730415439187,
      "flos": 22383667969920.0,
      "grad_norm": 2.588000149505299,
      "language_loss": 0.79704058,
      "learning_rate": 3.9203568419479716e-06,
      "loss": 0.81868362,
      "num_input_tokens_seen": 20656430,
      "step": 977,
      "time_per_iteration": 2.575761318206787
    },
    {
      "auxiliary_loss_clip": 0.01140639,
      "auxiliary_loss_mlp": 0.01025192,
      "balance_loss_clip": 1.04772258,
      "balance_loss_mlp": 1.01675177,
      "epoch": 0.11759754704503096,
      "flos": 22202938062720.0,
      "grad_norm": 1.7724671640747252,
      "language_loss": 0.74961841,
      "learning_rate": 3.92013906131957e-06,
      "loss": 0.77127671,
      "num_input_tokens_seen": 20675360,
      "step": 978,
      "time_per_iteration": 2.6017274856567383
    },
    {
      "auxiliary_loss_clip": 0.01116478,
      "auxiliary_loss_mlp": 0.01037535,
      "balance_loss_clip": 1.04532707,
      "balance_loss_mlp": 1.02973902,
      "epoch": 0.11771778993567006,
      "flos": 22311944778240.0,
      "grad_norm": 1.716556833237291,
      "language_loss": 0.82560712,
      "learning_rate": 3.9199209894076e-06,
      "loss": 0.84714723,
      "num_input_tokens_seen": 20695675,
      "step": 979,
      "time_per_iteration": 2.602395534515381
    },
    {
      "auxiliary_loss_clip": 0.01165655,
      "auxiliary_loss_mlp": 0.01031614,
      "balance_loss_clip": 1.04835129,
      "balance_loss_mlp": 1.02148151,
      "epoch": 0.11783803282630914,
      "flos": 21290301941760.0,
      "grad_norm": 1.8682601019477185,
      "language_loss": 0.90037251,
      "learning_rate": 3.919702626245142e-06,
      "loss": 0.92234522,
      "num_input_tokens_seen": 20715330,
      "step": 980,
      "time_per_iteration": 2.537092685699463
    },
    {
      "auxiliary_loss_clip": 0.01138794,
      "auxiliary_loss_mlp": 0.0103014,
      "balance_loss_clip": 1.04619575,
      "balance_loss_mlp": 1.0214498,
      "epoch": 0.11795827571694824,
      "flos": 25373726087040.0,
      "grad_norm": 2.1542292491082184,
      "language_loss": 0.6652025,
      "learning_rate": 3.919483971865322e-06,
      "loss": 0.68689185,
      "num_input_tokens_seen": 20735325,
      "step": 981,
      "time_per_iteration": 2.615278959274292
    },
    {
      "auxiliary_loss_clip": 0.01128414,
      "auxiliary_loss_mlp": 0.01033085,
      "balance_loss_clip": 1.04482055,
      "balance_loss_mlp": 1.02475202,
      "epoch": 0.11807851860758732,
      "flos": 23624423861760.0,
      "grad_norm": 2.358034730919108,
      "language_loss": 0.87776661,
      "learning_rate": 3.91926502630131e-06,
      "loss": 0.89938158,
      "num_input_tokens_seen": 20755940,
      "step": 982,
      "time_per_iteration": 2.632133722305298
    },
    {
      "auxiliary_loss_clip": 0.01152117,
      "auxiliary_loss_mlp": 0.01033792,
      "balance_loss_clip": 1.04889894,
      "balance_loss_mlp": 1.02526212,
      "epoch": 0.11819876149822642,
      "flos": 24974793158400.0,
      "grad_norm": 2.692113710183431,
      "language_loss": 0.7223134,
      "learning_rate": 3.91904578958632e-06,
      "loss": 0.74417245,
      "num_input_tokens_seen": 20775355,
      "step": 983,
      "time_per_iteration": 2.578143835067749
    },
    {
      "auxiliary_loss_clip": 0.01166353,
      "auxiliary_loss_mlp": 0.0103294,
      "balance_loss_clip": 1.04952741,
      "balance_loss_mlp": 1.02354074,
      "epoch": 0.11831900438886551,
      "flos": 23005467843840.0,
      "grad_norm": 2.010927826932224,
      "language_loss": 0.83935785,
      "learning_rate": 3.918826261753608e-06,
      "loss": 0.86135077,
      "num_input_tokens_seen": 20794935,
      "step": 984,
      "time_per_iteration": 2.547638177871704
    },
    {
      "auxiliary_loss_clip": 0.01133224,
      "auxiliary_loss_mlp": 0.01029598,
      "balance_loss_clip": 1.04377127,
      "balance_loss_mlp": 1.02172983,
      "epoch": 0.1184392472795046,
      "flos": 27967657213440.0,
      "grad_norm": 2.732279993852503,
      "language_loss": 0.7122708,
      "learning_rate": 3.918606442836478e-06,
      "loss": 0.733899,
      "num_input_tokens_seen": 20817155,
      "step": 985,
      "time_per_iteration": 2.602792978286743
    },
    {
      "auxiliary_loss_clip": 0.01148605,
      "auxiliary_loss_mlp": 0.0103234,
      "balance_loss_clip": 1.0479157,
      "balance_loss_mlp": 1.02445412,
      "epoch": 0.1185594901701437,
      "flos": 19900374036480.0,
      "grad_norm": 1.8221732658706165,
      "language_loss": 0.77403319,
      "learning_rate": 3.918386332868277e-06,
      "loss": 0.79584265,
      "num_input_tokens_seen": 20835125,
      "step": 986,
      "time_per_iteration": 2.5778005123138428
    },
    {
      "auxiliary_loss_clip": 0.01153632,
      "auxiliary_loss_mlp": 0.0103691,
      "balance_loss_clip": 1.04823279,
      "balance_loss_mlp": 1.02768946,
      "epoch": 0.11867973306078278,
      "flos": 18914118819840.0,
      "grad_norm": 1.9863544914219877,
      "language_loss": 0.94222248,
      "learning_rate": 3.918165931882394e-06,
      "loss": 0.9641279,
      "num_input_tokens_seen": 20853525,
      "step": 987,
      "time_per_iteration": 2.5280368328094482
    },
    {
      "auxiliary_loss_clip": 0.01092327,
      "auxiliary_loss_mlp": 0.01031504,
      "balance_loss_clip": 1.04224467,
      "balance_loss_mlp": 1.02260506,
      "epoch": 0.11879997595142187,
      "flos": 16984693376640.0,
      "grad_norm": 2.9324784377033026,
      "language_loss": 0.75596833,
      "learning_rate": 3.917945239912264e-06,
      "loss": 0.77720666,
      "num_input_tokens_seen": 20871000,
      "step": 988,
      "time_per_iteration": 2.711895227432251
    },
    {
      "auxiliary_loss_clip": 0.01104531,
      "auxiliary_loss_mlp": 0.01031579,
      "balance_loss_clip": 1.04388034,
      "balance_loss_mlp": 1.02387857,
      "epoch": 0.11892021884206096,
      "flos": 17532305383680.0,
      "grad_norm": 2.0359718233979294,
      "language_loss": 0.75759351,
      "learning_rate": 3.917724256991367e-06,
      "loss": 0.77895463,
      "num_input_tokens_seen": 20889745,
      "step": 989,
      "time_per_iteration": 2.610675096511841
    },
    {
      "auxiliary_loss_clip": 0.01138,
      "auxiliary_loss_mlp": 0.01034422,
      "balance_loss_clip": 1.04591823,
      "balance_loss_mlp": 1.02565384,
      "epoch": 0.11904046173270005,
      "flos": 30958511610240.0,
      "grad_norm": 2.065337993103524,
      "language_loss": 0.81728363,
      "learning_rate": 3.9175029831532245e-06,
      "loss": 0.83900785,
      "num_input_tokens_seen": 20909260,
      "step": 990,
      "time_per_iteration": 2.7204439640045166
    },
    {
      "auxiliary_loss_clip": 0.01122071,
      "auxiliary_loss_mlp": 0.01027827,
      "balance_loss_clip": 1.04525435,
      "balance_loss_mlp": 1.01940453,
      "epoch": 0.11916070462333915,
      "flos": 20159311127040.0,
      "grad_norm": 2.9351717256016503,
      "language_loss": 0.89014244,
      "learning_rate": 3.917281418431404e-06,
      "loss": 0.91164148,
      "num_input_tokens_seen": 20928305,
      "step": 991,
      "time_per_iteration": 2.592207908630371
    },
    {
      "auxiliary_loss_clip": 0.01133077,
      "auxiliary_loss_mlp": 0.01034779,
      "balance_loss_clip": 1.04699373,
      "balance_loss_mlp": 1.02550447,
      "epoch": 0.11928094751397823,
      "flos": 23553421113600.0,
      "grad_norm": 2.055213968177029,
      "language_loss": 0.76900208,
      "learning_rate": 3.917059562859516e-06,
      "loss": 0.79068065,
      "num_input_tokens_seen": 20947630,
      "step": 992,
      "time_per_iteration": 2.6350064277648926
    },
    {
      "auxiliary_loss_clip": 0.01138343,
      "auxiliary_loss_mlp": 0.01036521,
      "balance_loss_clip": 1.04787254,
      "balance_loss_mlp": 1.02759206,
      "epoch": 0.11940119040461733,
      "flos": 23910330758400.0,
      "grad_norm": 2.1884820190113103,
      "language_loss": 0.88682801,
      "learning_rate": 3.916837416471218e-06,
      "loss": 0.90857667,
      "num_input_tokens_seen": 20964250,
      "step": 993,
      "time_per_iteration": 2.587217092514038
    },
    {
      "auxiliary_loss_clip": 0.01152408,
      "auxiliary_loss_mlp": 0.01031582,
      "balance_loss_clip": 1.04779649,
      "balance_loss_mlp": 1.02273989,
      "epoch": 0.11952143329525641,
      "flos": 13846221607680.0,
      "grad_norm": 2.575050521904683,
      "language_loss": 0.7239126,
      "learning_rate": 3.916614979300207e-06,
      "loss": 0.74575251,
      "num_input_tokens_seen": 20979095,
      "step": 994,
      "time_per_iteration": 2.5381736755371094
    },
    {
      "auxiliary_loss_clip": 0.01106593,
      "auxiliary_loss_mlp": 0.010323,
      "balance_loss_clip": 1.04371095,
      "balance_loss_mlp": 1.02423549,
      "epoch": 0.11964167618589551,
      "flos": 27017927159040.0,
      "grad_norm": 1.5838030231278688,
      "language_loss": 0.78714502,
      "learning_rate": 3.9163922513802274e-06,
      "loss": 0.80853391,
      "num_input_tokens_seen": 21001430,
      "step": 995,
      "time_per_iteration": 2.7086269855499268
    },
    {
      "auxiliary_loss_clip": 0.01164592,
      "auxiliary_loss_mlp": 0.01031881,
      "balance_loss_clip": 1.04768431,
      "balance_loss_mlp": 1.02301216,
      "epoch": 0.1197619190765346,
      "flos": 12569243898240.0,
      "grad_norm": 2.5915679673150303,
      "language_loss": 0.82413822,
      "learning_rate": 3.916169232745067e-06,
      "loss": 0.84610295,
      "num_input_tokens_seen": 21019105,
      "step": 996,
      "time_per_iteration": 3.3937857151031494
    },
    {
      "auxiliary_loss_clip": 0.01136049,
      "auxiliary_loss_mlp": 0.01035159,
      "balance_loss_clip": 1.04567146,
      "balance_loss_mlp": 1.02613497,
      "epoch": 0.11988216196717369,
      "flos": 16911301789440.0,
      "grad_norm": 2.5732097193674077,
      "language_loss": 0.91936666,
      "learning_rate": 3.915945923428559e-06,
      "loss": 0.94107866,
      "num_input_tokens_seen": 21035630,
      "step": 997,
      "time_per_iteration": 2.5908782482147217
    },
    {
      "auxiliary_loss_clip": 0.0115212,
      "auxiliary_loss_mlp": 0.01028485,
      "balance_loss_clip": 1.04706621,
      "balance_loss_mlp": 1.01979423,
      "epoch": 0.12000240485781279,
      "flos": 16218423331200.0,
      "grad_norm": 2.0962948444762097,
      "language_loss": 0.8322165,
      "learning_rate": 3.915722323464577e-06,
      "loss": 0.85402262,
      "num_input_tokens_seen": 21054235,
      "step": 998,
      "time_per_iteration": 2.498741388320923
    },
    {
      "auxiliary_loss_clip": 0.01147652,
      "auxiliary_loss_mlp": 0.01032745,
      "balance_loss_clip": 1.04641771,
      "balance_loss_mlp": 1.02394104,
      "epoch": 0.12012264774845187,
      "flos": 49348537683840.0,
      "grad_norm": 2.9406555599445254,
      "language_loss": 0.70437849,
      "learning_rate": 3.91549843288704e-06,
      "loss": 0.7261824,
      "num_input_tokens_seen": 21077915,
      "step": 999,
      "time_per_iteration": 4.370689392089844
    },
    {
      "auxiliary_loss_clip": 0.0112635,
      "auxiliary_loss_mlp": 0.00757838,
      "balance_loss_clip": 1.04445148,
      "balance_loss_mlp": 0.99994862,
      "epoch": 0.12024289063909097,
      "flos": 26981857013760.0,
      "grad_norm": 5.257623734514846,
      "language_loss": 0.7918005,
      "learning_rate": 3.915274251729916e-06,
      "loss": 0.81064242,
      "num_input_tokens_seen": 21099205,
      "step": 1000,
      "time_per_iteration": 2.697603464126587
    },
    {
      "auxiliary_loss_clip": 0.01116959,
      "auxiliary_loss_mlp": 0.01026888,
      "balance_loss_clip": 1.04400182,
      "balance_loss_mlp": 1.01834702,
      "epoch": 0.12036313352973005,
      "flos": 19539369239040.0,
      "grad_norm": 2.204288884785417,
      "language_loss": 0.90262473,
      "learning_rate": 3.91504978002721e-06,
      "loss": 0.92406327,
      "num_input_tokens_seen": 21118260,
      "step": 1001,
      "time_per_iteration": 2.602034568786621
    },
    {
      "auxiliary_loss_clip": 0.0113953,
      "auxiliary_loss_mlp": 0.0075756,
      "balance_loss_clip": 1.04738677,
      "balance_loss_mlp": 0.99992907,
      "epoch": 0.12048337642036915,
      "flos": 17269803993600.0,
      "grad_norm": 1.9921038027665112,
      "language_loss": 0.76259935,
      "learning_rate": 3.914825017812974e-06,
      "loss": 0.7815702,
      "num_input_tokens_seen": 21134910,
      "step": 1002,
      "time_per_iteration": 2.5840489864349365
    },
    {
      "auxiliary_loss_clip": 0.01139189,
      "auxiliary_loss_mlp": 0.01030836,
      "balance_loss_clip": 1.04834962,
      "balance_loss_mlp": 1.02207458,
      "epoch": 0.12060361931100824,
      "flos": 22859177604480.0,
      "grad_norm": 2.4747735346310598,
      "language_loss": 0.72186697,
      "learning_rate": 3.9145999651213065e-06,
      "loss": 0.74356723,
      "num_input_tokens_seen": 21154150,
      "step": 1003,
      "time_per_iteration": 2.5852110385894775
    },
    {
      "auxiliary_loss_clip": 0.01148097,
      "auxiliary_loss_mlp": 0.01033865,
      "balance_loss_clip": 1.04604292,
      "balance_loss_mlp": 1.02487695,
      "epoch": 0.12072386220164733,
      "flos": 16728638060160.0,
      "grad_norm": 2.8008234581649556,
      "language_loss": 0.88363183,
      "learning_rate": 3.9143746219863465e-06,
      "loss": 0.90545142,
      "num_input_tokens_seen": 21171255,
      "step": 1004,
      "time_per_iteration": 2.5998003482818604
    },
    {
      "auxiliary_loss_clip": 0.011141,
      "auxiliary_loss_mlp": 0.01000775,
      "balance_loss_clip": 1.05142498,
      "balance_loss_mlp": 0.99760419,
      "epoch": 0.12084410509228642,
      "flos": 55150075290240.0,
      "grad_norm": 0.9538226674855053,
      "language_loss": 0.64819419,
      "learning_rate": 3.914148988442278e-06,
      "loss": 0.66934294,
      "num_input_tokens_seen": 21227045,
      "step": 1005,
      "time_per_iteration": 3.132192611694336
    },
    {
      "auxiliary_loss_clip": 0.01135275,
      "auxiliary_loss_mlp": 0.01031533,
      "balance_loss_clip": 1.0465107,
      "balance_loss_mlp": 1.02255094,
      "epoch": 0.1209643479829255,
      "flos": 26762630204160.0,
      "grad_norm": 2.61544651473093,
      "language_loss": 0.95001751,
      "learning_rate": 3.91392306452333e-06,
      "loss": 0.97168565,
      "num_input_tokens_seen": 21244120,
      "step": 1006,
      "time_per_iteration": 2.6593289375305176
    },
    {
      "auxiliary_loss_clip": 0.01165342,
      "auxiliary_loss_mlp": 0.01029603,
      "balance_loss_clip": 1.04948306,
      "balance_loss_mlp": 1.02065063,
      "epoch": 0.1210845908735646,
      "flos": 11036552135040.0,
      "grad_norm": 2.908789813511083,
      "language_loss": 0.66795868,
      "learning_rate": 3.913696850263774e-06,
      "loss": 0.68990815,
      "num_input_tokens_seen": 21258485,
      "step": 1007,
      "time_per_iteration": 2.4775753021240234
    },
    {
      "auxiliary_loss_clip": 0.01153667,
      "auxiliary_loss_mlp": 0.01029178,
      "balance_loss_clip": 1.04848576,
      "balance_loss_mlp": 1.02080321,
      "epoch": 0.1212048337642037,
      "flos": 20486672536320.0,
      "grad_norm": 3.292232205069572,
      "language_loss": 0.79275048,
      "learning_rate": 3.913470345697929e-06,
      "loss": 0.81457895,
      "num_input_tokens_seen": 21277115,
      "step": 1008,
      "time_per_iteration": 2.618638515472412
    },
    {
      "auxiliary_loss_clip": 0.01102792,
      "auxiliary_loss_mlp": 0.01032488,
      "balance_loss_clip": 1.04163074,
      "balance_loss_mlp": 1.02423239,
      "epoch": 0.12132507665484278,
      "flos": 22348242432000.0,
      "grad_norm": 2.3480079461121477,
      "language_loss": 0.85276651,
      "learning_rate": 3.913243550860153e-06,
      "loss": 0.87411922,
      "num_input_tokens_seen": 21294880,
      "step": 1009,
      "time_per_iteration": 2.6205766201019287
    },
    {
      "auxiliary_loss_clip": 0.01152709,
      "auxiliary_loss_mlp": 0.01033419,
      "balance_loss_clip": 1.05035353,
      "balance_loss_mlp": 1.02443087,
      "epoch": 0.12144531954548188,
      "flos": 29317533575040.0,
      "grad_norm": 2.0210114066546416,
      "language_loss": 0.76168394,
      "learning_rate": 3.913016465784852e-06,
      "loss": 0.7835452,
      "num_input_tokens_seen": 21315555,
      "step": 1010,
      "time_per_iteration": 2.628969669342041
    },
    {
      "auxiliary_loss_clip": 0.01101916,
      "auxiliary_loss_mlp": 0.01029615,
      "balance_loss_clip": 1.04099059,
      "balance_loss_mlp": 1.02085948,
      "epoch": 0.12156556243612096,
      "flos": 20487317143680.0,
      "grad_norm": 13.935905523904484,
      "language_loss": 0.71790743,
      "learning_rate": 3.912789090506474e-06,
      "loss": 0.73922276,
      "num_input_tokens_seen": 21334815,
      "step": 1011,
      "time_per_iteration": 2.620035409927368
    },
    {
      "auxiliary_loss_clip": 0.01123466,
      "auxiliary_loss_mlp": 0.01036977,
      "balance_loss_clip": 1.04399204,
      "balance_loss_mlp": 1.0283339,
      "epoch": 0.12168580532676006,
      "flos": 16473871958400.0,
      "grad_norm": 2.946519024722053,
      "language_loss": 0.71956354,
      "learning_rate": 3.9125614250595114e-06,
      "loss": 0.74116802,
      "num_input_tokens_seen": 21351025,
      "step": 1012,
      "time_per_iteration": 2.640994071960449
    },
    {
      "auxiliary_loss_clip": 0.01148606,
      "auxiliary_loss_mlp": 0.01030769,
      "balance_loss_clip": 1.04647875,
      "balance_loss_mlp": 1.02154815,
      "epoch": 0.12180604821739914,
      "flos": 15343108652160.0,
      "grad_norm": 2.563774745083269,
      "language_loss": 0.89063811,
      "learning_rate": 3.912333469478502e-06,
      "loss": 0.9124319,
      "num_input_tokens_seen": 21368990,
      "step": 1013,
      "time_per_iteration": 2.5153133869171143
    },
    {
      "auxiliary_loss_clip": 0.01138361,
      "auxiliary_loss_mlp": 0.01027607,
      "balance_loss_clip": 1.04685903,
      "balance_loss_mlp": 1.01971579,
      "epoch": 0.12192629110803824,
      "flos": 19320066593280.0,
      "grad_norm": 2.13905089613643,
      "language_loss": 0.78260547,
      "learning_rate": 3.912105223798025e-06,
      "loss": 0.80426514,
      "num_input_tokens_seen": 21388410,
      "step": 1014,
      "time_per_iteration": 2.6127781867980957
    },
    {
      "auxiliary_loss_clip": 0.01100189,
      "auxiliary_loss_mlp": 0.01006474,
      "balance_loss_clip": 1.04672968,
      "balance_loss_mlp": 1.00346994,
      "epoch": 0.12204653399867733,
      "flos": 47730158824320.0,
      "grad_norm": 1.0006800935361937,
      "language_loss": 0.67730206,
      "learning_rate": 3.9118766880527065e-06,
      "loss": 0.69836867,
      "num_input_tokens_seen": 21442845,
      "step": 1015,
      "time_per_iteration": 3.1553571224212646
    },
    {
      "auxiliary_loss_clip": 0.01100478,
      "auxiliary_loss_mlp": 0.01027081,
      "balance_loss_clip": 1.03981543,
      "balance_loss_mlp": 1.01883793,
      "epoch": 0.12216677688931642,
      "flos": 18223818791040.0,
      "grad_norm": 2.123681763457075,
      "language_loss": 0.73969591,
      "learning_rate": 3.9116478622772145e-06,
      "loss": 0.76097143,
      "num_input_tokens_seen": 21461420,
      "step": 1016,
      "time_per_iteration": 2.637417793273926
    },
    {
      "auxiliary_loss_clip": 0.01145012,
      "auxiliary_loss_mlp": 0.01035448,
      "balance_loss_clip": 1.04603982,
      "balance_loss_mlp": 1.02672195,
      "epoch": 0.12228701977995551,
      "flos": 27528028133760.0,
      "grad_norm": 2.0160346667934133,
      "language_loss": 0.88213784,
      "learning_rate": 3.911418746506261e-06,
      "loss": 0.90394247,
      "num_input_tokens_seen": 21481550,
      "step": 1017,
      "time_per_iteration": 2.633399486541748
    },
    {
      "auxiliary_loss_clip": 0.01151692,
      "auxiliary_loss_mlp": 0.01035422,
      "balance_loss_clip": 1.04997301,
      "balance_loss_mlp": 1.02676749,
      "epoch": 0.1224072626705946,
      "flos": 21800251244160.0,
      "grad_norm": 2.2930457059471503,
      "language_loss": 0.78546536,
      "learning_rate": 3.911189340774604e-06,
      "loss": 0.80733651,
      "num_input_tokens_seen": 21501680,
      "step": 1018,
      "time_per_iteration": 2.5439960956573486
    },
    {
      "auxiliary_loss_clip": 0.01139142,
      "auxiliary_loss_mlp": 0.01029224,
      "balance_loss_clip": 1.04930174,
      "balance_loss_mlp": 1.02057528,
      "epoch": 0.1225275055612337,
      "flos": 20705823509760.0,
      "grad_norm": 1.8816601376935165,
      "language_loss": 0.79122663,
      "learning_rate": 3.910959645117043e-06,
      "loss": 0.81291032,
      "num_input_tokens_seen": 21521015,
      "step": 1019,
      "time_per_iteration": 2.6124684810638428
    },
    {
      "auxiliary_loss_clip": 0.01108715,
      "auxiliary_loss_mlp": 0.00753603,
      "balance_loss_clip": 1.04626536,
      "balance_loss_mlp": 0.99975759,
      "epoch": 0.12264774845187278,
      "flos": 57751931295360.0,
      "grad_norm": 0.816090189153307,
      "language_loss": 0.56786501,
      "learning_rate": 3.910729659568423e-06,
      "loss": 0.58648825,
      "num_input_tokens_seen": 21578200,
      "step": 1020,
      "time_per_iteration": 3.15927791595459
    },
    {
      "auxiliary_loss_clip": 0.01136046,
      "auxiliary_loss_mlp": 0.01035641,
      "balance_loss_clip": 1.04873443,
      "balance_loss_mlp": 1.02775538,
      "epoch": 0.12276799134251187,
      "flos": 26398705714560.0,
      "grad_norm": 2.2566493030943646,
      "language_loss": 0.82283247,
      "learning_rate": 3.9104993841636344e-06,
      "loss": 0.8445493,
      "num_input_tokens_seen": 21598770,
      "step": 1021,
      "time_per_iteration": 2.6596524715423584
    },
    {
      "auxiliary_loss_clip": 0.01132256,
      "auxiliary_loss_mlp": 0.00757368,
      "balance_loss_clip": 1.04723489,
      "balance_loss_mlp": 0.99996763,
      "epoch": 0.12288823423315097,
      "flos": 21066032027520.0,
      "grad_norm": 1.8205334213278281,
      "language_loss": 0.80847359,
      "learning_rate": 3.910268818937608e-06,
      "loss": 0.82736981,
      "num_input_tokens_seen": 21616925,
      "step": 1022,
      "time_per_iteration": 3.3908944129943848
    },
    {
      "auxiliary_loss_clip": 0.01105412,
      "auxiliary_loss_mlp": 0.01032617,
      "balance_loss_clip": 1.04424179,
      "balance_loss_mlp": 1.02401006,
      "epoch": 0.12300847712379005,
      "flos": 12314060697600.0,
      "grad_norm": 2.7504731702980107,
      "language_loss": 0.87248194,
      "learning_rate": 3.9100379639253196e-06,
      "loss": 0.89386219,
      "num_input_tokens_seen": 21633645,
      "step": 1023,
      "time_per_iteration": 2.64445161819458
    },
    {
      "auxiliary_loss_clip": 0.01128129,
      "auxiliary_loss_mlp": 0.01032046,
      "balance_loss_clip": 1.04177094,
      "balance_loss_mlp": 1.02373695,
      "epoch": 0.12312872001442915,
      "flos": 16764025680000.0,
      "grad_norm": 2.5169495025794504,
      "language_loss": 0.86488509,
      "learning_rate": 3.909806819161791e-06,
      "loss": 0.88648677,
      "num_input_tokens_seen": 21649120,
      "step": 1024,
      "time_per_iteration": 3.360048294067383
    },
    {
      "auxiliary_loss_clip": 0.01118817,
      "auxiliary_loss_mlp": 0.01023801,
      "balance_loss_clip": 1.0443908,
      "balance_loss_mlp": 1.01516986,
      "epoch": 0.12324896290506823,
      "flos": 18406861701120.0,
      "grad_norm": 3.647192551132082,
      "language_loss": 0.86145675,
      "learning_rate": 3.909575384682086e-06,
      "loss": 0.88288289,
      "num_input_tokens_seen": 21668000,
      "step": 1025,
      "time_per_iteration": 4.071763515472412
    },
    {
      "auxiliary_loss_clip": 0.01147912,
      "auxiliary_loss_mlp": 0.01048682,
      "balance_loss_clip": 1.04712045,
      "balance_loss_mlp": 1.03978872,
      "epoch": 0.12336920579570733,
      "flos": 18917341856640.0,
      "grad_norm": 2.0867636219043497,
      "language_loss": 0.69491714,
      "learning_rate": 3.9093436605213144e-06,
      "loss": 0.71688306,
      "num_input_tokens_seen": 21688500,
      "step": 1026,
      "time_per_iteration": 2.6011180877685547
    },
    {
      "auxiliary_loss_clip": 0.01130584,
      "auxiliary_loss_mlp": 0.01033494,
      "balance_loss_clip": 1.04438877,
      "balance_loss_mlp": 1.02501798,
      "epoch": 0.12348944868634643,
      "flos": 23880630850560.0,
      "grad_norm": 4.809782593175119,
      "language_loss": 0.79420769,
      "learning_rate": 3.909111646714627e-06,
      "loss": 0.81584847,
      "num_input_tokens_seen": 21709345,
      "step": 1027,
      "time_per_iteration": 2.6486856937408447
    },
    {
      "auxiliary_loss_clip": 0.01160438,
      "auxiliary_loss_mlp": 0.01026762,
      "balance_loss_clip": 1.04713953,
      "balance_loss_mlp": 1.01879919,
      "epoch": 0.12360969157698551,
      "flos": 19028092803840.0,
      "grad_norm": 2.4335802736012044,
      "language_loss": 0.72489309,
      "learning_rate": 3.9088793432972206e-06,
      "loss": 0.74676502,
      "num_input_tokens_seen": 21728165,
      "step": 1028,
      "time_per_iteration": 2.497840404510498
    },
    {
      "auxiliary_loss_clip": 0.0110126,
      "auxiliary_loss_mlp": 0.01030891,
      "balance_loss_clip": 1.04168105,
      "balance_loss_mlp": 1.02262974,
      "epoch": 0.1237299344676246,
      "flos": 13226279719680.0,
      "grad_norm": 2.374802211325892,
      "language_loss": 0.82353425,
      "learning_rate": 3.908646750304336e-06,
      "loss": 0.84485579,
      "num_input_tokens_seen": 21745850,
      "step": 1029,
      "time_per_iteration": 2.648634672164917
    },
    {
      "auxiliary_loss_clip": 0.01133123,
      "auxiliary_loss_mlp": 0.01031037,
      "balance_loss_clip": 1.04670966,
      "balance_loss_mlp": 1.02270412,
      "epoch": 0.12385017735826369,
      "flos": 20487772160640.0,
      "grad_norm": 1.7251635456752585,
      "language_loss": 0.8751272,
      "learning_rate": 3.908413867771257e-06,
      "loss": 0.89676881,
      "num_input_tokens_seen": 21764760,
      "step": 1030,
      "time_per_iteration": 2.578044891357422
    },
    {
      "auxiliary_loss_clip": 0.0114207,
      "auxiliary_loss_mlp": 0.01034079,
      "balance_loss_clip": 1.04424143,
      "balance_loss_mlp": 1.02515674,
      "epoch": 0.12397042024890279,
      "flos": 17349755408640.0,
      "grad_norm": 1.7053239439604937,
      "language_loss": 0.80867374,
      "learning_rate": 3.908180695733311e-06,
      "loss": 0.83043522,
      "num_input_tokens_seen": 21784250,
      "step": 1031,
      "time_per_iteration": 2.585808038711548
    },
    {
      "auxiliary_loss_clip": 0.01107943,
      "auxiliary_loss_mlp": 0.0103493,
      "balance_loss_clip": 1.04211259,
      "balance_loss_mlp": 1.02660298,
      "epoch": 0.12409066313954187,
      "flos": 20414418491520.0,
      "grad_norm": 1.7537799504504235,
      "language_loss": 0.82894599,
      "learning_rate": 3.907947234225871e-06,
      "loss": 0.8503747,
      "num_input_tokens_seen": 21803260,
      "step": 1032,
      "time_per_iteration": 2.636019468307495
    },
    {
      "auxiliary_loss_clip": 0.0108892,
      "auxiliary_loss_mlp": 0.0102817,
      "balance_loss_clip": 1.04265451,
      "balance_loss_mlp": 1.01983702,
      "epoch": 0.12421090603018096,
      "flos": 20738556864000.0,
      "grad_norm": 1.9220835802988734,
      "language_loss": 0.86867619,
      "learning_rate": 3.907713483284352e-06,
      "loss": 0.88984704,
      "num_input_tokens_seen": 21822735,
      "step": 1033,
      "time_per_iteration": 2.699215888977051
    },
    {
      "auxiliary_loss_clip": 0.01067555,
      "auxiliary_loss_mlp": 0.01031572,
      "balance_loss_clip": 1.03489923,
      "balance_loss_mlp": 1.02260697,
      "epoch": 0.12433114892082006,
      "flos": 24501141509760.0,
      "grad_norm": 2.2789552897338394,
      "language_loss": 0.97394276,
      "learning_rate": 3.907479442944216e-06,
      "loss": 0.99493396,
      "num_input_tokens_seen": 21841140,
      "step": 1034,
      "time_per_iteration": 2.784334897994995
    },
    {
      "auxiliary_loss_clip": 0.01145572,
      "auxiliary_loss_mlp": 0.0103055,
      "balance_loss_clip": 1.04641581,
      "balance_loss_mlp": 1.02255702,
      "epoch": 0.12445139181145914,
      "flos": 19684332345600.0,
      "grad_norm": 2.162537546442997,
      "language_loss": 0.92328823,
      "learning_rate": 3.907245113240963e-06,
      "loss": 0.94504941,
      "num_input_tokens_seen": 21859260,
      "step": 1035,
      "time_per_iteration": 2.8351006507873535
    },
    {
      "auxiliary_loss_clip": 0.01120571,
      "auxiliary_loss_mlp": 0.01029652,
      "balance_loss_clip": 1.04329336,
      "balance_loss_mlp": 1.02069879,
      "epoch": 0.12457163470209824,
      "flos": 46426410950400.0,
      "grad_norm": 1.8258556882931989,
      "language_loss": 0.73617846,
      "learning_rate": 3.907010494210144e-06,
      "loss": 0.75768065,
      "num_input_tokens_seen": 21881920,
      "step": 1036,
      "time_per_iteration": 2.8024041652679443
    },
    {
      "auxiliary_loss_clip": 0.01148879,
      "auxiliary_loss_mlp": 0.01036592,
      "balance_loss_clip": 1.04823947,
      "balance_loss_mlp": 1.02760339,
      "epoch": 0.12469187759273732,
      "flos": 20378386264320.0,
      "grad_norm": 2.3200161864015234,
      "language_loss": 0.91810191,
      "learning_rate": 3.9067755858873495e-06,
      "loss": 0.93995655,
      "num_input_tokens_seen": 21898720,
      "step": 1037,
      "time_per_iteration": 2.5845699310302734
    },
    {
      "auxiliary_loss_clip": 0.01083566,
      "auxiliary_loss_mlp": 0.010094,
      "balance_loss_clip": 1.03816175,
      "balance_loss_mlp": 1.0064671,
      "epoch": 0.12481212048337642,
      "flos": 69231156007680.0,
      "grad_norm": 0.8632232925062215,
      "language_loss": 0.62789464,
      "learning_rate": 3.906540388308214e-06,
      "loss": 0.64882427,
      "num_input_tokens_seen": 21958305,
      "step": 1038,
      "time_per_iteration": 3.21012020111084
    },
    {
      "auxiliary_loss_clip": 0.01105014,
      "auxiliary_loss_mlp": 0.01036689,
      "balance_loss_clip": 1.04320943,
      "balance_loss_mlp": 1.0282253,
      "epoch": 0.12493236337401552,
      "flos": 18225676776960.0,
      "grad_norm": 1.9638503430891738,
      "language_loss": 0.81483698,
      "learning_rate": 3.906304901508417e-06,
      "loss": 0.836254,
      "num_input_tokens_seen": 21977205,
      "step": 1039,
      "time_per_iteration": 2.6240077018737793
    },
    {
      "auxiliary_loss_clip": 0.01150138,
      "auxiliary_loss_mlp": 0.01034323,
      "balance_loss_clip": 1.05081213,
      "balance_loss_mlp": 1.02657473,
      "epoch": 0.12505260626465461,
      "flos": 30046975113600.0,
      "grad_norm": 2.3526061046782387,
      "language_loss": 0.75880897,
      "learning_rate": 3.9060691255236835e-06,
      "loss": 0.7806536,
      "num_input_tokens_seen": 21997770,
      "step": 1040,
      "time_per_iteration": 2.6650073528289795
    },
    {
      "auxiliary_loss_clip": 0.01147345,
      "auxiliary_loss_mlp": 0.01031415,
      "balance_loss_clip": 1.0466609,
      "balance_loss_mlp": 1.02235544,
      "epoch": 0.1251728491552937,
      "flos": 24436736507520.0,
      "grad_norm": 1.9596033539087991,
      "language_loss": 0.80750239,
      "learning_rate": 3.905833060389778e-06,
      "loss": 0.82928997,
      "num_input_tokens_seen": 22021890,
      "step": 1041,
      "time_per_iteration": 2.64900541305542
    },
    {
      "auxiliary_loss_clip": 0.01163509,
      "auxiliary_loss_mlp": 0.00757857,
      "balance_loss_clip": 1.05064714,
      "balance_loss_mlp": 0.99994802,
      "epoch": 0.12529309204593278,
      "flos": 27121928688000.0,
      "grad_norm": 3.61170847598814,
      "language_loss": 0.78248173,
      "learning_rate": 3.905596706142513e-06,
      "loss": 0.80169535,
      "num_input_tokens_seen": 22043300,
      "step": 1042,
      "time_per_iteration": 2.590644598007202
    },
    {
      "auxiliary_loss_clip": 0.01121205,
      "auxiliary_loss_mlp": 0.01033952,
      "balance_loss_clip": 1.04392862,
      "balance_loss_mlp": 1.02551162,
      "epoch": 0.12541333493657186,
      "flos": 30776795832960.0,
      "grad_norm": 3.2256680761266567,
      "language_loss": 0.86377156,
      "learning_rate": 3.9053600628177435e-06,
      "loss": 0.88532317,
      "num_input_tokens_seen": 22062910,
      "step": 1043,
      "time_per_iteration": 2.6701788902282715
    },
    {
      "auxiliary_loss_clip": 0.01161409,
      "auxiliary_loss_mlp": 0.01027322,
      "balance_loss_clip": 1.04874742,
      "balance_loss_mlp": 1.01901281,
      "epoch": 0.12553357782721097,
      "flos": 23661821139840.0,
      "grad_norm": 2.2878793512829483,
      "language_loss": 0.84691185,
      "learning_rate": 3.905123130451367e-06,
      "loss": 0.86879921,
      "num_input_tokens_seen": 22084010,
      "step": 1044,
      "time_per_iteration": 2.566816568374634
    },
    {
      "auxiliary_loss_clip": 0.01163478,
      "auxiliary_loss_mlp": 0.01029305,
      "balance_loss_clip": 1.05059123,
      "balance_loss_mlp": 1.02084088,
      "epoch": 0.12565382071785006,
      "flos": 24866089787520.0,
      "grad_norm": 1.9778633463525093,
      "language_loss": 0.7948693,
      "learning_rate": 3.904885909079326e-06,
      "loss": 0.81679714,
      "num_input_tokens_seen": 22102795,
      "step": 1045,
      "time_per_iteration": 2.5488080978393555
    },
    {
      "auxiliary_loss_clip": 0.01145603,
      "auxiliary_loss_mlp": 0.01029474,
      "balance_loss_clip": 1.04616368,
      "balance_loss_mlp": 1.0209918,
      "epoch": 0.12577406360848914,
      "flos": 21362897249280.0,
      "grad_norm": 4.683872758849319,
      "language_loss": 0.78208268,
      "learning_rate": 3.904648398737607e-06,
      "loss": 0.80383348,
      "num_input_tokens_seen": 22121360,
      "step": 1046,
      "time_per_iteration": 2.5772836208343506
    },
    {
      "auxiliary_loss_clip": 0.01161147,
      "auxiliary_loss_mlp": 0.01035023,
      "balance_loss_clip": 1.04878378,
      "balance_loss_mlp": 1.02644002,
      "epoch": 0.12589430649912825,
      "flos": 36141027413760.0,
      "grad_norm": 1.9921650914323286,
      "language_loss": 0.78297287,
      "learning_rate": 3.9044105994622406e-06,
      "loss": 0.80493462,
      "num_input_tokens_seen": 22142505,
      "step": 1047,
      "time_per_iteration": 2.6323347091674805
    },
    {
      "auxiliary_loss_clip": 0.011368,
      "auxiliary_loss_mlp": 0.007579,
      "balance_loss_clip": 1.04544461,
      "balance_loss_mlp": 0.99991345,
      "epoch": 0.12601454938976733,
      "flos": 25340006862720.0,
      "grad_norm": 2.0726836837390348,
      "language_loss": 0.81657362,
      "learning_rate": 3.9041725112893005e-06,
      "loss": 0.83552068,
      "num_input_tokens_seen": 22163730,
      "step": 1048,
      "time_per_iteration": 3.555575370788574
    },
    {
      "auxiliary_loss_clip": 0.01109852,
      "auxiliary_loss_mlp": 0.01033226,
      "balance_loss_clip": 1.04201579,
      "balance_loss_mlp": 1.02488744,
      "epoch": 0.12613479228040642,
      "flos": 15561918362880.0,
      "grad_norm": 3.0008644260544632,
      "language_loss": 0.75286198,
      "learning_rate": 3.903934134254904e-06,
      "loss": 0.77429271,
      "num_input_tokens_seen": 22181520,
      "step": 1049,
      "time_per_iteration": 2.5704386234283447
    },
    {
      "auxiliary_loss_clip": 0.01150082,
      "auxiliary_loss_mlp": 0.010345,
      "balance_loss_clip": 1.04887605,
      "balance_loss_mlp": 1.02530909,
      "epoch": 0.1262550351710455,
      "flos": 21472738162560.0,
      "grad_norm": 3.0346263990670255,
      "language_loss": 0.84745336,
      "learning_rate": 3.903695468395213e-06,
      "loss": 0.86929917,
      "num_input_tokens_seen": 22199390,
      "step": 1050,
      "time_per_iteration": 4.12397027015686
    },
    {
      "auxiliary_loss_clip": 0.01136287,
      "auxiliary_loss_mlp": 0.01032522,
      "balance_loss_clip": 1.04615736,
      "balance_loss_mlp": 1.02470767,
      "epoch": 0.1263752780616846,
      "flos": 31579401450240.0,
      "grad_norm": 1.967517030024537,
      "language_loss": 0.55691516,
      "learning_rate": 3.903456513746434e-06,
      "loss": 0.57860327,
      "num_input_tokens_seen": 22220365,
      "step": 1051,
      "time_per_iteration": 3.4419193267822266
    },
    {
      "auxiliary_loss_clip": 0.01162021,
      "auxiliary_loss_mlp": 0.01028652,
      "balance_loss_clip": 1.04989552,
      "balance_loss_mlp": 1.02070057,
      "epoch": 0.1264955209523237,
      "flos": 28770793683840.0,
      "grad_norm": 1.8424926692563919,
      "language_loss": 0.87466586,
      "learning_rate": 3.903217270344815e-06,
      "loss": 0.89657259,
      "num_input_tokens_seen": 22240615,
      "step": 1052,
      "time_per_iteration": 2.5951318740844727
    },
    {
      "auxiliary_loss_clip": 0.01114674,
      "auxiliary_loss_mlp": 0.01031962,
      "balance_loss_clip": 1.04277635,
      "balance_loss_mlp": 1.02374268,
      "epoch": 0.12661576384296278,
      "flos": 29243649052800.0,
      "grad_norm": 2.288936723818335,
      "language_loss": 0.82001412,
      "learning_rate": 3.902977738226648e-06,
      "loss": 0.84148049,
      "num_input_tokens_seen": 22261350,
      "step": 1053,
      "time_per_iteration": 2.6968724727630615
    },
    {
      "auxiliary_loss_clip": 0.01146488,
      "auxiliary_loss_mlp": 0.01036093,
      "balance_loss_clip": 1.04721665,
      "balance_loss_mlp": 1.02694368,
      "epoch": 0.12673600673360189,
      "flos": 20852455011840.0,
      "grad_norm": 2.172575425228881,
      "language_loss": 0.91163248,
      "learning_rate": 3.902737917428273e-06,
      "loss": 0.93345833,
      "num_input_tokens_seen": 22279515,
      "step": 1054,
      "time_per_iteration": 2.5694124698638916
    },
    {
      "auxiliary_loss_clip": 0.01161883,
      "auxiliary_loss_mlp": 0.01029168,
      "balance_loss_clip": 1.05005062,
      "balance_loss_mlp": 1.02070987,
      "epoch": 0.12685624962424097,
      "flos": 25265970668160.0,
      "grad_norm": 1.8288775655269112,
      "language_loss": 0.83928847,
      "learning_rate": 3.902497807986068e-06,
      "loss": 0.86119896,
      "num_input_tokens_seen": 22299535,
      "step": 1055,
      "time_per_iteration": 2.547236442565918
    },
    {
      "auxiliary_loss_clip": 0.01117607,
      "auxiliary_loss_mlp": 0.01033725,
      "balance_loss_clip": 1.0452131,
      "balance_loss_mlp": 1.02474213,
      "epoch": 0.12697649251488005,
      "flos": 27529582775040.0,
      "grad_norm": 1.8366221096410387,
      "language_loss": 0.83847499,
      "learning_rate": 3.902257409936458e-06,
      "loss": 0.85998827,
      "num_input_tokens_seen": 22320300,
      "step": 1056,
      "time_per_iteration": 2.7173986434936523
    },
    {
      "auxiliary_loss_clip": 0.01129115,
      "auxiliary_loss_mlp": 0.01032891,
      "balance_loss_clip": 1.0458113,
      "balance_loss_mlp": 1.02468371,
      "epoch": 0.12709673540551916,
      "flos": 21254004288000.0,
      "grad_norm": 2.23135356889628,
      "language_loss": 0.83758444,
      "learning_rate": 3.902016723315912e-06,
      "loss": 0.85920447,
      "num_input_tokens_seen": 22338240,
      "step": 1057,
      "time_per_iteration": 2.561725378036499
    },
    {
      "auxiliary_loss_clip": 0.01148708,
      "auxiliary_loss_mlp": 0.01033268,
      "balance_loss_clip": 1.04847789,
      "balance_loss_mlp": 1.02523303,
      "epoch": 0.12721697829615825,
      "flos": 25340044780800.0,
      "grad_norm": 2.7247635126444703,
      "language_loss": 0.69862497,
      "learning_rate": 3.901775748160941e-06,
      "loss": 0.7204448,
      "num_input_tokens_seen": 22357420,
      "step": 1058,
      "time_per_iteration": 2.6089649200439453
    },
    {
      "auxiliary_loss_clip": 0.01088092,
      "auxiliary_loss_mlp": 0.01002102,
      "balance_loss_clip": 1.03305483,
      "balance_loss_mlp": 0.99909747,
      "epoch": 0.12733722118679733,
      "flos": 61950277376640.0,
      "grad_norm": 0.8081921378252628,
      "language_loss": 0.60962856,
      "learning_rate": 3.901534484508101e-06,
      "loss": 0.63053054,
      "num_input_tokens_seen": 22420095,
      "step": 1059,
      "time_per_iteration": 3.1614322662353516
    },
    {
      "auxiliary_loss_clip": 0.01133982,
      "auxiliary_loss_mlp": 0.01027113,
      "balance_loss_clip": 1.04521477,
      "balance_loss_mlp": 1.01882195,
      "epoch": 0.1274574640774364,
      "flos": 26979013157760.0,
      "grad_norm": 2.0000125148783456,
      "language_loss": 0.74645603,
      "learning_rate": 3.901292932393991e-06,
      "loss": 0.768067,
      "num_input_tokens_seen": 22438975,
      "step": 1060,
      "time_per_iteration": 2.644301176071167
    },
    {
      "auxiliary_loss_clip": 0.01160795,
      "auxiliary_loss_mlp": 0.01031028,
      "balance_loss_clip": 1.0492276,
      "balance_loss_mlp": 1.0221591,
      "epoch": 0.12757770696807552,
      "flos": 22238477354880.0,
      "grad_norm": 2.90908894779423,
      "language_loss": 0.85590065,
      "learning_rate": 3.9010510918552555e-06,
      "loss": 0.87781888,
      "num_input_tokens_seen": 22458050,
      "step": 1061,
      "time_per_iteration": 2.510218381881714
    },
    {
      "auxiliary_loss_clip": 0.01135602,
      "auxiliary_loss_mlp": 0.01035364,
      "balance_loss_clip": 1.04699028,
      "balance_loss_mlp": 1.02632821,
      "epoch": 0.1276979498587146,
      "flos": 28550391413760.0,
      "grad_norm": 2.2856025289928716,
      "language_loss": 0.74632025,
      "learning_rate": 3.900808962928581e-06,
      "loss": 0.76802993,
      "num_input_tokens_seen": 22475665,
      "step": 1062,
      "time_per_iteration": 2.6509287357330322
    },
    {
      "auxiliary_loss_clip": 0.01161656,
      "auxiliary_loss_mlp": 0.01031865,
      "balance_loss_clip": 1.05050707,
      "balance_loss_mlp": 1.02346635,
      "epoch": 0.1278181927493537,
      "flos": 17422236961920.0,
      "grad_norm": 2.4240306557666327,
      "language_loss": 0.89326644,
      "learning_rate": 3.900566545650698e-06,
      "loss": 0.91520166,
      "num_input_tokens_seen": 22493335,
      "step": 1063,
      "time_per_iteration": 2.4794366359710693
    },
    {
      "auxiliary_loss_clip": 0.01144078,
      "auxiliary_loss_mlp": 0.01031096,
      "balance_loss_clip": 1.04707217,
      "balance_loss_mlp": 1.02170253,
      "epoch": 0.1279384356399928,
      "flos": 21140561157120.0,
      "grad_norm": 2.224840126904445,
      "language_loss": 0.82113415,
      "learning_rate": 3.900323840058381e-06,
      "loss": 0.84288585,
      "num_input_tokens_seen": 22511045,
      "step": 1064,
      "time_per_iteration": 2.5714707374572754
    },
    {
      "auxiliary_loss_clip": 0.01148148,
      "auxiliary_loss_mlp": 0.01030401,
      "balance_loss_clip": 1.04746342,
      "balance_loss_mlp": 1.02280116,
      "epoch": 0.12805867853063188,
      "flos": 26579056440960.0,
      "grad_norm": 1.9546600307785333,
      "language_loss": 0.81767452,
      "learning_rate": 3.900080846188449e-06,
      "loss": 0.83946002,
      "num_input_tokens_seen": 22529635,
      "step": 1065,
      "time_per_iteration": 2.591939926147461
    },
    {
      "auxiliary_loss_clip": 0.01160095,
      "auxiliary_loss_mlp": 0.01027219,
      "balance_loss_clip": 1.04781091,
      "balance_loss_mlp": 1.0184269,
      "epoch": 0.12817892142127096,
      "flos": 16438105157760.0,
      "grad_norm": 1.908069353568634,
      "language_loss": 0.80954701,
      "learning_rate": 3.8998375640777625e-06,
      "loss": 0.83142012,
      "num_input_tokens_seen": 22547505,
      "step": 1066,
      "time_per_iteration": 2.541759490966797
    },
    {
      "auxiliary_loss_clip": 0.01084111,
      "auxiliary_loss_mlp": 0.01002726,
      "balance_loss_clip": 1.03149891,
      "balance_loss_mlp": 0.99953079,
      "epoch": 0.12829916431191005,
      "flos": 60762930243840.0,
      "grad_norm": 0.7039716360855884,
      "language_loss": 0.52625364,
      "learning_rate": 3.899593993763229e-06,
      "loss": 0.547122,
      "num_input_tokens_seen": 22608465,
      "step": 1067,
      "time_per_iteration": 3.1043777465820312
    },
    {
      "auxiliary_loss_clip": 0.01117838,
      "auxiliary_loss_mlp": 0.01030298,
      "balance_loss_clip": 1.04535341,
      "balance_loss_mlp": 1.0209341,
      "epoch": 0.12841940720254916,
      "flos": 29789365155840.0,
      "grad_norm": 2.313900216281896,
      "language_loss": 0.81568646,
      "learning_rate": 3.899350135281796e-06,
      "loss": 0.8371678,
      "num_input_tokens_seen": 22629465,
      "step": 1068,
      "time_per_iteration": 2.7137041091918945
    },
    {
      "auxiliary_loss_clip": 0.01118368,
      "auxiliary_loss_mlp": 0.01030588,
      "balance_loss_clip": 1.04682457,
      "balance_loss_mlp": 1.02271402,
      "epoch": 0.12853965009318824,
      "flos": 25953881857920.0,
      "grad_norm": 1.9937602624098614,
      "language_loss": 0.79853702,
      "learning_rate": 3.8991059886704585e-06,
      "loss": 0.82002658,
      "num_input_tokens_seen": 22648970,
      "step": 1069,
      "time_per_iteration": 2.72658634185791
    },
    {
      "auxiliary_loss_clip": 0.01109472,
      "auxiliary_loss_mlp": 0.01034176,
      "balance_loss_clip": 1.04110003,
      "balance_loss_mlp": 1.02573586,
      "epoch": 0.12865989298382732,
      "flos": 30849504894720.0,
      "grad_norm": 2.0231217811942273,
      "language_loss": 0.82984841,
      "learning_rate": 3.898861553966252e-06,
      "loss": 0.85128486,
      "num_input_tokens_seen": 22668620,
      "step": 1070,
      "time_per_iteration": 2.6625635623931885
    },
    {
      "auxiliary_loss_clip": 0.01077203,
      "auxiliary_loss_mlp": 0.01029914,
      "balance_loss_clip": 1.0409224,
      "balance_loss_mlp": 1.02158165,
      "epoch": 0.12878013587446643,
      "flos": 25888187640960.0,
      "grad_norm": 1.600943700661481,
      "language_loss": 0.88150489,
      "learning_rate": 3.898616831206257e-06,
      "loss": 0.90257609,
      "num_input_tokens_seen": 22689045,
      "step": 1071,
      "time_per_iteration": 2.838696002960205
    },
    {
      "auxiliary_loss_clip": 0.01122223,
      "auxiliary_loss_mlp": 0.01029987,
      "balance_loss_clip": 1.04543757,
      "balance_loss_mlp": 1.02091551,
      "epoch": 0.12890037876510552,
      "flos": 23335483518720.0,
      "grad_norm": 2.0619858746561506,
      "language_loss": 0.76940358,
      "learning_rate": 3.8983718204276e-06,
      "loss": 0.79092562,
      "num_input_tokens_seen": 22711265,
      "step": 1072,
      "time_per_iteration": 2.660088539123535
    },
    {
      "auxiliary_loss_clip": 0.01132271,
      "auxiliary_loss_mlp": 0.01032971,
      "balance_loss_clip": 1.04654098,
      "balance_loss_mlp": 1.02474594,
      "epoch": 0.1290206216557446,
      "flos": 23589529176960.0,
      "grad_norm": 1.7529283954898272,
      "language_loss": 0.82758844,
      "learning_rate": 3.898126521667446e-06,
      "loss": 0.8492409,
      "num_input_tokens_seen": 22731420,
      "step": 1073,
      "time_per_iteration": 2.648500919342041
    },
    {
      "auxiliary_loss_clip": 0.0114679,
      "auxiliary_loss_mlp": 0.01038125,
      "balance_loss_clip": 1.04674661,
      "balance_loss_mlp": 1.02957749,
      "epoch": 0.12914086454638368,
      "flos": 24172907984640.0,
      "grad_norm": 1.761357384352352,
      "language_loss": 0.83565009,
      "learning_rate": 3.897880934963007e-06,
      "loss": 0.85749924,
      "num_input_tokens_seen": 22750970,
      "step": 1074,
      "time_per_iteration": 3.2946202754974365
    },
    {
      "auxiliary_loss_clip": 0.0113442,
      "auxiliary_loss_mlp": 0.01025361,
      "balance_loss_clip": 1.04540467,
      "balance_loss_mlp": 1.01718926,
      "epoch": 0.1292611074370228,
      "flos": 20269265794560.0,
      "grad_norm": 1.901832134690497,
      "language_loss": 0.78305936,
      "learning_rate": 3.89763506035154e-06,
      "loss": 0.80465722,
      "num_input_tokens_seen": 22768820,
      "step": 1075,
      "time_per_iteration": 2.6235461235046387
    },
    {
      "auxiliary_loss_clip": 0.01148392,
      "auxiliary_loss_mlp": 0.0102686,
      "balance_loss_clip": 1.04829919,
      "balance_loss_mlp": 1.01835442,
      "epoch": 0.12938135032766188,
      "flos": 27379955744640.0,
      "grad_norm": 1.9290910030839525,
      "language_loss": 0.81209719,
      "learning_rate": 3.897388897870343e-06,
      "loss": 0.83384979,
      "num_input_tokens_seen": 22789460,
      "step": 1076,
      "time_per_iteration": 4.1297547817230225
    },
    {
      "auxiliary_loss_clip": 0.01134717,
      "auxiliary_loss_mlp": 0.01026342,
      "balance_loss_clip": 1.04601574,
      "balance_loss_mlp": 1.01705575,
      "epoch": 0.12950159321830096,
      "flos": 29279605443840.0,
      "grad_norm": 1.9044066718383699,
      "language_loss": 0.74804169,
      "learning_rate": 3.89714244755676e-06,
      "loss": 0.76965225,
      "num_input_tokens_seen": 22810820,
      "step": 1077,
      "time_per_iteration": 3.3358380794525146
    },
    {
      "auxiliary_loss_clip": 0.01110505,
      "auxiliary_loss_mlp": 0.01033146,
      "balance_loss_clip": 1.04339123,
      "balance_loss_mlp": 1.02465868,
      "epoch": 0.12962183610894007,
      "flos": 24537173736960.0,
      "grad_norm": 2.412859415302009,
      "language_loss": 0.86438733,
      "learning_rate": 3.896895709448175e-06,
      "loss": 0.88582385,
      "num_input_tokens_seen": 22830570,
      "step": 1078,
      "time_per_iteration": 2.6908650398254395
    },
    {
      "auxiliary_loss_clip": 0.01079665,
      "auxiliary_loss_mlp": 0.01031073,
      "balance_loss_clip": 1.03831124,
      "balance_loss_mlp": 1.02287173,
      "epoch": 0.12974207899957915,
      "flos": 11217395796480.0,
      "grad_norm": 42.852677950266695,
      "language_loss": 0.773736,
      "learning_rate": 3.896648683582019e-06,
      "loss": 0.79484344,
      "num_input_tokens_seen": 22845905,
      "step": 1079,
      "time_per_iteration": 2.644395351409912
    },
    {
      "auxiliary_loss_clip": 0.01096306,
      "auxiliary_loss_mlp": 0.01030748,
      "balance_loss_clip": 1.04184103,
      "balance_loss_mlp": 1.02258849,
      "epoch": 0.12986232189021824,
      "flos": 24720216647040.0,
      "grad_norm": 2.1825630960512483,
      "language_loss": 0.80794126,
      "learning_rate": 3.896401369995766e-06,
      "loss": 0.82921183,
      "num_input_tokens_seen": 22865710,
      "step": 1080,
      "time_per_iteration": 2.727703809738159
    },
    {
      "auxiliary_loss_clip": 0.01159568,
      "auxiliary_loss_mlp": 0.01038122,
      "balance_loss_clip": 1.04868913,
      "balance_loss_mlp": 1.0299499,
      "epoch": 0.12998256478085732,
      "flos": 23917648947840.0,
      "grad_norm": 1.7720340550974722,
      "language_loss": 0.79743326,
      "learning_rate": 3.896153768726932e-06,
      "loss": 0.81941009,
      "num_input_tokens_seen": 22886020,
      "step": 1081,
      "time_per_iteration": 2.58396053314209
    },
    {
      "auxiliary_loss_clip": 0.0114288,
      "auxiliary_loss_mlp": 0.01028948,
      "balance_loss_clip": 1.04639292,
      "balance_loss_mlp": 1.02066851,
      "epoch": 0.13010280767149643,
      "flos": 18626164346880.0,
      "grad_norm": 2.430380975872467,
      "language_loss": 0.8785677,
      "learning_rate": 3.8959058798130806e-06,
      "loss": 0.9002859,
      "num_input_tokens_seen": 22903995,
      "step": 1082,
      "time_per_iteration": 2.5123045444488525
    },
    {
      "auxiliary_loss_clip": 0.01135374,
      "auxiliary_loss_mlp": 0.0075777,
      "balance_loss_clip": 1.04657972,
      "balance_loss_mlp": 0.99996078,
      "epoch": 0.1302230505621355,
      "flos": 22786203116160.0,
      "grad_norm": 1.7799847375104665,
      "language_loss": 0.74620926,
      "learning_rate": 3.895657703291814e-06,
      "loss": 0.76514065,
      "num_input_tokens_seen": 22924100,
      "step": 1083,
      "time_per_iteration": 2.6312952041625977
    },
    {
      "auxiliary_loss_clip": 0.01131965,
      "auxiliary_loss_mlp": 0.01029641,
      "balance_loss_clip": 1.04457152,
      "balance_loss_mlp": 1.02056968,
      "epoch": 0.1303432934527746,
      "flos": 21325689561600.0,
      "grad_norm": 2.6744156526288987,
      "language_loss": 0.79528445,
      "learning_rate": 3.895409239200781e-06,
      "loss": 0.81690049,
      "num_input_tokens_seen": 22939985,
      "step": 1084,
      "time_per_iteration": 2.5751607418060303
    },
    {
      "auxiliary_loss_clip": 0.01146163,
      "auxiliary_loss_mlp": 0.01029907,
      "balance_loss_clip": 1.04554892,
      "balance_loss_mlp": 1.02070391,
      "epoch": 0.1304635363434137,
      "flos": 20924557384320.0,
      "grad_norm": 3.5176575210891525,
      "language_loss": 0.91694301,
      "learning_rate": 3.895160487577673e-06,
      "loss": 0.93870372,
      "num_input_tokens_seen": 22957555,
      "step": 1085,
      "time_per_iteration": 2.572422742843628
    },
    {
      "auxiliary_loss_clip": 0.01106976,
      "auxiliary_loss_mlp": 0.01006871,
      "balance_loss_clip": 1.03676116,
      "balance_loss_mlp": 1.00353336,
      "epoch": 0.1305837792340528,
      "flos": 63252101479680.0,
      "grad_norm": 0.789101815716558,
      "language_loss": 0.6085645,
      "learning_rate": 3.894911448460226e-06,
      "loss": 0.62970304,
      "num_input_tokens_seen": 23016870,
      "step": 1086,
      "time_per_iteration": 3.0167555809020996
    },
    {
      "auxiliary_loss_clip": 0.01071229,
      "auxiliary_loss_mlp": 0.01035694,
      "balance_loss_clip": 1.0365026,
      "balance_loss_mlp": 1.02690792,
      "epoch": 0.13070402212469187,
      "flos": 26431059888000.0,
      "grad_norm": 1.8672825157755304,
      "language_loss": 0.72772264,
      "learning_rate": 3.8946621218862195e-06,
      "loss": 0.74879181,
      "num_input_tokens_seen": 23037870,
      "step": 1087,
      "time_per_iteration": 3.000514030456543
    },
    {
      "auxiliary_loss_clip": 0.01103491,
      "auxiliary_loss_mlp": 0.01033394,
      "balance_loss_clip": 1.0399065,
      "balance_loss_mlp": 1.02515626,
      "epoch": 0.13082426501533098,
      "flos": 27675910932480.0,
      "grad_norm": 1.8642381318889192,
      "language_loss": 0.8898688,
      "learning_rate": 3.894412507893475e-06,
      "loss": 0.9112376,
      "num_input_tokens_seen": 23058150,
      "step": 1088,
      "time_per_iteration": 2.920564651489258
    },
    {
      "auxiliary_loss_clip": 0.01101387,
      "auxiliary_loss_mlp": 0.01034904,
      "balance_loss_clip": 1.04288602,
      "balance_loss_mlp": 1.02601099,
      "epoch": 0.13094450790597006,
      "flos": 24829071690240.0,
      "grad_norm": 5.519988901306309,
      "language_loss": 0.72247422,
      "learning_rate": 3.894162606519859e-06,
      "loss": 0.74383712,
      "num_input_tokens_seen": 23077100,
      "step": 1089,
      "time_per_iteration": 2.7202484607696533
    },
    {
      "auxiliary_loss_clip": 0.01093614,
      "auxiliary_loss_mlp": 0.01030619,
      "balance_loss_clip": 1.03978586,
      "balance_loss_mlp": 1.02253699,
      "epoch": 0.13106475079660915,
      "flos": 19064617966080.0,
      "grad_norm": 2.1378522740401182,
      "language_loss": 0.77363563,
      "learning_rate": 3.893912417803282e-06,
      "loss": 0.79487789,
      "num_input_tokens_seen": 23096815,
      "step": 1090,
      "time_per_iteration": 2.624347448348999
    },
    {
      "auxiliary_loss_clip": 0.0110799,
      "auxiliary_loss_mlp": 0.01028927,
      "balance_loss_clip": 1.04160416,
      "balance_loss_mlp": 1.02068424,
      "epoch": 0.13118499368724823,
      "flos": 28915718872320.0,
      "grad_norm": 1.924524966074345,
      "language_loss": 0.7681607,
      "learning_rate": 3.8936619417816975e-06,
      "loss": 0.78952992,
      "num_input_tokens_seen": 23117145,
      "step": 1091,
      "time_per_iteration": 2.714279890060425
    },
    {
      "auxiliary_loss_clip": 0.01107956,
      "auxiliary_loss_mlp": 0.01027791,
      "balance_loss_clip": 1.04047072,
      "balance_loss_mlp": 1.01960146,
      "epoch": 0.13130523657788734,
      "flos": 14285168161920.0,
      "grad_norm": 1.9885073387109888,
      "language_loss": 0.71825397,
      "learning_rate": 3.8934111784931015e-06,
      "loss": 0.73961145,
      "num_input_tokens_seen": 23134595,
      "step": 1092,
      "time_per_iteration": 2.627629280090332
    },
    {
      "auxiliary_loss_clip": 0.01096237,
      "auxiliary_loss_mlp": 0.01013299,
      "balance_loss_clip": 1.03784943,
      "balance_loss_mlp": 1.00993776,
      "epoch": 0.13142547946852642,
      "flos": 70180772307840.0,
      "grad_norm": 0.9115635668552837,
      "language_loss": 0.59058315,
      "learning_rate": 3.893160127975535e-06,
      "loss": 0.61167842,
      "num_input_tokens_seen": 23195285,
      "step": 1093,
      "time_per_iteration": 3.2686545848846436
    },
    {
      "auxiliary_loss_clip": 0.0110276,
      "auxiliary_loss_mlp": 0.01029173,
      "balance_loss_clip": 1.04273868,
      "balance_loss_mlp": 1.02088213,
      "epoch": 0.1315457223591655,
      "flos": 45809464590720.0,
      "grad_norm": 2.3798267550694745,
      "language_loss": 0.81199604,
      "learning_rate": 3.8929087902670826e-06,
      "loss": 0.83331537,
      "num_input_tokens_seen": 23216915,
      "step": 1094,
      "time_per_iteration": 2.879045009613037
    },
    {
      "auxiliary_loss_clip": 0.01107358,
      "auxiliary_loss_mlp": 0.01006968,
      "balance_loss_clip": 1.03741813,
      "balance_loss_mlp": 1.00343919,
      "epoch": 0.13166596524980462,
      "flos": 62887608218880.0,
      "grad_norm": 0.9470420464430035,
      "language_loss": 0.60714149,
      "learning_rate": 3.8926571654058715e-06,
      "loss": 0.62828481,
      "num_input_tokens_seen": 23273560,
      "step": 1095,
      "time_per_iteration": 3.0471036434173584
    },
    {
      "auxiliary_loss_clip": 0.01109052,
      "auxiliary_loss_mlp": 0.01028822,
      "balance_loss_clip": 1.04216695,
      "balance_loss_mlp": 1.0203824,
      "epoch": 0.1317862081404437,
      "flos": 23588770815360.0,
      "grad_norm": 2.3794023631489787,
      "language_loss": 0.77870804,
      "learning_rate": 3.892405253430074e-06,
      "loss": 0.80008674,
      "num_input_tokens_seen": 23291080,
      "step": 1096,
      "time_per_iteration": 2.630120277404785
    },
    {
      "auxiliary_loss_clip": 0.01127187,
      "auxiliary_loss_mlp": 0.00757755,
      "balance_loss_clip": 1.04486203,
      "balance_loss_mlp": 1.00001514,
      "epoch": 0.13190645103108278,
      "flos": 20262516376320.0,
      "grad_norm": 2.1331597283618775,
      "language_loss": 0.82488286,
      "learning_rate": 3.892153054377904e-06,
      "loss": 0.84373224,
      "num_input_tokens_seen": 23308485,
      "step": 1097,
      "time_per_iteration": 2.5761349201202393
    },
    {
      "auxiliary_loss_clip": 0.01033058,
      "auxiliary_loss_mlp": 0.01005944,
      "balance_loss_clip": 1.02207041,
      "balance_loss_mlp": 1.00284469,
      "epoch": 0.13202669392172187,
      "flos": 53460665815680.0,
      "grad_norm": 0.9373189456806229,
      "language_loss": 0.59493864,
      "learning_rate": 3.891900568287619e-06,
      "loss": 0.61532861,
      "num_input_tokens_seen": 23360870,
      "step": 1098,
      "time_per_iteration": 3.185478448867798
    },
    {
      "auxiliary_loss_clip": 0.01114976,
      "auxiliary_loss_mlp": 0.01026442,
      "balance_loss_clip": 1.04207325,
      "balance_loss_mlp": 1.01753664,
      "epoch": 0.13214693681236098,
      "flos": 15853095872640.0,
      "grad_norm": 3.6354559420877757,
      "language_loss": 0.72296226,
      "learning_rate": 3.891647795197523e-06,
      "loss": 0.74437642,
      "num_input_tokens_seen": 23376910,
      "step": 1099,
      "time_per_iteration": 3.751652479171753
    },
    {
      "auxiliary_loss_clip": 0.01114986,
      "auxiliary_loss_mlp": 0.01031623,
      "balance_loss_clip": 1.04276669,
      "balance_loss_mlp": 1.02256346,
      "epoch": 0.13226717970300006,
      "flos": 19355833393920.0,
      "grad_norm": 2.150532918361249,
      "language_loss": 0.69008934,
      "learning_rate": 3.8913947351459605e-06,
      "loss": 0.71155542,
      "num_input_tokens_seen": 23394450,
      "step": 1100,
      "time_per_iteration": 2.6028215885162354
    },
    {
      "auxiliary_loss_clip": 0.01158096,
      "auxiliary_loss_mlp": 0.01030731,
      "balance_loss_clip": 1.04792476,
      "balance_loss_mlp": 1.02303016,
      "epoch": 0.13238742259363914,
      "flos": 20699832453120.0,
      "grad_norm": 2.1501107366741055,
      "language_loss": 0.67758834,
      "learning_rate": 3.89114138817132e-06,
      "loss": 0.6994766,
      "num_input_tokens_seen": 23411115,
      "step": 1101,
      "time_per_iteration": 3.303431749343872
    },
    {
      "auxiliary_loss_clip": 0.01141992,
      "auxiliary_loss_mlp": 0.01031921,
      "balance_loss_clip": 1.0462389,
      "balance_loss_mlp": 1.02358556,
      "epoch": 0.13250766548427825,
      "flos": 21034549969920.0,
      "grad_norm": 2.293497084174221,
      "language_loss": 0.8472271,
      "learning_rate": 3.890887754312035e-06,
      "loss": 0.86896622,
      "num_input_tokens_seen": 23429360,
      "step": 1102,
      "time_per_iteration": 3.3082869052886963
    },
    {
      "auxiliary_loss_clip": 0.01120639,
      "auxiliary_loss_mlp": 0.0103423,
      "balance_loss_clip": 1.03936768,
      "balance_loss_mlp": 1.02602279,
      "epoch": 0.13262790837491734,
      "flos": 22640064549120.0,
      "grad_norm": 1.964679319008954,
      "language_loss": 0.87602657,
      "learning_rate": 3.890633833606581e-06,
      "loss": 0.89757526,
      "num_input_tokens_seen": 23449050,
      "step": 1103,
      "time_per_iteration": 3.350815534591675
    },
    {
      "auxiliary_loss_clip": 0.0114296,
      "auxiliary_loss_mlp": 0.0102906,
      "balance_loss_clip": 1.0483042,
      "balance_loss_mlp": 1.02107882,
      "epoch": 0.13274815126555642,
      "flos": 19685204461440.0,
      "grad_norm": 1.809856595329827,
      "language_loss": 0.69820625,
      "learning_rate": 3.890379626093477e-06,
      "loss": 0.71992648,
      "num_input_tokens_seen": 23468800,
      "step": 1104,
      "time_per_iteration": 2.562323570251465
    },
    {
      "auxiliary_loss_clip": 0.01088486,
      "auxiliary_loss_mlp": 0.01028644,
      "balance_loss_clip": 1.0370717,
      "balance_loss_mlp": 1.01972675,
      "epoch": 0.1328683941561955,
      "flos": 21319433078400.0,
      "grad_norm": 2.4934817087227157,
      "language_loss": 0.92269766,
      "learning_rate": 3.890125131811287e-06,
      "loss": 0.94386894,
      "num_input_tokens_seen": 23486850,
      "step": 1105,
      "time_per_iteration": 2.637371778488159
    },
    {
      "auxiliary_loss_clip": 0.01131321,
      "auxiliary_loss_mlp": 0.01030927,
      "balance_loss_clip": 1.04444003,
      "balance_loss_mlp": 1.02314842,
      "epoch": 0.1329886370468346,
      "flos": 13700841402240.0,
      "grad_norm": 1.9960579995587222,
      "language_loss": 0.75683081,
      "learning_rate": 3.889870350798618e-06,
      "loss": 0.77845335,
      "num_input_tokens_seen": 23504195,
      "step": 1106,
      "time_per_iteration": 2.589681386947632
    },
    {
      "auxiliary_loss_clip": 0.01155324,
      "auxiliary_loss_mlp": 0.01030065,
      "balance_loss_clip": 1.04557431,
      "balance_loss_mlp": 1.02204776,
      "epoch": 0.1331088799374737,
      "flos": 21034512051840.0,
      "grad_norm": 1.670438592270436,
      "language_loss": 0.78614306,
      "learning_rate": 3.889615283094119e-06,
      "loss": 0.80799699,
      "num_input_tokens_seen": 23523385,
      "step": 1107,
      "time_per_iteration": 2.5120468139648438
    },
    {
      "auxiliary_loss_clip": 0.01157633,
      "auxiliary_loss_mlp": 0.01031006,
      "balance_loss_clip": 1.04719543,
      "balance_loss_mlp": 1.02190387,
      "epoch": 0.13322912282811278,
      "flos": 18262429447680.0,
      "grad_norm": 2.1561208296385233,
      "language_loss": 0.84436941,
      "learning_rate": 3.889359928736485e-06,
      "loss": 0.86625576,
      "num_input_tokens_seen": 23541330,
      "step": 1108,
      "time_per_iteration": 2.549715757369995
    },
    {
      "auxiliary_loss_clip": 0.0111258,
      "auxiliary_loss_mlp": 0.00757794,
      "balance_loss_clip": 1.03864264,
      "balance_loss_mlp": 1.00000477,
      "epoch": 0.1333493657187519,
      "flos": 24463099624320.0,
      "grad_norm": 2.143251558836114,
      "language_loss": 0.91231859,
      "learning_rate": 3.889104287764451e-06,
      "loss": 0.93102241,
      "num_input_tokens_seen": 23561705,
      "step": 1109,
      "time_per_iteration": 2.587944746017456
    },
    {
      "auxiliary_loss_clip": 0.01125558,
      "auxiliary_loss_mlp": 0.01032494,
      "balance_loss_clip": 1.04511166,
      "balance_loss_mlp": 1.02400029,
      "epoch": 0.13346960860939097,
      "flos": 22160838942720.0,
      "grad_norm": 1.8430921758491656,
      "language_loss": 0.9061833,
      "learning_rate": 3.888848360216798e-06,
      "loss": 0.92776382,
      "num_input_tokens_seen": 23579350,
      "step": 1110,
      "time_per_iteration": 2.6115338802337646
    },
    {
      "auxiliary_loss_clip": 0.01097988,
      "auxiliary_loss_mlp": 0.01006958,
      "balance_loss_clip": 1.04030943,
      "balance_loss_mlp": 1.00352526,
      "epoch": 0.13358985150003005,
      "flos": 67938773506560.0,
      "grad_norm": 0.7972841341883246,
      "language_loss": 0.56611216,
      "learning_rate": 3.888592146132351e-06,
      "loss": 0.58716166,
      "num_input_tokens_seen": 23640620,
      "step": 1111,
      "time_per_iteration": 3.270551919937134
    },
    {
      "auxiliary_loss_clip": 0.01140079,
      "auxiliary_loss_mlp": 0.01036045,
      "balance_loss_clip": 1.04507554,
      "balance_loss_mlp": 1.02773619,
      "epoch": 0.13371009439066917,
      "flos": 26836742234880.0,
      "grad_norm": 1.6971974469465605,
      "language_loss": 0.78460813,
      "learning_rate": 3.888335645549978e-06,
      "loss": 0.80636942,
      "num_input_tokens_seen": 23661040,
      "step": 1112,
      "time_per_iteration": 2.5618460178375244
    },
    {
      "auxiliary_loss_clip": 0.01158357,
      "auxiliary_loss_mlp": 0.0103235,
      "balance_loss_clip": 1.04949927,
      "balance_loss_mlp": 1.02379084,
      "epoch": 0.13383033728130825,
      "flos": 26325238291200.0,
      "grad_norm": 2.730063891531217,
      "language_loss": 0.81377774,
      "learning_rate": 3.888078858508588e-06,
      "loss": 0.83568478,
      "num_input_tokens_seen": 23680900,
      "step": 1113,
      "time_per_iteration": 2.569453477859497
    },
    {
      "auxiliary_loss_clip": 0.01122485,
      "auxiliary_loss_mlp": 0.01029955,
      "balance_loss_clip": 1.04270744,
      "balance_loss_mlp": 1.02160478,
      "epoch": 0.13395058017194733,
      "flos": 22566066272640.0,
      "grad_norm": 1.8114960049473248,
      "language_loss": 0.84377992,
      "learning_rate": 3.8878217850471365e-06,
      "loss": 0.86530435,
      "num_input_tokens_seen": 23700815,
      "step": 1114,
      "time_per_iteration": 2.5643208026885986
    },
    {
      "auxiliary_loss_clip": 0.0115875,
      "auxiliary_loss_mlp": 0.01034785,
      "balance_loss_clip": 1.04925156,
      "balance_loss_mlp": 1.0256412,
      "epoch": 0.13407082306258641,
      "flos": 25813241412480.0,
      "grad_norm": 1.969899213559186,
      "language_loss": 0.73748523,
      "learning_rate": 3.887564425204621e-06,
      "loss": 0.75942063,
      "num_input_tokens_seen": 23722500,
      "step": 1115,
      "time_per_iteration": 2.588251829147339
    },
    {
      "auxiliary_loss_clip": 0.01081731,
      "auxiliary_loss_mlp": 0.01004557,
      "balance_loss_clip": 1.03992748,
      "balance_loss_mlp": 1.00121915,
      "epoch": 0.13419106595322552,
      "flos": 68344238396160.0,
      "grad_norm": 0.8451753112140317,
      "language_loss": 0.54582345,
      "learning_rate": 3.887306779020083e-06,
      "loss": 0.56668633,
      "num_input_tokens_seen": 23777155,
      "step": 1116,
      "time_per_iteration": 3.1088078022003174
    },
    {
      "auxiliary_loss_clip": 0.01143574,
      "auxiliary_loss_mlp": 0.01032807,
      "balance_loss_clip": 1.04787326,
      "balance_loss_mlp": 1.02406883,
      "epoch": 0.1343113088438646,
      "flos": 20451171162240.0,
      "grad_norm": 2.019124808699022,
      "language_loss": 0.70724386,
      "learning_rate": 3.887048846532608e-06,
      "loss": 0.72900772,
      "num_input_tokens_seen": 23794130,
      "step": 1117,
      "time_per_iteration": 2.590254068374634
    },
    {
      "auxiliary_loss_clip": 0.01086298,
      "auxiliary_loss_mlp": 0.01004004,
      "balance_loss_clip": 1.04211724,
      "balance_loss_mlp": 1.00061798,
      "epoch": 0.1344315517345037,
      "flos": 67395607966080.0,
      "grad_norm": 0.7702535682154116,
      "language_loss": 0.58154637,
      "learning_rate": 3.8867906277813224e-06,
      "loss": 0.60244942,
      "num_input_tokens_seen": 23852285,
      "step": 1118,
      "time_per_iteration": 3.0674526691436768
    },
    {
      "auxiliary_loss_clip": 0.01144007,
      "auxiliary_loss_mlp": 0.00757563,
      "balance_loss_clip": 1.04687333,
      "balance_loss_mlp": 0.9999733,
      "epoch": 0.1345517946251428,
      "flos": 40737623898240.0,
      "grad_norm": 1.9057173488656898,
      "language_loss": 0.7353487,
      "learning_rate": 3.886532122805399e-06,
      "loss": 0.75436443,
      "num_input_tokens_seen": 23874765,
      "step": 1119,
      "time_per_iteration": 2.733004331588745
    },
    {
      "auxiliary_loss_clip": 0.01090159,
      "auxiliary_loss_mlp": 0.010332,
      "balance_loss_clip": 1.04340267,
      "balance_loss_mlp": 1.02400315,
      "epoch": 0.13467203751578188,
      "flos": 22818860634240.0,
      "grad_norm": 1.98196027642853,
      "language_loss": 0.89712656,
      "learning_rate": 3.886273331644053e-06,
      "loss": 0.91836017,
      "num_input_tokens_seen": 23893635,
      "step": 1120,
      "time_per_iteration": 2.663846254348755
    },
    {
      "auxiliary_loss_clip": 0.0109438,
      "auxiliary_loss_mlp": 0.01027673,
      "balance_loss_clip": 1.03985727,
      "balance_loss_mlp": 1.01966178,
      "epoch": 0.13479228040642097,
      "flos": 17093434665600.0,
      "grad_norm": 2.0867976236273718,
      "language_loss": 0.82176292,
      "learning_rate": 3.886014254336542e-06,
      "loss": 0.84298337,
      "num_input_tokens_seen": 23910110,
      "step": 1121,
      "time_per_iteration": 2.630220651626587
    },
    {
      "auxiliary_loss_clip": 0.01145118,
      "auxiliary_loss_mlp": 0.01029237,
      "balance_loss_clip": 1.04831696,
      "balance_loss_mlp": 1.02126217,
      "epoch": 0.13491252329706005,
      "flos": 23732672215680.0,
      "grad_norm": 1.6917609424603748,
      "language_loss": 0.92345619,
      "learning_rate": 3.885754890922168e-06,
      "loss": 0.94519967,
      "num_input_tokens_seen": 23930440,
      "step": 1122,
      "time_per_iteration": 2.592988967895508
    },
    {
      "auxiliary_loss_clip": 0.0106506,
      "auxiliary_loss_mlp": 0.01033653,
      "balance_loss_clip": 1.03646934,
      "balance_loss_mlp": 1.02465284,
      "epoch": 0.13503276618769916,
      "flos": 34129678815360.0,
      "grad_norm": 5.556462585025339,
      "language_loss": 0.78307694,
      "learning_rate": 3.885495241440277e-06,
      "loss": 0.80406404,
      "num_input_tokens_seen": 23954535,
      "step": 1123,
      "time_per_iteration": 2.784937620162964
    },
    {
      "auxiliary_loss_clip": 0.01156064,
      "auxiliary_loss_mlp": 0.01033113,
      "balance_loss_clip": 1.04810905,
      "balance_loss_mlp": 1.02485764,
      "epoch": 0.13515300907833824,
      "flos": 17714248669440.0,
      "grad_norm": 1.726408259948503,
      "language_loss": 0.7417649,
      "learning_rate": 3.885235305930257e-06,
      "loss": 0.76365668,
      "num_input_tokens_seen": 23972735,
      "step": 1124,
      "time_per_iteration": 2.5235204696655273
    },
    {
      "auxiliary_loss_clip": 0.01116374,
      "auxiliary_loss_mlp": 0.01034781,
      "balance_loss_clip": 1.04643738,
      "balance_loss_mlp": 1.02590597,
      "epoch": 0.13527325196897733,
      "flos": 20262630130560.0,
      "grad_norm": 1.9161323852913026,
      "language_loss": 0.85174739,
      "learning_rate": 3.884975084431539e-06,
      "loss": 0.87325895,
      "num_input_tokens_seen": 23987685,
      "step": 1125,
      "time_per_iteration": 3.4023308753967285
    },
    {
      "auxiliary_loss_clip": 0.01144908,
      "auxiliary_loss_mlp": 0.00757844,
      "balance_loss_clip": 1.04844403,
      "balance_loss_mlp": 0.9999702,
      "epoch": 0.13539349485961644,
      "flos": 18188431171200.0,
      "grad_norm": 2.368675139451596,
      "language_loss": 0.91193545,
      "learning_rate": 3.8847145769836e-06,
      "loss": 0.93096292,
      "num_input_tokens_seen": 24004105,
      "step": 1126,
      "time_per_iteration": 2.5925965309143066
    },
    {
      "auxiliary_loss_clip": 0.011565,
      "auxiliary_loss_mlp": 0.01028604,
      "balance_loss_clip": 1.0473454,
      "balance_loss_mlp": 1.0194782,
      "epoch": 0.13551373775025552,
      "flos": 19319459904000.0,
      "grad_norm": 3.134580197811434,
      "language_loss": 0.66515732,
      "learning_rate": 3.884453783625959e-06,
      "loss": 0.68700838,
      "num_input_tokens_seen": 24021715,
      "step": 1127,
      "time_per_iteration": 3.238598346710205
    },
    {
      "auxiliary_loss_clip": 0.01115994,
      "auxiliary_loss_mlp": 0.01025579,
      "balance_loss_clip": 1.04002404,
      "balance_loss_mlp": 1.01775336,
      "epoch": 0.1356339806408946,
      "flos": 20852947946880.0,
      "grad_norm": 3.627182888921711,
      "language_loss": 0.84781206,
      "learning_rate": 3.884192704398176e-06,
      "loss": 0.86922777,
      "num_input_tokens_seen": 24038915,
      "step": 1128,
      "time_per_iteration": 4.117533922195435
    },
    {
      "auxiliary_loss_clip": 0.01145509,
      "auxiliary_loss_mlp": 0.0103867,
      "balance_loss_clip": 1.04658759,
      "balance_loss_mlp": 1.03063536,
      "epoch": 0.13575422353153369,
      "flos": 50479756007040.0,
      "grad_norm": 1.7915864131296149,
      "language_loss": 0.7428304,
      "learning_rate": 3.883931339339858e-06,
      "loss": 0.76467216,
      "num_input_tokens_seen": 24063300,
      "step": 1129,
      "time_per_iteration": 2.847210168838501
    },
    {
      "auxiliary_loss_clip": 0.01142567,
      "auxiliary_loss_mlp": 0.01028218,
      "balance_loss_clip": 1.04635429,
      "balance_loss_mlp": 1.01965857,
      "epoch": 0.1358744664221728,
      "flos": 18152778124800.0,
      "grad_norm": 1.9496274764287118,
      "language_loss": 0.78915495,
      "learning_rate": 3.883669688490654e-06,
      "loss": 0.81086284,
      "num_input_tokens_seen": 24081070,
      "step": 1130,
      "time_per_iteration": 2.5075132846832275
    },
    {
      "auxiliary_loss_clip": 0.01127959,
      "auxiliary_loss_mlp": 0.00757498,
      "balance_loss_clip": 1.04400277,
      "balance_loss_mlp": 0.99993443,
      "epoch": 0.13599470931281188,
      "flos": 18444979422720.0,
      "grad_norm": 2.262354786633642,
      "language_loss": 0.85593563,
      "learning_rate": 3.883407751890256e-06,
      "loss": 0.87479019,
      "num_input_tokens_seen": 24099675,
      "step": 1131,
      "time_per_iteration": 2.5872275829315186
    },
    {
      "auxiliary_loss_clip": 0.01116114,
      "auxiliary_loss_mlp": 0.01033168,
      "balance_loss_clip": 1.04265881,
      "balance_loss_mlp": 1.02471018,
      "epoch": 0.13611495220345096,
      "flos": 26682792543360.0,
      "grad_norm": 1.8667734615081326,
      "language_loss": 0.86012304,
      "learning_rate": 3.8831455295783994e-06,
      "loss": 0.88161588,
      "num_input_tokens_seen": 24118925,
      "step": 1132,
      "time_per_iteration": 2.629777431488037
    },
    {
      "auxiliary_loss_clip": 0.01132344,
      "auxiliary_loss_mlp": 0.01030884,
      "balance_loss_clip": 1.04723048,
      "balance_loss_mlp": 1.02221751,
      "epoch": 0.13623519509409007,
      "flos": 21688211082240.0,
      "grad_norm": 1.6569170656729915,
      "language_loss": 0.74241877,
      "learning_rate": 3.882883021594864e-06,
      "loss": 0.76405108,
      "num_input_tokens_seen": 24137065,
      "step": 1133,
      "time_per_iteration": 2.590963363647461
    },
    {
      "auxiliary_loss_clip": 0.0111355,
      "auxiliary_loss_mlp": 0.01028506,
      "balance_loss_clip": 1.04464567,
      "balance_loss_mlp": 1.020293,
      "epoch": 0.13635543798472916,
      "flos": 14832173479680.0,
      "grad_norm": 2.2417325583767265,
      "language_loss": 0.87222075,
      "learning_rate": 3.8826202279794705e-06,
      "loss": 0.89364135,
      "num_input_tokens_seen": 24154125,
      "step": 1134,
      "time_per_iteration": 2.5580506324768066
    },
    {
      "auxiliary_loss_clip": 0.0115758,
      "auxiliary_loss_mlp": 0.01028926,
      "balance_loss_clip": 1.0492183,
      "balance_loss_mlp": 1.021106,
      "epoch": 0.13647568087536824,
      "flos": 22892365975680.0,
      "grad_norm": 3.7129288754364738,
      "language_loss": 0.70086098,
      "learning_rate": 3.882357148772085e-06,
      "loss": 0.72272599,
      "num_input_tokens_seen": 24171550,
      "step": 1135,
      "time_per_iteration": 2.5441997051239014
    },
    {
      "auxiliary_loss_clip": 0.01104923,
      "auxiliary_loss_mlp": 0.01033519,
      "balance_loss_clip": 1.03890634,
      "balance_loss_mlp": 1.02480483,
      "epoch": 0.13659592376600732,
      "flos": 19939970563200.0,
      "grad_norm": 2.6885685796422423,
      "language_loss": 0.84291393,
      "learning_rate": 3.882093784012617e-06,
      "loss": 0.8642984,
      "num_input_tokens_seen": 24190190,
      "step": 1136,
      "time_per_iteration": 2.5959882736206055
    },
    {
      "auxiliary_loss_clip": 0.01120432,
      "auxiliary_loss_mlp": 0.01026961,
      "balance_loss_clip": 1.04380941,
      "balance_loss_mlp": 1.01837754,
      "epoch": 0.13671616665664643,
      "flos": 21430411534080.0,
      "grad_norm": 1.8778574711482698,
      "language_loss": 0.84214568,
      "learning_rate": 3.881830133741019e-06,
      "loss": 0.86361957,
      "num_input_tokens_seen": 24209055,
      "step": 1137,
      "time_per_iteration": 2.620800733566284
    },
    {
      "auxiliary_loss_clip": 0.01104374,
      "auxiliary_loss_mlp": 0.01032631,
      "balance_loss_clip": 1.04237425,
      "balance_loss_mlp": 1.02417326,
      "epoch": 0.13683640954728551,
      "flos": 22780022469120.0,
      "grad_norm": 2.5260509155132063,
      "language_loss": 0.76286554,
      "learning_rate": 3.881566197997285e-06,
      "loss": 0.78423554,
      "num_input_tokens_seen": 24225490,
      "step": 1138,
      "time_per_iteration": 2.6077139377593994
    },
    {
      "auxiliary_loss_clip": 0.01123648,
      "auxiliary_loss_mlp": 0.01030839,
      "balance_loss_clip": 1.0451355,
      "balance_loss_mlp": 1.02326369,
      "epoch": 0.1369566524379246,
      "flos": 21728035117440.0,
      "grad_norm": 1.5082343768591924,
      "language_loss": 0.74824148,
      "learning_rate": 3.881301976821456e-06,
      "loss": 0.76978636,
      "num_input_tokens_seen": 24245520,
      "step": 1139,
      "time_per_iteration": 2.6392107009887695
    },
    {
      "auxiliary_loss_clip": 0.01137335,
      "auxiliary_loss_mlp": 0.01030713,
      "balance_loss_clip": 1.04460311,
      "balance_loss_mlp": 1.02258873,
      "epoch": 0.1370768953285637,
      "flos": 18626429773440.0,
      "grad_norm": 2.8303401531288044,
      "language_loss": 0.90789074,
      "learning_rate": 3.881037470253612e-06,
      "loss": 0.92957127,
      "num_input_tokens_seen": 24265035,
      "step": 1140,
      "time_per_iteration": 2.557229995727539
    },
    {
      "auxiliary_loss_clip": 0.01093084,
      "auxiliary_loss_mlp": 0.01030061,
      "balance_loss_clip": 1.04042482,
      "balance_loss_mlp": 1.02208543,
      "epoch": 0.1371971382192028,
      "flos": 14941293949440.0,
      "grad_norm": 2.913996222706778,
      "language_loss": 0.79520613,
      "learning_rate": 3.88077267833388e-06,
      "loss": 0.8164376,
      "num_input_tokens_seen": 24281550,
      "step": 1141,
      "time_per_iteration": 2.6154322624206543
    },
    {
      "auxiliary_loss_clip": 0.01095815,
      "auxiliary_loss_mlp": 0.0103612,
      "balance_loss_clip": 1.04088521,
      "balance_loss_mlp": 1.02782297,
      "epoch": 0.13731738110984187,
      "flos": 19025666046720.0,
      "grad_norm": 1.8729019832109608,
      "language_loss": 0.84152579,
      "learning_rate": 3.880507601102427e-06,
      "loss": 0.86284512,
      "num_input_tokens_seen": 24299485,
      "step": 1142,
      "time_per_iteration": 2.6708500385284424
    },
    {
      "auxiliary_loss_clip": 0.01154565,
      "auxiliary_loss_mlp": 0.01032284,
      "balance_loss_clip": 1.04764247,
      "balance_loss_mlp": 1.02432704,
      "epoch": 0.13743762400048098,
      "flos": 18189454959360.0,
      "grad_norm": 1.9047229492262205,
      "language_loss": 0.82512265,
      "learning_rate": 3.880242238599467e-06,
      "loss": 0.84699112,
      "num_input_tokens_seen": 24316010,
      "step": 1143,
      "time_per_iteration": 2.505999803543091
    },
    {
      "auxiliary_loss_clip": 0.01152908,
      "auxiliary_loss_mlp": 0.01033505,
      "balance_loss_clip": 1.046296,
      "balance_loss_mlp": 1.02548778,
      "epoch": 0.13755786689112007,
      "flos": 21034057034880.0,
      "grad_norm": 1.7792492040923267,
      "language_loss": 0.83418971,
      "learning_rate": 3.879976590865254e-06,
      "loss": 0.85605383,
      "num_input_tokens_seen": 24335465,
      "step": 1144,
      "time_per_iteration": 2.5684328079223633
    },
    {
      "auxiliary_loss_clip": 0.01122801,
      "auxiliary_loss_mlp": 0.01034453,
      "balance_loss_clip": 1.04492855,
      "balance_loss_mlp": 1.0260191,
      "epoch": 0.13767810978175915,
      "flos": 21362745576960.0,
      "grad_norm": 3.0241136335361425,
      "language_loss": 0.87314332,
      "learning_rate": 3.879710657940087e-06,
      "loss": 0.89471579,
      "num_input_tokens_seen": 24354415,
      "step": 1145,
      "time_per_iteration": 2.6002187728881836
    },
    {
      "auxiliary_loss_clip": 0.01139069,
      "auxiliary_loss_mlp": 0.0103741,
      "balance_loss_clip": 1.04509699,
      "balance_loss_mlp": 1.02857697,
      "epoch": 0.13779835267239823,
      "flos": 30594738792960.0,
      "grad_norm": 2.084990540563048,
      "language_loss": 0.7003082,
      "learning_rate": 3.879444439864308e-06,
      "loss": 0.72207302,
      "num_input_tokens_seen": 24373990,
      "step": 1146,
      "time_per_iteration": 2.6542673110961914
    },
    {
      "auxiliary_loss_clip": 0.01141422,
      "auxiliary_loss_mlp": 0.00757654,
      "balance_loss_clip": 1.04519176,
      "balance_loss_mlp": 1.00006008,
      "epoch": 0.13791859556303734,
      "flos": 22671812033280.0,
      "grad_norm": 1.660696396481295,
      "language_loss": 0.85899889,
      "learning_rate": 3.879177936678301e-06,
      "loss": 0.87798971,
      "num_input_tokens_seen": 24392995,
      "step": 1147,
      "time_per_iteration": 2.5721914768218994
    },
    {
      "auxiliary_loss_clip": 0.01127695,
      "auxiliary_loss_mlp": 0.01033344,
      "balance_loss_clip": 1.04620922,
      "balance_loss_mlp": 1.02470756,
      "epoch": 0.13803883845367643,
      "flos": 35226988323840.0,
      "grad_norm": 2.018121995965491,
      "language_loss": 0.77260768,
      "learning_rate": 3.878911148422496e-06,
      "loss": 0.79421806,
      "num_input_tokens_seen": 24414470,
      "step": 1148,
      "time_per_iteration": 2.741755247116089
    },
    {
      "auxiliary_loss_clip": 0.01138215,
      "auxiliary_loss_mlp": 0.01029193,
      "balance_loss_clip": 1.04602611,
      "balance_loss_mlp": 1.02083087,
      "epoch": 0.1381590813443155,
      "flos": 32017248380160.0,
      "grad_norm": 2.547837981772905,
      "language_loss": 0.70273292,
      "learning_rate": 3.878644075137364e-06,
      "loss": 0.72440696,
      "num_input_tokens_seen": 24435120,
      "step": 1149,
      "time_per_iteration": 2.635685682296753
    },
    {
      "auxiliary_loss_clip": 0.01113901,
      "auxiliary_loss_mlp": 0.0102922,
      "balance_loss_clip": 1.04176855,
      "balance_loss_mlp": 1.02111995,
      "epoch": 0.13827932423495462,
      "flos": 17823786238080.0,
      "grad_norm": 2.8309609631086587,
      "language_loss": 0.79185665,
      "learning_rate": 3.878376716863418e-06,
      "loss": 0.81328785,
      "num_input_tokens_seen": 24451420,
      "step": 1150,
      "time_per_iteration": 2.611081123352051
    },
    {
      "auxiliary_loss_clip": 0.01123112,
      "auxiliary_loss_mlp": 0.01033225,
      "balance_loss_clip": 1.04287624,
      "balance_loss_mlp": 1.02449346,
      "epoch": 0.1383995671255937,
      "flos": 19429111226880.0,
      "grad_norm": 1.9075031252494796,
      "language_loss": 0.71110845,
      "learning_rate": 3.878109073641219e-06,
      "loss": 0.73267186,
      "num_input_tokens_seen": 24470450,
      "step": 1151,
      "time_per_iteration": 3.325345754623413
    },
    {
      "auxiliary_loss_clip": 0.01086479,
      "auxiliary_loss_mlp": 0.01030761,
      "balance_loss_clip": 1.03759074,
      "balance_loss_mlp": 1.02270257,
      "epoch": 0.13851981001623279,
      "flos": 28299303365760.0,
      "grad_norm": 1.6000144087133206,
      "language_loss": 0.81115484,
      "learning_rate": 3.877841145511366e-06,
      "loss": 0.83232725,
      "num_input_tokens_seen": 24493190,
      "step": 1152,
      "time_per_iteration": 2.7519166469573975
    },
    {
      "auxiliary_loss_clip": 0.0114511,
      "auxiliary_loss_mlp": 0.0103359,
      "balance_loss_clip": 1.04737377,
      "balance_loss_mlp": 1.02519178,
      "epoch": 0.13864005290687187,
      "flos": 21215090286720.0,
      "grad_norm": 1.7101228265109638,
      "language_loss": 0.82835495,
      "learning_rate": 3.8775729325145035e-06,
      "loss": 0.85014194,
      "num_input_tokens_seen": 24512425,
      "step": 1153,
      "time_per_iteration": 3.3447916507720947
    },
    {
      "auxiliary_loss_clip": 0.01061174,
      "auxiliary_loss_mlp": 0.01007488,
      "balance_loss_clip": 1.028126,
      "balance_loss_mlp": 1.00381613,
      "epoch": 0.13876029579751098,
      "flos": 71661192854400.0,
      "grad_norm": 0.7988879546023027,
      "language_loss": 0.64731264,
      "learning_rate": 3.877304434691321e-06,
      "loss": 0.66799927,
      "num_input_tokens_seen": 24579275,
      "step": 1154,
      "time_per_iteration": 4.8521482944488525
    },
    {
      "auxiliary_loss_clip": 0.01106054,
      "auxiliary_loss_mlp": 0.01024874,
      "balance_loss_clip": 1.04293656,
      "balance_loss_mlp": 1.0172503,
      "epoch": 0.13888053868815006,
      "flos": 21943318446720.0,
      "grad_norm": 1.8860135658725516,
      "language_loss": 0.79655087,
      "learning_rate": 3.877035652082548e-06,
      "loss": 0.81786013,
      "num_input_tokens_seen": 24598720,
      "step": 1155,
      "time_per_iteration": 2.615119695663452
    },
    {
      "auxiliary_loss_clip": 0.01128752,
      "auxiliary_loss_mlp": 0.01029206,
      "balance_loss_clip": 1.04606581,
      "balance_loss_mlp": 1.02083158,
      "epoch": 0.13900078157878915,
      "flos": 19610599495680.0,
      "grad_norm": 1.7450753630216578,
      "language_loss": 0.85302377,
      "learning_rate": 3.87676658472896e-06,
      "loss": 0.87460339,
      "num_input_tokens_seen": 24617530,
      "step": 1156,
      "time_per_iteration": 2.6062958240509033
    },
    {
      "auxiliary_loss_clip": 0.01141326,
      "auxiliary_loss_mlp": 0.01035919,
      "balance_loss_clip": 1.04548955,
      "balance_loss_mlp": 1.02741337,
      "epoch": 0.13912102446942826,
      "flos": 22640254139520.0,
      "grad_norm": 1.7988122250539247,
      "language_loss": 0.85326314,
      "learning_rate": 3.876497232671372e-06,
      "loss": 0.87503552,
      "num_input_tokens_seen": 24637485,
      "step": 1157,
      "time_per_iteration": 2.5635149478912354
    },
    {
      "auxiliary_loss_clip": 0.01098964,
      "auxiliary_loss_mlp": 0.01029776,
      "balance_loss_clip": 1.04168701,
      "balance_loss_mlp": 1.02180088,
      "epoch": 0.13924126736006734,
      "flos": 29645918772480.0,
      "grad_norm": 2.291692889863557,
      "language_loss": 0.836528,
      "learning_rate": 3.876227595950647e-06,
      "loss": 0.85781544,
      "num_input_tokens_seen": 24656915,
      "step": 1158,
      "time_per_iteration": 2.7379631996154785
    },
    {
      "auxiliary_loss_clip": 0.01155211,
      "auxiliary_loss_mlp": 0.0103086,
      "balance_loss_clip": 1.04846609,
      "balance_loss_mlp": 1.02249146,
      "epoch": 0.13936151025070642,
      "flos": 27420121042560.0,
      "grad_norm": 3.835274511809983,
      "language_loss": 0.78998697,
      "learning_rate": 3.875957674607686e-06,
      "loss": 0.81184763,
      "num_input_tokens_seen": 24679190,
      "step": 1159,
      "time_per_iteration": 2.572847366333008
    },
    {
      "auxiliary_loss_clip": 0.01139631,
      "auxiliary_loss_mlp": 0.00758061,
      "balance_loss_clip": 1.0442965,
      "balance_loss_mlp": 1.00006342,
      "epoch": 0.1394817531413455,
      "flos": 16401200814720.0,
      "grad_norm": 3.0805687140038795,
      "language_loss": 0.88080245,
      "learning_rate": 3.8756874686834386e-06,
      "loss": 0.89977932,
      "num_input_tokens_seen": 24697405,
      "step": 1160,
      "time_per_iteration": 2.573939561843872
    },
    {
      "auxiliary_loss_clip": 0.01139204,
      "auxiliary_loss_mlp": 0.00758146,
      "balance_loss_clip": 1.0447135,
      "balance_loss_mlp": 1.00004196,
      "epoch": 0.13960199603198462,
      "flos": 30925095730560.0,
      "grad_norm": 1.6500024072571151,
      "language_loss": 0.80311888,
      "learning_rate": 3.875416978218893e-06,
      "loss": 0.82209241,
      "num_input_tokens_seen": 24720600,
      "step": 1161,
      "time_per_iteration": 2.6370737552642822
    },
    {
      "auxiliary_loss_clip": 0.01118616,
      "auxiliary_loss_mlp": 0.01032549,
      "balance_loss_clip": 1.04436719,
      "balance_loss_mlp": 1.02424002,
      "epoch": 0.1397222389226237,
      "flos": 18115722109440.0,
      "grad_norm": 2.283030261369326,
      "language_loss": 0.83156502,
      "learning_rate": 3.8751462032550835e-06,
      "loss": 0.8530767,
      "num_input_tokens_seen": 24737605,
      "step": 1162,
      "time_per_iteration": 2.655254364013672
    },
    {
      "auxiliary_loss_clip": 0.01116192,
      "auxiliary_loss_mlp": 0.01023065,
      "balance_loss_clip": 1.04116154,
      "balance_loss_mlp": 1.01553059,
      "epoch": 0.13984248181326278,
      "flos": 16874624954880.0,
      "grad_norm": 4.1840151236518315,
      "language_loss": 0.82902008,
      "learning_rate": 3.874875143833085e-06,
      "loss": 0.85041273,
      "num_input_tokens_seen": 24755845,
      "step": 1163,
      "time_per_iteration": 2.5832359790802
    },
    {
      "auxiliary_loss_clip": 0.01137515,
      "auxiliary_loss_mlp": 0.01039932,
      "balance_loss_clip": 1.04400158,
      "balance_loss_mlp": 1.03096724,
      "epoch": 0.1399627247039019,
      "flos": 54125143632000.0,
      "grad_norm": 1.9185333328285785,
      "language_loss": 0.68936169,
      "learning_rate": 3.874603799994019e-06,
      "loss": 0.71113616,
      "num_input_tokens_seen": 24779380,
      "step": 1164,
      "time_per_iteration": 2.83510422706604
    },
    {
      "auxiliary_loss_clip": 0.01115299,
      "auxiliary_loss_mlp": 0.01028538,
      "balance_loss_clip": 1.04389048,
      "balance_loss_mlp": 1.02105212,
      "epoch": 0.14008296759454097,
      "flos": 11767131216000.0,
      "grad_norm": 2.0431680794614957,
      "language_loss": 0.86727428,
      "learning_rate": 3.874332171779046e-06,
      "loss": 0.88871264,
      "num_input_tokens_seen": 24794260,
      "step": 1165,
      "time_per_iteration": 2.568481683731079
    },
    {
      "auxiliary_loss_clip": 0.01102836,
      "auxiliary_loss_mlp": 0.01024778,
      "balance_loss_clip": 1.03863466,
      "balance_loss_mlp": 1.01670754,
      "epoch": 0.14020321048518006,
      "flos": 22019667644160.0,
      "grad_norm": 1.9305621767096506,
      "language_loss": 0.75737846,
      "learning_rate": 3.874060259229373e-06,
      "loss": 0.77865463,
      "num_input_tokens_seen": 24815835,
      "step": 1166,
      "time_per_iteration": 2.648350238800049
    },
    {
      "auxiliary_loss_clip": 0.01138441,
      "auxiliary_loss_mlp": 0.01040078,
      "balance_loss_clip": 1.04514253,
      "balance_loss_mlp": 1.03104162,
      "epoch": 0.14032345337581917,
      "flos": 23406562103040.0,
      "grad_norm": 2.0529903421459053,
      "language_loss": 0.93225348,
      "learning_rate": 3.873788062386249e-06,
      "loss": 0.95403874,
      "num_input_tokens_seen": 24834095,
      "step": 1167,
      "time_per_iteration": 2.56210994720459
    },
    {
      "auxiliary_loss_clip": 0.01108826,
      "auxiliary_loss_mlp": 0.01036208,
      "balance_loss_clip": 1.04237413,
      "balance_loss_mlp": 1.02776814,
      "epoch": 0.14044369626645825,
      "flos": 29648497201920.0,
      "grad_norm": 1.8984532086488795,
      "language_loss": 0.82106388,
      "learning_rate": 3.873515581290965e-06,
      "loss": 0.84251422,
      "num_input_tokens_seen": 24858900,
      "step": 1168,
      "time_per_iteration": 2.7359538078308105
    },
    {
      "auxiliary_loss_clip": 0.01108581,
      "auxiliary_loss_mlp": 0.01034435,
      "balance_loss_clip": 1.04347146,
      "balance_loss_mlp": 1.02554154,
      "epoch": 0.14056393915709733,
      "flos": 18334948919040.0,
      "grad_norm": 2.955152013508914,
      "language_loss": 0.75356627,
      "learning_rate": 3.8732428159848575e-06,
      "loss": 0.7749964,
      "num_input_tokens_seen": 24877875,
      "step": 1169,
      "time_per_iteration": 2.6383235454559326
    },
    {
      "auxiliary_loss_clip": 0.01135984,
      "auxiliary_loss_mlp": 0.01030552,
      "balance_loss_clip": 1.04498398,
      "balance_loss_mlp": 1.02165866,
      "epoch": 0.14068418204773642,
      "flos": 26689921142400.0,
      "grad_norm": 1.9514245129497818,
      "language_loss": 0.78307486,
      "learning_rate": 3.872969766509304e-06,
      "loss": 0.80474019,
      "num_input_tokens_seen": 24898430,
      "step": 1170,
      "time_per_iteration": 2.594862461090088
    },
    {
      "auxiliary_loss_clip": 0.01072377,
      "auxiliary_loss_mlp": 0.01005291,
      "balance_loss_clip": 1.03472376,
      "balance_loss_mlp": 1.00185823,
      "epoch": 0.14080442493837553,
      "flos": 65266256016000.0,
      "grad_norm": 0.7664441076340945,
      "language_loss": 0.55633557,
      "learning_rate": 3.872696432905726e-06,
      "loss": 0.5771122,
      "num_input_tokens_seen": 24959250,
      "step": 1171,
      "time_per_iteration": 3.180001735687256
    },
    {
      "auxiliary_loss_clip": 0.01137779,
      "auxiliary_loss_mlp": 0.01037623,
      "balance_loss_clip": 1.0433023,
      "balance_loss_mlp": 1.02871776,
      "epoch": 0.1409246678290146,
      "flos": 25779143007360.0,
      "grad_norm": 10.918109029415719,
      "language_loss": 0.72106779,
      "learning_rate": 3.872422815215589e-06,
      "loss": 0.74282187,
      "num_input_tokens_seen": 24978330,
      "step": 1172,
      "time_per_iteration": 2.593271255493164
    },
    {
      "auxiliary_loss_clip": 0.01140704,
      "auxiliary_loss_mlp": 0.01033485,
      "balance_loss_clip": 1.04349732,
      "balance_loss_mlp": 1.0240792,
      "epoch": 0.1410449107196537,
      "flos": 21870495630720.0,
      "grad_norm": 1.980891369697142,
      "language_loss": 0.74626082,
      "learning_rate": 3.8721489134803994e-06,
      "loss": 0.76800275,
      "num_input_tokens_seen": 24997120,
      "step": 1173,
      "time_per_iteration": 2.612344980239868
    },
    {
      "auxiliary_loss_clip": 0.01130033,
      "auxiliary_loss_mlp": 0.01038436,
      "balance_loss_clip": 1.04262912,
      "balance_loss_mlp": 1.02919149,
      "epoch": 0.1411651536102928,
      "flos": 16685628906240.0,
      "grad_norm": 2.6634458866348454,
      "language_loss": 0.72749287,
      "learning_rate": 3.871874727741707e-06,
      "loss": 0.74917758,
      "num_input_tokens_seen": 25014350,
      "step": 1174,
      "time_per_iteration": 2.518529176712036
    },
    {
      "auxiliary_loss_clip": 0.01136125,
      "auxiliary_loss_mlp": 0.01030945,
      "balance_loss_clip": 1.04640305,
      "balance_loss_mlp": 1.02331603,
      "epoch": 0.1412853965009319,
      "flos": 20994157163520.0,
      "grad_norm": 3.2148583048679136,
      "language_loss": 0.96499228,
      "learning_rate": 3.871600258041108e-06,
      "loss": 0.98666304,
      "num_input_tokens_seen": 25033875,
      "step": 1175,
      "time_per_iteration": 2.592219829559326
    },
    {
      "auxiliary_loss_clip": 0.01127802,
      "auxiliary_loss_mlp": 0.01031891,
      "balance_loss_clip": 1.04372239,
      "balance_loss_mlp": 1.02256846,
      "epoch": 0.14140563939157097,
      "flos": 20337121342080.0,
      "grad_norm": 2.5806943828027142,
      "language_loss": 0.85657352,
      "learning_rate": 3.871325504420238e-06,
      "loss": 0.87817049,
      "num_input_tokens_seen": 25052865,
      "step": 1176,
      "time_per_iteration": 3.339426279067993
    },
    {
      "auxiliary_loss_clip": 0.01152431,
      "auxiliary_loss_mlp": 0.01026976,
      "balance_loss_clip": 1.04649174,
      "balance_loss_mlp": 1.01887536,
      "epoch": 0.14152588228221005,
      "flos": 21070923459840.0,
      "grad_norm": 2.148403624076459,
      "language_loss": 0.81900048,
      "learning_rate": 3.871050466920776e-06,
      "loss": 0.84079456,
      "num_input_tokens_seen": 25072770,
      "step": 1177,
      "time_per_iteration": 2.5792667865753174
    },
    {
      "auxiliary_loss_clip": 0.01114647,
      "auxiliary_loss_mlp": 0.01024075,
      "balance_loss_clip": 1.0432539,
      "balance_loss_mlp": 1.01640058,
      "epoch": 0.14164612517284916,
      "flos": 18225108005760.0,
      "grad_norm": 2.0128747916430054,
      "language_loss": 0.79970431,
      "learning_rate": 3.870775145584447e-06,
      "loss": 0.82109153,
      "num_input_tokens_seen": 25090550,
      "step": 1178,
      "time_per_iteration": 2.5962584018707275
    },
    {
      "auxiliary_loss_clip": 0.01124064,
      "auxiliary_loss_mlp": 0.01036032,
      "balance_loss_clip": 1.04271817,
      "balance_loss_mlp": 1.02704406,
      "epoch": 0.14176636806348825,
      "flos": 22746492835200.0,
      "grad_norm": 3.4343982673047195,
      "language_loss": 0.64767414,
      "learning_rate": 3.8704995404530145e-06,
      "loss": 0.66927516,
      "num_input_tokens_seen": 25106175,
      "step": 1179,
      "time_per_iteration": 4.229823350906372
    },
    {
      "auxiliary_loss_clip": 0.0115331,
      "auxiliary_loss_mlp": 0.01029924,
      "balance_loss_clip": 1.04796898,
      "balance_loss_mlp": 1.02248502,
      "epoch": 0.14188661095412733,
      "flos": 22093286739840.0,
      "grad_norm": 1.8870989596271794,
      "language_loss": 0.85228866,
      "learning_rate": 3.87022365156829e-06,
      "loss": 0.87412095,
      "num_input_tokens_seen": 25126890,
      "step": 1180,
      "time_per_iteration": 2.5712087154388428
    },
    {
      "auxiliary_loss_clip": 0.01061503,
      "auxiliary_loss_mlp": 0.01029055,
      "balance_loss_clip": 1.03560257,
      "balance_loss_mlp": 1.02094316,
      "epoch": 0.14200685384476644,
      "flos": 24354661680000.0,
      "grad_norm": 2.1448660027803053,
      "language_loss": 0.80993772,
      "learning_rate": 3.869947478972123e-06,
      "loss": 0.83084321,
      "num_input_tokens_seen": 25147915,
      "step": 1181,
      "time_per_iteration": 2.8694074153900146
    },
    {
      "auxiliary_loss_clip": 0.01139378,
      "auxiliary_loss_mlp": 0.01032314,
      "balance_loss_clip": 1.04493856,
      "balance_loss_mlp": 1.02395785,
      "epoch": 0.14212709673540552,
      "flos": 24024190988160.0,
      "grad_norm": 3.2075536332602717,
      "language_loss": 0.82522893,
      "learning_rate": 3.869671022706412e-06,
      "loss": 0.84694582,
      "num_input_tokens_seen": 25166645,
      "step": 1182,
      "time_per_iteration": 3.0297868251800537
    },
    {
      "auxiliary_loss_clip": 0.01104709,
      "auxiliary_loss_mlp": 0.01033335,
      "balance_loss_clip": 1.04354262,
      "balance_loss_mlp": 1.02483511,
      "epoch": 0.1422473396260446,
      "flos": 26434169170560.0,
      "grad_norm": 1.9538565612788148,
      "language_loss": 0.65132695,
      "learning_rate": 3.869394282813092e-06,
      "loss": 0.67270738,
      "num_input_tokens_seen": 25185845,
      "step": 1183,
      "time_per_iteration": 2.759223461151123
    },
    {
      "auxiliary_loss_clip": 0.01113566,
      "auxiliary_loss_mlp": 0.01032964,
      "balance_loss_clip": 1.04451144,
      "balance_loss_mlp": 1.02457118,
      "epoch": 0.1423675825166837,
      "flos": 17057174929920.0,
      "grad_norm": 3.695549398350253,
      "language_loss": 0.89002943,
      "learning_rate": 3.869117259334147e-06,
      "loss": 0.91149473,
      "num_input_tokens_seen": 25203770,
      "step": 1184,
      "time_per_iteration": 2.5887601375579834
    },
    {
      "auxiliary_loss_clip": 0.01139954,
      "auxiliary_loss_mlp": 0.01033744,
      "balance_loss_clip": 1.04552746,
      "balance_loss_mlp": 1.02571511,
      "epoch": 0.1424878254073228,
      "flos": 17931314148480.0,
      "grad_norm": 1.9540612912373878,
      "language_loss": 0.81874681,
      "learning_rate": 3.868839952311599e-06,
      "loss": 0.84048378,
      "num_input_tokens_seen": 25221725,
      "step": 1185,
      "time_per_iteration": 2.5722429752349854
    },
    {
      "auxiliary_loss_clip": 0.01114936,
      "auxiliary_loss_mlp": 0.01028069,
      "balance_loss_clip": 1.04054213,
      "balance_loss_mlp": 1.01977789,
      "epoch": 0.14260806829796188,
      "flos": 20305715120640.0,
      "grad_norm": 2.3396272487946703,
      "language_loss": 0.80347908,
      "learning_rate": 3.868562361787516e-06,
      "loss": 0.82490909,
      "num_input_tokens_seen": 25240855,
      "step": 1186,
      "time_per_iteration": 2.569829225540161
    },
    {
      "auxiliary_loss_clip": 0.01072182,
      "auxiliary_loss_mlp": 0.01024878,
      "balance_loss_clip": 1.03845811,
      "balance_loss_mlp": 1.01711726,
      "epoch": 0.14272831118860096,
      "flos": 23187979900800.0,
      "grad_norm": 2.0126836753180704,
      "language_loss": 0.69022989,
      "learning_rate": 3.868284487804009e-06,
      "loss": 0.71120054,
      "num_input_tokens_seen": 25260085,
      "step": 1187,
      "time_per_iteration": 2.763697385787964
    },
    {
      "auxiliary_loss_clip": 0.01128118,
      "auxiliary_loss_mlp": 0.01031689,
      "balance_loss_clip": 1.04552674,
      "balance_loss_mlp": 1.02341628,
      "epoch": 0.14284855407924008,
      "flos": 27234499703040.0,
      "grad_norm": 1.6372473768650904,
      "language_loss": 0.78028387,
      "learning_rate": 3.86800633040323e-06,
      "loss": 0.80188191,
      "num_input_tokens_seen": 25280675,
      "step": 1188,
      "time_per_iteration": 2.6292672157287598
    },
    {
      "auxiliary_loss_clip": 0.01117774,
      "auxiliary_loss_mlp": 0.00757679,
      "balance_loss_clip": 1.04092336,
      "balance_loss_mlp": 1.00014484,
      "epoch": 0.14296879696987916,
      "flos": 28186732350720.0,
      "grad_norm": 2.0379121363517334,
      "language_loss": 0.78201425,
      "learning_rate": 3.867727889627376e-06,
      "loss": 0.80076885,
      "num_input_tokens_seen": 25300290,
      "step": 1189,
      "time_per_iteration": 2.6588149070739746
    },
    {
      "auxiliary_loss_clip": 0.01106369,
      "auxiliary_loss_mlp": 0.01034505,
      "balance_loss_clip": 1.03986979,
      "balance_loss_mlp": 1.02572513,
      "epoch": 0.14308903986051824,
      "flos": 19392282720000.0,
      "grad_norm": 2.063800640257193,
      "language_loss": 0.78140461,
      "learning_rate": 3.867449165518687e-06,
      "loss": 0.80281341,
      "num_input_tokens_seen": 25316760,
      "step": 1190,
      "time_per_iteration": 2.584085702896118
    },
    {
      "auxiliary_loss_clip": 0.01151723,
      "auxiliary_loss_mlp": 0.00758121,
      "balance_loss_clip": 1.04576898,
      "balance_loss_mlp": 1.0001142,
      "epoch": 0.14320928275115732,
      "flos": 17459444649600.0,
      "grad_norm": 1.8954262875584287,
      "language_loss": 0.70945972,
      "learning_rate": 3.867170158119444e-06,
      "loss": 0.72855812,
      "num_input_tokens_seen": 25335760,
      "step": 1191,
      "time_per_iteration": 2.542309522628784
    },
    {
      "auxiliary_loss_clip": 0.01153396,
      "auxiliary_loss_mlp": 0.01033943,
      "balance_loss_clip": 1.04678226,
      "balance_loss_mlp": 1.02592003,
      "epoch": 0.14332952564179643,
      "flos": 21467960484480.0,
      "grad_norm": 2.0776277123205635,
      "language_loss": 0.75251031,
      "learning_rate": 3.866890867471972e-06,
      "loss": 0.77438366,
      "num_input_tokens_seen": 25354230,
      "step": 1192,
      "time_per_iteration": 2.525050640106201
    },
    {
      "auxiliary_loss_clip": 0.0113275,
      "auxiliary_loss_mlp": 0.0103439,
      "balance_loss_clip": 1.04539096,
      "balance_loss_mlp": 1.02587819,
      "epoch": 0.14344976853243552,
      "flos": 16398736139520.0,
      "grad_norm": 2.377141090325885,
      "language_loss": 0.89149719,
      "learning_rate": 3.86661129361864e-06,
      "loss": 0.91316861,
      "num_input_tokens_seen": 25368720,
      "step": 1193,
      "time_per_iteration": 2.584355592727661
    },
    {
      "auxiliary_loss_clip": 0.01116421,
      "auxiliary_loss_mlp": 0.01034364,
      "balance_loss_clip": 1.03966677,
      "balance_loss_mlp": 1.02566183,
      "epoch": 0.1435700114230746,
      "flos": 18918744825600.0,
      "grad_norm": 2.279142669193183,
      "language_loss": 0.85955131,
      "learning_rate": 3.866331436601859e-06,
      "loss": 0.88105917,
      "num_input_tokens_seen": 25386715,
      "step": 1194,
      "time_per_iteration": 2.530945301055908
    },
    {
      "auxiliary_loss_clip": 0.01152486,
      "auxiliary_loss_mlp": 0.01034701,
      "balance_loss_clip": 1.04762316,
      "balance_loss_mlp": 1.02618909,
      "epoch": 0.1436902543137137,
      "flos": 19757420588160.0,
      "grad_norm": 2.770713064838829,
      "language_loss": 0.73772424,
      "learning_rate": 3.866051296464083e-06,
      "loss": 0.75959611,
      "num_input_tokens_seen": 25405550,
      "step": 1195,
      "time_per_iteration": 2.5446650981903076
    },
    {
      "auxiliary_loss_clip": 0.01150658,
      "auxiliary_loss_mlp": 0.00757734,
      "balance_loss_clip": 1.04440928,
      "balance_loss_mlp": 1.00014985,
      "epoch": 0.1438104972043528,
      "flos": 14686603683840.0,
      "grad_norm": 3.3308637333964413,
      "language_loss": 0.85221696,
      "learning_rate": 3.86577087324781e-06,
      "loss": 0.87130088,
      "num_input_tokens_seen": 25422040,
      "step": 1196,
      "time_per_iteration": 2.4803311824798584
    },
    {
      "auxiliary_loss_clip": 0.01138049,
      "auxiliary_loss_mlp": 0.0102833,
      "balance_loss_clip": 1.04714227,
      "balance_loss_mlp": 1.02018785,
      "epoch": 0.14393074009499188,
      "flos": 17094230945280.0,
      "grad_norm": 1.9559585712102212,
      "language_loss": 0.77142853,
      "learning_rate": 3.865490166995578e-06,
      "loss": 0.79309237,
      "num_input_tokens_seen": 25440270,
      "step": 1197,
      "time_per_iteration": 2.5943217277526855
    },
    {
      "auxiliary_loss_clip": 0.01136264,
      "auxiliary_loss_mlp": 0.01028243,
      "balance_loss_clip": 1.04419434,
      "balance_loss_mlp": 1.01964772,
      "epoch": 0.144050982985631,
      "flos": 30478489724160.0,
      "grad_norm": 2.4525668663861153,
      "language_loss": 0.84392142,
      "learning_rate": 3.86520917774997e-06,
      "loss": 0.86556655,
      "num_input_tokens_seen": 25459705,
      "step": 1198,
      "time_per_iteration": 2.59047269821167
    },
    {
      "auxiliary_loss_clip": 0.01134248,
      "auxiliary_loss_mlp": 0.01032389,
      "balance_loss_clip": 1.04500699,
      "balance_loss_mlp": 1.02447915,
      "epoch": 0.14417122587627007,
      "flos": 17860425154560.0,
      "grad_norm": 2.2349802980647246,
      "language_loss": 0.74865961,
      "learning_rate": 3.864927905553614e-06,
      "loss": 0.7703259,
      "num_input_tokens_seen": 25477615,
      "step": 1199,
      "time_per_iteration": 2.5727343559265137
    },
    {
      "auxiliary_loss_clip": 0.01101761,
      "auxiliary_loss_mlp": 0.01032902,
      "balance_loss_clip": 1.03981555,
      "balance_loss_mlp": 1.02495646,
      "epoch": 0.14429146876690915,
      "flos": 21615919119360.0,
      "grad_norm": 1.7104812245738141,
      "language_loss": 0.88715065,
      "learning_rate": 3.8646463504491765e-06,
      "loss": 0.90849733,
      "num_input_tokens_seen": 25497750,
      "step": 1200,
      "time_per_iteration": 2.6228532791137695
    },
    {
      "auxiliary_loss_clip": 0.01138014,
      "auxiliary_loss_mlp": 0.01030556,
      "balance_loss_clip": 1.0472033,
      "balance_loss_mlp": 1.02197313,
      "epoch": 0.14441171165754824,
      "flos": 23260347699840.0,
      "grad_norm": 1.7693430151822467,
      "language_loss": 0.82928932,
      "learning_rate": 3.8643645124793705e-06,
      "loss": 0.85097504,
      "num_input_tokens_seen": 25516650,
      "step": 1201,
      "time_per_iteration": 2.599325656890869
    },
    {
      "auxiliary_loss_clip": 0.01134682,
      "auxiliary_loss_mlp": 0.01028406,
      "balance_loss_clip": 1.04330707,
      "balance_loss_mlp": 1.02050817,
      "epoch": 0.14453195454818735,
      "flos": 42857713785600.0,
      "grad_norm": 2.087212297195886,
      "language_loss": 0.74818456,
      "learning_rate": 3.8640823916869515e-06,
      "loss": 0.76981544,
      "num_input_tokens_seen": 25540960,
      "step": 1202,
      "time_per_iteration": 3.7034692764282227
    },
    {
      "auxiliary_loss_clip": 0.01151926,
      "auxiliary_loss_mlp": 0.01027819,
      "balance_loss_clip": 1.04650784,
      "balance_loss_mlp": 1.01945043,
      "epoch": 0.14465219743882643,
      "flos": 27238367347200.0,
      "grad_norm": 1.6369094144245953,
      "language_loss": 0.78664064,
      "learning_rate": 3.863799988114714e-06,
      "loss": 0.80843812,
      "num_input_tokens_seen": 25562990,
      "step": 1203,
      "time_per_iteration": 2.5739994049072266
    },
    {
      "auxiliary_loss_clip": 0.01151714,
      "auxiliary_loss_mlp": 0.01027326,
      "balance_loss_clip": 1.04592347,
      "balance_loss_mlp": 1.01855826,
      "epoch": 0.1447724403294655,
      "flos": 16692567914880.0,
      "grad_norm": 2.4940264981734264,
      "language_loss": 0.70417774,
      "learning_rate": 3.863517301805502e-06,
      "loss": 0.72596812,
      "num_input_tokens_seen": 25581380,
      "step": 1204,
      "time_per_iteration": 3.271881341934204
    },
    {
      "auxiliary_loss_clip": 0.01102536,
      "auxiliary_loss_mlp": 0.01036452,
      "balance_loss_clip": 1.04245424,
      "balance_loss_mlp": 1.02789831,
      "epoch": 0.14489268322010462,
      "flos": 20075226641280.0,
      "grad_norm": 2.9949081992463924,
      "language_loss": 0.97321117,
      "learning_rate": 3.863234332802196e-06,
      "loss": 0.99460101,
      "num_input_tokens_seen": 25593585,
      "step": 1205,
      "time_per_iteration": 4.137082576751709
    },
    {
      "auxiliary_loss_clip": 0.01127906,
      "auxiliary_loss_mlp": 0.01032006,
      "balance_loss_clip": 1.04507923,
      "balance_loss_mlp": 1.02424502,
      "epoch": 0.1450129261107437,
      "flos": 27128071416960.0,
      "grad_norm": 2.419524433311481,
      "language_loss": 0.74187398,
      "learning_rate": 3.862951081147723e-06,
      "loss": 0.76347309,
      "num_input_tokens_seen": 25613750,
      "step": 1206,
      "time_per_iteration": 2.628624439239502
    },
    {
      "auxiliary_loss_clip": 0.01139704,
      "auxiliary_loss_mlp": 0.01027192,
      "balance_loss_clip": 1.047997,
      "balance_loss_mlp": 1.01955056,
      "epoch": 0.1451331690013828,
      "flos": 25704689713920.0,
      "grad_norm": 2.278319319364411,
      "language_loss": 0.78171062,
      "learning_rate": 3.862667546885053e-06,
      "loss": 0.8033796,
      "num_input_tokens_seen": 25632300,
      "step": 1207,
      "time_per_iteration": 2.625115394592285
    },
    {
      "auxiliary_loss_clip": 0.01126499,
      "auxiliary_loss_mlp": 0.01031304,
      "balance_loss_clip": 1.04286492,
      "balance_loss_mlp": 1.02297151,
      "epoch": 0.14525341189202187,
      "flos": 25739660234880.0,
      "grad_norm": 2.4099950250151525,
      "language_loss": 0.73729491,
      "learning_rate": 3.8623837300571965e-06,
      "loss": 0.75887299,
      "num_input_tokens_seen": 25651285,
      "step": 1208,
      "time_per_iteration": 2.6123952865600586
    },
    {
      "auxiliary_loss_clip": 0.01151707,
      "auxiliary_loss_mlp": 0.01029493,
      "balance_loss_clip": 1.04591954,
      "balance_loss_mlp": 1.02088618,
      "epoch": 0.14537365478266098,
      "flos": 23076015575040.0,
      "grad_norm": 1.8178033432091898,
      "language_loss": 0.84184873,
      "learning_rate": 3.8620996307072085e-06,
      "loss": 0.86366069,
      "num_input_tokens_seen": 25671990,
      "step": 1209,
      "time_per_iteration": 2.5925722122192383
    },
    {
      "auxiliary_loss_clip": 0.01113105,
      "auxiliary_loss_mlp": 0.01028096,
      "balance_loss_clip": 1.04324007,
      "balance_loss_mlp": 1.01975131,
      "epoch": 0.14549389767330007,
      "flos": 20597120138880.0,
      "grad_norm": 1.9564298103835185,
      "language_loss": 0.64397871,
      "learning_rate": 3.861815248878188e-06,
      "loss": 0.66539073,
      "num_input_tokens_seen": 25689475,
      "step": 1210,
      "time_per_iteration": 2.620821714401245
    },
    {
      "auxiliary_loss_clip": 0.0111643,
      "auxiliary_loss_mlp": 0.01032608,
      "balance_loss_clip": 1.0420171,
      "balance_loss_mlp": 1.02457881,
      "epoch": 0.14561414056393915,
      "flos": 15123578497920.0,
      "grad_norm": 5.345862793358948,
      "language_loss": 0.79921782,
      "learning_rate": 3.861530584613274e-06,
      "loss": 0.82070816,
      "num_input_tokens_seen": 25707475,
      "step": 1211,
      "time_per_iteration": 2.618887424468994
    },
    {
      "auxiliary_loss_clip": 0.01136403,
      "auxiliary_loss_mlp": 0.00757821,
      "balance_loss_clip": 1.04615164,
      "balance_loss_mlp": 1.0001862,
      "epoch": 0.14573438345457826,
      "flos": 19429528325760.0,
      "grad_norm": 2.208267560782181,
      "language_loss": 0.825656,
      "learning_rate": 3.86124563795565e-06,
      "loss": 0.84459829,
      "num_input_tokens_seen": 25726290,
      "step": 1212,
      "time_per_iteration": 2.5353055000305176
    },
    {
      "auxiliary_loss_clip": 0.0115203,
      "auxiliary_loss_mlp": 0.0102935,
      "balance_loss_clip": 1.04796422,
      "balance_loss_mlp": 1.02151489,
      "epoch": 0.14585462634521734,
      "flos": 24830815921920.0,
      "grad_norm": 2.2187444340748614,
      "language_loss": 0.69994265,
      "learning_rate": 3.860960408948543e-06,
      "loss": 0.72175646,
      "num_input_tokens_seen": 25748040,
      "step": 1213,
      "time_per_iteration": 2.622455358505249
    },
    {
      "auxiliary_loss_clip": 0.01128575,
      "auxiliary_loss_mlp": 0.01032004,
      "balance_loss_clip": 1.04379106,
      "balance_loss_mlp": 1.02425551,
      "epoch": 0.14597486923585642,
      "flos": 15450333217920.0,
      "grad_norm": 2.54600011258197,
      "language_loss": 0.89409536,
      "learning_rate": 3.860674897635222e-06,
      "loss": 0.91570121,
      "num_input_tokens_seen": 25764525,
      "step": 1214,
      "time_per_iteration": 2.524092435836792
    },
    {
      "auxiliary_loss_clip": 0.01136555,
      "auxiliary_loss_mlp": 0.0103503,
      "balance_loss_clip": 1.0460248,
      "balance_loss_mlp": 1.02681613,
      "epoch": 0.1460951121264955,
      "flos": 16657066540800.0,
      "grad_norm": 3.9108212231955544,
      "language_loss": 0.83302021,
      "learning_rate": 3.860389104058998e-06,
      "loss": 0.85473609,
      "num_input_tokens_seen": 25782755,
      "step": 1215,
      "time_per_iteration": 2.5702850818634033
    },
    {
      "auxiliary_loss_clip": 0.01119983,
      "auxiliary_loss_mlp": 0.01029762,
      "balance_loss_clip": 1.04261398,
      "balance_loss_mlp": 1.02141762,
      "epoch": 0.14621535501713462,
      "flos": 24865596852480.0,
      "grad_norm": 2.087267411759802,
      "language_loss": 0.72394145,
      "learning_rate": 3.860103028263227e-06,
      "loss": 0.74543893,
      "num_input_tokens_seen": 25805860,
      "step": 1216,
      "time_per_iteration": 2.6540591716766357
    },
    {
      "auxiliary_loss_clip": 0.01094284,
      "auxiliary_loss_mlp": 0.01025883,
      "balance_loss_clip": 1.03942013,
      "balance_loss_mlp": 1.01821184,
      "epoch": 0.1463355979077737,
      "flos": 25230317621760.0,
      "grad_norm": 2.0766757451217153,
      "language_loss": 0.70283866,
      "learning_rate": 3.859816670291304e-06,
      "loss": 0.72404027,
      "num_input_tokens_seen": 25824955,
      "step": 1217,
      "time_per_iteration": 2.692772388458252
    },
    {
      "auxiliary_loss_clip": 0.01073068,
      "auxiliary_loss_mlp": 0.01025799,
      "balance_loss_clip": 1.0363214,
      "balance_loss_mlp": 1.01706719,
      "epoch": 0.14645584079841278,
      "flos": 22056306560640.0,
      "grad_norm": 2.092264972894077,
      "language_loss": 0.90201324,
      "learning_rate": 3.859530030186672e-06,
      "loss": 0.92300195,
      "num_input_tokens_seen": 25841965,
      "step": 1218,
      "time_per_iteration": 2.7014167308807373
    },
    {
      "auxiliary_loss_clip": 0.01122236,
      "auxiliary_loss_mlp": 0.01030255,
      "balance_loss_clip": 1.04517817,
      "balance_loss_mlp": 1.02184486,
      "epoch": 0.1465760836890519,
      "flos": 23626168093440.0,
      "grad_norm": 2.537459131809817,
      "language_loss": 0.82713997,
      "learning_rate": 3.859243107992813e-06,
      "loss": 0.84866494,
      "num_input_tokens_seen": 25860770,
      "step": 1219,
      "time_per_iteration": 2.653224229812622
    },
    {
      "auxiliary_loss_clip": 0.01111975,
      "auxiliary_loss_mlp": 0.01033552,
      "balance_loss_clip": 1.04134917,
      "balance_loss_mlp": 1.02482569,
      "epoch": 0.14669632657969098,
      "flos": 37410535261440.0,
      "grad_norm": 18.23286410005472,
      "language_loss": 0.78218496,
      "learning_rate": 3.858955903753252e-06,
      "loss": 0.80364025,
      "num_input_tokens_seen": 25879410,
      "step": 1220,
      "time_per_iteration": 2.8027937412261963
    },
    {
      "auxiliary_loss_clip": 0.01136621,
      "auxiliary_loss_mlp": 0.01032922,
      "balance_loss_clip": 1.04561901,
      "balance_loss_mlp": 1.02529299,
      "epoch": 0.14681656947033006,
      "flos": 28368410209920.0,
      "grad_norm": 1.679085703343191,
      "language_loss": 0.83556056,
      "learning_rate": 3.858668417511559e-06,
      "loss": 0.85725594,
      "num_input_tokens_seen": 25902160,
      "step": 1221,
      "time_per_iteration": 2.6474215984344482
    },
    {
      "auxiliary_loss_clip": 0.01127682,
      "auxiliary_loss_mlp": 0.01026983,
      "balance_loss_clip": 1.04644942,
      "balance_loss_mlp": 1.01881087,
      "epoch": 0.14693681236096917,
      "flos": 18481504584960.0,
      "grad_norm": 4.676544582530698,
      "language_loss": 0.76556075,
      "learning_rate": 3.8583806493113445e-06,
      "loss": 0.78710735,
      "num_input_tokens_seen": 25920505,
      "step": 1222,
      "time_per_iteration": 2.6025946140289307
    },
    {
      "auxiliary_loss_clip": 0.01129484,
      "auxiliary_loss_mlp": 0.01036277,
      "balance_loss_clip": 1.04349232,
      "balance_loss_mlp": 1.02813554,
      "epoch": 0.14705705525160825,
      "flos": 20779935540480.0,
      "grad_norm": 2.468048368665774,
      "language_loss": 0.82186013,
      "learning_rate": 3.858092599196263e-06,
      "loss": 0.84351778,
      "num_input_tokens_seen": 25938460,
      "step": 1223,
      "time_per_iteration": 2.5600969791412354
    },
    {
      "auxiliary_loss_clip": 0.01136751,
      "auxiliary_loss_mlp": 0.01026822,
      "balance_loss_clip": 1.04660845,
      "balance_loss_mlp": 1.01865625,
      "epoch": 0.14717729814224734,
      "flos": 29935427886720.0,
      "grad_norm": 2.392066587498414,
      "language_loss": 0.82443362,
      "learning_rate": 3.857804267210012e-06,
      "loss": 0.84606934,
      "num_input_tokens_seen": 25957760,
      "step": 1224,
      "time_per_iteration": 2.6412837505340576
    },
    {
      "auxiliary_loss_clip": 0.01110074,
      "auxiliary_loss_mlp": 0.01033307,
      "balance_loss_clip": 1.0413872,
      "balance_loss_mlp": 1.02557611,
      "epoch": 0.14729754103288642,
      "flos": 20049546049920.0,
      "grad_norm": 2.6019613499129983,
      "language_loss": 0.88197803,
      "learning_rate": 3.857515653396331e-06,
      "loss": 0.90341187,
      "num_input_tokens_seen": 25974970,
      "step": 1225,
      "time_per_iteration": 2.601896047592163
    },
    {
      "auxiliary_loss_clip": 0.01089203,
      "auxiliary_loss_mlp": 0.01031475,
      "balance_loss_clip": 1.03950143,
      "balance_loss_mlp": 1.02369082,
      "epoch": 0.14741778392352553,
      "flos": 19283541431040.0,
      "grad_norm": 2.70531707205617,
      "language_loss": 0.87183475,
      "learning_rate": 3.857226757799002e-06,
      "loss": 0.89304149,
      "num_input_tokens_seen": 25992525,
      "step": 1226,
      "time_per_iteration": 2.6726620197296143
    },
    {
      "auxiliary_loss_clip": 0.01121254,
      "auxiliary_loss_mlp": 0.01027982,
      "balance_loss_clip": 1.04403877,
      "balance_loss_mlp": 1.01992369,
      "epoch": 0.1475380268141646,
      "flos": 25413474286080.0,
      "grad_norm": 2.537542906574697,
      "language_loss": 0.74264884,
      "learning_rate": 3.85693758046185e-06,
      "loss": 0.7641412,
      "num_input_tokens_seen": 26010815,
      "step": 1227,
      "time_per_iteration": 2.62772536277771
    },
    {
      "auxiliary_loss_clip": 0.011539,
      "auxiliary_loss_mlp": 0.01034965,
      "balance_loss_clip": 1.04987836,
      "balance_loss_mlp": 1.02757394,
      "epoch": 0.1476582697048037,
      "flos": 20849611155840.0,
      "grad_norm": 1.9925245621932135,
      "language_loss": 0.82703549,
      "learning_rate": 3.8566481214287435e-06,
      "loss": 0.84892416,
      "num_input_tokens_seen": 26028935,
      "step": 1228,
      "time_per_iteration": 3.3564364910125732
    },
    {
      "auxiliary_loss_clip": 0.01114185,
      "auxiliary_loss_mlp": 0.01032284,
      "balance_loss_clip": 1.04597735,
      "balance_loss_mlp": 1.0244813,
      "epoch": 0.1477785125954428,
      "flos": 14029871207040.0,
      "grad_norm": 2.027306726425291,
      "language_loss": 0.90526229,
      "learning_rate": 3.8563583807435935e-06,
      "loss": 0.926727,
      "num_input_tokens_seen": 26045080,
      "step": 1229,
      "time_per_iteration": 2.601850748062134
    },
    {
      "auxiliary_loss_clip": 0.01135485,
      "auxiliary_loss_mlp": 0.00757791,
      "balance_loss_clip": 1.04425907,
      "balance_loss_mlp": 1.00023603,
      "epoch": 0.1478987554860819,
      "flos": 20518495856640.0,
      "grad_norm": 2.0647866838456506,
      "language_loss": 0.77623165,
      "learning_rate": 3.856068358450353e-06,
      "loss": 0.79516441,
      "num_input_tokens_seen": 26065030,
      "step": 1230,
      "time_per_iteration": 3.324195623397827
    },
    {
      "auxiliary_loss_clip": 0.01113366,
      "auxiliary_loss_mlp": 0.01036113,
      "balance_loss_clip": 1.04238129,
      "balance_loss_mlp": 1.02799499,
      "epoch": 0.14801899837672097,
      "flos": 17858870513280.0,
      "grad_norm": 2.1311888929143774,
      "language_loss": 0.85948801,
      "learning_rate": 3.8557780545930186e-06,
      "loss": 0.88098282,
      "num_input_tokens_seen": 26083445,
      "step": 1231,
      "time_per_iteration": 4.140521764755249
    },
    {
      "auxiliary_loss_clip": 0.01118389,
      "auxiliary_loss_mlp": 0.01030686,
      "balance_loss_clip": 1.04262233,
      "balance_loss_mlp": 1.02297306,
      "epoch": 0.14813924126736006,
      "flos": 20883216625920.0,
      "grad_norm": 1.8974227946954851,
      "language_loss": 0.79449141,
      "learning_rate": 3.855487469215628e-06,
      "loss": 0.81598216,
      "num_input_tokens_seen": 26102375,
      "step": 1232,
      "time_per_iteration": 2.6083168983459473
    },
    {
      "auxiliary_loss_clip": 0.01107979,
      "auxiliary_loss_mlp": 0.01027326,
      "balance_loss_clip": 1.04535222,
      "balance_loss_mlp": 1.01930308,
      "epoch": 0.14825948415799917,
      "flos": 37417057171200.0,
      "grad_norm": 2.0427124064868103,
      "language_loss": 0.72273362,
      "learning_rate": 3.855196602362264e-06,
      "loss": 0.74408668,
      "num_input_tokens_seen": 26125295,
      "step": 1233,
      "time_per_iteration": 2.770686388015747
    },
    {
      "auxiliary_loss_clip": 0.01135501,
      "auxiliary_loss_mlp": 0.01027152,
      "balance_loss_clip": 1.04476428,
      "balance_loss_mlp": 1.01929605,
      "epoch": 0.14837972704863825,
      "flos": 22016634197760.0,
      "grad_norm": 2.190907211513698,
      "language_loss": 0.9431538,
      "learning_rate": 3.854905454077051e-06,
      "loss": 0.96478033,
      "num_input_tokens_seen": 26142905,
      "step": 1234,
      "time_per_iteration": 2.552159547805786
    },
    {
      "auxiliary_loss_clip": 0.01062662,
      "auxiliary_loss_mlp": 0.01031798,
      "balance_loss_clip": 1.03817391,
      "balance_loss_mlp": 1.02414811,
      "epoch": 0.14849996993927733,
      "flos": 20998441906560.0,
      "grad_norm": 1.991128289701348,
      "language_loss": 0.88295174,
      "learning_rate": 3.854614024404155e-06,
      "loss": 0.90389627,
      "num_input_tokens_seen": 26161215,
      "step": 1235,
      "time_per_iteration": 2.8068928718566895
    },
    {
      "auxiliary_loss_clip": 0.01116626,
      "auxiliary_loss_mlp": 0.0102405,
      "balance_loss_clip": 1.04087496,
      "balance_loss_mlp": 1.01635194,
      "epoch": 0.14862021282991644,
      "flos": 20050076903040.0,
      "grad_norm": 2.153208764811224,
      "language_loss": 0.89045197,
      "learning_rate": 3.8543223133877865e-06,
      "loss": 0.91185874,
      "num_input_tokens_seen": 26179810,
      "step": 1236,
      "time_per_iteration": 2.779552459716797
    },
    {
      "auxiliary_loss_clip": 0.01127001,
      "auxiliary_loss_mlp": 0.01032669,
      "balance_loss_clip": 1.04477119,
      "balance_loss_mlp": 1.02354968,
      "epoch": 0.14874045572055553,
      "flos": 22714290334080.0,
      "grad_norm": 1.7855986424708854,
      "language_loss": 0.88480031,
      "learning_rate": 3.854030321072198e-06,
      "loss": 0.90639704,
      "num_input_tokens_seen": 26199715,
      "step": 1237,
      "time_per_iteration": 2.598219633102417
    },
    {
      "auxiliary_loss_clip": 0.01111414,
      "auxiliary_loss_mlp": 0.01024136,
      "balance_loss_clip": 1.04292011,
      "balance_loss_mlp": 1.01622045,
      "epoch": 0.1488606986111946,
      "flos": 25413663876480.0,
      "grad_norm": 2.7612316099563956,
      "language_loss": 0.73637706,
      "learning_rate": 3.853738047501682e-06,
      "loss": 0.75773251,
      "num_input_tokens_seen": 26220275,
      "step": 1238,
      "time_per_iteration": 2.7190165519714355
    },
    {
      "auxiliary_loss_clip": 0.01135628,
      "auxiliary_loss_mlp": 0.01030025,
      "balance_loss_clip": 1.04558969,
      "balance_loss_mlp": 1.02178717,
      "epoch": 0.1489809415018337,
      "flos": 17020611849600.0,
      "grad_norm": 2.933981052671847,
      "language_loss": 0.77815557,
      "learning_rate": 3.85344549272058e-06,
      "loss": 0.79981208,
      "num_input_tokens_seen": 26238255,
      "step": 1239,
      "time_per_iteration": 2.5817689895629883
    },
    {
      "auxiliary_loss_clip": 0.01137524,
      "auxiliary_loss_mlp": 0.01029149,
      "balance_loss_clip": 1.04590607,
      "balance_loss_mlp": 1.02100682,
      "epoch": 0.1491011843924728,
      "flos": 33662359486080.0,
      "grad_norm": 1.761798238889582,
      "language_loss": 0.82787871,
      "learning_rate": 3.853152656773269e-06,
      "loss": 0.84954548,
      "num_input_tokens_seen": 26259690,
      "step": 1240,
      "time_per_iteration": 2.7356793880462646
    },
    {
      "auxiliary_loss_clip": 0.01119448,
      "auxiliary_loss_mlp": 0.0102511,
      "balance_loss_clip": 1.04347229,
      "balance_loss_mlp": 1.01721215,
      "epoch": 0.14922142728311188,
      "flos": 21181143553920.0,
      "grad_norm": 1.808018698292579,
      "language_loss": 0.84637105,
      "learning_rate": 3.852859539704174e-06,
      "loss": 0.86781663,
      "num_input_tokens_seen": 26278990,
      "step": 1241,
      "time_per_iteration": 2.61318302154541
    },
    {
      "auxiliary_loss_clip": 0.01085862,
      "auxiliary_loss_mlp": 0.01033423,
      "balance_loss_clip": 1.03723741,
      "balance_loss_mlp": 1.02531719,
      "epoch": 0.14934167017375097,
      "flos": 29863060087680.0,
      "grad_norm": 1.9104836386049773,
      "language_loss": 0.76413536,
      "learning_rate": 3.85256614155776e-06,
      "loss": 0.78532827,
      "num_input_tokens_seen": 26299120,
      "step": 1242,
      "time_per_iteration": 2.7474188804626465
    },
    {
      "auxiliary_loss_clip": 0.01137247,
      "auxiliary_loss_mlp": 0.01025897,
      "balance_loss_clip": 1.0450387,
      "balance_loss_mlp": 1.01802862,
      "epoch": 0.14946191306439008,
      "flos": 17021104784640.0,
      "grad_norm": 2.267145126302908,
      "language_loss": 0.74341673,
      "learning_rate": 3.852272462378535e-06,
      "loss": 0.76504815,
      "num_input_tokens_seen": 26316995,
      "step": 1243,
      "time_per_iteration": 2.554258346557617
    },
    {
      "auxiliary_loss_clip": 0.01120248,
      "auxiliary_loss_mlp": 0.01033362,
      "balance_loss_clip": 1.0435822,
      "balance_loss_mlp": 1.02580166,
      "epoch": 0.14958215595502916,
      "flos": 15670849242240.0,
      "grad_norm": 2.324361113506503,
      "language_loss": 0.77902949,
      "learning_rate": 3.85197850221105e-06,
      "loss": 0.8005656,
      "num_input_tokens_seen": 26333295,
      "step": 1244,
      "time_per_iteration": 2.606916666030884
    },
    {
      "auxiliary_loss_clip": 0.01134762,
      "auxiliary_loss_mlp": 0.01031636,
      "balance_loss_clip": 1.04627013,
      "balance_loss_mlp": 1.02424145,
      "epoch": 0.14970239884566824,
      "flos": 33111296933760.0,
      "grad_norm": 1.7056799348617526,
      "language_loss": 0.75894743,
      "learning_rate": 3.851684261099899e-06,
      "loss": 0.7806114,
      "num_input_tokens_seen": 26355035,
      "step": 1245,
      "time_per_iteration": 2.6534414291381836
    },
    {
      "auxiliary_loss_clip": 0.01127731,
      "auxiliary_loss_mlp": 0.01028713,
      "balance_loss_clip": 1.04474127,
      "balance_loss_mlp": 1.01987982,
      "epoch": 0.14982264173630733,
      "flos": 17823141630720.0,
      "grad_norm": 1.9942309326331082,
      "language_loss": 0.86608887,
      "learning_rate": 3.851389739089718e-06,
      "loss": 0.88765335,
      "num_input_tokens_seen": 26371655,
      "step": 1246,
      "time_per_iteration": 2.5885698795318604
    },
    {
      "auxiliary_loss_clip": 0.01138128,
      "auxiliary_loss_mlp": 0.01031811,
      "balance_loss_clip": 1.04814768,
      "balance_loss_mlp": 1.02357388,
      "epoch": 0.14994288462694644,
      "flos": 32411934483840.0,
      "grad_norm": 1.8000572283664493,
      "language_loss": 0.80441642,
      "learning_rate": 3.851094936225186e-06,
      "loss": 0.82611585,
      "num_input_tokens_seen": 26392540,
      "step": 1247,
      "time_per_iteration": 2.6130406856536865
    },
    {
      "auxiliary_loss_clip": 0.01113884,
      "auxiliary_loss_mlp": 0.01025011,
      "balance_loss_clip": 1.04212666,
      "balance_loss_mlp": 1.01731646,
      "epoch": 0.15006312751758552,
      "flos": 31797301127040.0,
      "grad_norm": 1.5201229368117581,
      "language_loss": 0.76801431,
      "learning_rate": 3.850799852551024e-06,
      "loss": 0.78940332,
      "num_input_tokens_seen": 26414960,
      "step": 1248,
      "time_per_iteration": 2.691087007522583
    },
    {
      "auxiliary_loss_clip": 0.0113655,
      "auxiliary_loss_mlp": 0.01035413,
      "balance_loss_clip": 1.04484105,
      "balance_loss_mlp": 1.02730703,
      "epoch": 0.1501833704082246,
      "flos": 16619896771200.0,
      "grad_norm": 2.866776230509964,
      "language_loss": 0.85995436,
      "learning_rate": 3.850504488111995e-06,
      "loss": 0.88167393,
      "num_input_tokens_seen": 26431635,
      "step": 1249,
      "time_per_iteration": 2.5200045108795166
    },
    {
      "auxiliary_loss_clip": 0.01115711,
      "auxiliary_loss_mlp": 0.01026346,
      "balance_loss_clip": 1.04240859,
      "balance_loss_mlp": 1.01861191,
      "epoch": 0.15030361329886371,
      "flos": 23473090517760.0,
      "grad_norm": 2.0566891893038712,
      "language_loss": 0.82735848,
      "learning_rate": 3.850208842952907e-06,
      "loss": 0.84877902,
      "num_input_tokens_seen": 26450440,
      "step": 1250,
      "time_per_iteration": 2.664584159851074
    },
    {
      "auxiliary_loss_clip": 0.0109137,
      "auxiliary_loss_mlp": 0.01032918,
      "balance_loss_clip": 1.03948104,
      "balance_loss_mlp": 1.02496052,
      "epoch": 0.1504238561895028,
      "flos": 25631753143680.0,
      "grad_norm": 2.0590990008543884,
      "language_loss": 0.79439163,
      "learning_rate": 3.849912917118608e-06,
      "loss": 0.81563449,
      "num_input_tokens_seen": 26471480,
      "step": 1251,
      "time_per_iteration": 2.7035560607910156
    },
    {
      "auxiliary_loss_clip": 0.01103679,
      "auxiliary_loss_mlp": 0.01016002,
      "balance_loss_clip": 1.04264772,
      "balance_loss_mlp": 1.01287866,
      "epoch": 0.15054409908014188,
      "flos": 52101754899840.0,
      "grad_norm": 0.8794300505834775,
      "language_loss": 0.59271836,
      "learning_rate": 3.849616710653992e-06,
      "loss": 0.61391521,
      "num_input_tokens_seen": 26532950,
      "step": 1252,
      "time_per_iteration": 3.1590001583099365
    },
    {
      "auxiliary_loss_clip": 0.01133246,
      "auxiliary_loss_mlp": 0.01031298,
      "balance_loss_clip": 1.04331875,
      "balance_loss_mlp": 1.02340031,
      "epoch": 0.150664341970781,
      "flos": 18882257581440.0,
      "grad_norm": 2.4783592280433835,
      "language_loss": 0.75035131,
      "learning_rate": 3.84932022360399e-06,
      "loss": 0.7719968,
      "num_input_tokens_seen": 26551615,
      "step": 1253,
      "time_per_iteration": 2.5799622535705566
    },
    {
      "auxiliary_loss_clip": 0.01120324,
      "auxiliary_loss_mlp": 0.01036809,
      "balance_loss_clip": 1.0457375,
      "balance_loss_mlp": 1.02860761,
      "epoch": 0.15078458486142007,
      "flos": 22165389112320.0,
      "grad_norm": 2.683244556607047,
      "language_loss": 0.84344995,
      "learning_rate": 3.849023456013581e-06,
      "loss": 0.86502129,
      "num_input_tokens_seen": 26569175,
      "step": 1254,
      "time_per_iteration": 3.3387770652770996
    },
    {
      "auxiliary_loss_clip": 0.01137533,
      "auxiliary_loss_mlp": 0.01033958,
      "balance_loss_clip": 1.04544568,
      "balance_loss_mlp": 1.02576268,
      "epoch": 0.15090482775205916,
      "flos": 26654343932160.0,
      "grad_norm": 2.0694251708938776,
      "language_loss": 0.62022388,
      "learning_rate": 3.848726407927784e-06,
      "loss": 0.64193881,
      "num_input_tokens_seen": 26589560,
      "step": 1255,
      "time_per_iteration": 2.6482491493225098
    },
    {
      "auxiliary_loss_clip": 0.01117672,
      "auxiliary_loss_mlp": 0.01030485,
      "balance_loss_clip": 1.04218483,
      "balance_loss_mlp": 1.0223968,
      "epoch": 0.15102507064269824,
      "flos": 21801161278080.0,
      "grad_norm": 2.9078213757319578,
      "language_loss": 0.86420393,
      "learning_rate": 3.84842907939166e-06,
      "loss": 0.8856855,
      "num_input_tokens_seen": 26608785,
      "step": 1256,
      "time_per_iteration": 3.425584554672241
    },
    {
      "auxiliary_loss_clip": 0.01104272,
      "auxiliary_loss_mlp": 0.01031111,
      "balance_loss_clip": 1.04070163,
      "balance_loss_mlp": 1.02321911,
      "epoch": 0.15114531353333735,
      "flos": 22823145377280.0,
      "grad_norm": 3.054729533212315,
      "language_loss": 0.70989913,
      "learning_rate": 3.8481314704503146e-06,
      "loss": 0.73125291,
      "num_input_tokens_seen": 26628615,
      "step": 1257,
      "time_per_iteration": 3.4936065673828125
    },
    {
      "auxiliary_loss_clip": 0.01135556,
      "auxiliary_loss_mlp": 0.01031758,
      "balance_loss_clip": 1.04813933,
      "balance_loss_mlp": 1.02434349,
      "epoch": 0.15126555642397643,
      "flos": 19684711526400.0,
      "grad_norm": 3.2110588489252248,
      "language_loss": 0.87814552,
      "learning_rate": 3.847833581148895e-06,
      "loss": 0.89981866,
      "num_input_tokens_seen": 26647525,
      "step": 1258,
      "time_per_iteration": 2.5752177238464355
    },
    {
      "auxiliary_loss_clip": 0.01147731,
      "auxiliary_loss_mlp": 0.0102564,
      "balance_loss_clip": 1.0453099,
      "balance_loss_mlp": 1.01739025,
      "epoch": 0.15138579931461552,
      "flos": 28728277464960.0,
      "grad_norm": 5.45540755555075,
      "language_loss": 0.81230628,
      "learning_rate": 3.84753541153259e-06,
      "loss": 0.83403993,
      "num_input_tokens_seen": 26667095,
      "step": 1259,
      "time_per_iteration": 2.580294609069824
    },
    {
      "auxiliary_loss_clip": 0.01135274,
      "auxiliary_loss_mlp": 0.01032526,
      "balance_loss_clip": 1.04720974,
      "balance_loss_mlp": 1.02458692,
      "epoch": 0.15150604220525463,
      "flos": 22129167294720.0,
      "grad_norm": 1.6145711974165842,
      "language_loss": 0.8321259,
      "learning_rate": 3.847236961646633e-06,
      "loss": 0.85380393,
      "num_input_tokens_seen": 26686075,
      "step": 1260,
      "time_per_iteration": 2.5982818603515625
    },
    {
      "auxiliary_loss_clip": 0.01126914,
      "auxiliary_loss_mlp": 0.01033084,
      "balance_loss_clip": 1.04611838,
      "balance_loss_mlp": 1.02439415,
      "epoch": 0.1516262850958937,
      "flos": 12970338157440.0,
      "grad_norm": 2.992038860988399,
      "language_loss": 0.78293288,
      "learning_rate": 3.846938231536296e-06,
      "loss": 0.80453289,
      "num_input_tokens_seen": 26701695,
      "step": 1261,
      "time_per_iteration": 2.536456346511841
    },
    {
      "auxiliary_loss_clip": 0.01136947,
      "auxiliary_loss_mlp": 0.01030941,
      "balance_loss_clip": 1.04795456,
      "balance_loss_mlp": 1.02317429,
      "epoch": 0.1517465279865328,
      "flos": 21799189537920.0,
      "grad_norm": 1.9364818315255625,
      "language_loss": 0.8089186,
      "learning_rate": 3.8466392212468995e-06,
      "loss": 0.83059752,
      "num_input_tokens_seen": 26721885,
      "step": 1262,
      "time_per_iteration": 2.6062304973602295
    },
    {
      "auxiliary_loss_clip": 0.01083535,
      "auxiliary_loss_mlp": 0.01002574,
      "balance_loss_clip": 1.04139972,
      "balance_loss_mlp": 0.9993788,
      "epoch": 0.15186677087717187,
      "flos": 58180753722240.0,
      "grad_norm": 0.8233426350727325,
      "language_loss": 0.61940563,
      "learning_rate": 3.8463399308238e-06,
      "loss": 0.64026678,
      "num_input_tokens_seen": 26780990,
      "step": 1263,
      "time_per_iteration": 3.1481263637542725
    },
    {
      "auxiliary_loss_clip": 0.01135459,
      "auxiliary_loss_mlp": 0.01033953,
      "balance_loss_clip": 1.04777348,
      "balance_loss_mlp": 1.02511334,
      "epoch": 0.15198701376781099,
      "flos": 32672350379520.0,
      "grad_norm": 2.289397477217522,
      "language_loss": 0.63965046,
      "learning_rate": 3.846040360312402e-06,
      "loss": 0.66134453,
      "num_input_tokens_seen": 26804250,
      "step": 1264,
      "time_per_iteration": 2.6921169757843018
    },
    {
      "auxiliary_loss_clip": 0.01148803,
      "auxiliary_loss_mlp": 0.01029179,
      "balance_loss_clip": 1.0464673,
      "balance_loss_mlp": 1.02094173,
      "epoch": 0.15210725665845007,
      "flos": 28405087044480.0,
      "grad_norm": 2.678643216425507,
      "language_loss": 0.81171489,
      "learning_rate": 3.8457405097581485e-06,
      "loss": 0.83349466,
      "num_input_tokens_seen": 26823240,
      "step": 1265,
      "time_per_iteration": 2.58561372756958
    },
    {
      "auxiliary_loss_clip": 0.01098298,
      "auxiliary_loss_mlp": 0.01032994,
      "balance_loss_clip": 1.04180276,
      "balance_loss_mlp": 1.02466154,
      "epoch": 0.15222749954908915,
      "flos": 19940235989760.0,
      "grad_norm": 1.8448330992584783,
      "language_loss": 0.77890444,
      "learning_rate": 3.8454403792065275e-06,
      "loss": 0.80021733,
      "num_input_tokens_seen": 26842060,
      "step": 1266,
      "time_per_iteration": 2.663182020187378
    },
    {
      "auxiliary_loss_clip": 0.01103443,
      "auxiliary_loss_mlp": 0.01038942,
      "balance_loss_clip": 1.0422157,
      "balance_loss_mlp": 1.03066897,
      "epoch": 0.15234774243972826,
      "flos": 21326334168960.0,
      "grad_norm": 2.1385207564098065,
      "language_loss": 0.85457122,
      "learning_rate": 3.845139968703068e-06,
      "loss": 0.8759951,
      "num_input_tokens_seen": 26859580,
      "step": 1267,
      "time_per_iteration": 2.652040719985962
    },
    {
      "auxiliary_loss_clip": 0.01091219,
      "auxiliary_loss_mlp": 0.01032608,
      "balance_loss_clip": 1.04109597,
      "balance_loss_mlp": 1.02402461,
      "epoch": 0.15246798533036734,
      "flos": 25960176259200.0,
      "grad_norm": 1.9402624439645264,
      "language_loss": 0.83132374,
      "learning_rate": 3.844839278293342e-06,
      "loss": 0.85256201,
      "num_input_tokens_seen": 26880430,
      "step": 1268,
      "time_per_iteration": 2.698383092880249
    },
    {
      "auxiliary_loss_clip": 0.01149386,
      "auxiliary_loss_mlp": 0.01032286,
      "balance_loss_clip": 1.04779387,
      "balance_loss_mlp": 1.02364957,
      "epoch": 0.15258822822100643,
      "flos": 25814265200640.0,
      "grad_norm": 2.4273638412019403,
      "language_loss": 0.76760495,
      "learning_rate": 3.8445383080229654e-06,
      "loss": 0.78942168,
      "num_input_tokens_seen": 26896445,
      "step": 1269,
      "time_per_iteration": 2.5819945335388184
    },
    {
      "auxiliary_loss_clip": 0.01120624,
      "auxiliary_loss_mlp": 0.01028954,
      "balance_loss_clip": 1.04257441,
      "balance_loss_mlp": 1.02024567,
      "epoch": 0.1527084711116455,
      "flos": 25267828654080.0,
      "grad_norm": 4.151827374689683,
      "language_loss": 0.73487866,
      "learning_rate": 3.844237057937593e-06,
      "loss": 0.75637448,
      "num_input_tokens_seen": 26915450,
      "step": 1270,
      "time_per_iteration": 2.619041681289673
    },
    {
      "auxiliary_loss_clip": 0.01134317,
      "auxiliary_loss_mlp": 0.01027923,
      "balance_loss_clip": 1.04421377,
      "balance_loss_mlp": 1.0193994,
      "epoch": 0.15282871400228462,
      "flos": 29242701100800.0,
      "grad_norm": 2.6812806474137854,
      "language_loss": 0.77713442,
      "learning_rate": 3.843935528082926e-06,
      "loss": 0.79875684,
      "num_input_tokens_seen": 26936475,
      "step": 1271,
      "time_per_iteration": 2.625516176223755
    },
    {
      "auxiliary_loss_clip": 0.01135278,
      "auxiliary_loss_mlp": 0.01028042,
      "balance_loss_clip": 1.04518437,
      "balance_loss_mlp": 1.02004302,
      "epoch": 0.1529489568929237,
      "flos": 20884847103360.0,
      "grad_norm": 1.9246484024831283,
      "language_loss": 0.85300469,
      "learning_rate": 3.843633718504704e-06,
      "loss": 0.8746379,
      "num_input_tokens_seen": 26954920,
      "step": 1272,
      "time_per_iteration": 2.5788838863372803
    },
    {
      "auxiliary_loss_clip": 0.01102516,
      "auxiliary_loss_mlp": 0.01030476,
      "balance_loss_clip": 1.04125738,
      "balance_loss_mlp": 1.02164888,
      "epoch": 0.1530691997835628,
      "flos": 20085881621760.0,
      "grad_norm": 3.566389752084894,
      "language_loss": 0.9012177,
      "learning_rate": 3.843331629248715e-06,
      "loss": 0.92254758,
      "num_input_tokens_seen": 26972520,
      "step": 1273,
      "time_per_iteration": 2.6256027221679688
    },
    {
      "auxiliary_loss_clip": 0.01149511,
      "auxiliary_loss_mlp": 0.01026959,
      "balance_loss_clip": 1.04839587,
      "balance_loss_mlp": 1.01923418,
      "epoch": 0.1531894426742019,
      "flos": 28761920853120.0,
      "grad_norm": 5.241105918265026,
      "language_loss": 0.76324546,
      "learning_rate": 3.843029260360782e-06,
      "loss": 0.78501016,
      "num_input_tokens_seen": 26990890,
      "step": 1274,
      "time_per_iteration": 2.593838691711426
    },
    {
      "auxiliary_loss_clip": 0.0113416,
      "auxiliary_loss_mlp": 0.01033335,
      "balance_loss_clip": 1.04687047,
      "balance_loss_mlp": 1.02560449,
      "epoch": 0.15330968556484098,
      "flos": 22238439436800.0,
      "grad_norm": 1.8742639983470852,
      "language_loss": 0.78942305,
      "learning_rate": 3.8427266118867755e-06,
      "loss": 0.81109798,
      "num_input_tokens_seen": 27010640,
      "step": 1275,
      "time_per_iteration": 2.574455499649048
    },
    {
      "auxiliary_loss_clip": 0.01118272,
      "auxiliary_loss_mlp": 0.01027816,
      "balance_loss_clip": 1.04347718,
      "balance_loss_mlp": 1.01941812,
      "epoch": 0.15342992845548006,
      "flos": 27529999873920.0,
      "grad_norm": 2.810944533050809,
      "language_loss": 0.83053142,
      "learning_rate": 3.842423683872608e-06,
      "loss": 0.85199231,
      "num_input_tokens_seen": 27031215,
      "step": 1276,
      "time_per_iteration": 2.6359686851501465
    },
    {
      "auxiliary_loss_clip": 0.01138475,
      "auxiliary_loss_mlp": 0.01034709,
      "balance_loss_clip": 1.04840207,
      "balance_loss_mlp": 1.02623892,
      "epoch": 0.15355017134611917,
      "flos": 19611623283840.0,
      "grad_norm": 2.4429282441110147,
      "language_loss": 0.77969325,
      "learning_rate": 3.842120476364232e-06,
      "loss": 0.8014251,
      "num_input_tokens_seen": 27049665,
      "step": 1277,
      "time_per_iteration": 2.5784659385681152
    },
    {
      "auxiliary_loss_clip": 0.01137106,
      "auxiliary_loss_mlp": 0.01029082,
      "balance_loss_clip": 1.0468905,
      "balance_loss_mlp": 1.02068985,
      "epoch": 0.15367041423675826,
      "flos": 18480556632960.0,
      "grad_norm": 2.166486284081403,
      "language_loss": 0.83752304,
      "learning_rate": 3.841816989407644e-06,
      "loss": 0.85918492,
      "num_input_tokens_seen": 27065155,
      "step": 1278,
      "time_per_iteration": 2.508867025375366
    },
    {
      "auxiliary_loss_clip": 0.01104789,
      "auxiliary_loss_mlp": 0.01037019,
      "balance_loss_clip": 1.04286397,
      "balance_loss_mlp": 1.02901435,
      "epoch": 0.15379065712739734,
      "flos": 41430881537280.0,
      "grad_norm": 2.0525257324386192,
      "language_loss": 0.76353335,
      "learning_rate": 3.841513223048884e-06,
      "loss": 0.78495145,
      "num_input_tokens_seen": 27085840,
      "step": 1279,
      "time_per_iteration": 2.79675555229187
    },
    {
      "auxiliary_loss_clip": 0.01100438,
      "auxiliary_loss_mlp": 0.01031377,
      "balance_loss_clip": 1.04076743,
      "balance_loss_mlp": 1.02284741,
      "epoch": 0.15391090001803642,
      "flos": 22056382396800.0,
      "grad_norm": 2.866239213708591,
      "language_loss": 0.78873962,
      "learning_rate": 3.841209177334031e-06,
      "loss": 0.81005776,
      "num_input_tokens_seen": 27104200,
      "step": 1280,
      "time_per_iteration": 3.3877975940704346
    },
    {
      "auxiliary_loss_clip": 0.01130162,
      "auxiliary_loss_mlp": 0.01028539,
      "balance_loss_clip": 1.04453039,
      "balance_loss_mlp": 1.02081442,
      "epoch": 0.15403114290867553,
      "flos": 15452153285760.0,
      "grad_norm": 1.9103799825581305,
      "language_loss": 0.7475667,
      "learning_rate": 3.84090485230921e-06,
      "loss": 0.76915371,
      "num_input_tokens_seen": 27122440,
      "step": 1281,
      "time_per_iteration": 2.5065581798553467
    },
    {
      "auxiliary_loss_clip": 0.01148022,
      "auxiliary_loss_mlp": 0.01029096,
      "balance_loss_clip": 1.0481292,
      "balance_loss_mlp": 1.02043498,
      "epoch": 0.15415138579931462,
      "flos": 17930972885760.0,
      "grad_norm": 5.068364333911803,
      "language_loss": 0.76657319,
      "learning_rate": 3.840600248020588e-06,
      "loss": 0.78834426,
      "num_input_tokens_seen": 27139380,
      "step": 1282,
      "time_per_iteration": 3.3517446517944336
    },
    {
      "auxiliary_loss_clip": 0.01127138,
      "auxiliary_loss_mlp": 0.01036158,
      "balance_loss_clip": 1.04577589,
      "balance_loss_mlp": 1.02776551,
      "epoch": 0.1542716286899537,
      "flos": 11430479877120.0,
      "grad_norm": 2.3616312398159764,
      "language_loss": 0.79687303,
      "learning_rate": 3.840295364514371e-06,
      "loss": 0.818506,
      "num_input_tokens_seen": 27156760,
      "step": 1283,
      "time_per_iteration": 3.298903465270996
    },
    {
      "auxiliary_loss_clip": 0.01120807,
      "auxiliary_loss_mlp": 0.01027682,
      "balance_loss_clip": 1.04567933,
      "balance_loss_mlp": 1.01965916,
      "epoch": 0.1543918715805928,
      "flos": 17422236961920.0,
      "grad_norm": 2.246606433014947,
      "language_loss": 0.79015398,
      "learning_rate": 3.83999020183681e-06,
      "loss": 0.81163883,
      "num_input_tokens_seen": 27175455,
      "step": 1284,
      "time_per_iteration": 2.568394184112549
    },
    {
      "auxiliary_loss_clip": 0.01071421,
      "auxiliary_loss_mlp": 0.01032392,
      "balance_loss_clip": 1.0389359,
      "balance_loss_mlp": 1.0241313,
      "epoch": 0.1545121144712319,
      "flos": 17788360700160.0,
      "grad_norm": 2.081649093993288,
      "language_loss": 0.78563452,
      "learning_rate": 3.839684760034199e-06,
      "loss": 0.80667263,
      "num_input_tokens_seen": 27193660,
      "step": 1285,
      "time_per_iteration": 2.6458871364593506
    },
    {
      "auxiliary_loss_clip": 0.01107717,
      "auxiliary_loss_mlp": 0.01028492,
      "balance_loss_clip": 1.04360175,
      "balance_loss_mlp": 1.02036762,
      "epoch": 0.15463235736187098,
      "flos": 28222688741760.0,
      "grad_norm": 4.400724229487931,
      "language_loss": 0.65529835,
      "learning_rate": 3.8393790391528716e-06,
      "loss": 0.67666042,
      "num_input_tokens_seen": 27214355,
      "step": 1286,
      "time_per_iteration": 2.6615517139434814
    },
    {
      "auxiliary_loss_clip": 0.01116443,
      "auxiliary_loss_mlp": 0.01029785,
      "balance_loss_clip": 1.04186106,
      "balance_loss_mlp": 1.02196479,
      "epoch": 0.15475260025251006,
      "flos": 22859101768320.0,
      "grad_norm": 2.0286053214355633,
      "language_loss": 0.89340347,
      "learning_rate": 3.8390730392392075e-06,
      "loss": 0.91486573,
      "num_input_tokens_seen": 27234335,
      "step": 1287,
      "time_per_iteration": 2.578010082244873
    },
    {
      "auxiliary_loss_clip": 0.01147388,
      "auxiliary_loss_mlp": 0.01027703,
      "balance_loss_clip": 1.04688382,
      "balance_loss_mlp": 1.01979995,
      "epoch": 0.15487284314314917,
      "flos": 17604786936960.0,
      "grad_norm": 2.1364391952554396,
      "language_loss": 0.79497981,
      "learning_rate": 3.838766760339626e-06,
      "loss": 0.81673074,
      "num_input_tokens_seen": 27252860,
      "step": 1288,
      "time_per_iteration": 2.5513370037078857
    },
    {
      "auxiliary_loss_clip": 0.01110318,
      "auxiliary_loss_mlp": 0.01028615,
      "balance_loss_clip": 1.04453576,
      "balance_loss_mlp": 1.02035999,
      "epoch": 0.15499308603378825,
      "flos": 20083985717760.0,
      "grad_norm": 2.4459744084333397,
      "language_loss": 0.79216576,
      "learning_rate": 3.838460202500587e-06,
      "loss": 0.81355506,
      "num_input_tokens_seen": 27268650,
      "step": 1289,
      "time_per_iteration": 2.5921432971954346
    },
    {
      "auxiliary_loss_clip": 0.01091257,
      "auxiliary_loss_mlp": 0.01026496,
      "balance_loss_clip": 1.03912914,
      "balance_loss_mlp": 1.01731086,
      "epoch": 0.15511332892442733,
      "flos": 15919510533120.0,
      "grad_norm": 2.2433638841253902,
      "language_loss": 0.74325204,
      "learning_rate": 3.838153365768599e-06,
      "loss": 0.76442957,
      "num_input_tokens_seen": 27285160,
      "step": 1290,
      "time_per_iteration": 2.589956045150757
    },
    {
      "auxiliary_loss_clip": 0.01096692,
      "auxiliary_loss_mlp": 0.01035621,
      "balance_loss_clip": 1.04280138,
      "balance_loss_mlp": 1.02713919,
      "epoch": 0.15523357181506645,
      "flos": 41285728840320.0,
      "grad_norm": 3.0524972302999065,
      "language_loss": 0.75090188,
      "learning_rate": 3.837846250190206e-06,
      "loss": 0.77222502,
      "num_input_tokens_seen": 27308025,
      "step": 1291,
      "time_per_iteration": 2.7968287467956543
    },
    {
      "auxiliary_loss_clip": 0.01098367,
      "auxiliary_loss_mlp": 0.00757885,
      "balance_loss_clip": 1.04397082,
      "balance_loss_mlp": 1.0004226,
      "epoch": 0.15535381470570553,
      "flos": 18480746223360.0,
      "grad_norm": 3.93127754620705,
      "language_loss": 0.77224016,
      "learning_rate": 3.837538855811998e-06,
      "loss": 0.79080272,
      "num_input_tokens_seen": 27326200,
      "step": 1292,
      "time_per_iteration": 2.6083781719207764
    },
    {
      "auxiliary_loss_clip": 0.01125114,
      "auxiliary_loss_mlp": 0.01029929,
      "balance_loss_clip": 1.04719985,
      "balance_loss_mlp": 1.0219481,
      "epoch": 0.1554740575963446,
      "flos": 13919878621440.0,
      "grad_norm": 2.1200494942526906,
      "language_loss": 0.70489782,
      "learning_rate": 3.837231182680606e-06,
      "loss": 0.7264483,
      "num_input_tokens_seen": 27344165,
      "step": 1293,
      "time_per_iteration": 2.5993359088897705
    },
    {
      "auxiliary_loss_clip": 0.01135103,
      "auxiliary_loss_mlp": 0.01029553,
      "balance_loss_clip": 1.04603648,
      "balance_loss_mlp": 1.02129233,
      "epoch": 0.1555943004869837,
      "flos": 20849004466560.0,
      "grad_norm": 1.7023501818946707,
      "language_loss": 0.7604804,
      "learning_rate": 3.836923230842706e-06,
      "loss": 0.7821269,
      "num_input_tokens_seen": 27363280,
      "step": 1294,
      "time_per_iteration": 2.538419723510742
    },
    {
      "auxiliary_loss_clip": 0.010987,
      "auxiliary_loss_mlp": 0.01031949,
      "balance_loss_clip": 1.04357564,
      "balance_loss_mlp": 1.02349114,
      "epoch": 0.1557145433776228,
      "flos": 22087788618240.0,
      "grad_norm": 2.42087689192657,
      "language_loss": 0.80559087,
      "learning_rate": 3.836615000345011e-06,
      "loss": 0.82689732,
      "num_input_tokens_seen": 27381460,
      "step": 1295,
      "time_per_iteration": 2.660316228866577
    },
    {
      "auxiliary_loss_clip": 0.01147269,
      "auxiliary_loss_mlp": 0.01026914,
      "balance_loss_clip": 1.04698074,
      "balance_loss_mlp": 1.0191896,
      "epoch": 0.1558347862682619,
      "flos": 19794021586560.0,
      "grad_norm": 2.290916726552948,
      "language_loss": 0.78515685,
      "learning_rate": 3.836306491234282e-06,
      "loss": 0.80689871,
      "num_input_tokens_seen": 27399310,
      "step": 1296,
      "time_per_iteration": 2.5113272666931152
    },
    {
      "auxiliary_loss_clip": 0.01109979,
      "auxiliary_loss_mlp": 0.01029329,
      "balance_loss_clip": 1.04313302,
      "balance_loss_mlp": 1.02194965,
      "epoch": 0.15595502915890097,
      "flos": 17238928625280.0,
      "grad_norm": 2.183246232337865,
      "language_loss": 0.75492966,
      "learning_rate": 3.835997703557317e-06,
      "loss": 0.77632266,
      "num_input_tokens_seen": 27416050,
      "step": 1297,
      "time_per_iteration": 2.559260129928589
    },
    {
      "auxiliary_loss_clip": 0.01099354,
      "auxiliary_loss_mlp": 0.01031169,
      "balance_loss_clip": 1.04432762,
      "balance_loss_mlp": 1.02306843,
      "epoch": 0.15607527204954008,
      "flos": 19721577951360.0,
      "grad_norm": 2.0589067960099956,
      "language_loss": 0.7983408,
      "learning_rate": 3.83568863736096e-06,
      "loss": 0.819646,
      "num_input_tokens_seen": 27434920,
      "step": 1298,
      "time_per_iteration": 2.6198768615722656
    },
    {
      "auxiliary_loss_clip": 0.01110901,
      "auxiliary_loss_mlp": 0.01030965,
      "balance_loss_clip": 1.04411077,
      "balance_loss_mlp": 1.02309692,
      "epoch": 0.15619551494017916,
      "flos": 18517650566400.0,
      "grad_norm": 2.262136867021465,
      "language_loss": 0.89388216,
      "learning_rate": 3.8353792926920975e-06,
      "loss": 0.91530085,
      "num_input_tokens_seen": 27453570,
      "step": 1299,
      "time_per_iteration": 2.6037113666534424
    },
    {
      "auxiliary_loss_clip": 0.01137565,
      "auxiliary_loss_mlp": 0.01034823,
      "balance_loss_clip": 1.04877424,
      "balance_loss_mlp": 1.02648485,
      "epoch": 0.15631575783081825,
      "flos": 19904203762560.0,
      "grad_norm": 2.7637462151428,
      "language_loss": 0.81540227,
      "learning_rate": 3.835069669597655e-06,
      "loss": 0.83712614,
      "num_input_tokens_seen": 27471960,
      "step": 1300,
      "time_per_iteration": 2.535921812057495
    },
    {
      "auxiliary_loss_clip": 0.01134762,
      "auxiliary_loss_mlp": 0.0075781,
      "balance_loss_clip": 1.04624903,
      "balance_loss_mlp": 1.00035203,
      "epoch": 0.15643600072145733,
      "flos": 20779783868160.0,
      "grad_norm": 2.0686531510591752,
      "language_loss": 0.79378116,
      "learning_rate": 3.834759768124603e-06,
      "loss": 0.81270689,
      "num_input_tokens_seen": 27490835,
      "step": 1301,
      "time_per_iteration": 2.5757253170013428
    },
    {
      "auxiliary_loss_clip": 0.0110625,
      "auxiliary_loss_mlp": 0.01029773,
      "balance_loss_clip": 1.04336035,
      "balance_loss_mlp": 1.02143407,
      "epoch": 0.15655624361209644,
      "flos": 18548070917760.0,
      "grad_norm": 2.2239975352000694,
      "language_loss": 0.75906724,
      "learning_rate": 3.834449588319953e-06,
      "loss": 0.78042746,
      "num_input_tokens_seen": 27508870,
      "step": 1302,
      "time_per_iteration": 2.5567691326141357
    },
    {
      "auxiliary_loss_clip": 0.01130345,
      "auxiliary_loss_mlp": 0.01033624,
      "balance_loss_clip": 1.04517174,
      "balance_loss_mlp": 1.02583385,
      "epoch": 0.15667648650273552,
      "flos": 25231948099200.0,
      "grad_norm": 1.8242134041238212,
      "language_loss": 0.85007286,
      "learning_rate": 3.834139130230758e-06,
      "loss": 0.87171257,
      "num_input_tokens_seen": 27528175,
      "step": 1303,
      "time_per_iteration": 2.6067233085632324
    },
    {
      "auxiliary_loss_clip": 0.01118416,
      "auxiliary_loss_mlp": 0.01027935,
      "balance_loss_clip": 1.04174507,
      "balance_loss_mlp": 1.02001357,
      "epoch": 0.1567967293933746,
      "flos": 24829412952960.0,
      "grad_norm": 3.151344901868006,
      "language_loss": 0.8110472,
      "learning_rate": 3.833828393904117e-06,
      "loss": 0.83251071,
      "num_input_tokens_seen": 27548455,
      "step": 1304,
      "time_per_iteration": 2.6031224727630615
    },
    {
      "auxiliary_loss_clip": 0.0109941,
      "auxiliary_loss_mlp": 0.01024453,
      "balance_loss_clip": 1.04356384,
      "balance_loss_mlp": 1.01654327,
      "epoch": 0.15691697228401372,
      "flos": 19166154819840.0,
      "grad_norm": 2.222700294795513,
      "language_loss": 0.77627176,
      "learning_rate": 3.833517379387165e-06,
      "loss": 0.79751039,
      "num_input_tokens_seen": 27564910,
      "step": 1305,
      "time_per_iteration": 2.6267056465148926
    },
    {
      "auxiliary_loss_clip": 0.01136854,
      "auxiliary_loss_mlp": 0.01033716,
      "balance_loss_clip": 1.04911125,
      "balance_loss_mlp": 1.02519846,
      "epoch": 0.1570372151746528,
      "flos": 24793266971520.0,
      "grad_norm": 2.2674685865653066,
      "language_loss": 0.89071834,
      "learning_rate": 3.833206086727085e-06,
      "loss": 0.91242403,
      "num_input_tokens_seen": 27584260,
      "step": 1306,
      "time_per_iteration": 3.325026512145996
    },
    {
      "auxiliary_loss_clip": 0.01105739,
      "auxiliary_loss_mlp": 0.01027743,
      "balance_loss_clip": 1.04282939,
      "balance_loss_mlp": 1.01921368,
      "epoch": 0.15715745806529188,
      "flos": 24865976033280.0,
      "grad_norm": 2.139355227393893,
      "language_loss": 0.70346451,
      "learning_rate": 3.8328945159710994e-06,
      "loss": 0.72479934,
      "num_input_tokens_seen": 27604440,
      "step": 1307,
      "time_per_iteration": 2.6589434146881104
    },
    {
      "auxiliary_loss_clip": 0.01139427,
      "auxiliary_loss_mlp": 0.0075766,
      "balance_loss_clip": 1.04988945,
      "balance_loss_mlp": 1.0003829,
      "epoch": 0.157277700955931,
      "flos": 21874325356800.0,
      "grad_norm": 2.1254076775645765,
      "language_loss": 0.89055365,
      "learning_rate": 3.832582667166473e-06,
      "loss": 0.9095245,
      "num_input_tokens_seen": 27624250,
      "step": 1308,
      "time_per_iteration": 4.16135311126709
    },
    {
      "auxiliary_loss_clip": 0.01125068,
      "auxiliary_loss_mlp": 0.01031618,
      "balance_loss_clip": 1.04597282,
      "balance_loss_mlp": 1.02292776,
      "epoch": 0.15739794384657008,
      "flos": 24535543259520.0,
      "grad_norm": 1.9360151171619226,
      "language_loss": 0.81698579,
      "learning_rate": 3.8322705403605125e-06,
      "loss": 0.83855259,
      "num_input_tokens_seen": 27644595,
      "step": 1309,
      "time_per_iteration": 2.585458278656006
    },
    {
      "auxiliary_loss_clip": 0.01113472,
      "auxiliary_loss_mlp": 0.01029039,
      "balance_loss_clip": 1.04213715,
      "balance_loss_mlp": 1.02145147,
      "epoch": 0.15751818673720916,
      "flos": 17747057859840.0,
      "grad_norm": 2.018287894570091,
      "language_loss": 0.810673,
      "learning_rate": 3.831958135600568e-06,
      "loss": 0.83209813,
      "num_input_tokens_seen": 27662145,
      "step": 1310,
      "time_per_iteration": 2.567417860031128
    },
    {
      "auxiliary_loss_clip": 0.0113531,
      "auxiliary_loss_mlp": 0.01028035,
      "balance_loss_clip": 1.04758465,
      "balance_loss_mlp": 1.02056098,
      "epoch": 0.15763842962784824,
      "flos": 17860463072640.0,
      "grad_norm": 3.9653785975036513,
      "language_loss": 0.79744864,
      "learning_rate": 3.831645452934032e-06,
      "loss": 0.81908202,
      "num_input_tokens_seen": 27680575,
      "step": 1311,
      "time_per_iteration": 2.508505344390869
    },
    {
      "auxiliary_loss_clip": 0.01148629,
      "auxiliary_loss_mlp": 0.01034138,
      "balance_loss_clip": 1.04992902,
      "balance_loss_mlp": 1.0258472,
      "epoch": 0.15775867251848735,
      "flos": 26983411655040.0,
      "grad_norm": 2.136729122526449,
      "language_loss": 0.80031765,
      "learning_rate": 3.831332492408336e-06,
      "loss": 0.82214528,
      "num_input_tokens_seen": 27701985,
      "step": 1312,
      "time_per_iteration": 2.5682075023651123
    },
    {
      "auxiliary_loss_clip": 0.01120803,
      "auxiliary_loss_mlp": 0.01026603,
      "balance_loss_clip": 1.04551959,
      "balance_loss_mlp": 1.01837134,
      "epoch": 0.15787891540912644,
      "flos": 19242162754560.0,
      "grad_norm": 2.0417587791782204,
      "language_loss": 0.69201142,
      "learning_rate": 3.831019254070957e-06,
      "loss": 0.71348548,
      "num_input_tokens_seen": 27719770,
      "step": 1313,
      "time_per_iteration": 2.56598162651062
    },
    {
      "auxiliary_loss_clip": 0.01092163,
      "auxiliary_loss_mlp": 0.01026877,
      "balance_loss_clip": 1.04124582,
      "balance_loss_mlp": 1.018628,
      "epoch": 0.15799915829976552,
      "flos": 27273527458560.0,
      "grad_norm": 2.508900512488316,
      "language_loss": 0.95050704,
      "learning_rate": 3.8307057379694135e-06,
      "loss": 0.97169745,
      "num_input_tokens_seen": 27739105,
      "step": 1314,
      "time_per_iteration": 2.690134048461914
    },
    {
      "auxiliary_loss_clip": 0.01146755,
      "auxiliary_loss_mlp": 0.01035319,
      "balance_loss_clip": 1.04603982,
      "balance_loss_mlp": 1.02718925,
      "epoch": 0.15811940119040463,
      "flos": 20407214056320.0,
      "grad_norm": 2.1001246189241343,
      "language_loss": 0.8234601,
      "learning_rate": 3.830391944151264e-06,
      "loss": 0.84528077,
      "num_input_tokens_seen": 27754985,
      "step": 1315,
      "time_per_iteration": 2.4967684745788574
    },
    {
      "auxiliary_loss_clip": 0.01119082,
      "auxiliary_loss_mlp": 0.01032585,
      "balance_loss_clip": 1.04394054,
      "balance_loss_mlp": 1.02480674,
      "epoch": 0.1582396440810437,
      "flos": 32602143911040.0,
      "grad_norm": 1.9199080726656914,
      "language_loss": 0.67412102,
      "learning_rate": 3.830077872664114e-06,
      "loss": 0.69563764,
      "num_input_tokens_seen": 27776110,
      "step": 1316,
      "time_per_iteration": 2.739509105682373
    },
    {
      "auxiliary_loss_clip": 0.01070037,
      "auxiliary_loss_mlp": 0.01029468,
      "balance_loss_clip": 1.03652489,
      "balance_loss_mlp": 1.02192807,
      "epoch": 0.1583598869716828,
      "flos": 33803265358080.0,
      "grad_norm": 1.814531188404826,
      "language_loss": 0.72706354,
      "learning_rate": 3.829763523555604e-06,
      "loss": 0.74805862,
      "num_input_tokens_seen": 27796510,
      "step": 1317,
      "time_per_iteration": 2.785768985748291
    },
    {
      "auxiliary_loss_clip": 0.01126615,
      "auxiliary_loss_mlp": 0.01027456,
      "balance_loss_clip": 1.04640782,
      "balance_loss_mlp": 1.02009463,
      "epoch": 0.15848012986232188,
      "flos": 24683653566720.0,
      "grad_norm": 7.211971696929567,
      "language_loss": 0.78314263,
      "learning_rate": 3.829448896873423e-06,
      "loss": 0.80468339,
      "num_input_tokens_seen": 27815610,
      "step": 1318,
      "time_per_iteration": 2.5745441913604736
    },
    {
      "auxiliary_loss_clip": 0.01082444,
      "auxiliary_loss_mlp": 0.00757536,
      "balance_loss_clip": 1.03861463,
      "balance_loss_mlp": 1.00039506,
      "epoch": 0.158600372752961,
      "flos": 22604297748480.0,
      "grad_norm": 1.8704070662661658,
      "language_loss": 0.79273909,
      "learning_rate": 3.829133992665299e-06,
      "loss": 0.81113887,
      "num_input_tokens_seen": 27834735,
      "step": 1319,
      "time_per_iteration": 2.6649444103240967
    },
    {
      "auxiliary_loss_clip": 0.01136872,
      "auxiliary_loss_mlp": 0.01030026,
      "balance_loss_clip": 1.0481925,
      "balance_loss_mlp": 1.0220387,
      "epoch": 0.15872061564360007,
      "flos": 27930411607680.0,
      "grad_norm": 2.1916755615474903,
      "language_loss": 0.88796413,
      "learning_rate": 3.828818810979002e-06,
      "loss": 0.9096331,
      "num_input_tokens_seen": 27853065,
      "step": 1320,
      "time_per_iteration": 2.5932703018188477
    },
    {
      "auxiliary_loss_clip": 0.01149182,
      "auxiliary_loss_mlp": 0.01029164,
      "balance_loss_clip": 1.05077505,
      "balance_loss_mlp": 1.02132607,
      "epoch": 0.15884085853423915,
      "flos": 23699104663680.0,
      "grad_norm": 2.1019449174763327,
      "language_loss": 0.80281562,
      "learning_rate": 3.8285033518623454e-06,
      "loss": 0.82459903,
      "num_input_tokens_seen": 27873315,
      "step": 1321,
      "time_per_iteration": 2.550842046737671
    },
    {
      "auxiliary_loss_clip": 0.01136055,
      "auxiliary_loss_mlp": 0.01030537,
      "balance_loss_clip": 1.04788721,
      "balance_loss_mlp": 1.02155447,
      "epoch": 0.15896110142487826,
      "flos": 23114588313600.0,
      "grad_norm": 3.6439019466690072,
      "language_loss": 0.81625313,
      "learning_rate": 3.8281876153631845e-06,
      "loss": 0.837919,
      "num_input_tokens_seen": 27890070,
      "step": 1322,
      "time_per_iteration": 2.5493719577789307
    },
    {
      "auxiliary_loss_clip": 0.01096952,
      "auxiliary_loss_mlp": 0.0103323,
      "balance_loss_clip": 1.044572,
      "balance_loss_mlp": 1.02449179,
      "epoch": 0.15908134431551735,
      "flos": 14687058700800.0,
      "grad_norm": 2.3901857339632206,
      "language_loss": 0.64410102,
      "learning_rate": 3.827871601529416e-06,
      "loss": 0.66540283,
      "num_input_tokens_seen": 27908590,
      "step": 1323,
      "time_per_iteration": 2.637378692626953
    },
    {
      "auxiliary_loss_clip": 0.01111292,
      "auxiliary_loss_mlp": 0.01028925,
      "balance_loss_clip": 1.04537249,
      "balance_loss_mlp": 1.02075279,
      "epoch": 0.15920158720615643,
      "flos": 20195684616960.0,
      "grad_norm": 2.102396408029855,
      "language_loss": 0.80815983,
      "learning_rate": 3.827555310408979e-06,
      "loss": 0.82956207,
      "num_input_tokens_seen": 27927985,
      "step": 1324,
      "time_per_iteration": 2.61287260055542
    },
    {
      "auxiliary_loss_clip": 0.01093842,
      "auxiliary_loss_mlp": 0.01030273,
      "balance_loss_clip": 1.04085732,
      "balance_loss_mlp": 1.0217849,
      "epoch": 0.1593218300967955,
      "flos": 24828920017920.0,
      "grad_norm": 1.8407551047421593,
      "language_loss": 0.82673639,
      "learning_rate": 3.827238742049854e-06,
      "loss": 0.84797758,
      "num_input_tokens_seen": 27948280,
      "step": 1325,
      "time_per_iteration": 2.6614584922790527
    },
    {
      "auxiliary_loss_clip": 0.01147326,
      "auxiliary_loss_mlp": 0.01028805,
      "balance_loss_clip": 1.04789209,
      "balance_loss_mlp": 1.02081847,
      "epoch": 0.15944207298743462,
      "flos": 28331164604160.0,
      "grad_norm": 1.963476012036576,
      "language_loss": 0.51709867,
      "learning_rate": 3.826921896500066e-06,
      "loss": 0.53885996,
      "num_input_tokens_seen": 27969565,
      "step": 1326,
      "time_per_iteration": 2.5928306579589844
    },
    {
      "auxiliary_loss_clip": 0.01104415,
      "auxiliary_loss_mlp": 0.01030359,
      "balance_loss_clip": 1.04385591,
      "balance_loss_mlp": 1.02117968,
      "epoch": 0.1595623158780737,
      "flos": 22966970941440.0,
      "grad_norm": 1.8197036919602654,
      "language_loss": 0.77436495,
      "learning_rate": 3.826604773807678e-06,
      "loss": 0.79571271,
      "num_input_tokens_seen": 27987540,
      "step": 1327,
      "time_per_iteration": 2.62610125541687
    },
    {
      "auxiliary_loss_clip": 0.01124589,
      "auxiliary_loss_mlp": 0.01028959,
      "balance_loss_clip": 1.04746127,
      "balance_loss_mlp": 1.02028012,
      "epoch": 0.1596825587687128,
      "flos": 19712098431360.0,
      "grad_norm": 9.215163931979651,
      "language_loss": 0.73829162,
      "learning_rate": 3.826287374020798e-06,
      "loss": 0.75982714,
      "num_input_tokens_seen": 28002345,
      "step": 1328,
      "time_per_iteration": 2.565868854522705
    },
    {
      "auxiliary_loss_clip": 0.01149379,
      "auxiliary_loss_mlp": 0.01031025,
      "balance_loss_clip": 1.05008936,
      "balance_loss_mlp": 1.02280509,
      "epoch": 0.1598028016593519,
      "flos": 22639912876800.0,
      "grad_norm": 3.042826181986635,
      "language_loss": 0.82658625,
      "learning_rate": 3.825969697187575e-06,
      "loss": 0.84839022,
      "num_input_tokens_seen": 28021675,
      "step": 1329,
      "time_per_iteration": 2.59698748588562
    },
    {
      "auxiliary_loss_clip": 0.01111116,
      "auxiliary_loss_mlp": 0.01029385,
      "balance_loss_clip": 1.04456568,
      "balance_loss_mlp": 1.02130902,
      "epoch": 0.15992304454999098,
      "flos": 20484852468480.0,
      "grad_norm": 2.06852092974428,
      "language_loss": 0.69264406,
      "learning_rate": 3.8256517433562015e-06,
      "loss": 0.71404904,
      "num_input_tokens_seen": 28039615,
      "step": 1330,
      "time_per_iteration": 2.6208527088165283
    },
    {
      "auxiliary_loss_clip": 0.01148376,
      "auxiliary_loss_mlp": 0.01029907,
      "balance_loss_clip": 1.0499351,
      "balance_loss_mlp": 1.02247763,
      "epoch": 0.16004328744063007,
      "flos": 17678026851840.0,
      "grad_norm": 2.3610053077533473,
      "language_loss": 0.91749787,
      "learning_rate": 3.82533351257491e-06,
      "loss": 0.93928063,
      "num_input_tokens_seen": 28057565,
      "step": 1331,
      "time_per_iteration": 2.5398154258728027
    },
    {
      "auxiliary_loss_clip": 0.01133949,
      "auxiliary_loss_mlp": 0.01029023,
      "balance_loss_clip": 1.04772925,
      "balance_loss_mlp": 1.0209285,
      "epoch": 0.16016353033126918,
      "flos": 24101071038720.0,
      "grad_norm": 3.404727433439379,
      "language_loss": 0.88782984,
      "learning_rate": 3.825015004891975e-06,
      "loss": 0.90945953,
      "num_input_tokens_seen": 28076305,
      "step": 1332,
      "time_per_iteration": 3.3626558780670166
    },
    {
      "auxiliary_loss_clip": 0.01137019,
      "auxiliary_loss_mlp": 0.01024903,
      "balance_loss_clip": 1.04887414,
      "balance_loss_mlp": 1.01716006,
      "epoch": 0.16028377322190826,
      "flos": 27637224439680.0,
      "grad_norm": 1.8274285690275869,
      "language_loss": 0.76129442,
      "learning_rate": 3.824696220355716e-06,
      "loss": 0.78291368,
      "num_input_tokens_seen": 28097895,
      "step": 1333,
      "time_per_iteration": 2.642841100692749
    },
    {
      "auxiliary_loss_clip": 0.01115532,
      "auxiliary_loss_mlp": 0.01032838,
      "balance_loss_clip": 1.04410648,
      "balance_loss_mlp": 1.02474928,
      "epoch": 0.16040401611254734,
      "flos": 20963395549440.0,
      "grad_norm": 1.6503157508655402,
      "language_loss": 0.78733253,
      "learning_rate": 3.824377159014491e-06,
      "loss": 0.80881619,
      "num_input_tokens_seen": 28118790,
      "step": 1334,
      "time_per_iteration": 3.410149335861206
    },
    {
      "auxiliary_loss_clip": 0.01131378,
      "auxiliary_loss_mlp": 0.01028455,
      "balance_loss_clip": 1.04722452,
      "balance_loss_mlp": 1.02022994,
      "epoch": 0.16052425900318643,
      "flos": 21248923265280.0,
      "grad_norm": 1.8173406395316942,
      "language_loss": 0.84718591,
      "learning_rate": 3.824057820916702e-06,
      "loss": 0.86878431,
      "num_input_tokens_seen": 28135995,
      "step": 1335,
      "time_per_iteration": 4.135566473007202
    },
    {
      "auxiliary_loss_clip": 0.01115203,
      "auxiliary_loss_mlp": 0.01026868,
      "balance_loss_clip": 1.04332292,
      "balance_loss_mlp": 1.01817203,
      "epoch": 0.16064450189382554,
      "flos": 15525848217600.0,
      "grad_norm": 2.4950484258333727,
      "language_loss": 0.71531355,
      "learning_rate": 3.8237382061107904e-06,
      "loss": 0.73673415,
      "num_input_tokens_seen": 28152715,
      "step": 1336,
      "time_per_iteration": 2.563899517059326
    },
    {
      "auxiliary_loss_clip": 0.01060014,
      "auxiliary_loss_mlp": 0.0103141,
      "balance_loss_clip": 1.03628123,
      "balance_loss_mlp": 1.02361357,
      "epoch": 0.16076474478446462,
      "flos": 21180612700800.0,
      "grad_norm": 1.8336392989076584,
      "language_loss": 0.78651595,
      "learning_rate": 3.823418314645243e-06,
      "loss": 0.80743027,
      "num_input_tokens_seen": 28171590,
      "step": 1337,
      "time_per_iteration": 2.8309988975524902
    },
    {
      "auxiliary_loss_clip": 0.01076562,
      "auxiliary_loss_mlp": 0.01034401,
      "balance_loss_clip": 1.03726983,
      "balance_loss_mlp": 1.02640808,
      "epoch": 0.1608849876751037,
      "flos": 18368288962560.0,
      "grad_norm": 1.9949631334975828,
      "language_loss": 0.75474209,
      "learning_rate": 3.823098146568588e-06,
      "loss": 0.77585173,
      "num_input_tokens_seen": 28191295,
      "step": 1338,
      "time_per_iteration": 2.8015012741088867
    },
    {
      "auxiliary_loss_clip": 0.01132122,
      "auxiliary_loss_mlp": 0.01031108,
      "balance_loss_clip": 1.04695714,
      "balance_loss_mlp": 1.02342546,
      "epoch": 0.1610052305657428,
      "flos": 29499590615040.0,
      "grad_norm": 1.8374869896547206,
      "language_loss": 0.71487838,
      "learning_rate": 3.822777701929394e-06,
      "loss": 0.73651063,
      "num_input_tokens_seen": 28213120,
      "step": 1339,
      "time_per_iteration": 2.628575563430786
    },
    {
      "auxiliary_loss_clip": 0.01133079,
      "auxiliary_loss_mlp": 0.01032924,
      "balance_loss_clip": 1.04467535,
      "balance_loss_mlp": 1.02460933,
      "epoch": 0.1611254734563819,
      "flos": 26800330826880.0,
      "grad_norm": 2.2107319257647666,
      "language_loss": 0.73937082,
      "learning_rate": 3.8224569807762714e-06,
      "loss": 0.76103085,
      "num_input_tokens_seen": 28232440,
      "step": 1340,
      "time_per_iteration": 2.602388858795166
    },
    {
      "auxiliary_loss_clip": 0.01099494,
      "auxiliary_loss_mlp": 0.01030795,
      "balance_loss_clip": 1.04449844,
      "balance_loss_mlp": 1.02263558,
      "epoch": 0.16124571634702098,
      "flos": 22421785691520.0,
      "grad_norm": 4.087113334677447,
      "language_loss": 0.76331949,
      "learning_rate": 3.822135983157873e-06,
      "loss": 0.78462237,
      "num_input_tokens_seen": 28251715,
      "step": 1341,
      "time_per_iteration": 2.6750264167785645
    },
    {
      "auxiliary_loss_clip": 0.01144614,
      "auxiliary_loss_mlp": 0.00757387,
      "balance_loss_clip": 1.04725409,
      "balance_loss_mlp": 1.00036216,
      "epoch": 0.16136595923766006,
      "flos": 11000671580160.0,
      "grad_norm": 2.1640198600337723,
      "language_loss": 0.84508944,
      "learning_rate": 3.821814709122896e-06,
      "loss": 0.86410952,
      "num_input_tokens_seen": 28269765,
      "step": 1342,
      "time_per_iteration": 2.518510103225708
    },
    {
      "auxiliary_loss_clip": 0.01118807,
      "auxiliary_loss_mlp": 0.010297,
      "balance_loss_clip": 1.045223,
      "balance_loss_mlp": 1.0222795,
      "epoch": 0.16148620212829917,
      "flos": 21217099944960.0,
      "grad_norm": 2.562008758399628,
      "language_loss": 0.84845006,
      "learning_rate": 3.821493158720076e-06,
      "loss": 0.86993515,
      "num_input_tokens_seen": 28288870,
      "step": 1343,
      "time_per_iteration": 2.585493803024292
    },
    {
      "auxiliary_loss_clip": 0.0110384,
      "auxiliary_loss_mlp": 0.01022754,
      "balance_loss_clip": 1.04173338,
      "balance_loss_mlp": 1.01449859,
      "epoch": 0.16160644501893826,
      "flos": 16760044281600.0,
      "grad_norm": 2.9212851709854415,
      "language_loss": 0.73230922,
      "learning_rate": 3.821171331998191e-06,
      "loss": 0.75357515,
      "num_input_tokens_seen": 28305400,
      "step": 1344,
      "time_per_iteration": 2.5943472385406494
    },
    {
      "auxiliary_loss_clip": 0.01086176,
      "auxiliary_loss_mlp": 0.01005902,
      "balance_loss_clip": 1.0506053,
      "balance_loss_mlp": 1.00265908,
      "epoch": 0.16172668790957734,
      "flos": 64451213268480.0,
      "grad_norm": 0.7079827491771241,
      "language_loss": 0.54485202,
      "learning_rate": 3.820849229006064e-06,
      "loss": 0.56577283,
      "num_input_tokens_seen": 28373150,
      "step": 1345,
      "time_per_iteration": 3.4520092010498047
    },
    {
      "auxiliary_loss_clip": 0.01143832,
      "auxiliary_loss_mlp": 0.01023362,
      "balance_loss_clip": 1.04579544,
      "balance_loss_mlp": 1.01564312,
      "epoch": 0.16184693080021645,
      "flos": 23259892682880.0,
      "grad_norm": 2.009353163324775,
      "language_loss": 0.71505666,
      "learning_rate": 3.8205268497925564e-06,
      "loss": 0.73672867,
      "num_input_tokens_seen": 28393620,
      "step": 1346,
      "time_per_iteration": 2.80853533744812
    },
    {
      "auxiliary_loss_clip": 0.01145893,
      "auxiliary_loss_mlp": 0.01028882,
      "balance_loss_clip": 1.04776001,
      "balance_loss_mlp": 1.02144897,
      "epoch": 0.16196717369085553,
      "flos": 17452695231360.0,
      "grad_norm": 2.237845639181645,
      "language_loss": 0.7850467,
      "learning_rate": 3.8202041944065725e-06,
      "loss": 0.80679452,
      "num_input_tokens_seen": 28409440,
      "step": 1347,
      "time_per_iteration": 2.507739305496216
    },
    {
      "auxiliary_loss_clip": 0.01145331,
      "auxiliary_loss_mlp": 0.01031901,
      "balance_loss_clip": 1.04810894,
      "balance_loss_mlp": 1.02398586,
      "epoch": 0.16208741658149461,
      "flos": 23875360237440.0,
      "grad_norm": 4.55207329155179,
      "language_loss": 0.73755032,
      "learning_rate": 3.819881262897061e-06,
      "loss": 0.75932264,
      "num_input_tokens_seen": 28427575,
      "step": 1348,
      "time_per_iteration": 2.596980094909668
    },
    {
      "auxiliary_loss_clip": 0.01100677,
      "auxiliary_loss_mlp": 0.01030301,
      "balance_loss_clip": 1.04271245,
      "balance_loss_mlp": 1.0219388,
      "epoch": 0.1622076594721337,
      "flos": 25887163852800.0,
      "grad_norm": 1.8758658628415088,
      "language_loss": 0.73365247,
      "learning_rate": 3.819558055313008e-06,
      "loss": 0.75496233,
      "num_input_tokens_seen": 28448260,
      "step": 1349,
      "time_per_iteration": 2.6479389667510986
    },
    {
      "auxiliary_loss_clip": 0.01132721,
      "auxiliary_loss_mlp": 0.0103163,
      "balance_loss_clip": 1.04643977,
      "balance_loss_mlp": 1.02377963,
      "epoch": 0.1623279023627728,
      "flos": 21541693334400.0,
      "grad_norm": 2.5009513224455,
      "language_loss": 0.77210313,
      "learning_rate": 3.819234571703444e-06,
      "loss": 0.79374671,
      "num_input_tokens_seen": 28467085,
      "step": 1350,
      "time_per_iteration": 2.6003172397613525
    },
    {
      "auxiliary_loss_clip": 0.01134335,
      "auxiliary_loss_mlp": 0.01032055,
      "balance_loss_clip": 1.04491687,
      "balance_loss_mlp": 1.02408564,
      "epoch": 0.1624481452534119,
      "flos": 22087295683200.0,
      "grad_norm": 1.81436638676503,
      "language_loss": 0.85625559,
      "learning_rate": 3.8189108121174435e-06,
      "loss": 0.87791955,
      "num_input_tokens_seen": 28486850,
      "step": 1351,
      "time_per_iteration": 2.5532848834991455
    },
    {
      "auxiliary_loss_clip": 0.01087392,
      "auxiliary_loss_mlp": 0.01031654,
      "balance_loss_clip": 1.0369817,
      "balance_loss_mlp": 1.02406621,
      "epoch": 0.16256838814405097,
      "flos": 27089839941120.0,
      "grad_norm": 1.7679307942584936,
      "language_loss": 0.83905005,
      "learning_rate": 3.818586776604118e-06,
      "loss": 0.86024046,
      "num_input_tokens_seen": 28507490,
      "step": 1352,
      "time_per_iteration": 2.7059099674224854
    },
    {
      "auxiliary_loss_clip": 0.01124955,
      "auxiliary_loss_mlp": 0.0103377,
      "balance_loss_clip": 1.04677713,
      "balance_loss_mlp": 1.02631307,
      "epoch": 0.16268863103469008,
      "flos": 20122406784000.0,
      "grad_norm": 2.0360378895554327,
      "language_loss": 0.61299747,
      "learning_rate": 3.818262465212625e-06,
      "loss": 0.63458472,
      "num_input_tokens_seen": 28527615,
      "step": 1353,
      "time_per_iteration": 2.6204490661621094
    },
    {
      "auxiliary_loss_clip": 0.011378,
      "auxiliary_loss_mlp": 0.01034706,
      "balance_loss_clip": 1.05033827,
      "balance_loss_mlp": 1.02623606,
      "epoch": 0.16280887392532917,
      "flos": 18334759328640.0,
      "grad_norm": 2.0259507718375005,
      "language_loss": 0.77376872,
      "learning_rate": 3.817937877992161e-06,
      "loss": 0.79549378,
      "num_input_tokens_seen": 28544910,
      "step": 1354,
      "time_per_iteration": 2.6003949642181396
    },
    {
      "auxiliary_loss_clip": 0.01111917,
      "auxiliary_loss_mlp": 0.00757685,
      "balance_loss_clip": 1.04603684,
      "balance_loss_mlp": 1.00020385,
      "epoch": 0.16292911681596825,
      "flos": 11875910423040.0,
      "grad_norm": 2.6085927917950205,
      "language_loss": 0.85525799,
      "learning_rate": 3.817613014991967e-06,
      "loss": 0.873954,
      "num_input_tokens_seen": 28561050,
      "step": 1355,
      "time_per_iteration": 2.5889010429382324
    },
    {
      "auxiliary_loss_clip": 0.01107439,
      "auxiliary_loss_mlp": 0.01027266,
      "balance_loss_clip": 1.04472375,
      "balance_loss_mlp": 1.01876616,
      "epoch": 0.16304935970660733,
      "flos": 26105821891200.0,
      "grad_norm": 2.0347413252641546,
      "language_loss": 0.76504523,
      "learning_rate": 3.817287876261323e-06,
      "loss": 0.78639233,
      "num_input_tokens_seen": 28581385,
      "step": 1356,
      "time_per_iteration": 2.6916041374206543
    },
    {
      "auxiliary_loss_clip": 0.01108292,
      "auxiliary_loss_mlp": 0.01027485,
      "balance_loss_clip": 1.04188597,
      "balance_loss_mlp": 1.0192591,
      "epoch": 0.16316960259724644,
      "flos": 29354551672320.0,
      "grad_norm": 1.9913815879685317,
      "language_loss": 0.79829842,
      "learning_rate": 3.816962461849553e-06,
      "loss": 0.81965619,
      "num_input_tokens_seen": 28603255,
      "step": 1357,
      "time_per_iteration": 3.3460652828216553
    },
    {
      "auxiliary_loss_clip": 0.01112245,
      "auxiliary_loss_mlp": 0.01032444,
      "balance_loss_clip": 1.04246557,
      "balance_loss_mlp": 1.02469504,
      "epoch": 0.16328984548788553,
      "flos": 20888866419840.0,
      "grad_norm": 1.8753247104425563,
      "language_loss": 0.84851909,
      "learning_rate": 3.8166367718060235e-06,
      "loss": 0.86996603,
      "num_input_tokens_seen": 28623145,
      "step": 1358,
      "time_per_iteration": 2.6033694744110107
    },
    {
      "auxiliary_loss_clip": 0.01133002,
      "auxiliary_loss_mlp": 0.01029038,
      "balance_loss_clip": 1.04546726,
      "balance_loss_mlp": 1.02128363,
      "epoch": 0.1634100883785246,
      "flos": 18043050965760.0,
      "grad_norm": 2.651314709023124,
      "language_loss": 0.76561463,
      "learning_rate": 3.816310806180139e-06,
      "loss": 0.78723502,
      "num_input_tokens_seen": 28641555,
      "step": 1359,
      "time_per_iteration": 2.5118372440338135
    },
    {
      "auxiliary_loss_clip": 0.01105607,
      "auxiliary_loss_mlp": 0.01032408,
      "balance_loss_clip": 1.03969443,
      "balance_loss_mlp": 1.02460015,
      "epoch": 0.16353033126916372,
      "flos": 24574457260800.0,
      "grad_norm": 1.6152310290614593,
      "language_loss": 0.80778348,
      "learning_rate": 3.81598456502135e-06,
      "loss": 0.82916367,
      "num_input_tokens_seen": 28661575,
      "step": 1360,
      "time_per_iteration": 4.161842584609985
    },
    {
      "auxiliary_loss_clip": 0.01108425,
      "auxiliary_loss_mlp": 0.01030003,
      "balance_loss_clip": 1.04236388,
      "balance_loss_mlp": 1.02205169,
      "epoch": 0.1636505741598028,
      "flos": 19894458816000.0,
      "grad_norm": 2.089664049501051,
      "language_loss": 0.87255162,
      "learning_rate": 3.8156580483791455e-06,
      "loss": 0.89393592,
      "num_input_tokens_seen": 28676765,
      "step": 1361,
      "time_per_iteration": 3.338188886642456
    },
    {
      "auxiliary_loss_clip": 0.0114607,
      "auxiliary_loss_mlp": 0.01026437,
      "balance_loss_clip": 1.04838264,
      "balance_loss_mlp": 1.01889145,
      "epoch": 0.16377081705044189,
      "flos": 28405124962560.0,
      "grad_norm": 2.1539407845787797,
      "language_loss": 0.77225804,
      "learning_rate": 3.815331256303059e-06,
      "loss": 0.79398304,
      "num_input_tokens_seen": 28696795,
      "step": 1362,
      "time_per_iteration": 2.578749179840088
    },
    {
      "auxiliary_loss_clip": 0.01097513,
      "auxiliary_loss_mlp": 0.01028392,
      "balance_loss_clip": 1.04273582,
      "balance_loss_mlp": 1.02042294,
      "epoch": 0.163891059941081,
      "flos": 21910205911680.0,
      "grad_norm": 4.395429997734783,
      "language_loss": 0.77034527,
      "learning_rate": 3.815004188842665e-06,
      "loss": 0.79160434,
      "num_input_tokens_seen": 28714835,
      "step": 1363,
      "time_per_iteration": 2.6163694858551025
    },
    {
      "auxiliary_loss_clip": 0.01120687,
      "auxiliary_loss_mlp": 0.01027745,
      "balance_loss_clip": 1.04300094,
      "balance_loss_mlp": 1.02018166,
      "epoch": 0.16401130283172008,
      "flos": 26800065400320.0,
      "grad_norm": 1.6199181729366923,
      "language_loss": 0.79610825,
      "learning_rate": 3.814676846047578e-06,
      "loss": 0.8175925,
      "num_input_tokens_seen": 28735710,
      "step": 1364,
      "time_per_iteration": 2.6568782329559326
    },
    {
      "auxiliary_loss_clip": 0.01133029,
      "auxiliary_loss_mlp": 0.01030553,
      "balance_loss_clip": 1.04607248,
      "balance_loss_mlp": 1.02266717,
      "epoch": 0.16413154572235916,
      "flos": 33000053051520.0,
      "grad_norm": 2.056857625691177,
      "language_loss": 0.70097101,
      "learning_rate": 3.8143492279674565e-06,
      "loss": 0.7226069,
      "num_input_tokens_seen": 28758405,
      "step": 1365,
      "time_per_iteration": 2.635826587677002
    },
    {
      "auxiliary_loss_clip": 0.01080006,
      "auxiliary_loss_mlp": 0.01011607,
      "balance_loss_clip": 1.04887736,
      "balance_loss_mlp": 1.00810266,
      "epoch": 0.16425178861299825,
      "flos": 40118771583360.0,
      "grad_norm": 0.8472999475960843,
      "language_loss": 0.58443916,
      "learning_rate": 3.8140213346519997e-06,
      "loss": 0.60535538,
      "num_input_tokens_seen": 28809000,
      "step": 1366,
      "time_per_iteration": 2.9368624687194824
    },
    {
      "auxiliary_loss_clip": 0.01097688,
      "auxiliary_loss_mlp": 0.01029519,
      "balance_loss_clip": 1.03987741,
      "balance_loss_mlp": 1.02157092,
      "epoch": 0.16437203150363736,
      "flos": 25449847776000.0,
      "grad_norm": 2.687835374740288,
      "language_loss": 0.76754761,
      "learning_rate": 3.813693166150948e-06,
      "loss": 0.78881961,
      "num_input_tokens_seen": 28829210,
      "step": 1367,
      "time_per_iteration": 2.6394410133361816
    },
    {
      "auxiliary_loss_clip": 0.01101307,
      "auxiliary_loss_mlp": 0.01028849,
      "balance_loss_clip": 1.04099858,
      "balance_loss_mlp": 1.02043843,
      "epoch": 0.16449227439427644,
      "flos": 23479119492480.0,
      "grad_norm": 2.37511115470787,
      "language_loss": 0.85340399,
      "learning_rate": 3.813364722514086e-06,
      "loss": 0.87470555,
      "num_input_tokens_seen": 28847545,
      "step": 1368,
      "time_per_iteration": 2.6557819843292236
    },
    {
      "auxiliary_loss_clip": 0.01133915,
      "auxiliary_loss_mlp": 0.01027913,
      "balance_loss_clip": 1.04670548,
      "balance_loss_mlp": 1.02031624,
      "epoch": 0.16461251728491552,
      "flos": 13546474611840.0,
      "grad_norm": 2.158858136325582,
      "language_loss": 0.80335557,
      "learning_rate": 3.8130360037912368e-06,
      "loss": 0.82497382,
      "num_input_tokens_seen": 28863990,
      "step": 1369,
      "time_per_iteration": 2.4993176460266113
    },
    {
      "auxiliary_loss_clip": 0.01124452,
      "auxiliary_loss_mlp": 0.01028504,
      "balance_loss_clip": 1.04163778,
      "balance_loss_mlp": 1.01970029,
      "epoch": 0.16473276017555463,
      "flos": 23005543680000.0,
      "grad_norm": 2.5602265746273067,
      "language_loss": 0.815382,
      "learning_rate": 3.812707010032268e-06,
      "loss": 0.83691162,
      "num_input_tokens_seen": 28883045,
      "step": 1370,
      "time_per_iteration": 2.591968059539795
    },
    {
      "auxiliary_loss_clip": 0.01135198,
      "auxiliary_loss_mlp": 0.01032688,
      "balance_loss_clip": 1.04919505,
      "balance_loss_mlp": 1.02468288,
      "epoch": 0.16485300306619372,
      "flos": 24793001544960.0,
      "grad_norm": 2.0468984445976166,
      "language_loss": 0.79113567,
      "learning_rate": 3.8123777412870863e-06,
      "loss": 0.81281453,
      "num_input_tokens_seen": 28902545,
      "step": 1371,
      "time_per_iteration": 2.5674452781677246
    },
    {
      "auxiliary_loss_clip": 0.01115795,
      "auxiliary_loss_mlp": 0.01033386,
      "balance_loss_clip": 1.04227686,
      "balance_loss_mlp": 1.02523232,
      "epoch": 0.1649732459568328,
      "flos": 21108662000640.0,
      "grad_norm": 1.802185363144967,
      "language_loss": 0.7845453,
      "learning_rate": 3.812048197605643e-06,
      "loss": 0.80603707,
      "num_input_tokens_seen": 28921440,
      "step": 1372,
      "time_per_iteration": 2.6306793689727783
    },
    {
      "auxiliary_loss_clip": 0.01129703,
      "auxiliary_loss_mlp": 0.01021493,
      "balance_loss_clip": 1.04629683,
      "balance_loss_mlp": 1.01350617,
      "epoch": 0.16509348884747188,
      "flos": 20268810777600.0,
      "grad_norm": 1.858769266705548,
      "language_loss": 0.8117131,
      "learning_rate": 3.8117183790379277e-06,
      "loss": 0.83322507,
      "num_input_tokens_seen": 28939890,
      "step": 1373,
      "time_per_iteration": 2.518545150756836
    },
    {
      "auxiliary_loss_clip": 0.01143948,
      "auxiliary_loss_mlp": 0.01029134,
      "balance_loss_clip": 1.04654229,
      "balance_loss_mlp": 1.02095604,
      "epoch": 0.165213731738111,
      "flos": 11037045070080.0,
      "grad_norm": 2.6611742100166325,
      "language_loss": 0.93596512,
      "learning_rate": 3.811388285633976e-06,
      "loss": 0.95769596,
      "num_input_tokens_seen": 28955875,
      "step": 1374,
      "time_per_iteration": 2.511420965194702
    },
    {
      "auxiliary_loss_clip": 0.010872,
      "auxiliary_loss_mlp": 0.01035364,
      "balance_loss_clip": 1.04152966,
      "balance_loss_mlp": 1.02691758,
      "epoch": 0.16533397462875007,
      "flos": 29974683150720.0,
      "grad_norm": 2.050432209635806,
      "language_loss": 0.62383997,
      "learning_rate": 3.811057917443861e-06,
      "loss": 0.64506561,
      "num_input_tokens_seen": 28975140,
      "step": 1375,
      "time_per_iteration": 2.696052312850952
    },
    {
      "auxiliary_loss_clip": 0.0109893,
      "auxiliary_loss_mlp": 0.01006251,
      "balance_loss_clip": 1.0542928,
      "balance_loss_mlp": 1.00260341,
      "epoch": 0.16545421751938916,
      "flos": 65564031271680.0,
      "grad_norm": 1.0856238579421087,
      "language_loss": 0.68229425,
      "learning_rate": 3.8107272745177e-06,
      "loss": 0.70334601,
      "num_input_tokens_seen": 29047470,
      "step": 1376,
      "time_per_iteration": 3.334460973739624
    },
    {
      "auxiliary_loss_clip": 0.01097366,
      "auxiliary_loss_mlp": 0.01030159,
      "balance_loss_clip": 1.0406363,
      "balance_loss_mlp": 1.02199316,
      "epoch": 0.16557446041002827,
      "flos": 22494570589440.0,
      "grad_norm": 2.3070907968311936,
      "language_loss": 0.78803909,
      "learning_rate": 3.8103963569056513e-06,
      "loss": 0.80931437,
      "num_input_tokens_seen": 29066605,
      "step": 1377,
      "time_per_iteration": 2.63378643989563
    },
    {
      "auxiliary_loss_clip": 0.01121925,
      "auxiliary_loss_mlp": 0.01029656,
      "balance_loss_clip": 1.04691505,
      "balance_loss_mlp": 1.02157319,
      "epoch": 0.16569470330066735,
      "flos": 24604725939840.0,
      "grad_norm": 1.7716699078709996,
      "language_loss": 0.88028646,
      "learning_rate": 3.8100651646579146e-06,
      "loss": 0.90180224,
      "num_input_tokens_seen": 29085815,
      "step": 1378,
      "time_per_iteration": 2.636463165283203
    },
    {
      "auxiliary_loss_clip": 0.01121262,
      "auxiliary_loss_mlp": 0.01032615,
      "balance_loss_clip": 1.04595351,
      "balance_loss_mlp": 1.02480698,
      "epoch": 0.16581494619130643,
      "flos": 15007632773760.0,
      "grad_norm": 1.9748363164954021,
      "language_loss": 0.92609215,
      "learning_rate": 3.8097336978247317e-06,
      "loss": 0.94763094,
      "num_input_tokens_seen": 29102520,
      "step": 1379,
      "time_per_iteration": 2.5753014087677
    },
    {
      "auxiliary_loss_clip": 0.01112718,
      "auxiliary_loss_mlp": 0.01025978,
      "balance_loss_clip": 1.04380345,
      "balance_loss_mlp": 1.01729417,
      "epoch": 0.16593518908194552,
      "flos": 17422236961920.0,
      "grad_norm": 2.183732207805323,
      "language_loss": 0.88538766,
      "learning_rate": 3.8094019564563854e-06,
      "loss": 0.90677458,
      "num_input_tokens_seen": 29119450,
      "step": 1380,
      "time_per_iteration": 2.5551962852478027
    },
    {
      "auxiliary_loss_clip": 0.01142475,
      "auxiliary_loss_mlp": 0.00757664,
      "balance_loss_clip": 1.04577565,
      "balance_loss_mlp": 1.0003897,
      "epoch": 0.16605543197258463,
      "flos": 20414721836160.0,
      "grad_norm": 2.2411008359090325,
      "language_loss": 0.75314808,
      "learning_rate": 3.809069940603201e-06,
      "loss": 0.77214944,
      "num_input_tokens_seen": 29137405,
      "step": 1381,
      "time_per_iteration": 2.542280912399292
    },
    {
      "auxiliary_loss_clip": 0.01115107,
      "auxiliary_loss_mlp": 0.01027447,
      "balance_loss_clip": 1.0437516,
      "balance_loss_mlp": 1.01951349,
      "epoch": 0.1661756748632237,
      "flos": 14211473230080.0,
      "grad_norm": 2.20579641209236,
      "language_loss": 0.77849376,
      "learning_rate": 3.8087376503155452e-06,
      "loss": 0.79991925,
      "num_input_tokens_seen": 29154890,
      "step": 1382,
      "time_per_iteration": 2.539597272872925
    },
    {
      "auxiliary_loss_clip": 0.01094321,
      "auxiliary_loss_mlp": 0.01003228,
      "balance_loss_clip": 1.05020833,
      "balance_loss_mlp": 0.99969977,
      "epoch": 0.1662959177538628,
      "flos": 66086882772480.0,
      "grad_norm": 0.8944468008069609,
      "language_loss": 0.56245553,
      "learning_rate": 3.808405085643826e-06,
      "loss": 0.58343101,
      "num_input_tokens_seen": 29219770,
      "step": 1383,
      "time_per_iteration": 3.94442081451416
    },
    {
      "auxiliary_loss_clip": 0.01144868,
      "auxiliary_loss_mlp": 0.00757422,
      "balance_loss_clip": 1.04809737,
      "balance_loss_mlp": 1.00034189,
      "epoch": 0.1664161606445019,
      "flos": 20742652016640.0,
      "grad_norm": 2.166686964128809,
      "language_loss": 0.88785875,
      "learning_rate": 3.8080722466384925e-06,
      "loss": 0.90688169,
      "num_input_tokens_seen": 29237620,
      "step": 1384,
      "time_per_iteration": 2.517232894897461
    },
    {
      "auxiliary_loss_clip": 0.01143103,
      "auxiliary_loss_mlp": 0.01031589,
      "balance_loss_clip": 1.04526138,
      "balance_loss_mlp": 1.02304769,
      "epoch": 0.166536403535141,
      "flos": 25263050976000.0,
      "grad_norm": 2.107506431438673,
      "language_loss": 0.71519291,
      "learning_rate": 3.8077391333500376e-06,
      "loss": 0.73693979,
      "num_input_tokens_seen": 29256760,
      "step": 1385,
      "time_per_iteration": 2.5802218914031982
    },
    {
      "auxiliary_loss_clip": 0.01122185,
      "auxiliary_loss_mlp": 0.01029833,
      "balance_loss_clip": 1.04874158,
      "balance_loss_mlp": 1.02204835,
      "epoch": 0.16665664642578007,
      "flos": 25449809857920.0,
      "grad_norm": 2.5233873652051697,
      "language_loss": 0.76560843,
      "learning_rate": 3.8074057458289934e-06,
      "loss": 0.78712863,
      "num_input_tokens_seen": 29277450,
      "step": 1386,
      "time_per_iteration": 4.92446494102478
    },
    {
      "auxiliary_loss_clip": 0.01113005,
      "auxiliary_loss_mlp": 0.01026293,
      "balance_loss_clip": 1.04232693,
      "balance_loss_mlp": 1.01823163,
      "epoch": 0.16677688931641918,
      "flos": 22202975980800.0,
      "grad_norm": 2.75744121122404,
      "language_loss": 0.82321918,
      "learning_rate": 3.807072084125934e-06,
      "loss": 0.84461218,
      "num_input_tokens_seen": 29299300,
      "step": 1387,
      "time_per_iteration": 2.6094303131103516
    },
    {
      "auxiliary_loss_clip": 0.01105818,
      "auxiliary_loss_mlp": 0.01029465,
      "balance_loss_clip": 1.03949547,
      "balance_loss_mlp": 1.02094769,
      "epoch": 0.16689713220705826,
      "flos": 16947826951680.0,
      "grad_norm": 2.298934202816467,
      "language_loss": 0.80651128,
      "learning_rate": 3.806738148291477e-06,
      "loss": 0.82786417,
      "num_input_tokens_seen": 29316125,
      "step": 1388,
      "time_per_iteration": 2.5946266651153564
    },
    {
      "auxiliary_loss_clip": 0.01081681,
      "auxiliary_loss_mlp": 0.01027541,
      "balance_loss_clip": 1.04245138,
      "balance_loss_mlp": 1.01873183,
      "epoch": 0.16701737509769735,
      "flos": 36247228191360.0,
      "grad_norm": 2.5253581978522903,
      "language_loss": 0.71298784,
      "learning_rate": 3.8064039383762793e-06,
      "loss": 0.73408008,
      "num_input_tokens_seen": 29338490,
      "step": 1389,
      "time_per_iteration": 2.7797141075134277
    },
    {
      "auxiliary_loss_clip": 0.01123285,
      "auxiliary_loss_mlp": 0.01029878,
      "balance_loss_clip": 1.04438758,
      "balance_loss_mlp": 1.02193928,
      "epoch": 0.16713761798833643,
      "flos": 23260916471040.0,
      "grad_norm": 2.078707531057193,
      "language_loss": 0.77301711,
      "learning_rate": 3.8060694544310396e-06,
      "loss": 0.79454875,
      "num_input_tokens_seen": 29357000,
      "step": 1390,
      "time_per_iteration": 2.603081226348877
    },
    {
      "auxiliary_loss_clip": 0.0114548,
      "auxiliary_loss_mlp": 0.01037003,
      "balance_loss_clip": 1.04866242,
      "balance_loss_mlp": 1.0283668,
      "epoch": 0.16725786087897554,
      "flos": 25304922587520.0,
      "grad_norm": 1.9189753425654308,
      "language_loss": 0.78719091,
      "learning_rate": 3.8057346965065006e-06,
      "loss": 0.80901575,
      "num_input_tokens_seen": 29378230,
      "step": 1391,
      "time_per_iteration": 2.5966439247131348
    },
    {
      "auxiliary_loss_clip": 0.01108833,
      "auxiliary_loss_mlp": 0.0102976,
      "balance_loss_clip": 1.04176164,
      "balance_loss_mlp": 1.0219574,
      "epoch": 0.16737810376961462,
      "flos": 31834205470080.0,
      "grad_norm": 1.6332759406324102,
      "language_loss": 0.8440187,
      "learning_rate": 3.805399664653443e-06,
      "loss": 0.86540461,
      "num_input_tokens_seen": 29400370,
      "step": 1392,
      "time_per_iteration": 2.6741161346435547
    },
    {
      "auxiliary_loss_clip": 0.01144156,
      "auxiliary_loss_mlp": 0.0102575,
      "balance_loss_clip": 1.04681134,
      "balance_loss_mlp": 1.01754248,
      "epoch": 0.1674983466602537,
      "flos": 27964168750080.0,
      "grad_norm": 2.9133713327769035,
      "language_loss": 0.74607837,
      "learning_rate": 3.805064358922692e-06,
      "loss": 0.76777744,
      "num_input_tokens_seen": 29418660,
      "step": 1393,
      "time_per_iteration": 2.5869131088256836
    },
    {
      "auxiliary_loss_clip": 0.01131379,
      "auxiliary_loss_mlp": 0.01028557,
      "balance_loss_clip": 1.04665899,
      "balance_loss_mlp": 1.01974797,
      "epoch": 0.16761858955089282,
      "flos": 21764825706240.0,
      "grad_norm": 1.8615099933492918,
      "language_loss": 0.81002593,
      "learning_rate": 3.8047287793651136e-06,
      "loss": 0.83162522,
      "num_input_tokens_seen": 29440105,
      "step": 1394,
      "time_per_iteration": 2.5614519119262695
    },
    {
      "auxiliary_loss_clip": 0.01101709,
      "auxiliary_loss_mlp": 0.0103454,
      "balance_loss_clip": 1.04166138,
      "balance_loss_mlp": 1.02676141,
      "epoch": 0.1677388324415319,
      "flos": 23807770116480.0,
      "grad_norm": 1.916008982599067,
      "language_loss": 0.88482273,
      "learning_rate": 3.8043929260316137e-06,
      "loss": 0.90618515,
      "num_input_tokens_seen": 29458260,
      "step": 1395,
      "time_per_iteration": 2.636770725250244
    },
    {
      "auxiliary_loss_clip": 0.01118589,
      "auxiliary_loss_mlp": 0.01032409,
      "balance_loss_clip": 1.04967046,
      "balance_loss_mlp": 1.02394474,
      "epoch": 0.16785907533217098,
      "flos": 20560974157440.0,
      "grad_norm": 2.22251079297935,
      "language_loss": 0.83710974,
      "learning_rate": 3.8040567989731417e-06,
      "loss": 0.85861969,
      "num_input_tokens_seen": 29476205,
      "step": 1396,
      "time_per_iteration": 2.56896710395813
    },
    {
      "auxiliary_loss_clip": 0.01128852,
      "auxiliary_loss_mlp": 0.01026376,
      "balance_loss_clip": 1.04654479,
      "balance_loss_mlp": 1.01869297,
      "epoch": 0.16797931822281006,
      "flos": 15671493849600.0,
      "grad_norm": 2.071880046872555,
      "language_loss": 0.79524171,
      "learning_rate": 3.8037203982406876e-06,
      "loss": 0.81679398,
      "num_input_tokens_seen": 29494370,
      "step": 1397,
      "time_per_iteration": 2.5332870483398438
    },
    {
      "auxiliary_loss_clip": 0.01145265,
      "auxiliary_loss_mlp": 0.01032024,
      "balance_loss_clip": 1.04965234,
      "balance_loss_mlp": 1.02383971,
      "epoch": 0.16809956111344918,
      "flos": 16542751294080.0,
      "grad_norm": 1.930196811333668,
      "language_loss": 0.72963011,
      "learning_rate": 3.8033837238852835e-06,
      "loss": 0.75140303,
      "num_input_tokens_seen": 29511070,
      "step": 1398,
      "time_per_iteration": 2.4786484241485596
    },
    {
      "auxiliary_loss_clip": 0.01116608,
      "auxiliary_loss_mlp": 0.01027463,
      "balance_loss_clip": 1.04421687,
      "balance_loss_mlp": 1.01972079,
      "epoch": 0.16821980400408826,
      "flos": 23260309781760.0,
      "grad_norm": 1.6793255550309723,
      "language_loss": 0.69549727,
      "learning_rate": 3.8030467759580017e-06,
      "loss": 0.71693796,
      "num_input_tokens_seen": 29531990,
      "step": 1399,
      "time_per_iteration": 2.622739791870117
    },
    {
      "auxiliary_loss_clip": 0.01133622,
      "auxiliary_loss_mlp": 0.01029543,
      "balance_loss_clip": 1.04746556,
      "balance_loss_mlp": 1.02103758,
      "epoch": 0.16834004689472734,
      "flos": 20776712503680.0,
      "grad_norm": 2.260699669322097,
      "language_loss": 0.87168175,
      "learning_rate": 3.802709554509958e-06,
      "loss": 0.89331341,
      "num_input_tokens_seen": 29549790,
      "step": 1400,
      "time_per_iteration": 2.540032148361206
    },
    {
      "auxiliary_loss_clip": 0.01114324,
      "auxiliary_loss_mlp": 0.01023685,
      "balance_loss_clip": 1.04312634,
      "balance_loss_mlp": 1.01636231,
      "epoch": 0.16846028978536645,
      "flos": 26689693633920.0,
      "grad_norm": 2.655168282397944,
      "language_loss": 0.79419601,
      "learning_rate": 3.8023720595923083e-06,
      "loss": 0.81557614,
      "num_input_tokens_seen": 29569045,
      "step": 1401,
      "time_per_iteration": 2.6670076847076416
    },
    {
      "auxiliary_loss_clip": 0.01094358,
      "auxiliary_loss_mlp": 0.01026283,
      "balance_loss_clip": 1.04347372,
      "balance_loss_mlp": 1.01827812,
      "epoch": 0.16858053267600553,
      "flos": 18845277402240.0,
      "grad_norm": 2.0075841645308183,
      "language_loss": 0.87506235,
      "learning_rate": 3.80203429125625e-06,
      "loss": 0.89626878,
      "num_input_tokens_seen": 29587220,
      "step": 1402,
      "time_per_iteration": 2.6133365631103516
    },
    {
      "auxiliary_loss_clip": 0.01065927,
      "auxiliary_loss_mlp": 0.01026116,
      "balance_loss_clip": 1.03615379,
      "balance_loss_mlp": 1.01823044,
      "epoch": 0.16870077556664462,
      "flos": 27746951598720.0,
      "grad_norm": 2.3158418334546855,
      "language_loss": 0.70087415,
      "learning_rate": 3.8016962495530225e-06,
      "loss": 0.72179455,
      "num_input_tokens_seen": 29606410,
      "step": 1403,
      "time_per_iteration": 2.737457275390625
    },
    {
      "auxiliary_loss_clip": 0.01143075,
      "auxiliary_loss_mlp": 0.0102995,
      "balance_loss_clip": 1.04703498,
      "balance_loss_mlp": 1.02238643,
      "epoch": 0.1688210184572837,
      "flos": 13732209705600.0,
      "grad_norm": 2.8881422220846376,
      "language_loss": 0.76787543,
      "learning_rate": 3.8013579345339063e-06,
      "loss": 0.78960574,
      "num_input_tokens_seen": 29621275,
      "step": 1404,
      "time_per_iteration": 2.454479694366455
    },
    {
      "auxiliary_loss_clip": 0.01100904,
      "auxiliary_loss_mlp": 0.0102514,
      "balance_loss_clip": 1.0423708,
      "balance_loss_mlp": 1.01696253,
      "epoch": 0.1689412613479228,
      "flos": 26471187267840.0,
      "grad_norm": 5.616863844879436,
      "language_loss": 0.69239867,
      "learning_rate": 3.801019346250224e-06,
      "loss": 0.71365905,
      "num_input_tokens_seen": 29641420,
      "step": 1405,
      "time_per_iteration": 2.6717803478240967
    },
    {
      "auxiliary_loss_clip": 0.01120044,
      "auxiliary_loss_mlp": 0.0102748,
      "balance_loss_clip": 1.04240513,
      "balance_loss_mlp": 1.01936185,
      "epoch": 0.1690615042385619,
      "flos": 21140788665600.0,
      "grad_norm": 2.206131284850052,
      "language_loss": 0.83629161,
      "learning_rate": 3.8006804847533395e-06,
      "loss": 0.85776687,
      "num_input_tokens_seen": 29660935,
      "step": 1406,
      "time_per_iteration": 2.5545923709869385
    },
    {
      "auxiliary_loss_clip": 0.01142439,
      "auxiliary_loss_mlp": 0.01031137,
      "balance_loss_clip": 1.04686224,
      "balance_loss_mlp": 1.0235734,
      "epoch": 0.16918174712920098,
      "flos": 20851393305600.0,
      "grad_norm": 1.8928837772824325,
      "language_loss": 0.85761881,
      "learning_rate": 3.8003413500946556e-06,
      "loss": 0.8793546,
      "num_input_tokens_seen": 29681045,
      "step": 1407,
      "time_per_iteration": 2.5655815601348877
    },
    {
      "auxiliary_loss_clip": 0.01115405,
      "auxiliary_loss_mlp": 0.01028835,
      "balance_loss_clip": 1.04535484,
      "balance_loss_mlp": 1.02031207,
      "epoch": 0.1693019900198401,
      "flos": 16985186311680.0,
      "grad_norm": 3.336966967851202,
      "language_loss": 0.82502115,
      "learning_rate": 3.8000019423256216e-06,
      "loss": 0.84646356,
      "num_input_tokens_seen": 29698810,
      "step": 1408,
      "time_per_iteration": 2.5382473468780518
    },
    {
      "auxiliary_loss_clip": 0.01118868,
      "auxiliary_loss_mlp": 0.01035867,
      "balance_loss_clip": 1.04670906,
      "balance_loss_mlp": 1.02830923,
      "epoch": 0.16942223291047917,
      "flos": 26799307038720.0,
      "grad_norm": 1.8115544299907762,
      "language_loss": 0.88249862,
      "learning_rate": 3.7996622614977234e-06,
      "loss": 0.90404594,
      "num_input_tokens_seen": 29720000,
      "step": 1409,
      "time_per_iteration": 3.3851661682128906
    },
    {
      "auxiliary_loss_clip": 0.0111197,
      "auxiliary_loss_mlp": 0.01028294,
      "balance_loss_clip": 1.04447436,
      "balance_loss_mlp": 1.02061653,
      "epoch": 0.16954247580111825,
      "flos": 18585430277760.0,
      "grad_norm": 6.308040230860946,
      "language_loss": 0.79291612,
      "learning_rate": 3.799322307662492e-06,
      "loss": 0.81431872,
      "num_input_tokens_seen": 29737820,
      "step": 1410,
      "time_per_iteration": 2.5919196605682373
    },
    {
      "auxiliary_loss_clip": 0.01087117,
      "auxiliary_loss_mlp": 0.01026177,
      "balance_loss_clip": 1.04207253,
      "balance_loss_mlp": 1.01783252,
      "epoch": 0.16966271869175734,
      "flos": 13984966149120.0,
      "grad_norm": 2.2779448663463566,
      "language_loss": 0.83966053,
      "learning_rate": 3.798982080871496e-06,
      "loss": 0.86079353,
      "num_input_tokens_seen": 29752960,
      "step": 1411,
      "time_per_iteration": 2.6043701171875
    },
    {
      "auxiliary_loss_clip": 0.01142652,
      "auxiliary_loss_mlp": 0.01031845,
      "balance_loss_clip": 1.04721117,
      "balance_loss_mlp": 1.02360177,
      "epoch": 0.16978296158239645,
      "flos": 37490335004160.0,
      "grad_norm": 3.7094505770853665,
      "language_loss": 0.67701167,
      "learning_rate": 3.798641581176349e-06,
      "loss": 0.69875664,
      "num_input_tokens_seen": 29775240,
      "step": 1412,
      "time_per_iteration": 4.855377197265625
    },
    {
      "auxiliary_loss_clip": 0.01115291,
      "auxiliary_loss_mlp": 0.0103453,
      "balance_loss_clip": 1.04356146,
      "balance_loss_mlp": 1.02641153,
      "epoch": 0.16990320447303553,
      "flos": 28331430030720.0,
      "grad_norm": 1.820252541661604,
      "language_loss": 0.74384248,
      "learning_rate": 3.7983008086287044e-06,
      "loss": 0.76534069,
      "num_input_tokens_seen": 29796560,
      "step": 1413,
      "time_per_iteration": 2.65584135055542
    },
    {
      "auxiliary_loss_clip": 0.01114263,
      "auxiliary_loss_mlp": 0.01030726,
      "balance_loss_clip": 1.04344893,
      "balance_loss_mlp": 1.02197003,
      "epoch": 0.1700234473636746,
      "flos": 20189958986880.0,
      "grad_norm": 2.403332846469851,
      "language_loss": 0.79237849,
      "learning_rate": 3.797959763280257e-06,
      "loss": 0.81382835,
      "num_input_tokens_seen": 29815245,
      "step": 1414,
      "time_per_iteration": 2.5576488971710205
    },
    {
      "auxiliary_loss_clip": 0.01129005,
      "auxiliary_loss_mlp": 0.01035766,
      "balance_loss_clip": 1.04621935,
      "balance_loss_mlp": 1.02776074,
      "epoch": 0.17014369025431372,
      "flos": 24860705420160.0,
      "grad_norm": 2.1502170804305787,
      "language_loss": 0.78906143,
      "learning_rate": 3.797618445182743e-06,
      "loss": 0.81070912,
      "num_input_tokens_seen": 29836640,
      "step": 1415,
      "time_per_iteration": 2.610956907272339
    },
    {
      "auxiliary_loss_clip": 0.01092114,
      "auxiliary_loss_mlp": 0.01028505,
      "balance_loss_clip": 1.04282606,
      "balance_loss_mlp": 1.02033281,
      "epoch": 0.1702639331449528,
      "flos": 16468828853760.0,
      "grad_norm": 2.1043354844000364,
      "language_loss": 0.84854525,
      "learning_rate": 3.79727685438794e-06,
      "loss": 0.86975139,
      "num_input_tokens_seen": 29850830,
      "step": 1416,
      "time_per_iteration": 2.593191623687744
    },
    {
      "auxiliary_loss_clip": 0.01127019,
      "auxiliary_loss_mlp": 0.01003161,
      "balance_loss_clip": 1.07381511,
      "balance_loss_mlp": 0.99991816,
      "epoch": 0.1703841760355919,
      "flos": 52514158798080.0,
      "grad_norm": 0.8437816597327956,
      "language_loss": 0.61657691,
      "learning_rate": 3.796934990947667e-06,
      "loss": 0.63787866,
      "num_input_tokens_seen": 29912515,
      "step": 1417,
      "time_per_iteration": 3.1621274948120117
    },
    {
      "auxiliary_loss_clip": 0.01127656,
      "auxiliary_loss_mlp": 0.01003574,
      "balance_loss_clip": 1.07436252,
      "balance_loss_mlp": 1.00018883,
      "epoch": 0.170504418926231,
      "flos": 49375724947200.0,
      "grad_norm": 0.8872801119949544,
      "language_loss": 0.62407839,
      "learning_rate": 3.7965928549137854e-06,
      "loss": 0.64539069,
      "num_input_tokens_seen": 29969330,
      "step": 1418,
      "time_per_iteration": 3.0634522438049316
    },
    {
      "auxiliary_loss_clip": 0.01105006,
      "auxiliary_loss_mlp": 0.01029725,
      "balance_loss_clip": 1.04271841,
      "balance_loss_mlp": 1.02058816,
      "epoch": 0.17062466181687008,
      "flos": 25851624560640.0,
      "grad_norm": 2.0136079849057653,
      "language_loss": 0.7782861,
      "learning_rate": 3.7962504463381953e-06,
      "loss": 0.79963338,
      "num_input_tokens_seen": 29990820,
      "step": 1419,
      "time_per_iteration": 2.721224069595337
    },
    {
      "auxiliary_loss_clip": 0.01112479,
      "auxiliary_loss_mlp": 0.00757822,
      "balance_loss_clip": 1.0450139,
      "balance_loss_mlp": 1.00060403,
      "epoch": 0.17074490470750917,
      "flos": 20962561351680.0,
      "grad_norm": 1.6852469716847904,
      "language_loss": 0.7873534,
      "learning_rate": 3.7959077652728412e-06,
      "loss": 0.80605638,
      "num_input_tokens_seen": 30009275,
      "step": 1420,
      "time_per_iteration": 2.7258288860321045
    },
    {
      "auxiliary_loss_clip": 0.01113413,
      "auxiliary_loss_mlp": 0.01030285,
      "balance_loss_clip": 1.04518414,
      "balance_loss_mlp": 1.02237844,
      "epoch": 0.17086514759814825,
      "flos": 20961878826240.0,
      "grad_norm": 2.427662853411604,
      "language_loss": 0.77179587,
      "learning_rate": 3.795564811769707e-06,
      "loss": 0.79323286,
      "num_input_tokens_seen": 30027630,
      "step": 1421,
      "time_per_iteration": 2.7551238536834717
    },
    {
      "auxiliary_loss_clip": 0.01114174,
      "auxiliary_loss_mlp": 0.0103062,
      "balance_loss_clip": 1.04774189,
      "balance_loss_mlp": 1.02172732,
      "epoch": 0.17098539048878736,
      "flos": 28476506891520.0,
      "grad_norm": 2.579221056441316,
      "language_loss": 0.78380191,
      "learning_rate": 3.795221585880818e-06,
      "loss": 0.80524993,
      "num_input_tokens_seen": 30048310,
      "step": 1422,
      "time_per_iteration": 2.77164626121521
    },
    {
      "auxiliary_loss_clip": 0.01097975,
      "auxiliary_loss_mlp": 0.01034215,
      "balance_loss_clip": 1.04491293,
      "balance_loss_mlp": 1.02649021,
      "epoch": 0.17110563337942644,
      "flos": 16291890754560.0,
      "grad_norm": 1.8220575547422442,
      "language_loss": 0.91137826,
      "learning_rate": 3.794878087658242e-06,
      "loss": 0.93270016,
      "num_input_tokens_seen": 30066080,
      "step": 1423,
      "time_per_iteration": 2.623914957046509
    },
    {
      "auxiliary_loss_clip": 0.01130778,
      "auxiliary_loss_mlp": 0.01027527,
      "balance_loss_clip": 1.04654241,
      "balance_loss_mlp": 1.01967669,
      "epoch": 0.17122587627006552,
      "flos": 29676490796160.0,
      "grad_norm": 1.8340681718436964,
      "language_loss": 0.78704679,
      "learning_rate": 3.7945343171540873e-06,
      "loss": 0.80862987,
      "num_input_tokens_seen": 30086955,
      "step": 1424,
      "time_per_iteration": 2.6921744346618652
    },
    {
      "auxiliary_loss_clip": 0.01142501,
      "auxiliary_loss_mlp": 0.01029317,
      "balance_loss_clip": 1.04664707,
      "balance_loss_mlp": 1.02088249,
      "epoch": 0.17134611916070464,
      "flos": 25340765224320.0,
      "grad_norm": 2.0666735758703285,
      "language_loss": 0.79076231,
      "learning_rate": 3.7941902744205033e-06,
      "loss": 0.81248051,
      "num_input_tokens_seen": 30107990,
      "step": 1425,
      "time_per_iteration": 2.55383038520813
    },
    {
      "auxiliary_loss_clip": 0.01118513,
      "auxiliary_loss_mlp": 0.01025859,
      "balance_loss_clip": 1.04719698,
      "balance_loss_mlp": 1.0169363,
      "epoch": 0.17146636205134372,
      "flos": 13955531667840.0,
      "grad_norm": 2.4054449730921115,
      "language_loss": 0.83479065,
      "learning_rate": 3.7938459595096817e-06,
      "loss": 0.85623443,
      "num_input_tokens_seen": 30126535,
      "step": 1426,
      "time_per_iteration": 2.5951409339904785
    },
    {
      "auxiliary_loss_clip": 0.01131209,
      "auxiliary_loss_mlp": 0.01026856,
      "balance_loss_clip": 1.04715967,
      "balance_loss_mlp": 1.01809978,
      "epoch": 0.1715866049419828,
      "flos": 23917497275520.0,
      "grad_norm": 1.7981408499619822,
      "language_loss": 0.85717577,
      "learning_rate": 3.7935013724738545e-06,
      "loss": 0.8787564,
      "num_input_tokens_seen": 30147035,
      "step": 1427,
      "time_per_iteration": 2.597386360168457
    },
    {
      "auxiliary_loss_clip": 0.0111957,
      "auxiliary_loss_mlp": 0.01034037,
      "balance_loss_clip": 1.04173112,
      "balance_loss_mlp": 1.02636564,
      "epoch": 0.17170684783262188,
      "flos": 22711484396160.0,
      "grad_norm": 2.347614315819207,
      "language_loss": 0.77830809,
      "learning_rate": 3.7931565133652945e-06,
      "loss": 0.79984415,
      "num_input_tokens_seen": 30167110,
      "step": 1428,
      "time_per_iteration": 2.631556272506714
    },
    {
      "auxiliary_loss_clip": 0.01140674,
      "auxiliary_loss_mlp": 0.01026502,
      "balance_loss_clip": 1.04601288,
      "balance_loss_mlp": 1.01797891,
      "epoch": 0.171827090723261,
      "flos": 26615619521280.0,
      "grad_norm": 2.4738897115854903,
      "language_loss": 0.67697775,
      "learning_rate": 3.792811382236317e-06,
      "loss": 0.69864947,
      "num_input_tokens_seen": 30185620,
      "step": 1429,
      "time_per_iteration": 2.632784366607666
    },
    {
      "auxiliary_loss_clip": 0.01133691,
      "auxiliary_loss_mlp": 0.01029194,
      "balance_loss_clip": 1.04827523,
      "balance_loss_mlp": 1.02077758,
      "epoch": 0.17194733361390008,
      "flos": 28151079304320.0,
      "grad_norm": 1.9453650960395854,
      "language_loss": 0.78154397,
      "learning_rate": 3.792465979139279e-06,
      "loss": 0.80317277,
      "num_input_tokens_seen": 30208225,
      "step": 1430,
      "time_per_iteration": 2.6786866188049316
    },
    {
      "auxiliary_loss_clip": 0.01096644,
      "auxiliary_loss_mlp": 0.01010981,
      "balance_loss_clip": 1.06839919,
      "balance_loss_mlp": 1.00776243,
      "epoch": 0.17206757650453916,
      "flos": 65536502745600.0,
      "grad_norm": 0.929433808720574,
      "language_loss": 0.65641594,
      "learning_rate": 3.792120304126576e-06,
      "loss": 0.67749214,
      "num_input_tokens_seen": 30271600,
      "step": 1431,
      "time_per_iteration": 3.239225149154663
    },
    {
      "auxiliary_loss_clip": 0.01061323,
      "auxiliary_loss_mlp": 0.01023708,
      "balance_loss_clip": 1.04142082,
      "balance_loss_mlp": 1.01586461,
      "epoch": 0.17218781939517827,
      "flos": 22275685042560.0,
      "grad_norm": 2.2802141498459063,
      "language_loss": 0.8377564,
      "learning_rate": 3.791774357250649e-06,
      "loss": 0.85860682,
      "num_input_tokens_seen": 30290430,
      "step": 1432,
      "time_per_iteration": 2.9102580547332764
    },
    {
      "auxiliary_loss_clip": 0.01109359,
      "auxiliary_loss_mlp": 0.01034708,
      "balance_loss_clip": 1.0401057,
      "balance_loss_mlp": 1.02620864,
      "epoch": 0.17230806228581735,
      "flos": 14139067512960.0,
      "grad_norm": 3.0179123181410072,
      "language_loss": 0.79189712,
      "learning_rate": 3.7914281385639757e-06,
      "loss": 0.81333774,
      "num_input_tokens_seen": 30308305,
      "step": 1433,
      "time_per_iteration": 2.7932090759277344
    },
    {
      "auxiliary_loss_clip": 0.0112638,
      "auxiliary_loss_mlp": 0.01026483,
      "balance_loss_clip": 1.04382241,
      "balance_loss_mlp": 1.01826906,
      "epoch": 0.17242830517645644,
      "flos": 20706961052160.0,
      "grad_norm": 2.554242541614195,
      "language_loss": 0.79584676,
      "learning_rate": 3.7910816481190784e-06,
      "loss": 0.81737542,
      "num_input_tokens_seen": 30328120,
      "step": 1434,
      "time_per_iteration": 3.485553503036499
    },
    {
      "auxiliary_loss_clip": 0.01115601,
      "auxiliary_loss_mlp": 0.01027649,
      "balance_loss_clip": 1.04345942,
      "balance_loss_mlp": 1.01967382,
      "epoch": 0.17254854806709552,
      "flos": 30777250849920.0,
      "grad_norm": 2.6488264164803073,
      "language_loss": 0.74781424,
      "learning_rate": 3.7907348859685193e-06,
      "loss": 0.7692467,
      "num_input_tokens_seen": 30349825,
      "step": 1435,
      "time_per_iteration": 2.7062270641326904
    },
    {
      "auxiliary_loss_clip": 0.0111961,
      "auxiliary_loss_mlp": 0.01025188,
      "balance_loss_clip": 1.04431963,
      "balance_loss_mlp": 1.01689661,
      "epoch": 0.17266879095773463,
      "flos": 26617136244480.0,
      "grad_norm": 1.9956002316442063,
      "language_loss": 0.80760962,
      "learning_rate": 3.790387852164902e-06,
      "loss": 0.82905757,
      "num_input_tokens_seen": 30370555,
      "step": 1436,
      "time_per_iteration": 2.6061110496520996
    },
    {
      "auxiliary_loss_clip": 0.01127689,
      "auxiliary_loss_mlp": 0.01032723,
      "balance_loss_clip": 1.04538536,
      "balance_loss_mlp": 1.02481318,
      "epoch": 0.1727890338483737,
      "flos": 20268355760640.0,
      "grad_norm": 2.2400484508725977,
      "language_loss": 0.76579738,
      "learning_rate": 3.7900405467608707e-06,
      "loss": 0.78740144,
      "num_input_tokens_seen": 30390100,
      "step": 1437,
      "time_per_iteration": 2.6059226989746094
    },
    {
      "auxiliary_loss_clip": 0.01091948,
      "auxiliary_loss_mlp": 0.0102663,
      "balance_loss_clip": 1.0419867,
      "balance_loss_mlp": 1.01820159,
      "epoch": 0.1729092767390128,
      "flos": 18181378408320.0,
      "grad_norm": 3.4291332044470577,
      "language_loss": 0.79530728,
      "learning_rate": 3.7896929698091114e-06,
      "loss": 0.81649303,
      "num_input_tokens_seen": 30402915,
      "step": 1438,
      "time_per_iteration": 4.885365962982178
    },
    {
      "auxiliary_loss_clip": 0.01145755,
      "auxiliary_loss_mlp": 0.01029735,
      "balance_loss_clip": 1.05097997,
      "balance_loss_mlp": 1.0216291,
      "epoch": 0.1730295196296519,
      "flos": 26761871842560.0,
      "grad_norm": 2.9268782045388995,
      "language_loss": 0.68308383,
      "learning_rate": 3.7893451213623518e-06,
      "loss": 0.70483875,
      "num_input_tokens_seen": 30420145,
      "step": 1439,
      "time_per_iteration": 2.5515947341918945
    },
    {
      "auxiliary_loss_clip": 0.01121938,
      "auxiliary_loss_mlp": 0.0075776,
      "balance_loss_clip": 1.04435289,
      "balance_loss_mlp": 1.00059104,
      "epoch": 0.173149762520291,
      "flos": 23844826131840.0,
      "grad_norm": 2.032330278052384,
      "language_loss": 0.81933522,
      "learning_rate": 3.7889970014733606e-06,
      "loss": 0.83813226,
      "num_input_tokens_seen": 30439250,
      "step": 1440,
      "time_per_iteration": 2.5958635807037354
    },
    {
      "auxiliary_loss_clip": 0.01089976,
      "auxiliary_loss_mlp": 0.01029887,
      "balance_loss_clip": 1.0417912,
      "balance_loss_mlp": 1.02147055,
      "epoch": 0.17327000541093007,
      "flos": 23370454039680.0,
      "grad_norm": 1.8379468150988225,
      "language_loss": 0.7810505,
      "learning_rate": 3.7886486101949463e-06,
      "loss": 0.80224913,
      "num_input_tokens_seen": 30460430,
      "step": 1441,
      "time_per_iteration": 2.6736860275268555
    },
    {
      "auxiliary_loss_clip": 0.01099885,
      "auxiliary_loss_mlp": 0.01033458,
      "balance_loss_clip": 1.0465827,
      "balance_loss_mlp": 1.02532208,
      "epoch": 0.17339024830156918,
      "flos": 18223136265600.0,
      "grad_norm": 1.9991371742547066,
      "language_loss": 0.88038146,
      "learning_rate": 3.7882999475799594e-06,
      "loss": 0.9017148,
      "num_input_tokens_seen": 30478465,
      "step": 1442,
      "time_per_iteration": 2.6433467864990234
    },
    {
      "auxiliary_loss_clip": 0.01088671,
      "auxiliary_loss_mlp": 0.01030649,
      "balance_loss_clip": 1.04343462,
      "balance_loss_mlp": 1.02285862,
      "epoch": 0.17351049119220827,
      "flos": 23334308058240.0,
      "grad_norm": 2.0240105267280524,
      "language_loss": 0.81448662,
      "learning_rate": 3.787951013681293e-06,
      "loss": 0.83567977,
      "num_input_tokens_seen": 30496510,
      "step": 1443,
      "time_per_iteration": 2.639329433441162
    },
    {
      "auxiliary_loss_clip": 0.01132339,
      "auxiliary_loss_mlp": 0.01031831,
      "balance_loss_clip": 1.0474925,
      "balance_loss_mlp": 1.0230217,
      "epoch": 0.17363073408284735,
      "flos": 23805646704000.0,
      "grad_norm": 2.2272331992871517,
      "language_loss": 0.77510518,
      "learning_rate": 3.787601808551879e-06,
      "loss": 0.79674685,
      "num_input_tokens_seen": 30516325,
      "step": 1444,
      "time_per_iteration": 2.5911428928375244
    },
    {
      "auxiliary_loss_clip": 0.01099189,
      "auxiliary_loss_mlp": 0.010344,
      "balance_loss_clip": 1.04131413,
      "balance_loss_mlp": 1.0261271,
      "epoch": 0.17375097697348643,
      "flos": 18517271385600.0,
      "grad_norm": 2.437293048686598,
      "language_loss": 0.84163606,
      "learning_rate": 3.7872523322446926e-06,
      "loss": 0.8629719,
      "num_input_tokens_seen": 30535210,
      "step": 1445,
      "time_per_iteration": 2.580584764480591
    },
    {
      "auxiliary_loss_clip": 0.01088587,
      "auxiliary_loss_mlp": 0.01025069,
      "balance_loss_clip": 1.04103065,
      "balance_loss_mlp": 1.01722491,
      "epoch": 0.17387121986412554,
      "flos": 38881210861440.0,
      "grad_norm": 1.9304016866759293,
      "language_loss": 0.60101718,
      "learning_rate": 3.7869025848127478e-06,
      "loss": 0.6221537,
      "num_input_tokens_seen": 30559405,
      "step": 1446,
      "time_per_iteration": 2.8387107849121094
    },
    {
      "auxiliary_loss_clip": 0.01128546,
      "auxiliary_loss_mlp": 0.010291,
      "balance_loss_clip": 1.04643285,
      "balance_loss_mlp": 1.02114284,
      "epoch": 0.17399146275476463,
      "flos": 20377779575040.0,
      "grad_norm": 3.2606275167250702,
      "language_loss": 0.80526179,
      "learning_rate": 3.786552566309102e-06,
      "loss": 0.82683825,
      "num_input_tokens_seen": 30577615,
      "step": 1447,
      "time_per_iteration": 2.570103645324707
    },
    {
      "auxiliary_loss_clip": 0.01105023,
      "auxiliary_loss_mlp": 0.00757612,
      "balance_loss_clip": 1.04293966,
      "balance_loss_mlp": 1.00052595,
      "epoch": 0.1741117056454037,
      "flos": 19165927311360.0,
      "grad_norm": 2.4546201480290213,
      "language_loss": 0.86468875,
      "learning_rate": 3.7862022767868517e-06,
      "loss": 0.88331509,
      "num_input_tokens_seen": 30595205,
      "step": 1448,
      "time_per_iteration": 2.703019142150879
    },
    {
      "auxiliary_loss_clip": 0.01086999,
      "auxiliary_loss_mlp": 0.01032852,
      "balance_loss_clip": 1.03864896,
      "balance_loss_mlp": 1.02478456,
      "epoch": 0.17423194853604282,
      "flos": 25376645779200.0,
      "grad_norm": 2.2077537284928583,
      "language_loss": 0.84485114,
      "learning_rate": 3.7858517162991367e-06,
      "loss": 0.86604959,
      "num_input_tokens_seen": 30615280,
      "step": 1449,
      "time_per_iteration": 2.656972885131836
    },
    {
      "auxiliary_loss_clip": 0.01102316,
      "auxiliary_loss_mlp": 0.01029766,
      "balance_loss_clip": 1.04258561,
      "balance_loss_mlp": 1.02123666,
      "epoch": 0.1743521914266819,
      "flos": 25194209558400.0,
      "grad_norm": 3.012253662795774,
      "language_loss": 0.6030153,
      "learning_rate": 3.7855008848991363e-06,
      "loss": 0.62433612,
      "num_input_tokens_seen": 30633485,
      "step": 1450,
      "time_per_iteration": 2.6482303142547607
    },
    {
      "auxiliary_loss_clip": 0.01111777,
      "auxiliary_loss_mlp": 0.01028121,
      "balance_loss_clip": 1.04469156,
      "balance_loss_mlp": 1.02034843,
      "epoch": 0.17447243431732098,
      "flos": 25668960831360.0,
      "grad_norm": 2.1460231815387933,
      "language_loss": 0.77867901,
      "learning_rate": 3.7851497826400714e-06,
      "loss": 0.80007797,
      "num_input_tokens_seen": 30653625,
      "step": 1451,
      "time_per_iteration": 2.6676056385040283
    },
    {
      "auxiliary_loss_clip": 0.01143211,
      "auxiliary_loss_mlp": 0.01031785,
      "balance_loss_clip": 1.04910326,
      "balance_loss_mlp": 1.02357197,
      "epoch": 0.17459267720796007,
      "flos": 36284815059840.0,
      "grad_norm": 2.835987071275798,
      "language_loss": 0.76049632,
      "learning_rate": 3.7847984095752034e-06,
      "loss": 0.78224629,
      "num_input_tokens_seen": 30677080,
      "step": 1452,
      "time_per_iteration": 2.6509957313537598
    },
    {
      "auxiliary_loss_clip": 0.01140373,
      "auxiliary_loss_mlp": 0.01023941,
      "balance_loss_clip": 1.04656899,
      "balance_loss_mlp": 1.01621652,
      "epoch": 0.17471292009859918,
      "flos": 20013172560000.0,
      "grad_norm": 2.1220122978317093,
      "language_loss": 0.80250794,
      "learning_rate": 3.784446765757836e-06,
      "loss": 0.8241511,
      "num_input_tokens_seen": 30695725,
      "step": 1453,
      "time_per_iteration": 2.562023639678955
    },
    {
      "auxiliary_loss_clip": 0.01097066,
      "auxiliary_loss_mlp": 0.01027291,
      "balance_loss_clip": 1.04230523,
      "balance_loss_mlp": 1.01938176,
      "epoch": 0.17483316298923826,
      "flos": 27821746154880.0,
      "grad_norm": 2.2976668661411583,
      "language_loss": 0.78124833,
      "learning_rate": 3.7840948512413133e-06,
      "loss": 0.8024919,
      "num_input_tokens_seen": 30713310,
      "step": 1454,
      "time_per_iteration": 2.649129629135132
    },
    {
      "auxiliary_loss_clip": 0.01083916,
      "auxiliary_loss_mlp": 0.01027641,
      "balance_loss_clip": 1.03665125,
      "balance_loss_mlp": 1.01869988,
      "epoch": 0.17495340587987734,
      "flos": 44021286282240.0,
      "grad_norm": 2.2767259273172358,
      "language_loss": 0.78797692,
      "learning_rate": 3.7837426660790196e-06,
      "loss": 0.80909252,
      "num_input_tokens_seen": 30734725,
      "step": 1455,
      "time_per_iteration": 2.830483913421631
    },
    {
      "auxiliary_loss_clip": 0.01139044,
      "auxiliary_loss_mlp": 0.01032928,
      "balance_loss_clip": 1.04627264,
      "balance_loss_mlp": 1.02548981,
      "epoch": 0.17507364877051645,
      "flos": 20887880549760.0,
      "grad_norm": 2.521619907057316,
      "language_loss": 0.81877184,
      "learning_rate": 3.783390210324382e-06,
      "loss": 0.84049153,
      "num_input_tokens_seen": 30754450,
      "step": 1456,
      "time_per_iteration": 2.524240255355835
    },
    {
      "auxiliary_loss_clip": 0.01100962,
      "auxiliary_loss_mlp": 0.01027174,
      "balance_loss_clip": 1.04473674,
      "balance_loss_mlp": 1.01941943,
      "epoch": 0.17519389166115554,
      "flos": 24719913302400.0,
      "grad_norm": 3.275934894884158,
      "language_loss": 0.72832203,
      "learning_rate": 3.7830374840308676e-06,
      "loss": 0.74960339,
      "num_input_tokens_seen": 30774605,
      "step": 1457,
      "time_per_iteration": 2.6657724380493164
    },
    {
      "auxiliary_loss_clip": 0.01126425,
      "auxiliary_loss_mlp": 0.01031536,
      "balance_loss_clip": 1.04625559,
      "balance_loss_mlp": 1.02295876,
      "epoch": 0.17531413455179462,
      "flos": 23799996910080.0,
      "grad_norm": 3.512234229035729,
      "language_loss": 0.82307994,
      "learning_rate": 3.7826844872519842e-06,
      "loss": 0.84465951,
      "num_input_tokens_seen": 30792460,
      "step": 1458,
      "time_per_iteration": 2.551500082015991
    },
    {
      "auxiliary_loss_clip": 0.01112597,
      "auxiliary_loss_mlp": 0.01030785,
      "balance_loss_clip": 1.04597259,
      "balance_loss_mlp": 1.02325988,
      "epoch": 0.1754343774424337,
      "flos": 24574722687360.0,
      "grad_norm": 1.9222732480236018,
      "language_loss": 0.72819489,
      "learning_rate": 3.782331220041282e-06,
      "loss": 0.74962878,
      "num_input_tokens_seen": 30812525,
      "step": 1459,
      "time_per_iteration": 2.6573381423950195
    },
    {
      "auxiliary_loss_clip": 0.01104915,
      "auxiliary_loss_mlp": 0.01027426,
      "balance_loss_clip": 1.04425967,
      "balance_loss_mlp": 1.01921237,
      "epoch": 0.17555462033307281,
      "flos": 18116594225280.0,
      "grad_norm": 2.7572042845848785,
      "language_loss": 0.82851058,
      "learning_rate": 3.7819776824523504e-06,
      "loss": 0.84983397,
      "num_input_tokens_seen": 30830390,
      "step": 1460,
      "time_per_iteration": 3.4014368057250977
    },
    {
      "auxiliary_loss_clip": 0.01116475,
      "auxiliary_loss_mlp": 0.01031321,
      "balance_loss_clip": 1.04629827,
      "balance_loss_mlp": 1.02302408,
      "epoch": 0.1756748632237119,
      "flos": 28368523964160.0,
      "grad_norm": 2.3001756246979315,
      "language_loss": 0.83901078,
      "learning_rate": 3.7816238745388213e-06,
      "loss": 0.86048871,
      "num_input_tokens_seen": 30849935,
      "step": 1461,
      "time_per_iteration": 2.637073040008545
    },
    {
      "auxiliary_loss_clip": 0.01117022,
      "auxiliary_loss_mlp": 0.01025339,
      "balance_loss_clip": 1.04444432,
      "balance_loss_mlp": 1.01790679,
      "epoch": 0.17579510611435098,
      "flos": 25734958392960.0,
      "grad_norm": 1.963899521063787,
      "language_loss": 0.87021267,
      "learning_rate": 3.781269796354367e-06,
      "loss": 0.89163631,
      "num_input_tokens_seen": 30869555,
      "step": 1462,
      "time_per_iteration": 2.642812490463257
    },
    {
      "auxiliary_loss_clip": 0.01110556,
      "auxiliary_loss_mlp": 0.01030557,
      "balance_loss_clip": 1.04379141,
      "balance_loss_mlp": 1.02297485,
      "epoch": 0.1759153490049901,
      "flos": 18590056283520.0,
      "grad_norm": 1.709409518064741,
      "language_loss": 0.85940051,
      "learning_rate": 3.7809154479527006e-06,
      "loss": 0.88081157,
      "num_input_tokens_seen": 30888760,
      "step": 1463,
      "time_per_iteration": 4.117089033126831
    },
    {
      "auxiliary_loss_clip": 0.01094391,
      "auxiliary_loss_mlp": 0.01022871,
      "balance_loss_clip": 1.04218864,
      "balance_loss_mlp": 1.0153904,
      "epoch": 0.17603559189562917,
      "flos": 18621007488000.0,
      "grad_norm": 2.8839051551854915,
      "language_loss": 0.84446222,
      "learning_rate": 3.780560829387577e-06,
      "loss": 0.8656348,
      "num_input_tokens_seen": 30907260,
      "step": 1464,
      "time_per_iteration": 3.403127431869507
    },
    {
      "auxiliary_loss_clip": 0.01104869,
      "auxiliary_loss_mlp": 0.01002611,
      "balance_loss_clip": 1.05416465,
      "balance_loss_mlp": 0.99936885,
      "epoch": 0.17615583478626826,
      "flos": 60536233572480.0,
      "grad_norm": 0.8525482689817382,
      "language_loss": 0.57912505,
      "learning_rate": 3.7802059407127915e-06,
      "loss": 0.60019982,
      "num_input_tokens_seen": 30965810,
      "step": 1465,
      "time_per_iteration": 3.1523234844207764
    },
    {
      "auxiliary_loss_clip": 0.01116488,
      "auxiliary_loss_mlp": 0.01029307,
      "balance_loss_clip": 1.04475057,
      "balance_loss_mlp": 1.02118886,
      "epoch": 0.17627607767690734,
      "flos": 23618091542400.0,
      "grad_norm": 2.31778720624811,
      "language_loss": 0.8629843,
      "learning_rate": 3.7798507819821797e-06,
      "loss": 0.88444221,
      "num_input_tokens_seen": 30982935,
      "step": 1466,
      "time_per_iteration": 2.601588726043701
    },
    {
      "auxiliary_loss_clip": 0.01098168,
      "auxiliary_loss_mlp": 0.01036967,
      "balance_loss_clip": 1.04227602,
      "balance_loss_mlp": 1.02838993,
      "epoch": 0.17639632056754645,
      "flos": 17640970836480.0,
      "grad_norm": 2.4168733362186527,
      "language_loss": 0.79016161,
      "learning_rate": 3.7794953532496197e-06,
      "loss": 0.81151295,
      "num_input_tokens_seen": 30998840,
      "step": 1467,
      "time_per_iteration": 2.5795364379882812
    },
    {
      "auxiliary_loss_clip": 0.01048194,
      "auxiliary_loss_mlp": 0.00752968,
      "balance_loss_clip": 1.03957975,
      "balance_loss_mlp": 0.99968415,
      "epoch": 0.17651656345818553,
      "flos": 57939524375040.0,
      "grad_norm": 0.8737732705388853,
      "language_loss": 0.57927525,
      "learning_rate": 3.7791396545690295e-06,
      "loss": 0.59728694,
      "num_input_tokens_seen": 31060075,
      "step": 1468,
      "time_per_iteration": 3.186246156692505
    },
    {
      "auxiliary_loss_clip": 0.01125603,
      "auxiliary_loss_mlp": 0.0103157,
      "balance_loss_clip": 1.04648995,
      "balance_loss_mlp": 1.02344537,
      "epoch": 0.17663680634882462,
      "flos": 22931697075840.0,
      "grad_norm": 2.434249716146065,
      "language_loss": 0.80569661,
      "learning_rate": 3.7787836859943685e-06,
      "loss": 0.82726836,
      "num_input_tokens_seen": 31078800,
      "step": 1469,
      "time_per_iteration": 2.572988271713257
    },
    {
      "auxiliary_loss_clip": 0.01124339,
      "auxiliary_loss_mlp": 0.01028,
      "balance_loss_clip": 1.0441345,
      "balance_loss_mlp": 1.01973248,
      "epoch": 0.17675704923946373,
      "flos": 22640178303360.0,
      "grad_norm": 3.847577927195433,
      "language_loss": 0.79259795,
      "learning_rate": 3.7784274475796363e-06,
      "loss": 0.81412131,
      "num_input_tokens_seen": 31097430,
      "step": 1470,
      "time_per_iteration": 2.557403326034546
    },
    {
      "auxiliary_loss_clip": 0.01095594,
      "auxiliary_loss_mlp": 0.01032221,
      "balance_loss_clip": 1.04031539,
      "balance_loss_mlp": 1.02368593,
      "epoch": 0.1768772921301028,
      "flos": 27129019368960.0,
      "grad_norm": 6.3260011815573645,
      "language_loss": 0.75947654,
      "learning_rate": 3.7780709393788745e-06,
      "loss": 0.78075469,
      "num_input_tokens_seen": 31117905,
      "step": 1471,
      "time_per_iteration": 2.703587770462036
    },
    {
      "auxiliary_loss_clip": 0.01139341,
      "auxiliary_loss_mlp": 0.01027052,
      "balance_loss_clip": 1.04709351,
      "balance_loss_mlp": 1.01891601,
      "epoch": 0.1769975350207419,
      "flos": 19174155534720.0,
      "grad_norm": 2.3591060131776005,
      "language_loss": 0.75353205,
      "learning_rate": 3.777714161446165e-06,
      "loss": 0.77519596,
      "num_input_tokens_seen": 31137610,
      "step": 1472,
      "time_per_iteration": 2.519763469696045
    },
    {
      "auxiliary_loss_clip": 0.01125437,
      "auxiliary_loss_mlp": 0.01026983,
      "balance_loss_clip": 1.04561186,
      "balance_loss_mlp": 1.01951456,
      "epoch": 0.177117777911381,
      "flos": 36137728540800.0,
      "grad_norm": 3.110151484259953,
      "language_loss": 0.69835877,
      "learning_rate": 3.7773571138356304e-06,
      "loss": 0.71988297,
      "num_input_tokens_seen": 31157780,
      "step": 1473,
      "time_per_iteration": 2.6711463928222656
    },
    {
      "auxiliary_loss_clip": 0.01072064,
      "auxiliary_loss_mlp": 0.01026844,
      "balance_loss_clip": 1.03656566,
      "balance_loss_mlp": 1.01926827,
      "epoch": 0.17723802080202009,
      "flos": 22092755886720.0,
      "grad_norm": 2.1641153685345533,
      "language_loss": 0.88795167,
      "learning_rate": 3.776999796601435e-06,
      "loss": 0.90894073,
      "num_input_tokens_seen": 31176540,
      "step": 1474,
      "time_per_iteration": 2.64221453666687
    },
    {
      "auxiliary_loss_clip": 0.01128501,
      "auxiliary_loss_mlp": 0.01029045,
      "balance_loss_clip": 1.04658437,
      "balance_loss_mlp": 1.02118909,
      "epoch": 0.17735826369265917,
      "flos": 30225050755200.0,
      "grad_norm": 2.0249366043371197,
      "language_loss": 0.7277503,
      "learning_rate": 3.776642209797783e-06,
      "loss": 0.74932575,
      "num_input_tokens_seen": 31198370,
      "step": 1475,
      "time_per_iteration": 2.6628594398498535
    },
    {
      "auxiliary_loss_clip": 0.01129195,
      "auxiliary_loss_mlp": 0.01024302,
      "balance_loss_clip": 1.04553425,
      "balance_loss_mlp": 1.01555777,
      "epoch": 0.17747850658329825,
      "flos": 21399725756160.0,
      "grad_norm": 2.8386571255790094,
      "language_loss": 0.78042805,
      "learning_rate": 3.7762843534789205e-06,
      "loss": 0.80196303,
      "num_input_tokens_seen": 31217120,
      "step": 1476,
      "time_per_iteration": 2.5878286361694336
    },
    {
      "auxiliary_loss_clip": 0.01114204,
      "auxiliary_loss_mlp": 0.01028508,
      "balance_loss_clip": 1.04414237,
      "balance_loss_mlp": 1.02033603,
      "epoch": 0.17759874947393736,
      "flos": 16985262147840.0,
      "grad_norm": 2.1940508430949754,
      "language_loss": 0.88204145,
      "learning_rate": 3.7759262276991343e-06,
      "loss": 0.90346849,
      "num_input_tokens_seen": 31234730,
      "step": 1477,
      "time_per_iteration": 2.563579559326172
    },
    {
      "auxiliary_loss_clip": 0.01114953,
      "auxiliary_loss_mlp": 0.01024458,
      "balance_loss_clip": 1.04564881,
      "balance_loss_mlp": 1.01629233,
      "epoch": 0.17771899236457644,
      "flos": 11547676897920.0,
      "grad_norm": 2.3072506293137636,
      "language_loss": 0.80328941,
      "learning_rate": 3.7755678325127506e-06,
      "loss": 0.82468355,
      "num_input_tokens_seen": 31252410,
      "step": 1478,
      "time_per_iteration": 2.609234094619751
    },
    {
      "auxiliary_loss_clip": 0.01069093,
      "auxiliary_loss_mlp": 0.01024545,
      "balance_loss_clip": 1.03480935,
      "balance_loss_mlp": 1.01671886,
      "epoch": 0.17783923525521553,
      "flos": 18809776028160.0,
      "grad_norm": 2.0594970193399664,
      "language_loss": 0.75524831,
      "learning_rate": 3.7752091679741393e-06,
      "loss": 0.77618468,
      "num_input_tokens_seen": 31270200,
      "step": 1479,
      "time_per_iteration": 2.63016676902771
    },
    {
      "auxiliary_loss_clip": 0.01122883,
      "auxiliary_loss_mlp": 0.01025269,
      "balance_loss_clip": 1.04394543,
      "balance_loss_mlp": 1.01714766,
      "epoch": 0.17795947814585464,
      "flos": 30410937521280.0,
      "grad_norm": 3.7767355891789345,
      "language_loss": 0.78232801,
      "learning_rate": 3.774850234137708e-06,
      "loss": 0.80380952,
      "num_input_tokens_seen": 31287495,
      "step": 1480,
      "time_per_iteration": 2.640090227127075
    },
    {
      "auxiliary_loss_clip": 0.01127441,
      "auxiliary_loss_mlp": 0.01029372,
      "balance_loss_clip": 1.04585958,
      "balance_loss_mlp": 1.02106893,
      "epoch": 0.17807972103649372,
      "flos": 24391338514560.0,
      "grad_norm": 2.5082296936221975,
      "language_loss": 0.82634974,
      "learning_rate": 3.7744910310579076e-06,
      "loss": 0.8479178,
      "num_input_tokens_seen": 31306420,
      "step": 1481,
      "time_per_iteration": 2.577342987060547
    },
    {
      "auxiliary_loss_clip": 0.01139759,
      "auxiliary_loss_mlp": 0.01023019,
      "balance_loss_clip": 1.04824984,
      "balance_loss_mlp": 1.01570535,
      "epoch": 0.1781999639271328,
      "flos": 20303553790080.0,
      "grad_norm": 2.015947797268349,
      "language_loss": 0.85441208,
      "learning_rate": 3.774131558789229e-06,
      "loss": 0.87603986,
      "num_input_tokens_seen": 31325750,
      "step": 1482,
      "time_per_iteration": 2.572348117828369
    },
    {
      "auxiliary_loss_clip": 0.01141088,
      "auxiliary_loss_mlp": 0.00757752,
      "balance_loss_clip": 1.04818702,
      "balance_loss_mlp": 1.00063169,
      "epoch": 0.1783202068177719,
      "flos": 15926297869440.0,
      "grad_norm": 2.268994623841971,
      "language_loss": 0.69596148,
      "learning_rate": 3.773771817386203e-06,
      "loss": 0.71494985,
      "num_input_tokens_seen": 31343080,
      "step": 1483,
      "time_per_iteration": 2.4964067935943604
    },
    {
      "auxiliary_loss_clip": 0.01107518,
      "auxiliary_loss_mlp": 0.01025459,
      "balance_loss_clip": 1.04189289,
      "balance_loss_mlp": 1.01778781,
      "epoch": 0.178440449708411,
      "flos": 20633872809600.0,
      "grad_norm": 1.7808688046673173,
      "language_loss": 0.79441911,
      "learning_rate": 3.773411806903403e-06,
      "loss": 0.81574887,
      "num_input_tokens_seen": 31362160,
      "step": 1484,
      "time_per_iteration": 2.634949207305908
    },
    {
      "auxiliary_loss_clip": 0.0107799,
      "auxiliary_loss_mlp": 0.01026442,
      "balance_loss_clip": 1.04219079,
      "balance_loss_mlp": 1.01841891,
      "epoch": 0.17856069259905008,
      "flos": 21688021491840.0,
      "grad_norm": 3.2103292684272065,
      "language_loss": 0.9472304,
      "learning_rate": 3.7730515273954415e-06,
      "loss": 0.96827471,
      "num_input_tokens_seen": 31380770,
      "step": 1485,
      "time_per_iteration": 2.723729372024536
    },
    {
      "auxiliary_loss_clip": 0.01140397,
      "auxiliary_loss_mlp": 0.01026766,
      "balance_loss_clip": 1.04853201,
      "balance_loss_mlp": 1.01930916,
      "epoch": 0.17868093548968916,
      "flos": 26575075042560.0,
      "grad_norm": 2.702410502163294,
      "language_loss": 0.85337263,
      "learning_rate": 3.772690978916973e-06,
      "loss": 0.87504423,
      "num_input_tokens_seen": 31400525,
      "step": 1486,
      "time_per_iteration": 3.5028653144836426
    },
    {
      "auxiliary_loss_clip": 0.01119972,
      "auxiliary_loss_mlp": 0.01028372,
      "balance_loss_clip": 1.04238629,
      "balance_loss_mlp": 1.02030182,
      "epoch": 0.17880117838032827,
      "flos": 18582586421760.0,
      "grad_norm": 5.960886885147658,
      "language_loss": 0.86428255,
      "learning_rate": 3.772330161522693e-06,
      "loss": 0.88576603,
      "num_input_tokens_seen": 31418435,
      "step": 1487,
      "time_per_iteration": 2.538931131362915
    },
    {
      "auxiliary_loss_clip": 0.01108012,
      "auxiliary_loss_mlp": 0.01028009,
      "balance_loss_clip": 1.04574513,
      "balance_loss_mlp": 1.01978958,
      "epoch": 0.17892142127096736,
      "flos": 26543592984960.0,
      "grad_norm": 2.9413720721572396,
      "language_loss": 0.79559982,
      "learning_rate": 3.7719690752673365e-06,
      "loss": 0.8169601,
      "num_input_tokens_seen": 31439230,
      "step": 1488,
      "time_per_iteration": 3.3795337677001953
    },
    {
      "auxiliary_loss_clip": 0.01098766,
      "auxiliary_loss_mlp": 0.01026998,
      "balance_loss_clip": 1.04371095,
      "balance_loss_mlp": 1.01943386,
      "epoch": 0.17904166416160644,
      "flos": 23874563957760.0,
      "grad_norm": 2.0812307567325337,
      "language_loss": 0.7829901,
      "learning_rate": 3.7716077202056796e-06,
      "loss": 0.80424774,
      "num_input_tokens_seen": 31457705,
      "step": 1489,
      "time_per_iteration": 3.382956027984619
    },
    {
      "auxiliary_loss_clip": 0.01113454,
      "auxiliary_loss_mlp": 0.01025648,
      "balance_loss_clip": 1.04567552,
      "balance_loss_mlp": 1.017905,
      "epoch": 0.17916190705224552,
      "flos": 19136379075840.0,
      "grad_norm": 2.7340426016457307,
      "language_loss": 0.93784761,
      "learning_rate": 3.7712460963925404e-06,
      "loss": 0.95923859,
      "num_input_tokens_seen": 31473645,
      "step": 1490,
      "time_per_iteration": 3.325746774673462
    },
    {
      "auxiliary_loss_clip": 0.01114555,
      "auxiliary_loss_mlp": 0.01026014,
      "balance_loss_clip": 1.04361224,
      "balance_loss_mlp": 1.01845026,
      "epoch": 0.17928214994288463,
      "flos": 25154271768960.0,
      "grad_norm": 1.9011031678144052,
      "language_loss": 0.75489557,
      "learning_rate": 3.7708842038827775e-06,
      "loss": 0.77630132,
      "num_input_tokens_seen": 31492605,
      "step": 1491,
      "time_per_iteration": 2.6088905334472656
    },
    {
      "auxiliary_loss_clip": 0.01128143,
      "auxiliary_loss_mlp": 0.01027298,
      "balance_loss_clip": 1.04596996,
      "balance_loss_mlp": 1.01990736,
      "epoch": 0.17940239283352372,
      "flos": 22386928924800.0,
      "grad_norm": 1.980819060486542,
      "language_loss": 0.85657203,
      "learning_rate": 3.770522042731288e-06,
      "loss": 0.87812638,
      "num_input_tokens_seen": 31514500,
      "step": 1492,
      "time_per_iteration": 2.602541923522949
    },
    {
      "auxiliary_loss_clip": 0.01086683,
      "auxiliary_loss_mlp": 0.010325,
      "balance_loss_clip": 1.0440464,
      "balance_loss_mlp": 1.02404809,
      "epoch": 0.1795226357241628,
      "flos": 23180547957120.0,
      "grad_norm": 2.2747653724318453,
      "language_loss": 0.87854409,
      "learning_rate": 3.7701596129930122e-06,
      "loss": 0.89973593,
      "num_input_tokens_seen": 31533225,
      "step": 1493,
      "time_per_iteration": 2.636361837387085
    },
    {
      "auxiliary_loss_clip": 0.01106151,
      "auxiliary_loss_mlp": 0.01023727,
      "balance_loss_clip": 1.04621398,
      "balance_loss_mlp": 1.01516819,
      "epoch": 0.1796428786148019,
      "flos": 22092566296320.0,
      "grad_norm": 3.3670141110952763,
      "language_loss": 0.73196328,
      "learning_rate": 3.7697969147229315e-06,
      "loss": 0.75326204,
      "num_input_tokens_seen": 31551385,
      "step": 1494,
      "time_per_iteration": 2.630246877670288
    },
    {
      "auxiliary_loss_clip": 0.011284,
      "auxiliary_loss_mlp": 0.01029048,
      "balance_loss_clip": 1.0472579,
      "balance_loss_mlp": 1.02123427,
      "epoch": 0.179763121505441,
      "flos": 21326751267840.0,
      "grad_norm": 2.7789764188165207,
      "language_loss": 0.85444707,
      "learning_rate": 3.7694339479760647e-06,
      "loss": 0.87602156,
      "num_input_tokens_seen": 31570415,
      "step": 1495,
      "time_per_iteration": 2.5765953063964844
    },
    {
      "auxiliary_loss_clip": 0.01088591,
      "auxiliary_loss_mlp": 0.0100832,
      "balance_loss_clip": 1.04890132,
      "balance_loss_mlp": 1.00474381,
      "epoch": 0.17988336439608008,
      "flos": 68168058658560.0,
      "grad_norm": 0.818609291360054,
      "language_loss": 0.57358462,
      "learning_rate": 3.769070712807476e-06,
      "loss": 0.59455371,
      "num_input_tokens_seen": 31632445,
      "step": 1496,
      "time_per_iteration": 3.280414342880249
    },
    {
      "auxiliary_loss_clip": 0.01063478,
      "auxiliary_loss_mlp": 0.01028388,
      "balance_loss_clip": 1.03958368,
      "balance_loss_mlp": 1.02090764,
      "epoch": 0.18000360728671919,
      "flos": 21947224008960.0,
      "grad_norm": 2.3763483062195108,
      "language_loss": 0.79225177,
      "learning_rate": 3.768707209272266e-06,
      "loss": 0.81317043,
      "num_input_tokens_seen": 31652575,
      "step": 1497,
      "time_per_iteration": 2.662370443344116
    },
    {
      "auxiliary_loss_clip": 0.0111254,
      "auxiliary_loss_mlp": 0.01027025,
      "balance_loss_clip": 1.04367745,
      "balance_loss_mlp": 1.01938987,
      "epoch": 0.18012385017735827,
      "flos": 18988155014400.0,
      "grad_norm": 2.188018960240677,
      "language_loss": 0.76695722,
      "learning_rate": 3.768343437425579e-06,
      "loss": 0.78835285,
      "num_input_tokens_seen": 31671145,
      "step": 1498,
      "time_per_iteration": 2.592128038406372
    },
    {
      "auxiliary_loss_clip": 0.01044279,
      "auxiliary_loss_mlp": 0.01024775,
      "balance_loss_clip": 1.03235984,
      "balance_loss_mlp": 1.01718736,
      "epoch": 0.18024409306799735,
      "flos": 19749723217920.0,
      "grad_norm": 2.5747024904899054,
      "language_loss": 0.85855687,
      "learning_rate": 3.7679793973225987e-06,
      "loss": 0.87924743,
      "num_input_tokens_seen": 31686955,
      "step": 1499,
      "time_per_iteration": 2.6539406776428223
    },
    {
      "auxiliary_loss_clip": 0.01063758,
      "auxiliary_loss_mlp": 0.01009146,
      "balance_loss_clip": 1.04721546,
      "balance_loss_mlp": 1.00561738,
      "epoch": 0.18036433595863643,
      "flos": 67234102525440.0,
      "grad_norm": 0.8654825106064064,
      "language_loss": 0.61626154,
      "learning_rate": 3.767615089018549e-06,
      "loss": 0.63699061,
      "num_input_tokens_seen": 31749300,
      "step": 1500,
      "time_per_iteration": 3.220428466796875
    },
    {
      "auxiliary_loss_clip": 0.01116026,
      "auxiliary_loss_mlp": 0.01031013,
      "balance_loss_clip": 1.04609096,
      "balance_loss_mlp": 1.02291918,
      "epoch": 0.18048457884927555,
      "flos": 18183122640000.0,
      "grad_norm": 2.7495330786738883,
      "language_loss": 0.85940313,
      "learning_rate": 3.7672505125686966e-06,
      "loss": 0.88087356,
      "num_input_tokens_seen": 31765665,
      "step": 1501,
      "time_per_iteration": 2.589639902114868
    },
    {
      "auxiliary_loss_clip": 0.01089474,
      "auxiliary_loss_mlp": 0.0102964,
      "balance_loss_clip": 1.04240668,
      "balance_loss_mlp": 1.02206445,
      "epoch": 0.18060482173991463,
      "flos": 15815509004160.0,
      "grad_norm": 6.589404577691107,
      "language_loss": 0.83977193,
      "learning_rate": 3.7668856680283455e-06,
      "loss": 0.86096305,
      "num_input_tokens_seen": 31782690,
      "step": 1502,
      "time_per_iteration": 2.6643226146698
    },
    {
      "auxiliary_loss_clip": 0.01114328,
      "auxiliary_loss_mlp": 0.01030269,
      "balance_loss_clip": 1.04574049,
      "balance_loss_mlp": 1.02266967,
      "epoch": 0.1807250646305537,
      "flos": 18589335840000.0,
      "grad_norm": 2.301235741217897,
      "language_loss": 0.82457316,
      "learning_rate": 3.7665205554528437e-06,
      "loss": 0.84601915,
      "num_input_tokens_seen": 31802045,
      "step": 1503,
      "time_per_iteration": 2.5966219902038574
    },
    {
      "auxiliary_loss_clip": 0.01108249,
      "auxiliary_loss_mlp": 0.01025594,
      "balance_loss_clip": 1.04366732,
      "balance_loss_mlp": 1.0177263,
      "epoch": 0.18084530752119282,
      "flos": 23151378902400.0,
      "grad_norm": 1.7434755330940221,
      "language_loss": 0.74278498,
      "learning_rate": 3.7661551748975782e-06,
      "loss": 0.76412344,
      "num_input_tokens_seen": 31820220,
      "step": 1504,
      "time_per_iteration": 2.639849901199341
    },
    {
      "auxiliary_loss_clip": 0.01089735,
      "auxiliary_loss_mlp": 0.01004517,
      "balance_loss_clip": 1.0501653,
      "balance_loss_mlp": 1.00091696,
      "epoch": 0.1809655504118319,
      "flos": 59808687937920.0,
      "grad_norm": 1.1258819520830263,
      "language_loss": 0.60383081,
      "learning_rate": 3.7657895264179772e-06,
      "loss": 0.62477332,
      "num_input_tokens_seen": 31876195,
      "step": 1505,
      "time_per_iteration": 3.211723804473877
    },
    {
      "auxiliary_loss_clip": 0.01116664,
      "auxiliary_loss_mlp": 0.01024093,
      "balance_loss_clip": 1.04492331,
      "balance_loss_mlp": 1.01670814,
      "epoch": 0.181085793302471,
      "flos": 44205390898560.0,
      "grad_norm": 2.6657793898501665,
      "language_loss": 0.74214876,
      "learning_rate": 3.765423610069509e-06,
      "loss": 0.76355636,
      "num_input_tokens_seen": 31901585,
      "step": 1506,
      "time_per_iteration": 2.8091039657592773
    },
    {
      "auxiliary_loss_clip": 0.01109498,
      "auxiliary_loss_mlp": 0.0102782,
      "balance_loss_clip": 1.04401207,
      "balance_loss_mlp": 1.01982725,
      "epoch": 0.18120603619311007,
      "flos": 34901333228160.0,
      "grad_norm": 1.9101653780543415,
      "language_loss": 0.72065055,
      "learning_rate": 3.765057425907683e-06,
      "loss": 0.74202377,
      "num_input_tokens_seen": 31923045,
      "step": 1507,
      "time_per_iteration": 2.6925179958343506
    },
    {
      "auxiliary_loss_clip": 0.01124032,
      "auxiliary_loss_mlp": 0.0102744,
      "balance_loss_clip": 1.0433867,
      "balance_loss_mlp": 1.0195837,
      "epoch": 0.18132627908374918,
      "flos": 21508884144000.0,
      "grad_norm": 1.8952418416001335,
      "language_loss": 0.78467792,
      "learning_rate": 3.764690973988048e-06,
      "loss": 0.80619264,
      "num_input_tokens_seen": 31943385,
      "step": 1508,
      "time_per_iteration": 2.5544724464416504
    },
    {
      "auxiliary_loss_clip": 0.01099952,
      "auxiliary_loss_mlp": 0.01023813,
      "balance_loss_clip": 1.04237175,
      "balance_loss_mlp": 1.0162555,
      "epoch": 0.18144652197438826,
      "flos": 29060151125760.0,
      "grad_norm": 1.8224760400389113,
      "language_loss": 0.73936129,
      "learning_rate": 3.7643242543661967e-06,
      "loss": 0.7605989,
      "num_input_tokens_seen": 31966045,
      "step": 1509,
      "time_per_iteration": 2.706761598587036
    },
    {
      "auxiliary_loss_clip": 0.01083897,
      "auxiliary_loss_mlp": 0.01005257,
      "balance_loss_clip": 1.04723501,
      "balance_loss_mlp": 1.00144184,
      "epoch": 0.18156676486502735,
      "flos": 68681420588160.0,
      "grad_norm": 0.8218206583258985,
      "language_loss": 0.60423851,
      "learning_rate": 3.7639572670977573e-06,
      "loss": 0.62513006,
      "num_input_tokens_seen": 32021540,
      "step": 1510,
      "time_per_iteration": 3.1126511096954346
    },
    {
      "auxiliary_loss_clip": 0.01100622,
      "auxiliary_loss_mlp": 0.0103146,
      "balance_loss_clip": 1.04280078,
      "balance_loss_mlp": 1.02363968,
      "epoch": 0.18168700775566646,
      "flos": 26474069041920.0,
      "grad_norm": 1.8982546060606118,
      "language_loss": 0.76874787,
      "learning_rate": 3.7635900122384042e-06,
      "loss": 0.79006875,
      "num_input_tokens_seen": 32044535,
      "step": 1511,
      "time_per_iteration": 3.4166970252990723
    },
    {
      "auxiliary_loss_clip": 0.01108659,
      "auxiliary_loss_mlp": 0.01029358,
      "balance_loss_clip": 1.04273653,
      "balance_loss_mlp": 1.02093017,
      "epoch": 0.18180725064630554,
      "flos": 15007064002560.0,
      "grad_norm": 3.251600033841161,
      "language_loss": 0.86348289,
      "learning_rate": 3.7632224898438477e-06,
      "loss": 0.88486308,
      "num_input_tokens_seen": 32061010,
      "step": 1512,
      "time_per_iteration": 2.608849048614502
    },
    {
      "auxiliary_loss_clip": 0.0110141,
      "auxiliary_loss_mlp": 0.01028204,
      "balance_loss_clip": 1.04349196,
      "balance_loss_mlp": 1.02078009,
      "epoch": 0.18192749353694462,
      "flos": 19684408181760.0,
      "grad_norm": 1.7833684059416262,
      "language_loss": 0.79040182,
      "learning_rate": 3.762854699969842e-06,
      "loss": 0.81169796,
      "num_input_tokens_seen": 32081520,
      "step": 1513,
      "time_per_iteration": 2.622110366821289
    },
    {
      "auxiliary_loss_clip": 0.01123562,
      "auxiliary_loss_mlp": 0.0103192,
      "balance_loss_clip": 1.04622662,
      "balance_loss_mlp": 1.02395105,
      "epoch": 0.1820477364275837,
      "flos": 20704723885440.0,
      "grad_norm": 2.1404299509430147,
      "language_loss": 0.73486793,
      "learning_rate": 3.762486642672179e-06,
      "loss": 0.75642276,
      "num_input_tokens_seen": 32098460,
      "step": 1514,
      "time_per_iteration": 3.366212844848633
    },
    {
      "auxiliary_loss_clip": 0.01106657,
      "auxiliary_loss_mlp": 0.01030139,
      "balance_loss_clip": 1.04329669,
      "balance_loss_mlp": 1.02222395,
      "epoch": 0.18216797931822282,
      "flos": 17130604435200.0,
      "grad_norm": 2.689708359527763,
      "language_loss": 0.86723202,
      "learning_rate": 3.7621183180066946e-06,
      "loss": 0.88859993,
      "num_input_tokens_seen": 32116420,
      "step": 1515,
      "time_per_iteration": 3.3615610599517822
    },
    {
      "auxiliary_loss_clip": 0.01115852,
      "auxiliary_loss_mlp": 0.01027538,
      "balance_loss_clip": 1.04618311,
      "balance_loss_mlp": 1.01973319,
      "epoch": 0.1822882222088619,
      "flos": 29245165776000.0,
      "grad_norm": 1.6489752832953581,
      "language_loss": 0.74145097,
      "learning_rate": 3.7617497260292625e-06,
      "loss": 0.76288486,
      "num_input_tokens_seen": 32138475,
      "step": 1516,
      "time_per_iteration": 3.456233501434326
    },
    {
      "auxiliary_loss_clip": 0.0109838,
      "auxiliary_loss_mlp": 0.01026754,
      "balance_loss_clip": 1.0397656,
      "balance_loss_mlp": 1.01893401,
      "epoch": 0.18240846509950098,
      "flos": 17704124542080.0,
      "grad_norm": 3.3400099102968865,
      "language_loss": 0.78667402,
      "learning_rate": 3.7613808667957967e-06,
      "loss": 0.80792534,
      "num_input_tokens_seen": 32151165,
      "step": 1517,
      "time_per_iteration": 2.5618011951446533
    },
    {
      "auxiliary_loss_clip": 0.01110115,
      "auxiliary_loss_mlp": 0.01029323,
      "balance_loss_clip": 1.04423738,
      "balance_loss_mlp": 1.0215385,
      "epoch": 0.1825287079901401,
      "flos": 14791591082880.0,
      "grad_norm": 2.0467340600967177,
      "language_loss": 0.91275156,
      "learning_rate": 3.7610117403622547e-06,
      "loss": 0.93414593,
      "num_input_tokens_seen": 32167725,
      "step": 1518,
      "time_per_iteration": 2.5547516345977783
    },
    {
      "auxiliary_loss_clip": 0.01101673,
      "auxiliary_loss_mlp": 0.01030549,
      "balance_loss_clip": 1.0437814,
      "balance_loss_mlp": 1.0227294,
      "epoch": 0.18264895088077918,
      "flos": 21948475305600.0,
      "grad_norm": 1.9817510523292592,
      "language_loss": 0.90195006,
      "learning_rate": 3.7606423467846313e-06,
      "loss": 0.92327225,
      "num_input_tokens_seen": 32187330,
      "step": 1519,
      "time_per_iteration": 2.6608364582061768
    },
    {
      "auxiliary_loss_clip": 0.01100869,
      "auxiliary_loss_mlp": 0.01031908,
      "balance_loss_clip": 1.04433286,
      "balance_loss_mlp": 1.02403712,
      "epoch": 0.18276919377141826,
      "flos": 20888866419840.0,
      "grad_norm": 1.8470907370631608,
      "language_loss": 0.79834032,
      "learning_rate": 3.760272686118964e-06,
      "loss": 0.81966811,
      "num_input_tokens_seen": 32205550,
      "step": 1520,
      "time_per_iteration": 2.607102632522583
    },
    {
      "auxiliary_loss_clip": 0.01106999,
      "auxiliary_loss_mlp": 0.01029188,
      "balance_loss_clip": 1.0409497,
      "balance_loss_mlp": 1.02172303,
      "epoch": 0.18288943666205737,
      "flos": 21471979800960.0,
      "grad_norm": 2.5762340795708414,
      "language_loss": 0.93116117,
      "learning_rate": 3.7599027584213297e-06,
      "loss": 0.95252299,
      "num_input_tokens_seen": 32224430,
      "step": 1521,
      "time_per_iteration": 2.706516981124878
    },
    {
      "auxiliary_loss_clip": 0.0112515,
      "auxiliary_loss_mlp": 0.01030792,
      "balance_loss_clip": 1.04537785,
      "balance_loss_mlp": 1.02288854,
      "epoch": 0.18300967955269645,
      "flos": 21541276235520.0,
      "grad_norm": 2.0317115987223056,
      "language_loss": 0.78037578,
      "learning_rate": 3.7595325637478465e-06,
      "loss": 0.8019352,
      "num_input_tokens_seen": 32242455,
      "step": 1522,
      "time_per_iteration": 2.5879204273223877
    },
    {
      "auxiliary_loss_clip": 0.01108652,
      "auxiliary_loss_mlp": 0.01031598,
      "balance_loss_clip": 1.04482961,
      "balance_loss_mlp": 1.02352154,
      "epoch": 0.18312992244333554,
      "flos": 28878738693120.0,
      "grad_norm": 2.3820011278040507,
      "language_loss": 0.81613886,
      "learning_rate": 3.7591621021546723e-06,
      "loss": 0.83754134,
      "num_input_tokens_seen": 32264450,
      "step": 1523,
      "time_per_iteration": 2.653623580932617
    },
    {
      "auxiliary_loss_clip": 0.01126287,
      "auxiliary_loss_mlp": 0.01024592,
      "balance_loss_clip": 1.04433203,
      "balance_loss_mlp": 1.01622939,
      "epoch": 0.18325016533397462,
      "flos": 20122141357440.0,
      "grad_norm": 1.8029756552272191,
      "language_loss": 0.81687284,
      "learning_rate": 3.7587913736980062e-06,
      "loss": 0.83838165,
      "num_input_tokens_seen": 32284090,
      "step": 1524,
      "time_per_iteration": 2.591792345046997
    },
    {
      "auxiliary_loss_clip": 0.01070384,
      "auxiliary_loss_mlp": 0.0102733,
      "balance_loss_clip": 1.03925204,
      "balance_loss_mlp": 1.01951003,
      "epoch": 0.18337040822461373,
      "flos": 23331312529920.0,
      "grad_norm": 1.9159849666669893,
      "language_loss": 0.84462833,
      "learning_rate": 3.7584203784340865e-06,
      "loss": 0.86560547,
      "num_input_tokens_seen": 32303260,
      "step": 1525,
      "time_per_iteration": 2.668691873550415
    },
    {
      "auxiliary_loss_clip": 0.01111582,
      "auxiliary_loss_mlp": 0.01030019,
      "balance_loss_clip": 1.04335654,
      "balance_loss_mlp": 1.02240765,
      "epoch": 0.1834906511152528,
      "flos": 25011887091840.0,
      "grad_norm": 2.234890995282941,
      "language_loss": 0.85670382,
      "learning_rate": 3.7580491164191938e-06,
      "loss": 0.87811983,
      "num_input_tokens_seen": 32321570,
      "step": 1526,
      "time_per_iteration": 2.6426138877868652
    },
    {
      "auxiliary_loss_clip": 0.0109336,
      "auxiliary_loss_mlp": 0.01007108,
      "balance_loss_clip": 1.04378211,
      "balance_loss_mlp": 1.00365055,
      "epoch": 0.1836108940058919,
      "flos": 67257735540480.0,
      "grad_norm": 0.753721111619352,
      "language_loss": 0.61280513,
      "learning_rate": 3.757677587709648e-06,
      "loss": 0.6338098,
      "num_input_tokens_seen": 32384835,
      "step": 1527,
      "time_per_iteration": 3.2489383220672607
    },
    {
      "auxiliary_loss_clip": 0.01091223,
      "auxiliary_loss_mlp": 0.01025399,
      "balance_loss_clip": 1.04189873,
      "balance_loss_mlp": 1.01768064,
      "epoch": 0.183731136896531,
      "flos": 25741063203840.0,
      "grad_norm": 2.1111741827248562,
      "language_loss": 0.75495589,
      "learning_rate": 3.7573057923618095e-06,
      "loss": 0.77612209,
      "num_input_tokens_seen": 32404930,
      "step": 1528,
      "time_per_iteration": 2.6807174682617188
    },
    {
      "auxiliary_loss_clip": 0.01086355,
      "auxiliary_loss_mlp": 0.0102666,
      "balance_loss_clip": 1.04034925,
      "balance_loss_mlp": 1.01823771,
      "epoch": 0.1838513797871701,
      "flos": 20451512424960.0,
      "grad_norm": 1.9761219134556671,
      "language_loss": 0.74647188,
      "learning_rate": 3.7569337304320793e-06,
      "loss": 0.76760197,
      "num_input_tokens_seen": 32424515,
      "step": 1529,
      "time_per_iteration": 2.6319990158081055
    },
    {
      "auxiliary_loss_clip": 0.01076861,
      "auxiliary_loss_mlp": 0.01005854,
      "balance_loss_clip": 1.03929174,
      "balance_loss_mlp": 1.00249255,
      "epoch": 0.18397162267780917,
      "flos": 68571465920640.0,
      "grad_norm": 0.859420885213728,
      "language_loss": 0.64486706,
      "learning_rate": 3.756561401976899e-06,
      "loss": 0.66569424,
      "num_input_tokens_seen": 32484220,
      "step": 1530,
      "time_per_iteration": 3.0617804527282715
    },
    {
      "auxiliary_loss_clip": 0.0113765,
      "auxiliary_loss_mlp": 0.01026041,
      "balance_loss_clip": 1.04600489,
      "balance_loss_mlp": 1.01798892,
      "epoch": 0.18409186556844825,
      "flos": 31943780956800.0,
      "grad_norm": 1.956193914293284,
      "language_loss": 0.82731688,
      "learning_rate": 3.7561888070527514e-06,
      "loss": 0.84895372,
      "num_input_tokens_seen": 32506260,
      "step": 1531,
      "time_per_iteration": 2.59371280670166
    },
    {
      "auxiliary_loss_clip": 0.0109385,
      "auxiliary_loss_mlp": 0.00757252,
      "balance_loss_clip": 1.0407306,
      "balance_loss_mlp": 1.00083852,
      "epoch": 0.18421210845908736,
      "flos": 20122596374400.0,
      "grad_norm": 3.653252186124066,
      "language_loss": 0.80546236,
      "learning_rate": 3.7558159457161577e-06,
      "loss": 0.8239733,
      "num_input_tokens_seen": 32524225,
      "step": 1532,
      "time_per_iteration": 2.694218397140503
    },
    {
      "auxiliary_loss_clip": 0.01109937,
      "auxiliary_loss_mlp": 0.00757665,
      "balance_loss_clip": 1.04477882,
      "balance_loss_mlp": 1.0008682,
      "epoch": 0.18433235134972645,
      "flos": 23112616573440.0,
      "grad_norm": 2.62118092972952,
      "language_loss": 0.782763,
      "learning_rate": 3.755442818023681e-06,
      "loss": 0.80143905,
      "num_input_tokens_seen": 32543850,
      "step": 1533,
      "time_per_iteration": 2.5796592235565186
    },
    {
      "auxiliary_loss_clip": 0.01097998,
      "auxiliary_loss_mlp": 0.01027009,
      "balance_loss_clip": 1.04330516,
      "balance_loss_mlp": 1.01955271,
      "epoch": 0.18445259424036553,
      "flos": 18293039389440.0,
      "grad_norm": 3.7537427910088152,
      "language_loss": 0.76518005,
      "learning_rate": 3.7550694240319246e-06,
      "loss": 0.78643012,
      "num_input_tokens_seen": 32561725,
      "step": 1534,
      "time_per_iteration": 2.619809865951538
    },
    {
      "auxiliary_loss_clip": 0.01124343,
      "auxiliary_loss_mlp": 0.01025198,
      "balance_loss_clip": 1.04381907,
      "balance_loss_mlp": 1.01733577,
      "epoch": 0.18457283713100464,
      "flos": 21326182496640.0,
      "grad_norm": 2.4084417649299867,
      "language_loss": 0.76378977,
      "learning_rate": 3.7546957637975326e-06,
      "loss": 0.78528523,
      "num_input_tokens_seen": 32579135,
      "step": 1535,
      "time_per_iteration": 2.5534889698028564
    },
    {
      "auxiliary_loss_clip": 0.0107666,
      "auxiliary_loss_mlp": 0.0102336,
      "balance_loss_clip": 1.03924942,
      "balance_loss_mlp": 1.01588821,
      "epoch": 0.18469308002164372,
      "flos": 20377741656960.0,
      "grad_norm": 1.5693858723189409,
      "language_loss": 0.74114251,
      "learning_rate": 3.7543218373771873e-06,
      "loss": 0.76214266,
      "num_input_tokens_seen": 32598460,
      "step": 1536,
      "time_per_iteration": 2.669421672821045
    },
    {
      "auxiliary_loss_clip": 0.01073392,
      "auxiliary_loss_mlp": 0.00757467,
      "balance_loss_clip": 1.0405637,
      "balance_loss_mlp": 1.00082183,
      "epoch": 0.1848133229122828,
      "flos": 26438491831680.0,
      "grad_norm": 1.5448336998399528,
      "language_loss": 0.77944732,
      "learning_rate": 3.753947644827615e-06,
      "loss": 0.79775584,
      "num_input_tokens_seen": 32621920,
      "step": 1537,
      "time_per_iteration": 3.4659583568573
    },
    {
      "auxiliary_loss_clip": 0.0108023,
      "auxiliary_loss_mlp": 0.01005759,
      "balance_loss_clip": 1.04174757,
      "balance_loss_mlp": 1.00232589,
      "epoch": 0.1849335658029219,
      "flos": 70554555498240.0,
      "grad_norm": 2.004879969307636,
      "language_loss": 0.5716961,
      "learning_rate": 3.753573186205579e-06,
      "loss": 0.592556,
      "num_input_tokens_seen": 32690040,
      "step": 1538,
      "time_per_iteration": 3.3303585052490234
    },
    {
      "auxiliary_loss_clip": 0.0111317,
      "auxiliary_loss_mlp": 0.00757449,
      "balance_loss_clip": 1.04311788,
      "balance_loss_mlp": 1.00079,
      "epoch": 0.185053808693561,
      "flos": 17386053062400.0,
      "grad_norm": 2.105754504863804,
      "language_loss": 0.77988756,
      "learning_rate": 3.753198461567885e-06,
      "loss": 0.79859376,
      "num_input_tokens_seen": 32707285,
      "step": 1539,
      "time_per_iteration": 3.4033007621765137
    },
    {
      "auxiliary_loss_clip": 0.01087491,
      "auxiliary_loss_mlp": 0.01026998,
      "balance_loss_clip": 1.03892481,
      "balance_loss_mlp": 1.01963735,
      "epoch": 0.18517405158420008,
      "flos": 28988693360640.0,
      "grad_norm": 1.9425297012238525,
      "language_loss": 0.91675675,
      "learning_rate": 3.7528234709713783e-06,
      "loss": 0.93790168,
      "num_input_tokens_seen": 32730030,
      "step": 1540,
      "time_per_iteration": 2.727062940597534
    },
    {
      "auxiliary_loss_clip": 0.01126076,
      "auxiliary_loss_mlp": 0.01027817,
      "balance_loss_clip": 1.04688525,
      "balance_loss_mlp": 1.02030075,
      "epoch": 0.18529429447483917,
      "flos": 26797259462400.0,
      "grad_norm": 2.0039088265303397,
      "language_loss": 0.8434906,
      "learning_rate": 3.7524482144729447e-06,
      "loss": 0.86502957,
      "num_input_tokens_seen": 32749485,
      "step": 1541,
      "time_per_iteration": 3.493246555328369
    },
    {
      "auxiliary_loss_clip": 0.01106127,
      "auxiliary_loss_mlp": 0.01032639,
      "balance_loss_clip": 1.04548645,
      "balance_loss_mlp": 1.02475369,
      "epoch": 0.18541453736547828,
      "flos": 13582848101760.0,
      "grad_norm": 2.49038930096938,
      "language_loss": 0.83724105,
      "learning_rate": 3.7520726921295106e-06,
      "loss": 0.85862875,
      "num_input_tokens_seen": 32766205,
      "step": 1542,
      "time_per_iteration": 2.6209442615509033
    },
    {
      "auxiliary_loss_clip": 0.01123527,
      "auxiliary_loss_mlp": 0.01031041,
      "balance_loss_clip": 1.04282928,
      "balance_loss_mlp": 1.02280951,
      "epoch": 0.18553478025611736,
      "flos": 24027755287680.0,
      "grad_norm": 1.8850242326006414,
      "language_loss": 0.72591424,
      "learning_rate": 3.751696903998042e-06,
      "loss": 0.74745995,
      "num_input_tokens_seen": 32784840,
      "step": 1543,
      "time_per_iteration": 2.5616445541381836
    },
    {
      "auxiliary_loss_clip": 0.01117598,
      "auxiliary_loss_mlp": 0.0102667,
      "balance_loss_clip": 1.04261971,
      "balance_loss_mlp": 1.0190047,
      "epoch": 0.18565502314675644,
      "flos": 25887543033600.0,
      "grad_norm": 3.2303769159147713,
      "language_loss": 0.70191097,
      "learning_rate": 3.7513208501355456e-06,
      "loss": 0.72335362,
      "num_input_tokens_seen": 32805945,
      "step": 1544,
      "time_per_iteration": 2.605821132659912
    },
    {
      "auxiliary_loss_clip": 0.01107674,
      "auxiliary_loss_mlp": 0.01028922,
      "balance_loss_clip": 1.04343605,
      "balance_loss_mlp": 1.02131653,
      "epoch": 0.18577526603739553,
      "flos": 19612116218880.0,
      "grad_norm": 1.9684766689499626,
      "language_loss": 0.83586228,
      "learning_rate": 3.750944530599069e-06,
      "loss": 0.85722828,
      "num_input_tokens_seen": 32825515,
      "step": 1545,
      "time_per_iteration": 2.553917407989502
    },
    {
      "auxiliary_loss_clip": 0.01125145,
      "auxiliary_loss_mlp": 0.01027561,
      "balance_loss_clip": 1.04493022,
      "balance_loss_mlp": 1.01906157,
      "epoch": 0.18589550892803464,
      "flos": 18476651070720.0,
      "grad_norm": 2.3897675951976165,
      "language_loss": 0.80759841,
      "learning_rate": 3.7505679454456992e-06,
      "loss": 0.82912552,
      "num_input_tokens_seen": 32842125,
      "step": 1546,
      "time_per_iteration": 2.587284564971924
    },
    {
      "auxiliary_loss_clip": 0.01053335,
      "auxiliary_loss_mlp": 0.01025917,
      "balance_loss_clip": 1.03675914,
      "balance_loss_mlp": 1.01794171,
      "epoch": 0.18601575181867372,
      "flos": 23552207735040.0,
      "grad_norm": 2.169275004108957,
      "language_loss": 0.69911945,
      "learning_rate": 3.750191094732564e-06,
      "loss": 0.71991199,
      "num_input_tokens_seen": 32862990,
      "step": 1547,
      "time_per_iteration": 2.8576207160949707
    },
    {
      "auxiliary_loss_clip": 0.01061613,
      "auxiliary_loss_mlp": 0.00757511,
      "balance_loss_clip": 1.03855014,
      "balance_loss_mlp": 1.00075817,
      "epoch": 0.1861359947093128,
      "flos": 26362635569280.0,
      "grad_norm": 3.1006236749596012,
      "language_loss": 0.75201488,
      "learning_rate": 3.7498139785168313e-06,
      "loss": 0.77020609,
      "num_input_tokens_seen": 32883595,
      "step": 1548,
      "time_per_iteration": 3.0254101753234863
    },
    {
      "auxiliary_loss_clip": 0.01119871,
      "auxiliary_loss_mlp": 0.01033165,
      "balance_loss_clip": 1.04334021,
      "balance_loss_mlp": 1.02517819,
      "epoch": 0.1862562375999519,
      "flos": 23333435942400.0,
      "grad_norm": 1.983190410615189,
      "language_loss": 0.77231663,
      "learning_rate": 3.749436596855709e-06,
      "loss": 0.79384696,
      "num_input_tokens_seen": 32902895,
      "step": 1549,
      "time_per_iteration": 2.580838203430176
    },
    {
      "auxiliary_loss_clip": 0.01125112,
      "auxiliary_loss_mlp": 0.01026183,
      "balance_loss_clip": 1.04392266,
      "balance_loss_mlp": 1.01796949,
      "epoch": 0.186376480490591,
      "flos": 16649748351360.0,
      "grad_norm": 2.717312952222791,
      "language_loss": 0.90531772,
      "learning_rate": 3.749058949806446e-06,
      "loss": 0.92683071,
      "num_input_tokens_seen": 32919620,
      "step": 1550,
      "time_per_iteration": 2.531423807144165
    },
    {
      "auxiliary_loss_clip": 0.01120953,
      "auxiliary_loss_mlp": 0.01023367,
      "balance_loss_clip": 1.04215252,
      "balance_loss_mlp": 1.01558256,
      "epoch": 0.18649672338123008,
      "flos": 21470690586240.0,
      "grad_norm": 1.79543660699363,
      "language_loss": 0.84114283,
      "learning_rate": 3.748681037426331e-06,
      "loss": 0.86258608,
      "num_input_tokens_seen": 32938830,
      "step": 1551,
      "time_per_iteration": 2.5877737998962402
    },
    {
      "auxiliary_loss_clip": 0.01135198,
      "auxiliary_loss_mlp": 0.0103023,
      "balance_loss_clip": 1.04491651,
      "balance_loss_mlp": 1.02260685,
      "epoch": 0.1866169662718692,
      "flos": 12314364042240.0,
      "grad_norm": 2.2459346077880435,
      "language_loss": 0.91821384,
      "learning_rate": 3.7483028597726936e-06,
      "loss": 0.93986815,
      "num_input_tokens_seen": 32955600,
      "step": 1552,
      "time_per_iteration": 2.5318970680236816
    },
    {
      "auxiliary_loss_clip": 0.0108937,
      "auxiliary_loss_mlp": 0.01032634,
      "balance_loss_clip": 1.04021716,
      "balance_loss_mlp": 1.02396715,
      "epoch": 0.18673720916250827,
      "flos": 23583234775680.0,
      "grad_norm": 1.8961830057389935,
      "language_loss": 0.62594163,
      "learning_rate": 3.7479244169029017e-06,
      "loss": 0.6471616,
      "num_input_tokens_seen": 32975390,
      "step": 1553,
      "time_per_iteration": 2.668754816055298
    },
    {
      "auxiliary_loss_clip": 0.01124774,
      "auxiliary_loss_mlp": 0.01024181,
      "balance_loss_clip": 1.04305434,
      "balance_loss_mlp": 1.01637888,
      "epoch": 0.18685745205314735,
      "flos": 19720364572800.0,
      "grad_norm": 2.6822420767397275,
      "language_loss": 0.73652673,
      "learning_rate": 3.7475457088743658e-06,
      "loss": 0.75801629,
      "num_input_tokens_seen": 32992640,
      "step": 1554,
      "time_per_iteration": 2.5451595783233643
    },
    {
      "auxiliary_loss_clip": 0.01109394,
      "auxiliary_loss_mlp": 0.01031555,
      "balance_loss_clip": 1.04386866,
      "balance_loss_mlp": 1.02325785,
      "epoch": 0.18697769494378644,
      "flos": 34206975964800.0,
      "grad_norm": 2.1215177181760625,
      "language_loss": 0.75044894,
      "learning_rate": 3.7471667357445348e-06,
      "loss": 0.77185845,
      "num_input_tokens_seen": 33012470,
      "step": 1555,
      "time_per_iteration": 2.6984035968780518
    },
    {
      "auxiliary_loss_clip": 0.01057693,
      "auxiliary_loss_mlp": 0.01021716,
      "balance_loss_clip": 1.03405106,
      "balance_loss_mlp": 1.01406908,
      "epoch": 0.18709793783442555,
      "flos": 34244221570560.0,
      "grad_norm": 2.0010311946748875,
      "language_loss": 0.7218498,
      "learning_rate": 3.7467874975709e-06,
      "loss": 0.74264395,
      "num_input_tokens_seen": 33033275,
      "step": 1556,
      "time_per_iteration": 2.773794651031494
    },
    {
      "auxiliary_loss_clip": 0.01126798,
      "auxiliary_loss_mlp": 0.01035525,
      "balance_loss_clip": 1.04682207,
      "balance_loss_mlp": 1.02735925,
      "epoch": 0.18721818072506463,
      "flos": 40737737652480.0,
      "grad_norm": 2.336296078986979,
      "language_loss": 0.78183293,
      "learning_rate": 3.7464079944109904e-06,
      "loss": 0.80345613,
      "num_input_tokens_seen": 33055135,
      "step": 1557,
      "time_per_iteration": 2.7292447090148926
    },
    {
      "auxiliary_loss_clip": 0.01091828,
      "auxiliary_loss_mlp": 0.01026011,
      "balance_loss_clip": 1.03907728,
      "balance_loss_mlp": 1.01827407,
      "epoch": 0.18733842361570371,
      "flos": 22159208465280.0,
      "grad_norm": 2.2997141281185596,
      "language_loss": 0.77747202,
      "learning_rate": 3.746028226322376e-06,
      "loss": 0.79865044,
      "num_input_tokens_seen": 33071015,
      "step": 1558,
      "time_per_iteration": 2.5977985858917236
    },
    {
      "auxiliary_loss_clip": 0.01109459,
      "auxiliary_loss_mlp": 0.0102642,
      "balance_loss_clip": 1.0437758,
      "balance_loss_mlp": 1.01909494,
      "epoch": 0.18745866650634282,
      "flos": 18916848921600.0,
      "grad_norm": 1.9165306438863403,
      "language_loss": 0.75688255,
      "learning_rate": 3.745648193362669e-06,
      "loss": 0.77824128,
      "num_input_tokens_seen": 33090370,
      "step": 1559,
      "time_per_iteration": 2.6193273067474365
    },
    {
      "auxiliary_loss_clip": 0.01110956,
      "auxiliary_loss_mlp": 0.010281,
      "balance_loss_clip": 1.04472661,
      "balance_loss_mlp": 1.02089977,
      "epoch": 0.1875789093969819,
      "flos": 19316464375680.0,
      "grad_norm": 2.143170673304572,
      "language_loss": 0.72026443,
      "learning_rate": 3.745267895589518e-06,
      "loss": 0.74165499,
      "num_input_tokens_seen": 33108910,
      "step": 1560,
      "time_per_iteration": 2.550049066543579
    },
    {
      "auxiliary_loss_clip": 0.01107351,
      "auxiliary_loss_mlp": 0.01026684,
      "balance_loss_clip": 1.04248154,
      "balance_loss_mlp": 1.01882219,
      "epoch": 0.187699152287621,
      "flos": 17020839358080.0,
      "grad_norm": 2.075636892768974,
      "language_loss": 0.82322097,
      "learning_rate": 3.7448873330606154e-06,
      "loss": 0.84456134,
      "num_input_tokens_seen": 33126680,
      "step": 1561,
      "time_per_iteration": 2.6059155464172363
    },
    {
      "auxiliary_loss_clip": 0.0109324,
      "auxiliary_loss_mlp": 0.01025497,
      "balance_loss_clip": 1.04076433,
      "balance_loss_mlp": 1.01708663,
      "epoch": 0.18781939517826007,
      "flos": 22348583694720.0,
      "grad_norm": 5.7995228566802535,
      "language_loss": 0.87502009,
      "learning_rate": 3.7445065058336914e-06,
      "loss": 0.89620745,
      "num_input_tokens_seen": 33145550,
      "step": 1562,
      "time_per_iteration": 3.5043303966522217
    },
    {
      "auxiliary_loss_clip": 0.01077138,
      "auxiliary_loss_mlp": 0.01025166,
      "balance_loss_clip": 1.0377177,
      "balance_loss_mlp": 1.01795411,
      "epoch": 0.18793963806889918,
      "flos": 14613250014720.0,
      "grad_norm": 1.9747314786895034,
      "language_loss": 0.86550081,
      "learning_rate": 3.7441254139665176e-06,
      "loss": 0.88652384,
      "num_input_tokens_seen": 33161735,
      "step": 1563,
      "time_per_iteration": 2.6985538005828857
    },
    {
      "auxiliary_loss_clip": 0.01138056,
      "auxiliary_loss_mlp": 0.01030958,
      "balance_loss_clip": 1.04810786,
      "balance_loss_mlp": 1.02343035,
      "epoch": 0.18805988095953827,
      "flos": 17458989632640.0,
      "grad_norm": 1.8368305583723177,
      "language_loss": 0.8288151,
      "learning_rate": 3.743744057516905e-06,
      "loss": 0.85050523,
      "num_input_tokens_seen": 33179795,
      "step": 1564,
      "time_per_iteration": 2.599231243133545
    },
    {
      "auxiliary_loss_clip": 0.01084422,
      "auxiliary_loss_mlp": 0.01029926,
      "balance_loss_clip": 1.04085577,
      "balance_loss_mlp": 1.02182531,
      "epoch": 0.18818012385017735,
      "flos": 15045371314560.0,
      "grad_norm": 2.926864195791034,
      "language_loss": 0.87447464,
      "learning_rate": 3.743362436542706e-06,
      "loss": 0.8956182,
      "num_input_tokens_seen": 33194485,
      "step": 1565,
      "time_per_iteration": 2.583765983581543
    },
    {
      "auxiliary_loss_clip": 0.01134845,
      "auxiliary_loss_mlp": 0.01026503,
      "balance_loss_clip": 1.04484367,
      "balance_loss_mlp": 1.01917732,
      "epoch": 0.18830036674081646,
      "flos": 47555240434560.0,
      "grad_norm": 1.9897875605730624,
      "language_loss": 0.76746076,
      "learning_rate": 3.7429805511018115e-06,
      "loss": 0.78907424,
      "num_input_tokens_seen": 33216145,
      "step": 1566,
      "time_per_iteration": 4.28336238861084
    },
    {
      "auxiliary_loss_clip": 0.01091057,
      "auxiliary_loss_mlp": 0.00757449,
      "balance_loss_clip": 1.04058003,
      "balance_loss_mlp": 1.0007515,
      "epoch": 0.18842060963145554,
      "flos": 30047240540160.0,
      "grad_norm": 2.088018705167226,
      "language_loss": 0.7812494,
      "learning_rate": 3.7425984012521524e-06,
      "loss": 0.79973447,
      "num_input_tokens_seen": 33236345,
      "step": 1567,
      "time_per_iteration": 3.41117787361145
    },
    {
      "auxiliary_loss_clip": 0.01071486,
      "auxiliary_loss_mlp": 0.00753844,
      "balance_loss_clip": 1.04529154,
      "balance_loss_mlp": 0.99974519,
      "epoch": 0.18854085252209463,
      "flos": 70324901216640.0,
      "grad_norm": 0.7513771947334139,
      "language_loss": 0.60468709,
      "learning_rate": 3.7422159870517025e-06,
      "loss": 0.62294042,
      "num_input_tokens_seen": 33301600,
      "step": 1568,
      "time_per_iteration": 3.186781883239746
    },
    {
      "auxiliary_loss_clip": 0.01111349,
      "auxiliary_loss_mlp": 0.01024952,
      "balance_loss_clip": 1.04343748,
      "balance_loss_mlp": 1.01741838,
      "epoch": 0.1886610954127337,
      "flos": 21291515320320.0,
      "grad_norm": 1.857499543163803,
      "language_loss": 0.78852069,
      "learning_rate": 3.7418333085584717e-06,
      "loss": 0.80988371,
      "num_input_tokens_seen": 33322785,
      "step": 1569,
      "time_per_iteration": 2.6313908100128174
    },
    {
      "auxiliary_loss_clip": 0.0109494,
      "auxiliary_loss_mlp": 0.01028793,
      "balance_loss_clip": 1.04275656,
      "balance_loss_mlp": 1.02060914,
      "epoch": 0.18878133830337282,
      "flos": 17268287270400.0,
      "grad_norm": 2.476158301765603,
      "language_loss": 0.90554535,
      "learning_rate": 3.7414503658305128e-06,
      "loss": 0.92678267,
      "num_input_tokens_seen": 33340020,
      "step": 1570,
      "time_per_iteration": 2.565791368484497
    },
    {
      "auxiliary_loss_clip": 0.01082085,
      "auxiliary_loss_mlp": 0.01026157,
      "balance_loss_clip": 1.03875685,
      "balance_loss_mlp": 1.01828349,
      "epoch": 0.1889015811940119,
      "flos": 25777550448000.0,
      "grad_norm": 2.842705290513115,
      "language_loss": 0.77502704,
      "learning_rate": 3.7410671589259185e-06,
      "loss": 0.79610944,
      "num_input_tokens_seen": 33358620,
      "step": 1571,
      "time_per_iteration": 2.6849780082702637
    },
    {
      "auxiliary_loss_clip": 0.01135972,
      "auxiliary_loss_mlp": 0.01031295,
      "balance_loss_clip": 1.04607642,
      "balance_loss_mlp": 1.02327275,
      "epoch": 0.18902182408465099,
      "flos": 21034284543360.0,
      "grad_norm": 2.407383642354911,
      "language_loss": 0.79621732,
      "learning_rate": 3.7406836879028205e-06,
      "loss": 0.81789005,
      "num_input_tokens_seen": 33378845,
      "step": 1572,
      "time_per_iteration": 2.5075478553771973
    },
    {
      "auxiliary_loss_clip": 0.01120795,
      "auxiliary_loss_mlp": 0.01023798,
      "balance_loss_clip": 1.04449892,
      "balance_loss_mlp": 1.01614428,
      "epoch": 0.1891420669752901,
      "flos": 22274244155520.0,
      "grad_norm": 2.065583884075055,
      "language_loss": 0.76259238,
      "learning_rate": 3.7402999528193907e-06,
      "loss": 0.78403831,
      "num_input_tokens_seen": 33398345,
      "step": 1573,
      "time_per_iteration": 2.5646636486053467
    },
    {
      "auxiliary_loss_clip": 0.01093718,
      "auxiliary_loss_mlp": 0.00757367,
      "balance_loss_clip": 1.04125881,
      "balance_loss_mlp": 1.00074029,
      "epoch": 0.18926230986592918,
      "flos": 22019970988800.0,
      "grad_norm": 2.7381160223780245,
      "language_loss": 0.85731828,
      "learning_rate": 3.739915953733842e-06,
      "loss": 0.87582922,
      "num_input_tokens_seen": 33416390,
      "step": 1574,
      "time_per_iteration": 2.615966558456421
    },
    {
      "auxiliary_loss_clip": 0.01133994,
      "auxiliary_loss_mlp": 0.01024851,
      "balance_loss_clip": 1.04412866,
      "balance_loss_mlp": 1.01722193,
      "epoch": 0.18938255275656826,
      "flos": 24464995528320.0,
      "grad_norm": 1.9943558228723357,
      "language_loss": 0.81746793,
      "learning_rate": 3.7395316907044264e-06,
      "loss": 0.83905637,
      "num_input_tokens_seen": 33437175,
      "step": 1575,
      "time_per_iteration": 2.565079689025879
    },
    {
      "auxiliary_loss_clip": 0.01117278,
      "auxiliary_loss_mlp": 0.01027831,
      "balance_loss_clip": 1.04094219,
      "balance_loss_mlp": 1.0204165,
      "epoch": 0.18950279564720737,
      "flos": 24429418318080.0,
      "grad_norm": 1.7340890212673057,
      "language_loss": 0.79380119,
      "learning_rate": 3.7391471637894364e-06,
      "loss": 0.81525224,
      "num_input_tokens_seen": 33459440,
      "step": 1576,
      "time_per_iteration": 2.5930562019348145
    },
    {
      "auxiliary_loss_clip": 0.01097062,
      "auxiliary_loss_mlp": 0.01027033,
      "balance_loss_clip": 1.04178905,
      "balance_loss_mlp": 1.0197258,
      "epoch": 0.18962303853784646,
      "flos": 19758368540160.0,
      "grad_norm": 1.8233455162608794,
      "language_loss": 0.84590864,
      "learning_rate": 3.738762373047205e-06,
      "loss": 0.86714953,
      "num_input_tokens_seen": 33479360,
      "step": 1577,
      "time_per_iteration": 2.6031954288482666
    },
    {
      "auxiliary_loss_clip": 0.01094707,
      "auxiliary_loss_mlp": 0.01029362,
      "balance_loss_clip": 1.04253173,
      "balance_loss_mlp": 1.02189946,
      "epoch": 0.18974328142848554,
      "flos": 21034132871040.0,
      "grad_norm": 1.63092451482413,
      "language_loss": 0.8316797,
      "learning_rate": 3.738377318536103e-06,
      "loss": 0.85292035,
      "num_input_tokens_seen": 33499245,
      "step": 1578,
      "time_per_iteration": 2.6376101970672607
    },
    {
      "auxiliary_loss_clip": 0.01134461,
      "auxiliary_loss_mlp": 0.01026606,
      "balance_loss_clip": 1.04624915,
      "balance_loss_mlp": 1.0196979,
      "epoch": 0.18986352431912462,
      "flos": 12967608055680.0,
      "grad_norm": 2.6975938668628046,
      "language_loss": 0.71042597,
      "learning_rate": 3.7379920003145447e-06,
      "loss": 0.73203665,
      "num_input_tokens_seen": 33513520,
      "step": 1579,
      "time_per_iteration": 2.5474188327789307
    },
    {
      "auxiliary_loss_clip": 0.01111608,
      "auxiliary_loss_mlp": 0.01027666,
      "balance_loss_clip": 1.04435706,
      "balance_loss_mlp": 1.01913702,
      "epoch": 0.18998376720976373,
      "flos": 23770107411840.0,
      "grad_norm": 1.8400419183038146,
      "language_loss": 0.83564496,
      "learning_rate": 3.7376064184409817e-06,
      "loss": 0.85703772,
      "num_input_tokens_seen": 33533100,
      "step": 1580,
      "time_per_iteration": 2.6184544563293457
    },
    {
      "auxiliary_loss_clip": 0.01111819,
      "auxiliary_loss_mlp": 0.01027227,
      "balance_loss_clip": 1.04515588,
      "balance_loss_mlp": 1.01959133,
      "epoch": 0.19010401010040281,
      "flos": 22968222238080.0,
      "grad_norm": 1.4679310346616579,
      "language_loss": 0.87101257,
      "learning_rate": 3.7372205729739063e-06,
      "loss": 0.89240307,
      "num_input_tokens_seen": 33554915,
      "step": 1581,
      "time_per_iteration": 2.587540626525879
    },
    {
      "auxiliary_loss_clip": 0.01125592,
      "auxiliary_loss_mlp": 0.01026088,
      "balance_loss_clip": 1.04622746,
      "balance_loss_mlp": 1.01766026,
      "epoch": 0.1902242529910419,
      "flos": 19137668290560.0,
      "grad_norm": 2.2463353133689976,
      "language_loss": 0.71883929,
      "learning_rate": 3.7368344639718514e-06,
      "loss": 0.74035609,
      "num_input_tokens_seen": 33572850,
      "step": 1582,
      "time_per_iteration": 2.5598270893096924
    },
    {
      "auxiliary_loss_clip": 0.01121955,
      "auxiliary_loss_mlp": 0.01031934,
      "balance_loss_clip": 1.04289007,
      "balance_loss_mlp": 1.0247097,
      "epoch": 0.190344495881681,
      "flos": 25486297102080.0,
      "grad_norm": 1.7624406369057946,
      "language_loss": 0.80538791,
      "learning_rate": 3.7364480914933895e-06,
      "loss": 0.82692683,
      "num_input_tokens_seen": 33593090,
      "step": 1583,
      "time_per_iteration": 2.586033821105957
    },
    {
      "auxiliary_loss_clip": 0.01076211,
      "auxiliary_loss_mlp": 0.00757344,
      "balance_loss_clip": 1.03820503,
      "balance_loss_mlp": 1.00067854,
      "epoch": 0.1904647387723201,
      "flos": 26795022295680.0,
      "grad_norm": 3.370398188737457,
      "language_loss": 0.80784231,
      "learning_rate": 3.7360614555971325e-06,
      "loss": 0.8261779,
      "num_input_tokens_seen": 33612745,
      "step": 1584,
      "time_per_iteration": 2.74015474319458
    },
    {
      "auxiliary_loss_clip": 0.0111895,
      "auxiliary_loss_mlp": 0.00757317,
      "balance_loss_clip": 1.04260719,
      "balance_loss_mlp": 1.00063336,
      "epoch": 0.19058498166295917,
      "flos": 23990016746880.0,
      "grad_norm": 1.9979968959731582,
      "language_loss": 0.85511631,
      "learning_rate": 3.735674556341733e-06,
      "loss": 0.87387896,
      "num_input_tokens_seen": 33632360,
      "step": 1585,
      "time_per_iteration": 2.559927225112915
    },
    {
      "auxiliary_loss_clip": 0.01104156,
      "auxiliary_loss_mlp": 0.01031346,
      "balance_loss_clip": 1.04258764,
      "balance_loss_mlp": 1.02366304,
      "epoch": 0.19070522455359826,
      "flos": 28295814902400.0,
      "grad_norm": 3.320557546873402,
      "language_loss": 0.82693136,
      "learning_rate": 3.7352873937858835e-06,
      "loss": 0.84828639,
      "num_input_tokens_seen": 33653895,
      "step": 1586,
      "time_per_iteration": 2.6759040355682373
    },
    {
      "auxiliary_loss_clip": 0.01086184,
      "auxiliary_loss_mlp": 0.00757475,
      "balance_loss_clip": 1.03816676,
      "balance_loss_mlp": 1.00056529,
      "epoch": 0.19082546744423737,
      "flos": 25662249331200.0,
      "grad_norm": 2.7121786603448443,
      "language_loss": 0.7211566,
      "learning_rate": 3.734899967988316e-06,
      "loss": 0.73959315,
      "num_input_tokens_seen": 33672075,
      "step": 1587,
      "time_per_iteration": 2.6186165809631348
    },
    {
      "auxiliary_loss_clip": 0.01091495,
      "auxiliary_loss_mlp": 0.01026245,
      "balance_loss_clip": 1.0395,
      "balance_loss_mlp": 1.01900959,
      "epoch": 0.19094571033487645,
      "flos": 19721540033280.0,
      "grad_norm": 1.8769140456135855,
      "language_loss": 0.84299064,
      "learning_rate": 3.7345122790078026e-06,
      "loss": 0.86416805,
      "num_input_tokens_seen": 33689640,
      "step": 1588,
      "time_per_iteration": 2.630903959274292
    },
    {
      "auxiliary_loss_clip": 0.01121203,
      "auxiliary_loss_mlp": 0.01025869,
      "balance_loss_clip": 1.04404378,
      "balance_loss_mlp": 1.01744723,
      "epoch": 0.19106595322551553,
      "flos": 21618459630720.0,
      "grad_norm": 2.883992689172059,
      "language_loss": 0.93070614,
      "learning_rate": 3.7341243269031556e-06,
      "loss": 0.95217687,
      "num_input_tokens_seen": 33708630,
      "step": 1589,
      "time_per_iteration": 3.3236215114593506
    },
    {
      "auxiliary_loss_clip": 0.0110942,
      "auxiliary_loss_mlp": 0.01027284,
      "balance_loss_clip": 1.04713881,
      "balance_loss_mlp": 1.0194993,
      "epoch": 0.19118619611615464,
      "flos": 29899395659520.0,
      "grad_norm": 2.2413085528421317,
      "language_loss": 0.77462184,
      "learning_rate": 3.7337361117332275e-06,
      "loss": 0.79598892,
      "num_input_tokens_seen": 33730370,
      "step": 1590,
      "time_per_iteration": 2.6705241203308105
    },
    {
      "auxiliary_loss_clip": 0.01096402,
      "auxiliary_loss_mlp": 0.01028767,
      "balance_loss_clip": 1.04225993,
      "balance_loss_mlp": 1.02126908,
      "epoch": 0.19130643900679373,
      "flos": 17275264197120.0,
      "grad_norm": 2.0716981707025677,
      "language_loss": 0.77230209,
      "learning_rate": 3.7333476335569087e-06,
      "loss": 0.79355383,
      "num_input_tokens_seen": 33748370,
      "step": 1591,
      "time_per_iteration": 3.3969271183013916
    },
    {
      "auxiliary_loss_clip": 0.01113174,
      "auxiliary_loss_mlp": 0.01027505,
      "balance_loss_clip": 1.04639482,
      "balance_loss_mlp": 1.01950645,
      "epoch": 0.1914266818974328,
      "flos": 24828616673280.0,
      "grad_norm": 2.536400342278556,
      "language_loss": 0.66548359,
      "learning_rate": 3.7329588924331325e-06,
      "loss": 0.68689042,
      "num_input_tokens_seen": 33769575,
      "step": 1592,
      "time_per_iteration": 4.173813819885254
    },
    {
      "auxiliary_loss_clip": 0.01100751,
      "auxiliary_loss_mlp": 0.01030995,
      "balance_loss_clip": 1.04519176,
      "balance_loss_mlp": 1.02342558,
      "epoch": 0.1915469247880719,
      "flos": 18954435790080.0,
      "grad_norm": 1.761461371591068,
      "language_loss": 0.82467973,
      "learning_rate": 3.732569888420871e-06,
      "loss": 0.84599721,
      "num_input_tokens_seen": 33789110,
      "step": 1593,
      "time_per_iteration": 2.6222472190856934
    },
    {
      "auxiliary_loss_clip": 0.01134432,
      "auxiliary_loss_mlp": 0.01025863,
      "balance_loss_clip": 1.04455137,
      "balance_loss_mlp": 1.0175128,
      "epoch": 0.191667167678711,
      "flos": 21035080823040.0,
      "grad_norm": 2.5211983536749396,
      "language_loss": 0.82400465,
      "learning_rate": 3.732180621579134e-06,
      "loss": 0.84560752,
      "num_input_tokens_seen": 33808325,
      "step": 1594,
      "time_per_iteration": 2.5503480434417725
    },
    {
      "auxiliary_loss_clip": 0.01100291,
      "auxiliary_loss_mlp": 0.01027934,
      "balance_loss_clip": 1.04615116,
      "balance_loss_mlp": 1.02005434,
      "epoch": 0.1917874105693501,
      "flos": 34240353926400.0,
      "grad_norm": 2.280501965453744,
      "language_loss": 0.8164314,
      "learning_rate": 3.7317910919669745e-06,
      "loss": 0.83771372,
      "num_input_tokens_seen": 33829520,
      "step": 1595,
      "time_per_iteration": 2.7099828720092773
    },
    {
      "auxiliary_loss_clip": 0.01117126,
      "auxiliary_loss_mlp": 0.01030798,
      "balance_loss_clip": 1.04252839,
      "balance_loss_mlp": 1.02244186,
      "epoch": 0.19190765345998917,
      "flos": 23552890260480.0,
      "grad_norm": 3.4562025678720554,
      "language_loss": 0.76278818,
      "learning_rate": 3.7314012996434826e-06,
      "loss": 0.78426743,
      "num_input_tokens_seen": 33848250,
      "step": 1596,
      "time_per_iteration": 2.610297918319702
    },
    {
      "auxiliary_loss_clip": 0.01107729,
      "auxiliary_loss_mlp": 0.01030316,
      "balance_loss_clip": 1.04323149,
      "balance_loss_mlp": 1.02246571,
      "epoch": 0.19202789635062828,
      "flos": 19863166348800.0,
      "grad_norm": 7.989290897683109,
      "language_loss": 0.80997372,
      "learning_rate": 3.7310112446677907e-06,
      "loss": 0.83135414,
      "num_input_tokens_seen": 33866160,
      "step": 1597,
      "time_per_iteration": 2.554180383682251
    },
    {
      "auxiliary_loss_clip": 0.01139068,
      "auxiliary_loss_mlp": 0.01026649,
      "balance_loss_clip": 1.050138,
      "balance_loss_mlp": 1.01825643,
      "epoch": 0.19214813924126736,
      "flos": 20925050319360.0,
      "grad_norm": 2.038370644552549,
      "language_loss": 0.69197875,
      "learning_rate": 3.7306209270990695e-06,
      "loss": 0.71363592,
      "num_input_tokens_seen": 33884165,
      "step": 1598,
      "time_per_iteration": 2.540419816970825
    },
    {
      "auxiliary_loss_clip": 0.01101271,
      "auxiliary_loss_mlp": 0.01032258,
      "balance_loss_clip": 1.04034543,
      "balance_loss_mlp": 1.02469397,
      "epoch": 0.19226838213190645,
      "flos": 26362142634240.0,
      "grad_norm": 1.9543467987686438,
      "language_loss": 0.86732715,
      "learning_rate": 3.7302303469965292e-06,
      "loss": 0.8886624,
      "num_input_tokens_seen": 33903705,
      "step": 1599,
      "time_per_iteration": 2.6128463745117188
    },
    {
      "auxiliary_loss_clip": 0.01122515,
      "auxiliary_loss_mlp": 0.01031165,
      "balance_loss_clip": 1.04668093,
      "balance_loss_mlp": 1.02345181,
      "epoch": 0.19238862502254553,
      "flos": 20852644602240.0,
      "grad_norm": 1.8980949676057635,
      "language_loss": 0.70957863,
      "learning_rate": 3.7298395044194206e-06,
      "loss": 0.7311154,
      "num_input_tokens_seen": 33922515,
      "step": 1600,
      "time_per_iteration": 2.5773534774780273
    },
    {
      "auxiliary_loss_clip": 0.01139524,
      "auxiliary_loss_mlp": 0.01025639,
      "balance_loss_clip": 1.04996848,
      "balance_loss_mlp": 1.01805472,
      "epoch": 0.19250886791318464,
      "flos": 21728224707840.0,
      "grad_norm": 2.1428597526276167,
      "language_loss": 0.9448539,
      "learning_rate": 3.7294483994270356e-06,
      "loss": 0.96650553,
      "num_input_tokens_seen": 33940840,
      "step": 1601,
      "time_per_iteration": 2.5209858417510986
    },
    {
      "auxiliary_loss_clip": 0.01077702,
      "auxiliary_loss_mlp": 0.01026933,
      "balance_loss_clip": 1.04208159,
      "balance_loss_mlp": 1.0198344,
      "epoch": 0.19262911080382372,
      "flos": 23370074858880.0,
      "grad_norm": 2.4106922934564055,
      "language_loss": 0.77753437,
      "learning_rate": 3.7290570320787033e-06,
      "loss": 0.79858065,
      "num_input_tokens_seen": 33960420,
      "step": 1602,
      "time_per_iteration": 2.6820051670074463
    },
    {
      "auxiliary_loss_clip": 0.01115188,
      "auxiliary_loss_mlp": 0.01024971,
      "balance_loss_clip": 1.04375529,
      "balance_loss_mlp": 1.01714516,
      "epoch": 0.1927493536944628,
      "flos": 21945593531520.0,
      "grad_norm": 1.9973398451006514,
      "language_loss": 0.71176338,
      "learning_rate": 3.728665402433793e-06,
      "loss": 0.73316503,
      "num_input_tokens_seen": 33978990,
      "step": 1603,
      "time_per_iteration": 2.5390543937683105
    },
    {
      "auxiliary_loss_clip": 0.01103629,
      "auxiliary_loss_mlp": 0.01029293,
      "balance_loss_clip": 1.04392171,
      "balance_loss_mlp": 1.02171087,
      "epoch": 0.19286959658510192,
      "flos": 16547491054080.0,
      "grad_norm": 2.646811373679556,
      "language_loss": 0.86054182,
      "learning_rate": 3.7282735105517164e-06,
      "loss": 0.88187104,
      "num_input_tokens_seen": 33997115,
      "step": 1604,
      "time_per_iteration": 2.590862274169922
    },
    {
      "auxiliary_loss_clip": 0.01087357,
      "auxiliary_loss_mlp": 0.01029714,
      "balance_loss_clip": 1.04298067,
      "balance_loss_mlp": 1.02173328,
      "epoch": 0.192989839475741,
      "flos": 21619142156160.0,
      "grad_norm": 2.2292651518998183,
      "language_loss": 0.67594725,
      "learning_rate": 3.727881356491922e-06,
      "loss": 0.69711792,
      "num_input_tokens_seen": 34015525,
      "step": 1605,
      "time_per_iteration": 2.629150390625
    },
    {
      "auxiliary_loss_clip": 0.01139334,
      "auxiliary_loss_mlp": 0.01029759,
      "balance_loss_clip": 1.05009055,
      "balance_loss_mlp": 1.02261829,
      "epoch": 0.19311008236638008,
      "flos": 19283541431040.0,
      "grad_norm": 2.1134499255213086,
      "language_loss": 0.75897115,
      "learning_rate": 3.7274889403139002e-06,
      "loss": 0.78066206,
      "num_input_tokens_seen": 34033150,
      "step": 1606,
      "time_per_iteration": 2.5127789974212646
    },
    {
      "auxiliary_loss_clip": 0.01078389,
      "auxiliary_loss_mlp": 0.01025706,
      "balance_loss_clip": 1.04164422,
      "balance_loss_mlp": 1.0183866,
      "epoch": 0.1932303252570192,
      "flos": 28654582533120.0,
      "grad_norm": 3.0783204039875582,
      "language_loss": 0.78720403,
      "learning_rate": 3.727096262077179e-06,
      "loss": 0.80824494,
      "num_input_tokens_seen": 34052145,
      "step": 1607,
      "time_per_iteration": 2.672130584716797
    },
    {
      "auxiliary_loss_clip": 0.01121723,
      "auxiliary_loss_mlp": 0.01024273,
      "balance_loss_clip": 1.04627883,
      "balance_loss_mlp": 1.01677465,
      "epoch": 0.19335056814765827,
      "flos": 18370943228160.0,
      "grad_norm": 2.562401054153262,
      "language_loss": 0.8547886,
      "learning_rate": 3.7267033218413285e-06,
      "loss": 0.87624854,
      "num_input_tokens_seen": 34069940,
      "step": 1608,
      "time_per_iteration": 2.5573890209198
    },
    {
      "auxiliary_loss_clip": 0.01073895,
      "auxiliary_loss_mlp": 0.01028356,
      "balance_loss_clip": 1.04168653,
      "balance_loss_mlp": 1.0201124,
      "epoch": 0.19347081103829736,
      "flos": 13262539455360.0,
      "grad_norm": 2.547360324981466,
      "language_loss": 0.81100571,
      "learning_rate": 3.726310119665957e-06,
      "loss": 0.83202821,
      "num_input_tokens_seen": 34086275,
      "step": 1609,
      "time_per_iteration": 2.6117892265319824
    },
    {
      "auxiliary_loss_clip": 0.01120565,
      "auxiliary_loss_mlp": 0.01026532,
      "balance_loss_clip": 1.04483581,
      "balance_loss_mlp": 1.01877165,
      "epoch": 0.19359105392893644,
      "flos": 20302037066880.0,
      "grad_norm": 1.9276244690148132,
      "language_loss": 0.854316,
      "learning_rate": 3.725916655610713e-06,
      "loss": 0.87578702,
      "num_input_tokens_seen": 34105605,
      "step": 1610,
      "time_per_iteration": 2.561784505844116
    },
    {
      "auxiliary_loss_clip": 0.01101962,
      "auxiliary_loss_mlp": 0.01024009,
      "balance_loss_clip": 1.03940558,
      "balance_loss_mlp": 1.01609993,
      "epoch": 0.19371129681957555,
      "flos": 20486634618240.0,
      "grad_norm": 3.153459672108892,
      "language_loss": 0.75887096,
      "learning_rate": 3.725522929735284e-06,
      "loss": 0.78013062,
      "num_input_tokens_seen": 34122540,
      "step": 1611,
      "time_per_iteration": 2.5441107749938965
    },
    {
      "auxiliary_loss_clip": 0.01114188,
      "auxiliary_loss_mlp": 0.01024374,
      "balance_loss_clip": 1.04569757,
      "balance_loss_mlp": 1.01683974,
      "epoch": 0.19383153971021463,
      "flos": 30448107290880.0,
      "grad_norm": 4.895180004535588,
      "language_loss": 0.74412185,
      "learning_rate": 3.725128942099399e-06,
      "loss": 0.76550746,
      "num_input_tokens_seen": 34142940,
      "step": 1612,
      "time_per_iteration": 2.6674368381500244
    },
    {
      "auxiliary_loss_clip": 0.0111211,
      "auxiliary_loss_mlp": 0.01024199,
      "balance_loss_clip": 1.04459739,
      "balance_loss_mlp": 1.01647425,
      "epoch": 0.19395178260085372,
      "flos": 24572144257920.0,
      "grad_norm": 1.8160495638917786,
      "language_loss": 0.79808861,
      "learning_rate": 3.7247346927628245e-06,
      "loss": 0.81945169,
      "num_input_tokens_seen": 34162875,
      "step": 1613,
      "time_per_iteration": 2.605914831161499
    },
    {
      "auxiliary_loss_clip": 0.01095812,
      "auxiliary_loss_mlp": 0.00757346,
      "balance_loss_clip": 1.03729057,
      "balance_loss_mlp": 1.0006001,
      "epoch": 0.19407202549149283,
      "flos": 28953191986560.0,
      "grad_norm": 2.507699712965536,
      "language_loss": 0.78839183,
      "learning_rate": 3.7243401817853694e-06,
      "loss": 0.80692339,
      "num_input_tokens_seen": 34183565,
      "step": 1614,
      "time_per_iteration": 3.467460870742798
    },
    {
      "auxiliary_loss_clip": 0.01125876,
      "auxiliary_loss_mlp": 0.01027377,
      "balance_loss_clip": 1.04721272,
      "balance_loss_mlp": 1.01994419,
      "epoch": 0.1941922683821319,
      "flos": 18006449967360.0,
      "grad_norm": 2.2520640086421615,
      "language_loss": 0.71883702,
      "learning_rate": 3.723945409226879e-06,
      "loss": 0.74036956,
      "num_input_tokens_seen": 34202055,
      "step": 1615,
      "time_per_iteration": 2.535184621810913
    },
    {
      "auxiliary_loss_clip": 0.01125463,
      "auxiliary_loss_mlp": 0.01030307,
      "balance_loss_clip": 1.04714084,
      "balance_loss_mlp": 1.0224092,
      "epoch": 0.194312511272771,
      "flos": 9721722130560.0,
      "grad_norm": 8.851884860859725,
      "language_loss": 0.79881436,
      "learning_rate": 3.723550375147241e-06,
      "loss": 0.8203721,
      "num_input_tokens_seen": 34216830,
      "step": 1616,
      "time_per_iteration": 2.516294002532959
    },
    {
      "auxiliary_loss_clip": 0.01091046,
      "auxiliary_loss_mlp": 0.0102664,
      "balance_loss_clip": 1.03982759,
      "balance_loss_mlp": 1.01882553,
      "epoch": 0.19443275416341008,
      "flos": 27018647602560.0,
      "grad_norm": 1.8048941251478139,
      "language_loss": 0.80498165,
      "learning_rate": 3.7231550796063816e-06,
      "loss": 0.82615852,
      "num_input_tokens_seen": 34236840,
      "step": 1617,
      "time_per_iteration": 5.008843660354614
    },
    {
      "auxiliary_loss_clip": 0.01109972,
      "auxiliary_loss_mlp": 0.01028552,
      "balance_loss_clip": 1.04496074,
      "balance_loss_mlp": 1.0204463,
      "epoch": 0.1945529970540492,
      "flos": 15848166522240.0,
      "grad_norm": 1.999280004249791,
      "language_loss": 0.6513741,
      "learning_rate": 3.722759522664266e-06,
      "loss": 0.67275929,
      "num_input_tokens_seen": 34254140,
      "step": 1618,
      "time_per_iteration": 2.5622777938842773
    },
    {
      "auxiliary_loss_clip": 0.01082021,
      "auxiliary_loss_mlp": 0.01025607,
      "balance_loss_clip": 1.04228222,
      "balance_loss_mlp": 1.01771498,
      "epoch": 0.19467323994468827,
      "flos": 19316843556480.0,
      "grad_norm": 13.676291583533295,
      "language_loss": 0.81484568,
      "learning_rate": 3.7223637043809016e-06,
      "loss": 0.83592194,
      "num_input_tokens_seen": 34273120,
      "step": 1619,
      "time_per_iteration": 2.623044729232788
    },
    {
      "auxiliary_loss_clip": 0.01087854,
      "auxiliary_loss_mlp": 0.01030408,
      "balance_loss_clip": 1.03977728,
      "balance_loss_mlp": 1.02314794,
      "epoch": 0.19479348283532735,
      "flos": 24135472788480.0,
      "grad_norm": 2.792768258454173,
      "language_loss": 0.86230421,
      "learning_rate": 3.7219676248163322e-06,
      "loss": 0.88348687,
      "num_input_tokens_seen": 34290285,
      "step": 1620,
      "time_per_iteration": 2.6269521713256836
    },
    {
      "auxiliary_loss_clip": 0.01123846,
      "auxiliary_loss_mlp": 0.01025754,
      "balance_loss_clip": 1.04666483,
      "balance_loss_mlp": 1.01799941,
      "epoch": 0.19491372572596646,
      "flos": 25778005464960.0,
      "grad_norm": 1.9521829409472857,
      "language_loss": 0.93369097,
      "learning_rate": 3.721571284030643e-06,
      "loss": 0.95518696,
      "num_input_tokens_seen": 34310095,
      "step": 1621,
      "time_per_iteration": 2.571002244949341
    },
    {
      "auxiliary_loss_clip": 0.01123441,
      "auxiliary_loss_mlp": 0.01021922,
      "balance_loss_clip": 1.0468626,
      "balance_loss_mlp": 1.01403606,
      "epoch": 0.19503396861660555,
      "flos": 19647200494080.0,
      "grad_norm": 3.418041964992553,
      "language_loss": 0.78824377,
      "learning_rate": 3.7211746820839587e-06,
      "loss": 0.80969739,
      "num_input_tokens_seen": 34327190,
      "step": 1622,
      "time_per_iteration": 2.55778169631958
    },
    {
      "auxiliary_loss_clip": 0.01055099,
      "auxiliary_loss_mlp": 0.01024516,
      "balance_loss_clip": 1.03957272,
      "balance_loss_mlp": 1.01702356,
      "epoch": 0.19515421150724463,
      "flos": 21035156659200.0,
      "grad_norm": 1.947610882660195,
      "language_loss": 0.80897003,
      "learning_rate": 3.7207778190364437e-06,
      "loss": 0.82976615,
      "num_input_tokens_seen": 34345615,
      "step": 1623,
      "time_per_iteration": 2.6775078773498535
    },
    {
      "auxiliary_loss_clip": 0.01076341,
      "auxiliary_loss_mlp": 0.01026154,
      "balance_loss_clip": 1.04557931,
      "balance_loss_mlp": 1.01856327,
      "epoch": 0.1952744543978837,
      "flos": 32963907070080.0,
      "grad_norm": 1.6641493912998826,
      "language_loss": 0.73987752,
      "learning_rate": 3.720380694948302e-06,
      "loss": 0.76090246,
      "num_input_tokens_seen": 34368500,
      "step": 1624,
      "time_per_iteration": 2.8096253871917725
    },
    {
      "auxiliary_loss_clip": 0.01092164,
      "auxiliary_loss_mlp": 0.01002605,
      "balance_loss_clip": 1.07564294,
      "balance_loss_mlp": 0.99862307,
      "epoch": 0.19539469728852282,
      "flos": 64050574026240.0,
      "grad_norm": 1.0452450519234755,
      "language_loss": 0.71237713,
      "learning_rate": 3.719983309879777e-06,
      "loss": 0.73332483,
      "num_input_tokens_seen": 34428280,
      "step": 1625,
      "time_per_iteration": 3.2350683212280273
    },
    {
      "auxiliary_loss_clip": 0.01102317,
      "auxiliary_loss_mlp": 0.01030633,
      "balance_loss_clip": 1.04783964,
      "balance_loss_mlp": 1.02312863,
      "epoch": 0.1955149401791619,
      "flos": 13372607877120.0,
      "grad_norm": 1.9518269161414943,
      "language_loss": 0.77463138,
      "learning_rate": 3.719585663891151e-06,
      "loss": 0.7959609,
      "num_input_tokens_seen": 34445815,
      "step": 1626,
      "time_per_iteration": 2.6281638145446777
    },
    {
      "auxiliary_loss_clip": 0.0108315,
      "auxiliary_loss_mlp": 0.01031832,
      "balance_loss_clip": 1.04283857,
      "balance_loss_mlp": 1.02351081,
      "epoch": 0.195635183069801,
      "flos": 18730582974720.0,
      "grad_norm": 3.1990033991082396,
      "language_loss": 0.79258692,
      "learning_rate": 3.719187757042747e-06,
      "loss": 0.8137368,
      "num_input_tokens_seen": 34463635,
      "step": 1627,
      "time_per_iteration": 2.613377094268799
    },
    {
      "auxiliary_loss_clip": 0.0111446,
      "auxiliary_loss_mlp": 0.01005529,
      "balance_loss_clip": 1.07785845,
      "balance_loss_mlp": 1.00178564,
      "epoch": 0.1957554259604401,
      "flos": 69321383222400.0,
      "grad_norm": 0.7732213043693893,
      "language_loss": 0.54916573,
      "learning_rate": 3.7187895893949275e-06,
      "loss": 0.57036561,
      "num_input_tokens_seen": 34530105,
      "step": 1628,
      "time_per_iteration": 3.3012044429779053
    },
    {
      "auxiliary_loss_clip": 0.01076524,
      "auxiliary_loss_mlp": 0.01020307,
      "balance_loss_clip": 1.03747153,
      "balance_loss_mlp": 1.0124867,
      "epoch": 0.19587566885107918,
      "flos": 21071378476800.0,
      "grad_norm": 2.999282165329359,
      "language_loss": 0.75879109,
      "learning_rate": 3.7183911610080937e-06,
      "loss": 0.77975941,
      "num_input_tokens_seen": 34546970,
      "step": 1629,
      "time_per_iteration": 2.6460185050964355
    },
    {
      "auxiliary_loss_clip": 0.01104436,
      "auxiliary_loss_mlp": 0.01030199,
      "balance_loss_clip": 1.047328,
      "balance_loss_mlp": 1.02196717,
      "epoch": 0.19599591174171827,
      "flos": 22196529907200.0,
      "grad_norm": 3.1271938790251013,
      "language_loss": 0.75614911,
      "learning_rate": 3.7179924719426872e-06,
      "loss": 0.7774955,
      "num_input_tokens_seen": 34564865,
      "step": 1630,
      "time_per_iteration": 2.604177474975586
    },
    {
      "auxiliary_loss_clip": 0.01124606,
      "auxiliary_loss_mlp": 0.01029279,
      "balance_loss_clip": 1.04856682,
      "balance_loss_mlp": 1.02134824,
      "epoch": 0.19611615463235738,
      "flos": 23770600346880.0,
      "grad_norm": 2.872797259329436,
      "language_loss": 0.76174998,
      "learning_rate": 3.7175935222591885e-06,
      "loss": 0.78328884,
      "num_input_tokens_seen": 34584165,
      "step": 1631,
      "time_per_iteration": 2.5632476806640625
    },
    {
      "auxiliary_loss_clip": 0.01111642,
      "auxiliary_loss_mlp": 0.01028251,
      "balance_loss_clip": 1.04889321,
      "balance_loss_mlp": 1.02036583,
      "epoch": 0.19623639752299646,
      "flos": 28620559964160.0,
      "grad_norm": 1.94784631546038,
      "language_loss": 0.7414465,
      "learning_rate": 3.717194312018118e-06,
      "loss": 0.7628454,
      "num_input_tokens_seen": 34603150,
      "step": 1632,
      "time_per_iteration": 2.626692056655884
    },
    {
      "auxiliary_loss_clip": 0.01123184,
      "auxiliary_loss_mlp": 0.0102516,
      "balance_loss_clip": 1.04632187,
      "balance_loss_mlp": 1.0175966,
      "epoch": 0.19635664041363554,
      "flos": 21034815396480.0,
      "grad_norm": 2.459727665708618,
      "language_loss": 0.76085544,
      "learning_rate": 3.716794841280036e-06,
      "loss": 0.78233886,
      "num_input_tokens_seen": 34621855,
      "step": 1633,
      "time_per_iteration": 2.5656254291534424
    },
    {
      "auxiliary_loss_clip": 0.01129421,
      "auxiliary_loss_mlp": 0.01027615,
      "balance_loss_clip": 1.04931819,
      "balance_loss_mlp": 1.02004266,
      "epoch": 0.19647688330427462,
      "flos": 18881726728320.0,
      "grad_norm": 2.538217037357544,
      "language_loss": 0.77301401,
      "learning_rate": 3.7163951101055407e-06,
      "loss": 0.79458439,
      "num_input_tokens_seen": 34639915,
      "step": 1634,
      "time_per_iteration": 2.5228705406188965
    },
    {
      "auxiliary_loss_clip": 0.01114783,
      "auxiliary_loss_mlp": 0.01030497,
      "balance_loss_clip": 1.04853439,
      "balance_loss_mlp": 1.02240229,
      "epoch": 0.19659712619491373,
      "flos": 24244744930560.0,
      "grad_norm": 2.461926592560594,
      "language_loss": 0.78759778,
      "learning_rate": 3.715995118555273e-06,
      "loss": 0.80905056,
      "num_input_tokens_seen": 34659890,
      "step": 1635,
      "time_per_iteration": 2.620396614074707
    },
    {
      "auxiliary_loss_clip": 0.01091389,
      "auxiliary_loss_mlp": 0.01033173,
      "balance_loss_clip": 1.04676366,
      "balance_loss_mlp": 1.02458441,
      "epoch": 0.19671736908555282,
      "flos": 24719723712000.0,
      "grad_norm": 2.367639751171055,
      "language_loss": 0.85752821,
      "learning_rate": 3.71559486668991e-06,
      "loss": 0.87877393,
      "num_input_tokens_seen": 34678750,
      "step": 1636,
      "time_per_iteration": 2.669785261154175
    },
    {
      "auxiliary_loss_clip": 0.01127943,
      "auxiliary_loss_mlp": 0.00757076,
      "balance_loss_clip": 1.04934883,
      "balance_loss_mlp": 1.00053382,
      "epoch": 0.1968376119761919,
      "flos": 23844560705280.0,
      "grad_norm": 2.068447767029848,
      "language_loss": 0.77795398,
      "learning_rate": 3.715194354570169e-06,
      "loss": 0.79680419,
      "num_input_tokens_seen": 34698755,
      "step": 1637,
      "time_per_iteration": 2.63677978515625
    },
    {
      "auxiliary_loss_clip": 0.01124801,
      "auxiliary_loss_mlp": 0.01030156,
      "balance_loss_clip": 1.04960251,
      "balance_loss_mlp": 1.02271771,
      "epoch": 0.196957854866831,
      "flos": 18115873781760.0,
      "grad_norm": 2.5267529561563093,
      "language_loss": 0.83275855,
      "learning_rate": 3.714793582256809e-06,
      "loss": 0.85430813,
      "num_input_tokens_seen": 34715820,
      "step": 1638,
      "time_per_iteration": 2.5254814624786377
    },
    {
      "auxiliary_loss_clip": 0.01137829,
      "auxiliary_loss_mlp": 0.01025238,
      "balance_loss_clip": 1.05020738,
      "balance_loss_mlp": 1.01781702,
      "epoch": 0.1970780977574701,
      "flos": 21655288137600.0,
      "grad_norm": 6.850864887047786,
      "language_loss": 0.84879518,
      "learning_rate": 3.7143925498106253e-06,
      "loss": 0.87042588,
      "num_input_tokens_seen": 34734360,
      "step": 1639,
      "time_per_iteration": 3.3183155059814453
    },
    {
      "auxiliary_loss_clip": 0.01116177,
      "auxiliary_loss_mlp": 0.01028637,
      "balance_loss_clip": 1.04757667,
      "balance_loss_mlp": 1.02039933,
      "epoch": 0.19719834064810918,
      "flos": 20813806437120.0,
      "grad_norm": 1.9251449628099846,
      "language_loss": 0.78959084,
      "learning_rate": 3.7139912572924558e-06,
      "loss": 0.81103897,
      "num_input_tokens_seen": 34753390,
      "step": 1640,
      "time_per_iteration": 2.6067652702331543
    },
    {
      "auxiliary_loss_clip": 0.01127503,
      "auxiliary_loss_mlp": 0.01029936,
      "balance_loss_clip": 1.04921436,
      "balance_loss_mlp": 1.02212775,
      "epoch": 0.19731858353874826,
      "flos": 23436717027840.0,
      "grad_norm": 3.905764854322662,
      "language_loss": 0.80984139,
      "learning_rate": 3.7135897047631744e-06,
      "loss": 0.83141577,
      "num_input_tokens_seen": 34771275,
      "step": 1641,
      "time_per_iteration": 2.5423948764801025
    },
    {
      "auxiliary_loss_clip": 0.01110806,
      "auxiliary_loss_mlp": 0.01026946,
      "balance_loss_clip": 1.046767,
      "balance_loss_mlp": 1.01946592,
      "epoch": 0.19743882642938737,
      "flos": 23990471763840.0,
      "grad_norm": 2.626741959311769,
      "language_loss": 0.76337522,
      "learning_rate": 3.713187892283698e-06,
      "loss": 0.78475273,
      "num_input_tokens_seen": 34790885,
      "step": 1642,
      "time_per_iteration": 2.6141891479492188
    },
    {
      "auxiliary_loss_clip": 0.01087424,
      "auxiliary_loss_mlp": 0.0102909,
      "balance_loss_clip": 1.04478049,
      "balance_loss_mlp": 1.02074587,
      "epoch": 0.19755906932002645,
      "flos": 15005661033600.0,
      "grad_norm": 3.3323014441503673,
      "language_loss": 0.86868817,
      "learning_rate": 3.71278581991498e-06,
      "loss": 0.8898533,
      "num_input_tokens_seen": 34806745,
      "step": 1643,
      "time_per_iteration": 4.1910481452941895
    },
    {
      "auxiliary_loss_clip": 0.01090759,
      "auxiliary_loss_mlp": 0.00757625,
      "balance_loss_clip": 1.04538798,
      "balance_loss_mlp": 1.00047517,
      "epoch": 0.19767931221066554,
      "flos": 19496170494720.0,
      "grad_norm": 2.3029031384257954,
      "language_loss": 0.78831041,
      "learning_rate": 3.712383487718015e-06,
      "loss": 0.80679423,
      "num_input_tokens_seen": 34824985,
      "step": 1644,
      "time_per_iteration": 2.6328210830688477
    },
    {
      "auxiliary_loss_clip": 0.01076384,
      "auxiliary_loss_mlp": 0.01026718,
      "balance_loss_clip": 1.04631782,
      "balance_loss_mlp": 1.01909161,
      "epoch": 0.19779955510130465,
      "flos": 25740191088000.0,
      "grad_norm": 2.0925250175967958,
      "language_loss": 0.86821324,
      "learning_rate": 3.7119808957538365e-06,
      "loss": 0.8892442,
      "num_input_tokens_seen": 34843980,
      "step": 1645,
      "time_per_iteration": 2.682314395904541
    },
    {
      "auxiliary_loss_clip": 0.0111739,
      "auxiliary_loss_mlp": 0.01027698,
      "balance_loss_clip": 1.04767609,
      "balance_loss_mlp": 1.02003288,
      "epoch": 0.19791979799194373,
      "flos": 20779821786240.0,
      "grad_norm": 2.38390270959696,
      "language_loss": 0.79799765,
      "learning_rate": 3.711578044083517e-06,
      "loss": 0.81944853,
      "num_input_tokens_seen": 34860780,
      "step": 1646,
      "time_per_iteration": 2.594297170639038
    },
    {
      "auxiliary_loss_clip": 0.01112437,
      "auxiliary_loss_mlp": 0.01030597,
      "balance_loss_clip": 1.04742527,
      "balance_loss_mlp": 1.02290773,
      "epoch": 0.1980400408825828,
      "flos": 25591132828800.0,
      "grad_norm": 2.433047355882136,
      "language_loss": 0.74295056,
      "learning_rate": 3.7111749327681698e-06,
      "loss": 0.76438093,
      "num_input_tokens_seen": 34880815,
      "step": 1647,
      "time_per_iteration": 2.6987361907958984
    },
    {
      "auxiliary_loss_clip": 0.0112907,
      "auxiliary_loss_mlp": 0.01022854,
      "balance_loss_clip": 1.05168271,
      "balance_loss_mlp": 1.0155462,
      "epoch": 0.1981602837732219,
      "flos": 23516099671680.0,
      "grad_norm": 2.311243433331149,
      "language_loss": 0.86445212,
      "learning_rate": 3.7107715618689455e-06,
      "loss": 0.88597131,
      "num_input_tokens_seen": 34899790,
      "step": 1648,
      "time_per_iteration": 2.572009801864624
    },
    {
      "auxiliary_loss_clip": 0.01111712,
      "auxiliary_loss_mlp": 0.01026786,
      "balance_loss_clip": 1.04097283,
      "balance_loss_mlp": 1.01873922,
      "epoch": 0.198280526663861,
      "flos": 23187600720000.0,
      "grad_norm": 2.9865800255453103,
      "language_loss": 0.83563566,
      "learning_rate": 3.710367931447035e-06,
      "loss": 0.85702068,
      "num_input_tokens_seen": 34921570,
      "step": 1649,
      "time_per_iteration": 2.595853567123413
    },
    {
      "auxiliary_loss_clip": 0.01127307,
      "auxiliary_loss_mlp": 0.01029049,
      "balance_loss_clip": 1.04907799,
      "balance_loss_mlp": 1.02112138,
      "epoch": 0.1984007695545001,
      "flos": 21691623709440.0,
      "grad_norm": 2.515195275421748,
      "language_loss": 0.86461347,
      "learning_rate": 3.70996404156367e-06,
      "loss": 0.88617706,
      "num_input_tokens_seen": 34941205,
      "step": 1650,
      "time_per_iteration": 2.6092123985290527
    },
    {
      "auxiliary_loss_clip": 0.01086137,
      "auxiliary_loss_mlp": 0.01028308,
      "balance_loss_clip": 1.04399538,
      "balance_loss_mlp": 1.02103567,
      "epoch": 0.19852101244513917,
      "flos": 36066915383040.0,
      "grad_norm": 1.936008167026922,
      "language_loss": 0.72727776,
      "learning_rate": 3.7095598922801187e-06,
      "loss": 0.74842227,
      "num_input_tokens_seen": 34963280,
      "step": 1651,
      "time_per_iteration": 2.7962963581085205
    },
    {
      "auxiliary_loss_clip": 0.01138605,
      "auxiliary_loss_mlp": 0.01030703,
      "balance_loss_clip": 1.04983675,
      "balance_loss_mlp": 1.02307367,
      "epoch": 0.19864125533577828,
      "flos": 23107763059200.0,
      "grad_norm": 3.0994436788909283,
      "language_loss": 0.76378787,
      "learning_rate": 3.7091554836576914e-06,
      "loss": 0.78548098,
      "num_input_tokens_seen": 34979955,
      "step": 1652,
      "time_per_iteration": 2.515172243118286
    },
    {
      "auxiliary_loss_clip": 0.01116996,
      "auxiliary_loss_mlp": 0.00757036,
      "balance_loss_clip": 1.04340887,
      "balance_loss_mlp": 1.00060058,
      "epoch": 0.19876149822641737,
      "flos": 24610830750720.0,
      "grad_norm": 2.2721956936967924,
      "language_loss": 0.82771802,
      "learning_rate": 3.708750815757736e-06,
      "loss": 0.84645832,
      "num_input_tokens_seen": 35000725,
      "step": 1653,
      "time_per_iteration": 2.618434429168701
    },
    {
      "auxiliary_loss_clip": 0.01112513,
      "auxiliary_loss_mlp": 0.01029694,
      "balance_loss_clip": 1.03988373,
      "balance_loss_mlp": 1.02177811,
      "epoch": 0.19888174111705645,
      "flos": 32199343338240.0,
      "grad_norm": 2.511851028470427,
      "language_loss": 0.72664928,
      "learning_rate": 3.7083458886416407e-06,
      "loss": 0.74807131,
      "num_input_tokens_seen": 35019920,
      "step": 1654,
      "time_per_iteration": 2.6329264640808105
    },
    {
      "auxiliary_loss_clip": 0.01069601,
      "auxiliary_loss_mlp": 0.01028227,
      "balance_loss_clip": 1.04104388,
      "balance_loss_mlp": 1.02061856,
      "epoch": 0.19900198400769553,
      "flos": 24610792832640.0,
      "grad_norm": 2.514962312695104,
      "language_loss": 0.88049471,
      "learning_rate": 3.707940702370832e-06,
      "loss": 0.90147299,
      "num_input_tokens_seen": 35040765,
      "step": 1655,
      "time_per_iteration": 2.728438138961792
    },
    {
      "auxiliary_loss_clip": 0.01127461,
      "auxiliary_loss_mlp": 0.01003811,
      "balance_loss_clip": 1.07953691,
      "balance_loss_mlp": 1.00001991,
      "epoch": 0.19912222689833464,
      "flos": 67922506650240.0,
      "grad_norm": 0.7599166960907981,
      "language_loss": 0.58258545,
      "learning_rate": 3.707535257006777e-06,
      "loss": 0.60389817,
      "num_input_tokens_seen": 35106390,
      "step": 1656,
      "time_per_iteration": 3.2452199459075928
    },
    {
      "auxiliary_loss_clip": 0.01100809,
      "auxiliary_loss_mlp": 0.01029017,
      "balance_loss_clip": 1.04191899,
      "balance_loss_mlp": 1.02097654,
      "epoch": 0.19924246978897373,
      "flos": 15744164993280.0,
      "grad_norm": 2.2917203277814906,
      "language_loss": 0.889144,
      "learning_rate": 3.707129552610981e-06,
      "loss": 0.91044229,
      "num_input_tokens_seen": 35125040,
      "step": 1657,
      "time_per_iteration": 2.6102375984191895
    },
    {
      "auxiliary_loss_clip": 0.01108057,
      "auxiliary_loss_mlp": 0.01024631,
      "balance_loss_clip": 1.04434431,
      "balance_loss_mlp": 1.01679873,
      "epoch": 0.1993627126796128,
      "flos": 17568489283200.0,
      "grad_norm": 1.9504916548153306,
      "language_loss": 0.73733985,
      "learning_rate": 3.70672358924499e-06,
      "loss": 0.75866675,
      "num_input_tokens_seen": 35144280,
      "step": 1658,
      "time_per_iteration": 2.544787883758545
    },
    {
      "auxiliary_loss_clip": 0.01093129,
      "auxiliary_loss_mlp": 0.01028221,
      "balance_loss_clip": 1.04404402,
      "balance_loss_mlp": 1.02056146,
      "epoch": 0.19948295557025192,
      "flos": 40847009794560.0,
      "grad_norm": 4.5594810415188745,
      "language_loss": 0.78401387,
      "learning_rate": 3.706317366970386e-06,
      "loss": 0.8052274,
      "num_input_tokens_seen": 35165280,
      "step": 1659,
      "time_per_iteration": 2.784538984298706
    },
    {
      "auxiliary_loss_clip": 0.01134981,
      "auxiliary_loss_mlp": 0.0075759,
      "balance_loss_clip": 1.04581058,
      "balance_loss_mlp": 1.00064182,
      "epoch": 0.199603198460891,
      "flos": 25084747825920.0,
      "grad_norm": 2.352972498525676,
      "language_loss": 0.83700693,
      "learning_rate": 3.705910885848795e-06,
      "loss": 0.85593271,
      "num_input_tokens_seen": 35183655,
      "step": 1660,
      "time_per_iteration": 2.5575177669525146
    },
    {
      "auxiliary_loss_clip": 0.01120385,
      "auxiliary_loss_mlp": 0.01026668,
      "balance_loss_clip": 1.04519153,
      "balance_loss_mlp": 1.01921105,
      "epoch": 0.19972344135153008,
      "flos": 20086184966400.0,
      "grad_norm": 4.940962259296216,
      "language_loss": 0.84647644,
      "learning_rate": 3.705504145941879e-06,
      "loss": 0.86794698,
      "num_input_tokens_seen": 35201825,
      "step": 1661,
      "time_per_iteration": 2.5776145458221436
    },
    {
      "auxiliary_loss_clip": 0.01135623,
      "auxiliary_loss_mlp": 0.01022774,
      "balance_loss_clip": 1.04695988,
      "balance_loss_mlp": 1.01522517,
      "epoch": 0.1998436842421692,
      "flos": 23729449178880.0,
      "grad_norm": 3.5266180803767444,
      "language_loss": 0.78308713,
      "learning_rate": 3.7050971473113403e-06,
      "loss": 0.80467105,
      "num_input_tokens_seen": 35221600,
      "step": 1662,
      "time_per_iteration": 2.551884889602661
    },
    {
      "auxiliary_loss_clip": 0.01125185,
      "auxiliary_loss_mlp": 0.00757264,
      "balance_loss_clip": 1.04683554,
      "balance_loss_mlp": 1.00068307,
      "epoch": 0.19996392713280828,
      "flos": 36105374367360.0,
      "grad_norm": 2.547590593252754,
      "language_loss": 0.79765052,
      "learning_rate": 3.7046898900189196e-06,
      "loss": 0.81647503,
      "num_input_tokens_seen": 35245935,
      "step": 1663,
      "time_per_iteration": 2.675102949142456
    },
    {
      "auxiliary_loss_clip": 0.01096502,
      "auxiliary_loss_mlp": 0.01030732,
      "balance_loss_clip": 1.04513538,
      "balance_loss_mlp": 1.02253628,
      "epoch": 0.20008417002344736,
      "flos": 23659811481600.0,
      "grad_norm": 1.9751367146618537,
      "language_loss": 0.82839805,
      "learning_rate": 3.704282374126398e-06,
      "loss": 0.84967035,
      "num_input_tokens_seen": 35265615,
      "step": 1664,
      "time_per_iteration": 2.610347270965576
    },
    {
      "auxiliary_loss_clip": 0.01100402,
      "auxiliary_loss_mlp": 0.01024188,
      "balance_loss_clip": 1.0444994,
      "balance_loss_mlp": 1.01655912,
      "epoch": 0.20020441291408644,
      "flos": 21874249520640.0,
      "grad_norm": 2.056429457559585,
      "language_loss": 0.87653148,
      "learning_rate": 3.7038745996955954e-06,
      "loss": 0.89777738,
      "num_input_tokens_seen": 35284960,
      "step": 1665,
      "time_per_iteration": 3.457292318344116
    },
    {
      "auxiliary_loss_clip": 0.01099002,
      "auxiliary_loss_mlp": 0.01027937,
      "balance_loss_clip": 1.04508042,
      "balance_loss_mlp": 1.02038515,
      "epoch": 0.20032465580472555,
      "flos": 23181609663360.0,
      "grad_norm": 2.8446519459635633,
      "language_loss": 0.72218943,
      "learning_rate": 3.703466566788371e-06,
      "loss": 0.74345881,
      "num_input_tokens_seen": 35304090,
      "step": 1666,
      "time_per_iteration": 2.630793571472168
    },
    {
      "auxiliary_loss_clip": 0.01102662,
      "auxiliary_loss_mlp": 0.01024613,
      "balance_loss_clip": 1.04279852,
      "balance_loss_mlp": 1.01669121,
      "epoch": 0.20044489869536464,
      "flos": 23875511909760.0,
      "grad_norm": 2.266189136512732,
      "language_loss": 0.74805677,
      "learning_rate": 3.703058275466622e-06,
      "loss": 0.76932955,
      "num_input_tokens_seen": 35323325,
      "step": 1667,
      "time_per_iteration": 2.620622158050537
    },
    {
      "auxiliary_loss_clip": 0.01099539,
      "auxiliary_loss_mlp": 0.01030024,
      "balance_loss_clip": 1.03940117,
      "balance_loss_mlp": 1.02214468,
      "epoch": 0.20056514158600372,
      "flos": 21947413599360.0,
      "grad_norm": 1.873459323787389,
      "language_loss": 0.77648354,
      "learning_rate": 3.7026497257922877e-06,
      "loss": 0.79777914,
      "num_input_tokens_seen": 35343635,
      "step": 1668,
      "time_per_iteration": 2.594198226928711
    },
    {
      "auxiliary_loss_clip": 0.01085639,
      "auxiliary_loss_mlp": 0.01033553,
      "balance_loss_clip": 1.04429054,
      "balance_loss_mlp": 1.02567923,
      "epoch": 0.20068538447664283,
      "flos": 23881465048320.0,
      "grad_norm": 1.9256678152419928,
      "language_loss": 0.85095698,
      "learning_rate": 3.7022409178273436e-06,
      "loss": 0.87214887,
      "num_input_tokens_seen": 35364615,
      "step": 1669,
      "time_per_iteration": 4.999500513076782
    },
    {
      "auxiliary_loss_clip": 0.01114425,
      "auxiliary_loss_mlp": 0.01021755,
      "balance_loss_clip": 1.04191422,
      "balance_loss_mlp": 1.01418495,
      "epoch": 0.2008056273672819,
      "flos": 18444827750400.0,
      "grad_norm": 2.704489743853957,
      "language_loss": 0.78545153,
      "learning_rate": 3.7018318516338054e-06,
      "loss": 0.8068133,
      "num_input_tokens_seen": 35383775,
      "step": 1670,
      "time_per_iteration": 2.548454523086548
    },
    {
      "auxiliary_loss_clip": 0.01123241,
      "auxiliary_loss_mlp": 0.01022649,
      "balance_loss_clip": 1.046417,
      "balance_loss_mlp": 1.01554978,
      "epoch": 0.200925870257921,
      "flos": 23661783221760.0,
      "grad_norm": 2.7288060094836735,
      "language_loss": 0.81796265,
      "learning_rate": 3.7014225272737284e-06,
      "loss": 0.83942151,
      "num_input_tokens_seen": 35403000,
      "step": 1671,
      "time_per_iteration": 2.559812307357788
    },
    {
      "auxiliary_loss_clip": 0.01125952,
      "auxiliary_loss_mlp": 0.01026584,
      "balance_loss_clip": 1.04787922,
      "balance_loss_mlp": 1.01845956,
      "epoch": 0.20104611314856008,
      "flos": 16218992102400.0,
      "grad_norm": 4.736278983103754,
      "language_loss": 0.73989856,
      "learning_rate": 3.701012944809207e-06,
      "loss": 0.76142389,
      "num_input_tokens_seen": 35420115,
      "step": 1672,
      "time_per_iteration": 2.578244924545288
    },
    {
      "auxiliary_loss_clip": 0.01106413,
      "auxiliary_loss_mlp": 0.00757273,
      "balance_loss_clip": 1.04440355,
      "balance_loss_mlp": 1.00073528,
      "epoch": 0.2011663560391992,
      "flos": 21399498247680.0,
      "grad_norm": 3.9343987729426413,
      "language_loss": 0.78799784,
      "learning_rate": 3.700603104302374e-06,
      "loss": 0.80663472,
      "num_input_tokens_seen": 35439925,
      "step": 1673,
      "time_per_iteration": 2.6305317878723145
    },
    {
      "auxiliary_loss_clip": 0.0105105,
      "auxiliary_loss_mlp": 0.01009496,
      "balance_loss_clip": 1.03613257,
      "balance_loss_mlp": 1.00532365,
      "epoch": 0.20128659892983827,
      "flos": 62236146355200.0,
      "grad_norm": 0.9077637875962923,
      "language_loss": 0.5592832,
      "learning_rate": 3.7001930058154027e-06,
      "loss": 0.5798887,
      "num_input_tokens_seen": 35504885,
      "step": 1674,
      "time_per_iteration": 3.300353527069092
    },
    {
      "auxiliary_loss_clip": 0.01097443,
      "auxiliary_loss_mlp": 0.01031479,
      "balance_loss_clip": 1.0447073,
      "balance_loss_mlp": 1.02287817,
      "epoch": 0.20140684182047736,
      "flos": 28441233025920.0,
      "grad_norm": 4.542655824066037,
      "language_loss": 0.79250836,
      "learning_rate": 3.6997826494105037e-06,
      "loss": 0.81379759,
      "num_input_tokens_seen": 35525330,
      "step": 1675,
      "time_per_iteration": 2.6464221477508545
    },
    {
      "auxiliary_loss_clip": 0.01104799,
      "auxiliary_loss_mlp": 0.01024153,
      "balance_loss_clip": 1.04337752,
      "balance_loss_mlp": 1.01666045,
      "epoch": 0.20152708471111647,
      "flos": 28076550174720.0,
      "grad_norm": 2.425812134063292,
      "language_loss": 0.69633472,
      "learning_rate": 3.6993720351499286e-06,
      "loss": 0.71762425,
      "num_input_tokens_seen": 35546455,
      "step": 1676,
      "time_per_iteration": 2.6585469245910645
    },
    {
      "auxiliary_loss_clip": 0.01097231,
      "auxiliary_loss_mlp": 0.01023689,
      "balance_loss_clip": 1.04277492,
      "balance_loss_mlp": 1.01598787,
      "epoch": 0.20164732760175555,
      "flos": 23551980226560.0,
      "grad_norm": 2.0100385807029384,
      "language_loss": 0.77400267,
      "learning_rate": 3.6989611630959666e-06,
      "loss": 0.79521191,
      "num_input_tokens_seen": 35565010,
      "step": 1677,
      "time_per_iteration": 2.6506171226501465
    },
    {
      "auxiliary_loss_clip": 0.01126079,
      "auxiliary_loss_mlp": 0.01006519,
      "balance_loss_clip": 1.07728374,
      "balance_loss_mlp": 1.00248992,
      "epoch": 0.20176757049239463,
      "flos": 71108082725760.0,
      "grad_norm": 0.6885334850815735,
      "language_loss": 0.58246636,
      "learning_rate": 3.6985500333109474e-06,
      "loss": 0.60379243,
      "num_input_tokens_seen": 35633340,
      "step": 1678,
      "time_per_iteration": 3.2486085891723633
    },
    {
      "auxiliary_loss_clip": 0.01101172,
      "auxiliary_loss_mlp": 0.01026489,
      "balance_loss_clip": 1.0475148,
      "balance_loss_mlp": 1.01922297,
      "epoch": 0.20188781338303372,
      "flos": 21432079929600.0,
      "grad_norm": 2.4656922956635934,
      "language_loss": 0.76038086,
      "learning_rate": 3.6981386458572385e-06,
      "loss": 0.78165746,
      "num_input_tokens_seen": 35651315,
      "step": 1679,
      "time_per_iteration": 2.6375131607055664
    },
    {
      "auxiliary_loss_clip": 0.01095306,
      "auxiliary_loss_mlp": 0.01027958,
      "balance_loss_clip": 1.04147542,
      "balance_loss_mlp": 1.01988196,
      "epoch": 0.20200805627367283,
      "flos": 11547790652160.0,
      "grad_norm": 5.439254964948166,
      "language_loss": 0.76206023,
      "learning_rate": 3.6977270007972468e-06,
      "loss": 0.78329283,
      "num_input_tokens_seen": 35668850,
      "step": 1680,
      "time_per_iteration": 2.597564935684204
    },
    {
      "auxiliary_loss_clip": 0.01108283,
      "auxiliary_loss_mlp": 0.01028403,
      "balance_loss_clip": 1.04558325,
      "balance_loss_mlp": 1.02076721,
      "epoch": 0.2021282991643119,
      "flos": 28547737148160.0,
      "grad_norm": 4.840874694550649,
      "language_loss": 0.72539002,
      "learning_rate": 3.6973150981934196e-06,
      "loss": 0.74675685,
      "num_input_tokens_seen": 35690080,
      "step": 1681,
      "time_per_iteration": 2.6964008808135986
    },
    {
      "auxiliary_loss_clip": 0.01135979,
      "auxiliary_loss_mlp": 0.01029851,
      "balance_loss_clip": 1.04762506,
      "balance_loss_mlp": 1.02159619,
      "epoch": 0.202248542054951,
      "flos": 17924943911040.0,
      "grad_norm": 3.9891832160676386,
      "language_loss": 0.84079003,
      "learning_rate": 3.6969029381082415e-06,
      "loss": 0.86244833,
      "num_input_tokens_seen": 35706075,
      "step": 1682,
      "time_per_iteration": 2.4913864135742188
    },
    {
      "auxiliary_loss_clip": 0.01100999,
      "auxiliary_loss_mlp": 0.01025295,
      "balance_loss_clip": 1.04128647,
      "balance_loss_mlp": 1.01815701,
      "epoch": 0.2023687849455901,
      "flos": 19866654812160.0,
      "grad_norm": 1.800684687293429,
      "language_loss": 0.79407823,
      "learning_rate": 3.696490520604237e-06,
      "loss": 0.81534123,
      "num_input_tokens_seen": 35724765,
      "step": 1683,
      "time_per_iteration": 2.6039772033691406
    },
    {
      "auxiliary_loss_clip": 0.01117726,
      "auxiliary_loss_mlp": 0.01021999,
      "balance_loss_clip": 1.04526687,
      "balance_loss_mlp": 1.01494777,
      "epoch": 0.20248902783622919,
      "flos": 22566900470400.0,
      "grad_norm": 1.9037444830402521,
      "language_loss": 0.80708945,
      "learning_rate": 3.696077845743968e-06,
      "loss": 0.82848674,
      "num_input_tokens_seen": 35744355,
      "step": 1684,
      "time_per_iteration": 2.5593464374542236
    },
    {
      "auxiliary_loss_clip": 0.01136753,
      "auxiliary_loss_mlp": 0.01027458,
      "balance_loss_clip": 1.04833424,
      "balance_loss_mlp": 1.01936996,
      "epoch": 0.20260927072686827,
      "flos": 22711863576960.0,
      "grad_norm": 3.1446786244562412,
      "language_loss": 0.73520988,
      "learning_rate": 3.69566491359004e-06,
      "loss": 0.75685203,
      "num_input_tokens_seen": 35761000,
      "step": 1685,
      "time_per_iteration": 2.5558483600616455
    },
    {
      "auxiliary_loss_clip": 0.01113004,
      "auxiliary_loss_mlp": 0.01026916,
      "balance_loss_clip": 1.04690659,
      "balance_loss_mlp": 1.01913214,
      "epoch": 0.20272951361750738,
      "flos": 51027785112960.0,
      "grad_norm": 3.6896068616455437,
      "language_loss": 0.69564348,
      "learning_rate": 3.695251724205092e-06,
      "loss": 0.71704268,
      "num_input_tokens_seen": 35785360,
      "step": 1686,
      "time_per_iteration": 2.8417115211486816
    },
    {
      "auxiliary_loss_clip": 0.01135373,
      "auxiliary_loss_mlp": 0.01023793,
      "balance_loss_clip": 1.04815793,
      "balance_loss_mlp": 1.01568079,
      "epoch": 0.20284975650814646,
      "flos": 26580535246080.0,
      "grad_norm": 1.7477960004356288,
      "language_loss": 0.86392117,
      "learning_rate": 3.6948382776518054e-06,
      "loss": 0.88551283,
      "num_input_tokens_seen": 35806065,
      "step": 1687,
      "time_per_iteration": 2.5841727256774902
    },
    {
      "auxiliary_loss_clip": 0.01098563,
      "auxiliary_loss_mlp": 0.01030669,
      "balance_loss_clip": 1.04342985,
      "balance_loss_mlp": 1.02240193,
      "epoch": 0.20296999939878554,
      "flos": 16036062946560.0,
      "grad_norm": 3.091058122074307,
      "language_loss": 0.78968507,
      "learning_rate": 3.6944245739929e-06,
      "loss": 0.81097734,
      "num_input_tokens_seen": 35822225,
      "step": 1688,
      "time_per_iteration": 2.6328210830688477
    },
    {
      "auxiliary_loss_clip": 0.0111946,
      "auxiliary_loss_mlp": 0.01030568,
      "balance_loss_clip": 1.04638565,
      "balance_loss_mlp": 1.02261686,
      "epoch": 0.20309024228942463,
      "flos": 19205106739200.0,
      "grad_norm": 2.712365278554601,
      "language_loss": 0.7170248,
      "learning_rate": 3.6940106132911332e-06,
      "loss": 0.73852503,
      "num_input_tokens_seen": 35839410,
      "step": 1689,
      "time_per_iteration": 2.535079002380371
    },
    {
      "auxiliary_loss_clip": 0.01122268,
      "auxiliary_loss_mlp": 0.01025884,
      "balance_loss_clip": 1.04759407,
      "balance_loss_mlp": 1.01814127,
      "epoch": 0.20321048518006374,
      "flos": 22823334967680.0,
      "grad_norm": 2.3627465766257725,
      "language_loss": 0.88728166,
      "learning_rate": 3.6935963956093037e-06,
      "loss": 0.90876317,
      "num_input_tokens_seen": 35859495,
      "step": 1690,
      "time_per_iteration": 2.5654516220092773
    },
    {
      "auxiliary_loss_clip": 0.01127216,
      "auxiliary_loss_mlp": 0.0102695,
      "balance_loss_clip": 1.04961967,
      "balance_loss_mlp": 1.01966059,
      "epoch": 0.20333072807070282,
      "flos": 19098261354240.0,
      "grad_norm": 4.227814226461716,
      "language_loss": 0.6886791,
      "learning_rate": 3.6931819210102474e-06,
      "loss": 0.71022081,
      "num_input_tokens_seen": 35878890,
      "step": 1691,
      "time_per_iteration": 3.31245493888855
    },
    {
      "auxiliary_loss_clip": 0.01136642,
      "auxiliary_loss_mlp": 0.0102657,
      "balance_loss_clip": 1.04869163,
      "balance_loss_mlp": 1.0183804,
      "epoch": 0.2034509709613419,
      "flos": 18182591786880.0,
      "grad_norm": 3.1732908610579944,
      "language_loss": 0.84419584,
      "learning_rate": 3.6927671895568402e-06,
      "loss": 0.86582792,
      "num_input_tokens_seen": 35897950,
      "step": 1692,
      "time_per_iteration": 2.534475564956665
    },
    {
      "auxiliary_loss_clip": 0.0113701,
      "auxiliary_loss_mlp": 0.01028915,
      "balance_loss_clip": 1.0497154,
      "balance_loss_mlp": 1.02087402,
      "epoch": 0.20357121385198101,
      "flos": 22925781855360.0,
      "grad_norm": 8.31067183402476,
      "language_loss": 0.86703587,
      "learning_rate": 3.692352201311996e-06,
      "loss": 0.88869512,
      "num_input_tokens_seen": 35916800,
      "step": 1693,
      "time_per_iteration": 2.5097644329071045
    },
    {
      "auxiliary_loss_clip": 0.01096929,
      "auxiliary_loss_mlp": 0.01024783,
      "balance_loss_clip": 1.04628861,
      "balance_loss_mlp": 1.01681948,
      "epoch": 0.2036914567426201,
      "flos": 20924178203520.0,
      "grad_norm": 1.9157283656116664,
      "language_loss": 0.76350224,
      "learning_rate": 3.6919369563386687e-06,
      "loss": 0.78471935,
      "num_input_tokens_seen": 35936600,
      "step": 1694,
      "time_per_iteration": 4.2918007373809814
    },
    {
      "auxiliary_loss_clip": 0.01104895,
      "auxiliary_loss_mlp": 0.01028677,
      "balance_loss_clip": 1.04492712,
      "balance_loss_mlp": 1.02118492,
      "epoch": 0.20381169963325918,
      "flos": 15520729276800.0,
      "grad_norm": 2.6531237041499103,
      "language_loss": 0.79001206,
      "learning_rate": 3.69152145469985e-06,
      "loss": 0.81134778,
      "num_input_tokens_seen": 35953645,
      "step": 1695,
      "time_per_iteration": 2.56886625289917
    },
    {
      "auxiliary_loss_clip": 0.01084171,
      "auxiliary_loss_mlp": 0.0103537,
      "balance_loss_clip": 1.04500723,
      "balance_loss_mlp": 1.02655482,
      "epoch": 0.20393194252389826,
      "flos": 28835274522240.0,
      "grad_norm": 11.85772008836006,
      "language_loss": 0.8227635,
      "learning_rate": 3.691105696458572e-06,
      "loss": 0.84395897,
      "num_input_tokens_seen": 35970940,
      "step": 1696,
      "time_per_iteration": 2.722043991088867
    },
    {
      "auxiliary_loss_clip": 0.01140801,
      "auxiliary_loss_mlp": 0.01023869,
      "balance_loss_clip": 1.05371547,
      "balance_loss_mlp": 1.01632667,
      "epoch": 0.20405218541453737,
      "flos": 22490551272960.0,
      "grad_norm": 4.0611315228144935,
      "language_loss": 0.67679262,
      "learning_rate": 3.690689681677904e-06,
      "loss": 0.69843936,
      "num_input_tokens_seen": 35989410,
      "step": 1697,
      "time_per_iteration": 2.5383825302124023
    },
    {
      "auxiliary_loss_clip": 0.01112525,
      "auxiliary_loss_mlp": 0.01023194,
      "balance_loss_clip": 1.0476203,
      "balance_loss_mlp": 1.01595163,
      "epoch": 0.20417242830517646,
      "flos": 25376759533440.0,
      "grad_norm": 2.545975023561755,
      "language_loss": 0.88746595,
      "learning_rate": 3.690273410420956e-06,
      "loss": 0.90882307,
      "num_input_tokens_seen": 36009175,
      "step": 1698,
      "time_per_iteration": 2.629641056060791
    },
    {
      "auxiliary_loss_clip": 0.01120957,
      "auxiliary_loss_mlp": 0.01029067,
      "balance_loss_clip": 1.04612613,
      "balance_loss_mlp": 1.0211755,
      "epoch": 0.20429267119581554,
      "flos": 14794814119680.0,
      "grad_norm": 3.4267180759693567,
      "language_loss": 0.76985526,
      "learning_rate": 3.689856882750875e-06,
      "loss": 0.79135555,
      "num_input_tokens_seen": 36024375,
      "step": 1699,
      "time_per_iteration": 2.517918348312378
    },
    {
      "auxiliary_loss_clip": 0.01123427,
      "auxiliary_loss_mlp": 0.0102928,
      "balance_loss_clip": 1.04987979,
      "balance_loss_mlp": 1.0219785,
      "epoch": 0.20441291408645465,
      "flos": 17783583022080.0,
      "grad_norm": 3.258536276020578,
      "language_loss": 0.78666723,
      "learning_rate": 3.6894400987308486e-06,
      "loss": 0.80819428,
      "num_input_tokens_seen": 36041895,
      "step": 1700,
      "time_per_iteration": 2.5159568786621094
    },
    {
      "auxiliary_loss_clip": 0.01121564,
      "auxiliary_loss_mlp": 0.01028473,
      "balance_loss_clip": 1.04678047,
      "balance_loss_mlp": 1.02071285,
      "epoch": 0.20453315697709373,
      "flos": 16437536386560.0,
      "grad_norm": 4.702000862903304,
      "language_loss": 0.84941024,
      "learning_rate": 3.6890230584241024e-06,
      "loss": 0.87091064,
      "num_input_tokens_seen": 36058825,
      "step": 1701,
      "time_per_iteration": 2.520097494125366
    },
    {
      "auxiliary_loss_clip": 0.0115688,
      "auxiliary_loss_mlp": 0.01004809,
      "balance_loss_clip": 1.09668124,
      "balance_loss_mlp": 1.00137544,
      "epoch": 0.20465339986773282,
      "flos": 66719792643840.0,
      "grad_norm": 1.0754501167237938,
      "language_loss": 0.66377497,
      "learning_rate": 3.6886057618939016e-06,
      "loss": 0.6853919,
      "num_input_tokens_seen": 36121645,
      "step": 1702,
      "time_per_iteration": 3.203521728515625
    },
    {
      "auxiliary_loss_clip": 0.01094204,
      "auxiliary_loss_mlp": 0.01030353,
      "balance_loss_clip": 1.04427385,
      "balance_loss_mlp": 1.02244985,
      "epoch": 0.2047736427583719,
      "flos": 41977318083840.0,
      "grad_norm": 2.822293520044562,
      "language_loss": 0.6900624,
      "learning_rate": 3.6881882092035492e-06,
      "loss": 0.711308,
      "num_input_tokens_seen": 36143030,
      "step": 1703,
      "time_per_iteration": 2.8074209690093994
    },
    {
      "auxiliary_loss_clip": 0.01128662,
      "auxiliary_loss_mlp": 0.00753908,
      "balance_loss_clip": 1.09844255,
      "balance_loss_mlp": 0.99980277,
      "epoch": 0.204893885649011,
      "flos": 69946681610880.0,
      "grad_norm": 0.9289506606379955,
      "language_loss": 0.61209607,
      "learning_rate": 3.6877704004163873e-06,
      "loss": 0.63092178,
      "num_input_tokens_seen": 36203435,
      "step": 1704,
      "time_per_iteration": 3.339792251586914
    },
    {
      "auxiliary_loss_clip": 0.01138537,
      "auxiliary_loss_mlp": 0.01025954,
      "balance_loss_clip": 1.05022967,
      "balance_loss_mlp": 1.01808608,
      "epoch": 0.2050141285396501,
      "flos": 22202179701120.0,
      "grad_norm": 3.0903551646919554,
      "language_loss": 0.78010392,
      "learning_rate": 3.6873523355957984e-06,
      "loss": 0.80174887,
      "num_input_tokens_seen": 36222435,
      "step": 1705,
      "time_per_iteration": 2.5506105422973633
    },
    {
      "auxiliary_loss_clip": 0.01162109,
      "auxiliary_loss_mlp": 0.01004323,
      "balance_loss_clip": 1.10134196,
      "balance_loss_mlp": 1.00091326,
      "epoch": 0.20513437143028918,
      "flos": 46289438507520.0,
      "grad_norm": 0.9960293720715486,
      "language_loss": 0.64113289,
      "learning_rate": 3.686934014805201e-06,
      "loss": 0.66279721,
      "num_input_tokens_seen": 36273065,
      "step": 1706,
      "time_per_iteration": 3.0022261142730713
    },
    {
      "auxiliary_loss_clip": 0.01121551,
      "auxiliary_loss_mlp": 0.01028614,
      "balance_loss_clip": 1.04848874,
      "balance_loss_mlp": 1.02081728,
      "epoch": 0.20525461432092829,
      "flos": 21906262431360.0,
      "grad_norm": 2.175627753046976,
      "language_loss": 0.80555981,
      "learning_rate": 3.6865154381080552e-06,
      "loss": 0.82706153,
      "num_input_tokens_seen": 36293750,
      "step": 1707,
      "time_per_iteration": 2.5731210708618164
    },
    {
      "auxiliary_loss_clip": 0.01053293,
      "auxiliary_loss_mlp": 0.01022451,
      "balance_loss_clip": 1.04065979,
      "balance_loss_mlp": 1.01489878,
      "epoch": 0.20537485721156737,
      "flos": 21216341583360.0,
      "grad_norm": 4.119878216057471,
      "language_loss": 0.82138795,
      "learning_rate": 3.6860966055678585e-06,
      "loss": 0.84214538,
      "num_input_tokens_seen": 36310105,
      "step": 1708,
      "time_per_iteration": 2.7212042808532715
    },
    {
      "auxiliary_loss_clip": 0.01121873,
      "auxiliary_loss_mlp": 0.01029487,
      "balance_loss_clip": 1.04739928,
      "balance_loss_mlp": 1.02136314,
      "epoch": 0.20549510010220645,
      "flos": 20193144105600.0,
      "grad_norm": 8.65152158213921,
      "language_loss": 0.86146212,
      "learning_rate": 3.685677517248147e-06,
      "loss": 0.8829757,
      "num_input_tokens_seen": 36328995,
      "step": 1709,
      "time_per_iteration": 2.547048330307007
    },
    {
      "auxiliary_loss_clip": 0.01109866,
      "auxiliary_loss_mlp": 0.00757199,
      "balance_loss_clip": 1.05108833,
      "balance_loss_mlp": 1.00070167,
      "epoch": 0.20561534299284553,
      "flos": 17018450519040.0,
      "grad_norm": 6.560603089869766,
      "language_loss": 0.80444801,
      "learning_rate": 3.6852581732124967e-06,
      "loss": 0.82311869,
      "num_input_tokens_seen": 36346340,
      "step": 1710,
      "time_per_iteration": 2.5859339237213135
    },
    {
      "auxiliary_loss_clip": 0.01123842,
      "auxiliary_loss_mlp": 0.01029221,
      "balance_loss_clip": 1.05089307,
      "balance_loss_mlp": 1.0209775,
      "epoch": 0.20573558588348465,
      "flos": 22892517648000.0,
      "grad_norm": 5.240261935449182,
      "language_loss": 0.76316118,
      "learning_rate": 3.6848385735245213e-06,
      "loss": 0.78469181,
      "num_input_tokens_seen": 36365430,
      "step": 1711,
      "time_per_iteration": 2.5532171726226807
    },
    {
      "auxiliary_loss_clip": 0.01124836,
      "auxiliary_loss_mlp": 0.01023693,
      "balance_loss_clip": 1.04765677,
      "balance_loss_mlp": 1.01633763,
      "epoch": 0.20585582877412373,
      "flos": 24645346254720.0,
      "grad_norm": 2.1337576057481344,
      "language_loss": 0.86236405,
      "learning_rate": 3.6844187182478734e-06,
      "loss": 0.88384932,
      "num_input_tokens_seen": 36386285,
      "step": 1712,
      "time_per_iteration": 2.620875120162964
    },
    {
      "auxiliary_loss_clip": 0.01109299,
      "auxiliary_loss_mlp": 0.0102191,
      "balance_loss_clip": 1.04619074,
      "balance_loss_mlp": 1.01480484,
      "epoch": 0.2059760716647628,
      "flos": 24209243556480.0,
      "grad_norm": 2.36425503156609,
      "language_loss": 0.74751222,
      "learning_rate": 3.683998607446246e-06,
      "loss": 0.76882434,
      "num_input_tokens_seen": 36404935,
      "step": 1713,
      "time_per_iteration": 2.584658145904541
    },
    {
      "auxiliary_loss_clip": 0.01125812,
      "auxiliary_loss_mlp": 0.01029842,
      "balance_loss_clip": 1.05096519,
      "balance_loss_mlp": 1.02276397,
      "epoch": 0.20609631455540192,
      "flos": 20231565171840.0,
      "grad_norm": 2.9206397017103813,
      "language_loss": 0.74790263,
      "learning_rate": 3.6835782411833686e-06,
      "loss": 0.76945913,
      "num_input_tokens_seen": 36424455,
      "step": 1714,
      "time_per_iteration": 2.5981481075286865
    },
    {
      "auxiliary_loss_clip": 0.01097253,
      "auxiliary_loss_mlp": 0.01026229,
      "balance_loss_clip": 1.04599702,
      "balance_loss_mlp": 1.01868892,
      "epoch": 0.206216557446041,
      "flos": 19866996074880.0,
      "grad_norm": 14.063791013082167,
      "language_loss": 0.73979461,
      "learning_rate": 3.68315761952301e-06,
      "loss": 0.76102948,
      "num_input_tokens_seen": 36441685,
      "step": 1715,
      "time_per_iteration": 2.588594913482666
    },
    {
      "auxiliary_loss_clip": 0.01138245,
      "auxiliary_loss_mlp": 0.0102736,
      "balance_loss_clip": 1.05091393,
      "balance_loss_mlp": 1.01940918,
      "epoch": 0.2063368003366801,
      "flos": 24098530527360.0,
      "grad_norm": 3.8413394441608064,
      "language_loss": 0.82942748,
      "learning_rate": 3.6827367425289797e-06,
      "loss": 0.85108358,
      "num_input_tokens_seen": 36461460,
      "step": 1716,
      "time_per_iteration": 2.5553767681121826
    },
    {
      "auxiliary_loss_clip": 0.01106755,
      "auxiliary_loss_mlp": 0.01027799,
      "balance_loss_clip": 1.04485607,
      "balance_loss_mlp": 1.01954997,
      "epoch": 0.2064570432273192,
      "flos": 20342278200960.0,
      "grad_norm": 3.807733207024789,
      "language_loss": 0.72120881,
      "learning_rate": 3.6823156102651225e-06,
      "loss": 0.74255443,
      "num_input_tokens_seen": 36479615,
      "step": 1717,
      "time_per_iteration": 3.340336322784424
    },
    {
      "auxiliary_loss_clip": 0.01047989,
      "auxiliary_loss_mlp": 0.0102596,
      "balance_loss_clip": 1.03214264,
      "balance_loss_mlp": 1.0181396,
      "epoch": 0.20657728611795828,
      "flos": 20522363500800.0,
      "grad_norm": 2.362352998948006,
      "language_loss": 0.70712578,
      "learning_rate": 3.6818942227953257e-06,
      "loss": 0.72786522,
      "num_input_tokens_seen": 36500160,
      "step": 1718,
      "time_per_iteration": 2.7094132900238037
    },
    {
      "auxiliary_loss_clip": 0.01093727,
      "auxiliary_loss_mlp": 0.01023928,
      "balance_loss_clip": 1.04601479,
      "balance_loss_mlp": 1.01623654,
      "epoch": 0.20669752900859736,
      "flos": 21801464622720.0,
      "grad_norm": 6.148696002478334,
      "language_loss": 0.69017363,
      "learning_rate": 3.681472580183512e-06,
      "loss": 0.71135014,
      "num_input_tokens_seen": 36518810,
      "step": 1719,
      "time_per_iteration": 3.4130091667175293
    },
    {
      "auxiliary_loss_clip": 0.01122659,
      "auxiliary_loss_mlp": 0.01026646,
      "balance_loss_clip": 1.05015194,
      "balance_loss_mlp": 1.01917779,
      "epoch": 0.20681777189923645,
      "flos": 15123806006400.0,
      "grad_norm": 2.7571928519578357,
      "language_loss": 0.85962808,
      "learning_rate": 3.6810506824936455e-06,
      "loss": 0.88112116,
      "num_input_tokens_seen": 36536890,
      "step": 1720,
      "time_per_iteration": 3.319108247756958
    },
    {
      "auxiliary_loss_clip": 0.01141875,
      "auxiliary_loss_mlp": 0.01010075,
      "balance_loss_clip": 1.10180044,
      "balance_loss_mlp": 1.0063796,
      "epoch": 0.20693801478987556,
      "flos": 56486263224960.0,
      "grad_norm": 1.0674695167241786,
      "language_loss": 0.62548411,
      "learning_rate": 3.680628529789726e-06,
      "loss": 0.64700365,
      "num_input_tokens_seen": 36589300,
      "step": 1721,
      "time_per_iteration": 3.7580976486206055
    },
    {
      "auxiliary_loss_clip": 0.01139845,
      "auxiliary_loss_mlp": 0.01029042,
      "balance_loss_clip": 1.05138111,
      "balance_loss_mlp": 1.0207032,
      "epoch": 0.20705825768051464,
      "flos": 21616222464000.0,
      "grad_norm": 3.427107177104242,
      "language_loss": 0.86208028,
      "learning_rate": 3.680206122135796e-06,
      "loss": 0.88376915,
      "num_input_tokens_seen": 36609905,
      "step": 1722,
      "time_per_iteration": 2.5616700649261475
    },
    {
      "auxiliary_loss_clip": 0.01084788,
      "auxiliary_loss_mlp": 0.01030854,
      "balance_loss_clip": 1.04822445,
      "balance_loss_mlp": 1.02354681,
      "epoch": 0.20717850057115372,
      "flos": 25851283297920.0,
      "grad_norm": 9.253685161699408,
      "language_loss": 0.78339893,
      "learning_rate": 3.6797834595959323e-06,
      "loss": 0.80455542,
      "num_input_tokens_seen": 36629805,
      "step": 1723,
      "time_per_iteration": 2.668571949005127
    },
    {
      "auxiliary_loss_clip": 0.01081122,
      "auxiliary_loss_mlp": 0.01031732,
      "balance_loss_clip": 1.04370284,
      "balance_loss_mlp": 1.02355409,
      "epoch": 0.20729874346179283,
      "flos": 29133277286400.0,
      "grad_norm": 2.9731005941103312,
      "language_loss": 0.77108777,
      "learning_rate": 3.679360542234254e-06,
      "loss": 0.7922163,
      "num_input_tokens_seen": 36649150,
      "step": 1724,
      "time_per_iteration": 2.733427047729492
    },
    {
      "auxiliary_loss_clip": 0.01115174,
      "auxiliary_loss_mlp": 0.00757377,
      "balance_loss_clip": 1.04899859,
      "balance_loss_mlp": 1.00065732,
      "epoch": 0.20741898635243192,
      "flos": 29025938966400.0,
      "grad_norm": 2.7479373693105233,
      "language_loss": 0.72518563,
      "learning_rate": 3.678937370114916e-06,
      "loss": 0.74391109,
      "num_input_tokens_seen": 36668955,
      "step": 1725,
      "time_per_iteration": 2.652954578399658
    },
    {
      "auxiliary_loss_clip": 0.01109048,
      "auxiliary_loss_mlp": 0.01021244,
      "balance_loss_clip": 1.04836679,
      "balance_loss_mlp": 1.01416647,
      "epoch": 0.207539229243071,
      "flos": 15561235837440.0,
      "grad_norm": 3.026181724670462,
      "language_loss": 0.78915417,
      "learning_rate": 3.678513943302114e-06,
      "loss": 0.81045717,
      "num_input_tokens_seen": 36685730,
      "step": 1726,
      "time_per_iteration": 2.557265043258667
    },
    {
      "auxiliary_loss_clip": 0.01136996,
      "auxiliary_loss_mlp": 0.01026457,
      "balance_loss_clip": 1.05058217,
      "balance_loss_mlp": 1.01892924,
      "epoch": 0.20765947213371008,
      "flos": 20523121862400.0,
      "grad_norm": 30.398563457982323,
      "language_loss": 0.85629916,
      "learning_rate": 3.678090261860082e-06,
      "loss": 0.87793368,
      "num_input_tokens_seen": 36705460,
      "step": 1727,
      "time_per_iteration": 2.5280587673187256
    },
    {
      "auxiliary_loss_clip": 0.01097624,
      "auxiliary_loss_mlp": 0.01027541,
      "balance_loss_clip": 1.0443387,
      "balance_loss_mlp": 1.01977777,
      "epoch": 0.2077797150243492,
      "flos": 19356440083200.0,
      "grad_norm": 2.6509277851208957,
      "language_loss": 0.77320504,
      "learning_rate": 3.6776663258530906e-06,
      "loss": 0.79445672,
      "num_input_tokens_seen": 36724110,
      "step": 1728,
      "time_per_iteration": 2.626478910446167
    },
    {
      "auxiliary_loss_clip": 0.01126561,
      "auxiliary_loss_mlp": 0.01025027,
      "balance_loss_clip": 1.04980564,
      "balance_loss_mlp": 1.01766586,
      "epoch": 0.20789995791498828,
      "flos": 21831809137920.0,
      "grad_norm": 11.143730582615834,
      "language_loss": 0.71321023,
      "learning_rate": 3.6772421353454516e-06,
      "loss": 0.73472619,
      "num_input_tokens_seen": 36742705,
      "step": 1729,
      "time_per_iteration": 2.5343732833862305
    },
    {
      "auxiliary_loss_clip": 0.01114779,
      "auxiliary_loss_mlp": 0.01025552,
      "balance_loss_clip": 1.04287052,
      "balance_loss_mlp": 1.01800871,
      "epoch": 0.20802020080562736,
      "flos": 23151075557760.0,
      "grad_norm": 2.920096818855726,
      "language_loss": 0.88155699,
      "learning_rate": 3.6768176904015153e-06,
      "loss": 0.9029603,
      "num_input_tokens_seen": 36762510,
      "step": 1730,
      "time_per_iteration": 2.585500955581665
    },
    {
      "auxiliary_loss_clip": 0.01122761,
      "auxiliary_loss_mlp": 0.01028071,
      "balance_loss_clip": 1.04744792,
      "balance_loss_mlp": 1.02031672,
      "epoch": 0.20814044369626647,
      "flos": 23074726360320.0,
      "grad_norm": 3.8500943123042406,
      "language_loss": 0.60344017,
      "learning_rate": 3.6763929910856674e-06,
      "loss": 0.6249485,
      "num_input_tokens_seen": 36780960,
      "step": 1731,
      "time_per_iteration": 2.553281307220459
    },
    {
      "auxiliary_loss_clip": 0.01119761,
      "auxiliary_loss_mlp": 0.01033773,
      "balance_loss_clip": 1.04691553,
      "balance_loss_mlp": 1.02621508,
      "epoch": 0.20826068658690555,
      "flos": 19609954888320.0,
      "grad_norm": 3.267585697819549,
      "language_loss": 0.77263403,
      "learning_rate": 3.6759680374623365e-06,
      "loss": 0.79416931,
      "num_input_tokens_seen": 36798875,
      "step": 1732,
      "time_per_iteration": 2.548496723175049
    },
    {
      "auxiliary_loss_clip": 0.01138894,
      "auxiliary_loss_mlp": 0.01023059,
      "balance_loss_clip": 1.0529449,
      "balance_loss_mlp": 1.01551855,
      "epoch": 0.20838092947754464,
      "flos": 25376380352640.0,
      "grad_norm": 3.0547833064086127,
      "language_loss": 0.75073898,
      "learning_rate": 3.675542829595986e-06,
      "loss": 0.77235854,
      "num_input_tokens_seen": 36818540,
      "step": 1733,
      "time_per_iteration": 2.5444259643554688
    },
    {
      "auxiliary_loss_clip": 0.01109781,
      "auxiliary_loss_mlp": 0.01026954,
      "balance_loss_clip": 1.04803824,
      "balance_loss_mlp": 1.01939631,
      "epoch": 0.20850117236818372,
      "flos": 24064052941440.0,
      "grad_norm": 3.329352937615376,
      "language_loss": 0.79421896,
      "learning_rate": 3.6751173675511213e-06,
      "loss": 0.81558627,
      "num_input_tokens_seen": 36840585,
      "step": 1734,
      "time_per_iteration": 2.6240549087524414
    },
    {
      "auxiliary_loss_clip": 0.01113078,
      "auxiliary_loss_mlp": 0.01030447,
      "balance_loss_clip": 1.04710853,
      "balance_loss_mlp": 1.02307355,
      "epoch": 0.20862141525882283,
      "flos": 20079511384320.0,
      "grad_norm": 2.827913559348735,
      "language_loss": 0.87543428,
      "learning_rate": 3.674691651392283e-06,
      "loss": 0.8968696,
      "num_input_tokens_seen": 36858255,
      "step": 1735,
      "time_per_iteration": 2.586644411087036
    },
    {
      "auxiliary_loss_clip": 0.01111213,
      "auxiliary_loss_mlp": 0.01033032,
      "balance_loss_clip": 1.04635632,
      "balance_loss_mlp": 1.02526009,
      "epoch": 0.2087416581494619,
      "flos": 39018021580800.0,
      "grad_norm": 5.575125446576601,
      "language_loss": 0.76008219,
      "learning_rate": 3.674265681184053e-06,
      "loss": 0.78152466,
      "num_input_tokens_seen": 36881515,
      "step": 1736,
      "time_per_iteration": 2.712742567062378
    },
    {
      "auxiliary_loss_clip": 0.01109434,
      "auxiliary_loss_mlp": 0.01023446,
      "balance_loss_clip": 1.04596555,
      "balance_loss_mlp": 1.01605487,
      "epoch": 0.208861901040101,
      "flos": 26104267249920.0,
      "grad_norm": 2.974940350332816,
      "language_loss": 0.86341864,
      "learning_rate": 3.6738394569910504e-06,
      "loss": 0.88474745,
      "num_input_tokens_seen": 36902055,
      "step": 1737,
      "time_per_iteration": 2.6064043045043945
    },
    {
      "auxiliary_loss_clip": 0.01115922,
      "auxiliary_loss_mlp": 0.01023216,
      "balance_loss_clip": 1.04673958,
      "balance_loss_mlp": 1.01624513,
      "epoch": 0.2089821439307401,
      "flos": 28401029809920.0,
      "grad_norm": 3.2710458072856614,
      "language_loss": 0.82710522,
      "learning_rate": 3.6734129788779333e-06,
      "loss": 0.84849668,
      "num_input_tokens_seen": 36921230,
      "step": 1738,
      "time_per_iteration": 2.6188466548919678
    },
    {
      "auxiliary_loss_clip": 0.0109309,
      "auxiliary_loss_mlp": 0.01026481,
      "balance_loss_clip": 1.046,
      "balance_loss_mlp": 1.01897061,
      "epoch": 0.2091023868213792,
      "flos": 21071757657600.0,
      "grad_norm": 3.4735549946871798,
      "language_loss": 0.89884937,
      "learning_rate": 3.6729862469093976e-06,
      "loss": 0.92004514,
      "num_input_tokens_seen": 36940325,
      "step": 1739,
      "time_per_iteration": 2.62576961517334
    },
    {
      "auxiliary_loss_clip": 0.01099619,
      "auxiliary_loss_mlp": 0.01030586,
      "balance_loss_clip": 1.04110861,
      "balance_loss_mlp": 1.02253985,
      "epoch": 0.20922262971201827,
      "flos": 22457666246400.0,
      "grad_norm": 2.847093023047454,
      "language_loss": 0.8276614,
      "learning_rate": 3.6725592611501782e-06,
      "loss": 0.8489635,
      "num_input_tokens_seen": 36959000,
      "step": 1740,
      "time_per_iteration": 2.6067564487457275
    },
    {
      "auxiliary_loss_clip": 0.01122874,
      "auxiliary_loss_mlp": 0.01025065,
      "balance_loss_clip": 1.04706192,
      "balance_loss_mlp": 1.01723289,
      "epoch": 0.20934287260265738,
      "flos": 27854555345280.0,
      "grad_norm": 2.19797424674255,
      "language_loss": 0.77036071,
      "learning_rate": 3.6721320216650496e-06,
      "loss": 0.7918402,
      "num_input_tokens_seen": 36979615,
      "step": 1741,
      "time_per_iteration": 2.618062734603882
    },
    {
      "auxiliary_loss_clip": 0.01104927,
      "auxiliary_loss_mlp": 0.01030371,
      "balance_loss_clip": 1.04400301,
      "balance_loss_mlp": 1.02243185,
      "epoch": 0.20946311549329646,
      "flos": 16437157205760.0,
      "grad_norm": 1.909238617905909,
      "language_loss": 0.83262968,
      "learning_rate": 3.6717045285188215e-06,
      "loss": 0.85398269,
      "num_input_tokens_seen": 36997310,
      "step": 1742,
      "time_per_iteration": 3.3400468826293945
    },
    {
      "auxiliary_loss_clip": 0.01081384,
      "auxiliary_loss_mlp": 0.01029687,
      "balance_loss_clip": 1.04297078,
      "balance_loss_mlp": 1.02156889,
      "epoch": 0.20958335838393555,
      "flos": 22494949770240.0,
      "grad_norm": 2.8464531167025626,
      "language_loss": 0.86292422,
      "learning_rate": 3.671276781776346e-06,
      "loss": 0.88403493,
      "num_input_tokens_seen": 37015965,
      "step": 1743,
      "time_per_iteration": 2.673035144805908
    },
    {
      "auxiliary_loss_clip": 0.01101564,
      "auxiliary_loss_mlp": 0.01022016,
      "balance_loss_clip": 1.04540491,
      "balance_loss_mlp": 1.0144577,
      "epoch": 0.20970360127457463,
      "flos": 25226904994560.0,
      "grad_norm": 4.129338903453009,
      "language_loss": 0.67354989,
      "learning_rate": 3.6708487815025128e-06,
      "loss": 0.69478571,
      "num_input_tokens_seen": 37036545,
      "step": 1744,
      "time_per_iteration": 2.633650541305542
    },
    {
      "auxiliary_loss_clip": 0.01092545,
      "auxiliary_loss_mlp": 0.01022946,
      "balance_loss_clip": 1.04291821,
      "balance_loss_mlp": 1.01560259,
      "epoch": 0.20982384416521374,
      "flos": 18481163322240.0,
      "grad_norm": 2.762337556790986,
      "language_loss": 0.74213672,
      "learning_rate": 3.6704205277622463e-06,
      "loss": 0.76329166,
      "num_input_tokens_seen": 37054985,
      "step": 1745,
      "time_per_iteration": 2.629929542541504
    },
    {
      "auxiliary_loss_clip": 0.01109057,
      "auxiliary_loss_mlp": 0.01026128,
      "balance_loss_clip": 1.04442668,
      "balance_loss_mlp": 1.01828444,
      "epoch": 0.20994408705585282,
      "flos": 25375849499520.0,
      "grad_norm": 4.7517494812547705,
      "language_loss": 0.8001771,
      "learning_rate": 3.6699920206205146e-06,
      "loss": 0.82152903,
      "num_input_tokens_seen": 37075725,
      "step": 1746,
      "time_per_iteration": 3.3929030895233154
    },
    {
      "auxiliary_loss_clip": 0.01120659,
      "auxiliary_loss_mlp": 0.01025994,
      "balance_loss_clip": 1.04596937,
      "balance_loss_mlp": 1.01862717,
      "epoch": 0.2100643299464919,
      "flos": 21322883623680.0,
      "grad_norm": 2.4071539696629896,
      "language_loss": 0.81836259,
      "learning_rate": 3.669563260142321e-06,
      "loss": 0.83982909,
      "num_input_tokens_seen": 37094615,
      "step": 1747,
      "time_per_iteration": 3.4364078044891357
    },
    {
      "auxiliary_loss_clip": 0.01098641,
      "auxiliary_loss_mlp": 0.01027359,
      "balance_loss_clip": 1.04140759,
      "balance_loss_mlp": 1.01970601,
      "epoch": 0.21018457283713102,
      "flos": 19356402165120.0,
      "grad_norm": 4.198587291025503,
      "language_loss": 0.83915091,
      "learning_rate": 3.6691342463927083e-06,
      "loss": 0.86041087,
      "num_input_tokens_seen": 37113610,
      "step": 1748,
      "time_per_iteration": 2.5816335678100586
    },
    {
      "auxiliary_loss_clip": 0.01090194,
      "auxiliary_loss_mlp": 0.01028172,
      "balance_loss_clip": 1.04194963,
      "balance_loss_mlp": 1.02050138,
      "epoch": 0.2103048157277701,
      "flos": 28332567573120.0,
      "grad_norm": 1.8967406405344278,
      "language_loss": 0.81638694,
      "learning_rate": 3.668704979436758e-06,
      "loss": 0.83757061,
      "num_input_tokens_seen": 37133705,
      "step": 1749,
      "time_per_iteration": 2.676452875137329
    },
    {
      "auxiliary_loss_clip": 0.01112418,
      "auxiliary_loss_mlp": 0.01028437,
      "balance_loss_clip": 1.04636574,
      "balance_loss_mlp": 1.02067041,
      "epoch": 0.21042505861840918,
      "flos": 17459217141120.0,
      "grad_norm": 5.568979543478099,
      "language_loss": 0.78117502,
      "learning_rate": 3.668275459339588e-06,
      "loss": 0.80258358,
      "num_input_tokens_seen": 37152185,
      "step": 1750,
      "time_per_iteration": 2.5881636142730713
    },
    {
      "auxiliary_loss_clip": 0.0113446,
      "auxiliary_loss_mlp": 0.01025229,
      "balance_loss_clip": 1.04840875,
      "balance_loss_mlp": 1.01757562,
      "epoch": 0.21054530150904827,
      "flos": 14211549066240.0,
      "grad_norm": 7.610700207018283,
      "language_loss": 0.80227983,
      "learning_rate": 3.667845686166358e-06,
      "loss": 0.82387674,
      "num_input_tokens_seen": 37169110,
      "step": 1751,
      "time_per_iteration": 2.4703075885772705
    },
    {
      "auxiliary_loss_clip": 0.01091632,
      "auxiliary_loss_mlp": 0.0102461,
      "balance_loss_clip": 1.04219937,
      "balance_loss_mlp": 1.01680756,
      "epoch": 0.21066554439968738,
      "flos": 18619832027520.0,
      "grad_norm": 2.545380777959422,
      "language_loss": 0.86171973,
      "learning_rate": 3.6674156599822634e-06,
      "loss": 0.88288212,
      "num_input_tokens_seen": 37184905,
      "step": 1752,
      "time_per_iteration": 2.6173648834228516
    },
    {
      "auxiliary_loss_clip": 0.01085108,
      "auxiliary_loss_mlp": 0.01024581,
      "balance_loss_clip": 1.04425895,
      "balance_loss_mlp": 1.0169518,
      "epoch": 0.21078578729032646,
      "flos": 23661100696320.0,
      "grad_norm": 2.8128370266454543,
      "language_loss": 0.81643724,
      "learning_rate": 3.666985380852539e-06,
      "loss": 0.83753419,
      "num_input_tokens_seen": 37203910,
      "step": 1753,
      "time_per_iteration": 2.6543891429901123
    },
    {
      "auxiliary_loss_clip": 0.01104833,
      "auxiliary_loss_mlp": 0.01022123,
      "balance_loss_clip": 1.04516661,
      "balance_loss_mlp": 1.01452315,
      "epoch": 0.21090603018096554,
      "flos": 29348674369920.0,
      "grad_norm": 6.923551416458423,
      "language_loss": 0.74196768,
      "learning_rate": 3.6665548488424576e-06,
      "loss": 0.76323724,
      "num_input_tokens_seen": 37222670,
      "step": 1754,
      "time_per_iteration": 2.6489217281341553
    },
    {
      "auxiliary_loss_clip": 0.0113646,
      "auxiliary_loss_mlp": 0.01029337,
      "balance_loss_clip": 1.05026805,
      "balance_loss_mlp": 1.02133846,
      "epoch": 0.21102627307160465,
      "flos": 23263646572800.0,
      "grad_norm": 2.7498119927507103,
      "language_loss": 0.88107169,
      "learning_rate": 3.6661240640173307e-06,
      "loss": 0.90272963,
      "num_input_tokens_seen": 37244140,
      "step": 1755,
      "time_per_iteration": 2.548173427581787
    },
    {
      "auxiliary_loss_clip": 0.01105347,
      "auxiliary_loss_mlp": 0.01011722,
      "balance_loss_clip": 1.0768714,
      "balance_loss_mlp": 1.00759721,
      "epoch": 0.21114651596224374,
      "flos": 54639329708160.0,
      "grad_norm": 0.8589167326325325,
      "language_loss": 0.57872152,
      "learning_rate": 3.6656930264425085e-06,
      "loss": 0.59989226,
      "num_input_tokens_seen": 37308185,
      "step": 1756,
      "time_per_iteration": 3.247663736343384
    },
    {
      "auxiliary_loss_clip": 0.01134065,
      "auxiliary_loss_mlp": 0.01028812,
      "balance_loss_clip": 1.04829144,
      "balance_loss_mlp": 1.02080715,
      "epoch": 0.21126675885288282,
      "flos": 21545447224320.0,
      "grad_norm": 2.0352214428187345,
      "language_loss": 0.75194824,
      "learning_rate": 3.665261736183378e-06,
      "loss": 0.77357709,
      "num_input_tokens_seen": 37328220,
      "step": 1757,
      "time_per_iteration": 2.519252061843872
    },
    {
      "auxiliary_loss_clip": 0.01088826,
      "auxiliary_loss_mlp": 0.01026833,
      "balance_loss_clip": 1.04512322,
      "balance_loss_mlp": 1.01910853,
      "epoch": 0.2113870017435219,
      "flos": 10963388056320.0,
      "grad_norm": 5.288258146768272,
      "language_loss": 0.88208753,
      "learning_rate": 3.664830193305366e-06,
      "loss": 0.90324414,
      "num_input_tokens_seen": 37345995,
      "step": 1758,
      "time_per_iteration": 2.587069272994995
    },
    {
      "auxiliary_loss_clip": 0.01099402,
      "auxiliary_loss_mlp": 0.01027065,
      "balance_loss_clip": 1.04623282,
      "balance_loss_mlp": 1.01935267,
      "epoch": 0.211507244634161,
      "flos": 16655663571840.0,
      "grad_norm": 4.579237231800239,
      "language_loss": 0.76888072,
      "learning_rate": 3.6643983978739373e-06,
      "loss": 0.79014546,
      "num_input_tokens_seen": 37362610,
      "step": 1759,
      "time_per_iteration": 2.582582473754883
    },
    {
      "auxiliary_loss_clip": 0.01112776,
      "auxiliary_loss_mlp": 0.01027136,
      "balance_loss_clip": 1.05019546,
      "balance_loss_mlp": 1.01903605,
      "epoch": 0.2116274875248001,
      "flos": 20955887769600.0,
      "grad_norm": 2.8084359637807075,
      "language_loss": 0.82116461,
      "learning_rate": 3.663966349954596e-06,
      "loss": 0.84256375,
      "num_input_tokens_seen": 37382790,
      "step": 1760,
      "time_per_iteration": 2.6338613033294678
    },
    {
      "auxiliary_loss_clip": 0.01135143,
      "auxiliary_loss_mlp": 0.01002161,
      "balance_loss_clip": 1.08632481,
      "balance_loss_mlp": 0.99808359,
      "epoch": 0.21174773041543918,
      "flos": 68203067097600.0,
      "grad_norm": 0.7875767390464862,
      "language_loss": 0.59586543,
      "learning_rate": 3.6635340496128816e-06,
      "loss": 0.61723846,
      "num_input_tokens_seen": 37439720,
      "step": 1761,
      "time_per_iteration": 3.0897414684295654
    },
    {
      "auxiliary_loss_clip": 0.0108519,
      "auxiliary_loss_mlp": 0.0102761,
      "balance_loss_clip": 1.04511619,
      "balance_loss_mlp": 1.02021861,
      "epoch": 0.2118679733060783,
      "flos": 20670435889920.0,
      "grad_norm": 2.446888596901173,
      "language_loss": 0.92416012,
      "learning_rate": 3.6631014969143747e-06,
      "loss": 0.94528812,
      "num_input_tokens_seen": 37459410,
      "step": 1762,
      "time_per_iteration": 2.652391195297241
    },
    {
      "auxiliary_loss_clip": 0.01122862,
      "auxiliary_loss_mlp": 0.01030744,
      "balance_loss_clip": 1.04890013,
      "balance_loss_mlp": 1.02325153,
      "epoch": 0.21198821619671737,
      "flos": 23225756359680.0,
      "grad_norm": 2.5007304817461105,
      "language_loss": 0.88505495,
      "learning_rate": 3.662668691924693e-06,
      "loss": 0.906591,
      "num_input_tokens_seen": 37480460,
      "step": 1763,
      "time_per_iteration": 2.5944266319274902
    },
    {
      "auxiliary_loss_clip": 0.01102912,
      "auxiliary_loss_mlp": 0.01033536,
      "balance_loss_clip": 1.04902995,
      "balance_loss_mlp": 1.02522683,
      "epoch": 0.21210845908735645,
      "flos": 24500838165120.0,
      "grad_norm": 3.360796875146532,
      "language_loss": 0.71165061,
      "learning_rate": 3.6622356347094927e-06,
      "loss": 0.73301518,
      "num_input_tokens_seen": 37502025,
      "step": 1764,
      "time_per_iteration": 2.6495039463043213
    },
    {
      "auxiliary_loss_clip": 0.01104249,
      "auxiliary_loss_mlp": 0.01028873,
      "balance_loss_clip": 1.0485847,
      "balance_loss_mlp": 1.02067757,
      "epoch": 0.21222870197799554,
      "flos": 27092266698240.0,
      "grad_norm": 4.251294646933476,
      "language_loss": 0.78875124,
      "learning_rate": 3.6618023253344684e-06,
      "loss": 0.81008244,
      "num_input_tokens_seen": 37520885,
      "step": 1765,
      "time_per_iteration": 2.68030047416687
    },
    {
      "auxiliary_loss_clip": 0.01126474,
      "auxiliary_loss_mlp": 0.01029446,
      "balance_loss_clip": 1.04970527,
      "balance_loss_mlp": 1.02136374,
      "epoch": 0.21234894486863465,
      "flos": 16875762497280.0,
      "grad_norm": 1.7145049315605148,
      "language_loss": 0.83079684,
      "learning_rate": 3.6613687638653527e-06,
      "loss": 0.85235602,
      "num_input_tokens_seen": 37539055,
      "step": 1766,
      "time_per_iteration": 2.5256755352020264
    },
    {
      "auxiliary_loss_clip": 0.01103186,
      "auxiliary_loss_mlp": 0.01027711,
      "balance_loss_clip": 1.04530954,
      "balance_loss_mlp": 1.02001595,
      "epoch": 0.21246918775927373,
      "flos": 23477071916160.0,
      "grad_norm": 2.511476401821126,
      "language_loss": 0.77542853,
      "learning_rate": 3.660934950367916e-06,
      "loss": 0.79673755,
      "num_input_tokens_seen": 37558300,
      "step": 1767,
      "time_per_iteration": 2.6248629093170166
    },
    {
      "auxiliary_loss_clip": 0.01123658,
      "auxiliary_loss_mlp": 0.01028997,
      "balance_loss_clip": 1.04931521,
      "balance_loss_mlp": 1.0217011,
      "epoch": 0.21258943064991281,
      "flos": 22384464249600.0,
      "grad_norm": 2.37029371719131,
      "language_loss": 0.83064783,
      "learning_rate": 3.660500884907968e-06,
      "loss": 0.85217434,
      "num_input_tokens_seen": 37579040,
      "step": 1768,
      "time_per_iteration": 3.3260116577148438
    },
    {
      "auxiliary_loss_clip": 0.01068402,
      "auxiliary_loss_mlp": 0.01010433,
      "balance_loss_clip": 1.04834533,
      "balance_loss_mlp": 1.00564086,
      "epoch": 0.21270967354055192,
      "flos": 59445787236480.0,
      "grad_norm": 0.829447118192758,
      "language_loss": 0.59981793,
      "learning_rate": 3.660066567551356e-06,
      "loss": 0.6206063,
      "num_input_tokens_seen": 37639185,
      "step": 1769,
      "time_per_iteration": 3.146491050720215
    },
    {
      "auxiliary_loss_clip": 0.01123385,
      "auxiliary_loss_mlp": 0.0075731,
      "balance_loss_clip": 1.0494796,
      "balance_loss_mlp": 1.00073552,
      "epoch": 0.212829916431191,
      "flos": 21546205585920.0,
      "grad_norm": 3.230028592295202,
      "language_loss": 0.83874434,
      "learning_rate": 3.6596319983639657e-06,
      "loss": 0.85755134,
      "num_input_tokens_seen": 37657765,
      "step": 1770,
      "time_per_iteration": 2.584324359893799
    },
    {
      "auxiliary_loss_clip": 0.01090671,
      "auxiliary_loss_mlp": 0.00757514,
      "balance_loss_clip": 1.04367447,
      "balance_loss_mlp": 1.0007093,
      "epoch": 0.2129501593218301,
      "flos": 28990361756160.0,
      "grad_norm": 2.7221339741828863,
      "language_loss": 0.86047703,
      "learning_rate": 3.6591971774117214e-06,
      "loss": 0.87895888,
      "num_input_tokens_seen": 37680740,
      "step": 1771,
      "time_per_iteration": 3.476853609085083
    },
    {
      "auxiliary_loss_clip": 0.01125905,
      "auxiliary_loss_mlp": 0.01030771,
      "balance_loss_clip": 1.05050707,
      "balance_loss_mlp": 1.02334452,
      "epoch": 0.2130704022124692,
      "flos": 18808979748480.0,
      "grad_norm": 2.318228755358485,
      "language_loss": 0.80521202,
      "learning_rate": 3.6587621047605833e-06,
      "loss": 0.82677883,
      "num_input_tokens_seen": 37697910,
      "step": 1772,
      "time_per_iteration": 4.102899074554443
    },
    {
      "auxiliary_loss_clip": 0.01125235,
      "auxiliary_loss_mlp": 0.01027288,
      "balance_loss_clip": 1.05198193,
      "balance_loss_mlp": 1.02012348,
      "epoch": 0.21319064510310828,
      "flos": 13919878621440.0,
      "grad_norm": 6.974532392004128,
      "language_loss": 0.86563802,
      "learning_rate": 3.6583267804765542e-06,
      "loss": 0.88716322,
      "num_input_tokens_seen": 37712245,
      "step": 1773,
      "time_per_iteration": 2.550142526626587
    },
    {
      "auxiliary_loss_clip": 0.01115076,
      "auxiliary_loss_mlp": 0.01027804,
      "balance_loss_clip": 1.0457989,
      "balance_loss_mlp": 1.01975131,
      "epoch": 0.21331088799374737,
      "flos": 20961802990080.0,
      "grad_norm": 4.679804814530369,
      "language_loss": 0.85683233,
      "learning_rate": 3.6578912046256702e-06,
      "loss": 0.87826109,
      "num_input_tokens_seen": 37730765,
      "step": 1774,
      "time_per_iteration": 2.538325309753418
    },
    {
      "auxiliary_loss_clip": 0.01101696,
      "auxiliary_loss_mlp": 0.01023351,
      "balance_loss_clip": 1.04914832,
      "balance_loss_mlp": 1.0148809,
      "epoch": 0.21343113088438645,
      "flos": 18626619363840.0,
      "grad_norm": 3.01585286214495,
      "language_loss": 0.76619458,
      "learning_rate": 3.6574553772740083e-06,
      "loss": 0.78744495,
      "num_input_tokens_seen": 37748695,
      "step": 1775,
      "time_per_iteration": 2.6239070892333984
    },
    {
      "auxiliary_loss_clip": 0.01149488,
      "auxiliary_loss_mlp": 0.01018184,
      "balance_loss_clip": 1.11113524,
      "balance_loss_mlp": 1.01489341,
      "epoch": 0.21355137377502556,
      "flos": 67420254718080.0,
      "grad_norm": 0.871360987009928,
      "language_loss": 0.61752379,
      "learning_rate": 3.657019298487684e-06,
      "loss": 0.63920057,
      "num_input_tokens_seen": 37813705,
      "step": 1776,
      "time_per_iteration": 3.183854103088379
    },
    {
      "auxiliary_loss_clip": 0.01126869,
      "auxiliary_loss_mlp": 0.00757416,
      "balance_loss_clip": 1.05023885,
      "balance_loss_mlp": 1.00076115,
      "epoch": 0.21367161666566464,
      "flos": 34534944063360.0,
      "grad_norm": 2.999617317919731,
      "language_loss": 0.83630681,
      "learning_rate": 3.6565829683328495e-06,
      "loss": 0.85514963,
      "num_input_tokens_seen": 37836330,
      "step": 1777,
      "time_per_iteration": 2.6896913051605225
    },
    {
      "auxiliary_loss_clip": 0.01116358,
      "auxiliary_loss_mlp": 0.01026789,
      "balance_loss_clip": 1.04940057,
      "balance_loss_mlp": 1.01923442,
      "epoch": 0.21379185955630373,
      "flos": 18991340133120.0,
      "grad_norm": 2.33418932080952,
      "language_loss": 0.85912693,
      "learning_rate": 3.6561463868756965e-06,
      "loss": 0.88055837,
      "num_input_tokens_seen": 37855030,
      "step": 1778,
      "time_per_iteration": 2.548736572265625
    },
    {
      "auxiliary_loss_clip": 0.01123952,
      "auxiliary_loss_mlp": 0.01030201,
      "balance_loss_clip": 1.05222428,
      "balance_loss_mlp": 1.02241683,
      "epoch": 0.21391210244694284,
      "flos": 28220906592000.0,
      "grad_norm": 1.8649259783766348,
      "language_loss": 0.78229189,
      "learning_rate": 3.655709554182452e-06,
      "loss": 0.80383337,
      "num_input_tokens_seen": 37875370,
      "step": 1779,
      "time_per_iteration": 2.620664358139038
    },
    {
      "auxiliary_loss_clip": 0.01128676,
      "auxiliary_loss_mlp": 0.01027857,
      "balance_loss_clip": 1.05334878,
      "balance_loss_mlp": 1.02012646,
      "epoch": 0.21403234533758192,
      "flos": 17456866220160.0,
      "grad_norm": 2.6959782002920445,
      "language_loss": 0.84312952,
      "learning_rate": 3.6552724703193855e-06,
      "loss": 0.86469483,
      "num_input_tokens_seen": 37892560,
      "step": 1780,
      "time_per_iteration": 2.5310046672821045
    },
    {
      "auxiliary_loss_clip": 0.01109551,
      "auxiliary_loss_mlp": 0.01010436,
      "balance_loss_clip": 1.09542024,
      "balance_loss_mlp": 1.00631106,
      "epoch": 0.214152588228221,
      "flos": 51643090944000.0,
      "grad_norm": 0.7916034776602487,
      "language_loss": 0.55947256,
      "learning_rate": 3.654835135352801e-06,
      "loss": 0.58067238,
      "num_input_tokens_seen": 37947370,
      "step": 1781,
      "time_per_iteration": 3.1372907161712646
    },
    {
      "auxiliary_loss_clip": 0.01089281,
      "auxiliary_loss_mlp": 0.01024519,
      "balance_loss_clip": 1.04647779,
      "balance_loss_mlp": 1.01700926,
      "epoch": 0.21427283111886009,
      "flos": 19497952644480.0,
      "grad_norm": 2.3365468520010344,
      "language_loss": 0.87746453,
      "learning_rate": 3.654397549349043e-06,
      "loss": 0.89860249,
      "num_input_tokens_seen": 37964745,
      "step": 1782,
      "time_per_iteration": 2.688654661178589
    },
    {
      "auxiliary_loss_clip": 0.011028,
      "auxiliary_loss_mlp": 0.01028451,
      "balance_loss_clip": 1.04561055,
      "balance_loss_mlp": 1.02091742,
      "epoch": 0.2143930740094992,
      "flos": 20086905409920.0,
      "grad_norm": 2.194304685143786,
      "language_loss": 0.75125539,
      "learning_rate": 3.653959712374491e-06,
      "loss": 0.77256793,
      "num_input_tokens_seen": 37982850,
      "step": 1783,
      "time_per_iteration": 2.5923678874969482
    },
    {
      "auxiliary_loss_clip": 0.01080074,
      "auxiliary_loss_mlp": 0.0102075,
      "balance_loss_clip": 1.04109824,
      "balance_loss_mlp": 1.01346612,
      "epoch": 0.21451331690013828,
      "flos": 21800744179200.0,
      "grad_norm": 2.035760869851338,
      "language_loss": 0.82487684,
      "learning_rate": 3.6535216244955663e-06,
      "loss": 0.84588504,
      "num_input_tokens_seen": 38002745,
      "step": 1784,
      "time_per_iteration": 2.6157233715057373
    },
    {
      "auxiliary_loss_clip": 0.01103067,
      "auxiliary_loss_mlp": 0.01027598,
      "balance_loss_clip": 1.04429579,
      "balance_loss_mlp": 1.02018023,
      "epoch": 0.21463355979077736,
      "flos": 32856644586240.0,
      "grad_norm": 4.607212585984381,
      "language_loss": 0.70969212,
      "learning_rate": 3.653083285778726e-06,
      "loss": 0.73099875,
      "num_input_tokens_seen": 38024115,
      "step": 1785,
      "time_per_iteration": 2.68450927734375
    },
    {
      "auxiliary_loss_clip": 0.01121867,
      "auxiliary_loss_mlp": 0.01022323,
      "balance_loss_clip": 1.04673576,
      "balance_loss_mlp": 1.01451516,
      "epoch": 0.21475380268141647,
      "flos": 21545978077440.0,
      "grad_norm": 2.484865791991297,
      "language_loss": 0.81005716,
      "learning_rate": 3.6526446962904653e-06,
      "loss": 0.8314991,
      "num_input_tokens_seen": 38042830,
      "step": 1786,
      "time_per_iteration": 2.5709662437438965
    },
    {
      "auxiliary_loss_clip": 0.01112906,
      "auxiliary_loss_mlp": 0.01029897,
      "balance_loss_clip": 1.04479706,
      "balance_loss_mlp": 1.02281845,
      "epoch": 0.21487404557205556,
      "flos": 32161718551680.0,
      "grad_norm": 9.002254213451574,
      "language_loss": 0.74227315,
      "learning_rate": 3.652205856097318e-06,
      "loss": 0.76370114,
      "num_input_tokens_seen": 38066015,
      "step": 1787,
      "time_per_iteration": 2.6267266273498535
    },
    {
      "auxiliary_loss_clip": 0.01098403,
      "auxiliary_loss_mlp": 0.00757141,
      "balance_loss_clip": 1.04542291,
      "balance_loss_mlp": 1.00074887,
      "epoch": 0.21499428846269464,
      "flos": 12674496723840.0,
      "grad_norm": 4.452578977164563,
      "language_loss": 0.79019237,
      "learning_rate": 3.651766765265856e-06,
      "loss": 0.80874777,
      "num_input_tokens_seen": 38083025,
      "step": 1788,
      "time_per_iteration": 2.6097633838653564
    },
    {
      "auxiliary_loss_clip": 0.0110021,
      "auxiliary_loss_mlp": 0.01019415,
      "balance_loss_clip": 1.04008639,
      "balance_loss_mlp": 1.01225662,
      "epoch": 0.21511453135333372,
      "flos": 23473507616640.0,
      "grad_norm": 3.4948141449634846,
      "language_loss": 0.8063916,
      "learning_rate": 3.65132742386269e-06,
      "loss": 0.82758784,
      "num_input_tokens_seen": 38098245,
      "step": 1789,
      "time_per_iteration": 2.580352544784546
    },
    {
      "auxiliary_loss_clip": 0.0113569,
      "auxiliary_loss_mlp": 0.01024057,
      "balance_loss_clip": 1.0495044,
      "balance_loss_mlp": 1.01635563,
      "epoch": 0.21523477424397283,
      "flos": 26946014376960.0,
      "grad_norm": 4.2576006692300625,
      "language_loss": 0.84685206,
      "learning_rate": 3.6508878319544656e-06,
      "loss": 0.86844951,
      "num_input_tokens_seen": 38118460,
      "step": 1790,
      "time_per_iteration": 2.572451114654541
    },
    {
      "auxiliary_loss_clip": 0.01109198,
      "auxiliary_loss_mlp": 0.0103289,
      "balance_loss_clip": 1.04730511,
      "balance_loss_mlp": 1.02534437,
      "epoch": 0.21535501713461191,
      "flos": 18918138136320.0,
      "grad_norm": 3.5810992144228195,
      "language_loss": 0.81451166,
      "learning_rate": 3.65044798960787e-06,
      "loss": 0.83593249,
      "num_input_tokens_seen": 38136800,
      "step": 1791,
      "time_per_iteration": 2.5649383068084717
    },
    {
      "auxiliary_loss_clip": 0.01086418,
      "auxiliary_loss_mlp": 0.01023638,
      "balance_loss_clip": 1.04003322,
      "balance_loss_mlp": 1.01640165,
      "epoch": 0.215475260025251,
      "flos": 17897064071040.0,
      "grad_norm": 2.3510178303221028,
      "language_loss": 0.78207141,
      "learning_rate": 3.650007896889627e-06,
      "loss": 0.80317193,
      "num_input_tokens_seen": 38155380,
      "step": 1792,
      "time_per_iteration": 2.6181435585021973
    },
    {
      "auxiliary_loss_clip": 0.01135643,
      "auxiliary_loss_mlp": 0.01027732,
      "balance_loss_clip": 1.05042529,
      "balance_loss_mlp": 1.02053726,
      "epoch": 0.2155955029158901,
      "flos": 16656156506880.0,
      "grad_norm": 2.398338276678619,
      "language_loss": 0.80166751,
      "learning_rate": 3.6495675538664974e-06,
      "loss": 0.82330126,
      "num_input_tokens_seen": 38174395,
      "step": 1793,
      "time_per_iteration": 2.491210699081421
    },
    {
      "auxiliary_loss_clip": 0.01113928,
      "auxiliary_loss_mlp": 0.01026446,
      "balance_loss_clip": 1.04973972,
      "balance_loss_mlp": 1.01939178,
      "epoch": 0.2157157458065292,
      "flos": 23623362155520.0,
      "grad_norm": 3.2570932573284157,
      "language_loss": 0.82503283,
      "learning_rate": 3.649126960605282e-06,
      "loss": 0.84643662,
      "num_input_tokens_seen": 38195380,
      "step": 1794,
      "time_per_iteration": 3.392993688583374
    },
    {
      "auxiliary_loss_clip": 0.01097795,
      "auxiliary_loss_mlp": 0.01027317,
      "balance_loss_clip": 1.04395294,
      "balance_loss_mlp": 1.01959217,
      "epoch": 0.21583598869716827,
      "flos": 22129243130880.0,
      "grad_norm": 10.139714493643638,
      "language_loss": 0.83532488,
      "learning_rate": 3.6486861171728174e-06,
      "loss": 0.85657603,
      "num_input_tokens_seen": 38213775,
      "step": 1795,
      "time_per_iteration": 2.569944143295288
    },
    {
      "auxiliary_loss_clip": 0.01097493,
      "auxiliary_loss_mlp": 0.01022205,
      "balance_loss_clip": 1.04478145,
      "balance_loss_mlp": 1.01471305,
      "epoch": 0.21595623158780738,
      "flos": 23443504364160.0,
      "grad_norm": 2.288418781517223,
      "language_loss": 0.78455067,
      "learning_rate": 3.6482450236359803e-06,
      "loss": 0.80574763,
      "num_input_tokens_seen": 38235630,
      "step": 1796,
      "time_per_iteration": 2.681058645248413
    },
    {
      "auxiliary_loss_clip": 0.01120447,
      "auxiliary_loss_mlp": 0.01030639,
      "balance_loss_clip": 1.04823089,
      "balance_loss_mlp": 1.02364433,
      "epoch": 0.21607647447844647,
      "flos": 26908920443520.0,
      "grad_norm": 6.376121577192475,
      "language_loss": 0.78016758,
      "learning_rate": 3.647803680061683e-06,
      "loss": 0.80167842,
      "num_input_tokens_seen": 38256045,
      "step": 1797,
      "time_per_iteration": 3.3847057819366455
    },
    {
      "auxiliary_loss_clip": 0.01105805,
      "auxiliary_loss_mlp": 0.01027706,
      "balance_loss_clip": 1.04539156,
      "balance_loss_mlp": 1.01970172,
      "epoch": 0.21619671736908555,
      "flos": 14496773437440.0,
      "grad_norm": 4.780148452842179,
      "language_loss": 0.74612629,
      "learning_rate": 3.6473620865168776e-06,
      "loss": 0.76746142,
      "num_input_tokens_seen": 38272915,
      "step": 1798,
      "time_per_iteration": 3.300983428955078
    },
    {
      "auxiliary_loss_clip": 0.01107032,
      "auxiliary_loss_mlp": 0.0102874,
      "balance_loss_clip": 1.0470314,
      "balance_loss_mlp": 1.0214802,
      "epoch": 0.21631696025972463,
      "flos": 17933020462080.0,
      "grad_norm": 2.2601026198923586,
      "language_loss": 0.8162896,
      "learning_rate": 3.646920243068554e-06,
      "loss": 0.83764732,
      "num_input_tokens_seen": 38290810,
      "step": 1799,
      "time_per_iteration": 3.3199257850646973
    },
    {
      "auxiliary_loss_clip": 0.01100419,
      "auxiliary_loss_mlp": 0.01027462,
      "balance_loss_clip": 1.0419178,
      "balance_loss_mlp": 1.02025568,
      "epoch": 0.21643720315036374,
      "flos": 24464692183680.0,
      "grad_norm": 2.805445214181536,
      "language_loss": 0.74664688,
      "learning_rate": 3.6464781497837384e-06,
      "loss": 0.76792574,
      "num_input_tokens_seen": 38312785,
      "step": 1800,
      "time_per_iteration": 2.609713077545166
    },
    {
      "auxiliary_loss_clip": 0.01108022,
      "auxiliary_loss_mlp": 0.01030828,
      "balance_loss_clip": 1.04487348,
      "balance_loss_mlp": 1.02327585,
      "epoch": 0.21655744604100283,
      "flos": 28476886072320.0,
      "grad_norm": 2.635792851411394,
      "language_loss": 0.72424102,
      "learning_rate": 3.6460358067294965e-06,
      "loss": 0.74562949,
      "num_input_tokens_seen": 38334015,
      "step": 1801,
      "time_per_iteration": 2.64449143409729
    },
    {
      "auxiliary_loss_clip": 0.0113367,
      "auxiliary_loss_mlp": 0.01026122,
      "balance_loss_clip": 1.04737377,
      "balance_loss_mlp": 1.01793826,
      "epoch": 0.2166776889316419,
      "flos": 20154798875520.0,
      "grad_norm": 10.665700627003911,
      "language_loss": 0.77748841,
      "learning_rate": 3.645593213972932e-06,
      "loss": 0.79908627,
      "num_input_tokens_seen": 38352920,
      "step": 1802,
      "time_per_iteration": 2.5346295833587646
    },
    {
      "auxiliary_loss_clip": 0.01124785,
      "auxiliary_loss_mlp": 0.01024854,
      "balance_loss_clip": 1.04877698,
      "balance_loss_mlp": 1.01697159,
      "epoch": 0.21679793182228102,
      "flos": 15195187935360.0,
      "grad_norm": 6.774017579354586,
      "language_loss": 0.79884493,
      "learning_rate": 3.6451503715811852e-06,
      "loss": 0.82034123,
      "num_input_tokens_seen": 38371230,
      "step": 1803,
      "time_per_iteration": 2.5348968505859375
    },
    {
      "auxiliary_loss_clip": 0.01105279,
      "auxiliary_loss_mlp": 0.0102565,
      "balance_loss_clip": 1.04665732,
      "balance_loss_mlp": 1.01928985,
      "epoch": 0.2169181747129201,
      "flos": 17386394325120.0,
      "grad_norm": 2.4301694016957405,
      "language_loss": 0.79977053,
      "learning_rate": 3.6447072796214345e-06,
      "loss": 0.82107985,
      "num_input_tokens_seen": 38389795,
      "step": 1804,
      "time_per_iteration": 2.617631673812866
    },
    {
      "auxiliary_loss_clip": 0.01082972,
      "auxiliary_loss_mlp": 0.01006585,
      "balance_loss_clip": 1.06790423,
      "balance_loss_mlp": 1.00231731,
      "epoch": 0.21703841760355919,
      "flos": 58767317648640.0,
      "grad_norm": 0.9291597769158377,
      "language_loss": 0.63146937,
      "learning_rate": 3.644263938160898e-06,
      "loss": 0.65236497,
      "num_input_tokens_seen": 38445760,
      "step": 1805,
      "time_per_iteration": 3.1217236518859863
    },
    {
      "auxiliary_loss_clip": 0.01098107,
      "auxiliary_loss_mlp": 0.01024718,
      "balance_loss_clip": 1.0465678,
      "balance_loss_mlp": 1.01683235,
      "epoch": 0.21715866049419827,
      "flos": 22420610231040.0,
      "grad_norm": 2.0430128659086844,
      "language_loss": 0.72262698,
      "learning_rate": 3.6438203472668293e-06,
      "loss": 0.74385524,
      "num_input_tokens_seen": 38465405,
      "step": 1806,
      "time_per_iteration": 2.6730990409851074
    },
    {
      "auxiliary_loss_clip": 0.01108997,
      "auxiliary_loss_mlp": 0.01023077,
      "balance_loss_clip": 1.04630995,
      "balance_loss_mlp": 1.01609731,
      "epoch": 0.21727890338483738,
      "flos": 17239611150720.0,
      "grad_norm": 5.62938736618146,
      "language_loss": 0.81931585,
      "learning_rate": 3.6433765070065206e-06,
      "loss": 0.84063661,
      "num_input_tokens_seen": 38483195,
      "step": 1807,
      "time_per_iteration": 2.5798778533935547
    },
    {
      "auxiliary_loss_clip": 0.01134695,
      "auxiliary_loss_mlp": 0.01024936,
      "balance_loss_clip": 1.04957283,
      "balance_loss_mlp": 1.01696706,
      "epoch": 0.21739914627547646,
      "flos": 13435989091200.0,
      "grad_norm": 2.8746529792828293,
      "language_loss": 0.878757,
      "learning_rate": 3.6429324174473025e-06,
      "loss": 0.90035331,
      "num_input_tokens_seen": 38496735,
      "step": 1808,
      "time_per_iteration": 2.522351026535034
    },
    {
      "auxiliary_loss_clip": 0.01122196,
      "auxiliary_loss_mlp": 0.01030755,
      "balance_loss_clip": 1.04707003,
      "balance_loss_mlp": 1.02387667,
      "epoch": 0.21751938916611555,
      "flos": 20961613399680.0,
      "grad_norm": 2.5175288930223685,
      "language_loss": 0.84858507,
      "learning_rate": 3.6424880786565425e-06,
      "loss": 0.87011456,
      "num_input_tokens_seen": 38512880,
      "step": 1809,
      "time_per_iteration": 2.557321786880493
    },
    {
      "auxiliary_loss_clip": 0.01067072,
      "auxiliary_loss_mlp": 0.01030561,
      "balance_loss_clip": 1.03849876,
      "balance_loss_mlp": 1.02256823,
      "epoch": 0.21763963205675466,
      "flos": 27602405591040.0,
      "grad_norm": 3.421597683642521,
      "language_loss": 0.79743409,
      "learning_rate": 3.6420434907016482e-06,
      "loss": 0.81841046,
      "num_input_tokens_seen": 38532570,
      "step": 1810,
      "time_per_iteration": 2.724738597869873
    },
    {
      "auxiliary_loss_clip": 0.01122176,
      "auxiliary_loss_mlp": 0.0102422,
      "balance_loss_clip": 1.0508666,
      "balance_loss_mlp": 1.01726127,
      "epoch": 0.21775987494739374,
      "flos": 21432345356160.0,
      "grad_norm": 2.000304101121172,
      "language_loss": 0.80988657,
      "learning_rate": 3.6415986536500606e-06,
      "loss": 0.83135056,
      "num_input_tokens_seen": 38550900,
      "step": 1811,
      "time_per_iteration": 2.5785162448883057
    },
    {
      "auxiliary_loss_clip": 0.01074355,
      "auxiliary_loss_mlp": 0.01030989,
      "balance_loss_clip": 1.04274309,
      "balance_loss_mlp": 1.02380061,
      "epoch": 0.21788011783803282,
      "flos": 18334948919040.0,
      "grad_norm": 2.1230379210492987,
      "language_loss": 0.80347359,
      "learning_rate": 3.641153567569263e-06,
      "loss": 0.82452703,
      "num_input_tokens_seen": 38569215,
      "step": 1812,
      "time_per_iteration": 2.6505141258239746
    },
    {
      "auxiliary_loss_clip": 0.01119679,
      "auxiliary_loss_mlp": 0.01023004,
      "balance_loss_clip": 1.04782796,
      "balance_loss_mlp": 1.01601803,
      "epoch": 0.2180003607286719,
      "flos": 30265329807360.0,
      "grad_norm": 3.2420152548473347,
      "language_loss": 0.95464045,
      "learning_rate": 3.640708232526774e-06,
      "loss": 0.9760673,
      "num_input_tokens_seen": 38587870,
      "step": 1813,
      "time_per_iteration": 2.622436761856079
    },
    {
      "auxiliary_loss_clip": 0.01063203,
      "auxiliary_loss_mlp": 0.01025257,
      "balance_loss_clip": 1.03760982,
      "balance_loss_mlp": 1.01754439,
      "epoch": 0.21812060361931102,
      "flos": 25482429457920.0,
      "grad_norm": 3.799067155356674,
      "language_loss": 0.78439271,
      "learning_rate": 3.6402626485901504e-06,
      "loss": 0.80527735,
      "num_input_tokens_seen": 38606965,
      "step": 1814,
      "time_per_iteration": 2.7262024879455566
    },
    {
      "auxiliary_loss_clip": 0.01113863,
      "auxiliary_loss_mlp": 0.0102715,
      "balance_loss_clip": 1.04421473,
      "balance_loss_mlp": 1.0203433,
      "epoch": 0.2182408465099501,
      "flos": 21910319665920.0,
      "grad_norm": 6.846825724865382,
      "language_loss": 0.78412819,
      "learning_rate": 3.639816815826988e-06,
      "loss": 0.8055383,
      "num_input_tokens_seen": 38626290,
      "step": 1815,
      "time_per_iteration": 2.561772108078003
    },
    {
      "auxiliary_loss_clip": 0.01104296,
      "auxiliary_loss_mlp": 0.01022543,
      "balance_loss_clip": 1.04500031,
      "balance_loss_mlp": 1.01556897,
      "epoch": 0.21836108940058918,
      "flos": 23659470218880.0,
      "grad_norm": 2.618190492250281,
      "language_loss": 0.77843797,
      "learning_rate": 3.6393707343049176e-06,
      "loss": 0.79970634,
      "num_input_tokens_seen": 38646620,
      "step": 1816,
      "time_per_iteration": 2.647319793701172
    },
    {
      "auxiliary_loss_clip": 0.01120938,
      "auxiliary_loss_mlp": 0.01024752,
      "balance_loss_clip": 1.04659355,
      "balance_loss_mlp": 1.01779938,
      "epoch": 0.2184813322912283,
      "flos": 24683312304000.0,
      "grad_norm": 23.64174939238428,
      "language_loss": 0.73764324,
      "learning_rate": 3.6389244040916104e-06,
      "loss": 0.75910008,
      "num_input_tokens_seen": 38665695,
      "step": 1817,
      "time_per_iteration": 2.5811543464660645
    },
    {
      "auxiliary_loss_clip": 0.01101848,
      "auxiliary_loss_mlp": 0.00757759,
      "balance_loss_clip": 1.04216146,
      "balance_loss_mlp": 1.00075436,
      "epoch": 0.21860157518186737,
      "flos": 26576857192320.0,
      "grad_norm": 3.7098327331624192,
      "language_loss": 0.79379922,
      "learning_rate": 3.6384778252547747e-06,
      "loss": 0.81239533,
      "num_input_tokens_seen": 38681575,
      "step": 1818,
      "time_per_iteration": 2.651472806930542
    },
    {
      "auxiliary_loss_clip": 0.01099508,
      "auxiliary_loss_mlp": 0.00757272,
      "balance_loss_clip": 1.04383492,
      "balance_loss_mlp": 1.00080633,
      "epoch": 0.21872181807250646,
      "flos": 20888373484800.0,
      "grad_norm": 2.74888337800607,
      "language_loss": 0.78271633,
      "learning_rate": 3.638030997862155e-06,
      "loss": 0.80128419,
      "num_input_tokens_seen": 38700510,
      "step": 1819,
      "time_per_iteration": 2.610111713409424
    },
    {
      "auxiliary_loss_clip": 0.01102252,
      "auxiliary_loss_mlp": 0.01013237,
      "balance_loss_clip": 1.0668819,
      "balance_loss_mlp": 1.00980425,
      "epoch": 0.21884206096314554,
      "flos": 61216171914240.0,
      "grad_norm": 0.7760924528498463,
      "language_loss": 0.59411609,
      "learning_rate": 3.6375839219815356e-06,
      "loss": 0.61527097,
      "num_input_tokens_seen": 38758310,
      "step": 1820,
      "time_per_iteration": 3.827338218688965
    },
    {
      "auxiliary_loss_clip": 0.01135156,
      "auxiliary_loss_mlp": 0.01025066,
      "balance_loss_clip": 1.04992783,
      "balance_loss_mlp": 1.01780939,
      "epoch": 0.21896230385378465,
      "flos": 23475896455680.0,
      "grad_norm": 2.30383582731371,
      "language_loss": 0.82841265,
      "learning_rate": 3.6371365976807375e-06,
      "loss": 0.85001493,
      "num_input_tokens_seen": 38778705,
      "step": 1821,
      "time_per_iteration": 2.5763039588928223
    },
    {
      "auxiliary_loss_clip": 0.01080798,
      "auxiliary_loss_mlp": 0.01022767,
      "balance_loss_clip": 1.04470611,
      "balance_loss_mlp": 1.01542354,
      "epoch": 0.21908254674442373,
      "flos": 25084216972800.0,
      "grad_norm": 2.7281992546600757,
      "language_loss": 0.83318198,
      "learning_rate": 3.6366890250276185e-06,
      "loss": 0.85421765,
      "num_input_tokens_seen": 38799660,
      "step": 1822,
      "time_per_iteration": 2.6867787837982178
    },
    {
      "auxiliary_loss_clip": 0.0113397,
      "auxiliary_loss_mlp": 0.01026136,
      "balance_loss_clip": 1.04975009,
      "balance_loss_mlp": 1.01906085,
      "epoch": 0.21920278963506282,
      "flos": 23516023835520.0,
      "grad_norm": 3.5953443993794045,
      "language_loss": 0.89909559,
      "learning_rate": 3.6362412040900764e-06,
      "loss": 0.92069668,
      "num_input_tokens_seen": 38819450,
      "step": 1823,
      "time_per_iteration": 3.357036828994751
    },
    {
      "auxiliary_loss_clip": 0.01122293,
      "auxiliary_loss_mlp": 0.01024664,
      "balance_loss_clip": 1.04782581,
      "balance_loss_mlp": 1.01732337,
      "epoch": 0.21932303252570193,
      "flos": 29244824513280.0,
      "grad_norm": 2.2162353118620413,
      "language_loss": 0.80718583,
      "learning_rate": 3.635793134936044e-06,
      "loss": 0.82865536,
      "num_input_tokens_seen": 38840460,
      "step": 1824,
      "time_per_iteration": 4.162283182144165
    },
    {
      "auxiliary_loss_clip": 0.01117109,
      "auxiliary_loss_mlp": 0.01022528,
      "balance_loss_clip": 1.04618812,
      "balance_loss_mlp": 1.01598644,
      "epoch": 0.219443275416341,
      "flos": 20808573742080.0,
      "grad_norm": 2.363661935794097,
      "language_loss": 0.73048449,
      "learning_rate": 3.635344817633494e-06,
      "loss": 0.75188082,
      "num_input_tokens_seen": 38859775,
      "step": 1825,
      "time_per_iteration": 2.5413293838500977
    },
    {
      "auxiliary_loss_clip": 0.01117516,
      "auxiliary_loss_mlp": 0.01022729,
      "balance_loss_clip": 1.04591227,
      "balance_loss_mlp": 1.01560044,
      "epoch": 0.2195635183069801,
      "flos": 14503295347200.0,
      "grad_norm": 2.3291096135065583,
      "language_loss": 0.75709915,
      "learning_rate": 3.634896252250436e-06,
      "loss": 0.77850157,
      "num_input_tokens_seen": 38876540,
      "step": 1826,
      "time_per_iteration": 2.571486234664917
    },
    {
      "auxiliary_loss_clip": 0.0113349,
      "auxiliary_loss_mlp": 0.01029218,
      "balance_loss_clip": 1.04779458,
      "balance_loss_mlp": 1.0219996,
      "epoch": 0.2196837611976192,
      "flos": 24245768718720.0,
      "grad_norm": 2.5508439763702437,
      "language_loss": 0.82178736,
      "learning_rate": 3.6344474388549157e-06,
      "loss": 0.84341443,
      "num_input_tokens_seen": 38896195,
      "step": 1827,
      "time_per_iteration": 2.5344250202178955
    },
    {
      "auxiliary_loss_clip": 0.01120238,
      "auxiliary_loss_mlp": 0.01027458,
      "balance_loss_clip": 1.0464797,
      "balance_loss_mlp": 1.01999891,
      "epoch": 0.2198040040882583,
      "flos": 18076315173120.0,
      "grad_norm": 2.810841761581421,
      "language_loss": 0.79758233,
      "learning_rate": 3.6339983775150183e-06,
      "loss": 0.81905937,
      "num_input_tokens_seen": 38912755,
      "step": 1828,
      "time_per_iteration": 2.5956106185913086
    },
    {
      "auxiliary_loss_clip": 0.01118836,
      "auxiliary_loss_mlp": 0.01023057,
      "balance_loss_clip": 1.04829478,
      "balance_loss_mlp": 1.01563668,
      "epoch": 0.21992424697889737,
      "flos": 17786047697280.0,
      "grad_norm": 11.326259131417174,
      "language_loss": 0.8403244,
      "learning_rate": 3.6335490682988664e-06,
      "loss": 0.86174333,
      "num_input_tokens_seen": 38928365,
      "step": 1829,
      "time_per_iteration": 2.502664089202881
    },
    {
      "auxiliary_loss_clip": 0.01072834,
      "auxiliary_loss_mlp": 0.01025475,
      "balance_loss_clip": 1.04460168,
      "balance_loss_mlp": 1.01834583,
      "epoch": 0.22004448986953645,
      "flos": 17640364147200.0,
      "grad_norm": 2.5606593419628507,
      "language_loss": 0.82891291,
      "learning_rate": 3.63309951127462e-06,
      "loss": 0.84989595,
      "num_input_tokens_seen": 38945275,
      "step": 1830,
      "time_per_iteration": 2.7383832931518555
    },
    {
      "auxiliary_loss_clip": 0.01090699,
      "auxiliary_loss_mlp": 0.01031504,
      "balance_loss_clip": 1.04501188,
      "balance_loss_mlp": 1.02345109,
      "epoch": 0.22016473276017556,
      "flos": 22277846373120.0,
      "grad_norm": 3.4041181719935367,
      "language_loss": 0.75474977,
      "learning_rate": 3.6326497065104757e-06,
      "loss": 0.77597177,
      "num_input_tokens_seen": 38965740,
      "step": 1831,
      "time_per_iteration": 2.6311209201812744
    },
    {
      "auxiliary_loss_clip": 0.01127405,
      "auxiliary_loss_mlp": 0.01023083,
      "balance_loss_clip": 1.05228686,
      "balance_loss_mlp": 1.01592422,
      "epoch": 0.22028497565081465,
      "flos": 25558589064960.0,
      "grad_norm": 3.3048374936999383,
      "language_loss": 0.77931219,
      "learning_rate": 3.6321996540746697e-06,
      "loss": 0.80081713,
      "num_input_tokens_seen": 38984815,
      "step": 1832,
      "time_per_iteration": 2.6070027351379395
    },
    {
      "auxiliary_loss_clip": 0.01089428,
      "auxiliary_loss_mlp": 0.01022242,
      "balance_loss_clip": 1.04416275,
      "balance_loss_mlp": 1.01520562,
      "epoch": 0.22040521854145373,
      "flos": 36250299555840.0,
      "grad_norm": 3.5320585306787318,
      "language_loss": 0.80273283,
      "learning_rate": 3.6317493540354733e-06,
      "loss": 0.8238495,
      "num_input_tokens_seen": 39008230,
      "step": 1833,
      "time_per_iteration": 2.7472896575927734
    },
    {
      "auxiliary_loss_clip": 0.01122928,
      "auxiliary_loss_mlp": 0.01030045,
      "balance_loss_clip": 1.04701507,
      "balance_loss_mlp": 1.02296102,
      "epoch": 0.22052546143209284,
      "flos": 11840029868160.0,
      "grad_norm": 2.2981454974544566,
      "language_loss": 0.76701033,
      "learning_rate": 3.6312988064611976e-06,
      "loss": 0.78854007,
      "num_input_tokens_seen": 39026540,
      "step": 1834,
      "time_per_iteration": 2.5461513996124268
    },
    {
      "auxiliary_loss_clip": 0.01093535,
      "auxiliary_loss_mlp": 0.01026355,
      "balance_loss_clip": 1.04489827,
      "balance_loss_mlp": 1.01892829,
      "epoch": 0.22064570432273192,
      "flos": 24211670313600.0,
      "grad_norm": 2.754070269899177,
      "language_loss": 0.81200737,
      "learning_rate": 3.6308480114201896e-06,
      "loss": 0.8332063,
      "num_input_tokens_seen": 39048460,
      "step": 1835,
      "time_per_iteration": 2.663433790206909
    },
    {
      "auxiliary_loss_clip": 0.011352,
      "auxiliary_loss_mlp": 0.01026684,
      "balance_loss_clip": 1.050349,
      "balance_loss_mlp": 1.01925111,
      "epoch": 0.220765947213371,
      "flos": 17933285888640.0,
      "grad_norm": 2.1817003165163604,
      "language_loss": 0.76512802,
      "learning_rate": 3.630396968980835e-06,
      "loss": 0.78674686,
      "num_input_tokens_seen": 39066335,
      "step": 1836,
      "time_per_iteration": 2.517947196960449
    },
    {
      "auxiliary_loss_clip": 0.0110846,
      "auxiliary_loss_mlp": 0.01028934,
      "balance_loss_clip": 1.04694891,
      "balance_loss_mlp": 1.02159071,
      "epoch": 0.2208861901040101,
      "flos": 26759255495040.0,
      "grad_norm": 3.149194913790355,
      "language_loss": 0.84280699,
      "learning_rate": 3.6299456792115575e-06,
      "loss": 0.86418092,
      "num_input_tokens_seen": 39087590,
      "step": 1837,
      "time_per_iteration": 2.6391260623931885
    },
    {
      "auxiliary_loss_clip": 0.01062009,
      "auxiliary_loss_mlp": 0.01027155,
      "balance_loss_clip": 1.0434612,
      "balance_loss_mlp": 1.01991308,
      "epoch": 0.2210064329946492,
      "flos": 17819691085440.0,
      "grad_norm": 2.2183010758564965,
      "language_loss": 0.80879819,
      "learning_rate": 3.629494142180815e-06,
      "loss": 0.82968986,
      "num_input_tokens_seen": 39106335,
      "step": 1838,
      "time_per_iteration": 2.7480876445770264
    },
    {
      "auxiliary_loss_clip": 0.01135896,
      "auxiliary_loss_mlp": 0.01022877,
      "balance_loss_clip": 1.05170369,
      "balance_loss_mlp": 1.01551569,
      "epoch": 0.22112667588528828,
      "flos": 17969318115840.0,
      "grad_norm": 2.50859199372215,
      "language_loss": 0.85274446,
      "learning_rate": 3.6290423579571075e-06,
      "loss": 0.87433219,
      "num_input_tokens_seen": 39122875,
      "step": 1839,
      "time_per_iteration": 2.6606662273406982
    },
    {
      "auxiliary_loss_clip": 0.0111214,
      "auxiliary_loss_mlp": 0.01025539,
      "balance_loss_clip": 1.04300308,
      "balance_loss_mlp": 1.01791,
      "epoch": 0.22124691877592736,
      "flos": 18371170736640.0,
      "grad_norm": 1.734571293761968,
      "language_loss": 0.79984462,
      "learning_rate": 3.6285903266089694e-06,
      "loss": 0.82122141,
      "num_input_tokens_seen": 39142150,
      "step": 1840,
      "time_per_iteration": 2.559293270111084
    },
    {
      "auxiliary_loss_clip": 0.01106368,
      "auxiliary_loss_mlp": 0.01021009,
      "balance_loss_clip": 1.04642153,
      "balance_loss_mlp": 1.01386523,
      "epoch": 0.22136716166656648,
      "flos": 20815361078400.0,
      "grad_norm": 2.0037480330223043,
      "language_loss": 0.77173823,
      "learning_rate": 3.628138048204974e-06,
      "loss": 0.79301202,
      "num_input_tokens_seen": 39162835,
      "step": 1841,
      "time_per_iteration": 2.6388401985168457
    },
    {
      "auxiliary_loss_clip": 0.01073934,
      "auxiliary_loss_mlp": 0.01025053,
      "balance_loss_clip": 1.04176486,
      "balance_loss_mlp": 1.01685739,
      "epoch": 0.22148740455720556,
      "flos": 17677609752960.0,
      "grad_norm": 5.936877538808264,
      "language_loss": 0.76130223,
      "learning_rate": 3.6276855228137304e-06,
      "loss": 0.78229207,
      "num_input_tokens_seen": 39181040,
      "step": 1842,
      "time_per_iteration": 2.609441041946411
    },
    {
      "auxiliary_loss_clip": 0.01134466,
      "auxiliary_loss_mlp": 0.00757417,
      "balance_loss_clip": 1.05038834,
      "balance_loss_mlp": 1.00081873,
      "epoch": 0.22160764744784464,
      "flos": 21728907233280.0,
      "grad_norm": 2.8203866409037754,
      "language_loss": 0.82144451,
      "learning_rate": 3.6272327505038874e-06,
      "loss": 0.84036332,
      "num_input_tokens_seen": 39197505,
      "step": 1843,
      "time_per_iteration": 2.5665132999420166
    },
    {
      "auxiliary_loss_clip": 0.0108261,
      "auxiliary_loss_mlp": 0.01026843,
      "balance_loss_clip": 1.0444665,
      "balance_loss_mlp": 1.01991105,
      "epoch": 0.22172789033848372,
      "flos": 23766732702720.0,
      "grad_norm": 3.7194146971782494,
      "language_loss": 0.78331304,
      "learning_rate": 3.626779731344131e-06,
      "loss": 0.80440754,
      "num_input_tokens_seen": 39217295,
      "step": 1844,
      "time_per_iteration": 2.646056652069092
    },
    {
      "auxiliary_loss_clip": 0.01135397,
      "auxiliary_loss_mlp": 0.01026497,
      "balance_loss_clip": 1.05081701,
      "balance_loss_mlp": 1.01968443,
      "epoch": 0.22184813322912283,
      "flos": 16984162523520.0,
      "grad_norm": 2.7611624638059022,
      "language_loss": 0.85036808,
      "learning_rate": 3.6263264654031814e-06,
      "loss": 0.87198699,
      "num_input_tokens_seen": 39234195,
      "step": 1845,
      "time_per_iteration": 2.5165605545043945
    },
    {
      "auxiliary_loss_clip": 0.01086679,
      "auxiliary_loss_mlp": 0.01005877,
      "balance_loss_clip": 1.06304371,
      "balance_loss_mlp": 1.0023011,
      "epoch": 0.22196837611976192,
      "flos": 61830160663680.0,
      "grad_norm": 0.7538540677044869,
      "language_loss": 0.59070653,
      "learning_rate": 3.6258729527498008e-06,
      "loss": 0.61163205,
      "num_input_tokens_seen": 39295040,
      "step": 1846,
      "time_per_iteration": 3.8381333351135254
    },
    {
      "auxiliary_loss_clip": 0.01107343,
      "auxiliary_loss_mlp": 0.01021057,
      "balance_loss_clip": 1.04817474,
      "balance_loss_mlp": 1.01428628,
      "epoch": 0.222088619010401,
      "flos": 25560447050880.0,
      "grad_norm": 5.936689722969796,
      "language_loss": 0.64751279,
      "learning_rate": 3.6254191934527854e-06,
      "loss": 0.66879678,
      "num_input_tokens_seen": 39314395,
      "step": 1847,
      "time_per_iteration": 2.6373062133789062
    },
    {
      "auxiliary_loss_clip": 0.01077672,
      "auxiliary_loss_mlp": 0.01022631,
      "balance_loss_clip": 1.039783,
      "balance_loss_mlp": 1.01496291,
      "epoch": 0.2222088619010401,
      "flos": 19320673282560.0,
      "grad_norm": 2.4401430626352565,
      "language_loss": 0.64831716,
      "learning_rate": 3.6249651875809715e-06,
      "loss": 0.66932017,
      "num_input_tokens_seen": 39334275,
      "step": 1848,
      "time_per_iteration": 2.6195931434631348
    },
    {
      "auxiliary_loss_clip": 0.01092591,
      "auxiliary_loss_mlp": 0.01022823,
      "balance_loss_clip": 1.03927827,
      "balance_loss_mlp": 1.01597774,
      "epoch": 0.2223291047916792,
      "flos": 19101370636800.0,
      "grad_norm": 2.1827532258064295,
      "language_loss": 0.89073843,
      "learning_rate": 3.62451093520323e-06,
      "loss": 0.91189253,
      "num_input_tokens_seen": 39352180,
      "step": 1849,
      "time_per_iteration": 3.5675995349884033
    },
    {
      "auxiliary_loss_clip": 0.01076652,
      "auxiliary_loss_mlp": 0.01031261,
      "balance_loss_clip": 1.04437625,
      "balance_loss_mlp": 1.02407908,
      "epoch": 0.22244934768231828,
      "flos": 20852530848000.0,
      "grad_norm": 2.3256919834073355,
      "language_loss": 0.90220916,
      "learning_rate": 3.6240564363884714e-06,
      "loss": 0.92328835,
      "num_input_tokens_seen": 39372125,
      "step": 1850,
      "time_per_iteration": 3.4853391647338867
    },
    {
      "auxiliary_loss_clip": 0.01123034,
      "auxiliary_loss_mlp": 0.01028518,
      "balance_loss_clip": 1.04915357,
      "balance_loss_mlp": 1.02102005,
      "epoch": 0.2225695905729574,
      "flos": 15634741178880.0,
      "grad_norm": 4.517140305091388,
      "language_loss": 0.69952023,
      "learning_rate": 3.623601691205643e-06,
      "loss": 0.72103572,
      "num_input_tokens_seen": 39391200,
      "step": 1851,
      "time_per_iteration": 2.578748941421509
    },
    {
      "auxiliary_loss_clip": 0.01125218,
      "auxiliary_loss_mlp": 0.01021302,
      "balance_loss_clip": 1.05175138,
      "balance_loss_mlp": 1.01447153,
      "epoch": 0.22268983346359647,
      "flos": 25375887417600.0,
      "grad_norm": 2.978610320959965,
      "language_loss": 0.81842828,
      "learning_rate": 3.623146699723729e-06,
      "loss": 0.83989358,
      "num_input_tokens_seen": 39410660,
      "step": 1852,
      "time_per_iteration": 2.5907232761383057
    },
    {
      "auxiliary_loss_clip": 0.0111082,
      "auxiliary_loss_mlp": 0.01027015,
      "balance_loss_clip": 1.053087,
      "balance_loss_mlp": 1.01982641,
      "epoch": 0.22281007635423555,
      "flos": 13263146144640.0,
      "grad_norm": 5.759198488548058,
      "language_loss": 0.77323139,
      "learning_rate": 3.6226914620117507e-06,
      "loss": 0.79460973,
      "num_input_tokens_seen": 39429280,
      "step": 1853,
      "time_per_iteration": 2.586962938308716
    },
    {
      "auxiliary_loss_clip": 0.01101552,
      "auxiliary_loss_mlp": 0.01023628,
      "balance_loss_clip": 1.04638743,
      "balance_loss_mlp": 1.01681852,
      "epoch": 0.22293031924487464,
      "flos": 15342312372480.0,
      "grad_norm": 2.289997070420538,
      "language_loss": 0.80930042,
      "learning_rate": 3.622235978138768e-06,
      "loss": 0.83055222,
      "num_input_tokens_seen": 39446905,
      "step": 1854,
      "time_per_iteration": 2.594167470932007
    },
    {
      "auxiliary_loss_clip": 0.01119344,
      "auxiliary_loss_mlp": 0.01027132,
      "balance_loss_clip": 1.04926133,
      "balance_loss_mlp": 1.02017045,
      "epoch": 0.22305056213551375,
      "flos": 22566824634240.0,
      "grad_norm": 2.6170900842249787,
      "language_loss": 0.8138535,
      "learning_rate": 3.621780248173877e-06,
      "loss": 0.83531827,
      "num_input_tokens_seen": 39465105,
      "step": 1855,
      "time_per_iteration": 2.572740316390991
    },
    {
      "auxiliary_loss_clip": 0.01112728,
      "auxiliary_loss_mlp": 0.01018334,
      "balance_loss_clip": 1.06593919,
      "balance_loss_mlp": 1.01499653,
      "epoch": 0.22317080502615283,
      "flos": 64886557605120.0,
      "grad_norm": 0.8328425599080548,
      "language_loss": 0.61021942,
      "learning_rate": 3.6213242721862125e-06,
      "loss": 0.63153005,
      "num_input_tokens_seen": 39523560,
      "step": 1856,
      "time_per_iteration": 3.1911773681640625
    },
    {
      "auxiliary_loss_clip": 0.01111445,
      "auxiliary_loss_mlp": 0.01025485,
      "balance_loss_clip": 1.05039704,
      "balance_loss_mlp": 1.01876497,
      "epoch": 0.2232910479167919,
      "flos": 25778384645760.0,
      "grad_norm": 1.8740377027140993,
      "language_loss": 0.75270045,
      "learning_rate": 3.620868050244945e-06,
      "loss": 0.77406979,
      "num_input_tokens_seen": 39544040,
      "step": 1857,
      "time_per_iteration": 2.7402846813201904
    },
    {
      "auxiliary_loss_clip": 0.01112782,
      "auxiliary_loss_mlp": 0.01024444,
      "balance_loss_clip": 1.04914093,
      "balance_loss_mlp": 1.01683831,
      "epoch": 0.22341129080743102,
      "flos": 23253674117760.0,
      "grad_norm": 2.190944171884043,
      "language_loss": 0.77372688,
      "learning_rate": 3.6204115824192817e-06,
      "loss": 0.79509914,
      "num_input_tokens_seen": 39561515,
      "step": 1858,
      "time_per_iteration": 2.5935773849487305
    },
    {
      "auxiliary_loss_clip": 0.01114315,
      "auxiliary_loss_mlp": 0.01023161,
      "balance_loss_clip": 1.0501622,
      "balance_loss_mlp": 1.01596045,
      "epoch": 0.2235315336980701,
      "flos": 21216644928000.0,
      "grad_norm": 3.1252173232040477,
      "language_loss": 0.77008033,
      "learning_rate": 3.619954868778471e-06,
      "loss": 0.79145509,
      "num_input_tokens_seen": 39578210,
      "step": 1859,
      "time_per_iteration": 2.6019036769866943
    },
    {
      "auxiliary_loss_clip": 0.01113485,
      "auxiliary_loss_mlp": 0.01027298,
      "balance_loss_clip": 1.04918122,
      "balance_loss_mlp": 1.02088761,
      "epoch": 0.2236517765887092,
      "flos": 19904014172160.0,
      "grad_norm": 2.0983559492396475,
      "language_loss": 0.82680297,
      "learning_rate": 3.6194979093917944e-06,
      "loss": 0.84821081,
      "num_input_tokens_seen": 39597625,
      "step": 1860,
      "time_per_iteration": 2.6345486640930176
    },
    {
      "auxiliary_loss_clip": 0.0110759,
      "auxiliary_loss_mlp": 0.01027319,
      "balance_loss_clip": 1.04710829,
      "balance_loss_mlp": 1.02056623,
      "epoch": 0.22377201947934827,
      "flos": 23216693938560.0,
      "grad_norm": 2.8950057630127968,
      "language_loss": 0.87050736,
      "learning_rate": 3.6190407043285724e-06,
      "loss": 0.89185643,
      "num_input_tokens_seen": 39615360,
      "step": 1861,
      "time_per_iteration": 2.598323345184326
    },
    {
      "auxiliary_loss_clip": 0.01135821,
      "auxiliary_loss_mlp": 0.01029746,
      "balance_loss_clip": 1.05103636,
      "balance_loss_mlp": 1.02253687,
      "epoch": 0.22389226236998738,
      "flos": 26796501100800.0,
      "grad_norm": 3.161532176510708,
      "language_loss": 0.75750893,
      "learning_rate": 3.618583253658163e-06,
      "loss": 0.77916461,
      "num_input_tokens_seen": 39635460,
      "step": 1862,
      "time_per_iteration": 2.551429271697998
    },
    {
      "auxiliary_loss_clip": 0.01067421,
      "auxiliary_loss_mlp": 0.00757455,
      "balance_loss_clip": 1.03767991,
      "balance_loss_mlp": 1.00099766,
      "epoch": 0.22401250526062647,
      "flos": 24172642558080.0,
      "grad_norm": 2.104140220401411,
      "language_loss": 0.86529368,
      "learning_rate": 3.618125557449961e-06,
      "loss": 0.88354242,
      "num_input_tokens_seen": 39653515,
      "step": 1863,
      "time_per_iteration": 2.7110037803649902
    },
    {
      "auxiliary_loss_clip": 0.01112493,
      "auxiliary_loss_mlp": 0.01018516,
      "balance_loss_clip": 1.04317737,
      "balance_loss_mlp": 1.0115366,
      "epoch": 0.22413274815126555,
      "flos": 16761409332480.0,
      "grad_norm": 2.308381983872197,
      "language_loss": 0.83068728,
      "learning_rate": 3.6176676157733983e-06,
      "loss": 0.85199738,
      "num_input_tokens_seen": 39668525,
      "step": 1864,
      "time_per_iteration": 2.497908592224121
    },
    {
      "auxiliary_loss_clip": 0.01100172,
      "auxiliary_loss_mlp": 0.01024664,
      "balance_loss_clip": 1.04890811,
      "balance_loss_mlp": 1.01781797,
      "epoch": 0.22425299104190466,
      "flos": 21362290560000.0,
      "grad_norm": 2.6379522063852376,
      "language_loss": 0.75905859,
      "learning_rate": 3.6172094286979443e-06,
      "loss": 0.78030705,
      "num_input_tokens_seen": 39685895,
      "step": 1865,
      "time_per_iteration": 2.626556873321533
    },
    {
      "auxiliary_loss_clip": 0.01109861,
      "auxiliary_loss_mlp": 0.01021658,
      "balance_loss_clip": 1.04790235,
      "balance_loss_mlp": 1.01461923,
      "epoch": 0.22437323393254374,
      "flos": 32168543806080.0,
      "grad_norm": 2.047644267377352,
      "language_loss": 0.81073105,
      "learning_rate": 3.6167509962931064e-06,
      "loss": 0.83204627,
      "num_input_tokens_seen": 39711595,
      "step": 1866,
      "time_per_iteration": 2.7408342361450195
    },
    {
      "auxiliary_loss_clip": 0.01081719,
      "auxiliary_loss_mlp": 0.01022611,
      "balance_loss_clip": 1.04667866,
      "balance_loss_mlp": 1.01519632,
      "epoch": 0.22449347682318282,
      "flos": 18004667817600.0,
      "grad_norm": 3.4133267755650722,
      "language_loss": 0.76703733,
      "learning_rate": 3.6162923186284276e-06,
      "loss": 0.78808063,
      "num_input_tokens_seen": 39727555,
      "step": 1867,
      "time_per_iteration": 2.6195404529571533
    },
    {
      "auxiliary_loss_clip": 0.01113774,
      "auxiliary_loss_mlp": 0.01027838,
      "balance_loss_clip": 1.0498296,
      "balance_loss_mlp": 1.02075982,
      "epoch": 0.2246137197138219,
      "flos": 18699252589440.0,
      "grad_norm": 2.5023641201331626,
      "language_loss": 0.8600558,
      "learning_rate": 3.6158333957734888e-06,
      "loss": 0.88147193,
      "num_input_tokens_seen": 39746145,
      "step": 1868,
      "time_per_iteration": 2.5897748470306396
    },
    {
      "auxiliary_loss_clip": 0.01100579,
      "auxiliary_loss_mlp": 0.01026167,
      "balance_loss_clip": 1.04953122,
      "balance_loss_mlp": 1.01921391,
      "epoch": 0.22473396260446102,
      "flos": 15592149123840.0,
      "grad_norm": 2.3564049491917474,
      "language_loss": 0.82577515,
      "learning_rate": 3.6153742277979088e-06,
      "loss": 0.84704256,
      "num_input_tokens_seen": 39763575,
      "step": 1869,
      "time_per_iteration": 2.5892608165740967
    },
    {
      "auxiliary_loss_clip": 0.0110839,
      "auxiliary_loss_mlp": 0.0102635,
      "balance_loss_clip": 1.04775119,
      "balance_loss_mlp": 1.0194298,
      "epoch": 0.2248542054951001,
      "flos": 14467263120000.0,
      "grad_norm": 2.8715144217126025,
      "language_loss": 0.78271466,
      "learning_rate": 3.6149148147713434e-06,
      "loss": 0.80406201,
      "num_input_tokens_seen": 39781810,
      "step": 1870,
      "time_per_iteration": 2.5751125812530518
    },
    {
      "auxiliary_loss_clip": 0.01125464,
      "auxiliary_loss_mlp": 0.01025151,
      "balance_loss_clip": 1.05298162,
      "balance_loss_mlp": 1.01822186,
      "epoch": 0.22497444838573918,
      "flos": 19245840808320.0,
      "grad_norm": 3.0037745875609976,
      "language_loss": 0.86580646,
      "learning_rate": 3.614455156763484e-06,
      "loss": 0.88731265,
      "num_input_tokens_seen": 39800115,
      "step": 1871,
      "time_per_iteration": 2.5595192909240723
    },
    {
      "auxiliary_loss_clip": 0.01087231,
      "auxiliary_loss_mlp": 0.01023448,
      "balance_loss_clip": 1.04611218,
      "balance_loss_mlp": 1.01665878,
      "epoch": 0.2250946912763783,
      "flos": 16912211823360.0,
      "grad_norm": 4.390977674110288,
      "language_loss": 0.71527058,
      "learning_rate": 3.613995253844061e-06,
      "loss": 0.73637736,
      "num_input_tokens_seen": 39817795,
      "step": 1872,
      "time_per_iteration": 3.461317300796509
    },
    {
      "auxiliary_loss_clip": 0.01112481,
      "auxiliary_loss_mlp": 0.01026707,
      "balance_loss_clip": 1.04660296,
      "balance_loss_mlp": 1.01981664,
      "epoch": 0.22521493416701738,
      "flos": 24683691484800.0,
      "grad_norm": 2.1238079021983736,
      "language_loss": 0.8070423,
      "learning_rate": 3.6135351060828414e-06,
      "loss": 0.82843423,
      "num_input_tokens_seen": 39838270,
      "step": 1873,
      "time_per_iteration": 2.5871901512145996
    },
    {
      "auxiliary_loss_clip": 0.01137452,
      "auxiliary_loss_mlp": 0.01027351,
      "balance_loss_clip": 1.05245423,
      "balance_loss_mlp": 1.01988304,
      "epoch": 0.22533517705765646,
      "flos": 17823899992320.0,
      "grad_norm": 8.145212203180018,
      "language_loss": 0.69542813,
      "learning_rate": 3.6130747135496285e-06,
      "loss": 0.71707618,
      "num_input_tokens_seen": 39857270,
      "step": 1874,
      "time_per_iteration": 2.546987533569336
    },
    {
      "auxiliary_loss_clip": 0.01137371,
      "auxiliary_loss_mlp": 0.01022043,
      "balance_loss_clip": 1.05296838,
      "balance_loss_mlp": 1.01514387,
      "epoch": 0.22545541994829554,
      "flos": 33694106970240.0,
      "grad_norm": 2.273375844179459,
      "language_loss": 0.66043854,
      "learning_rate": 3.6126140763142646e-06,
      "loss": 0.6820327,
      "num_input_tokens_seen": 39882300,
      "step": 1875,
      "time_per_iteration": 4.197725534439087
    },
    {
      "auxiliary_loss_clip": 0.01136356,
      "auxiliary_loss_mlp": 0.01025307,
      "balance_loss_clip": 1.05251217,
      "balance_loss_mlp": 1.01785636,
      "epoch": 0.22557566283893465,
      "flos": 19173586763520.0,
      "grad_norm": 3.92425885142658,
      "language_loss": 0.85804993,
      "learning_rate": 3.6121531944466275e-06,
      "loss": 0.87966657,
      "num_input_tokens_seen": 39899625,
      "step": 1876,
      "time_per_iteration": 3.276050329208374
    },
    {
      "auxiliary_loss_clip": 0.01118955,
      "auxiliary_loss_mlp": 0.01025713,
      "balance_loss_clip": 1.04918861,
      "balance_loss_mlp": 1.01888859,
      "epoch": 0.22569590572957374,
      "flos": 20775157862400.0,
      "grad_norm": 9.875155744043585,
      "language_loss": 0.78399044,
      "learning_rate": 3.611692068016633e-06,
      "loss": 0.80543721,
      "num_input_tokens_seen": 39915955,
      "step": 1877,
      "time_per_iteration": 2.610471487045288
    },
    {
      "auxiliary_loss_clip": 0.01101635,
      "auxiliary_loss_mlp": 0.01026212,
      "balance_loss_clip": 1.04907835,
      "balance_loss_mlp": 1.01840949,
      "epoch": 0.22581614862021282,
      "flos": 18444713996160.0,
      "grad_norm": 2.767151088963658,
      "language_loss": 0.74729168,
      "learning_rate": 3.611230697094233e-06,
      "loss": 0.76857018,
      "num_input_tokens_seen": 39932655,
      "step": 1878,
      "time_per_iteration": 2.5998244285583496
    },
    {
      "auxiliary_loss_clip": 0.01114476,
      "auxiliary_loss_mlp": 0.01026602,
      "balance_loss_clip": 1.05388904,
      "balance_loss_mlp": 1.01974177,
      "epoch": 0.22593639151085193,
      "flos": 20050494001920.0,
      "grad_norm": 2.440650053881947,
      "language_loss": 0.87335885,
      "learning_rate": 3.6107690817494173e-06,
      "loss": 0.89476961,
      "num_input_tokens_seen": 39952875,
      "step": 1879,
      "time_per_iteration": 2.6049141883850098
    },
    {
      "auxiliary_loss_clip": 0.0108285,
      "auxiliary_loss_mlp": 0.0102027,
      "balance_loss_clip": 1.04597509,
      "balance_loss_mlp": 1.01359391,
      "epoch": 0.226056634401491,
      "flos": 13116780069120.0,
      "grad_norm": 15.28605295406186,
      "language_loss": 0.70672107,
      "learning_rate": 3.6103072220522117e-06,
      "loss": 0.72775227,
      "num_input_tokens_seen": 39968405,
      "step": 1880,
      "time_per_iteration": 2.5956153869628906
    },
    {
      "auxiliary_loss_clip": 0.01101833,
      "auxiliary_loss_mlp": 0.01024189,
      "balance_loss_clip": 1.051687,
      "balance_loss_mlp": 1.01728106,
      "epoch": 0.2261768772921301,
      "flos": 18990316344960.0,
      "grad_norm": 6.0192351627033975,
      "language_loss": 0.91647387,
      "learning_rate": 3.609845118072682e-06,
      "loss": 0.93773413,
      "num_input_tokens_seen": 39987075,
      "step": 1881,
      "time_per_iteration": 2.6345572471618652
    },
    {
      "auxiliary_loss_clip": 0.01126396,
      "auxiliary_loss_mlp": 0.00757299,
      "balance_loss_clip": 1.05217087,
      "balance_loss_mlp": 1.00114882,
      "epoch": 0.2262971201827692,
      "flos": 19976078626560.0,
      "grad_norm": 6.91709866778264,
      "language_loss": 0.79985237,
      "learning_rate": 3.6093827698809276e-06,
      "loss": 0.81868929,
      "num_input_tokens_seen": 40006175,
      "step": 1882,
      "time_per_iteration": 2.556180238723755
    },
    {
      "auxiliary_loss_clip": 0.01126597,
      "auxiliary_loss_mlp": 0.01024652,
      "balance_loss_clip": 1.05327463,
      "balance_loss_mlp": 1.01758933,
      "epoch": 0.2264173630734083,
      "flos": 16656421933440.0,
      "grad_norm": 2.520137729902805,
      "language_loss": 0.84643269,
      "learning_rate": 3.6089201775470864e-06,
      "loss": 0.86794519,
      "num_input_tokens_seen": 40021630,
      "step": 1883,
      "time_per_iteration": 2.563293695449829
    },
    {
      "auxiliary_loss_clip": 0.0109344,
      "auxiliary_loss_mlp": 0.0102463,
      "balance_loss_clip": 1.04607403,
      "balance_loss_mlp": 1.01762629,
      "epoch": 0.22653760596404737,
      "flos": 24392134794240.0,
      "grad_norm": 1.5099344389968494,
      "language_loss": 0.77695525,
      "learning_rate": 3.6084573411413334e-06,
      "loss": 0.798136,
      "num_input_tokens_seen": 40041025,
      "step": 1884,
      "time_per_iteration": 2.6531262397766113
    },
    {
      "auxiliary_loss_clip": 0.0110053,
      "auxiliary_loss_mlp": 0.01025618,
      "balance_loss_clip": 1.04840326,
      "balance_loss_mlp": 1.01810777,
      "epoch": 0.22665784885468646,
      "flos": 18334493902080.0,
      "grad_norm": 2.937519239691297,
      "language_loss": 0.81471312,
      "learning_rate": 3.607994260733881e-06,
      "loss": 0.83597457,
      "num_input_tokens_seen": 40060265,
      "step": 1885,
      "time_per_iteration": 2.6159913539886475
    },
    {
      "auxiliary_loss_clip": 0.01126552,
      "auxiliary_loss_mlp": 0.01022927,
      "balance_loss_clip": 1.05338669,
      "balance_loss_mlp": 1.01611996,
      "epoch": 0.22677809174532557,
      "flos": 24060223215360.0,
      "grad_norm": 2.0765036740149734,
      "language_loss": 0.74534261,
      "learning_rate": 3.6075309363949776e-06,
      "loss": 0.76683736,
      "num_input_tokens_seen": 40079435,
      "step": 1886,
      "time_per_iteration": 2.6055233478546143
    },
    {
      "auxiliary_loss_clip": 0.01139048,
      "auxiliary_loss_mlp": 0.01023195,
      "balance_loss_clip": 1.05449545,
      "balance_loss_mlp": 1.01607811,
      "epoch": 0.22689833463596465,
      "flos": 20376224933760.0,
      "grad_norm": 2.6689783566290015,
      "language_loss": 0.81049246,
      "learning_rate": 3.6070673681949094e-06,
      "loss": 0.83211493,
      "num_input_tokens_seen": 40097800,
      "step": 1887,
      "time_per_iteration": 2.5157766342163086
    },
    {
      "auxiliary_loss_clip": 0.01113723,
      "auxiliary_loss_mlp": 0.00757361,
      "balance_loss_clip": 1.05454969,
      "balance_loss_mlp": 1.00108027,
      "epoch": 0.22701857752660373,
      "flos": 30123172638720.0,
      "grad_norm": 2.013090233559999,
      "language_loss": 0.81105757,
      "learning_rate": 3.606603556203999e-06,
      "loss": 0.8297683,
      "num_input_tokens_seen": 40122745,
      "step": 1888,
      "time_per_iteration": 2.704047203063965
    },
    {
      "auxiliary_loss_clip": 0.01128773,
      "auxiliary_loss_mlp": 0.01025196,
      "balance_loss_clip": 1.0554533,
      "balance_loss_mlp": 1.01807952,
      "epoch": 0.22713882041724284,
      "flos": 22494380999040.0,
      "grad_norm": 2.4028072070196664,
      "language_loss": 0.83768225,
      "learning_rate": 3.6061395004926066e-06,
      "loss": 0.85922199,
      "num_input_tokens_seen": 40141680,
      "step": 1889,
      "time_per_iteration": 2.5810306072235107
    },
    {
      "auxiliary_loss_clip": 0.0113695,
      "auxiliary_loss_mlp": 0.01024613,
      "balance_loss_clip": 1.05313623,
      "balance_loss_mlp": 1.01746082,
      "epoch": 0.22725906330788193,
      "flos": 20523614797440.0,
      "grad_norm": 2.6167926710806926,
      "language_loss": 0.84797877,
      "learning_rate": 3.605675201131129e-06,
      "loss": 0.8695944,
      "num_input_tokens_seen": 40160140,
      "step": 1890,
      "time_per_iteration": 2.532219409942627
    },
    {
      "auxiliary_loss_clip": 0.01129196,
      "auxiliary_loss_mlp": 0.0102457,
      "balance_loss_clip": 1.05442739,
      "balance_loss_mlp": 1.01729774,
      "epoch": 0.227379306198521,
      "flos": 18991946822400.0,
      "grad_norm": 2.944511751715186,
      "language_loss": 0.79307741,
      "learning_rate": 3.60521065819e-06,
      "loss": 0.81461501,
      "num_input_tokens_seen": 40177450,
      "step": 1891,
      "time_per_iteration": 2.537160634994507
    },
    {
      "auxiliary_loss_clip": 0.01114241,
      "auxiliary_loss_mlp": 0.0102422,
      "balance_loss_clip": 1.05154443,
      "balance_loss_mlp": 1.01734424,
      "epoch": 0.2274995490891601,
      "flos": 21800478752640.0,
      "grad_norm": 6.03243357024775,
      "language_loss": 0.87803769,
      "learning_rate": 3.60474587173969e-06,
      "loss": 0.89942229,
      "num_input_tokens_seen": 40195935,
      "step": 1892,
      "time_per_iteration": 2.6129491329193115
    },
    {
      "auxiliary_loss_clip": 0.01113165,
      "auxiliary_loss_mlp": 0.01025633,
      "balance_loss_clip": 1.04512906,
      "balance_loss_mlp": 1.01836681,
      "epoch": 0.2276197919797992,
      "flos": 19060446977280.0,
      "grad_norm": 4.259313394558209,
      "language_loss": 0.83908367,
      "learning_rate": 3.6042808418507084e-06,
      "loss": 0.86047167,
      "num_input_tokens_seen": 40213620,
      "step": 1893,
      "time_per_iteration": 2.54575777053833
    },
    {
      "auxiliary_loss_clip": 0.01122212,
      "auxiliary_loss_mlp": 0.01023878,
      "balance_loss_clip": 1.05059099,
      "balance_loss_mlp": 1.01652229,
      "epoch": 0.22774003487043828,
      "flos": 18808752240000.0,
      "grad_norm": 2.1745477933589172,
      "language_loss": 0.77397335,
      "learning_rate": 3.6038155685935976e-06,
      "loss": 0.79543424,
      "num_input_tokens_seen": 40230190,
      "step": 1894,
      "time_per_iteration": 2.5630030632019043
    },
    {
      "auxiliary_loss_clip": 0.01120182,
      "auxiliary_loss_mlp": 0.01023611,
      "balance_loss_clip": 1.04993641,
      "balance_loss_mlp": 1.01664007,
      "epoch": 0.22786027776107737,
      "flos": 23004747400320.0,
      "grad_norm": 2.5497939042411764,
      "language_loss": 0.70898515,
      "learning_rate": 3.6033500520389404e-06,
      "loss": 0.73042309,
      "num_input_tokens_seen": 40246860,
      "step": 1895,
      "time_per_iteration": 2.5821807384490967
    },
    {
      "auxiliary_loss_clip": 0.0112604,
      "auxiliary_loss_mlp": 0.01008001,
      "balance_loss_clip": 1.10818231,
      "balance_loss_mlp": 1.00387657,
      "epoch": 0.22798052065171648,
      "flos": 66713232816000.0,
      "grad_norm": 0.7941818016852149,
      "language_loss": 0.64831859,
      "learning_rate": 3.6028842922573553e-06,
      "loss": 0.66965902,
      "num_input_tokens_seen": 40311005,
      "step": 1896,
      "time_per_iteration": 3.389008045196533
    },
    {
      "auxiliary_loss_clip": 0.01143828,
      "auxiliary_loss_mlp": 0.00754553,
      "balance_loss_clip": 1.11343312,
      "balance_loss_mlp": 1.00036645,
      "epoch": 0.22810076354235556,
      "flos": 62087429358720.0,
      "grad_norm": 0.8739986003009138,
      "language_loss": 0.62911868,
      "learning_rate": 3.602418289319497e-06,
      "loss": 0.64810252,
      "num_input_tokens_seen": 40369560,
      "step": 1897,
      "time_per_iteration": 3.2245187759399414
    },
    {
      "auxiliary_loss_clip": 0.01093069,
      "auxiliary_loss_mlp": 0.01025512,
      "balance_loss_clip": 1.05202222,
      "balance_loss_mlp": 1.01807904,
      "epoch": 0.22822100643299464,
      "flos": 23878507438080.0,
      "grad_norm": 18.558971741533885,
      "language_loss": 0.73228681,
      "learning_rate": 3.601952043296059e-06,
      "loss": 0.75347263,
      "num_input_tokens_seen": 40389555,
      "step": 1898,
      "time_per_iteration": 2.722365140914917
    },
    {
      "auxiliary_loss_clip": 0.01117139,
      "auxiliary_loss_mlp": 0.01023027,
      "balance_loss_clip": 1.05344129,
      "balance_loss_mlp": 1.0152787,
      "epoch": 0.22834124932363373,
      "flos": 20993171293440.0,
      "grad_norm": 2.5062331775323976,
      "language_loss": 0.80867535,
      "learning_rate": 3.6014855542577696e-06,
      "loss": 0.83007693,
      "num_input_tokens_seen": 40406765,
      "step": 1899,
      "time_per_iteration": 3.3738181591033936
    },
    {
      "auxiliary_loss_clip": 0.01115762,
      "auxiliary_loss_mlp": 0.01021854,
      "balance_loss_clip": 1.05419922,
      "balance_loss_mlp": 1.01434064,
      "epoch": 0.22846149221427284,
      "flos": 24903980000640.0,
      "grad_norm": 2.260977073894332,
      "language_loss": 0.84736764,
      "learning_rate": 3.6010188222753943e-06,
      "loss": 0.8687439,
      "num_input_tokens_seen": 40427535,
      "step": 1900,
      "time_per_iteration": 2.65891432762146
    },
    {
      "auxiliary_loss_clip": 0.01142927,
      "auxiliary_loss_mlp": 0.01013755,
      "balance_loss_clip": 1.10515583,
      "balance_loss_mlp": 1.00977349,
      "epoch": 0.22858173510491192,
      "flos": 56138416001280.0,
      "grad_norm": 0.9419786709757164,
      "language_loss": 0.64131993,
      "learning_rate": 3.6005518474197372e-06,
      "loss": 0.66288674,
      "num_input_tokens_seen": 40479580,
      "step": 1901,
      "time_per_iteration": 5.319862365722656
    },
    {
      "auxiliary_loss_clip": 0.01122011,
      "auxiliary_loss_mlp": 0.01024681,
      "balance_loss_clip": 1.05379033,
      "balance_loss_mlp": 1.01675391,
      "epoch": 0.228701977995551,
      "flos": 24173135493120.0,
      "grad_norm": 3.24888629370968,
      "language_loss": 0.78735125,
      "learning_rate": 3.6000846297616373e-06,
      "loss": 0.80881822,
      "num_input_tokens_seen": 40497880,
      "step": 1902,
      "time_per_iteration": 2.6018624305725098
    },
    {
      "auxiliary_loss_clip": 0.01139561,
      "auxiliary_loss_mlp": 0.01024845,
      "balance_loss_clip": 1.05567861,
      "balance_loss_mlp": 1.01655412,
      "epoch": 0.22882222088619011,
      "flos": 21389487874560.0,
      "grad_norm": 2.5266709055217986,
      "language_loss": 0.72939658,
      "learning_rate": 3.5996171693719717e-06,
      "loss": 0.7510407,
      "num_input_tokens_seen": 40513975,
      "step": 1903,
      "time_per_iteration": 2.5151984691619873
    },
    {
      "auxiliary_loss_clip": 0.01152307,
      "auxiliary_loss_mlp": 0.01002155,
      "balance_loss_clip": 1.10360968,
      "balance_loss_mlp": 0.99815005,
      "epoch": 0.2289424637768292,
      "flos": 64595797194240.0,
      "grad_norm": 0.8420272740162623,
      "language_loss": 0.64763516,
      "learning_rate": 3.5991494663216528e-06,
      "loss": 0.6691798,
      "num_input_tokens_seen": 40576960,
      "step": 1904,
      "time_per_iteration": 3.2362823486328125
    },
    {
      "auxiliary_loss_clip": 0.01138003,
      "auxiliary_loss_mlp": 0.01021207,
      "balance_loss_clip": 1.05478632,
      "balance_loss_mlp": 1.01356602,
      "epoch": 0.22906270666746828,
      "flos": 22165578702720.0,
      "grad_norm": 2.159860382222054,
      "language_loss": 0.87265772,
      "learning_rate": 3.5986815206816314e-06,
      "loss": 0.8942498,
      "num_input_tokens_seen": 40595780,
      "step": 1905,
      "time_per_iteration": 2.556075096130371
    },
    {
      "auxiliary_loss_clip": 0.01135965,
      "auxiliary_loss_mlp": 0.01025426,
      "balance_loss_clip": 1.0523454,
      "balance_loss_mlp": 1.01860464,
      "epoch": 0.2291829495581074,
      "flos": 25774517001600.0,
      "grad_norm": 2.4732226255505148,
      "language_loss": 0.74494851,
      "learning_rate": 3.598213332522895e-06,
      "loss": 0.7665624,
      "num_input_tokens_seen": 40615810,
      "step": 1906,
      "time_per_iteration": 2.56733775138855
    },
    {
      "auxiliary_loss_clip": 0.01126402,
      "auxiliary_loss_mlp": 0.01023783,
      "balance_loss_clip": 1.05390739,
      "balance_loss_mlp": 1.01666617,
      "epoch": 0.22930319244874647,
      "flos": 31175273744640.0,
      "grad_norm": 1.931100290218541,
      "language_loss": 0.77235615,
      "learning_rate": 3.597744901916466e-06,
      "loss": 0.79385799,
      "num_input_tokens_seen": 40637095,
      "step": 1907,
      "time_per_iteration": 2.665414333343506
    },
    {
      "auxiliary_loss_clip": 0.01135004,
      "auxiliary_loss_mlp": 0.01023927,
      "balance_loss_clip": 1.05042028,
      "balance_loss_mlp": 1.01606536,
      "epoch": 0.22942343533938556,
      "flos": 23256100874880.0,
      "grad_norm": 2.342414224062851,
      "language_loss": 0.76999205,
      "learning_rate": 3.5972762289334058e-06,
      "loss": 0.79158139,
      "num_input_tokens_seen": 40656725,
      "step": 1908,
      "time_per_iteration": 2.5337369441986084
    },
    {
      "auxiliary_loss_clip": 0.01057622,
      "auxiliary_loss_mlp": 0.01020462,
      "balance_loss_clip": 1.04132617,
      "balance_loss_mlp": 1.01299334,
      "epoch": 0.22954367823002464,
      "flos": 14612643325440.0,
      "grad_norm": 2.5143637943377724,
      "language_loss": 0.85289145,
      "learning_rate": 3.5968073136448116e-06,
      "loss": 0.87367231,
      "num_input_tokens_seen": 40674745,
      "step": 1909,
      "time_per_iteration": 2.6925487518310547
    },
    {
      "auxiliary_loss_clip": 0.01124625,
      "auxiliary_loss_mlp": 0.01024893,
      "balance_loss_clip": 1.05157125,
      "balance_loss_mlp": 1.01700759,
      "epoch": 0.22966392112066375,
      "flos": 16765466567040.0,
      "grad_norm": 2.001025862405873,
      "language_loss": 0.91722333,
      "learning_rate": 3.596338156121818e-06,
      "loss": 0.9387185,
      "num_input_tokens_seen": 40693630,
      "step": 1910,
      "time_per_iteration": 2.532965898513794
    },
    {
      "auxiliary_loss_clip": 0.01129416,
      "auxiliary_loss_mlp": 0.01004078,
      "balance_loss_clip": 1.09377003,
      "balance_loss_mlp": 1.00000119,
      "epoch": 0.22978416401130283,
      "flos": 67480716240000.0,
      "grad_norm": 0.7448810246857683,
      "language_loss": 0.59314525,
      "learning_rate": 3.595868756435595e-06,
      "loss": 0.61448014,
      "num_input_tokens_seen": 40761310,
      "step": 1911,
      "time_per_iteration": 3.304076671600342
    },
    {
      "auxiliary_loss_clip": 0.01094659,
      "auxiliary_loss_mlp": 0.01024305,
      "balance_loss_clip": 1.04875135,
      "balance_loss_mlp": 1.01673198,
      "epoch": 0.22990440690194192,
      "flos": 19867185665280.0,
      "grad_norm": 3.3535606326568663,
      "language_loss": 0.80310822,
      "learning_rate": 3.5953991146573504e-06,
      "loss": 0.8242979,
      "num_input_tokens_seen": 40779955,
      "step": 1912,
      "time_per_iteration": 2.6140003204345703
    },
    {
      "auxiliary_loss_clip": 0.01121699,
      "auxiliary_loss_mlp": 0.01025148,
      "balance_loss_clip": 1.04829049,
      "balance_loss_mlp": 1.01723838,
      "epoch": 0.23002464979258103,
      "flos": 13290457213440.0,
      "grad_norm": 4.953707109978112,
      "language_loss": 0.83380866,
      "learning_rate": 3.5949292308583294e-06,
      "loss": 0.85527712,
      "num_input_tokens_seen": 40793200,
      "step": 1913,
      "time_per_iteration": 2.556636333465576
    },
    {
      "auxiliary_loss_clip": 0.01137015,
      "auxiliary_loss_mlp": 0.01026518,
      "balance_loss_clip": 1.05417776,
      "balance_loss_mlp": 1.01858497,
      "epoch": 0.2301448926832201,
      "flos": 22165957883520.0,
      "grad_norm": 2.739728360956225,
      "language_loss": 0.81095767,
      "learning_rate": 3.594459105109811e-06,
      "loss": 0.83259302,
      "num_input_tokens_seen": 40812380,
      "step": 1914,
      "time_per_iteration": 2.5644984245300293
    },
    {
      "auxiliary_loss_clip": 0.01124694,
      "auxiliary_loss_mlp": 0.01023812,
      "balance_loss_clip": 1.05343962,
      "balance_loss_mlp": 1.01688874,
      "epoch": 0.2302651355738592,
      "flos": 20706581871360.0,
      "grad_norm": 2.1799916567620388,
      "language_loss": 0.81569904,
      "learning_rate": 3.593988737483115e-06,
      "loss": 0.83718413,
      "num_input_tokens_seen": 40832320,
      "step": 1915,
      "time_per_iteration": 2.6280863285064697
    },
    {
      "auxiliary_loss_clip": 0.01107649,
      "auxiliary_loss_mlp": 0.01022222,
      "balance_loss_clip": 1.05113792,
      "balance_loss_mlp": 1.01470017,
      "epoch": 0.23038537846449827,
      "flos": 18590966317440.0,
      "grad_norm": 2.8457948266182873,
      "language_loss": 0.78145444,
      "learning_rate": 3.5935181280495947e-06,
      "loss": 0.80275309,
      "num_input_tokens_seen": 40850900,
      "step": 1916,
      "time_per_iteration": 2.6135828495025635
    },
    {
      "auxiliary_loss_clip": 0.01108238,
      "auxiliary_loss_mlp": 0.01003878,
      "balance_loss_clip": 1.08036363,
      "balance_loss_mlp": 1.00025392,
      "epoch": 0.23050562135513739,
      "flos": 64230393899520.0,
      "grad_norm": 0.8091340298487428,
      "language_loss": 0.54285777,
      "learning_rate": 3.5930472768806412e-06,
      "loss": 0.56397897,
      "num_input_tokens_seen": 40909570,
      "step": 1917,
      "time_per_iteration": 3.1356265544891357
    },
    {
      "auxiliary_loss_clip": 0.01137418,
      "auxiliary_loss_mlp": 0.01028021,
      "balance_loss_clip": 1.05493379,
      "balance_loss_mlp": 1.02014148,
      "epoch": 0.23062586424577647,
      "flos": 17315429495040.0,
      "grad_norm": 4.462157039817784,
      "language_loss": 0.77165633,
      "learning_rate": 3.5925761840476826e-06,
      "loss": 0.7933107,
      "num_input_tokens_seen": 40928180,
      "step": 1918,
      "time_per_iteration": 2.6373178958892822
    },
    {
      "auxiliary_loss_clip": 0.0109579,
      "auxiliary_loss_mlp": 0.01024481,
      "balance_loss_clip": 1.04169679,
      "balance_loss_mlp": 1.01759696,
      "epoch": 0.23074610713641555,
      "flos": 27858498825600.0,
      "grad_norm": 3.948768919555608,
      "language_loss": 0.81557316,
      "learning_rate": 3.592104849622183e-06,
      "loss": 0.8367759,
      "num_input_tokens_seen": 40950435,
      "step": 1919,
      "time_per_iteration": 2.6510848999023438
    },
    {
      "auxiliary_loss_clip": 0.01080751,
      "auxiliary_loss_mlp": 0.01023366,
      "balance_loss_clip": 1.04563534,
      "balance_loss_mlp": 1.01571858,
      "epoch": 0.23086635002705466,
      "flos": 28844412779520.0,
      "grad_norm": 1.7554393905741046,
      "language_loss": 0.73382401,
      "learning_rate": 3.591633273675644e-06,
      "loss": 0.75486517,
      "num_input_tokens_seen": 40972670,
      "step": 1920,
      "time_per_iteration": 2.7305748462677
    },
    {
      "auxiliary_loss_clip": 0.01072378,
      "auxiliary_loss_mlp": 0.01004078,
      "balance_loss_clip": 1.06867099,
      "balance_loss_mlp": 1.00103784,
      "epoch": 0.23098659291769374,
      "flos": 62928428175360.0,
      "grad_norm": 0.9066945879662442,
      "language_loss": 0.58069885,
      "learning_rate": 3.591161456279602e-06,
      "loss": 0.60146338,
      "num_input_tokens_seen": 41018215,
      "step": 1921,
      "time_per_iteration": 3.003676176071167
    },
    {
      "auxiliary_loss_clip": 0.01107708,
      "auxiliary_loss_mlp": 0.01027052,
      "balance_loss_clip": 1.04692769,
      "balance_loss_mlp": 1.0197506,
      "epoch": 0.23110683580833283,
      "flos": 23479043656320.0,
      "grad_norm": 4.138433902264847,
      "language_loss": 0.8020016,
      "learning_rate": 3.590689397505633e-06,
      "loss": 0.82334912,
      "num_input_tokens_seen": 41039125,
      "step": 1922,
      "time_per_iteration": 2.624060869216919
    },
    {
      "auxiliary_loss_clip": 0.0113417,
      "auxiliary_loss_mlp": 0.01022889,
      "balance_loss_clip": 1.05196667,
      "balance_loss_mlp": 1.01561773,
      "epoch": 0.2312270786989719,
      "flos": 27273489540480.0,
      "grad_norm": 2.3284186272733973,
      "language_loss": 0.86481673,
      "learning_rate": 3.590217097425347e-06,
      "loss": 0.88638735,
      "num_input_tokens_seen": 41059025,
      "step": 1923,
      "time_per_iteration": 2.562610626220703
    },
    {
      "auxiliary_loss_clip": 0.01137462,
      "auxiliary_loss_mlp": 0.01024989,
      "balance_loss_clip": 1.05431843,
      "balance_loss_mlp": 1.01674008,
      "epoch": 0.23134732158961102,
      "flos": 13263032390400.0,
      "grad_norm": 6.406461701745289,
      "language_loss": 0.71064687,
      "learning_rate": 3.589744556110391e-06,
      "loss": 0.73227131,
      "num_input_tokens_seen": 41077015,
      "step": 1924,
      "time_per_iteration": 3.3092331886291504
    },
    {
      "auxiliary_loss_clip": 0.01110004,
      "auxiliary_loss_mlp": 0.01023845,
      "balance_loss_clip": 1.0481267,
      "balance_loss_mlp": 1.0167048,
      "epoch": 0.2314675644802501,
      "flos": 36980689046400.0,
      "grad_norm": 2.168834359527554,
      "language_loss": 0.84323198,
      "learning_rate": 3.58927177363245e-06,
      "loss": 0.8645705,
      "num_input_tokens_seen": 41099840,
      "step": 1925,
      "time_per_iteration": 2.7828285694122314
    },
    {
      "auxiliary_loss_clip": 0.01098471,
      "auxiliary_loss_mlp": 0.0102696,
      "balance_loss_clip": 1.04856706,
      "balance_loss_mlp": 1.01893663,
      "epoch": 0.2315878073708892,
      "flos": 23844484869120.0,
      "grad_norm": 3.133278926041723,
      "language_loss": 0.72758794,
      "learning_rate": 3.5887987500632447e-06,
      "loss": 0.74884224,
      "num_input_tokens_seen": 41117845,
      "step": 1926,
      "time_per_iteration": 3.4273834228515625
    },
    {
      "auxiliary_loss_clip": 0.0110102,
      "auxiliary_loss_mlp": 0.01022381,
      "balance_loss_clip": 1.05244017,
      "balance_loss_mlp": 1.01555014,
      "epoch": 0.2317080502615283,
      "flos": 23041651743360.0,
      "grad_norm": 2.377581050316778,
      "language_loss": 0.84542817,
      "learning_rate": 3.5883254854745325e-06,
      "loss": 0.86666214,
      "num_input_tokens_seen": 41136235,
      "step": 1927,
      "time_per_iteration": 4.223998308181763
    },
    {
      "auxiliary_loss_clip": 0.01123868,
      "auxiliary_loss_mlp": 0.0102288,
      "balance_loss_clip": 1.05023503,
      "balance_loss_mlp": 1.01533997,
      "epoch": 0.23182829315216738,
      "flos": 11256233961600.0,
      "grad_norm": 2.3434332146148904,
      "language_loss": 0.75193858,
      "learning_rate": 3.587851979938107e-06,
      "loss": 0.77340603,
      "num_input_tokens_seen": 41153125,
      "step": 1928,
      "time_per_iteration": 2.5363378524780273
    },
    {
      "auxiliary_loss_clip": 0.01115024,
      "auxiliary_loss_mlp": 0.0102213,
      "balance_loss_clip": 1.04574728,
      "balance_loss_mlp": 1.0148406,
      "epoch": 0.23194853604280646,
      "flos": 19831001765760.0,
      "grad_norm": 3.205812539387389,
      "language_loss": 0.7729224,
      "learning_rate": 3.5873782335257985e-06,
      "loss": 0.79429388,
      "num_input_tokens_seen": 41171290,
      "step": 1929,
      "time_per_iteration": 2.6097187995910645
    },
    {
      "auxiliary_loss_clip": 0.01079079,
      "auxiliary_loss_mlp": 0.01024753,
      "balance_loss_clip": 1.04013085,
      "balance_loss_mlp": 1.01716495,
      "epoch": 0.23206877893344555,
      "flos": 15306848916480.0,
      "grad_norm": 3.5587695262359778,
      "language_loss": 0.78416145,
      "learning_rate": 3.5869042463094744e-06,
      "loss": 0.80519974,
      "num_input_tokens_seen": 41189005,
      "step": 1930,
      "time_per_iteration": 2.655728578567505
    },
    {
      "auxiliary_loss_clip": 0.01076373,
      "auxiliary_loss_mlp": 0.01027398,
      "balance_loss_clip": 1.04222143,
      "balance_loss_mlp": 1.01969719,
      "epoch": 0.23218902182408466,
      "flos": 22713721562880.0,
      "grad_norm": 2.9824823937271963,
      "language_loss": 0.76771164,
      "learning_rate": 3.586430018361038e-06,
      "loss": 0.78874934,
      "num_input_tokens_seen": 41208775,
      "step": 1931,
      "time_per_iteration": 2.673342704772949
    },
    {
      "auxiliary_loss_clip": 0.0111428,
      "auxiliary_loss_mlp": 0.01025664,
      "balance_loss_clip": 1.05157804,
      "balance_loss_mlp": 1.01790941,
      "epoch": 0.23230926471472374,
      "flos": 22712925283200.0,
      "grad_norm": 2.4092238685536906,
      "language_loss": 0.76298988,
      "learning_rate": 3.5859555497524283e-06,
      "loss": 0.78438932,
      "num_input_tokens_seen": 41226010,
      "step": 1932,
      "time_per_iteration": 2.619844913482666
    },
    {
      "auxiliary_loss_clip": 0.01122492,
      "auxiliary_loss_mlp": 0.01027601,
      "balance_loss_clip": 1.05247545,
      "balance_loss_mlp": 1.02027237,
      "epoch": 0.23242950760536282,
      "flos": 20377552066560.0,
      "grad_norm": 2.1344062053252086,
      "language_loss": 0.92266119,
      "learning_rate": 3.5854808405556237e-06,
      "loss": 0.94416213,
      "num_input_tokens_seen": 41245245,
      "step": 1933,
      "time_per_iteration": 2.558349370956421
    },
    {
      "auxiliary_loss_clip": 0.01094149,
      "auxiliary_loss_mlp": 0.01026257,
      "balance_loss_clip": 1.04605293,
      "balance_loss_mlp": 1.0193547,
      "epoch": 0.23254975049600193,
      "flos": 16910126328960.0,
      "grad_norm": 7.544616568305684,
      "language_loss": 0.75399244,
      "learning_rate": 3.5850058908426355e-06,
      "loss": 0.77519649,
      "num_input_tokens_seen": 41263795,
      "step": 1934,
      "time_per_iteration": 2.6511518955230713
    },
    {
      "auxiliary_loss_clip": 0.01111158,
      "auxiliary_loss_mlp": 0.01026024,
      "balance_loss_clip": 1.04867578,
      "balance_loss_mlp": 1.01924741,
      "epoch": 0.23266999338664102,
      "flos": 23297062452480.0,
      "grad_norm": 4.3294952740467085,
      "language_loss": 0.85927832,
      "learning_rate": 3.584530700685514e-06,
      "loss": 0.88065016,
      "num_input_tokens_seen": 41284055,
      "step": 1935,
      "time_per_iteration": 2.5991690158843994
    },
    {
      "auxiliary_loss_clip": 0.01102246,
      "auxiliary_loss_mlp": 0.01022444,
      "balance_loss_clip": 1.04669237,
      "balance_loss_mlp": 1.01540208,
      "epoch": 0.2327902362772801,
      "flos": 19571837166720.0,
      "grad_norm": 3.053714762696525,
      "language_loss": 0.88992441,
      "learning_rate": 3.5840552701563448e-06,
      "loss": 0.91117132,
      "num_input_tokens_seen": 41300255,
      "step": 1936,
      "time_per_iteration": 2.5777487754821777
    },
    {
      "auxiliary_loss_clip": 0.01131685,
      "auxiliary_loss_mlp": 0.01025947,
      "balance_loss_clip": 1.05039597,
      "balance_loss_mlp": 1.01873469,
      "epoch": 0.2329104791679192,
      "flos": 16729396421760.0,
      "grad_norm": 2.75308648471346,
      "language_loss": 0.81388897,
      "learning_rate": 3.5835795993272513e-06,
      "loss": 0.83546531,
      "num_input_tokens_seen": 41318540,
      "step": 1937,
      "time_per_iteration": 2.4952242374420166
    },
    {
      "auxiliary_loss_clip": 0.01029901,
      "auxiliary_loss_mlp": 0.01030201,
      "balance_loss_clip": 1.03501976,
      "balance_loss_mlp": 1.02269065,
      "epoch": 0.2330307220585583,
      "flos": 22165919965440.0,
      "grad_norm": 3.109376137289758,
      "language_loss": 0.71071452,
      "learning_rate": 3.583103688270391e-06,
      "loss": 0.73131555,
      "num_input_tokens_seen": 41338320,
      "step": 1938,
      "time_per_iteration": 3.0267345905303955
    },
    {
      "auxiliary_loss_clip": 0.01114751,
      "auxiliary_loss_mlp": 0.01026837,
      "balance_loss_clip": 1.05203366,
      "balance_loss_mlp": 1.01881456,
      "epoch": 0.23315096494919738,
      "flos": 19319308231680.0,
      "grad_norm": 2.7385950535112142,
      "language_loss": 0.89549553,
      "learning_rate": 3.58262753705796e-06,
      "loss": 0.91691142,
      "num_input_tokens_seen": 41353210,
      "step": 1939,
      "time_per_iteration": 2.897467613220215
    },
    {
      "auxiliary_loss_clip": 0.01115252,
      "auxiliary_loss_mlp": 0.0102848,
      "balance_loss_clip": 1.08310318,
      "balance_loss_mlp": 1.02454662,
      "epoch": 0.23327120783983646,
      "flos": 53037000247680.0,
      "grad_norm": 0.7582793247548978,
      "language_loss": 0.55496651,
      "learning_rate": 3.5821511457621902e-06,
      "loss": 0.57640386,
      "num_input_tokens_seen": 41410510,
      "step": 1940,
      "time_per_iteration": 3.169163465499878
    },
    {
      "auxiliary_loss_clip": 0.01107856,
      "auxiliary_loss_mlp": 0.01026896,
      "balance_loss_clip": 1.04819,
      "balance_loss_mlp": 1.01874816,
      "epoch": 0.23339145073047557,
      "flos": 17128784367360.0,
      "grad_norm": 7.213865262971658,
      "language_loss": 0.81612098,
      "learning_rate": 3.5816745144553497e-06,
      "loss": 0.8374685,
      "num_input_tokens_seen": 41425830,
      "step": 1941,
      "time_per_iteration": 2.5728790760040283
    },
    {
      "auxiliary_loss_clip": 0.0107055,
      "auxiliary_loss_mlp": 0.01023324,
      "balance_loss_clip": 1.04051554,
      "balance_loss_mlp": 1.01628149,
      "epoch": 0.23351169362111465,
      "flos": 13080596169600.0,
      "grad_norm": 2.455508420798755,
      "language_loss": 0.75794291,
      "learning_rate": 3.5811976432097424e-06,
      "loss": 0.77888167,
      "num_input_tokens_seen": 41443500,
      "step": 1942,
      "time_per_iteration": 2.6104891300201416
    },
    {
      "auxiliary_loss_clip": 0.01119682,
      "auxiliary_loss_mlp": 0.00757021,
      "balance_loss_clip": 1.05109966,
      "balance_loss_mlp": 1.00101686,
      "epoch": 0.23363193651175373,
      "flos": 15853057954560.0,
      "grad_norm": 2.639000708015216,
      "language_loss": 0.8468495,
      "learning_rate": 3.58072053209771e-06,
      "loss": 0.86561656,
      "num_input_tokens_seen": 41460055,
      "step": 1943,
      "time_per_iteration": 2.551809310913086
    },
    {
      "auxiliary_loss_clip": 0.01112216,
      "auxiliary_loss_mlp": 0.01022651,
      "balance_loss_clip": 1.04943502,
      "balance_loss_mlp": 1.01489019,
      "epoch": 0.23375217940239285,
      "flos": 21027497207040.0,
      "grad_norm": 3.303990885733281,
      "language_loss": 0.79022616,
      "learning_rate": 3.5802431811916296e-06,
      "loss": 0.81157482,
      "num_input_tokens_seen": 41476665,
      "step": 1944,
      "time_per_iteration": 2.598628044128418
    },
    {
      "auxiliary_loss_clip": 0.01105272,
      "auxiliary_loss_mlp": 0.01024064,
      "balance_loss_clip": 1.04849315,
      "balance_loss_mlp": 1.0168339,
      "epoch": 0.23387242229303193,
      "flos": 20596778876160.0,
      "grad_norm": 4.680451798704483,
      "language_loss": 0.80723655,
      "learning_rate": 3.579765590563916e-06,
      "loss": 0.82852983,
      "num_input_tokens_seen": 41496065,
      "step": 1945,
      "time_per_iteration": 2.586939811706543
    },
    {
      "auxiliary_loss_clip": 0.01123815,
      "auxiliary_loss_mlp": 0.01026783,
      "balance_loss_clip": 1.05126858,
      "balance_loss_mlp": 1.01948786,
      "epoch": 0.233992665183671,
      "flos": 24281763027840.0,
      "grad_norm": 2.172854419639441,
      "language_loss": 0.81552994,
      "learning_rate": 3.579287760287017e-06,
      "loss": 0.83703589,
      "num_input_tokens_seen": 41516815,
      "step": 1946,
      "time_per_iteration": 2.6104931831359863
    },
    {
      "auxiliary_loss_clip": 0.01120532,
      "auxiliary_loss_mlp": 0.01022504,
      "balance_loss_clip": 1.0509069,
      "balance_loss_mlp": 1.01497245,
      "epoch": 0.2341129080743101,
      "flos": 30157271043840.0,
      "grad_norm": 1.841524875540565,
      "language_loss": 0.72895694,
      "learning_rate": 3.578809690433421e-06,
      "loss": 0.75038731,
      "num_input_tokens_seen": 41538525,
      "step": 1947,
      "time_per_iteration": 2.663116455078125
    },
    {
      "auxiliary_loss_clip": 0.01136303,
      "auxiliary_loss_mlp": 0.01025459,
      "balance_loss_clip": 1.05419254,
      "balance_loss_mlp": 1.01767457,
      "epoch": 0.2342331509649492,
      "flos": 22786354788480.0,
      "grad_norm": 5.075428720553703,
      "language_loss": 0.81486666,
      "learning_rate": 3.578331381075651e-06,
      "loss": 0.83648431,
      "num_input_tokens_seen": 41559025,
      "step": 1948,
      "time_per_iteration": 2.5414445400238037
    },
    {
      "auxiliary_loss_clip": 0.0112249,
      "auxiliary_loss_mlp": 0.01024906,
      "balance_loss_clip": 1.05030537,
      "balance_loss_mlp": 1.01733661,
      "epoch": 0.2343533938555883,
      "flos": 23625409731840.0,
      "grad_norm": 3.2602223814344007,
      "language_loss": 0.69674253,
      "learning_rate": 3.5778528322862646e-06,
      "loss": 0.71821654,
      "num_input_tokens_seen": 41577845,
      "step": 1949,
      "time_per_iteration": 2.6206936836242676
    },
    {
      "auxiliary_loss_clip": 0.01122954,
      "auxiliary_loss_mlp": 0.01021582,
      "balance_loss_clip": 1.05101943,
      "balance_loss_mlp": 1.01422083,
      "epoch": 0.23447363674622737,
      "flos": 24572561356800.0,
      "grad_norm": 1.7823570811096228,
      "language_loss": 0.86380601,
      "learning_rate": 3.5773740441378585e-06,
      "loss": 0.8852514,
      "num_input_tokens_seen": 41598600,
      "step": 1950,
      "time_per_iteration": 2.5840260982513428
    },
    {
      "auxiliary_loss_clip": 0.01115631,
      "auxiliary_loss_mlp": 0.0102626,
      "balance_loss_clip": 1.04797161,
      "balance_loss_mlp": 1.01928294,
      "epoch": 0.23459387963686648,
      "flos": 53144234864640.0,
      "grad_norm": 2.4269958038127806,
      "language_loss": 0.74018365,
      "learning_rate": 3.5768950167030633e-06,
      "loss": 0.76160252,
      "num_input_tokens_seen": 41623300,
      "step": 1951,
      "time_per_iteration": 3.7731423377990723
    },
    {
      "auxiliary_loss_clip": 0.01114399,
      "auxiliary_loss_mlp": 0.01027649,
      "balance_loss_clip": 1.05265594,
      "balance_loss_mlp": 1.01976991,
      "epoch": 0.23471412252750556,
      "flos": 23953681175040.0,
      "grad_norm": 4.541838589060701,
      "language_loss": 0.78225112,
      "learning_rate": 3.576415750054548e-06,
      "loss": 0.80367166,
      "num_input_tokens_seen": 41643420,
      "step": 1952,
      "time_per_iteration": 3.454024076461792
    },
    {
      "auxiliary_loss_clip": 0.0109801,
      "auxiliary_loss_mlp": 0.01021994,
      "balance_loss_clip": 1.04187107,
      "balance_loss_mlp": 1.01489782,
      "epoch": 0.23483436541814465,
      "flos": 15708436110720.0,
      "grad_norm": 3.4160192929275772,
      "language_loss": 0.85735643,
      "learning_rate": 3.5759362442650172e-06,
      "loss": 0.87855649,
      "num_input_tokens_seen": 41660170,
      "step": 1953,
      "time_per_iteration": 4.313723564147949
    },
    {
      "auxiliary_loss_clip": 0.01112741,
      "auxiliary_loss_mlp": 0.0102282,
      "balance_loss_clip": 1.0493474,
      "balance_loss_mlp": 1.0154649,
      "epoch": 0.23495460830878373,
      "flos": 24938571340800.0,
      "grad_norm": 2.915754043331504,
      "language_loss": 0.85890466,
      "learning_rate": 3.5754564994072113e-06,
      "loss": 0.88026023,
      "num_input_tokens_seen": 41679010,
      "step": 1954,
      "time_per_iteration": 2.6420040130615234
    },
    {
      "auxiliary_loss_clip": 0.01113815,
      "auxiliary_loss_mlp": 0.01022862,
      "balance_loss_clip": 1.05287862,
      "balance_loss_mlp": 1.01513755,
      "epoch": 0.23507485119942284,
      "flos": 30485314978560.0,
      "grad_norm": 2.958051487439807,
      "language_loss": 0.60053647,
      "learning_rate": 3.5749765155539067e-06,
      "loss": 0.62190318,
      "num_input_tokens_seen": 41699495,
      "step": 1955,
      "time_per_iteration": 2.6896982192993164
    },
    {
      "auxiliary_loss_clip": 0.01094266,
      "auxiliary_loss_mlp": 0.01024725,
      "balance_loss_clip": 1.04694355,
      "balance_loss_mlp": 1.01714349,
      "epoch": 0.23519509409006192,
      "flos": 18330891684480.0,
      "grad_norm": 2.6791096822115925,
      "language_loss": 0.92164373,
      "learning_rate": 3.574496292777917e-06,
      "loss": 0.94283366,
      "num_input_tokens_seen": 41717705,
      "step": 1956,
      "time_per_iteration": 2.5815541744232178
    },
    {
      "auxiliary_loss_clip": 0.0110555,
      "auxiliary_loss_mlp": 0.01026254,
      "balance_loss_clip": 1.04653502,
      "balance_loss_mlp": 1.01827312,
      "epoch": 0.235315336980701,
      "flos": 29645805018240.0,
      "grad_norm": 2.9616482859039364,
      "language_loss": 0.71514082,
      "learning_rate": 3.574015831152092e-06,
      "loss": 0.7364589,
      "num_input_tokens_seen": 41738120,
      "step": 1957,
      "time_per_iteration": 2.670802116394043
    },
    {
      "auxiliary_loss_clip": 0.01102959,
      "auxiliary_loss_mlp": 0.0102429,
      "balance_loss_clip": 1.04696488,
      "balance_loss_mlp": 1.01685715,
      "epoch": 0.23543557987134012,
      "flos": 18553682793600.0,
      "grad_norm": 3.65609966117614,
      "language_loss": 0.83188486,
      "learning_rate": 3.573535130749316e-06,
      "loss": 0.85315734,
      "num_input_tokens_seen": 41756070,
      "step": 1958,
      "time_per_iteration": 2.5531301498413086
    },
    {
      "auxiliary_loss_clip": 0.01103607,
      "auxiliary_loss_mlp": 0.01027994,
      "balance_loss_clip": 1.04785824,
      "balance_loss_mlp": 1.02099013,
      "epoch": 0.2355558227619792,
      "flos": 24681226809600.0,
      "grad_norm": 1.8712511058035466,
      "language_loss": 0.73902333,
      "learning_rate": 3.5730541916425127e-06,
      "loss": 0.76033926,
      "num_input_tokens_seen": 41777550,
      "step": 1959,
      "time_per_iteration": 2.638174533843994
    },
    {
      "auxiliary_loss_clip": 0.01090134,
      "auxiliary_loss_mlp": 0.01021899,
      "balance_loss_clip": 1.04536998,
      "balance_loss_mlp": 1.01473737,
      "epoch": 0.23567606565261828,
      "flos": 21946958582400.0,
      "grad_norm": 3.688651613932698,
      "language_loss": 0.85965443,
      "learning_rate": 3.572573013904639e-06,
      "loss": 0.88077474,
      "num_input_tokens_seen": 41797460,
      "step": 1960,
      "time_per_iteration": 2.614331007003784
    },
    {
      "auxiliary_loss_clip": 0.01131629,
      "auxiliary_loss_mlp": 0.01021828,
      "balance_loss_clip": 1.05011642,
      "balance_loss_mlp": 1.01463413,
      "epoch": 0.2357963085432574,
      "flos": 13591038407040.0,
      "grad_norm": 4.969581872773449,
      "language_loss": 0.92172074,
      "learning_rate": 3.572091597608689e-06,
      "loss": 0.94325531,
      "num_input_tokens_seen": 41815585,
      "step": 1961,
      "time_per_iteration": 2.558626174926758
    },
    {
      "auxiliary_loss_clip": 0.01105713,
      "auxiliary_loss_mlp": 0.010227,
      "balance_loss_clip": 1.0480603,
      "balance_loss_mlp": 1.01477265,
      "epoch": 0.23591655143389648,
      "flos": 22090746228480.0,
      "grad_norm": 5.260629062574512,
      "language_loss": 0.731399,
      "learning_rate": 3.571609942827694e-06,
      "loss": 0.7526831,
      "num_input_tokens_seen": 41834700,
      "step": 1962,
      "time_per_iteration": 2.5951404571533203
    },
    {
      "auxiliary_loss_clip": 0.0110797,
      "auxiliary_loss_mlp": 0.01021788,
      "balance_loss_clip": 1.04896164,
      "balance_loss_mlp": 1.01474905,
      "epoch": 0.23603679432453556,
      "flos": 17019133044480.0,
      "grad_norm": 2.2867460321609454,
      "language_loss": 0.88583916,
      "learning_rate": 3.57112804963472e-06,
      "loss": 0.9071368,
      "num_input_tokens_seen": 41852915,
      "step": 1963,
      "time_per_iteration": 2.593168020248413
    },
    {
      "auxiliary_loss_clip": 0.01086234,
      "auxiliary_loss_mlp": 0.0102435,
      "balance_loss_clip": 1.04508364,
      "balance_loss_mlp": 1.01746535,
      "epoch": 0.23615703721517464,
      "flos": 19173283418880.0,
      "grad_norm": 2.116931834679718,
      "language_loss": 0.76568317,
      "learning_rate": 3.57064591810287e-06,
      "loss": 0.78678894,
      "num_input_tokens_seen": 41870415,
      "step": 1964,
      "time_per_iteration": 2.571948289871216
    },
    {
      "auxiliary_loss_clip": 0.01133361,
      "auxiliary_loss_mlp": 0.00757069,
      "balance_loss_clip": 1.05250442,
      "balance_loss_mlp": 1.00107837,
      "epoch": 0.23627728010581375,
      "flos": 19100801865600.0,
      "grad_norm": 4.319653267819183,
      "language_loss": 0.79773051,
      "learning_rate": 3.570163548305284e-06,
      "loss": 0.81663477,
      "num_input_tokens_seen": 41889345,
      "step": 1965,
      "time_per_iteration": 2.550978899002075
    },
    {
      "auxiliary_loss_clip": 0.01105118,
      "auxiliary_loss_mlp": 0.01023145,
      "balance_loss_clip": 1.04853392,
      "balance_loss_mlp": 1.0157603,
      "epoch": 0.23639752299645284,
      "flos": 14283916865280.0,
      "grad_norm": 9.652339093231266,
      "language_loss": 0.70147574,
      "learning_rate": 3.569680940315135e-06,
      "loss": 0.72275841,
      "num_input_tokens_seen": 41905745,
      "step": 1966,
      "time_per_iteration": 2.5422143936157227
    },
    {
      "auxiliary_loss_clip": 0.01096648,
      "auxiliary_loss_mlp": 0.01027584,
      "balance_loss_clip": 1.04938185,
      "balance_loss_mlp": 1.01929891,
      "epoch": 0.23651776588709192,
      "flos": 22895626930560.0,
      "grad_norm": 3.066512870796055,
      "language_loss": 0.8174367,
      "learning_rate": 3.5691980942056356e-06,
      "loss": 0.83867902,
      "num_input_tokens_seen": 41925115,
      "step": 1967,
      "time_per_iteration": 2.67919921875
    },
    {
      "auxiliary_loss_clip": 0.01119102,
      "auxiliary_loss_mlp": 0.01024172,
      "balance_loss_clip": 1.04760301,
      "balance_loss_mlp": 1.01692975,
      "epoch": 0.23663800877773103,
      "flos": 18626505609600.0,
      "grad_norm": 2.5158816680696843,
      "language_loss": 0.79083204,
      "learning_rate": 3.5687150100500332e-06,
      "loss": 0.8122648,
      "num_input_tokens_seen": 41944815,
      "step": 1968,
      "time_per_iteration": 2.5410053730010986
    },
    {
      "auxiliary_loss_clip": 0.01118348,
      "auxiliary_loss_mlp": 0.010214,
      "balance_loss_clip": 1.04871845,
      "balance_loss_mlp": 1.01408374,
      "epoch": 0.2367582516683701,
      "flos": 25558134048000.0,
      "grad_norm": 2.069693691441054,
      "language_loss": 0.74467599,
      "learning_rate": 3.568231687921611e-06,
      "loss": 0.76607347,
      "num_input_tokens_seen": 41964990,
      "step": 1969,
      "time_per_iteration": 2.6226675510406494
    },
    {
      "auxiliary_loss_clip": 0.01128932,
      "auxiliary_loss_mlp": 0.01024683,
      "balance_loss_clip": 1.04809451,
      "balance_loss_mlp": 1.01787353,
      "epoch": 0.2368784945590092,
      "flos": 23297327879040.0,
      "grad_norm": 3.0616048069169337,
      "language_loss": 0.80528992,
      "learning_rate": 3.5677481278936883e-06,
      "loss": 0.82682604,
      "num_input_tokens_seen": 41984570,
      "step": 1970,
      "time_per_iteration": 2.5239667892456055
    },
    {
      "auxiliary_loss_clip": 0.01081718,
      "auxiliary_loss_mlp": 0.01000893,
      "balance_loss_clip": 1.0521605,
      "balance_loss_mlp": 0.99760294,
      "epoch": 0.23699873744964828,
      "flos": 69866644308480.0,
      "grad_norm": 0.8305549320656705,
      "language_loss": 0.57772285,
      "learning_rate": 3.5672643300396214e-06,
      "loss": 0.59854895,
      "num_input_tokens_seen": 42053715,
      "step": 1971,
      "time_per_iteration": 3.24410080909729
    },
    {
      "auxiliary_loss_clip": 0.01090266,
      "auxiliary_loss_mlp": 0.01021566,
      "balance_loss_clip": 1.0460161,
      "balance_loss_mlp": 1.01478601,
      "epoch": 0.2371189803402874,
      "flos": 21837193505280.0,
      "grad_norm": 12.639326524275448,
      "language_loss": 0.67948699,
      "learning_rate": 3.566780294432802e-06,
      "loss": 0.70060527,
      "num_input_tokens_seen": 42070890,
      "step": 1972,
      "time_per_iteration": 2.6788275241851807
    },
    {
      "auxiliary_loss_clip": 0.01131826,
      "auxiliary_loss_mlp": 0.0102597,
      "balance_loss_clip": 1.05185294,
      "balance_loss_mlp": 1.01892447,
      "epoch": 0.23723922323092647,
      "flos": 21910660928640.0,
      "grad_norm": 5.452871149986378,
      "language_loss": 0.74564528,
      "learning_rate": 3.566296021146657e-06,
      "loss": 0.76722324,
      "num_input_tokens_seen": 42090270,
      "step": 1973,
      "time_per_iteration": 2.5406081676483154
    },
    {
      "auxiliary_loss_clip": 0.01133973,
      "auxiliary_loss_mlp": 0.01020382,
      "balance_loss_clip": 1.05289793,
      "balance_loss_mlp": 1.01250792,
      "epoch": 0.23735946612156555,
      "flos": 32711605643520.0,
      "grad_norm": 3.5334947210729664,
      "language_loss": 0.7289055,
      "learning_rate": 3.565811510254652e-06,
      "loss": 0.75044906,
      "num_input_tokens_seen": 42111150,
      "step": 1974,
      "time_per_iteration": 2.6797361373901367
    },
    {
      "auxiliary_loss_clip": 0.01093295,
      "auxiliary_loss_mlp": 0.01004093,
      "balance_loss_clip": 1.06182432,
      "balance_loss_mlp": 1.00125599,
      "epoch": 0.23747970901220466,
      "flos": 70554024645120.0,
      "grad_norm": 0.8529683905399342,
      "language_loss": 0.58221728,
      "learning_rate": 3.5653267618302845e-06,
      "loss": 0.60319114,
      "num_input_tokens_seen": 42178730,
      "step": 1975,
      "time_per_iteration": 3.1909801959991455
    },
    {
      "auxiliary_loss_clip": 0.0113283,
      "auxiliary_loss_mlp": 0.01023699,
      "balance_loss_clip": 1.05149662,
      "balance_loss_mlp": 1.01658511,
      "epoch": 0.23759995190284375,
      "flos": 20851886240640.0,
      "grad_norm": 2.5489731786690024,
      "language_loss": 0.85704058,
      "learning_rate": 3.564841775947093e-06,
      "loss": 0.87860584,
      "num_input_tokens_seen": 42199620,
      "step": 1976,
      "time_per_iteration": 3.322709083557129
    },
    {
      "auxiliary_loss_clip": 0.01095463,
      "auxiliary_loss_mlp": 0.01023482,
      "balance_loss_clip": 1.0461731,
      "balance_loss_mlp": 1.0164907,
      "epoch": 0.23772019479348283,
      "flos": 32924120952960.0,
      "grad_norm": 3.704091620707154,
      "language_loss": 0.76338637,
      "learning_rate": 3.5643565526786475e-06,
      "loss": 0.78457582,
      "num_input_tokens_seen": 42219560,
      "step": 1977,
      "time_per_iteration": 2.704343795776367
    },
    {
      "auxiliary_loss_clip": 0.01132738,
      "auxiliary_loss_mlp": 0.01023866,
      "balance_loss_clip": 1.05130386,
      "balance_loss_mlp": 1.01657081,
      "epoch": 0.2378404376841219,
      "flos": 32345481905280.0,
      "grad_norm": 2.399963348255503,
      "language_loss": 0.77439034,
      "learning_rate": 3.5638710920985574e-06,
      "loss": 0.79595637,
      "num_input_tokens_seen": 42241020,
      "step": 1978,
      "time_per_iteration": 3.400824785232544
    },
    {
      "auxiliary_loss_clip": 0.01117489,
      "auxiliary_loss_mlp": 0.00757533,
      "balance_loss_clip": 1.04597116,
      "balance_loss_mlp": 1.00109363,
      "epoch": 0.23796068057476102,
      "flos": 22999552623360.0,
      "grad_norm": 4.396202847452771,
      "language_loss": 0.81948078,
      "learning_rate": 3.5633853942804655e-06,
      "loss": 0.83823097,
      "num_input_tokens_seen": 42259345,
      "step": 1979,
      "time_per_iteration": 3.4206063747406006
    },
    {
      "auxiliary_loss_clip": 0.01093915,
      "auxiliary_loss_mlp": 0.01026082,
      "balance_loss_clip": 1.04521286,
      "balance_loss_mlp": 1.01861632,
      "epoch": 0.2380809234654001,
      "flos": 13482676298880.0,
      "grad_norm": 3.4399787640209216,
      "language_loss": 0.76354384,
      "learning_rate": 3.5628994592980527e-06,
      "loss": 0.78474379,
      "num_input_tokens_seen": 42277250,
      "step": 1980,
      "time_per_iteration": 2.5844428539276123
    },
    {
      "auxiliary_loss_clip": 0.01129858,
      "auxiliary_loss_mlp": 0.01022522,
      "balance_loss_clip": 1.04915321,
      "balance_loss_mlp": 1.01557827,
      "epoch": 0.2382011663560392,
      "flos": 16873601166720.0,
      "grad_norm": 2.386399910941019,
      "language_loss": 0.70603925,
      "learning_rate": 3.562413287225034e-06,
      "loss": 0.72756308,
      "num_input_tokens_seen": 42295360,
      "step": 1981,
      "time_per_iteration": 2.5689613819122314
    },
    {
      "auxiliary_loss_clip": 0.01124218,
      "auxiliary_loss_mlp": 0.01021508,
      "balance_loss_clip": 1.05273497,
      "balance_loss_mlp": 1.0141921,
      "epoch": 0.2383214092466783,
      "flos": 18443045600640.0,
      "grad_norm": 2.6056697359883545,
      "language_loss": 0.89086241,
      "learning_rate": 3.5619268781351623e-06,
      "loss": 0.91231966,
      "num_input_tokens_seen": 42313430,
      "step": 1982,
      "time_per_iteration": 2.554384231567383
    },
    {
      "auxiliary_loss_clip": 0.01100867,
      "auxiliary_loss_mlp": 0.0102219,
      "balance_loss_clip": 1.04765737,
      "balance_loss_mlp": 1.01567841,
      "epoch": 0.23844165213731738,
      "flos": 19757761850880.0,
      "grad_norm": 2.154762970198243,
      "language_loss": 0.76229191,
      "learning_rate": 3.5614402321022256e-06,
      "loss": 0.78352249,
      "num_input_tokens_seen": 42331260,
      "step": 1983,
      "time_per_iteration": 2.6392972469329834
    },
    {
      "auxiliary_loss_clip": 0.01077064,
      "auxiliary_loss_mlp": 0.01021792,
      "balance_loss_clip": 1.04568923,
      "balance_loss_mlp": 1.0148778,
      "epoch": 0.23856189502795647,
      "flos": 23369581923840.0,
      "grad_norm": 2.1543002281310204,
      "language_loss": 0.87050557,
      "learning_rate": 3.5609533492000463e-06,
      "loss": 0.89149415,
      "num_input_tokens_seen": 42350150,
      "step": 1984,
      "time_per_iteration": 2.7407779693603516
    },
    {
      "auxiliary_loss_clip": 0.01096933,
      "auxiliary_loss_mlp": 0.01021238,
      "balance_loss_clip": 1.04486656,
      "balance_loss_mlp": 1.01413918,
      "epoch": 0.23868213791859555,
      "flos": 23477185670400.0,
      "grad_norm": 7.765175200450652,
      "language_loss": 0.78491879,
      "learning_rate": 3.560466229502485e-06,
      "loss": 0.80610049,
      "num_input_tokens_seen": 42369495,
      "step": 1985,
      "time_per_iteration": 2.659125328063965
    },
    {
      "auxiliary_loss_clip": 0.01096976,
      "auxiliary_loss_mlp": 0.00757113,
      "balance_loss_clip": 1.04604769,
      "balance_loss_mlp": 1.00108528,
      "epoch": 0.23880238080923466,
      "flos": 16619176327680.0,
      "grad_norm": 2.3192326804207086,
      "language_loss": 0.89250308,
      "learning_rate": 3.5599788730834384e-06,
      "loss": 0.911044,
      "num_input_tokens_seen": 42387455,
      "step": 1986,
      "time_per_iteration": 2.6206939220428467
    },
    {
      "auxiliary_loss_clip": 0.01119604,
      "auxiliary_loss_mlp": 0.01021487,
      "balance_loss_clip": 1.05006003,
      "balance_loss_mlp": 1.01419449,
      "epoch": 0.23892262369987374,
      "flos": 17350362097920.0,
      "grad_norm": 4.458473418251241,
      "language_loss": 0.78782368,
      "learning_rate": 3.559491280016836e-06,
      "loss": 0.80923456,
      "num_input_tokens_seen": 42405400,
      "step": 1987,
      "time_per_iteration": 2.584324598312378
    },
    {
      "auxiliary_loss_clip": 0.01103732,
      "auxiliary_loss_mlp": 0.01024814,
      "balance_loss_clip": 1.04759908,
      "balance_loss_mlp": 1.01739645,
      "epoch": 0.23904286659051283,
      "flos": 22312096450560.0,
      "grad_norm": 2.042855272052937,
      "language_loss": 0.71344656,
      "learning_rate": 3.5590034503766465e-06,
      "loss": 0.73473197,
      "num_input_tokens_seen": 42425065,
      "step": 1988,
      "time_per_iteration": 2.62803316116333
    },
    {
      "auxiliary_loss_clip": 0.01133401,
      "auxiliary_loss_mlp": 0.01023792,
      "balance_loss_clip": 1.05269861,
      "balance_loss_mlp": 1.01723576,
      "epoch": 0.23916310948115194,
      "flos": 21180347274240.0,
      "grad_norm": 4.694634678492691,
      "language_loss": 0.81808466,
      "learning_rate": 3.558515384236874e-06,
      "loss": 0.83965659,
      "num_input_tokens_seen": 42442495,
      "step": 1989,
      "time_per_iteration": 2.5296077728271484
    },
    {
      "auxiliary_loss_clip": 0.01087038,
      "auxiliary_loss_mlp": 0.00757602,
      "balance_loss_clip": 1.04457021,
      "balance_loss_mlp": 1.00120914,
      "epoch": 0.23928335237179102,
      "flos": 14139105431040.0,
      "grad_norm": 1.957021576339135,
      "language_loss": 0.84256506,
      "learning_rate": 3.558027081671556e-06,
      "loss": 0.86101151,
      "num_input_tokens_seen": 42459480,
      "step": 1990,
      "time_per_iteration": 2.633039712905884
    },
    {
      "auxiliary_loss_clip": 0.01123239,
      "auxiliary_loss_mlp": 0.01026028,
      "balance_loss_clip": 1.05168343,
      "balance_loss_mlp": 1.01822257,
      "epoch": 0.2394035952624301,
      "flos": 23771889561600.0,
      "grad_norm": 2.0533381846188816,
      "language_loss": 0.68841642,
      "learning_rate": 3.557538542754769e-06,
      "loss": 0.70990908,
      "num_input_tokens_seen": 42479175,
      "step": 1991,
      "time_per_iteration": 2.5842466354370117
    },
    {
      "auxiliary_loss_clip": 0.01134183,
      "auxiliary_loss_mlp": 0.0102673,
      "balance_loss_clip": 1.05417955,
      "balance_loss_mlp": 1.01915443,
      "epoch": 0.2395238381530692,
      "flos": 24208447276800.0,
      "grad_norm": 3.3015179461229516,
      "language_loss": 0.66854054,
      "learning_rate": 3.557049767560623e-06,
      "loss": 0.69014966,
      "num_input_tokens_seen": 42498090,
      "step": 1992,
      "time_per_iteration": 2.5685386657714844
    },
    {
      "auxiliary_loss_clip": 0.01078855,
      "auxiliary_loss_mlp": 0.01024111,
      "balance_loss_clip": 1.04718781,
      "balance_loss_mlp": 1.01679718,
      "epoch": 0.2396440810437083,
      "flos": 25297793988480.0,
      "grad_norm": 2.837333637407187,
      "language_loss": 0.85458541,
      "learning_rate": 3.5565607561632655e-06,
      "loss": 0.875615,
      "num_input_tokens_seen": 42516930,
      "step": 1993,
      "time_per_iteration": 2.693225622177124
    },
    {
      "auxiliary_loss_clip": 0.01099132,
      "auxiliary_loss_mlp": 0.01023425,
      "balance_loss_clip": 1.04652786,
      "balance_loss_mlp": 1.01567078,
      "epoch": 0.23976432393434738,
      "flos": 28545310391040.0,
      "grad_norm": 2.811428653169413,
      "language_loss": 0.7986666,
      "learning_rate": 3.5560715086368787e-06,
      "loss": 0.81989217,
      "num_input_tokens_seen": 42534800,
      "step": 1994,
      "time_per_iteration": 2.6621060371398926
    },
    {
      "auxiliary_loss_clip": 0.01093077,
      "auxiliary_loss_mlp": 0.01025939,
      "balance_loss_clip": 1.04326725,
      "balance_loss_mlp": 1.0188849,
      "epoch": 0.23988456682498646,
      "flos": 19496056740480.0,
      "grad_norm": 3.629025473825985,
      "language_loss": 0.82333159,
      "learning_rate": 3.5555820250556816e-06,
      "loss": 0.84452176,
      "num_input_tokens_seen": 42552000,
      "step": 1995,
      "time_per_iteration": 2.5619821548461914
    },
    {
      "auxiliary_loss_clip": 0.01108163,
      "auxiliary_loss_mlp": 0.0102654,
      "balance_loss_clip": 1.05034804,
      "balance_loss_mlp": 1.01927423,
      "epoch": 0.24000480971562557,
      "flos": 20268393678720.0,
      "grad_norm": 4.697457500456,
      "language_loss": 0.69164151,
      "learning_rate": 3.5550923054939278e-06,
      "loss": 0.7129885,
      "num_input_tokens_seen": 42571455,
      "step": 1996,
      "time_per_iteration": 2.606663227081299
    },
    {
      "auxiliary_loss_clip": 0.01076031,
      "auxiliary_loss_mlp": 0.01022828,
      "balance_loss_clip": 1.04471493,
      "balance_loss_mlp": 1.01600313,
      "epoch": 0.24012505260626466,
      "flos": 25445297606400.0,
      "grad_norm": 1.8937126503038277,
      "language_loss": 0.74225652,
      "learning_rate": 3.5546023500259083e-06,
      "loss": 0.76324511,
      "num_input_tokens_seen": 42592550,
      "step": 1997,
      "time_per_iteration": 2.6670608520507812
    },
    {
      "auxiliary_loss_clip": 0.01084033,
      "auxiliary_loss_mlp": 0.01024441,
      "balance_loss_clip": 1.04837704,
      "balance_loss_mlp": 1.01711535,
      "epoch": 0.24024529549690374,
      "flos": 15554789763840.0,
      "grad_norm": 2.471683577379571,
      "language_loss": 0.80802143,
      "learning_rate": 3.5541121587259477e-06,
      "loss": 0.82910609,
      "num_input_tokens_seen": 42610385,
      "step": 1998,
      "time_per_iteration": 2.6733272075653076
    },
    {
      "auxiliary_loss_clip": 0.01119978,
      "auxiliary_loss_mlp": 0.01006187,
      "balance_loss_clip": 1.08669019,
      "balance_loss_mlp": 1.0030396,
      "epoch": 0.24036553838754285,
      "flos": 57128804288640.0,
      "grad_norm": 0.8636052886457276,
      "language_loss": 0.57874662,
      "learning_rate": 3.553621731668408e-06,
      "loss": 0.60000819,
      "num_input_tokens_seen": 42673595,
      "step": 1999,
      "time_per_iteration": 3.1383395195007324
    },
    {
      "auxiliary_loss_clip": 0.0112252,
      "auxiliary_loss_mlp": 0.01022589,
      "balance_loss_clip": 1.05101812,
      "balance_loss_mlp": 1.01537144,
      "epoch": 0.24048578127818193,
      "flos": 24972100974720.0,
      "grad_norm": 2.1148193999131,
      "language_loss": 0.83194089,
      "learning_rate": 3.553131068927688e-06,
      "loss": 0.853392,
      "num_input_tokens_seen": 42692000,
      "step": 2000,
      "time_per_iteration": 2.602536678314209
    },
    {
      "auxiliary_loss_clip": 0.01092849,
      "auxiliary_loss_mlp": 0.01023918,
      "balance_loss_clip": 1.05026579,
      "balance_loss_mlp": 1.01781189,
      "epoch": 0.24060602416882101,
      "flos": 23333170515840.0,
      "grad_norm": 2.2039106791025684,
      "language_loss": 0.80282551,
      "learning_rate": 3.552640170578219e-06,
      "loss": 0.82399309,
      "num_input_tokens_seen": 42712250,
      "step": 2001,
      "time_per_iteration": 2.615936279296875
    },
    {
      "auxiliary_loss_clip": 0.01100614,
      "auxiliary_loss_mlp": 0.01031575,
      "balance_loss_clip": 1.04707932,
      "balance_loss_mlp": 1.02510214,
      "epoch": 0.2407262670594601,
      "flos": 14174985985920.0,
      "grad_norm": 2.293123992221154,
      "language_loss": 0.78057885,
      "learning_rate": 3.5521490366944703e-06,
      "loss": 0.80190074,
      "num_input_tokens_seen": 42729900,
      "step": 2002,
      "time_per_iteration": 3.3325066566467285
    },
    {
      "auxiliary_loss_clip": 0.01093689,
      "auxiliary_loss_mlp": 0.0102265,
      "balance_loss_clip": 1.04766297,
      "balance_loss_mlp": 1.01602757,
      "epoch": 0.2408465099500992,
      "flos": 13664847093120.0,
      "grad_norm": 2.6440291495013155,
      "language_loss": 0.79946089,
      "learning_rate": 3.5516576673509474e-06,
      "loss": 0.82062423,
      "num_input_tokens_seen": 42747900,
      "step": 2003,
      "time_per_iteration": 2.6058568954467773
    },
    {
      "auxiliary_loss_clip": 0.01130856,
      "auxiliary_loss_mlp": 0.01024627,
      "balance_loss_clip": 1.05104637,
      "balance_loss_mlp": 1.01778138,
      "epoch": 0.2409667528407383,
      "flos": 31250674990080.0,
      "grad_norm": 2.779874277006245,
      "language_loss": 0.85850483,
      "learning_rate": 3.5511660626221896e-06,
      "loss": 0.8800596,
      "num_input_tokens_seen": 42768540,
      "step": 2004,
      "time_per_iteration": 3.356825828552246
    },
    {
      "auxiliary_loss_clip": 0.01094382,
      "auxiliary_loss_mlp": 0.00757383,
      "balance_loss_clip": 1.04247499,
      "balance_loss_mlp": 1.00111651,
      "epoch": 0.24108699573137737,
      "flos": 22202103864960.0,
      "grad_norm": 3.4293698332162155,
      "language_loss": 0.88950396,
      "learning_rate": 3.5506742225827744e-06,
      "loss": 0.90802157,
      "num_input_tokens_seen": 42785395,
      "step": 2005,
      "time_per_iteration": 4.1209728717803955
    },
    {
      "auxiliary_loss_clip": 0.01093967,
      "auxiliary_loss_mlp": 0.010269,
      "balance_loss_clip": 1.04843092,
      "balance_loss_mlp": 1.01963425,
      "epoch": 0.24120723862201648,
      "flos": 26105366874240.0,
      "grad_norm": 2.913587569287938,
      "language_loss": 0.90256083,
      "learning_rate": 3.5501821473073116e-06,
      "loss": 0.92376953,
      "num_input_tokens_seen": 42801980,
      "step": 2006,
      "time_per_iteration": 2.6653084754943848
    },
    {
      "auxiliary_loss_clip": 0.01073857,
      "auxiliary_loss_mlp": 0.01028567,
      "balance_loss_clip": 1.03748012,
      "balance_loss_mlp": 1.02118814,
      "epoch": 0.24132748151265557,
      "flos": 18626922708480.0,
      "grad_norm": 2.3118412244716784,
      "language_loss": 0.86847126,
      "learning_rate": 3.54968983687045e-06,
      "loss": 0.88949549,
      "num_input_tokens_seen": 42818850,
      "step": 2007,
      "time_per_iteration": 2.589600086212158
    },
    {
      "auxiliary_loss_clip": 0.01096871,
      "auxiliary_loss_mlp": 0.01029215,
      "balance_loss_clip": 1.04490638,
      "balance_loss_mlp": 1.02186835,
      "epoch": 0.24144772440329465,
      "flos": 15269451638400.0,
      "grad_norm": 2.9069963790506415,
      "language_loss": 0.89480937,
      "learning_rate": 3.549197291346872e-06,
      "loss": 0.91607022,
      "num_input_tokens_seen": 42835375,
      "step": 2008,
      "time_per_iteration": 2.5823488235473633
    },
    {
      "auxiliary_loss_clip": 0.0112111,
      "auxiliary_loss_mlp": 0.01026894,
      "balance_loss_clip": 1.05264628,
      "balance_loss_mlp": 1.0202775,
      "epoch": 0.24156796729393373,
      "flos": 24026541909120.0,
      "grad_norm": 2.559135318379563,
      "language_loss": 0.79377103,
      "learning_rate": 3.548704510811297e-06,
      "loss": 0.81525105,
      "num_input_tokens_seen": 42854570,
      "step": 2009,
      "time_per_iteration": 2.6224136352539062
    },
    {
      "auxiliary_loss_clip": 0.01079286,
      "auxiliary_loss_mlp": 0.01028663,
      "balance_loss_clip": 1.04597318,
      "balance_loss_mlp": 1.02130771,
      "epoch": 0.24168821018457284,
      "flos": 26289206064000.0,
      "grad_norm": 3.1075892564373544,
      "language_loss": 0.74333596,
      "learning_rate": 3.5482114953384787e-06,
      "loss": 0.76441544,
      "num_input_tokens_seen": 42873800,
      "step": 2010,
      "time_per_iteration": 2.783046245574951
    },
    {
      "auxiliary_loss_clip": 0.011207,
      "auxiliary_loss_mlp": 0.01029464,
      "balance_loss_clip": 1.05144978,
      "balance_loss_mlp": 1.02203131,
      "epoch": 0.24180845307521193,
      "flos": 18225145923840.0,
      "grad_norm": 2.5193062230411294,
      "language_loss": 0.84140635,
      "learning_rate": 3.5477182450032077e-06,
      "loss": 0.86290801,
      "num_input_tokens_seen": 42892400,
      "step": 2011,
      "time_per_iteration": 2.5501270294189453
    },
    {
      "auxiliary_loss_clip": 0.01114346,
      "auxiliary_loss_mlp": 0.01028141,
      "balance_loss_clip": 1.04811966,
      "balance_loss_mlp": 1.0206666,
      "epoch": 0.241928695965851,
      "flos": 20451360752640.0,
      "grad_norm": 2.847762800463716,
      "language_loss": 0.83235264,
      "learning_rate": 3.5472247598803097e-06,
      "loss": 0.85377753,
      "num_input_tokens_seen": 42911745,
      "step": 2012,
      "time_per_iteration": 2.5695958137512207
    },
    {
      "auxiliary_loss_clip": 0.01131443,
      "auxiliary_loss_mlp": 0.0102736,
      "balance_loss_clip": 1.05153108,
      "balance_loss_mlp": 1.01969767,
      "epoch": 0.24204893885649012,
      "flos": 25558816573440.0,
      "grad_norm": 3.6194524413522324,
      "language_loss": 0.85717666,
      "learning_rate": 3.546731040044645e-06,
      "loss": 0.87876463,
      "num_input_tokens_seen": 42926915,
      "step": 2013,
      "time_per_iteration": 2.546025276184082
    },
    {
      "auxiliary_loss_clip": 0.01134693,
      "auxiliary_loss_mlp": 0.01022796,
      "balance_loss_clip": 1.05499089,
      "balance_loss_mlp": 1.01616168,
      "epoch": 0.2421691817471292,
      "flos": 30662594340480.0,
      "grad_norm": 2.3699761457073496,
      "language_loss": 0.75355208,
      "learning_rate": 3.546237085571112e-06,
      "loss": 0.77512699,
      "num_input_tokens_seen": 42945350,
      "step": 2014,
      "time_per_iteration": 2.5952720642089844
    },
    {
      "auxiliary_loss_clip": 0.01117606,
      "auxiliary_loss_mlp": 0.01024642,
      "balance_loss_clip": 1.05068958,
      "balance_loss_mlp": 1.01791561,
      "epoch": 0.24228942463776829,
      "flos": 21947186090880.0,
      "grad_norm": 2.539512240558059,
      "language_loss": 0.72351915,
      "learning_rate": 3.5457428965346425e-06,
      "loss": 0.74494159,
      "num_input_tokens_seen": 42964290,
      "step": 2015,
      "time_per_iteration": 2.559462785720825
    },
    {
      "auxiliary_loss_clip": 0.01070122,
      "auxiliary_loss_mlp": 0.01023384,
      "balance_loss_clip": 1.04842281,
      "balance_loss_mlp": 1.01642776,
      "epoch": 0.2424096675284074,
      "flos": 33987294138240.0,
      "grad_norm": 1.7739181041478065,
      "language_loss": 0.74402368,
      "learning_rate": 3.545248473010205e-06,
      "loss": 0.76495874,
      "num_input_tokens_seen": 42987095,
      "step": 2016,
      "time_per_iteration": 2.8252007961273193
    },
    {
      "auxiliary_loss_clip": 0.01130962,
      "auxiliary_loss_mlp": 0.00757577,
      "balance_loss_clip": 1.05000162,
      "balance_loss_mlp": 1.00129175,
      "epoch": 0.24252991041904648,
      "flos": 21655591482240.0,
      "grad_norm": 2.4659447469727125,
      "language_loss": 0.87452018,
      "learning_rate": 3.544753815072802e-06,
      "loss": 0.89340562,
      "num_input_tokens_seen": 43005750,
      "step": 2017,
      "time_per_iteration": 2.525804042816162
    },
    {
      "auxiliary_loss_clip": 0.01045532,
      "auxiliary_loss_mlp": 0.01022401,
      "balance_loss_clip": 1.04027772,
      "balance_loss_mlp": 1.01513505,
      "epoch": 0.24265015330968556,
      "flos": 21872126108160.0,
      "grad_norm": 2.0595551483123984,
      "language_loss": 0.88116878,
      "learning_rate": 3.544258922797474e-06,
      "loss": 0.90184808,
      "num_input_tokens_seen": 43023870,
      "step": 2018,
      "time_per_iteration": 2.846492052078247
    },
    {
      "auxiliary_loss_clip": 0.01133502,
      "auxiliary_loss_mlp": 0.01026826,
      "balance_loss_clip": 1.05259609,
      "balance_loss_mlp": 1.02015901,
      "epoch": 0.24277039620032465,
      "flos": 25630539765120.0,
      "grad_norm": 2.09483991200508,
      "language_loss": 0.77983868,
      "learning_rate": 3.543763796259295e-06,
      "loss": 0.80144197,
      "num_input_tokens_seen": 43043825,
      "step": 2019,
      "time_per_iteration": 2.8449389934539795
    },
    {
      "auxiliary_loss_clip": 0.01118794,
      "auxiliary_loss_mlp": 0.0102489,
      "balance_loss_clip": 1.05131304,
      "balance_loss_mlp": 1.01745772,
      "epoch": 0.24289063909096376,
      "flos": 26288978555520.0,
      "grad_norm": 2.018430917955813,
      "language_loss": 0.90736932,
      "learning_rate": 3.5432684355333754e-06,
      "loss": 0.92880619,
      "num_input_tokens_seen": 43062480,
      "step": 2020,
      "time_per_iteration": 2.5992465019226074
    },
    {
      "auxiliary_loss_clip": 0.01120523,
      "auxiliary_loss_mlp": 0.01026206,
      "balance_loss_clip": 1.05153871,
      "balance_loss_mlp": 1.01932168,
      "epoch": 0.24301088198160284,
      "flos": 25076974619520.0,
      "grad_norm": 2.5256075531563664,
      "language_loss": 0.77171987,
      "learning_rate": 3.5427728406948613e-06,
      "loss": 0.79318714,
      "num_input_tokens_seen": 43081595,
      "step": 2021,
      "time_per_iteration": 2.6133549213409424
    },
    {
      "auxiliary_loss_clip": 0.01133608,
      "auxiliary_loss_mlp": 0.01020806,
      "balance_loss_clip": 1.1024096,
      "balance_loss_mlp": 1.01781356,
      "epoch": 0.24313112487224192,
      "flos": 69908591756160.0,
      "grad_norm": 0.7438487883841441,
      "language_loss": 0.5783475,
      "learning_rate": 3.542277011818934e-06,
      "loss": 0.5998916,
      "num_input_tokens_seen": 43145430,
      "step": 2022,
      "time_per_iteration": 3.323678970336914
    },
    {
      "auxiliary_loss_clip": 0.01107267,
      "auxiliary_loss_mlp": 0.01025811,
      "balance_loss_clip": 1.05215859,
      "balance_loss_mlp": 1.01917958,
      "epoch": 0.24325136776288103,
      "flos": 40665559443840.0,
      "grad_norm": 3.022911360728869,
      "language_loss": 0.74262643,
      "learning_rate": 3.5417809489808104e-06,
      "loss": 0.7639572,
      "num_input_tokens_seen": 43167040,
      "step": 2023,
      "time_per_iteration": 2.791491985321045
    },
    {
      "auxiliary_loss_clip": 0.01120149,
      "auxiliary_loss_mlp": 0.01024645,
      "balance_loss_clip": 1.05111623,
      "balance_loss_mlp": 1.01835966,
      "epoch": 0.24337161065352012,
      "flos": 25048753516800.0,
      "grad_norm": 3.008595748473058,
      "language_loss": 0.72517395,
      "learning_rate": 3.5412846522557422e-06,
      "loss": 0.74662191,
      "num_input_tokens_seen": 43187930,
      "step": 2024,
      "time_per_iteration": 2.6182901859283447
    },
    {
      "auxiliary_loss_clip": 0.01136348,
      "auxiliary_loss_mlp": 0.010229,
      "balance_loss_clip": 1.05630517,
      "balance_loss_mlp": 1.01550627,
      "epoch": 0.2434918535441592,
      "flos": 18663144526080.0,
      "grad_norm": 2.6439904191460477,
      "language_loss": 0.74198401,
      "learning_rate": 3.540788121719018e-06,
      "loss": 0.76357651,
      "num_input_tokens_seen": 43206350,
      "step": 2025,
      "time_per_iteration": 2.595696449279785
    },
    {
      "auxiliary_loss_clip": 0.01070434,
      "auxiliary_loss_mlp": 0.01026952,
      "balance_loss_clip": 1.03639305,
      "balance_loss_mlp": 1.01984107,
      "epoch": 0.24361209643479828,
      "flos": 23917421439360.0,
      "grad_norm": 1.9330913659168032,
      "language_loss": 0.81925523,
      "learning_rate": 3.5402913574459604e-06,
      "loss": 0.84022903,
      "num_input_tokens_seen": 43226255,
      "step": 2026,
      "time_per_iteration": 2.6203455924987793
    },
    {
      "auxiliary_loss_clip": 0.01068485,
      "auxiliary_loss_mlp": 0.01022849,
      "balance_loss_clip": 1.04592514,
      "balance_loss_mlp": 1.01628637,
      "epoch": 0.2437323393254374,
      "flos": 28660004818560.0,
      "grad_norm": 1.870743851098381,
      "language_loss": 0.85967046,
      "learning_rate": 3.5397943595119297e-06,
      "loss": 0.88058376,
      "num_input_tokens_seen": 43247675,
      "step": 2027,
      "time_per_iteration": 2.8186867237091064
    },
    {
      "auxiliary_loss_clip": 0.01091504,
      "auxiliary_loss_mlp": 0.01027128,
      "balance_loss_clip": 1.04189503,
      "balance_loss_mlp": 1.0196178,
      "epoch": 0.24385258221607647,
      "flos": 23552586915840.0,
      "grad_norm": 5.847815050842231,
      "language_loss": 0.76897776,
      "learning_rate": 3.5392971279923177e-06,
      "loss": 0.79016411,
      "num_input_tokens_seen": 43265895,
      "step": 2028,
      "time_per_iteration": 3.3551106452941895
    },
    {
      "auxiliary_loss_clip": 0.0109127,
      "auxiliary_loss_mlp": 0.01026009,
      "balance_loss_clip": 1.04498935,
      "balance_loss_mlp": 1.01811755,
      "epoch": 0.24397282510671556,
      "flos": 25338338467200.0,
      "grad_norm": 2.977246779855316,
      "language_loss": 0.83225501,
      "learning_rate": 3.5387996629625557e-06,
      "loss": 0.85342777,
      "num_input_tokens_seen": 43283485,
      "step": 2029,
      "time_per_iteration": 2.711559295654297
    },
    {
      "auxiliary_loss_clip": 0.01147944,
      "auxiliary_loss_mlp": 0.01006304,
      "balance_loss_clip": 1.09685016,
      "balance_loss_mlp": 1.00335968,
      "epoch": 0.24409306799735467,
      "flos": 65194419070080.0,
      "grad_norm": 0.8144131914849108,
      "language_loss": 0.55048215,
      "learning_rate": 3.5383019644981083e-06,
      "loss": 0.57202464,
      "num_input_tokens_seen": 43347180,
      "step": 2030,
      "time_per_iteration": 3.9560413360595703
    },
    {
      "auxiliary_loss_clip": 0.011004,
      "auxiliary_loss_mlp": 0.01023709,
      "balance_loss_clip": 1.04624331,
      "balance_loss_mlp": 1.01626396,
      "epoch": 0.24421331088799375,
      "flos": 19539141730560.0,
      "grad_norm": 4.20695156411135,
      "language_loss": 0.73178589,
      "learning_rate": 3.5378040326744763e-06,
      "loss": 0.75302696,
      "num_input_tokens_seen": 43366665,
      "step": 2031,
      "time_per_iteration": 4.02436637878418
    },
    {
      "auxiliary_loss_clip": 0.01092546,
      "auxiliary_loss_mlp": 0.010229,
      "balance_loss_clip": 1.04973137,
      "balance_loss_mlp": 1.01642096,
      "epoch": 0.24433355377863283,
      "flos": 21070658033280.0,
      "grad_norm": 3.598389258826765,
      "language_loss": 0.85790026,
      "learning_rate": 3.5373058675671946e-06,
      "loss": 0.87905473,
      "num_input_tokens_seen": 43384670,
      "step": 2032,
      "time_per_iteration": 2.6616132259368896
    },
    {
      "auxiliary_loss_clip": 0.01081904,
      "auxiliary_loss_mlp": 0.01023756,
      "balance_loss_clip": 1.04719496,
      "balance_loss_mlp": 1.01627898,
      "epoch": 0.24445379666927192,
      "flos": 22639344105600.0,
      "grad_norm": 3.1569165676451774,
      "language_loss": 0.72148693,
      "learning_rate": 3.536807469251836e-06,
      "loss": 0.74254346,
      "num_input_tokens_seen": 43403825,
      "step": 2033,
      "time_per_iteration": 2.7035019397735596
    },
    {
      "auxiliary_loss_clip": 0.01096186,
      "auxiliary_loss_mlp": 0.01024761,
      "balance_loss_clip": 1.04848099,
      "balance_loss_mlp": 1.01786757,
      "epoch": 0.24457403955991103,
      "flos": 21253738861440.0,
      "grad_norm": 3.022782047717713,
      "language_loss": 0.82696021,
      "learning_rate": 3.5363088378040055e-06,
      "loss": 0.84816962,
      "num_input_tokens_seen": 43422715,
      "step": 2034,
      "time_per_iteration": 2.613832950592041
    },
    {
      "auxiliary_loss_clip": 0.01149978,
      "auxiliary_loss_mlp": 0.00753374,
      "balance_loss_clip": 1.09906816,
      "balance_loss_mlp": 1.00012541,
      "epoch": 0.2446942824505501,
      "flos": 67004144899200.0,
      "grad_norm": 0.7564107930052232,
      "language_loss": 0.64314222,
      "learning_rate": 3.5358099732993463e-06,
      "loss": 0.66217571,
      "num_input_tokens_seen": 43481825,
      "step": 2035,
      "time_per_iteration": 3.0905823707580566
    },
    {
      "auxiliary_loss_clip": 0.01111262,
      "auxiliary_loss_mlp": 0.01027311,
      "balance_loss_clip": 1.05255318,
      "balance_loss_mlp": 1.02012825,
      "epoch": 0.2448145253411892,
      "flos": 20413129276800.0,
      "grad_norm": 2.8394772150906777,
      "language_loss": 0.8925187,
      "learning_rate": 3.535310875813535e-06,
      "loss": 0.91390443,
      "num_input_tokens_seen": 43500220,
      "step": 2036,
      "time_per_iteration": 2.6108882427215576
    },
    {
      "auxiliary_loss_clip": 0.01118062,
      "auxiliary_loss_mlp": 0.01024087,
      "balance_loss_clip": 1.05047917,
      "balance_loss_mlp": 1.01724494,
      "epoch": 0.2449347682318283,
      "flos": 28807318846080.0,
      "grad_norm": 3.459175020442523,
      "language_loss": 0.81335664,
      "learning_rate": 3.5348115454222843e-06,
      "loss": 0.83477813,
      "num_input_tokens_seen": 43522805,
      "step": 2037,
      "time_per_iteration": 2.6559126377105713
    },
    {
      "auxiliary_loss_clip": 0.01112182,
      "auxiliary_loss_mlp": 0.01032339,
      "balance_loss_clip": 1.0524956,
      "balance_loss_mlp": 1.02524638,
      "epoch": 0.2450550111224674,
      "flos": 22531209505920.0,
      "grad_norm": 2.0116320203030904,
      "language_loss": 0.85837185,
      "learning_rate": 3.5343119822013425e-06,
      "loss": 0.87981713,
      "num_input_tokens_seen": 43541915,
      "step": 2038,
      "time_per_iteration": 2.6398332118988037
    },
    {
      "auxiliary_loss_clip": 0.01126111,
      "auxiliary_loss_mlp": 0.01030431,
      "balance_loss_clip": 1.05426002,
      "balance_loss_mlp": 1.02287602,
      "epoch": 0.24517525401310647,
      "flos": 21761109734400.0,
      "grad_norm": 2.2305629174049666,
      "language_loss": 0.7793746,
      "learning_rate": 3.533812186226493e-06,
      "loss": 0.80093998,
      "num_input_tokens_seen": 43562625,
      "step": 2039,
      "time_per_iteration": 2.5865354537963867
    },
    {
      "auxiliary_loss_clip": 0.01131935,
      "auxiliary_loss_mlp": 0.01025267,
      "balance_loss_clip": 1.05190134,
      "balance_loss_mlp": 1.01862121,
      "epoch": 0.24529549690374555,
      "flos": 25045492561920.0,
      "grad_norm": 2.42056125497177,
      "language_loss": 0.75758624,
      "learning_rate": 3.5333121575735545e-06,
      "loss": 0.77915829,
      "num_input_tokens_seen": 43582265,
      "step": 2040,
      "time_per_iteration": 2.60532283782959
    },
    {
      "auxiliary_loss_clip": 0.01102234,
      "auxiliary_loss_mlp": 0.01027605,
      "balance_loss_clip": 1.04797268,
      "balance_loss_mlp": 1.02054238,
      "epoch": 0.24541573979438466,
      "flos": 32126330931840.0,
      "grad_norm": 1.9795346981403832,
      "language_loss": 0.75483012,
      "learning_rate": 3.532811896318381e-06,
      "loss": 0.77612853,
      "num_input_tokens_seen": 43604335,
      "step": 2041,
      "time_per_iteration": 2.7031967639923096
    },
    {
      "auxiliary_loss_clip": 0.01090332,
      "auxiliary_loss_mlp": 0.01021629,
      "balance_loss_clip": 1.04637003,
      "balance_loss_mlp": 1.01381445,
      "epoch": 0.24553598268502375,
      "flos": 31360212558720.0,
      "grad_norm": 2.661344481547158,
      "language_loss": 0.81762439,
      "learning_rate": 3.5323114025368615e-06,
      "loss": 0.83874398,
      "num_input_tokens_seen": 43619400,
      "step": 2042,
      "time_per_iteration": 2.749192476272583
    },
    {
      "auxiliary_loss_clip": 0.01120428,
      "auxiliary_loss_mlp": 0.01021869,
      "balance_loss_clip": 1.04953098,
      "balance_loss_mlp": 1.01497293,
      "epoch": 0.24565622557566283,
      "flos": 14029188681600.0,
      "grad_norm": 2.4664740435757393,
      "language_loss": 0.82082194,
      "learning_rate": 3.53181067630492e-06,
      "loss": 0.84224486,
      "num_input_tokens_seen": 43636870,
      "step": 2043,
      "time_per_iteration": 2.545062780380249
    },
    {
      "auxiliary_loss_clip": 0.01103141,
      "auxiliary_loss_mlp": 0.01028665,
      "balance_loss_clip": 1.04676723,
      "balance_loss_mlp": 1.02183414,
      "epoch": 0.24577646846630194,
      "flos": 16583333690880.0,
      "grad_norm": 2.9088607907306296,
      "language_loss": 0.76125813,
      "learning_rate": 3.5313097176985175e-06,
      "loss": 0.7825762,
      "num_input_tokens_seen": 43655180,
      "step": 2044,
      "time_per_iteration": 2.5886123180389404
    },
    {
      "auxiliary_loss_clip": 0.01119759,
      "auxiliary_loss_mlp": 0.01021868,
      "balance_loss_clip": 1.05309939,
      "balance_loss_mlp": 1.01497769,
      "epoch": 0.24589671135694102,
      "flos": 18809434765440.0,
      "grad_norm": 14.433055131082147,
      "language_loss": 0.81042999,
      "learning_rate": 3.5308085267936482e-06,
      "loss": 0.83184624,
      "num_input_tokens_seen": 43672895,
      "step": 2045,
      "time_per_iteration": 2.5556838512420654
    },
    {
      "auxiliary_loss_clip": 0.01057319,
      "auxiliary_loss_mlp": 0.00757205,
      "balance_loss_clip": 1.03999794,
      "balance_loss_mlp": 1.00123286,
      "epoch": 0.2460169542475801,
      "flos": 19940615170560.0,
      "grad_norm": 1.957964979278675,
      "language_loss": 0.89613581,
      "learning_rate": 3.530307103666342e-06,
      "loss": 0.91428101,
      "num_input_tokens_seen": 43691975,
      "step": 2046,
      "time_per_iteration": 2.700190305709839
    },
    {
      "auxiliary_loss_clip": 0.0109616,
      "auxiliary_loss_mlp": 0.01024843,
      "balance_loss_clip": 1.05105853,
      "balance_loss_mlp": 1.0176698,
      "epoch": 0.24613719713821922,
      "flos": 24173552592000.0,
      "grad_norm": 2.259266729769061,
      "language_loss": 0.80567133,
      "learning_rate": 3.5298054483926658e-06,
      "loss": 0.82688141,
      "num_input_tokens_seen": 43712670,
      "step": 2047,
      "time_per_iteration": 2.695233106613159
    },
    {
      "auxiliary_loss_clip": 0.01124615,
      "auxiliary_loss_mlp": 0.01024318,
      "balance_loss_clip": 1.05359972,
      "balance_loss_mlp": 1.01673675,
      "epoch": 0.2462574400288583,
      "flos": 30223344441600.0,
      "grad_norm": 5.25843387391199,
      "language_loss": 0.83167624,
      "learning_rate": 3.5293035610487187e-06,
      "loss": 0.85316551,
      "num_input_tokens_seen": 43732035,
      "step": 2048,
      "time_per_iteration": 2.6679954528808594
    },
    {
      "auxiliary_loss_clip": 0.01112498,
      "auxiliary_loss_mlp": 0.01003294,
      "balance_loss_clip": 1.08874238,
      "balance_loss_mlp": 1.00026631,
      "epoch": 0.24637768291949738,
      "flos": 68950102625280.0,
      "grad_norm": 0.7216447924980407,
      "language_loss": 0.61902976,
      "learning_rate": 3.5288014417106374e-06,
      "loss": 0.64018774,
      "num_input_tokens_seen": 43798055,
      "step": 2049,
      "time_per_iteration": 3.241851329803467
    },
    {
      "auxiliary_loss_clip": 0.0108257,
      "auxiliary_loss_mlp": 0.01027769,
      "balance_loss_clip": 1.04161417,
      "balance_loss_mlp": 1.02068186,
      "epoch": 0.24649792581013646,
      "flos": 34386720001920.0,
      "grad_norm": 1.8796552091191656,
      "language_loss": 0.75423014,
      "learning_rate": 3.528299090454593e-06,
      "loss": 0.77533352,
      "num_input_tokens_seen": 43818590,
      "step": 2050,
      "time_per_iteration": 2.7272491455078125
    },
    {
      "auxiliary_loss_clip": 0.01124296,
      "auxiliary_loss_mlp": 0.01025094,
      "balance_loss_clip": 1.05366063,
      "balance_loss_mlp": 1.01788139,
      "epoch": 0.24661816870077558,
      "flos": 19682360605440.0,
      "grad_norm": 3.0514726921865973,
      "language_loss": 0.82956469,
      "learning_rate": 3.527796507356792e-06,
      "loss": 0.85105854,
      "num_input_tokens_seen": 43832480,
      "step": 2051,
      "time_per_iteration": 2.576174736022949
    },
    {
      "auxiliary_loss_clip": 0.01124621,
      "auxiliary_loss_mlp": 0.01025495,
      "balance_loss_clip": 1.05370903,
      "balance_loss_mlp": 1.01864648,
      "epoch": 0.24673841159141466,
      "flos": 20003844712320.0,
      "grad_norm": 3.6662408900473915,
      "language_loss": 0.90184218,
      "learning_rate": 3.527293692493475e-06,
      "loss": 0.92334336,
      "num_input_tokens_seen": 43848345,
      "step": 2052,
      "time_per_iteration": 2.5254595279693604
    },
    {
      "auxiliary_loss_clip": 0.01123381,
      "auxiliary_loss_mlp": 0.01028427,
      "balance_loss_clip": 1.05290771,
      "balance_loss_mlp": 1.02092314,
      "epoch": 0.24685865448205374,
      "flos": 21648387047040.0,
      "grad_norm": 4.726885215299387,
      "language_loss": 0.73337275,
      "learning_rate": 3.52679064594092e-06,
      "loss": 0.7548908,
      "num_input_tokens_seen": 43865685,
      "step": 2053,
      "time_per_iteration": 3.3148486614227295
    },
    {
      "auxiliary_loss_clip": 0.01087759,
      "auxiliary_loss_mlp": 0.01028625,
      "balance_loss_clip": 1.04865479,
      "balance_loss_mlp": 1.02208984,
      "epoch": 0.24697889737269285,
      "flos": 17961999926400.0,
      "grad_norm": 12.481128938160733,
      "language_loss": 0.75235468,
      "learning_rate": 3.5262873677754375e-06,
      "loss": 0.77351856,
      "num_input_tokens_seen": 43883690,
      "step": 2054,
      "time_per_iteration": 2.6165525913238525
    },
    {
      "auxiliary_loss_clip": 0.011336,
      "auxiliary_loss_mlp": 0.01023527,
      "balance_loss_clip": 1.05323434,
      "balance_loss_mlp": 1.01645839,
      "epoch": 0.24709914026333193,
      "flos": 27347070718080.0,
      "grad_norm": 1.841764359675428,
      "language_loss": 0.80494392,
      "learning_rate": 3.5257838580733745e-06,
      "loss": 0.8265152,
      "num_input_tokens_seen": 43903295,
      "step": 2055,
      "time_per_iteration": 2.6214590072631836
    },
    {
      "auxiliary_loss_clip": 0.0112271,
      "auxiliary_loss_mlp": 0.01024101,
      "balance_loss_clip": 1.05245137,
      "balance_loss_mlp": 1.01710665,
      "epoch": 0.24721938315397102,
      "flos": 19277209111680.0,
      "grad_norm": 2.349550922791509,
      "language_loss": 0.87351871,
      "learning_rate": 3.5252801169111138e-06,
      "loss": 0.89498675,
      "num_input_tokens_seen": 43920960,
      "step": 2056,
      "time_per_iteration": 3.302982807159424
    },
    {
      "auxiliary_loss_clip": 0.01103009,
      "auxiliary_loss_mlp": 0.01029063,
      "balance_loss_clip": 1.05053568,
      "balance_loss_mlp": 1.02220881,
      "epoch": 0.2473396260446101,
      "flos": 23188055736960.0,
      "grad_norm": 1.9814002795371501,
      "language_loss": 0.79779488,
      "learning_rate": 3.524776144365072e-06,
      "loss": 0.81911558,
      "num_input_tokens_seen": 43939415,
      "step": 2057,
      "time_per_iteration": 3.5082039833068848
    },
    {
      "auxiliary_loss_clip": 0.01091943,
      "auxiliary_loss_mlp": 0.01026147,
      "balance_loss_clip": 1.04297066,
      "balance_loss_mlp": 1.01926231,
      "epoch": 0.2474598689352492,
      "flos": 21144580473600.0,
      "grad_norm": 1.7970675932700526,
      "language_loss": 0.79171312,
      "learning_rate": 3.5242719405117016e-06,
      "loss": 0.81289399,
      "num_input_tokens_seen": 43959220,
      "step": 2058,
      "time_per_iteration": 2.6267902851104736
    },
    {
      "auxiliary_loss_clip": 0.01100541,
      "auxiliary_loss_mlp": 0.00757423,
      "balance_loss_clip": 1.04829717,
      "balance_loss_mlp": 1.00121427,
      "epoch": 0.2475801118258883,
      "flos": 21650245032960.0,
      "grad_norm": 2.871497273048766,
      "language_loss": 0.74945724,
      "learning_rate": 3.5237675054274893e-06,
      "loss": 0.76803684,
      "num_input_tokens_seen": 43978420,
      "step": 2059,
      "time_per_iteration": 2.606165885925293
    },
    {
      "auxiliary_loss_clip": 0.01123541,
      "auxiliary_loss_mlp": 0.01028594,
      "balance_loss_clip": 1.05312109,
      "balance_loss_mlp": 1.02122939,
      "epoch": 0.24770035471652738,
      "flos": 22676703465600.0,
      "grad_norm": 2.2583154232501665,
      "language_loss": 0.79909796,
      "learning_rate": 3.5232628391889584e-06,
      "loss": 0.82061934,
      "num_input_tokens_seen": 43996710,
      "step": 2060,
      "time_per_iteration": 2.596040964126587
    },
    {
      "auxiliary_loss_clip": 0.01074774,
      "auxiliary_loss_mlp": 0.01022992,
      "balance_loss_clip": 1.04504287,
      "balance_loss_mlp": 1.01647711,
      "epoch": 0.2478205976071665,
      "flos": 22165995801600.0,
      "grad_norm": 3.0999012619665005,
      "language_loss": 0.64268994,
      "learning_rate": 3.522757941872666e-06,
      "loss": 0.66366756,
      "num_input_tokens_seen": 44014865,
      "step": 2061,
      "time_per_iteration": 2.660334348678589
    },
    {
      "auxiliary_loss_clip": 0.01135647,
      "auxiliary_loss_mlp": 0.00757648,
      "balance_loss_clip": 1.05554771,
      "balance_loss_mlp": 1.00126755,
      "epoch": 0.24794084049780557,
      "flos": 24975437765760.0,
      "grad_norm": 1.6329323262433055,
      "language_loss": 0.82708883,
      "learning_rate": 3.5222528135552042e-06,
      "loss": 0.84602177,
      "num_input_tokens_seen": 44036325,
      "step": 2062,
      "time_per_iteration": 2.5912210941314697
    },
    {
      "auxiliary_loss_clip": 0.01115551,
      "auxiliary_loss_mlp": 0.01030902,
      "balance_loss_clip": 1.05086803,
      "balance_loss_mlp": 1.02343059,
      "epoch": 0.24806108338844465,
      "flos": 18298347920640.0,
      "grad_norm": 2.1897939955706183,
      "language_loss": 0.80585164,
      "learning_rate": 3.521747454313201e-06,
      "loss": 0.82731616,
      "num_input_tokens_seen": 44055005,
      "step": 2063,
      "time_per_iteration": 2.54675030708313
    },
    {
      "auxiliary_loss_clip": 0.01094852,
      "auxiliary_loss_mlp": 0.01023488,
      "balance_loss_clip": 1.04850304,
      "balance_loss_mlp": 1.01659131,
      "epoch": 0.24818132627908374,
      "flos": 19284223956480.0,
      "grad_norm": 11.18525141447259,
      "language_loss": 0.67032194,
      "learning_rate": 3.521241864223319e-06,
      "loss": 0.69150543,
      "num_input_tokens_seen": 44073965,
      "step": 2064,
      "time_per_iteration": 2.6268906593322754
    },
    {
      "auxiliary_loss_clip": 0.01137893,
      "auxiliary_loss_mlp": 0.0101779,
      "balance_loss_clip": 1.10653198,
      "balance_loss_mlp": 1.01440418,
      "epoch": 0.24830156916972285,
      "flos": 70292584961280.0,
      "grad_norm": 0.8018193544378949,
      "language_loss": 0.61942309,
      "learning_rate": 3.5207360433622552e-06,
      "loss": 0.64097995,
      "num_input_tokens_seen": 44135965,
      "step": 2065,
      "time_per_iteration": 3.209540367126465
    },
    {
      "auxiliary_loss_clip": 0.01109656,
      "auxiliary_loss_mlp": 0.0102606,
      "balance_loss_clip": 1.05366516,
      "balance_loss_mlp": 1.01952386,
      "epoch": 0.24842181206036193,
      "flos": 40412461737600.0,
      "grad_norm": 2.5905547527296067,
      "language_loss": 0.74649143,
      "learning_rate": 3.5202299918067437e-06,
      "loss": 0.76784849,
      "num_input_tokens_seen": 44159560,
      "step": 2066,
      "time_per_iteration": 2.848846912384033
    },
    {
      "auxiliary_loss_clip": 0.01119146,
      "auxiliary_loss_mlp": 0.01022472,
      "balance_loss_clip": 1.05315018,
      "balance_loss_mlp": 1.01576686,
      "epoch": 0.248542054951001,
      "flos": 20084402816640.0,
      "grad_norm": 2.817047666681977,
      "language_loss": 0.69870836,
      "learning_rate": 3.519723709633551e-06,
      "loss": 0.72012448,
      "num_input_tokens_seen": 44178320,
      "step": 2067,
      "time_per_iteration": 2.597290515899658
    },
    {
      "auxiliary_loss_clip": 0.01108064,
      "auxiliary_loss_mlp": 0.0102383,
      "balance_loss_clip": 1.05114532,
      "balance_loss_mlp": 1.01659393,
      "epoch": 0.24866229784164012,
      "flos": 23516213425920.0,
      "grad_norm": 8.77154339358015,
      "language_loss": 0.8378312,
      "learning_rate": 3.519217196919479e-06,
      "loss": 0.85915017,
      "num_input_tokens_seen": 44197305,
      "step": 2068,
      "time_per_iteration": 2.6028873920440674
    },
    {
      "auxiliary_loss_clip": 0.01107769,
      "auxiliary_loss_mlp": 0.01026611,
      "balance_loss_clip": 1.05192733,
      "balance_loss_mlp": 1.01978004,
      "epoch": 0.2487825407322792,
      "flos": 19867147747200.0,
      "grad_norm": 10.144445697668425,
      "language_loss": 0.73956144,
      "learning_rate": 3.518710453741367e-06,
      "loss": 0.76090521,
      "num_input_tokens_seen": 44216505,
      "step": 2069,
      "time_per_iteration": 2.6251180171966553
    },
    {
      "auxiliary_loss_clip": 0.01107055,
      "auxiliary_loss_mlp": 0.00757223,
      "balance_loss_clip": 1.05047071,
      "balance_loss_mlp": 1.00103378,
      "epoch": 0.2489027836229183,
      "flos": 22019781398400.0,
      "grad_norm": 3.819495065391303,
      "language_loss": 0.67395711,
      "learning_rate": 3.518203480176086e-06,
      "loss": 0.69259989,
      "num_input_tokens_seen": 44235435,
      "step": 2070,
      "time_per_iteration": 2.5915215015411377
    },
    {
      "auxiliary_loss_clip": 0.01052999,
      "auxiliary_loss_mlp": 0.01029398,
      "balance_loss_clip": 1.04090762,
      "balance_loss_mlp": 1.0227077,
      "epoch": 0.2490230265135574,
      "flos": 23296569517440.0,
      "grad_norm": 2.016164400708676,
      "language_loss": 0.80907243,
      "learning_rate": 3.517696276300545e-06,
      "loss": 0.82989645,
      "num_input_tokens_seen": 44256975,
      "step": 2071,
      "time_per_iteration": 2.949651002883911
    },
    {
      "auxiliary_loss_clip": 0.01112301,
      "auxiliary_loss_mlp": 0.01027758,
      "balance_loss_clip": 1.04977918,
      "balance_loss_mlp": 1.0202744,
      "epoch": 0.24914326940419648,
      "flos": 19828726680960.0,
      "grad_norm": 4.403225869822647,
      "language_loss": 0.69732618,
      "learning_rate": 3.517188842191685e-06,
      "loss": 0.71872675,
      "num_input_tokens_seen": 44275125,
      "step": 2072,
      "time_per_iteration": 2.763577699661255
    },
    {
      "auxiliary_loss_clip": 0.01121621,
      "auxiliary_loss_mlp": 0.0102645,
      "balance_loss_clip": 1.05184996,
      "balance_loss_mlp": 1.01926804,
      "epoch": 0.24926351229483557,
      "flos": 20231299745280.0,
      "grad_norm": 1.8863425469535977,
      "language_loss": 0.74054265,
      "learning_rate": 3.5166811779264837e-06,
      "loss": 0.76202339,
      "num_input_tokens_seen": 44295445,
      "step": 2073,
      "time_per_iteration": 2.62351393699646
    },
    {
      "auxiliary_loss_clip": 0.01129726,
      "auxiliary_loss_mlp": 0.01022523,
      "balance_loss_clip": 1.05059183,
      "balance_loss_mlp": 1.01557899,
      "epoch": 0.24938375518547465,
      "flos": 23296797025920.0,
      "grad_norm": 2.490875781870332,
      "language_loss": 0.7789312,
      "learning_rate": 3.5161732835819545e-06,
      "loss": 0.80045366,
      "num_input_tokens_seen": 44314755,
      "step": 2074,
      "time_per_iteration": 2.5142273902893066
    },
    {
      "auxiliary_loss_clip": 0.01130027,
      "auxiliary_loss_mlp": 0.01020615,
      "balance_loss_clip": 1.05138695,
      "balance_loss_mlp": 1.01389205,
      "epoch": 0.24950399807611376,
      "flos": 17313609427200.0,
      "grad_norm": 4.860216377460228,
      "language_loss": 0.83354449,
      "learning_rate": 3.515665159235143e-06,
      "loss": 0.85505092,
      "num_input_tokens_seen": 44333640,
      "step": 2075,
      "time_per_iteration": 2.5645387172698975
    },
    {
      "auxiliary_loss_clip": 0.01107879,
      "auxiliary_loss_mlp": 0.0102226,
      "balance_loss_clip": 1.04905117,
      "balance_loss_mlp": 1.01601052,
      "epoch": 0.24962424096675284,
      "flos": 19026803589120.0,
      "grad_norm": 2.26573762998186,
      "language_loss": 0.75088,
      "learning_rate": 3.5151568049631318e-06,
      "loss": 0.77218139,
      "num_input_tokens_seen": 44352355,
      "step": 2076,
      "time_per_iteration": 2.630924701690674
    },
    {
      "auxiliary_loss_clip": 0.01129143,
      "auxiliary_loss_mlp": 0.01023391,
      "balance_loss_clip": 1.04900682,
      "balance_loss_mlp": 1.01607192,
      "epoch": 0.24974448385739192,
      "flos": 33401450655360.0,
      "grad_norm": 2.813466440882429,
      "language_loss": 0.80709523,
      "learning_rate": 3.5146482208430385e-06,
      "loss": 0.82862055,
      "num_input_tokens_seen": 44374185,
      "step": 2077,
      "time_per_iteration": 2.6643285751342773
    },
    {
      "auxiliary_loss_clip": 0.01069245,
      "auxiliary_loss_mlp": 0.01026334,
      "balance_loss_clip": 1.04275846,
      "balance_loss_mlp": 1.01902092,
      "epoch": 0.24986472674803104,
      "flos": 30009843262080.0,
      "grad_norm": 3.602689535511163,
      "language_loss": 0.67577183,
      "learning_rate": 3.514139406952014e-06,
      "loss": 0.69672763,
      "num_input_tokens_seen": 44396210,
      "step": 2078,
      "time_per_iteration": 2.7794995307922363
    },
    {
      "auxiliary_loss_clip": 0.01116866,
      "auxiliary_loss_mlp": 0.01023518,
      "balance_loss_clip": 1.0510534,
      "balance_loss_mlp": 1.01689005,
      "epoch": 0.24998496963867012,
      "flos": 26615392012800.0,
      "grad_norm": 2.0443990581382327,
      "language_loss": 0.83568352,
      "learning_rate": 3.5136303633672454e-06,
      "loss": 0.85708737,
      "num_input_tokens_seen": 44416340,
      "step": 2079,
      "time_per_iteration": 3.428147315979004
    },
    {
      "auxiliary_loss_clip": 0.01095988,
      "auxiliary_loss_mlp": 0.00757444,
      "balance_loss_clip": 1.05048656,
      "balance_loss_mlp": 1.0010072,
      "epoch": 0.25010521252930923,
      "flos": 23556454560000.0,
      "grad_norm": 2.6688853504685848,
      "language_loss": 0.74056304,
      "learning_rate": 3.5131210901659544e-06,
      "loss": 0.75909746,
      "num_input_tokens_seen": 44438095,
      "step": 2080,
      "time_per_iteration": 2.6905667781829834
    },
    {
      "auxiliary_loss_clip": 0.01088887,
      "auxiliary_loss_mlp": 0.01025376,
      "balance_loss_clip": 1.04566348,
      "balance_loss_mlp": 1.01826823,
      "epoch": 0.2502254554199483,
      "flos": 23443466446080.0,
      "grad_norm": 2.736227605804387,
      "language_loss": 0.82294178,
      "learning_rate": 3.5126115874253967e-06,
      "loss": 0.8440845,
      "num_input_tokens_seen": 44457650,
      "step": 2081,
      "time_per_iteration": 3.5231170654296875
    },
    {
      "auxiliary_loss_clip": 0.01086102,
      "auxiliary_loss_mlp": 0.01023367,
      "balance_loss_clip": 1.0470258,
      "balance_loss_mlp": 1.01600909,
      "epoch": 0.2503456983105874,
      "flos": 28763892593280.0,
      "grad_norm": 3.0009799882844614,
      "language_loss": 0.81084174,
      "learning_rate": 3.5121018552228644e-06,
      "loss": 0.83193648,
      "num_input_tokens_seen": 44476155,
      "step": 2082,
      "time_per_iteration": 4.231763601303101
    },
    {
      "auxiliary_loss_clip": 0.01092395,
      "auxiliary_loss_mlp": 0.01024035,
      "balance_loss_clip": 1.04786253,
      "balance_loss_mlp": 1.0169065,
      "epoch": 0.2504659412012265,
      "flos": 18772227077760.0,
      "grad_norm": 2.5879979831675826,
      "language_loss": 0.76448667,
      "learning_rate": 3.5115918936356827e-06,
      "loss": 0.78565097,
      "num_input_tokens_seen": 44492910,
      "step": 2083,
      "time_per_iteration": 2.641571521759033
    },
    {
      "auxiliary_loss_clip": 0.01097123,
      "auxiliary_loss_mlp": 0.01028076,
      "balance_loss_clip": 1.04917908,
      "balance_loss_mlp": 1.02169204,
      "epoch": 0.25058618409186556,
      "flos": 16875269562240.0,
      "grad_norm": 2.57146348351296,
      "language_loss": 0.78329343,
      "learning_rate": 3.5110817027412123e-06,
      "loss": 0.8045454,
      "num_input_tokens_seen": 44512000,
      "step": 2084,
      "time_per_iteration": 2.6081719398498535
    },
    {
      "auxiliary_loss_clip": 0.01092303,
      "auxiliary_loss_mlp": 0.0102354,
      "balance_loss_clip": 1.0473237,
      "balance_loss_mlp": 1.01702785,
      "epoch": 0.25070642698250467,
      "flos": 24427825758720.0,
      "grad_norm": 4.845133116423328,
      "language_loss": 0.69183064,
      "learning_rate": 3.5105712826168493e-06,
      "loss": 0.71298909,
      "num_input_tokens_seen": 44531650,
      "step": 2085,
      "time_per_iteration": 2.72046160697937
    },
    {
      "auxiliary_loss_clip": 0.01118949,
      "auxiliary_loss_mlp": 0.00756825,
      "balance_loss_clip": 1.05097806,
      "balance_loss_mlp": 1.00082612,
      "epoch": 0.2508266698731437,
      "flos": 20262705966720.0,
      "grad_norm": 2.7057186880888677,
      "language_loss": 0.70777416,
      "learning_rate": 3.5100606333400235e-06,
      "loss": 0.72653186,
      "num_input_tokens_seen": 44548785,
      "step": 2086,
      "time_per_iteration": 2.5486199855804443
    },
    {
      "auxiliary_loss_clip": 0.01110543,
      "auxiliary_loss_mlp": 0.01027185,
      "balance_loss_clip": 1.04990935,
      "balance_loss_mlp": 1.01932931,
      "epoch": 0.25094691276378284,
      "flos": 19247357531520.0,
      "grad_norm": 4.725615886211237,
      "language_loss": 0.76647305,
      "learning_rate": 3.5095497549882006e-06,
      "loss": 0.78785032,
      "num_input_tokens_seen": 44567230,
      "step": 2087,
      "time_per_iteration": 2.624002456665039
    },
    {
      "auxiliary_loss_clip": 0.01117866,
      "auxiliary_loss_mlp": 0.01026354,
      "balance_loss_clip": 1.05165339,
      "balance_loss_mlp": 1.0189805,
      "epoch": 0.25106715565442195,
      "flos": 26945673114240.0,
      "grad_norm": 12.033245242712272,
      "language_loss": 0.72522825,
      "learning_rate": 3.50903864763888e-06,
      "loss": 0.74667048,
      "num_input_tokens_seen": 44588020,
      "step": 2088,
      "time_per_iteration": 2.5923314094543457
    },
    {
      "auxiliary_loss_clip": 0.01121141,
      "auxiliary_loss_mlp": 0.01026752,
      "balance_loss_clip": 1.05183399,
      "balance_loss_mlp": 1.01971555,
      "epoch": 0.251187398545061,
      "flos": 48363154583040.0,
      "grad_norm": 2.9488268946426333,
      "language_loss": 0.76347053,
      "learning_rate": 3.5085273113695965e-06,
      "loss": 0.78494954,
      "num_input_tokens_seen": 44612590,
      "step": 2089,
      "time_per_iteration": 2.8242416381835938
    },
    {
      "auxiliary_loss_clip": 0.01130825,
      "auxiliary_loss_mlp": 0.01025739,
      "balance_loss_clip": 1.05101442,
      "balance_loss_mlp": 1.01899207,
      "epoch": 0.2513076414357001,
      "flos": 27018533848320.0,
      "grad_norm": 2.5507116346797623,
      "language_loss": 0.78627849,
      "learning_rate": 3.508015746257919e-06,
      "loss": 0.8078441,
      "num_input_tokens_seen": 44631630,
      "step": 2090,
      "time_per_iteration": 2.56734561920166
    },
    {
      "auxiliary_loss_clip": 0.01089365,
      "auxiliary_loss_mlp": 0.01026003,
      "balance_loss_clip": 1.04528856,
      "balance_loss_mlp": 1.01889169,
      "epoch": 0.2514278843263392,
      "flos": 19465636389120.0,
      "grad_norm": 2.7408142733898817,
      "language_loss": 0.83249742,
      "learning_rate": 3.5075039523814518e-06,
      "loss": 0.85365111,
      "num_input_tokens_seen": 44650820,
      "step": 2091,
      "time_per_iteration": 2.6396384239196777
    },
    {
      "auxiliary_loss_clip": 0.01117695,
      "auxiliary_loss_mlp": 0.01023791,
      "balance_loss_clip": 1.04787982,
      "balance_loss_mlp": 1.01619172,
      "epoch": 0.2515481272169783,
      "flos": 16867572192000.0,
      "grad_norm": 2.420119635999761,
      "language_loss": 0.81579208,
      "learning_rate": 3.506991929817834e-06,
      "loss": 0.83720696,
      "num_input_tokens_seen": 44667540,
      "step": 2092,
      "time_per_iteration": 2.509727954864502
    },
    {
      "auxiliary_loss_clip": 0.01134819,
      "auxiliary_loss_mlp": 0.01023737,
      "balance_loss_clip": 1.05669522,
      "balance_loss_mlp": 1.01714146,
      "epoch": 0.2516683701076174,
      "flos": 23734719792000.0,
      "grad_norm": 1.9943256921215289,
      "language_loss": 0.82547802,
      "learning_rate": 3.506479678644738e-06,
      "loss": 0.84706354,
      "num_input_tokens_seen": 44687935,
      "step": 2093,
      "time_per_iteration": 2.598731756210327
    },
    {
      "auxiliary_loss_clip": 0.01069571,
      "auxiliary_loss_mlp": 0.01025511,
      "balance_loss_clip": 1.04147673,
      "balance_loss_mlp": 1.01857924,
      "epoch": 0.2517886129982565,
      "flos": 27638399900160.0,
      "grad_norm": 3.1427530637136427,
      "language_loss": 0.73968685,
      "learning_rate": 3.505967198939873e-06,
      "loss": 0.76063764,
      "num_input_tokens_seen": 44704975,
      "step": 2094,
      "time_per_iteration": 2.670834541320801
    },
    {
      "auxiliary_loss_clip": 0.01097501,
      "auxiliary_loss_mlp": 0.01021761,
      "balance_loss_clip": 1.04343998,
      "balance_loss_mlp": 1.01496589,
      "epoch": 0.25190885588889556,
      "flos": 38107470954240.0,
      "grad_norm": 2.3711445564598197,
      "language_loss": 0.78180003,
      "learning_rate": 3.5054544907809813e-06,
      "loss": 0.8029927,
      "num_input_tokens_seen": 44725475,
      "step": 2095,
      "time_per_iteration": 2.7614221572875977
    },
    {
      "auxiliary_loss_clip": 0.0109867,
      "auxiliary_loss_mlp": 0.00757224,
      "balance_loss_clip": 1.04607737,
      "balance_loss_mlp": 1.00076199,
      "epoch": 0.25202909877953467,
      "flos": 22271893234560.0,
      "grad_norm": 6.240929880307726,
      "language_loss": 0.80523467,
      "learning_rate": 3.50494155424584e-06,
      "loss": 0.82379365,
      "num_input_tokens_seen": 44744380,
      "step": 2096,
      "time_per_iteration": 2.6288230419158936
    },
    {
      "auxiliary_loss_clip": 0.01121975,
      "auxiliary_loss_mlp": 0.01022657,
      "balance_loss_clip": 1.05230355,
      "balance_loss_mlp": 1.0157969,
      "epoch": 0.2521493416701738,
      "flos": 21763877754240.0,
      "grad_norm": 2.5692822893407565,
      "language_loss": 0.83150351,
      "learning_rate": 3.504428389412262e-06,
      "loss": 0.85294986,
      "num_input_tokens_seen": 44765190,
      "step": 2097,
      "time_per_iteration": 2.595012903213501
    },
    {
      "auxiliary_loss_clip": 0.01120925,
      "auxiliary_loss_mlp": 0.01023129,
      "balance_loss_clip": 1.05068445,
      "balance_loss_mlp": 1.01625657,
      "epoch": 0.25226958456081283,
      "flos": 27749264601600.0,
      "grad_norm": 2.2539427158599206,
      "language_loss": 0.7272402,
      "learning_rate": 3.5039149963580927e-06,
      "loss": 0.74868071,
      "num_input_tokens_seen": 44785210,
      "step": 2098,
      "time_per_iteration": 2.6209537982940674
    },
    {
      "auxiliary_loss_clip": 0.01091511,
      "auxiliary_loss_mlp": 0.01026686,
      "balance_loss_clip": 1.044204,
      "balance_loss_mlp": 1.01995921,
      "epoch": 0.25238982745145194,
      "flos": 30734507122560.0,
      "grad_norm": 2.634972521736976,
      "language_loss": 0.69373012,
      "learning_rate": 3.503401375161215e-06,
      "loss": 0.71491206,
      "num_input_tokens_seen": 44804955,
      "step": 2099,
      "time_per_iteration": 2.630558490753174
    },
    {
      "auxiliary_loss_clip": 0.01128139,
      "auxiliary_loss_mlp": 0.01019792,
      "balance_loss_clip": 1.04874849,
      "balance_loss_mlp": 1.01349759,
      "epoch": 0.252510070342091,
      "flos": 20268393678720.0,
      "grad_norm": 2.302451544356424,
      "language_loss": 0.8387742,
      "learning_rate": 3.502887525899544e-06,
      "loss": 0.86025351,
      "num_input_tokens_seen": 44823935,
      "step": 2100,
      "time_per_iteration": 2.5286641120910645
    },
    {
      "auxiliary_loss_clip": 0.01106552,
      "auxiliary_loss_mlp": 0.01020036,
      "balance_loss_clip": 1.04951715,
      "balance_loss_mlp": 1.01320481,
      "epoch": 0.2526303132327301,
      "flos": 22749602117760.0,
      "grad_norm": 3.1765853262733645,
      "language_loss": 0.82994759,
      "learning_rate": 3.50237344865103e-06,
      "loss": 0.85121346,
      "num_input_tokens_seen": 44844935,
      "step": 2101,
      "time_per_iteration": 2.617582082748413
    },
    {
      "auxiliary_loss_clip": 0.01130894,
      "auxiliary_loss_mlp": 0.01028007,
      "balance_loss_clip": 1.05086422,
      "balance_loss_mlp": 1.02137601,
      "epoch": 0.2527505561233692,
      "flos": 30266088168960.0,
      "grad_norm": 8.71249361496295,
      "language_loss": 0.75861204,
      "learning_rate": 3.501859143493658e-06,
      "loss": 0.78020108,
      "num_input_tokens_seen": 44865565,
      "step": 2102,
      "time_per_iteration": 2.6215357780456543
    },
    {
      "auxiliary_loss_clip": 0.01130844,
      "auxiliary_loss_mlp": 0.01016578,
      "balance_loss_clip": 1.08110237,
      "balance_loss_mlp": 1.01362181,
      "epoch": 0.2528707990140083,
      "flos": 58498559775360.0,
      "grad_norm": 0.9479494041290428,
      "language_loss": 0.60453939,
      "learning_rate": 3.5013446105054488e-06,
      "loss": 0.62601364,
      "num_input_tokens_seen": 44918485,
      "step": 2103,
      "time_per_iteration": 2.8939294815063477
    },
    {
      "auxiliary_loss_clip": 0.01080613,
      "auxiliary_loss_mlp": 0.01027644,
      "balance_loss_clip": 1.04164577,
      "balance_loss_mlp": 1.02064919,
      "epoch": 0.2529910419046474,
      "flos": 24647469667200.0,
      "grad_norm": 2.3768990737121385,
      "language_loss": 0.74824643,
      "learning_rate": 3.5008298497644555e-06,
      "loss": 0.76932907,
      "num_input_tokens_seen": 44937530,
      "step": 2104,
      "time_per_iteration": 2.658658027648926
    },
    {
      "auxiliary_loss_clip": 0.01087069,
      "auxiliary_loss_mlp": 0.0102551,
      "balance_loss_clip": 1.04437363,
      "balance_loss_mlp": 1.01858962,
      "epoch": 0.2531112847952865,
      "flos": 23844409032960.0,
      "grad_norm": 3.5260391250608674,
      "language_loss": 0.87858546,
      "learning_rate": 3.500314861348767e-06,
      "loss": 0.89971125,
      "num_input_tokens_seen": 44958165,
      "step": 2105,
      "time_per_iteration": 3.3879189491271973
    },
    {
      "auxiliary_loss_clip": 0.01083761,
      "auxiliary_loss_mlp": 0.01028034,
      "balance_loss_clip": 1.04138064,
      "balance_loss_mlp": 1.02117693,
      "epoch": 0.25323152768592555,
      "flos": 16145676351360.0,
      "grad_norm": 9.888211347513984,
      "language_loss": 0.77322721,
      "learning_rate": 3.499799645336507e-06,
      "loss": 0.7943452,
      "num_input_tokens_seen": 44975060,
      "step": 2106,
      "time_per_iteration": 2.590405225753784
    },
    {
      "auxiliary_loss_clip": 0.01120095,
      "auxiliary_loss_mlp": 0.01021297,
      "balance_loss_clip": 1.05149114,
      "balance_loss_mlp": 1.01520813,
      "epoch": 0.25335177057656466,
      "flos": 28407817146240.0,
      "grad_norm": 2.2646403944601112,
      "language_loss": 0.87196535,
      "learning_rate": 3.4992842018058336e-06,
      "loss": 0.89337927,
      "num_input_tokens_seen": 44997960,
      "step": 2107,
      "time_per_iteration": 3.3876118659973145
    },
    {
      "auxiliary_loss_clip": 0.01092407,
      "auxiliary_loss_mlp": 0.01018608,
      "balance_loss_clip": 1.04658186,
      "balance_loss_mlp": 1.01212931,
      "epoch": 0.25347201346720377,
      "flos": 18801244460160.0,
      "grad_norm": 3.028576402742359,
      "language_loss": 0.88632655,
      "learning_rate": 3.4987685308349384e-06,
      "loss": 0.90743673,
      "num_input_tokens_seen": 45015690,
      "step": 2108,
      "time_per_iteration": 3.369591474533081
    },
    {
      "auxiliary_loss_clip": 0.01097948,
      "auxiliary_loss_mlp": 0.01025031,
      "balance_loss_clip": 1.0480926,
      "balance_loss_mlp": 1.01867104,
      "epoch": 0.2535922563578428,
      "flos": 15817329072000.0,
      "grad_norm": 5.571238720473701,
      "language_loss": 0.61654937,
      "learning_rate": 3.4982526325020497e-06,
      "loss": 0.63777912,
      "num_input_tokens_seen": 45032660,
      "step": 2109,
      "time_per_iteration": 3.526203155517578
    },
    {
      "auxiliary_loss_clip": 0.01103129,
      "auxiliary_loss_mlp": 0.01023893,
      "balance_loss_clip": 1.04703701,
      "balance_loss_mlp": 1.01671076,
      "epoch": 0.25371249924848194,
      "flos": 16320377283840.0,
      "grad_norm": 3.0456129359354405,
      "language_loss": 0.81940407,
      "learning_rate": 3.4977365068854273e-06,
      "loss": 0.84067422,
      "num_input_tokens_seen": 45048280,
      "step": 2110,
      "time_per_iteration": 2.5512139797210693
    },
    {
      "auxiliary_loss_clip": 0.01105098,
      "auxiliary_loss_mlp": 0.01025791,
      "balance_loss_clip": 1.04813433,
      "balance_loss_mlp": 1.01864791,
      "epoch": 0.25383274213912105,
      "flos": 21763726081920.0,
      "grad_norm": 2.448014334125472,
      "language_loss": 0.73713565,
      "learning_rate": 3.4972201540633676e-06,
      "loss": 0.75844461,
      "num_input_tokens_seen": 45067635,
      "step": 2111,
      "time_per_iteration": 2.584083080291748
    },
    {
      "auxiliary_loss_clip": 0.01104293,
      "auxiliary_loss_mlp": 0.01026608,
      "balance_loss_clip": 1.04892445,
      "balance_loss_mlp": 1.01941991,
      "epoch": 0.2539529850297601,
      "flos": 21398967394560.0,
      "grad_norm": 3.064251826019406,
      "language_loss": 0.85449255,
      "learning_rate": 3.4967035741142008e-06,
      "loss": 0.87580156,
      "num_input_tokens_seen": 45086455,
      "step": 2112,
      "time_per_iteration": 2.581958055496216
    },
    {
      "auxiliary_loss_clip": 0.01085405,
      "auxiliary_loss_mlp": 0.01026527,
      "balance_loss_clip": 1.04069579,
      "balance_loss_mlp": 1.02031946,
      "epoch": 0.2540732279203992,
      "flos": 25230810556800.0,
      "grad_norm": 2.33961211845887,
      "language_loss": 0.81758589,
      "learning_rate": 3.4961867671162917e-06,
      "loss": 0.83870518,
      "num_input_tokens_seen": 45106385,
      "step": 2113,
      "time_per_iteration": 2.609084129333496
    },
    {
      "auxiliary_loss_clip": 0.01129882,
      "auxiliary_loss_mlp": 0.01022552,
      "balance_loss_clip": 1.04995298,
      "balance_loss_mlp": 1.01524496,
      "epoch": 0.2541934708110383,
      "flos": 19429414571520.0,
      "grad_norm": 3.1927527907354043,
      "language_loss": 0.77279925,
      "learning_rate": 3.4956697331480402e-06,
      "loss": 0.79432362,
      "num_input_tokens_seen": 45124955,
      "step": 2114,
      "time_per_iteration": 2.5146842002868652
    },
    {
      "auxiliary_loss_clip": 0.01093462,
      "auxiliary_loss_mlp": 0.01025305,
      "balance_loss_clip": 1.04599166,
      "balance_loss_mlp": 1.01817012,
      "epoch": 0.2543137137016774,
      "flos": 23951595680640.0,
      "grad_norm": 1.9500046101824882,
      "language_loss": 0.79993117,
      "learning_rate": 3.495152472287879e-06,
      "loss": 0.82111883,
      "num_input_tokens_seen": 45145665,
      "step": 2115,
      "time_per_iteration": 2.645028591156006
    },
    {
      "auxiliary_loss_clip": 0.01089438,
      "auxiliary_loss_mlp": 0.01023636,
      "balance_loss_clip": 1.04844797,
      "balance_loss_mlp": 1.01712418,
      "epoch": 0.2544339565923165,
      "flos": 25595645080320.0,
      "grad_norm": 2.409494636983904,
      "language_loss": 0.73932743,
      "learning_rate": 3.4946349846142766e-06,
      "loss": 0.76045811,
      "num_input_tokens_seen": 45164805,
      "step": 2116,
      "time_per_iteration": 2.667478322982788
    },
    {
      "auxiliary_loss_clip": 0.01127551,
      "auxiliary_loss_mlp": 0.01026723,
      "balance_loss_clip": 1.04800749,
      "balance_loss_mlp": 1.02024102,
      "epoch": 0.25455419948295555,
      "flos": 21691623709440.0,
      "grad_norm": 4.351639429759126,
      "language_loss": 0.75261599,
      "learning_rate": 3.4941172702057353e-06,
      "loss": 0.77415872,
      "num_input_tokens_seen": 45184865,
      "step": 2117,
      "time_per_iteration": 2.5371100902557373
    },
    {
      "auxiliary_loss_clip": 0.0110229,
      "auxiliary_loss_mlp": 0.01028065,
      "balance_loss_clip": 1.04891193,
      "balance_loss_mlp": 1.02138293,
      "epoch": 0.25467444237359466,
      "flos": 26252756737920.0,
      "grad_norm": 2.4463692093542937,
      "language_loss": 0.80871123,
      "learning_rate": 3.4935993291407924e-06,
      "loss": 0.83001471,
      "num_input_tokens_seen": 45203690,
      "step": 2118,
      "time_per_iteration": 2.6377274990081787
    },
    {
      "auxiliary_loss_clip": 0.01105773,
      "auxiliary_loss_mlp": 0.01024536,
      "balance_loss_clip": 1.04721546,
      "balance_loss_mlp": 1.01746988,
      "epoch": 0.25479468526423377,
      "flos": 26982122440320.0,
      "grad_norm": 3.8148700029455953,
      "language_loss": 0.71133161,
      "learning_rate": 3.4930811614980183e-06,
      "loss": 0.73263466,
      "num_input_tokens_seen": 45225385,
      "step": 2119,
      "time_per_iteration": 2.636946439743042
    },
    {
      "auxiliary_loss_clip": 0.0111835,
      "auxiliary_loss_mlp": 0.01025163,
      "balance_loss_clip": 1.04928195,
      "balance_loss_mlp": 1.01880908,
      "epoch": 0.2549149281548728,
      "flos": 23477981950080.0,
      "grad_norm": 1.892934347979678,
      "language_loss": 0.7937237,
      "learning_rate": 3.4925627673560198e-06,
      "loss": 0.81515884,
      "num_input_tokens_seen": 45246045,
      "step": 2120,
      "time_per_iteration": 2.6039626598358154
    },
    {
      "auxiliary_loss_clip": 0.01081281,
      "auxiliary_loss_mlp": 0.01027618,
      "balance_loss_clip": 1.04140639,
      "balance_loss_mlp": 1.02139258,
      "epoch": 0.25503517104551193,
      "flos": 25814682299520.0,
      "grad_norm": 2.51796975885139,
      "language_loss": 0.88147807,
      "learning_rate": 3.4920441467934357e-06,
      "loss": 0.90256703,
      "num_input_tokens_seen": 45266560,
      "step": 2121,
      "time_per_iteration": 2.668654441833496
    },
    {
      "auxiliary_loss_clip": 0.01084366,
      "auxiliary_loss_mlp": 0.01026112,
      "balance_loss_clip": 1.04220247,
      "balance_loss_mlp": 1.01959109,
      "epoch": 0.25515541393615104,
      "flos": 26647177415040.0,
      "grad_norm": 2.4199394793870264,
      "language_loss": 0.82967824,
      "learning_rate": 3.491525299888941e-06,
      "loss": 0.85078299,
      "num_input_tokens_seen": 45285405,
      "step": 2122,
      "time_per_iteration": 2.649763584136963
    },
    {
      "auxiliary_loss_clip": 0.01082005,
      "auxiliary_loss_mlp": 0.00753141,
      "balance_loss_clip": 1.06146824,
      "balance_loss_mlp": 1.00024378,
      "epoch": 0.2552756568267901,
      "flos": 65963115872640.0,
      "grad_norm": 0.889943375644757,
      "language_loss": 0.62525266,
      "learning_rate": 3.491006226721244e-06,
      "loss": 0.6436041,
      "num_input_tokens_seen": 45349615,
      "step": 2123,
      "time_per_iteration": 3.2413017749786377
    },
    {
      "auxiliary_loss_clip": 0.01102807,
      "auxiliary_loss_mlp": 0.00756966,
      "balance_loss_clip": 1.04741287,
      "balance_loss_mlp": 1.00092506,
      "epoch": 0.2553958997174292,
      "flos": 17933020462080.0,
      "grad_norm": 2.2510270961684746,
      "language_loss": 0.77600718,
      "learning_rate": 3.4904869273690882e-06,
      "loss": 0.7946049,
      "num_input_tokens_seen": 45367505,
      "step": 2124,
      "time_per_iteration": 2.577512264251709
    },
    {
      "auxiliary_loss_clip": 0.01118137,
      "auxiliary_loss_mlp": 0.0102142,
      "balance_loss_clip": 1.04962862,
      "balance_loss_mlp": 1.01473522,
      "epoch": 0.2555161426080683,
      "flos": 23370036940800.0,
      "grad_norm": 2.036602977716317,
      "language_loss": 0.88699031,
      "learning_rate": 3.489967401911251e-06,
      "loss": 0.90838593,
      "num_input_tokens_seen": 45386805,
      "step": 2125,
      "time_per_iteration": 2.59676194190979
    },
    {
      "auxiliary_loss_clip": 0.01131816,
      "auxiliary_loss_mlp": 0.01023507,
      "balance_loss_clip": 1.05147088,
      "balance_loss_mlp": 1.01573515,
      "epoch": 0.2556363854987074,
      "flos": 40628313838080.0,
      "grad_norm": 1.7766517102075763,
      "language_loss": 0.69385135,
      "learning_rate": 3.4894476504265428e-06,
      "loss": 0.71540457,
      "num_input_tokens_seen": 45411045,
      "step": 2126,
      "time_per_iteration": 2.6977078914642334
    },
    {
      "auxiliary_loss_clip": 0.01122883,
      "auxiliary_loss_mlp": 0.01013279,
      "balance_loss_clip": 1.08288598,
      "balance_loss_mlp": 1.01015556,
      "epoch": 0.2557566283893465,
      "flos": 68025825653760.0,
      "grad_norm": 0.7397526466743978,
      "language_loss": 0.54428661,
      "learning_rate": 3.4889276729938104e-06,
      "loss": 0.5656482,
      "num_input_tokens_seen": 45469575,
      "step": 2127,
      "time_per_iteration": 3.091707229614258
    },
    {
      "auxiliary_loss_clip": 0.01092443,
      "auxiliary_loss_mlp": 0.01020821,
      "balance_loss_clip": 1.04218829,
      "balance_loss_mlp": 1.01363289,
      "epoch": 0.2558768712799856,
      "flos": 22637713628160.0,
      "grad_norm": 3.3422202290381464,
      "language_loss": 0.80360013,
      "learning_rate": 3.488407469691934e-06,
      "loss": 0.82473278,
      "num_input_tokens_seen": 45490270,
      "step": 2128,
      "time_per_iteration": 2.5640156269073486
    },
    {
      "auxiliary_loss_clip": 0.01108571,
      "auxiliary_loss_mlp": 0.01024341,
      "balance_loss_clip": 1.04869485,
      "balance_loss_mlp": 1.01715899,
      "epoch": 0.25599711417062465,
      "flos": 26398781550720.0,
      "grad_norm": 2.8274307019914886,
      "language_loss": 0.8078565,
      "learning_rate": 3.487887040599828e-06,
      "loss": 0.82918561,
      "num_input_tokens_seen": 45510070,
      "step": 2129,
      "time_per_iteration": 2.663654327392578
    },
    {
      "auxiliary_loss_clip": 0.01129767,
      "auxiliary_loss_mlp": 0.01025298,
      "balance_loss_clip": 1.05070698,
      "balance_loss_mlp": 1.01802075,
      "epoch": 0.25611735706126376,
      "flos": 22853982827520.0,
      "grad_norm": 2.4936644576159486,
      "language_loss": 0.7587781,
      "learning_rate": 3.4873663857964407e-06,
      "loss": 0.78032875,
      "num_input_tokens_seen": 45527285,
      "step": 2130,
      "time_per_iteration": 2.5133213996887207
    },
    {
      "auxiliary_loss_clip": 0.0105745,
      "auxiliary_loss_mlp": 0.01023677,
      "balance_loss_clip": 1.03374767,
      "balance_loss_mlp": 1.01700974,
      "epoch": 0.2562375999519028,
      "flos": 23370112776960.0,
      "grad_norm": 2.9872165396728727,
      "language_loss": 0.6640656,
      "learning_rate": 3.4868455053607556e-06,
      "loss": 0.68487686,
      "num_input_tokens_seen": 45546900,
      "step": 2131,
      "time_per_iteration": 3.4517476558685303
    },
    {
      "auxiliary_loss_clip": 0.0111717,
      "auxiliary_loss_mlp": 0.01025658,
      "balance_loss_clip": 1.0479269,
      "balance_loss_mlp": 1.01853871,
      "epoch": 0.2563578428425419,
      "flos": 22859177604480.0,
      "grad_norm": 2.4407321548837015,
      "language_loss": 0.71437418,
      "learning_rate": 3.486324399371789e-06,
      "loss": 0.73580253,
      "num_input_tokens_seen": 45566200,
      "step": 2132,
      "time_per_iteration": 2.5472631454467773
    },
    {
      "auxiliary_loss_clip": 0.01088441,
      "auxiliary_loss_mlp": 0.01027681,
      "balance_loss_clip": 1.04679918,
      "balance_loss_mlp": 1.02118123,
      "epoch": 0.25647808573318104,
      "flos": 21656084417280.0,
      "grad_norm": 2.5645869525007634,
      "language_loss": 0.78595626,
      "learning_rate": 3.485803067908593e-06,
      "loss": 0.80711746,
      "num_input_tokens_seen": 45585710,
      "step": 2133,
      "time_per_iteration": 3.410172939300537
    },
    {
      "auxiliary_loss_clip": 0.01066968,
      "auxiliary_loss_mlp": 0.0102377,
      "balance_loss_clip": 1.04362309,
      "balance_loss_mlp": 1.01668882,
      "epoch": 0.2565983286238201,
      "flos": 33733438070400.0,
      "grad_norm": 4.510338577877011,
      "language_loss": 0.79849255,
      "learning_rate": 3.485281511050253e-06,
      "loss": 0.81939995,
      "num_input_tokens_seen": 45607845,
      "step": 2134,
      "time_per_iteration": 4.34319543838501
    },
    {
      "auxiliary_loss_clip": 0.01118442,
      "auxiliary_loss_mlp": 0.01024944,
      "balance_loss_clip": 1.04947162,
      "balance_loss_mlp": 1.01820004,
      "epoch": 0.2567185715144592,
      "flos": 16217816641920.0,
      "grad_norm": 11.152247183691424,
      "language_loss": 0.89445525,
      "learning_rate": 3.484759728875889e-06,
      "loss": 0.91588914,
      "num_input_tokens_seen": 45623210,
      "step": 2135,
      "time_per_iteration": 2.5363199710845947
    },
    {
      "auxiliary_loss_clip": 0.01069879,
      "auxiliary_loss_mlp": 0.01026128,
      "balance_loss_clip": 1.04035985,
      "balance_loss_mlp": 1.01967239,
      "epoch": 0.2568388144050983,
      "flos": 17460468437760.0,
      "grad_norm": 3.2020882824508927,
      "language_loss": 0.8092562,
      "learning_rate": 3.4842377214646543e-06,
      "loss": 0.83021629,
      "num_input_tokens_seen": 45641505,
      "step": 2136,
      "time_per_iteration": 2.638637065887451
    },
    {
      "auxiliary_loss_clip": 0.01128584,
      "auxiliary_loss_mlp": 0.01024078,
      "balance_loss_clip": 1.05018449,
      "balance_loss_mlp": 1.01758718,
      "epoch": 0.25695905729573737,
      "flos": 20889586863360.0,
      "grad_norm": 2.0990869293003427,
      "language_loss": 0.66622847,
      "learning_rate": 3.483715488895737e-06,
      "loss": 0.68775511,
      "num_input_tokens_seen": 45661835,
      "step": 2137,
      "time_per_iteration": 2.5776333808898926
    },
    {
      "auxiliary_loss_clip": 0.01068417,
      "auxiliary_loss_mlp": 0.01019351,
      "balance_loss_clip": 1.03739977,
      "balance_loss_mlp": 1.01243377,
      "epoch": 0.2570793001863765,
      "flos": 24719572039680.0,
      "grad_norm": 2.295471367548732,
      "language_loss": 0.78639209,
      "learning_rate": 3.48319303124836e-06,
      "loss": 0.80726981,
      "num_input_tokens_seen": 45682215,
      "step": 2138,
      "time_per_iteration": 2.6662306785583496
    },
    {
      "auxiliary_loss_clip": 0.0109322,
      "auxiliary_loss_mlp": 0.01024685,
      "balance_loss_clip": 1.04506457,
      "balance_loss_mlp": 1.01800311,
      "epoch": 0.2571995430770156,
      "flos": 26909337542400.0,
      "grad_norm": 7.216100559687164,
      "language_loss": 0.66747159,
      "learning_rate": 3.4826703486017798e-06,
      "loss": 0.68865067,
      "num_input_tokens_seen": 45701840,
      "step": 2139,
      "time_per_iteration": 2.666033983230591
    },
    {
      "auxiliary_loss_clip": 0.01116108,
      "auxiliary_loss_mlp": 0.0102296,
      "balance_loss_clip": 1.0500716,
      "balance_loss_mlp": 1.01650214,
      "epoch": 0.25731978596765465,
      "flos": 19794628275840.0,
      "grad_norm": 2.3074745593786825,
      "language_loss": 0.76687604,
      "learning_rate": 3.4821474410352867e-06,
      "loss": 0.78826672,
      "num_input_tokens_seen": 45720500,
      "step": 2140,
      "time_per_iteration": 2.5378246307373047
    },
    {
      "auxiliary_loss_clip": 0.01068295,
      "auxiliary_loss_mlp": 0.01007619,
      "balance_loss_clip": 1.05975747,
      "balance_loss_mlp": 1.00497246,
      "epoch": 0.25744002885829376,
      "flos": 70571021996160.0,
      "grad_norm": 0.9081977939728296,
      "language_loss": 0.62655878,
      "learning_rate": 3.481624308628205e-06,
      "loss": 0.64731789,
      "num_input_tokens_seen": 45781870,
      "step": 2141,
      "time_per_iteration": 3.3425772190093994
    },
    {
      "auxiliary_loss_clip": 0.01103838,
      "auxiliary_loss_mlp": 0.01027577,
      "balance_loss_clip": 1.04731584,
      "balance_loss_mlp": 1.02063632,
      "epoch": 0.25756027174893287,
      "flos": 18039979601280.0,
      "grad_norm": 8.559717147906653,
      "language_loss": 1.00874138,
      "learning_rate": 3.481100951459893e-06,
      "loss": 1.0300554,
      "num_input_tokens_seen": 45794890,
      "step": 2142,
      "time_per_iteration": 2.5413262844085693
    },
    {
      "auxiliary_loss_clip": 0.0111269,
      "auxiliary_loss_mlp": 0.01023803,
      "balance_loss_clip": 1.046978,
      "balance_loss_mlp": 1.01718712,
      "epoch": 0.2576805146395719,
      "flos": 22676248448640.0,
      "grad_norm": 2.032319259064853,
      "language_loss": 0.78666067,
      "learning_rate": 3.4805773696097453e-06,
      "loss": 0.80802566,
      "num_input_tokens_seen": 45815780,
      "step": 2143,
      "time_per_iteration": 2.6196107864379883
    },
    {
      "auxiliary_loss_clip": 0.01085927,
      "auxiliary_loss_mlp": 0.01020766,
      "balance_loss_clip": 1.04135919,
      "balance_loss_mlp": 1.01426864,
      "epoch": 0.25780075753021103,
      "flos": 16474099466880.0,
      "grad_norm": 2.66628013316642,
      "language_loss": 0.87812746,
      "learning_rate": 3.4800535631571874e-06,
      "loss": 0.89919436,
      "num_input_tokens_seen": 45831310,
      "step": 2144,
      "time_per_iteration": 2.52645206451416
    },
    {
      "auxiliary_loss_clip": 0.01102858,
      "auxiliary_loss_mlp": 0.01030478,
      "balance_loss_clip": 1.04632759,
      "balance_loss_mlp": 1.02335787,
      "epoch": 0.25792100042085014,
      "flos": 22822500769920.0,
      "grad_norm": 2.665779497952368,
      "language_loss": 0.76151311,
      "learning_rate": 3.4795295321816804e-06,
      "loss": 0.78284651,
      "num_input_tokens_seen": 45850135,
      "step": 2145,
      "time_per_iteration": 2.640077590942383
    },
    {
      "auxiliary_loss_clip": 0.01103455,
      "auxiliary_loss_mlp": 0.0102669,
      "balance_loss_clip": 1.0477159,
      "balance_loss_mlp": 1.02019882,
      "epoch": 0.2580412433114892,
      "flos": 18699252589440.0,
      "grad_norm": 2.9749872052283863,
      "language_loss": 0.90643275,
      "learning_rate": 3.47900527676272e-06,
      "loss": 0.9277342,
      "num_input_tokens_seen": 45868470,
      "step": 2146,
      "time_per_iteration": 2.5363399982452393
    },
    {
      "auxiliary_loss_clip": 0.01131204,
      "auxiliary_loss_mlp": 0.010273,
      "balance_loss_clip": 1.05272889,
      "balance_loss_mlp": 1.02050245,
      "epoch": 0.2581614862021283,
      "flos": 14284902735360.0,
      "grad_norm": 2.20456541157167,
      "language_loss": 0.88492107,
      "learning_rate": 3.478480796979835e-06,
      "loss": 0.90650612,
      "num_input_tokens_seen": 45886355,
      "step": 2147,
      "time_per_iteration": 2.5851333141326904
    },
    {
      "auxiliary_loss_clip": 0.01098517,
      "auxiliary_loss_mlp": 0.01022824,
      "balance_loss_clip": 1.04556131,
      "balance_loss_mlp": 1.01639867,
      "epoch": 0.25828172909276736,
      "flos": 29500917747840.0,
      "grad_norm": 1.7807984739417129,
      "language_loss": 0.77848363,
      "learning_rate": 3.4779560929125894e-06,
      "loss": 0.79969704,
      "num_input_tokens_seen": 45907900,
      "step": 2148,
      "time_per_iteration": 2.6373465061187744
    },
    {
      "auxiliary_loss_clip": 0.0107617,
      "auxiliary_loss_mlp": 0.01005247,
      "balance_loss_clip": 1.06021237,
      "balance_loss_mlp": 1.00205255,
      "epoch": 0.2584019719834065,
      "flos": 67121114411520.0,
      "grad_norm": 0.6655642909869658,
      "language_loss": 0.56816161,
      "learning_rate": 3.4774311646405783e-06,
      "loss": 0.58897579,
      "num_input_tokens_seen": 45977805,
      "step": 2149,
      "time_per_iteration": 3.3246912956237793
    },
    {
      "auxiliary_loss_clip": 0.01094602,
      "auxiliary_loss_mlp": 0.01025676,
      "balance_loss_clip": 1.04749918,
      "balance_loss_mlp": 1.01909912,
      "epoch": 0.2585222148740456,
      "flos": 22895778602880.0,
      "grad_norm": 2.681496057252297,
      "language_loss": 0.83340549,
      "learning_rate": 3.476906012243435e-06,
      "loss": 0.8546083,
      "num_input_tokens_seen": 45996715,
      "step": 2150,
      "time_per_iteration": 2.7091147899627686
    },
    {
      "auxiliary_loss_clip": 0.01119178,
      "auxiliary_loss_mlp": 0.01021375,
      "balance_loss_clip": 1.05117357,
      "balance_loss_mlp": 1.01453209,
      "epoch": 0.25864245776468464,
      "flos": 28911509965440.0,
      "grad_norm": 2.576832997296992,
      "language_loss": 0.80913824,
      "learning_rate": 3.476380635800824e-06,
      "loss": 0.83054376,
      "num_input_tokens_seen": 46017915,
      "step": 2151,
      "time_per_iteration": 2.6081395149230957
    },
    {
      "auxiliary_loss_clip": 0.01101273,
      "auxiliary_loss_mlp": 0.01024185,
      "balance_loss_clip": 1.04730296,
      "balance_loss_mlp": 1.01789427,
      "epoch": 0.25876270065532375,
      "flos": 14794927873920.0,
      "grad_norm": 2.5346928829616395,
      "language_loss": 0.86019701,
      "learning_rate": 3.475855035392444e-06,
      "loss": 0.88145161,
      "num_input_tokens_seen": 46033235,
      "step": 2152,
      "time_per_iteration": 2.5697624683380127
    },
    {
      "auxiliary_loss_clip": 0.01051505,
      "auxiliary_loss_mlp": 0.01018343,
      "balance_loss_clip": 1.03726733,
      "balance_loss_mlp": 1.01162887,
      "epoch": 0.25888294354596286,
      "flos": 60471800703360.0,
      "grad_norm": 3.3830370521475452,
      "language_loss": 0.71241158,
      "learning_rate": 3.475329211098029e-06,
      "loss": 0.73311007,
      "num_input_tokens_seen": 46056390,
      "step": 2153,
      "time_per_iteration": 3.011657476425171
    },
    {
      "auxiliary_loss_clip": 0.01076241,
      "auxiliary_loss_mlp": 0.01022199,
      "balance_loss_clip": 1.04552972,
      "balance_loss_mlp": 1.0155828,
      "epoch": 0.2590031864366019,
      "flos": 27853417802880.0,
      "grad_norm": 2.967166571302259,
      "language_loss": 0.82217759,
      "learning_rate": 3.4748031629973453e-06,
      "loss": 0.843162,
      "num_input_tokens_seen": 46077120,
      "step": 2154,
      "time_per_iteration": 2.7133572101593018
    },
    {
      "auxiliary_loss_clip": 0.01056412,
      "auxiliary_loss_mlp": 0.01007584,
      "balance_loss_clip": 1.05670667,
      "balance_loss_mlp": 1.00481856,
      "epoch": 0.25912342932724103,
      "flos": 62429730491520.0,
      "grad_norm": 0.9117852895254406,
      "language_loss": 0.56484419,
      "learning_rate": 3.4742768911701944e-06,
      "loss": 0.58548421,
      "num_input_tokens_seen": 46139815,
      "step": 2155,
      "time_per_iteration": 3.3215925693511963
    },
    {
      "auxiliary_loss_clip": 0.01117657,
      "auxiliary_loss_mlp": 0.01029634,
      "balance_loss_clip": 1.04988313,
      "balance_loss_mlp": 1.0219748,
      "epoch": 0.25924367221788014,
      "flos": 12380096177280.0,
      "grad_norm": 3.106556591432297,
      "language_loss": 0.7056886,
      "learning_rate": 3.4737503956964113e-06,
      "loss": 0.72716153,
      "num_input_tokens_seen": 46152120,
      "step": 2156,
      "time_per_iteration": 2.5263633728027344
    },
    {
      "auxiliary_loss_clip": 0.01094109,
      "auxiliary_loss_mlp": 0.0102937,
      "balance_loss_clip": 1.03965926,
      "balance_loss_mlp": 1.02182961,
      "epoch": 0.2593639151085192,
      "flos": 14576990279040.0,
      "grad_norm": 2.671585942510291,
      "language_loss": 0.67159951,
      "learning_rate": 3.473223676655865e-06,
      "loss": 0.69283426,
      "num_input_tokens_seen": 46170120,
      "step": 2157,
      "time_per_iteration": 2.570800542831421
    },
    {
      "auxiliary_loss_clip": 0.01108648,
      "auxiliary_loss_mlp": 0.01028189,
      "balance_loss_clip": 1.04933596,
      "balance_loss_mlp": 1.02072108,
      "epoch": 0.2594841579991583,
      "flos": 15232698967680.0,
      "grad_norm": 60.881644360904104,
      "language_loss": 0.79826272,
      "learning_rate": 3.472696734128459e-06,
      "loss": 0.81963104,
      "num_input_tokens_seen": 46187985,
      "step": 2158,
      "time_per_iteration": 3.3498871326446533
    },
    {
      "auxiliary_loss_clip": 0.0111682,
      "auxiliary_loss_mlp": 0.0102482,
      "balance_loss_clip": 1.0496341,
      "balance_loss_mlp": 1.01786399,
      "epoch": 0.2596044008897974,
      "flos": 23625864748800.0,
      "grad_norm": 1.941995530478467,
      "language_loss": 0.7543596,
      "learning_rate": 3.4721695681941286e-06,
      "loss": 0.77577603,
      "num_input_tokens_seen": 46207025,
      "step": 2159,
      "time_per_iteration": 3.3856308460235596
    },
    {
      "auxiliary_loss_clip": 0.01101285,
      "auxiliary_loss_mlp": 0.00757411,
      "balance_loss_clip": 1.04754806,
      "balance_loss_mlp": 1.00089598,
      "epoch": 0.25972464378043647,
      "flos": 13774005480960.0,
      "grad_norm": 3.0454520229235285,
      "language_loss": 0.8241812,
      "learning_rate": 3.471642178932845e-06,
      "loss": 0.84276813,
      "num_input_tokens_seen": 46225670,
      "step": 2160,
      "time_per_iteration": 4.0870444774627686
    },
    {
      "auxiliary_loss_clip": 0.01104179,
      "auxiliary_loss_mlp": 0.01022142,
      "balance_loss_clip": 1.04717922,
      "balance_loss_mlp": 1.01534152,
      "epoch": 0.2598448866710756,
      "flos": 19575628974720.0,
      "grad_norm": 2.709298383815395,
      "language_loss": 0.89088804,
      "learning_rate": 3.471114566424613e-06,
      "loss": 0.91215122,
      "num_input_tokens_seen": 46244130,
      "step": 2161,
      "time_per_iteration": 2.5876004695892334
    },
    {
      "auxiliary_loss_clip": 0.01101621,
      "auxiliary_loss_mlp": 0.01023377,
      "balance_loss_clip": 1.04944444,
      "balance_loss_mlp": 1.01597369,
      "epoch": 0.25996512956171464,
      "flos": 21655401891840.0,
      "grad_norm": 2.460878437434731,
      "language_loss": 0.7602129,
      "learning_rate": 3.4705867307494715e-06,
      "loss": 0.78146279,
      "num_input_tokens_seen": 46263200,
      "step": 2162,
      "time_per_iteration": 2.594635486602783
    },
    {
      "auxiliary_loss_clip": 0.01121757,
      "auxiliary_loss_mlp": 0.01023666,
      "balance_loss_clip": 1.05264688,
      "balance_loss_mlp": 1.01714206,
      "epoch": 0.26008537245235375,
      "flos": 18225449268480.0,
      "grad_norm": 4.874174185888331,
      "language_loss": 0.84377027,
      "learning_rate": 3.470058671987492e-06,
      "loss": 0.86522448,
      "num_input_tokens_seen": 46281465,
      "step": 2163,
      "time_per_iteration": 2.5438146591186523
    },
    {
      "auxiliary_loss_clip": 0.01121436,
      "auxiliary_loss_mlp": 0.01030874,
      "balance_loss_clip": 1.05133188,
      "balance_loss_mlp": 1.02340579,
      "epoch": 0.26020561534299286,
      "flos": 24647735093760.0,
      "grad_norm": 2.6981624841547456,
      "language_loss": 0.8415643,
      "learning_rate": 3.4695303902187805e-06,
      "loss": 0.86308742,
      "num_input_tokens_seen": 46301020,
      "step": 2164,
      "time_per_iteration": 2.602238416671753
    },
    {
      "auxiliary_loss_clip": 0.01101376,
      "auxiliary_loss_mlp": 0.0102874,
      "balance_loss_clip": 1.0522269,
      "balance_loss_mlp": 1.02155185,
      "epoch": 0.2603258582336319,
      "flos": 25775919970560.0,
      "grad_norm": 3.4475228216442626,
      "language_loss": 0.78617775,
      "learning_rate": 3.469001885523478e-06,
      "loss": 0.8074789,
      "num_input_tokens_seen": 46321740,
      "step": 2165,
      "time_per_iteration": 2.6513330936431885
    },
    {
      "auxiliary_loss_clip": 0.01130715,
      "auxiliary_loss_mlp": 0.01025914,
      "balance_loss_clip": 1.05154967,
      "balance_loss_mlp": 1.0188899,
      "epoch": 0.260446101124271,
      "flos": 28768784025600.0,
      "grad_norm": 2.010272255046528,
      "language_loss": 0.80940795,
      "learning_rate": 3.4684731579817568e-06,
      "loss": 0.83097422,
      "num_input_tokens_seen": 46342730,
      "step": 2166,
      "time_per_iteration": 2.592592239379883
    },
    {
      "auxiliary_loss_clip": 0.01056528,
      "auxiliary_loss_mlp": 0.01028139,
      "balance_loss_clip": 1.04480481,
      "balance_loss_mlp": 1.02151704,
      "epoch": 0.26056634401491013,
      "flos": 25669150421760.0,
      "grad_norm": 2.08564695825602,
      "language_loss": 0.7683965,
      "learning_rate": 3.4679442076738247e-06,
      "loss": 0.78924322,
      "num_input_tokens_seen": 46362445,
      "step": 2167,
      "time_per_iteration": 2.7182862758636475
    },
    {
      "auxiliary_loss_clip": 0.01133483,
      "auxiliary_loss_mlp": 0.01025982,
      "balance_loss_clip": 1.05419135,
      "balance_loss_mlp": 1.01832318,
      "epoch": 0.2606865869055492,
      "flos": 27055210682880.0,
      "grad_norm": 5.010414955956963,
      "language_loss": 0.83504462,
      "learning_rate": 3.4674150346799245e-06,
      "loss": 0.85663927,
      "num_input_tokens_seen": 46382145,
      "step": 2168,
      "time_per_iteration": 2.5682973861694336
    },
    {
      "auxiliary_loss_clip": 0.01096869,
      "auxiliary_loss_mlp": 0.01022551,
      "balance_loss_clip": 1.04636121,
      "balance_loss_mlp": 1.01541305,
      "epoch": 0.2608068297961883,
      "flos": 17714552014080.0,
      "grad_norm": 6.076951630370296,
      "language_loss": 0.80004632,
      "learning_rate": 3.4668856390803295e-06,
      "loss": 0.82124054,
      "num_input_tokens_seen": 46400025,
      "step": 2169,
      "time_per_iteration": 2.5634005069732666
    },
    {
      "auxiliary_loss_clip": 0.01124802,
      "auxiliary_loss_mlp": 0.01022977,
      "balance_loss_clip": 1.05676901,
      "balance_loss_mlp": 1.01580954,
      "epoch": 0.2609270726868274,
      "flos": 18553606957440.0,
      "grad_norm": 3.5105993301994065,
      "language_loss": 0.89395869,
      "learning_rate": 3.4663560209553495e-06,
      "loss": 0.91543651,
      "num_input_tokens_seen": 46418090,
      "step": 2170,
      "time_per_iteration": 2.598900318145752
    },
    {
      "auxiliary_loss_clip": 0.01109158,
      "auxiliary_loss_mlp": 0.01024695,
      "balance_loss_clip": 1.0521338,
      "balance_loss_mlp": 1.01822162,
      "epoch": 0.26104731557746647,
      "flos": 21837876030720.0,
      "grad_norm": 2.311769550593322,
      "language_loss": 0.7909019,
      "learning_rate": 3.4658261803853267e-06,
      "loss": 0.81224048,
      "num_input_tokens_seen": 46436015,
      "step": 2171,
      "time_per_iteration": 2.5966126918792725
    },
    {
      "auxiliary_loss_clip": 0.01090064,
      "auxiliary_loss_mlp": 0.01028112,
      "balance_loss_clip": 1.04021025,
      "balance_loss_mlp": 1.02062583,
      "epoch": 0.2611675584681056,
      "flos": 21691813299840.0,
      "grad_norm": 8.020971347171047,
      "language_loss": 0.8062017,
      "learning_rate": 3.4652961174506383e-06,
      "loss": 0.82738346,
      "num_input_tokens_seen": 46455885,
      "step": 2172,
      "time_per_iteration": 2.60186767578125
    },
    {
      "auxiliary_loss_clip": 0.01112046,
      "auxiliary_loss_mlp": 0.01009133,
      "balance_loss_clip": 1.07935774,
      "balance_loss_mlp": 1.00651062,
      "epoch": 0.2612878013587447,
      "flos": 71869347584640.0,
      "grad_norm": 0.9710987828046226,
      "language_loss": 0.58043897,
      "learning_rate": 3.464765832231694e-06,
      "loss": 0.60165071,
      "num_input_tokens_seen": 46510050,
      "step": 2173,
      "time_per_iteration": 3.1779630184173584
    },
    {
      "auxiliary_loss_clip": 0.01120545,
      "auxiliary_loss_mlp": 0.0102591,
      "balance_loss_clip": 1.05341887,
      "balance_loss_mlp": 1.01858163,
      "epoch": 0.26140804424938374,
      "flos": 20229441759360.0,
      "grad_norm": 2.1111746581400785,
      "language_loss": 0.7063747,
      "learning_rate": 3.4642353248089373e-06,
      "loss": 0.72783923,
      "num_input_tokens_seen": 46528810,
      "step": 2174,
      "time_per_iteration": 2.528366804122925
    },
    {
      "auxiliary_loss_clip": 0.01107459,
      "auxiliary_loss_mlp": 0.0102565,
      "balance_loss_clip": 1.05097985,
      "balance_loss_mlp": 1.01826477,
      "epoch": 0.26152828714002285,
      "flos": 25559461180800.0,
      "grad_norm": 4.427746817564389,
      "language_loss": 0.80104232,
      "learning_rate": 3.463704595262846e-06,
      "loss": 0.82237345,
      "num_input_tokens_seen": 46549690,
      "step": 2175,
      "time_per_iteration": 2.637498140335083
    },
    {
      "auxiliary_loss_clip": 0.01078515,
      "auxiliary_loss_mlp": 0.01027526,
      "balance_loss_clip": 1.03997862,
      "balance_loss_mlp": 1.02064764,
      "epoch": 0.26164853003066196,
      "flos": 25448823987840.0,
      "grad_norm": 2.2832394492750963,
      "language_loss": 0.70559394,
      "learning_rate": 3.463173643673931e-06,
      "loss": 0.72665435,
      "num_input_tokens_seen": 46572215,
      "step": 2176,
      "time_per_iteration": 2.652916431427002
    },
    {
      "auxiliary_loss_clip": 0.01118058,
      "auxiliary_loss_mlp": 0.01004394,
      "balance_loss_clip": 1.07649326,
      "balance_loss_mlp": 1.00171137,
      "epoch": 0.261768772921301,
      "flos": 53950660156800.0,
      "grad_norm": 0.9051347646793585,
      "language_loss": 0.63422674,
      "learning_rate": 3.4626424701227387e-06,
      "loss": 0.65545124,
      "num_input_tokens_seen": 46627275,
      "step": 2177,
      "time_per_iteration": 3.0833446979522705
    },
    {
      "auxiliary_loss_clip": 0.0112625,
      "auxiliary_loss_mlp": 0.01003696,
      "balance_loss_clip": 1.07513356,
      "balance_loss_mlp": 1.00084686,
      "epoch": 0.26188901581194013,
      "flos": 70694399664000.0,
      "grad_norm": 0.821562315411312,
      "language_loss": 0.55780995,
      "learning_rate": 3.4621110746898452e-06,
      "loss": 0.57910937,
      "num_input_tokens_seen": 46695135,
      "step": 2178,
      "time_per_iteration": 3.220994472503662
    },
    {
      "auxiliary_loss_clip": 0.0112123,
      "auxiliary_loss_mlp": 0.01027049,
      "balance_loss_clip": 1.0530467,
      "balance_loss_mlp": 1.02029908,
      "epoch": 0.2620092587025792,
      "flos": 21071719739520.0,
      "grad_norm": 1.5663392835977044,
      "language_loss": 0.74502927,
      "learning_rate": 3.4615794574558654e-06,
      "loss": 0.76651204,
      "num_input_tokens_seen": 46714145,
      "step": 2179,
      "time_per_iteration": 2.597839117050171
    },
    {
      "auxiliary_loss_clip": 0.01105009,
      "auxiliary_loss_mlp": 0.01022923,
      "balance_loss_clip": 1.05308187,
      "balance_loss_mlp": 1.01642048,
      "epoch": 0.2621295015932183,
      "flos": 18371587835520.0,
      "grad_norm": 3.1259898384072295,
      "language_loss": 0.84363151,
      "learning_rate": 3.4610476185014436e-06,
      "loss": 0.8649109,
      "num_input_tokens_seen": 46731405,
      "step": 2180,
      "time_per_iteration": 2.5374112129211426
    },
    {
      "auxiliary_loss_clip": 0.01131646,
      "auxiliary_loss_mlp": 0.01027144,
      "balance_loss_clip": 1.05225253,
      "balance_loss_mlp": 1.01964831,
      "epoch": 0.2622497444838574,
      "flos": 23662276156800.0,
      "grad_norm": 2.3190925135902005,
      "language_loss": 0.79534054,
      "learning_rate": 3.4605155579072597e-06,
      "loss": 0.81692839,
      "num_input_tokens_seen": 46751260,
      "step": 2181,
      "time_per_iteration": 2.554187774658203
    },
    {
      "auxiliary_loss_clip": 0.01076201,
      "auxiliary_loss_mlp": 0.01024727,
      "balance_loss_clip": 1.04776478,
      "balance_loss_mlp": 1.01832795,
      "epoch": 0.26236998737449646,
      "flos": 22125792585600.0,
      "grad_norm": 2.404662341682488,
      "language_loss": 0.7129367,
      "learning_rate": 3.459983275754027e-06,
      "loss": 0.73394597,
      "num_input_tokens_seen": 46770155,
      "step": 2182,
      "time_per_iteration": 2.6440176963806152
    },
    {
      "auxiliary_loss_clip": 0.01133921,
      "auxiliary_loss_mlp": 0.01022959,
      "balance_loss_clip": 1.05496383,
      "balance_loss_mlp": 1.01588726,
      "epoch": 0.26249023026513557,
      "flos": 17897139907200.0,
      "grad_norm": 3.1173960079005205,
      "language_loss": 0.79561424,
      "learning_rate": 3.4594507721224918e-06,
      "loss": 0.81718308,
      "num_input_tokens_seen": 46788805,
      "step": 2183,
      "time_per_iteration": 2.5555310249328613
    },
    {
      "auxiliary_loss_clip": 0.0111379,
      "auxiliary_loss_mlp": 0.01032814,
      "balance_loss_clip": 1.05513716,
      "balance_loss_mlp": 1.02610528,
      "epoch": 0.2626104731557747,
      "flos": 18334911000960.0,
      "grad_norm": 2.283432137269273,
      "language_loss": 0.81791306,
      "learning_rate": 3.4589180470934353e-06,
      "loss": 0.83937907,
      "num_input_tokens_seen": 46808670,
      "step": 2184,
      "time_per_iteration": 3.3810999393463135
    },
    {
      "auxiliary_loss_clip": 0.01121725,
      "auxiliary_loss_mlp": 0.01029513,
      "balance_loss_clip": 1.05178905,
      "balance_loss_mlp": 1.02227426,
      "epoch": 0.26273071604641374,
      "flos": 19319725330560.0,
      "grad_norm": 3.9788029117436836,
      "language_loss": 0.76359439,
      "learning_rate": 3.4583851007476713e-06,
      "loss": 0.78510678,
      "num_input_tokens_seen": 46827140,
      "step": 2185,
      "time_per_iteration": 4.013183355331421
    },
    {
      "auxiliary_loss_clip": 0.01090263,
      "auxiliary_loss_mlp": 0.01029549,
      "balance_loss_clip": 1.04763794,
      "balance_loss_mlp": 1.02227437,
      "epoch": 0.26285095893705285,
      "flos": 18329147452800.0,
      "grad_norm": 6.554281830670003,
      "language_loss": 0.68793452,
      "learning_rate": 3.4578519331660464e-06,
      "loss": 0.70913267,
      "num_input_tokens_seen": 46844135,
      "step": 2186,
      "time_per_iteration": 3.395023822784424
    },
    {
      "auxiliary_loss_clip": 0.01119821,
      "auxiliary_loss_mlp": 0.01027335,
      "balance_loss_clip": 1.05351996,
      "balance_loss_mlp": 1.02095115,
      "epoch": 0.26297120182769196,
      "flos": 20195912125440.0,
      "grad_norm": 2.668944893331185,
      "language_loss": 0.82025182,
      "learning_rate": 3.4573185444294426e-06,
      "loss": 0.84172338,
      "num_input_tokens_seen": 46862500,
      "step": 2187,
      "time_per_iteration": 2.551243782043457
    },
    {
      "auxiliary_loss_clip": 0.01108916,
      "auxiliary_loss_mlp": 0.00757057,
      "balance_loss_clip": 1.05117297,
      "balance_loss_mlp": 1.00101304,
      "epoch": 0.263091444718331,
      "flos": 22420572312960.0,
      "grad_norm": 2.079136701394516,
      "language_loss": 0.78771096,
      "learning_rate": 3.456784934618774e-06,
      "loss": 0.80637068,
      "num_input_tokens_seen": 46883665,
      "step": 2188,
      "time_per_iteration": 2.58624005317688
    },
    {
      "auxiliary_loss_clip": 0.01110235,
      "auxiliary_loss_mlp": 0.01022384,
      "balance_loss_clip": 1.05190909,
      "balance_loss_mlp": 1.01613474,
      "epoch": 0.2632116876089701,
      "flos": 19026765671040.0,
      "grad_norm": 2.802000094867409,
      "language_loss": 0.80207121,
      "learning_rate": 3.4562511038149897e-06,
      "loss": 0.8233974,
      "num_input_tokens_seen": 46899160,
      "step": 2189,
      "time_per_iteration": 2.573547601699829
    },
    {
      "auxiliary_loss_clip": 0.01074838,
      "auxiliary_loss_mlp": 0.01030066,
      "balance_loss_clip": 1.06969404,
      "balance_loss_mlp": 1.02746725,
      "epoch": 0.26333193049960923,
      "flos": 67315418991360.0,
      "grad_norm": 0.8645155512130176,
      "language_loss": 0.5770703,
      "learning_rate": 3.4557170520990705e-06,
      "loss": 0.59811938,
      "num_input_tokens_seen": 46959835,
      "step": 2190,
      "time_per_iteration": 3.250929594039917
    },
    {
      "auxiliary_loss_clip": 0.01115334,
      "auxiliary_loss_mlp": 0.01029756,
      "balance_loss_clip": 1.05150676,
      "balance_loss_mlp": 1.02329183,
      "epoch": 0.2634521733902483,
      "flos": 25051294028160.0,
      "grad_norm": 1.7636747201462348,
      "language_loss": 0.86406428,
      "learning_rate": 3.4551827795520324e-06,
      "loss": 0.88551515,
      "num_input_tokens_seen": 46982720,
      "step": 2191,
      "time_per_iteration": 2.6443490982055664
    },
    {
      "auxiliary_loss_clip": 0.01119676,
      "auxiliary_loss_mlp": 0.01024952,
      "balance_loss_clip": 1.05138969,
      "balance_loss_mlp": 1.01839197,
      "epoch": 0.2635724162808874,
      "flos": 20597082220800.0,
      "grad_norm": 4.6065761647261585,
      "language_loss": 0.85064387,
      "learning_rate": 3.4546482862549226e-06,
      "loss": 0.8720901,
      "num_input_tokens_seen": 47003035,
      "step": 2192,
      "time_per_iteration": 2.559241771697998
    },
    {
      "auxiliary_loss_clip": 0.01091763,
      "auxiliary_loss_mlp": 0.01030365,
      "balance_loss_clip": 1.04958749,
      "balance_loss_mlp": 1.02335835,
      "epoch": 0.2636926591715265,
      "flos": 19246637088000.0,
      "grad_norm": 2.5658113680195886,
      "language_loss": 0.78232676,
      "learning_rate": 3.4541135722888253e-06,
      "loss": 0.80354804,
      "num_input_tokens_seen": 47019625,
      "step": 2193,
      "time_per_iteration": 2.6286721229553223
    },
    {
      "auxiliary_loss_clip": 0.01128724,
      "auxiliary_loss_mlp": 0.01023916,
      "balance_loss_clip": 1.04995632,
      "balance_loss_mlp": 1.01690698,
      "epoch": 0.26381290206216557,
      "flos": 28807470518400.0,
      "grad_norm": 2.032483571367734,
      "language_loss": 0.80081332,
      "learning_rate": 3.453578637734854e-06,
      "loss": 0.82233971,
      "num_input_tokens_seen": 47040815,
      "step": 2194,
      "time_per_iteration": 2.5643694400787354
    },
    {
      "auxiliary_loss_clip": 0.01132265,
      "auxiliary_loss_mlp": 0.01026023,
      "balance_loss_clip": 1.05455863,
      "balance_loss_mlp": 1.01904607,
      "epoch": 0.2639331449528047,
      "flos": 25011204566400.0,
      "grad_norm": 4.346488929474231,
      "language_loss": 0.78379983,
      "learning_rate": 3.4530434826741605e-06,
      "loss": 0.80538267,
      "num_input_tokens_seen": 47061755,
      "step": 2195,
      "time_per_iteration": 2.5653510093688965
    },
    {
      "auxiliary_loss_clip": 0.01101031,
      "auxiliary_loss_mlp": 0.01024884,
      "balance_loss_clip": 1.04955423,
      "balance_loss_mlp": 1.01849723,
      "epoch": 0.26405338784344373,
      "flos": 46539285310080.0,
      "grad_norm": 1.8368502308116943,
      "language_loss": 0.68462718,
      "learning_rate": 3.452508107187926e-06,
      "loss": 0.7058863,
      "num_input_tokens_seen": 47085130,
      "step": 2196,
      "time_per_iteration": 2.7830286026000977
    },
    {
      "auxiliary_loss_clip": 0.01065777,
      "auxiliary_loss_mlp": 0.0102376,
      "balance_loss_clip": 1.04469943,
      "balance_loss_mlp": 1.01646161,
      "epoch": 0.26417363073408284,
      "flos": 21181636488960.0,
      "grad_norm": 3.5474537609161714,
      "language_loss": 0.77255297,
      "learning_rate": 3.451972511357366e-06,
      "loss": 0.79344839,
      "num_input_tokens_seen": 47104675,
      "step": 2197,
      "time_per_iteration": 2.7054388523101807
    },
    {
      "auxiliary_loss_clip": 0.0111669,
      "auxiliary_loss_mlp": 0.01023122,
      "balance_loss_clip": 1.05216289,
      "balance_loss_mlp": 1.01700616,
      "epoch": 0.26429387362472195,
      "flos": 22676968892160.0,
      "grad_norm": 1.8843644951771097,
      "language_loss": 0.84851241,
      "learning_rate": 3.45143669526373e-06,
      "loss": 0.86991048,
      "num_input_tokens_seen": 47124435,
      "step": 2198,
      "time_per_iteration": 2.5595922470092773
    },
    {
      "auxiliary_loss_clip": 0.01091553,
      "auxiliary_loss_mlp": 0.01004837,
      "balance_loss_clip": 1.06235158,
      "balance_loss_mlp": 1.00204778,
      "epoch": 0.264414116515361,
      "flos": 67186884464640.0,
      "grad_norm": 0.7953097455400289,
      "language_loss": 0.631607,
      "learning_rate": 3.450900658988302e-06,
      "loss": 0.6525709,
      "num_input_tokens_seen": 47185985,
      "step": 2199,
      "time_per_iteration": 3.1262686252593994
    },
    {
      "auxiliary_loss_clip": 0.01106275,
      "auxiliary_loss_mlp": 0.01026781,
      "balance_loss_clip": 1.05051136,
      "balance_loss_mlp": 1.01987576,
      "epoch": 0.2645343594060001,
      "flos": 25666989091200.0,
      "grad_norm": 2.1609279967944026,
      "language_loss": 0.78160667,
      "learning_rate": 3.450364402612397e-06,
      "loss": 0.80293727,
      "num_input_tokens_seen": 47203140,
      "step": 2200,
      "time_per_iteration": 2.608452081680298
    },
    {
      "auxiliary_loss_clip": 0.01094808,
      "auxiliary_loss_mlp": 0.01024586,
      "balance_loss_clip": 1.04430866,
      "balance_loss_mlp": 1.0176475,
      "epoch": 0.26465460229663923,
      "flos": 22494001818240.0,
      "grad_norm": 3.8202110774473206,
      "language_loss": 0.84306479,
      "learning_rate": 3.449827926217366e-06,
      "loss": 0.86425865,
      "num_input_tokens_seen": 47222575,
      "step": 2201,
      "time_per_iteration": 2.580495595932007
    },
    {
      "auxiliary_loss_clip": 0.01104078,
      "auxiliary_loss_mlp": 0.01027666,
      "balance_loss_clip": 1.04670596,
      "balance_loss_mlp": 1.02082372,
      "epoch": 0.2647748451872783,
      "flos": 29390621817600.0,
      "grad_norm": 2.4709955305343274,
      "language_loss": 0.80640298,
      "learning_rate": 3.449291229884591e-06,
      "loss": 0.8277204,
      "num_input_tokens_seen": 47243815,
      "step": 2202,
      "time_per_iteration": 2.6515185832977295
    },
    {
      "auxiliary_loss_clip": 0.01092052,
      "auxiliary_loss_mlp": 0.0102506,
      "balance_loss_clip": 1.0476172,
      "balance_loss_mlp": 1.01830673,
      "epoch": 0.2648950880779174,
      "flos": 26800254990720.0,
      "grad_norm": 2.0937390269140956,
      "language_loss": 0.86832052,
      "learning_rate": 3.4487543136954887e-06,
      "loss": 0.88949162,
      "num_input_tokens_seen": 47263435,
      "step": 2203,
      "time_per_iteration": 2.6490044593811035
    },
    {
      "auxiliary_loss_clip": 0.01086814,
      "auxiliary_loss_mlp": 0.01028594,
      "balance_loss_clip": 1.0445534,
      "balance_loss_mlp": 1.0217483,
      "epoch": 0.2650153309685565,
      "flos": 28843578581760.0,
      "grad_norm": 2.8558258636253977,
      "language_loss": 0.90934563,
      "learning_rate": 3.448217177731509e-06,
      "loss": 0.93049967,
      "num_input_tokens_seen": 47283920,
      "step": 2204,
      "time_per_iteration": 2.6700992584228516
    },
    {
      "auxiliary_loss_clip": 0.01096866,
      "auxiliary_loss_mlp": 0.01024885,
      "balance_loss_clip": 1.04897094,
      "balance_loss_mlp": 1.0187993,
      "epoch": 0.26513557385919556,
      "flos": 20305335939840.0,
      "grad_norm": 10.796670264168094,
      "language_loss": 0.77725667,
      "learning_rate": 3.4476798220741348e-06,
      "loss": 0.79847419,
      "num_input_tokens_seen": 47302800,
      "step": 2205,
      "time_per_iteration": 2.553060531616211
    },
    {
      "auxiliary_loss_clip": 0.0112972,
      "auxiliary_loss_mlp": 0.01028796,
      "balance_loss_clip": 1.05160046,
      "balance_loss_mlp": 1.0226593,
      "epoch": 0.26525581674983467,
      "flos": 17678216442240.0,
      "grad_norm": 2.2860046095319757,
      "language_loss": 0.78325593,
      "learning_rate": 3.4471422468048826e-06,
      "loss": 0.8048411,
      "num_input_tokens_seen": 47321525,
      "step": 2206,
      "time_per_iteration": 2.5265445709228516
    },
    {
      "auxiliary_loss_clip": 0.01121457,
      "auxiliary_loss_mlp": 0.01024516,
      "balance_loss_clip": 1.05280149,
      "balance_loss_mlp": 1.01766706,
      "epoch": 0.2653760596404738,
      "flos": 26836173463680.0,
      "grad_norm": 3.951553377742674,
      "language_loss": 0.73145926,
      "learning_rate": 3.4466044520053022e-06,
      "loss": 0.75291896,
      "num_input_tokens_seen": 47340530,
      "step": 2207,
      "time_per_iteration": 2.5613250732421875
    },
    {
      "auxiliary_loss_clip": 0.01106918,
      "auxiliary_loss_mlp": 0.01027016,
      "balance_loss_clip": 1.04840922,
      "balance_loss_mlp": 1.02060235,
      "epoch": 0.26549630253111284,
      "flos": 22784269294080.0,
      "grad_norm": 2.4501499043913118,
      "language_loss": 0.60668075,
      "learning_rate": 3.446066437756977e-06,
      "loss": 0.62802017,
      "num_input_tokens_seen": 47359735,
      "step": 2208,
      "time_per_iteration": 2.5930421352386475
    },
    {
      "auxiliary_loss_clip": 0.01098652,
      "auxiliary_loss_mlp": 0.01023223,
      "balance_loss_clip": 1.04560137,
      "balance_loss_mlp": 1.01657104,
      "epoch": 0.26561654542175195,
      "flos": 23552245653120.0,
      "grad_norm": 5.163833944358883,
      "language_loss": 0.75232828,
      "learning_rate": 3.4455282041415224e-06,
      "loss": 0.77354699,
      "num_input_tokens_seen": 47378945,
      "step": 2209,
      "time_per_iteration": 3.291517734527588
    },
    {
      "auxiliary_loss_clip": 0.01087332,
      "auxiliary_loss_mlp": 0.01025384,
      "balance_loss_clip": 1.04476142,
      "balance_loss_mlp": 1.01889658,
      "epoch": 0.265736788312391,
      "flos": 26909110033920.0,
      "grad_norm": 4.559879564930578,
      "language_loss": 0.86698031,
      "learning_rate": 3.4449897512405894e-06,
      "loss": 0.88810742,
      "num_input_tokens_seen": 47398095,
      "step": 2210,
      "time_per_iteration": 2.6641287803649902
    },
    {
      "auxiliary_loss_clip": 0.01059479,
      "auxiliary_loss_mlp": 0.00756999,
      "balance_loss_clip": 1.04410684,
      "balance_loss_mlp": 1.00126755,
      "epoch": 0.2658570312030301,
      "flos": 23479384919040.0,
      "grad_norm": 2.726010853825588,
      "language_loss": 0.75197566,
      "learning_rate": 3.444451079135859e-06,
      "loss": 0.77014041,
      "num_input_tokens_seen": 47417605,
      "step": 2211,
      "time_per_iteration": 4.271698951721191
    },
    {
      "auxiliary_loss_clip": 0.01074147,
      "auxiliary_loss_mlp": 0.00757102,
      "balance_loss_clip": 1.04335594,
      "balance_loss_mlp": 1.00118399,
      "epoch": 0.2659772740936692,
      "flos": 21868258464000.0,
      "grad_norm": 4.363308571810961,
      "language_loss": 0.7422241,
      "learning_rate": 3.4439121879090493e-06,
      "loss": 0.76053655,
      "num_input_tokens_seen": 47435385,
      "step": 2212,
      "time_per_iteration": 3.414567232131958
    },
    {
      "auxiliary_loss_clip": 0.01105811,
      "auxiliary_loss_mlp": 0.01029432,
      "balance_loss_clip": 1.05021095,
      "balance_loss_mlp": 1.02245188,
      "epoch": 0.2660975169843083,
      "flos": 19795197047040.0,
      "grad_norm": 2.4946261159362555,
      "language_loss": 0.83186138,
      "learning_rate": 3.4433730776419082e-06,
      "loss": 0.85321379,
      "num_input_tokens_seen": 47454310,
      "step": 2213,
      "time_per_iteration": 2.5862910747528076
    },
    {
      "auxiliary_loss_clip": 0.01119009,
      "auxiliary_loss_mlp": 0.00757163,
      "balance_loss_clip": 1.05061567,
      "balance_loss_mlp": 1.00133944,
      "epoch": 0.2662177598749474,
      "flos": 29021312960640.0,
      "grad_norm": 2.4008376853961533,
      "language_loss": 0.80504173,
      "learning_rate": 3.4428337484162183e-06,
      "loss": 0.82380354,
      "num_input_tokens_seen": 47475120,
      "step": 2214,
      "time_per_iteration": 2.6525537967681885
    },
    {
      "auxiliary_loss_clip": 0.01107935,
      "auxiliary_loss_mlp": 0.01025943,
      "balance_loss_clip": 1.05113328,
      "balance_loss_mlp": 1.01945198,
      "epoch": 0.2663380027655865,
      "flos": 21764711952000.0,
      "grad_norm": 2.659890325484046,
      "language_loss": 0.84415829,
      "learning_rate": 3.442294200313797e-06,
      "loss": 0.86549711,
      "num_input_tokens_seen": 47493150,
      "step": 2215,
      "time_per_iteration": 2.581033229827881
    },
    {
      "auxiliary_loss_clip": 0.01124571,
      "auxiliary_loss_mlp": 0.01008535,
      "balance_loss_clip": 1.07530236,
      "balance_loss_mlp": 1.00554276,
      "epoch": 0.26645824565622556,
      "flos": 66987716319360.0,
      "grad_norm": 0.9872784656570971,
      "language_loss": 0.52662218,
      "learning_rate": 3.4417544334164916e-06,
      "loss": 0.54795325,
      "num_input_tokens_seen": 47557295,
      "step": 2216,
      "time_per_iteration": 3.1613857746124268
    },
    {
      "auxiliary_loss_clip": 0.01075906,
      "auxiliary_loss_mlp": 0.01025389,
      "balance_loss_clip": 1.04123259,
      "balance_loss_mlp": 1.0187701,
      "epoch": 0.26657848854686467,
      "flos": 25266501521280.0,
      "grad_norm": 1.9042237520896443,
      "language_loss": 0.7704066,
      "learning_rate": 3.4412144478061854e-06,
      "loss": 0.79141963,
      "num_input_tokens_seen": 47579705,
      "step": 2217,
      "time_per_iteration": 2.635955333709717
    },
    {
      "auxiliary_loss_clip": 0.01027355,
      "auxiliary_loss_mlp": 0.01024841,
      "balance_loss_clip": 1.03356957,
      "balance_loss_mlp": 1.01761436,
      "epoch": 0.2666987314375038,
      "flos": 23699066745600.0,
      "grad_norm": 2.043071706219311,
      "language_loss": 0.75332487,
      "learning_rate": 3.4406742435647925e-06,
      "loss": 0.77384686,
      "num_input_tokens_seen": 47599770,
      "step": 2218,
      "time_per_iteration": 2.8219876289367676
    },
    {
      "auxiliary_loss_clip": 0.0111379,
      "auxiliary_loss_mlp": 0.01027615,
      "balance_loss_clip": 1.04891539,
      "balance_loss_mlp": 1.02153206,
      "epoch": 0.26681897432814283,
      "flos": 27051191366400.0,
      "grad_norm": 5.289080780545852,
      "language_loss": 0.78833228,
      "learning_rate": 3.440133820774263e-06,
      "loss": 0.80974633,
      "num_input_tokens_seen": 47619580,
      "step": 2219,
      "time_per_iteration": 2.769509792327881
    },
    {
      "auxiliary_loss_clip": 0.01096108,
      "auxiliary_loss_mlp": 0.01034645,
      "balance_loss_clip": 1.0427196,
      "balance_loss_mlp": 1.02762675,
      "epoch": 0.26693921721878194,
      "flos": 28988465852160.0,
      "grad_norm": 2.81128015293432,
      "language_loss": 0.81805813,
      "learning_rate": 3.439593179516578e-06,
      "loss": 0.83936566,
      "num_input_tokens_seen": 47639490,
      "step": 2220,
      "time_per_iteration": 2.637094497680664
    },
    {
      "auxiliary_loss_clip": 0.01104181,
      "auxiliary_loss_mlp": 0.01024746,
      "balance_loss_clip": 1.04924226,
      "balance_loss_mlp": 1.01789474,
      "epoch": 0.26705946010942105,
      "flos": 21510021686400.0,
      "grad_norm": 2.118748883389086,
      "language_loss": 0.81102818,
      "learning_rate": 3.4390523198737524e-06,
      "loss": 0.83231747,
      "num_input_tokens_seen": 47658650,
      "step": 2221,
      "time_per_iteration": 2.580021381378174
    },
    {
      "auxiliary_loss_clip": 0.0112892,
      "auxiliary_loss_mlp": 0.00756976,
      "balance_loss_clip": 1.05095339,
      "balance_loss_mlp": 1.00133669,
      "epoch": 0.2671797030000601,
      "flos": 21473458606080.0,
      "grad_norm": 2.359630852677992,
      "language_loss": 0.74009913,
      "learning_rate": 3.4385112419278333e-06,
      "loss": 0.7589581,
      "num_input_tokens_seen": 47679875,
      "step": 2222,
      "time_per_iteration": 2.5469441413879395
    },
    {
      "auxiliary_loss_clip": 0.0111544,
      "auxiliary_loss_mlp": 0.01005207,
      "balance_loss_clip": 1.07603335,
      "balance_loss_mlp": 1.00215483,
      "epoch": 0.2672999458906992,
      "flos": 64196181740160.0,
      "grad_norm": 0.7931981605364525,
      "language_loss": 0.64777744,
      "learning_rate": 3.4379699457609033e-06,
      "loss": 0.66898394,
      "num_input_tokens_seen": 47737700,
      "step": 2223,
      "time_per_iteration": 3.030918598175049
    },
    {
      "auxiliary_loss_clip": 0.01101673,
      "auxiliary_loss_mlp": 0.01021712,
      "balance_loss_clip": 1.04490042,
      "balance_loss_mlp": 1.0149107,
      "epoch": 0.26742018878133833,
      "flos": 16910884690560.0,
      "grad_norm": 2.2656750309094726,
      "language_loss": 0.90339935,
      "learning_rate": 3.4374284314550755e-06,
      "loss": 0.92463315,
      "num_input_tokens_seen": 47756740,
      "step": 2224,
      "time_per_iteration": 2.565812349319458
    },
    {
      "auxiliary_loss_clip": 0.0112893,
      "auxiliary_loss_mlp": 0.01021041,
      "balance_loss_clip": 1.05162501,
      "balance_loss_mlp": 1.01439524,
      "epoch": 0.2675404316719774,
      "flos": 20669639610240.0,
      "grad_norm": 4.955563137255982,
      "language_loss": 0.80782145,
      "learning_rate": 3.436886699092498e-06,
      "loss": 0.82932115,
      "num_input_tokens_seen": 47775255,
      "step": 2225,
      "time_per_iteration": 2.547041416168213
    },
    {
      "auxiliary_loss_clip": 0.01128308,
      "auxiliary_loss_mlp": 0.01024847,
      "balance_loss_clip": 1.04984677,
      "balance_loss_mlp": 1.01804042,
      "epoch": 0.2676606745626165,
      "flos": 17486452373760.0,
      "grad_norm": 6.999788780550236,
      "language_loss": 0.7136324,
      "learning_rate": 3.4363447487553502e-06,
      "loss": 0.73516393,
      "num_input_tokens_seen": 47788570,
      "step": 2226,
      "time_per_iteration": 2.4624788761138916
    },
    {
      "auxiliary_loss_clip": 0.01090621,
      "auxiliary_loss_mlp": 0.01022812,
      "balance_loss_clip": 1.04303265,
      "balance_loss_mlp": 1.01568615,
      "epoch": 0.26778091745325555,
      "flos": 27855010362240.0,
      "grad_norm": 2.6080111590537314,
      "language_loss": 0.78036994,
      "learning_rate": 3.4358025805258455e-06,
      "loss": 0.80150425,
      "num_input_tokens_seen": 47808275,
      "step": 2227,
      "time_per_iteration": 2.6427719593048096
    },
    {
      "auxiliary_loss_clip": 0.01078182,
      "auxiliary_loss_mlp": 0.01023818,
      "balance_loss_clip": 1.04599226,
      "balance_loss_mlp": 1.01733649,
      "epoch": 0.26790116034389466,
      "flos": 20957897427840.0,
      "grad_norm": 2.653049113629649,
      "language_loss": 0.83472955,
      "learning_rate": 3.435260194486232e-06,
      "loss": 0.85574961,
      "num_input_tokens_seen": 47826245,
      "step": 2228,
      "time_per_iteration": 2.616068124771118
    },
    {
      "auxiliary_loss_clip": 0.01096767,
      "auxiliary_loss_mlp": 0.01023963,
      "balance_loss_clip": 1.04521871,
      "balance_loss_mlp": 1.01743042,
      "epoch": 0.2680214032345338,
      "flos": 18042595948800.0,
      "grad_norm": 3.3071835933485554,
      "language_loss": 0.82343197,
      "learning_rate": 3.4347175907187875e-06,
      "loss": 0.84463936,
      "num_input_tokens_seen": 47843235,
      "step": 2229,
      "time_per_iteration": 2.5652434825897217
    },
    {
      "auxiliary_loss_clip": 0.01112796,
      "auxiliary_loss_mlp": 0.0102541,
      "balance_loss_clip": 1.04774237,
      "balance_loss_mlp": 1.01932466,
      "epoch": 0.26814164612517283,
      "flos": 22421634019200.0,
      "grad_norm": 2.71880389758445,
      "language_loss": 0.87631261,
      "learning_rate": 3.4341747693058254e-06,
      "loss": 0.89769471,
      "num_input_tokens_seen": 47861710,
      "step": 2230,
      "time_per_iteration": 2.5775837898254395
    },
    {
      "auxiliary_loss_clip": 0.01035734,
      "auxiliary_loss_mlp": 0.01022786,
      "balance_loss_clip": 1.04014468,
      "balance_loss_mlp": 1.01669121,
      "epoch": 0.26826188901581194,
      "flos": 35630319749760.0,
      "grad_norm": 2.171947872534079,
      "language_loss": 0.76911676,
      "learning_rate": 3.4336317303296916e-06,
      "loss": 0.78970194,
      "num_input_tokens_seen": 47882685,
      "step": 2231,
      "time_per_iteration": 2.9051685333251953
    },
    {
      "auxiliary_loss_clip": 0.01111765,
      "auxiliary_loss_mlp": 0.01025794,
      "balance_loss_clip": 1.04615843,
      "balance_loss_mlp": 1.01937723,
      "epoch": 0.26838213190645105,
      "flos": 17641729198080.0,
      "grad_norm": 3.888919437670417,
      "language_loss": 0.7516433,
      "learning_rate": 3.4330884738727635e-06,
      "loss": 0.7730189,
      "num_input_tokens_seen": 47900860,
      "step": 2232,
      "time_per_iteration": 3.153043746948242
    },
    {
      "auxiliary_loss_clip": 0.01072752,
      "auxiliary_loss_mlp": 0.01023258,
      "balance_loss_clip": 1.04072917,
      "balance_loss_mlp": 1.01674032,
      "epoch": 0.2685023747970901,
      "flos": 22677044728320.0,
      "grad_norm": 3.4678172707676973,
      "language_loss": 0.70585752,
      "learning_rate": 3.4325450000174535e-06,
      "loss": 0.72681761,
      "num_input_tokens_seen": 47917500,
      "step": 2233,
      "time_per_iteration": 2.676454782485962
    },
    {
      "auxiliary_loss_clip": 0.0106556,
      "auxiliary_loss_mlp": 0.01023253,
      "balance_loss_clip": 1.03996134,
      "balance_loss_mlp": 1.01669908,
      "epoch": 0.2686226176877292,
      "flos": 20122596374400.0,
      "grad_norm": 1.9922556006856598,
      "language_loss": 0.74277121,
      "learning_rate": 3.4320013088462067e-06,
      "loss": 0.76365936,
      "num_input_tokens_seen": 47934860,
      "step": 2234,
      "time_per_iteration": 2.6303086280822754
    },
    {
      "auxiliary_loss_clip": 0.01091127,
      "auxiliary_loss_mlp": 0.01023152,
      "balance_loss_clip": 1.04643643,
      "balance_loss_mlp": 1.01689672,
      "epoch": 0.2687428605783683,
      "flos": 21874211602560.0,
      "grad_norm": 5.087943006444734,
      "language_loss": 0.81620014,
      "learning_rate": 3.431457400441499e-06,
      "loss": 0.83734298,
      "num_input_tokens_seen": 47955255,
      "step": 2235,
      "time_per_iteration": 3.354799270629883
    },
    {
      "auxiliary_loss_clip": 0.01045432,
      "auxiliary_loss_mlp": 0.0102208,
      "balance_loss_clip": 1.05664134,
      "balance_loss_mlp": 1.01930285,
      "epoch": 0.2688631034690074,
      "flos": 69949260040320.0,
      "grad_norm": 0.9733646299242166,
      "language_loss": 0.6072222,
      "learning_rate": 3.4309132748858424e-06,
      "loss": 0.62789726,
      "num_input_tokens_seen": 48016245,
      "step": 2236,
      "time_per_iteration": 4.149323225021362
    },
    {
      "auxiliary_loss_clip": 0.01116837,
      "auxiliary_loss_mlp": 0.01025926,
      "balance_loss_clip": 1.05311537,
      "balance_loss_mlp": 1.01937866,
      "epoch": 0.2689833463596465,
      "flos": 22858836341760.0,
      "grad_norm": 2.3450271326941716,
      "language_loss": 0.83302224,
      "learning_rate": 3.430368932261779e-06,
      "loss": 0.85444987,
      "num_input_tokens_seen": 48036600,
      "step": 2237,
      "time_per_iteration": 4.36824893951416
    },
    {
      "auxiliary_loss_clip": 0.01100234,
      "auxiliary_loss_mlp": 0.01021012,
      "balance_loss_clip": 1.04795408,
      "balance_loss_mlp": 1.01424098,
      "epoch": 0.2691035892502856,
      "flos": 17202062200320.0,
      "grad_norm": 2.752736409287204,
      "language_loss": 0.75259101,
      "learning_rate": 3.429824372651886e-06,
      "loss": 0.77380347,
      "num_input_tokens_seen": 48054750,
      "step": 2238,
      "time_per_iteration": 2.5776820182800293
    },
    {
      "auxiliary_loss_clip": 0.01076572,
      "auxiliary_loss_mlp": 0.01025483,
      "balance_loss_clip": 1.0448432,
      "balance_loss_mlp": 1.01875055,
      "epoch": 0.26922383214092466,
      "flos": 17749332944640.0,
      "grad_norm": 2.6463422770722786,
      "language_loss": 0.83874017,
      "learning_rate": 3.4292795961387732e-06,
      "loss": 0.8597607,
      "num_input_tokens_seen": 48072650,
      "step": 2239,
      "time_per_iteration": 2.6770756244659424
    },
    {
      "auxiliary_loss_clip": 0.01129652,
      "auxiliary_loss_mlp": 0.01023845,
      "balance_loss_clip": 1.05205059,
      "balance_loss_mlp": 1.01763701,
      "epoch": 0.26934407503156377,
      "flos": 16174845406080.0,
      "grad_norm": 2.4350639537278904,
      "language_loss": 0.8767395,
      "learning_rate": 3.4287346028050818e-06,
      "loss": 0.89827442,
      "num_input_tokens_seen": 48088720,
      "step": 2240,
      "time_per_iteration": 2.505427360534668
    },
    {
      "auxiliary_loss_clip": 0.01100418,
      "auxiliary_loss_mlp": 0.0102226,
      "balance_loss_clip": 1.04846597,
      "balance_loss_mlp": 1.01617479,
      "epoch": 0.2694643179222028,
      "flos": 23735174808960.0,
      "grad_norm": 3.062758698824313,
      "language_loss": 0.79666996,
      "learning_rate": 3.4281893927334866e-06,
      "loss": 0.81789678,
      "num_input_tokens_seen": 48108630,
      "step": 2241,
      "time_per_iteration": 2.6466550827026367
    },
    {
      "auxiliary_loss_clip": 0.01117872,
      "auxiliary_loss_mlp": 0.01022887,
      "balance_loss_clip": 1.05297971,
      "balance_loss_mlp": 1.01686144,
      "epoch": 0.26958456081284193,
      "flos": 24720482073600.0,
      "grad_norm": 4.144730028487169,
      "language_loss": 0.75396305,
      "learning_rate": 3.4276439660066963e-06,
      "loss": 0.77537066,
      "num_input_tokens_seen": 48128330,
      "step": 2242,
      "time_per_iteration": 2.601405620574951
    },
    {
      "auxiliary_loss_clip": 0.01131744,
      "auxiliary_loss_mlp": 0.01023327,
      "balance_loss_clip": 1.0547787,
      "balance_loss_mlp": 1.01659131,
      "epoch": 0.26970480370348104,
      "flos": 18114470812800.0,
      "grad_norm": 2.6108183359054182,
      "language_loss": 0.84167743,
      "learning_rate": 3.427098322707452e-06,
      "loss": 0.8632282,
      "num_input_tokens_seen": 48144295,
      "step": 2243,
      "time_per_iteration": 2.537684917449951
    },
    {
      "auxiliary_loss_clip": 0.01114812,
      "auxiliary_loss_mlp": 0.01027726,
      "balance_loss_clip": 1.05533838,
      "balance_loss_mlp": 1.02031112,
      "epoch": 0.2698250465941201,
      "flos": 10818083687040.0,
      "grad_norm": 2.4259908850269705,
      "language_loss": 0.89683026,
      "learning_rate": 3.426552462918526e-06,
      "loss": 0.91825569,
      "num_input_tokens_seen": 48162230,
      "step": 2244,
      "time_per_iteration": 2.5398876667022705
    },
    {
      "auxiliary_loss_clip": 0.01134432,
      "auxiliary_loss_mlp": 0.0102652,
      "balance_loss_clip": 1.05855799,
      "balance_loss_mlp": 1.02056265,
      "epoch": 0.2699452894847592,
      "flos": 17309855537280.0,
      "grad_norm": 2.788208469574274,
      "language_loss": 0.73069012,
      "learning_rate": 3.426006386722726e-06,
      "loss": 0.75229967,
      "num_input_tokens_seen": 48180290,
      "step": 2245,
      "time_per_iteration": 2.525667667388916
    },
    {
      "auxiliary_loss_clip": 0.01087373,
      "auxiliary_loss_mlp": 0.01028562,
      "balance_loss_clip": 1.05077863,
      "balance_loss_mlp": 1.02198195,
      "epoch": 0.2700655323753983,
      "flos": 18080144899200.0,
      "grad_norm": 2.612974424669251,
      "language_loss": 0.92056787,
      "learning_rate": 3.4254600942028914e-06,
      "loss": 0.94172716,
      "num_input_tokens_seen": 48198165,
      "step": 2246,
      "time_per_iteration": 2.594620943069458
    },
    {
      "auxiliary_loss_clip": 0.01104632,
      "auxiliary_loss_mlp": 0.01024193,
      "balance_loss_clip": 1.05297899,
      "balance_loss_mlp": 1.01801205,
      "epoch": 0.2701857752660374,
      "flos": 18188582843520.0,
      "grad_norm": 2.39863138485504,
      "language_loss": 0.82504332,
      "learning_rate": 3.424913585441893e-06,
      "loss": 0.8463316,
      "num_input_tokens_seen": 48216000,
      "step": 2247,
      "time_per_iteration": 2.6058762073516846
    },
    {
      "auxiliary_loss_clip": 0.01111044,
      "auxiliary_loss_mlp": 0.01022001,
      "balance_loss_clip": 1.05128324,
      "balance_loss_mlp": 1.01536381,
      "epoch": 0.2703060181566765,
      "flos": 16320983973120.0,
      "grad_norm": 2.773524486543905,
      "language_loss": 0.87121153,
      "learning_rate": 3.4243668605226374e-06,
      "loss": 0.892542,
      "num_input_tokens_seen": 48233025,
      "step": 2248,
      "time_per_iteration": 2.5263659954071045
    },
    {
      "auxiliary_loss_clip": 0.01082334,
      "auxiliary_loss_mlp": 0.01026122,
      "balance_loss_clip": 1.04534698,
      "balance_loss_mlp": 1.01953018,
      "epoch": 0.2704262610473156,
      "flos": 19574339760000.0,
      "grad_norm": 2.6173602996763186,
      "language_loss": 0.82677305,
      "learning_rate": 3.423819919528061e-06,
      "loss": 0.84785759,
      "num_input_tokens_seen": 48251110,
      "step": 2249,
      "time_per_iteration": 2.6307497024536133
    },
    {
      "auxiliary_loss_clip": 0.01085361,
      "auxiliary_loss_mlp": 0.01024485,
      "balance_loss_clip": 1.05166256,
      "balance_loss_mlp": 1.01710582,
      "epoch": 0.27054650393795465,
      "flos": 20742841607040.0,
      "grad_norm": 2.195306701216305,
      "language_loss": 0.7829597,
      "learning_rate": 3.4232727625411355e-06,
      "loss": 0.80405819,
      "num_input_tokens_seen": 48270215,
      "step": 2250,
      "time_per_iteration": 2.6510202884674072
    },
    {
      "auxiliary_loss_clip": 0.01062344,
      "auxiliary_loss_mlp": 0.01018973,
      "balance_loss_clip": 1.04807448,
      "balance_loss_mlp": 1.01282525,
      "epoch": 0.27066674682859376,
      "flos": 18660148997760.0,
      "grad_norm": 4.808321561556937,
      "language_loss": 0.86088413,
      "learning_rate": 3.4227253896448626e-06,
      "loss": 0.8816973,
      "num_input_tokens_seen": 48288075,
      "step": 2251,
      "time_per_iteration": 2.659038782119751
    },
    {
      "auxiliary_loss_clip": 0.01133957,
      "auxiliary_loss_mlp": 0.01025314,
      "balance_loss_clip": 1.05715263,
      "balance_loss_mlp": 1.01907039,
      "epoch": 0.2707869897192329,
      "flos": 23004974908800.0,
      "grad_norm": 3.492786623287565,
      "language_loss": 0.82296491,
      "learning_rate": 3.42217780092228e-06,
      "loss": 0.84455764,
      "num_input_tokens_seen": 48306415,
      "step": 2252,
      "time_per_iteration": 2.5678868293762207
    },
    {
      "auxiliary_loss_clip": 0.0110669,
      "auxiliary_loss_mlp": 0.01006096,
      "balance_loss_clip": 1.08605886,
      "balance_loss_mlp": 1.0035212,
      "epoch": 0.27090723260987193,
      "flos": 58329584472960.0,
      "grad_norm": 0.802671254045236,
      "language_loss": 0.6030854,
      "learning_rate": 3.421629996456456e-06,
      "loss": 0.62421328,
      "num_input_tokens_seen": 48365035,
      "step": 2253,
      "time_per_iteration": 3.1183974742889404
    },
    {
      "auxiliary_loss_clip": 0.01122993,
      "auxiliary_loss_mlp": 0.01025687,
      "balance_loss_clip": 1.05553472,
      "balance_loss_mlp": 1.01862693,
      "epoch": 0.27102747550051104,
      "flos": 11986168435200.0,
      "grad_norm": 3.4991453808584154,
      "language_loss": 0.82569206,
      "learning_rate": 3.421081976330491e-06,
      "loss": 0.84717882,
      "num_input_tokens_seen": 48383550,
      "step": 2254,
      "time_per_iteration": 2.575805902481079
    },
    {
      "auxiliary_loss_clip": 0.01104765,
      "auxiliary_loss_mlp": 0.01025049,
      "balance_loss_clip": 1.04914355,
      "balance_loss_mlp": 1.01850998,
      "epoch": 0.27114771839115015,
      "flos": 19902383694720.0,
      "grad_norm": 3.486547625697674,
      "language_loss": 0.88411975,
      "learning_rate": 3.4205337406275207e-06,
      "loss": 0.90541792,
      "num_input_tokens_seen": 48403670,
      "step": 2255,
      "time_per_iteration": 2.5960206985473633
    },
    {
      "auxiliary_loss_clip": 0.01130573,
      "auxiliary_loss_mlp": 0.01018803,
      "balance_loss_clip": 1.0538882,
      "balance_loss_mlp": 1.01262224,
      "epoch": 0.2712679612817892,
      "flos": 18333887212800.0,
      "grad_norm": 4.028588643212085,
      "language_loss": 0.75337803,
      "learning_rate": 3.4199852894307114e-06,
      "loss": 0.77487183,
      "num_input_tokens_seen": 48420420,
      "step": 2256,
      "time_per_iteration": 2.503767728805542
    },
    {
      "auxiliary_loss_clip": 0.01043186,
      "auxiliary_loss_mlp": 0.0102447,
      "balance_loss_clip": 1.03378642,
      "balance_loss_mlp": 1.01814628,
      "epoch": 0.2713882041724283,
      "flos": 24462492935040.0,
      "grad_norm": 2.084073389880292,
      "language_loss": 0.78748763,
      "learning_rate": 3.419436622823262e-06,
      "loss": 0.80816418,
      "num_input_tokens_seen": 48441140,
      "step": 2257,
      "time_per_iteration": 2.7070765495300293
    },
    {
      "auxiliary_loss_clip": 0.01108226,
      "auxiliary_loss_mlp": 0.01024629,
      "balance_loss_clip": 1.05416286,
      "balance_loss_mlp": 1.01821828,
      "epoch": 0.27150844706306737,
      "flos": 23041537989120.0,
      "grad_norm": 5.2587403008183,
      "language_loss": 0.74546564,
      "learning_rate": 3.4188877408884063e-06,
      "loss": 0.7667942,
      "num_input_tokens_seen": 48461845,
      "step": 2258,
      "time_per_iteration": 2.6226203441619873
    },
    {
      "auxiliary_loss_clip": 0.0110352,
      "auxiliary_loss_mlp": 0.01027352,
      "balance_loss_clip": 1.04874802,
      "balance_loss_mlp": 1.02029777,
      "epoch": 0.2716286899537065,
      "flos": 22565762928000.0,
      "grad_norm": 3.1413706304853304,
      "language_loss": 0.65487897,
      "learning_rate": 3.4183386437094088e-06,
      "loss": 0.67618769,
      "num_input_tokens_seen": 48478510,
      "step": 2259,
      "time_per_iteration": 2.5787928104400635
    },
    {
      "auxiliary_loss_clip": 0.01105723,
      "auxiliary_loss_mlp": 0.01020149,
      "balance_loss_clip": 1.05135524,
      "balance_loss_mlp": 1.01364946,
      "epoch": 0.2717489328443456,
      "flos": 13116704232960.0,
      "grad_norm": 4.407664685585576,
      "language_loss": 0.82531184,
      "learning_rate": 3.417789331369565e-06,
      "loss": 0.84657061,
      "num_input_tokens_seen": 48494300,
      "step": 2260,
      "time_per_iteration": 2.5782151222229004
    },
    {
      "auxiliary_loss_clip": 0.01129103,
      "auxiliary_loss_mlp": 0.010248,
      "balance_loss_clip": 1.05176008,
      "balance_loss_mlp": 1.01767683,
      "epoch": 0.27186917573498465,
      "flos": 29281273839360.0,
      "grad_norm": 2.3164071197624065,
      "language_loss": 0.91274762,
      "learning_rate": 3.4172398039522088e-06,
      "loss": 0.93428665,
      "num_input_tokens_seen": 48515585,
      "step": 2261,
      "time_per_iteration": 3.3147873878479004
    },
    {
      "auxiliary_loss_clip": 0.01118625,
      "auxiliary_loss_mlp": 0.01020544,
      "balance_loss_clip": 1.04982829,
      "balance_loss_mlp": 1.01399624,
      "epoch": 0.27198941862562376,
      "flos": 26034667470720.0,
      "grad_norm": 1.9344126807843012,
      "language_loss": 0.79901052,
      "learning_rate": 3.4166900615407e-06,
      "loss": 0.8204022,
      "num_input_tokens_seen": 48533500,
      "step": 2262,
      "time_per_iteration": 3.3523783683776855
    },
    {
      "auxiliary_loss_clip": 0.01113528,
      "auxiliary_loss_mlp": 0.01020526,
      "balance_loss_clip": 1.04875207,
      "balance_loss_mlp": 1.01415694,
      "epoch": 0.27210966151626287,
      "flos": 32783745934080.0,
      "grad_norm": 5.170532170127151,
      "language_loss": 0.75031078,
      "learning_rate": 3.416140104218436e-06,
      "loss": 0.77165133,
      "num_input_tokens_seen": 48552865,
      "step": 2263,
      "time_per_iteration": 3.513017416000366
    },
    {
      "auxiliary_loss_clip": 0.01104637,
      "auxiliary_loss_mlp": 0.00752742,
      "balance_loss_clip": 1.07626462,
      "balance_loss_mlp": 1.00041187,
      "epoch": 0.2722299044069019,
      "flos": 65477595864960.0,
      "grad_norm": 0.8448505297574044,
      "language_loss": 0.69655776,
      "learning_rate": 3.4155899320688437e-06,
      "loss": 0.71513158,
      "num_input_tokens_seen": 48618940,
      "step": 2264,
      "time_per_iteration": 3.2131166458129883
    },
    {
      "auxiliary_loss_clip": 0.01057901,
      "auxiliary_loss_mlp": 0.01019374,
      "balance_loss_clip": 1.04233491,
      "balance_loss_mlp": 1.01235318,
      "epoch": 0.27235014729754103,
      "flos": 15335562954240.0,
      "grad_norm": 2.898541169328744,
      "language_loss": 0.73646551,
      "learning_rate": 3.415039545175384e-06,
      "loss": 0.75723827,
      "num_input_tokens_seen": 48634665,
      "step": 2265,
      "time_per_iteration": 2.655707359313965
    },
    {
      "auxiliary_loss_clip": 0.011145,
      "auxiliary_loss_mlp": 0.01022077,
      "balance_loss_clip": 1.04881024,
      "balance_loss_mlp": 1.01576233,
      "epoch": 0.27247039018818014,
      "flos": 21874552865280.0,
      "grad_norm": 3.2831953838945878,
      "language_loss": 0.64942598,
      "learning_rate": 3.414488943621551e-06,
      "loss": 0.67079175,
      "num_input_tokens_seen": 48653330,
      "step": 2266,
      "time_per_iteration": 2.5601658821105957
    },
    {
      "auxiliary_loss_clip": 0.01108562,
      "auxiliary_loss_mlp": 0.0102209,
      "balance_loss_clip": 1.04978883,
      "balance_loss_mlp": 1.0159924,
      "epoch": 0.2725906330788192,
      "flos": 18697356685440.0,
      "grad_norm": 2.1884908478818335,
      "language_loss": 0.73998058,
      "learning_rate": 3.41393812749087e-06,
      "loss": 0.76128709,
      "num_input_tokens_seen": 48671375,
      "step": 2267,
      "time_per_iteration": 2.53653883934021
    },
    {
      "auxiliary_loss_clip": 0.01096907,
      "auxiliary_loss_mlp": 0.01023896,
      "balance_loss_clip": 1.04747295,
      "balance_loss_mlp": 1.01740789,
      "epoch": 0.2727108759694583,
      "flos": 17887546632960.0,
      "grad_norm": 3.098668500685616,
      "language_loss": 0.71844405,
      "learning_rate": 3.4133870968668984e-06,
      "loss": 0.73965216,
      "num_input_tokens_seen": 48686175,
      "step": 2268,
      "time_per_iteration": 2.560452699661255
    },
    {
      "auxiliary_loss_clip": 0.0110305,
      "auxiliary_loss_mlp": 0.01022297,
      "balance_loss_clip": 1.04880452,
      "balance_loss_mlp": 1.01600242,
      "epoch": 0.2728311188600974,
      "flos": 24463933822080.0,
      "grad_norm": 3.294925441844964,
      "language_loss": 0.78817666,
      "learning_rate": 3.412835851833229e-06,
      "loss": 0.80943012,
      "num_input_tokens_seen": 48708370,
      "step": 2269,
      "time_per_iteration": 2.6207103729248047
    },
    {
      "auxiliary_loss_clip": 0.0110972,
      "auxiliary_loss_mlp": 0.01021047,
      "balance_loss_clip": 1.05144095,
      "balance_loss_mlp": 1.01466072,
      "epoch": 0.2729513617507365,
      "flos": 30995984724480.0,
      "grad_norm": 1.8809744879855088,
      "language_loss": 0.77823848,
      "learning_rate": 3.4122843924734834e-06,
      "loss": 0.79954612,
      "num_input_tokens_seen": 48730670,
      "step": 2270,
      "time_per_iteration": 2.65179181098938
    },
    {
      "auxiliary_loss_clip": 0.01104607,
      "auxiliary_loss_mlp": 0.01024833,
      "balance_loss_clip": 1.05042982,
      "balance_loss_mlp": 1.01836324,
      "epoch": 0.2730716046413756,
      "flos": 19096403368320.0,
      "grad_norm": 3.3960383167828327,
      "language_loss": 0.87954313,
      "learning_rate": 3.411732718871319e-06,
      "loss": 0.90083754,
      "num_input_tokens_seen": 48746510,
      "step": 2271,
      "time_per_iteration": 2.551177501678467
    },
    {
      "auxiliary_loss_clip": 0.011305,
      "auxiliary_loss_mlp": 0.01024471,
      "balance_loss_clip": 1.05544209,
      "balance_loss_mlp": 1.01838815,
      "epoch": 0.27319184753201464,
      "flos": 26947076083200.0,
      "grad_norm": 1.7568097297945278,
      "language_loss": 0.78111786,
      "learning_rate": 3.4111808311104227e-06,
      "loss": 0.80266762,
      "num_input_tokens_seen": 48768825,
      "step": 2272,
      "time_per_iteration": 2.5995757579803467
    },
    {
      "auxiliary_loss_clip": 0.0110822,
      "auxiliary_loss_mlp": 0.01023599,
      "balance_loss_clip": 1.05143619,
      "balance_loss_mlp": 1.0168097,
      "epoch": 0.27331209042265375,
      "flos": 31762558114560.0,
      "grad_norm": 2.21503824029638,
      "language_loss": 0.69327247,
      "learning_rate": 3.410628729274517e-06,
      "loss": 0.71459067,
      "num_input_tokens_seen": 48790345,
      "step": 2273,
      "time_per_iteration": 2.653428792953491
    },
    {
      "auxiliary_loss_clip": 0.0108651,
      "auxiliary_loss_mlp": 0.00757003,
      "balance_loss_clip": 1.03897345,
      "balance_loss_mlp": 1.00133371,
      "epoch": 0.27343233331329286,
      "flos": 25741442384640.0,
      "grad_norm": 2.853994107422337,
      "language_loss": 0.82388556,
      "learning_rate": 3.4100764134473546e-06,
      "loss": 0.84232068,
      "num_input_tokens_seen": 48809630,
      "step": 2274,
      "time_per_iteration": 2.6167967319488525
    },
    {
      "auxiliary_loss_clip": 0.01133861,
      "auxiliary_loss_mlp": 0.01022244,
      "balance_loss_clip": 1.05822325,
      "balance_loss_mlp": 1.01591682,
      "epoch": 0.2735525762039319,
      "flos": 24391717695360.0,
      "grad_norm": 3.0143400402896314,
      "language_loss": 0.8489629,
      "learning_rate": 3.4095238837127215e-06,
      "loss": 0.87052393,
      "num_input_tokens_seen": 48828770,
      "step": 2275,
      "time_per_iteration": 2.537038803100586
    },
    {
      "auxiliary_loss_clip": 0.0109149,
      "auxiliary_loss_mlp": 0.01022001,
      "balance_loss_clip": 1.04883945,
      "balance_loss_mlp": 1.0157429,
      "epoch": 0.27367281909457103,
      "flos": 14467111447680.0,
      "grad_norm": 2.9994631236139644,
      "language_loss": 0.79498076,
      "learning_rate": 3.4089711401544355e-06,
      "loss": 0.81611574,
      "num_input_tokens_seen": 48846365,
      "step": 2276,
      "time_per_iteration": 2.604644775390625
    },
    {
      "auxiliary_loss_clip": 0.01121792,
      "auxiliary_loss_mlp": 0.01022906,
      "balance_loss_clip": 1.0545634,
      "balance_loss_mlp": 1.01628387,
      "epoch": 0.27379306198521014,
      "flos": 23479233246720.0,
      "grad_norm": 3.3244836033288947,
      "language_loss": 0.67563069,
      "learning_rate": 3.4084181828563486e-06,
      "loss": 0.69707757,
      "num_input_tokens_seen": 48863085,
      "step": 2277,
      "time_per_iteration": 2.570483446121216
    },
    {
      "auxiliary_loss_clip": 0.0106576,
      "auxiliary_loss_mlp": 0.0102374,
      "balance_loss_clip": 1.03790045,
      "balance_loss_mlp": 1.01757693,
      "epoch": 0.2739133048758492,
      "flos": 17460127175040.0,
      "grad_norm": 3.1826629943423,
      "language_loss": 0.7087189,
      "learning_rate": 3.4078650119023428e-06,
      "loss": 0.72961384,
      "num_input_tokens_seen": 48881400,
      "step": 2278,
      "time_per_iteration": 2.62964129447937
    },
    {
      "auxiliary_loss_clip": 0.01076219,
      "auxiliary_loss_mlp": 0.01022752,
      "balance_loss_clip": 1.04953218,
      "balance_loss_mlp": 1.01552773,
      "epoch": 0.2740335477664883,
      "flos": 19274668600320.0,
      "grad_norm": 4.064224916330132,
      "language_loss": 0.73958826,
      "learning_rate": 3.4073116273763337e-06,
      "loss": 0.76057798,
      "num_input_tokens_seen": 48895845,
      "step": 2279,
      "time_per_iteration": 2.6304855346679688
    },
    {
      "auxiliary_loss_clip": 0.01107851,
      "auxiliary_loss_mlp": 0.01025909,
      "balance_loss_clip": 1.05212069,
      "balance_loss_mlp": 1.01916814,
      "epoch": 0.2741537906571274,
      "flos": 26107149024000.0,
      "grad_norm": 2.1760707396576313,
      "language_loss": 0.81186497,
      "learning_rate": 3.40675802936227e-06,
      "loss": 0.8332026,
      "num_input_tokens_seen": 48916630,
      "step": 2280,
      "time_per_iteration": 2.6487929821014404
    },
    {
      "auxiliary_loss_clip": 0.01108773,
      "auxiliary_loss_mlp": 0.01027321,
      "balance_loss_clip": 1.05338669,
      "balance_loss_mlp": 1.01997232,
      "epoch": 0.27427403354776647,
      "flos": 34166848584960.0,
      "grad_norm": 4.027965879012964,
      "language_loss": 0.71791267,
      "learning_rate": 3.4062042179441318e-06,
      "loss": 0.73927361,
      "num_input_tokens_seen": 48937100,
      "step": 2281,
      "time_per_iteration": 2.697010040283203
    },
    {
      "auxiliary_loss_clip": 0.01119742,
      "auxiliary_loss_mlp": 0.01019529,
      "balance_loss_clip": 1.05622983,
      "balance_loss_mlp": 1.01327014,
      "epoch": 0.2743942764384056,
      "flos": 18768776532480.0,
      "grad_norm": 6.30063108982631,
      "language_loss": 0.80437529,
      "learning_rate": 3.4056501932059314e-06,
      "loss": 0.82576799,
      "num_input_tokens_seen": 48955175,
      "step": 2282,
      "time_per_iteration": 2.560856342315674
    },
    {
      "auxiliary_loss_clip": 0.01166991,
      "auxiliary_loss_mlp": 0.01007862,
      "balance_loss_clip": 1.11703539,
      "balance_loss_mlp": 1.00569272,
      "epoch": 0.2745145193290447,
      "flos": 64909470176640.0,
      "grad_norm": 0.7758469066714528,
      "language_loss": 0.58062649,
      "learning_rate": 3.405095955231715e-06,
      "loss": 0.60237503,
      "num_input_tokens_seen": 49006830,
      "step": 2283,
      "time_per_iteration": 3.0679211616516113
    },
    {
      "auxiliary_loss_clip": 0.01123955,
      "auxiliary_loss_mlp": 0.01022998,
      "balance_loss_clip": 1.05637407,
      "balance_loss_mlp": 1.01631677,
      "epoch": 0.27463476221968375,
      "flos": 16138396080000.0,
      "grad_norm": 18.53093794569735,
      "language_loss": 0.94421035,
      "learning_rate": 3.4045415041055585e-06,
      "loss": 0.96567988,
      "num_input_tokens_seen": 49022470,
      "step": 2284,
      "time_per_iteration": 2.543250560760498
    },
    {
      "auxiliary_loss_clip": 0.01108639,
      "auxiliary_loss_mlp": 0.01022967,
      "balance_loss_clip": 1.05524135,
      "balance_loss_mlp": 1.01616883,
      "epoch": 0.27475500511032286,
      "flos": 10378113344640.0,
      "grad_norm": 6.167722021918639,
      "language_loss": 0.78088164,
      "learning_rate": 3.4039868399115728e-06,
      "loss": 0.80219769,
      "num_input_tokens_seen": 49037110,
      "step": 2285,
      "time_per_iteration": 2.5881218910217285
    },
    {
      "auxiliary_loss_clip": 0.01070596,
      "auxiliary_loss_mlp": 0.01021381,
      "balance_loss_clip": 1.05462921,
      "balance_loss_mlp": 1.01452613,
      "epoch": 0.27487524800096197,
      "flos": 17312964819840.0,
      "grad_norm": 2.3187291427636136,
      "language_loss": 0.80562627,
      "learning_rate": 3.4034319627339003e-06,
      "loss": 0.82654607,
      "num_input_tokens_seen": 49053975,
      "step": 2286,
      "time_per_iteration": 2.649064064025879
    },
    {
      "auxiliary_loss_clip": 0.01111379,
      "auxiliary_loss_mlp": 0.01023349,
      "balance_loss_clip": 1.05871606,
      "balance_loss_mlp": 1.01656866,
      "epoch": 0.274995490891601,
      "flos": 27122345786880.0,
      "grad_norm": 3.9919817183089417,
      "language_loss": 0.70025682,
      "learning_rate": 3.402876872656715e-06,
      "loss": 0.72160405,
      "num_input_tokens_seen": 49072295,
      "step": 2287,
      "time_per_iteration": 3.3917691707611084
    },
    {
      "auxiliary_loss_clip": 0.01087518,
      "auxiliary_loss_mlp": 0.01025319,
      "balance_loss_clip": 1.03882205,
      "balance_loss_mlp": 1.01876807,
      "epoch": 0.27511573378224013,
      "flos": 23438082078720.0,
      "grad_norm": 5.30668649409326,
      "language_loss": 0.89836133,
      "learning_rate": 3.402321569764223e-06,
      "loss": 0.91948974,
      "num_input_tokens_seen": 49091600,
      "step": 2288,
      "time_per_iteration": 3.346151351928711
    },
    {
      "auxiliary_loss_clip": 0.01081422,
      "auxiliary_loss_mlp": 0.00757014,
      "balance_loss_clip": 1.05000651,
      "balance_loss_mlp": 1.00139856,
      "epoch": 0.2752359766728792,
      "flos": 16723594955520.0,
      "grad_norm": 2.0334626802979896,
      "language_loss": 0.83360469,
      "learning_rate": 3.4017660541406635e-06,
      "loss": 0.85198903,
      "num_input_tokens_seen": 49107665,
      "step": 2289,
      "time_per_iteration": 4.204016447067261
    },
    {
      "auxiliary_loss_clip": 0.01118619,
      "auxiliary_loss_mlp": 0.01022833,
      "balance_loss_clip": 1.06093168,
      "balance_loss_mlp": 1.01605916,
      "epoch": 0.2753562195635183,
      "flos": 25299879482880.0,
      "grad_norm": 2.8137897308284976,
      "language_loss": 0.74225146,
      "learning_rate": 3.4012103258703092e-06,
      "loss": 0.76366597,
      "num_input_tokens_seen": 49126420,
      "step": 2290,
      "time_per_iteration": 2.6428935527801514
    },
    {
      "auxiliary_loss_clip": 0.01099726,
      "auxiliary_loss_mlp": 0.01018017,
      "balance_loss_clip": 1.05562294,
      "balance_loss_mlp": 1.01128197,
      "epoch": 0.2754764624541574,
      "flos": 27341117579520.0,
      "grad_norm": 2.2321463047599504,
      "language_loss": 0.83323193,
      "learning_rate": 3.4006543850374616e-06,
      "loss": 0.85440934,
      "num_input_tokens_seen": 49141470,
      "step": 2291,
      "time_per_iteration": 2.6768131256103516
    },
    {
      "auxiliary_loss_clip": 0.01127156,
      "auxiliary_loss_mlp": 0.0102549,
      "balance_loss_clip": 1.06010115,
      "balance_loss_mlp": 1.01919007,
      "epoch": 0.27559670534479647,
      "flos": 17240293676160.0,
      "grad_norm": 4.019385524928192,
      "language_loss": 0.7501567,
      "learning_rate": 3.400098231726458e-06,
      "loss": 0.7716831,
      "num_input_tokens_seen": 49158570,
      "step": 2292,
      "time_per_iteration": 2.559331178665161
    },
    {
      "auxiliary_loss_clip": 0.01100385,
      "auxiliary_loss_mlp": 0.01027902,
      "balance_loss_clip": 1.05373621,
      "balance_loss_mlp": 1.02090144,
      "epoch": 0.2757169482354356,
      "flos": 21940929607680.0,
      "grad_norm": 4.333451770157503,
      "language_loss": 0.86967874,
      "learning_rate": 3.3995418660216657e-06,
      "loss": 0.89096159,
      "num_input_tokens_seen": 49176025,
      "step": 2293,
      "time_per_iteration": 2.6294100284576416
    },
    {
      "auxiliary_loss_clip": 0.0113912,
      "auxiliary_loss_mlp": 0.01025384,
      "balance_loss_clip": 1.0594461,
      "balance_loss_mlp": 1.01870799,
      "epoch": 0.2758371911260747,
      "flos": 20852796274560.0,
      "grad_norm": 3.5912627692993255,
      "language_loss": 0.8058477,
      "learning_rate": 3.3989852880074848e-06,
      "loss": 0.82749277,
      "num_input_tokens_seen": 49197455,
      "step": 2294,
      "time_per_iteration": 2.5465023517608643
    },
    {
      "auxiliary_loss_clip": 0.01145321,
      "auxiliary_loss_mlp": 0.01010209,
      "balance_loss_clip": 1.12329721,
      "balance_loss_mlp": 1.0080868,
      "epoch": 0.27595743401671374,
      "flos": 69276023147520.0,
      "grad_norm": 0.7470086981006744,
      "language_loss": 0.6051566,
      "learning_rate": 3.398428497768348e-06,
      "loss": 0.62671191,
      "num_input_tokens_seen": 49262625,
      "step": 2295,
      "time_per_iteration": 3.2894062995910645
    },
    {
      "auxiliary_loss_clip": 0.01103188,
      "auxiliary_loss_mlp": 0.01021543,
      "balance_loss_clip": 1.05557752,
      "balance_loss_mlp": 1.01483464,
      "epoch": 0.27607767690735285,
      "flos": 21217137863040.0,
      "grad_norm": 2.5377619073501485,
      "language_loss": 0.71969032,
      "learning_rate": 3.3978714953887205e-06,
      "loss": 0.74093759,
      "num_input_tokens_seen": 49282380,
      "step": 2296,
      "time_per_iteration": 2.6246907711029053
    },
    {
      "auxiliary_loss_clip": 0.01089641,
      "auxiliary_loss_mlp": 0.01020438,
      "balance_loss_clip": 1.05569458,
      "balance_loss_mlp": 1.01409292,
      "epoch": 0.27619791979799196,
      "flos": 24827554967040.0,
      "grad_norm": 3.0565607905617793,
      "language_loss": 0.8628577,
      "learning_rate": 3.397314280953098e-06,
      "loss": 0.88395846,
      "num_input_tokens_seen": 49303205,
      "step": 2297,
      "time_per_iteration": 2.7086355686187744
    },
    {
      "auxiliary_loss_clip": 0.01114965,
      "auxiliary_loss_mlp": 0.01019497,
      "balance_loss_clip": 1.05993438,
      "balance_loss_mlp": 1.01309299,
      "epoch": 0.276318162688631,
      "flos": 24755831775360.0,
      "grad_norm": 5.821005245225856,
      "language_loss": 0.80291176,
      "learning_rate": 3.3967568545460108e-06,
      "loss": 0.82425636,
      "num_input_tokens_seen": 49322745,
      "step": 2298,
      "time_per_iteration": 2.604776620864868
    },
    {
      "auxiliary_loss_clip": 0.01103948,
      "auxiliary_loss_mlp": 0.0102373,
      "balance_loss_clip": 1.04321837,
      "balance_loss_mlp": 1.01714098,
      "epoch": 0.27643840557927013,
      "flos": 18151943927040.0,
      "grad_norm": 1.9830342272274823,
      "language_loss": 0.80698711,
      "learning_rate": 3.3961992162520185e-06,
      "loss": 0.82826388,
      "num_input_tokens_seen": 49341370,
      "step": 2299,
      "time_per_iteration": 2.564359664916992
    },
    {
      "auxiliary_loss_clip": 0.01122895,
      "auxiliary_loss_mlp": 0.0102218,
      "balance_loss_clip": 1.05735278,
      "balance_loss_mlp": 1.01548922,
      "epoch": 0.27655864846990924,
      "flos": 24826076161920.0,
      "grad_norm": 5.219827985880216,
      "language_loss": 0.71934718,
      "learning_rate": 3.3956413661557156e-06,
      "loss": 0.74079794,
      "num_input_tokens_seen": 49361545,
      "step": 2300,
      "time_per_iteration": 2.571730375289917
    },
    {
      "auxiliary_loss_clip": 0.01102668,
      "auxiliary_loss_mlp": 0.01025544,
      "balance_loss_clip": 1.05634034,
      "balance_loss_mlp": 1.01879954,
      "epoch": 0.2766788913605483,
      "flos": 20268659105280.0,
      "grad_norm": 5.934485348559899,
      "language_loss": 0.66003698,
      "learning_rate": 3.3950833043417273e-06,
      "loss": 0.68131912,
      "num_input_tokens_seen": 49379690,
      "step": 2301,
      "time_per_iteration": 2.641937255859375
    },
    {
      "auxiliary_loss_clip": 0.01131131,
      "auxiliary_loss_mlp": 0.01021989,
      "balance_loss_clip": 1.06489062,
      "balance_loss_mlp": 1.0147413,
      "epoch": 0.2767991342511874,
      "flos": 21472396899840.0,
      "grad_norm": 4.553427989965004,
      "language_loss": 0.73612988,
      "learning_rate": 3.3945250308947105e-06,
      "loss": 0.7576611,
      "num_input_tokens_seen": 49395995,
      "step": 2302,
      "time_per_iteration": 2.543647527694702
    },
    {
      "auxiliary_loss_clip": 0.01168488,
      "auxiliary_loss_mlp": 0.01006818,
      "balance_loss_clip": 1.12664914,
      "balance_loss_mlp": 1.0045886,
      "epoch": 0.2769193771418265,
      "flos": 66008334326400.0,
      "grad_norm": 1.261848606321929,
      "language_loss": 0.68355274,
      "learning_rate": 3.3939665458993556e-06,
      "loss": 0.70530581,
      "num_input_tokens_seen": 49450415,
      "step": 2303,
      "time_per_iteration": 3.1098310947418213
    },
    {
      "auxiliary_loss_clip": 0.01103027,
      "auxiliary_loss_mlp": 0.01025363,
      "balance_loss_clip": 1.05716991,
      "balance_loss_mlp": 1.01883078,
      "epoch": 0.27703962003246557,
      "flos": 20706543953280.0,
      "grad_norm": 3.07636533922233,
      "language_loss": 0.76594847,
      "learning_rate": 3.3934078494403843e-06,
      "loss": 0.7872324,
      "num_input_tokens_seen": 49469990,
      "step": 2304,
      "time_per_iteration": 2.6030831336975098
    },
    {
      "auxiliary_loss_clip": 0.01061691,
      "auxiliary_loss_mlp": 0.00757225,
      "balance_loss_clip": 1.05607486,
      "balance_loss_mlp": 1.00134897,
      "epoch": 0.2771598629231047,
      "flos": 22932114174720.0,
      "grad_norm": 2.021584964184595,
      "language_loss": 0.81626743,
      "learning_rate": 3.3928489416025495e-06,
      "loss": 0.83445656,
      "num_input_tokens_seen": 49490835,
      "step": 2305,
      "time_per_iteration": 2.8220255374908447
    },
    {
      "auxiliary_loss_clip": 0.01099641,
      "auxiliary_loss_mlp": 0.01030661,
      "balance_loss_clip": 1.05100024,
      "balance_loss_mlp": 1.02359438,
      "epoch": 0.27728010581374374,
      "flos": 18371436163200.0,
      "grad_norm": 2.7009318716605546,
      "language_loss": 0.79167402,
      "learning_rate": 3.392289822470638e-06,
      "loss": 0.81297702,
      "num_input_tokens_seen": 49508815,
      "step": 2306,
      "time_per_iteration": 2.783252239227295
    },
    {
      "auxiliary_loss_clip": 0.01110687,
      "auxiliary_loss_mlp": 0.01022763,
      "balance_loss_clip": 1.05617344,
      "balance_loss_mlp": 1.01609969,
      "epoch": 0.27740034870438285,
      "flos": 19429679998080.0,
      "grad_norm": 6.426611069849334,
      "language_loss": 0.75780588,
      "learning_rate": 3.3917304921294674e-06,
      "loss": 0.77914035,
      "num_input_tokens_seen": 49526980,
      "step": 2307,
      "time_per_iteration": 2.6190474033355713
    },
    {
      "auxiliary_loss_clip": 0.01120509,
      "auxiliary_loss_mlp": 0.01022514,
      "balance_loss_clip": 1.05445147,
      "balance_loss_mlp": 1.01573098,
      "epoch": 0.27752059159502196,
      "flos": 21616829153280.0,
      "grad_norm": 2.5019065164336194,
      "language_loss": 0.80432671,
      "learning_rate": 3.3911709506638876e-06,
      "loss": 0.82575691,
      "num_input_tokens_seen": 49546290,
      "step": 2308,
      "time_per_iteration": 2.552290678024292
    },
    {
      "auxiliary_loss_clip": 0.01102981,
      "auxiliary_loss_mlp": 0.0075703,
      "balance_loss_clip": 1.05721366,
      "balance_loss_mlp": 1.0012548,
      "epoch": 0.277640834485661,
      "flos": 26610045563520.0,
      "grad_norm": 3.116924192112589,
      "language_loss": 0.81090844,
      "learning_rate": 3.390611198158781e-06,
      "loss": 0.8295086,
      "num_input_tokens_seen": 49564165,
      "step": 2309,
      "time_per_iteration": 2.6697466373443604
    },
    {
      "auxiliary_loss_clip": 0.01140059,
      "auxiliary_loss_mlp": 0.01027047,
      "balance_loss_clip": 1.06128693,
      "balance_loss_mlp": 1.02010894,
      "epoch": 0.2777610773763001,
      "flos": 19494426263040.0,
      "grad_norm": 2.062490592150842,
      "language_loss": 0.89797819,
      "learning_rate": 3.3900512346990612e-06,
      "loss": 0.9196493,
      "num_input_tokens_seen": 49580155,
      "step": 2310,
      "time_per_iteration": 2.5111334323883057
    },
    {
      "auxiliary_loss_clip": 0.01090611,
      "auxiliary_loss_mlp": 0.010239,
      "balance_loss_clip": 1.0536685,
      "balance_loss_mlp": 1.01683342,
      "epoch": 0.27788132026693924,
      "flos": 38293736901120.0,
      "grad_norm": 2.012995941863727,
      "language_loss": 0.66092503,
      "learning_rate": 3.389491060369674e-06,
      "loss": 0.68207014,
      "num_input_tokens_seen": 49605830,
      "step": 2311,
      "time_per_iteration": 2.8073923587799072
    },
    {
      "auxiliary_loss_clip": 0.01089039,
      "auxiliary_loss_mlp": 0.01017264,
      "balance_loss_clip": 1.05746543,
      "balance_loss_mlp": 1.01085341,
      "epoch": 0.2780015631575783,
      "flos": 22384729676160.0,
      "grad_norm": 2.8952189068225547,
      "language_loss": 0.89164513,
      "learning_rate": 3.388930675255598e-06,
      "loss": 0.91270816,
      "num_input_tokens_seen": 49625680,
      "step": 2312,
      "time_per_iteration": 2.6579768657684326
    },
    {
      "auxiliary_loss_clip": 0.01112974,
      "auxiliary_loss_mlp": 0.01024603,
      "balance_loss_clip": 1.05733109,
      "balance_loss_mlp": 1.01750708,
      "epoch": 0.2781218060482174,
      "flos": 12204826473600.0,
      "grad_norm": 5.2113933773515875,
      "language_loss": 0.79588187,
      "learning_rate": 3.388370079441843e-06,
      "loss": 0.81725764,
      "num_input_tokens_seen": 49641195,
      "step": 2313,
      "time_per_iteration": 3.326514720916748
    },
    {
      "auxiliary_loss_clip": 0.01098572,
      "auxiliary_loss_mlp": 0.01027198,
      "balance_loss_clip": 1.05820465,
      "balance_loss_mlp": 1.0207665,
      "epoch": 0.2782420489388565,
      "flos": 18109238117760.0,
      "grad_norm": 2.4810475350899925,
      "language_loss": 0.92619729,
      "learning_rate": 3.3878092730134505e-06,
      "loss": 0.94745493,
      "num_input_tokens_seen": 49659180,
      "step": 2314,
      "time_per_iteration": 4.287784099578857
    },
    {
      "auxiliary_loss_clip": 0.0112751,
      "auxiliary_loss_mlp": 0.01026332,
      "balance_loss_clip": 1.05850625,
      "balance_loss_mlp": 1.0194298,
      "epoch": 0.27836229182949557,
      "flos": 18516702614400.0,
      "grad_norm": 1.7962272022471029,
      "language_loss": 0.80661803,
      "learning_rate": 3.3872482560554947e-06,
      "loss": 0.82815647,
      "num_input_tokens_seen": 49677955,
      "step": 2315,
      "time_per_iteration": 3.35111141204834
    },
    {
      "auxiliary_loss_clip": 0.01165344,
      "auxiliary_loss_mlp": 0.01008288,
      "balance_loss_clip": 1.12231612,
      "balance_loss_mlp": 1.0056175,
      "epoch": 0.2784825347201347,
      "flos": 67086030136320.0,
      "grad_norm": 0.8097927360175591,
      "language_loss": 0.56926024,
      "learning_rate": 3.386687028653082e-06,
      "loss": 0.5909965,
      "num_input_tokens_seen": 49740800,
      "step": 2316,
      "time_per_iteration": 3.1595876216888428
    },
    {
      "auxiliary_loss_clip": 0.01084048,
      "auxiliary_loss_mlp": 0.01024495,
      "balance_loss_clip": 1.05543816,
      "balance_loss_mlp": 1.0175724,
      "epoch": 0.2786027776107738,
      "flos": 22632935950080.0,
      "grad_norm": 2.083178082007727,
      "language_loss": 0.85076547,
      "learning_rate": 3.386125590891349e-06,
      "loss": 0.87185085,
      "num_input_tokens_seen": 49757675,
      "step": 2317,
      "time_per_iteration": 2.657360076904297
    },
    {
      "auxiliary_loss_clip": 0.01116846,
      "auxiliary_loss_mlp": 0.01021677,
      "balance_loss_clip": 1.05816483,
      "balance_loss_mlp": 1.01518583,
      "epoch": 0.27872302050141284,
      "flos": 15780652237440.0,
      "grad_norm": 2.810527015494239,
      "language_loss": 0.83335054,
      "learning_rate": 3.3855639428554657e-06,
      "loss": 0.85473573,
      "num_input_tokens_seen": 49775205,
      "step": 2318,
      "time_per_iteration": 2.548886775970459
    },
    {
      "auxiliary_loss_clip": 0.01070187,
      "auxiliary_loss_mlp": 0.01022369,
      "balance_loss_clip": 1.03619564,
      "balance_loss_mlp": 1.01607442,
      "epoch": 0.27884326339205195,
      "flos": 22129129376640.0,
      "grad_norm": 2.4265095288819785,
      "language_loss": 0.79992342,
      "learning_rate": 3.385002084630635e-06,
      "loss": 0.82084894,
      "num_input_tokens_seen": 49794175,
      "step": 2319,
      "time_per_iteration": 2.627265691757202
    },
    {
      "auxiliary_loss_clip": 0.01130097,
      "auxiliary_loss_mlp": 0.01021265,
      "balance_loss_clip": 1.06144857,
      "balance_loss_mlp": 1.01449347,
      "epoch": 0.278963506282691,
      "flos": 20560822485120.0,
      "grad_norm": 2.4500257184031935,
      "language_loss": 0.85036629,
      "learning_rate": 3.384440016302088e-06,
      "loss": 0.87187994,
      "num_input_tokens_seen": 49812850,
      "step": 2320,
      "time_per_iteration": 2.541954278945923
    },
    {
      "auxiliary_loss_clip": 0.01112959,
      "auxiliary_loss_mlp": 0.01022935,
      "balance_loss_clip": 1.05282402,
      "balance_loss_mlp": 1.01618528,
      "epoch": 0.2790837491733301,
      "flos": 21944986842240.0,
      "grad_norm": 2.4761607091510585,
      "language_loss": 0.61977029,
      "learning_rate": 3.3838777379550923e-06,
      "loss": 0.6411292,
      "num_input_tokens_seen": 49832295,
      "step": 2321,
      "time_per_iteration": 2.5724246501922607
    },
    {
      "auxiliary_loss_clip": 0.0111485,
      "auxiliary_loss_mlp": 0.01031222,
      "balance_loss_clip": 1.05928898,
      "balance_loss_mlp": 1.0244534,
      "epoch": 0.27920399206396923,
      "flos": 26289206064000.0,
      "grad_norm": 4.007120832235555,
      "language_loss": 0.78166103,
      "learning_rate": 3.383315249674944e-06,
      "loss": 0.80312175,
      "num_input_tokens_seen": 49850860,
      "step": 2322,
      "time_per_iteration": 2.62787127494812
    },
    {
      "auxiliary_loss_clip": 0.01099309,
      "auxiliary_loss_mlp": 0.01027765,
      "balance_loss_clip": 1.05752993,
      "balance_loss_mlp": 1.02125871,
      "epoch": 0.2793242349546083,
      "flos": 25402781387520.0,
      "grad_norm": 4.867115192096168,
      "language_loss": 0.85900754,
      "learning_rate": 3.3827525515469715e-06,
      "loss": 0.88027829,
      "num_input_tokens_seen": 49865765,
      "step": 2323,
      "time_per_iteration": 2.63859224319458
    },
    {
      "auxiliary_loss_clip": 0.01100579,
      "auxiliary_loss_mlp": 0.0102849,
      "balance_loss_clip": 1.05689585,
      "balance_loss_mlp": 1.02133775,
      "epoch": 0.2794444778452474,
      "flos": 20852455011840.0,
      "grad_norm": 2.987585813669626,
      "language_loss": 0.70811957,
      "learning_rate": 3.3821896436565367e-06,
      "loss": 0.72941029,
      "num_input_tokens_seen": 49885425,
      "step": 2324,
      "time_per_iteration": 2.6536803245544434
    },
    {
      "auxiliary_loss_clip": 0.01125218,
      "auxiliary_loss_mlp": 0.01027037,
      "balance_loss_clip": 1.05906141,
      "balance_loss_mlp": 1.02031338,
      "epoch": 0.2795647207358865,
      "flos": 21578180578560.0,
      "grad_norm": 2.4057315748521457,
      "language_loss": 0.70466399,
      "learning_rate": 3.381626526089032e-06,
      "loss": 0.72618657,
      "num_input_tokens_seen": 49904990,
      "step": 2325,
      "time_per_iteration": 2.555079936981201
    },
    {
      "auxiliary_loss_clip": 0.01116551,
      "auxiliary_loss_mlp": 0.0102202,
      "balance_loss_clip": 1.05878425,
      "balance_loss_mlp": 1.01512039,
      "epoch": 0.27968496362652556,
      "flos": 21473951541120.0,
      "grad_norm": 2.017862358146169,
      "language_loss": 0.79199457,
      "learning_rate": 3.3810631989298815e-06,
      "loss": 0.81338024,
      "num_input_tokens_seen": 49924600,
      "step": 2326,
      "time_per_iteration": 2.5824215412139893
    },
    {
      "auxiliary_loss_clip": 0.01083621,
      "auxiliary_loss_mlp": 0.01024917,
      "balance_loss_clip": 1.05335701,
      "balance_loss_mlp": 1.01758599,
      "epoch": 0.2798052065171647,
      "flos": 23260954389120.0,
      "grad_norm": 2.853334754717368,
      "language_loss": 0.84243035,
      "learning_rate": 3.3804996622645423e-06,
      "loss": 0.86351568,
      "num_input_tokens_seen": 49942600,
      "step": 2327,
      "time_per_iteration": 2.644912004470825
    },
    {
      "auxiliary_loss_clip": 0.01138262,
      "auxiliary_loss_mlp": 0.01024126,
      "balance_loss_clip": 1.06002903,
      "balance_loss_mlp": 1.01740813,
      "epoch": 0.2799254494078038,
      "flos": 21541238317440.0,
      "grad_norm": 1.9237960848018096,
      "language_loss": 0.89341819,
      "learning_rate": 3.3799359161785015e-06,
      "loss": 0.91504204,
      "num_input_tokens_seen": 49962250,
      "step": 2328,
      "time_per_iteration": 2.551374912261963
    },
    {
      "auxiliary_loss_clip": 0.01120818,
      "auxiliary_loss_mlp": 0.01028175,
      "balance_loss_clip": 1.0570792,
      "balance_loss_mlp": 1.02137125,
      "epoch": 0.28004569229844284,
      "flos": 26396203121280.0,
      "grad_norm": 1.6302233302441853,
      "language_loss": 0.85706216,
      "learning_rate": 3.3793719607572798e-06,
      "loss": 0.87855208,
      "num_input_tokens_seen": 49983215,
      "step": 2329,
      "time_per_iteration": 2.5943665504455566
    },
    {
      "auxiliary_loss_clip": 0.01117497,
      "auxiliary_loss_mlp": 0.0102533,
      "balance_loss_clip": 1.05896771,
      "balance_loss_mlp": 1.01863623,
      "epoch": 0.28016593518908195,
      "flos": 33550508914560.0,
      "grad_norm": 2.6698449898620455,
      "language_loss": 0.76887685,
      "learning_rate": 3.378807796086428e-06,
      "loss": 0.79030514,
      "num_input_tokens_seen": 50006075,
      "step": 2330,
      "time_per_iteration": 2.705503463745117
    },
    {
      "auxiliary_loss_clip": 0.01140452,
      "auxiliary_loss_mlp": 0.01021504,
      "balance_loss_clip": 1.06291556,
      "balance_loss_mlp": 1.01467025,
      "epoch": 0.28028617807972106,
      "flos": 15342615717120.0,
      "grad_norm": 2.422322823544011,
      "language_loss": 0.76726323,
      "learning_rate": 3.37824342225153e-06,
      "loss": 0.78888273,
      "num_input_tokens_seen": 50022495,
      "step": 2331,
      "time_per_iteration": 2.4830029010772705
    },
    {
      "auxiliary_loss_clip": 0.01082767,
      "auxiliary_loss_mlp": 0.01027967,
      "balance_loss_clip": 1.05367708,
      "balance_loss_mlp": 1.02141082,
      "epoch": 0.2804064209703601,
      "flos": 25522632673920.0,
      "grad_norm": 2.07674956055467,
      "language_loss": 0.77878606,
      "learning_rate": 3.3776788393382006e-06,
      "loss": 0.79989338,
      "num_input_tokens_seen": 50041975,
      "step": 2332,
      "time_per_iteration": 2.7010703086853027
    },
    {
      "auxiliary_loss_clip": 0.0113937,
      "auxiliary_loss_mlp": 0.0102379,
      "balance_loss_clip": 1.06122684,
      "balance_loss_mlp": 1.01672423,
      "epoch": 0.2805266638609992,
      "flos": 29354362081920.0,
      "grad_norm": 4.959008725146465,
      "language_loss": 0.76789325,
      "learning_rate": 3.3771140474320872e-06,
      "loss": 0.78952491,
      "num_input_tokens_seen": 50061925,
      "step": 2333,
      "time_per_iteration": 2.5905070304870605
    },
    {
      "auxiliary_loss_clip": 0.01103621,
      "auxiliary_loss_mlp": 0.01026668,
      "balance_loss_clip": 1.05902195,
      "balance_loss_mlp": 1.02021599,
      "epoch": 0.28064690675163834,
      "flos": 21465495809280.0,
      "grad_norm": 2.151328021061671,
      "language_loss": 0.79601562,
      "learning_rate": 3.3765490466188664e-06,
      "loss": 0.81731856,
      "num_input_tokens_seen": 50079325,
      "step": 2334,
      "time_per_iteration": 2.6294827461242676
    },
    {
      "auxiliary_loss_clip": 0.01082711,
      "auxiliary_loss_mlp": 0.01021541,
      "balance_loss_clip": 1.04060221,
      "balance_loss_mlp": 1.01445436,
      "epoch": 0.2807671496422774,
      "flos": 20997721463040.0,
      "grad_norm": 3.1752152068919917,
      "language_loss": 0.73873919,
      "learning_rate": 3.3759838369842508e-06,
      "loss": 0.75978172,
      "num_input_tokens_seen": 50097400,
      "step": 2335,
      "time_per_iteration": 2.6091747283935547
    },
    {
      "auxiliary_loss_clip": 0.01096452,
      "auxiliary_loss_mlp": 0.01024241,
      "balance_loss_clip": 1.05858302,
      "balance_loss_mlp": 1.01759768,
      "epoch": 0.2808873925329165,
      "flos": 21508694553600.0,
      "grad_norm": 1.8959883204013577,
      "language_loss": 0.73142803,
      "learning_rate": 3.375418418613981e-06,
      "loss": 0.75263494,
      "num_input_tokens_seen": 50116425,
      "step": 2336,
      "time_per_iteration": 2.624918222427368
    },
    {
      "auxiliary_loss_clip": 0.01111216,
      "auxiliary_loss_mlp": 0.01025202,
      "balance_loss_clip": 1.05765951,
      "balance_loss_mlp": 1.01817477,
      "epoch": 0.28100763542355556,
      "flos": 16072663944960.0,
      "grad_norm": 3.189765900278892,
      "language_loss": 0.83521718,
      "learning_rate": 3.374852791593831e-06,
      "loss": 0.85658133,
      "num_input_tokens_seen": 50132625,
      "step": 2337,
      "time_per_iteration": 2.5680062770843506
    },
    {
      "auxiliary_loss_clip": 0.01088965,
      "auxiliary_loss_mlp": 0.01026501,
      "balance_loss_clip": 1.05482185,
      "balance_loss_mlp": 1.01916385,
      "epoch": 0.28112787831419467,
      "flos": 19064617966080.0,
      "grad_norm": 5.05713157612838,
      "language_loss": 0.53699219,
      "learning_rate": 3.374286956009605e-06,
      "loss": 0.55814683,
      "num_input_tokens_seen": 50151190,
      "step": 2338,
      "time_per_iteration": 2.630260467529297
    },
    {
      "auxiliary_loss_clip": 0.011243,
      "auxiliary_loss_mlp": 0.01025273,
      "balance_loss_clip": 1.06088829,
      "balance_loss_mlp": 1.01850224,
      "epoch": 0.2812481212048338,
      "flos": 12825299214720.0,
      "grad_norm": 2.2228968523195607,
      "language_loss": 0.7525897,
      "learning_rate": 3.3737209119471405e-06,
      "loss": 0.77408552,
      "num_input_tokens_seen": 50167700,
      "step": 2339,
      "time_per_iteration": 3.3186442852020264
    },
    {
      "auxiliary_loss_clip": 0.01127875,
      "auxiliary_loss_mlp": 0.01022911,
      "balance_loss_clip": 1.06084907,
      "balance_loss_mlp": 1.01554966,
      "epoch": 0.28136836409547283,
      "flos": 15634892851200.0,
      "grad_norm": 3.261859481426271,
      "language_loss": 0.63737118,
      "learning_rate": 3.373154659492306e-06,
      "loss": 0.65887904,
      "num_input_tokens_seen": 50185840,
      "step": 2340,
      "time_per_iteration": 4.083811044692993
    },
    {
      "auxiliary_loss_clip": 0.01113921,
      "auxiliary_loss_mlp": 0.01030992,
      "balance_loss_clip": 1.05965614,
      "balance_loss_mlp": 1.02417874,
      "epoch": 0.28148860698611194,
      "flos": 19935534147840.0,
      "grad_norm": 2.4605327197464746,
      "language_loss": 0.85186851,
      "learning_rate": 3.3725881987310016e-06,
      "loss": 0.87331766,
      "num_input_tokens_seen": 50203375,
      "step": 2341,
      "time_per_iteration": 3.332500696182251
    },
    {
      "auxiliary_loss_clip": 0.01107399,
      "auxiliary_loss_mlp": 0.01025303,
      "balance_loss_clip": 1.05424595,
      "balance_loss_mlp": 1.01895261,
      "epoch": 0.28160884987675106,
      "flos": 17459141304960.0,
      "grad_norm": 1.9316728884331302,
      "language_loss": 0.87706167,
      "learning_rate": 3.372021529749159e-06,
      "loss": 0.89838862,
      "num_input_tokens_seen": 50222435,
      "step": 2342,
      "time_per_iteration": 2.6044836044311523
    },
    {
      "auxiliary_loss_clip": 0.01070054,
      "auxiliary_loss_mlp": 0.01025737,
      "balance_loss_clip": 1.05378592,
      "balance_loss_mlp": 1.0191474,
      "epoch": 0.2817290927673901,
      "flos": 16836507233280.0,
      "grad_norm": 1.9795741441350683,
      "language_loss": 0.92364234,
      "learning_rate": 3.3714546526327405e-06,
      "loss": 0.94460022,
      "num_input_tokens_seen": 50240435,
      "step": 2343,
      "time_per_iteration": 2.666731119155884
    },
    {
      "auxiliary_loss_clip": 0.01102851,
      "auxiliary_loss_mlp": 0.01023579,
      "balance_loss_clip": 1.05812919,
      "balance_loss_mlp": 1.01630139,
      "epoch": 0.2818493356580292,
      "flos": 15415893550080.0,
      "grad_norm": 4.400217922266937,
      "language_loss": 0.88074511,
      "learning_rate": 3.3708875674677423e-06,
      "loss": 0.90200949,
      "num_input_tokens_seen": 50258410,
      "step": 2344,
      "time_per_iteration": 2.599886417388916
    },
    {
      "auxiliary_loss_clip": 0.01117153,
      "auxiliary_loss_mlp": 0.01024035,
      "balance_loss_clip": 1.06012106,
      "balance_loss_mlp": 1.01673949,
      "epoch": 0.28196957854866833,
      "flos": 20414532245760.0,
      "grad_norm": 2.4811370462897036,
      "language_loss": 0.83646655,
      "learning_rate": 3.37032027434019e-06,
      "loss": 0.85787845,
      "num_input_tokens_seen": 50277930,
      "step": 2345,
      "time_per_iteration": 2.584697961807251
    },
    {
      "auxiliary_loss_clip": 0.01127334,
      "auxiliary_loss_mlp": 0.01027049,
      "balance_loss_clip": 1.05761552,
      "balance_loss_mlp": 1.01873457,
      "epoch": 0.2820898214393074,
      "flos": 19975092756480.0,
      "grad_norm": 1.8106067301166422,
      "language_loss": 0.83446765,
      "learning_rate": 3.369752773336141e-06,
      "loss": 0.85601145,
      "num_input_tokens_seen": 50297410,
      "step": 2346,
      "time_per_iteration": 2.5649733543395996
    },
    {
      "auxiliary_loss_clip": 0.01115861,
      "auxiliary_loss_mlp": 0.0102516,
      "balance_loss_clip": 1.06066704,
      "balance_loss_mlp": 1.0180192,
      "epoch": 0.2822100643299465,
      "flos": 22530489062400.0,
      "grad_norm": 2.2347921895698977,
      "language_loss": 0.78347397,
      "learning_rate": 3.3691850645416864e-06,
      "loss": 0.8048842,
      "num_input_tokens_seen": 50317120,
      "step": 2347,
      "time_per_iteration": 2.610795259475708
    },
    {
      "auxiliary_loss_clip": 0.01126571,
      "auxiliary_loss_mlp": 0.01026267,
      "balance_loss_clip": 1.05752587,
      "balance_loss_mlp": 1.01944816,
      "epoch": 0.2823303072205856,
      "flos": 11548283587200.0,
      "grad_norm": 2.2103497808280137,
      "language_loss": 0.8313905,
      "learning_rate": 3.368617148042945e-06,
      "loss": 0.85291892,
      "num_input_tokens_seen": 50334790,
      "step": 2348,
      "time_per_iteration": 2.5446419715881348
    },
    {
      "auxiliary_loss_clip": 0.0111706,
      "auxiliary_loss_mlp": 0.01026969,
      "balance_loss_clip": 1.05819058,
      "balance_loss_mlp": 1.01960194,
      "epoch": 0.28245055011122466,
      "flos": 18261860676480.0,
      "grad_norm": 2.3336328214357396,
      "language_loss": 0.8466295,
      "learning_rate": 3.368049023926071e-06,
      "loss": 0.86806983,
      "num_input_tokens_seen": 50353785,
      "step": 2349,
      "time_per_iteration": 2.577244997024536
    },
    {
      "auxiliary_loss_clip": 0.01126966,
      "auxiliary_loss_mlp": 0.01026,
      "balance_loss_clip": 1.0627985,
      "balance_loss_mlp": 1.01935685,
      "epoch": 0.2825707930018638,
      "flos": 24610413651840.0,
      "grad_norm": 3.80092337764511,
      "language_loss": 0.83562255,
      "learning_rate": 3.3674806922772476e-06,
      "loss": 0.85715228,
      "num_input_tokens_seen": 50374670,
      "step": 2350,
      "time_per_iteration": 2.5941457748413086
    },
    {
      "auxiliary_loss_clip": 0.01101146,
      "auxiliary_loss_mlp": 0.01026779,
      "balance_loss_clip": 1.05683386,
      "balance_loss_mlp": 1.01981711,
      "epoch": 0.28269103589250283,
      "flos": 25229255915520.0,
      "grad_norm": 3.1064824312389994,
      "language_loss": 0.75117838,
      "learning_rate": 3.3669121531826904e-06,
      "loss": 0.7724576,
      "num_input_tokens_seen": 50395650,
      "step": 2351,
      "time_per_iteration": 2.667011022567749
    },
    {
      "auxiliary_loss_clip": 0.0107621,
      "auxiliary_loss_mlp": 0.01025496,
      "balance_loss_clip": 1.04035163,
      "balance_loss_mlp": 1.01919556,
      "epoch": 0.28281127878314194,
      "flos": 19283579349120.0,
      "grad_norm": 2.2865783673422384,
      "language_loss": 0.83094186,
      "learning_rate": 3.366343406728647e-06,
      "loss": 0.85195893,
      "num_input_tokens_seen": 50415100,
      "step": 2352,
      "time_per_iteration": 2.5923190116882324
    },
    {
      "auxiliary_loss_clip": 0.01128361,
      "auxiliary_loss_mlp": 0.01023976,
      "balance_loss_clip": 1.05923998,
      "balance_loss_mlp": 1.01745844,
      "epoch": 0.28293152167378105,
      "flos": 23880668768640.0,
      "grad_norm": 2.1177551247475854,
      "language_loss": 0.69124901,
      "learning_rate": 3.3657744530013946e-06,
      "loss": 0.71277231,
      "num_input_tokens_seen": 50434335,
      "step": 2353,
      "time_per_iteration": 2.5816080570220947
    },
    {
      "auxiliary_loss_clip": 0.01127682,
      "auxiliary_loss_mlp": 0.01025458,
      "balance_loss_clip": 1.06061673,
      "balance_loss_mlp": 1.01820374,
      "epoch": 0.2830517645644201,
      "flos": 43870028774400.0,
      "grad_norm": 5.100151106945282,
      "language_loss": 0.71334875,
      "learning_rate": 3.3652052920872437e-06,
      "loss": 0.73488021,
      "num_input_tokens_seen": 50457200,
      "step": 2354,
      "time_per_iteration": 2.7632954120635986
    },
    {
      "auxiliary_loss_clip": 0.01113442,
      "auxiliary_loss_mlp": 0.01026105,
      "balance_loss_clip": 1.05766749,
      "balance_loss_mlp": 1.01915836,
      "epoch": 0.2831720074550592,
      "flos": 26654192259840.0,
      "grad_norm": 2.5382691663530332,
      "language_loss": 0.85924232,
      "learning_rate": 3.3646359240725355e-06,
      "loss": 0.88063776,
      "num_input_tokens_seen": 50476390,
      "step": 2355,
      "time_per_iteration": 2.6301701068878174
    },
    {
      "auxiliary_loss_clip": 0.01133016,
      "auxiliary_loss_mlp": 0.00757339,
      "balance_loss_clip": 1.06503415,
      "balance_loss_mlp": 1.00122547,
      "epoch": 0.2832922503456983,
      "flos": 31032661559040.0,
      "grad_norm": 2.354012372059792,
      "language_loss": 0.67460406,
      "learning_rate": 3.364066349043643e-06,
      "loss": 0.69350761,
      "num_input_tokens_seen": 50497595,
      "step": 2356,
      "time_per_iteration": 2.6349174976348877
    },
    {
      "auxiliary_loss_clip": 0.01090857,
      "auxiliary_loss_mlp": 0.01023075,
      "balance_loss_clip": 1.04160988,
      "balance_loss_mlp": 1.01677465,
      "epoch": 0.2834124932363374,
      "flos": 20407403646720.0,
      "grad_norm": 1.9220983664829085,
      "language_loss": 0.82117164,
      "learning_rate": 3.363496567086969e-06,
      "loss": 0.84231102,
      "num_input_tokens_seen": 50514690,
      "step": 2357,
      "time_per_iteration": 2.5714023113250732
    },
    {
      "auxiliary_loss_clip": 0.01137923,
      "auxiliary_loss_mlp": 0.01021787,
      "balance_loss_clip": 1.06059837,
      "balance_loss_mlp": 1.01546288,
      "epoch": 0.2835327361269765,
      "flos": 39387975045120.0,
      "grad_norm": 2.765118869492686,
      "language_loss": 0.75824726,
      "learning_rate": 3.3629265782889506e-06,
      "loss": 0.7798444,
      "num_input_tokens_seen": 50536515,
      "step": 2358,
      "time_per_iteration": 2.6788084506988525
    },
    {
      "auxiliary_loss_clip": 0.01100598,
      "auxiliary_loss_mlp": 0.0102654,
      "balance_loss_clip": 1.05534136,
      "balance_loss_mlp": 1.0195241,
      "epoch": 0.2836529790176156,
      "flos": 30264116428800.0,
      "grad_norm": 2.295118816878552,
      "language_loss": 0.71830237,
      "learning_rate": 3.362356382736054e-06,
      "loss": 0.73957372,
      "num_input_tokens_seen": 50557120,
      "step": 2359,
      "time_per_iteration": 2.7046937942504883
    },
    {
      "auxiliary_loss_clip": 0.01102712,
      "auxiliary_loss_mlp": 0.01020082,
      "balance_loss_clip": 1.0570848,
      "balance_loss_mlp": 1.01401377,
      "epoch": 0.28377322190825466,
      "flos": 12679463992320.0,
      "grad_norm": 2.539926935862521,
      "language_loss": 0.90720701,
      "learning_rate": 3.361785980514777e-06,
      "loss": 0.92843497,
      "num_input_tokens_seen": 50573320,
      "step": 2360,
      "time_per_iteration": 2.6110382080078125
    },
    {
      "auxiliary_loss_clip": 0.01064667,
      "auxiliary_loss_mlp": 0.01026067,
      "balance_loss_clip": 1.05289841,
      "balance_loss_mlp": 1.0197072,
      "epoch": 0.28389346479889377,
      "flos": 18298651265280.0,
      "grad_norm": 1.8875932716484156,
      "language_loss": 0.76819038,
      "learning_rate": 3.361215371711649e-06,
      "loss": 0.78909767,
      "num_input_tokens_seen": 50592415,
      "step": 2361,
      "time_per_iteration": 2.6916189193725586
    },
    {
      "auxiliary_loss_clip": 0.01094429,
      "auxiliary_loss_mlp": 0.01022656,
      "balance_loss_clip": 1.05539966,
      "balance_loss_mlp": 1.01657915,
      "epoch": 0.2840137076895329,
      "flos": 20408768697600.0,
      "grad_norm": 2.418228632042426,
      "language_loss": 0.83714038,
      "learning_rate": 3.3606445564132326e-06,
      "loss": 0.85831124,
      "num_input_tokens_seen": 50609710,
      "step": 2362,
      "time_per_iteration": 2.5968120098114014
    },
    {
      "auxiliary_loss_clip": 0.01139699,
      "auxiliary_loss_mlp": 0.00757287,
      "balance_loss_clip": 1.06195986,
      "balance_loss_mlp": 1.00124311,
      "epoch": 0.28413395058017193,
      "flos": 20050114821120.0,
      "grad_norm": 2.505601725162835,
      "language_loss": 0.8247354,
      "learning_rate": 3.360073534706118e-06,
      "loss": 0.84370536,
      "num_input_tokens_seen": 50626865,
      "step": 2363,
      "time_per_iteration": 2.576503276824951
    },
    {
      "auxiliary_loss_clip": 0.0111107,
      "auxiliary_loss_mlp": 0.01022759,
      "balance_loss_clip": 1.05692554,
      "balance_loss_mlp": 1.01613712,
      "epoch": 0.28425419347081105,
      "flos": 37666287233280.0,
      "grad_norm": 3.7629260071158925,
      "language_loss": 0.76406842,
      "learning_rate": 3.35950230667693e-06,
      "loss": 0.78540671,
      "num_input_tokens_seen": 50648560,
      "step": 2364,
      "time_per_iteration": 2.705789089202881
    },
    {
      "auxiliary_loss_clip": 0.01125374,
      "auxiliary_loss_mlp": 0.01020701,
      "balance_loss_clip": 1.05927515,
      "balance_loss_mlp": 1.0143795,
      "epoch": 0.28437443636145016,
      "flos": 13846790378880.0,
      "grad_norm": 2.158447681682556,
      "language_loss": 0.85947514,
      "learning_rate": 3.358930872412323e-06,
      "loss": 0.88093585,
      "num_input_tokens_seen": 50665725,
      "step": 2365,
      "time_per_iteration": 4.088361501693726
    },
    {
      "auxiliary_loss_clip": 0.01121807,
      "auxiliary_loss_mlp": 0.01022987,
      "balance_loss_clip": 1.05740464,
      "balance_loss_mlp": 1.01660323,
      "epoch": 0.2844946792520892,
      "flos": 22750019216640.0,
      "grad_norm": 1.640310656401074,
      "language_loss": 0.80971849,
      "learning_rate": 3.3583592319989825e-06,
      "loss": 0.83116639,
      "num_input_tokens_seen": 50685095,
      "step": 2366,
      "time_per_iteration": 4.075824499130249
    },
    {
      "auxiliary_loss_clip": 0.01130724,
      "auxiliary_loss_mlp": 0.01026079,
      "balance_loss_clip": 1.0622673,
      "balance_loss_mlp": 1.01893258,
      "epoch": 0.2846149221427283,
      "flos": 32418721820160.0,
      "grad_norm": 2.1984746196637834,
      "language_loss": 0.68719286,
      "learning_rate": 3.357787385523627e-06,
      "loss": 0.70876086,
      "num_input_tokens_seen": 50706500,
      "step": 2367,
      "time_per_iteration": 2.65203857421875
    },
    {
      "auxiliary_loss_clip": 0.01074214,
      "auxiliary_loss_mlp": 0.01023115,
      "balance_loss_clip": 1.05192745,
      "balance_loss_mlp": 1.01684809,
      "epoch": 0.2847351650333674,
      "flos": 28478516549760.0,
      "grad_norm": 2.075193425840808,
      "language_loss": 0.82827371,
      "learning_rate": 3.3572153330730048e-06,
      "loss": 0.84924698,
      "num_input_tokens_seen": 50727595,
      "step": 2368,
      "time_per_iteration": 2.754478931427002
    },
    {
      "auxiliary_loss_clip": 0.01143074,
      "auxiliary_loss_mlp": 0.01013722,
      "balance_loss_clip": 1.12270021,
      "balance_loss_mlp": 1.01087308,
      "epoch": 0.2848554079240065,
      "flos": 55758717590400.0,
      "grad_norm": 0.8327406519736369,
      "language_loss": 0.64648104,
      "learning_rate": 3.3566430747338956e-06,
      "loss": 0.66804898,
      "num_input_tokens_seen": 50782800,
      "step": 2369,
      "time_per_iteration": 3.059035301208496
    },
    {
      "auxiliary_loss_clip": 0.01124394,
      "auxiliary_loss_mlp": 0.01025252,
      "balance_loss_clip": 1.05755377,
      "balance_loss_mlp": 1.01825178,
      "epoch": 0.2849756508146456,
      "flos": 11838399390720.0,
      "grad_norm": 2.1668108620532505,
      "language_loss": 0.86300611,
      "learning_rate": 3.35607061059311e-06,
      "loss": 0.88450253,
      "num_input_tokens_seen": 50797730,
      "step": 2370,
      "time_per_iteration": 2.5321013927459717
    },
    {
      "auxiliary_loss_clip": 0.01143598,
      "auxiliary_loss_mlp": 0.01026501,
      "balance_loss_clip": 1.06727886,
      "balance_loss_mlp": 1.02002168,
      "epoch": 0.28509589370528465,
      "flos": 25157532723840.0,
      "grad_norm": 1.789244982918311,
      "language_loss": 0.74526465,
      "learning_rate": 3.3554979407374917e-06,
      "loss": 0.76696557,
      "num_input_tokens_seen": 50819840,
      "step": 2371,
      "time_per_iteration": 2.633323907852173
    },
    {
      "auxiliary_loss_clip": 0.0112838,
      "auxiliary_loss_mlp": 0.01025551,
      "balance_loss_clip": 1.06169188,
      "balance_loss_mlp": 1.01926589,
      "epoch": 0.28521613659592376,
      "flos": 19976874906240.0,
      "grad_norm": 2.2911862566605006,
      "language_loss": 0.73469812,
      "learning_rate": 3.3549250652539134e-06,
      "loss": 0.75623739,
      "num_input_tokens_seen": 50838935,
      "step": 2372,
      "time_per_iteration": 2.566709280014038
    },
    {
      "auxiliary_loss_clip": 0.01115325,
      "auxiliary_loss_mlp": 0.01023053,
      "balance_loss_clip": 1.05890989,
      "balance_loss_mlp": 1.01621079,
      "epoch": 0.2853363794865629,
      "flos": 23370226531200.0,
      "grad_norm": 2.090286055442567,
      "language_loss": 0.81539345,
      "learning_rate": 3.3543519842292794e-06,
      "loss": 0.83677721,
      "num_input_tokens_seen": 50858590,
      "step": 2373,
      "time_per_iteration": 2.6232547760009766
    },
    {
      "auxiliary_loss_clip": 0.01141065,
      "auxiliary_loss_mlp": 0.00757134,
      "balance_loss_clip": 1.06374264,
      "balance_loss_mlp": 1.00133157,
      "epoch": 0.28545662237720193,
      "flos": 19863810956160.0,
      "grad_norm": 2.2276471917056,
      "language_loss": 0.83730483,
      "learning_rate": 3.353778697750527e-06,
      "loss": 0.85628682,
      "num_input_tokens_seen": 50876995,
      "step": 2374,
      "time_per_iteration": 2.5050837993621826
    },
    {
      "auxiliary_loss_clip": 0.01091936,
      "auxiliary_loss_mlp": 0.0102157,
      "balance_loss_clip": 1.04175401,
      "balance_loss_mlp": 1.01462924,
      "epoch": 0.28557686526784104,
      "flos": 23881313376000.0,
      "grad_norm": 1.8412737044904188,
      "language_loss": 0.89795399,
      "learning_rate": 3.353205205904622e-06,
      "loss": 0.91908908,
      "num_input_tokens_seen": 50896105,
      "step": 2375,
      "time_per_iteration": 2.631891965866089
    },
    {
      "auxiliary_loss_clip": 0.01109023,
      "auxiliary_loss_mlp": 0.0102236,
      "balance_loss_clip": 1.05714834,
      "balance_loss_mlp": 1.01578593,
      "epoch": 0.28569710815848015,
      "flos": 44893605432960.0,
      "grad_norm": 2.351830572307404,
      "language_loss": 0.71722245,
      "learning_rate": 3.3526315087785637e-06,
      "loss": 0.73853624,
      "num_input_tokens_seen": 50917220,
      "step": 2376,
      "time_per_iteration": 2.7640185356140137
    },
    {
      "auxiliary_loss_clip": 0.01056283,
      "auxiliary_loss_mlp": 0.01024431,
      "balance_loss_clip": 1.03533423,
      "balance_loss_mlp": 1.01806498,
      "epoch": 0.2858173510491192,
      "flos": 26831964556800.0,
      "grad_norm": 1.7076381690433537,
      "language_loss": 0.80899179,
      "learning_rate": 3.3520576064593805e-06,
      "loss": 0.82979888,
      "num_input_tokens_seen": 50937175,
      "step": 2377,
      "time_per_iteration": 2.694350481033325
    },
    {
      "auxiliary_loss_clip": 0.01128745,
      "auxiliary_loss_mlp": 0.01019888,
      "balance_loss_clip": 1.06185913,
      "balance_loss_mlp": 1.01328731,
      "epoch": 0.2859375939397583,
      "flos": 23151151393920.0,
      "grad_norm": 1.6246433449626645,
      "language_loss": 0.81904346,
      "learning_rate": 3.3514834990341337e-06,
      "loss": 0.84052974,
      "num_input_tokens_seen": 50957500,
      "step": 2378,
      "time_per_iteration": 2.5479257106781006
    },
    {
      "auxiliary_loss_clip": 0.01114061,
      "auxiliary_loss_mlp": 0.01024894,
      "balance_loss_clip": 1.05767751,
      "balance_loss_mlp": 1.01844192,
      "epoch": 0.2860578368303974,
      "flos": 12131396968320.0,
      "grad_norm": 2.475544873155003,
      "language_loss": 0.9289642,
      "learning_rate": 3.3509091865899144e-06,
      "loss": 0.95035374,
      "num_input_tokens_seen": 50972690,
      "step": 2379,
      "time_per_iteration": 2.5736515522003174
    },
    {
      "auxiliary_loss_clip": 0.01139169,
      "auxiliary_loss_mlp": 0.0102268,
      "balance_loss_clip": 1.06160593,
      "balance_loss_mlp": 1.0159626,
      "epoch": 0.2861780797210365,
      "flos": 19940084317440.0,
      "grad_norm": 2.2846561369104177,
      "language_loss": 0.70939255,
      "learning_rate": 3.350334669213846e-06,
      "loss": 0.73101109,
      "num_input_tokens_seen": 50990095,
      "step": 2380,
      "time_per_iteration": 2.50219464302063
    },
    {
      "auxiliary_loss_clip": 0.01127897,
      "auxiliary_loss_mlp": 0.01025913,
      "balance_loss_clip": 1.06372976,
      "balance_loss_mlp": 1.01971698,
      "epoch": 0.2862983226116756,
      "flos": 27565577084160.0,
      "grad_norm": 2.7355000635088853,
      "language_loss": 0.76350486,
      "learning_rate": 3.3497599469930816e-06,
      "loss": 0.78504294,
      "num_input_tokens_seen": 51008305,
      "step": 2381,
      "time_per_iteration": 2.6284661293029785
    },
    {
      "auxiliary_loss_clip": 0.01138829,
      "auxiliary_loss_mlp": 0.0102068,
      "balance_loss_clip": 1.06158447,
      "balance_loss_mlp": 1.01391506,
      "epoch": 0.28641856550231465,
      "flos": 22056116970240.0,
      "grad_norm": 3.2013307405006604,
      "language_loss": 0.83191121,
      "learning_rate": 3.349185020014807e-06,
      "loss": 0.85350633,
      "num_input_tokens_seen": 51025570,
      "step": 2382,
      "time_per_iteration": 2.503122568130493
    },
    {
      "auxiliary_loss_clip": 0.01130305,
      "auxiliary_loss_mlp": 0.01023878,
      "balance_loss_clip": 1.06304765,
      "balance_loss_mlp": 1.01759863,
      "epoch": 0.28653880839295376,
      "flos": 22380748277760.0,
      "grad_norm": 2.248570537731754,
      "language_loss": 0.75141728,
      "learning_rate": 3.348609888366237e-06,
      "loss": 0.77295911,
      "num_input_tokens_seen": 51044585,
      "step": 2383,
      "time_per_iteration": 2.587477922439575
    },
    {
      "auxiliary_loss_clip": 0.0106932,
      "auxiliary_loss_mlp": 0.01022846,
      "balance_loss_clip": 1.05471277,
      "balance_loss_mlp": 1.01575875,
      "epoch": 0.28665905128359287,
      "flos": 23370226531200.0,
      "grad_norm": 2.7650823219293517,
      "language_loss": 0.63252831,
      "learning_rate": 3.348034552134619e-06,
      "loss": 0.65344989,
      "num_input_tokens_seen": 51063990,
      "step": 2384,
      "time_per_iteration": 2.66715407371521
    },
    {
      "auxiliary_loss_clip": 0.01080219,
      "auxiliary_loss_mlp": 0.01026766,
      "balance_loss_clip": 1.05726075,
      "balance_loss_mlp": 1.02008438,
      "epoch": 0.2867792941742319,
      "flos": 20883519970560.0,
      "grad_norm": 2.167545387406493,
      "language_loss": 0.84512949,
      "learning_rate": 3.3474590114072316e-06,
      "loss": 0.86619931,
      "num_input_tokens_seen": 51081990,
      "step": 2385,
      "time_per_iteration": 2.67368483543396
    },
    {
      "auxiliary_loss_clip": 0.01094008,
      "auxiliary_loss_mlp": 0.01027234,
      "balance_loss_clip": 1.05623579,
      "balance_loss_mlp": 1.02033806,
      "epoch": 0.28689953706487104,
      "flos": 20665885720320.0,
      "grad_norm": 1.8600328084000999,
      "language_loss": 0.83228707,
      "learning_rate": 3.3468832662713836e-06,
      "loss": 0.85349953,
      "num_input_tokens_seen": 51100235,
      "step": 2386,
      "time_per_iteration": 2.589972734451294
    },
    {
      "auxiliary_loss_clip": 0.01094591,
      "auxiliary_loss_mlp": 0.01026557,
      "balance_loss_clip": 1.05603933,
      "balance_loss_mlp": 1.0197978,
      "epoch": 0.28701977995551015,
      "flos": 12677075153280.0,
      "grad_norm": 2.474399851255264,
      "language_loss": 0.83814061,
      "learning_rate": 3.346307316814415e-06,
      "loss": 0.85935211,
      "num_input_tokens_seen": 51115405,
      "step": 2387,
      "time_per_iteration": 2.627006769180298
    },
    {
      "auxiliary_loss_clip": 0.01116587,
      "auxiliary_loss_mlp": 0.01023211,
      "balance_loss_clip": 1.05732322,
      "balance_loss_mlp": 1.01606464,
      "epoch": 0.2871400228461492,
      "flos": 21254535141120.0,
      "grad_norm": 2.820435021412337,
      "language_loss": 0.75925958,
      "learning_rate": 3.3457311631236965e-06,
      "loss": 0.78065759,
      "num_input_tokens_seen": 51136390,
      "step": 2388,
      "time_per_iteration": 2.544682741165161
    },
    {
      "auxiliary_loss_clip": 0.01113018,
      "auxiliary_loss_mlp": 0.01022088,
      "balance_loss_clip": 1.05883861,
      "balance_loss_mlp": 1.01544511,
      "epoch": 0.2872602657367883,
      "flos": 25121614250880.0,
      "grad_norm": 1.804091613902037,
      "language_loss": 0.84671056,
      "learning_rate": 3.345154805286631e-06,
      "loss": 0.86806166,
      "num_input_tokens_seen": 51156650,
      "step": 2389,
      "time_per_iteration": 2.647782802581787
    },
    {
      "auxiliary_loss_clip": 0.01127737,
      "auxiliary_loss_mlp": 0.01026673,
      "balance_loss_clip": 1.06020212,
      "balance_loss_mlp": 1.01982129,
      "epoch": 0.2873805086274274,
      "flos": 16648042037760.0,
      "grad_norm": 2.3294029561289142,
      "language_loss": 0.76597124,
      "learning_rate": 3.344578243390651e-06,
      "loss": 0.78751534,
      "num_input_tokens_seen": 51172210,
      "step": 2390,
      "time_per_iteration": 2.5123724937438965
    },
    {
      "auxiliary_loss_clip": 0.01110249,
      "auxiliary_loss_mlp": 0.01022581,
      "balance_loss_clip": 1.06058931,
      "balance_loss_mlp": 1.01575625,
      "epoch": 0.2875007515180665,
      "flos": 17422009453440.0,
      "grad_norm": 2.5553966779808737,
      "language_loss": 0.78201306,
      "learning_rate": 3.3440014775232206e-06,
      "loss": 0.80334139,
      "num_input_tokens_seen": 51190265,
      "step": 2391,
      "time_per_iteration": 4.0477540493011475
    },
    {
      "auxiliary_loss_clip": 0.01080532,
      "auxiliary_loss_mlp": 0.01023412,
      "balance_loss_clip": 1.04102445,
      "balance_loss_mlp": 1.01720715,
      "epoch": 0.2876209944087056,
      "flos": 23436072420480.0,
      "grad_norm": 5.331587118267752,
      "language_loss": 0.71247232,
      "learning_rate": 3.343424507771834e-06,
      "loss": 0.73351169,
      "num_input_tokens_seen": 51208475,
      "step": 2392,
      "time_per_iteration": 4.11175799369812
    },
    {
      "auxiliary_loss_clip": 0.01097699,
      "auxiliary_loss_mlp": 0.01021341,
      "balance_loss_clip": 1.05646253,
      "balance_loss_mlp": 1.01512766,
      "epoch": 0.2877412372993447,
      "flos": 13737214892160.0,
      "grad_norm": 2.8287220883315425,
      "language_loss": 0.86606371,
      "learning_rate": 3.342847334224018e-06,
      "loss": 0.88725412,
      "num_input_tokens_seen": 51225875,
      "step": 2393,
      "time_per_iteration": 2.6197316646575928
    },
    {
      "auxiliary_loss_clip": 0.01160055,
      "auxiliary_loss_mlp": 0.01004881,
      "balance_loss_clip": 1.12060738,
      "balance_loss_mlp": 1.00188851,
      "epoch": 0.28786148018998375,
      "flos": 58086686730240.0,
      "grad_norm": 0.964462177933789,
      "language_loss": 0.62339067,
      "learning_rate": 3.342269956967329e-06,
      "loss": 0.64504004,
      "num_input_tokens_seen": 51287780,
      "step": 2394,
      "time_per_iteration": 3.1940829753875732
    },
    {
      "auxiliary_loss_clip": 0.01125696,
      "auxiliary_loss_mlp": 0.01025268,
      "balance_loss_clip": 1.05928767,
      "balance_loss_mlp": 1.01774597,
      "epoch": 0.28798172308062286,
      "flos": 23436982454400.0,
      "grad_norm": 3.2289947063158775,
      "language_loss": 0.7191031,
      "learning_rate": 3.341692376089355e-06,
      "loss": 0.7406128,
      "num_input_tokens_seen": 51303335,
      "step": 2395,
      "time_per_iteration": 2.605297088623047
    },
    {
      "auxiliary_loss_clip": 0.01123076,
      "auxiliary_loss_mlp": 0.01026112,
      "balance_loss_clip": 1.06014287,
      "balance_loss_mlp": 1.0196476,
      "epoch": 0.288101965971262,
      "flos": 25111869304320.0,
      "grad_norm": 3.8611245336615,
      "language_loss": 0.84623921,
      "learning_rate": 3.3411145916777146e-06,
      "loss": 0.86773109,
      "num_input_tokens_seen": 51317495,
      "step": 2396,
      "time_per_iteration": 2.540764570236206
    },
    {
      "auxiliary_loss_clip": 0.01118797,
      "auxiliary_loss_mlp": 0.01023868,
      "balance_loss_clip": 1.06201673,
      "balance_loss_mlp": 1.01681924,
      "epoch": 0.28822220886190103,
      "flos": 16254379722240.0,
      "grad_norm": 2.715053193184791,
      "language_loss": 0.91159385,
      "learning_rate": 3.3405366038200566e-06,
      "loss": 0.93302047,
      "num_input_tokens_seen": 51336430,
      "step": 2397,
      "time_per_iteration": 2.589120626449585
    },
    {
      "auxiliary_loss_clip": 0.01111062,
      "auxiliary_loss_mlp": 0.01030465,
      "balance_loss_clip": 1.05977726,
      "balance_loss_mlp": 1.02334213,
      "epoch": 0.28834245175254014,
      "flos": 24537970016640.0,
      "grad_norm": 2.5320876793709823,
      "language_loss": 0.85135877,
      "learning_rate": 3.3399584126040617e-06,
      "loss": 0.872774,
      "num_input_tokens_seen": 51355930,
      "step": 2398,
      "time_per_iteration": 2.5907857418060303
    },
    {
      "auxiliary_loss_clip": 0.0113604,
      "auxiliary_loss_mlp": 0.00756943,
      "balance_loss_clip": 1.05936313,
      "balance_loss_mlp": 1.00130606,
      "epoch": 0.2884626946431792,
      "flos": 24573736817280.0,
      "grad_norm": 2.2954628705309257,
      "language_loss": 0.91001129,
      "learning_rate": 3.339380018117441e-06,
      "loss": 0.92894113,
      "num_input_tokens_seen": 51376765,
      "step": 2399,
      "time_per_iteration": 2.593090295791626
    },
    {
      "auxiliary_loss_clip": 0.01103027,
      "auxiliary_loss_mlp": 0.01022849,
      "balance_loss_clip": 1.04396009,
      "balance_loss_mlp": 1.01618254,
      "epoch": 0.2885829375338183,
      "flos": 16546505184000.0,
      "grad_norm": 3.2502214611629134,
      "language_loss": 0.7866255,
      "learning_rate": 3.3388014204479366e-06,
      "loss": 0.80788434,
      "num_input_tokens_seen": 51394570,
      "step": 2400,
      "time_per_iteration": 2.503256320953369
    },
    {
      "auxiliary_loss_clip": 0.01137257,
      "auxiliary_loss_mlp": 0.01023083,
      "balance_loss_clip": 1.05960774,
      "balance_loss_mlp": 1.01650548,
      "epoch": 0.2887031804244574,
      "flos": 24063522088320.0,
      "grad_norm": 2.1222980831365703,
      "language_loss": 0.92042214,
      "learning_rate": 3.338222619683321e-06,
      "loss": 0.94202554,
      "num_input_tokens_seen": 51414535,
      "step": 2401,
      "time_per_iteration": 2.578331232070923
    },
    {
      "auxiliary_loss_clip": 0.01106675,
      "auxiliary_loss_mlp": 0.01024791,
      "balance_loss_clip": 1.05294132,
      "balance_loss_mlp": 1.01810634,
      "epoch": 0.2888234233150965,
      "flos": 23332905089280.0,
      "grad_norm": 3.524548780971765,
      "language_loss": 0.73542494,
      "learning_rate": 3.337643615911398e-06,
      "loss": 0.75673962,
      "num_input_tokens_seen": 51434160,
      "step": 2402,
      "time_per_iteration": 2.571437358856201
    },
    {
      "auxiliary_loss_clip": 0.01126039,
      "auxiliary_loss_mlp": 0.01019118,
      "balance_loss_clip": 1.06043231,
      "balance_loss_mlp": 1.01215601,
      "epoch": 0.2889436662057356,
      "flos": 22274926680960.0,
      "grad_norm": 2.2626475285673733,
      "language_loss": 0.79019499,
      "learning_rate": 3.3370644092200026e-06,
      "loss": 0.81164652,
      "num_input_tokens_seen": 51451435,
      "step": 2403,
      "time_per_iteration": 2.6005401611328125
    },
    {
      "auxiliary_loss_clip": 0.01102806,
      "auxiliary_loss_mlp": 0.0102312,
      "balance_loss_clip": 1.05836129,
      "balance_loss_mlp": 1.01643193,
      "epoch": 0.2890639090963747,
      "flos": 21619104238080.0,
      "grad_norm": 2.285594700091153,
      "language_loss": 0.78579402,
      "learning_rate": 3.3364849996969985e-06,
      "loss": 0.80705333,
      "num_input_tokens_seen": 51471455,
      "step": 2404,
      "time_per_iteration": 2.603860378265381
    },
    {
      "auxiliary_loss_clip": 0.0112124,
      "auxiliary_loss_mlp": 0.01024764,
      "balance_loss_clip": 1.05701625,
      "balance_loss_mlp": 1.0183177,
      "epoch": 0.28918415198701375,
      "flos": 28588092036480.0,
      "grad_norm": 2.037506331558035,
      "language_loss": 0.85865611,
      "learning_rate": 3.335905387430283e-06,
      "loss": 0.88011611,
      "num_input_tokens_seen": 51492890,
      "step": 2405,
      "time_per_iteration": 2.6320619583129883
    },
    {
      "auxiliary_loss_clip": 0.01110857,
      "auxiliary_loss_mlp": 0.01021129,
      "balance_loss_clip": 1.05524242,
      "balance_loss_mlp": 1.01442361,
      "epoch": 0.28930439487765286,
      "flos": 21946844828160.0,
      "grad_norm": 1.889173014283213,
      "language_loss": 0.82992107,
      "learning_rate": 3.335325572507782e-06,
      "loss": 0.85124099,
      "num_input_tokens_seen": 51513390,
      "step": 2406,
      "time_per_iteration": 2.5985307693481445
    },
    {
      "auxiliary_loss_clip": 0.01141592,
      "auxiliary_loss_mlp": 0.00757218,
      "balance_loss_clip": 1.06562471,
      "balance_loss_mlp": 1.00141108,
      "epoch": 0.28942463776829197,
      "flos": 19283958529920.0,
      "grad_norm": 1.7589260888796883,
      "language_loss": 0.74169409,
      "learning_rate": 3.3347455550174537e-06,
      "loss": 0.76068217,
      "num_input_tokens_seen": 51532730,
      "step": 2407,
      "time_per_iteration": 2.5534133911132812
    },
    {
      "auxiliary_loss_clip": 0.01099923,
      "auxiliary_loss_mlp": 0.01023731,
      "balance_loss_clip": 1.05535126,
      "balance_loss_mlp": 1.01667118,
      "epoch": 0.289544880658931,
      "flos": 14647348419840.0,
      "grad_norm": 2.4838070107563666,
      "language_loss": 0.6803689,
      "learning_rate": 3.3341653350472864e-06,
      "loss": 0.70160544,
      "num_input_tokens_seen": 51549560,
      "step": 2408,
      "time_per_iteration": 2.5586230754852295
    },
    {
      "auxiliary_loss_clip": 0.01134997,
      "auxiliary_loss_mlp": 0.01023315,
      "balance_loss_clip": 1.05590057,
      "balance_loss_mlp": 1.01579881,
      "epoch": 0.28966512354957014,
      "flos": 28624427608320.0,
      "grad_norm": 2.717331579559942,
      "language_loss": 0.69317776,
      "learning_rate": 3.333584912685298e-06,
      "loss": 0.71476084,
      "num_input_tokens_seen": 51568180,
      "step": 2409,
      "time_per_iteration": 2.5879197120666504
    },
    {
      "auxiliary_loss_clip": 0.01122399,
      "auxiliary_loss_mlp": 0.01003388,
      "balance_loss_clip": 1.10607374,
      "balance_loss_mlp": 1.00046718,
      "epoch": 0.28978536644020925,
      "flos": 64718681927040.0,
      "grad_norm": 0.8945468946859297,
      "language_loss": 0.55581832,
      "learning_rate": 3.3330042880195385e-06,
      "loss": 0.5770762,
      "num_input_tokens_seen": 51622530,
      "step": 2410,
      "time_per_iteration": 3.191770076751709
    },
    {
      "auxiliary_loss_clip": 0.0109132,
      "auxiliary_loss_mlp": 0.01019814,
      "balance_loss_clip": 1.04081082,
      "balance_loss_mlp": 1.01370192,
      "epoch": 0.2899056093308483,
      "flos": 18626619363840.0,
      "grad_norm": 3.0668123603370976,
      "language_loss": 0.78508806,
      "learning_rate": 3.3324234611380888e-06,
      "loss": 0.80619937,
      "num_input_tokens_seen": 51641260,
      "step": 2411,
      "time_per_iteration": 2.6088600158691406
    },
    {
      "auxiliary_loss_clip": 0.01085657,
      "auxiliary_loss_mlp": 0.01024421,
      "balance_loss_clip": 1.05138898,
      "balance_loss_mlp": 1.01779938,
      "epoch": 0.2900258522214874,
      "flos": 22895968193280.0,
      "grad_norm": 2.0605125307001884,
      "language_loss": 0.81530118,
      "learning_rate": 3.3318424321290596e-06,
      "loss": 0.83640194,
      "num_input_tokens_seen": 51660975,
      "step": 2412,
      "time_per_iteration": 2.628063440322876
    },
    {
      "auxiliary_loss_clip": 0.01097552,
      "auxiliary_loss_mlp": 0.01010083,
      "balance_loss_clip": 1.08871996,
      "balance_loss_mlp": 1.00741291,
      "epoch": 0.2901460951121265,
      "flos": 71111770830720.0,
      "grad_norm": 0.8396158956532292,
      "language_loss": 0.59947157,
      "learning_rate": 3.3312612010805917e-06,
      "loss": 0.62054795,
      "num_input_tokens_seen": 51720550,
      "step": 2413,
      "time_per_iteration": 3.2609102725982666
    },
    {
      "auxiliary_loss_clip": 0.01098559,
      "auxiliary_loss_mlp": 0.01023823,
      "balance_loss_clip": 1.04904771,
      "balance_loss_mlp": 1.0173291,
      "epoch": 0.2902663380027656,
      "flos": 32163728209920.0,
      "grad_norm": 1.6850728248235314,
      "language_loss": 0.70058566,
      "learning_rate": 3.330679768080858e-06,
      "loss": 0.72180951,
      "num_input_tokens_seen": 51744435,
      "step": 2414,
      "time_per_iteration": 2.6693146228790283
    },
    {
      "auxiliary_loss_clip": 0.01118555,
      "auxiliary_loss_mlp": 0.01025047,
      "balance_loss_clip": 1.05637324,
      "balance_loss_mlp": 1.01830244,
      "epoch": 0.2903865808934047,
      "flos": 29354248327680.0,
      "grad_norm": 2.5132533101186967,
      "language_loss": 0.83495122,
      "learning_rate": 3.3300981332180627e-06,
      "loss": 0.85638726,
      "num_input_tokens_seen": 51763640,
      "step": 2415,
      "time_per_iteration": 2.633713483810425
    },
    {
      "auxiliary_loss_clip": 0.01096395,
      "auxiliary_loss_mlp": 0.01019261,
      "balance_loss_clip": 1.05327713,
      "balance_loss_mlp": 1.01297569,
      "epoch": 0.29050682378404374,
      "flos": 17090742481920.0,
      "grad_norm": 3.8273862371773153,
      "language_loss": 0.80314058,
      "learning_rate": 3.3295162965804373e-06,
      "loss": 0.82429719,
      "num_input_tokens_seen": 51782135,
      "step": 2416,
      "time_per_iteration": 2.5938355922698975
    },
    {
      "auxiliary_loss_clip": 0.01092139,
      "auxiliary_loss_mlp": 0.01021576,
      "balance_loss_clip": 1.05480719,
      "balance_loss_mlp": 1.01518309,
      "epoch": 0.29062706667468285,
      "flos": 17860159728000.0,
      "grad_norm": 2.3699581101679232,
      "language_loss": 0.79227507,
      "learning_rate": 3.328934258256247e-06,
      "loss": 0.81341219,
      "num_input_tokens_seen": 51800200,
      "step": 2417,
      "time_per_iteration": 4.13897967338562
    },
    {
      "auxiliary_loss_clip": 0.01120096,
      "auxiliary_loss_mlp": 0.0102188,
      "balance_loss_clip": 1.05471373,
      "balance_loss_mlp": 1.014781,
      "epoch": 0.29074730956532197,
      "flos": 24282104290560.0,
      "grad_norm": 2.1241269817945274,
      "language_loss": 0.6712116,
      "learning_rate": 3.3283520183337856e-06,
      "loss": 0.6926313,
      "num_input_tokens_seen": 51819905,
      "step": 2418,
      "time_per_iteration": 4.107825517654419
    },
    {
      "auxiliary_loss_clip": 0.01095431,
      "auxiliary_loss_mlp": 0.01022777,
      "balance_loss_clip": 1.04879713,
      "balance_loss_mlp": 1.0159905,
      "epoch": 0.290867552455961,
      "flos": 22342858064640.0,
      "grad_norm": 2.205811236140124,
      "language_loss": 0.69255292,
      "learning_rate": 3.3277695769013797e-06,
      "loss": 0.71373498,
      "num_input_tokens_seen": 51839350,
      "step": 2419,
      "time_per_iteration": 2.6158065795898438
    },
    {
      "auxiliary_loss_clip": 0.01120921,
      "auxiliary_loss_mlp": 0.01021148,
      "balance_loss_clip": 1.05608296,
      "balance_loss_mlp": 1.01460946,
      "epoch": 0.29098779534660013,
      "flos": 23188434917760.0,
      "grad_norm": 2.023489924051242,
      "language_loss": 0.77533209,
      "learning_rate": 3.327186934047385e-06,
      "loss": 0.79675281,
      "num_input_tokens_seen": 51858045,
      "step": 2420,
      "time_per_iteration": 2.556126356124878
    },
    {
      "auxiliary_loss_clip": 0.01113452,
      "auxiliary_loss_mlp": 0.01026428,
      "balance_loss_clip": 1.05681944,
      "balance_loss_mlp": 1.01984513,
      "epoch": 0.29110803823723924,
      "flos": 15305976800640.0,
      "grad_norm": 2.2993628348739708,
      "language_loss": 0.65890431,
      "learning_rate": 3.3266040898601877e-06,
      "loss": 0.6803031,
      "num_input_tokens_seen": 51875880,
      "step": 2421,
      "time_per_iteration": 2.57242751121521
    },
    {
      "auxiliary_loss_clip": 0.01092711,
      "auxiliary_loss_mlp": 0.01025278,
      "balance_loss_clip": 1.05646384,
      "balance_loss_mlp": 1.01851904,
      "epoch": 0.2912282811278783,
      "flos": 22597207067520.0,
      "grad_norm": 1.9733849753167967,
      "language_loss": 0.77966559,
      "learning_rate": 3.3260210444282045e-06,
      "loss": 0.8008455,
      "num_input_tokens_seen": 51893835,
      "step": 2422,
      "time_per_iteration": 2.6496782302856445
    },
    {
      "auxiliary_loss_clip": 0.01116381,
      "auxiliary_loss_mlp": 0.01025384,
      "balance_loss_clip": 1.05905473,
      "balance_loss_mlp": 1.01905417,
      "epoch": 0.2913485240185174,
      "flos": 24500155639680.0,
      "grad_norm": 2.402135474837001,
      "language_loss": 0.73184991,
      "learning_rate": 3.325437797839883e-06,
      "loss": 0.75326753,
      "num_input_tokens_seen": 51912205,
      "step": 2423,
      "time_per_iteration": 2.5829432010650635
    },
    {
      "auxiliary_loss_clip": 0.01134302,
      "auxiliary_loss_mlp": 0.01023168,
      "balance_loss_clip": 1.05743444,
      "balance_loss_mlp": 1.01636386,
      "epoch": 0.2914687669091565,
      "flos": 17932944625920.0,
      "grad_norm": 4.174616531409686,
      "language_loss": 0.74619675,
      "learning_rate": 3.3248543501837015e-06,
      "loss": 0.76777142,
      "num_input_tokens_seen": 51929410,
      "step": 2424,
      "time_per_iteration": 2.484426498413086
    },
    {
      "auxiliary_loss_clip": 0.01083538,
      "auxiliary_loss_mlp": 0.01025422,
      "balance_loss_clip": 1.05364251,
      "balance_loss_mlp": 1.01849318,
      "epoch": 0.2915890097997956,
      "flos": 22531550768640.0,
      "grad_norm": 2.133047818407643,
      "language_loss": 0.77427793,
      "learning_rate": 3.3242707015481684e-06,
      "loss": 0.79536754,
      "num_input_tokens_seen": 51949345,
      "step": 2425,
      "time_per_iteration": 2.6386749744415283
    },
    {
      "auxiliary_loss_clip": 0.01110915,
      "auxiliary_loss_mlp": 0.01022931,
      "balance_loss_clip": 1.05562687,
      "balance_loss_mlp": 1.01686072,
      "epoch": 0.2917092526904347,
      "flos": 13846942051200.0,
      "grad_norm": 1.8944933782034867,
      "language_loss": 0.80896455,
      "learning_rate": 3.323686852021823e-06,
      "loss": 0.83030307,
      "num_input_tokens_seen": 51966855,
      "step": 2426,
      "time_per_iteration": 2.570448875427246
    },
    {
      "auxiliary_loss_clip": 0.01096222,
      "auxiliary_loss_mlp": 0.01023185,
      "balance_loss_clip": 1.05301189,
      "balance_loss_mlp": 1.01634884,
      "epoch": 0.2918294955810738,
      "flos": 22677082646400.0,
      "grad_norm": 4.314115575114216,
      "language_loss": 0.79472566,
      "learning_rate": 3.323102801693235e-06,
      "loss": 0.81591976,
      "num_input_tokens_seen": 51985620,
      "step": 2427,
      "time_per_iteration": 2.6264243125915527
    },
    {
      "auxiliary_loss_clip": 0.01123768,
      "auxiliary_loss_mlp": 0.01023179,
      "balance_loss_clip": 1.05729628,
      "balance_loss_mlp": 1.01646161,
      "epoch": 0.29194973847171285,
      "flos": 23440395081600.0,
      "grad_norm": 2.492020171179929,
      "language_loss": 0.80951434,
      "learning_rate": 3.322518550651003e-06,
      "loss": 0.83098382,
      "num_input_tokens_seen": 52004930,
      "step": 2428,
      "time_per_iteration": 2.5746359825134277
    },
    {
      "auxiliary_loss_clip": 0.0111137,
      "auxiliary_loss_mlp": 0.01027853,
      "balance_loss_clip": 1.05490732,
      "balance_loss_mlp": 1.02112055,
      "epoch": 0.29206998136235196,
      "flos": 21911267617920.0,
      "grad_norm": 1.752537342908597,
      "language_loss": 0.81572258,
      "learning_rate": 3.3219340989837586e-06,
      "loss": 0.83711481,
      "num_input_tokens_seen": 52024920,
      "step": 2429,
      "time_per_iteration": 2.5790579319000244
    },
    {
      "auxiliary_loss_clip": 0.01105574,
      "auxiliary_loss_mlp": 0.01024253,
      "balance_loss_clip": 1.05354989,
      "balance_loss_mlp": 1.01790249,
      "epoch": 0.292190224252991,
      "flos": 23217831480960.0,
      "grad_norm": 1.8339395449880629,
      "language_loss": 0.80362862,
      "learning_rate": 3.3213494467801625e-06,
      "loss": 0.82492697,
      "num_input_tokens_seen": 52044095,
      "step": 2430,
      "time_per_iteration": 2.6001501083374023
    },
    {
      "auxiliary_loss_clip": 0.01061654,
      "auxiliary_loss_mlp": 0.01021634,
      "balance_loss_clip": 1.05088866,
      "balance_loss_mlp": 1.01472592,
      "epoch": 0.2923104671436301,
      "flos": 20742917443200.0,
      "grad_norm": 2.059179324853453,
      "language_loss": 0.72118688,
      "learning_rate": 3.3207645941289063e-06,
      "loss": 0.74201977,
      "num_input_tokens_seen": 52062440,
      "step": 2431,
      "time_per_iteration": 2.7300007343292236
    },
    {
      "auxiliary_loss_clip": 0.01117569,
      "auxiliary_loss_mlp": 0.00757372,
      "balance_loss_clip": 1.05493605,
      "balance_loss_mlp": 1.00148511,
      "epoch": 0.29243071003426924,
      "flos": 35812035527040.0,
      "grad_norm": 1.8490699985930208,
      "language_loss": 0.80329692,
      "learning_rate": 3.320179541118711e-06,
      "loss": 0.82204628,
      "num_input_tokens_seen": 52084940,
      "step": 2432,
      "time_per_iteration": 3.0868194103240967
    },
    {
      "auxiliary_loss_clip": 0.01144232,
      "auxiliary_loss_mlp": 0.01014289,
      "balance_loss_clip": 1.10664535,
      "balance_loss_mlp": 1.01189291,
      "epoch": 0.2925509529249083,
      "flos": 58088696388480.0,
      "grad_norm": 1.0069127376862128,
      "language_loss": 0.60309088,
      "learning_rate": 3.3195942878383293e-06,
      "loss": 0.62467611,
      "num_input_tokens_seen": 52141040,
      "step": 2433,
      "time_per_iteration": 3.1882293224334717
    },
    {
      "auxiliary_loss_clip": 0.01119132,
      "auxiliary_loss_mlp": 0.01023579,
      "balance_loss_clip": 1.05480385,
      "balance_loss_mlp": 1.01628304,
      "epoch": 0.2926711958155474,
      "flos": 21399232821120.0,
      "grad_norm": 2.147004254257356,
      "language_loss": 0.7849474,
      "learning_rate": 3.319008834376543e-06,
      "loss": 0.80637455,
      "num_input_tokens_seen": 52160730,
      "step": 2434,
      "time_per_iteration": 2.5950098037719727
    },
    {
      "auxiliary_loss_clip": 0.01096228,
      "auxiliary_loss_mlp": 0.01019481,
      "balance_loss_clip": 1.04983854,
      "balance_loss_mlp": 1.013026,
      "epoch": 0.2927914387061865,
      "flos": 23188055736960.0,
      "grad_norm": 2.3030003127945857,
      "language_loss": 0.88900483,
      "learning_rate": 3.3184231808221654e-06,
      "loss": 0.91016197,
      "num_input_tokens_seen": 52175055,
      "step": 2435,
      "time_per_iteration": 2.6436192989349365
    },
    {
      "auxiliary_loss_clip": 0.01093633,
      "auxiliary_loss_mlp": 0.01027222,
      "balance_loss_clip": 1.05843174,
      "balance_loss_mlp": 1.02020049,
      "epoch": 0.29291168159682557,
      "flos": 22457742082560.0,
      "grad_norm": 2.2417012844809148,
      "language_loss": 0.63118708,
      "learning_rate": 3.3178373272640394e-06,
      "loss": 0.65239561,
      "num_input_tokens_seen": 52194150,
      "step": 2436,
      "time_per_iteration": 2.6179652214050293
    },
    {
      "auxiliary_loss_clip": 0.01133436,
      "auxiliary_loss_mlp": 0.01028193,
      "balance_loss_clip": 1.0575912,
      "balance_loss_mlp": 1.02179754,
      "epoch": 0.2930319244874647,
      "flos": 21172308641280.0,
      "grad_norm": 2.3201641599150675,
      "language_loss": 0.84938347,
      "learning_rate": 3.3172512737910387e-06,
      "loss": 0.87099981,
      "num_input_tokens_seen": 52211660,
      "step": 2437,
      "time_per_iteration": 2.532594919204712
    },
    {
      "auxiliary_loss_clip": 0.01121111,
      "auxiliary_loss_mlp": 0.0102666,
      "balance_loss_clip": 1.05480361,
      "balance_loss_mlp": 1.02018416,
      "epoch": 0.2931521673781038,
      "flos": 31360515903360.0,
      "grad_norm": 2.617498733083234,
      "language_loss": 0.88353503,
      "learning_rate": 3.3166650204920674e-06,
      "loss": 0.90501273,
      "num_input_tokens_seen": 52232830,
      "step": 2438,
      "time_per_iteration": 2.6098880767822266
    },
    {
      "auxiliary_loss_clip": 0.0111859,
      "auxiliary_loss_mlp": 0.01024382,
      "balance_loss_clip": 1.05450726,
      "balance_loss_mlp": 1.01737845,
      "epoch": 0.29327241026874284,
      "flos": 24202949155200.0,
      "grad_norm": 1.6425415807508776,
      "language_loss": 0.82156467,
      "learning_rate": 3.316078567456059e-06,
      "loss": 0.84299433,
      "num_input_tokens_seen": 52250670,
      "step": 2439,
      "time_per_iteration": 2.5797500610351562
    },
    {
      "auxiliary_loss_clip": 0.01066989,
      "auxiliary_loss_mlp": 0.01021614,
      "balance_loss_clip": 1.04905665,
      "balance_loss_mlp": 1.01513791,
      "epoch": 0.29339265315938196,
      "flos": 24244858684800.0,
      "grad_norm": 1.5505107568806877,
      "language_loss": 0.76117224,
      "learning_rate": 3.3154919147719786e-06,
      "loss": 0.78205824,
      "num_input_tokens_seen": 52271685,
      "step": 2440,
      "time_per_iteration": 2.6847856044769287
    },
    {
      "auxiliary_loss_clip": 0.0111888,
      "auxiliary_loss_mlp": 0.0102459,
      "balance_loss_clip": 1.05542231,
      "balance_loss_mlp": 1.01795936,
      "epoch": 0.29351289605002107,
      "flos": 16948547395200.0,
      "grad_norm": 3.0787332932504605,
      "language_loss": 0.86693048,
      "learning_rate": 3.31490506252882e-06,
      "loss": 0.88836515,
      "num_input_tokens_seen": 52291065,
      "step": 2441,
      "time_per_iteration": 2.560025691986084
    },
    {
      "auxiliary_loss_clip": 0.01087658,
      "auxiliary_loss_mlp": 0.01022346,
      "balance_loss_clip": 1.04929483,
      "balance_loss_mlp": 1.01634097,
      "epoch": 0.2936331389406601,
      "flos": 19831153438080.0,
      "grad_norm": 1.9092429618526088,
      "language_loss": 0.84527409,
      "learning_rate": 3.31431801081561e-06,
      "loss": 0.86637414,
      "num_input_tokens_seen": 52310000,
      "step": 2442,
      "time_per_iteration": 3.3510351181030273
    },
    {
      "auxiliary_loss_clip": 0.01074163,
      "auxiliary_loss_mlp": 0.01013529,
      "balance_loss_clip": 1.04987717,
      "balance_loss_mlp": 1.01106191,
      "epoch": 0.29375338183129923,
      "flos": 71423651612160.0,
      "grad_norm": 0.9040208454647293,
      "language_loss": 0.67895138,
      "learning_rate": 3.313730759721402e-06,
      "loss": 0.69982827,
      "num_input_tokens_seen": 52372930,
      "step": 2443,
      "time_per_iteration": 4.836988210678101
    },
    {
      "auxiliary_loss_clip": 0.01102576,
      "auxiliary_loss_mlp": 0.01028141,
      "balance_loss_clip": 1.05297792,
      "balance_loss_mlp": 1.02116132,
      "epoch": 0.29387362472193834,
      "flos": 22056685741440.0,
      "grad_norm": 2.7470869829135,
      "language_loss": 0.86512733,
      "learning_rate": 3.313143309335282e-06,
      "loss": 0.88643456,
      "num_input_tokens_seen": 52391420,
      "step": 2444,
      "time_per_iteration": 3.3766961097717285
    },
    {
      "auxiliary_loss_clip": 0.0108407,
      "auxiliary_loss_mlp": 0.01025624,
      "balance_loss_clip": 1.05002141,
      "balance_loss_mlp": 1.01915669,
      "epoch": 0.2939938676125774,
      "flos": 22968639336960.0,
      "grad_norm": 2.360845750389923,
      "language_loss": 0.84677708,
      "learning_rate": 3.3125556597463665e-06,
      "loss": 0.86787403,
      "num_input_tokens_seen": 52410725,
      "step": 2445,
      "time_per_iteration": 2.5989832878112793
    },
    {
      "auxiliary_loss_clip": 0.01117469,
      "auxiliary_loss_mlp": 0.01025254,
      "balance_loss_clip": 1.05492938,
      "balance_loss_mlp": 1.0191381,
      "epoch": 0.2941141105032165,
      "flos": 31361425937280.0,
      "grad_norm": 1.6273986436115637,
      "language_loss": 0.66294265,
      "learning_rate": 3.311967811043801e-06,
      "loss": 0.68436992,
      "num_input_tokens_seen": 52432645,
      "step": 2446,
      "time_per_iteration": 2.6347148418426514
    },
    {
      "auxiliary_loss_clip": 0.01120682,
      "auxiliary_loss_mlp": 0.01023476,
      "balance_loss_clip": 1.05785131,
      "balance_loss_mlp": 1.01640344,
      "epoch": 0.29423435339385556,
      "flos": 23224391308800.0,
      "grad_norm": 2.144450869464284,
      "language_loss": 0.82078087,
      "learning_rate": 3.3113797633167617e-06,
      "loss": 0.84222245,
      "num_input_tokens_seen": 52450940,
      "step": 2447,
      "time_per_iteration": 2.571864366531372
    },
    {
      "auxiliary_loss_clip": 0.01130759,
      "auxiliary_loss_mlp": 0.01022571,
      "balance_loss_clip": 1.05469942,
      "balance_loss_mlp": 1.01569831,
      "epoch": 0.2943545962844947,
      "flos": 26866138798080.0,
      "grad_norm": 2.5644309151270344,
      "language_loss": 0.69230735,
      "learning_rate": 3.310791516654455e-06,
      "loss": 0.71384066,
      "num_input_tokens_seen": 52468000,
      "step": 2448,
      "time_per_iteration": 2.5338683128356934
    },
    {
      "auxiliary_loss_clip": 0.0109391,
      "auxiliary_loss_mlp": 0.0103363,
      "balance_loss_clip": 1.05021143,
      "balance_loss_mlp": 1.02589381,
      "epoch": 0.2944748391751338,
      "flos": 20233840256640.0,
      "grad_norm": 3.3689656182652183,
      "language_loss": 0.79208744,
      "learning_rate": 3.3102030711461177e-06,
      "loss": 0.81336284,
      "num_input_tokens_seen": 52487575,
      "step": 2449,
      "time_per_iteration": 2.618229866027832
    },
    {
      "auxiliary_loss_clip": 0.01090231,
      "auxiliary_loss_mlp": 0.01020228,
      "balance_loss_clip": 1.04930222,
      "balance_loss_mlp": 1.01349533,
      "epoch": 0.29459508206577284,
      "flos": 15962785113600.0,
      "grad_norm": 1.82103398379223,
      "language_loss": 0.68045539,
      "learning_rate": 3.3096144268810156e-06,
      "loss": 0.70155996,
      "num_input_tokens_seen": 52506335,
      "step": 2450,
      "time_per_iteration": 2.5665464401245117
    },
    {
      "auxiliary_loss_clip": 0.01121476,
      "auxiliary_loss_mlp": 0.01024367,
      "balance_loss_clip": 1.05514765,
      "balance_loss_mlp": 1.01733112,
      "epoch": 0.29471532495641195,
      "flos": 20414987262720.0,
      "grad_norm": 2.039959115729365,
      "language_loss": 0.72947609,
      "learning_rate": 3.3090255839484462e-06,
      "loss": 0.7509346,
      "num_input_tokens_seen": 52524330,
      "step": 2451,
      "time_per_iteration": 2.560514211654663
    },
    {
      "auxiliary_loss_clip": 0.01095149,
      "auxiliary_loss_mlp": 0.01021408,
      "balance_loss_clip": 1.04608679,
      "balance_loss_mlp": 1.0142349,
      "epoch": 0.29483556784705106,
      "flos": 20378689608960.0,
      "grad_norm": 2.174808462523722,
      "language_loss": 0.85610813,
      "learning_rate": 3.3084365424377366e-06,
      "loss": 0.87727368,
      "num_input_tokens_seen": 52543095,
      "step": 2452,
      "time_per_iteration": 2.5548617839813232
    },
    {
      "auxiliary_loss_clip": 0.01096313,
      "auxiliary_loss_mlp": 0.01005904,
      "balance_loss_clip": 1.09800935,
      "balance_loss_mlp": 1.00306642,
      "epoch": 0.2949558107376901,
      "flos": 68561455547520.0,
      "grad_norm": 0.7326026788576583,
      "language_loss": 0.55910945,
      "learning_rate": 3.307847302438245e-06,
      "loss": 0.58013165,
      "num_input_tokens_seen": 52597075,
      "step": 2453,
      "time_per_iteration": 3.0940866470336914
    },
    {
      "auxiliary_loss_clip": 0.01080514,
      "auxiliary_loss_mlp": 0.01022842,
      "balance_loss_clip": 1.04792953,
      "balance_loss_mlp": 1.01551652,
      "epoch": 0.2950760536283292,
      "flos": 16108923680640.0,
      "grad_norm": 3.8006591266355003,
      "language_loss": 0.78226233,
      "learning_rate": 3.3072578640393562e-06,
      "loss": 0.80329585,
      "num_input_tokens_seen": 52614410,
      "step": 2454,
      "time_per_iteration": 2.607541799545288
    },
    {
      "auxiliary_loss_clip": 0.01100591,
      "auxiliary_loss_mlp": 0.0102227,
      "balance_loss_clip": 1.04991519,
      "balance_loss_mlp": 1.01554632,
      "epoch": 0.29519629651896834,
      "flos": 20485610830080.0,
      "grad_norm": 2.508333877264064,
      "language_loss": 0.79786849,
      "learning_rate": 3.3066682273304886e-06,
      "loss": 0.81909704,
      "num_input_tokens_seen": 52632055,
      "step": 2455,
      "time_per_iteration": 2.59983229637146
    },
    {
      "auxiliary_loss_clip": 0.01115816,
      "auxiliary_loss_mlp": 0.00757259,
      "balance_loss_clip": 1.05142653,
      "balance_loss_mlp": 1.00151932,
      "epoch": 0.2953165394096074,
      "flos": 18918479399040.0,
      "grad_norm": 2.9672130480979564,
      "language_loss": 0.79069793,
      "learning_rate": 3.3060783924010904e-06,
      "loss": 0.80942869,
      "num_input_tokens_seen": 52649980,
      "step": 2456,
      "time_per_iteration": 2.5273921489715576
    },
    {
      "auxiliary_loss_clip": 0.01087714,
      "auxiliary_loss_mlp": 0.01026682,
      "balance_loss_clip": 1.04685569,
      "balance_loss_mlp": 1.01940131,
      "epoch": 0.2954367823002465,
      "flos": 20626175439360.0,
      "grad_norm": 2.8186819048461933,
      "language_loss": 0.852332,
      "learning_rate": 3.3054883593406387e-06,
      "loss": 0.87347591,
      "num_input_tokens_seen": 52664730,
      "step": 2457,
      "time_per_iteration": 2.6089422702789307
    },
    {
      "auxiliary_loss_clip": 0.01104473,
      "auxiliary_loss_mlp": 0.01022415,
      "balance_loss_clip": 1.05012035,
      "balance_loss_mlp": 1.01561677,
      "epoch": 0.2955570251908856,
      "flos": 31178193436800.0,
      "grad_norm": 4.119765904099131,
      "language_loss": 0.64964962,
      "learning_rate": 3.3048981282386404e-06,
      "loss": 0.67091858,
      "num_input_tokens_seen": 52686040,
      "step": 2458,
      "time_per_iteration": 2.6307625770568848
    },
    {
      "auxiliary_loss_clip": 0.01088391,
      "auxiliary_loss_mlp": 0.01021323,
      "balance_loss_clip": 1.04764867,
      "balance_loss_mlp": 1.01465607,
      "epoch": 0.29567726808152467,
      "flos": 21652330527360.0,
      "grad_norm": 2.1294130326382734,
      "language_loss": 0.8245976,
      "learning_rate": 3.304307699184634e-06,
      "loss": 0.84569478,
      "num_input_tokens_seen": 52704630,
      "step": 2459,
      "time_per_iteration": 2.6095306873321533
    },
    {
      "auxiliary_loss_clip": 0.01105776,
      "auxiliary_loss_mlp": 0.01026714,
      "balance_loss_clip": 1.05438197,
      "balance_loss_mlp": 1.02027392,
      "epoch": 0.2957975109721638,
      "flos": 24246185817600.0,
      "grad_norm": 1.6994644672535162,
      "language_loss": 0.79247636,
      "learning_rate": 3.3037170722681866e-06,
      "loss": 0.81380129,
      "num_input_tokens_seen": 52725465,
      "step": 2460,
      "time_per_iteration": 2.6035566329956055
    },
    {
      "auxiliary_loss_clip": 0.01091842,
      "auxiliary_loss_mlp": 0.01024618,
      "balance_loss_clip": 1.0512526,
      "balance_loss_mlp": 1.01749825,
      "epoch": 0.29591775386280283,
      "flos": 13481387084160.0,
      "grad_norm": 3.249341448207969,
      "language_loss": 0.68245625,
      "learning_rate": 3.3031262475788956e-06,
      "loss": 0.70362091,
      "num_input_tokens_seen": 52742405,
      "step": 2461,
      "time_per_iteration": 2.569352865219116
    },
    {
      "auxiliary_loss_clip": 0.01106024,
      "auxiliary_loss_mlp": 0.01023902,
      "balance_loss_clip": 1.05239534,
      "balance_loss_mlp": 1.01739275,
      "epoch": 0.29603799675344195,
      "flos": 17751759701760.0,
      "grad_norm": 1.7218329794763743,
      "language_loss": 0.73385906,
      "learning_rate": 3.3025352252063897e-06,
      "loss": 0.75515831,
      "num_input_tokens_seen": 52761100,
      "step": 2462,
      "time_per_iteration": 2.535581588745117
    },
    {
      "auxiliary_loss_clip": 0.01112668,
      "auxiliary_loss_mlp": 0.01027883,
      "balance_loss_clip": 1.0513221,
      "balance_loss_mlp": 1.02140117,
      "epoch": 0.29615823964408106,
      "flos": 22786127280000.0,
      "grad_norm": 1.7799812517993723,
      "language_loss": 0.7520864,
      "learning_rate": 3.3019440052403252e-06,
      "loss": 0.77349192,
      "num_input_tokens_seen": 52780965,
      "step": 2463,
      "time_per_iteration": 2.569751262664795
    },
    {
      "auxiliary_loss_clip": 0.01103978,
      "auxiliary_loss_mlp": 0.01023331,
      "balance_loss_clip": 1.05135775,
      "balance_loss_mlp": 1.01667297,
      "epoch": 0.2962784825347201,
      "flos": 23516478852480.0,
      "grad_norm": 3.549509526981848,
      "language_loss": 0.71283507,
      "learning_rate": 3.30135258777039e-06,
      "loss": 0.73410809,
      "num_input_tokens_seen": 52800335,
      "step": 2464,
      "time_per_iteration": 2.595752477645874
    },
    {
      "auxiliary_loss_clip": 0.01117104,
      "auxiliary_loss_mlp": 0.00757545,
      "balance_loss_clip": 1.05186057,
      "balance_loss_mlp": 1.00153446,
      "epoch": 0.2963987254253592,
      "flos": 16364637734400.0,
      "grad_norm": 2.038136672170518,
      "language_loss": 0.7059707,
      "learning_rate": 3.3007609728863024e-06,
      "loss": 0.7247172,
      "num_input_tokens_seen": 52818425,
      "step": 2465,
      "time_per_iteration": 2.5525529384613037
    },
    {
      "auxiliary_loss_clip": 0.0105611,
      "auxiliary_loss_mlp": 0.01024193,
      "balance_loss_clip": 1.04609299,
      "balance_loss_mlp": 1.01741862,
      "epoch": 0.29651896831599833,
      "flos": 33474955996800.0,
      "grad_norm": 1.8594954905940255,
      "language_loss": 0.73177177,
      "learning_rate": 3.300169160677809e-06,
      "loss": 0.7525748,
      "num_input_tokens_seen": 52842340,
      "step": 2466,
      "time_per_iteration": 2.7702834606170654
    },
    {
      "auxiliary_loss_clip": 0.01093599,
      "auxiliary_loss_mlp": 0.0102044,
      "balance_loss_clip": 1.05110455,
      "balance_loss_mlp": 1.01284337,
      "epoch": 0.2966392112066374,
      "flos": 23807618444160.0,
      "grad_norm": 3.067621555556117,
      "language_loss": 0.77881372,
      "learning_rate": 3.2995771512346878e-06,
      "loss": 0.79995418,
      "num_input_tokens_seen": 52860690,
      "step": 2467,
      "time_per_iteration": 2.675457239151001
    },
    {
      "auxiliary_loss_clip": 0.01129537,
      "auxiliary_loss_mlp": 0.00757554,
      "balance_loss_clip": 1.05389977,
      "balance_loss_mlp": 1.00157642,
      "epoch": 0.2967594540972765,
      "flos": 19940539334400.0,
      "grad_norm": 4.844492343855115,
      "language_loss": 0.73545581,
      "learning_rate": 3.298984944646746e-06,
      "loss": 0.7543267,
      "num_input_tokens_seen": 52879370,
      "step": 2468,
      "time_per_iteration": 3.378403425216675
    },
    {
      "auxiliary_loss_clip": 0.01118004,
      "auxiliary_loss_mlp": 0.0075716,
      "balance_loss_clip": 1.05331087,
      "balance_loss_mlp": 1.00163269,
      "epoch": 0.2968796969879156,
      "flos": 23735098972800.0,
      "grad_norm": 1.889631391220737,
      "language_loss": 0.8178398,
      "learning_rate": 3.298392541003822e-06,
      "loss": 0.83659142,
      "num_input_tokens_seen": 52898775,
      "step": 2469,
      "time_per_iteration": 3.3252696990966797
    },
    {
      "auxiliary_loss_clip": 0.0109198,
      "auxiliary_loss_mlp": 0.01021032,
      "balance_loss_clip": 1.04503965,
      "balance_loss_mlp": 1.01470208,
      "epoch": 0.29699993987855466,
      "flos": 22895930275200.0,
      "grad_norm": 1.9903216842287335,
      "language_loss": 0.89829594,
      "learning_rate": 3.2977999403957806e-06,
      "loss": 0.91942608,
      "num_input_tokens_seen": 52917535,
      "step": 2470,
      "time_per_iteration": 3.3575048446655273
    },
    {
      "auxiliary_loss_clip": 0.01131245,
      "auxiliary_loss_mlp": 0.01023997,
      "balance_loss_clip": 1.05529046,
      "balance_loss_mlp": 1.01705909,
      "epoch": 0.2971201827691938,
      "flos": 33835012842240.0,
      "grad_norm": 2.68254959148081,
      "language_loss": 0.6743139,
      "learning_rate": 3.2972071429125207e-06,
      "loss": 0.69586635,
      "num_input_tokens_seen": 52938755,
      "step": 2471,
      "time_per_iteration": 2.6301753520965576
    },
    {
      "auxiliary_loss_clip": 0.01081389,
      "auxiliary_loss_mlp": 0.01027342,
      "balance_loss_clip": 1.04578757,
      "balance_loss_mlp": 1.01985288,
      "epoch": 0.2972404256598329,
      "flos": 22056534069120.0,
      "grad_norm": 2.027728427116368,
      "language_loss": 0.88653934,
      "learning_rate": 3.2966141486439682e-06,
      "loss": 0.90762663,
      "num_input_tokens_seen": 52957945,
      "step": 2472,
      "time_per_iteration": 2.579052209854126
    },
    {
      "auxiliary_loss_clip": 0.01068082,
      "auxiliary_loss_mlp": 0.01022012,
      "balance_loss_clip": 1.04610395,
      "balance_loss_mlp": 1.01479375,
      "epoch": 0.29736066855047194,
      "flos": 31981329907200.0,
      "grad_norm": 2.5308853654875043,
      "language_loss": 0.6406523,
      "learning_rate": 3.29602095768008e-06,
      "loss": 0.66155326,
      "num_input_tokens_seen": 52978460,
      "step": 2473,
      "time_per_iteration": 2.7541615962982178
    },
    {
      "auxiliary_loss_clip": 0.01084722,
      "auxiliary_loss_mlp": 0.01024416,
      "balance_loss_clip": 1.03851426,
      "balance_loss_mlp": 1.01821446,
      "epoch": 0.29748091144111105,
      "flos": 33513187472640.0,
      "grad_norm": 2.063591722818411,
      "language_loss": 0.63559651,
      "learning_rate": 3.2954275701108437e-06,
      "loss": 0.65668792,
      "num_input_tokens_seen": 52999640,
      "step": 2474,
      "time_per_iteration": 2.6632795333862305
    },
    {
      "auxiliary_loss_clip": 0.01076506,
      "auxiliary_loss_mlp": 0.0101948,
      "balance_loss_clip": 1.04640806,
      "balance_loss_mlp": 1.01295292,
      "epoch": 0.29760115433175016,
      "flos": 41286676792320.0,
      "grad_norm": 2.152018269403936,
      "language_loss": 0.68480945,
      "learning_rate": 3.294833986026275e-06,
      "loss": 0.7057693,
      "num_input_tokens_seen": 53022880,
      "step": 2475,
      "time_per_iteration": 2.830122947692871
    },
    {
      "auxiliary_loss_clip": 0.01088948,
      "auxiliary_loss_mlp": 0.01019921,
      "balance_loss_clip": 1.04929996,
      "balance_loss_mlp": 1.01301241,
      "epoch": 0.2977213972223892,
      "flos": 24495340043520.0,
      "grad_norm": 2.844111081806468,
      "language_loss": 0.85289162,
      "learning_rate": 3.29424020551642e-06,
      "loss": 0.87398028,
      "num_input_tokens_seen": 53041515,
      "step": 2476,
      "time_per_iteration": 2.6200637817382812
    },
    {
      "auxiliary_loss_clip": 0.01130025,
      "auxiliary_loss_mlp": 0.01029233,
      "balance_loss_clip": 1.05387449,
      "balance_loss_mlp": 1.02162135,
      "epoch": 0.2978416401130283,
      "flos": 21287078904960.0,
      "grad_norm": 2.74002767698124,
      "language_loss": 0.72105992,
      "learning_rate": 3.2936462286713546e-06,
      "loss": 0.74265242,
      "num_input_tokens_seen": 53059865,
      "step": 2477,
      "time_per_iteration": 2.6276915073394775
    },
    {
      "auxiliary_loss_clip": 0.01114594,
      "auxiliary_loss_mlp": 0.0102605,
      "balance_loss_clip": 1.05288768,
      "balance_loss_mlp": 1.01864684,
      "epoch": 0.2979618830036674,
      "flos": 25774327411200.0,
      "grad_norm": 2.390393638790629,
      "language_loss": 0.7793473,
      "learning_rate": 3.2930520555811846e-06,
      "loss": 0.80075371,
      "num_input_tokens_seen": 53079490,
      "step": 2478,
      "time_per_iteration": 2.5697503089904785
    },
    {
      "auxiliary_loss_clip": 0.01028387,
      "auxiliary_loss_mlp": 0.00757539,
      "balance_loss_clip": 1.03143358,
      "balance_loss_mlp": 1.00158322,
      "epoch": 0.2980821258943065,
      "flos": 23479233246720.0,
      "grad_norm": 1.7999044669865958,
      "language_loss": 0.8035869,
      "learning_rate": 3.292457686336046e-06,
      "loss": 0.82144612,
      "num_input_tokens_seen": 53098810,
      "step": 2479,
      "time_per_iteration": 2.7152047157287598
    },
    {
      "auxiliary_loss_clip": 0.01115921,
      "auxiliary_loss_mlp": 0.01015872,
      "balance_loss_clip": 1.08859825,
      "balance_loss_mlp": 1.01321411,
      "epoch": 0.2982023687849456,
      "flos": 69759798923520.0,
      "grad_norm": 0.864216142374962,
      "language_loss": 0.61175132,
      "learning_rate": 3.291863121026105e-06,
      "loss": 0.63306922,
      "num_input_tokens_seen": 53162590,
      "step": 2480,
      "time_per_iteration": 3.2406692504882812
    },
    {
      "auxiliary_loss_clip": 0.01113315,
      "auxiliary_loss_mlp": 0.01025682,
      "balance_loss_clip": 1.05037391,
      "balance_loss_mlp": 1.01889586,
      "epoch": 0.29832261167558466,
      "flos": 29828544583680.0,
      "grad_norm": 2.1345243137403895,
      "language_loss": 0.768152,
      "learning_rate": 3.2912683597415547e-06,
      "loss": 0.78954196,
      "num_input_tokens_seen": 53186675,
      "step": 2481,
      "time_per_iteration": 2.6808602809906006
    },
    {
      "auxiliary_loss_clip": 0.01087607,
      "auxiliary_loss_mlp": 0.01027886,
      "balance_loss_clip": 1.04840875,
      "balance_loss_mlp": 1.02116537,
      "epoch": 0.29844285456622377,
      "flos": 33912878762880.0,
      "grad_norm": 3.290984739836674,
      "language_loss": 0.78017902,
      "learning_rate": 3.2906734025726213e-06,
      "loss": 0.8013339,
      "num_input_tokens_seen": 53205940,
      "step": 2482,
      "time_per_iteration": 2.7244510650634766
    },
    {
      "auxiliary_loss_clip": 0.0112045,
      "auxiliary_loss_mlp": 0.01028915,
      "balance_loss_clip": 1.05468822,
      "balance_loss_mlp": 1.0218575,
      "epoch": 0.2985630974568629,
      "flos": 23879114127360.0,
      "grad_norm": 2.016954780456972,
      "language_loss": 0.8802886,
      "learning_rate": 3.290078249609559e-06,
      "loss": 0.90178221,
      "num_input_tokens_seen": 53225360,
      "step": 2483,
      "time_per_iteration": 2.5555830001831055
    },
    {
      "auxiliary_loss_clip": 0.01102699,
      "auxiliary_loss_mlp": 0.01025466,
      "balance_loss_clip": 1.0430944,
      "balance_loss_mlp": 1.01828599,
      "epoch": 0.29868334034750194,
      "flos": 21801275032320.0,
      "grad_norm": 2.3162718656046324,
      "language_loss": 0.88398719,
      "learning_rate": 3.2894829009426514e-06,
      "loss": 0.90526879,
      "num_input_tokens_seen": 53243195,
      "step": 2484,
      "time_per_iteration": 2.562455654144287
    },
    {
      "auxiliary_loss_clip": 0.01112729,
      "auxiliary_loss_mlp": 0.01023635,
      "balance_loss_clip": 1.05061746,
      "balance_loss_mlp": 1.01710224,
      "epoch": 0.29880358323814105,
      "flos": 25669036667520.0,
      "grad_norm": 2.3421294852957137,
      "language_loss": 0.77912062,
      "learning_rate": 3.288887356662213e-06,
      "loss": 0.80048424,
      "num_input_tokens_seen": 53264530,
      "step": 2485,
      "time_per_iteration": 2.578902244567871
    },
    {
      "auxiliary_loss_clip": 0.01113971,
      "auxiliary_loss_mlp": 0.01006245,
      "balance_loss_clip": 1.07779694,
      "balance_loss_mlp": 1.00350285,
      "epoch": 0.29892382612878016,
      "flos": 71012091962880.0,
      "grad_norm": 0.7736124461862971,
      "language_loss": 0.59733307,
      "learning_rate": 3.288291616858588e-06,
      "loss": 0.61853522,
      "num_input_tokens_seen": 53319920,
      "step": 2486,
      "time_per_iteration": 3.025256633758545
    },
    {
      "auxiliary_loss_clip": 0.01053069,
      "auxiliary_loss_mlp": 0.01022573,
      "balance_loss_clip": 1.03484213,
      "balance_loss_mlp": 1.01630259,
      "epoch": 0.2990440690194192,
      "flos": 25483339491840.0,
      "grad_norm": 1.8542393918773004,
      "language_loss": 0.76820135,
      "learning_rate": 3.287695681622149e-06,
      "loss": 0.78895772,
      "num_input_tokens_seen": 53339270,
      "step": 2487,
      "time_per_iteration": 2.6575911045074463
    },
    {
      "auxiliary_loss_clip": 0.01101809,
      "auxiliary_loss_mlp": 0.01020844,
      "balance_loss_clip": 1.04803026,
      "balance_loss_mlp": 1.01423645,
      "epoch": 0.2991643119100583,
      "flos": 23734606037760.0,
      "grad_norm": 1.8082698544139555,
      "language_loss": 0.81005657,
      "learning_rate": 3.2870995510432982e-06,
      "loss": 0.83128309,
      "num_input_tokens_seen": 53357750,
      "step": 2488,
      "time_per_iteration": 2.6306536197662354
    },
    {
      "auxiliary_loss_clip": 0.01103102,
      "auxiliary_loss_mlp": 0.01024148,
      "balance_loss_clip": 1.04660606,
      "balance_loss_mlp": 1.01780868,
      "epoch": 0.29928455480069743,
      "flos": 27420007288320.0,
      "grad_norm": 2.022052409880627,
      "language_loss": 0.77252984,
      "learning_rate": 3.2865032252124697e-06,
      "loss": 0.79380238,
      "num_input_tokens_seen": 53378265,
      "step": 2489,
      "time_per_iteration": 2.57407546043396
    },
    {
      "auxiliary_loss_clip": 0.01106406,
      "auxiliary_loss_mlp": 0.01024596,
      "balance_loss_clip": 1.0505302,
      "balance_loss_mlp": 1.01839685,
      "epoch": 0.2994047976913365,
      "flos": 33695737447680.0,
      "grad_norm": 1.8360481031857663,
      "language_loss": 0.77565837,
      "learning_rate": 3.2859067042201243e-06,
      "loss": 0.79696834,
      "num_input_tokens_seen": 53400305,
      "step": 2490,
      "time_per_iteration": 2.7069687843322754
    },
    {
      "auxiliary_loss_clip": 0.01061529,
      "auxiliary_loss_mlp": 0.01025113,
      "balance_loss_clip": 1.04562962,
      "balance_loss_mlp": 1.01836586,
      "epoch": 0.2995250405819756,
      "flos": 16765845747840.0,
      "grad_norm": 1.8550522088295074,
      "language_loss": 0.78076178,
      "learning_rate": 3.2853099881567544e-06,
      "loss": 0.80162823,
      "num_input_tokens_seen": 53418705,
      "step": 2491,
      "time_per_iteration": 2.6220552921295166
    },
    {
      "auxiliary_loss_clip": 0.01128104,
      "auxiliary_loss_mlp": 0.01023074,
      "balance_loss_clip": 1.05455625,
      "balance_loss_mlp": 1.01691341,
      "epoch": 0.29964528347261465,
      "flos": 22966060907520.0,
      "grad_norm": 2.096631647006366,
      "language_loss": 0.79342759,
      "learning_rate": 3.284713077112881e-06,
      "loss": 0.81493938,
      "num_input_tokens_seen": 53438135,
      "step": 2492,
      "time_per_iteration": 2.5432565212249756
    },
    {
      "auxiliary_loss_clip": 0.0109482,
      "auxiliary_loss_mlp": 0.01024699,
      "balance_loss_clip": 1.05367863,
      "balance_loss_mlp": 1.01720381,
      "epoch": 0.29976552636325376,
      "flos": 16939447056000.0,
      "grad_norm": 3.6185235729173555,
      "language_loss": 0.87421203,
      "learning_rate": 3.284115971179056e-06,
      "loss": 0.8954072,
      "num_input_tokens_seen": 53452165,
      "step": 2493,
      "time_per_iteration": 3.3318047523498535
    },
    {
      "auxiliary_loss_clip": 0.01063519,
      "auxiliary_loss_mlp": 0.01025767,
      "balance_loss_clip": 1.05229461,
      "balance_loss_mlp": 1.01922274,
      "epoch": 0.2998857692538929,
      "flos": 17058388308480.0,
      "grad_norm": 1.9063558569010557,
      "language_loss": 0.78457099,
      "learning_rate": 3.283518670445859e-06,
      "loss": 0.80546385,
      "num_input_tokens_seen": 53470075,
      "step": 2494,
      "time_per_iteration": 3.3965578079223633
    },
    {
      "auxiliary_loss_clip": 0.0108762,
      "auxiliary_loss_mlp": 0.00752694,
      "balance_loss_clip": 1.06914854,
      "balance_loss_mlp": 1.00042522,
      "epoch": 0.30000601214453193,
      "flos": 68838479562240.0,
      "grad_norm": 0.7091027530930089,
      "language_loss": 0.54299468,
      "learning_rate": 3.2829211750038995e-06,
      "loss": 0.56139779,
      "num_input_tokens_seen": 53538705,
      "step": 2495,
      "time_per_iteration": 3.9904396533966064
    },
    {
      "auxiliary_loss_clip": 0.01081665,
      "auxiliary_loss_mlp": 0.01024315,
      "balance_loss_clip": 1.045789,
      "balance_loss_mlp": 1.01767218,
      "epoch": 0.30012625503517104,
      "flos": 17605204035840.0,
      "grad_norm": 1.9968954088291089,
      "language_loss": 0.89372522,
      "learning_rate": 3.2823234849438183e-06,
      "loss": 0.91478503,
      "num_input_tokens_seen": 53556740,
      "step": 2496,
      "time_per_iteration": 3.344336748123169
    },
    {
      "auxiliary_loss_clip": 0.01103858,
      "auxiliary_loss_mlp": 0.01026271,
      "balance_loss_clip": 1.05309248,
      "balance_loss_mlp": 1.0198133,
      "epoch": 0.30024649792581015,
      "flos": 21254762649600.0,
      "grad_norm": 2.1619749615462034,
      "language_loss": 0.76267183,
      "learning_rate": 3.2817256003562836e-06,
      "loss": 0.78397322,
      "num_input_tokens_seen": 53577115,
      "step": 2497,
      "time_per_iteration": 2.575533628463745
    },
    {
      "auxiliary_loss_clip": 0.01054818,
      "auxiliary_loss_mlp": 0.01032069,
      "balance_loss_clip": 1.0430963,
      "balance_loss_mlp": 1.02541685,
      "epoch": 0.3003667408164492,
      "flos": 23005505761920.0,
      "grad_norm": 1.6910378160914816,
      "language_loss": 0.66120911,
      "learning_rate": 3.281127521331995e-06,
      "loss": 0.682078,
      "num_input_tokens_seen": 53598295,
      "step": 2498,
      "time_per_iteration": 2.7282752990722656
    },
    {
      "auxiliary_loss_clip": 0.01134791,
      "auxiliary_loss_mlp": 0.01007986,
      "balance_loss_clip": 1.08569348,
      "balance_loss_mlp": 1.00491035,
      "epoch": 0.3004869837070883,
      "flos": 64238925467520.0,
      "grad_norm": 0.8838655223656762,
      "language_loss": 0.60695589,
      "learning_rate": 3.2805292479616798e-06,
      "loss": 0.62838364,
      "num_input_tokens_seen": 53657160,
      "step": 2499,
      "time_per_iteration": 3.018669843673706
    },
    {
      "auxiliary_loss_clip": 0.01104273,
      "auxiliary_loss_mlp": 0.01026485,
      "balance_loss_clip": 1.05135977,
      "balance_loss_mlp": 1.01974964,
      "epoch": 0.30060722659772743,
      "flos": 26250974588160.0,
      "grad_norm": 2.7524385133366542,
      "language_loss": 0.92167258,
      "learning_rate": 3.2799307803360955e-06,
      "loss": 0.94298017,
      "num_input_tokens_seen": 53673090,
      "step": 2500,
      "time_per_iteration": 2.6249141693115234
    },
    {
      "auxiliary_loss_clip": 0.01126956,
      "auxiliary_loss_mlp": 0.0102486,
      "balance_loss_clip": 1.05226088,
      "balance_loss_mlp": 1.0182234,
      "epoch": 0.3007274694883665,
      "flos": 24973086844800.0,
      "grad_norm": 1.5352617251268725,
      "language_loss": 0.8174786,
      "learning_rate": 3.27933211854603e-06,
      "loss": 0.83899677,
      "num_input_tokens_seen": 53692145,
      "step": 2501,
      "time_per_iteration": 2.5349013805389404
    },
    {
      "auxiliary_loss_clip": 0.01098347,
      "auxiliary_loss_mlp": 0.01023111,
      "balance_loss_clip": 1.05160666,
      "balance_loss_mlp": 1.01625311,
      "epoch": 0.3008477123790056,
      "flos": 17057743701120.0,
      "grad_norm": 1.607323681077939,
      "language_loss": 0.87068546,
      "learning_rate": 3.278733262682299e-06,
      "loss": 0.89190006,
      "num_input_tokens_seen": 53710000,
      "step": 2502,
      "time_per_iteration": 2.5754568576812744
    },
    {
      "auxiliary_loss_clip": 0.01126581,
      "auxiliary_loss_mlp": 0.01020765,
      "balance_loss_clip": 1.05125284,
      "balance_loss_mlp": 1.01437807,
      "epoch": 0.3009679552696447,
      "flos": 21508504963200.0,
      "grad_norm": 2.123059673094943,
      "language_loss": 0.82964671,
      "learning_rate": 3.2781342128357484e-06,
      "loss": 0.85112011,
      "num_input_tokens_seen": 53729355,
      "step": 2503,
      "time_per_iteration": 2.4949769973754883
    },
    {
      "auxiliary_loss_clip": 0.01091744,
      "auxiliary_loss_mlp": 0.01024274,
      "balance_loss_clip": 1.04945099,
      "balance_loss_mlp": 1.01760411,
      "epoch": 0.30108819816028376,
      "flos": 21135669724800.0,
      "grad_norm": 3.731557614926735,
      "language_loss": 0.81032723,
      "learning_rate": 3.2775349690972547e-06,
      "loss": 0.83148742,
      "num_input_tokens_seen": 53743505,
      "step": 2504,
      "time_per_iteration": 2.575643539428711
    },
    {
      "auxiliary_loss_clip": 0.0107427,
      "auxiliary_loss_mlp": 0.01005161,
      "balance_loss_clip": 1.04044914,
      "balance_loss_mlp": 1.00225186,
      "epoch": 0.30120844105092287,
      "flos": 71133308300160.0,
      "grad_norm": 0.770751924635485,
      "language_loss": 0.51822305,
      "learning_rate": 3.276935531557722e-06,
      "loss": 0.53901738,
      "num_input_tokens_seen": 53808725,
      "step": 2505,
      "time_per_iteration": 3.2463765144348145
    },
    {
      "auxiliary_loss_clip": 0.01078263,
      "auxiliary_loss_mlp": 0.01024606,
      "balance_loss_clip": 1.04806352,
      "balance_loss_mlp": 1.01802003,
      "epoch": 0.301328683941562,
      "flos": 20266535692800.0,
      "grad_norm": 2.233355096804991,
      "language_loss": 0.79413891,
      "learning_rate": 3.2763359003080837e-06,
      "loss": 0.81516761,
      "num_input_tokens_seen": 53825680,
      "step": 2506,
      "time_per_iteration": 2.6073670387268066
    },
    {
      "auxiliary_loss_clip": 0.0110738,
      "auxiliary_loss_mlp": 0.01003128,
      "balance_loss_clip": 1.07949209,
      "balance_loss_mlp": 1.00008869,
      "epoch": 0.30144892683220104,
      "flos": 70654841055360.0,
      "grad_norm": 0.8252058610240325,
      "language_loss": 0.62440366,
      "learning_rate": 3.2757360754393047e-06,
      "loss": 0.64550871,
      "num_input_tokens_seen": 53889750,
      "step": 2507,
      "time_per_iteration": 3.259235143661499
    },
    {
      "auxiliary_loss_clip": 0.01112772,
      "auxiliary_loss_mlp": 0.01023431,
      "balance_loss_clip": 1.05010998,
      "balance_loss_mlp": 1.0167079,
      "epoch": 0.30156916972284015,
      "flos": 22822766196480.0,
      "grad_norm": 3.160900181978814,
      "language_loss": 0.64296108,
      "learning_rate": 3.2751360570423767e-06,
      "loss": 0.66432309,
      "num_input_tokens_seen": 53908135,
      "step": 2508,
      "time_per_iteration": 2.55397367477417
    },
    {
      "auxiliary_loss_clip": 0.01096498,
      "auxiliary_loss_mlp": 0.01024983,
      "balance_loss_clip": 1.04744792,
      "balance_loss_mlp": 1.0184356,
      "epoch": 0.3016894126134792,
      "flos": 29901822416640.0,
      "grad_norm": 2.3225154056863775,
      "language_loss": 0.7614029,
      "learning_rate": 3.2745358452083236e-06,
      "loss": 0.78261769,
      "num_input_tokens_seen": 53931035,
      "step": 2509,
      "time_per_iteration": 2.655184745788574
    },
    {
      "auxiliary_loss_clip": 0.01111404,
      "auxiliary_loss_mlp": 0.01019401,
      "balance_loss_clip": 1.04831529,
      "balance_loss_mlp": 1.01318455,
      "epoch": 0.3018096555041183,
      "flos": 21548632343040.0,
      "grad_norm": 1.4494432765816039,
      "language_loss": 0.827039,
      "learning_rate": 3.2739354400281955e-06,
      "loss": 0.84834701,
      "num_input_tokens_seen": 53952255,
      "step": 2510,
      "time_per_iteration": 2.570492744445801
    },
    {
      "auxiliary_loss_clip": 0.01095067,
      "auxiliary_loss_mlp": 0.00752832,
      "balance_loss_clip": 1.07711351,
      "balance_loss_mlp": 1.00045764,
      "epoch": 0.3019298983947574,
      "flos": 59143262169600.0,
      "grad_norm": 0.8667355040850517,
      "language_loss": 0.63667166,
      "learning_rate": 3.2733348415930744e-06,
      "loss": 0.65515065,
      "num_input_tokens_seen": 54014125,
      "step": 2511,
      "time_per_iteration": 3.2259342670440674
    },
    {
      "auxiliary_loss_clip": 0.01079437,
      "auxiliary_loss_mlp": 0.01024633,
      "balance_loss_clip": 1.04696965,
      "balance_loss_mlp": 1.01829135,
      "epoch": 0.3020501412853965,
      "flos": 34425937347840.0,
      "grad_norm": 2.13595380275219,
      "language_loss": 0.81104821,
      "learning_rate": 3.27273404999407e-06,
      "loss": 0.83208895,
      "num_input_tokens_seen": 54036345,
      "step": 2512,
      "time_per_iteration": 2.713334560394287
    },
    {
      "auxiliary_loss_clip": 0.0110431,
      "auxiliary_loss_mlp": 0.01008954,
      "balance_loss_clip": 1.07643223,
      "balance_loss_mlp": 1.00596237,
      "epoch": 0.3021703841760356,
      "flos": 71014670392320.0,
      "grad_norm": 0.8003334422383966,
      "language_loss": 0.6042006,
      "learning_rate": 3.272133065322322e-06,
      "loss": 0.62533319,
      "num_input_tokens_seen": 54094615,
      "step": 2513,
      "time_per_iteration": 3.176131010055542
    },
    {
      "auxiliary_loss_clip": 0.01123144,
      "auxiliary_loss_mlp": 0.0102505,
      "balance_loss_clip": 1.04814565,
      "balance_loss_mlp": 1.01882124,
      "epoch": 0.3022906270666747,
      "flos": 21512865542400.0,
      "grad_norm": 1.7458008119838055,
      "language_loss": 0.79638743,
      "learning_rate": 3.271531887669e-06,
      "loss": 0.81786942,
      "num_input_tokens_seen": 54114675,
      "step": 2514,
      "time_per_iteration": 2.5501511096954346
    },
    {
      "auxiliary_loss_clip": 0.01073137,
      "auxiliary_loss_mlp": 0.01024882,
      "balance_loss_clip": 1.04377329,
      "balance_loss_mlp": 1.01794696,
      "epoch": 0.30241086995731375,
      "flos": 31134274248960.0,
      "grad_norm": 3.8880204726542393,
      "language_loss": 0.6306603,
      "learning_rate": 3.2709305171253015e-06,
      "loss": 0.65164047,
      "num_input_tokens_seen": 54134795,
      "step": 2515,
      "time_per_iteration": 2.698883533477783
    },
    {
      "auxiliary_loss_clip": 0.01112146,
      "auxiliary_loss_mlp": 0.01026407,
      "balance_loss_clip": 1.05023932,
      "balance_loss_mlp": 1.01979709,
      "epoch": 0.30253111284795287,
      "flos": 23513672914560.0,
      "grad_norm": 2.2536822467482898,
      "language_loss": 0.78268397,
      "learning_rate": 3.2703289537824536e-06,
      "loss": 0.80406958,
      "num_input_tokens_seen": 54154595,
      "step": 2516,
      "time_per_iteration": 2.5908730030059814
    },
    {
      "auxiliary_loss_clip": 0.01074279,
      "auxiliary_loss_mlp": 0.01028145,
      "balance_loss_clip": 1.04488707,
      "balance_loss_mlp": 1.02155006,
      "epoch": 0.302651355738592,
      "flos": 18726867002880.0,
      "grad_norm": 2.6262230157958033,
      "language_loss": 0.7875843,
      "learning_rate": 3.269727197731714e-06,
      "loss": 0.80860853,
      "num_input_tokens_seen": 54167360,
      "step": 2517,
      "time_per_iteration": 2.619291305541992
    },
    {
      "auxiliary_loss_clip": 0.0106356,
      "auxiliary_loss_mlp": 0.01028241,
      "balance_loss_clip": 1.04020023,
      "balance_loss_mlp": 1.02165782,
      "epoch": 0.30277159862923103,
      "flos": 22421065248000.0,
      "grad_norm": 3.355135493655231,
      "language_loss": 0.78234851,
      "learning_rate": 3.269125249064367e-06,
      "loss": 0.80326653,
      "num_input_tokens_seen": 54187055,
      "step": 2518,
      "time_per_iteration": 2.641274929046631
    },
    {
      "auxiliary_loss_clip": 0.01125476,
      "auxiliary_loss_mlp": 0.01024405,
      "balance_loss_clip": 1.04919314,
      "balance_loss_mlp": 1.01800942,
      "epoch": 0.30289184151987014,
      "flos": 22275305861760.0,
      "grad_norm": 1.740067537318137,
      "language_loss": 0.83149195,
      "learning_rate": 3.2685231078717297e-06,
      "loss": 0.85299075,
      "num_input_tokens_seen": 54207245,
      "step": 2519,
      "time_per_iteration": 3.286593198776245
    },
    {
      "auxiliary_loss_clip": 0.01082174,
      "auxiliary_loss_mlp": 0.00757017,
      "balance_loss_clip": 1.04482746,
      "balance_loss_mlp": 1.00142813,
      "epoch": 0.30301208441050925,
      "flos": 25227777110400.0,
      "grad_norm": 2.0165950666700976,
      "language_loss": 0.75514925,
      "learning_rate": 3.267920774245145e-06,
      "loss": 0.77354109,
      "num_input_tokens_seen": 54226650,
      "step": 2520,
      "time_per_iteration": 3.380955457687378
    },
    {
      "auxiliary_loss_clip": 0.01112049,
      "auxiliary_loss_mlp": 0.01028407,
      "balance_loss_clip": 1.0488131,
      "balance_loss_mlp": 1.02135921,
      "epoch": 0.3031323273011483,
      "flos": 23041462152960.0,
      "grad_norm": 2.1575422301641676,
      "language_loss": 0.84959614,
      "learning_rate": 3.2673182482759876e-06,
      "loss": 0.87100077,
      "num_input_tokens_seen": 54245765,
      "step": 2521,
      "time_per_iteration": 2.5562808513641357
    },
    {
      "auxiliary_loss_clip": 0.0110957,
      "auxiliary_loss_mlp": 0.01022295,
      "balance_loss_clip": 1.04769921,
      "balance_loss_mlp": 1.015885,
      "epoch": 0.3032525701917874,
      "flos": 18878503691520.0,
      "grad_norm": 2.0140107404711993,
      "language_loss": 0.66363651,
      "learning_rate": 3.266715530055659e-06,
      "loss": 0.68495512,
      "num_input_tokens_seen": 54263915,
      "step": 2522,
      "time_per_iteration": 3.98881459236145
    },
    {
      "auxiliary_loss_clip": 0.01113107,
      "auxiliary_loss_mlp": 0.01020672,
      "balance_loss_clip": 1.04734075,
      "balance_loss_mlp": 1.01424408,
      "epoch": 0.30337281308242653,
      "flos": 17784417219840.0,
      "grad_norm": 1.8997547848733565,
      "language_loss": 0.8077063,
      "learning_rate": 3.2661126196755927e-06,
      "loss": 0.8290441,
      "num_input_tokens_seen": 54283025,
      "step": 2523,
      "time_per_iteration": 2.5459392070770264
    },
    {
      "auxiliary_loss_clip": 0.01114356,
      "auxiliary_loss_mlp": 0.01005895,
      "balance_loss_clip": 1.06605828,
      "balance_loss_mlp": 1.00306976,
      "epoch": 0.3034930559730656,
      "flos": 57831276021120.0,
      "grad_norm": 0.7846656091633355,
      "language_loss": 0.55884933,
      "learning_rate": 3.265509517227248e-06,
      "loss": 0.5800519,
      "num_input_tokens_seen": 54339840,
      "step": 2524,
      "time_per_iteration": 3.0902185440063477
    },
    {
      "auxiliary_loss_clip": 0.01097522,
      "auxiliary_loss_mlp": 0.01020643,
      "balance_loss_clip": 1.04491663,
      "balance_loss_mlp": 1.01406574,
      "epoch": 0.3036132988637047,
      "flos": 14757265169280.0,
      "grad_norm": 2.1471730901398876,
      "language_loss": 0.81124377,
      "learning_rate": 3.264906222802115e-06,
      "loss": 0.83242548,
      "num_input_tokens_seen": 54357690,
      "step": 2525,
      "time_per_iteration": 2.582942247390747
    },
    {
      "auxiliary_loss_clip": 0.01122959,
      "auxiliary_loss_mlp": 0.01022862,
      "balance_loss_clip": 1.04728115,
      "balance_loss_mlp": 1.01610279,
      "epoch": 0.30373354175434375,
      "flos": 21035346249600.0,
      "grad_norm": 2.377731714647048,
      "language_loss": 0.78171277,
      "learning_rate": 3.264302736491715e-06,
      "loss": 0.80317098,
      "num_input_tokens_seen": 54377810,
      "step": 2526,
      "time_per_iteration": 2.5151479244232178
    },
    {
      "auxiliary_loss_clip": 0.01106852,
      "auxiliary_loss_mlp": 0.01021082,
      "balance_loss_clip": 1.05105019,
      "balance_loss_mlp": 1.01451921,
      "epoch": 0.30385378464498286,
      "flos": 21145414671360.0,
      "grad_norm": 1.8266060101716268,
      "language_loss": 0.87604004,
      "learning_rate": 3.263699058387594e-06,
      "loss": 0.89731938,
      "num_input_tokens_seen": 54395245,
      "step": 2527,
      "time_per_iteration": 2.544707775115967
    },
    {
      "auxiliary_loss_clip": 0.01088761,
      "auxiliary_loss_mlp": 0.01026748,
      "balance_loss_clip": 1.04483438,
      "balance_loss_mlp": 1.01987565,
      "epoch": 0.30397402753562197,
      "flos": 20631218544000.0,
      "grad_norm": 2.2283624843591165,
      "language_loss": 0.90881586,
      "learning_rate": 3.2630951885813315e-06,
      "loss": 0.92997098,
      "num_input_tokens_seen": 54412640,
      "step": 2528,
      "time_per_iteration": 2.6425437927246094
    },
    {
      "auxiliary_loss_clip": 0.01096866,
      "auxiliary_loss_mlp": 0.01025087,
      "balance_loss_clip": 1.04523778,
      "balance_loss_mlp": 1.01855397,
      "epoch": 0.304094270426261,
      "flos": 15087470434560.0,
      "grad_norm": 2.137609914212972,
      "language_loss": 0.78344071,
      "learning_rate": 3.262491127164533e-06,
      "loss": 0.8046602,
      "num_input_tokens_seen": 54431455,
      "step": 2529,
      "time_per_iteration": 2.5478928089141846
    },
    {
      "auxiliary_loss_clip": 0.0109761,
      "auxiliary_loss_mlp": 0.00757168,
      "balance_loss_clip": 1.04581237,
      "balance_loss_mlp": 1.00136697,
      "epoch": 0.30421451331690014,
      "flos": 13846942051200.0,
      "grad_norm": 2.380345025076079,
      "language_loss": 0.8060081,
      "learning_rate": 3.2618868742288337e-06,
      "loss": 0.82455593,
      "num_input_tokens_seen": 54448380,
      "step": 2530,
      "time_per_iteration": 2.5622167587280273
    },
    {
      "auxiliary_loss_clip": 0.01107723,
      "auxiliary_loss_mlp": 0.01029035,
      "balance_loss_clip": 1.04687214,
      "balance_loss_mlp": 1.02256227,
      "epoch": 0.30433475620753925,
      "flos": 17386128898560.0,
      "grad_norm": 1.8601683446281854,
      "language_loss": 0.72764313,
      "learning_rate": 3.261282429865899e-06,
      "loss": 0.7490108,
      "num_input_tokens_seen": 54466385,
      "step": 2531,
      "time_per_iteration": 2.504940986633301
    },
    {
      "auxiliary_loss_clip": 0.01100104,
      "auxiliary_loss_mlp": 0.00756808,
      "balance_loss_clip": 1.04723895,
      "balance_loss_mlp": 1.00126004,
      "epoch": 0.3044549990981783,
      "flos": 18918972334080.0,
      "grad_norm": 1.5744529572364065,
      "language_loss": 0.72472852,
      "learning_rate": 3.2606777941674225e-06,
      "loss": 0.7432977,
      "num_input_tokens_seen": 54485040,
      "step": 2532,
      "time_per_iteration": 2.581912040710449
    },
    {
      "auxiliary_loss_clip": 0.01054843,
      "auxiliary_loss_mlp": 0.01023914,
      "balance_loss_clip": 1.03542984,
      "balance_loss_mlp": 1.01740801,
      "epoch": 0.3045752419888174,
      "flos": 21070506360960.0,
      "grad_norm": 4.365185960412549,
      "language_loss": 0.84473407,
      "learning_rate": 3.2600729672251276e-06,
      "loss": 0.86552161,
      "num_input_tokens_seen": 54502755,
      "step": 2533,
      "time_per_iteration": 2.604672908782959
    },
    {
      "auxiliary_loss_clip": 0.01121802,
      "auxiliary_loss_mlp": 0.00757114,
      "balance_loss_clip": 1.04789233,
      "balance_loss_mlp": 1.00132859,
      "epoch": 0.3046954848794565,
      "flos": 29098989290880.0,
      "grad_norm": 2.387954869748663,
      "language_loss": 0.6567353,
      "learning_rate": 3.259467949130765e-06,
      "loss": 0.67552453,
      "num_input_tokens_seen": 54524165,
      "step": 2534,
      "time_per_iteration": 2.606818914413452
    },
    {
      "auxiliary_loss_clip": 0.0109508,
      "auxiliary_loss_mlp": 0.01020772,
      "balance_loss_clip": 1.045066,
      "balance_loss_mlp": 1.01429319,
      "epoch": 0.3048157277700956,
      "flos": 20296993962240.0,
      "grad_norm": 2.8333989949980665,
      "language_loss": 0.82864678,
      "learning_rate": 3.2588627399761164e-06,
      "loss": 0.8498053,
      "num_input_tokens_seen": 54540160,
      "step": 2535,
      "time_per_iteration": 2.5536558628082275
    },
    {
      "auxiliary_loss_clip": 0.01094541,
      "auxiliary_loss_mlp": 0.01022813,
      "balance_loss_clip": 1.04508376,
      "balance_loss_mlp": 1.01663244,
      "epoch": 0.3049359706607347,
      "flos": 22741715157120.0,
      "grad_norm": 1.7710527513468157,
      "language_loss": 0.71046472,
      "learning_rate": 3.2582573398529903e-06,
      "loss": 0.73163831,
      "num_input_tokens_seen": 54557515,
      "step": 2536,
      "time_per_iteration": 2.590228796005249
    },
    {
      "auxiliary_loss_clip": 0.01090837,
      "auxiliary_loss_mlp": 0.01025022,
      "balance_loss_clip": 1.04443002,
      "balance_loss_mlp": 1.01815259,
      "epoch": 0.3050562135513738,
      "flos": 18436182428160.0,
      "grad_norm": 2.5458825443760817,
      "language_loss": 0.74354166,
      "learning_rate": 3.2576517488532265e-06,
      "loss": 0.76470029,
      "num_input_tokens_seen": 54573865,
      "step": 2537,
      "time_per_iteration": 2.5790510177612305
    },
    {
      "auxiliary_loss_clip": 0.01109658,
      "auxiliary_loss_mlp": 0.01023097,
      "balance_loss_clip": 1.0462141,
      "balance_loss_mlp": 1.01714289,
      "epoch": 0.30517645644201286,
      "flos": 20372091863040.0,
      "grad_norm": 1.7845631350595474,
      "language_loss": 0.87662506,
      "learning_rate": 3.257045967068692e-06,
      "loss": 0.89795268,
      "num_input_tokens_seen": 54593120,
      "step": 2538,
      "time_per_iteration": 2.568789482116699
    },
    {
      "auxiliary_loss_clip": 0.01121955,
      "auxiliary_loss_mlp": 0.01028107,
      "balance_loss_clip": 1.04661894,
      "balance_loss_mlp": 1.02094555,
      "epoch": 0.30529669933265197,
      "flos": 21947299845120.0,
      "grad_norm": 1.6768778572410834,
      "language_loss": 0.82305759,
      "learning_rate": 3.2564399945912848e-06,
      "loss": 0.84455812,
      "num_input_tokens_seen": 54612910,
      "step": 2539,
      "time_per_iteration": 2.5082013607025146
    },
    {
      "auxiliary_loss_clip": 0.01076524,
      "auxiliary_loss_mlp": 0.01026152,
      "balance_loss_clip": 1.04434347,
      "balance_loss_mlp": 1.01992297,
      "epoch": 0.305416942223291,
      "flos": 21837572686080.0,
      "grad_norm": 2.7187360918685957,
      "language_loss": 0.82310212,
      "learning_rate": 3.2558338315129287e-06,
      "loss": 0.84412891,
      "num_input_tokens_seen": 54631055,
      "step": 2540,
      "time_per_iteration": 2.64127254486084
    },
    {
      "auxiliary_loss_clip": 0.01109939,
      "auxiliary_loss_mlp": 0.01023038,
      "balance_loss_clip": 1.04556274,
      "balance_loss_mlp": 1.01657641,
      "epoch": 0.30553718511393013,
      "flos": 33914622994560.0,
      "grad_norm": 3.1656973437026323,
      "language_loss": 0.75963348,
      "learning_rate": 3.2552274779255785e-06,
      "loss": 0.78096324,
      "num_input_tokens_seen": 54651985,
      "step": 2541,
      "time_per_iteration": 2.6354453563690186
    },
    {
      "auxiliary_loss_clip": 0.01106481,
      "auxiliary_loss_mlp": 0.01024228,
      "balance_loss_clip": 1.04423511,
      "balance_loss_mlp": 1.01805043,
      "epoch": 0.30565742800456924,
      "flos": 22270452347520.0,
      "grad_norm": 2.3627465191770085,
      "language_loss": 0.7773596,
      "learning_rate": 3.2546209339212184e-06,
      "loss": 0.79866672,
      "num_input_tokens_seen": 54671005,
      "step": 2542,
      "time_per_iteration": 2.5551981925964355
    },
    {
      "auxiliary_loss_clip": 0.0109652,
      "auxiliary_loss_mlp": 0.01026398,
      "balance_loss_clip": 1.04397905,
      "balance_loss_mlp": 1.01937675,
      "epoch": 0.3057776708952083,
      "flos": 22567241733120.0,
      "grad_norm": 1.7729850947831594,
      "language_loss": 0.77811694,
      "learning_rate": 3.25401419959186e-06,
      "loss": 0.79934609,
      "num_input_tokens_seen": 54691615,
      "step": 2543,
      "time_per_iteration": 2.589871644973755
    },
    {
      "auxiliary_loss_clip": 0.01102107,
      "auxiliary_loss_mlp": 0.0102909,
      "balance_loss_clip": 1.04789376,
      "balance_loss_mlp": 1.02234864,
      "epoch": 0.3058979137858474,
      "flos": 21801388786560.0,
      "grad_norm": 2.6789515639770656,
      "language_loss": 0.76415455,
      "learning_rate": 3.253407275029545e-06,
      "loss": 0.78546655,
      "num_input_tokens_seen": 54710520,
      "step": 2544,
      "time_per_iteration": 2.6000232696533203
    },
    {
      "auxiliary_loss_clip": 0.01082029,
      "auxiliary_loss_mlp": 0.01022611,
      "balance_loss_clip": 1.0429529,
      "balance_loss_mlp": 1.01559591,
      "epoch": 0.3060181566764865,
      "flos": 26981857013760.0,
      "grad_norm": 2.0441172409251434,
      "language_loss": 0.80213845,
      "learning_rate": 3.2528001603263425e-06,
      "loss": 0.82318485,
      "num_input_tokens_seen": 54732590,
      "step": 2545,
      "time_per_iteration": 3.4090538024902344
    },
    {
      "auxiliary_loss_clip": 0.011034,
      "auxiliary_loss_mlp": 0.01022678,
      "balance_loss_clip": 1.04627681,
      "balance_loss_mlp": 1.01616621,
      "epoch": 0.3061383995671256,
      "flos": 19867147747200.0,
      "grad_norm": 1.8942618767806354,
      "language_loss": 0.81646693,
      "learning_rate": 3.2521928555743514e-06,
      "loss": 0.83772779,
      "num_input_tokens_seen": 54749935,
      "step": 2546,
      "time_per_iteration": 3.2796390056610107
    },
    {
      "auxiliary_loss_clip": 0.01097094,
      "auxiliary_loss_mlp": 0.00757032,
      "balance_loss_clip": 1.04372513,
      "balance_loss_mlp": 1.00136042,
      "epoch": 0.3062586424577647,
      "flos": 22129698147840.0,
      "grad_norm": 1.8857696267520339,
      "language_loss": 0.67905283,
      "learning_rate": 3.2515853608657e-06,
      "loss": 0.69759405,
      "num_input_tokens_seen": 54767935,
      "step": 2547,
      "time_per_iteration": 3.3447108268737793
    },
    {
      "auxiliary_loss_clip": 0.01110688,
      "auxiliary_loss_mlp": 0.01022193,
      "balance_loss_clip": 1.04538608,
      "balance_loss_mlp": 1.01587796,
      "epoch": 0.3063788853484038,
      "flos": 20847336071040.0,
      "grad_norm": 2.405394363551114,
      "language_loss": 0.7518903,
      "learning_rate": 3.250977676292545e-06,
      "loss": 0.77321911,
      "num_input_tokens_seen": 54786175,
      "step": 2548,
      "time_per_iteration": 3.2298879623413086
    },
    {
      "auxiliary_loss_clip": 0.01096146,
      "auxiliary_loss_mlp": 0.01023824,
      "balance_loss_clip": 1.04380023,
      "balance_loss_mlp": 1.01729417,
      "epoch": 0.30649912823904285,
      "flos": 16211180977920.0,
      "grad_norm": 2.247252714848564,
      "language_loss": 0.79667741,
      "learning_rate": 3.2503698019470712e-06,
      "loss": 0.81787711,
      "num_input_tokens_seen": 54801945,
      "step": 2549,
      "time_per_iteration": 2.552673816680908
    },
    {
      "auxiliary_loss_clip": 0.01111921,
      "auxiliary_loss_mlp": 0.01024285,
      "balance_loss_clip": 1.04747272,
      "balance_loss_mlp": 1.01743352,
      "epoch": 0.30661937112968196,
      "flos": 18619414928640.0,
      "grad_norm": 2.631423013017177,
      "language_loss": 0.78228951,
      "learning_rate": 3.249761737921492e-06,
      "loss": 0.80365151,
      "num_input_tokens_seen": 54818475,
      "step": 2550,
      "time_per_iteration": 2.5192012786865234
    },
    {
      "auxiliary_loss_clip": 0.01092978,
      "auxiliary_loss_mlp": 0.0102864,
      "balance_loss_clip": 1.04418492,
      "balance_loss_mlp": 1.02224135,
      "epoch": 0.30673961402032107,
      "flos": 31393287175680.0,
      "grad_norm": 2.269129726206713,
      "language_loss": 0.74474394,
      "learning_rate": 3.249153484308051e-06,
      "loss": 0.7659601,
      "num_input_tokens_seen": 54837090,
      "step": 2551,
      "time_per_iteration": 2.659773588180542
    },
    {
      "auxiliary_loss_clip": 0.01067021,
      "auxiliary_loss_mlp": 0.01021117,
      "balance_loss_clip": 1.04034948,
      "balance_loss_mlp": 1.01442671,
      "epoch": 0.3068598569109601,
      "flos": 20231868516480.0,
      "grad_norm": 2.1969553119700804,
      "language_loss": 0.7774272,
      "learning_rate": 3.2485450411990194e-06,
      "loss": 0.79830861,
      "num_input_tokens_seen": 54856445,
      "step": 2552,
      "time_per_iteration": 2.6367928981781006
    },
    {
      "auxiliary_loss_clip": 0.01122359,
      "auxiliary_loss_mlp": 0.01024053,
      "balance_loss_clip": 1.04672265,
      "balance_loss_mlp": 1.01757383,
      "epoch": 0.30698009980159924,
      "flos": 29604312587520.0,
      "grad_norm": 1.7794246859929412,
      "language_loss": 0.82590783,
      "learning_rate": 3.2479364086866983e-06,
      "loss": 0.84737194,
      "num_input_tokens_seen": 54876700,
      "step": 2553,
      "time_per_iteration": 2.5723764896392822
    },
    {
      "auxiliary_loss_clip": 0.01093451,
      "auxiliary_loss_mlp": 0.00757412,
      "balance_loss_clip": 1.04759073,
      "balance_loss_mlp": 1.00154018,
      "epoch": 0.30710034269223835,
      "flos": 23844712377600.0,
      "grad_norm": 1.8112284453136924,
      "language_loss": 0.81648433,
      "learning_rate": 3.247327586863416e-06,
      "loss": 0.83499295,
      "num_input_tokens_seen": 54897580,
      "step": 2554,
      "time_per_iteration": 2.695589780807495
    },
    {
      "auxiliary_loss_clip": 0.01084819,
      "auxiliary_loss_mlp": 0.01023398,
      "balance_loss_clip": 1.04321432,
      "balance_loss_mlp": 1.01652002,
      "epoch": 0.3072205855828774,
      "flos": 25887353443200.0,
      "grad_norm": 2.0795884050366107,
      "language_loss": 0.7674883,
      "learning_rate": 3.2467185758215304e-06,
      "loss": 0.7885704,
      "num_input_tokens_seen": 54917320,
      "step": 2555,
      "time_per_iteration": 2.6644933223724365
    },
    {
      "auxiliary_loss_clip": 0.01079871,
      "auxiliary_loss_mlp": 0.00757452,
      "balance_loss_clip": 1.04554033,
      "balance_loss_mlp": 1.00155449,
      "epoch": 0.3073408284735165,
      "flos": 22238553191040.0,
      "grad_norm": 2.888013972828007,
      "language_loss": 0.85770166,
      "learning_rate": 3.246109375653428e-06,
      "loss": 0.87607491,
      "num_input_tokens_seen": 54934085,
      "step": 2556,
      "time_per_iteration": 2.6855854988098145
    },
    {
      "auxiliary_loss_clip": 0.01121085,
      "auxiliary_loss_mlp": 0.01025982,
      "balance_loss_clip": 1.04665899,
      "balance_loss_mlp": 1.01917529,
      "epoch": 0.30746107136415557,
      "flos": 19502313223680.0,
      "grad_norm": 1.9214181211739179,
      "language_loss": 0.78671908,
      "learning_rate": 3.2454999864515243e-06,
      "loss": 0.80818975,
      "num_input_tokens_seen": 54953460,
      "step": 2557,
      "time_per_iteration": 2.52473783493042
    },
    {
      "auxiliary_loss_clip": 0.01083638,
      "auxiliary_loss_mlp": 0.00757495,
      "balance_loss_clip": 1.03878665,
      "balance_loss_mlp": 1.00130224,
      "epoch": 0.3075813142547947,
      "flos": 21726897575040.0,
      "grad_norm": 2.1627260472643792,
      "language_loss": 0.69521224,
      "learning_rate": 3.244890408308263e-06,
      "loss": 0.71362364,
      "num_input_tokens_seen": 54974165,
      "step": 2558,
      "time_per_iteration": 2.6064326763153076
    },
    {
      "auxiliary_loss_clip": 0.01070665,
      "auxiliary_loss_mlp": 0.01020698,
      "balance_loss_clip": 1.04224873,
      "balance_loss_mlp": 1.01412094,
      "epoch": 0.3077015571454338,
      "flos": 24100274759040.0,
      "grad_norm": 3.609058923668458,
      "language_loss": 0.61268437,
      "learning_rate": 3.2442806413161165e-06,
      "loss": 0.63359797,
      "num_input_tokens_seen": 54993810,
      "step": 2559,
      "time_per_iteration": 2.6674437522888184
    },
    {
      "auxiliary_loss_clip": 0.01060321,
      "auxiliary_loss_mlp": 0.01029977,
      "balance_loss_clip": 1.03774381,
      "balance_loss_mlp": 1.02317357,
      "epoch": 0.30782180003607285,
      "flos": 18407430472320.0,
      "grad_norm": 2.1660192579830957,
      "language_loss": 0.76114106,
      "learning_rate": 3.243670685567586e-06,
      "loss": 0.78204405,
      "num_input_tokens_seen": 55011210,
      "step": 2560,
      "time_per_iteration": 2.667200803756714
    },
    {
      "auxiliary_loss_clip": 0.01092801,
      "auxiliary_loss_mlp": 0.00757033,
      "balance_loss_clip": 1.04372811,
      "balance_loss_mlp": 1.00143242,
      "epoch": 0.30794204292671196,
      "flos": 23880820440960.0,
      "grad_norm": 6.795917133520323,
      "language_loss": 0.80276906,
      "learning_rate": 3.2430605411552012e-06,
      "loss": 0.82126737,
      "num_input_tokens_seen": 55031325,
      "step": 2561,
      "time_per_iteration": 2.6280617713928223
    },
    {
      "auxiliary_loss_clip": 0.01068262,
      "auxiliary_loss_mlp": 0.010056,
      "balance_loss_clip": 1.05030596,
      "balance_loss_mlp": 1.00258386,
      "epoch": 0.30806228581735107,
      "flos": 67935171288960.0,
      "grad_norm": 1.2556394802355606,
      "language_loss": 0.7057935,
      "learning_rate": 3.2424502081715205e-06,
      "loss": 0.72653222,
      "num_input_tokens_seen": 55094440,
      "step": 2562,
      "time_per_iteration": 3.248155355453491
    },
    {
      "auxiliary_loss_clip": 0.010871,
      "auxiliary_loss_mlp": 0.0102257,
      "balance_loss_clip": 1.03893518,
      "balance_loss_mlp": 1.01598108,
      "epoch": 0.3081825287079901,
      "flos": 23845546575360.0,
      "grad_norm": 1.8058325126509185,
      "language_loss": 0.78265816,
      "learning_rate": 3.241839686709132e-06,
      "loss": 0.80375493,
      "num_input_tokens_seen": 55115375,
      "step": 2563,
      "time_per_iteration": 2.6032094955444336
    },
    {
      "auxiliary_loss_clip": 0.01112117,
      "auxiliary_loss_mlp": 0.01024236,
      "balance_loss_clip": 1.04621565,
      "balance_loss_mlp": 1.01730084,
      "epoch": 0.30830277159862923,
      "flos": 16211446404480.0,
      "grad_norm": 2.48967241092021,
      "language_loss": 0.82423294,
      "learning_rate": 3.2412289768606495e-06,
      "loss": 0.84559643,
      "num_input_tokens_seen": 55131945,
      "step": 2564,
      "time_per_iteration": 2.5423777103424072
    },
    {
      "auxiliary_loss_clip": 0.01110423,
      "auxiliary_loss_mlp": 0.01031728,
      "balance_loss_clip": 1.04688859,
      "balance_loss_mlp": 1.02513027,
      "epoch": 0.30842301448926834,
      "flos": 29351973242880.0,
      "grad_norm": 2.1346712188474135,
      "language_loss": 0.8273629,
      "learning_rate": 3.240618078718718e-06,
      "loss": 0.84878439,
      "num_input_tokens_seen": 55153405,
      "step": 2565,
      "time_per_iteration": 2.609844446182251
    },
    {
      "auxiliary_loss_clip": 0.01082229,
      "auxiliary_loss_mlp": 0.0102354,
      "balance_loss_clip": 1.04385746,
      "balance_loss_mlp": 1.01696587,
      "epoch": 0.3085432573799074,
      "flos": 21947375681280.0,
      "grad_norm": 1.9999508500689125,
      "language_loss": 0.74549079,
      "learning_rate": 3.240006992376011e-06,
      "loss": 0.76654851,
      "num_input_tokens_seen": 55173030,
      "step": 2566,
      "time_per_iteration": 2.6429247856140137
    },
    {
      "auxiliary_loss_clip": 0.01097783,
      "auxiliary_loss_mlp": 0.01029287,
      "balance_loss_clip": 1.04528701,
      "balance_loss_mlp": 1.02288544,
      "epoch": 0.3086635002705465,
      "flos": 22056913249920.0,
      "grad_norm": 3.0531979258400237,
      "language_loss": 0.76606095,
      "learning_rate": 3.2393957179252284e-06,
      "loss": 0.78733164,
      "num_input_tokens_seen": 55189565,
      "step": 2567,
      "time_per_iteration": 2.6014256477355957
    },
    {
      "auxiliary_loss_clip": 0.01121782,
      "auxiliary_loss_mlp": 0.01025869,
      "balance_loss_clip": 1.0467664,
      "balance_loss_mlp": 1.01930904,
      "epoch": 0.3087837431611856,
      "flos": 32668368981120.0,
      "grad_norm": 1.7953157070128913,
      "language_loss": 0.80957621,
      "learning_rate": 3.2387842554591016e-06,
      "loss": 0.83105278,
      "num_input_tokens_seen": 55210380,
      "step": 2568,
      "time_per_iteration": 2.612037181854248
    },
    {
      "auxiliary_loss_clip": 0.01122149,
      "auxiliary_loss_mlp": 0.01026686,
      "balance_loss_clip": 1.04782462,
      "balance_loss_mlp": 1.01997471,
      "epoch": 0.3089039860518247,
      "flos": 17600957210880.0,
      "grad_norm": 2.1312495734116026,
      "language_loss": 0.87536514,
      "learning_rate": 3.238172605070388e-06,
      "loss": 0.89685345,
      "num_input_tokens_seen": 55225795,
      "step": 2569,
      "time_per_iteration": 2.4822113513946533
    },
    {
      "auxiliary_loss_clip": 0.01096642,
      "auxiliary_loss_mlp": 0.00757501,
      "balance_loss_clip": 1.03946877,
      "balance_loss_mlp": 1.00135565,
      "epoch": 0.3090242289424638,
      "flos": 14385112456320.0,
      "grad_norm": 2.711645681722425,
      "language_loss": 0.78592056,
      "learning_rate": 3.2375607668518745e-06,
      "loss": 0.80446208,
      "num_input_tokens_seen": 55238830,
      "step": 2570,
      "time_per_iteration": 2.4739325046539307
    },
    {
      "auxiliary_loss_clip": 0.01093835,
      "auxiliary_loss_mlp": 0.01021518,
      "balance_loss_clip": 1.04402828,
      "balance_loss_mlp": 1.01506853,
      "epoch": 0.30914447183310284,
      "flos": 16070350942080.0,
      "grad_norm": 2.0107729260799148,
      "language_loss": 0.90156591,
      "learning_rate": 3.236948740896377e-06,
      "loss": 0.92271948,
      "num_input_tokens_seen": 55253630,
      "step": 2571,
      "time_per_iteration": 4.005122900009155
    },
    {
      "auxiliary_loss_clip": 0.01106482,
      "auxiliary_loss_mlp": 0.01025039,
      "balance_loss_clip": 1.04495811,
      "balance_loss_mlp": 1.01849782,
      "epoch": 0.30926471472374195,
      "flos": 32232759217920.0,
      "grad_norm": 1.4865937865879013,
      "language_loss": 0.84447461,
      "learning_rate": 3.2363365272967384e-06,
      "loss": 0.86578983,
      "num_input_tokens_seen": 55276200,
      "step": 2572,
      "time_per_iteration": 2.6262428760528564
    },
    {
      "auxiliary_loss_clip": 0.01103054,
      "auxiliary_loss_mlp": 0.01028924,
      "balance_loss_clip": 1.04731464,
      "balance_loss_mlp": 1.02152419,
      "epoch": 0.30938495761438106,
      "flos": 20372508961920.0,
      "grad_norm": 1.8565368748140398,
      "language_loss": 0.81983924,
      "learning_rate": 3.235724126145832e-06,
      "loss": 0.84115899,
      "num_input_tokens_seen": 55292235,
      "step": 2573,
      "time_per_iteration": 2.55623459815979
    },
    {
      "auxiliary_loss_clip": 0.01110107,
      "auxiliary_loss_mlp": 0.01027935,
      "balance_loss_clip": 1.04572773,
      "balance_loss_mlp": 1.02116048,
      "epoch": 0.3095052005050201,
      "flos": 24063446252160.0,
      "grad_norm": 2.068451128662035,
      "language_loss": 0.77830064,
      "learning_rate": 3.235111537536558e-06,
      "loss": 0.79968107,
      "num_input_tokens_seen": 55313050,
      "step": 2574,
      "time_per_iteration": 3.4461379051208496
    },
    {
      "auxiliary_loss_clip": 0.01109817,
      "auxiliary_loss_mlp": 0.01020273,
      "balance_loss_clip": 1.04674685,
      "balance_loss_mlp": 1.0140121,
      "epoch": 0.30962544339565923,
      "flos": 23403642410880.0,
      "grad_norm": 2.8237896792154165,
      "language_loss": 0.83170283,
      "learning_rate": 3.2344987615618456e-06,
      "loss": 0.8530038,
      "num_input_tokens_seen": 55332885,
      "step": 2575,
      "time_per_iteration": 2.560153007507324
    },
    {
      "auxiliary_loss_clip": 0.01076533,
      "auxiliary_loss_mlp": 0.010287,
      "balance_loss_clip": 1.04423118,
      "balance_loss_mlp": 1.02234888,
      "epoch": 0.30974568628629834,
      "flos": 33802658668800.0,
      "grad_norm": 1.691711960523492,
      "language_loss": 0.78806412,
      "learning_rate": 3.2338857983146533e-06,
      "loss": 0.80911648,
      "num_input_tokens_seen": 55354385,
      "step": 2576,
      "time_per_iteration": 2.7292048931121826
    },
    {
      "auxiliary_loss_clip": 0.0109798,
      "auxiliary_loss_mlp": 0.01022209,
      "balance_loss_clip": 1.04570282,
      "balance_loss_mlp": 1.01509833,
      "epoch": 0.3098659291769374,
      "flos": 20231641008000.0,
      "grad_norm": 2.0564378236660694,
      "language_loss": 0.76613843,
      "learning_rate": 3.233272647887966e-06,
      "loss": 0.7873404,
      "num_input_tokens_seen": 55373275,
      "step": 2577,
      "time_per_iteration": 2.5561015605926514
    },
    {
      "auxiliary_loss_clip": 0.01123083,
      "auxiliary_loss_mlp": 0.01028712,
      "balance_loss_clip": 1.04842234,
      "balance_loss_mlp": 1.02217674,
      "epoch": 0.3099861720675765,
      "flos": 24750561162240.0,
      "grad_norm": 1.624160359411849,
      "language_loss": 0.90160465,
      "learning_rate": 3.2326593103747985e-06,
      "loss": 0.92312264,
      "num_input_tokens_seen": 55392290,
      "step": 2578,
      "time_per_iteration": 2.59074330329895
    },
    {
      "auxiliary_loss_clip": 0.01108505,
      "auxiliary_loss_mlp": 0.01024093,
      "balance_loss_clip": 1.04797184,
      "balance_loss_mlp": 1.01735795,
      "epoch": 0.3101064149582156,
      "flos": 11767093297920.0,
      "grad_norm": 2.344118921826989,
      "language_loss": 0.85304928,
      "learning_rate": 3.2320457858681936e-06,
      "loss": 0.87437528,
      "num_input_tokens_seen": 55410680,
      "step": 2579,
      "time_per_iteration": 2.5601625442504883
    },
    {
      "auxiliary_loss_clip": 0.01096881,
      "auxiliary_loss_mlp": 0.01021532,
      "balance_loss_clip": 1.04515839,
      "balance_loss_mlp": 1.01511598,
      "epoch": 0.31022665784885467,
      "flos": 23035129833600.0,
      "grad_norm": 2.890911639325038,
      "language_loss": 0.85161793,
      "learning_rate": 3.2314320744612228e-06,
      "loss": 0.87280202,
      "num_input_tokens_seen": 55425980,
      "step": 2580,
      "time_per_iteration": 2.5904481410980225
    },
    {
      "auxiliary_loss_clip": 0.01105311,
      "auxiliary_loss_mlp": 0.01023545,
      "balance_loss_clip": 1.04377937,
      "balance_loss_mlp": 1.01724219,
      "epoch": 0.3103469007394938,
      "flos": 16291018638720.0,
      "grad_norm": 1.8442956896625669,
      "language_loss": 0.76484841,
      "learning_rate": 3.2308181762469854e-06,
      "loss": 0.78613698,
      "num_input_tokens_seen": 55443925,
      "step": 2581,
      "time_per_iteration": 2.50249981880188
    },
    {
      "auxiliary_loss_clip": 0.01122469,
      "auxiliary_loss_mlp": 0.01028758,
      "balance_loss_clip": 1.04701757,
      "balance_loss_mlp": 1.02180839,
      "epoch": 0.3104671436301329,
      "flos": 30517707070080.0,
      "grad_norm": 2.2365074091143486,
      "language_loss": 0.78838623,
      "learning_rate": 3.230204091318609e-06,
      "loss": 0.8098985,
      "num_input_tokens_seen": 55464465,
      "step": 2582,
      "time_per_iteration": 2.5791208744049072
    },
    {
      "auxiliary_loss_clip": 0.01120797,
      "auxiliary_loss_mlp": 0.0075694,
      "balance_loss_clip": 1.0464412,
      "balance_loss_mlp": 1.0015043,
      "epoch": 0.31058738652077195,
      "flos": 20049280623360.0,
      "grad_norm": 2.061737480730193,
      "language_loss": 0.84896624,
      "learning_rate": 3.2295898197692503e-06,
      "loss": 0.86774355,
      "num_input_tokens_seen": 55483425,
      "step": 2583,
      "time_per_iteration": 2.500323534011841
    },
    {
      "auxiliary_loss_clip": 0.01122107,
      "auxiliary_loss_mlp": 0.01027201,
      "balance_loss_clip": 1.0479244,
      "balance_loss_mlp": 1.020859,
      "epoch": 0.31070762941141106,
      "flos": 28077156864000.0,
      "grad_norm": 4.086695453561039,
      "language_loss": 0.79280245,
      "learning_rate": 3.228975361692094e-06,
      "loss": 0.81429553,
      "num_input_tokens_seen": 55504445,
      "step": 2584,
      "time_per_iteration": 2.595458984375
    },
    {
      "auxiliary_loss_clip": 0.01110442,
      "auxiliary_loss_mlp": 0.00757414,
      "balance_loss_clip": 1.04551697,
      "balance_loss_mlp": 1.00166988,
      "epoch": 0.31082787230205017,
      "flos": 20523993978240.0,
      "grad_norm": 2.3013725759473793,
      "language_loss": 0.80417168,
      "learning_rate": 3.228360717180352e-06,
      "loss": 0.82285023,
      "num_input_tokens_seen": 55521970,
      "step": 2585,
      "time_per_iteration": 2.5295512676239014
    },
    {
      "auxiliary_loss_clip": 0.01102859,
      "auxiliary_loss_mlp": 0.00753085,
      "balance_loss_clip": 1.05530739,
      "balance_loss_mlp": 1.00053144,
      "epoch": 0.3109481151926892,
      "flos": 62452491390720.0,
      "grad_norm": 2.2300007017723114,
      "language_loss": 0.5935781,
      "learning_rate": 3.227745886327266e-06,
      "loss": 0.61213756,
      "num_input_tokens_seen": 55580665,
      "step": 2586,
      "time_per_iteration": 3.0684521198272705
    },
    {
      "auxiliary_loss_clip": 0.01103742,
      "auxiliary_loss_mlp": 0.01003559,
      "balance_loss_clip": 1.05618048,
      "balance_loss_mlp": 1.00068593,
      "epoch": 0.31106835808332833,
      "flos": 44752120738560.0,
      "grad_norm": 0.805364337929941,
      "language_loss": 0.55790472,
      "learning_rate": 3.227130869226105e-06,
      "loss": 0.5789777,
      "num_input_tokens_seen": 55637825,
      "step": 2587,
      "time_per_iteration": 3.103317975997925
    },
    {
      "auxiliary_loss_clip": 0.01108348,
      "auxiliary_loss_mlp": 0.01018752,
      "balance_loss_clip": 1.0456568,
      "balance_loss_mlp": 1.01249313,
      "epoch": 0.3111886009739674,
      "flos": 23405234970240.0,
      "grad_norm": 3.3222105520760583,
      "language_loss": 0.82889169,
      "learning_rate": 3.226515665970167e-06,
      "loss": 0.85016263,
      "num_input_tokens_seen": 55655365,
      "step": 2588,
      "time_per_iteration": 2.5665454864501953
    },
    {
      "auxiliary_loss_clip": 0.01106911,
      "auxiliary_loss_mlp": 0.01023283,
      "balance_loss_clip": 1.04522967,
      "balance_loss_mlp": 1.01573062,
      "epoch": 0.3113088438646065,
      "flos": 17532684564480.0,
      "grad_norm": 2.5306624157073467,
      "language_loss": 0.86122614,
      "learning_rate": 3.225900276652777e-06,
      "loss": 0.88252807,
      "num_input_tokens_seen": 55672140,
      "step": 2589,
      "time_per_iteration": 2.5052149295806885
    },
    {
      "auxiliary_loss_clip": 0.01097601,
      "auxiliary_loss_mlp": 0.01024641,
      "balance_loss_clip": 1.04474425,
      "balance_loss_mlp": 1.01813841,
      "epoch": 0.3114290867552456,
      "flos": 28368296455680.0,
      "grad_norm": 1.6685264279648269,
      "language_loss": 0.75701928,
      "learning_rate": 3.2252847013672906e-06,
      "loss": 0.77824169,
      "num_input_tokens_seen": 55694800,
      "step": 2590,
      "time_per_iteration": 2.653280019760132
    },
    {
      "auxiliary_loss_clip": 0.01072588,
      "auxiliary_loss_mlp": 0.01020371,
      "balance_loss_clip": 1.03720403,
      "balance_loss_mlp": 1.01383853,
      "epoch": 0.31154932964588467,
      "flos": 27381510385920.0,
      "grad_norm": 2.0710212768447724,
      "language_loss": 0.76476431,
      "learning_rate": 3.224668940207089e-06,
      "loss": 0.78569394,
      "num_input_tokens_seen": 55713785,
      "step": 2591,
      "time_per_iteration": 2.680370330810547
    },
    {
      "auxiliary_loss_clip": 0.01076771,
      "auxiliary_loss_mlp": 0.01027386,
      "balance_loss_clip": 1.04439116,
      "balance_loss_mlp": 1.02069211,
      "epoch": 0.3116695725365238,
      "flos": 26544275510400.0,
      "grad_norm": 1.8054279460478404,
      "language_loss": 0.87108612,
      "learning_rate": 3.2240529932655828e-06,
      "loss": 0.89212775,
      "num_input_tokens_seen": 55733050,
      "step": 2592,
      "time_per_iteration": 2.673832893371582
    },
    {
      "auxiliary_loss_clip": 0.01093781,
      "auxiliary_loss_mlp": 0.01028152,
      "balance_loss_clip": 1.0458982,
      "balance_loss_mlp": 1.02119362,
      "epoch": 0.3117898154271629,
      "flos": 21179664748800.0,
      "grad_norm": 2.5352631518073325,
      "language_loss": 0.88762105,
      "learning_rate": 3.223436860636211e-06,
      "loss": 0.90884042,
      "num_input_tokens_seen": 55748685,
      "step": 2593,
      "time_per_iteration": 2.5883002281188965
    },
    {
      "auxiliary_loss_clip": 0.01120925,
      "auxiliary_loss_mlp": 0.01025809,
      "balance_loss_clip": 1.04737782,
      "balance_loss_mlp": 1.01939535,
      "epoch": 0.31191005831780194,
      "flos": 27274930427520.0,
      "grad_norm": 1.6946653158358096,
      "language_loss": 0.74015319,
      "learning_rate": 3.2228205424124403e-06,
      "loss": 0.76162052,
      "num_input_tokens_seen": 55771840,
      "step": 2594,
      "time_per_iteration": 2.5885252952575684
    },
    {
      "auxiliary_loss_clip": 0.01091781,
      "auxiliary_loss_mlp": 0.01020765,
      "balance_loss_clip": 1.0417757,
      "balance_loss_mlp": 1.01422381,
      "epoch": 0.31203030120844105,
      "flos": 12964840035840.0,
      "grad_norm": 2.4396682178513758,
      "language_loss": 0.74873352,
      "learning_rate": 3.222204038687765e-06,
      "loss": 0.76985902,
      "num_input_tokens_seen": 55784975,
      "step": 2595,
      "time_per_iteration": 2.544151544570923
    },
    {
      "auxiliary_loss_clip": 0.01106977,
      "auxiliary_loss_mlp": 0.01022472,
      "balance_loss_clip": 1.04553425,
      "balance_loss_mlp": 1.01614499,
      "epoch": 0.31215054409908016,
      "flos": 27564401623680.0,
      "grad_norm": 1.7118679380719113,
      "language_loss": 0.87850487,
      "learning_rate": 3.221587349555709e-06,
      "loss": 0.89979935,
      "num_input_tokens_seen": 55805235,
      "step": 2596,
      "time_per_iteration": 2.5956716537475586
    },
    {
      "auxiliary_loss_clip": 0.01096524,
      "auxiliary_loss_mlp": 0.01018976,
      "balance_loss_clip": 1.04416203,
      "balance_loss_mlp": 1.01224995,
      "epoch": 0.3122707869897192,
      "flos": 21508429127040.0,
      "grad_norm": 2.7105487574645943,
      "language_loss": 0.69168437,
      "learning_rate": 3.2209704751098236e-06,
      "loss": 0.71283937,
      "num_input_tokens_seen": 55824265,
      "step": 2597,
      "time_per_iteration": 4.137222766876221
    },
    {
      "auxiliary_loss_clip": 0.01095203,
      "auxiliary_loss_mlp": 0.01024299,
      "balance_loss_clip": 1.04540014,
      "balance_loss_mlp": 1.01756358,
      "epoch": 0.31239102988035833,
      "flos": 15188362680960.0,
      "grad_norm": 2.0141557639435383,
      "language_loss": 0.8253603,
      "learning_rate": 3.2203534154436875e-06,
      "loss": 0.84655535,
      "num_input_tokens_seen": 55838620,
      "step": 2598,
      "time_per_iteration": 2.528852701187134
    },
    {
      "auxiliary_loss_clip": 0.0105142,
      "auxiliary_loss_mlp": 0.01032834,
      "balance_loss_clip": 1.03781796,
      "balance_loss_mlp": 1.02617657,
      "epoch": 0.31251127277099744,
      "flos": 22055851543680.0,
      "grad_norm": 1.9521236336579797,
      "language_loss": 0.7583707,
      "learning_rate": 3.2197361706509084e-06,
      "loss": 0.77921325,
      "num_input_tokens_seen": 55859375,
      "step": 2599,
      "time_per_iteration": 3.512641668319702
    },
    {
      "auxiliary_loss_clip": 0.01122863,
      "auxiliary_loss_mlp": 0.01025506,
      "balance_loss_clip": 1.04749298,
      "balance_loss_mlp": 1.01819253,
      "epoch": 0.3126315156616365,
      "flos": 15195718788480.0,
      "grad_norm": 2.738481926606296,
      "language_loss": 0.83955348,
      "learning_rate": 3.2191187408251228e-06,
      "loss": 0.86103719,
      "num_input_tokens_seen": 55876535,
      "step": 2600,
      "time_per_iteration": 3.2792344093322754
    },
    {
      "auxiliary_loss_clip": 0.01109479,
      "auxiliary_loss_mlp": 0.01025491,
      "balance_loss_clip": 1.04538178,
      "balance_loss_mlp": 1.01841927,
      "epoch": 0.3127517585522756,
      "flos": 18147014576640.0,
      "grad_norm": 3.4885328002598084,
      "language_loss": 0.78769672,
      "learning_rate": 3.218501126059993e-06,
      "loss": 0.80904645,
      "num_input_tokens_seen": 55891930,
      "step": 2601,
      "time_per_iteration": 2.480365037918091
    },
    {
      "auxiliary_loss_clip": 0.01109265,
      "auxiliary_loss_mlp": 0.01020645,
      "balance_loss_clip": 1.0446949,
      "balance_loss_mlp": 1.01403189,
      "epoch": 0.31287200144291466,
      "flos": 21910812600960.0,
      "grad_norm": 2.2918722115832395,
      "language_loss": 0.81755668,
      "learning_rate": 3.2178833264492116e-06,
      "loss": 0.83885574,
      "num_input_tokens_seen": 55910635,
      "step": 2602,
      "time_per_iteration": 2.5665476322174072
    },
    {
      "auxiliary_loss_clip": 0.01110374,
      "auxiliary_loss_mlp": 0.01023783,
      "balance_loss_clip": 1.04555309,
      "balance_loss_mlp": 1.01709795,
      "epoch": 0.31299224433355377,
      "flos": 29899509413760.0,
      "grad_norm": 2.0141757042011235,
      "language_loss": 0.76164454,
      "learning_rate": 3.217265342086498e-06,
      "loss": 0.7829861,
      "num_input_tokens_seen": 55931125,
      "step": 2603,
      "time_per_iteration": 2.5905709266662598
    },
    {
      "auxiliary_loss_clip": 0.01075265,
      "auxiliary_loss_mlp": 0.00757715,
      "balance_loss_clip": 1.042418,
      "balance_loss_mlp": 1.00167143,
      "epoch": 0.3131124872241929,
      "flos": 11657479893120.0,
      "grad_norm": 2.1794114500315325,
      "language_loss": 0.7359491,
      "learning_rate": 3.216647173065599e-06,
      "loss": 0.7542789,
      "num_input_tokens_seen": 55946590,
      "step": 2604,
      "time_per_iteration": 2.605483055114746
    },
    {
      "auxiliary_loss_clip": 0.01089928,
      "auxiliary_loss_mlp": 0.01025676,
      "balance_loss_clip": 1.04359901,
      "balance_loss_mlp": 1.01875937,
      "epoch": 0.31323273011483194,
      "flos": 49852078830720.0,
      "grad_norm": 1.8084895030344599,
      "language_loss": 0.73718697,
      "learning_rate": 3.216028819480292e-06,
      "loss": 0.75834304,
      "num_input_tokens_seen": 55967930,
      "step": 2605,
      "time_per_iteration": 2.817007303237915
    },
    {
      "auxiliary_loss_clip": 0.01095461,
      "auxiliary_loss_mlp": 0.01025365,
      "balance_loss_clip": 1.04513049,
      "balance_loss_mlp": 1.01872563,
      "epoch": 0.31335297300547105,
      "flos": 22603463550720.0,
      "grad_norm": 6.100734973474576,
      "language_loss": 0.75209033,
      "learning_rate": 3.2154102814243793e-06,
      "loss": 0.77329862,
      "num_input_tokens_seen": 55987070,
      "step": 2606,
      "time_per_iteration": 2.594179153442383
    },
    {
      "auxiliary_loss_clip": 0.01076289,
      "auxiliary_loss_mlp": 0.01024397,
      "balance_loss_clip": 1.04063892,
      "balance_loss_mlp": 1.01768589,
      "epoch": 0.31347321589611016,
      "flos": 34713512640000.0,
      "grad_norm": 2.982048280305107,
      "language_loss": 0.67151809,
      "learning_rate": 3.2147915589916937e-06,
      "loss": 0.69252503,
      "num_input_tokens_seen": 56008630,
      "step": 2607,
      "time_per_iteration": 2.7405238151550293
    },
    {
      "auxiliary_loss_clip": 0.01099938,
      "auxiliary_loss_mlp": 0.01023256,
      "balance_loss_clip": 1.04437268,
      "balance_loss_mlp": 1.01696515,
      "epoch": 0.3135934587867492,
      "flos": 19757837687040.0,
      "grad_norm": 2.0117037568120475,
      "language_loss": 0.82798928,
      "learning_rate": 3.2141726522760938e-06,
      "loss": 0.84922123,
      "num_input_tokens_seen": 56026690,
      "step": 2608,
      "time_per_iteration": 2.5615551471710205
    },
    {
      "auxiliary_loss_clip": 0.01085877,
      "auxiliary_loss_mlp": 0.01006861,
      "balance_loss_clip": 1.05134225,
      "balance_loss_mlp": 1.0038693,
      "epoch": 0.3137137016773883,
      "flos": 65823006280320.0,
      "grad_norm": 1.1482559515581239,
      "language_loss": 0.52579725,
      "learning_rate": 3.213553561371469e-06,
      "loss": 0.54672462,
      "num_input_tokens_seen": 56090425,
      "step": 2609,
      "time_per_iteration": 3.263615369796753
    },
    {
      "auxiliary_loss_clip": 0.0106402,
      "auxiliary_loss_mlp": 0.01025577,
      "balance_loss_clip": 1.04047608,
      "balance_loss_mlp": 1.019256,
      "epoch": 0.31383394456802743,
      "flos": 16254569312640.0,
      "grad_norm": 2.731002120542077,
      "language_loss": 0.95973575,
      "learning_rate": 3.212934286371733e-06,
      "loss": 0.98063171,
      "num_input_tokens_seen": 56107135,
      "step": 2610,
      "time_per_iteration": 2.601649522781372
    },
    {
      "auxiliary_loss_clip": 0.01103456,
      "auxiliary_loss_mlp": 0.0102402,
      "balance_loss_clip": 1.04653001,
      "balance_loss_mlp": 1.01686192,
      "epoch": 0.3139541874586665,
      "flos": 38798301836160.0,
      "grad_norm": 2.4405031113585895,
      "language_loss": 0.83435565,
      "learning_rate": 3.2123148273708304e-06,
      "loss": 0.8556304,
      "num_input_tokens_seen": 56127325,
      "step": 2611,
      "time_per_iteration": 2.7109153270721436
    },
    {
      "auxiliary_loss_clip": 0.01120021,
      "auxiliary_loss_mlp": 0.01020726,
      "balance_loss_clip": 1.04631257,
      "balance_loss_mlp": 1.01406801,
      "epoch": 0.3140744303493056,
      "flos": 25048677680640.0,
      "grad_norm": 2.0859337466365377,
      "language_loss": 0.77093422,
      "learning_rate": 3.211695184462733e-06,
      "loss": 0.79234171,
      "num_input_tokens_seen": 56148500,
      "step": 2612,
      "time_per_iteration": 2.528625011444092
    },
    {
      "auxiliary_loss_clip": 0.01061407,
      "auxiliary_loss_mlp": 0.01002569,
      "balance_loss_clip": 1.0474987,
      "balance_loss_mlp": 0.99969578,
      "epoch": 0.3141946732399447,
      "flos": 72510723239040.0,
      "grad_norm": 0.8975422200555927,
      "language_loss": 0.6044746,
      "learning_rate": 3.2110753577414383e-06,
      "loss": 0.62511438,
      "num_input_tokens_seen": 56210080,
      "step": 2613,
      "time_per_iteration": 3.18955659866333
    },
    {
      "auxiliary_loss_clip": 0.01093096,
      "auxiliary_loss_mlp": 0.01018791,
      "balance_loss_clip": 1.04093313,
      "balance_loss_mlp": 1.01212442,
      "epoch": 0.31431491613058377,
      "flos": 19241518147200.0,
      "grad_norm": 2.0570183227354466,
      "language_loss": 0.7888329,
      "learning_rate": 3.2104553473009757e-06,
      "loss": 0.80995178,
      "num_input_tokens_seen": 56228200,
      "step": 2614,
      "time_per_iteration": 2.5405614376068115
    },
    {
      "auxiliary_loss_clip": 0.01062637,
      "auxiliary_loss_mlp": 0.01023197,
      "balance_loss_clip": 1.03862762,
      "balance_loss_mlp": 1.01666141,
      "epoch": 0.3144351590212229,
      "flos": 36213546885120.0,
      "grad_norm": 2.2735108789115333,
      "language_loss": 0.68008375,
      "learning_rate": 3.209835153235399e-06,
      "loss": 0.7009421,
      "num_input_tokens_seen": 56249755,
      "step": 2615,
      "time_per_iteration": 2.7654755115509033
    },
    {
      "auxiliary_loss_clip": 0.01087677,
      "auxiliary_loss_mlp": 0.01023359,
      "balance_loss_clip": 1.04504943,
      "balance_loss_mlp": 1.01690936,
      "epoch": 0.314555401911862,
      "flos": 18553720711680.0,
      "grad_norm": 1.7872880472809756,
      "language_loss": 0.6813513,
      "learning_rate": 3.2092147756387916e-06,
      "loss": 0.70246166,
      "num_input_tokens_seen": 56270080,
      "step": 2616,
      "time_per_iteration": 2.6027309894561768
    },
    {
      "auxiliary_loss_clip": 0.01101143,
      "auxiliary_loss_mlp": 0.01023963,
      "balance_loss_clip": 1.04597545,
      "balance_loss_mlp": 1.01693249,
      "epoch": 0.31467564480250104,
      "flos": 16364751488640.0,
      "grad_norm": 4.432691453070435,
      "language_loss": 0.83775342,
      "learning_rate": 3.208594214605264e-06,
      "loss": 0.8590045,
      "num_input_tokens_seen": 56288625,
      "step": 2617,
      "time_per_iteration": 2.590240716934204
    },
    {
      "auxiliary_loss_clip": 0.0109514,
      "auxiliary_loss_mlp": 0.01024271,
      "balance_loss_clip": 1.04439521,
      "balance_loss_mlp": 1.01820278,
      "epoch": 0.31479588769314015,
      "flos": 21654491857920.0,
      "grad_norm": 2.0895595183860975,
      "language_loss": 0.77350855,
      "learning_rate": 3.2079734702289553e-06,
      "loss": 0.79470265,
      "num_input_tokens_seen": 56307520,
      "step": 2618,
      "time_per_iteration": 2.590388536453247
    },
    {
      "auxiliary_loss_clip": 0.01081862,
      "auxiliary_loss_mlp": 0.00752623,
      "balance_loss_clip": 1.04727614,
      "balance_loss_mlp": 1.00019133,
      "epoch": 0.3149161305837792,
      "flos": 66057448291200.0,
      "grad_norm": 0.8049726474760823,
      "language_loss": 0.60434848,
      "learning_rate": 3.207352542604031e-06,
      "loss": 0.62269324,
      "num_input_tokens_seen": 56369855,
      "step": 2619,
      "time_per_iteration": 3.2231526374816895
    },
    {
      "auxiliary_loss_clip": 0.01071064,
      "auxiliary_loss_mlp": 0.01024063,
      "balance_loss_clip": 1.03826785,
      "balance_loss_mlp": 1.01774549,
      "epoch": 0.3150363734744183,
      "flos": 28989792984960.0,
      "grad_norm": 1.6774081676347037,
      "language_loss": 0.78642523,
      "learning_rate": 3.2067314318246864e-06,
      "loss": 0.8073765,
      "num_input_tokens_seen": 56390570,
      "step": 2620,
      "time_per_iteration": 2.671058177947998
    },
    {
      "auxiliary_loss_clip": 0.01081551,
      "auxiliary_loss_mlp": 0.01021161,
      "balance_loss_clip": 1.04367542,
      "balance_loss_mlp": 1.01443124,
      "epoch": 0.31515661636505743,
      "flos": 27639082425600.0,
      "grad_norm": 1.660805881419334,
      "language_loss": 0.77898163,
      "learning_rate": 3.206110137985143e-06,
      "loss": 0.80000877,
      "num_input_tokens_seen": 56410775,
      "step": 2621,
      "time_per_iteration": 2.632748603820801
    },
    {
      "auxiliary_loss_clip": 0.01071029,
      "auxiliary_loss_mlp": 0.01026105,
      "balance_loss_clip": 1.03652501,
      "balance_loss_mlp": 1.01945639,
      "epoch": 0.3152768592556965,
      "flos": 24607797304320.0,
      "grad_norm": 3.8412848927385213,
      "language_loss": 0.9242366,
      "learning_rate": 3.2054886611796505e-06,
      "loss": 0.94520795,
      "num_input_tokens_seen": 56429770,
      "step": 2622,
      "time_per_iteration": 3.3982410430908203
    },
    {
      "auxiliary_loss_clip": 0.01096403,
      "auxiliary_loss_mlp": 0.01005062,
      "balance_loss_clip": 1.05089974,
      "balance_loss_mlp": 1.00236797,
      "epoch": 0.3153971021463356,
      "flos": 68482376248320.0,
      "grad_norm": 0.897824998822225,
      "language_loss": 0.6350466,
      "learning_rate": 3.204867001502487e-06,
      "loss": 0.65606123,
      "num_input_tokens_seen": 56488425,
      "step": 2623,
      "time_per_iteration": 3.8680920600891113
    },
    {
      "auxiliary_loss_clip": 0.01122493,
      "auxiliary_loss_mlp": 0.01023325,
      "balance_loss_clip": 1.04792285,
      "balance_loss_mlp": 1.01625311,
      "epoch": 0.3155173450369747,
      "flos": 25596100097280.0,
      "grad_norm": 1.9584254852886038,
      "language_loss": 0.8083564,
      "learning_rate": 3.2042451590479567e-06,
      "loss": 0.82981461,
      "num_input_tokens_seen": 56508940,
      "step": 2624,
      "time_per_iteration": 2.5466039180755615
    },
    {
      "auxiliary_loss_clip": 0.01119217,
      "auxiliary_loss_mlp": 0.01019968,
      "balance_loss_clip": 1.04671073,
      "balance_loss_mlp": 1.01389992,
      "epoch": 0.31563758792761376,
      "flos": 24311235427200.0,
      "grad_norm": 1.7381846201475362,
      "language_loss": 0.87427568,
      "learning_rate": 3.203623133910394e-06,
      "loss": 0.89566755,
      "num_input_tokens_seen": 56527245,
      "step": 2625,
      "time_per_iteration": 3.2964224815368652
    },
    {
      "auxiliary_loss_clip": 0.01052896,
      "auxiliary_loss_mlp": 0.01022965,
      "balance_loss_clip": 1.03971398,
      "balance_loss_mlp": 1.01643538,
      "epoch": 0.31575783081825287,
      "flos": 31906497432960.0,
      "grad_norm": 2.4969478122994957,
      "language_loss": 0.7759496,
      "learning_rate": 3.203000926184158e-06,
      "loss": 0.79670823,
      "num_input_tokens_seen": 56546170,
      "step": 2626,
      "time_per_iteration": 3.5196692943573
    },
    {
      "auxiliary_loss_clip": 0.01119385,
      "auxiliary_loss_mlp": 0.0102424,
      "balance_loss_clip": 1.04551256,
      "balance_loss_mlp": 1.01821399,
      "epoch": 0.315878073708892,
      "flos": 30813624339840.0,
      "grad_norm": 1.7836750149790954,
      "language_loss": 0.77917004,
      "learning_rate": 3.202378535963639e-06,
      "loss": 0.80060625,
      "num_input_tokens_seen": 56567085,
      "step": 2627,
      "time_per_iteration": 2.584433078765869
    },
    {
      "auxiliary_loss_clip": 0.01095233,
      "auxiliary_loss_mlp": 0.00757404,
      "balance_loss_clip": 1.04282212,
      "balance_loss_mlp": 1.00148463,
      "epoch": 0.31599831659953104,
      "flos": 22202445127680.0,
      "grad_norm": 1.7839692600477781,
      "language_loss": 0.83783317,
      "learning_rate": 3.2017559633432516e-06,
      "loss": 0.8563596,
      "num_input_tokens_seen": 56586715,
      "step": 2628,
      "time_per_iteration": 2.611027717590332
    },
    {
      "auxiliary_loss_clip": 0.01098402,
      "auxiliary_loss_mlp": 0.01023242,
      "balance_loss_clip": 1.04494524,
      "balance_loss_mlp": 1.01654863,
      "epoch": 0.31611855949017015,
      "flos": 25595834670720.0,
      "grad_norm": 2.1190739829064746,
      "language_loss": 0.66434908,
      "learning_rate": 3.2011332084174398e-06,
      "loss": 0.68556547,
      "num_input_tokens_seen": 56607585,
      "step": 2629,
      "time_per_iteration": 2.609013319015503
    },
    {
      "auxiliary_loss_clip": 0.01104004,
      "auxiliary_loss_mlp": 0.01024379,
      "balance_loss_clip": 1.04482985,
      "balance_loss_mlp": 1.01798904,
      "epoch": 0.31623880238080926,
      "flos": 20596134268800.0,
      "grad_norm": 1.6240387269335186,
      "language_loss": 0.89151227,
      "learning_rate": 3.2005102712806756e-06,
      "loss": 0.91279614,
      "num_input_tokens_seen": 56626415,
      "step": 2630,
      "time_per_iteration": 2.552525520324707
    },
    {
      "auxiliary_loss_clip": 0.01109062,
      "auxiliary_loss_mlp": 0.01027117,
      "balance_loss_clip": 1.04532266,
      "balance_loss_mlp": 1.02014339,
      "epoch": 0.3163590452714483,
      "flos": 12786461049600.0,
      "grad_norm": 2.332600327936466,
      "language_loss": 0.73180836,
      "learning_rate": 3.1998871520274575e-06,
      "loss": 0.75317019,
      "num_input_tokens_seen": 56641750,
      "step": 2631,
      "time_per_iteration": 2.510608673095703
    },
    {
      "auxiliary_loss_clip": 0.01099992,
      "auxiliary_loss_mlp": 0.01026907,
      "balance_loss_clip": 1.04529619,
      "balance_loss_mlp": 1.02025199,
      "epoch": 0.3164792881620874,
      "flos": 23043623483520.0,
      "grad_norm": 1.9496047656189985,
      "language_loss": 0.85155725,
      "learning_rate": 3.199263850752312e-06,
      "loss": 0.87282622,
      "num_input_tokens_seen": 56662585,
      "step": 2632,
      "time_per_iteration": 2.6375479698181152
    },
    {
      "auxiliary_loss_clip": 0.01107324,
      "auxiliary_loss_mlp": 0.01026252,
      "balance_loss_clip": 1.04527938,
      "balance_loss_mlp": 1.0191294,
      "epoch": 0.31659953105272653,
      "flos": 18298234166400.0,
      "grad_norm": 2.468242365145879,
      "language_loss": 0.85633171,
      "learning_rate": 3.198640367549795e-06,
      "loss": 0.87766743,
      "num_input_tokens_seen": 56681480,
      "step": 2633,
      "time_per_iteration": 2.542722463607788
    },
    {
      "auxiliary_loss_clip": 0.01106849,
      "auxiliary_loss_mlp": 0.00756731,
      "balance_loss_clip": 1.04392302,
      "balance_loss_mlp": 1.001266,
      "epoch": 0.3167197739433656,
      "flos": 25705827256320.0,
      "grad_norm": 1.705122296464544,
      "language_loss": 0.85967487,
      "learning_rate": 3.198016702514487e-06,
      "loss": 0.87831068,
      "num_input_tokens_seen": 56701760,
      "step": 2634,
      "time_per_iteration": 2.6162962913513184
    },
    {
      "auxiliary_loss_clip": 0.01120475,
      "auxiliary_loss_mlp": 0.01023706,
      "balance_loss_clip": 1.04679799,
      "balance_loss_mlp": 1.0175246,
      "epoch": 0.3168400168340047,
      "flos": 23548036746240.0,
      "grad_norm": 1.6465603990738467,
      "language_loss": 0.84917319,
      "learning_rate": 3.1973928557409972e-06,
      "loss": 0.87061501,
      "num_input_tokens_seen": 56719800,
      "step": 2635,
      "time_per_iteration": 2.5278823375701904
    },
    {
      "auxiliary_loss_clip": 0.01120698,
      "auxiliary_loss_mlp": 0.01022948,
      "balance_loss_clip": 1.04730821,
      "balance_loss_mlp": 1.01664186,
      "epoch": 0.31696025972464376,
      "flos": 28368978981120.0,
      "grad_norm": 1.8511770241526733,
      "language_loss": 0.7125085,
      "learning_rate": 3.1967688273239636e-06,
      "loss": 0.73394495,
      "num_input_tokens_seen": 56739605,
      "step": 2636,
      "time_per_iteration": 2.585134267807007
    },
    {
      "auxiliary_loss_clip": 0.01078916,
      "auxiliary_loss_mlp": 0.01022928,
      "balance_loss_clip": 1.04254293,
      "balance_loss_mlp": 1.01683307,
      "epoch": 0.31708050261528287,
      "flos": 16400973306240.0,
      "grad_norm": 1.7398979612017103,
      "language_loss": 0.82340407,
      "learning_rate": 3.1961446173580503e-06,
      "loss": 0.84442252,
      "num_input_tokens_seen": 56756545,
      "step": 2637,
      "time_per_iteration": 2.563499927520752
    },
    {
      "auxiliary_loss_clip": 0.01095509,
      "auxiliary_loss_mlp": 0.01025005,
      "balance_loss_clip": 1.04650855,
      "balance_loss_mlp": 1.01845777,
      "epoch": 0.317200745505922,
      "flos": 26214676934400.0,
      "grad_norm": 1.836489340325708,
      "language_loss": 0.77466017,
      "learning_rate": 3.1955202259379502e-06,
      "loss": 0.7958653,
      "num_input_tokens_seen": 56778275,
      "step": 2638,
      "time_per_iteration": 2.6466450691223145
    },
    {
      "auxiliary_loss_clip": 0.01109707,
      "auxiliary_loss_mlp": 0.01023889,
      "balance_loss_clip": 1.04555213,
      "balance_loss_mlp": 1.01732373,
      "epoch": 0.31732098839656103,
      "flos": 31353159795840.0,
      "grad_norm": 2.374681304062619,
      "language_loss": 0.83055592,
      "learning_rate": 3.194895653158381e-06,
      "loss": 0.85189188,
      "num_input_tokens_seen": 56797215,
      "step": 2639,
      "time_per_iteration": 2.603436231613159
    },
    {
      "auxiliary_loss_clip": 0.01102762,
      "auxiliary_loss_mlp": 0.01002717,
      "balance_loss_clip": 1.05756795,
      "balance_loss_mlp": 1.00008225,
      "epoch": 0.31744123128720014,
      "flos": 58995910224000.0,
      "grad_norm": 0.7744396641927395,
      "language_loss": 0.55557311,
      "learning_rate": 3.194270899114093e-06,
      "loss": 0.57662791,
      "num_input_tokens_seen": 56863010,
      "step": 2640,
      "time_per_iteration": 3.2355587482452393
    },
    {
      "auxiliary_loss_clip": 0.01110257,
      "auxiliary_loss_mlp": 0.01026496,
      "balance_loss_clip": 1.0455575,
      "balance_loss_mlp": 1.01942086,
      "epoch": 0.31756147417783925,
      "flos": 17419317269760.0,
      "grad_norm": 2.022125434431245,
      "language_loss": 0.82213259,
      "learning_rate": 3.193645963899858e-06,
      "loss": 0.84350014,
      "num_input_tokens_seen": 56880625,
      "step": 2641,
      "time_per_iteration": 2.5289387702941895
    },
    {
      "auxiliary_loss_clip": 0.0108695,
      "auxiliary_loss_mlp": 0.01019479,
      "balance_loss_clip": 1.04021478,
      "balance_loss_mlp": 1.0133667,
      "epoch": 0.3176817170684783,
      "flos": 25483908263040.0,
      "grad_norm": 5.8957412968354905,
      "language_loss": 0.84218049,
      "learning_rate": 3.193020847610479e-06,
      "loss": 0.86324477,
      "num_input_tokens_seen": 56900945,
      "step": 2642,
      "time_per_iteration": 2.6399497985839844
    },
    {
      "auxiliary_loss_clip": 0.01098067,
      "auxiliary_loss_mlp": 0.01023228,
      "balance_loss_clip": 1.04648352,
      "balance_loss_mlp": 1.01632559,
      "epoch": 0.3178019599591174,
      "flos": 24974906912640.0,
      "grad_norm": 2.9221734592803323,
      "language_loss": 0.71477813,
      "learning_rate": 3.192395550340787e-06,
      "loss": 0.73599106,
      "num_input_tokens_seen": 56918895,
      "step": 2643,
      "time_per_iteration": 2.5909087657928467
    },
    {
      "auxiliary_loss_clip": 0.01105622,
      "auxiliary_loss_mlp": 0.01021473,
      "balance_loss_clip": 1.04435325,
      "balance_loss_mlp": 1.01528943,
      "epoch": 0.31792220284975653,
      "flos": 12423863692800.0,
      "grad_norm": 1.9533181264218054,
      "language_loss": 0.77359521,
      "learning_rate": 3.191770072185638e-06,
      "loss": 0.7948662,
      "num_input_tokens_seen": 56935890,
      "step": 2644,
      "time_per_iteration": 2.551427125930786
    },
    {
      "auxiliary_loss_clip": 0.01097726,
      "auxiliary_loss_mlp": 0.01024157,
      "balance_loss_clip": 1.04047155,
      "balance_loss_mlp": 1.01757336,
      "epoch": 0.3180424457403956,
      "flos": 15487502987520.0,
      "grad_norm": 2.546940219866227,
      "language_loss": 0.728338,
      "learning_rate": 3.191144413239916e-06,
      "loss": 0.74955678,
      "num_input_tokens_seen": 56952460,
      "step": 2645,
      "time_per_iteration": 2.502288818359375
    },
    {
      "auxiliary_loss_clip": 0.01087529,
      "auxiliary_loss_mlp": 0.01027755,
      "balance_loss_clip": 1.03932405,
      "balance_loss_mlp": 1.02069831,
      "epoch": 0.3181626886310347,
      "flos": 26177241738240.0,
      "grad_norm": 2.5077629858889807,
      "language_loss": 0.88142085,
      "learning_rate": 3.190518573598534e-06,
      "loss": 0.9025737,
      "num_input_tokens_seen": 56969065,
      "step": 2646,
      "time_per_iteration": 2.6338438987731934
    },
    {
      "auxiliary_loss_clip": 0.01087017,
      "auxiliary_loss_mlp": 0.01027049,
      "balance_loss_clip": 1.0443995,
      "balance_loss_mlp": 1.02039433,
      "epoch": 0.3182829315216738,
      "flos": 25485424986240.0,
      "grad_norm": 1.5770219410852817,
      "language_loss": 0.77470648,
      "learning_rate": 3.1898925533564308e-06,
      "loss": 0.79584718,
      "num_input_tokens_seen": 56990535,
      "step": 2647,
      "time_per_iteration": 2.666303873062134
    },
    {
      "auxiliary_loss_clip": 0.01079788,
      "auxiliary_loss_mlp": 0.01027491,
      "balance_loss_clip": 1.04420245,
      "balance_loss_mlp": 1.0211283,
      "epoch": 0.31840317441231286,
      "flos": 18115646273280.0,
      "grad_norm": 2.0771676345937724,
      "language_loss": 0.64039463,
      "learning_rate": 3.1892663526085733e-06,
      "loss": 0.66146743,
      "num_input_tokens_seen": 57008910,
      "step": 2648,
      "time_per_iteration": 3.3615078926086426
    },
    {
      "auxiliary_loss_clip": 0.01098582,
      "auxiliary_loss_mlp": 0.01004076,
      "balance_loss_clip": 1.05335462,
      "balance_loss_mlp": 1.00152516,
      "epoch": 0.31852341730295197,
      "flos": 64748495589120.0,
      "grad_norm": 0.7494986860370465,
      "language_loss": 0.5685572,
      "learning_rate": 3.188639971449956e-06,
      "loss": 0.58958369,
      "num_input_tokens_seen": 57074960,
      "step": 2649,
      "time_per_iteration": 3.8617353439331055
    },
    {
      "auxiliary_loss_clip": 0.01120167,
      "auxiliary_loss_mlp": 0.01021602,
      "balance_loss_clip": 1.04617214,
      "balance_loss_mlp": 1.01505184,
      "epoch": 0.318643660193591,
      "flos": 20670246299520.0,
      "grad_norm": 2.490178410550632,
      "language_loss": 0.72129202,
      "learning_rate": 3.1880134099756e-06,
      "loss": 0.74270964,
      "num_input_tokens_seen": 57094595,
      "step": 2650,
      "time_per_iteration": 2.509490966796875
    },
    {
      "auxiliary_loss_clip": 0.01107112,
      "auxiliary_loss_mlp": 0.0101818,
      "balance_loss_clip": 1.04372215,
      "balance_loss_mlp": 1.01179075,
      "epoch": 0.31876390308423014,
      "flos": 26945786868480.0,
      "grad_norm": 1.6824581022012661,
      "language_loss": 0.69815445,
      "learning_rate": 3.1873866682805535e-06,
      "loss": 0.71940732,
      "num_input_tokens_seen": 57115290,
      "step": 2651,
      "time_per_iteration": 3.361685276031494
    },
    {
      "auxiliary_loss_clip": 0.01094416,
      "auxiliary_loss_mlp": 0.01023683,
      "balance_loss_clip": 1.0448885,
      "balance_loss_mlp": 1.01704264,
      "epoch": 0.31888414597486925,
      "flos": 18043923081600.0,
      "grad_norm": 3.146472457014934,
      "language_loss": 0.88152117,
      "learning_rate": 3.186759746459894e-06,
      "loss": 0.90270215,
      "num_input_tokens_seen": 57134400,
      "step": 2652,
      "time_per_iteration": 3.347594976425171
    },
    {
      "auxiliary_loss_clip": 0.01089002,
      "auxiliary_loss_mlp": 0.01022006,
      "balance_loss_clip": 1.0441432,
      "balance_loss_mlp": 1.0154258,
      "epoch": 0.3190043888655083,
      "flos": 25151314158720.0,
      "grad_norm": 2.4416677654688135,
      "language_loss": 0.79562342,
      "learning_rate": 3.1861326446087246e-06,
      "loss": 0.81673354,
      "num_input_tokens_seen": 57153140,
      "step": 2653,
      "time_per_iteration": 2.6094472408294678
    },
    {
      "auxiliary_loss_clip": 0.01106757,
      "auxiliary_loss_mlp": 0.01022938,
      "balance_loss_clip": 1.04391086,
      "balance_loss_mlp": 1.01625621,
      "epoch": 0.3191246317561474,
      "flos": 22056041134080.0,
      "grad_norm": 2.3517037308144273,
      "language_loss": 0.71916461,
      "learning_rate": 3.1855053628221763e-06,
      "loss": 0.74046153,
      "num_input_tokens_seen": 57172395,
      "step": 2654,
      "time_per_iteration": 2.56573224067688
    },
    {
      "auxiliary_loss_clip": 0.01085837,
      "auxiliary_loss_mlp": 0.01023259,
      "balance_loss_clip": 1.04396737,
      "balance_loss_mlp": 1.01615691,
      "epoch": 0.3192448746467865,
      "flos": 14903517490560.0,
      "grad_norm": 4.142646791850369,
      "language_loss": 0.9011687,
      "learning_rate": 3.184877901195407e-06,
      "loss": 0.92225963,
      "num_input_tokens_seen": 57189090,
      "step": 2655,
      "time_per_iteration": 2.5791478157043457
    },
    {
      "auxiliary_loss_clip": 0.01068995,
      "auxiliary_loss_mlp": 0.0101223,
      "balance_loss_clip": 1.05546165,
      "balance_loss_mlp": 1.00991714,
      "epoch": 0.3193651175374256,
      "flos": 67242179076480.0,
      "grad_norm": 0.866436353437961,
      "language_loss": 0.62817979,
      "learning_rate": 3.184250259823602e-06,
      "loss": 0.64899206,
      "num_input_tokens_seen": 57251620,
      "step": 2656,
      "time_per_iteration": 3.241213798522949
    },
    {
      "auxiliary_loss_clip": 0.01077759,
      "auxiliary_loss_mlp": 0.01023272,
      "balance_loss_clip": 1.04079676,
      "balance_loss_mlp": 1.01648283,
      "epoch": 0.3194853604280647,
      "flos": 12234336791040.0,
      "grad_norm": 4.2772422127285,
      "language_loss": 0.81998599,
      "learning_rate": 3.183622438801974e-06,
      "loss": 0.84099627,
      "num_input_tokens_seen": 57266910,
      "step": 2657,
      "time_per_iteration": 2.6000306606292725
    },
    {
      "auxiliary_loss_clip": 0.01121437,
      "auxiliary_loss_mlp": 0.01028324,
      "balance_loss_clip": 1.04821527,
      "balance_loss_mlp": 1.02191615,
      "epoch": 0.3196056033187038,
      "flos": 14941711048320.0,
      "grad_norm": 1.8638620717921082,
      "language_loss": 0.75770223,
      "learning_rate": 3.1829944382257637e-06,
      "loss": 0.77919984,
      "num_input_tokens_seen": 57285040,
      "step": 2658,
      "time_per_iteration": 2.4973056316375732
    },
    {
      "auxiliary_loss_clip": 0.0110316,
      "auxiliary_loss_mlp": 0.01024238,
      "balance_loss_clip": 1.04375243,
      "balance_loss_mlp": 1.01798892,
      "epoch": 0.31972584620934286,
      "flos": 23771131200000.0,
      "grad_norm": 3.561941506427904,
      "language_loss": 0.81890309,
      "learning_rate": 3.1823662581902373e-06,
      "loss": 0.84017706,
      "num_input_tokens_seen": 57302725,
      "step": 2659,
      "time_per_iteration": 2.570854902267456
    },
    {
      "auxiliary_loss_clip": 0.01086435,
      "auxiliary_loss_mlp": 0.01021905,
      "balance_loss_clip": 1.0413903,
      "balance_loss_mlp": 1.01524162,
      "epoch": 0.31984608909998197,
      "flos": 21253663025280.0,
      "grad_norm": 5.749061028355324,
      "language_loss": 0.74784726,
      "learning_rate": 3.1817378987906896e-06,
      "loss": 0.76893067,
      "num_input_tokens_seen": 57322230,
      "step": 2660,
      "time_per_iteration": 2.610311985015869
    },
    {
      "auxiliary_loss_clip": 0.01053788,
      "auxiliary_loss_mlp": 0.0102777,
      "balance_loss_clip": 1.03761482,
      "balance_loss_mlp": 1.02127588,
      "epoch": 0.3199663319906211,
      "flos": 18298196248320.0,
      "grad_norm": 2.1879782429959276,
      "language_loss": 0.79889047,
      "learning_rate": 3.181109360122442e-06,
      "loss": 0.81970596,
      "num_input_tokens_seen": 57339820,
      "step": 2661,
      "time_per_iteration": 2.617391586303711
    },
    {
      "auxiliary_loss_clip": 0.01076906,
      "auxiliary_loss_mlp": 0.01022742,
      "balance_loss_clip": 1.04299068,
      "balance_loss_mlp": 1.01569057,
      "epoch": 0.32008657488126013,
      "flos": 18735588161280.0,
      "grad_norm": 2.1758575069765853,
      "language_loss": 0.78605926,
      "learning_rate": 3.1804806422808445e-06,
      "loss": 0.80705571,
      "num_input_tokens_seen": 57356955,
      "step": 2662,
      "time_per_iteration": 2.593388795852661
    },
    {
      "auxiliary_loss_clip": 0.01087052,
      "auxiliary_loss_mlp": 0.01027216,
      "balance_loss_clip": 1.04040945,
      "balance_loss_mlp": 1.02051675,
      "epoch": 0.32020681777189924,
      "flos": 20597461401600.0,
      "grad_norm": 1.9104450516723934,
      "language_loss": 0.73236752,
      "learning_rate": 3.1798517453612714e-06,
      "loss": 0.75351018,
      "num_input_tokens_seen": 57376760,
      "step": 2663,
      "time_per_iteration": 2.578484296798706
    },
    {
      "auxiliary_loss_clip": 0.01103426,
      "auxiliary_loss_mlp": 0.01027792,
      "balance_loss_clip": 1.04808486,
      "balance_loss_mlp": 1.02129817,
      "epoch": 0.32032706066253835,
      "flos": 35264575192320.0,
      "grad_norm": 1.8430598482424656,
      "language_loss": 0.75394487,
      "learning_rate": 3.1792226694591265e-06,
      "loss": 0.77525711,
      "num_input_tokens_seen": 57398145,
      "step": 2664,
      "time_per_iteration": 2.6674580574035645
    },
    {
      "auxiliary_loss_clip": 0.01068927,
      "auxiliary_loss_mlp": 0.01023513,
      "balance_loss_clip": 1.03833163,
      "balance_loss_mlp": 1.01699185,
      "epoch": 0.3204473035531774,
      "flos": 15306014718720.0,
      "grad_norm": 2.12445810932851,
      "language_loss": 0.80579758,
      "learning_rate": 3.178593414669841e-06,
      "loss": 0.82672191,
      "num_input_tokens_seen": 57416730,
      "step": 2665,
      "time_per_iteration": 2.620105743408203
    },
    {
      "auxiliary_loss_clip": 0.0110233,
      "auxiliary_loss_mlp": 0.01020785,
      "balance_loss_clip": 1.04559934,
      "balance_loss_mlp": 1.01389182,
      "epoch": 0.3205675464438165,
      "flos": 24464881774080.0,
      "grad_norm": 2.9352116074780215,
      "language_loss": 0.7052772,
      "learning_rate": 3.1779639810888707e-06,
      "loss": 0.72650838,
      "num_input_tokens_seen": 57436325,
      "step": 2666,
      "time_per_iteration": 2.58181095123291
    },
    {
      "auxiliary_loss_clip": 0.01095246,
      "auxiliary_loss_mlp": 0.01025975,
      "balance_loss_clip": 1.03786874,
      "balance_loss_mlp": 1.01927209,
      "epoch": 0.3206877893344556,
      "flos": 22458462526080.0,
      "grad_norm": 1.905785003268844,
      "language_loss": 0.75919306,
      "learning_rate": 3.1773343688117013e-06,
      "loss": 0.78040522,
      "num_input_tokens_seen": 57457235,
      "step": 2667,
      "time_per_iteration": 2.590907096862793
    },
    {
      "auxiliary_loss_clip": 0.01100467,
      "auxiliary_loss_mlp": 0.00756964,
      "balance_loss_clip": 1.04604328,
      "balance_loss_mlp": 1.00130939,
      "epoch": 0.3208080322250947,
      "flos": 20414304737280.0,
      "grad_norm": 2.2233367245052715,
      "language_loss": 0.84645355,
      "learning_rate": 3.1767045779338445e-06,
      "loss": 0.86502779,
      "num_input_tokens_seen": 57474895,
      "step": 2668,
      "time_per_iteration": 2.565666675567627
    },
    {
      "auxiliary_loss_clip": 0.01106945,
      "auxiliary_loss_mlp": 0.0102157,
      "balance_loss_clip": 1.04315662,
      "balance_loss_mlp": 1.01562488,
      "epoch": 0.3209282751157338,
      "flos": 21764256935040.0,
      "grad_norm": 2.11040566740008,
      "language_loss": 0.91568184,
      "learning_rate": 3.176074608550839e-06,
      "loss": 0.93696702,
      "num_input_tokens_seen": 57490715,
      "step": 2669,
      "time_per_iteration": 2.565298557281494
    },
    {
      "auxiliary_loss_clip": 0.01056323,
      "auxiliary_loss_mlp": 0.01027407,
      "balance_loss_clip": 1.04036367,
      "balance_loss_mlp": 1.02097857,
      "epoch": 0.32104851800637285,
      "flos": 22057254512640.0,
      "grad_norm": 3.0290624185783472,
      "language_loss": 0.82512414,
      "learning_rate": 3.17544446075825e-06,
      "loss": 0.84596145,
      "num_input_tokens_seen": 57509880,
      "step": 2670,
      "time_per_iteration": 2.648577928543091
    },
    {
      "auxiliary_loss_clip": 0.01094265,
      "auxiliary_loss_mlp": 0.01026597,
      "balance_loss_clip": 1.04222429,
      "balance_loss_mlp": 1.02061903,
      "epoch": 0.32116876089701196,
      "flos": 37015242468480.0,
      "grad_norm": 1.8866967417997982,
      "language_loss": 0.70945978,
      "learning_rate": 3.174814134651671e-06,
      "loss": 0.73066843,
      "num_input_tokens_seen": 57532430,
      "step": 2671,
      "time_per_iteration": 2.6971373558044434
    },
    {
      "auxiliary_loss_clip": 0.01118554,
      "auxiliary_loss_mlp": 0.01022211,
      "balance_loss_clip": 1.04673433,
      "balance_loss_mlp": 1.01573229,
      "epoch": 0.3212890037876511,
      "flos": 21981284496000.0,
      "grad_norm": 1.626715237417556,
      "language_loss": 0.80378532,
      "learning_rate": 3.1741836303267215e-06,
      "loss": 0.82519299,
      "num_input_tokens_seen": 57551965,
      "step": 2672,
      "time_per_iteration": 2.5053749084472656
    },
    {
      "auxiliary_loss_clip": 0.01119795,
      "auxiliary_loss_mlp": 0.01024484,
      "balance_loss_clip": 1.04768944,
      "balance_loss_mlp": 1.01803493,
      "epoch": 0.32140924667829013,
      "flos": 10343863267200.0,
      "grad_norm": 2.3908047620384743,
      "language_loss": 0.75407785,
      "learning_rate": 3.1735529478790496e-06,
      "loss": 0.77552062,
      "num_input_tokens_seen": 57569955,
      "step": 2673,
      "time_per_iteration": 2.5117175579071045
    },
    {
      "auxiliary_loss_clip": 0.01106274,
      "auxiliary_loss_mlp": 0.01026891,
      "balance_loss_clip": 1.04428351,
      "balance_loss_mlp": 1.01995647,
      "epoch": 0.32152948956892924,
      "flos": 50802339738240.0,
      "grad_norm": 1.8742375861265528,
      "language_loss": 0.79566371,
      "learning_rate": 3.172922087404328e-06,
      "loss": 0.81699538,
      "num_input_tokens_seen": 57592215,
      "step": 2674,
      "time_per_iteration": 4.351292848587036
    },
    {
      "auxiliary_loss_clip": 0.01099722,
      "auxiliary_loss_mlp": 0.01009122,
      "balance_loss_clip": 1.05501008,
      "balance_loss_mlp": 1.00652313,
      "epoch": 0.32164973245956835,
      "flos": 63869578692480.0,
      "grad_norm": 0.7758126686548101,
      "language_loss": 0.55201787,
      "learning_rate": 3.1722910489982586e-06,
      "loss": 0.57310635,
      "num_input_tokens_seen": 57652575,
      "step": 2675,
      "time_per_iteration": 3.1900391578674316
    },
    {
      "auxiliary_loss_clip": 0.01099017,
      "auxiliary_loss_mlp": 0.01025866,
      "balance_loss_clip": 1.04485285,
      "balance_loss_mlp": 1.0187757,
      "epoch": 0.3217699753502074,
      "flos": 23516213425920.0,
      "grad_norm": 1.7788596112615993,
      "language_loss": 0.8003037,
      "learning_rate": 3.1716598327565694e-06,
      "loss": 0.82155252,
      "num_input_tokens_seen": 57672215,
      "step": 2676,
      "time_per_iteration": 2.60801362991333
    },
    {
      "auxiliary_loss_clip": 0.01117382,
      "auxiliary_loss_mlp": 0.01021934,
      "balance_loss_clip": 1.04509056,
      "balance_loss_mlp": 1.01563978,
      "epoch": 0.3218902182408465,
      "flos": 19064542129920.0,
      "grad_norm": 1.5343625607874138,
      "language_loss": 0.84427667,
      "learning_rate": 3.171028438775015e-06,
      "loss": 0.86566985,
      "num_input_tokens_seen": 57691410,
      "step": 2677,
      "time_per_iteration": 3.3037753105163574
    },
    {
      "auxiliary_loss_clip": 0.01117726,
      "auxiliary_loss_mlp": 0.0102149,
      "balance_loss_clip": 1.04490066,
      "balance_loss_mlp": 1.01543665,
      "epoch": 0.3220104611314856,
      "flos": 20377627902720.0,
      "grad_norm": 2.190730413480113,
      "language_loss": 0.83982182,
      "learning_rate": 3.170396867149377e-06,
      "loss": 0.86121392,
      "num_input_tokens_seen": 57709415,
      "step": 2678,
      "time_per_iteration": 3.271601676940918
    },
    {
      "auxiliary_loss_clip": 0.0106384,
      "auxiliary_loss_mlp": 0.01028436,
      "balance_loss_clip": 1.04200482,
      "balance_loss_mlp": 1.02163529,
      "epoch": 0.3221307040221247,
      "flos": 20118880402560.0,
      "grad_norm": 2.00278287992869,
      "language_loss": 0.86729491,
      "learning_rate": 3.1697651179754653e-06,
      "loss": 0.88821769,
      "num_input_tokens_seen": 57728075,
      "step": 2679,
      "time_per_iteration": 2.64847469329834
    },
    {
      "auxiliary_loss_clip": 0.01077037,
      "auxiliary_loss_mlp": 0.01027388,
      "balance_loss_clip": 1.04542053,
      "balance_loss_mlp": 1.02093005,
      "epoch": 0.3222509469127638,
      "flos": 23990054664960.0,
      "grad_norm": 1.8872298126137481,
      "language_loss": 0.73477387,
      "learning_rate": 3.1691331913491153e-06,
      "loss": 0.75581813,
      "num_input_tokens_seen": 57750645,
      "step": 2680,
      "time_per_iteration": 2.641239881515503
    },
    {
      "auxiliary_loss_clip": 0.01117443,
      "auxiliary_loss_mlp": 0.0102433,
      "balance_loss_clip": 1.04479909,
      "balance_loss_mlp": 1.01802433,
      "epoch": 0.32237118980340285,
      "flos": 17677647671040.0,
      "grad_norm": 3.098829050332546,
      "language_loss": 0.8503406,
      "learning_rate": 3.1685010873661898e-06,
      "loss": 0.87175834,
      "num_input_tokens_seen": 57769820,
      "step": 2681,
      "time_per_iteration": 2.5247442722320557
    },
    {
      "auxiliary_loss_clip": 0.01108721,
      "auxiliary_loss_mlp": 0.01024185,
      "balance_loss_clip": 1.04493594,
      "balance_loss_mlp": 1.01738763,
      "epoch": 0.32249143269404196,
      "flos": 23150165523840.0,
      "grad_norm": 2.4848569011620247,
      "language_loss": 0.80007839,
      "learning_rate": 3.167868806122578e-06,
      "loss": 0.8214075,
      "num_input_tokens_seen": 57788870,
      "step": 2682,
      "time_per_iteration": 2.545870780944824
    },
    {
      "auxiliary_loss_clip": 0.01092629,
      "auxiliary_loss_mlp": 0.01024744,
      "balance_loss_clip": 1.04363322,
      "balance_loss_mlp": 1.01838374,
      "epoch": 0.32261167558468107,
      "flos": 24424413131520.0,
      "grad_norm": 1.9594511633438507,
      "language_loss": 0.66322005,
      "learning_rate": 3.1672363477141968e-06,
      "loss": 0.68439376,
      "num_input_tokens_seen": 57808165,
      "step": 2683,
      "time_per_iteration": 2.6248064041137695
    },
    {
      "auxiliary_loss_clip": 0.01091886,
      "auxiliary_loss_mlp": 0.01023998,
      "balance_loss_clip": 1.04237258,
      "balance_loss_mlp": 1.01717663,
      "epoch": 0.3227319184753201,
      "flos": 30369483008640.0,
      "grad_norm": 1.8886992575185333,
      "language_loss": 0.84777826,
      "learning_rate": 3.1666037122369903e-06,
      "loss": 0.86893713,
      "num_input_tokens_seen": 57828825,
      "step": 2684,
      "time_per_iteration": 2.6439602375030518
    },
    {
      "auxiliary_loss_clip": 0.01107444,
      "auxiliary_loss_mlp": 0.01021627,
      "balance_loss_clip": 1.04416513,
      "balance_loss_mlp": 1.01532125,
      "epoch": 0.32285216136595923,
      "flos": 16948054460160.0,
      "grad_norm": 2.3185841712713913,
      "language_loss": 0.86734354,
      "learning_rate": 3.165970899786928e-06,
      "loss": 0.88863426,
      "num_input_tokens_seen": 57846740,
      "step": 2685,
      "time_per_iteration": 2.5838863849639893
    },
    {
      "auxiliary_loss_clip": 0.01074749,
      "auxiliary_loss_mlp": 0.01022067,
      "balance_loss_clip": 1.04112458,
      "balance_loss_mlp": 1.01550448,
      "epoch": 0.32297240425659834,
      "flos": 21983711253120.0,
      "grad_norm": 1.70243463313219,
      "language_loss": 0.75343186,
      "learning_rate": 3.1653379104600067e-06,
      "loss": 0.77440006,
      "num_input_tokens_seen": 57866885,
      "step": 2686,
      "time_per_iteration": 2.5991718769073486
    },
    {
      "auxiliary_loss_clip": 0.01108191,
      "auxiliary_loss_mlp": 0.01022859,
      "balance_loss_clip": 1.04532635,
      "balance_loss_mlp": 1.01632047,
      "epoch": 0.3230926471472374,
      "flos": 22750284643200.0,
      "grad_norm": 1.9629329786951994,
      "language_loss": 0.69704491,
      "learning_rate": 3.164704744352251e-06,
      "loss": 0.71835542,
      "num_input_tokens_seen": 57887690,
      "step": 2687,
      "time_per_iteration": 2.5689351558685303
    },
    {
      "auxiliary_loss_clip": 0.01102479,
      "auxiliary_loss_mlp": 0.01023932,
      "balance_loss_clip": 1.04208612,
      "balance_loss_mlp": 1.01818323,
      "epoch": 0.3232128900378765,
      "flos": 16944679751040.0,
      "grad_norm": 1.8594356015460511,
      "language_loss": 0.80866158,
      "learning_rate": 3.164071401559713e-06,
      "loss": 0.82992566,
      "num_input_tokens_seen": 57905090,
      "step": 2688,
      "time_per_iteration": 2.518289089202881
    },
    {
      "auxiliary_loss_clip": 0.01093825,
      "auxiliary_loss_mlp": 0.01024945,
      "balance_loss_clip": 1.04361653,
      "balance_loss_mlp": 1.0184865,
      "epoch": 0.3233331329285156,
      "flos": 24025973137920.0,
      "grad_norm": 1.8845560552769498,
      "language_loss": 0.71708059,
      "learning_rate": 3.1634378821784674e-06,
      "loss": 0.73826838,
      "num_input_tokens_seen": 57925305,
      "step": 2689,
      "time_per_iteration": 2.602588415145874
    },
    {
      "auxiliary_loss_clip": 0.01074964,
      "auxiliary_loss_mlp": 0.01023536,
      "balance_loss_clip": 1.04372346,
      "balance_loss_mlp": 1.01717293,
      "epoch": 0.3234533758191547,
      "flos": 18115797945600.0,
      "grad_norm": 2.7498061615754965,
      "language_loss": 0.74161571,
      "learning_rate": 3.1628041863046208e-06,
      "loss": 0.76260072,
      "num_input_tokens_seen": 57942720,
      "step": 2690,
      "time_per_iteration": 2.569741725921631
    },
    {
      "auxiliary_loss_clip": 0.01116525,
      "auxiliary_loss_mlp": 0.01025592,
      "balance_loss_clip": 1.04275012,
      "balance_loss_mlp": 1.01862741,
      "epoch": 0.3235736187097938,
      "flos": 16948016542080.0,
      "grad_norm": 2.522011307993454,
      "language_loss": 0.92067504,
      "learning_rate": 3.162170314034304e-06,
      "loss": 0.94209623,
      "num_input_tokens_seen": 57960135,
      "step": 2691,
      "time_per_iteration": 2.5007615089416504
    },
    {
      "auxiliary_loss_clip": 0.0111865,
      "auxiliary_loss_mlp": 0.01022337,
      "balance_loss_clip": 1.04505205,
      "balance_loss_mlp": 1.01517558,
      "epoch": 0.3236938616004329,
      "flos": 22129318967040.0,
      "grad_norm": 2.4700277564525286,
      "language_loss": 0.81120229,
      "learning_rate": 3.1615362654636738e-06,
      "loss": 0.83261216,
      "num_input_tokens_seen": 57980875,
      "step": 2692,
      "time_per_iteration": 2.5063059329986572
    },
    {
      "auxiliary_loss_clip": 0.0106794,
      "auxiliary_loss_mlp": 0.01026619,
      "balance_loss_clip": 1.03950405,
      "balance_loss_mlp": 1.02081907,
      "epoch": 0.32381410449107195,
      "flos": 17166484990080.0,
      "grad_norm": 1.6485794772590605,
      "language_loss": 0.8675018,
      "learning_rate": 3.1609020406889163e-06,
      "loss": 0.88844734,
      "num_input_tokens_seen": 57998310,
      "step": 2693,
      "time_per_iteration": 2.611145496368408
    },
    {
      "auxiliary_loss_clip": 0.01097211,
      "auxiliary_loss_mlp": 0.01028732,
      "balance_loss_clip": 1.04363477,
      "balance_loss_mlp": 1.02188683,
      "epoch": 0.32393434738171106,
      "flos": 16579807309440.0,
      "grad_norm": 1.7771223818711925,
      "language_loss": 0.8499794,
      "learning_rate": 3.1602676398062416e-06,
      "loss": 0.87123883,
      "num_input_tokens_seen": 58017220,
      "step": 2694,
      "time_per_iteration": 2.556605100631714
    },
    {
      "auxiliary_loss_clip": 0.01094194,
      "auxiliary_loss_mlp": 0.01021452,
      "balance_loss_clip": 1.03707719,
      "balance_loss_mlp": 1.01479411,
      "epoch": 0.3240545902723502,
      "flos": 25485955839360.0,
      "grad_norm": 2.711877834656387,
      "language_loss": 0.61619544,
      "learning_rate": 3.1596330629118886e-06,
      "loss": 0.63735193,
      "num_input_tokens_seen": 58037190,
      "step": 2695,
      "time_per_iteration": 2.5898191928863525
    },
    {
      "auxiliary_loss_clip": 0.0106617,
      "auxiliary_loss_mlp": 0.01024144,
      "balance_loss_clip": 1.03944135,
      "balance_loss_mlp": 1.01757884,
      "epoch": 0.32417483316298923,
      "flos": 35848788197760.0,
      "grad_norm": 2.2225247175513925,
      "language_loss": 0.73528576,
      "learning_rate": 3.1589983101021223e-06,
      "loss": 0.75618887,
      "num_input_tokens_seen": 58055820,
      "step": 2696,
      "time_per_iteration": 2.7477493286132812
    },
    {
      "auxiliary_loss_clip": 0.01089866,
      "auxiliary_loss_mlp": 0.01020534,
      "balance_loss_clip": 1.04248619,
      "balance_loss_mlp": 1.01424873,
      "epoch": 0.32429507605362834,
      "flos": 30083083176960.0,
      "grad_norm": 1.996266286986879,
      "language_loss": 0.84910345,
      "learning_rate": 3.1583633814732337e-06,
      "loss": 0.87020743,
      "num_input_tokens_seen": 58075340,
      "step": 2697,
      "time_per_iteration": 2.633533477783203
    },
    {
      "auxiliary_loss_clip": 0.01116852,
      "auxiliary_loss_mlp": 0.01026621,
      "balance_loss_clip": 1.04374838,
      "balance_loss_mlp": 1.0203898,
      "epoch": 0.3244153189442674,
      "flos": 18225221760000.0,
      "grad_norm": 2.7865690608974276,
      "language_loss": 0.7171489,
      "learning_rate": 3.157728277121541e-06,
      "loss": 0.73858356,
      "num_input_tokens_seen": 58093515,
      "step": 2698,
      "time_per_iteration": 2.5071139335632324
    },
    {
      "auxiliary_loss_clip": 0.01115657,
      "auxiliary_loss_mlp": 0.01021986,
      "balance_loss_clip": 1.04207921,
      "balance_loss_mlp": 1.01514959,
      "epoch": 0.3245355618349065,
      "flos": 17712125256960.0,
      "grad_norm": 2.9266895201411947,
      "language_loss": 0.78991055,
      "learning_rate": 3.1570929971433897e-06,
      "loss": 0.81128699,
      "num_input_tokens_seen": 58109300,
      "step": 2699,
      "time_per_iteration": 2.4505462646484375
    },
    {
      "auxiliary_loss_clip": 0.01097283,
      "auxiliary_loss_mlp": 0.01028617,
      "balance_loss_clip": 1.04145563,
      "balance_loss_mlp": 1.02202821,
      "epoch": 0.3246558047255456,
      "flos": 23443049347200.0,
      "grad_norm": 2.01605279015843,
      "language_loss": 0.83309919,
      "learning_rate": 3.1564575416351504e-06,
      "loss": 0.8543582,
      "num_input_tokens_seen": 58128000,
      "step": 2700,
      "time_per_iteration": 3.441659450531006
    },
    {
      "auxiliary_loss_clip": 0.01116197,
      "auxiliary_loss_mlp": 0.01022394,
      "balance_loss_clip": 1.04384208,
      "balance_loss_mlp": 1.01548016,
      "epoch": 0.32477604761618467,
      "flos": 21762929802240.0,
      "grad_norm": 2.0260969644683464,
      "language_loss": 0.74540901,
      "learning_rate": 3.155821910693221e-06,
      "loss": 0.76679498,
      "num_input_tokens_seen": 58147415,
      "step": 2701,
      "time_per_iteration": 2.4960153102874756
    },
    {
      "auxiliary_loss_clip": 0.0109323,
      "auxiliary_loss_mlp": 0.01024174,
      "balance_loss_clip": 1.04294693,
      "balance_loss_mlp": 1.01748347,
      "epoch": 0.3248962905068238,
      "flos": 19830357158400.0,
      "grad_norm": 1.899543005086445,
      "language_loss": 0.86085927,
      "learning_rate": 3.1551861044140275e-06,
      "loss": 0.88203335,
      "num_input_tokens_seen": 58167050,
      "step": 2702,
      "time_per_iteration": 3.3114662170410156
    },
    {
      "auxiliary_loss_clip": 0.01068318,
      "auxiliary_loss_mlp": 0.01023761,
      "balance_loss_clip": 1.04071534,
      "balance_loss_mlp": 1.01745236,
      "epoch": 0.3250165333974629,
      "flos": 23950306465920.0,
      "grad_norm": 3.1651728861782886,
      "language_loss": 0.77719074,
      "learning_rate": 3.15455012289402e-06,
      "loss": 0.79811156,
      "num_input_tokens_seen": 58186695,
      "step": 2703,
      "time_per_iteration": 2.6377265453338623
    },
    {
      "auxiliary_loss_clip": 0.01103338,
      "auxiliary_loss_mlp": 0.01024156,
      "balance_loss_clip": 1.04404759,
      "balance_loss_mlp": 1.01729226,
      "epoch": 0.32513677628810195,
      "flos": 23991685142400.0,
      "grad_norm": 1.8089306098303535,
      "language_loss": 0.8453669,
      "learning_rate": 3.153913966229677e-06,
      "loss": 0.86664188,
      "num_input_tokens_seen": 58205815,
      "step": 2704,
      "time_per_iteration": 3.4051380157470703
    },
    {
      "auxiliary_loss_clip": 0.01079732,
      "auxiliary_loss_mlp": 0.01002549,
      "balance_loss_clip": 1.0463233,
      "balance_loss_mlp": 0.99983138,
      "epoch": 0.32525701917874106,
      "flos": 70662841770240.0,
      "grad_norm": 0.6390052590961254,
      "language_loss": 0.50223243,
      "learning_rate": 3.1532776345175027e-06,
      "loss": 0.52305532,
      "num_input_tokens_seen": 58270960,
      "step": 2705,
      "time_per_iteration": 3.1587350368499756
    },
    {
      "auxiliary_loss_clip": 0.0111541,
      "auxiliary_loss_mlp": 0.01024964,
      "balance_loss_clip": 1.04350877,
      "balance_loss_mlp": 1.01844001,
      "epoch": 0.32537726206938017,
      "flos": 19684673608320.0,
      "grad_norm": 1.9403149832978228,
      "language_loss": 0.78776354,
      "learning_rate": 3.1526411278540285e-06,
      "loss": 0.80916727,
      "num_input_tokens_seen": 58289390,
      "step": 2706,
      "time_per_iteration": 2.481464385986328
    },
    {
      "auxiliary_loss_clip": 0.01095549,
      "auxiliary_loss_mlp": 0.01028707,
      "balance_loss_clip": 1.04293025,
      "balance_loss_mlp": 1.02171504,
      "epoch": 0.3254975049600192,
      "flos": 28763172149760.0,
      "grad_norm": 2.052532161163409,
      "language_loss": 0.81197423,
      "learning_rate": 3.1520044463358116e-06,
      "loss": 0.83321679,
      "num_input_tokens_seen": 58306120,
      "step": 2707,
      "time_per_iteration": 2.6475296020507812
    },
    {
      "auxiliary_loss_clip": 0.01103931,
      "auxiliary_loss_mlp": 0.01020787,
      "balance_loss_clip": 1.04450285,
      "balance_loss_mlp": 1.01430225,
      "epoch": 0.32561774785065833,
      "flos": 18879224135040.0,
      "grad_norm": 1.571402490759279,
      "language_loss": 0.8022213,
      "learning_rate": 3.151367590059436e-06,
      "loss": 0.82346845,
      "num_input_tokens_seen": 58324545,
      "step": 2708,
      "time_per_iteration": 2.5164427757263184
    },
    {
      "auxiliary_loss_clip": 0.01118133,
      "auxiliary_loss_mlp": 0.00757231,
      "balance_loss_clip": 1.04607916,
      "balance_loss_mlp": 1.00132358,
      "epoch": 0.32573799074129745,
      "flos": 23114322887040.0,
      "grad_norm": 2.140533675457603,
      "language_loss": 0.87056029,
      "learning_rate": 3.1507305591215117e-06,
      "loss": 0.88931394,
      "num_input_tokens_seen": 58342455,
      "step": 2709,
      "time_per_iteration": 2.543868064880371
    },
    {
      "auxiliary_loss_clip": 0.01078767,
      "auxiliary_loss_mlp": 0.01005458,
      "balance_loss_clip": 1.04522562,
      "balance_loss_mlp": 1.0026803,
      "epoch": 0.3258582336319365,
      "flos": 71244628018560.0,
      "grad_norm": 0.969313204781854,
      "language_loss": 0.55724078,
      "learning_rate": 3.150093353618677e-06,
      "loss": 0.57808304,
      "num_input_tokens_seen": 58407185,
      "step": 2710,
      "time_per_iteration": 3.190218925476074
    },
    {
      "auxiliary_loss_clip": 0.01105341,
      "auxiliary_loss_mlp": 0.01023269,
      "balance_loss_clip": 1.04182756,
      "balance_loss_mlp": 1.01682854,
      "epoch": 0.3259784765225756,
      "flos": 22458235017600.0,
      "grad_norm": 2.5043564517745884,
      "language_loss": 0.88321781,
      "learning_rate": 3.149455973647596e-06,
      "loss": 0.90450394,
      "num_input_tokens_seen": 58425245,
      "step": 2711,
      "time_per_iteration": 2.562002658843994
    },
    {
      "auxiliary_loss_clip": 0.01079304,
      "auxiliary_loss_mlp": 0.01020706,
      "balance_loss_clip": 1.03922868,
      "balance_loss_mlp": 1.01391971,
      "epoch": 0.32609871941321467,
      "flos": 20486862126720.0,
      "grad_norm": 3.767275037444793,
      "language_loss": 0.76872563,
      "learning_rate": 3.1488184193049563e-06,
      "loss": 0.78972572,
      "num_input_tokens_seen": 58444780,
      "step": 2712,
      "time_per_iteration": 2.589066982269287
    },
    {
      "auxiliary_loss_clip": 0.01117562,
      "auxiliary_loss_mlp": 0.01022799,
      "balance_loss_clip": 1.04547822,
      "balance_loss_mlp": 1.01675236,
      "epoch": 0.3262189623038538,
      "flos": 22418865999360.0,
      "grad_norm": 1.7089203684692829,
      "language_loss": 0.72573715,
      "learning_rate": 3.1481806906874767e-06,
      "loss": 0.74714077,
      "num_input_tokens_seen": 58466090,
      "step": 2713,
      "time_per_iteration": 2.5448827743530273
    },
    {
      "auxiliary_loss_clip": 0.01115473,
      "auxiliary_loss_mlp": 0.01022535,
      "balance_loss_clip": 1.0435214,
      "balance_loss_mlp": 1.01672912,
      "epoch": 0.3263392051944929,
      "flos": 20925619090560.0,
      "grad_norm": 1.6880120535369503,
      "language_loss": 0.87885922,
      "learning_rate": 3.147542787891899e-06,
      "loss": 0.90023929,
      "num_input_tokens_seen": 58485435,
      "step": 2714,
      "time_per_iteration": 2.4933784008026123
    },
    {
      "auxiliary_loss_clip": 0.01087197,
      "auxiliary_loss_mlp": 0.01024832,
      "balance_loss_clip": 1.04454005,
      "balance_loss_mlp": 1.01807308,
      "epoch": 0.32645944808513194,
      "flos": 24027489861120.0,
      "grad_norm": 2.246972653375454,
      "language_loss": 0.75406939,
      "learning_rate": 3.1469047110149926e-06,
      "loss": 0.7751897,
      "num_input_tokens_seen": 58504175,
      "step": 2715,
      "time_per_iteration": 2.6072471141815186
    },
    {
      "auxiliary_loss_clip": 0.01056538,
      "auxiliary_loss_mlp": 0.01021542,
      "balance_loss_clip": 1.03471768,
      "balance_loss_mlp": 1.01523256,
      "epoch": 0.32657969097577105,
      "flos": 21034512051840.0,
      "grad_norm": 2.2283349311506466,
      "language_loss": 0.85495454,
      "learning_rate": 3.146266460153554e-06,
      "loss": 0.87573528,
      "num_input_tokens_seen": 58523885,
      "step": 2716,
      "time_per_iteration": 2.621901512145996
    },
    {
      "auxiliary_loss_clip": 0.01094783,
      "auxiliary_loss_mlp": 0.00757042,
      "balance_loss_clip": 1.04469609,
      "balance_loss_mlp": 1.0012393,
      "epoch": 0.32669993386641016,
      "flos": 22712432348160.0,
      "grad_norm": 1.8121920122980975,
      "language_loss": 0.8055557,
      "learning_rate": 3.145628035404404e-06,
      "loss": 0.82407403,
      "num_input_tokens_seen": 58543085,
      "step": 2717,
      "time_per_iteration": 2.5970520973205566
    },
    {
      "auxiliary_loss_clip": 0.01078269,
      "auxiliary_loss_mlp": 0.01006708,
      "balance_loss_clip": 1.04465199,
      "balance_loss_mlp": 1.0035851,
      "epoch": 0.3268201767570492,
      "flos": 72112321163520.0,
      "grad_norm": 0.8908265533124488,
      "language_loss": 0.57495308,
      "learning_rate": 3.1449894368643922e-06,
      "loss": 0.59580278,
      "num_input_tokens_seen": 58605400,
      "step": 2718,
      "time_per_iteration": 3.2014384269714355
    },
    {
      "auxiliary_loss_clip": 0.01069835,
      "auxiliary_loss_mlp": 0.01024492,
      "balance_loss_clip": 1.03687823,
      "balance_loss_mlp": 1.01808202,
      "epoch": 0.32694041964768833,
      "flos": 24537477081600.0,
      "grad_norm": 1.618425832161421,
      "language_loss": 0.71619713,
      "learning_rate": 3.1443506646303934e-06,
      "loss": 0.73714036,
      "num_input_tokens_seen": 58626700,
      "step": 2719,
      "time_per_iteration": 2.634434938430786
    },
    {
      "auxiliary_loss_clip": 0.01106013,
      "auxiliary_loss_mlp": 0.01022192,
      "balance_loss_clip": 1.04432106,
      "balance_loss_mlp": 1.01539755,
      "epoch": 0.32706066253832744,
      "flos": 33185826063360.0,
      "grad_norm": 2.2635500248663885,
      "language_loss": 0.67263854,
      "learning_rate": 3.1437117187993086e-06,
      "loss": 0.69392055,
      "num_input_tokens_seen": 58649020,
      "step": 2720,
      "time_per_iteration": 2.656604766845703
    },
    {
      "auxiliary_loss_clip": 0.01074243,
      "auxiliary_loss_mlp": 0.01025335,
      "balance_loss_clip": 1.03915882,
      "balance_loss_mlp": 1.01921654,
      "epoch": 0.3271809054289665,
      "flos": 24063939187200.0,
      "grad_norm": 1.5966267026207113,
      "language_loss": 0.80335295,
      "learning_rate": 3.143072599468065e-06,
      "loss": 0.82434881,
      "num_input_tokens_seen": 58668845,
      "step": 2721,
      "time_per_iteration": 2.6271719932556152
    },
    {
      "auxiliary_loss_clip": 0.01088404,
      "auxiliary_loss_mlp": 0.01021491,
      "balance_loss_clip": 1.04221964,
      "balance_loss_mlp": 1.01519728,
      "epoch": 0.3273011483196056,
      "flos": 38256832558080.0,
      "grad_norm": 1.541987534601497,
      "language_loss": 0.75770938,
      "learning_rate": 3.1424333067336174e-06,
      "loss": 0.77880836,
      "num_input_tokens_seen": 58691610,
      "step": 2722,
      "time_per_iteration": 2.7406067848205566
    },
    {
      "auxiliary_loss_clip": 0.01106959,
      "auxiliary_loss_mlp": 0.01022123,
      "balance_loss_clip": 1.04390407,
      "balance_loss_mlp": 1.01545286,
      "epoch": 0.3274213912102447,
      "flos": 29056662662400.0,
      "grad_norm": 1.6918563237634603,
      "language_loss": 0.78234601,
      "learning_rate": 3.141793840692945e-06,
      "loss": 0.80363679,
      "num_input_tokens_seen": 58712360,
      "step": 2723,
      "time_per_iteration": 2.5989468097686768
    },
    {
      "auxiliary_loss_clip": 0.01093074,
      "auxiliary_loss_mlp": 0.01024058,
      "balance_loss_clip": 1.04311228,
      "balance_loss_mlp": 1.01711416,
      "epoch": 0.32754163410088377,
      "flos": 29135855715840.0,
      "grad_norm": 2.3843307583529856,
      "language_loss": 0.615789,
      "learning_rate": 3.1411542014430553e-06,
      "loss": 0.63696027,
      "num_input_tokens_seen": 58733440,
      "step": 2724,
      "time_per_iteration": 2.6505746841430664
    },
    {
      "auxiliary_loss_clip": 0.01081285,
      "auxiliary_loss_mlp": 0.01022759,
      "balance_loss_clip": 1.04160881,
      "balance_loss_mlp": 1.01707029,
      "epoch": 0.3276618769915229,
      "flos": 20633152366080.0,
      "grad_norm": 1.9217507496813875,
      "language_loss": 0.82148522,
      "learning_rate": 3.1405143890809804e-06,
      "loss": 0.84252566,
      "num_input_tokens_seen": 58752735,
      "step": 2725,
      "time_per_iteration": 2.5964760780334473
    },
    {
      "auxiliary_loss_clip": 0.01094311,
      "auxiliary_loss_mlp": 0.01021667,
      "balance_loss_clip": 1.04485381,
      "balance_loss_mlp": 1.01529813,
      "epoch": 0.327782119882162,
      "flos": 18659201045760.0,
      "grad_norm": 1.6593064387188665,
      "language_loss": 0.7032007,
      "learning_rate": 3.1398744037037796e-06,
      "loss": 0.72436047,
      "num_input_tokens_seen": 58772070,
      "step": 2726,
      "time_per_iteration": 3.4230353832244873
    },
    {
      "auxiliary_loss_clip": 0.01088204,
      "auxiliary_loss_mlp": 0.01022177,
      "balance_loss_clip": 1.04283106,
      "balance_loss_mlp": 1.01621664,
      "epoch": 0.32790236277280105,
      "flos": 21797786568960.0,
      "grad_norm": 2.114499598957956,
      "language_loss": 0.8468672,
      "learning_rate": 3.139234245408538e-06,
      "loss": 0.867971,
      "num_input_tokens_seen": 58790950,
      "step": 2727,
      "time_per_iteration": 2.583967685699463
    },
    {
      "auxiliary_loss_clip": 0.01079533,
      "auxiliary_loss_mlp": 0.0075689,
      "balance_loss_clip": 1.04364896,
      "balance_loss_mlp": 1.00133157,
      "epoch": 0.32802260566344016,
      "flos": 23333663450880.0,
      "grad_norm": 1.5330411406290225,
      "language_loss": 0.7617746,
      "learning_rate": 3.1385939142923666e-06,
      "loss": 0.78013885,
      "num_input_tokens_seen": 58813340,
      "step": 2728,
      "time_per_iteration": 3.35453200340271
    },
    {
      "auxiliary_loss_clip": 0.0109389,
      "auxiliary_loss_mlp": 0.01023846,
      "balance_loss_clip": 1.04375982,
      "balance_loss_mlp": 1.0170269,
      "epoch": 0.3281428485540792,
      "flos": 24209281474560.0,
      "grad_norm": 2.4904818963187423,
      "language_loss": 0.78669167,
      "learning_rate": 3.137953410452405e-06,
      "loss": 0.80786908,
      "num_input_tokens_seen": 58833610,
      "step": 2729,
      "time_per_iteration": 2.6199569702148438
    },
    {
      "auxiliary_loss_clip": 0.01089661,
      "auxiliary_loss_mlp": 0.01022502,
      "balance_loss_clip": 1.04129529,
      "balance_loss_mlp": 1.01628268,
      "epoch": 0.3282630914447183,
      "flos": 34131688473600.0,
      "grad_norm": 2.20644165440691,
      "language_loss": 0.74885923,
      "learning_rate": 3.1373127339858146e-06,
      "loss": 0.76998091,
      "num_input_tokens_seen": 58856210,
      "step": 2730,
      "time_per_iteration": 3.4589078426361084
    },
    {
      "auxiliary_loss_clip": 0.01084204,
      "auxiliary_loss_mlp": 0.01020607,
      "balance_loss_clip": 1.04462838,
      "balance_loss_mlp": 1.01485205,
      "epoch": 0.32838333433535744,
      "flos": 27603239788800.0,
      "grad_norm": 3.4295336216318018,
      "language_loss": 0.74674881,
      "learning_rate": 3.136671884989787e-06,
      "loss": 0.76779693,
      "num_input_tokens_seen": 58876120,
      "step": 2731,
      "time_per_iteration": 2.667933464050293
    },
    {
      "auxiliary_loss_clip": 0.0105566,
      "auxiliary_loss_mlp": 0.01024116,
      "balance_loss_clip": 1.04105937,
      "balance_loss_mlp": 1.0174849,
      "epoch": 0.3285035772259965,
      "flos": 12351154631040.0,
      "grad_norm": 2.5159012524847295,
      "language_loss": 0.871575,
      "learning_rate": 3.1360308635615383e-06,
      "loss": 0.89237273,
      "num_input_tokens_seen": 58894660,
      "step": 2732,
      "time_per_iteration": 2.6448869705200195
    },
    {
      "auxiliary_loss_clip": 0.01093777,
      "auxiliary_loss_mlp": 0.01021354,
      "balance_loss_clip": 1.04329133,
      "balance_loss_mlp": 1.01424861,
      "epoch": 0.3286238201166356,
      "flos": 24318364026240.0,
      "grad_norm": 1.9207822726686639,
      "language_loss": 0.78620851,
      "learning_rate": 3.135389669798311e-06,
      "loss": 0.80735981,
      "num_input_tokens_seen": 58912720,
      "step": 2733,
      "time_per_iteration": 2.5946478843688965
    },
    {
      "auxiliary_loss_clip": 0.01107572,
      "auxiliary_loss_mlp": 0.00756678,
      "balance_loss_clip": 1.0449369,
      "balance_loss_mlp": 1.00107527,
      "epoch": 0.3287440630072747,
      "flos": 21394682651520.0,
      "grad_norm": 3.329653159539357,
      "language_loss": 0.79852152,
      "learning_rate": 3.134748303797373e-06,
      "loss": 0.817164,
      "num_input_tokens_seen": 58930090,
      "step": 2734,
      "time_per_iteration": 2.5640993118286133
    },
    {
      "auxiliary_loss_clip": 0.01069798,
      "auxiliary_loss_mlp": 0.01022731,
      "balance_loss_clip": 1.04260564,
      "balance_loss_mlp": 1.01578665,
      "epoch": 0.32886430589791377,
      "flos": 23734795628160.0,
      "grad_norm": 1.8496052182056681,
      "language_loss": 0.80890793,
      "learning_rate": 3.1341067656560203e-06,
      "loss": 0.82983321,
      "num_input_tokens_seen": 58947935,
      "step": 2735,
      "time_per_iteration": 2.6493701934814453
    },
    {
      "auxiliary_loss_clip": 0.01096253,
      "auxiliary_loss_mlp": 0.01023301,
      "balance_loss_clip": 1.04344416,
      "balance_loss_mlp": 1.01650274,
      "epoch": 0.3289845487885529,
      "flos": 22420875657600.0,
      "grad_norm": 1.928993384874716,
      "language_loss": 0.86400783,
      "learning_rate": 3.133465055471572e-06,
      "loss": 0.88520336,
      "num_input_tokens_seen": 58967720,
      "step": 2736,
      "time_per_iteration": 2.588610887527466
    },
    {
      "auxiliary_loss_clip": 0.01080192,
      "auxiliary_loss_mlp": 0.01023756,
      "balance_loss_clip": 1.04359055,
      "balance_loss_mlp": 1.01719308,
      "epoch": 0.329104791679192,
      "flos": 19684635690240.0,
      "grad_norm": 2.3707950238827737,
      "language_loss": 0.66699934,
      "learning_rate": 3.1328231733413767e-06,
      "loss": 0.68803877,
      "num_input_tokens_seen": 58984360,
      "step": 2737,
      "time_per_iteration": 2.5847227573394775
    },
    {
      "auxiliary_loss_clip": 0.01110656,
      "auxiliary_loss_mlp": 0.01024921,
      "balance_loss_clip": 1.04803729,
      "balance_loss_mlp": 1.01784599,
      "epoch": 0.32922503456983104,
      "flos": 15999044849280.0,
      "grad_norm": 2.177745949093415,
      "language_loss": 0.91425991,
      "learning_rate": 3.1321811193628067e-06,
      "loss": 0.93561566,
      "num_input_tokens_seen": 59002505,
      "step": 2738,
      "time_per_iteration": 2.521899938583374
    },
    {
      "auxiliary_loss_clip": 0.01105111,
      "auxiliary_loss_mlp": 0.00757055,
      "balance_loss_clip": 1.04668427,
      "balance_loss_mlp": 1.00114322,
      "epoch": 0.32934527746047015,
      "flos": 26836514726400.0,
      "grad_norm": 1.989232699838697,
      "language_loss": 0.70488483,
      "learning_rate": 3.131538893633261e-06,
      "loss": 0.72350645,
      "num_input_tokens_seen": 59022065,
      "step": 2739,
      "time_per_iteration": 2.594729423522949
    },
    {
      "auxiliary_loss_clip": 0.01120093,
      "auxiliary_loss_mlp": 0.01025732,
      "balance_loss_clip": 1.04828513,
      "balance_loss_mlp": 1.01944923,
      "epoch": 0.32946552035110926,
      "flos": 23405993331840.0,
      "grad_norm": 3.4136213612710575,
      "language_loss": 0.77892286,
      "learning_rate": 3.130896496250165e-06,
      "loss": 0.80038112,
      "num_input_tokens_seen": 59041890,
      "step": 2740,
      "time_per_iteration": 2.537564277648926
    },
    {
      "auxiliary_loss_clip": 0.01120136,
      "auxiliary_loss_mlp": 0.01025109,
      "balance_loss_clip": 1.04695702,
      "balance_loss_mlp": 1.01860666,
      "epoch": 0.3295857632417483,
      "flos": 14174151788160.0,
      "grad_norm": 2.215741620814593,
      "language_loss": 0.86855114,
      "learning_rate": 3.1302539273109693e-06,
      "loss": 0.89000356,
      "num_input_tokens_seen": 59058715,
      "step": 2741,
      "time_per_iteration": 2.4827122688293457
    },
    {
      "auxiliary_loss_clip": 0.01097178,
      "auxiliary_loss_mlp": 0.01024349,
      "balance_loss_clip": 1.04551494,
      "balance_loss_mlp": 1.01765585,
      "epoch": 0.32970600613238743,
      "flos": 22198691237760.0,
      "grad_norm": 1.8882363121603576,
      "language_loss": 0.80780673,
      "learning_rate": 3.1296111869131513e-06,
      "loss": 0.82902199,
      "num_input_tokens_seen": 59076140,
      "step": 2742,
      "time_per_iteration": 2.6009156703948975
    },
    {
      "auxiliary_loss_clip": 0.01119765,
      "auxiliary_loss_mlp": 0.0102295,
      "balance_loss_clip": 1.04701686,
      "balance_loss_mlp": 1.01665282,
      "epoch": 0.32982624902302654,
      "flos": 22055927379840.0,
      "grad_norm": 2.0008297633659846,
      "language_loss": 0.86183345,
      "learning_rate": 3.1289682751542153e-06,
      "loss": 0.88326061,
      "num_input_tokens_seen": 59095700,
      "step": 2743,
      "time_per_iteration": 2.5023796558380127
    },
    {
      "auxiliary_loss_clip": 0.0111239,
      "auxiliary_loss_mlp": 0.0102328,
      "balance_loss_clip": 1.04925656,
      "balance_loss_mlp": 1.01696229,
      "epoch": 0.3299464919136656,
      "flos": 18663637461120.0,
      "grad_norm": 2.045788442886271,
      "language_loss": 0.71478558,
      "learning_rate": 3.1283251921316883e-06,
      "loss": 0.73614228,
      "num_input_tokens_seen": 59113445,
      "step": 2744,
      "time_per_iteration": 2.5235345363616943
    },
    {
      "auxiliary_loss_clip": 0.01062366,
      "auxiliary_loss_mlp": 0.01024252,
      "balance_loss_clip": 1.04075646,
      "balance_loss_mlp": 1.01759148,
      "epoch": 0.3300667348043047,
      "flos": 13409057203200.0,
      "grad_norm": 2.533069353324281,
      "language_loss": 0.81306785,
      "learning_rate": 3.1276819379431277e-06,
      "loss": 0.83393407,
      "num_input_tokens_seen": 59131535,
      "step": 2745,
      "time_per_iteration": 2.606602191925049
    },
    {
      "auxiliary_loss_clip": 0.01098448,
      "auxiliary_loss_mlp": 0.00756975,
      "balance_loss_clip": 1.04803038,
      "balance_loss_mlp": 1.0009563,
      "epoch": 0.33018697769494376,
      "flos": 15744392501760.0,
      "grad_norm": 2.064354885769982,
      "language_loss": 0.75028044,
      "learning_rate": 3.1270385126861134e-06,
      "loss": 0.76883471,
      "num_input_tokens_seen": 59149520,
      "step": 2746,
      "time_per_iteration": 2.560065984725952
    },
    {
      "auxiliary_loss_clip": 0.01122447,
      "auxiliary_loss_mlp": 0.01027875,
      "balance_loss_clip": 1.04926932,
      "balance_loss_mlp": 1.02096677,
      "epoch": 0.3303072205855829,
      "flos": 18260495625600.0,
      "grad_norm": 2.092142081081655,
      "language_loss": 0.82319176,
      "learning_rate": 3.1263949164582533e-06,
      "loss": 0.84469497,
      "num_input_tokens_seen": 59169170,
      "step": 2747,
      "time_per_iteration": 2.4985389709472656
    },
    {
      "auxiliary_loss_clip": 0.01118222,
      "auxiliary_loss_mlp": 0.01023305,
      "balance_loss_clip": 1.0453366,
      "balance_loss_mlp": 1.01687336,
      "epoch": 0.330427463476222,
      "flos": 17751380520960.0,
      "grad_norm": 2.131409541157634,
      "language_loss": 0.78284574,
      "learning_rate": 3.1257511493571797e-06,
      "loss": 0.80426103,
      "num_input_tokens_seen": 59187675,
      "step": 2748,
      "time_per_iteration": 2.5123274326324463
    },
    {
      "auxiliary_loss_clip": 0.01079977,
      "auxiliary_loss_mlp": 0.0102373,
      "balance_loss_clip": 1.0431689,
      "balance_loss_mlp": 1.01736736,
      "epoch": 0.33054770636686104,
      "flos": 27165051596160.0,
      "grad_norm": 1.7916477683689735,
      "language_loss": 0.78627253,
      "learning_rate": 3.125107211480552e-06,
      "loss": 0.80730963,
      "num_input_tokens_seen": 59207610,
      "step": 2749,
      "time_per_iteration": 2.6511547565460205
    },
    {
      "auxiliary_loss_clip": 0.01049243,
      "auxiliary_loss_mlp": 0.01027599,
      "balance_loss_clip": 1.03592825,
      "balance_loss_mlp": 1.02100682,
      "epoch": 0.33066794925750015,
      "flos": 20119069992960.0,
      "grad_norm": 1.6550479503353825,
      "language_loss": 0.80000228,
      "learning_rate": 3.124463102926054e-06,
      "loss": 0.82077074,
      "num_input_tokens_seen": 59226945,
      "step": 2750,
      "time_per_iteration": 2.673069715499878
    },
    {
      "auxiliary_loss_clip": 0.01061695,
      "auxiliary_loss_mlp": 0.01012467,
      "balance_loss_clip": 1.03198147,
      "balance_loss_mlp": 1.00972545,
      "epoch": 0.33078819214813926,
      "flos": 70648925834880.0,
      "grad_norm": 0.8417247198979506,
      "language_loss": 0.61646092,
      "learning_rate": 3.1238188237913984e-06,
      "loss": 0.63720256,
      "num_input_tokens_seen": 59291485,
      "step": 2751,
      "time_per_iteration": 3.2017829418182373
    },
    {
      "auxiliary_loss_clip": 0.0112231,
      "auxiliary_loss_mlp": 0.01024477,
      "balance_loss_clip": 1.04788375,
      "balance_loss_mlp": 1.01761961,
      "epoch": 0.3309084350387783,
      "flos": 21144049620480.0,
      "grad_norm": 2.3767834460686204,
      "language_loss": 0.76684654,
      "learning_rate": 3.1231743741743202e-06,
      "loss": 0.78831434,
      "num_input_tokens_seen": 59310990,
      "step": 2752,
      "time_per_iteration": 3.391023635864258
    },
    {
      "auxiliary_loss_clip": 0.01109976,
      "auxiliary_loss_mlp": 0.01022925,
      "balance_loss_clip": 1.04725134,
      "balance_loss_mlp": 1.01636589,
      "epoch": 0.3310286779294174,
      "flos": 14211056131200.0,
      "grad_norm": 2.1266790585337376,
      "language_loss": 0.84049356,
      "learning_rate": 3.122529754172582e-06,
      "loss": 0.86182249,
      "num_input_tokens_seen": 59327875,
      "step": 2753,
      "time_per_iteration": 2.512465238571167
    },
    {
      "auxiliary_loss_clip": 0.01106376,
      "auxiliary_loss_mlp": 0.01024823,
      "balance_loss_clip": 1.04647231,
      "balance_loss_mlp": 1.01822519,
      "epoch": 0.33114892082005654,
      "flos": 20780276803200.0,
      "grad_norm": 4.371691427504926,
      "language_loss": 0.72756463,
      "learning_rate": 3.1218849638839736e-06,
      "loss": 0.74887669,
      "num_input_tokens_seen": 59347135,
      "step": 2754,
      "time_per_iteration": 2.549133539199829
    },
    {
      "auxiliary_loss_clip": 0.010899,
      "auxiliary_loss_mlp": 0.01027533,
      "balance_loss_clip": 1.0456847,
      "balance_loss_mlp": 1.02015972,
      "epoch": 0.3312691637106956,
      "flos": 17092562549760.0,
      "grad_norm": 1.9916040391044816,
      "language_loss": 0.78867674,
      "learning_rate": 3.121240003406307e-06,
      "loss": 0.80985105,
      "num_input_tokens_seen": 59365985,
      "step": 2755,
      "time_per_iteration": 3.3316667079925537
    },
    {
      "auxiliary_loss_clip": 0.01083585,
      "auxiliary_loss_mlp": 0.01026423,
      "balance_loss_clip": 1.04589689,
      "balance_loss_mlp": 1.01950598,
      "epoch": 0.3313894066013347,
      "flos": 29458553201280.0,
      "grad_norm": 2.0058673923142014,
      "language_loss": 0.72658503,
      "learning_rate": 3.120594872837425e-06,
      "loss": 0.74768513,
      "num_input_tokens_seen": 59384655,
      "step": 2756,
      "time_per_iteration": 3.4270575046539307
    },
    {
      "auxiliary_loss_clip": 0.01090542,
      "auxiliary_loss_mlp": 0.00753087,
      "balance_loss_clip": 1.05855131,
      "balance_loss_mlp": 1.00062931,
      "epoch": 0.3315096494919738,
      "flos": 61425464186880.0,
      "grad_norm": 0.8325210037917803,
      "language_loss": 0.62345612,
      "learning_rate": 3.1199495722751906e-06,
      "loss": 0.64189243,
      "num_input_tokens_seen": 59444185,
      "step": 2757,
      "time_per_iteration": 3.183356523513794
    },
    {
      "auxiliary_loss_clip": 0.01070166,
      "auxiliary_loss_mlp": 0.01025341,
      "balance_loss_clip": 1.04329872,
      "balance_loss_mlp": 1.01866531,
      "epoch": 0.33162989238261287,
      "flos": 21655212301440.0,
      "grad_norm": 1.7663608329989988,
      "language_loss": 0.83947825,
      "learning_rate": 3.1193041018174972e-06,
      "loss": 0.86043334,
      "num_input_tokens_seen": 59464900,
      "step": 2758,
      "time_per_iteration": 2.653979778289795
    },
    {
      "auxiliary_loss_clip": 0.0111011,
      "auxiliary_loss_mlp": 0.01021037,
      "balance_loss_clip": 1.04920197,
      "balance_loss_mlp": 1.01426935,
      "epoch": 0.331750135273252,
      "flos": 22677006810240.0,
      "grad_norm": 2.2434331451144764,
      "language_loss": 0.95193827,
      "learning_rate": 3.118658461562261e-06,
      "loss": 0.97324967,
      "num_input_tokens_seen": 59481000,
      "step": 2759,
      "time_per_iteration": 2.5507941246032715
    },
    {
      "auxiliary_loss_clip": 0.01086527,
      "auxiliary_loss_mlp": 0.01025933,
      "balance_loss_clip": 1.04158759,
      "balance_loss_mlp": 1.0189352,
      "epoch": 0.33187037816389103,
      "flos": 22749071264640.0,
      "grad_norm": 1.473394851764629,
      "language_loss": 0.84703064,
      "learning_rate": 3.118012651607426e-06,
      "loss": 0.8681553,
      "num_input_tokens_seen": 59502605,
      "step": 2760,
      "time_per_iteration": 2.6070330142974854
    },
    {
      "auxiliary_loss_clip": 0.0112399,
      "auxiliary_loss_mlp": 0.01029213,
      "balance_loss_clip": 1.05174232,
      "balance_loss_mlp": 1.02217388,
      "epoch": 0.33199062105453014,
      "flos": 19205523838080.0,
      "grad_norm": 2.2479221732160384,
      "language_loss": 0.83843112,
      "learning_rate": 3.1173666720509603e-06,
      "loss": 0.85996306,
      "num_input_tokens_seen": 59519540,
      "step": 2761,
      "time_per_iteration": 2.5081748962402344
    },
    {
      "auxiliary_loss_clip": 0.01098498,
      "auxiliary_loss_mlp": 0.01024089,
      "balance_loss_clip": 1.04693031,
      "balance_loss_mlp": 1.01750231,
      "epoch": 0.33211086394516925,
      "flos": 31579704794880.0,
      "grad_norm": 1.7660710903715202,
      "language_loss": 0.68390483,
      "learning_rate": 3.116720522990859e-06,
      "loss": 0.7051307,
      "num_input_tokens_seen": 59540415,
      "step": 2762,
      "time_per_iteration": 2.670034646987915
    },
    {
      "auxiliary_loss_clip": 0.01051508,
      "auxiliary_loss_mlp": 0.01026268,
      "balance_loss_clip": 1.04073465,
      "balance_loss_mlp": 1.01951182,
      "epoch": 0.3322311068358083,
      "flos": 17934499267200.0,
      "grad_norm": 2.801325212326017,
      "language_loss": 0.61905777,
      "learning_rate": 3.116074204525142e-06,
      "loss": 0.63983554,
      "num_input_tokens_seen": 59558590,
      "step": 2763,
      "time_per_iteration": 2.6447947025299072
    },
    {
      "auxiliary_loss_clip": 0.01113383,
      "auxiliary_loss_mlp": 0.01023701,
      "balance_loss_clip": 1.05094051,
      "balance_loss_mlp": 1.017097,
      "epoch": 0.3323513497264474,
      "flos": 32272545335040.0,
      "grad_norm": 1.7892151943389274,
      "language_loss": 0.83791131,
      "learning_rate": 3.1154277167518553e-06,
      "loss": 0.85928214,
      "num_input_tokens_seen": 59580205,
      "step": 2764,
      "time_per_iteration": 2.6531453132629395
    },
    {
      "auxiliary_loss_clip": 0.01082468,
      "auxiliary_loss_mlp": 0.01007913,
      "balance_loss_clip": 1.0615139,
      "balance_loss_mlp": 1.00500476,
      "epoch": 0.33247159261708653,
      "flos": 52674744153600.0,
      "grad_norm": 0.7852373090402233,
      "language_loss": 0.59481835,
      "learning_rate": 3.114781059769072e-06,
      "loss": 0.61572218,
      "num_input_tokens_seen": 59631530,
      "step": 2765,
      "time_per_iteration": 3.0186142921447754
    },
    {
      "auxiliary_loss_clip": 0.0109635,
      "auxiliary_loss_mlp": 0.01025797,
      "balance_loss_clip": 1.04777896,
      "balance_loss_mlp": 1.01903498,
      "epoch": 0.3325918355077256,
      "flos": 27127654318080.0,
      "grad_norm": 3.011860027604022,
      "language_loss": 0.67778313,
      "learning_rate": 3.1141342336748874e-06,
      "loss": 0.69900465,
      "num_input_tokens_seen": 59651090,
      "step": 2766,
      "time_per_iteration": 2.6477622985839844
    },
    {
      "auxiliary_loss_clip": 0.01109156,
      "auxiliary_loss_mlp": 0.0102583,
      "balance_loss_clip": 1.05010009,
      "balance_loss_mlp": 1.01960754,
      "epoch": 0.3327120783983647,
      "flos": 23666940080640.0,
      "grad_norm": 1.7984437089367762,
      "language_loss": 0.82560575,
      "learning_rate": 3.1134872385674253e-06,
      "loss": 0.84695566,
      "num_input_tokens_seen": 59675245,
      "step": 2767,
      "time_per_iteration": 2.605806589126587
    },
    {
      "auxiliary_loss_clip": 0.0109589,
      "auxiliary_loss_mlp": 0.01023346,
      "balance_loss_clip": 1.0447365,
      "balance_loss_mlp": 1.01675367,
      "epoch": 0.3328323212890038,
      "flos": 19173359255040.0,
      "grad_norm": 1.823325434599892,
      "language_loss": 0.85716999,
      "learning_rate": 3.1128400745448353e-06,
      "loss": 0.87836242,
      "num_input_tokens_seen": 59694625,
      "step": 2768,
      "time_per_iteration": 2.6007509231567383
    },
    {
      "auxiliary_loss_clip": 0.01108697,
      "auxiliary_loss_mlp": 0.01025611,
      "balance_loss_clip": 1.04881763,
      "balance_loss_mlp": 1.01881349,
      "epoch": 0.33295256417964286,
      "flos": 37709372223360.0,
      "grad_norm": 2.2406827339666577,
      "language_loss": 0.63167846,
      "learning_rate": 3.11219274170529e-06,
      "loss": 0.65302157,
      "num_input_tokens_seen": 59716435,
      "step": 2769,
      "time_per_iteration": 2.681410551071167
    },
    {
      "auxiliary_loss_clip": 0.01084633,
      "auxiliary_loss_mlp": 0.01027995,
      "balance_loss_clip": 1.0384798,
      "balance_loss_mlp": 1.02201962,
      "epoch": 0.333072807070282,
      "flos": 26508432873600.0,
      "grad_norm": 1.840333781963961,
      "language_loss": 0.8191576,
      "learning_rate": 3.1115452401469903e-06,
      "loss": 0.84028387,
      "num_input_tokens_seen": 59736835,
      "step": 2770,
      "time_per_iteration": 2.6392970085144043
    },
    {
      "auxiliary_loss_clip": 0.01074672,
      "auxiliary_loss_mlp": 0.01024816,
      "balance_loss_clip": 1.04644167,
      "balance_loss_mlp": 1.01853633,
      "epoch": 0.3331930499609211,
      "flos": 21432876209280.0,
      "grad_norm": 1.8732931136505766,
      "language_loss": 0.86671269,
      "learning_rate": 3.1108975699681613e-06,
      "loss": 0.88770759,
      "num_input_tokens_seen": 59754230,
      "step": 2771,
      "time_per_iteration": 2.6481926441192627
    },
    {
      "auxiliary_loss_clip": 0.01072792,
      "auxiliary_loss_mlp": 0.01025926,
      "balance_loss_clip": 1.03843379,
      "balance_loss_mlp": 1.01959324,
      "epoch": 0.33331329285156014,
      "flos": 20661600977280.0,
      "grad_norm": 1.8633917153390052,
      "language_loss": 0.71495813,
      "learning_rate": 3.1102497312670542e-06,
      "loss": 0.73594534,
      "num_input_tokens_seen": 59772235,
      "step": 2772,
      "time_per_iteration": 2.621546506881714
    },
    {
      "auxiliary_loss_clip": 0.01085011,
      "auxiliary_loss_mlp": 0.0102679,
      "balance_loss_clip": 1.03906679,
      "balance_loss_mlp": 1.02036488,
      "epoch": 0.33343353574219925,
      "flos": 28004106539520.0,
      "grad_norm": 2.0681196283465013,
      "language_loss": 0.80457783,
      "learning_rate": 3.109601724141946e-06,
      "loss": 0.82569587,
      "num_input_tokens_seen": 59791230,
      "step": 2773,
      "time_per_iteration": 2.623464345932007
    },
    {
      "auxiliary_loss_clip": 0.01098844,
      "auxiliary_loss_mlp": 0.01020257,
      "balance_loss_clip": 1.04727781,
      "balance_loss_mlp": 1.01394796,
      "epoch": 0.33355377863283836,
      "flos": 23766998129280.0,
      "grad_norm": 1.8982415258236138,
      "language_loss": 0.68742383,
      "learning_rate": 3.108953548691138e-06,
      "loss": 0.70861483,
      "num_input_tokens_seen": 59811315,
      "step": 2774,
      "time_per_iteration": 2.593424081802368
    },
    {
      "auxiliary_loss_clip": 0.01121531,
      "auxiliary_loss_mlp": 0.01023979,
      "balance_loss_clip": 1.04961872,
      "balance_loss_mlp": 1.01729417,
      "epoch": 0.3336740215234774,
      "flos": 37782725892480.0,
      "grad_norm": 3.468776962290574,
      "language_loss": 0.73004866,
      "learning_rate": 3.108305205012959e-06,
      "loss": 0.75150371,
      "num_input_tokens_seen": 59832010,
      "step": 2775,
      "time_per_iteration": 2.666170358657837
    },
    {
      "auxiliary_loss_clip": 0.01089436,
      "auxiliary_loss_mlp": 0.01021417,
      "balance_loss_clip": 1.0428313,
      "balance_loss_mlp": 1.01481318,
      "epoch": 0.3337942644141165,
      "flos": 25521343459200.0,
      "grad_norm": 2.222406289759494,
      "language_loss": 0.88187909,
      "learning_rate": 3.107656693205761e-06,
      "loss": 0.90298766,
      "num_input_tokens_seen": 59851450,
      "step": 2776,
      "time_per_iteration": 2.600405216217041
    },
    {
      "auxiliary_loss_clip": 0.01121918,
      "auxiliary_loss_mlp": 0.01023816,
      "balance_loss_clip": 1.04924738,
      "balance_loss_mlp": 1.01684237,
      "epoch": 0.3339145073047556,
      "flos": 25991961661440.0,
      "grad_norm": 3.389831501833367,
      "language_loss": 0.70203251,
      "learning_rate": 3.107008013367924e-06,
      "loss": 0.72348982,
      "num_input_tokens_seen": 59870245,
      "step": 2777,
      "time_per_iteration": 3.3132946491241455
    },
    {
      "auxiliary_loss_clip": 0.0108132,
      "auxiliary_loss_mlp": 0.01021856,
      "balance_loss_clip": 1.04489088,
      "balance_loss_mlp": 1.01517129,
      "epoch": 0.3340347501953947,
      "flos": 19064580048000.0,
      "grad_norm": 4.292319019750754,
      "language_loss": 0.86885941,
      "learning_rate": 3.1063591655978507e-06,
      "loss": 0.88989127,
      "num_input_tokens_seen": 59886195,
      "step": 2778,
      "time_per_iteration": 3.3436105251312256
    },
    {
      "auxiliary_loss_clip": 0.0107118,
      "auxiliary_loss_mlp": 0.01023674,
      "balance_loss_clip": 1.04420948,
      "balance_loss_mlp": 1.01711798,
      "epoch": 0.3341549930860338,
      "flos": 18111437366400.0,
      "grad_norm": 2.3225407609014352,
      "language_loss": 0.79984266,
      "learning_rate": 3.105710149993972e-06,
      "loss": 0.82079124,
      "num_input_tokens_seen": 59905525,
      "step": 2779,
      "time_per_iteration": 2.6485068798065186
    },
    {
      "auxiliary_loss_clip": 0.01120953,
      "auxiliary_loss_mlp": 0.0101818,
      "balance_loss_clip": 1.04825377,
      "balance_loss_mlp": 1.01170373,
      "epoch": 0.33427523597667286,
      "flos": 22677196400640.0,
      "grad_norm": 9.03663042867609,
      "language_loss": 0.85573578,
      "learning_rate": 3.1050609666547427e-06,
      "loss": 0.87712717,
      "num_input_tokens_seen": 59925085,
      "step": 2780,
      "time_per_iteration": 3.2796897888183594
    },
    {
      "auxiliary_loss_clip": 0.01085642,
      "auxiliary_loss_mlp": 0.01028425,
      "balance_loss_clip": 1.04665756,
      "balance_loss_mlp": 1.02199674,
      "epoch": 0.33439547886731197,
      "flos": 22640557484160.0,
      "grad_norm": 3.1793033074652475,
      "language_loss": 0.77732563,
      "learning_rate": 3.104411615678644e-06,
      "loss": 0.79846621,
      "num_input_tokens_seen": 59943935,
      "step": 2781,
      "time_per_iteration": 2.6226773262023926
    },
    {
      "auxiliary_loss_clip": 0.01093962,
      "auxiliary_loss_mlp": 0.01022243,
      "balance_loss_clip": 1.04958749,
      "balance_loss_mlp": 1.01547778,
      "epoch": 0.3345157217579511,
      "flos": 24098606363520.0,
      "grad_norm": 2.5763158000342155,
      "language_loss": 0.73253417,
      "learning_rate": 3.1037620971641803e-06,
      "loss": 0.7536962,
      "num_input_tokens_seen": 59963725,
      "step": 2782,
      "time_per_iteration": 3.379215717315674
    },
    {
      "auxiliary_loss_clip": 0.0112315,
      "auxiliary_loss_mlp": 0.01023951,
      "balance_loss_clip": 1.0511179,
      "balance_loss_mlp": 1.01686072,
      "epoch": 0.33463596464859013,
      "flos": 18991491805440.0,
      "grad_norm": 2.3929334950243333,
      "language_loss": 0.65321803,
      "learning_rate": 3.1031124112098844e-06,
      "loss": 0.67468905,
      "num_input_tokens_seen": 59981935,
      "step": 2783,
      "time_per_iteration": 2.5099432468414307
    },
    {
      "auxiliary_loss_clip": 0.01098778,
      "auxiliary_loss_mlp": 0.01021454,
      "balance_loss_clip": 1.04918957,
      "balance_loss_mlp": 1.01488519,
      "epoch": 0.33475620753922924,
      "flos": 20377665820800.0,
      "grad_norm": 2.138893640496519,
      "language_loss": 0.72322559,
      "learning_rate": 3.1024625579143127e-06,
      "loss": 0.74442792,
      "num_input_tokens_seen": 59999455,
      "step": 2784,
      "time_per_iteration": 2.6629514694213867
    },
    {
      "auxiliary_loss_clip": 0.01120022,
      "auxiliary_loss_mlp": 0.01022463,
      "balance_loss_clip": 1.04793429,
      "balance_loss_mlp": 1.01611519,
      "epoch": 0.33487645042986836,
      "flos": 18184298100480.0,
      "grad_norm": 2.367436371950267,
      "language_loss": 0.72779882,
      "learning_rate": 3.101812537376048e-06,
      "loss": 0.74922371,
      "num_input_tokens_seen": 60018475,
      "step": 2785,
      "time_per_iteration": 2.527510643005371
    },
    {
      "auxiliary_loss_clip": 0.01097729,
      "auxiliary_loss_mlp": 0.00756734,
      "balance_loss_clip": 1.04902065,
      "balance_loss_mlp": 1.00110078,
      "epoch": 0.3349966933205074,
      "flos": 25851207461760.0,
      "grad_norm": 2.198793842433559,
      "language_loss": 0.8489877,
      "learning_rate": 3.1011623496936973e-06,
      "loss": 0.86753231,
      "num_input_tokens_seen": 60036770,
      "step": 2786,
      "time_per_iteration": 2.6590864658355713
    },
    {
      "auxiliary_loss_clip": 0.01121038,
      "auxiliary_loss_mlp": 0.01020534,
      "balance_loss_clip": 1.0499891,
      "balance_loss_mlp": 1.01422453,
      "epoch": 0.3351169362111465,
      "flos": 28113985370880.0,
      "grad_norm": 1.9849311667613168,
      "language_loss": 0.70076084,
      "learning_rate": 3.100511994965893e-06,
      "loss": 0.72217655,
      "num_input_tokens_seen": 60056725,
      "step": 2787,
      "time_per_iteration": 2.5434489250183105
    },
    {
      "auxiliary_loss_clip": 0.01094911,
      "auxiliary_loss_mlp": 0.01022374,
      "balance_loss_clip": 1.04139841,
      "balance_loss_mlp": 1.01588869,
      "epoch": 0.33523717910178563,
      "flos": 22675452168960.0,
      "grad_norm": 1.9443192105447162,
      "language_loss": 0.84646696,
      "learning_rate": 3.0998614732912947e-06,
      "loss": 0.86763978,
      "num_input_tokens_seen": 60076100,
      "step": 2788,
      "time_per_iteration": 2.563398838043213
    },
    {
      "auxiliary_loss_clip": 0.01106888,
      "auxiliary_loss_mlp": 0.01024459,
      "balance_loss_clip": 1.04868865,
      "balance_loss_mlp": 1.01791155,
      "epoch": 0.3353574219924247,
      "flos": 15671645521920.0,
      "grad_norm": 3.34522839997493,
      "language_loss": 0.67981374,
      "learning_rate": 3.0992107847685855e-06,
      "loss": 0.70112729,
      "num_input_tokens_seen": 60093815,
      "step": 2789,
      "time_per_iteration": 2.5300896167755127
    },
    {
      "auxiliary_loss_clip": 0.01094471,
      "auxiliary_loss_mlp": 0.01027987,
      "balance_loss_clip": 1.04728401,
      "balance_loss_mlp": 1.0212996,
      "epoch": 0.3354776648830638,
      "flos": 24792963626880.0,
      "grad_norm": 1.7088292254600783,
      "language_loss": 0.79752159,
      "learning_rate": 3.0985599294964736e-06,
      "loss": 0.81874621,
      "num_input_tokens_seen": 60113370,
      "step": 2790,
      "time_per_iteration": 2.630788564682007
    },
    {
      "auxiliary_loss_clip": 0.01085637,
      "auxiliary_loss_mlp": 0.01030327,
      "balance_loss_clip": 1.04541993,
      "balance_loss_mlp": 1.0233593,
      "epoch": 0.33559790777370285,
      "flos": 28697402096640.0,
      "grad_norm": 1.9163391782339256,
      "language_loss": 0.70357883,
      "learning_rate": 3.097908907573695e-06,
      "loss": 0.72473848,
      "num_input_tokens_seen": 60131350,
      "step": 2791,
      "time_per_iteration": 2.6787800788879395
    },
    {
      "auxiliary_loss_clip": 0.01049737,
      "auxiliary_loss_mlp": 0.01024411,
      "balance_loss_clip": 1.04035652,
      "balance_loss_mlp": 1.01808405,
      "epoch": 0.33571815066434196,
      "flos": 22237908583680.0,
      "grad_norm": 2.426964527842793,
      "language_loss": 0.89737159,
      "learning_rate": 3.0972577190990067e-06,
      "loss": 0.91811311,
      "num_input_tokens_seen": 60149830,
      "step": 2792,
      "time_per_iteration": 2.6549758911132812
    },
    {
      "auxiliary_loss_clip": 0.01083833,
      "auxiliary_loss_mlp": 0.01023966,
      "balance_loss_clip": 1.04533291,
      "balance_loss_mlp": 1.01763344,
      "epoch": 0.3358383935549811,
      "flos": 23844560705280.0,
      "grad_norm": 2.6211021965638963,
      "language_loss": 0.80154181,
      "learning_rate": 3.096606364171196e-06,
      "loss": 0.8226198,
      "num_input_tokens_seen": 60169620,
      "step": 2793,
      "time_per_iteration": 2.637165069580078
    },
    {
      "auxiliary_loss_clip": 0.01076269,
      "auxiliary_loss_mlp": 0.01025044,
      "balance_loss_clip": 1.04144788,
      "balance_loss_mlp": 1.01860046,
      "epoch": 0.33595863644562013,
      "flos": 22269163132800.0,
      "grad_norm": 2.386109552049391,
      "language_loss": 0.84994501,
      "learning_rate": 3.0959548428890703e-06,
      "loss": 0.87095809,
      "num_input_tokens_seen": 60188490,
      "step": 2794,
      "time_per_iteration": 2.5988433361053467
    },
    {
      "auxiliary_loss_clip": 0.01106014,
      "auxiliary_loss_mlp": 0.01028641,
      "balance_loss_clip": 1.04947186,
      "balance_loss_mlp": 1.02206361,
      "epoch": 0.33607887933625924,
      "flos": 20121800094720.0,
      "grad_norm": 1.9670222019797168,
      "language_loss": 0.84390324,
      "learning_rate": 3.095303155351468e-06,
      "loss": 0.86524981,
      "num_input_tokens_seen": 60208695,
      "step": 2795,
      "time_per_iteration": 2.568159818649292
    },
    {
      "auxiliary_loss_clip": 0.01057803,
      "auxiliary_loss_mlp": 0.01021929,
      "balance_loss_clip": 1.0358398,
      "balance_loss_mlp": 1.01559854,
      "epoch": 0.33619912222689835,
      "flos": 19320142429440.0,
      "grad_norm": 3.3144453667614036,
      "language_loss": 0.79219139,
      "learning_rate": 3.0946513016572464e-06,
      "loss": 0.8129887,
      "num_input_tokens_seen": 60227600,
      "step": 2796,
      "time_per_iteration": 2.611332893371582
    },
    {
      "auxiliary_loss_clip": 0.01105504,
      "auxiliary_loss_mlp": 0.0102372,
      "balance_loss_clip": 1.04524016,
      "balance_loss_mlp": 1.01695228,
      "epoch": 0.3363193651175374,
      "flos": 16802560500480.0,
      "grad_norm": 2.11186603582289,
      "language_loss": 0.76834029,
      "learning_rate": 3.0939992819052938e-06,
      "loss": 0.7896325,
      "num_input_tokens_seen": 60245110,
      "step": 2797,
      "time_per_iteration": 2.5780513286590576
    },
    {
      "auxiliary_loss_clip": 0.01093381,
      "auxiliary_loss_mlp": 0.01021951,
      "balance_loss_clip": 1.04542589,
      "balance_loss_mlp": 1.01546288,
      "epoch": 0.3364396080081765,
      "flos": 23552548997760.0,
      "grad_norm": 2.291588536432258,
      "language_loss": 0.81185365,
      "learning_rate": 3.0933470961945193e-06,
      "loss": 0.83300698,
      "num_input_tokens_seen": 60263405,
      "step": 2798,
      "time_per_iteration": 2.636460542678833
    },
    {
      "auxiliary_loss_clip": 0.0109223,
      "auxiliary_loss_mlp": 0.01025561,
      "balance_loss_clip": 1.046206,
      "balance_loss_mlp": 1.01954687,
      "epoch": 0.3365598508988156,
      "flos": 28040404193280.0,
      "grad_norm": 2.285983854811653,
      "language_loss": 0.68196797,
      "learning_rate": 3.0926947446238597e-06,
      "loss": 0.70314598,
      "num_input_tokens_seen": 60282975,
      "step": 2799,
      "time_per_iteration": 2.6359128952026367
    },
    {
      "auxiliary_loss_clip": 0.0110821,
      "auxiliary_loss_mlp": 0.01022917,
      "balance_loss_clip": 1.04510093,
      "balance_loss_mlp": 1.01597297,
      "epoch": 0.3366800937894547,
      "flos": 16984655458560.0,
      "grad_norm": 2.4521884307754833,
      "language_loss": 0.82675499,
      "learning_rate": 3.092042227292276e-06,
      "loss": 0.84806627,
      "num_input_tokens_seen": 60299810,
      "step": 2800,
      "time_per_iteration": 2.519619941711426
    },
    {
      "auxiliary_loss_clip": 0.01117808,
      "auxiliary_loss_mlp": 0.01020833,
      "balance_loss_clip": 1.04636967,
      "balance_loss_mlp": 1.01487565,
      "epoch": 0.3368003366800938,
      "flos": 23917611029760.0,
      "grad_norm": 1.7583047682635984,
      "language_loss": 0.88453019,
      "learning_rate": 3.0913895442987557e-06,
      "loss": 0.90591657,
      "num_input_tokens_seen": 60320775,
      "step": 2801,
      "time_per_iteration": 2.575357675552368
    },
    {
      "auxiliary_loss_clip": 0.01078381,
      "auxiliary_loss_mlp": 0.00756908,
      "balance_loss_clip": 1.04412889,
      "balance_loss_mlp": 1.00129628,
      "epoch": 0.3369205795707329,
      "flos": 24793570316160.0,
      "grad_norm": 1.7231467072352913,
      "language_loss": 0.86042988,
      "learning_rate": 3.090736695742308e-06,
      "loss": 0.87878275,
      "num_input_tokens_seen": 60341905,
      "step": 2802,
      "time_per_iteration": 2.6337387561798096
    },
    {
      "auxiliary_loss_clip": 0.0105841,
      "auxiliary_loss_mlp": 0.01021918,
      "balance_loss_clip": 1.03575277,
      "balance_loss_mlp": 1.01587462,
      "epoch": 0.33704082246137196,
      "flos": 17933020462080.0,
      "grad_norm": 3.063339151841286,
      "language_loss": 0.52167606,
      "learning_rate": 3.0900836817219713e-06,
      "loss": 0.54247934,
      "num_input_tokens_seen": 60358335,
      "step": 2803,
      "time_per_iteration": 3.4756710529327393
    },
    {
      "auxiliary_loss_clip": 0.01118828,
      "auxiliary_loss_mlp": 0.01021246,
      "balance_loss_clip": 1.04680586,
      "balance_loss_mlp": 1.01521659,
      "epoch": 0.33716106535201107,
      "flos": 21288557710080.0,
      "grad_norm": 2.1088720271143493,
      "language_loss": 0.83778405,
      "learning_rate": 3.089430502336807e-06,
      "loss": 0.85918474,
      "num_input_tokens_seen": 60378305,
      "step": 2804,
      "time_per_iteration": 2.5148978233337402
    },
    {
      "auxiliary_loss_clip": 0.01107433,
      "auxiliary_loss_mlp": 0.01022118,
      "balance_loss_clip": 1.04664898,
      "balance_loss_mlp": 1.01543665,
      "epoch": 0.3372813082426502,
      "flos": 18404776206720.0,
      "grad_norm": 4.995433957636305,
      "language_loss": 0.90501434,
      "learning_rate": 3.088777157685902e-06,
      "loss": 0.92630982,
      "num_input_tokens_seen": 60393895,
      "step": 2805,
      "time_per_iteration": 2.536442279815674
    },
    {
      "auxiliary_loss_clip": 0.01079734,
      "auxiliary_loss_mlp": 0.01020053,
      "balance_loss_clip": 1.03542566,
      "balance_loss_mlp": 1.01419413,
      "epoch": 0.33740155113328923,
      "flos": 17203275578880.0,
      "grad_norm": 2.327181110837862,
      "language_loss": 0.85881227,
      "learning_rate": 3.088123647868367e-06,
      "loss": 0.87981009,
      "num_input_tokens_seen": 60410445,
      "step": 2806,
      "time_per_iteration": 3.311596393585205
    },
    {
      "auxiliary_loss_clip": 0.01108029,
      "auxiliary_loss_mlp": 0.01022188,
      "balance_loss_clip": 1.04589593,
      "balance_loss_mlp": 1.01623988,
      "epoch": 0.33752179402392835,
      "flos": 29061478258560.0,
      "grad_norm": 8.093030590301174,
      "language_loss": 0.81272078,
      "learning_rate": 3.0874699729833405e-06,
      "loss": 0.834023,
      "num_input_tokens_seen": 60431815,
      "step": 2807,
      "time_per_iteration": 2.616961717605591
    },
    {
      "auxiliary_loss_clip": 0.01079818,
      "auxiliary_loss_mlp": 0.01020772,
      "balance_loss_clip": 1.03791451,
      "balance_loss_mlp": 1.01456976,
      "epoch": 0.3376420369145674,
      "flos": 25082965676160.0,
      "grad_norm": 1.803992670165016,
      "language_loss": 0.80037606,
      "learning_rate": 3.086816133129983e-06,
      "loss": 0.82138199,
      "num_input_tokens_seen": 60452075,
      "step": 2808,
      "time_per_iteration": 3.379408597946167
    },
    {
      "auxiliary_loss_clip": 0.01120681,
      "auxiliary_loss_mlp": 0.0102346,
      "balance_loss_clip": 1.04853678,
      "balance_loss_mlp": 1.01744294,
      "epoch": 0.3377622798052065,
      "flos": 27493095530880.0,
      "grad_norm": 3.9541816027276857,
      "language_loss": 0.75893641,
      "learning_rate": 3.0861621284074826e-06,
      "loss": 0.78037775,
      "num_input_tokens_seen": 60472600,
      "step": 2809,
      "time_per_iteration": 2.548069953918457
    },
    {
      "auxiliary_loss_clip": 0.01097905,
      "auxiliary_loss_mlp": 0.01023847,
      "balance_loss_clip": 1.04835105,
      "balance_loss_mlp": 1.01785064,
      "epoch": 0.3378825226958456,
      "flos": 21977037671040.0,
      "grad_norm": 1.6567038248688868,
      "language_loss": 0.72957969,
      "learning_rate": 3.085507958915051e-06,
      "loss": 0.75079715,
      "num_input_tokens_seen": 60491030,
      "step": 2810,
      "time_per_iteration": 2.5872039794921875
    },
    {
      "auxiliary_loss_clip": 0.01080512,
      "auxiliary_loss_mlp": 0.01022763,
      "balance_loss_clip": 1.03710341,
      "balance_loss_mlp": 1.01600409,
      "epoch": 0.3380027655864847,
      "flos": 42526522650240.0,
      "grad_norm": 2.0742818853189253,
      "language_loss": 0.71631706,
      "learning_rate": 3.084853624751925e-06,
      "loss": 0.73734987,
      "num_input_tokens_seen": 60512615,
      "step": 2811,
      "time_per_iteration": 2.7377185821533203
    },
    {
      "auxiliary_loss_clip": 0.01078259,
      "auxiliary_loss_mlp": 0.01023321,
      "balance_loss_clip": 1.04332221,
      "balance_loss_mlp": 1.01680374,
      "epoch": 0.3381230084771238,
      "flos": 26727545928960.0,
      "grad_norm": 1.9825500968736172,
      "language_loss": 0.85639799,
      "learning_rate": 3.0841991260173668e-06,
      "loss": 0.87741381,
      "num_input_tokens_seen": 60532520,
      "step": 2812,
      "time_per_iteration": 2.660644769668579
    },
    {
      "auxiliary_loss_clip": 0.01119993,
      "auxiliary_loss_mlp": 0.01022965,
      "balance_loss_clip": 1.04824162,
      "balance_loss_mlp": 1.01622987,
      "epoch": 0.3382432513677629,
      "flos": 22712546102400.0,
      "grad_norm": 2.047963146173413,
      "language_loss": 0.80089766,
      "learning_rate": 3.0835444628106634e-06,
      "loss": 0.82232726,
      "num_input_tokens_seen": 60551500,
      "step": 2813,
      "time_per_iteration": 2.5161118507385254
    },
    {
      "auxiliary_loss_clip": 0.01117914,
      "auxiliary_loss_mlp": 0.00757019,
      "balance_loss_clip": 1.04657674,
      "balance_loss_mlp": 1.00142241,
      "epoch": 0.33836349425840195,
      "flos": 22124313780480.0,
      "grad_norm": 1.92960058084289,
      "language_loss": 0.82882619,
      "learning_rate": 3.082889635231126e-06,
      "loss": 0.84757555,
      "num_input_tokens_seen": 60570160,
      "step": 2814,
      "time_per_iteration": 2.517723798751831
    },
    {
      "auxiliary_loss_clip": 0.01091333,
      "auxiliary_loss_mlp": 0.01020047,
      "balance_loss_clip": 1.04314089,
      "balance_loss_mlp": 1.0132463,
      "epoch": 0.33848373714904106,
      "flos": 27310545555840.0,
      "grad_norm": 2.6516520988568395,
      "language_loss": 0.76714003,
      "learning_rate": 3.0822346433780925e-06,
      "loss": 0.78825384,
      "num_input_tokens_seen": 60590885,
      "step": 2815,
      "time_per_iteration": 2.6161866188049316
    },
    {
      "auxiliary_loss_clip": 0.0110973,
      "auxiliary_loss_mlp": 0.01018017,
      "balance_loss_clip": 1.04683137,
      "balance_loss_mlp": 1.01136863,
      "epoch": 0.3386039800396802,
      "flos": 25851093707520.0,
      "grad_norm": 2.1900339619436067,
      "language_loss": 0.8674283,
      "learning_rate": 3.0815794873509237e-06,
      "loss": 0.88870579,
      "num_input_tokens_seen": 60609170,
      "step": 2816,
      "time_per_iteration": 2.5869710445404053
    },
    {
      "auxiliary_loss_clip": 0.01119575,
      "auxiliary_loss_mlp": 0.01021699,
      "balance_loss_clip": 1.04766059,
      "balance_loss_mlp": 1.01531518,
      "epoch": 0.33872422293031923,
      "flos": 18882674680320.0,
      "grad_norm": 2.3087311149646546,
      "language_loss": 0.72501874,
      "learning_rate": 3.0809241672490066e-06,
      "loss": 0.74643153,
      "num_input_tokens_seen": 60627340,
      "step": 2817,
      "time_per_iteration": 2.5720551013946533
    },
    {
      "auxiliary_loss_clip": 0.01093498,
      "auxiliary_loss_mlp": 0.01021193,
      "balance_loss_clip": 1.04544032,
      "balance_loss_mlp": 1.01479185,
      "epoch": 0.33884446582095834,
      "flos": 23149103817600.0,
      "grad_norm": 2.3905873527118064,
      "language_loss": 0.85151362,
      "learning_rate": 3.080268683171753e-06,
      "loss": 0.87266052,
      "num_input_tokens_seen": 60647630,
      "step": 2818,
      "time_per_iteration": 2.6086606979370117
    },
    {
      "auxiliary_loss_clip": 0.01108132,
      "auxiliary_loss_mlp": 0.01020979,
      "balance_loss_clip": 1.04718292,
      "balance_loss_mlp": 1.01482499,
      "epoch": 0.33896470871159745,
      "flos": 15999158603520.0,
      "grad_norm": 2.3526716356259567,
      "language_loss": 0.89720947,
      "learning_rate": 3.0796130352185985e-06,
      "loss": 0.9185006,
      "num_input_tokens_seen": 60664485,
      "step": 2819,
      "time_per_iteration": 2.5284814834594727
    },
    {
      "auxiliary_loss_clip": 0.01098391,
      "auxiliary_loss_mlp": 0.00757259,
      "balance_loss_clip": 1.04589546,
      "balance_loss_mlp": 1.00166392,
      "epoch": 0.3390849516022365,
      "flos": 34498608491520.0,
      "grad_norm": 2.047440421663122,
      "language_loss": 0.66572028,
      "learning_rate": 3.0789572234890057e-06,
      "loss": 0.68427682,
      "num_input_tokens_seen": 60686125,
      "step": 2820,
      "time_per_iteration": 2.680624008178711
    },
    {
      "auxiliary_loss_clip": 0.01092711,
      "auxiliary_loss_mlp": 0.01021701,
      "balance_loss_clip": 1.04593539,
      "balance_loss_mlp": 1.01540029,
      "epoch": 0.3392051944928756,
      "flos": 16182163595520.0,
      "grad_norm": 1.6561383858125611,
      "language_loss": 0.77619255,
      "learning_rate": 3.0783012480824596e-06,
      "loss": 0.79733664,
      "num_input_tokens_seen": 60705270,
      "step": 2821,
      "time_per_iteration": 2.550386667251587
    },
    {
      "auxiliary_loss_clip": 0.01118182,
      "auxiliary_loss_mlp": 0.01026324,
      "balance_loss_clip": 1.04631281,
      "balance_loss_mlp": 1.02011311,
      "epoch": 0.33932543738351467,
      "flos": 17088239888640.0,
      "grad_norm": 2.1899402909992363,
      "language_loss": 0.74775082,
      "learning_rate": 3.077645109098471e-06,
      "loss": 0.76919591,
      "num_input_tokens_seen": 60721540,
      "step": 2822,
      "time_per_iteration": 2.4502360820770264
    },
    {
      "auxiliary_loss_clip": 0.01078016,
      "auxiliary_loss_mlp": 0.01025035,
      "balance_loss_clip": 1.04364228,
      "balance_loss_mlp": 1.01890469,
      "epoch": 0.3394456802741538,
      "flos": 22129129376640.0,
      "grad_norm": 2.066949526332346,
      "language_loss": 0.7249676,
      "learning_rate": 3.076988806636577e-06,
      "loss": 0.74599814,
      "num_input_tokens_seen": 60739300,
      "step": 2823,
      "time_per_iteration": 2.6287524700164795
    },
    {
      "auxiliary_loss_clip": 0.01093252,
      "auxiliary_loss_mlp": 0.00756875,
      "balance_loss_clip": 1.04634714,
      "balance_loss_mlp": 1.00148141,
      "epoch": 0.3395659231647929,
      "flos": 25229142161280.0,
      "grad_norm": 1.9726072487434136,
      "language_loss": 0.88789648,
      "learning_rate": 3.0763323407963377e-06,
      "loss": 0.90639776,
      "num_input_tokens_seen": 60758910,
      "step": 2824,
      "time_per_iteration": 2.6029014587402344
    },
    {
      "auxiliary_loss_clip": 0.01108567,
      "auxiliary_loss_mlp": 0.01021053,
      "balance_loss_clip": 1.04650855,
      "balance_loss_mlp": 1.01501465,
      "epoch": 0.33968616605543195,
      "flos": 29099065127040.0,
      "grad_norm": 3.604176953264428,
      "language_loss": 0.80426514,
      "learning_rate": 3.075675711677337e-06,
      "loss": 0.82556134,
      "num_input_tokens_seen": 60779005,
      "step": 2825,
      "time_per_iteration": 2.6340110301971436
    },
    {
      "auxiliary_loss_clip": 0.01079856,
      "auxiliary_loss_mlp": 0.01023637,
      "balance_loss_clip": 1.03851628,
      "balance_loss_mlp": 1.01702952,
      "epoch": 0.33980640894607106,
      "flos": 21436099246080.0,
      "grad_norm": 2.2194303767489667,
      "language_loss": 0.78674912,
      "learning_rate": 3.0750189193791865e-06,
      "loss": 0.80778408,
      "num_input_tokens_seen": 60798590,
      "step": 2826,
      "time_per_iteration": 2.5652952194213867
    },
    {
      "auxiliary_loss_clip": 0.01108094,
      "auxiliary_loss_mlp": 0.01020264,
      "balance_loss_clip": 1.04654336,
      "balance_loss_mlp": 1.01401472,
      "epoch": 0.33992665183671017,
      "flos": 32492833850880.0,
      "grad_norm": 2.3180747913915827,
      "language_loss": 0.7041924,
      "learning_rate": 3.0743619640015203e-06,
      "loss": 0.72547591,
      "num_input_tokens_seen": 60818840,
      "step": 2827,
      "time_per_iteration": 2.683617115020752
    },
    {
      "auxiliary_loss_clip": 0.01098358,
      "auxiliary_loss_mlp": 0.01022579,
      "balance_loss_clip": 1.04609525,
      "balance_loss_mlp": 1.0161984,
      "epoch": 0.3400468947273492,
      "flos": 17057288684160.0,
      "grad_norm": 1.9869050832106172,
      "language_loss": 0.92777526,
      "learning_rate": 3.073704845643999e-06,
      "loss": 0.94898462,
      "num_input_tokens_seen": 60835965,
      "step": 2828,
      "time_per_iteration": 2.5492451190948486
    },
    {
      "auxiliary_loss_clip": 0.01108574,
      "auxiliary_loss_mlp": 0.01027082,
      "balance_loss_clip": 1.04640579,
      "balance_loss_mlp": 1.02038288,
      "epoch": 0.34016713761798834,
      "flos": 16874852463360.0,
      "grad_norm": 3.088296871408613,
      "language_loss": 0.77911901,
      "learning_rate": 3.0730475644063063e-06,
      "loss": 0.80047554,
      "num_input_tokens_seen": 60851065,
      "step": 2829,
      "time_per_iteration": 4.103465795516968
    },
    {
      "auxiliary_loss_clip": 0.01094592,
      "auxiliary_loss_mlp": 0.00756488,
      "balance_loss_clip": 1.04420924,
      "balance_loss_mlp": 1.00150752,
      "epoch": 0.34028738050862745,
      "flos": 21909257959680.0,
      "grad_norm": 1.7886616549071448,
      "language_loss": 0.64777189,
      "learning_rate": 3.072390120388151e-06,
      "loss": 0.66628265,
      "num_input_tokens_seen": 60869390,
      "step": 2830,
      "time_per_iteration": 2.584807872772217
    },
    {
      "auxiliary_loss_clip": 0.01104757,
      "auxiliary_loss_mlp": 0.0102056,
      "balance_loss_clip": 1.04588461,
      "balance_loss_mlp": 1.01397085,
      "epoch": 0.3404076233992665,
      "flos": 22748161230720.0,
      "grad_norm": 3.9141318906739437,
      "language_loss": 0.71081537,
      "learning_rate": 3.071732513689267e-06,
      "loss": 0.73206854,
      "num_input_tokens_seen": 60887925,
      "step": 2831,
      "time_per_iteration": 2.555241584777832
    },
    {
      "auxiliary_loss_clip": 0.01104206,
      "auxiliary_loss_mlp": 0.01023937,
      "balance_loss_clip": 1.04981625,
      "balance_loss_mlp": 1.01727271,
      "epoch": 0.3405278662899056,
      "flos": 17054065647360.0,
      "grad_norm": 2.839135263749706,
      "language_loss": 0.67919266,
      "learning_rate": 3.0710747444094134e-06,
      "loss": 0.70047402,
      "num_input_tokens_seen": 60905955,
      "step": 2832,
      "time_per_iteration": 3.3202176094055176
    },
    {
      "auxiliary_loss_clip": 0.01092834,
      "auxiliary_loss_mlp": 0.01025244,
      "balance_loss_clip": 1.04498005,
      "balance_loss_mlp": 1.01861334,
      "epoch": 0.3406481091805447,
      "flos": 42816373027200.0,
      "grad_norm": 1.9195618677415067,
      "language_loss": 0.64953953,
      "learning_rate": 3.070416812648372e-06,
      "loss": 0.67072028,
      "num_input_tokens_seen": 60929405,
      "step": 2833,
      "time_per_iteration": 2.7666971683502197
    },
    {
      "auxiliary_loss_clip": 0.01087042,
      "auxiliary_loss_mlp": 0.01021357,
      "balance_loss_clip": 1.04473233,
      "balance_loss_mlp": 1.01523519,
      "epoch": 0.3407683520711838,
      "flos": 26763919418880.0,
      "grad_norm": 2.63886526009153,
      "language_loss": 0.65102899,
      "learning_rate": 3.069758718505951e-06,
      "loss": 0.67211306,
      "num_input_tokens_seen": 60951145,
      "step": 2834,
      "time_per_iteration": 3.4526472091674805
    },
    {
      "auxiliary_loss_clip": 0.01118898,
      "auxiliary_loss_mlp": 0.01027392,
      "balance_loss_clip": 1.0488503,
      "balance_loss_mlp": 1.02105021,
      "epoch": 0.3408885949618229,
      "flos": 28770186994560.0,
      "grad_norm": 1.858869745563641,
      "language_loss": 0.80336249,
      "learning_rate": 3.0691004620819836e-06,
      "loss": 0.82482541,
      "num_input_tokens_seen": 60971275,
      "step": 2835,
      "time_per_iteration": 2.5735795497894287
    },
    {
      "auxiliary_loss_clip": 0.01054558,
      "auxiliary_loss_mlp": 0.01005307,
      "balance_loss_clip": 1.05512285,
      "balance_loss_mlp": 1.002756,
      "epoch": 0.341008837852462,
      "flos": 63582837598080.0,
      "grad_norm": 0.8099049252398698,
      "language_loss": 0.60159612,
      "learning_rate": 3.0684420434763254e-06,
      "loss": 0.62219489,
      "num_input_tokens_seen": 61037460,
      "step": 2836,
      "time_per_iteration": 3.247061014175415
    },
    {
      "auxiliary_loss_clip": 0.01069888,
      "auxiliary_loss_mlp": 0.01023585,
      "balance_loss_clip": 1.03957772,
      "balance_loss_mlp": 1.0179255,
      "epoch": 0.34112908074310105,
      "flos": 20814185617920.0,
      "grad_norm": 2.1248061211943035,
      "language_loss": 0.76756907,
      "learning_rate": 3.06778346278886e-06,
      "loss": 0.78850383,
      "num_input_tokens_seen": 61056295,
      "step": 2837,
      "time_per_iteration": 2.6367251873016357
    },
    {
      "auxiliary_loss_clip": 0.01120724,
      "auxiliary_loss_mlp": 0.01022332,
      "balance_loss_clip": 1.05011868,
      "balance_loss_mlp": 1.01592183,
      "epoch": 0.34124932363374016,
      "flos": 24978964147200.0,
      "grad_norm": 2.036598589106701,
      "language_loss": 0.79026943,
      "learning_rate": 3.0671247201194906e-06,
      "loss": 0.81170005,
      "num_input_tokens_seen": 61078430,
      "step": 2838,
      "time_per_iteration": 2.5601963996887207
    },
    {
      "auxiliary_loss_clip": 0.01079856,
      "auxiliary_loss_mlp": 0.01023438,
      "balance_loss_clip": 1.042557,
      "balance_loss_mlp": 1.01679468,
      "epoch": 0.3413695665243792,
      "flos": 28405504143360.0,
      "grad_norm": 2.376830538883339,
      "language_loss": 0.75738788,
      "learning_rate": 3.066465815568151e-06,
      "loss": 0.77842081,
      "num_input_tokens_seen": 61099260,
      "step": 2839,
      "time_per_iteration": 2.678870439529419
    },
    {
      "auxiliary_loss_clip": 0.01108837,
      "auxiliary_loss_mlp": 0.01017608,
      "balance_loss_clip": 1.04704642,
      "balance_loss_mlp": 1.01148963,
      "epoch": 0.34148980941501833,
      "flos": 25304391734400.0,
      "grad_norm": 2.0875467751773162,
      "language_loss": 0.68889284,
      "learning_rate": 3.0658067492347947e-06,
      "loss": 0.71015728,
      "num_input_tokens_seen": 61121900,
      "step": 2840,
      "time_per_iteration": 2.5972468852996826
    },
    {
      "auxiliary_loss_clip": 0.01032258,
      "auxiliary_loss_mlp": 0.01021094,
      "balance_loss_clip": 1.03252196,
      "balance_loss_mlp": 1.01449871,
      "epoch": 0.34161005230565744,
      "flos": 17532002039040.0,
      "grad_norm": 1.9572120218155438,
      "language_loss": 0.66649818,
      "learning_rate": 3.065147521219402e-06,
      "loss": 0.68703169,
      "num_input_tokens_seen": 61141155,
      "step": 2841,
      "time_per_iteration": 2.684528112411499
    },
    {
      "auxiliary_loss_clip": 0.01085473,
      "auxiliary_loss_mlp": 0.01025285,
      "balance_loss_clip": 1.03971815,
      "balance_loss_mlp": 1.01926506,
      "epoch": 0.3417302951962965,
      "flos": 43653266640000.0,
      "grad_norm": 1.6104414531580595,
      "language_loss": 0.74572623,
      "learning_rate": 3.064488131621977e-06,
      "loss": 0.76683384,
      "num_input_tokens_seen": 61164480,
      "step": 2842,
      "time_per_iteration": 2.7557950019836426
    },
    {
      "auxiliary_loss_clip": 0.01106877,
      "auxiliary_loss_mlp": 0.0102263,
      "balance_loss_clip": 1.0456183,
      "balance_loss_mlp": 1.01638699,
      "epoch": 0.3418505380869356,
      "flos": 30884778760320.0,
      "grad_norm": 2.188513258795818,
      "language_loss": 0.74231076,
      "learning_rate": 3.063828580542549e-06,
      "loss": 0.76360583,
      "num_input_tokens_seen": 61185675,
      "step": 2843,
      "time_per_iteration": 2.638211250305176
    },
    {
      "auxiliary_loss_clip": 0.01088868,
      "auxiliary_loss_mlp": 0.01025713,
      "balance_loss_clip": 1.04183745,
      "balance_loss_mlp": 1.01984167,
      "epoch": 0.3419707809775747,
      "flos": 19465901815680.0,
      "grad_norm": 2.0507367471653963,
      "language_loss": 0.73605502,
      "learning_rate": 3.0631688680811706e-06,
      "loss": 0.75720084,
      "num_input_tokens_seen": 61205300,
      "step": 2844,
      "time_per_iteration": 2.564527988433838
    },
    {
      "auxiliary_loss_clip": 0.01117002,
      "auxiliary_loss_mlp": 0.01026263,
      "balance_loss_clip": 1.04571724,
      "balance_loss_mlp": 1.0200938,
      "epoch": 0.3420910238682138,
      "flos": 28730173368960.0,
      "grad_norm": 2.2306062721598408,
      "language_loss": 0.75746375,
      "learning_rate": 3.062508994337921e-06,
      "loss": 0.77889645,
      "num_input_tokens_seen": 61224905,
      "step": 2845,
      "time_per_iteration": 2.566655158996582
    },
    {
      "auxiliary_loss_clip": 0.01104179,
      "auxiliary_loss_mlp": 0.01021893,
      "balance_loss_clip": 1.04522777,
      "balance_loss_mlp": 1.01538384,
      "epoch": 0.3422112667588529,
      "flos": 21399384493440.0,
      "grad_norm": 2.1031376165968125,
      "language_loss": 0.79733014,
      "learning_rate": 3.0618489594129013e-06,
      "loss": 0.81859082,
      "num_input_tokens_seen": 61243045,
      "step": 2846,
      "time_per_iteration": 2.541841745376587
    },
    {
      "auxiliary_loss_clip": 0.01079734,
      "auxiliary_loss_mlp": 0.01021464,
      "balance_loss_clip": 1.04405868,
      "balance_loss_mlp": 1.01532471,
      "epoch": 0.342331509649492,
      "flos": 13883163868800.0,
      "grad_norm": 2.168031677280932,
      "language_loss": 0.70793545,
      "learning_rate": 3.061188763406239e-06,
      "loss": 0.72894746,
      "num_input_tokens_seen": 61259190,
      "step": 2847,
      "time_per_iteration": 2.5989644527435303
    },
    {
      "auxiliary_loss_clip": 0.010946,
      "auxiliary_loss_mlp": 0.01023082,
      "balance_loss_clip": 1.04555273,
      "balance_loss_mlp": 1.01661515,
      "epoch": 0.34245175254013105,
      "flos": 28623972591360.0,
      "grad_norm": 2.33638050487282,
      "language_loss": 0.825266,
      "learning_rate": 3.060528406418085e-06,
      "loss": 0.84644282,
      "num_input_tokens_seen": 61279040,
      "step": 2848,
      "time_per_iteration": 2.6513381004333496
    },
    {
      "auxiliary_loss_clip": 0.01095919,
      "auxiliary_loss_mlp": 0.01023684,
      "balance_loss_clip": 1.04586482,
      "balance_loss_mlp": 1.01784921,
      "epoch": 0.34257199543077016,
      "flos": 34129678815360.0,
      "grad_norm": 1.5230974879109425,
      "language_loss": 0.61680984,
      "learning_rate": 3.0598678885486145e-06,
      "loss": 0.63800585,
      "num_input_tokens_seen": 61301580,
      "step": 2849,
      "time_per_iteration": 2.696183919906616
    },
    {
      "auxiliary_loss_clip": 0.01085305,
      "auxiliary_loss_mlp": 0.00756764,
      "balance_loss_clip": 1.04509068,
      "balance_loss_mlp": 1.00157595,
      "epoch": 0.34269223832140927,
      "flos": 19976040708480.0,
      "grad_norm": 1.9833704308064377,
      "language_loss": 0.7503975,
      "learning_rate": 3.0592072098980282e-06,
      "loss": 0.7688182,
      "num_input_tokens_seen": 61321240,
      "step": 2850,
      "time_per_iteration": 2.600928544998169
    },
    {
      "auxiliary_loss_clip": 0.01089883,
      "auxiliary_loss_mlp": 0.01024636,
      "balance_loss_clip": 1.04648519,
      "balance_loss_mlp": 1.01859236,
      "epoch": 0.3428124812120483,
      "flos": 27238139838720.0,
      "grad_norm": 8.296003388549218,
      "language_loss": 0.73474365,
      "learning_rate": 3.0585463705665514e-06,
      "loss": 0.75588888,
      "num_input_tokens_seen": 61341615,
      "step": 2851,
      "time_per_iteration": 2.6272871494293213
    },
    {
      "auxiliary_loss_clip": 0.01082675,
      "auxiliary_loss_mlp": 0.01018529,
      "balance_loss_clip": 1.04342914,
      "balance_loss_mlp": 1.01232171,
      "epoch": 0.34293272410268744,
      "flos": 24573130128000.0,
      "grad_norm": 2.239045472760532,
      "language_loss": 0.70632392,
      "learning_rate": 3.0578853706544304e-06,
      "loss": 0.72733593,
      "num_input_tokens_seen": 61359005,
      "step": 2852,
      "time_per_iteration": 2.636064052581787
    },
    {
      "auxiliary_loss_clip": 0.01080766,
      "auxiliary_loss_mlp": 0.00757052,
      "balance_loss_clip": 1.04689312,
      "balance_loss_mlp": 1.00162435,
      "epoch": 0.34305296699332655,
      "flos": 21508997898240.0,
      "grad_norm": 2.4466509717175575,
      "language_loss": 0.65638733,
      "learning_rate": 3.0572242102619404e-06,
      "loss": 0.67476547,
      "num_input_tokens_seen": 61376160,
      "step": 2853,
      "time_per_iteration": 2.5966615676879883
    },
    {
      "auxiliary_loss_clip": 0.01087224,
      "auxiliary_loss_mlp": 0.01023734,
      "balance_loss_clip": 1.04196787,
      "balance_loss_mlp": 1.01759493,
      "epoch": 0.3431732098839656,
      "flos": 24058706492160.0,
      "grad_norm": 2.011105597724329,
      "language_loss": 0.8090449,
      "learning_rate": 3.0565628894893784e-06,
      "loss": 0.83015448,
      "num_input_tokens_seen": 61396795,
      "step": 2854,
      "time_per_iteration": 2.625732898712158
    },
    {
      "auxiliary_loss_clip": 0.01108281,
      "auxiliary_loss_mlp": 0.01022503,
      "balance_loss_clip": 1.04640865,
      "balance_loss_mlp": 1.01631331,
      "epoch": 0.3432934527746047,
      "flos": 16802788008960.0,
      "grad_norm": 1.8582043386755076,
      "language_loss": 0.75006258,
      "learning_rate": 3.0559014084370655e-06,
      "loss": 0.77137047,
      "num_input_tokens_seen": 61415320,
      "step": 2855,
      "time_per_iteration": 4.034672260284424
    },
    {
      "auxiliary_loss_clip": 0.01091919,
      "auxiliary_loss_mlp": 0.01026351,
      "balance_loss_clip": 1.04319358,
      "balance_loss_mlp": 1.01990807,
      "epoch": 0.34341369566524377,
      "flos": 23441911804800.0,
      "grad_norm": 1.8459817282610242,
      "language_loss": 0.78846836,
      "learning_rate": 3.055239767205349e-06,
      "loss": 0.80965108,
      "num_input_tokens_seen": 61437070,
      "step": 2856,
      "time_per_iteration": 2.614804744720459
    },
    {
      "auxiliary_loss_clip": 0.01104068,
      "auxiliary_loss_mlp": 0.01024209,
      "balance_loss_clip": 1.04739881,
      "balance_loss_mlp": 1.01790547,
      "epoch": 0.3435339385558829,
      "flos": 17268969795840.0,
      "grad_norm": 2.1336065034124108,
      "language_loss": 0.78444183,
      "learning_rate": 3.054577965894599e-06,
      "loss": 0.80572462,
      "num_input_tokens_seen": 61453215,
      "step": 2857,
      "time_per_iteration": 2.504568338394165
    },
    {
      "auxiliary_loss_clip": 0.01091895,
      "auxiliary_loss_mlp": 0.01021902,
      "balance_loss_clip": 1.04516256,
      "balance_loss_mlp": 1.01517284,
      "epoch": 0.343654181446522,
      "flos": 22201497175680.0,
      "grad_norm": 2.5257550052827917,
      "language_loss": 0.703004,
      "learning_rate": 3.0539160046052094e-06,
      "loss": 0.72414196,
      "num_input_tokens_seen": 61472915,
      "step": 2858,
      "time_per_iteration": 3.3512415885925293
    },
    {
      "auxiliary_loss_clip": 0.01093501,
      "auxiliary_loss_mlp": 0.01024892,
      "balance_loss_clip": 1.04369307,
      "balance_loss_mlp": 1.01764989,
      "epoch": 0.34377442433716104,
      "flos": 19903862499840.0,
      "grad_norm": 2.2974427631819303,
      "language_loss": 0.7042526,
      "learning_rate": 3.0532538834376003e-06,
      "loss": 0.72543657,
      "num_input_tokens_seen": 61492475,
      "step": 2859,
      "time_per_iteration": 2.5744400024414062
    },
    {
      "auxiliary_loss_clip": 0.01106979,
      "auxiliary_loss_mlp": 0.01026694,
      "balance_loss_clip": 1.04526937,
      "balance_loss_mlp": 1.02031589,
      "epoch": 0.34389466722780015,
      "flos": 22199715025920.0,
      "grad_norm": 1.9424903926671861,
      "language_loss": 0.78401971,
      "learning_rate": 3.0525916024922143e-06,
      "loss": 0.8053565,
      "num_input_tokens_seen": 61511660,
      "step": 2860,
      "time_per_iteration": 3.300030469894409
    },
    {
      "auxiliary_loss_clip": 0.01098573,
      "auxiliary_loss_mlp": 0.01022091,
      "balance_loss_clip": 1.04655862,
      "balance_loss_mlp": 1.01592755,
      "epoch": 0.34401491011843927,
      "flos": 18626543527680.0,
      "grad_norm": 3.269417709642536,
      "language_loss": 0.84429801,
      "learning_rate": 3.0519291618695193e-06,
      "loss": 0.86550462,
      "num_input_tokens_seen": 61529060,
      "step": 2861,
      "time_per_iteration": 2.5905556678771973
    },
    {
      "auxiliary_loss_clip": 0.01081168,
      "auxiliary_loss_mlp": 0.01025842,
      "balance_loss_clip": 1.04281545,
      "balance_loss_mlp": 1.01980066,
      "epoch": 0.3441351530090783,
      "flos": 17860121809920.0,
      "grad_norm": 1.7290041301910046,
      "language_loss": 0.75951391,
      "learning_rate": 3.0512665616700065e-06,
      "loss": 0.78058398,
      "num_input_tokens_seen": 61548125,
      "step": 2862,
      "time_per_iteration": 2.5790843963623047
    },
    {
      "auxiliary_loss_clip": 0.01064787,
      "auxiliary_loss_mlp": 0.01025933,
      "balance_loss_clip": 1.03955233,
      "balance_loss_mlp": 1.01975799,
      "epoch": 0.34425539589971743,
      "flos": 23115005412480.0,
      "grad_norm": 2.265938033847085,
      "language_loss": 0.89169079,
      "learning_rate": 3.0506038019941933e-06,
      "loss": 0.91259795,
      "num_input_tokens_seen": 61568135,
      "step": 2863,
      "time_per_iteration": 2.692647695541382
    },
    {
      "auxiliary_loss_clip": 0.01074523,
      "auxiliary_loss_mlp": 0.01021576,
      "balance_loss_clip": 1.0410701,
      "balance_loss_mlp": 1.01532078,
      "epoch": 0.34437563879035654,
      "flos": 21909826730880.0,
      "grad_norm": 2.8916675892174233,
      "language_loss": 0.67551875,
      "learning_rate": 3.049940882942617e-06,
      "loss": 0.6964798,
      "num_input_tokens_seen": 61586920,
      "step": 2864,
      "time_per_iteration": 2.6382124423980713
    },
    {
      "auxiliary_loss_clip": 0.01115501,
      "auxiliary_loss_mlp": 0.01026215,
      "balance_loss_clip": 1.04491472,
      "balance_loss_mlp": 1.01968563,
      "epoch": 0.3444958816809956,
      "flos": 23079200693760.0,
      "grad_norm": 1.8433796770311741,
      "language_loss": 0.8022638,
      "learning_rate": 3.0492778046158448e-06,
      "loss": 0.823681,
      "num_input_tokens_seen": 61608340,
      "step": 2865,
      "time_per_iteration": 2.6868014335632324
    },
    {
      "auxiliary_loss_clip": 0.01103574,
      "auxiliary_loss_mlp": 0.01022064,
      "balance_loss_clip": 1.04595804,
      "balance_loss_mlp": 1.01573062,
      "epoch": 0.3446161245716347,
      "flos": 21910812600960.0,
      "grad_norm": 2.3788181658685135,
      "language_loss": 0.7690506,
      "learning_rate": 3.0486145671144633e-06,
      "loss": 0.79030693,
      "num_input_tokens_seen": 61628130,
      "step": 2866,
      "time_per_iteration": 2.5349490642547607
    },
    {
      "auxiliary_loss_clip": 0.01042099,
      "auxiliary_loss_mlp": 0.01022957,
      "balance_loss_clip": 1.03529942,
      "balance_loss_mlp": 1.01662445,
      "epoch": 0.3447363674622738,
      "flos": 25114826914560.0,
      "grad_norm": 4.8397748851058795,
      "language_loss": 0.77227437,
      "learning_rate": 3.047951170539086e-06,
      "loss": 0.79292488,
      "num_input_tokens_seen": 61647755,
      "step": 2867,
      "time_per_iteration": 2.7169981002807617
    },
    {
      "auxiliary_loss_clip": 0.01074515,
      "auxiliary_loss_mlp": 0.01028559,
      "balance_loss_clip": 1.04598689,
      "balance_loss_mlp": 1.02261329,
      "epoch": 0.3448566103529129,
      "flos": 11986320107520.0,
      "grad_norm": 2.7087027185718786,
      "language_loss": 0.8454634,
      "learning_rate": 3.047287614990349e-06,
      "loss": 0.86649418,
      "num_input_tokens_seen": 61665675,
      "step": 2868,
      "time_per_iteration": 2.6170077323913574
    },
    {
      "auxiliary_loss_clip": 0.01094026,
      "auxiliary_loss_mlp": 0.01020562,
      "balance_loss_clip": 1.04393148,
      "balance_loss_mlp": 1.0138768,
      "epoch": 0.344976853243552,
      "flos": 40191073597440.0,
      "grad_norm": 2.52472670915351,
      "language_loss": 0.62763858,
      "learning_rate": 3.046623900568914e-06,
      "loss": 0.6487844,
      "num_input_tokens_seen": 61688240,
      "step": 2869,
      "time_per_iteration": 2.790292501449585
    },
    {
      "auxiliary_loss_clip": 0.01090108,
      "auxiliary_loss_mlp": 0.0102304,
      "balance_loss_clip": 1.04606211,
      "balance_loss_mlp": 1.01618564,
      "epoch": 0.34509709613419104,
      "flos": 28725774871680.0,
      "grad_norm": 2.6085692457380256,
      "language_loss": 0.70228994,
      "learning_rate": 3.045960027375465e-06,
      "loss": 0.72342145,
      "num_input_tokens_seen": 61706075,
      "step": 2870,
      "time_per_iteration": 2.665640354156494
    },
    {
      "auxiliary_loss_clip": 0.01106395,
      "auxiliary_loss_mlp": 0.01023769,
      "balance_loss_clip": 1.04512584,
      "balance_loss_mlp": 1.01666987,
      "epoch": 0.34521733902483015,
      "flos": 29969981308800.0,
      "grad_norm": 2.6226406784545557,
      "language_loss": 0.82540774,
      "learning_rate": 3.045295995510711e-06,
      "loss": 0.84670937,
      "num_input_tokens_seen": 61723045,
      "step": 2871,
      "time_per_iteration": 2.642059087753296
    },
    {
      "auxiliary_loss_clip": 0.01089635,
      "auxiliary_loss_mlp": 0.01021977,
      "balance_loss_clip": 1.04726481,
      "balance_loss_mlp": 1.0159868,
      "epoch": 0.34533758191546926,
      "flos": 27925254748800.0,
      "grad_norm": 1.7563932015421115,
      "language_loss": 0.73778248,
      "learning_rate": 3.0446318050753865e-06,
      "loss": 0.75889862,
      "num_input_tokens_seen": 61743525,
      "step": 2872,
      "time_per_iteration": 2.641514539718628
    },
    {
      "auxiliary_loss_clip": 0.01106527,
      "auxiliary_loss_mlp": 0.01023542,
      "balance_loss_clip": 1.04563665,
      "balance_loss_mlp": 1.01748276,
      "epoch": 0.3454578248061083,
      "flos": 27128336843520.0,
      "grad_norm": 3.78291605265672,
      "language_loss": 0.77863562,
      "learning_rate": 3.0439674561702474e-06,
      "loss": 0.79993629,
      "num_input_tokens_seen": 61763025,
      "step": 2873,
      "time_per_iteration": 2.604268789291382
    },
    {
      "auxiliary_loss_clip": 0.01102763,
      "auxiliary_loss_mlp": 0.01024772,
      "balance_loss_clip": 1.04485106,
      "balance_loss_mlp": 1.01856756,
      "epoch": 0.3455780676967474,
      "flos": 19026841507200.0,
      "grad_norm": 2.9793296211921434,
      "language_loss": 0.8819716,
      "learning_rate": 3.043302948896076e-06,
      "loss": 0.90324694,
      "num_input_tokens_seen": 61781630,
      "step": 2874,
      "time_per_iteration": 2.5435612201690674
    },
    {
      "auxiliary_loss_clip": 0.01063788,
      "auxiliary_loss_mlp": 0.01022448,
      "balance_loss_clip": 1.03974473,
      "balance_loss_mlp": 1.01586497,
      "epoch": 0.34569831058738654,
      "flos": 34498873918080.0,
      "grad_norm": 3.038363260937337,
      "language_loss": 0.60804093,
      "learning_rate": 3.0426382833536756e-06,
      "loss": 0.62890327,
      "num_input_tokens_seen": 61804985,
      "step": 2875,
      "time_per_iteration": 2.7305245399475098
    },
    {
      "auxiliary_loss_clip": 0.01082383,
      "auxiliary_loss_mlp": 0.01022133,
      "balance_loss_clip": 1.04406786,
      "balance_loss_mlp": 1.01597857,
      "epoch": 0.3458185534780256,
      "flos": 31141327011840.0,
      "grad_norm": 2.801061523049752,
      "language_loss": 0.78185743,
      "learning_rate": 3.041973459643877e-06,
      "loss": 0.80290258,
      "num_input_tokens_seen": 61824440,
      "step": 2876,
      "time_per_iteration": 2.7006797790527344
    },
    {
      "auxiliary_loss_clip": 0.01070488,
      "auxiliary_loss_mlp": 0.01021896,
      "balance_loss_clip": 1.04120231,
      "balance_loss_mlp": 1.01547933,
      "epoch": 0.3459387963686647,
      "flos": 32455246982400.0,
      "grad_norm": 2.241283386067868,
      "language_loss": 0.67317176,
      "learning_rate": 3.0413084778675334e-06,
      "loss": 0.69409555,
      "num_input_tokens_seen": 61845690,
      "step": 2877,
      "time_per_iteration": 2.7092695236206055
    },
    {
      "auxiliary_loss_clip": 0.0109661,
      "auxiliary_loss_mlp": 0.007568,
      "balance_loss_clip": 1.04591203,
      "balance_loss_mlp": 1.00161588,
      "epoch": 0.3460590392593038,
      "flos": 24677662510080.0,
      "grad_norm": 2.8156364142889863,
      "language_loss": 0.84243613,
      "learning_rate": 3.0406433381255214e-06,
      "loss": 0.86097026,
      "num_input_tokens_seen": 61863725,
      "step": 2878,
      "time_per_iteration": 2.624098062515259
    },
    {
      "auxiliary_loss_clip": 0.01102894,
      "auxiliary_loss_mlp": 0.01020298,
      "balance_loss_clip": 1.04706645,
      "balance_loss_mlp": 1.01427794,
      "epoch": 0.34617928214994287,
      "flos": 18809321011200.0,
      "grad_norm": 2.8001723130062803,
      "language_loss": 0.82312965,
      "learning_rate": 3.0399780405187425e-06,
      "loss": 0.84436154,
      "num_input_tokens_seen": 61882720,
      "step": 2879,
      "time_per_iteration": 2.521116018295288
    },
    {
      "auxiliary_loss_clip": 0.01105997,
      "auxiliary_loss_mlp": 0.01020348,
      "balance_loss_clip": 1.045367,
      "balance_loss_mlp": 1.01453328,
      "epoch": 0.346299525040582,
      "flos": 24859643713920.0,
      "grad_norm": 1.822922576662912,
      "language_loss": 0.79008776,
      "learning_rate": 3.0393125851481216e-06,
      "loss": 0.81135118,
      "num_input_tokens_seen": 61902595,
      "step": 2880,
      "time_per_iteration": 3.3898797035217285
    },
    {
      "auxiliary_loss_clip": 0.01082342,
      "auxiliary_loss_mlp": 0.01018685,
      "balance_loss_clip": 1.04537487,
      "balance_loss_mlp": 1.0127722,
      "epoch": 0.3464197679312211,
      "flos": 16436740106880.0,
      "grad_norm": 2.737230578839396,
      "language_loss": 0.86435294,
      "learning_rate": 3.038646972114608e-06,
      "loss": 0.88536322,
      "num_input_tokens_seen": 61918920,
      "step": 2881,
      "time_per_iteration": 3.3200392723083496
    },
    {
      "auxiliary_loss_clip": 0.01067356,
      "auxiliary_loss_mlp": 0.01027146,
      "balance_loss_clip": 1.03707492,
      "balance_loss_mlp": 1.02094388,
      "epoch": 0.34654001082186014,
      "flos": 22384653840000.0,
      "grad_norm": 1.6695523474800247,
      "language_loss": 0.67037928,
      "learning_rate": 3.037981201519174e-06,
      "loss": 0.69132423,
      "num_input_tokens_seen": 61939520,
      "step": 2882,
      "time_per_iteration": 2.611750364303589
    },
    {
      "auxiliary_loss_clip": 0.01102478,
      "auxiliary_loss_mlp": 0.01025059,
      "balance_loss_clip": 1.04512954,
      "balance_loss_mlp": 1.01883364,
      "epoch": 0.34666025371249926,
      "flos": 19575970237440.0,
      "grad_norm": 2.403259278878809,
      "language_loss": 0.71427065,
      "learning_rate": 3.0373152734628175e-06,
      "loss": 0.73554599,
      "num_input_tokens_seen": 61957800,
      "step": 2883,
      "time_per_iteration": 2.54917049407959
    },
    {
      "auxiliary_loss_clip": 0.01106465,
      "auxiliary_loss_mlp": 0.01020184,
      "balance_loss_clip": 1.04483461,
      "balance_loss_mlp": 1.01419973,
      "epoch": 0.34678049660313837,
      "flos": 15269413720320.0,
      "grad_norm": 2.2807233039350496,
      "language_loss": 0.75982028,
      "learning_rate": 3.0366491880465584e-06,
      "loss": 0.7810868,
      "num_input_tokens_seen": 61975820,
      "step": 2884,
      "time_per_iteration": 3.2442235946655273
    },
    {
      "auxiliary_loss_clip": 0.01118569,
      "auxiliary_loss_mlp": 0.01024476,
      "balance_loss_clip": 1.04741621,
      "balance_loss_mlp": 1.01774621,
      "epoch": 0.3469007394937774,
      "flos": 21183835737600.0,
      "grad_norm": 1.8022560409753432,
      "language_loss": 0.82389933,
      "learning_rate": 3.035982945371443e-06,
      "loss": 0.84532976,
      "num_input_tokens_seen": 61997515,
      "step": 2885,
      "time_per_iteration": 2.5703814029693604
    },
    {
      "auxiliary_loss_clip": 0.01093812,
      "auxiliary_loss_mlp": 0.01021754,
      "balance_loss_clip": 1.04364061,
      "balance_loss_mlp": 1.01521897,
      "epoch": 0.34702098238441653,
      "flos": 22377259814400.0,
      "grad_norm": 2.077462032014105,
      "language_loss": 0.85401142,
      "learning_rate": 3.035316545538537e-06,
      "loss": 0.87516707,
      "num_input_tokens_seen": 62016310,
      "step": 2886,
      "time_per_iteration": 3.3494811058044434
    },
    {
      "auxiliary_loss_clip": 0.01086855,
      "auxiliary_loss_mlp": 0.01022533,
      "balance_loss_clip": 1.04658604,
      "balance_loss_mlp": 1.01632214,
      "epoch": 0.3471412252750556,
      "flos": 22931621239680.0,
      "grad_norm": 2.1706743225242495,
      "language_loss": 0.79188913,
      "learning_rate": 3.034649988648935e-06,
      "loss": 0.81298298,
      "num_input_tokens_seen": 62036075,
      "step": 2887,
      "time_per_iteration": 2.5799334049224854
    },
    {
      "auxiliary_loss_clip": 0.0109145,
      "auxiliary_loss_mlp": 0.01019147,
      "balance_loss_clip": 1.042593,
      "balance_loss_mlp": 1.01304626,
      "epoch": 0.3472614681656947,
      "flos": 21326372087040.0,
      "grad_norm": 2.393924795763558,
      "language_loss": 0.80735338,
      "learning_rate": 3.033983274803752e-06,
      "loss": 0.82845938,
      "num_input_tokens_seen": 62055865,
      "step": 2888,
      "time_per_iteration": 2.5828564167022705
    },
    {
      "auxiliary_loss_clip": 0.01095886,
      "auxiliary_loss_mlp": 0.01025417,
      "balance_loss_clip": 1.04618931,
      "balance_loss_mlp": 1.01935267,
      "epoch": 0.3473817110563338,
      "flos": 23477906113920.0,
      "grad_norm": 2.181089864443259,
      "language_loss": 0.7222808,
      "learning_rate": 3.0333164041041283e-06,
      "loss": 0.7434938,
      "num_input_tokens_seen": 62072180,
      "step": 2889,
      "time_per_iteration": 2.5743186473846436
    },
    {
      "auxiliary_loss_clip": 0.01057276,
      "auxiliary_loss_mlp": 0.0101874,
      "balance_loss_clip": 1.04141808,
      "balance_loss_mlp": 1.01286006,
      "epoch": 0.34750195394697286,
      "flos": 22348204513920.0,
      "grad_norm": 1.9088922642744994,
      "language_loss": 0.71687013,
      "learning_rate": 3.032649376651228e-06,
      "loss": 0.73763025,
      "num_input_tokens_seen": 62091600,
      "step": 2890,
      "time_per_iteration": 2.680521249771118
    },
    {
      "auxiliary_loss_clip": 0.01076643,
      "auxiliary_loss_mlp": 0.01023987,
      "balance_loss_clip": 1.04152799,
      "balance_loss_mlp": 1.01729012,
      "epoch": 0.347622196837612,
      "flos": 29097510485760.0,
      "grad_norm": 1.8057801892481298,
      "language_loss": 0.76167011,
      "learning_rate": 3.031982192546238e-06,
      "loss": 0.78267646,
      "num_input_tokens_seen": 62114695,
      "step": 2891,
      "time_per_iteration": 2.672419548034668
    },
    {
      "auxiliary_loss_clip": 0.01106179,
      "auxiliary_loss_mlp": 0.01022848,
      "balance_loss_clip": 1.04555023,
      "balance_loss_mlp": 1.01682854,
      "epoch": 0.3477424397282511,
      "flos": 22457931672960.0,
      "grad_norm": 2.176296112321219,
      "language_loss": 0.94820887,
      "learning_rate": 3.0313148518903696e-06,
      "loss": 0.96949911,
      "num_input_tokens_seen": 62134520,
      "step": 2892,
      "time_per_iteration": 2.5616955757141113
    },
    {
      "auxiliary_loss_clip": 0.01090055,
      "auxiliary_loss_mlp": 0.01021102,
      "balance_loss_clip": 1.04639721,
      "balance_loss_mlp": 1.01504588,
      "epoch": 0.34786268261889014,
      "flos": 15780614319360.0,
      "grad_norm": 2.3469121931786154,
      "language_loss": 0.81528628,
      "learning_rate": 3.030647354784859e-06,
      "loss": 0.83639789,
      "num_input_tokens_seen": 62151560,
      "step": 2893,
      "time_per_iteration": 2.535930633544922
    },
    {
      "auxiliary_loss_clip": 0.01075783,
      "auxiliary_loss_mlp": 0.01023676,
      "balance_loss_clip": 1.0402478,
      "balance_loss_mlp": 1.01768255,
      "epoch": 0.34798292550952925,
      "flos": 20779745950080.0,
      "grad_norm": 1.8557969344872074,
      "language_loss": 0.77463388,
      "learning_rate": 3.029979701330964e-06,
      "loss": 0.79562843,
      "num_input_tokens_seen": 62170985,
      "step": 2894,
      "time_per_iteration": 2.6436405181884766
    },
    {
      "auxiliary_loss_clip": 0.01093566,
      "auxiliary_loss_mlp": 0.01024155,
      "balance_loss_clip": 1.04470015,
      "balance_loss_mlp": 1.01822436,
      "epoch": 0.34810316840016836,
      "flos": 19939856808960.0,
      "grad_norm": 2.9124222121907395,
      "language_loss": 0.80236131,
      "learning_rate": 3.029311891629966e-06,
      "loss": 0.82353842,
      "num_input_tokens_seen": 62189440,
      "step": 2895,
      "time_per_iteration": 2.5525014400482178
    },
    {
      "auxiliary_loss_clip": 0.01085046,
      "auxiliary_loss_mlp": 0.01025733,
      "balance_loss_clip": 1.04074478,
      "balance_loss_mlp": 1.0196501,
      "epoch": 0.3482234112908074,
      "flos": 23625561404160.0,
      "grad_norm": 2.042717749472333,
      "language_loss": 0.74963486,
      "learning_rate": 3.0286439257831744e-06,
      "loss": 0.77074265,
      "num_input_tokens_seen": 62208910,
      "step": 2896,
      "time_per_iteration": 2.651350259780884
    },
    {
      "auxiliary_loss_clip": 0.01116045,
      "auxiliary_loss_mlp": 0.01025815,
      "balance_loss_clip": 1.04488349,
      "balance_loss_mlp": 1.01897252,
      "epoch": 0.3483436541814465,
      "flos": 23988917122560.0,
      "grad_norm": 2.1942452310144525,
      "language_loss": 0.71445096,
      "learning_rate": 3.0279758038919156e-06,
      "loss": 0.73586953,
      "num_input_tokens_seen": 62227135,
      "step": 2897,
      "time_per_iteration": 2.5073955059051514
    },
    {
      "auxiliary_loss_clip": 0.01102139,
      "auxiliary_loss_mlp": 0.01022268,
      "balance_loss_clip": 1.04391122,
      "balance_loss_mlp": 1.01565218,
      "epoch": 0.34846389707208564,
      "flos": 22640557484160.0,
      "grad_norm": 1.8598835921560026,
      "language_loss": 0.78409517,
      "learning_rate": 3.0273075260575455e-06,
      "loss": 0.80533934,
      "num_input_tokens_seen": 62246035,
      "step": 2898,
      "time_per_iteration": 2.5685384273529053
    },
    {
      "auxiliary_loss_clip": 0.01092756,
      "auxiliary_loss_mlp": 0.01022652,
      "balance_loss_clip": 1.04225838,
      "balance_loss_mlp": 1.01608348,
      "epoch": 0.3485841399627247,
      "flos": 21794677286400.0,
      "grad_norm": 2.032021582581603,
      "language_loss": 0.81205535,
      "learning_rate": 3.0266390923814396e-06,
      "loss": 0.8332094,
      "num_input_tokens_seen": 62264095,
      "step": 2899,
      "time_per_iteration": 2.5502829551696777
    },
    {
      "auxiliary_loss_clip": 0.01091406,
      "auxiliary_loss_mlp": 0.01024036,
      "balance_loss_clip": 1.04864764,
      "balance_loss_mlp": 1.01761127,
      "epoch": 0.3487043828533638,
      "flos": 17020915194240.0,
      "grad_norm": 1.7892120563069527,
      "language_loss": 0.82230437,
      "learning_rate": 3.0259705029650008e-06,
      "loss": 0.84345877,
      "num_input_tokens_seen": 62282025,
      "step": 2900,
      "time_per_iteration": 2.5738375186920166
    },
    {
      "auxiliary_loss_clip": 0.01104796,
      "auxiliary_loss_mlp": 0.01020371,
      "balance_loss_clip": 1.04510093,
      "balance_loss_mlp": 1.0144608,
      "epoch": 0.34882462574400286,
      "flos": 22603311878400.0,
      "grad_norm": 1.8885297636317198,
      "language_loss": 0.72969764,
      "learning_rate": 3.025301757909652e-06,
      "loss": 0.75094932,
      "num_input_tokens_seen": 62302220,
      "step": 2901,
      "time_per_iteration": 2.535496950149536
    },
    {
      "auxiliary_loss_clip": 0.01075051,
      "auxiliary_loss_mlp": 0.00757167,
      "balance_loss_clip": 1.03934848,
      "balance_loss_mlp": 1.00187588,
      "epoch": 0.34894486863464197,
      "flos": 29864083875840.0,
      "grad_norm": 1.7681842179520941,
      "language_loss": 0.80522263,
      "learning_rate": 3.024632857316842e-06,
      "loss": 0.82354486,
      "num_input_tokens_seen": 62323535,
      "step": 2902,
      "time_per_iteration": 2.7158100605010986
    },
    {
      "auxiliary_loss_clip": 0.01104919,
      "auxiliary_loss_mlp": 0.0102067,
      "balance_loss_clip": 1.04599929,
      "balance_loss_mlp": 1.01411974,
      "epoch": 0.3490651115252811,
      "flos": 22124162108160.0,
      "grad_norm": 2.4180444036961948,
      "language_loss": 0.7754758,
      "learning_rate": 3.0239638012880412e-06,
      "loss": 0.79673171,
      "num_input_tokens_seen": 62343430,
      "step": 2903,
      "time_per_iteration": 2.541964054107666
    },
    {
      "auxiliary_loss_clip": 0.01055693,
      "auxiliary_loss_mlp": 0.01021306,
      "balance_loss_clip": 1.03444123,
      "balance_loss_mlp": 1.01474977,
      "epoch": 0.34918535441592014,
      "flos": 12678288531840.0,
      "grad_norm": 2.474542208344511,
      "language_loss": 0.81554103,
      "learning_rate": 3.0232945899247466e-06,
      "loss": 0.83631104,
      "num_input_tokens_seen": 62360365,
      "step": 2904,
      "time_per_iteration": 2.614556312561035
    },
    {
      "auxiliary_loss_clip": 0.01107455,
      "auxiliary_loss_mlp": 0.01028366,
      "balance_loss_clip": 1.04566479,
      "balance_loss_mlp": 1.02195215,
      "epoch": 0.34930559730655925,
      "flos": 23187866146560.0,
      "grad_norm": 2.21452334372273,
      "language_loss": 0.77556193,
      "learning_rate": 3.022625223328476e-06,
      "loss": 0.79692018,
      "num_input_tokens_seen": 62382105,
      "step": 2905,
      "time_per_iteration": 2.56974458694458
    },
    {
      "auxiliary_loss_clip": 0.01106508,
      "auxiliary_loss_mlp": 0.0102395,
      "balance_loss_clip": 1.0470705,
      "balance_loss_mlp": 1.01635385,
      "epoch": 0.34942584019719836,
      "flos": 22857130028160.0,
      "grad_norm": 1.4435253627517775,
      "language_loss": 0.69319248,
      "learning_rate": 3.0219557016007723e-06,
      "loss": 0.71449709,
      "num_input_tokens_seen": 62402235,
      "step": 2906,
      "time_per_iteration": 3.3416800498962402
    },
    {
      "auxiliary_loss_clip": 0.01098735,
      "auxiliary_loss_mlp": 0.01022623,
      "balance_loss_clip": 1.04714298,
      "balance_loss_mlp": 1.01614964,
      "epoch": 0.3495460830878374,
      "flos": 24428356611840.0,
      "grad_norm": 2.169832947676429,
      "language_loss": 0.70198369,
      "learning_rate": 3.021286024843202e-06,
      "loss": 0.72319722,
      "num_input_tokens_seen": 62420430,
      "step": 2907,
      "time_per_iteration": 3.297743320465088
    },
    {
      "auxiliary_loss_clip": 0.01094846,
      "auxiliary_loss_mlp": 0.01005172,
      "balance_loss_clip": 1.05289781,
      "balance_loss_mlp": 1.00229859,
      "epoch": 0.3496663259784765,
      "flos": 70014271731840.0,
      "grad_norm": 1.0835310970365768,
      "language_loss": 0.64840448,
      "learning_rate": 3.0206161931573526e-06,
      "loss": 0.66940463,
      "num_input_tokens_seen": 62472980,
      "step": 2908,
      "time_per_iteration": 3.0256521701812744
    },
    {
      "auxiliary_loss_clip": 0.01088444,
      "auxiliary_loss_mlp": 0.0102386,
      "balance_loss_clip": 1.04132581,
      "balance_loss_mlp": 1.01823366,
      "epoch": 0.34978656886911563,
      "flos": 28695240766080.0,
      "grad_norm": 1.6355873830543264,
      "language_loss": 0.93011802,
      "learning_rate": 3.0199462066448388e-06,
      "loss": 0.95124108,
      "num_input_tokens_seen": 62495175,
      "step": 2909,
      "time_per_iteration": 2.6466426849365234
    },
    {
      "auxiliary_loss_clip": 0.01106239,
      "auxiliary_loss_mlp": 0.01020899,
      "balance_loss_clip": 1.04845357,
      "balance_loss_mlp": 1.01456952,
      "epoch": 0.3499068117597547,
      "flos": 21144277128960.0,
      "grad_norm": 1.7716399135881329,
      "language_loss": 0.69757152,
      "learning_rate": 3.019276065407296e-06,
      "loss": 0.71884286,
      "num_input_tokens_seen": 62514295,
      "step": 2910,
      "time_per_iteration": 3.2373239994049072
    },
    {
      "auxiliary_loss_clip": 0.01065162,
      "auxiliary_loss_mlp": 0.01027658,
      "balance_loss_clip": 1.04057324,
      "balance_loss_mlp": 1.021137,
      "epoch": 0.3500270546503938,
      "flos": 22784838065280.0,
      "grad_norm": 2.037025377049526,
      "language_loss": 0.80825174,
      "learning_rate": 3.018605769546385e-06,
      "loss": 0.82918,
      "num_input_tokens_seen": 62534850,
      "step": 2911,
      "time_per_iteration": 3.4049761295318604
    },
    {
      "auxiliary_loss_clip": 0.01107928,
      "auxiliary_loss_mlp": 0.01026713,
      "balance_loss_clip": 1.04645991,
      "balance_loss_mlp": 1.01994205,
      "epoch": 0.3501472975410329,
      "flos": 22896309456000.0,
      "grad_norm": 2.215827214743408,
      "language_loss": 0.79846954,
      "learning_rate": 3.017935319163788e-06,
      "loss": 0.81981599,
      "num_input_tokens_seen": 62553810,
      "step": 2912,
      "time_per_iteration": 2.5542080402374268
    },
    {
      "auxiliary_loss_clip": 0.01103649,
      "auxiliary_loss_mlp": 0.01024181,
      "balance_loss_clip": 1.04492927,
      "balance_loss_mlp": 1.01706135,
      "epoch": 0.35026754043167196,
      "flos": 25448899824000.0,
      "grad_norm": 1.840510006101493,
      "language_loss": 0.70820296,
      "learning_rate": 3.017264714361213e-06,
      "loss": 0.72948134,
      "num_input_tokens_seen": 62573460,
      "step": 2913,
      "time_per_iteration": 2.5551140308380127
    },
    {
      "auxiliary_loss_clip": 0.010804,
      "auxiliary_loss_mlp": 0.00756963,
      "balance_loss_clip": 1.03593147,
      "balance_loss_mlp": 1.00174689,
      "epoch": 0.3503877833223111,
      "flos": 19575818565120.0,
      "grad_norm": 2.1598864232813852,
      "language_loss": 0.82128316,
      "learning_rate": 3.016593955240389e-06,
      "loss": 0.83965683,
      "num_input_tokens_seen": 62592150,
      "step": 2914,
      "time_per_iteration": 2.5871105194091797
    },
    {
      "auxiliary_loss_clip": 0.0107964,
      "auxiliary_loss_mlp": 0.01003903,
      "balance_loss_clip": 1.04926157,
      "balance_loss_mlp": 1.00125623,
      "epoch": 0.3505080262129502,
      "flos": 65078738772480.0,
      "grad_norm": 0.828591589726577,
      "language_loss": 0.63609421,
      "learning_rate": 3.015923041903071e-06,
      "loss": 0.65692961,
      "num_input_tokens_seen": 62658275,
      "step": 2915,
      "time_per_iteration": 3.174650192260742
    },
    {
      "auxiliary_loss_clip": 0.01104171,
      "auxiliary_loss_mlp": 0.01024642,
      "balance_loss_clip": 1.04706407,
      "balance_loss_mlp": 1.01801395,
      "epoch": 0.35062826910358924,
      "flos": 29317116476160.0,
      "grad_norm": 2.883630020123533,
      "language_loss": 0.8388682,
      "learning_rate": 3.0152519744510347e-06,
      "loss": 0.8601563,
      "num_input_tokens_seen": 62678075,
      "step": 2916,
      "time_per_iteration": 2.6129448413848877
    },
    {
      "auxiliary_loss_clip": 0.0106873,
      "auxiliary_loss_mlp": 0.01023202,
      "balance_loss_clip": 1.03487825,
      "balance_loss_mlp": 1.01693487,
      "epoch": 0.35074851199422835,
      "flos": 23989978828800.0,
      "grad_norm": 1.7803783367644654,
      "language_loss": 0.82794452,
      "learning_rate": 3.014580752986081e-06,
      "loss": 0.84886384,
      "num_input_tokens_seen": 62696950,
      "step": 2917,
      "time_per_iteration": 2.5992443561553955
    },
    {
      "auxiliary_loss_clip": 0.01066032,
      "auxiliary_loss_mlp": 0.01024638,
      "balance_loss_clip": 1.04300773,
      "balance_loss_mlp": 1.01845419,
      "epoch": 0.3508687548848674,
      "flos": 15225835795200.0,
      "grad_norm": 1.8891618764009004,
      "language_loss": 0.78626513,
      "learning_rate": 3.0139093776100345e-06,
      "loss": 0.80717188,
      "num_input_tokens_seen": 62713540,
      "step": 2918,
      "time_per_iteration": 2.6494874954223633
    },
    {
      "auxiliary_loss_clip": 0.01116617,
      "auxiliary_loss_mlp": 0.01021974,
      "balance_loss_clip": 1.04643643,
      "balance_loss_mlp": 1.01542687,
      "epoch": 0.3509889977755065,
      "flos": 21363921037440.0,
      "grad_norm": 2.2088864595320556,
      "language_loss": 0.75633287,
      "learning_rate": 3.013237848424741e-06,
      "loss": 0.77771878,
      "num_input_tokens_seen": 62732925,
      "step": 2919,
      "time_per_iteration": 2.5083303451538086
    },
    {
      "auxiliary_loss_clip": 0.01091068,
      "auxiliary_loss_mlp": 0.0102631,
      "balance_loss_clip": 1.04465055,
      "balance_loss_mlp": 1.01996231,
      "epoch": 0.35110924066614563,
      "flos": 19137364945920.0,
      "grad_norm": 2.23661529045314,
      "language_loss": 0.75851142,
      "learning_rate": 3.012566165532072e-06,
      "loss": 0.7796852,
      "num_input_tokens_seen": 62751715,
      "step": 2920,
      "time_per_iteration": 2.584019660949707
    },
    {
      "auxiliary_loss_clip": 0.01051658,
      "auxiliary_loss_mlp": 0.01024166,
      "balance_loss_clip": 1.04229689,
      "balance_loss_mlp": 1.01799726,
      "epoch": 0.3512294835567847,
      "flos": 21983028727680.0,
      "grad_norm": 1.9986499268753366,
      "language_loss": 0.76707363,
      "learning_rate": 3.0118943290339207e-06,
      "loss": 0.7878319,
      "num_input_tokens_seen": 62771925,
      "step": 2921,
      "time_per_iteration": 2.6663379669189453
    },
    {
      "auxiliary_loss_clip": 0.01084078,
      "auxiliary_loss_mlp": 0.01021316,
      "balance_loss_clip": 1.04439259,
      "balance_loss_mlp": 1.01487255,
      "epoch": 0.3513497264474238,
      "flos": 17818970641920.0,
      "grad_norm": 1.9113702055041144,
      "language_loss": 0.68529475,
      "learning_rate": 3.011222339032204e-06,
      "loss": 0.70634866,
      "num_input_tokens_seen": 62790075,
      "step": 2922,
      "time_per_iteration": 2.5788469314575195
    },
    {
      "auxiliary_loss_clip": 0.01118557,
      "auxiliary_loss_mlp": 0.01022653,
      "balance_loss_clip": 1.04852819,
      "balance_loss_mlp": 1.01601875,
      "epoch": 0.3514699693380629,
      "flos": 26945862704640.0,
      "grad_norm": 2.271979262531015,
      "language_loss": 0.69358265,
      "learning_rate": 3.0105501956288626e-06,
      "loss": 0.71499467,
      "num_input_tokens_seen": 62810545,
      "step": 2923,
      "time_per_iteration": 2.5604453086853027
    },
    {
      "auxiliary_loss_clip": 0.01106695,
      "auxiliary_loss_mlp": 0.01025941,
      "balance_loss_clip": 1.04645824,
      "balance_loss_mlp": 1.01935482,
      "epoch": 0.35159021222870196,
      "flos": 15269337884160.0,
      "grad_norm": 1.9858428106692447,
      "language_loss": 0.72551906,
      "learning_rate": 3.0098778989258602e-06,
      "loss": 0.74684536,
      "num_input_tokens_seen": 62829155,
      "step": 2924,
      "time_per_iteration": 2.5350234508514404
    },
    {
      "auxiliary_loss_clip": 0.01080079,
      "auxiliary_loss_mlp": 0.01024374,
      "balance_loss_clip": 1.04435754,
      "balance_loss_mlp": 1.01805317,
      "epoch": 0.35171045511934107,
      "flos": 13985497002240.0,
      "grad_norm": 2.14408129330448,
      "language_loss": 0.88466573,
      "learning_rate": 3.009205449025183e-06,
      "loss": 0.90571028,
      "num_input_tokens_seen": 62845350,
      "step": 2925,
      "time_per_iteration": 2.5827884674072266
    },
    {
      "auxiliary_loss_clip": 0.01085611,
      "auxiliary_loss_mlp": 0.01023482,
      "balance_loss_clip": 1.04744101,
      "balance_loss_mlp": 1.01736927,
      "epoch": 0.3518306980099802,
      "flos": 14285206080000.0,
      "grad_norm": 1.946043753907112,
      "language_loss": 0.63411802,
      "learning_rate": 3.008532846028842e-06,
      "loss": 0.65520895,
      "num_input_tokens_seen": 62862110,
      "step": 2926,
      "time_per_iteration": 2.575587272644043
    },
    {
      "auxiliary_loss_clip": 0.01118336,
      "auxiliary_loss_mlp": 0.01025179,
      "balance_loss_clip": 1.04817104,
      "balance_loss_mlp": 1.01822889,
      "epoch": 0.35195094090061924,
      "flos": 27055324437120.0,
      "grad_norm": 6.425203134066357,
      "language_loss": 0.7231372,
      "learning_rate": 3.0078600900388694e-06,
      "loss": 0.7445724,
      "num_input_tokens_seen": 62882415,
      "step": 2927,
      "time_per_iteration": 2.5843346118927
    },
    {
      "auxiliary_loss_clip": 0.01081,
      "auxiliary_loss_mlp": 0.01023714,
      "balance_loss_clip": 1.04263711,
      "balance_loss_mlp": 1.0172292,
      "epoch": 0.35207118379125835,
      "flos": 25631601471360.0,
      "grad_norm": 1.9175524330589535,
      "language_loss": 0.73916113,
      "learning_rate": 3.007187181157323e-06,
      "loss": 0.76020825,
      "num_input_tokens_seen": 62902425,
      "step": 2928,
      "time_per_iteration": 2.630396604537964
    },
    {
      "auxiliary_loss_clip": 0.01045658,
      "auxiliary_loss_mlp": 0.01024613,
      "balance_loss_clip": 1.03478956,
      "balance_loss_mlp": 1.018507,
      "epoch": 0.35219142668189746,
      "flos": 18006677475840.0,
      "grad_norm": 2.3125937386805107,
      "language_loss": 0.68282545,
      "learning_rate": 3.006514119486282e-06,
      "loss": 0.70352817,
      "num_input_tokens_seen": 62919255,
      "step": 2929,
      "time_per_iteration": 2.6435394287109375
    },
    {
      "auxiliary_loss_clip": 0.01074996,
      "auxiliary_loss_mlp": 0.01020861,
      "balance_loss_clip": 1.04021192,
      "balance_loss_mlp": 1.01477849,
      "epoch": 0.3523116695725365,
      "flos": 14029871207040.0,
      "grad_norm": 1.7609824164321874,
      "language_loss": 0.69910944,
      "learning_rate": 3.005840905127849e-06,
      "loss": 0.72006798,
      "num_input_tokens_seen": 62936160,
      "step": 2930,
      "time_per_iteration": 2.5690219402313232
    },
    {
      "auxiliary_loss_clip": 0.01117414,
      "auxiliary_loss_mlp": 0.01021245,
      "balance_loss_clip": 1.04800284,
      "balance_loss_mlp": 1.01494455,
      "epoch": 0.3524319124631756,
      "flos": 21436099246080.0,
      "grad_norm": 2.8829894104298,
      "language_loss": 0.86653543,
      "learning_rate": 3.0051675381841516e-06,
      "loss": 0.88792193,
      "num_input_tokens_seen": 62953470,
      "step": 2931,
      "time_per_iteration": 2.541182041168213
    },
    {
      "auxiliary_loss_clip": 0.01034209,
      "auxiliary_loss_mlp": 0.00757374,
      "balance_loss_clip": 1.0325979,
      "balance_loss_mlp": 1.00189996,
      "epoch": 0.3525521553538147,
      "flos": 26325162455040.0,
      "grad_norm": 1.959941757459857,
      "language_loss": 0.77095926,
      "learning_rate": 3.0044940187573363e-06,
      "loss": 0.7888751,
      "num_input_tokens_seen": 62974480,
      "step": 2932,
      "time_per_iteration": 3.5991766452789307
    },
    {
      "auxiliary_loss_clip": 0.01105938,
      "auxiliary_loss_mlp": 0.01025517,
      "balance_loss_clip": 1.04583192,
      "balance_loss_mlp": 1.0192523,
      "epoch": 0.3526723982444538,
      "flos": 21545447224320.0,
      "grad_norm": 2.3047305472233086,
      "language_loss": 0.65343398,
      "learning_rate": 3.003820346949578e-06,
      "loss": 0.67474854,
      "num_input_tokens_seen": 62992560,
      "step": 2933,
      "time_per_iteration": 3.649540662765503
    },
    {
      "auxiliary_loss_clip": 0.01115778,
      "auxiliary_loss_mlp": 0.01024237,
      "balance_loss_clip": 1.04548061,
      "balance_loss_mlp": 1.01768923,
      "epoch": 0.3527926411350929,
      "flos": 23735971088640.0,
      "grad_norm": 2.34337465934185,
      "language_loss": 0.80021673,
      "learning_rate": 3.003146522863071e-06,
      "loss": 0.82161689,
      "num_input_tokens_seen": 63013445,
      "step": 2934,
      "time_per_iteration": 2.5807151794433594
    },
    {
      "auxiliary_loss_clip": 0.01086382,
      "auxiliary_loss_mlp": 0.01025883,
      "balance_loss_clip": 1.04291201,
      "balance_loss_mlp": 1.019961,
      "epoch": 0.35291288402573195,
      "flos": 30448069372800.0,
      "grad_norm": 2.1416704773090927,
      "language_loss": 0.86124861,
      "learning_rate": 3.0024725466000345e-06,
      "loss": 0.88237131,
      "num_input_tokens_seen": 63033400,
      "step": 2935,
      "time_per_iteration": 3.4042139053344727
    },
    {
      "auxiliary_loss_clip": 0.01104013,
      "auxiliary_loss_mlp": 0.0101978,
      "balance_loss_clip": 1.04666221,
      "balance_loss_mlp": 1.01378059,
      "epoch": 0.35303312691637107,
      "flos": 23114398723200.0,
      "grad_norm": 3.2652020745209827,
      "language_loss": 0.78725243,
      "learning_rate": 3.0017984182627087e-06,
      "loss": 0.80849028,
      "num_input_tokens_seen": 63052725,
      "step": 2936,
      "time_per_iteration": 2.5720174312591553
    },
    {
      "auxiliary_loss_clip": 0.01081927,
      "auxiliary_loss_mlp": 0.00757275,
      "balance_loss_clip": 1.04342473,
      "balance_loss_mlp": 1.00198913,
      "epoch": 0.3531533698070102,
      "flos": 21837876030720.0,
      "grad_norm": 2.1072293326159675,
      "language_loss": 0.82333064,
      "learning_rate": 3.00112413795336e-06,
      "loss": 0.84172273,
      "num_input_tokens_seen": 63072560,
      "step": 2937,
      "time_per_iteration": 3.3623270988464355
    },
    {
      "auxiliary_loss_clip": 0.01093993,
      "auxiliary_loss_mlp": 0.01024704,
      "balance_loss_clip": 1.04338551,
      "balance_loss_mlp": 1.01827264,
      "epoch": 0.35327361269764923,
      "flos": 15780803909760.0,
      "grad_norm": 2.315666458552951,
      "language_loss": 0.80153751,
      "learning_rate": 3.000449705774275e-06,
      "loss": 0.82272452,
      "num_input_tokens_seen": 63090800,
      "step": 2938,
      "time_per_iteration": 2.5587844848632812
    },
    {
      "auxiliary_loss_clip": 0.01102932,
      "auxiliary_loss_mlp": 0.01020349,
      "balance_loss_clip": 1.04644203,
      "balance_loss_mlp": 1.01414108,
      "epoch": 0.35339385558828834,
      "flos": 22092566296320.0,
      "grad_norm": 2.087204197577715,
      "language_loss": 0.71807104,
      "learning_rate": 2.9997751218277654e-06,
      "loss": 0.73930383,
      "num_input_tokens_seen": 63108955,
      "step": 2939,
      "time_per_iteration": 2.538853168487549
    },
    {
      "auxiliary_loss_clip": 0.01117488,
      "auxiliary_loss_mlp": 0.01023992,
      "balance_loss_clip": 1.04715943,
      "balance_loss_mlp": 1.01724172,
      "epoch": 0.35351409847892745,
      "flos": 24166992764160.0,
      "grad_norm": 2.385057683989058,
      "language_loss": 0.78323543,
      "learning_rate": 2.999100386216166e-06,
      "loss": 0.80465031,
      "num_input_tokens_seen": 63127895,
      "step": 2940,
      "time_per_iteration": 2.540592908859253
    },
    {
      "auxiliary_loss_clip": 0.01080219,
      "auxiliary_loss_mlp": 0.0102492,
      "balance_loss_clip": 1.0379014,
      "balance_loss_mlp": 1.0186677,
      "epoch": 0.3536343413695665,
      "flos": 27054717747840.0,
      "grad_norm": 1.9693574390384028,
      "language_loss": 0.74172056,
      "learning_rate": 2.998425499041831e-06,
      "loss": 0.76277196,
      "num_input_tokens_seen": 63148410,
      "step": 2941,
      "time_per_iteration": 2.618021249771118
    },
    {
      "auxiliary_loss_clip": 0.01074291,
      "auxiliary_loss_mlp": 0.01003803,
      "balance_loss_clip": 1.04462075,
      "balance_loss_mlp": 1.00135946,
      "epoch": 0.3537545842602056,
      "flos": 65998162229760.0,
      "grad_norm": 1.2758500096982768,
      "language_loss": 0.64478403,
      "learning_rate": 2.997750460407142e-06,
      "loss": 0.66556495,
      "num_input_tokens_seen": 63209765,
      "step": 2942,
      "time_per_iteration": 3.1800506114959717
    },
    {
      "auxiliary_loss_clip": 0.01076,
      "auxiliary_loss_mlp": 0.01021251,
      "balance_loss_clip": 1.0397892,
      "balance_loss_mlp": 1.01459301,
      "epoch": 0.35387482715084473,
      "flos": 18438571267200.0,
      "grad_norm": 2.143818825473423,
      "language_loss": 0.70486629,
      "learning_rate": 2.997075270414501e-06,
      "loss": 0.72583878,
      "num_input_tokens_seen": 63226980,
      "step": 2943,
      "time_per_iteration": 2.6085562705993652
    },
    {
      "auxiliary_loss_clip": 0.01063691,
      "auxiliary_loss_mlp": 0.01005011,
      "balance_loss_clip": 1.04372394,
      "balance_loss_mlp": 1.0024842,
      "epoch": 0.3539950700414838,
      "flos": 65595589165440.0,
      "grad_norm": 0.7000750553036135,
      "language_loss": 0.57744569,
      "learning_rate": 2.9963999291663347e-06,
      "loss": 0.59813273,
      "num_input_tokens_seen": 63292760,
      "step": 2944,
      "time_per_iteration": 3.183231830596924
    },
    {
      "auxiliary_loss_clip": 0.01060749,
      "auxiliary_loss_mlp": 0.01026562,
      "balance_loss_clip": 1.04070914,
      "balance_loss_mlp": 1.0203898,
      "epoch": 0.3541153129321229,
      "flos": 20523728551680.0,
      "grad_norm": 2.348775278203437,
      "language_loss": 0.74068159,
      "learning_rate": 2.9957244367650915e-06,
      "loss": 0.76155472,
      "num_input_tokens_seen": 63309005,
      "step": 2945,
      "time_per_iteration": 2.645108461380005
    },
    {
      "auxiliary_loss_clip": 0.01064348,
      "auxiliary_loss_mlp": 0.01020895,
      "balance_loss_clip": 1.04234052,
      "balance_loss_mlp": 1.01439834,
      "epoch": 0.354235555822762,
      "flos": 19575628974720.0,
      "grad_norm": 2.358906708483731,
      "language_loss": 0.83832848,
      "learning_rate": 2.9950487933132425e-06,
      "loss": 0.85918081,
      "num_input_tokens_seen": 63326420,
      "step": 2946,
      "time_per_iteration": 2.619785785675049
    },
    {
      "auxiliary_loss_clip": 0.01102931,
      "auxiliary_loss_mlp": 0.01025858,
      "balance_loss_clip": 1.043607,
      "balance_loss_mlp": 1.01965356,
      "epoch": 0.35435579871340106,
      "flos": 20779366769280.0,
      "grad_norm": 1.9403800077772055,
      "language_loss": 0.71480072,
      "learning_rate": 2.994372998913283e-06,
      "loss": 0.73608857,
      "num_input_tokens_seen": 63344925,
      "step": 2947,
      "time_per_iteration": 2.5765092372894287
    },
    {
      "auxiliary_loss_clip": 0.01086337,
      "auxiliary_loss_mlp": 0.01022728,
      "balance_loss_clip": 1.04180717,
      "balance_loss_mlp": 1.01646364,
      "epoch": 0.35447604160404017,
      "flos": 23954098273920.0,
      "grad_norm": 2.2481513523521657,
      "language_loss": 0.62511837,
      "learning_rate": 2.99369705366773e-06,
      "loss": 0.646209,
      "num_input_tokens_seen": 63365170,
      "step": 2948,
      "time_per_iteration": 2.618384838104248
    },
    {
      "auxiliary_loss_clip": 0.01077561,
      "auxiliary_loss_mlp": 0.01019685,
      "balance_loss_clip": 1.03568375,
      "balance_loss_mlp": 1.01356077,
      "epoch": 0.3545962844946792,
      "flos": 23437627061760.0,
      "grad_norm": 2.5340696003831265,
      "language_loss": 0.81532824,
      "learning_rate": 2.9930209576791244e-06,
      "loss": 0.83630067,
      "num_input_tokens_seen": 63383645,
      "step": 2949,
      "time_per_iteration": 2.5917248725891113
    },
    {
      "auxiliary_loss_clip": 0.01099384,
      "auxiliary_loss_mlp": 0.01023711,
      "balance_loss_clip": 1.04247689,
      "balance_loss_mlp": 1.01782775,
      "epoch": 0.35471652738531834,
      "flos": 22086992338560.0,
      "grad_norm": 6.599741797413915,
      "language_loss": 0.63651174,
      "learning_rate": 2.9923447110500285e-06,
      "loss": 0.65774274,
      "num_input_tokens_seen": 63402390,
      "step": 2950,
      "time_per_iteration": 2.541395664215088
    },
    {
      "auxiliary_loss_clip": 0.01104873,
      "auxiliary_loss_mlp": 0.01030235,
      "balance_loss_clip": 1.04500365,
      "balance_loss_mlp": 1.02427125,
      "epoch": 0.35483677027595745,
      "flos": 27344188944000.0,
      "grad_norm": 1.6794425745491388,
      "language_loss": 0.7562933,
      "learning_rate": 2.9916683138830295e-06,
      "loss": 0.77764434,
      "num_input_tokens_seen": 63423055,
      "step": 2951,
      "time_per_iteration": 2.612713098526001
    },
    {
      "auxiliary_loss_clip": 0.01085733,
      "auxiliary_loss_mlp": 0.01027357,
      "balance_loss_clip": 1.04133487,
      "balance_loss_mlp": 1.02084255,
      "epoch": 0.3549570131665965,
      "flos": 13517836410240.0,
      "grad_norm": 1.9622657592700352,
      "language_loss": 0.81483936,
      "learning_rate": 2.9909917662807353e-06,
      "loss": 0.83597028,
      "num_input_tokens_seen": 63440855,
      "step": 2952,
      "time_per_iteration": 2.544773578643799
    },
    {
      "auxiliary_loss_clip": 0.01096958,
      "auxiliary_loss_mlp": 0.01023949,
      "balance_loss_clip": 1.04066551,
      "balance_loss_mlp": 1.01760459,
      "epoch": 0.3550772560572356,
      "flos": 20889700617600.0,
      "grad_norm": 2.6060839885746487,
      "language_loss": 0.69190991,
      "learning_rate": 2.9903150683457783e-06,
      "loss": 0.71311903,
      "num_input_tokens_seen": 63459400,
      "step": 2953,
      "time_per_iteration": 2.5726635456085205
    },
    {
      "auxiliary_loss_clip": 0.01087908,
      "auxiliary_loss_mlp": 0.01019694,
      "balance_loss_clip": 1.04108334,
      "balance_loss_mlp": 1.01370645,
      "epoch": 0.3551974989478747,
      "flos": 20196139633920.0,
      "grad_norm": 2.440421572783761,
      "language_loss": 0.65136158,
      "learning_rate": 2.9896382201808126e-06,
      "loss": 0.67243755,
      "num_input_tokens_seen": 63476800,
      "step": 2954,
      "time_per_iteration": 2.5684268474578857
    },
    {
      "auxiliary_loss_clip": 0.01115163,
      "auxiliary_loss_mlp": 0.01026293,
      "balance_loss_clip": 1.04476595,
      "balance_loss_mlp": 1.01981044,
      "epoch": 0.3553177418385138,
      "flos": 19830888011520.0,
      "grad_norm": 2.6795114757592113,
      "language_loss": 0.8122803,
      "learning_rate": 2.988961221888516e-06,
      "loss": 0.83369488,
      "num_input_tokens_seen": 63493475,
      "step": 2955,
      "time_per_iteration": 2.5195159912109375
    },
    {
      "auxiliary_loss_clip": 0.01077096,
      "auxiliary_loss_mlp": 0.01021814,
      "balance_loss_clip": 1.04132009,
      "balance_loss_mlp": 1.01546884,
      "epoch": 0.3554379847291529,
      "flos": 14830846346880.0,
      "grad_norm": 2.4986623508156933,
      "language_loss": 0.79052949,
      "learning_rate": 2.988284073571589e-06,
      "loss": 0.81151855,
      "num_input_tokens_seen": 63509560,
      "step": 2956,
      "time_per_iteration": 2.5832407474517822
    },
    {
      "auxiliary_loss_clip": 0.01101882,
      "auxiliary_loss_mlp": 0.00757073,
      "balance_loss_clip": 1.04332936,
      "balance_loss_mlp": 1.00191987,
      "epoch": 0.355558227619792,
      "flos": 20487430897920.0,
      "grad_norm": 2.207606600386353,
      "language_loss": 0.72808182,
      "learning_rate": 2.9876067753327528e-06,
      "loss": 0.74667138,
      "num_input_tokens_seen": 63527290,
      "step": 2957,
      "time_per_iteration": 3.332714796066284
    },
    {
      "auxiliary_loss_clip": 0.01101745,
      "auxiliary_loss_mlp": 0.01031845,
      "balance_loss_clip": 1.04307163,
      "balance_loss_mlp": 1.02511239,
      "epoch": 0.35567847051043106,
      "flos": 37666287233280.0,
      "grad_norm": 2.0993985649906746,
      "language_loss": 0.80641794,
      "learning_rate": 2.986929327274754e-06,
      "loss": 0.82775384,
      "num_input_tokens_seen": 63547870,
      "step": 2958,
      "time_per_iteration": 2.693779230117798
    },
    {
      "auxiliary_loss_clip": 0.0110108,
      "auxiliary_loss_mlp": 0.0102748,
      "balance_loss_clip": 1.04422104,
      "balance_loss_mlp": 1.02135825,
      "epoch": 0.35579871340107017,
      "flos": 26945483523840.0,
      "grad_norm": 1.8368353517946303,
      "language_loss": 0.79002678,
      "learning_rate": 2.9862517295003617e-06,
      "loss": 0.81131244,
      "num_input_tokens_seen": 63568285,
      "step": 2959,
      "time_per_iteration": 3.3185853958129883
    },
    {
      "auxiliary_loss_clip": 0.01075767,
      "auxiliary_loss_mlp": 0.01023846,
      "balance_loss_clip": 1.03907335,
      "balance_loss_mlp": 1.01767659,
      "epoch": 0.3559189562917093,
      "flos": 28295852820480.0,
      "grad_norm": 1.532172363704548,
      "language_loss": 0.72330451,
      "learning_rate": 2.9855739821123654e-06,
      "loss": 0.74430066,
      "num_input_tokens_seen": 63589865,
      "step": 2960,
      "time_per_iteration": 2.662384271621704
    },
    {
      "auxiliary_loss_clip": 0.01097706,
      "auxiliary_loss_mlp": 0.01022125,
      "balance_loss_clip": 1.0427177,
      "balance_loss_mlp": 1.01585722,
      "epoch": 0.35603919918234833,
      "flos": 25666306565760.0,
      "grad_norm": 1.7882077799048264,
      "language_loss": 0.82338333,
      "learning_rate": 2.98489608521358e-06,
      "loss": 0.84458166,
      "num_input_tokens_seen": 63609805,
      "step": 2961,
      "time_per_iteration": 3.3802225589752197
    },
    {
      "auxiliary_loss_clip": 0.0110393,
      "auxiliary_loss_mlp": 0.00757143,
      "balance_loss_clip": 1.04388213,
      "balance_loss_mlp": 1.0019871,
      "epoch": 0.35615944207298744,
      "flos": 23002965250560.0,
      "grad_norm": 2.4548025247662237,
      "language_loss": 0.79644251,
      "learning_rate": 2.9842180389068425e-06,
      "loss": 0.81505322,
      "num_input_tokens_seen": 63627115,
      "step": 2962,
      "time_per_iteration": 2.530147075653076
    },
    {
      "auxiliary_loss_clip": 0.01040692,
      "auxiliary_loss_mlp": 0.01005097,
      "balance_loss_clip": 1.04198098,
      "balance_loss_mlp": 1.00287998,
      "epoch": 0.35627968496362655,
      "flos": 68258399627520.0,
      "grad_norm": 0.8061599212739997,
      "language_loss": 0.59190339,
      "learning_rate": 2.98353984329501e-06,
      "loss": 0.61236125,
      "num_input_tokens_seen": 63691460,
      "step": 2963,
      "time_per_iteration": 4.025621652603149
    },
    {
      "auxiliary_loss_clip": 0.01085675,
      "auxiliary_loss_mlp": 0.01024014,
      "balance_loss_clip": 1.04151988,
      "balance_loss_mlp": 1.01727295,
      "epoch": 0.3563999278542656,
      "flos": 22644121783680.0,
      "grad_norm": 1.601935928210579,
      "language_loss": 0.70956308,
      "learning_rate": 2.982861498480965e-06,
      "loss": 0.73065996,
      "num_input_tokens_seen": 63713840,
      "step": 2964,
      "time_per_iteration": 2.6280863285064697
    },
    {
      "auxiliary_loss_clip": 0.01078247,
      "auxiliary_loss_mlp": 0.01023603,
      "balance_loss_clip": 1.0397414,
      "balance_loss_mlp": 1.01766622,
      "epoch": 0.3565201707449047,
      "flos": 25954602301440.0,
      "grad_norm": 2.102329511925325,
      "language_loss": 0.82777524,
      "learning_rate": 2.9821830045676122e-06,
      "loss": 0.84879369,
      "num_input_tokens_seen": 63733540,
      "step": 2965,
      "time_per_iteration": 2.6778061389923096
    },
    {
      "auxiliary_loss_clip": 0.01114937,
      "auxiliary_loss_mlp": 0.01026663,
      "balance_loss_clip": 1.04504323,
      "balance_loss_mlp": 1.02027941,
      "epoch": 0.3566404136355438,
      "flos": 28478251123200.0,
      "grad_norm": 1.6201790290223392,
      "language_loss": 0.73256767,
      "learning_rate": 2.9815043616578793e-06,
      "loss": 0.75398362,
      "num_input_tokens_seen": 63754335,
      "step": 2966,
      "time_per_iteration": 2.5848004817962646
    },
    {
      "auxiliary_loss_clip": 0.01078358,
      "auxiliary_loss_mlp": 0.01025857,
      "balance_loss_clip": 1.04049897,
      "balance_loss_mlp": 1.01936007,
      "epoch": 0.3567606565261829,
      "flos": 38366180536320.0,
      "grad_norm": 1.8767147702105746,
      "language_loss": 0.77238286,
      "learning_rate": 2.9808255698547145e-06,
      "loss": 0.79342496,
      "num_input_tokens_seen": 63777135,
      "step": 2967,
      "time_per_iteration": 2.7591538429260254
    },
    {
      "auxiliary_loss_clip": 0.01101677,
      "auxiliary_loss_mlp": 0.01020452,
      "balance_loss_clip": 1.04600918,
      "balance_loss_mlp": 1.01376128,
      "epoch": 0.356880899416822,
      "flos": 21983180400000.0,
      "grad_norm": 2.284472599262399,
      "language_loss": 0.79151493,
      "learning_rate": 2.9801466292610913e-06,
      "loss": 0.81273621,
      "num_input_tokens_seen": 63797020,
      "step": 2968,
      "time_per_iteration": 2.576446771621704
    },
    {
      "auxiliary_loss_clip": 0.01099135,
      "auxiliary_loss_mlp": 0.01019438,
      "balance_loss_clip": 1.04268527,
      "balance_loss_mlp": 1.01341546,
      "epoch": 0.35700114230746105,
      "flos": 18991112624640.0,
      "grad_norm": 2.0726585356257985,
      "language_loss": 0.81178725,
      "learning_rate": 2.979467539980003e-06,
      "loss": 0.832973,
      "num_input_tokens_seen": 63813810,
      "step": 2969,
      "time_per_iteration": 2.543363332748413
    },
    {
      "auxiliary_loss_clip": 0.01100527,
      "auxiliary_loss_mlp": 0.01026354,
      "balance_loss_clip": 1.043051,
      "balance_loss_mlp": 1.02014959,
      "epoch": 0.35712138519810016,
      "flos": 19758178949760.0,
      "grad_norm": 2.5005196787479087,
      "language_loss": 0.76942635,
      "learning_rate": 2.978788302114468e-06,
      "loss": 0.79069519,
      "num_input_tokens_seen": 63830925,
      "step": 2970,
      "time_per_iteration": 2.553281784057617
    },
    {
      "auxiliary_loss_clip": 0.01091129,
      "auxiliary_loss_mlp": 0.01026582,
      "balance_loss_clip": 1.03783703,
      "balance_loss_mlp": 1.01993275,
      "epoch": 0.35724162808873927,
      "flos": 35185571729280.0,
      "grad_norm": 2.232943970458309,
      "language_loss": 0.83624989,
      "learning_rate": 2.9781089157675255e-06,
      "loss": 0.857427,
      "num_input_tokens_seen": 63849385,
      "step": 2971,
      "time_per_iteration": 2.632185459136963
    },
    {
      "auxiliary_loss_clip": 0.01094198,
      "auxiliary_loss_mlp": 0.01024326,
      "balance_loss_clip": 1.0434041,
      "balance_loss_mlp": 1.01799262,
      "epoch": 0.3573618709793783,
      "flos": 25559082000000.0,
      "grad_norm": 1.5413840868709179,
      "language_loss": 0.88522041,
      "learning_rate": 2.977429381042238e-06,
      "loss": 0.90640569,
      "num_input_tokens_seen": 63870060,
      "step": 2972,
      "time_per_iteration": 2.594836950302124
    },
    {
      "auxiliary_loss_clip": 0.01088765,
      "auxiliary_loss_mlp": 0.01020748,
      "balance_loss_clip": 1.04176569,
      "balance_loss_mlp": 1.01481426,
      "epoch": 0.35748211387001744,
      "flos": 29134907763840.0,
      "grad_norm": 2.1773948636107776,
      "language_loss": 0.89059174,
      "learning_rate": 2.9767496980416913e-06,
      "loss": 0.9116869,
      "num_input_tokens_seen": 63889355,
      "step": 2973,
      "time_per_iteration": 2.6145691871643066
    },
    {
      "auxiliary_loss_clip": 0.01088605,
      "auxiliary_loss_mlp": 0.01023564,
      "balance_loss_clip": 1.0409807,
      "balance_loss_mlp": 1.01681948,
      "epoch": 0.35760235676065655,
      "flos": 13955872930560.0,
      "grad_norm": 2.1370187484727996,
      "language_loss": 0.81393123,
      "learning_rate": 2.9760698668689914e-06,
      "loss": 0.83505297,
      "num_input_tokens_seen": 63905580,
      "step": 2974,
      "time_per_iteration": 2.5472869873046875
    },
    {
      "auxiliary_loss_clip": 0.01100191,
      "auxiliary_loss_mlp": 0.01017899,
      "balance_loss_clip": 1.04189479,
      "balance_loss_mlp": 1.01177764,
      "epoch": 0.3577225996512956,
      "flos": 44022082561920.0,
      "grad_norm": 2.1666147733169767,
      "language_loss": 0.71501398,
      "learning_rate": 2.975389887627269e-06,
      "loss": 0.73619497,
      "num_input_tokens_seen": 63928180,
      "step": 2975,
      "time_per_iteration": 2.7175979614257812
    },
    {
      "auxiliary_loss_clip": 0.01075442,
      "auxiliary_loss_mlp": 0.01023571,
      "balance_loss_clip": 1.04075885,
      "balance_loss_mlp": 1.01772666,
      "epoch": 0.3578428425419347,
      "flos": 17057061175680.0,
      "grad_norm": 2.127342422780951,
      "language_loss": 0.89943993,
      "learning_rate": 2.9747097604196764e-06,
      "loss": 0.92043006,
      "num_input_tokens_seen": 63944825,
      "step": 2976,
      "time_per_iteration": 2.5950865745544434
    },
    {
      "auxiliary_loss_clip": 0.01037835,
      "auxiliary_loss_mlp": 0.01004022,
      "balance_loss_clip": 1.03915286,
      "balance_loss_mlp": 1.00170982,
      "epoch": 0.3579630854325738,
      "flos": 71683612490880.0,
      "grad_norm": 0.6711499871022387,
      "language_loss": 0.56637526,
      "learning_rate": 2.9740294853493875e-06,
      "loss": 0.5867939,
      "num_input_tokens_seen": 64016385,
      "step": 2977,
      "time_per_iteration": 3.4355969429016113
    },
    {
      "auxiliary_loss_clip": 0.01058036,
      "auxiliary_loss_mlp": 0.0102412,
      "balance_loss_clip": 1.03299594,
      "balance_loss_mlp": 1.01772499,
      "epoch": 0.3580833283232129,
      "flos": 25049018943360.0,
      "grad_norm": 1.9800185820743756,
      "language_loss": 0.67139506,
      "learning_rate": 2.9733490625196008e-06,
      "loss": 0.69221663,
      "num_input_tokens_seen": 64036245,
      "step": 2978,
      "time_per_iteration": 2.6848227977752686
    },
    {
      "auxiliary_loss_clip": 0.01064255,
      "auxiliary_loss_mlp": 0.01023449,
      "balance_loss_clip": 1.03540826,
      "balance_loss_mlp": 1.01762533,
      "epoch": 0.358203571213852,
      "flos": 13954773306240.0,
      "grad_norm": 2.9400805457335664,
      "language_loss": 0.7618137,
      "learning_rate": 2.9726684920335353e-06,
      "loss": 0.7826907,
      "num_input_tokens_seen": 64054110,
      "step": 2979,
      "time_per_iteration": 2.5629162788391113
    },
    {
      "auxiliary_loss_clip": 0.01115129,
      "auxiliary_loss_mlp": 0.00757532,
      "balance_loss_clip": 1.0443728,
      "balance_loss_mlp": 1.00211346,
      "epoch": 0.35832381410449105,
      "flos": 20304501742080.0,
      "grad_norm": 2.61279443052634,
      "language_loss": 0.81848282,
      "learning_rate": 2.971987773994432e-06,
      "loss": 0.8372094,
      "num_input_tokens_seen": 64070295,
      "step": 2980,
      "time_per_iteration": 2.528038263320923
    },
    {
      "auxiliary_loss_clip": 0.01103482,
      "auxiliary_loss_mlp": 0.0102062,
      "balance_loss_clip": 1.04355693,
      "balance_loss_mlp": 1.0145793,
      "epoch": 0.35844405699513016,
      "flos": 16985148393600.0,
      "grad_norm": 1.9899892446253833,
      "language_loss": 0.82886511,
      "learning_rate": 2.9713069085055566e-06,
      "loss": 0.85010612,
      "num_input_tokens_seen": 64088605,
      "step": 2981,
      "time_per_iteration": 2.564229965209961
    },
    {
      "auxiliary_loss_clip": 0.01065312,
      "auxiliary_loss_mlp": 0.01022252,
      "balance_loss_clip": 1.03251851,
      "balance_loss_mlp": 1.01563907,
      "epoch": 0.35856429988576927,
      "flos": 23218817351040.0,
      "grad_norm": 2.228289290473293,
      "language_loss": 0.79176831,
      "learning_rate": 2.9706258956701958e-06,
      "loss": 0.81264389,
      "num_input_tokens_seen": 64108595,
      "step": 2982,
      "time_per_iteration": 2.624591112136841
    },
    {
      "auxiliary_loss_clip": 0.01102409,
      "auxiliary_loss_mlp": 0.01024885,
      "balance_loss_clip": 1.04416776,
      "balance_loss_mlp": 1.0184207,
      "epoch": 0.3586845427764083,
      "flos": 23036532802560.0,
      "grad_norm": 2.454381938901336,
      "language_loss": 0.77455664,
      "learning_rate": 2.9699447355916575e-06,
      "loss": 0.79582953,
      "num_input_tokens_seen": 64127405,
      "step": 2983,
      "time_per_iteration": 2.5647332668304443
    },
    {
      "auxiliary_loss_clip": 0.01114166,
      "auxiliary_loss_mlp": 0.0075715,
      "balance_loss_clip": 1.04475808,
      "balance_loss_mlp": 1.0018307,
      "epoch": 0.35880478566704743,
      "flos": 20012717543040.0,
      "grad_norm": 2.2168956439453873,
      "language_loss": 0.74399376,
      "learning_rate": 2.969263428373275e-06,
      "loss": 0.76270694,
      "num_input_tokens_seen": 64145755,
      "step": 2984,
      "time_per_iteration": 3.9869275093078613
    },
    {
      "auxiliary_loss_clip": 0.01091713,
      "auxiliary_loss_mlp": 0.01023594,
      "balance_loss_clip": 1.04329348,
      "balance_loss_mlp": 1.01729417,
      "epoch": 0.35892502855768654,
      "flos": 13700803484160.0,
      "grad_norm": 2.179628783616706,
      "language_loss": 0.7966646,
      "learning_rate": 2.9685819741184007e-06,
      "loss": 0.81781769,
      "num_input_tokens_seen": 64164195,
      "step": 2985,
      "time_per_iteration": 2.599020004272461
    },
    {
      "auxiliary_loss_clip": 0.01064406,
      "auxiliary_loss_mlp": 0.01024851,
      "balance_loss_clip": 1.03466392,
      "balance_loss_mlp": 1.01874137,
      "epoch": 0.3590452714483256,
      "flos": 18116063372160.0,
      "grad_norm": 2.727740196350011,
      "language_loss": 0.68592209,
      "learning_rate": 2.967900372930411e-06,
      "loss": 0.70681465,
      "num_input_tokens_seen": 64182705,
      "step": 2986,
      "time_per_iteration": 2.5620827674865723
    },
    {
      "auxiliary_loss_clip": 0.01093449,
      "auxiliary_loss_mlp": 0.01026738,
      "balance_loss_clip": 1.04329729,
      "balance_loss_mlp": 1.02030921,
      "epoch": 0.3591655143389647,
      "flos": 17751304684800.0,
      "grad_norm": 2.3061693922524333,
      "language_loss": 0.79462159,
      "learning_rate": 2.9672186249127046e-06,
      "loss": 0.81582344,
      "num_input_tokens_seen": 64202170,
      "step": 2987,
      "time_per_iteration": 3.3340699672698975
    },
    {
      "auxiliary_loss_clip": 0.0108813,
      "auxiliary_loss_mlp": 0.01026204,
      "balance_loss_clip": 1.04329646,
      "balance_loss_mlp": 1.02031851,
      "epoch": 0.3592857572296038,
      "flos": 25226525813760.0,
      "grad_norm": 3.794716522102512,
      "language_loss": 0.79169083,
      "learning_rate": 2.9665367301687014e-06,
      "loss": 0.81283414,
      "num_input_tokens_seen": 64220415,
      "step": 2988,
      "time_per_iteration": 3.3927135467529297
    },
    {
      "auxiliary_loss_clip": 0.01091483,
      "auxiliary_loss_mlp": 0.01023064,
      "balance_loss_clip": 1.04328036,
      "balance_loss_mlp": 1.01660872,
      "epoch": 0.3594060001202429,
      "flos": 29386792091520.0,
      "grad_norm": 2.036661365975735,
      "language_loss": 0.76901639,
      "learning_rate": 2.965854688801845e-06,
      "loss": 0.79016185,
      "num_input_tokens_seen": 64242475,
      "step": 2989,
      "time_per_iteration": 2.6208879947662354
    },
    {
      "auxiliary_loss_clip": 0.01102282,
      "auxiliary_loss_mlp": 0.01019841,
      "balance_loss_clip": 1.04324007,
      "balance_loss_mlp": 1.0139221,
      "epoch": 0.359526243010882,
      "flos": 17054634418560.0,
      "grad_norm": 2.195107332571411,
      "language_loss": 0.76531863,
      "learning_rate": 2.9651725009156005e-06,
      "loss": 0.78653985,
      "num_input_tokens_seen": 64260220,
      "step": 2990,
      "time_per_iteration": 2.5326249599456787
    },
    {
      "auxiliary_loss_clip": 0.0108889,
      "auxiliary_loss_mlp": 0.01027673,
      "balance_loss_clip": 1.04192615,
      "balance_loss_mlp": 1.02071714,
      "epoch": 0.3596464859015211,
      "flos": 22967236368000.0,
      "grad_norm": 2.0039797973514677,
      "language_loss": 0.74385124,
      "learning_rate": 2.964490166613454e-06,
      "loss": 0.76501685,
      "num_input_tokens_seen": 64280145,
      "step": 2991,
      "time_per_iteration": 2.5980801582336426
    },
    {
      "auxiliary_loss_clip": 0.01090041,
      "auxiliary_loss_mlp": 0.01004141,
      "balance_loss_clip": 1.05069685,
      "balance_loss_mlp": 1.00161362,
      "epoch": 0.35976672879216015,
      "flos": 54745151304960.0,
      "grad_norm": 0.7658050438191042,
      "language_loss": 0.57693303,
      "learning_rate": 2.963807685998917e-06,
      "loss": 0.59787488,
      "num_input_tokens_seen": 64336010,
      "step": 2992,
      "time_per_iteration": 2.9649322032928467
    },
    {
      "auxiliary_loss_clip": 0.0106592,
      "auxiliary_loss_mlp": 0.01022048,
      "balance_loss_clip": 1.04136992,
      "balance_loss_mlp": 1.01595676,
      "epoch": 0.35988697168279926,
      "flos": 43142141877120.0,
      "grad_norm": 1.5963979136387811,
      "language_loss": 0.78003275,
      "learning_rate": 2.9631250591755196e-06,
      "loss": 0.8009125,
      "num_input_tokens_seen": 64358725,
      "step": 2993,
      "time_per_iteration": 2.8359062671661377
    },
    {
      "auxiliary_loss_clip": 0.01077516,
      "auxiliary_loss_mlp": 0.01025872,
      "balance_loss_clip": 1.03781402,
      "balance_loss_mlp": 1.01928544,
      "epoch": 0.36000721457343837,
      "flos": 35848522771200.0,
      "grad_norm": 2.2826558819918037,
      "language_loss": 0.57780725,
      "learning_rate": 2.962442286246817e-06,
      "loss": 0.59884113,
      "num_input_tokens_seen": 64381555,
      "step": 2994,
      "time_per_iteration": 2.7305359840393066
    },
    {
      "auxiliary_loss_clip": 0.01090655,
      "auxiliary_loss_mlp": 0.01024743,
      "balance_loss_clip": 1.04386842,
      "balance_loss_mlp": 1.01891398,
      "epoch": 0.3601274574640774,
      "flos": 18292773962880.0,
      "grad_norm": 1.8267590830937632,
      "language_loss": 0.69881362,
      "learning_rate": 2.9617593673163853e-06,
      "loss": 0.7199676,
      "num_input_tokens_seen": 64400375,
      "step": 2995,
      "time_per_iteration": 2.569061756134033
    },
    {
      "auxiliary_loss_clip": 0.01093273,
      "auxiliary_loss_mlp": 0.01020162,
      "balance_loss_clip": 1.04408836,
      "balance_loss_mlp": 1.01456547,
      "epoch": 0.36024770035471654,
      "flos": 13335627697920.0,
      "grad_norm": 2.250970291072164,
      "language_loss": 0.77460259,
      "learning_rate": 2.9610763024878216e-06,
      "loss": 0.79573691,
      "num_input_tokens_seen": 64415880,
      "step": 2996,
      "time_per_iteration": 2.580782175064087
    },
    {
      "auxiliary_loss_clip": 0.01093486,
      "auxiliary_loss_mlp": 0.01028318,
      "balance_loss_clip": 1.04340279,
      "balance_loss_mlp": 1.02194357,
      "epoch": 0.3603679432453556,
      "flos": 20269114122240.0,
      "grad_norm": 1.8780503529879002,
      "language_loss": 0.91774595,
      "learning_rate": 2.960393091864747e-06,
      "loss": 0.93896401,
      "num_input_tokens_seen": 64434260,
      "step": 2997,
      "time_per_iteration": 2.568916082382202
    },
    {
      "auxiliary_loss_clip": 0.01092912,
      "auxiliary_loss_mlp": 0.01017136,
      "balance_loss_clip": 1.04622042,
      "balance_loss_mlp": 1.01095819,
      "epoch": 0.3604881861359947,
      "flos": 22453078158720.0,
      "grad_norm": 1.8622524454849576,
      "language_loss": 0.74910599,
      "learning_rate": 2.959709735550804e-06,
      "loss": 0.77020645,
      "num_input_tokens_seen": 64453855,
      "step": 2998,
      "time_per_iteration": 2.6124019622802734
    },
    {
      "auxiliary_loss_clip": 0.01064208,
      "auxiliary_loss_mlp": 0.01018722,
      "balance_loss_clip": 1.0417695,
      "balance_loss_mlp": 1.01242435,
      "epoch": 0.3606084290266338,
      "flos": 22056420314880.0,
      "grad_norm": 2.254264348992611,
      "language_loss": 0.75946105,
      "learning_rate": 2.9590262336496575e-06,
      "loss": 0.78029025,
      "num_input_tokens_seen": 64473585,
      "step": 2999,
      "time_per_iteration": 2.669455051422119
    },
    {
      "auxiliary_loss_clip": 0.01077967,
      "auxiliary_loss_mlp": 0.01025596,
      "balance_loss_clip": 1.04801464,
      "balance_loss_mlp": 1.01867557,
      "epoch": 0.36072867191727287,
      "flos": 15634741178880.0,
      "grad_norm": 1.7832154097694262,
      "language_loss": 0.85542667,
      "learning_rate": 2.9583425862649936e-06,
      "loss": 0.87646234,
      "num_input_tokens_seen": 64491720,
      "step": 3000,
      "time_per_iteration": 2.6101746559143066
    },
    {
      "auxiliary_loss_clip": 0.01117534,
      "auxiliary_loss_mlp": 0.01026043,
      "balance_loss_clip": 1.04729462,
      "balance_loss_mlp": 1.01965594,
      "epoch": 0.360848914807912,
      "flos": 19678720469760.0,
      "grad_norm": 2.459006679572753,
      "language_loss": 0.74301469,
      "learning_rate": 2.9576587935005215e-06,
      "loss": 0.76445043,
      "num_input_tokens_seen": 64509800,
      "step": 3001,
      "time_per_iteration": 2.526080846786499
    },
    {
      "auxiliary_loss_clip": 0.01103267,
      "auxiliary_loss_mlp": 0.01021381,
      "balance_loss_clip": 1.04418981,
      "balance_loss_mlp": 1.01455033,
      "epoch": 0.3609691576985511,
      "flos": 18879679152000.0,
      "grad_norm": 2.809941930869935,
      "language_loss": 0.72173464,
      "learning_rate": 2.9569748554599713e-06,
      "loss": 0.74298108,
      "num_input_tokens_seen": 64525410,
      "step": 3002,
      "time_per_iteration": 2.551422119140625
    },
    {
      "auxiliary_loss_clip": 0.01092836,
      "auxiliary_loss_mlp": 0.01024345,
      "balance_loss_clip": 1.04651332,
      "balance_loss_mlp": 1.01832819,
      "epoch": 0.36108940058919015,
      "flos": 42227003162880.0,
      "grad_norm": 2.288312858552762,
      "language_loss": 0.73361421,
      "learning_rate": 2.956290772247097e-06,
      "loss": 0.75478601,
      "num_input_tokens_seen": 64544085,
      "step": 3003,
      "time_per_iteration": 2.774766683578491
    },
    {
      "auxiliary_loss_clip": 0.01054212,
      "auxiliary_loss_mlp": 0.01024115,
      "balance_loss_clip": 1.03713226,
      "balance_loss_mlp": 1.01800799,
      "epoch": 0.36120964347982926,
      "flos": 23187373211520.0,
      "grad_norm": 1.8606873000547175,
      "language_loss": 0.73375785,
      "learning_rate": 2.9556065439656724e-06,
      "loss": 0.75454116,
      "num_input_tokens_seen": 64563135,
      "step": 3004,
      "time_per_iteration": 2.686009645462036
    },
    {
      "auxiliary_loss_clip": 0.01056984,
      "auxiliary_loss_mlp": 0.01023268,
      "balance_loss_clip": 1.0430131,
      "balance_loss_mlp": 1.01723599,
      "epoch": 0.36132988637046837,
      "flos": 18114963747840.0,
      "grad_norm": 1.8952266601415777,
      "language_loss": 0.81720394,
      "learning_rate": 2.9549221707194952e-06,
      "loss": 0.8380065,
      "num_input_tokens_seen": 64581985,
      "step": 3005,
      "time_per_iteration": 2.670801877975464
    },
    {
      "auxiliary_loss_clip": 0.01105136,
      "auxiliary_loss_mlp": 0.01021355,
      "balance_loss_clip": 1.04725647,
      "balance_loss_mlp": 1.01523685,
      "epoch": 0.3614501292611074,
      "flos": 27815262163200.0,
      "grad_norm": 2.901585286587751,
      "language_loss": 0.73108798,
      "learning_rate": 2.954237652612384e-06,
      "loss": 0.75235289,
      "num_input_tokens_seen": 64601035,
      "step": 3006,
      "time_per_iteration": 2.6116783618927
    },
    {
      "auxiliary_loss_clip": 0.01088941,
      "auxiliary_loss_mlp": 0.01021147,
      "balance_loss_clip": 1.044227,
      "balance_loss_mlp": 1.01532078,
      "epoch": 0.36157037215174653,
      "flos": 22636955266560.0,
      "grad_norm": 1.9192340818514166,
      "language_loss": 0.84787571,
      "learning_rate": 2.9535529897481796e-06,
      "loss": 0.86897659,
      "num_input_tokens_seen": 64618580,
      "step": 3007,
      "time_per_iteration": 2.624772548675537
    },
    {
      "auxiliary_loss_clip": 0.01116997,
      "auxiliary_loss_mlp": 0.01021236,
      "balance_loss_clip": 1.04662681,
      "balance_loss_mlp": 1.01527011,
      "epoch": 0.36169061504238564,
      "flos": 12602280597120.0,
      "grad_norm": 2.2362514180936106,
      "language_loss": 0.77166408,
      "learning_rate": 2.9528681822307446e-06,
      "loss": 0.79304641,
      "num_input_tokens_seen": 64635430,
      "step": 3008,
      "time_per_iteration": 2.511216640472412
    },
    {
      "auxiliary_loss_clip": 0.01093276,
      "auxiliary_loss_mlp": 0.007568,
      "balance_loss_clip": 1.03838801,
      "balance_loss_mlp": 1.00171387,
      "epoch": 0.3618108579330247,
      "flos": 26686887696000.0,
      "grad_norm": 2.3691116424120793,
      "language_loss": 0.82608855,
      "learning_rate": 2.952183230163964e-06,
      "loss": 0.84458929,
      "num_input_tokens_seen": 64655005,
      "step": 3009,
      "time_per_iteration": 3.386798858642578
    },
    {
      "auxiliary_loss_clip": 0.01079103,
      "auxiliary_loss_mlp": 0.01019349,
      "balance_loss_clip": 1.04341149,
      "balance_loss_mlp": 1.01375532,
      "epoch": 0.3619311008236638,
      "flos": 22819050224640.0,
      "grad_norm": 2.3975456710896363,
      "language_loss": 0.73042548,
      "learning_rate": 2.9514981336517448e-06,
      "loss": 0.75141001,
      "num_input_tokens_seen": 64674775,
      "step": 3010,
      "time_per_iteration": 3.394620895385742
    },
    {
      "auxiliary_loss_clip": 0.01103043,
      "auxiliary_loss_mlp": 0.01020929,
      "balance_loss_clip": 1.04575682,
      "balance_loss_mlp": 1.01475728,
      "epoch": 0.36205134371430286,
      "flos": 25921868947200.0,
      "grad_norm": 1.978687873782327,
      "language_loss": 0.81591558,
      "learning_rate": 2.950812892798015e-06,
      "loss": 0.83715522,
      "num_input_tokens_seen": 64695670,
      "step": 3011,
      "time_per_iteration": 2.5773558616638184
    },
    {
      "auxiliary_loss_clip": 0.01066958,
      "auxiliary_loss_mlp": 0.00757066,
      "balance_loss_clip": 1.04469895,
      "balance_loss_mlp": 1.00172627,
      "epoch": 0.362171586604942,
      "flos": 26141929954560.0,
      "grad_norm": 4.346481739462268,
      "language_loss": 0.87670296,
      "learning_rate": 2.9501275077067256e-06,
      "loss": 0.89494318,
      "num_input_tokens_seen": 64716290,
      "step": 3012,
      "time_per_iteration": 3.5116748809814453
    },
    {
      "auxiliary_loss_clip": 0.01057288,
      "auxiliary_loss_mlp": 0.01022032,
      "balance_loss_clip": 1.04351115,
      "balance_loss_mlp": 1.01608098,
      "epoch": 0.3622918294955811,
      "flos": 28076701847040.0,
      "grad_norm": 1.9026850559868065,
      "language_loss": 0.88742721,
      "learning_rate": 2.949441978481848e-06,
      "loss": 0.90822041,
      "num_input_tokens_seen": 64737190,
      "step": 3013,
      "time_per_iteration": 2.709228515625
    },
    {
      "auxiliary_loss_clip": 0.01080428,
      "auxiliary_loss_mlp": 0.01021911,
      "balance_loss_clip": 1.04494429,
      "balance_loss_mlp": 1.01535106,
      "epoch": 0.36241207238622014,
      "flos": 19830015895680.0,
      "grad_norm": 2.089877714801999,
      "language_loss": 0.80361241,
      "learning_rate": 2.9487563052273778e-06,
      "loss": 0.82463586,
      "num_input_tokens_seen": 64753950,
      "step": 3014,
      "time_per_iteration": 3.469416379928589
    },
    {
      "auxiliary_loss_clip": 0.01100237,
      "auxiliary_loss_mlp": 0.01022357,
      "balance_loss_clip": 1.04930758,
      "balance_loss_mlp": 1.01654291,
      "epoch": 0.36253231527685925,
      "flos": 21399270739200.0,
      "grad_norm": 1.7463808573129724,
      "language_loss": 0.86206126,
      "learning_rate": 2.94807048804733e-06,
      "loss": 0.88328719,
      "num_input_tokens_seen": 64773570,
      "step": 3015,
      "time_per_iteration": 2.563486099243164
    },
    {
      "auxiliary_loss_clip": 0.01084666,
      "auxiliary_loss_mlp": 0.0102248,
      "balance_loss_clip": 1.04637837,
      "balance_loss_mlp": 1.01615047,
      "epoch": 0.36265255816749836,
      "flos": 18364497154560.0,
      "grad_norm": 2.07706798358162,
      "language_loss": 0.90279865,
      "learning_rate": 2.9473845270457434e-06,
      "loss": 0.92387009,
      "num_input_tokens_seen": 64790385,
      "step": 3016,
      "time_per_iteration": 2.593344211578369
    },
    {
      "auxiliary_loss_clip": 0.01079307,
      "auxiliary_loss_mlp": 0.01021144,
      "balance_loss_clip": 1.03507638,
      "balance_loss_mlp": 1.01496029,
      "epoch": 0.3627728010581374,
      "flos": 18661969065600.0,
      "grad_norm": 2.0951382289894345,
      "language_loss": 0.70315403,
      "learning_rate": 2.946698422326677e-06,
      "loss": 0.72415853,
      "num_input_tokens_seen": 64807845,
      "step": 3017,
      "time_per_iteration": 2.5784225463867188
    },
    {
      "auxiliary_loss_clip": 0.01053967,
      "auxiliary_loss_mlp": 0.0102098,
      "balance_loss_clip": 1.03373563,
      "balance_loss_mlp": 1.01507652,
      "epoch": 0.36289304394877653,
      "flos": 27526587246720.0,
      "grad_norm": 3.214527453416235,
      "language_loss": 0.80069816,
      "learning_rate": 2.946012173994213e-06,
      "loss": 0.82144761,
      "num_input_tokens_seen": 64827630,
      "step": 3018,
      "time_per_iteration": 2.7063026428222656
    },
    {
      "auxiliary_loss_clip": 0.01101344,
      "auxiliary_loss_mlp": 0.0102018,
      "balance_loss_clip": 1.04769158,
      "balance_loss_mlp": 1.01432657,
      "epoch": 0.36301328683941564,
      "flos": 34536157441920.0,
      "grad_norm": 1.791972225958133,
      "language_loss": 0.67818153,
      "learning_rate": 2.945325782152454e-06,
      "loss": 0.69939673,
      "num_input_tokens_seen": 64850665,
      "step": 3019,
      "time_per_iteration": 2.6838181018829346
    },
    {
      "auxiliary_loss_clip": 0.01094268,
      "auxiliary_loss_mlp": 0.01019969,
      "balance_loss_clip": 1.04596198,
      "balance_loss_mlp": 1.01436305,
      "epoch": 0.3631335297300547,
      "flos": 19027979049600.0,
      "grad_norm": 2.187225820465131,
      "language_loss": 0.78858125,
      "learning_rate": 2.9446392469055257e-06,
      "loss": 0.80972362,
      "num_input_tokens_seen": 64868700,
      "step": 3020,
      "time_per_iteration": 2.5800139904022217
    },
    {
      "auxiliary_loss_clip": 0.01064834,
      "auxiliary_loss_mlp": 0.01021651,
      "balance_loss_clip": 1.03891015,
      "balance_loss_mlp": 1.01568508,
      "epoch": 0.3632537726206938,
      "flos": 19538800467840.0,
      "grad_norm": 2.0963776344692997,
      "language_loss": 0.79922825,
      "learning_rate": 2.9439525683575745e-06,
      "loss": 0.82009304,
      "num_input_tokens_seen": 64887620,
      "step": 3021,
      "time_per_iteration": 2.6408920288085938
    },
    {
      "auxiliary_loss_clip": 0.01117094,
      "auxiliary_loss_mlp": 0.01023084,
      "balance_loss_clip": 1.04695845,
      "balance_loss_mlp": 1.01682281,
      "epoch": 0.3633740155113329,
      "flos": 21070695951360.0,
      "grad_norm": 2.435330843656261,
      "language_loss": 0.7503733,
      "learning_rate": 2.9432657466127694e-06,
      "loss": 0.77177513,
      "num_input_tokens_seen": 64907190,
      "step": 3022,
      "time_per_iteration": 2.5675666332244873
    },
    {
      "auxiliary_loss_clip": 0.01064749,
      "auxiliary_loss_mlp": 0.01020637,
      "balance_loss_clip": 1.04351616,
      "balance_loss_mlp": 1.0143038,
      "epoch": 0.36349425840197197,
      "flos": 20300558261760.0,
      "grad_norm": 1.7632030935544667,
      "language_loss": 0.7674405,
      "learning_rate": 2.9425787817753007e-06,
      "loss": 0.78829432,
      "num_input_tokens_seen": 64925850,
      "step": 3023,
      "time_per_iteration": 2.672837018966675
    },
    {
      "auxiliary_loss_clip": 0.01072628,
      "auxiliary_loss_mlp": 0.01025374,
      "balance_loss_clip": 1.04064977,
      "balance_loss_mlp": 1.0195272,
      "epoch": 0.3636145012926111,
      "flos": 29719386195840.0,
      "grad_norm": 1.8949784879572331,
      "language_loss": 0.71832854,
      "learning_rate": 2.94189167394938e-06,
      "loss": 0.7393086,
      "num_input_tokens_seen": 64948285,
      "step": 3024,
      "time_per_iteration": 2.6690449714660645
    },
    {
      "auxiliary_loss_clip": 0.01118202,
      "auxiliary_loss_mlp": 0.01025371,
      "balance_loss_clip": 1.04870522,
      "balance_loss_mlp": 1.01942873,
      "epoch": 0.3637347441832502,
      "flos": 21433862079360.0,
      "grad_norm": 1.9509728521608443,
      "language_loss": 0.81484985,
      "learning_rate": 2.941204423239241e-06,
      "loss": 0.83628553,
      "num_input_tokens_seen": 64967160,
      "step": 3025,
      "time_per_iteration": 2.52122163772583
    },
    {
      "auxiliary_loss_clip": 0.01102666,
      "auxiliary_loss_mlp": 0.01022128,
      "balance_loss_clip": 1.04632139,
      "balance_loss_mlp": 1.01620936,
      "epoch": 0.36385498707388925,
      "flos": 29536532876160.0,
      "grad_norm": 1.6749795604978501,
      "language_loss": 0.76224935,
      "learning_rate": 2.9405170297491395e-06,
      "loss": 0.78349733,
      "num_input_tokens_seen": 64987155,
      "step": 3026,
      "time_per_iteration": 2.6127641201019287
    },
    {
      "auxiliary_loss_clip": 0.01023664,
      "auxiliary_loss_mlp": 0.00757106,
      "balance_loss_clip": 1.02866888,
      "balance_loss_mlp": 1.00187016,
      "epoch": 0.36397522996452836,
      "flos": 22238742781440.0,
      "grad_norm": 2.0448249412929274,
      "language_loss": 0.80695069,
      "learning_rate": 2.939829493583353e-06,
      "loss": 0.82475841,
      "num_input_tokens_seen": 65003800,
      "step": 3027,
      "time_per_iteration": 2.762376070022583
    },
    {
      "auxiliary_loss_clip": 0.01082238,
      "auxiliary_loss_mlp": 0.01023305,
      "balance_loss_clip": 1.04393137,
      "balance_loss_mlp": 1.01718712,
      "epoch": 0.3640954728551674,
      "flos": 21508618717440.0,
      "grad_norm": 2.580903196642329,
      "language_loss": 0.83210611,
      "learning_rate": 2.939141814846179e-06,
      "loss": 0.85316157,
      "num_input_tokens_seen": 65021215,
      "step": 3028,
      "time_per_iteration": 2.6256520748138428
    },
    {
      "auxiliary_loss_clip": 0.01091599,
      "auxiliary_loss_mlp": 0.01020916,
      "balance_loss_clip": 1.04465461,
      "balance_loss_mlp": 1.01471376,
      "epoch": 0.3642157157458065,
      "flos": 17714817440640.0,
      "grad_norm": 2.3860369805788464,
      "language_loss": 0.82399672,
      "learning_rate": 2.938453993641938e-06,
      "loss": 0.84512186,
      "num_input_tokens_seen": 65039590,
      "step": 3029,
      "time_per_iteration": 2.6021389961242676
    },
    {
      "auxiliary_loss_clip": 0.01093015,
      "auxiliary_loss_mlp": 0.01021247,
      "balance_loss_clip": 1.04910016,
      "balance_loss_mlp": 1.01495242,
      "epoch": 0.36433595863644563,
      "flos": 17641463771520.0,
      "grad_norm": 2.414212192635664,
      "language_loss": 0.70624763,
      "learning_rate": 2.937766030074973e-06,
      "loss": 0.72739023,
      "num_input_tokens_seen": 65056845,
      "step": 3030,
      "time_per_iteration": 2.575146198272705
    },
    {
      "auxiliary_loss_clip": 0.01077531,
      "auxiliary_loss_mlp": 0.01021963,
      "balance_loss_clip": 1.04414165,
      "balance_loss_mlp": 1.01608932,
      "epoch": 0.3644562015270847,
      "flos": 26835680528640.0,
      "grad_norm": 1.788609803187922,
      "language_loss": 0.82917517,
      "learning_rate": 2.937077924249646e-06,
      "loss": 0.85017014,
      "num_input_tokens_seen": 65079435,
      "step": 3031,
      "time_per_iteration": 2.6746342182159424
    },
    {
      "auxiliary_loss_clip": 0.01092094,
      "auxiliary_loss_mlp": 0.01020478,
      "balance_loss_clip": 1.04465115,
      "balance_loss_mlp": 1.0141629,
      "epoch": 0.3645764444177238,
      "flos": 14284447718400.0,
      "grad_norm": 2.2095472734735027,
      "language_loss": 0.75581145,
      "learning_rate": 2.9363896762703443e-06,
      "loss": 0.77693719,
      "num_input_tokens_seen": 65096500,
      "step": 3032,
      "time_per_iteration": 2.588593006134033
    },
    {
      "auxiliary_loss_clip": 0.01117344,
      "auxiliary_loss_mlp": 0.01023916,
      "balance_loss_clip": 1.0479424,
      "balance_loss_mlp": 1.01776767,
      "epoch": 0.3646966873083629,
      "flos": 20669563774080.0,
      "grad_norm": 3.1066099191345367,
      "language_loss": 0.8450892,
      "learning_rate": 2.9357012862414725e-06,
      "loss": 0.86650181,
      "num_input_tokens_seen": 65115860,
      "step": 3033,
      "time_per_iteration": 2.516892194747925
    },
    {
      "auxiliary_loss_clip": 0.01103183,
      "auxiliary_loss_mlp": 0.01021308,
      "balance_loss_clip": 1.04572141,
      "balance_loss_mlp": 1.01543367,
      "epoch": 0.36481693019900197,
      "flos": 27785107238400.0,
      "grad_norm": 1.8468472976779686,
      "language_loss": 0.71387726,
      "learning_rate": 2.9350127542674593e-06,
      "loss": 0.73512214,
      "num_input_tokens_seen": 65138070,
      "step": 3034,
      "time_per_iteration": 2.643925666809082
    },
    {
      "auxiliary_loss_clip": 0.01091842,
      "auxiliary_loss_mlp": 0.01025075,
      "balance_loss_clip": 1.04638374,
      "balance_loss_mlp": 1.01926959,
      "epoch": 0.3649371730896411,
      "flos": 19714259761920.0,
      "grad_norm": 1.853825241820815,
      "language_loss": 0.76707697,
      "learning_rate": 2.934324080452755e-06,
      "loss": 0.78824621,
      "num_input_tokens_seen": 65155860,
      "step": 3035,
      "time_per_iteration": 4.05803656578064
    },
    {
      "auxiliary_loss_clip": 0.01081839,
      "auxiliary_loss_mlp": 0.00756942,
      "balance_loss_clip": 1.0438776,
      "balance_loss_mlp": 1.00182593,
      "epoch": 0.3650574159802802,
      "flos": 24752608738560.0,
      "grad_norm": 1.4641099463989584,
      "language_loss": 0.78136683,
      "learning_rate": 2.9336352649018307e-06,
      "loss": 0.79975456,
      "num_input_tokens_seen": 65175930,
      "step": 3036,
      "time_per_iteration": 2.669726610183716
    },
    {
      "auxiliary_loss_clip": 0.0109401,
      "auxiliary_loss_mlp": 0.01024052,
      "balance_loss_clip": 1.04685998,
      "balance_loss_mlp": 1.01814818,
      "epoch": 0.36517765887091924,
      "flos": 32856227487360.0,
      "grad_norm": 1.6672030301501148,
      "language_loss": 0.70093262,
      "learning_rate": 2.9329463077191783e-06,
      "loss": 0.72211319,
      "num_input_tokens_seen": 65199305,
      "step": 3037,
      "time_per_iteration": 2.6703577041625977
    },
    {
      "auxiliary_loss_clip": 0.01070188,
      "auxiliary_loss_mlp": 0.01019634,
      "balance_loss_clip": 1.04383874,
      "balance_loss_mlp": 1.01354861,
      "epoch": 0.36529790176155835,
      "flos": 20122368865920.0,
      "grad_norm": 2.6399594038737506,
      "language_loss": 0.64309013,
      "learning_rate": 2.9322572090093135e-06,
      "loss": 0.66398841,
      "num_input_tokens_seen": 65218010,
      "step": 3038,
      "time_per_iteration": 3.4297308921813965
    },
    {
      "auxiliary_loss_clip": 0.01069845,
      "auxiliary_loss_mlp": 0.0102256,
      "balance_loss_clip": 1.04255557,
      "balance_loss_mlp": 1.01652849,
      "epoch": 0.36541814465219746,
      "flos": 17641501689600.0,
      "grad_norm": 2.53225216648231,
      "language_loss": 0.76518583,
      "learning_rate": 2.9315679688767713e-06,
      "loss": 0.78610992,
      "num_input_tokens_seen": 65236020,
      "step": 3039,
      "time_per_iteration": 3.4615390300750732
    },
    {
      "auxiliary_loss_clip": 0.01095217,
      "auxiliary_loss_mlp": 0.01021458,
      "balance_loss_clip": 1.04672909,
      "balance_loss_mlp": 1.01583982,
      "epoch": 0.3655383875428365,
      "flos": 22676551793280.0,
      "grad_norm": 1.764489835484273,
      "language_loss": 0.66681552,
      "learning_rate": 2.9308785874261085e-06,
      "loss": 0.6879822,
      "num_input_tokens_seen": 65256210,
      "step": 3040,
      "time_per_iteration": 2.585890531539917
    },
    {
      "auxiliary_loss_clip": 0.01116867,
      "auxiliary_loss_mlp": 0.01024635,
      "balance_loss_clip": 1.04820454,
      "balance_loss_mlp": 1.0185647,
      "epoch": 0.36565863043347563,
      "flos": 21983332072320.0,
      "grad_norm": 1.9466725262893299,
      "language_loss": 0.81663102,
      "learning_rate": 2.9301890647619045e-06,
      "loss": 0.83804607,
      "num_input_tokens_seen": 65275505,
      "step": 3041,
      "time_per_iteration": 2.5645713806152344
    },
    {
      "auxiliary_loss_clip": 0.0108993,
      "auxiliary_loss_mlp": 0.01027624,
      "balance_loss_clip": 1.04451084,
      "balance_loss_mlp": 1.02124321,
      "epoch": 0.36577887332411474,
      "flos": 24829981724160.0,
      "grad_norm": 2.224995511789432,
      "language_loss": 0.79813623,
      "learning_rate": 2.929499400988759e-06,
      "loss": 0.81931174,
      "num_input_tokens_seen": 65296665,
      "step": 3042,
      "time_per_iteration": 2.593045949935913
    },
    {
      "auxiliary_loss_clip": 0.01092296,
      "auxiliary_loss_mlp": 0.01027018,
      "balance_loss_clip": 1.03756547,
      "balance_loss_mlp": 1.02090859,
      "epoch": 0.3658991162147538,
      "flos": 28295701148160.0,
      "grad_norm": 2.349086301441979,
      "language_loss": 0.65354228,
      "learning_rate": 2.9288095962112927e-06,
      "loss": 0.67473543,
      "num_input_tokens_seen": 65317370,
      "step": 3043,
      "time_per_iteration": 2.607194662094116
    },
    {
      "auxiliary_loss_clip": 0.01115604,
      "auxiliary_loss_mlp": 0.0102091,
      "balance_loss_clip": 1.04697835,
      "balance_loss_mlp": 1.01487541,
      "epoch": 0.3660193591053929,
      "flos": 17787488584320.0,
      "grad_norm": 2.659247175160349,
      "language_loss": 0.84952307,
      "learning_rate": 2.9281196505341503e-06,
      "loss": 0.87088823,
      "num_input_tokens_seen": 65334540,
      "step": 3044,
      "time_per_iteration": 2.4723598957061768
    },
    {
      "auxiliary_loss_clip": 0.01048762,
      "auxiliary_loss_mlp": 0.00757031,
      "balance_loss_clip": 1.03435922,
      "balance_loss_mlp": 1.00175869,
      "epoch": 0.36613960199603196,
      "flos": 10344318284160.0,
      "grad_norm": 5.299517336443565,
      "language_loss": 0.78207529,
      "learning_rate": 2.9274295640619946e-06,
      "loss": 0.80013323,
      "num_input_tokens_seen": 65351670,
      "step": 3045,
      "time_per_iteration": 2.6392996311187744
    },
    {
      "auxiliary_loss_clip": 0.01079258,
      "auxiliary_loss_mlp": 0.01021221,
      "balance_loss_clip": 1.04331613,
      "balance_loss_mlp": 1.01571405,
      "epoch": 0.36625984488667107,
      "flos": 19757648096640.0,
      "grad_norm": 1.7489494685542424,
      "language_loss": 0.78737336,
      "learning_rate": 2.9267393368995103e-06,
      "loss": 0.8083781,
      "num_input_tokens_seen": 65370900,
      "step": 3046,
      "time_per_iteration": 2.590344190597534
    },
    {
      "auxiliary_loss_clip": 0.01115419,
      "auxiliary_loss_mlp": 0.01025784,
      "balance_loss_clip": 1.0462594,
      "balance_loss_mlp": 1.0197227,
      "epoch": 0.3663800877773102,
      "flos": 17676093029760.0,
      "grad_norm": 3.2534857138581823,
      "language_loss": 0.74025953,
      "learning_rate": 2.926048969151407e-06,
      "loss": 0.76167154,
      "num_input_tokens_seen": 65388185,
      "step": 3047,
      "time_per_iteration": 2.4887585639953613
    },
    {
      "auxiliary_loss_clip": 0.01055465,
      "auxiliary_loss_mlp": 0.01022493,
      "balance_loss_clip": 1.03934026,
      "balance_loss_mlp": 1.01616037,
      "epoch": 0.36650033066794924,
      "flos": 20305715120640.0,
      "grad_norm": 2.0118208315305863,
      "language_loss": 0.69061565,
      "learning_rate": 2.92535846092241e-06,
      "loss": 0.71139526,
      "num_input_tokens_seen": 65407200,
      "step": 3048,
      "time_per_iteration": 2.613313674926758
    },
    {
      "auxiliary_loss_clip": 0.01089405,
      "auxiliary_loss_mlp": 0.01023384,
      "balance_loss_clip": 1.04296839,
      "balance_loss_mlp": 1.01759934,
      "epoch": 0.36662057355858835,
      "flos": 24718472415360.0,
      "grad_norm": 1.6945556251358083,
      "language_loss": 0.83029604,
      "learning_rate": 2.9246678123172704e-06,
      "loss": 0.85142386,
      "num_input_tokens_seen": 65427290,
      "step": 3049,
      "time_per_iteration": 2.617579698562622
    },
    {
      "auxiliary_loss_clip": 0.01116269,
      "auxiliary_loss_mlp": 0.01027204,
      "balance_loss_clip": 1.04694259,
      "balance_loss_mlp": 1.02102888,
      "epoch": 0.36674081644922746,
      "flos": 12386883513600.0,
      "grad_norm": 6.654677767734938,
      "language_loss": 0.74390554,
      "learning_rate": 2.9239770234407596e-06,
      "loss": 0.76534033,
      "num_input_tokens_seen": 65445595,
      "step": 3050,
      "time_per_iteration": 2.470656394958496
    },
    {
      "auxiliary_loss_clip": 0.01101007,
      "auxiliary_loss_mlp": 0.0102078,
      "balance_loss_clip": 1.04373968,
      "balance_loss_mlp": 1.01466119,
      "epoch": 0.3668610593398665,
      "flos": 21108055311360.0,
      "grad_norm": 1.8828241673024557,
      "language_loss": 0.6819191,
      "learning_rate": 2.9232860943976686e-06,
      "loss": 0.70313698,
      "num_input_tokens_seen": 65466330,
      "step": 3051,
      "time_per_iteration": 2.5531065464019775
    },
    {
      "auxiliary_loss_clip": 0.01086784,
      "auxiliary_loss_mlp": 0.01021141,
      "balance_loss_clip": 1.04274642,
      "balance_loss_mlp": 1.01521039,
      "epoch": 0.3669813022305056,
      "flos": 26760355119360.0,
      "grad_norm": 1.6960399365548362,
      "language_loss": 0.84321964,
      "learning_rate": 2.9225950252928115e-06,
      "loss": 0.86429894,
      "num_input_tokens_seen": 65487180,
      "step": 3052,
      "time_per_iteration": 2.608410120010376
    },
    {
      "auxiliary_loss_clip": 0.01090238,
      "auxiliary_loss_mlp": 0.01024507,
      "balance_loss_clip": 1.03616071,
      "balance_loss_mlp": 1.01793301,
      "epoch": 0.36710154512114473,
      "flos": 19101560227200.0,
      "grad_norm": 3.0858729081272904,
      "language_loss": 0.820135,
      "learning_rate": 2.9219038162310217e-06,
      "loss": 0.84128249,
      "num_input_tokens_seen": 65505380,
      "step": 3053,
      "time_per_iteration": 2.5203492641448975
    },
    {
      "auxiliary_loss_clip": 0.01033732,
      "auxiliary_loss_mlp": 0.00756923,
      "balance_loss_clip": 1.03944409,
      "balance_loss_mlp": 1.00167322,
      "epoch": 0.3672217880117838,
      "flos": 20814033945600.0,
      "grad_norm": 1.8736026691234366,
      "language_loss": 0.82627547,
      "learning_rate": 2.921212467317157e-06,
      "loss": 0.84418201,
      "num_input_tokens_seen": 65524825,
      "step": 3054,
      "time_per_iteration": 2.756852149963379
    },
    {
      "auxiliary_loss_clip": 0.01092714,
      "auxiliary_loss_mlp": 0.01023325,
      "balance_loss_clip": 1.04297149,
      "balance_loss_mlp": 1.01662207,
      "epoch": 0.3673420309024229,
      "flos": 13592138031360.0,
      "grad_norm": 4.533909124638104,
      "language_loss": 0.79951149,
      "learning_rate": 2.920520978656093e-06,
      "loss": 0.82067192,
      "num_input_tokens_seen": 65541790,
      "step": 3055,
      "time_per_iteration": 2.7644569873809814
    },
    {
      "auxiliary_loss_clip": 0.01112551,
      "auxiliary_loss_mlp": 0.00756838,
      "balance_loss_clip": 1.04451168,
      "balance_loss_mlp": 1.00150931,
      "epoch": 0.367462273793062,
      "flos": 28989451722240.0,
      "grad_norm": 2.319733805534079,
      "language_loss": 0.76736701,
      "learning_rate": 2.919829350352729e-06,
      "loss": 0.78606087,
      "num_input_tokens_seen": 65563395,
      "step": 3056,
      "time_per_iteration": 2.6006195545196533
    },
    {
      "auxiliary_loss_clip": 0.01092943,
      "auxiliary_loss_mlp": 0.01005267,
      "balance_loss_clip": 1.05236721,
      "balance_loss_mlp": 1.00281131,
      "epoch": 0.36758251668370107,
      "flos": 62648512335360.0,
      "grad_norm": 0.7597457340250361,
      "language_loss": 0.60005164,
      "learning_rate": 2.919137582511983e-06,
      "loss": 0.62103379,
      "num_input_tokens_seen": 65619835,
      "step": 3057,
      "time_per_iteration": 3.056326389312744
    },
    {
      "auxiliary_loss_clip": 0.01074397,
      "auxiliary_loss_mlp": 0.01023025,
      "balance_loss_clip": 1.0448873,
      "balance_loss_mlp": 1.01708579,
      "epoch": 0.3677027595743402,
      "flos": 12715534137600.0,
      "grad_norm": 2.241587925566251,
      "language_loss": 0.64349353,
      "learning_rate": 2.918445675238797e-06,
      "loss": 0.66446769,
      "num_input_tokens_seen": 65636760,
      "step": 3058,
      "time_per_iteration": 2.596959114074707
    },
    {
      "auxiliary_loss_clip": 0.01113136,
      "auxiliary_loss_mlp": 0.01021169,
      "balance_loss_clip": 1.04399419,
      "balance_loss_mlp": 1.01514876,
      "epoch": 0.36782300246497923,
      "flos": 25048943107200.0,
      "grad_norm": 1.8190774360944544,
      "language_loss": 0.69811857,
      "learning_rate": 2.917753628638132e-06,
      "loss": 0.71946156,
      "num_input_tokens_seen": 65657065,
      "step": 3059,
      "time_per_iteration": 2.531761407852173
    },
    {
      "auxiliary_loss_clip": 0.01084945,
      "auxiliary_loss_mlp": 0.01021256,
      "balance_loss_clip": 1.04118431,
      "balance_loss_mlp": 1.01495552,
      "epoch": 0.36794324535561834,
      "flos": 17421364846080.0,
      "grad_norm": 2.227877176091722,
      "language_loss": 0.70921421,
      "learning_rate": 2.9170614428149716e-06,
      "loss": 0.73027623,
      "num_input_tokens_seen": 65675400,
      "step": 3060,
      "time_per_iteration": 2.5562679767608643
    },
    {
      "auxiliary_loss_clip": 0.01077214,
      "auxiliary_loss_mlp": 0.01026993,
      "balance_loss_clip": 1.04406583,
      "balance_loss_mlp": 1.02049947,
      "epoch": 0.36806348824625745,
      "flos": 24090946911360.0,
      "grad_norm": 2.6030902972259113,
      "language_loss": 0.86869502,
      "learning_rate": 2.9163691178743195e-06,
      "loss": 0.88973713,
      "num_input_tokens_seen": 65694050,
      "step": 3061,
      "time_per_iteration": 4.5038652420043945
    },
    {
      "auxiliary_loss_clip": 0.01095601,
      "auxiliary_loss_mlp": 0.01023638,
      "balance_loss_clip": 1.0408175,
      "balance_loss_mlp": 1.01774013,
      "epoch": 0.3681837311368965,
      "flos": 20523956060160.0,
      "grad_norm": 1.9137506012028977,
      "language_loss": 0.77084666,
      "learning_rate": 2.9156766539212006e-06,
      "loss": 0.79203904,
      "num_input_tokens_seen": 65711695,
      "step": 3062,
      "time_per_iteration": 2.548792839050293
    },
    {
      "auxiliary_loss_clip": 0.01100714,
      "auxiliary_loss_mlp": 0.01031711,
      "balance_loss_clip": 1.04148054,
      "balance_loss_mlp": 1.02559519,
      "epoch": 0.3683039740275356,
      "flos": 21468567173760.0,
      "grad_norm": 1.9263408127335322,
      "language_loss": 0.71886539,
      "learning_rate": 2.9149840510606614e-06,
      "loss": 0.74018967,
      "num_input_tokens_seen": 65730350,
      "step": 3063,
      "time_per_iteration": 2.5678019523620605
    },
    {
      "auxiliary_loss_clip": 0.01079093,
      "auxiliary_loss_mlp": 0.00752969,
      "balance_loss_clip": 1.04936337,
      "balance_loss_mlp": 1.0005455,
      "epoch": 0.36842421691817473,
      "flos": 70386955297920.0,
      "grad_norm": 1.0240348114439923,
      "language_loss": 0.64171451,
      "learning_rate": 2.914291309397769e-06,
      "loss": 0.66003513,
      "num_input_tokens_seen": 65787820,
      "step": 3064,
      "time_per_iteration": 3.985943078994751
    },
    {
      "auxiliary_loss_clip": 0.01041661,
      "auxiliary_loss_mlp": 0.01020119,
      "balance_loss_clip": 1.0307157,
      "balance_loss_mlp": 1.01375651,
      "epoch": 0.3685444598088138,
      "flos": 23333625532800.0,
      "grad_norm": 2.5504081029261827,
      "language_loss": 0.7839874,
      "learning_rate": 2.9135984290376117e-06,
      "loss": 0.80460525,
      "num_input_tokens_seen": 65806685,
      "step": 3065,
      "time_per_iteration": 3.462355136871338
    },
    {
      "auxiliary_loss_clip": 0.01050464,
      "auxiliary_loss_mlp": 0.01025556,
      "balance_loss_clip": 1.03824902,
      "balance_loss_mlp": 1.01955426,
      "epoch": 0.3686647026994529,
      "flos": 23072185848960.0,
      "grad_norm": 1.8212005707098398,
      "language_loss": 0.82807314,
      "learning_rate": 2.9129054100853e-06,
      "loss": 0.84883338,
      "num_input_tokens_seen": 65825525,
      "step": 3066,
      "time_per_iteration": 2.71553373336792
    },
    {
      "auxiliary_loss_clip": 0.01086633,
      "auxiliary_loss_mlp": 0.0102117,
      "balance_loss_clip": 1.04158592,
      "balance_loss_mlp": 1.01502144,
      "epoch": 0.368784945590092,
      "flos": 25122296776320.0,
      "grad_norm": 1.83259189485364,
      "language_loss": 0.76508069,
      "learning_rate": 2.912212252645963e-06,
      "loss": 0.78615874,
      "num_input_tokens_seen": 65848110,
      "step": 3067,
      "time_per_iteration": 2.6108927726745605
    },
    {
      "auxiliary_loss_clip": 0.01100873,
      "auxiliary_loss_mlp": 0.01020828,
      "balance_loss_clip": 1.04202509,
      "balance_loss_mlp": 1.01467657,
      "epoch": 0.36890518848073106,
      "flos": 18444258979200.0,
      "grad_norm": 2.4700275942673198,
      "language_loss": 0.76268005,
      "learning_rate": 2.9115189568247523e-06,
      "loss": 0.78389704,
      "num_input_tokens_seen": 65865670,
      "step": 3068,
      "time_per_iteration": 2.583134651184082
    },
    {
      "auxiliary_loss_clip": 0.01034052,
      "auxiliary_loss_mlp": 0.01022644,
      "balance_loss_clip": 1.02812195,
      "balance_loss_mlp": 1.01659656,
      "epoch": 0.36902543137137017,
      "flos": 16364296471680.0,
      "grad_norm": 2.1543133209688476,
      "language_loss": 0.92188537,
      "learning_rate": 2.910825522726841e-06,
      "loss": 0.94245243,
      "num_input_tokens_seen": 65883195,
      "step": 3069,
      "time_per_iteration": 2.5939793586730957
    },
    {
      "auxiliary_loss_clip": 0.01061733,
      "auxiliary_loss_mlp": 0.01021936,
      "balance_loss_clip": 1.03968692,
      "balance_loss_mlp": 1.01601386,
      "epoch": 0.3691456742620093,
      "flos": 12277194272640.0,
      "grad_norm": 2.276985420578709,
      "language_loss": 0.77718437,
      "learning_rate": 2.9101319504574215e-06,
      "loss": 0.79802108,
      "num_input_tokens_seen": 65899635,
      "step": 3070,
      "time_per_iteration": 2.63653302192688
    },
    {
      "auxiliary_loss_clip": 0.01102153,
      "auxiliary_loss_mlp": 0.01022104,
      "balance_loss_clip": 1.04227352,
      "balance_loss_mlp": 1.01609874,
      "epoch": 0.36926591715264834,
      "flos": 17788398618240.0,
      "grad_norm": 1.8112986703559024,
      "language_loss": 0.76588625,
      "learning_rate": 2.909438240121709e-06,
      "loss": 0.78712881,
      "num_input_tokens_seen": 65919910,
      "step": 3071,
      "time_per_iteration": 2.5679163932800293
    },
    {
      "auxiliary_loss_clip": 0.01075155,
      "auxiliary_loss_mlp": 0.01017852,
      "balance_loss_clip": 1.03661788,
      "balance_loss_mlp": 1.01183164,
      "epoch": 0.36938616004328745,
      "flos": 28950765229440.0,
      "grad_norm": 1.9198273860857051,
      "language_loss": 0.70427877,
      "learning_rate": 2.908744391824939e-06,
      "loss": 0.72520888,
      "num_input_tokens_seen": 65940930,
      "step": 3072,
      "time_per_iteration": 2.673663377761841
    },
    {
      "auxiliary_loss_clip": 0.01049149,
      "auxiliary_loss_mlp": 0.01020591,
      "balance_loss_clip": 1.03941917,
      "balance_loss_mlp": 1.01434124,
      "epoch": 0.36950640293392656,
      "flos": 29207958088320.0,
      "grad_norm": 1.8595338922265245,
      "language_loss": 0.79404175,
      "learning_rate": 2.908050405672367e-06,
      "loss": 0.81473911,
      "num_input_tokens_seen": 65960475,
      "step": 3073,
      "time_per_iteration": 2.7259929180145264
    },
    {
      "auxiliary_loss_clip": 0.01089583,
      "auxiliary_loss_mlp": 0.01022324,
      "balance_loss_clip": 1.03995955,
      "balance_loss_mlp": 1.01645327,
      "epoch": 0.3696266458245656,
      "flos": 24830133396480.0,
      "grad_norm": 3.0129924857616825,
      "language_loss": 0.79198849,
      "learning_rate": 2.9073562817692703e-06,
      "loss": 0.81310761,
      "num_input_tokens_seen": 65979160,
      "step": 3074,
      "time_per_iteration": 2.653563976287842
    },
    {
      "auxiliary_loss_clip": 0.01048141,
      "auxiliary_loss_mlp": 0.01005803,
      "balance_loss_clip": 1.04662776,
      "balance_loss_mlp": 1.00321662,
      "epoch": 0.3697468887152047,
      "flos": 59893417031040.0,
      "grad_norm": 0.7471497474493061,
      "language_loss": 0.56578422,
      "learning_rate": 2.9066620202209468e-06,
      "loss": 0.58632374,
      "num_input_tokens_seen": 66041650,
      "step": 3075,
      "time_per_iteration": 3.2012364864349365
    },
    {
      "auxiliary_loss_clip": 0.01077386,
      "auxiliary_loss_mlp": 0.01023284,
      "balance_loss_clip": 1.04210377,
      "balance_loss_mlp": 1.01728177,
      "epoch": 0.3698671316058438,
      "flos": 26139806542080.0,
      "grad_norm": 2.421767851027637,
      "language_loss": 0.7788111,
      "learning_rate": 2.905967621132716e-06,
      "loss": 0.7998178,
      "num_input_tokens_seen": 66059260,
      "step": 3076,
      "time_per_iteration": 2.6878750324249268
    },
    {
      "auxiliary_loss_clip": 0.01087731,
      "auxiliary_loss_mlp": 0.01022544,
      "balance_loss_clip": 1.04082489,
      "balance_loss_mlp": 1.01633024,
      "epoch": 0.3699873744964829,
      "flos": 24609731126400.0,
      "grad_norm": 2.2930504891491656,
      "language_loss": 0.75330573,
      "learning_rate": 2.9052730846099172e-06,
      "loss": 0.77440846,
      "num_input_tokens_seen": 66080605,
      "step": 3077,
      "time_per_iteration": 2.6338064670562744
    },
    {
      "auxiliary_loss_clip": 0.01065804,
      "auxiliary_loss_mlp": 0.01002912,
      "balance_loss_clip": 1.04480672,
      "balance_loss_mlp": 1.00031304,
      "epoch": 0.370107617387122,
      "flos": 64891752382080.0,
      "grad_norm": 0.8665071867498799,
      "language_loss": 0.60890996,
      "learning_rate": 2.9045784107579123e-06,
      "loss": 0.62959713,
      "num_input_tokens_seen": 66140710,
      "step": 3078,
      "time_per_iteration": 3.215273380279541
    },
    {
      "auxiliary_loss_clip": 0.01110826,
      "auxiliary_loss_mlp": 0.01023431,
      "balance_loss_clip": 1.04206014,
      "balance_loss_mlp": 1.01741409,
      "epoch": 0.37022786027776106,
      "flos": 15963543475200.0,
      "grad_norm": 1.902694552647658,
      "language_loss": 0.66992354,
      "learning_rate": 2.9038835996820807e-06,
      "loss": 0.69126612,
      "num_input_tokens_seen": 66158320,
      "step": 3079,
      "time_per_iteration": 2.540512800216675
    },
    {
      "auxiliary_loss_clip": 0.01080023,
      "auxiliary_loss_mlp": 0.01025127,
      "balance_loss_clip": 1.04077983,
      "balance_loss_mlp": 1.01918149,
      "epoch": 0.37034810316840017,
      "flos": 18548639688960.0,
      "grad_norm": 1.8974546175890596,
      "language_loss": 0.79752398,
      "learning_rate": 2.903188651487826e-06,
      "loss": 0.8185755,
      "num_input_tokens_seen": 66176875,
      "step": 3080,
      "time_per_iteration": 2.5904765129089355
    },
    {
      "auxiliary_loss_clip": 0.01100294,
      "auxiliary_loss_mlp": 0.01020919,
      "balance_loss_clip": 1.04414225,
      "balance_loss_mlp": 1.01500964,
      "epoch": 0.3704683460590393,
      "flos": 17823862074240.0,
      "grad_norm": 2.141127342280036,
      "language_loss": 0.86763811,
      "learning_rate": 2.902493566280571e-06,
      "loss": 0.88885033,
      "num_input_tokens_seen": 66194980,
      "step": 3081,
      "time_per_iteration": 2.561828374862671
    },
    {
      "auxiliary_loss_clip": 0.0107398,
      "auxiliary_loss_mlp": 0.01020997,
      "balance_loss_clip": 1.03491759,
      "balance_loss_mlp": 1.01442003,
      "epoch": 0.37058858894967833,
      "flos": 14135654885760.0,
      "grad_norm": 1.8542118338831337,
      "language_loss": 0.81483352,
      "learning_rate": 2.9017983441657595e-06,
      "loss": 0.83578324,
      "num_input_tokens_seen": 66212310,
      "step": 3082,
      "time_per_iteration": 2.564077854156494
    },
    {
      "auxiliary_loss_clip": 0.0106411,
      "auxiliary_loss_mlp": 0.01020376,
      "balance_loss_clip": 1.03818858,
      "balance_loss_mlp": 1.014359,
      "epoch": 0.37070883184031744,
      "flos": 13956214193280.0,
      "grad_norm": 2.3481724101287575,
      "language_loss": 0.75780684,
      "learning_rate": 2.9011029852488564e-06,
      "loss": 0.77865171,
      "num_input_tokens_seen": 66229545,
      "step": 3083,
      "time_per_iteration": 2.641817569732666
    },
    {
      "auxiliary_loss_clip": 0.0108764,
      "auxiliary_loss_mlp": 0.0100368,
      "balance_loss_clip": 1.04633951,
      "balance_loss_mlp": 1.00109315,
      "epoch": 0.37082907473095655,
      "flos": 52320081726720.0,
      "grad_norm": 0.9801510107946767,
      "language_loss": 0.62426114,
      "learning_rate": 2.9004074896353465e-06,
      "loss": 0.64517432,
      "num_input_tokens_seen": 66283545,
      "step": 3084,
      "time_per_iteration": 3.0263161659240723
    },
    {
      "auxiliary_loss_clip": 0.01113977,
      "auxiliary_loss_mlp": 0.01020771,
      "balance_loss_clip": 1.04623806,
      "balance_loss_mlp": 1.01511395,
      "epoch": 0.3709493176215956,
      "flos": 15999954883200.0,
      "grad_norm": 2.1522331113695823,
      "language_loss": 0.8191275,
      "learning_rate": 2.8997118574307362e-06,
      "loss": 0.84047496,
      "num_input_tokens_seen": 66300500,
      "step": 3085,
      "time_per_iteration": 2.4954755306243896
    },
    {
      "auxiliary_loss_clip": 0.01073252,
      "auxiliary_loss_mlp": 0.01021929,
      "balance_loss_clip": 1.040627,
      "balance_loss_mlp": 1.01630855,
      "epoch": 0.3710695605122347,
      "flos": 20961954662400.0,
      "grad_norm": 2.0523680903911674,
      "language_loss": 0.74289834,
      "learning_rate": 2.899016088740553e-06,
      "loss": 0.76385021,
      "num_input_tokens_seen": 66318610,
      "step": 3086,
      "time_per_iteration": 2.6820406913757324
    },
    {
      "auxiliary_loss_clip": 0.01047565,
      "auxiliary_loss_mlp": 0.01020177,
      "balance_loss_clip": 1.02908492,
      "balance_loss_mlp": 1.01436293,
      "epoch": 0.37118980340287383,
      "flos": 14357308452480.0,
      "grad_norm": 2.011490972657942,
      "language_loss": 0.79629409,
      "learning_rate": 2.898320183670344e-06,
      "loss": 0.81697154,
      "num_input_tokens_seen": 66336025,
      "step": 3087,
      "time_per_iteration": 4.148252725601196
    },
    {
      "auxiliary_loss_clip": 0.01044747,
      "auxiliary_loss_mlp": 0.01019212,
      "balance_loss_clip": 1.03090882,
      "balance_loss_mlp": 1.01362705,
      "epoch": 0.3713100462935129,
      "flos": 25887770542080.0,
      "grad_norm": 1.860867971263228,
      "language_loss": 0.89257008,
      "learning_rate": 2.8976241423256767e-06,
      "loss": 0.91320968,
      "num_input_tokens_seen": 66356120,
      "step": 3088,
      "time_per_iteration": 2.7537426948547363
    },
    {
      "auxiliary_loss_clip": 0.01089965,
      "auxiliary_loss_mlp": 0.01024799,
      "balance_loss_clip": 1.04248691,
      "balance_loss_mlp": 1.01933026,
      "epoch": 0.371430289184152,
      "flos": 30521574714240.0,
      "grad_norm": 2.3097789062093224,
      "language_loss": 0.68375671,
      "learning_rate": 2.896927964812142e-06,
      "loss": 0.70490432,
      "num_input_tokens_seen": 66376685,
      "step": 3089,
      "time_per_iteration": 3.392045497894287
    },
    {
      "auxiliary_loss_clip": 0.0107966,
      "auxiliary_loss_mlp": 0.01020794,
      "balance_loss_clip": 1.04184771,
      "balance_loss_mlp": 1.01466978,
      "epoch": 0.37155053207479105,
      "flos": 15744051239040.0,
      "grad_norm": 2.323959821722578,
      "language_loss": 0.75316268,
      "learning_rate": 2.8962316512353465e-06,
      "loss": 0.77416718,
      "num_input_tokens_seen": 66394230,
      "step": 3090,
      "time_per_iteration": 3.3164145946502686
    },
    {
      "auxiliary_loss_clip": 0.0104814,
      "auxiliary_loss_mlp": 0.0102156,
      "balance_loss_clip": 1.03680944,
      "balance_loss_mlp": 1.01547754,
      "epoch": 0.37167077496543016,
      "flos": 23406296676480.0,
      "grad_norm": 1.9440444986362477,
      "language_loss": 0.7525351,
      "learning_rate": 2.8955352017009233e-06,
      "loss": 0.7732321,
      "num_input_tokens_seen": 66413475,
      "step": 3091,
      "time_per_iteration": 2.6979258060455322
    },
    {
      "auxiliary_loss_clip": 0.01081729,
      "auxiliary_loss_mlp": 0.01021026,
      "balance_loss_clip": 1.03977442,
      "balance_loss_mlp": 1.01490736,
      "epoch": 0.3717910178560693,
      "flos": 22090708310400.0,
      "grad_norm": 2.0388783735741174,
      "language_loss": 0.77337915,
      "learning_rate": 2.8948386163145212e-06,
      "loss": 0.79440671,
      "num_input_tokens_seen": 66432685,
      "step": 3092,
      "time_per_iteration": 2.586273193359375
    },
    {
      "auxiliary_loss_clip": 0.01099467,
      "auxiliary_loss_mlp": 0.01020694,
      "balance_loss_clip": 1.04338503,
      "balance_loss_mlp": 1.0151453,
      "epoch": 0.3719112607467083,
      "flos": 26942222568960.0,
      "grad_norm": 3.4823592116348117,
      "language_loss": 0.79510808,
      "learning_rate": 2.8941418951818135e-06,
      "loss": 0.81630969,
      "num_input_tokens_seen": 66452245,
      "step": 3093,
      "time_per_iteration": 2.6012606620788574
    },
    {
      "auxiliary_loss_clip": 0.01072793,
      "auxiliary_loss_mlp": 0.01021545,
      "balance_loss_clip": 1.03906751,
      "balance_loss_mlp": 1.0159328,
      "epoch": 0.37203150363734744,
      "flos": 12168111720960.0,
      "grad_norm": 2.1383518888289057,
      "language_loss": 0.70794129,
      "learning_rate": 2.8934450384084903e-06,
      "loss": 0.7288847,
      "num_input_tokens_seen": 66469760,
      "step": 3094,
      "time_per_iteration": 2.5716843605041504
    },
    {
      "auxiliary_loss_clip": 0.01078425,
      "auxiliary_loss_mlp": 0.01020128,
      "balance_loss_clip": 1.03377283,
      "balance_loss_mlp": 1.01407862,
      "epoch": 0.37215174652798655,
      "flos": 23699938861440.0,
      "grad_norm": 1.971473556420988,
      "language_loss": 0.69719863,
      "learning_rate": 2.8927480461002653e-06,
      "loss": 0.71818411,
      "num_input_tokens_seen": 66489730,
      "step": 3095,
      "time_per_iteration": 2.6205732822418213
    },
    {
      "auxiliary_loss_clip": 0.01090583,
      "auxiliary_loss_mlp": 0.01026304,
      "balance_loss_clip": 1.04132569,
      "balance_loss_mlp": 1.02004886,
      "epoch": 0.3722719894186256,
      "flos": 17889290864640.0,
      "grad_norm": 2.971427641789527,
      "language_loss": 0.86826563,
      "learning_rate": 2.892050918362872e-06,
      "loss": 0.88943446,
      "num_input_tokens_seen": 66504785,
      "step": 3096,
      "time_per_iteration": 2.5360493659973145
    },
    {
      "auxiliary_loss_clip": 0.01024715,
      "auxiliary_loss_mlp": 0.01004753,
      "balance_loss_clip": 1.04685712,
      "balance_loss_mlp": 1.00216663,
      "epoch": 0.3723922323092647,
      "flos": 62425000782720.0,
      "grad_norm": 0.8375590209801347,
      "language_loss": 0.55758023,
      "learning_rate": 2.8913536553020626e-06,
      "loss": 0.5778749,
      "num_input_tokens_seen": 66558840,
      "step": 3097,
      "time_per_iteration": 3.414687156677246
    },
    {
      "auxiliary_loss_clip": 0.01063856,
      "auxiliary_loss_mlp": 0.01017781,
      "balance_loss_clip": 1.039675,
      "balance_loss_mlp": 1.0126338,
      "epoch": 0.3725124751999038,
      "flos": 23041993006080.0,
      "grad_norm": 2.2952697934572357,
      "language_loss": 0.84876227,
      "learning_rate": 2.8906562570236137e-06,
      "loss": 0.86957866,
      "num_input_tokens_seen": 66576750,
      "step": 3098,
      "time_per_iteration": 3.10640549659729
    },
    {
      "auxiliary_loss_clip": 0.01048717,
      "auxiliary_loss_mlp": 0.01022059,
      "balance_loss_clip": 1.03666234,
      "balance_loss_mlp": 1.01646233,
      "epoch": 0.3726327180905429,
      "flos": 20922509808000.0,
      "grad_norm": 1.5690195466575525,
      "language_loss": 0.76474702,
      "learning_rate": 2.889958723633318e-06,
      "loss": 0.78545481,
      "num_input_tokens_seen": 66595690,
      "step": 3099,
      "time_per_iteration": 2.655184745788574
    },
    {
      "auxiliary_loss_clip": 0.01063262,
      "auxiliary_loss_mlp": 0.01020987,
      "balance_loss_clip": 1.03291988,
      "balance_loss_mlp": 1.01532805,
      "epoch": 0.372752960981182,
      "flos": 30594814629120.0,
      "grad_norm": 1.5771103586495905,
      "language_loss": 0.74050915,
      "learning_rate": 2.889261055236992e-06,
      "loss": 0.76135159,
      "num_input_tokens_seen": 66617905,
      "step": 3100,
      "time_per_iteration": 2.678864002227783
    },
    {
      "auxiliary_loss_clip": 0.01079603,
      "auxiliary_loss_mlp": 0.01018582,
      "balance_loss_clip": 1.03894305,
      "balance_loss_mlp": 1.01296401,
      "epoch": 0.3728732038718211,
      "flos": 25118959985280.0,
      "grad_norm": 2.000965180338402,
      "language_loss": 0.8300755,
      "learning_rate": 2.8885632519404704e-06,
      "loss": 0.85105729,
      "num_input_tokens_seen": 66638175,
      "step": 3101,
      "time_per_iteration": 2.5976479053497314
    },
    {
      "auxiliary_loss_clip": 0.01076419,
      "auxiliary_loss_mlp": 0.01019519,
      "balance_loss_clip": 1.03471303,
      "balance_loss_mlp": 1.01371074,
      "epoch": 0.37299344676246016,
      "flos": 25304429652480.0,
      "grad_norm": 2.27858507727296,
      "language_loss": 0.76142466,
      "learning_rate": 2.8878653138496107e-06,
      "loss": 0.7823841,
      "num_input_tokens_seen": 66658670,
      "step": 3102,
      "time_per_iteration": 2.6150755882263184
    },
    {
      "auxiliary_loss_clip": 0.01052815,
      "auxiliary_loss_mlp": 0.01022556,
      "balance_loss_clip": 1.03859973,
      "balance_loss_mlp": 1.01628828,
      "epoch": 0.37311368965309927,
      "flos": 23844826131840.0,
      "grad_norm": 6.613651960973104,
      "language_loss": 0.76750118,
      "learning_rate": 2.8871672410702878e-06,
      "loss": 0.78825492,
      "num_input_tokens_seen": 66676030,
      "step": 3103,
      "time_per_iteration": 2.671170234680176
    },
    {
      "auxiliary_loss_clip": 0.01078453,
      "auxiliary_loss_mlp": 0.01022986,
      "balance_loss_clip": 1.04159188,
      "balance_loss_mlp": 1.01648057,
      "epoch": 0.3732339325437384,
      "flos": 25814303118720.0,
      "grad_norm": 2.058240168879052,
      "language_loss": 0.82131851,
      "learning_rate": 2.8864690337084008e-06,
      "loss": 0.84233284,
      "num_input_tokens_seen": 66695305,
      "step": 3104,
      "time_per_iteration": 2.6456353664398193
    },
    {
      "auxiliary_loss_clip": 0.01101176,
      "auxiliary_loss_mlp": 0.01023431,
      "balance_loss_clip": 1.04185808,
      "balance_loss_mlp": 1.01722264,
      "epoch": 0.37335417543437743,
      "flos": 26210543863680.0,
      "grad_norm": 2.1009004423058983,
      "language_loss": 0.78171396,
      "learning_rate": 2.885770691869866e-06,
      "loss": 0.80296004,
      "num_input_tokens_seen": 66716185,
      "step": 3105,
      "time_per_iteration": 2.5807762145996094
    },
    {
      "auxiliary_loss_clip": 0.01097317,
      "auxiliary_loss_mlp": 0.01024467,
      "balance_loss_clip": 1.04292178,
      "balance_loss_mlp": 1.01893878,
      "epoch": 0.37347441832501654,
      "flos": 24026124810240.0,
      "grad_norm": 2.0491283236002142,
      "language_loss": 0.74765116,
      "learning_rate": 2.8850722156606207e-06,
      "loss": 0.76886898,
      "num_input_tokens_seen": 66734575,
      "step": 3106,
      "time_per_iteration": 2.5837316513061523
    },
    {
      "auxiliary_loss_clip": 0.01100583,
      "auxiliary_loss_mlp": 0.0102459,
      "balance_loss_clip": 1.04319119,
      "balance_loss_mlp": 1.01900804,
      "epoch": 0.3735946612156556,
      "flos": 19716724437120.0,
      "grad_norm": 1.6834824859620698,
      "language_loss": 0.67267501,
      "learning_rate": 2.8843736051866252e-06,
      "loss": 0.69392675,
      "num_input_tokens_seen": 66753500,
      "step": 3107,
      "time_per_iteration": 2.5263421535491943
    },
    {
      "auxiliary_loss_clip": 0.01063241,
      "auxiliary_loss_mlp": 0.00756883,
      "balance_loss_clip": 1.04087639,
      "balance_loss_mlp": 1.00171471,
      "epoch": 0.3737149041062947,
      "flos": 23041841333760.0,
      "grad_norm": 1.5183193443320686,
      "language_loss": 0.69419324,
      "learning_rate": 2.8836748605538557e-06,
      "loss": 0.71239448,
      "num_input_tokens_seen": 66775140,
      "step": 3108,
      "time_per_iteration": 2.6997554302215576
    },
    {
      "auxiliary_loss_clip": 0.01089327,
      "auxiliary_loss_mlp": 0.01018301,
      "balance_loss_clip": 1.04199839,
      "balance_loss_mlp": 1.01235878,
      "epoch": 0.3738351469969338,
      "flos": 34680968876160.0,
      "grad_norm": 2.3014439719797073,
      "language_loss": 0.6337105,
      "learning_rate": 2.882975981868313e-06,
      "loss": 0.65478671,
      "num_input_tokens_seen": 66795525,
      "step": 3109,
      "time_per_iteration": 2.6917524337768555
    },
    {
      "auxiliary_loss_clip": 0.01092239,
      "auxiliary_loss_mlp": 0.01020225,
      "balance_loss_clip": 1.04122496,
      "balance_loss_mlp": 1.01449084,
      "epoch": 0.3739553898875729,
      "flos": 43511336979840.0,
      "grad_norm": 6.178503378980492,
      "language_loss": 0.68908882,
      "learning_rate": 2.882276969236016e-06,
      "loss": 0.71021342,
      "num_input_tokens_seen": 66816885,
      "step": 3110,
      "time_per_iteration": 2.7542009353637695
    },
    {
      "auxiliary_loss_clip": 0.01086739,
      "auxiliary_loss_mlp": 0.01021756,
      "balance_loss_clip": 1.04141521,
      "balance_loss_mlp": 1.0156678,
      "epoch": 0.374075632778212,
      "flos": 12857956732800.0,
      "grad_norm": 2.269581572329408,
      "language_loss": 0.7667309,
      "learning_rate": 2.881577822763005e-06,
      "loss": 0.78781581,
      "num_input_tokens_seen": 66834835,
      "step": 3111,
      "time_per_iteration": 2.5748212337493896
    },
    {
      "auxiliary_loss_clip": 0.01096895,
      "auxiliary_loss_mlp": 0.01017931,
      "balance_loss_clip": 1.04143429,
      "balance_loss_mlp": 1.0122447,
      "epoch": 0.3741958756688511,
      "flos": 26026022148480.0,
      "grad_norm": 1.9097180694066231,
      "language_loss": 0.87649888,
      "learning_rate": 2.880878542555338e-06,
      "loss": 0.89764708,
      "num_input_tokens_seen": 66852600,
      "step": 3112,
      "time_per_iteration": 4.6515052318573
    },
    {
      "auxiliary_loss_clip": 0.01111934,
      "auxiliary_loss_mlp": 0.01021987,
      "balance_loss_clip": 1.04402804,
      "balance_loss_mlp": 1.01576185,
      "epoch": 0.37431611855949015,
      "flos": 21436023409920.0,
      "grad_norm": 2.086406254711432,
      "language_loss": 0.80579877,
      "learning_rate": 2.8801791287190976e-06,
      "loss": 0.82713795,
      "num_input_tokens_seen": 66870595,
      "step": 3113,
      "time_per_iteration": 2.561739921569824
    },
    {
      "auxiliary_loss_clip": 0.01098989,
      "auxiliary_loss_mlp": 0.01021526,
      "balance_loss_clip": 1.04374361,
      "balance_loss_mlp": 1.01546669,
      "epoch": 0.37443636145012926,
      "flos": 24209395228800.0,
      "grad_norm": 2.634777541775288,
      "language_loss": 0.86259902,
      "learning_rate": 2.8794795813603817e-06,
      "loss": 0.88380414,
      "num_input_tokens_seen": 66886060,
      "step": 3114,
      "time_per_iteration": 2.560506582260132
    },
    {
      "auxiliary_loss_clip": 0.01101222,
      "auxiliary_loss_mlp": 0.01022556,
      "balance_loss_clip": 1.04452598,
      "balance_loss_mlp": 1.01646757,
      "epoch": 0.3745566043407684,
      "flos": 15380468012160.0,
      "grad_norm": 1.9021545465498608,
      "language_loss": 0.81580192,
      "learning_rate": 2.878779900585314e-06,
      "loss": 0.83703971,
      "num_input_tokens_seen": 66903900,
      "step": 3115,
      "time_per_iteration": 3.2792673110961914
    },
    {
      "auxiliary_loss_clip": 0.01090128,
      "auxiliary_loss_mlp": 0.01023257,
      "balance_loss_clip": 1.04271626,
      "balance_loss_mlp": 1.01734138,
      "epoch": 0.37467684723140743,
      "flos": 24610527406080.0,
      "grad_norm": 1.7814929693714323,
      "language_loss": 0.75464636,
      "learning_rate": 2.8780800865000336e-06,
      "loss": 0.7757802,
      "num_input_tokens_seen": 66925210,
      "step": 3116,
      "time_per_iteration": 3.4202754497528076
    },
    {
      "auxiliary_loss_clip": 0.01085372,
      "auxiliary_loss_mlp": 0.01003,
      "balance_loss_clip": 1.0562048,
      "balance_loss_mlp": 1.00079489,
      "epoch": 0.37479709012204654,
      "flos": 64384040246400.0,
      "grad_norm": 0.987056796520375,
      "language_loss": 0.59216857,
      "learning_rate": 2.877380139210702e-06,
      "loss": 0.61305237,
      "num_input_tokens_seen": 66983880,
      "step": 3117,
      "time_per_iteration": 3.106292963027954
    },
    {
      "auxiliary_loss_clip": 0.01066962,
      "auxiliary_loss_mlp": 0.01023044,
      "balance_loss_clip": 1.03916538,
      "balance_loss_mlp": 1.01635885,
      "epoch": 0.37491733301268565,
      "flos": 23806139639040.0,
      "grad_norm": 2.238471185028621,
      "language_loss": 0.76444912,
      "learning_rate": 2.876680058823501e-06,
      "loss": 0.78534913,
      "num_input_tokens_seen": 67004280,
      "step": 3118,
      "time_per_iteration": 2.631267786026001
    },
    {
      "auxiliary_loss_clip": 0.01086648,
      "auxiliary_loss_mlp": 0.01022345,
      "balance_loss_clip": 1.04139876,
      "balance_loss_mlp": 1.01602697,
      "epoch": 0.3750375759033247,
      "flos": 32163690291840.0,
      "grad_norm": 2.177170800791431,
      "language_loss": 0.66193789,
      "learning_rate": 2.8759798454446314e-06,
      "loss": 0.68302786,
      "num_input_tokens_seen": 67027445,
      "step": 3119,
      "time_per_iteration": 2.6701056957244873
    },
    {
      "auxiliary_loss_clip": 0.0110175,
      "auxiliary_loss_mlp": 0.01027404,
      "balance_loss_clip": 1.04384112,
      "balance_loss_mlp": 1.02155995,
      "epoch": 0.3751578187939638,
      "flos": 23370036940800.0,
      "grad_norm": 2.067233348995589,
      "language_loss": 0.81592524,
      "learning_rate": 2.8752794991803173e-06,
      "loss": 0.83721673,
      "num_input_tokens_seen": 67045130,
      "step": 3120,
      "time_per_iteration": 2.557826280593872
    },
    {
      "auxiliary_loss_clip": 0.01088814,
      "auxiliary_loss_mlp": 0.01023976,
      "balance_loss_clip": 1.04414129,
      "balance_loss_mlp": 1.01798832,
      "epoch": 0.37527806168460287,
      "flos": 14607183121920.0,
      "grad_norm": 5.7856564248589235,
      "language_loss": 0.75505555,
      "learning_rate": 2.8745790201367976e-06,
      "loss": 0.77618349,
      "num_input_tokens_seen": 67060885,
      "step": 3121,
      "time_per_iteration": 2.562589168548584
    },
    {
      "auxiliary_loss_clip": 0.01113819,
      "auxiliary_loss_mlp": 0.01023548,
      "balance_loss_clip": 1.04504836,
      "balance_loss_mlp": 1.01753736,
      "epoch": 0.375398304575242,
      "flos": 26392942166400.0,
      "grad_norm": 1.9393959033206671,
      "language_loss": 0.84306639,
      "learning_rate": 2.8738784084203373e-06,
      "loss": 0.86444008,
      "num_input_tokens_seen": 67080960,
      "step": 3122,
      "time_per_iteration": 2.5613090991973877
    },
    {
      "auxiliary_loss_clip": 0.01091707,
      "auxiliary_loss_mlp": 0.01021918,
      "balance_loss_clip": 1.04422939,
      "balance_loss_mlp": 1.01630342,
      "epoch": 0.3755185474658811,
      "flos": 22238780699520.0,
      "grad_norm": 2.0140149905881133,
      "language_loss": 0.79226851,
      "learning_rate": 2.873177664137216e-06,
      "loss": 0.8134048,
      "num_input_tokens_seen": 67101890,
      "step": 3123,
      "time_per_iteration": 2.606337785720825
    },
    {
      "auxiliary_loss_clip": 0.01062789,
      "auxiliary_loss_mlp": 0.01017112,
      "balance_loss_clip": 1.03812742,
      "balance_loss_mlp": 1.01112199,
      "epoch": 0.37563879035652015,
      "flos": 30815709834240.0,
      "grad_norm": 2.6071555081095017,
      "language_loss": 0.69184852,
      "learning_rate": 2.8724767873937384e-06,
      "loss": 0.71264756,
      "num_input_tokens_seen": 67126010,
      "step": 3124,
      "time_per_iteration": 2.6768805980682373
    },
    {
      "auxiliary_loss_clip": 0.01084809,
      "auxiliary_loss_mlp": 0.01025092,
      "balance_loss_clip": 1.04239142,
      "balance_loss_mlp": 1.01937938,
      "epoch": 0.37575903324715926,
      "flos": 20775423288960.0,
      "grad_norm": 2.3224966120082593,
      "language_loss": 0.87345934,
      "learning_rate": 2.871775778296225e-06,
      "loss": 0.89455831,
      "num_input_tokens_seen": 67143100,
      "step": 3125,
      "time_per_iteration": 2.5721182823181152
    },
    {
      "auxiliary_loss_clip": 0.01095479,
      "auxiliary_loss_mlp": 0.01024277,
      "balance_loss_clip": 1.04437685,
      "balance_loss_mlp": 1.01749074,
      "epoch": 0.37587927613779837,
      "flos": 18699669688320.0,
      "grad_norm": 2.2246114027690274,
      "language_loss": 0.78749633,
      "learning_rate": 2.8710746369510196e-06,
      "loss": 0.80869389,
      "num_input_tokens_seen": 67161085,
      "step": 3126,
      "time_per_iteration": 2.5246834754943848
    },
    {
      "auxiliary_loss_clip": 0.01092153,
      "auxiliary_loss_mlp": 0.01022569,
      "balance_loss_clip": 1.0443207,
      "balance_loss_mlp": 1.01666784,
      "epoch": 0.3759995190284374,
      "flos": 13626426026880.0,
      "grad_norm": 2.8260114923559714,
      "language_loss": 0.8372789,
      "learning_rate": 2.8703733634644846e-06,
      "loss": 0.85842609,
      "num_input_tokens_seen": 67175840,
      "step": 3127,
      "time_per_iteration": 2.5637547969818115
    },
    {
      "auxiliary_loss_clip": 0.01111788,
      "auxiliary_loss_mlp": 0.01021107,
      "balance_loss_clip": 1.04407048,
      "balance_loss_mlp": 1.0155462,
      "epoch": 0.37611976191907653,
      "flos": 20486900044800.0,
      "grad_norm": 1.8172580967280236,
      "language_loss": 0.79115522,
      "learning_rate": 2.869671957943002e-06,
      "loss": 0.81248415,
      "num_input_tokens_seen": 67194995,
      "step": 3128,
      "time_per_iteration": 2.4899232387542725
    },
    {
      "auxiliary_loss_clip": 0.01067625,
      "auxiliary_loss_mlp": 0.01020236,
      "balance_loss_clip": 1.03340447,
      "balance_loss_mlp": 1.01453495,
      "epoch": 0.37624000480971564,
      "flos": 21143897948160.0,
      "grad_norm": 1.792430013411581,
      "language_loss": 0.74358732,
      "learning_rate": 2.8689704204929747e-06,
      "loss": 0.76446593,
      "num_input_tokens_seen": 67214175,
      "step": 3129,
      "time_per_iteration": 2.5666422843933105
    },
    {
      "auxiliary_loss_clip": 0.01112369,
      "auxiliary_loss_mlp": 0.01021174,
      "balance_loss_clip": 1.04412723,
      "balance_loss_mlp": 1.01543105,
      "epoch": 0.3763602477003547,
      "flos": 22566635043840.0,
      "grad_norm": 1.9782210158912836,
      "language_loss": 0.81134546,
      "learning_rate": 2.8682687512208253e-06,
      "loss": 0.83268094,
      "num_input_tokens_seen": 67233185,
      "step": 3130,
      "time_per_iteration": 2.49960994720459
    },
    {
      "auxiliary_loss_clip": 0.01102154,
      "auxiliary_loss_mlp": 0.01024785,
      "balance_loss_clip": 1.04287589,
      "balance_loss_mlp": 1.01869988,
      "epoch": 0.3764804905909938,
      "flos": 27529317348480.0,
      "grad_norm": 3.1574520967100694,
      "language_loss": 0.80479091,
      "learning_rate": 2.8675669502329972e-06,
      "loss": 0.8260603,
      "num_input_tokens_seen": 67254715,
      "step": 3131,
      "time_per_iteration": 2.615224838256836
    },
    {
      "auxiliary_loss_clip": 0.01100071,
      "auxiliary_loss_mlp": 0.00756875,
      "balance_loss_clip": 1.04364705,
      "balance_loss_mlp": 1.00142384,
      "epoch": 0.3766007334816329,
      "flos": 22530261553920.0,
      "grad_norm": 2.521575661834622,
      "language_loss": 0.85561144,
      "learning_rate": 2.866865017635952e-06,
      "loss": 0.87418091,
      "num_input_tokens_seen": 67272535,
      "step": 3132,
      "time_per_iteration": 2.5333263874053955
    },
    {
      "auxiliary_loss_clip": 0.01066586,
      "auxiliary_loss_mlp": 0.01019862,
      "balance_loss_clip": 1.04125071,
      "balance_loss_mlp": 1.0138272,
      "epoch": 0.376720976372272,
      "flos": 25959493733760.0,
      "grad_norm": 1.8264277609870074,
      "language_loss": 0.7974484,
      "learning_rate": 2.866162953536174e-06,
      "loss": 0.81831288,
      "num_input_tokens_seen": 67293505,
      "step": 3133,
      "time_per_iteration": 2.7027759552001953
    },
    {
      "auxiliary_loss_clip": 0.01092431,
      "auxiliary_loss_mlp": 0.00756895,
      "balance_loss_clip": 1.04526448,
      "balance_loss_mlp": 1.00161469,
      "epoch": 0.3768412192629111,
      "flos": 18043126801920.0,
      "grad_norm": 1.6905276210193856,
      "language_loss": 0.75394654,
      "learning_rate": 2.8654607580401634e-06,
      "loss": 0.77243978,
      "num_input_tokens_seen": 67313240,
      "step": 3134,
      "time_per_iteration": 2.5772931575775146
    },
    {
      "auxiliary_loss_clip": 0.01085542,
      "auxiliary_loss_mlp": 0.01003418,
      "balance_loss_clip": 1.05659664,
      "balance_loss_mlp": 1.00104606,
      "epoch": 0.3769614621535502,
      "flos": 62995856572800.0,
      "grad_norm": 0.8797148928013067,
      "language_loss": 0.65156251,
      "learning_rate": 2.8647584312544446e-06,
      "loss": 0.67245215,
      "num_input_tokens_seen": 67378445,
      "step": 3135,
      "time_per_iteration": 3.1668331623077393
    },
    {
      "auxiliary_loss_clip": 0.01077077,
      "auxiliary_loss_mlp": 0.00756919,
      "balance_loss_clip": 1.04351044,
      "balance_loss_mlp": 1.00144017,
      "epoch": 0.37708170504418925,
      "flos": 23664058306560.0,
      "grad_norm": 1.5211679323947924,
      "language_loss": 0.85555494,
      "learning_rate": 2.864055973285559e-06,
      "loss": 0.87389493,
      "num_input_tokens_seen": 67400445,
      "step": 3136,
      "time_per_iteration": 2.66786789894104
    },
    {
      "auxiliary_loss_clip": 0.01088928,
      "auxiliary_loss_mlp": 0.01023678,
      "balance_loss_clip": 1.04464936,
      "balance_loss_mlp": 1.01757765,
      "epoch": 0.37720194793482836,
      "flos": 24425323165440.0,
      "grad_norm": 1.8192450368251791,
      "language_loss": 0.8654322,
      "learning_rate": 2.8633533842400698e-06,
      "loss": 0.88655829,
      "num_input_tokens_seen": 67420645,
      "step": 3137,
      "time_per_iteration": 2.62273907661438
    },
    {
      "auxiliary_loss_clip": 0.01099179,
      "auxiliary_loss_mlp": 0.00756969,
      "balance_loss_clip": 1.04478109,
      "balance_loss_mlp": 1.00151289,
      "epoch": 0.3773221908254674,
      "flos": 20998631496960.0,
      "grad_norm": 1.9297984807322863,
      "language_loss": 0.77692568,
      "learning_rate": 2.862650664224558e-06,
      "loss": 0.79548711,
      "num_input_tokens_seen": 67439495,
      "step": 3138,
      "time_per_iteration": 4.08282470703125
    },
    {
      "auxiliary_loss_clip": 0.01090786,
      "auxiliary_loss_mlp": 0.0101959,
      "balance_loss_clip": 1.03818393,
      "balance_loss_mlp": 1.01414227,
      "epoch": 0.37744243371610653,
      "flos": 37634653503360.0,
      "grad_norm": 1.4849176161415039,
      "language_loss": 0.70348138,
      "learning_rate": 2.861947813345627e-06,
      "loss": 0.72458518,
      "num_input_tokens_seen": 67462195,
      "step": 3139,
      "time_per_iteration": 2.6704094409942627
    },
    {
      "auxiliary_loss_clip": 0.01116398,
      "auxiliary_loss_mlp": 0.00756861,
      "balance_loss_clip": 1.04794312,
      "balance_loss_mlp": 1.00144112,
      "epoch": 0.37756267660674564,
      "flos": 26142915824640.0,
      "grad_norm": 4.286703162930972,
      "language_loss": 0.72403592,
      "learning_rate": 2.8612448317098974e-06,
      "loss": 0.74276853,
      "num_input_tokens_seen": 67482530,
      "step": 3140,
      "time_per_iteration": 2.5733275413513184
    },
    {
      "auxiliary_loss_clip": 0.01079879,
      "auxiliary_loss_mlp": 0.00756768,
      "balance_loss_clip": 1.04486203,
      "balance_loss_mlp": 1.00135469,
      "epoch": 0.3776829194973847,
      "flos": 19429945424640.0,
      "grad_norm": 2.0413300520920243,
      "language_loss": 0.83259284,
      "learning_rate": 2.8605417194240114e-06,
      "loss": 0.8509593,
      "num_input_tokens_seen": 67500890,
      "step": 3141,
      "time_per_iteration": 3.367462158203125
    },
    {
      "auxiliary_loss_clip": 0.01097141,
      "auxiliary_loss_mlp": 0.01020343,
      "balance_loss_clip": 1.04357123,
      "balance_loss_mlp": 1.01478767,
      "epoch": 0.3778031623880238,
      "flos": 17384119240320.0,
      "grad_norm": 1.810763564975503,
      "language_loss": 0.79093498,
      "learning_rate": 2.8598384765946315e-06,
      "loss": 0.81210983,
      "num_input_tokens_seen": 67519545,
      "step": 3142,
      "time_per_iteration": 3.3246958255767822
    },
    {
      "auxiliary_loss_clip": 0.01112921,
      "auxiliary_loss_mlp": 0.01021855,
      "balance_loss_clip": 1.04435921,
      "balance_loss_mlp": 1.01612413,
      "epoch": 0.3779234052786629,
      "flos": 27128298925440.0,
      "grad_norm": 1.8259169837308027,
      "language_loss": 0.71905339,
      "learning_rate": 2.8591351033284377e-06,
      "loss": 0.74040115,
      "num_input_tokens_seen": 67539275,
      "step": 3143,
      "time_per_iteration": 2.5525386333465576
    },
    {
      "auxiliary_loss_clip": 0.01102016,
      "auxiliary_loss_mlp": 0.01020711,
      "balance_loss_clip": 1.04592049,
      "balance_loss_mlp": 1.01474428,
      "epoch": 0.37804364816930197,
      "flos": 19684673608320.0,
      "grad_norm": 2.2078511829195033,
      "language_loss": 0.83629405,
      "learning_rate": 2.8584315997321325e-06,
      "loss": 0.85752136,
      "num_input_tokens_seen": 67558280,
      "step": 3144,
      "time_per_iteration": 2.5133941173553467
    },
    {
      "auxiliary_loss_clip": 0.01112414,
      "auxiliary_loss_mlp": 0.0102095,
      "balance_loss_clip": 1.04456043,
      "balance_loss_mlp": 1.01512623,
      "epoch": 0.3781638910599411,
      "flos": 22704659141760.0,
      "grad_norm": 2.5861400277463473,
      "language_loss": 0.77950871,
      "learning_rate": 2.8577279659124356e-06,
      "loss": 0.8008424,
      "num_input_tokens_seen": 67575955,
      "step": 3145,
      "time_per_iteration": 2.5029044151306152
    },
    {
      "auxiliary_loss_clip": 0.01102815,
      "auxiliary_loss_mlp": 0.01020462,
      "balance_loss_clip": 1.04527426,
      "balance_loss_mlp": 1.01515758,
      "epoch": 0.3782841339505802,
      "flos": 14649358078080.0,
      "grad_norm": 1.7681746843464743,
      "language_loss": 0.83776188,
      "learning_rate": 2.857024201976089e-06,
      "loss": 0.85899466,
      "num_input_tokens_seen": 67593515,
      "step": 3146,
      "time_per_iteration": 2.503209352493286
    },
    {
      "auxiliary_loss_clip": 0.01078154,
      "auxiliary_loss_mlp": 0.01020601,
      "balance_loss_clip": 1.04100573,
      "balance_loss_mlp": 1.014274,
      "epoch": 0.37840437684121925,
      "flos": 32821029457920.0,
      "grad_norm": 1.8993332905968578,
      "language_loss": 0.72980094,
      "learning_rate": 2.8563203080298516e-06,
      "loss": 0.75078845,
      "num_input_tokens_seen": 67614290,
      "step": 3147,
      "time_per_iteration": 2.682333469390869
    },
    {
      "auxiliary_loss_clip": 0.01085948,
      "auxiliary_loss_mlp": 0.00756948,
      "balance_loss_clip": 1.04363787,
      "balance_loss_mlp": 1.00128555,
      "epoch": 0.37852461973185836,
      "flos": 18371170736640.0,
      "grad_norm": 2.2903439805478496,
      "language_loss": 0.89500427,
      "learning_rate": 2.855616284180505e-06,
      "loss": 0.91343331,
      "num_input_tokens_seen": 67631340,
      "step": 3148,
      "time_per_iteration": 2.548977851867676
    },
    {
      "auxiliary_loss_clip": 0.01090681,
      "auxiliary_loss_mlp": 0.01002623,
      "balance_loss_clip": 1.06055784,
      "balance_loss_mlp": 1.00027454,
      "epoch": 0.37864486262249747,
      "flos": 59507641676160.0,
      "grad_norm": 0.8740964161218512,
      "language_loss": 0.66209388,
      "learning_rate": 2.8549121305348477e-06,
      "loss": 0.68302691,
      "num_input_tokens_seen": 67691125,
      "step": 3149,
      "time_per_iteration": 3.16279673576355
    },
    {
      "auxiliary_loss_clip": 0.01103014,
      "auxiliary_loss_mlp": 0.01022919,
      "balance_loss_clip": 1.0458132,
      "balance_loss_mlp": 1.01762068,
      "epoch": 0.3787651055131365,
      "flos": 23364993836160.0,
      "grad_norm": 2.1343812534542064,
      "language_loss": 0.83190858,
      "learning_rate": 2.8542078471997006e-06,
      "loss": 0.85316789,
      "num_input_tokens_seen": 67708740,
      "step": 3150,
      "time_per_iteration": 2.537431478500366
    },
    {
      "auxiliary_loss_clip": 0.0110042,
      "auxiliary_loss_mlp": 0.01016494,
      "balance_loss_clip": 1.04398382,
      "balance_loss_mlp": 1.01110613,
      "epoch": 0.37888534840377563,
      "flos": 24603322970880.0,
      "grad_norm": 1.7549063023207232,
      "language_loss": 0.75546497,
      "learning_rate": 2.8535034342819013e-06,
      "loss": 0.7766341,
      "num_input_tokens_seen": 67726150,
      "step": 3151,
      "time_per_iteration": 2.671368360519409
    },
    {
      "auxiliary_loss_clip": 0.01113899,
      "auxiliary_loss_mlp": 0.01023828,
      "balance_loss_clip": 1.04680467,
      "balance_loss_mlp": 1.0179956,
      "epoch": 0.37900559129441475,
      "flos": 23989106712960.0,
      "grad_norm": 1.464767149675374,
      "language_loss": 0.72385627,
      "learning_rate": 2.85279889188831e-06,
      "loss": 0.74523354,
      "num_input_tokens_seen": 67746525,
      "step": 3152,
      "time_per_iteration": 2.5255987644195557
    },
    {
      "auxiliary_loss_clip": 0.01083369,
      "auxiliary_loss_mlp": 0.01020729,
      "balance_loss_clip": 1.04498529,
      "balance_loss_mlp": 1.01438391,
      "epoch": 0.3791258341850538,
      "flos": 24646976732160.0,
      "grad_norm": 1.8029052234164915,
      "language_loss": 0.81521618,
      "learning_rate": 2.852094220125805e-06,
      "loss": 0.83625716,
      "num_input_tokens_seen": 67766035,
      "step": 3153,
      "time_per_iteration": 2.6443049907684326
    },
    {
      "auxiliary_loss_clip": 0.01102147,
      "auxiliary_loss_mlp": 0.01024552,
      "balance_loss_clip": 1.04660082,
      "balance_loss_mlp": 1.01832318,
      "epoch": 0.3792460770756929,
      "flos": 17422767815040.0,
      "grad_norm": 2.129257217005804,
      "language_loss": 0.71239167,
      "learning_rate": 2.8513894191012846e-06,
      "loss": 0.73365867,
      "num_input_tokens_seen": 67785015,
      "step": 3154,
      "time_per_iteration": 2.513996124267578
    },
    {
      "auxiliary_loss_clip": 0.01117059,
      "auxiliary_loss_mlp": 0.01025893,
      "balance_loss_clip": 1.04865861,
      "balance_loss_mlp": 1.01978993,
      "epoch": 0.37936631996633197,
      "flos": 24208826457600.0,
      "grad_norm": 1.6195847260302254,
      "language_loss": 0.79265511,
      "learning_rate": 2.8506844889216664e-06,
      "loss": 0.81408471,
      "num_input_tokens_seen": 67804400,
      "step": 3155,
      "time_per_iteration": 2.5976970195770264
    },
    {
      "auxiliary_loss_clip": 0.01058295,
      "auxiliary_loss_mlp": 0.01002438,
      "balance_loss_clip": 1.03148651,
      "balance_loss_mlp": 1.00006604,
      "epoch": 0.3794865628569711,
      "flos": 70304491238400.0,
      "grad_norm": 0.873364582262393,
      "language_loss": 0.62841964,
      "learning_rate": 2.849979429693887e-06,
      "loss": 0.64902693,
      "num_input_tokens_seen": 67865385,
      "step": 3156,
      "time_per_iteration": 3.1961328983306885
    },
    {
      "auxiliary_loss_clip": 0.01114692,
      "auxiliary_loss_mlp": 0.01021376,
      "balance_loss_clip": 1.04703617,
      "balance_loss_mlp": 1.01563287,
      "epoch": 0.3796068057476102,
      "flos": 15781221008640.0,
      "grad_norm": 2.0820488126200103,
      "language_loss": 0.74381101,
      "learning_rate": 2.8492742415249042e-06,
      "loss": 0.76517177,
      "num_input_tokens_seen": 67883030,
      "step": 3157,
      "time_per_iteration": 2.4816722869873047
    },
    {
      "auxiliary_loss_clip": 0.01114,
      "auxiliary_loss_mlp": 0.0101849,
      "balance_loss_clip": 1.04672086,
      "balance_loss_mlp": 1.01272655,
      "epoch": 0.37972704863824924,
      "flos": 25194019968000.0,
      "grad_norm": 1.691619782320468,
      "language_loss": 0.76670039,
      "learning_rate": 2.848568924521694e-06,
      "loss": 0.78802526,
      "num_input_tokens_seen": 67903810,
      "step": 3158,
      "time_per_iteration": 2.543973684310913
    },
    {
      "auxiliary_loss_clip": 0.01105151,
      "auxiliary_loss_mlp": 0.01017776,
      "balance_loss_clip": 1.04648757,
      "balance_loss_mlp": 1.01181293,
      "epoch": 0.37984729152888835,
      "flos": 26212591440000.0,
      "grad_norm": 1.949841999894339,
      "language_loss": 0.73615068,
      "learning_rate": 2.8478634787912526e-06,
      "loss": 0.75737995,
      "num_input_tokens_seen": 67921865,
      "step": 3159,
      "time_per_iteration": 2.5747108459472656
    },
    {
      "auxiliary_loss_clip": 0.0110581,
      "auxiliary_loss_mlp": 0.01020023,
      "balance_loss_clip": 1.04772592,
      "balance_loss_mlp": 1.0140177,
      "epoch": 0.37996753441952746,
      "flos": 25631639389440.0,
      "grad_norm": 2.0872833938719575,
      "language_loss": 0.7682811,
      "learning_rate": 2.847157904440596e-06,
      "loss": 0.7895394,
      "num_input_tokens_seen": 67941595,
      "step": 3160,
      "time_per_iteration": 2.5935122966766357
    },
    {
      "auxiliary_loss_clip": 0.01101628,
      "auxiliary_loss_mlp": 0.01022459,
      "balance_loss_clip": 1.04621267,
      "balance_loss_mlp": 1.0166266,
      "epoch": 0.3800877773101665,
      "flos": 20120359207680.0,
      "grad_norm": 1.5342862774946955,
      "language_loss": 0.7396698,
      "learning_rate": 2.846452201576759e-06,
      "loss": 0.76091075,
      "num_input_tokens_seen": 67960970,
      "step": 3161,
      "time_per_iteration": 2.520554304122925
    },
    {
      "auxiliary_loss_clip": 0.0108161,
      "auxiliary_loss_mlp": 0.01003505,
      "balance_loss_clip": 1.06146049,
      "balance_loss_mlp": 1.00118065,
      "epoch": 0.38020802020080563,
      "flos": 63059503213440.0,
      "grad_norm": 0.885199998555145,
      "language_loss": 0.62727487,
      "learning_rate": 2.845746370306795e-06,
      "loss": 0.64812601,
      "num_input_tokens_seen": 68026160,
      "step": 3162,
      "time_per_iteration": 3.2613847255706787
    },
    {
      "auxiliary_loss_clip": 0.01102471,
      "auxiliary_loss_mlp": 0.01023512,
      "balance_loss_clip": 1.04616928,
      "balance_loss_mlp": 1.01787007,
      "epoch": 0.38032826309144474,
      "flos": 21290567368320.0,
      "grad_norm": 2.1307255910665885,
      "language_loss": 0.79285139,
      "learning_rate": 2.84504041073778e-06,
      "loss": 0.81411117,
      "num_input_tokens_seen": 68044575,
      "step": 3163,
      "time_per_iteration": 2.527958869934082
    },
    {
      "auxiliary_loss_clip": 0.0109185,
      "auxiliary_loss_mlp": 0.01026901,
      "balance_loss_clip": 1.0471741,
      "balance_loss_mlp": 1.02047312,
      "epoch": 0.3804485059820838,
      "flos": 18956180021760.0,
      "grad_norm": 1.6782364621697758,
      "language_loss": 0.79298806,
      "learning_rate": 2.844334322976806e-06,
      "loss": 0.81417561,
      "num_input_tokens_seen": 68064790,
      "step": 3164,
      "time_per_iteration": 3.359498977661133
    },
    {
      "auxiliary_loss_clip": 0.01058869,
      "auxiliary_loss_mlp": 0.01027267,
      "balance_loss_clip": 1.03906894,
      "balance_loss_mlp": 1.02133965,
      "epoch": 0.3805687488727229,
      "flos": 21835828454400.0,
      "grad_norm": 1.9341597651857372,
      "language_loss": 0.83190459,
      "learning_rate": 2.8436281071309866e-06,
      "loss": 0.85276598,
      "num_input_tokens_seen": 68083330,
      "step": 3165,
      "time_per_iteration": 3.3860583305358887
    },
    {
      "auxiliary_loss_clip": 0.01060591,
      "auxiliary_loss_mlp": 0.01007392,
      "balance_loss_clip": 1.06019735,
      "balance_loss_mlp": 1.00506723,
      "epoch": 0.380688991763362,
      "flos": 58552792680960.0,
      "grad_norm": 0.7235431182899087,
      "language_loss": 0.5300535,
      "learning_rate": 2.842921763307455e-06,
      "loss": 0.55073333,
      "num_input_tokens_seen": 68146140,
      "step": 3166,
      "time_per_iteration": 3.2526679039001465
    },
    {
      "auxiliary_loss_clip": 0.01094607,
      "auxiliary_loss_mlp": 0.01018847,
      "balance_loss_clip": 1.04684436,
      "balance_loss_mlp": 1.01326489,
      "epoch": 0.38080923465400107,
      "flos": 23801437797120.0,
      "grad_norm": 1.763733308513101,
      "language_loss": 0.83086449,
      "learning_rate": 2.842215291613361e-06,
      "loss": 0.85199904,
      "num_input_tokens_seen": 68164520,
      "step": 3167,
      "time_per_iteration": 2.8656609058380127
    },
    {
      "auxiliary_loss_clip": 0.01016274,
      "auxiliary_loss_mlp": 0.01003508,
      "balance_loss_clip": 1.04632592,
      "balance_loss_mlp": 1.00142217,
      "epoch": 0.3809294775446402,
      "flos": 54976208555520.0,
      "grad_norm": 0.8309615552035764,
      "language_loss": 0.59232128,
      "learning_rate": 2.8415086921558774e-06,
      "loss": 0.61251909,
      "num_input_tokens_seen": 68227945,
      "step": 3168,
      "time_per_iteration": 5.128232955932617
    },
    {
      "auxiliary_loss_clip": 0.01090902,
      "auxiliary_loss_mlp": 0.01018571,
      "balance_loss_clip": 1.04298699,
      "balance_loss_mlp": 1.01304853,
      "epoch": 0.38104972043527924,
      "flos": 24645952944000.0,
      "grad_norm": 1.7081748393983804,
      "language_loss": 0.78877169,
      "learning_rate": 2.840801965042194e-06,
      "loss": 0.80986643,
      "num_input_tokens_seen": 68247405,
      "step": 3169,
      "time_per_iteration": 3.7278194427490234
    },
    {
      "auxiliary_loss_clip": 0.01095168,
      "auxiliary_loss_mlp": 0.01020603,
      "balance_loss_clip": 1.04661703,
      "balance_loss_mlp": 1.01430285,
      "epoch": 0.38116996332591835,
      "flos": 22858988014080.0,
      "grad_norm": 3.1730854518538947,
      "language_loss": 0.83796388,
      "learning_rate": 2.840095110379521e-06,
      "loss": 0.85912156,
      "num_input_tokens_seen": 68266925,
      "step": 3170,
      "time_per_iteration": 2.6259095668792725
    },
    {
      "auxiliary_loss_clip": 0.01056282,
      "auxiliary_loss_mlp": 0.01004008,
      "balance_loss_clip": 1.05893397,
      "balance_loss_mlp": 1.00150442,
      "epoch": 0.38129020621655746,
      "flos": 60842388723840.0,
      "grad_norm": 0.7451479026166221,
      "language_loss": 0.5386104,
      "learning_rate": 2.8393881282750884e-06,
      "loss": 0.55921334,
      "num_input_tokens_seen": 68329755,
      "step": 3171,
      "time_per_iteration": 3.3041582107543945
    },
    {
      "auxiliary_loss_clip": 0.01078153,
      "auxiliary_loss_mlp": 0.01017263,
      "balance_loss_clip": 1.03958583,
      "balance_loss_mlp": 1.01096296,
      "epoch": 0.3814104491071965,
      "flos": 21649979606400.0,
      "grad_norm": 1.7494912414813213,
      "language_loss": 0.78907067,
      "learning_rate": 2.838681018836144e-06,
      "loss": 0.81002486,
      "num_input_tokens_seen": 68347075,
      "step": 3172,
      "time_per_iteration": 2.890958547592163
    },
    {
      "auxiliary_loss_clip": 0.01080917,
      "auxiliary_loss_mlp": 0.00756756,
      "balance_loss_clip": 1.04425955,
      "balance_loss_mlp": 1.00119495,
      "epoch": 0.3815306919978356,
      "flos": 19101105210240.0,
      "grad_norm": 2.1872392000378063,
      "language_loss": 0.78707498,
      "learning_rate": 2.837973782169955e-06,
      "loss": 0.80545163,
      "num_input_tokens_seen": 68365450,
      "step": 3173,
      "time_per_iteration": 2.6235477924346924
    },
    {
      "auxiliary_loss_clip": 0.01097574,
      "auxiliary_loss_mlp": 0.01002704,
      "balance_loss_clip": 1.05821753,
      "balance_loss_mlp": 1.00034392,
      "epoch": 0.38165093488847474,
      "flos": 67074085941120.0,
      "grad_norm": 0.8177085973975541,
      "language_loss": 0.591838,
      "learning_rate": 2.8372664183838096e-06,
      "loss": 0.61284077,
      "num_input_tokens_seen": 68428470,
      "step": 3174,
      "time_per_iteration": 3.1942498683929443
    },
    {
      "auxiliary_loss_clip": 0.01115211,
      "auxiliary_loss_mlp": 0.01023522,
      "balance_loss_clip": 1.04792273,
      "balance_loss_mlp": 1.01751077,
      "epoch": 0.3817711777791138,
      "flos": 22343009736960.0,
      "grad_norm": 2.321028928407709,
      "language_loss": 0.68802422,
      "learning_rate": 2.836558927585015e-06,
      "loss": 0.70941156,
      "num_input_tokens_seen": 68445440,
      "step": 3175,
      "time_per_iteration": 2.5164690017700195
    },
    {
      "auxiliary_loss_clip": 0.01102001,
      "auxiliary_loss_mlp": 0.01026283,
      "balance_loss_clip": 1.04504526,
      "balance_loss_mlp": 1.02059662,
      "epoch": 0.3818914206697529,
      "flos": 22822842032640.0,
      "grad_norm": 1.9658255946118028,
      "language_loss": 0.82289064,
      "learning_rate": 2.8358513098808957e-06,
      "loss": 0.84417355,
      "num_input_tokens_seen": 68465755,
      "step": 3176,
      "time_per_iteration": 2.560105562210083
    },
    {
      "auxiliary_loss_clip": 0.01063861,
      "auxiliary_loss_mlp": 0.01024643,
      "balance_loss_clip": 1.04463482,
      "balance_loss_mlp": 1.01856637,
      "epoch": 0.382011663560392,
      "flos": 24388191313920.0,
      "grad_norm": 1.6944654154661476,
      "language_loss": 0.76978606,
      "learning_rate": 2.835143565378798e-06,
      "loss": 0.79067111,
      "num_input_tokens_seen": 68486220,
      "step": 3177,
      "time_per_iteration": 2.7159950733184814
    },
    {
      "auxiliary_loss_clip": 0.01049397,
      "auxiliary_loss_mlp": 0.01016506,
      "balance_loss_clip": 1.04154289,
      "balance_loss_mlp": 1.01047111,
      "epoch": 0.38213190645103107,
      "flos": 21983749171200.0,
      "grad_norm": 1.8935461258142776,
      "language_loss": 0.78957856,
      "learning_rate": 2.8344356941860847e-06,
      "loss": 0.81023765,
      "num_input_tokens_seen": 68505850,
      "step": 3178,
      "time_per_iteration": 2.702402114868164
    },
    {
      "auxiliary_loss_clip": 0.01077627,
      "auxiliary_loss_mlp": 0.01022635,
      "balance_loss_clip": 1.0446676,
      "balance_loss_mlp": 1.01665974,
      "epoch": 0.3822521493416702,
      "flos": 35519834229120.0,
      "grad_norm": 2.209017524787968,
      "language_loss": 0.66269195,
      "learning_rate": 2.8337276964101403e-06,
      "loss": 0.6836946,
      "num_input_tokens_seen": 68526290,
      "step": 3179,
      "time_per_iteration": 2.7485547065734863
    },
    {
      "auxiliary_loss_clip": 0.01101615,
      "auxiliary_loss_mlp": 0.01024866,
      "balance_loss_clip": 1.04501176,
      "balance_loss_mlp": 1.01888478,
      "epoch": 0.3823723922323093,
      "flos": 21072061002240.0,
      "grad_norm": 2.181168187277373,
      "language_loss": 0.76450974,
      "learning_rate": 2.833019572158367e-06,
      "loss": 0.78577459,
      "num_input_tokens_seen": 68544725,
      "step": 3180,
      "time_per_iteration": 2.5513994693756104
    },
    {
      "auxiliary_loss_clip": 0.01087619,
      "auxiliary_loss_mlp": 0.01021655,
      "balance_loss_clip": 1.04421663,
      "balance_loss_mlp": 1.01560497,
      "epoch": 0.38249263512294834,
      "flos": 19791026058240.0,
      "grad_norm": 1.828820108629261,
      "language_loss": 0.80223489,
      "learning_rate": 2.8323113215381872e-06,
      "loss": 0.8233276,
      "num_input_tokens_seen": 68563070,
      "step": 3181,
      "time_per_iteration": 2.5826823711395264
    },
    {
      "auxiliary_loss_clip": 0.01075729,
      "auxiliary_loss_mlp": 0.01027056,
      "balance_loss_clip": 1.04367733,
      "balance_loss_mlp": 1.0206666,
      "epoch": 0.38261287801358745,
      "flos": 21436061328000.0,
      "grad_norm": 2.18110784134663,
      "language_loss": 0.76391441,
      "learning_rate": 2.831602944657042e-06,
      "loss": 0.78494227,
      "num_input_tokens_seen": 68581150,
      "step": 3182,
      "time_per_iteration": 2.6220638751983643
    },
    {
      "auxiliary_loss_clip": 0.01090525,
      "auxiliary_loss_mlp": 0.01018578,
      "balance_loss_clip": 1.04495239,
      "balance_loss_mlp": 1.01291847,
      "epoch": 0.38273312090422656,
      "flos": 21983749171200.0,
      "grad_norm": 4.01729743646049,
      "language_loss": 0.74478632,
      "learning_rate": 2.830894441622391e-06,
      "loss": 0.76587737,
      "num_input_tokens_seen": 68597800,
      "step": 3183,
      "time_per_iteration": 2.5547900199890137
    },
    {
      "auxiliary_loss_clip": 0.01084149,
      "auxiliary_loss_mlp": 0.0075672,
      "balance_loss_clip": 1.04704738,
      "balance_loss_mlp": 1.00121498,
      "epoch": 0.3828533637948656,
      "flos": 24793229053440.0,
      "grad_norm": 1.8899856573443892,
      "language_loss": 0.80212426,
      "learning_rate": 2.8301858125417134e-06,
      "loss": 0.82053292,
      "num_input_tokens_seen": 68617640,
      "step": 3184,
      "time_per_iteration": 2.6682307720184326
    },
    {
      "auxiliary_loss_clip": 0.01083065,
      "auxiliary_loss_mlp": 0.01019194,
      "balance_loss_clip": 1.04294157,
      "balance_loss_mlp": 1.01389837,
      "epoch": 0.38297360668550473,
      "flos": 22457628328320.0,
      "grad_norm": 1.7470313751614797,
      "language_loss": 0.73998654,
      "learning_rate": 2.8294770575225082e-06,
      "loss": 0.7610091,
      "num_input_tokens_seen": 68637770,
      "step": 3185,
      "time_per_iteration": 2.5683956146240234
    },
    {
      "auxiliary_loss_clip": 0.01103004,
      "auxiliary_loss_mlp": 0.01022442,
      "balance_loss_clip": 1.04738617,
      "balance_loss_mlp": 1.01638055,
      "epoch": 0.3830938495761438,
      "flos": 24899050650240.0,
      "grad_norm": 1.6759594248051617,
      "language_loss": 0.83759558,
      "learning_rate": 2.828768176672293e-06,
      "loss": 0.85885006,
      "num_input_tokens_seen": 68656885,
      "step": 3186,
      "time_per_iteration": 2.6487655639648438
    },
    {
      "auxiliary_loss_clip": 0.01080621,
      "auxiliary_loss_mlp": 0.01020658,
      "balance_loss_clip": 1.04437685,
      "balance_loss_mlp": 1.01455164,
      "epoch": 0.3832140924667829,
      "flos": 33039004970880.0,
      "grad_norm": 1.952348179710068,
      "language_loss": 0.7135824,
      "learning_rate": 2.8280591700986044e-06,
      "loss": 0.73459518,
      "num_input_tokens_seen": 68678750,
      "step": 3187,
      "time_per_iteration": 2.6963279247283936
    },
    {
      "auxiliary_loss_clip": 0.01092033,
      "auxiliary_loss_mlp": 0.01023223,
      "balance_loss_clip": 1.0448873,
      "balance_loss_mlp": 1.0173018,
      "epoch": 0.383334335357422,
      "flos": 31906345760640.0,
      "grad_norm": 2.8157809297045717,
      "language_loss": 0.75102907,
      "learning_rate": 2.827350037908999e-06,
      "loss": 0.77218163,
      "num_input_tokens_seen": 68698190,
      "step": 3188,
      "time_per_iteration": 2.6731956005096436
    },
    {
      "auxiliary_loss_clip": 0.01077289,
      "auxiliary_loss_mlp": 0.01023661,
      "balance_loss_clip": 1.04328132,
      "balance_loss_mlp": 1.01720905,
      "epoch": 0.38345457824806106,
      "flos": 19793945750400.0,
      "grad_norm": 2.207309967915525,
      "language_loss": 0.79457307,
      "learning_rate": 2.8266407802110496e-06,
      "loss": 0.81558251,
      "num_input_tokens_seen": 68716445,
      "step": 3189,
      "time_per_iteration": 2.596813201904297
    },
    {
      "auxiliary_loss_clip": 0.0104352,
      "auxiliary_loss_mlp": 0.01023831,
      "balance_loss_clip": 1.04148614,
      "balance_loss_mlp": 1.01720309,
      "epoch": 0.3835748211387002,
      "flos": 22421596101120.0,
      "grad_norm": 1.855933334243111,
      "language_loss": 0.76279104,
      "learning_rate": 2.8259313971123515e-06,
      "loss": 0.78346455,
      "num_input_tokens_seen": 68737565,
      "step": 3190,
      "time_per_iteration": 4.532417297363281
    },
    {
      "auxiliary_loss_clip": 0.01100372,
      "auxiliary_loss_mlp": 0.0102096,
      "balance_loss_clip": 1.04581845,
      "balance_loss_mlp": 1.0147965,
      "epoch": 0.3836950640293393,
      "flos": 25120742135040.0,
      "grad_norm": 1.591698145631995,
      "language_loss": 0.78555286,
      "learning_rate": 2.8252218887205166e-06,
      "loss": 0.80676621,
      "num_input_tokens_seen": 68758255,
      "step": 3191,
      "time_per_iteration": 2.6542301177978516
    },
    {
      "auxiliary_loss_clip": 0.01039985,
      "auxiliary_loss_mlp": 0.01020593,
      "balance_loss_clip": 1.0327096,
      "balance_loss_mlp": 1.01507938,
      "epoch": 0.38381530691997834,
      "flos": 21801388786560.0,
      "grad_norm": 1.888311709108038,
      "language_loss": 0.81019342,
      "learning_rate": 2.824512255143178e-06,
      "loss": 0.83079916,
      "num_input_tokens_seen": 68777490,
      "step": 3192,
      "time_per_iteration": 2.7045645713806152
    },
    {
      "auxiliary_loss_clip": 0.01069131,
      "auxiliary_loss_mlp": 0.01019573,
      "balance_loss_clip": 1.03900445,
      "balance_loss_mlp": 1.01407456,
      "epoch": 0.38393554981061745,
      "flos": 21254876403840.0,
      "grad_norm": 1.9808995518622294,
      "language_loss": 0.79453778,
      "learning_rate": 2.8238024964879855e-06,
      "loss": 0.8154248,
      "num_input_tokens_seen": 68798385,
      "step": 3193,
      "time_per_iteration": 3.3928792476654053
    },
    {
      "auxiliary_loss_clip": 0.01116484,
      "auxiliary_loss_mlp": 0.01021362,
      "balance_loss_clip": 1.04795766,
      "balance_loss_mlp": 1.014642,
      "epoch": 0.38405579270125656,
      "flos": 17021256456960.0,
      "grad_norm": 2.2406171328005997,
      "language_loss": 0.77298033,
      "learning_rate": 2.8230926128626095e-06,
      "loss": 0.79435885,
      "num_input_tokens_seen": 68816880,
      "step": 3194,
      "time_per_iteration": 3.6586928367614746
    },
    {
      "auxiliary_loss_clip": 0.01093143,
      "auxiliary_loss_mlp": 0.01025422,
      "balance_loss_clip": 1.04653406,
      "balance_loss_mlp": 1.01897526,
      "epoch": 0.3841760355918956,
      "flos": 21837534768000.0,
      "grad_norm": 1.872573772342598,
      "language_loss": 0.79539216,
      "learning_rate": 2.822382604374738e-06,
      "loss": 0.81657779,
      "num_input_tokens_seen": 68835805,
      "step": 3195,
      "time_per_iteration": 2.570633888244629
    },
    {
      "auxiliary_loss_clip": 0.01077908,
      "auxiliary_loss_mlp": 0.0102391,
      "balance_loss_clip": 1.03789699,
      "balance_loss_mlp": 1.01769888,
      "epoch": 0.3842962784825347,
      "flos": 25917129187200.0,
      "grad_norm": 2.0889435974557515,
      "language_loss": 0.65374571,
      "learning_rate": 2.8216724711320793e-06,
      "loss": 0.67476386,
      "num_input_tokens_seen": 68854930,
      "step": 3196,
      "time_per_iteration": 2.596571922302246
    },
    {
      "auxiliary_loss_clip": 0.01117144,
      "auxiliary_loss_mlp": 0.00756438,
      "balance_loss_clip": 1.04929554,
      "balance_loss_mlp": 1.00102866,
      "epoch": 0.38441652137317384,
      "flos": 25339817272320.0,
      "grad_norm": 1.5391639862158664,
      "language_loss": 0.79812241,
      "learning_rate": 2.820962213242361e-06,
      "loss": 0.81685817,
      "num_input_tokens_seen": 68874260,
      "step": 3197,
      "time_per_iteration": 2.5394370555877686
    },
    {
      "auxiliary_loss_clip": 0.01094979,
      "auxiliary_loss_mlp": 0.0102736,
      "balance_loss_clip": 1.04684782,
      "balance_loss_mlp": 1.02142918,
      "epoch": 0.3845367642638129,
      "flos": 18115418764800.0,
      "grad_norm": 2.362209650189445,
      "language_loss": 0.84379482,
      "learning_rate": 2.8202518308133264e-06,
      "loss": 0.86501825,
      "num_input_tokens_seen": 68891535,
      "step": 3198,
      "time_per_iteration": 2.518913984298706
    },
    {
      "auxiliary_loss_clip": 0.01113925,
      "auxiliary_loss_mlp": 0.01024123,
      "balance_loss_clip": 1.046345,
      "balance_loss_mlp": 1.01762044,
      "epoch": 0.384657007154452,
      "flos": 25230734720640.0,
      "grad_norm": 2.0012240227095464,
      "language_loss": 0.73650771,
      "learning_rate": 2.8195413239527426e-06,
      "loss": 0.7578882,
      "num_input_tokens_seen": 68911275,
      "step": 3199,
      "time_per_iteration": 2.5257749557495117
    },
    {
      "auxiliary_loss_clip": 0.01105044,
      "auxiliary_loss_mlp": 0.0102068,
      "balance_loss_clip": 1.04627323,
      "balance_loss_mlp": 1.01481807,
      "epoch": 0.38477725004509106,
      "flos": 19867944026880.0,
      "grad_norm": 4.7570172630122975,
      "language_loss": 0.80727518,
      "learning_rate": 2.8188306927683906e-06,
      "loss": 0.8285324,
      "num_input_tokens_seen": 68930745,
      "step": 3200,
      "time_per_iteration": 2.5454792976379395
    },
    {
      "auxiliary_loss_clip": 0.01089655,
      "auxiliary_loss_mlp": 0.01020745,
      "balance_loss_clip": 1.04584348,
      "balance_loss_mlp": 1.01485562,
      "epoch": 0.38489749293573017,
      "flos": 18261329823360.0,
      "grad_norm": 2.0811262136727833,
      "language_loss": 0.7505396,
      "learning_rate": 2.818119937368074e-06,
      "loss": 0.77164364,
      "num_input_tokens_seen": 68949380,
      "step": 3201,
      "time_per_iteration": 2.54263973236084
    },
    {
      "auxiliary_loss_clip": 0.01104721,
      "auxiliary_loss_mlp": 0.01020996,
      "balance_loss_clip": 1.04671192,
      "balance_loss_mlp": 1.01460624,
      "epoch": 0.3850177358263693,
      "flos": 24391452268800.0,
      "grad_norm": 2.3588981272456664,
      "language_loss": 0.65606225,
      "learning_rate": 2.817409057859613e-06,
      "loss": 0.67731935,
      "num_input_tokens_seen": 68968370,
      "step": 3202,
      "time_per_iteration": 2.573394536972046
    },
    {
      "auxiliary_loss_clip": 0.01053661,
      "auxiliary_loss_mlp": 0.01022658,
      "balance_loss_clip": 1.0382508,
      "balance_loss_mlp": 1.01618159,
      "epoch": 0.38513797871700833,
      "flos": 17673211255680.0,
      "grad_norm": 2.0040618437649758,
      "language_loss": 0.79314244,
      "learning_rate": 2.8166980543508482e-06,
      "loss": 0.81390566,
      "num_input_tokens_seen": 68984260,
      "step": 3203,
      "time_per_iteration": 2.596776008605957
    },
    {
      "auxiliary_loss_clip": 0.01115267,
      "auxiliary_loss_mlp": 0.01023086,
      "balance_loss_clip": 1.04770422,
      "balance_loss_mlp": 1.01678014,
      "epoch": 0.38525822160764744,
      "flos": 25741973237760.0,
      "grad_norm": 1.9846178021105632,
      "language_loss": 0.79850495,
      "learning_rate": 2.815986926949638e-06,
      "loss": 0.81988841,
      "num_input_tokens_seen": 69002760,
      "step": 3204,
      "time_per_iteration": 2.560978651046753
    },
    {
      "auxiliary_loss_clip": 0.0110371,
      "auxiliary_loss_mlp": 0.01020615,
      "balance_loss_clip": 1.04809213,
      "balance_loss_mlp": 1.01502419,
      "epoch": 0.38537846449828655,
      "flos": 20195722535040.0,
      "grad_norm": 1.749042130929962,
      "language_loss": 0.80323112,
      "learning_rate": 2.8152756757638597e-06,
      "loss": 0.82447439,
      "num_input_tokens_seen": 69021260,
      "step": 3205,
      "time_per_iteration": 2.534604787826538
    },
    {
      "auxiliary_loss_clip": 0.01090951,
      "auxiliary_loss_mlp": 0.01022019,
      "balance_loss_clip": 1.04085767,
      "balance_loss_mlp": 1.01613641,
      "epoch": 0.3854987073889256,
      "flos": 23041575907200.0,
      "grad_norm": 2.1042443636874624,
      "language_loss": 0.84688181,
      "learning_rate": 2.8145643009014093e-06,
      "loss": 0.86801153,
      "num_input_tokens_seen": 69039755,
      "step": 3206,
      "time_per_iteration": 2.546201229095459
    },
    {
      "auxiliary_loss_clip": 0.01103861,
      "auxiliary_loss_mlp": 0.01021582,
      "balance_loss_clip": 1.04759943,
      "balance_loss_mlp": 1.01610112,
      "epoch": 0.3856189502795647,
      "flos": 20192537416320.0,
      "grad_norm": 1.8287956640502976,
      "language_loss": 0.79025245,
      "learning_rate": 2.813852802470202e-06,
      "loss": 0.81150687,
      "num_input_tokens_seen": 69057650,
      "step": 3207,
      "time_per_iteration": 2.5122103691101074
    },
    {
      "auxiliary_loss_clip": 0.01092354,
      "auxiliary_loss_mlp": 0.0102172,
      "balance_loss_clip": 1.04720652,
      "balance_loss_mlp": 1.01540804,
      "epoch": 0.38573919317020383,
      "flos": 25704993058560.0,
      "grad_norm": 1.8545741104625018,
      "language_loss": 0.72443402,
      "learning_rate": 2.8131411805781717e-06,
      "loss": 0.74557477,
      "num_input_tokens_seen": 69077775,
      "step": 3208,
      "time_per_iteration": 2.6213696002960205
    },
    {
      "auxiliary_loss_clip": 0.01089528,
      "auxiliary_loss_mlp": 0.01024329,
      "balance_loss_clip": 1.04681969,
      "balance_loss_mlp": 1.0178684,
      "epoch": 0.3858594360608429,
      "flos": 29823766905600.0,
      "grad_norm": 4.8935168068422925,
      "language_loss": 0.63754815,
      "learning_rate": 2.8124294353332707e-06,
      "loss": 0.65868676,
      "num_input_tokens_seen": 69096450,
      "step": 3209,
      "time_per_iteration": 2.6354634761810303
    },
    {
      "auxiliary_loss_clip": 0.01080262,
      "auxiliary_loss_mlp": 0.01022271,
      "balance_loss_clip": 1.04603171,
      "balance_loss_mlp": 1.01631379,
      "epoch": 0.385979678951482,
      "flos": 24792736118400.0,
      "grad_norm": 1.6412303920019717,
      "language_loss": 0.77477556,
      "learning_rate": 2.8117175668434713e-06,
      "loss": 0.79580086,
      "num_input_tokens_seen": 69116110,
      "step": 3210,
      "time_per_iteration": 2.6334636211395264
    },
    {
      "auxiliary_loss_clip": 0.01118626,
      "auxiliary_loss_mlp": 0.01021868,
      "balance_loss_clip": 1.05117142,
      "balance_loss_mlp": 1.01579142,
      "epoch": 0.3860999218421211,
      "flos": 21289998597120.0,
      "grad_norm": 3.0747875667319637,
      "language_loss": 0.70706183,
      "learning_rate": 2.811005575216762e-06,
      "loss": 0.72846675,
      "num_input_tokens_seen": 69134825,
      "step": 3211,
      "time_per_iteration": 2.5556726455688477
    },
    {
      "auxiliary_loss_clip": 0.01070114,
      "auxiliary_loss_mlp": 0.01023387,
      "balance_loss_clip": 1.0413059,
      "balance_loss_mlp": 1.01790929,
      "epoch": 0.38622016473276016,
      "flos": 24539107559040.0,
      "grad_norm": 1.4767774762153971,
      "language_loss": 0.79018778,
      "learning_rate": 2.8102934605611513e-06,
      "loss": 0.81112278,
      "num_input_tokens_seen": 69156460,
      "step": 3212,
      "time_per_iteration": 2.6590194702148438
    },
    {
      "auxiliary_loss_clip": 0.01093034,
      "auxiliary_loss_mlp": 0.01023866,
      "balance_loss_clip": 1.04691052,
      "balance_loss_mlp": 1.01789355,
      "epoch": 0.3863404076233993,
      "flos": 20560291632000.0,
      "grad_norm": 2.9985856214978175,
      "language_loss": 0.67209703,
      "learning_rate": 2.8095812229846665e-06,
      "loss": 0.69326603,
      "num_input_tokens_seen": 69176420,
      "step": 3213,
      "time_per_iteration": 2.591820478439331
    },
    {
      "auxiliary_loss_clip": 0.01087805,
      "auxiliary_loss_mlp": 0.01022057,
      "balance_loss_clip": 1.04413986,
      "balance_loss_mlp": 1.0159266,
      "epoch": 0.3864606505140384,
      "flos": 22348469940480.0,
      "grad_norm": 3.9604465433263436,
      "language_loss": 0.69313914,
      "learning_rate": 2.808868862595355e-06,
      "loss": 0.71423781,
      "num_input_tokens_seen": 69196665,
      "step": 3214,
      "time_per_iteration": 2.5642807483673096
    },
    {
      "auxiliary_loss_clip": 0.0110265,
      "auxiliary_loss_mlp": 0.01026422,
      "balance_loss_clip": 1.04597795,
      "balance_loss_mlp": 1.02044964,
      "epoch": 0.38658089340467744,
      "flos": 25706016846720.0,
      "grad_norm": 2.4277456710853746,
      "language_loss": 0.79977298,
      "learning_rate": 2.8081563795012795e-06,
      "loss": 0.8210637,
      "num_input_tokens_seen": 69216290,
      "step": 3215,
      "time_per_iteration": 3.3613851070404053
    },
    {
      "auxiliary_loss_clip": 0.01092405,
      "auxiliary_loss_mlp": 0.0101949,
      "balance_loss_clip": 1.04526186,
      "balance_loss_mlp": 1.01384521,
      "epoch": 0.38670113629531655,
      "flos": 33805350852480.0,
      "grad_norm": 1.683071840006091,
      "language_loss": 0.74241406,
      "learning_rate": 2.807443773810524e-06,
      "loss": 0.763533,
      "num_input_tokens_seen": 69237550,
      "step": 3216,
      "time_per_iteration": 3.4315929412841797
    },
    {
      "auxiliary_loss_clip": 0.01065623,
      "auxiliary_loss_mlp": 0.01025725,
      "balance_loss_clip": 1.04010129,
      "balance_loss_mlp": 1.01986575,
      "epoch": 0.3868213791859556,
      "flos": 23333777205120.0,
      "grad_norm": 1.7837070050371422,
      "language_loss": 0.89277679,
      "learning_rate": 2.80673104563119e-06,
      "loss": 0.91369021,
      "num_input_tokens_seen": 69258175,
      "step": 3217,
      "time_per_iteration": 2.642148494720459
    },
    {
      "auxiliary_loss_clip": 0.01100042,
      "auxiliary_loss_mlp": 0.01019091,
      "balance_loss_clip": 1.04721785,
      "balance_loss_mlp": 1.01348233,
      "epoch": 0.3869416220765947,
      "flos": 18443462699520.0,
      "grad_norm": 2.1893070757500896,
      "language_loss": 0.79136443,
      "learning_rate": 2.8060181950713976e-06,
      "loss": 0.81255579,
      "num_input_tokens_seen": 69274965,
      "step": 3218,
      "time_per_iteration": 2.5171446800231934
    },
    {
      "auxiliary_loss_clip": 0.010805,
      "auxiliary_loss_mlp": 0.01022384,
      "balance_loss_clip": 1.04608417,
      "balance_loss_mlp": 1.01585734,
      "epoch": 0.3870618649672338,
      "flos": 15634817015040.0,
      "grad_norm": 2.0102730586187816,
      "language_loss": 0.81436825,
      "learning_rate": 2.805305222239286e-06,
      "loss": 0.83539712,
      "num_input_tokens_seen": 69292220,
      "step": 3219,
      "time_per_iteration": 3.345670223236084
    },
    {
      "auxiliary_loss_clip": 0.01075801,
      "auxiliary_loss_mlp": 0.01023417,
      "balance_loss_clip": 1.03903306,
      "balance_loss_mlp": 1.01776099,
      "epoch": 0.3871821078578729,
      "flos": 23516061753600.0,
      "grad_norm": 2.387193612131304,
      "language_loss": 0.74332774,
      "learning_rate": 2.8045921272430118e-06,
      "loss": 0.7643199,
      "num_input_tokens_seen": 69311900,
      "step": 3220,
      "time_per_iteration": 3.349679708480835
    },
    {
      "auxiliary_loss_clip": 0.01104333,
      "auxiliary_loss_mlp": 0.01023188,
      "balance_loss_clip": 1.04664481,
      "balance_loss_mlp": 1.01716483,
      "epoch": 0.387302350748512,
      "flos": 17779791214080.0,
      "grad_norm": 2.161742970053129,
      "language_loss": 0.76347232,
      "learning_rate": 2.803878910190753e-06,
      "loss": 0.78474748,
      "num_input_tokens_seen": 69328820,
      "step": 3221,
      "time_per_iteration": 2.4960131645202637
    },
    {
      "auxiliary_loss_clip": 0.0110303,
      "auxiliary_loss_mlp": 0.01021719,
      "balance_loss_clip": 1.04623699,
      "balance_loss_mlp": 1.0158478,
      "epoch": 0.3874225936391511,
      "flos": 11504629825920.0,
      "grad_norm": 2.5363147870922185,
      "language_loss": 0.82405734,
      "learning_rate": 2.8031655711907017e-06,
      "loss": 0.84530479,
      "num_input_tokens_seen": 69342525,
      "step": 3222,
      "time_per_iteration": 2.5017971992492676
    },
    {
      "auxiliary_loss_clip": 0.01102518,
      "auxiliary_loss_mlp": 0.01024888,
      "balance_loss_clip": 1.0468328,
      "balance_loss_mlp": 1.0189662,
      "epoch": 0.38754283652979016,
      "flos": 21947337763200.0,
      "grad_norm": 3.169221328732255,
      "language_loss": 0.80800015,
      "learning_rate": 2.8024521103510723e-06,
      "loss": 0.82927418,
      "num_input_tokens_seen": 69359295,
      "step": 3223,
      "time_per_iteration": 2.5359504222869873
    },
    {
      "auxiliary_loss_clip": 0.01101337,
      "auxiliary_loss_mlp": 0.01022596,
      "balance_loss_clip": 1.0443517,
      "balance_loss_mlp": 1.01694858,
      "epoch": 0.38766307942042927,
      "flos": 21177958435200.0,
      "grad_norm": 1.8192191485764,
      "language_loss": 0.75261319,
      "learning_rate": 2.8017385277800952e-06,
      "loss": 0.77385247,
      "num_input_tokens_seen": 69377650,
      "step": 3224,
      "time_per_iteration": 2.547536849975586
    },
    {
      "auxiliary_loss_clip": 0.01076906,
      "auxiliary_loss_mlp": 0.01026645,
      "balance_loss_clip": 1.04495692,
      "balance_loss_mlp": 1.02047634,
      "epoch": 0.3877833223110684,
      "flos": 27419741861760.0,
      "grad_norm": 1.8743637705280922,
      "language_loss": 0.74902463,
      "learning_rate": 2.8010248235860213e-06,
      "loss": 0.77006018,
      "num_input_tokens_seen": 69397765,
      "step": 3225,
      "time_per_iteration": 2.642259359359741
    },
    {
      "auxiliary_loss_clip": 0.01073331,
      "auxiliary_loss_mlp": 0.00752355,
      "balance_loss_clip": 1.05472517,
      "balance_loss_mlp": 1.00033307,
      "epoch": 0.38790356520170743,
      "flos": 64507304160000.0,
      "grad_norm": 0.8298905866896096,
      "language_loss": 0.62708437,
      "learning_rate": 2.8003109978771192e-06,
      "loss": 0.64534116,
      "num_input_tokens_seen": 69458930,
      "step": 3226,
      "time_per_iteration": 3.2581634521484375
    },
    {
      "auxiliary_loss_clip": 0.01074122,
      "auxiliary_loss_mlp": 0.01020399,
      "balance_loss_clip": 1.04077399,
      "balance_loss_mlp": 1.01458502,
      "epoch": 0.38802380809234654,
      "flos": 22347559906560.0,
      "grad_norm": 2.016146983165617,
      "language_loss": 0.78812987,
      "learning_rate": 2.799597050761674e-06,
      "loss": 0.80907512,
      "num_input_tokens_seen": 69475135,
      "step": 3227,
      "time_per_iteration": 2.6662824153900146
    },
    {
      "auxiliary_loss_clip": 0.01113302,
      "auxiliary_loss_mlp": 0.0102329,
      "balance_loss_clip": 1.045995,
      "balance_loss_mlp": 1.01734757,
      "epoch": 0.38814405098298566,
      "flos": 25263505992960.0,
      "grad_norm": 1.917242500239426,
      "language_loss": 0.7924,
      "learning_rate": 2.7988829823479924e-06,
      "loss": 0.81376594,
      "num_input_tokens_seen": 69493525,
      "step": 3228,
      "time_per_iteration": 2.547074794769287
    },
    {
      "auxiliary_loss_clip": 0.01088007,
      "auxiliary_loss_mlp": 0.01027119,
      "balance_loss_clip": 1.04175425,
      "balance_loss_mlp": 1.02085161,
      "epoch": 0.3882642938736247,
      "flos": 18843040235520.0,
      "grad_norm": 2.3638352923257675,
      "language_loss": 0.64395815,
      "learning_rate": 2.7981687927443976e-06,
      "loss": 0.6651094,
      "num_input_tokens_seen": 69510325,
      "step": 3229,
      "time_per_iteration": 2.565009355545044
    },
    {
      "auxiliary_loss_clip": 0.01101621,
      "auxiliary_loss_mlp": 0.0102005,
      "balance_loss_clip": 1.04383349,
      "balance_loss_mlp": 1.01465917,
      "epoch": 0.3883845367642638,
      "flos": 21654946874880.0,
      "grad_norm": 1.9898784444036326,
      "language_loss": 0.85860717,
      "learning_rate": 2.797454482059231e-06,
      "loss": 0.87982386,
      "num_input_tokens_seen": 69530480,
      "step": 3230,
      "time_per_iteration": 2.573793411254883
    },
    {
      "auxiliary_loss_clip": 0.01113279,
      "auxiliary_loss_mlp": 0.01016849,
      "balance_loss_clip": 1.04594445,
      "balance_loss_mlp": 1.01099622,
      "epoch": 0.3885047796549029,
      "flos": 20559571188480.0,
      "grad_norm": 1.6648851899017088,
      "language_loss": 0.84478492,
      "learning_rate": 2.7967400504008537e-06,
      "loss": 0.86608618,
      "num_input_tokens_seen": 69549780,
      "step": 3231,
      "time_per_iteration": 2.5141067504882812
    },
    {
      "auxiliary_loss_clip": 0.01026719,
      "auxiliary_loss_mlp": 0.01004518,
      "balance_loss_clip": 1.0309,
      "balance_loss_mlp": 1.00219381,
      "epoch": 0.388625022545542,
      "flos": 64331172391680.0,
      "grad_norm": 0.7913480018259736,
      "language_loss": 0.57404029,
      "learning_rate": 2.7960254978776456e-06,
      "loss": 0.59435272,
      "num_input_tokens_seen": 69611870,
      "step": 3232,
      "time_per_iteration": 3.2470786571502686
    },
    {
      "auxiliary_loss_clip": 0.01113798,
      "auxiliary_loss_mlp": 0.01026683,
      "balance_loss_clip": 1.04758644,
      "balance_loss_mlp": 1.02045143,
      "epoch": 0.3887452654361811,
      "flos": 18115835863680.0,
      "grad_norm": 1.8300958488654533,
      "language_loss": 0.81474078,
      "learning_rate": 2.7953108245980006e-06,
      "loss": 0.83614564,
      "num_input_tokens_seen": 69630385,
      "step": 3233,
      "time_per_iteration": 2.5198168754577637
    },
    {
      "auxiliary_loss_clip": 0.01075549,
      "auxiliary_loss_mlp": 0.01023594,
      "balance_loss_clip": 1.03926575,
      "balance_loss_mlp": 1.01807153,
      "epoch": 0.38886550832682015,
      "flos": 24977712850560.0,
      "grad_norm": 1.780620909139279,
      "language_loss": 0.73784459,
      "learning_rate": 2.7945960306703365e-06,
      "loss": 0.75883597,
      "num_input_tokens_seen": 69653370,
      "step": 3234,
      "time_per_iteration": 2.6093151569366455
    },
    {
      "auxiliary_loss_clip": 0.01102879,
      "auxiliary_loss_mlp": 0.01021021,
      "balance_loss_clip": 1.04571736,
      "balance_loss_mlp": 1.0149684,
      "epoch": 0.38898575121745926,
      "flos": 27201993857280.0,
      "grad_norm": 1.921276583956065,
      "language_loss": 0.66068721,
      "learning_rate": 2.7938811162030865e-06,
      "loss": 0.68192619,
      "num_input_tokens_seen": 69673635,
      "step": 3235,
      "time_per_iteration": 2.6093239784240723
    },
    {
      "auxiliary_loss_clip": 0.01098429,
      "auxiliary_loss_mlp": 0.0102546,
      "balance_loss_clip": 1.04515171,
      "balance_loss_mlp": 1.0194366,
      "epoch": 0.3891059941080984,
      "flos": 28766053923840.0,
      "grad_norm": 1.8362953218805658,
      "language_loss": 0.82656729,
      "learning_rate": 2.793166081304702e-06,
      "loss": 0.84780616,
      "num_input_tokens_seen": 69694130,
      "step": 3236,
      "time_per_iteration": 2.576695442199707
    },
    {
      "auxiliary_loss_clip": 0.01080926,
      "auxiliary_loss_mlp": 0.01022376,
      "balance_loss_clip": 1.04591048,
      "balance_loss_mlp": 1.01615,
      "epoch": 0.38922623699873743,
      "flos": 22895664848640.0,
      "grad_norm": 1.9983999936454122,
      "language_loss": 0.82460189,
      "learning_rate": 2.7924509260836543e-06,
      "loss": 0.84563488,
      "num_input_tokens_seen": 69713255,
      "step": 3237,
      "time_per_iteration": 2.6209867000579834
    },
    {
      "auxiliary_loss_clip": 0.01074523,
      "auxiliary_loss_mlp": 0.01020378,
      "balance_loss_clip": 1.041641,
      "balance_loss_mlp": 1.01452184,
      "epoch": 0.38934647988937654,
      "flos": 19794476603520.0,
      "grad_norm": 1.4656068722521558,
      "language_loss": 0.68147928,
      "learning_rate": 2.791735650648431e-06,
      "loss": 0.70242834,
      "num_input_tokens_seen": 69732375,
      "step": 3238,
      "time_per_iteration": 2.581191301345825
    },
    {
      "auxiliary_loss_clip": 0.01082293,
      "auxiliary_loss_mlp": 0.01018959,
      "balance_loss_clip": 1.042045,
      "balance_loss_mlp": 1.01339746,
      "epoch": 0.38946672278001565,
      "flos": 19203741688320.0,
      "grad_norm": 1.9785565536837768,
      "language_loss": 0.74542916,
      "learning_rate": 2.791020255107538e-06,
      "loss": 0.76644164,
      "num_input_tokens_seen": 69749745,
      "step": 3239,
      "time_per_iteration": 2.553631544113159
    },
    {
      "auxiliary_loss_clip": 0.01077436,
      "auxiliary_loss_mlp": 0.01019518,
      "balance_loss_clip": 1.04372025,
      "balance_loss_mlp": 1.01386476,
      "epoch": 0.3895869656706547,
      "flos": 24938798849280.0,
      "grad_norm": 1.9078961032562154,
      "language_loss": 0.80822468,
      "learning_rate": 2.7903047395695023e-06,
      "loss": 0.82919419,
      "num_input_tokens_seen": 69769645,
      "step": 3240,
      "time_per_iteration": 2.618192195892334
    },
    {
      "auxiliary_loss_clip": 0.01099872,
      "auxiliary_loss_mlp": 0.00756715,
      "balance_loss_clip": 1.04609382,
      "balance_loss_mlp": 1.00098109,
      "epoch": 0.3897072085612938,
      "flos": 24135889887360.0,
      "grad_norm": 2.201677126181493,
      "language_loss": 0.90552813,
      "learning_rate": 2.789589104142865e-06,
      "loss": 0.92409396,
      "num_input_tokens_seen": 69787270,
      "step": 3241,
      "time_per_iteration": 3.3573153018951416
    },
    {
      "auxiliary_loss_clip": 0.01066691,
      "auxiliary_loss_mlp": 0.01022535,
      "balance_loss_clip": 1.03897917,
      "balance_loss_mlp": 1.01673841,
      "epoch": 0.3898274514519329,
      "flos": 17168305057920.0,
      "grad_norm": 1.6688763500335166,
      "language_loss": 0.76814675,
      "learning_rate": 2.7888733489361895e-06,
      "loss": 0.78903902,
      "num_input_tokens_seen": 69805685,
      "step": 3242,
      "time_per_iteration": 3.383514642715454
    },
    {
      "auxiliary_loss_clip": 0.01088318,
      "auxiliary_loss_mlp": 0.01006616,
      "balance_loss_clip": 1.0511266,
      "balance_loss_mlp": 1.00441015,
      "epoch": 0.389947694342572,
      "flos": 66080474616960.0,
      "grad_norm": 0.7251358745488892,
      "language_loss": 0.58754849,
      "learning_rate": 2.788157474058054e-06,
      "loss": 0.6084978,
      "num_input_tokens_seen": 69867960,
      "step": 3243,
      "time_per_iteration": 3.2038164138793945
    },
    {
      "auxiliary_loss_clip": 0.01110264,
      "auxiliary_loss_mlp": 0.01020776,
      "balance_loss_clip": 1.04494262,
      "balance_loss_mlp": 1.01508379,
      "epoch": 0.3900679372332111,
      "flos": 25743376206720.0,
      "grad_norm": 1.642521150429049,
      "language_loss": 0.70021003,
      "learning_rate": 2.7874414796170555e-06,
      "loss": 0.72152042,
      "num_input_tokens_seen": 69889450,
      "step": 3244,
      "time_per_iteration": 2.5836033821105957
    },
    {
      "auxiliary_loss_clip": 0.01102131,
      "auxiliary_loss_mlp": 0.01021821,
      "balance_loss_clip": 1.04571366,
      "balance_loss_mlp": 1.01550305,
      "epoch": 0.3901881801238502,
      "flos": 11803201361280.0,
      "grad_norm": 3.2565950049269556,
      "language_loss": 0.83859277,
      "learning_rate": 2.7867253657218113e-06,
      "loss": 0.85983229,
      "num_input_tokens_seen": 69903340,
      "step": 3245,
      "time_per_iteration": 3.286724328994751
    },
    {
      "auxiliary_loss_clip": 0.01086867,
      "auxiliary_loss_mlp": 0.00756684,
      "balance_loss_clip": 1.0430119,
      "balance_loss_mlp": 1.00096822,
      "epoch": 0.39030842301448926,
      "flos": 27311455589760.0,
      "grad_norm": 1.5401820370485921,
      "language_loss": 0.73382705,
      "learning_rate": 2.7860091324809544e-06,
      "loss": 0.75226259,
      "num_input_tokens_seen": 69924400,
      "step": 3246,
      "time_per_iteration": 3.3862485885620117
    },
    {
      "auxiliary_loss_clip": 0.01098296,
      "auxiliary_loss_mlp": 0.01018921,
      "balance_loss_clip": 1.04640007,
      "balance_loss_mlp": 1.01312494,
      "epoch": 0.39042866590512837,
      "flos": 27165847875840.0,
      "grad_norm": 1.8206391563669484,
      "language_loss": 0.81159186,
      "learning_rate": 2.7852927800031377e-06,
      "loss": 0.83276403,
      "num_input_tokens_seen": 69944565,
      "step": 3247,
      "time_per_iteration": 2.621929407119751
    },
    {
      "auxiliary_loss_clip": 0.01090114,
      "auxiliary_loss_mlp": 0.0101797,
      "balance_loss_clip": 1.04465044,
      "balance_loss_mlp": 1.01262689,
      "epoch": 0.3905489087957674,
      "flos": 29718703670400.0,
      "grad_norm": 3.045350959682735,
      "language_loss": 0.82899934,
      "learning_rate": 2.7845763083970298e-06,
      "loss": 0.85008019,
      "num_input_tokens_seen": 69964965,
      "step": 3248,
      "time_per_iteration": 2.632328748703003
    },
    {
      "auxiliary_loss_clip": 0.01103526,
      "auxiliary_loss_mlp": 0.0102003,
      "balance_loss_clip": 1.04598689,
      "balance_loss_mlp": 1.01395631,
      "epoch": 0.39066915168640653,
      "flos": 24500914001280.0,
      "grad_norm": 2.0098081909717367,
      "language_loss": 0.82265002,
      "learning_rate": 2.7838597177713205e-06,
      "loss": 0.84388554,
      "num_input_tokens_seen": 69986055,
      "step": 3249,
      "time_per_iteration": 2.598661184310913
    },
    {
      "auxiliary_loss_clip": 0.01029416,
      "auxiliary_loss_mlp": 0.01028747,
      "balance_loss_clip": 1.03300357,
      "balance_loss_mlp": 1.02257538,
      "epoch": 0.39078939457704565,
      "flos": 20560670812800.0,
      "grad_norm": 2.530836038098567,
      "language_loss": 0.73750108,
      "learning_rate": 2.7831430082347143e-06,
      "loss": 0.75808269,
      "num_input_tokens_seen": 70005260,
      "step": 3250,
      "time_per_iteration": 2.6409153938293457
    },
    {
      "auxiliary_loss_clip": 0.01104033,
      "auxiliary_loss_mlp": 0.0075626,
      "balance_loss_clip": 1.04745483,
      "balance_loss_mlp": 1.00098705,
      "epoch": 0.3909096374676847,
      "flos": 22785596426880.0,
      "grad_norm": 2.3882690909571123,
      "language_loss": 0.82165867,
      "learning_rate": 2.7824261798959373e-06,
      "loss": 0.84026158,
      "num_input_tokens_seen": 70023440,
      "step": 3251,
      "time_per_iteration": 2.567277431488037
    },
    {
      "auxiliary_loss_clip": 0.01091222,
      "auxiliary_loss_mlp": 0.01024914,
      "balance_loss_clip": 1.04454517,
      "balance_loss_mlp": 1.01884937,
      "epoch": 0.3910298803583238,
      "flos": 23005354089600.0,
      "grad_norm": 2.0149429346698597,
      "language_loss": 0.79776335,
      "learning_rate": 2.78170923286373e-06,
      "loss": 0.81892467,
      "num_input_tokens_seen": 70043040,
      "step": 3252,
      "time_per_iteration": 2.569901466369629
    },
    {
      "auxiliary_loss_clip": 0.01023978,
      "auxiliary_loss_mlp": 0.01022281,
      "balance_loss_clip": 1.03441477,
      "balance_loss_mlp": 1.01637411,
      "epoch": 0.3911501232489629,
      "flos": 24318553616640.0,
      "grad_norm": 2.2242587132337244,
      "language_loss": 0.84328938,
      "learning_rate": 2.780992167246854e-06,
      "loss": 0.86375201,
      "num_input_tokens_seen": 70060565,
      "step": 3253,
      "time_per_iteration": 2.842592716217041
    },
    {
      "auxiliary_loss_clip": 0.01066213,
      "auxiliary_loss_mlp": 0.01002906,
      "balance_loss_clip": 1.04821396,
      "balance_loss_mlp": 1.00073671,
      "epoch": 0.391270366139602,
      "flos": 60875084160000.0,
      "grad_norm": 0.990037621218032,
      "language_loss": 0.72183728,
      "learning_rate": 2.7802749831540883e-06,
      "loss": 0.7425285,
      "num_input_tokens_seen": 70119465,
      "step": 3254,
      "time_per_iteration": 3.3313891887664795
    },
    {
      "auxiliary_loss_clip": 0.01062731,
      "auxiliary_loss_mlp": 0.01021072,
      "balance_loss_clip": 1.04190993,
      "balance_loss_mlp": 1.01593733,
      "epoch": 0.3913906090302411,
      "flos": 21545636814720.0,
      "grad_norm": 1.9475983306658007,
      "language_loss": 0.81885844,
      "learning_rate": 2.7795576806942268e-06,
      "loss": 0.83969653,
      "num_input_tokens_seen": 70138270,
      "step": 3255,
      "time_per_iteration": 2.6272330284118652
    },
    {
      "auxiliary_loss_clip": 0.0105981,
      "auxiliary_loss_mlp": 0.01004383,
      "balance_loss_clip": 1.05420065,
      "balance_loss_mlp": 1.00236821,
      "epoch": 0.3915108519208802,
      "flos": 49844788508160.0,
      "grad_norm": 0.7738233814474031,
      "language_loss": 0.54856312,
      "learning_rate": 2.778840259976085e-06,
      "loss": 0.56920505,
      "num_input_tokens_seen": 70193500,
      "step": 3256,
      "time_per_iteration": 3.1441597938537598
    },
    {
      "auxiliary_loss_clip": 0.01098865,
      "auxiliary_loss_mlp": 0.0102169,
      "balance_loss_clip": 1.04419458,
      "balance_loss_mlp": 1.01556897,
      "epoch": 0.39163109481151925,
      "flos": 16508197872000.0,
      "grad_norm": 2.1070275108950667,
      "language_loss": 0.7696358,
      "learning_rate": 2.778122721108495e-06,
      "loss": 0.7908414,
      "num_input_tokens_seen": 70211730,
      "step": 3257,
      "time_per_iteration": 2.522449016571045
    },
    {
      "auxiliary_loss_clip": 0.01104072,
      "auxiliary_loss_mlp": 0.01020319,
      "balance_loss_clip": 1.04833555,
      "balance_loss_mlp": 1.01433206,
      "epoch": 0.39175133770215836,
      "flos": 26069865500160.0,
      "grad_norm": 1.9306786268333882,
      "language_loss": 0.8834666,
      "learning_rate": 2.7774050642003076e-06,
      "loss": 0.90471047,
      "num_input_tokens_seen": 70232540,
      "step": 3258,
      "time_per_iteration": 2.5971426963806152
    },
    {
      "auxiliary_loss_clip": 0.01113232,
      "auxiliary_loss_mlp": 0.01023627,
      "balance_loss_clip": 1.04631376,
      "balance_loss_mlp": 1.01741076,
      "epoch": 0.3918715805927975,
      "flos": 21874249520640.0,
      "grad_norm": 2.0217338776853166,
      "language_loss": 0.93392795,
      "learning_rate": 2.7766872893603896e-06,
      "loss": 0.95529658,
      "num_input_tokens_seen": 70252515,
      "step": 3259,
      "time_per_iteration": 2.5328526496887207
    },
    {
      "auxiliary_loss_clip": 0.01102049,
      "auxiliary_loss_mlp": 0.0102903,
      "balance_loss_clip": 1.04596484,
      "balance_loss_mlp": 1.02331674,
      "epoch": 0.39199182348343653,
      "flos": 20378272510080.0,
      "grad_norm": 1.8680207470261132,
      "language_loss": 0.7351805,
      "learning_rate": 2.7759693966976275e-06,
      "loss": 0.75649124,
      "num_input_tokens_seen": 70271020,
      "step": 3260,
      "time_per_iteration": 2.5605788230895996
    },
    {
      "auxiliary_loss_clip": 0.01066411,
      "auxiliary_loss_mlp": 0.01022623,
      "balance_loss_clip": 1.03867865,
      "balance_loss_mlp": 1.01653099,
      "epoch": 0.39211206637407564,
      "flos": 21685367226240.0,
      "grad_norm": 3.1009926943721684,
      "language_loss": 0.85647178,
      "learning_rate": 2.7752513863209242e-06,
      "loss": 0.87736213,
      "num_input_tokens_seen": 70289600,
      "step": 3261,
      "time_per_iteration": 2.5938949584960938
    },
    {
      "auxiliary_loss_clip": 0.01081042,
      "auxiliary_loss_mlp": 0.00756726,
      "balance_loss_clip": 1.04254675,
      "balance_loss_mlp": 1.00105631,
      "epoch": 0.39223230926471475,
      "flos": 21068231276160.0,
      "grad_norm": 1.597347601025027,
      "language_loss": 0.84616995,
      "learning_rate": 2.774533258339203e-06,
      "loss": 0.86454761,
      "num_input_tokens_seen": 70307060,
      "step": 3262,
      "time_per_iteration": 2.5999560356140137
    },
    {
      "auxiliary_loss_clip": 0.01063722,
      "auxiliary_loss_mlp": 0.01023864,
      "balance_loss_clip": 1.04047656,
      "balance_loss_mlp": 1.01722074,
      "epoch": 0.3923525521553538,
      "flos": 17604938609280.0,
      "grad_norm": 2.978449755525978,
      "language_loss": 0.80506641,
      "learning_rate": 2.7738150128614014e-06,
      "loss": 0.82594228,
      "num_input_tokens_seen": 70324465,
      "step": 3263,
      "time_per_iteration": 2.5933711528778076
    },
    {
      "auxiliary_loss_clip": 0.01065183,
      "auxiliary_loss_mlp": 0.01025468,
      "balance_loss_clip": 1.03611326,
      "balance_loss_mlp": 1.01964188,
      "epoch": 0.3924727950459929,
      "flos": 20560367468160.0,
      "grad_norm": 2.552619458092536,
      "language_loss": 0.89769018,
      "learning_rate": 2.7730966499964777e-06,
      "loss": 0.91859663,
      "num_input_tokens_seen": 70341415,
      "step": 3264,
      "time_per_iteration": 2.6395983695983887
    },
    {
      "auxiliary_loss_clip": 0.01109876,
      "auxiliary_loss_mlp": 0.01022646,
      "balance_loss_clip": 1.04322553,
      "balance_loss_mlp": 1.0163933,
      "epoch": 0.39259303793663197,
      "flos": 16217930396160.0,
      "grad_norm": 2.4738711700844047,
      "language_loss": 0.80844223,
      "learning_rate": 2.772378169853408e-06,
      "loss": 0.82976747,
      "num_input_tokens_seen": 70358985,
      "step": 3265,
      "time_per_iteration": 2.488065719604492
    },
    {
      "auxiliary_loss_clip": 0.0107349,
      "auxiliary_loss_mlp": 0.01022652,
      "balance_loss_clip": 1.04341865,
      "balance_loss_mlp": 1.01657248,
      "epoch": 0.3927132808272711,
      "flos": 16798692856320.0,
      "grad_norm": 2.393658309217462,
      "language_loss": 0.74612355,
      "learning_rate": 2.771659572541183e-06,
      "loss": 0.76708496,
      "num_input_tokens_seen": 70376915,
      "step": 3266,
      "time_per_iteration": 2.624605417251587
    },
    {
      "auxiliary_loss_clip": 0.01101192,
      "auxiliary_loss_mlp": 0.01022823,
      "balance_loss_clip": 1.04614663,
      "balance_loss_mlp": 1.01690745,
      "epoch": 0.3928335237179102,
      "flos": 20269341630720.0,
      "grad_norm": 1.9527027801122847,
      "language_loss": 0.86904305,
      "learning_rate": 2.7709408581688143e-06,
      "loss": 0.89028323,
      "num_input_tokens_seen": 70396900,
      "step": 3267,
      "time_per_iteration": 3.356459140777588
    },
    {
      "auxiliary_loss_clip": 0.01077115,
      "auxiliary_loss_mlp": 0.01022245,
      "balance_loss_clip": 1.04554534,
      "balance_loss_mlp": 1.01609075,
      "epoch": 0.39295376660854925,
      "flos": 24975589438080.0,
      "grad_norm": 1.6555734383286678,
      "language_loss": 0.88011324,
      "learning_rate": 2.7702220268453307e-06,
      "loss": 0.90110683,
      "num_input_tokens_seen": 70417260,
      "step": 3268,
      "time_per_iteration": 3.446769952774048
    },
    {
      "auxiliary_loss_clip": 0.01086983,
      "auxiliary_loss_mlp": 0.01023324,
      "balance_loss_clip": 1.04313052,
      "balance_loss_mlp": 1.01720273,
      "epoch": 0.39307400949918836,
      "flos": 18699783442560.0,
      "grad_norm": 2.0634038445309058,
      "language_loss": 0.85177159,
      "learning_rate": 2.7695030786797785e-06,
      "loss": 0.87287474,
      "num_input_tokens_seen": 70433155,
      "step": 3269,
      "time_per_iteration": 2.5669353008270264
    },
    {
      "auxiliary_loss_clip": 0.01061585,
      "auxiliary_loss_mlp": 0.01020464,
      "balance_loss_clip": 1.04118419,
      "balance_loss_mlp": 1.01437545,
      "epoch": 0.39319425238982747,
      "flos": 22417463030400.0,
      "grad_norm": 2.0751432772409233,
      "language_loss": 0.74494588,
      "learning_rate": 2.7687840137812206e-06,
      "loss": 0.76576638,
      "num_input_tokens_seen": 70451240,
      "step": 3270,
      "time_per_iteration": 3.389965295791626
    },
    {
      "auxiliary_loss_clip": 0.01066013,
      "auxiliary_loss_mlp": 0.01003627,
      "balance_loss_clip": 1.04079282,
      "balance_loss_mlp": 1.00144529,
      "epoch": 0.3933144952804665,
      "flos": 66199112524800.0,
      "grad_norm": 0.803467605454354,
      "language_loss": 0.62135828,
      "learning_rate": 2.7680648322587395e-06,
      "loss": 0.64205468,
      "num_input_tokens_seen": 70516115,
      "step": 3271,
      "time_per_iteration": 3.186159610748291
    },
    {
      "auxiliary_loss_clip": 0.01112207,
      "auxiliary_loss_mlp": 0.01022909,
      "balance_loss_clip": 1.04700494,
      "balance_loss_mlp": 1.01710391,
      "epoch": 0.39343473817110564,
      "flos": 15488981792640.0,
      "grad_norm": 2.696509763447586,
      "language_loss": 0.80936575,
      "learning_rate": 2.7673455342214334e-06,
      "loss": 0.83071691,
      "num_input_tokens_seen": 70533105,
      "step": 3272,
      "time_per_iteration": 3.266563892364502
    },
    {
      "auxiliary_loss_clip": 0.01097903,
      "auxiliary_loss_mlp": 0.01021952,
      "balance_loss_clip": 1.04346347,
      "balance_loss_mlp": 1.01648068,
      "epoch": 0.39355498106174475,
      "flos": 21327054612480.0,
      "grad_norm": 2.630516666776406,
      "language_loss": 0.76070273,
      "learning_rate": 2.7666261197784198e-06,
      "loss": 0.7819013,
      "num_input_tokens_seen": 70551920,
      "step": 3273,
      "time_per_iteration": 2.5634243488311768
    },
    {
      "auxiliary_loss_clip": 0.01079371,
      "auxiliary_loss_mlp": 0.01022819,
      "balance_loss_clip": 1.04314685,
      "balance_loss_mlp": 1.017097,
      "epoch": 0.3936752239523838,
      "flos": 13297964993280.0,
      "grad_norm": 2.023374290689829,
      "language_loss": 0.76491845,
      "learning_rate": 2.7659065890388336e-06,
      "loss": 0.78594035,
      "num_input_tokens_seen": 70567920,
      "step": 3274,
      "time_per_iteration": 2.573529005050659
    },
    {
      "auxiliary_loss_clip": 0.01086644,
      "auxiliary_loss_mlp": 0.01027143,
      "balance_loss_clip": 1.0426327,
      "balance_loss_mlp": 1.02120614,
      "epoch": 0.3937954668430229,
      "flos": 16802029647360.0,
      "grad_norm": 2.9875450178920637,
      "language_loss": 0.84997088,
      "learning_rate": 2.7651869421118266e-06,
      "loss": 0.87110877,
      "num_input_tokens_seen": 70584530,
      "step": 3275,
      "time_per_iteration": 2.561732292175293
    },
    {
      "auxiliary_loss_clip": 0.01103746,
      "auxiliary_loss_mlp": 0.01021212,
      "balance_loss_clip": 1.05109739,
      "balance_loss_mlp": 1.01542377,
      "epoch": 0.393915709733662,
      "flos": 21066069945600.0,
      "grad_norm": 1.7844071350788242,
      "language_loss": 0.82837069,
      "learning_rate": 2.76446717910657e-06,
      "loss": 0.84962028,
      "num_input_tokens_seen": 70605235,
      "step": 3276,
      "time_per_iteration": 2.571890354156494
    },
    {
      "auxiliary_loss_clip": 0.01097681,
      "auxiliary_loss_mlp": 0.01021791,
      "balance_loss_clip": 1.04401791,
      "balance_loss_mlp": 1.0161525,
      "epoch": 0.3940359526243011,
      "flos": 17167167515520.0,
      "grad_norm": 3.0150688057725885,
      "language_loss": 0.76721406,
      "learning_rate": 2.763747300132249e-06,
      "loss": 0.78840882,
      "num_input_tokens_seen": 70622675,
      "step": 3277,
      "time_per_iteration": 2.5253162384033203
    },
    {
      "auxiliary_loss_clip": 0.01113444,
      "auxiliary_loss_mlp": 0.01020794,
      "balance_loss_clip": 1.04721558,
      "balance_loss_mlp": 1.01493502,
      "epoch": 0.3941561955149402,
      "flos": 20997948971520.0,
      "grad_norm": 1.5568619704070157,
      "language_loss": 0.86511678,
      "learning_rate": 2.7630273052980704e-06,
      "loss": 0.88645923,
      "num_input_tokens_seen": 70643265,
      "step": 3278,
      "time_per_iteration": 2.552044630050659
    },
    {
      "auxiliary_loss_clip": 0.01079297,
      "auxiliary_loss_mlp": 0.01021001,
      "balance_loss_clip": 1.03831398,
      "balance_loss_mlp": 1.01515079,
      "epoch": 0.39427643840557924,
      "flos": 18845391156480.0,
      "grad_norm": 8.245477511839079,
      "language_loss": 0.67315614,
      "learning_rate": 2.7623071947132554e-06,
      "loss": 0.69415915,
      "num_input_tokens_seen": 70660295,
      "step": 3279,
      "time_per_iteration": 2.5432064533233643
    },
    {
      "auxiliary_loss_clip": 0.01090828,
      "auxiliary_loss_mlp": 0.01025592,
      "balance_loss_clip": 1.04424572,
      "balance_loss_mlp": 1.01955056,
      "epoch": 0.39439668129621835,
      "flos": 23260916471040.0,
      "grad_norm": 2.5406708444976664,
      "language_loss": 0.79374021,
      "learning_rate": 2.7615869684870458e-06,
      "loss": 0.81490439,
      "num_input_tokens_seen": 70679605,
      "step": 3280,
      "time_per_iteration": 2.602673053741455
    },
    {
      "auxiliary_loss_clip": 0.01097004,
      "auxiliary_loss_mlp": 0.01022537,
      "balance_loss_clip": 1.04493785,
      "balance_loss_mlp": 1.01686585,
      "epoch": 0.39451692418685746,
      "flos": 26654761031040.0,
      "grad_norm": 1.902864747702716,
      "language_loss": 0.84969509,
      "learning_rate": 2.7608666267286986e-06,
      "loss": 0.87089038,
      "num_input_tokens_seen": 70699835,
      "step": 3281,
      "time_per_iteration": 2.584188938140869
    },
    {
      "auxiliary_loss_clip": 0.01049334,
      "auxiliary_loss_mlp": 0.01021727,
      "balance_loss_clip": 1.03878784,
      "balance_loss_mlp": 1.01561749,
      "epoch": 0.3946371670774965,
      "flos": 18260609379840.0,
      "grad_norm": 2.1501961229427904,
      "language_loss": 0.86480016,
      "learning_rate": 2.760146169547489e-06,
      "loss": 0.8855108,
      "num_input_tokens_seen": 70716600,
      "step": 3282,
      "time_per_iteration": 2.657280206680298
    },
    {
      "auxiliary_loss_clip": 0.0108959,
      "auxiliary_loss_mlp": 0.01024099,
      "balance_loss_clip": 1.04793763,
      "balance_loss_mlp": 1.01803386,
      "epoch": 0.39475740996813563,
      "flos": 24208371440640.0,
      "grad_norm": 1.6189010896912888,
      "language_loss": 0.76354373,
      "learning_rate": 2.75942559705271e-06,
      "loss": 0.7846806,
      "num_input_tokens_seen": 70736335,
      "step": 3283,
      "time_per_iteration": 2.5997960567474365
    },
    {
      "auxiliary_loss_clip": 0.01093609,
      "auxiliary_loss_mlp": 0.01025304,
      "balance_loss_clip": 1.04394245,
      "balance_loss_mlp": 1.01960003,
      "epoch": 0.39487765285877474,
      "flos": 19319877002880.0,
      "grad_norm": 1.920237943066114,
      "language_loss": 0.89096087,
      "learning_rate": 2.7587049093536713e-06,
      "loss": 0.91214997,
      "num_input_tokens_seen": 70752665,
      "step": 3284,
      "time_per_iteration": 2.5248732566833496
    },
    {
      "auxiliary_loss_clip": 0.0109863,
      "auxiliary_loss_mlp": 0.01024062,
      "balance_loss_clip": 1.04467499,
      "balance_loss_mlp": 1.01834249,
      "epoch": 0.3949978957494138,
      "flos": 17313685263360.0,
      "grad_norm": 2.0126900831124774,
      "language_loss": 0.80595034,
      "learning_rate": 2.757984106559701e-06,
      "loss": 0.82717723,
      "num_input_tokens_seen": 70771650,
      "step": 3285,
      "time_per_iteration": 2.5245230197906494
    },
    {
      "auxiliary_loss_clip": 0.01090526,
      "auxiliary_loss_mlp": 0.01023066,
      "balance_loss_clip": 1.04782057,
      "balance_loss_mlp": 1.01707864,
      "epoch": 0.3951181386400529,
      "flos": 36320695614720.0,
      "grad_norm": 2.3479446321318056,
      "language_loss": 0.71602827,
      "learning_rate": 2.7572631887801446e-06,
      "loss": 0.7371642,
      "num_input_tokens_seen": 70793275,
      "step": 3286,
      "time_per_iteration": 2.742135763168335
    },
    {
      "auxiliary_loss_clip": 0.01098634,
      "auxiliary_loss_mlp": 0.01023587,
      "balance_loss_clip": 1.04478765,
      "balance_loss_mlp": 1.01742661,
      "epoch": 0.395238381530692,
      "flos": 23112464901120.0,
      "grad_norm": 2.0556586329256543,
      "language_loss": 0.76853228,
      "learning_rate": 2.7565421561243654e-06,
      "loss": 0.78975445,
      "num_input_tokens_seen": 70811440,
      "step": 3287,
      "time_per_iteration": 2.601217746734619
    },
    {
      "auxiliary_loss_clip": 0.01077602,
      "auxiliary_loss_mlp": 0.01023147,
      "balance_loss_clip": 1.04370713,
      "balance_loss_mlp": 1.0173924,
      "epoch": 0.3953586244213311,
      "flos": 24349618575360.0,
      "grad_norm": 2.0087585705110587,
      "language_loss": 0.82234132,
      "learning_rate": 2.7558210087017413e-06,
      "loss": 0.84334886,
      "num_input_tokens_seen": 70831375,
      "step": 3288,
      "time_per_iteration": 2.621962308883667
    },
    {
      "auxiliary_loss_clip": 0.01062919,
      "auxiliary_loss_mlp": 0.01021066,
      "balance_loss_clip": 1.04036498,
      "balance_loss_mlp": 1.01497436,
      "epoch": 0.3954788673119702,
      "flos": 23442290985600.0,
      "grad_norm": 1.9684126910620174,
      "language_loss": 0.73008335,
      "learning_rate": 2.7550997466216724e-06,
      "loss": 0.75092322,
      "num_input_tokens_seen": 70849170,
      "step": 3289,
      "time_per_iteration": 2.6297128200531006
    },
    {
      "auxiliary_loss_clip": 0.0107696,
      "auxiliary_loss_mlp": 0.01022158,
      "balance_loss_clip": 1.04189992,
      "balance_loss_mlp": 1.01625466,
      "epoch": 0.3955991102026093,
      "flos": 17496007729920.0,
      "grad_norm": 2.2632518440195852,
      "language_loss": 0.80906862,
      "learning_rate": 2.7543783699935714e-06,
      "loss": 0.83005983,
      "num_input_tokens_seen": 70867200,
      "step": 3290,
      "time_per_iteration": 2.544602394104004
    },
    {
      "auxiliary_loss_clip": 0.01100541,
      "auxiliary_loss_mlp": 0.01021508,
      "balance_loss_clip": 1.04865885,
      "balance_loss_mlp": 1.0153569,
      "epoch": 0.39571935309324835,
      "flos": 18223174183680.0,
      "grad_norm": 4.729355564812656,
      "language_loss": 0.86609113,
      "learning_rate": 2.753656878926872e-06,
      "loss": 0.88731164,
      "num_input_tokens_seen": 70883080,
      "step": 3291,
      "time_per_iteration": 2.5257208347320557
    },
    {
      "auxiliary_loss_clip": 0.01085249,
      "auxiliary_loss_mlp": 0.01021137,
      "balance_loss_clip": 1.04174256,
      "balance_loss_mlp": 1.01516807,
      "epoch": 0.39583959598388746,
      "flos": 17750735913600.0,
      "grad_norm": 1.8917065157310875,
      "language_loss": 0.74338084,
      "learning_rate": 2.752935273531023e-06,
      "loss": 0.76444471,
      "num_input_tokens_seen": 70901230,
      "step": 3292,
      "time_per_iteration": 2.5357611179351807
    },
    {
      "auxiliary_loss_clip": 0.01098439,
      "auxiliary_loss_mlp": 0.01022846,
      "balance_loss_clip": 1.04412317,
      "balance_loss_mlp": 1.01623631,
      "epoch": 0.39595983887452657,
      "flos": 19354278752640.0,
      "grad_norm": 1.8802748738117117,
      "language_loss": 0.78857654,
      "learning_rate": 2.752213553915492e-06,
      "loss": 0.80978942,
      "num_input_tokens_seen": 70919585,
      "step": 3293,
      "time_per_iteration": 3.3206591606140137
    },
    {
      "auxiliary_loss_clip": 0.01065003,
      "auxiliary_loss_mlp": 0.0100429,
      "balance_loss_clip": 1.04921389,
      "balance_loss_mlp": 1.00206053,
      "epoch": 0.3960800817651656,
      "flos": 60688059851520.0,
      "grad_norm": 0.8162341434598355,
      "language_loss": 0.66015506,
      "learning_rate": 2.751491720189762e-06,
      "loss": 0.680848,
      "num_input_tokens_seen": 70977695,
      "step": 3294,
      "time_per_iteration": 3.869413375854492
    },
    {
      "auxiliary_loss_clip": 0.0108723,
      "auxiliary_loss_mlp": 0.00756801,
      "balance_loss_clip": 1.04639041,
      "balance_loss_mlp": 1.00144553,
      "epoch": 0.39620032465580474,
      "flos": 16838592727680.0,
      "grad_norm": 2.212520967167053,
      "language_loss": 0.91898406,
      "learning_rate": 2.7507697724633364e-06,
      "loss": 0.93742442,
      "num_input_tokens_seen": 70994455,
      "step": 3295,
      "time_per_iteration": 2.5504977703094482
    },
    {
      "auxiliary_loss_clip": 0.01051191,
      "auxiliary_loss_mlp": 0.01007227,
      "balance_loss_clip": 1.05561793,
      "balance_loss_mlp": 1.00504577,
      "epoch": 0.3963205675464438,
      "flos": 69077547578880.0,
      "grad_norm": 0.7793385579168443,
      "language_loss": 0.54592228,
      "learning_rate": 2.7500477108457327e-06,
      "loss": 0.56650645,
      "num_input_tokens_seen": 71046465,
      "step": 3296,
      "time_per_iteration": 3.006211757659912
    },
    {
      "auxiliary_loss_clip": 0.01097129,
      "auxiliary_loss_mlp": 0.01021835,
      "balance_loss_clip": 1.0444783,
      "balance_loss_mlp": 1.01576746,
      "epoch": 0.3964408104370829,
      "flos": 25669870865280.0,
      "grad_norm": 4.346510533815177,
      "language_loss": 0.80958748,
      "learning_rate": 2.7493255354464877e-06,
      "loss": 0.83077711,
      "num_input_tokens_seen": 71064275,
      "step": 3297,
      "time_per_iteration": 4.12228536605835
    },
    {
      "auxiliary_loss_clip": 0.01012557,
      "auxiliary_loss_mlp": 0.01019424,
      "balance_loss_clip": 1.03680122,
      "balance_loss_mlp": 1.01377964,
      "epoch": 0.396561053327722,
      "flos": 24279639615360.0,
      "grad_norm": 1.9376539166615083,
      "language_loss": 0.76019037,
      "learning_rate": 2.748603246375156e-06,
      "loss": 0.78051019,
      "num_input_tokens_seen": 71082290,
      "step": 3298,
      "time_per_iteration": 3.0245556831359863
    },
    {
      "auxiliary_loss_clip": 0.01114287,
      "auxiliary_loss_mlp": 0.01023542,
      "balance_loss_clip": 1.04855895,
      "balance_loss_mlp": 1.01773334,
      "epoch": 0.39668129621836107,
      "flos": 20524411077120.0,
      "grad_norm": 2.1538023292228727,
      "language_loss": 0.70103562,
      "learning_rate": 2.7478808437413055e-06,
      "loss": 0.7224139,
      "num_input_tokens_seen": 71101700,
      "step": 3299,
      "time_per_iteration": 3.1435294151306152
    },
    {
      "auxiliary_loss_clip": 0.01050934,
      "auxiliary_loss_mlp": 0.01020311,
      "balance_loss_clip": 1.03803456,
      "balance_loss_mlp": 1.01440442,
      "epoch": 0.3968015391090002,
      "flos": 27055021092480.0,
      "grad_norm": 1.686149693271033,
      "language_loss": 0.66008806,
      "learning_rate": 2.7471583276545263e-06,
      "loss": 0.68080044,
      "num_input_tokens_seen": 71122360,
      "step": 3300,
      "time_per_iteration": 2.7279903888702393
    },
    {
      "auxiliary_loss_clip": 0.01085748,
      "auxiliary_loss_mlp": 0.01024967,
      "balance_loss_clip": 1.04466414,
      "balance_loss_mlp": 1.01915884,
      "epoch": 0.3969217819996393,
      "flos": 12533477097600.0,
      "grad_norm": 2.9659092263688636,
      "language_loss": 0.71029246,
      "learning_rate": 2.7464356982244224e-06,
      "loss": 0.73139954,
      "num_input_tokens_seen": 71140360,
      "step": 3301,
      "time_per_iteration": 2.602703094482422
    },
    {
      "auxiliary_loss_clip": 0.01073932,
      "auxiliary_loss_mlp": 0.01008997,
      "balance_loss_clip": 1.05814862,
      "balance_loss_mlp": 1.00691116,
      "epoch": 0.39704202489027834,
      "flos": 66248226489600.0,
      "grad_norm": 0.8590260862328771,
      "language_loss": 0.61716044,
      "learning_rate": 2.745712955560617e-06,
      "loss": 0.63798976,
      "num_input_tokens_seen": 71196565,
      "step": 3302,
      "time_per_iteration": 3.0998222827911377
    },
    {
      "auxiliary_loss_clip": 0.01048282,
      "auxiliary_loss_mlp": 0.01018628,
      "balance_loss_clip": 1.03968716,
      "balance_loss_mlp": 1.01240826,
      "epoch": 0.39716226778091746,
      "flos": 16984882967040.0,
      "grad_norm": 3.1076307368050053,
      "language_loss": 0.77393198,
      "learning_rate": 2.7449900997727496e-06,
      "loss": 0.79460108,
      "num_input_tokens_seen": 71214675,
      "step": 3303,
      "time_per_iteration": 2.655752420425415
    },
    {
      "auxiliary_loss_clip": 0.0107793,
      "auxiliary_loss_mlp": 0.01023414,
      "balance_loss_clip": 1.0428139,
      "balance_loss_mlp": 1.01813579,
      "epoch": 0.39728251067155657,
      "flos": 23479384919040.0,
      "grad_norm": 1.684525033123367,
      "language_loss": 0.84498978,
      "learning_rate": 2.744267130970476e-06,
      "loss": 0.86600316,
      "num_input_tokens_seen": 71234400,
      "step": 3304,
      "time_per_iteration": 2.6145873069763184
    },
    {
      "auxiliary_loss_clip": 0.01089237,
      "auxiliary_loss_mlp": 0.01023205,
      "balance_loss_clip": 1.04615796,
      "balance_loss_mlp": 1.01717949,
      "epoch": 0.3974027535621956,
      "flos": 20706543953280.0,
      "grad_norm": 1.8725660955748673,
      "language_loss": 0.77180207,
      "learning_rate": 2.7435440492634697e-06,
      "loss": 0.79292655,
      "num_input_tokens_seen": 71253725,
      "step": 3305,
      "time_per_iteration": 2.597198963165283
    },
    {
      "auxiliary_loss_clip": 0.01078092,
      "auxiliary_loss_mlp": 0.01022672,
      "balance_loss_clip": 1.04085231,
      "balance_loss_mlp": 1.01624084,
      "epoch": 0.39752299645283473,
      "flos": 21545409306240.0,
      "grad_norm": 2.0112092533174404,
      "language_loss": 0.67401111,
      "learning_rate": 2.7428208547614228e-06,
      "loss": 0.69501877,
      "num_input_tokens_seen": 71273220,
      "step": 3306,
      "time_per_iteration": 2.5738308429718018
    },
    {
      "auxiliary_loss_clip": 0.01099688,
      "auxiliary_loss_mlp": 0.01024628,
      "balance_loss_clip": 1.04564834,
      "balance_loss_mlp": 1.01880813,
      "epoch": 0.39764323934347384,
      "flos": 19210301516160.0,
      "grad_norm": 3.5909931114137525,
      "language_loss": 0.77750522,
      "learning_rate": 2.742097547574043e-06,
      "loss": 0.79874843,
      "num_input_tokens_seen": 71291445,
      "step": 3307,
      "time_per_iteration": 2.546701192855835
    },
    {
      "auxiliary_loss_clip": 0.01088877,
      "auxiliary_loss_mlp": 0.00756846,
      "balance_loss_clip": 1.04502261,
      "balance_loss_mlp": 1.00148416,
      "epoch": 0.3977634822341129,
      "flos": 20852303339520.0,
      "grad_norm": 2.536302594075246,
      "language_loss": 0.77995694,
      "learning_rate": 2.7413741278110544e-06,
      "loss": 0.79841411,
      "num_input_tokens_seen": 71310135,
      "step": 3308,
      "time_per_iteration": 2.5933165550231934
    },
    {
      "auxiliary_loss_clip": 0.01087623,
      "auxiliary_loss_mlp": 0.01025314,
      "balance_loss_clip": 1.04508996,
      "balance_loss_mlp": 1.01895666,
      "epoch": 0.397883725124752,
      "flos": 39789183058560.0,
      "grad_norm": 2.2684435495995436,
      "language_loss": 0.68916744,
      "learning_rate": 2.7406505955822016e-06,
      "loss": 0.71029675,
      "num_input_tokens_seen": 71331160,
      "step": 3309,
      "time_per_iteration": 2.7389917373657227
    },
    {
      "auxiliary_loss_clip": 0.01093365,
      "auxiliary_loss_mlp": 0.01024932,
      "balance_loss_clip": 1.04695964,
      "balance_loss_mlp": 1.01889122,
      "epoch": 0.39800396801539106,
      "flos": 17381161630080.0,
      "grad_norm": 2.3906900551109005,
      "language_loss": 0.66433477,
      "learning_rate": 2.7399269509972415e-06,
      "loss": 0.68551767,
      "num_input_tokens_seen": 71345315,
      "step": 3310,
      "time_per_iteration": 2.5524938106536865
    },
    {
      "auxiliary_loss_clip": 0.01092235,
      "auxiliary_loss_mlp": 0.01023088,
      "balance_loss_clip": 1.04371476,
      "balance_loss_mlp": 1.01648355,
      "epoch": 0.3981242109060302,
      "flos": 19204462131840.0,
      "grad_norm": 2.437965990420176,
      "language_loss": 0.8571372,
      "learning_rate": 2.7392031941659514e-06,
      "loss": 0.87829041,
      "num_input_tokens_seen": 71363160,
      "step": 3311,
      "time_per_iteration": 2.561729669570923
    },
    {
      "auxiliary_loss_clip": 0.01087159,
      "auxiliary_loss_mlp": 0.01026698,
      "balance_loss_clip": 1.0467155,
      "balance_loss_mlp": 1.0206039,
      "epoch": 0.3982444537966693,
      "flos": 24567063235200.0,
      "grad_norm": 3.053518739033586,
      "language_loss": 0.86053026,
      "learning_rate": 2.7384793251981244e-06,
      "loss": 0.88166881,
      "num_input_tokens_seen": 71382145,
      "step": 3312,
      "time_per_iteration": 2.6290342807769775
    },
    {
      "auxiliary_loss_clip": 0.01100802,
      "auxiliary_loss_mlp": 0.01021522,
      "balance_loss_clip": 1.04399002,
      "balance_loss_mlp": 1.01609206,
      "epoch": 0.39836469668730834,
      "flos": 26216269493760.0,
      "grad_norm": 1.97015441883614,
      "language_loss": 0.80829579,
      "learning_rate": 2.737755344203571e-06,
      "loss": 0.82951903,
      "num_input_tokens_seen": 71402095,
      "step": 3313,
      "time_per_iteration": 2.5830564498901367
    },
    {
      "auxiliary_loss_clip": 0.011002,
      "auxiliary_loss_mlp": 0.01024368,
      "balance_loss_clip": 1.04605627,
      "balance_loss_mlp": 1.01855636,
      "epoch": 0.39848493957794745,
      "flos": 27638589490560.0,
      "grad_norm": 1.9037562036143747,
      "language_loss": 0.79913902,
      "learning_rate": 2.7370312512921186e-06,
      "loss": 0.82038474,
      "num_input_tokens_seen": 71423875,
      "step": 3314,
      "time_per_iteration": 2.616374969482422
    },
    {
      "auxiliary_loss_clip": 0.0108758,
      "auxiliary_loss_mlp": 0.01025397,
      "balance_loss_clip": 1.04376054,
      "balance_loss_mlp": 1.01848006,
      "epoch": 0.39860518246858656,
      "flos": 12240934536960.0,
      "grad_norm": 2.108930464937447,
      "language_loss": 0.77247518,
      "learning_rate": 2.736307046573611e-06,
      "loss": 0.79360497,
      "num_input_tokens_seen": 71439745,
      "step": 3315,
      "time_per_iteration": 2.533860921859741
    },
    {
      "auxiliary_loss_clip": 0.0111105,
      "auxiliary_loss_mlp": 0.01020601,
      "balance_loss_clip": 1.04559398,
      "balance_loss_mlp": 1.0152787,
      "epoch": 0.3987254253592256,
      "flos": 22381127458560.0,
      "grad_norm": 1.5951814862314042,
      "language_loss": 0.81971276,
      "learning_rate": 2.73558273015791e-06,
      "loss": 0.84102917,
      "num_input_tokens_seen": 71459575,
      "step": 3316,
      "time_per_iteration": 2.5248467922210693
    },
    {
      "auxiliary_loss_clip": 0.01112639,
      "auxiliary_loss_mlp": 0.01024296,
      "balance_loss_clip": 1.04674089,
      "balance_loss_mlp": 1.01772439,
      "epoch": 0.3988456682498647,
      "flos": 23516289262080.0,
      "grad_norm": 2.0285353070067207,
      "language_loss": 0.70826048,
      "learning_rate": 2.734858302154894e-06,
      "loss": 0.72962987,
      "num_input_tokens_seen": 71481075,
      "step": 3317,
      "time_per_iteration": 2.5163302421569824
    },
    {
      "auxiliary_loss_clip": 0.0108039,
      "auxiliary_loss_mlp": 0.01024314,
      "balance_loss_clip": 1.04179406,
      "balance_loss_mlp": 1.01844883,
      "epoch": 0.39896591114050384,
      "flos": 19210794451200.0,
      "grad_norm": 2.1949782438870367,
      "language_loss": 0.76405287,
      "learning_rate": 2.734133762674457e-06,
      "loss": 0.78509998,
      "num_input_tokens_seen": 71500665,
      "step": 3318,
      "time_per_iteration": 2.5823850631713867
    },
    {
      "auxiliary_loss_clip": 0.01086243,
      "auxiliary_loss_mlp": 0.01024806,
      "balance_loss_clip": 1.04332638,
      "balance_loss_mlp": 1.01861024,
      "epoch": 0.3990861540311429,
      "flos": 28403456567040.0,
      "grad_norm": 1.9565389540007594,
      "language_loss": 0.7056995,
      "learning_rate": 2.7334091118265124e-06,
      "loss": 0.72680998,
      "num_input_tokens_seen": 71522560,
      "step": 3319,
      "time_per_iteration": 3.651559829711914
    },
    {
      "auxiliary_loss_clip": 0.01078602,
      "auxiliary_loss_mlp": 0.0100836,
      "balance_loss_clip": 1.05225968,
      "balance_loss_mlp": 1.00620198,
      "epoch": 0.399206396921782,
      "flos": 61765414398720.0,
      "grad_norm": 0.6860942345949188,
      "language_loss": 0.57798904,
      "learning_rate": 2.732684349720989e-06,
      "loss": 0.59885865,
      "num_input_tokens_seen": 71590520,
      "step": 3320,
      "time_per_iteration": 3.9163308143615723
    },
    {
      "auxiliary_loss_clip": 0.01067885,
      "auxiliary_loss_mlp": 0.01019762,
      "balance_loss_clip": 1.04048181,
      "balance_loss_mlp": 1.01407599,
      "epoch": 0.3993266398124211,
      "flos": 28077081027840.0,
      "grad_norm": 1.7853274942098292,
      "language_loss": 0.7552073,
      "learning_rate": 2.7319594764678318e-06,
      "loss": 0.77608383,
      "num_input_tokens_seen": 71612620,
      "step": 3321,
      "time_per_iteration": 2.739490509033203
    },
    {
      "auxiliary_loss_clip": 0.01056535,
      "auxiliary_loss_mlp": 0.0102459,
      "balance_loss_clip": 1.04060817,
      "balance_loss_mlp": 1.01804852,
      "epoch": 0.39944688270306017,
      "flos": 23227500591360.0,
      "grad_norm": 3.1483361447144262,
      "language_loss": 0.8333388,
      "learning_rate": 2.7312344921770044e-06,
      "loss": 0.85415006,
      "num_input_tokens_seen": 71634320,
      "step": 3322,
      "time_per_iteration": 2.673438787460327
    },
    {
      "auxiliary_loss_clip": 0.01090896,
      "auxiliary_loss_mlp": 0.01024836,
      "balance_loss_clip": 1.04496348,
      "balance_loss_mlp": 1.0190928,
      "epoch": 0.3995671255936993,
      "flos": 19392434392320.0,
      "grad_norm": 2.008145824920525,
      "language_loss": 0.78860247,
      "learning_rate": 2.7305093969584857e-06,
      "loss": 0.8097598,
      "num_input_tokens_seen": 71653145,
      "step": 3323,
      "time_per_iteration": 3.4381377696990967
    },
    {
      "auxiliary_loss_clip": 0.01100256,
      "auxiliary_loss_mlp": 0.01023276,
      "balance_loss_clip": 1.04488051,
      "balance_loss_mlp": 1.01741672,
      "epoch": 0.3996873684843384,
      "flos": 23844939886080.0,
      "grad_norm": 1.9372548205488913,
      "language_loss": 0.79930669,
      "learning_rate": 2.729784190922272e-06,
      "loss": 0.82054198,
      "num_input_tokens_seen": 71674580,
      "step": 3324,
      "time_per_iteration": 2.5751953125
    },
    {
      "auxiliary_loss_clip": 0.01065793,
      "auxiliary_loss_mlp": 0.01003507,
      "balance_loss_clip": 1.05114841,
      "balance_loss_mlp": 1.00144517,
      "epoch": 0.39980761137497745,
      "flos": 66584119466880.0,
      "grad_norm": 0.940737744519077,
      "language_loss": 0.57144892,
      "learning_rate": 2.729058874178378e-06,
      "loss": 0.59214187,
      "num_input_tokens_seen": 71745260,
      "step": 3325,
      "time_per_iteration": 3.24048113822937
    },
    {
      "auxiliary_loss_clip": 0.01086728,
      "auxiliary_loss_mlp": 0.01025351,
      "balance_loss_clip": 1.04524541,
      "balance_loss_mlp": 1.01915538,
      "epoch": 0.39992785426561656,
      "flos": 28551718546560.0,
      "grad_norm": 1.8137075469077004,
      "language_loss": 0.69656157,
      "learning_rate": 2.7283334468368315e-06,
      "loss": 0.71768236,
      "num_input_tokens_seen": 71766540,
      "step": 3326,
      "time_per_iteration": 2.6617305278778076
    },
    {
      "auxiliary_loss_clip": 0.01026358,
      "auxiliary_loss_mlp": 0.01022481,
      "balance_loss_clip": 1.03682137,
      "balance_loss_mlp": 1.0161835,
      "epoch": 0.4000480971562556,
      "flos": 15051210698880.0,
      "grad_norm": 3.786529356162749,
      "language_loss": 0.73599315,
      "learning_rate": 2.72760790900768e-06,
      "loss": 0.75648153,
      "num_input_tokens_seen": 71783125,
      "step": 3327,
      "time_per_iteration": 2.764918804168701
    },
    {
      "auxiliary_loss_clip": 0.01111575,
      "auxiliary_loss_mlp": 0.01027123,
      "balance_loss_clip": 1.04553246,
      "balance_loss_mlp": 1.02109385,
      "epoch": 0.4001683400468947,
      "flos": 23917914374400.0,
      "grad_norm": 1.8277411993350208,
      "language_loss": 0.78804511,
      "learning_rate": 2.7268822608009875e-06,
      "loss": 0.80943209,
      "num_input_tokens_seen": 71802500,
      "step": 3328,
      "time_per_iteration": 2.9546172618865967
    },
    {
      "auxiliary_loss_clip": 0.01075369,
      "auxiliary_loss_mlp": 0.01025495,
      "balance_loss_clip": 1.04317784,
      "balance_loss_mlp": 1.01956713,
      "epoch": 0.40028858293753383,
      "flos": 24354965024640.0,
      "grad_norm": 2.6031301631453148,
      "language_loss": 0.78209758,
      "learning_rate": 2.726156502326834e-06,
      "loss": 0.80310625,
      "num_input_tokens_seen": 71823800,
      "step": 3329,
      "time_per_iteration": 2.708719491958618
    },
    {
      "auxiliary_loss_clip": 0.01029943,
      "auxiliary_loss_mlp": 0.01006558,
      "balance_loss_clip": 1.0557164,
      "balance_loss_mlp": 1.00446022,
      "epoch": 0.4004088258281729,
      "flos": 66793790920320.0,
      "grad_norm": 0.698244168257732,
      "language_loss": 0.60238123,
      "learning_rate": 2.725430633695316e-06,
      "loss": 0.62274623,
      "num_input_tokens_seen": 71886880,
      "step": 3330,
      "time_per_iteration": 3.2822186946868896
    },
    {
      "auxiliary_loss_clip": 0.01085833,
      "auxiliary_loss_mlp": 0.01002758,
      "balance_loss_clip": 1.04976106,
      "balance_loss_mlp": 1.00068402,
      "epoch": 0.400529068718812,
      "flos": 58603812600960.0,
      "grad_norm": 0.9066438465585037,
      "language_loss": 0.57911968,
      "learning_rate": 2.7247046550165485e-06,
      "loss": 0.60000563,
      "num_input_tokens_seen": 71939005,
      "step": 3331,
      "time_per_iteration": 2.9688236713409424
    },
    {
      "auxiliary_loss_clip": 0.01112431,
      "auxiliary_loss_mlp": 0.01026546,
      "balance_loss_clip": 1.04759324,
      "balance_loss_mlp": 1.02040386,
      "epoch": 0.4006493116094511,
      "flos": 25379982570240.0,
      "grad_norm": 1.4851831760416574,
      "language_loss": 0.7632578,
      "learning_rate": 2.7239785664006606e-06,
      "loss": 0.78464758,
      "num_input_tokens_seen": 71962545,
      "step": 3332,
      "time_per_iteration": 2.6016805171966553
    },
    {
      "auxiliary_loss_clip": 0.01075661,
      "auxiliary_loss_mlp": 0.01004145,
      "balance_loss_clip": 1.04928875,
      "balance_loss_mlp": 1.00207126,
      "epoch": 0.40076955450009016,
      "flos": 60286472657280.0,
      "grad_norm": 0.7655614079099226,
      "language_loss": 0.61773694,
      "learning_rate": 2.7232523679578002e-06,
      "loss": 0.63853502,
      "num_input_tokens_seen": 72025625,
      "step": 3333,
      "time_per_iteration": 3.198453664779663
    },
    {
      "auxiliary_loss_clip": 0.01096562,
      "auxiliary_loss_mlp": 0.01017752,
      "balance_loss_clip": 1.04456735,
      "balance_loss_mlp": 1.01210797,
      "epoch": 0.4008897973907293,
      "flos": 16619100491520.0,
      "grad_norm": 2.1179058561899216,
      "language_loss": 0.79738474,
      "learning_rate": 2.7225260597981295e-06,
      "loss": 0.81852782,
      "num_input_tokens_seen": 72043330,
      "step": 3334,
      "time_per_iteration": 2.5676164627075195
    },
    {
      "auxiliary_loss_clip": 0.01061543,
      "auxiliary_loss_mlp": 0.00757081,
      "balance_loss_clip": 1.03795767,
      "balance_loss_mlp": 1.00160551,
      "epoch": 0.4010100402813684,
      "flos": 15379140879360.0,
      "grad_norm": 2.5125072794455674,
      "language_loss": 0.78134799,
      "learning_rate": 2.721799642031831e-06,
      "loss": 0.79953426,
      "num_input_tokens_seen": 72059500,
      "step": 3335,
      "time_per_iteration": 2.5739645957946777
    },
    {
      "auxiliary_loss_clip": 0.0109071,
      "auxiliary_loss_mlp": 0.01024862,
      "balance_loss_clip": 1.04448617,
      "balance_loss_mlp": 1.01897907,
      "epoch": 0.40113028317200744,
      "flos": 13300581340800.0,
      "grad_norm": 2.4244239217218007,
      "language_loss": 0.77771723,
      "learning_rate": 2.721073114769101e-06,
      "loss": 0.79887295,
      "num_input_tokens_seen": 72077175,
      "step": 3336,
      "time_per_iteration": 2.6083712577819824
    },
    {
      "auxiliary_loss_clip": 0.01069632,
      "auxiliary_loss_mlp": 0.01024188,
      "balance_loss_clip": 1.04146898,
      "balance_loss_mlp": 1.0185976,
      "epoch": 0.40125052606264655,
      "flos": 20670132545280.0,
      "grad_norm": 2.666187950240276,
      "language_loss": 0.75120127,
      "learning_rate": 2.7203464781201523e-06,
      "loss": 0.77213943,
      "num_input_tokens_seen": 72096490,
      "step": 3337,
      "time_per_iteration": 2.600527048110962
    },
    {
      "auxiliary_loss_clip": 0.01112703,
      "auxiliary_loss_mlp": 0.01026947,
      "balance_loss_clip": 1.04653525,
      "balance_loss_mlp": 1.02100432,
      "epoch": 0.40137076895328566,
      "flos": 24609958634880.0,
      "grad_norm": 1.8095853556759933,
      "language_loss": 0.78190809,
      "learning_rate": 2.719619732195215e-06,
      "loss": 0.80330461,
      "num_input_tokens_seen": 72118130,
      "step": 3338,
      "time_per_iteration": 2.5882790088653564
    },
    {
      "auxiliary_loss_clip": 0.01070627,
      "auxiliary_loss_mlp": 0.01023689,
      "balance_loss_clip": 1.04105461,
      "balance_loss_mlp": 1.01774907,
      "epoch": 0.4014910118439247,
      "flos": 24208864375680.0,
      "grad_norm": 1.4454211013898837,
      "language_loss": 0.72799522,
      "learning_rate": 2.7188928771045377e-06,
      "loss": 0.74893838,
      "num_input_tokens_seen": 72139450,
      "step": 3339,
      "time_per_iteration": 2.6376211643218994
    },
    {
      "auxiliary_loss_clip": 0.01073305,
      "auxiliary_loss_mlp": 0.01020035,
      "balance_loss_clip": 1.04122889,
      "balance_loss_mlp": 1.01421452,
      "epoch": 0.4016112547345638,
      "flos": 26727545928960.0,
      "grad_norm": 1.6368795448823514,
      "language_loss": 0.80196726,
      "learning_rate": 2.7181659129583815e-06,
      "loss": 0.82290065,
      "num_input_tokens_seen": 72159040,
      "step": 3340,
      "time_per_iteration": 2.702481269836426
    },
    {
      "auxiliary_loss_clip": 0.01088896,
      "auxiliary_loss_mlp": 0.01022135,
      "balance_loss_clip": 1.04250169,
      "balance_loss_mlp": 1.0164305,
      "epoch": 0.4017314976252029,
      "flos": 21290150269440.0,
      "grad_norm": 1.854435049702638,
      "language_loss": 0.75974846,
      "learning_rate": 2.7174388398670276e-06,
      "loss": 0.78085876,
      "num_input_tokens_seen": 72178220,
      "step": 3341,
      "time_per_iteration": 2.5805346965789795
    },
    {
      "auxiliary_loss_clip": 0.01109665,
      "auxiliary_loss_mlp": 0.01025371,
      "balance_loss_clip": 1.04335403,
      "balance_loss_mlp": 1.01959872,
      "epoch": 0.401851740515842,
      "flos": 25487093381760.0,
      "grad_norm": 2.240915002364962,
      "language_loss": 0.92096865,
      "learning_rate": 2.716711657940773e-06,
      "loss": 0.94231892,
      "num_input_tokens_seen": 72199230,
      "step": 3342,
      "time_per_iteration": 2.5929529666900635
    },
    {
      "auxiliary_loss_clip": 0.01045958,
      "auxiliary_loss_mlp": 0.01009531,
      "balance_loss_clip": 1.04211164,
      "balance_loss_mlp": 1.00738525,
      "epoch": 0.4019719834064811,
      "flos": 55401011665920.0,
      "grad_norm": 0.8096224301227416,
      "language_loss": 0.56495005,
      "learning_rate": 2.7159843672899284e-06,
      "loss": 0.58550495,
      "num_input_tokens_seen": 72263430,
      "step": 3343,
      "time_per_iteration": 3.3519840240478516
    },
    {
      "auxiliary_loss_clip": 0.01101452,
      "auxiliary_loss_mlp": 0.01024681,
      "balance_loss_clip": 1.04675925,
      "balance_loss_mlp": 1.01838374,
      "epoch": 0.40209222629712016,
      "flos": 18181681752960.0,
      "grad_norm": 2.204433733412373,
      "language_loss": 0.81369603,
      "learning_rate": 2.715256968024825e-06,
      "loss": 0.83495736,
      "num_input_tokens_seen": 72280505,
      "step": 3344,
      "time_per_iteration": 3.6214728355407715
    },
    {
      "auxiliary_loss_clip": 0.01085785,
      "auxiliary_loss_mlp": 0.01023112,
      "balance_loss_clip": 1.04365718,
      "balance_loss_mlp": 1.01709533,
      "epoch": 0.40221246918775927,
      "flos": 25963550968320.0,
      "grad_norm": 1.7275751693646055,
      "language_loss": 0.82173449,
      "learning_rate": 2.7145294602558083e-06,
      "loss": 0.84282345,
      "num_input_tokens_seen": 72301215,
      "step": 3345,
      "time_per_iteration": 2.727304220199585
    },
    {
      "auxiliary_loss_clip": 0.01097601,
      "auxiliary_loss_mlp": 0.01022184,
      "balance_loss_clip": 1.04402339,
      "balance_loss_mlp": 1.01593423,
      "epoch": 0.4023327120783984,
      "flos": 33841724342400.0,
      "grad_norm": 2.318469493129112,
      "language_loss": 0.71066648,
      "learning_rate": 2.713801844093241e-06,
      "loss": 0.73186433,
      "num_input_tokens_seen": 72322365,
      "step": 3346,
      "time_per_iteration": 3.4210641384124756
    },
    {
      "auxiliary_loss_clip": 0.01098979,
      "auxiliary_loss_mlp": 0.01028103,
      "balance_loss_clip": 1.04586673,
      "balance_loss_mlp": 1.02238071,
      "epoch": 0.40245295496903744,
      "flos": 26902322697600.0,
      "grad_norm": 2.55901799008862,
      "language_loss": 0.8815583,
      "learning_rate": 2.7130741196475014e-06,
      "loss": 0.90282905,
      "num_input_tokens_seen": 72340495,
      "step": 3347,
      "time_per_iteration": 2.6186420917510986
    },
    {
      "auxiliary_loss_clip": 0.01077108,
      "auxiliary_loss_mlp": 0.01025965,
      "balance_loss_clip": 1.04008079,
      "balance_loss_mlp": 1.01946235,
      "epoch": 0.40257319785967655,
      "flos": 36905666981760.0,
      "grad_norm": 5.166715152288127,
      "language_loss": 0.79252744,
      "learning_rate": 2.7123462870289848e-06,
      "loss": 0.81355822,
      "num_input_tokens_seen": 72360545,
      "step": 3348,
      "time_per_iteration": 3.566730260848999
    },
    {
      "auxiliary_loss_clip": 0.01085561,
      "auxiliary_loss_mlp": 0.0102282,
      "balance_loss_clip": 1.04162192,
      "balance_loss_mlp": 1.01693439,
      "epoch": 0.40269344075031566,
      "flos": 24355495877760.0,
      "grad_norm": 1.5824521548787778,
      "language_loss": 0.81312436,
      "learning_rate": 2.711618346348102e-06,
      "loss": 0.83420819,
      "num_input_tokens_seen": 72381070,
      "step": 3349,
      "time_per_iteration": 2.605435609817505
    },
    {
      "auxiliary_loss_clip": 0.01078942,
      "auxiliary_loss_mlp": 0.01026578,
      "balance_loss_clip": 1.03869724,
      "balance_loss_mlp": 1.02065277,
      "epoch": 0.4028136836409547,
      "flos": 14391255185280.0,
      "grad_norm": 1.8729080896815546,
      "language_loss": 0.63734043,
      "learning_rate": 2.7108902977152825e-06,
      "loss": 0.65839565,
      "num_input_tokens_seen": 72398970,
      "step": 3350,
      "time_per_iteration": 2.5870420932769775
    },
    {
      "auxiliary_loss_clip": 0.01101211,
      "auxiliary_loss_mlp": 0.01020898,
      "balance_loss_clip": 1.04590273,
      "balance_loss_mlp": 1.01504147,
      "epoch": 0.4029339265315938,
      "flos": 26138176064640.0,
      "grad_norm": 2.9249345994702183,
      "language_loss": 0.75096548,
      "learning_rate": 2.7101621412409704e-06,
      "loss": 0.77218664,
      "num_input_tokens_seen": 72418455,
      "step": 3351,
      "time_per_iteration": 2.574993371963501
    },
    {
      "auxiliary_loss_clip": 0.01111794,
      "auxiliary_loss_mlp": 0.01026678,
      "balance_loss_clip": 1.04542708,
      "balance_loss_mlp": 1.02063406,
      "epoch": 0.40305416942223293,
      "flos": 23258451795840.0,
      "grad_norm": 1.8801181278758867,
      "language_loss": 0.8596645,
      "learning_rate": 2.7094338770356256e-06,
      "loss": 0.88104922,
      "num_input_tokens_seen": 72437540,
      "step": 3352,
      "time_per_iteration": 2.5694894790649414
    },
    {
      "auxiliary_loss_clip": 0.01081073,
      "auxiliary_loss_mlp": 0.01023367,
      "balance_loss_clip": 1.04195368,
      "balance_loss_mlp": 1.0175879,
      "epoch": 0.403174412312872,
      "flos": 27092115025920.0,
      "grad_norm": 1.8616714775811345,
      "language_loss": 0.6439712,
      "learning_rate": 2.708705505209726e-06,
      "loss": 0.66501558,
      "num_input_tokens_seen": 72458315,
      "step": 3353,
      "time_per_iteration": 2.6090333461761475
    },
    {
      "auxiliary_loss_clip": 0.01064004,
      "auxiliary_loss_mlp": 0.01019776,
      "balance_loss_clip": 1.04139316,
      "balance_loss_mlp": 1.01412261,
      "epoch": 0.4032946552035111,
      "flos": 21758152124160.0,
      "grad_norm": 2.020580929543198,
      "language_loss": 0.91768515,
      "learning_rate": 2.7079770258737646e-06,
      "loss": 0.93852293,
      "num_input_tokens_seen": 72476225,
      "step": 3354,
      "time_per_iteration": 2.6755499839782715
    },
    {
      "auxiliary_loss_clip": 0.01075964,
      "auxiliary_loss_mlp": 0.01025859,
      "balance_loss_clip": 1.04302788,
      "balance_loss_mlp": 1.01914763,
      "epoch": 0.4034148980941502,
      "flos": 17345660256000.0,
      "grad_norm": 2.2230154169450356,
      "language_loss": 0.7525537,
      "learning_rate": 2.707248439138251e-06,
      "loss": 0.77357191,
      "num_input_tokens_seen": 72492460,
      "step": 3355,
      "time_per_iteration": 2.5757980346679688
    },
    {
      "auxiliary_loss_clip": 0.0107734,
      "auxiliary_loss_mlp": 0.01023599,
      "balance_loss_clip": 1.04004037,
      "balance_loss_mlp": 1.01780236,
      "epoch": 0.40353514098478926,
      "flos": 22020008906880.0,
      "grad_norm": 1.6542007922879753,
      "language_loss": 0.65523154,
      "learning_rate": 2.7065197451137114e-06,
      "loss": 0.67624092,
      "num_input_tokens_seen": 72513840,
      "step": 3356,
      "time_per_iteration": 2.623833179473877
    },
    {
      "auxiliary_loss_clip": 0.01081024,
      "auxiliary_loss_mlp": 0.01022367,
      "balance_loss_clip": 1.04021645,
      "balance_loss_mlp": 1.01669574,
      "epoch": 0.4036553838754284,
      "flos": 14248187982720.0,
      "grad_norm": 2.2298240968326652,
      "language_loss": 0.67539191,
      "learning_rate": 2.7057909439106894e-06,
      "loss": 0.69642574,
      "num_input_tokens_seen": 72531695,
      "step": 3357,
      "time_per_iteration": 2.5587193965911865
    },
    {
      "auxiliary_loss_clip": 0.01101105,
      "auxiliary_loss_mlp": 0.00757074,
      "balance_loss_clip": 1.04495907,
      "balance_loss_mlp": 1.00147164,
      "epoch": 0.40377562676606743,
      "flos": 24792963626880.0,
      "grad_norm": 2.45797263518731,
      "language_loss": 0.78720993,
      "learning_rate": 2.7050620356397417e-06,
      "loss": 0.80579174,
      "num_input_tokens_seen": 72550645,
      "step": 3358,
      "time_per_iteration": 2.6025822162628174
    },
    {
      "auxiliary_loss_clip": 0.01110047,
      "auxiliary_loss_mlp": 0.01018551,
      "balance_loss_clip": 1.045825,
      "balance_loss_mlp": 1.0129838,
      "epoch": 0.40389586965670654,
      "flos": 24063522088320.0,
      "grad_norm": 1.701944877283166,
      "language_loss": 0.72229093,
      "learning_rate": 2.7043330204114437e-06,
      "loss": 0.74357688,
      "num_input_tokens_seen": 72569355,
      "step": 3359,
      "time_per_iteration": 2.5245890617370605
    },
    {
      "auxiliary_loss_clip": 0.01108941,
      "auxiliary_loss_mlp": 0.0102022,
      "balance_loss_clip": 1.04475009,
      "balance_loss_mlp": 1.01453924,
      "epoch": 0.40401611254734565,
      "flos": 16401504159360.0,
      "grad_norm": 1.9011434236867155,
      "language_loss": 0.85774744,
      "learning_rate": 2.7036038983363862e-06,
      "loss": 0.87903905,
      "num_input_tokens_seen": 72585960,
      "step": 3360,
      "time_per_iteration": 2.52047061920166
    },
    {
      "auxiliary_loss_clip": 0.01092654,
      "auxiliary_loss_mlp": 0.01022084,
      "balance_loss_clip": 1.04150164,
      "balance_loss_mlp": 1.0167644,
      "epoch": 0.4041363554379847,
      "flos": 23990509681920.0,
      "grad_norm": 2.0061825473932124,
      "language_loss": 0.84121734,
      "learning_rate": 2.702874669525177e-06,
      "loss": 0.86236477,
      "num_input_tokens_seen": 72604440,
      "step": 3361,
      "time_per_iteration": 2.5395560264587402
    },
    {
      "auxiliary_loss_clip": 0.01067103,
      "auxiliary_loss_mlp": 0.01022563,
      "balance_loss_clip": 1.04182577,
      "balance_loss_mlp": 1.01680207,
      "epoch": 0.4042565983286238,
      "flos": 28404442437120.0,
      "grad_norm": 1.9802371695286793,
      "language_loss": 0.69543922,
      "learning_rate": 2.7021453340884394e-06,
      "loss": 0.71633589,
      "num_input_tokens_seen": 72622165,
      "step": 3362,
      "time_per_iteration": 2.6685118675231934
    },
    {
      "auxiliary_loss_clip": 0.01086737,
      "auxiliary_loss_mlp": 0.00756778,
      "balance_loss_clip": 1.04403257,
      "balance_loss_mlp": 1.00155854,
      "epoch": 0.40437684121926293,
      "flos": 17712807782400.0,
      "grad_norm": 2.396309972769919,
      "language_loss": 0.73686796,
      "learning_rate": 2.7014158921368125e-06,
      "loss": 0.75530314,
      "num_input_tokens_seen": 72640490,
      "step": 3363,
      "time_per_iteration": 2.555202007293701
    },
    {
      "auxiliary_loss_clip": 0.01109798,
      "auxiliary_loss_mlp": 0.01025129,
      "balance_loss_clip": 1.04466021,
      "balance_loss_mlp": 1.01894236,
      "epoch": 0.404497084109902,
      "flos": 24020930033280.0,
      "grad_norm": 2.2154014488192093,
      "language_loss": 0.85538459,
      "learning_rate": 2.700686343780953e-06,
      "loss": 0.8767339,
      "num_input_tokens_seen": 72660360,
      "step": 3364,
      "time_per_iteration": 2.5981574058532715
    },
    {
      "auxiliary_loss_clip": 0.01083823,
      "auxiliary_loss_mlp": 0.01020396,
      "balance_loss_clip": 1.03985286,
      "balance_loss_mlp": 1.01468253,
      "epoch": 0.4046173270005411,
      "flos": 22932076256640.0,
      "grad_norm": 1.782522908419406,
      "language_loss": 0.88191676,
      "learning_rate": 2.699956689131532e-06,
      "loss": 0.90295887,
      "num_input_tokens_seen": 72680345,
      "step": 3365,
      "time_per_iteration": 2.6039249897003174
    },
    {
      "auxiliary_loss_clip": 0.01080661,
      "auxiliary_loss_mlp": 0.01024005,
      "balance_loss_clip": 1.04178977,
      "balance_loss_mlp": 1.01827371,
      "epoch": 0.4047375698911802,
      "flos": 20670246299520.0,
      "grad_norm": 2.0355360610366557,
      "language_loss": 0.85020089,
      "learning_rate": 2.699226928299238e-06,
      "loss": 0.87124753,
      "num_input_tokens_seen": 72698365,
      "step": 3366,
      "time_per_iteration": 2.574211597442627
    },
    {
      "auxiliary_loss_clip": 0.01097919,
      "auxiliary_loss_mlp": 0.01027525,
      "balance_loss_clip": 1.04439938,
      "balance_loss_mlp": 1.02176976,
      "epoch": 0.40485781278181926,
      "flos": 28915377609600.0,
      "grad_norm": 2.3677787354093813,
      "language_loss": 0.78754687,
      "learning_rate": 2.698497061394774e-06,
      "loss": 0.80880129,
      "num_input_tokens_seen": 72716850,
      "step": 3367,
      "time_per_iteration": 2.6273231506347656
    },
    {
      "auxiliary_loss_clip": 0.01073958,
      "auxiliary_loss_mlp": 0.00756825,
      "balance_loss_clip": 1.04191756,
      "balance_loss_mlp": 1.00151134,
      "epoch": 0.40497805567245837,
      "flos": 23150582622720.0,
      "grad_norm": 1.7805870465165339,
      "language_loss": 0.81006026,
      "learning_rate": 2.6977670885288627e-06,
      "loss": 0.82836807,
      "num_input_tokens_seen": 72738250,
      "step": 3368,
      "time_per_iteration": 2.6468756198883057
    },
    {
      "auxiliary_loss_clip": 0.01083956,
      "auxiliary_loss_mlp": 0.01025454,
      "balance_loss_clip": 1.04115129,
      "balance_loss_mlp": 1.01948404,
      "epoch": 0.4050982985630975,
      "flos": 16291246147200.0,
      "grad_norm": 1.8255656396177105,
      "language_loss": 0.75193071,
      "learning_rate": 2.6970370098122378e-06,
      "loss": 0.7730248,
      "num_input_tokens_seen": 72755235,
      "step": 3369,
      "time_per_iteration": 2.564161777496338
    },
    {
      "auxiliary_loss_clip": 0.01109221,
      "auxiliary_loss_mlp": 0.01020885,
      "balance_loss_clip": 1.04432094,
      "balance_loss_mlp": 1.01528454,
      "epoch": 0.40521854145373654,
      "flos": 34462348755840.0,
      "grad_norm": 1.4630529019817702,
      "language_loss": 0.86621797,
      "learning_rate": 2.6963068253556535e-06,
      "loss": 0.88751906,
      "num_input_tokens_seen": 72776620,
      "step": 3370,
      "time_per_iteration": 3.3968491554260254
    },
    {
      "auxiliary_loss_clip": 0.01096001,
      "auxiliary_loss_mlp": 0.01023531,
      "balance_loss_clip": 1.04203022,
      "balance_loss_mlp": 1.01702833,
      "epoch": 0.40533878434437565,
      "flos": 25333067854080.0,
      "grad_norm": 1.856872085498797,
      "language_loss": 0.8577162,
      "learning_rate": 2.6955765352698763e-06,
      "loss": 0.8789115,
      "num_input_tokens_seen": 72796765,
      "step": 3371,
      "time_per_iteration": 3.396393060684204
    },
    {
      "auxiliary_loss_clip": 0.01111302,
      "auxiliary_loss_mlp": 0.01019883,
      "balance_loss_clip": 1.04522872,
      "balance_loss_mlp": 1.01376784,
      "epoch": 0.40545902723501476,
      "flos": 15013813420800.0,
      "grad_norm": 2.8551026079428823,
      "language_loss": 0.73576635,
      "learning_rate": 2.6948461396656923e-06,
      "loss": 0.75707817,
      "num_input_tokens_seen": 72814175,
      "step": 3372,
      "time_per_iteration": 2.5141355991363525
    },
    {
      "auxiliary_loss_clip": 0.01099743,
      "auxiliary_loss_mlp": 0.01023975,
      "balance_loss_clip": 1.04600763,
      "balance_loss_mlp": 1.01797581,
      "epoch": 0.4055792701256538,
      "flos": 25523504789760.0,
      "grad_norm": 2.432814141446126,
      "language_loss": 0.7441988,
      "learning_rate": 2.6941156386539013e-06,
      "loss": 0.76543593,
      "num_input_tokens_seen": 72834125,
      "step": 3373,
      "time_per_iteration": 2.660092830657959
    },
    {
      "auxiliary_loss_clip": 0.01076872,
      "auxiliary_loss_mlp": 0.01027445,
      "balance_loss_clip": 1.03919244,
      "balance_loss_mlp": 1.02162743,
      "epoch": 0.4056995130162929,
      "flos": 19576690680960.0,
      "grad_norm": 3.1329585356811314,
      "language_loss": 0.81007296,
      "learning_rate": 2.6933850323453203e-06,
      "loss": 0.83111614,
      "num_input_tokens_seen": 72852570,
      "step": 3374,
      "time_per_iteration": 3.4613215923309326
    },
    {
      "auxiliary_loss_clip": 0.01111108,
      "auxiliary_loss_mlp": 0.01022324,
      "balance_loss_clip": 1.04561329,
      "balance_loss_mlp": 1.0163244,
      "epoch": 0.405819755906932,
      "flos": 15415590205440.0,
      "grad_norm": 2.1118302567258,
      "language_loss": 0.75091475,
      "learning_rate": 2.6926543208507806e-06,
      "loss": 0.7722491,
      "num_input_tokens_seen": 72871250,
      "step": 3375,
      "time_per_iteration": 2.4777116775512695
    },
    {
      "auxiliary_loss_clip": 0.0109613,
      "auxiliary_loss_mlp": 0.01021505,
      "balance_loss_clip": 1.04330325,
      "balance_loss_mlp": 1.01517153,
      "epoch": 0.4059399987975711,
      "flos": 21436061328000.0,
      "grad_norm": 2.665244561252651,
      "language_loss": 0.80165845,
      "learning_rate": 2.6919235042811316e-06,
      "loss": 0.82283479,
      "num_input_tokens_seen": 72890035,
      "step": 3376,
      "time_per_iteration": 2.5578691959381104
    },
    {
      "auxiliary_loss_clip": 0.01067891,
      "auxiliary_loss_mlp": 0.01025366,
      "balance_loss_clip": 1.04082191,
      "balance_loss_mlp": 1.01898813,
      "epoch": 0.4060602416882102,
      "flos": 25559309508480.0,
      "grad_norm": 1.946526630539115,
      "language_loss": 0.76355171,
      "learning_rate": 2.691192582747237e-06,
      "loss": 0.78448427,
      "num_input_tokens_seen": 72909665,
      "step": 3377,
      "time_per_iteration": 2.6505556106567383
    },
    {
      "auxiliary_loss_clip": 0.01110539,
      "auxiliary_loss_mlp": 0.01019181,
      "balance_loss_clip": 1.04554629,
      "balance_loss_mlp": 1.01348245,
      "epoch": 0.40618048457884925,
      "flos": 23768894033280.0,
      "grad_norm": 1.8300147824913136,
      "language_loss": 0.739766,
      "learning_rate": 2.6904615563599765e-06,
      "loss": 0.76106316,
      "num_input_tokens_seen": 72929465,
      "step": 3378,
      "time_per_iteration": 2.5886857509613037
    },
    {
      "auxiliary_loss_clip": 0.01066096,
      "auxiliary_loss_mlp": 0.0102178,
      "balance_loss_clip": 1.03937507,
      "balance_loss_mlp": 1.01609063,
      "epoch": 0.40630072746948837,
      "flos": 17641615443840.0,
      "grad_norm": 1.6887758783792814,
      "language_loss": 0.83463341,
      "learning_rate": 2.6897304252302477e-06,
      "loss": 0.8555122,
      "num_input_tokens_seen": 72946785,
      "step": 3379,
      "time_per_iteration": 2.595344066619873
    },
    {
      "auxiliary_loss_clip": 0.01044689,
      "auxiliary_loss_mlp": 0.01004025,
      "balance_loss_clip": 1.03809381,
      "balance_loss_mlp": 1.0019269,
      "epoch": 0.4064209703601275,
      "flos": 60842274969600.0,
      "grad_norm": 0.7932308400305306,
      "language_loss": 0.54769069,
      "learning_rate": 2.688999189468962e-06,
      "loss": 0.56817782,
      "num_input_tokens_seen": 73003215,
      "step": 3380,
      "time_per_iteration": 3.1169426441192627
    },
    {
      "auxiliary_loss_clip": 0.01090023,
      "auxiliary_loss_mlp": 0.0102836,
      "balance_loss_clip": 1.04175341,
      "balance_loss_mlp": 1.02244461,
      "epoch": 0.40654121325076653,
      "flos": 24026617745280.0,
      "grad_norm": 3.002123572654228,
      "language_loss": 0.76072609,
      "learning_rate": 2.6882678491870464e-06,
      "loss": 0.78190994,
      "num_input_tokens_seen": 73023650,
      "step": 3381,
      "time_per_iteration": 2.5709025859832764
    },
    {
      "auxiliary_loss_clip": 0.01099229,
      "auxiliary_loss_mlp": 0.01018671,
      "balance_loss_clip": 1.04493892,
      "balance_loss_mlp": 1.01217723,
      "epoch": 0.40666145614140564,
      "flos": 27346691537280.0,
      "grad_norm": 2.9358805527165375,
      "language_loss": 0.71655387,
      "learning_rate": 2.6875364044954453e-06,
      "loss": 0.73773289,
      "num_input_tokens_seen": 73043880,
      "step": 3382,
      "time_per_iteration": 2.625549793243408
    },
    {
      "auxiliary_loss_clip": 0.01087884,
      "auxiliary_loss_mlp": 0.01024828,
      "balance_loss_clip": 1.04284263,
      "balance_loss_mlp": 1.01908219,
      "epoch": 0.40678169903204475,
      "flos": 26179099724160.0,
      "grad_norm": 1.669111208796525,
      "language_loss": 0.82614839,
      "learning_rate": 2.6868048555051185e-06,
      "loss": 0.8472755,
      "num_input_tokens_seen": 73065410,
      "step": 3383,
      "time_per_iteration": 2.658886671066284
    },
    {
      "auxiliary_loss_clip": 0.01089381,
      "auxiliary_loss_mlp": 0.01024954,
      "balance_loss_clip": 1.04280603,
      "balance_loss_mlp": 1.01887488,
      "epoch": 0.4069019419226838,
      "flos": 28624996379520.0,
      "grad_norm": 2.5815212914860224,
      "language_loss": 0.85559499,
      "learning_rate": 2.686073202327041e-06,
      "loss": 0.87673831,
      "num_input_tokens_seen": 73084410,
      "step": 3384,
      "time_per_iteration": 2.684886932373047
    },
    {
      "auxiliary_loss_clip": 0.01090642,
      "auxiliary_loss_mlp": 0.01028827,
      "balance_loss_clip": 1.04419398,
      "balance_loss_mlp": 1.02287519,
      "epoch": 0.4070221848133229,
      "flos": 25231379328000.0,
      "grad_norm": 1.8889990146579785,
      "language_loss": 0.73571825,
      "learning_rate": 2.6853414450722043e-06,
      "loss": 0.75691289,
      "num_input_tokens_seen": 73104075,
      "step": 3385,
      "time_per_iteration": 2.6671879291534424
    },
    {
      "auxiliary_loss_clip": 0.01094157,
      "auxiliary_loss_mlp": 0.0102172,
      "balance_loss_clip": 1.04146552,
      "balance_loss_mlp": 1.01607847,
      "epoch": 0.40714242770396203,
      "flos": 18407165045760.0,
      "grad_norm": 1.6677212864483495,
      "language_loss": 0.85402328,
      "learning_rate": 2.684609583851616e-06,
      "loss": 0.87518203,
      "num_input_tokens_seen": 73122250,
      "step": 3386,
      "time_per_iteration": 2.5342798233032227
    },
    {
      "auxiliary_loss_clip": 0.01054693,
      "auxiliary_loss_mlp": 0.01021469,
      "balance_loss_clip": 1.0380435,
      "balance_loss_mlp": 1.01558578,
      "epoch": 0.4072626705946011,
      "flos": 30231648501120.0,
      "grad_norm": 1.5501397216379809,
      "language_loss": 0.80631375,
      "learning_rate": 2.683877618776297e-06,
      "loss": 0.82707536,
      "num_input_tokens_seen": 73144505,
      "step": 3387,
      "time_per_iteration": 2.7547662258148193
    },
    {
      "auxiliary_loss_clip": 0.01090083,
      "auxiliary_loss_mlp": 0.01024602,
      "balance_loss_clip": 1.04396999,
      "balance_loss_mlp": 1.01826906,
      "epoch": 0.4073829134852402,
      "flos": 21836662652160.0,
      "grad_norm": 3.4250052637607573,
      "language_loss": 0.74329728,
      "learning_rate": 2.6831455499572876e-06,
      "loss": 0.76444411,
      "num_input_tokens_seen": 73162440,
      "step": 3388,
      "time_per_iteration": 2.596328020095825
    },
    {
      "auxiliary_loss_clip": 0.01110876,
      "auxiliary_loss_mlp": 0.01022738,
      "balance_loss_clip": 1.04481316,
      "balance_loss_mlp": 1.01662898,
      "epoch": 0.40750315637587925,
      "flos": 25262292614400.0,
      "grad_norm": 2.64222710872849,
      "language_loss": 0.78053468,
      "learning_rate": 2.682413377505641e-06,
      "loss": 0.80187082,
      "num_input_tokens_seen": 73181245,
      "step": 3389,
      "time_per_iteration": 2.606318712234497
    },
    {
      "auxiliary_loss_clip": 0.01095834,
      "auxiliary_loss_mlp": 0.01021526,
      "balance_loss_clip": 1.04136515,
      "balance_loss_mlp": 1.01545787,
      "epoch": 0.40762339926651836,
      "flos": 19714449352320.0,
      "grad_norm": 1.887015425360176,
      "language_loss": 0.76498151,
      "learning_rate": 2.6816811015324284e-06,
      "loss": 0.7861551,
      "num_input_tokens_seen": 73199295,
      "step": 3390,
      "time_per_iteration": 2.577195882797241
    },
    {
      "auxiliary_loss_clip": 0.01077136,
      "auxiliary_loss_mlp": 0.01004551,
      "balance_loss_clip": 1.0408442,
      "balance_loss_mlp": 1.00244069,
      "epoch": 0.40774364215715747,
      "flos": 71455892031360.0,
      "grad_norm": 0.7288378121424841,
      "language_loss": 0.56583297,
      "learning_rate": 2.6809487221487343e-06,
      "loss": 0.58664978,
      "num_input_tokens_seen": 73258780,
      "step": 3391,
      "time_per_iteration": 3.1426453590393066
    },
    {
      "auxiliary_loss_clip": 0.01099092,
      "auxiliary_loss_mlp": 0.01018353,
      "balance_loss_clip": 1.04267645,
      "balance_loss_mlp": 1.01269937,
      "epoch": 0.4078638850477965,
      "flos": 15085839957120.0,
      "grad_norm": 2.719727510234039,
      "language_loss": 0.82110667,
      "learning_rate": 2.6802162394656605e-06,
      "loss": 0.8422811,
      "num_input_tokens_seen": 73275490,
      "step": 3392,
      "time_per_iteration": 2.516749143600464
    },
    {
      "auxiliary_loss_clip": 0.01085385,
      "auxiliary_loss_mlp": 0.01023722,
      "balance_loss_clip": 1.04188704,
      "balance_loss_mlp": 1.01800299,
      "epoch": 0.40798412793843564,
      "flos": 23845205312640.0,
      "grad_norm": 1.7993119539419746,
      "language_loss": 0.71614927,
      "learning_rate": 2.679483653594324e-06,
      "loss": 0.73724031,
      "num_input_tokens_seen": 73297260,
      "step": 3393,
      "time_per_iteration": 2.701181411743164
    },
    {
      "auxiliary_loss_clip": 0.01096943,
      "auxiliary_loss_mlp": 0.010217,
      "balance_loss_clip": 1.04265571,
      "balance_loss_mlp": 1.01586199,
      "epoch": 0.40810437082907475,
      "flos": 21067700423040.0,
      "grad_norm": 3.1848709065626695,
      "language_loss": 0.76732367,
      "learning_rate": 2.678750964645857e-06,
      "loss": 0.78851008,
      "num_input_tokens_seen": 73316340,
      "step": 3394,
      "time_per_iteration": 2.534507989883423
    },
    {
      "auxiliary_loss_clip": 0.01090659,
      "auxiliary_loss_mlp": 0.01022996,
      "balance_loss_clip": 1.04297936,
      "balance_loss_mlp": 1.01673484,
      "epoch": 0.4082246137197138,
      "flos": 11322610704000.0,
      "grad_norm": 2.3333634591801085,
      "language_loss": 0.8359946,
      "learning_rate": 2.6780181727314094e-06,
      "loss": 0.85713124,
      "num_input_tokens_seen": 73331245,
      "step": 3395,
      "time_per_iteration": 2.5494511127471924
    },
    {
      "auxiliary_loss_clip": 0.01073615,
      "auxiliary_loss_mlp": 0.00756949,
      "balance_loss_clip": 1.0405724,
      "balance_loss_mlp": 1.0015316,
      "epoch": 0.4083448566103529,
      "flos": 19064580048000.0,
      "grad_norm": 2.0115926285753396,
      "language_loss": 0.77898723,
      "learning_rate": 2.6772852779621435e-06,
      "loss": 0.79729283,
      "num_input_tokens_seen": 73349105,
      "step": 3396,
      "time_per_iteration": 3.4081621170043945
    },
    {
      "auxiliary_loss_clip": 0.01087802,
      "auxiliary_loss_mlp": 0.00756729,
      "balance_loss_clip": 1.04218006,
      "balance_loss_mlp": 1.00136542,
      "epoch": 0.408465099500992,
      "flos": 23552511079680.0,
      "grad_norm": 1.9166476723739987,
      "language_loss": 0.86471808,
      "learning_rate": 2.676552280449239e-06,
      "loss": 0.88316345,
      "num_input_tokens_seen": 73368990,
      "step": 3397,
      "time_per_iteration": 3.283576726913452
    },
    {
      "auxiliary_loss_clip": 0.01099725,
      "auxiliary_loss_mlp": 0.01023333,
      "balance_loss_clip": 1.04406703,
      "balance_loss_mlp": 1.01702368,
      "epoch": 0.4085853423916311,
      "flos": 12751642200960.0,
      "grad_norm": 2.3355117331792714,
      "language_loss": 0.76103699,
      "learning_rate": 2.6758191803038917e-06,
      "loss": 0.78226757,
      "num_input_tokens_seen": 73387485,
      "step": 3398,
      "time_per_iteration": 2.584179639816284
    },
    {
      "auxiliary_loss_clip": 0.01038978,
      "auxiliary_loss_mlp": 0.01021618,
      "balance_loss_clip": 1.03585255,
      "balance_loss_mlp": 1.01573205,
      "epoch": 0.4087055852822702,
      "flos": 24355382123520.0,
      "grad_norm": 1.842868883002707,
      "language_loss": 0.82926005,
      "learning_rate": 2.6750859776373125e-06,
      "loss": 0.84986603,
      "num_input_tokens_seen": 73406940,
      "step": 3399,
      "time_per_iteration": 2.701148509979248
    },
    {
      "auxiliary_loss_clip": 0.01025348,
      "auxiliary_loss_mlp": 0.01001222,
      "balance_loss_clip": 1.03852963,
      "balance_loss_mlp": 0.99907666,
      "epoch": 0.4088258281729093,
      "flos": 66394820073600.0,
      "grad_norm": 0.7733480842929311,
      "language_loss": 0.60326183,
      "learning_rate": 2.674352672560727e-06,
      "loss": 0.62352753,
      "num_input_tokens_seen": 73468385,
      "step": 3400,
      "time_per_iteration": 4.331977605819702
    },
    {
      "auxiliary_loss_clip": 0.01071138,
      "auxiliary_loss_mlp": 0.01022871,
      "balance_loss_clip": 1.04161859,
      "balance_loss_mlp": 1.01673138,
      "epoch": 0.40894607106354836,
      "flos": 20451360752640.0,
      "grad_norm": 1.8135487600362132,
      "language_loss": 0.77347457,
      "learning_rate": 2.673619265185377e-06,
      "loss": 0.7944147,
      "num_input_tokens_seen": 73488225,
      "step": 3401,
      "time_per_iteration": 2.8943228721618652
    },
    {
      "auxiliary_loss_clip": 0.01099832,
      "auxiliary_loss_mlp": 0.01024482,
      "balance_loss_clip": 1.04445481,
      "balance_loss_mlp": 1.01825666,
      "epoch": 0.40906631395418747,
      "flos": 27056120716800.0,
      "grad_norm": 1.8294266615390418,
      "language_loss": 0.78310299,
      "learning_rate": 2.672885755622521e-06,
      "loss": 0.80434608,
      "num_input_tokens_seen": 73510640,
      "step": 3402,
      "time_per_iteration": 2.62026047706604
    },
    {
      "auxiliary_loss_clip": 0.01054039,
      "auxiliary_loss_mlp": 0.01024746,
      "balance_loss_clip": 1.03526831,
      "balance_loss_mlp": 1.01888084,
      "epoch": 0.4091865568448266,
      "flos": 25486524610560.0,
      "grad_norm": 2.36549888929054,
      "language_loss": 0.70505929,
      "learning_rate": 2.67215214398343e-06,
      "loss": 0.72584707,
      "num_input_tokens_seen": 73530655,
      "step": 3403,
      "time_per_iteration": 2.7589499950408936
    },
    {
      "auxiliary_loss_clip": 0.01059338,
      "auxiliary_loss_mlp": 0.01022464,
      "balance_loss_clip": 1.03907108,
      "balance_loss_mlp": 1.01618457,
      "epoch": 0.40930679973546563,
      "flos": 28660383999360.0,
      "grad_norm": 2.502721033617791,
      "language_loss": 0.78504336,
      "learning_rate": 2.671418430379393e-06,
      "loss": 0.80586141,
      "num_input_tokens_seen": 73549340,
      "step": 3404,
      "time_per_iteration": 2.705679416656494
    },
    {
      "auxiliary_loss_clip": 0.01108433,
      "auxiliary_loss_mlp": 0.01018421,
      "balance_loss_clip": 1.04280424,
      "balance_loss_mlp": 1.01260638,
      "epoch": 0.40942704262610474,
      "flos": 20888373484800.0,
      "grad_norm": 1.8063822698274745,
      "language_loss": 0.83309066,
      "learning_rate": 2.670684614921715e-06,
      "loss": 0.85435915,
      "num_input_tokens_seen": 73568315,
      "step": 3405,
      "time_per_iteration": 2.5757081508636475
    },
    {
      "auxiliary_loss_clip": 0.01089598,
      "auxiliary_loss_mlp": 0.01024237,
      "balance_loss_clip": 1.04337704,
      "balance_loss_mlp": 1.01799953,
      "epoch": 0.4095472855167438,
      "flos": 21620317616640.0,
      "grad_norm": 33.0573300036183,
      "language_loss": 0.69504017,
      "learning_rate": 2.6699506977217128e-06,
      "loss": 0.71617854,
      "num_input_tokens_seen": 73588490,
      "step": 3406,
      "time_per_iteration": 2.6058011054992676
    },
    {
      "auxiliary_loss_clip": 0.01087789,
      "auxiliary_loss_mlp": 0.01021658,
      "balance_loss_clip": 1.03796875,
      "balance_loss_mlp": 1.01606691,
      "epoch": 0.4096675284073829,
      "flos": 27928477785600.0,
      "grad_norm": 2.0443298114376187,
      "language_loss": 0.70472705,
      "learning_rate": 2.6692166788907233e-06,
      "loss": 0.7258215,
      "num_input_tokens_seen": 73608685,
      "step": 3407,
      "time_per_iteration": 2.6320931911468506
    },
    {
      "auxiliary_loss_clip": 0.01083288,
      "auxiliary_loss_mlp": 0.01024282,
      "balance_loss_clip": 1.04083061,
      "balance_loss_mlp": 1.01818442,
      "epoch": 0.409787771298022,
      "flos": 19208519366400.0,
      "grad_norm": 1.8812102891119376,
      "language_loss": 0.77515841,
      "learning_rate": 2.6684825585400957e-06,
      "loss": 0.79623413,
      "num_input_tokens_seen": 73627630,
      "step": 3408,
      "time_per_iteration": 2.5621626377105713
    },
    {
      "auxiliary_loss_clip": 0.01051195,
      "auxiliary_loss_mlp": 0.0100291,
      "balance_loss_clip": 1.03741848,
      "balance_loss_mlp": 1.00070441,
      "epoch": 0.4099080141886611,
      "flos": 59275484801280.0,
      "grad_norm": 0.8291412980874577,
      "language_loss": 0.6513176,
      "learning_rate": 2.6677483367811947e-06,
      "loss": 0.67185867,
      "num_input_tokens_seen": 73687670,
      "step": 3409,
      "time_per_iteration": 3.2975194454193115
    },
    {
      "auxiliary_loss_clip": 0.01094867,
      "auxiliary_loss_mlp": 0.01020623,
      "balance_loss_clip": 1.04010844,
      "balance_loss_mlp": 1.01511264,
      "epoch": 0.4100282570793002,
      "flos": 21908499598080.0,
      "grad_norm": 1.7789702355379389,
      "language_loss": 0.75820631,
      "learning_rate": 2.6670140137254028e-06,
      "loss": 0.77936125,
      "num_input_tokens_seen": 73707145,
      "step": 3410,
      "time_per_iteration": 2.6278953552246094
    },
    {
      "auxiliary_loss_clip": 0.01049379,
      "auxiliary_loss_mlp": 0.01020426,
      "balance_loss_clip": 1.03389728,
      "balance_loss_mlp": 1.01436675,
      "epoch": 0.4101484999699393,
      "flos": 18553569039360.0,
      "grad_norm": 2.4394177349128277,
      "language_loss": 0.90142274,
      "learning_rate": 2.666279589484115e-06,
      "loss": 0.92212069,
      "num_input_tokens_seen": 73725045,
      "step": 3411,
      "time_per_iteration": 2.6038334369659424
    },
    {
      "auxiliary_loss_clip": 0.0106302,
      "auxiliary_loss_mlp": 0.01019218,
      "balance_loss_clip": 1.0388763,
      "balance_loss_mlp": 1.01349342,
      "epoch": 0.41026874286057835,
      "flos": 19096289614080.0,
      "grad_norm": 2.1591882453535063,
      "language_loss": 0.80945688,
      "learning_rate": 2.6655450641687435e-06,
      "loss": 0.83027923,
      "num_input_tokens_seen": 73742610,
      "step": 3412,
      "time_per_iteration": 2.658936023712158
    },
    {
      "auxiliary_loss_clip": 0.01108662,
      "auxiliary_loss_mlp": 0.01023936,
      "balance_loss_clip": 1.04425895,
      "balance_loss_mlp": 1.01803184,
      "epoch": 0.41038898575121746,
      "flos": 31212102251520.0,
      "grad_norm": 1.9590183835794508,
      "language_loss": 0.69168746,
      "learning_rate": 2.664810437890715e-06,
      "loss": 0.71301347,
      "num_input_tokens_seen": 73764280,
      "step": 3413,
      "time_per_iteration": 2.5894808769226074
    },
    {
      "auxiliary_loss_clip": 0.01037739,
      "auxiliary_loss_mlp": 0.01021286,
      "balance_loss_clip": 1.03853154,
      "balance_loss_mlp": 1.01587963,
      "epoch": 0.41050922864185657,
      "flos": 14357611797120.0,
      "grad_norm": 1.9510822226754523,
      "language_loss": 0.79685962,
      "learning_rate": 2.6640757107614714e-06,
      "loss": 0.81744993,
      "num_input_tokens_seen": 73782375,
      "step": 3414,
      "time_per_iteration": 2.8713276386260986
    },
    {
      "auxiliary_loss_clip": 0.01066044,
      "auxiliary_loss_mlp": 0.01019942,
      "balance_loss_clip": 1.04032564,
      "balance_loss_mlp": 1.01379347,
      "epoch": 0.4106294715324956,
      "flos": 30958928709120.0,
      "grad_norm": 2.125977420696073,
      "language_loss": 0.69686157,
      "learning_rate": 2.6633408828924697e-06,
      "loss": 0.71772146,
      "num_input_tokens_seen": 73801240,
      "step": 3415,
      "time_per_iteration": 3.057695150375366
    },
    {
      "auxiliary_loss_clip": 0.01075648,
      "auxiliary_loss_mlp": 0.01025802,
      "balance_loss_clip": 1.04242563,
      "balance_loss_mlp": 1.01999688,
      "epoch": 0.41074971442313474,
      "flos": 24459345734400.0,
      "grad_norm": 1.5324945956394262,
      "language_loss": 0.7023775,
      "learning_rate": 2.662605954395185e-06,
      "loss": 0.72339195,
      "num_input_tokens_seen": 73821200,
      "step": 3416,
      "time_per_iteration": 2.733959197998047
    },
    {
      "auxiliary_loss_clip": 0.01098039,
      "auxiliary_loss_mlp": 0.01021404,
      "balance_loss_clip": 1.04251623,
      "balance_loss_mlp": 1.01563382,
      "epoch": 0.41086995731377385,
      "flos": 21545105961600.0,
      "grad_norm": 1.6926873255138668,
      "language_loss": 0.83786559,
      "learning_rate": 2.6618709253811027e-06,
      "loss": 0.85906005,
      "num_input_tokens_seen": 73840655,
      "step": 3417,
      "time_per_iteration": 2.591110944747925
    },
    {
      "auxiliary_loss_clip": 0.01107018,
      "auxiliary_loss_mlp": 0.01020506,
      "balance_loss_clip": 1.04409575,
      "balance_loss_mlp": 1.01550531,
      "epoch": 0.4109902002044129,
      "flos": 20704761803520.0,
      "grad_norm": 1.5777721621400604,
      "language_loss": 0.87885404,
      "learning_rate": 2.6611357959617277e-06,
      "loss": 0.90012932,
      "num_input_tokens_seen": 73860275,
      "step": 3418,
      "time_per_iteration": 2.545610189437866
    },
    {
      "auxiliary_loss_clip": 0.01071967,
      "auxiliary_loss_mlp": 0.01023661,
      "balance_loss_clip": 1.03955138,
      "balance_loss_mlp": 1.01766443,
      "epoch": 0.411110443095052,
      "flos": 18181567998720.0,
      "grad_norm": 1.9332569791776901,
      "language_loss": 0.91131711,
      "learning_rate": 2.660400566248578e-06,
      "loss": 0.93227345,
      "num_input_tokens_seen": 73878400,
      "step": 3419,
      "time_per_iteration": 2.572847366333008
    },
    {
      "auxiliary_loss_clip": 0.0106133,
      "auxiliary_loss_mlp": 0.01023844,
      "balance_loss_clip": 1.03382039,
      "balance_loss_mlp": 1.01738918,
      "epoch": 0.41123068598569107,
      "flos": 14577028197120.0,
      "grad_norm": 2.448608718446069,
      "language_loss": 0.66926277,
      "learning_rate": 2.6596652363531876e-06,
      "loss": 0.6901145,
      "num_input_tokens_seen": 73894275,
      "step": 3420,
      "time_per_iteration": 2.6216375827789307
    },
    {
      "auxiliary_loss_clip": 0.01109973,
      "auxiliary_loss_mlp": 0.01020801,
      "balance_loss_clip": 1.04531217,
      "balance_loss_mlp": 1.01522768,
      "epoch": 0.4113509288763302,
      "flos": 21180081847680.0,
      "grad_norm": 1.8782413806574683,
      "language_loss": 0.78574967,
      "learning_rate": 2.6589298063871055e-06,
      "loss": 0.80705738,
      "num_input_tokens_seen": 73914450,
      "step": 3421,
      "time_per_iteration": 2.52152943611145
    },
    {
      "auxiliary_loss_clip": 0.01105945,
      "auxiliary_loss_mlp": 0.01021237,
      "balance_loss_clip": 1.0427444,
      "balance_loss_mlp": 1.01529753,
      "epoch": 0.4114711717669693,
      "flos": 18444183143040.0,
      "grad_norm": 1.8416156128511711,
      "language_loss": 0.70242918,
      "learning_rate": 2.658194276461895e-06,
      "loss": 0.72370094,
      "num_input_tokens_seen": 73932375,
      "step": 3422,
      "time_per_iteration": 3.3225808143615723
    },
    {
      "auxiliary_loss_clip": 0.01087326,
      "auxiliary_loss_mlp": 0.01020898,
      "balance_loss_clip": 1.04020846,
      "balance_loss_mlp": 1.0147264,
      "epoch": 0.41159141465760835,
      "flos": 27235750999680.0,
      "grad_norm": 2.378247935615653,
      "language_loss": 0.67016196,
      "learning_rate": 2.6574586466891368e-06,
      "loss": 0.6912443,
      "num_input_tokens_seen": 73952850,
      "step": 3423,
      "time_per_iteration": 3.3970682621002197
    },
    {
      "auxiliary_loss_clip": 0.01082826,
      "auxiliary_loss_mlp": 0.00756596,
      "balance_loss_clip": 1.04139638,
      "balance_loss_mlp": 1.0014385,
      "epoch": 0.41171165754824746,
      "flos": 20008698226560.0,
      "grad_norm": 1.9115677995885358,
      "language_loss": 0.64848709,
      "learning_rate": 2.6567229171804247e-06,
      "loss": 0.66688132,
      "num_input_tokens_seen": 73970735,
      "step": 3424,
      "time_per_iteration": 2.5989885330200195
    },
    {
      "auxiliary_loss_clip": 0.0107086,
      "auxiliary_loss_mlp": 0.01024366,
      "balance_loss_clip": 1.03741074,
      "balance_loss_mlp": 1.017869,
      "epoch": 0.41183190043888657,
      "flos": 18006260376960.0,
      "grad_norm": 2.4986994337335418,
      "language_loss": 0.88058162,
      "learning_rate": 2.655987088047368e-06,
      "loss": 0.9015339,
      "num_input_tokens_seen": 73989080,
      "step": 3425,
      "time_per_iteration": 2.6227738857269287
    },
    {
      "auxiliary_loss_clip": 0.0108556,
      "auxiliary_loss_mlp": 0.01022746,
      "balance_loss_clip": 1.04006433,
      "balance_loss_mlp": 1.01685119,
      "epoch": 0.4119521433295256,
      "flos": 27165885793920.0,
      "grad_norm": 2.027758239727671,
      "language_loss": 0.79150867,
      "learning_rate": 2.6552511594015912e-06,
      "loss": 0.81259179,
      "num_input_tokens_seen": 74009470,
      "step": 3426,
      "time_per_iteration": 4.185155153274536
    },
    {
      "auxiliary_loss_clip": 0.01087428,
      "auxiliary_loss_mlp": 0.01022099,
      "balance_loss_clip": 1.04077637,
      "balance_loss_mlp": 1.01589441,
      "epoch": 0.41207238622016473,
      "flos": 15123806006400.0,
      "grad_norm": 2.4179199393323674,
      "language_loss": 0.85301191,
      "learning_rate": 2.654515131354735e-06,
      "loss": 0.87410718,
      "num_input_tokens_seen": 74027735,
      "step": 3427,
      "time_per_iteration": 2.5487661361694336
    },
    {
      "auxiliary_loss_clip": 0.01069378,
      "auxiliary_loss_mlp": 0.01020166,
      "balance_loss_clip": 1.03998029,
      "balance_loss_mlp": 1.01469398,
      "epoch": 0.41219262911080384,
      "flos": 27055324437120.0,
      "grad_norm": 1.9610436070543822,
      "language_loss": 0.85228741,
      "learning_rate": 2.653779004018453e-06,
      "loss": 0.87318289,
      "num_input_tokens_seen": 74048300,
      "step": 3428,
      "time_per_iteration": 2.753558874130249
    },
    {
      "auxiliary_loss_clip": 0.01085886,
      "auxiliary_loss_mlp": 0.01015792,
      "balance_loss_clip": 1.04292321,
      "balance_loss_mlp": 1.01028192,
      "epoch": 0.4123128720014429,
      "flos": 24688962097920.0,
      "grad_norm": 1.7772253030138574,
      "language_loss": 0.82240987,
      "learning_rate": 2.653042777504417e-06,
      "loss": 0.84342664,
      "num_input_tokens_seen": 74070890,
      "step": 3429,
      "time_per_iteration": 2.6378464698791504
    },
    {
      "auxiliary_loss_clip": 0.01081099,
      "auxiliary_loss_mlp": 0.01018592,
      "balance_loss_clip": 1.03936672,
      "balance_loss_mlp": 1.01280737,
      "epoch": 0.412433114892082,
      "flos": 26246879435520.0,
      "grad_norm": 3.8501385247299944,
      "language_loss": 0.80252355,
      "learning_rate": 2.6523064519243105e-06,
      "loss": 0.82352048,
      "num_input_tokens_seen": 74090460,
      "step": 3430,
      "time_per_iteration": 2.6798319816589355
    },
    {
      "auxiliary_loss_clip": 0.01093493,
      "auxiliary_loss_mlp": 0.01023974,
      "balance_loss_clip": 1.04157555,
      "balance_loss_mlp": 1.01757205,
      "epoch": 0.4125533577827211,
      "flos": 21363162675840.0,
      "grad_norm": 3.0815251454945756,
      "language_loss": 0.79264116,
      "learning_rate": 2.6515700273898333e-06,
      "loss": 0.81381583,
      "num_input_tokens_seen": 74108335,
      "step": 3431,
      "time_per_iteration": 2.51938533782959
    },
    {
      "auxiliary_loss_clip": 0.01076394,
      "auxiliary_loss_mlp": 0.01024618,
      "balance_loss_clip": 1.03929067,
      "balance_loss_mlp": 1.0187465,
      "epoch": 0.4126736006733602,
      "flos": 26069941336320.0,
      "grad_norm": 2.0078716202996616,
      "language_loss": 0.68875313,
      "learning_rate": 2.6508335040127018e-06,
      "loss": 0.70976317,
      "num_input_tokens_seen": 74128030,
      "step": 3432,
      "time_per_iteration": 2.635148286819458
    },
    {
      "auxiliary_loss_clip": 0.01096177,
      "auxiliary_loss_mlp": 0.01022453,
      "balance_loss_clip": 1.0417788,
      "balance_loss_mlp": 1.01677585,
      "epoch": 0.4127938435639993,
      "flos": 25668505814400.0,
      "grad_norm": 1.5489155477905043,
      "language_loss": 0.7722218,
      "learning_rate": 2.6500968819046446e-06,
      "loss": 0.7934081,
      "num_input_tokens_seen": 74148330,
      "step": 3433,
      "time_per_iteration": 2.55938982963562
    },
    {
      "auxiliary_loss_clip": 0.01071115,
      "auxiliary_loss_mlp": 0.01021482,
      "balance_loss_clip": 1.03841972,
      "balance_loss_mlp": 1.01578677,
      "epoch": 0.4129140864546384,
      "flos": 17997387546240.0,
      "grad_norm": 4.439631026644986,
      "language_loss": 0.59127462,
      "learning_rate": 2.649360161177408e-06,
      "loss": 0.61220062,
      "num_input_tokens_seen": 74163390,
      "step": 3434,
      "time_per_iteration": 2.5727267265319824
    },
    {
      "auxiliary_loss_clip": 0.01096542,
      "auxiliary_loss_mlp": 0.01020532,
      "balance_loss_clip": 1.04115093,
      "balance_loss_mlp": 1.01447272,
      "epoch": 0.41303432934527745,
      "flos": 23735174808960.0,
      "grad_norm": 1.8828915298043019,
      "language_loss": 0.73402852,
      "learning_rate": 2.6486233419427504e-06,
      "loss": 0.75519931,
      "num_input_tokens_seen": 74183205,
      "step": 3435,
      "time_per_iteration": 2.5606751441955566
    },
    {
      "auxiliary_loss_clip": 0.01066831,
      "auxiliary_loss_mlp": 0.0102047,
      "balance_loss_clip": 1.03731346,
      "balance_loss_mlp": 1.01412845,
      "epoch": 0.41315457223591656,
      "flos": 19757306833920.0,
      "grad_norm": 2.0372893352839827,
      "language_loss": 0.74691355,
      "learning_rate": 2.6478864243124484e-06,
      "loss": 0.76778662,
      "num_input_tokens_seen": 74202870,
      "step": 3436,
      "time_per_iteration": 2.6122779846191406
    },
    {
      "auxiliary_loss_clip": 0.01097766,
      "auxiliary_loss_mlp": 0.01018469,
      "balance_loss_clip": 1.04217315,
      "balance_loss_mlp": 1.01286936,
      "epoch": 0.4132748151265556,
      "flos": 20925429500160.0,
      "grad_norm": 1.7737839273787923,
      "language_loss": 0.85289323,
      "learning_rate": 2.6471494083982903e-06,
      "loss": 0.87405562,
      "num_input_tokens_seen": 74222255,
      "step": 3437,
      "time_per_iteration": 2.539576530456543
    },
    {
      "auxiliary_loss_clip": 0.01071528,
      "auxiliary_loss_mlp": 0.01019743,
      "balance_loss_clip": 1.04036021,
      "balance_loss_mlp": 1.01409221,
      "epoch": 0.4133950580171947,
      "flos": 32235185975040.0,
      "grad_norm": 1.8667359743688918,
      "language_loss": 0.74972618,
      "learning_rate": 2.6464122943120818e-06,
      "loss": 0.77063882,
      "num_input_tokens_seen": 74242480,
      "step": 3438,
      "time_per_iteration": 2.701263904571533
    },
    {
      "auxiliary_loss_clip": 0.01065334,
      "auxiliary_loss_mlp": 0.01019014,
      "balance_loss_clip": 1.03844893,
      "balance_loss_mlp": 1.01302969,
      "epoch": 0.41351530090783384,
      "flos": 23294597777280.0,
      "grad_norm": 3.492195625413054,
      "language_loss": 0.82175493,
      "learning_rate": 2.645675082165642e-06,
      "loss": 0.84259838,
      "num_input_tokens_seen": 74258690,
      "step": 3439,
      "time_per_iteration": 2.577817916870117
    },
    {
      "auxiliary_loss_clip": 0.01078979,
      "auxiliary_loss_mlp": 0.01025813,
      "balance_loss_clip": 1.03902292,
      "balance_loss_mlp": 1.01983738,
      "epoch": 0.4136355437984729,
      "flos": 25595948424960.0,
      "grad_norm": 10.32352715972002,
      "language_loss": 0.75416964,
      "learning_rate": 2.644937772070806e-06,
      "loss": 0.77521753,
      "num_input_tokens_seen": 74277135,
      "step": 3440,
      "time_per_iteration": 2.6733171939849854
    },
    {
      "auxiliary_loss_clip": 0.01108492,
      "auxiliary_loss_mlp": 0.01020168,
      "balance_loss_clip": 1.04391623,
      "balance_loss_mlp": 1.01429415,
      "epoch": 0.413755786689112,
      "flos": 19830660503040.0,
      "grad_norm": 2.664519264086686,
      "language_loss": 0.83326179,
      "learning_rate": 2.6442003641394225e-06,
      "loss": 0.85454834,
      "num_input_tokens_seen": 74294730,
      "step": 3441,
      "time_per_iteration": 2.501922369003296
    },
    {
      "auxiliary_loss_clip": 0.01087532,
      "auxiliary_loss_mlp": 0.01018491,
      "balance_loss_clip": 1.0414362,
      "balance_loss_mlp": 1.01314461,
      "epoch": 0.4138760295797511,
      "flos": 26872888216320.0,
      "grad_norm": 1.7517745718642206,
      "language_loss": 0.84227598,
      "learning_rate": 2.643462858483356e-06,
      "loss": 0.86333621,
      "num_input_tokens_seen": 74315015,
      "step": 3442,
      "time_per_iteration": 2.6874263286590576
    },
    {
      "auxiliary_loss_clip": 0.01051375,
      "auxiliary_loss_mlp": 0.01023481,
      "balance_loss_clip": 1.03577948,
      "balance_loss_mlp": 1.01749647,
      "epoch": 0.41399627247039017,
      "flos": 16401124978560.0,
      "grad_norm": 2.6691706034453206,
      "language_loss": 0.72695899,
      "learning_rate": 2.6427252552144856e-06,
      "loss": 0.74770749,
      "num_input_tokens_seen": 74333665,
      "step": 3443,
      "time_per_iteration": 2.6625380516052246
    },
    {
      "auxiliary_loss_clip": 0.01106605,
      "auxiliary_loss_mlp": 0.01025243,
      "balance_loss_clip": 1.04247701,
      "balance_loss_mlp": 1.0190953,
      "epoch": 0.4141165153610293,
      "flos": 22932455437440.0,
      "grad_norm": 2.7662541131190914,
      "language_loss": 0.75215161,
      "learning_rate": 2.6419875544447044e-06,
      "loss": 0.77347004,
      "num_input_tokens_seen": 74355065,
      "step": 3444,
      "time_per_iteration": 2.571934223175049
    },
    {
      "auxiliary_loss_clip": 0.01107418,
      "auxiliary_loss_mlp": 0.01021971,
      "balance_loss_clip": 1.04216325,
      "balance_loss_mlp": 1.01626992,
      "epoch": 0.4142367582516684,
      "flos": 25194930001920.0,
      "grad_norm": 2.398510858026515,
      "language_loss": 0.71810007,
      "learning_rate": 2.6412497562859218e-06,
      "loss": 0.73939395,
      "num_input_tokens_seen": 74376345,
      "step": 3445,
      "time_per_iteration": 2.6046695709228516
    },
    {
      "auxiliary_loss_clip": 0.01096789,
      "auxiliary_loss_mlp": 0.01020695,
      "balance_loss_clip": 1.04191589,
      "balance_loss_mlp": 1.01477075,
      "epoch": 0.41435700114230745,
      "flos": 21692685415680.0,
      "grad_norm": 3.324701715214853,
      "language_loss": 0.76627213,
      "learning_rate": 2.6405118608500617e-06,
      "loss": 0.78744698,
      "num_input_tokens_seen": 74395170,
      "step": 3446,
      "time_per_iteration": 2.562974214553833
    },
    {
      "auxiliary_loss_clip": 0.01058849,
      "auxiliary_loss_mlp": 0.01019117,
      "balance_loss_clip": 1.03524446,
      "balance_loss_mlp": 1.01377606,
      "epoch": 0.41447724403294656,
      "flos": 25997573537280.0,
      "grad_norm": 1.808946272295197,
      "language_loss": 0.81728983,
      "learning_rate": 2.6397738682490613e-06,
      "loss": 0.83806956,
      "num_input_tokens_seen": 74416070,
      "step": 3447,
      "time_per_iteration": 2.7467639446258545
    },
    {
      "auxiliary_loss_clip": 0.0110715,
      "auxiliary_loss_mlp": 0.01019908,
      "balance_loss_clip": 1.04204655,
      "balance_loss_mlp": 1.01425457,
      "epoch": 0.41459748692358567,
      "flos": 18261633168000.0,
      "grad_norm": 1.8055664731693069,
      "language_loss": 0.75013709,
      "learning_rate": 2.6390357785948734e-06,
      "loss": 0.77140766,
      "num_input_tokens_seen": 74433185,
      "step": 3448,
      "time_per_iteration": 3.250309705734253
    },
    {
      "auxiliary_loss_clip": 0.01094912,
      "auxiliary_loss_mlp": 0.01022842,
      "balance_loss_clip": 1.0433234,
      "balance_loss_mlp": 1.01661634,
      "epoch": 0.4147177298142247,
      "flos": 24170632899840.0,
      "grad_norm": 1.8127348809595298,
      "language_loss": 0.80499423,
      "learning_rate": 2.6382975919994667e-06,
      "loss": 0.82617176,
      "num_input_tokens_seen": 74453760,
      "step": 3449,
      "time_per_iteration": 3.412931442260742
    },
    {
      "auxiliary_loss_clip": 0.01083788,
      "auxiliary_loss_mlp": 0.01018144,
      "balance_loss_clip": 1.04214656,
      "balance_loss_mlp": 1.01251459,
      "epoch": 0.41483797270486383,
      "flos": 20086753737600.0,
      "grad_norm": 2.538790081967191,
      "language_loss": 0.73481816,
      "learning_rate": 2.637559308574822e-06,
      "loss": 0.75583744,
      "num_input_tokens_seen": 74473505,
      "step": 3450,
      "time_per_iteration": 2.6273109912872314
    },
    {
      "auxiliary_loss_clip": 0.01106798,
      "auxiliary_loss_mlp": 0.01022249,
      "balance_loss_clip": 1.04232645,
      "balance_loss_mlp": 1.01665521,
      "epoch": 0.4149582155955029,
      "flos": 30083651948160.0,
      "grad_norm": 2.4262627884307726,
      "language_loss": 0.71322089,
      "learning_rate": 2.6368209284329376e-06,
      "loss": 0.73451138,
      "num_input_tokens_seen": 74494135,
      "step": 3451,
      "time_per_iteration": 2.5935893058776855
    },
    {
      "auxiliary_loss_clip": 0.01096161,
      "auxiliary_loss_mlp": 0.01024093,
      "balance_loss_clip": 1.04201269,
      "balance_loss_mlp": 1.01826954,
      "epoch": 0.415078458486142,
      "flos": 16766300764800.0,
      "grad_norm": 1.930313297137178,
      "language_loss": 0.75587195,
      "learning_rate": 2.636082451685825e-06,
      "loss": 0.77707452,
      "num_input_tokens_seen": 74512335,
      "step": 3452,
      "time_per_iteration": 3.4179279804229736
    },
    {
      "auxiliary_loss_clip": 0.01083595,
      "auxiliary_loss_mlp": 0.01022363,
      "balance_loss_clip": 1.04238033,
      "balance_loss_mlp": 1.01639104,
      "epoch": 0.4151987013767811,
      "flos": 26036222112000.0,
      "grad_norm": 1.5528261976852762,
      "language_loss": 0.86490947,
      "learning_rate": 2.6353438784455094e-06,
      "loss": 0.8859691,
      "num_input_tokens_seen": 74535620,
      "step": 3453,
      "time_per_iteration": 2.6168041229248047
    },
    {
      "auxiliary_loss_clip": 0.01082996,
      "auxiliary_loss_mlp": 0.01022871,
      "balance_loss_clip": 1.04207754,
      "balance_loss_mlp": 1.0165472,
      "epoch": 0.41531894426742016,
      "flos": 24610299897600.0,
      "grad_norm": 2.6213344235381637,
      "language_loss": 0.71383375,
      "learning_rate": 2.6346052088240326e-06,
      "loss": 0.73489249,
      "num_input_tokens_seen": 74555140,
      "step": 3454,
      "time_per_iteration": 2.673552989959717
    },
    {
      "auxiliary_loss_clip": 0.01083424,
      "auxiliary_loss_mlp": 0.01020109,
      "balance_loss_clip": 1.04096282,
      "balance_loss_mlp": 1.01418161,
      "epoch": 0.4154391871580593,
      "flos": 14977553685120.0,
      "grad_norm": 2.136724782013999,
      "language_loss": 0.77529722,
      "learning_rate": 2.63386644293345e-06,
      "loss": 0.7963326,
      "num_input_tokens_seen": 74571485,
      "step": 3455,
      "time_per_iteration": 2.5462965965270996
    },
    {
      "auxiliary_loss_clip": 0.01076383,
      "auxiliary_loss_mlp": 0.01021469,
      "balance_loss_clip": 1.04147506,
      "balance_loss_mlp": 1.01583982,
      "epoch": 0.4155594300486984,
      "flos": 14648903061120.0,
      "grad_norm": 3.0093675195894245,
      "language_loss": 0.83119428,
      "learning_rate": 2.633127580885833e-06,
      "loss": 0.85217279,
      "num_input_tokens_seen": 74585985,
      "step": 3456,
      "time_per_iteration": 2.6232964992523193
    },
    {
      "auxiliary_loss_clip": 0.01108119,
      "auxiliary_loss_mlp": 0.01023783,
      "balance_loss_clip": 1.04447055,
      "balance_loss_mlp": 1.01804054,
      "epoch": 0.41567967293933744,
      "flos": 29499856041600.0,
      "grad_norm": 2.223105074720998,
      "language_loss": 0.65366817,
      "learning_rate": 2.632388622793265e-06,
      "loss": 0.6749872,
      "num_input_tokens_seen": 74605140,
      "step": 3457,
      "time_per_iteration": 2.5486910343170166
    },
    {
      "auxiliary_loss_clip": 0.010993,
      "auxiliary_loss_mlp": 0.01021687,
      "balance_loss_clip": 1.04398274,
      "balance_loss_mlp": 1.01601267,
      "epoch": 0.41579991582997655,
      "flos": 19240039342080.0,
      "grad_norm": 6.451351846889323,
      "language_loss": 0.67905402,
      "learning_rate": 2.6316495687678457e-06,
      "loss": 0.70026386,
      "num_input_tokens_seen": 74623790,
      "step": 3458,
      "time_per_iteration": 2.6262269020080566
    },
    {
      "auxiliary_loss_clip": 0.01057223,
      "auxiliary_loss_mlp": 0.01018356,
      "balance_loss_clip": 1.037848,
      "balance_loss_mlp": 1.01213598,
      "epoch": 0.41592015872061566,
      "flos": 24464350920960.0,
      "grad_norm": 2.9595609468423185,
      "language_loss": 0.76322198,
      "learning_rate": 2.6309104189216887e-06,
      "loss": 0.78397775,
      "num_input_tokens_seen": 74641355,
      "step": 3459,
      "time_per_iteration": 2.6499879360198975
    },
    {
      "auxiliary_loss_clip": 0.01062018,
      "auxiliary_loss_mlp": 0.00756976,
      "balance_loss_clip": 1.03405499,
      "balance_loss_mlp": 1.00166357,
      "epoch": 0.4160404016112547,
      "flos": 20777660455680.0,
      "grad_norm": 2.453289807095803,
      "language_loss": 0.75017428,
      "learning_rate": 2.630171173366923e-06,
      "loss": 0.76836419,
      "num_input_tokens_seen": 74657155,
      "step": 3460,
      "time_per_iteration": 2.628547430038452
    },
    {
      "auxiliary_loss_clip": 0.01061469,
      "auxiliary_loss_mlp": 0.01019828,
      "balance_loss_clip": 1.03989673,
      "balance_loss_mlp": 1.01390898,
      "epoch": 0.41616064450189383,
      "flos": 13918096471680.0,
      "grad_norm": 2.626459469290083,
      "language_loss": 0.74271834,
      "learning_rate": 2.629431832215691e-06,
      "loss": 0.76353133,
      "num_input_tokens_seen": 74671960,
      "step": 3461,
      "time_per_iteration": 2.600628614425659
    },
    {
      "auxiliary_loss_clip": 0.01077567,
      "auxiliary_loss_mlp": 0.01017779,
      "balance_loss_clip": 1.0394876,
      "balance_loss_mlp": 1.01205695,
      "epoch": 0.41628088739253294,
      "flos": 20012869215360.0,
      "grad_norm": 1.9422376473457268,
      "language_loss": 0.87485814,
      "learning_rate": 2.628692395580151e-06,
      "loss": 0.89581162,
      "num_input_tokens_seen": 74692050,
      "step": 3462,
      "time_per_iteration": 2.635843276977539
    },
    {
      "auxiliary_loss_clip": 0.01042918,
      "auxiliary_loss_mlp": 0.01022367,
      "balance_loss_clip": 1.03564882,
      "balance_loss_mlp": 1.01654053,
      "epoch": 0.416401130283172,
      "flos": 29171357089920.0,
      "grad_norm": 1.6890724866393803,
      "language_loss": 0.79818803,
      "learning_rate": 2.6279528635724747e-06,
      "loss": 0.81884086,
      "num_input_tokens_seen": 74712205,
      "step": 3463,
      "time_per_iteration": 2.7876904010772705
    },
    {
      "auxiliary_loss_clip": 0.01097729,
      "auxiliary_loss_mlp": 0.01019534,
      "balance_loss_clip": 1.04284096,
      "balance_loss_mlp": 1.01321638,
      "epoch": 0.4165213731738111,
      "flos": 16248312829440.0,
      "grad_norm": 2.5748372159151547,
      "language_loss": 0.78281951,
      "learning_rate": 2.627213236304848e-06,
      "loss": 0.80399209,
      "num_input_tokens_seen": 74729005,
      "step": 3464,
      "time_per_iteration": 2.7279746532440186
    },
    {
      "auxiliary_loss_clip": 0.01097292,
      "auxiliary_loss_mlp": 0.01019457,
      "balance_loss_clip": 1.04320455,
      "balance_loss_mlp": 1.01367545,
      "epoch": 0.4166416160644502,
      "flos": 33768219000960.0,
      "grad_norm": 2.3352486732341267,
      "language_loss": 0.70984012,
      "learning_rate": 2.626473513889472e-06,
      "loss": 0.73100758,
      "num_input_tokens_seen": 74751385,
      "step": 3465,
      "time_per_iteration": 2.7061502933502197
    },
    {
      "auxiliary_loss_clip": 0.01098184,
      "auxiliary_loss_mlp": 0.01024313,
      "balance_loss_clip": 1.0437119,
      "balance_loss_mlp": 1.01853466,
      "epoch": 0.41676185895508927,
      "flos": 20919286771200.0,
      "grad_norm": 3.7335656767925243,
      "language_loss": 0.82850164,
      "learning_rate": 2.625733696438562e-06,
      "loss": 0.84972662,
      "num_input_tokens_seen": 74768890,
      "step": 3466,
      "time_per_iteration": 2.5475456714630127
    },
    {
      "auxiliary_loss_clip": 0.01085104,
      "auxiliary_loss_mlp": 0.01022605,
      "balance_loss_clip": 1.04145741,
      "balance_loss_mlp": 1.01706195,
      "epoch": 0.4168821018457284,
      "flos": 18408112997760.0,
      "grad_norm": 1.7070005348399369,
      "language_loss": 0.75406265,
      "learning_rate": 2.6249937840643476e-06,
      "loss": 0.77513975,
      "num_input_tokens_seen": 74787195,
      "step": 3467,
      "time_per_iteration": 2.655627489089966
    },
    {
      "auxiliary_loss_clip": 0.0110929,
      "auxiliary_loss_mlp": 0.00756581,
      "balance_loss_clip": 1.04559731,
      "balance_loss_mlp": 1.00158048,
      "epoch": 0.41700234473636744,
      "flos": 18700428049920.0,
      "grad_norm": 1.715885968325142,
      "language_loss": 0.66411126,
      "learning_rate": 2.6242537768790733e-06,
      "loss": 0.68277001,
      "num_input_tokens_seen": 74806350,
      "step": 3468,
      "time_per_iteration": 2.5255870819091797
    },
    {
      "auxiliary_loss_clip": 0.01087624,
      "auxiliary_loss_mlp": 0.01022013,
      "balance_loss_clip": 1.03748655,
      "balance_loss_mlp": 1.01619005,
      "epoch": 0.41712258762700655,
      "flos": 31036150022400.0,
      "grad_norm": 1.850070728986339,
      "language_loss": 0.690992,
      "learning_rate": 2.6235136749949975e-06,
      "loss": 0.71208835,
      "num_input_tokens_seen": 74829800,
      "step": 3469,
      "time_per_iteration": 2.670701265335083
    },
    {
      "auxiliary_loss_clip": 0.01106966,
      "auxiliary_loss_mlp": 0.01022691,
      "balance_loss_clip": 1.04337537,
      "balance_loss_mlp": 1.01649833,
      "epoch": 0.41724283051764566,
      "flos": 35917477943040.0,
      "grad_norm": 2.4543347899597463,
      "language_loss": 0.61559987,
      "learning_rate": 2.6227734785243924e-06,
      "loss": 0.63689637,
      "num_input_tokens_seen": 74849760,
      "step": 3470,
      "time_per_iteration": 2.619025230407715
    },
    {
      "auxiliary_loss_clip": 0.01046546,
      "auxiliary_loss_mlp": 0.01018989,
      "balance_loss_clip": 1.03669,
      "balance_loss_mlp": 1.01346707,
      "epoch": 0.4173630734082847,
      "flos": 25335760037760.0,
      "grad_norm": 2.0744090396975468,
      "language_loss": 0.79200584,
      "learning_rate": 2.6220331875795466e-06,
      "loss": 0.81266117,
      "num_input_tokens_seen": 74869110,
      "step": 3471,
      "time_per_iteration": 2.8107056617736816
    },
    {
      "auxiliary_loss_clip": 0.0110016,
      "auxiliary_loss_mlp": 0.01023096,
      "balance_loss_clip": 1.04535699,
      "balance_loss_mlp": 1.01731181,
      "epoch": 0.4174833162989238,
      "flos": 26687683975680.0,
      "grad_norm": 1.6312092314273459,
      "language_loss": 0.74780589,
      "learning_rate": 2.62129280227276e-06,
      "loss": 0.76903844,
      "num_input_tokens_seen": 74889110,
      "step": 3472,
      "time_per_iteration": 2.6687352657318115
    },
    {
      "auxiliary_loss_clip": 0.01098558,
      "auxiliary_loss_mlp": 0.01024962,
      "balance_loss_clip": 1.04432654,
      "balance_loss_mlp": 1.01904881,
      "epoch": 0.41760355918956293,
      "flos": 74744683407360.0,
      "grad_norm": 1.9846062670074056,
      "language_loss": 0.68146968,
      "learning_rate": 2.62055232271635e-06,
      "loss": 0.70270485,
      "num_input_tokens_seen": 74916260,
      "step": 3473,
      "time_per_iteration": 3.7129907608032227
    },
    {
      "auxiliary_loss_clip": 0.0107712,
      "auxiliary_loss_mlp": 0.01020644,
      "balance_loss_clip": 1.04427242,
      "balance_loss_mlp": 1.01491904,
      "epoch": 0.417723802080202,
      "flos": 14319152812800.0,
      "grad_norm": 2.155174054503552,
      "language_loss": 0.88028026,
      "learning_rate": 2.619811749022646e-06,
      "loss": 0.90125787,
      "num_input_tokens_seen": 74931570,
      "step": 3474,
      "time_per_iteration": 3.3967509269714355
    },
    {
      "auxiliary_loss_clip": 0.01096935,
      "auxiliary_loss_mlp": 0.01022819,
      "balance_loss_clip": 1.04544783,
      "balance_loss_mlp": 1.01641488,
      "epoch": 0.4178440449708411,
      "flos": 14645338761600.0,
      "grad_norm": 2.31013951540727,
      "language_loss": 0.71407294,
      "learning_rate": 2.6190710813039917e-06,
      "loss": 0.7352705,
      "num_input_tokens_seen": 74944695,
      "step": 3475,
      "time_per_iteration": 2.492138624191284
    },
    {
      "auxiliary_loss_clip": 0.0105874,
      "auxiliary_loss_mlp": 0.00757306,
      "balance_loss_clip": 1.04061842,
      "balance_loss_mlp": 1.00173235,
      "epoch": 0.4179642878614802,
      "flos": 21509452915200.0,
      "grad_norm": 3.7678048697337005,
      "language_loss": 0.84000784,
      "learning_rate": 2.618330319672747e-06,
      "loss": 0.8581683,
      "num_input_tokens_seen": 74964115,
      "step": 3476,
      "time_per_iteration": 2.706676721572876
    },
    {
      "auxiliary_loss_clip": 0.01108865,
      "auxiliary_loss_mlp": 0.01021947,
      "balance_loss_clip": 1.04458213,
      "balance_loss_mlp": 1.01626396,
      "epoch": 0.41808453075211927,
      "flos": 18443955634560.0,
      "grad_norm": 4.9173031556386215,
      "language_loss": 0.92122829,
      "learning_rate": 2.617589464241284e-06,
      "loss": 0.94253635,
      "num_input_tokens_seen": 74978515,
      "step": 3477,
      "time_per_iteration": 2.4826509952545166
    },
    {
      "auxiliary_loss_clip": 0.01067774,
      "auxiliary_loss_mlp": 0.01017791,
      "balance_loss_clip": 1.04073334,
      "balance_loss_mlp": 1.01214039,
      "epoch": 0.4182047736427584,
      "flos": 20302985018880.0,
      "grad_norm": 1.9561025134707188,
      "language_loss": 0.74483049,
      "learning_rate": 2.6168485151219914e-06,
      "loss": 0.76568609,
      "num_input_tokens_seen": 74998135,
      "step": 3478,
      "time_per_iteration": 4.204188823699951
    },
    {
      "auxiliary_loss_clip": 0.01096627,
      "auxiliary_loss_mlp": 0.01020552,
      "balance_loss_clip": 1.04386878,
      "balance_loss_mlp": 1.01477361,
      "epoch": 0.4183250165333975,
      "flos": 18878427855360.0,
      "grad_norm": 2.130013685106343,
      "language_loss": 0.71173322,
      "learning_rate": 2.616107472427269e-06,
      "loss": 0.73290503,
      "num_input_tokens_seen": 75012830,
      "step": 3479,
      "time_per_iteration": 2.58976411819458
    },
    {
      "auxiliary_loss_clip": 0.01100487,
      "auxiliary_loss_mlp": 0.01020367,
      "balance_loss_clip": 1.04482436,
      "balance_loss_mlp": 1.01443934,
      "epoch": 0.41844525942403654,
      "flos": 17741483902080.0,
      "grad_norm": 2.828221054786907,
      "language_loss": 0.76410687,
      "learning_rate": 2.615366336269533e-06,
      "loss": 0.78531539,
      "num_input_tokens_seen": 75026495,
      "step": 3480,
      "time_per_iteration": 2.529216766357422
    },
    {
      "auxiliary_loss_clip": 0.01108704,
      "auxiliary_loss_mlp": 0.0102539,
      "balance_loss_clip": 1.0444777,
      "balance_loss_mlp": 1.01899147,
      "epoch": 0.41856550231467565,
      "flos": 18362904595200.0,
      "grad_norm": 2.7219973330954614,
      "language_loss": 0.80314112,
      "learning_rate": 2.6146251067612126e-06,
      "loss": 0.82448196,
      "num_input_tokens_seen": 75041970,
      "step": 3481,
      "time_per_iteration": 2.537856101989746
    },
    {
      "auxiliary_loss_clip": 0.01089693,
      "auxiliary_loss_mlp": 0.01020325,
      "balance_loss_clip": 1.04331875,
      "balance_loss_mlp": 1.01475239,
      "epoch": 0.41868574520531476,
      "flos": 22783890113280.0,
      "grad_norm": 1.592173114101993,
      "language_loss": 0.82497668,
      "learning_rate": 2.6138837840147525e-06,
      "loss": 0.84607697,
      "num_input_tokens_seen": 75061005,
      "step": 3482,
      "time_per_iteration": 2.549893856048584
    },
    {
      "auxiliary_loss_clip": 0.0106079,
      "auxiliary_loss_mlp": 0.01019697,
      "balance_loss_clip": 1.03506112,
      "balance_loss_mlp": 1.01381147,
      "epoch": 0.4188059880959538,
      "flos": 13700879320320.0,
      "grad_norm": 2.2890553915705376,
      "language_loss": 0.76205814,
      "learning_rate": 2.6131423681426103e-06,
      "loss": 0.78286302,
      "num_input_tokens_seen": 75076920,
      "step": 3483,
      "time_per_iteration": 2.6161954402923584
    },
    {
      "auxiliary_loss_clip": 0.01107513,
      "auxiliary_loss_mlp": 0.01021522,
      "balance_loss_clip": 1.04385579,
      "balance_loss_mlp": 1.01605928,
      "epoch": 0.41892623098659293,
      "flos": 37821450303360.0,
      "grad_norm": 1.9647721108701819,
      "language_loss": 0.73081309,
      "learning_rate": 2.6124008592572587e-06,
      "loss": 0.75210345,
      "num_input_tokens_seen": 75100905,
      "step": 3484,
      "time_per_iteration": 2.682464599609375
    },
    {
      "auxiliary_loss_clip": 0.0110772,
      "auxiliary_loss_mlp": 0.01018953,
      "balance_loss_clip": 1.04216051,
      "balance_loss_mlp": 1.01277781,
      "epoch": 0.419046473877232,
      "flos": 23261143979520.0,
      "grad_norm": 13.444178024517473,
      "language_loss": 0.81791186,
      "learning_rate": 2.6116592574711835e-06,
      "loss": 0.83917862,
      "num_input_tokens_seen": 75119205,
      "step": 3485,
      "time_per_iteration": 2.5442914962768555
    },
    {
      "auxiliary_loss_clip": 0.01111695,
      "auxiliary_loss_mlp": 0.0102938,
      "balance_loss_clip": 1.04711676,
      "balance_loss_mlp": 1.02339315,
      "epoch": 0.4191667167678711,
      "flos": 20743144951680.0,
      "grad_norm": 2.943670138863468,
      "language_loss": 0.84090805,
      "learning_rate": 2.6109175628968853e-06,
      "loss": 0.86231881,
      "num_input_tokens_seen": 75138970,
      "step": 3486,
      "time_per_iteration": 2.51876163482666
    },
    {
      "auxiliary_loss_clip": 0.01097872,
      "auxiliary_loss_mlp": 0.01023495,
      "balance_loss_clip": 1.04413998,
      "balance_loss_mlp": 1.01808596,
      "epoch": 0.4192869596585102,
      "flos": 23588657061120.0,
      "grad_norm": 1.996497641570491,
      "language_loss": 0.82962859,
      "learning_rate": 2.610175775646878e-06,
      "loss": 0.85084224,
      "num_input_tokens_seen": 75157550,
      "step": 3487,
      "time_per_iteration": 2.616133689880371
    },
    {
      "auxiliary_loss_clip": 0.01085172,
      "auxiliary_loss_mlp": 0.0102203,
      "balance_loss_clip": 1.04205632,
      "balance_loss_mlp": 1.01619172,
      "epoch": 0.41940720254914926,
      "flos": 25083534447360.0,
      "grad_norm": 2.125060232309391,
      "language_loss": 0.73102307,
      "learning_rate": 2.6094338958336907e-06,
      "loss": 0.7520951,
      "num_input_tokens_seen": 75176220,
      "step": 3488,
      "time_per_iteration": 2.6086156368255615
    },
    {
      "auxiliary_loss_clip": 0.0108168,
      "auxiliary_loss_mlp": 0.01020716,
      "balance_loss_clip": 1.04210114,
      "balance_loss_mlp": 1.01511073,
      "epoch": 0.41952744543978837,
      "flos": 15555623961600.0,
      "grad_norm": 2.6686928763254985,
      "language_loss": 0.82876158,
      "learning_rate": 2.608691923569867e-06,
      "loss": 0.84978557,
      "num_input_tokens_seen": 75193095,
      "step": 3489,
      "time_per_iteration": 2.5812325477600098
    },
    {
      "auxiliary_loss_clip": 0.01097816,
      "auxiliary_loss_mlp": 0.01024848,
      "balance_loss_clip": 1.04548645,
      "balance_loss_mlp": 1.01912022,
      "epoch": 0.4196476883304275,
      "flos": 24647090486400.0,
      "grad_norm": 1.6445372977963448,
      "language_loss": 0.75699461,
      "learning_rate": 2.6079498589679616e-06,
      "loss": 0.77822125,
      "num_input_tokens_seen": 75214185,
      "step": 3490,
      "time_per_iteration": 2.5573935508728027
    },
    {
      "auxiliary_loss_clip": 0.01047655,
      "auxiliary_loss_mlp": 0.01025767,
      "balance_loss_clip": 1.03801179,
      "balance_loss_mlp": 1.01927614,
      "epoch": 0.41976793122106654,
      "flos": 24533419847040.0,
      "grad_norm": 1.9876586276919426,
      "language_loss": 0.75925165,
      "learning_rate": 2.6072077021405465e-06,
      "loss": 0.77998585,
      "num_input_tokens_seen": 75233020,
      "step": 3491,
      "time_per_iteration": 2.9206180572509766
    },
    {
      "auxiliary_loss_clip": 0.01075802,
      "auxiliary_loss_mlp": 0.01023841,
      "balance_loss_clip": 1.04247451,
      "balance_loss_mlp": 1.01815128,
      "epoch": 0.41988817411170565,
      "flos": 21177237991680.0,
      "grad_norm": 1.7541902835144456,
      "language_loss": 0.69408619,
      "learning_rate": 2.6064654532002054e-06,
      "loss": 0.71508265,
      "num_input_tokens_seen": 75252030,
      "step": 3492,
      "time_per_iteration": 2.7743372917175293
    },
    {
      "auxiliary_loss_clip": 0.01108786,
      "auxiliary_loss_mlp": 0.01026087,
      "balance_loss_clip": 1.04481328,
      "balance_loss_mlp": 1.02054667,
      "epoch": 0.42000841700234476,
      "flos": 31652072593920.0,
      "grad_norm": 1.6554863072855357,
      "language_loss": 0.76193964,
      "learning_rate": 2.6057231122595375e-06,
      "loss": 0.78328836,
      "num_input_tokens_seen": 75273340,
      "step": 3493,
      "time_per_iteration": 2.6237294673919678
    },
    {
      "auxiliary_loss_clip": 0.01082453,
      "auxiliary_loss_mlp": 0.01023716,
      "balance_loss_clip": 1.03985977,
      "balance_loss_mlp": 1.01767206,
      "epoch": 0.4201286598929838,
      "flos": 21283287096960.0,
      "grad_norm": 1.8234333246736307,
      "language_loss": 0.73295689,
      "learning_rate": 2.604980679431154e-06,
      "loss": 0.75401866,
      "num_input_tokens_seen": 75291580,
      "step": 3494,
      "time_per_iteration": 2.5582423210144043
    },
    {
      "auxiliary_loss_clip": 0.01097208,
      "auxiliary_loss_mlp": 0.01020139,
      "balance_loss_clip": 1.04246998,
      "balance_loss_mlp": 1.01431215,
      "epoch": 0.4202489027836229,
      "flos": 18548222590080.0,
      "grad_norm": 2.2973428438890844,
      "language_loss": 0.74910772,
      "learning_rate": 2.604238154827684e-06,
      "loss": 0.77028114,
      "num_input_tokens_seen": 75308205,
      "step": 3495,
      "time_per_iteration": 2.545417070388794
    },
    {
      "auxiliary_loss_clip": 0.01099883,
      "auxiliary_loss_mlp": 0.01018623,
      "balance_loss_clip": 1.04588783,
      "balance_loss_mlp": 1.01304138,
      "epoch": 0.42036914567426203,
      "flos": 19319649494400.0,
      "grad_norm": 2.3736337284304487,
      "language_loss": 0.73051053,
      "learning_rate": 2.6034955385617656e-06,
      "loss": 0.75169563,
      "num_input_tokens_seen": 75326535,
      "step": 3496,
      "time_per_iteration": 2.5353176593780518
    },
    {
      "auxiliary_loss_clip": 0.01064339,
      "auxiliary_loss_mlp": 0.01003254,
      "balance_loss_clip": 1.05905104,
      "balance_loss_mlp": 1.00122786,
      "epoch": 0.4204893885649011,
      "flos": 67849645916160.0,
      "grad_norm": 0.8433311424653347,
      "language_loss": 0.61606872,
      "learning_rate": 2.6027528307460544e-06,
      "loss": 0.63674462,
      "num_input_tokens_seen": 75390540,
      "step": 3497,
      "time_per_iteration": 3.299591541290283
    },
    {
      "auxiliary_loss_clip": 0.01108148,
      "auxiliary_loss_mlp": 0.01018598,
      "balance_loss_clip": 1.04404068,
      "balance_loss_mlp": 1.01300418,
      "epoch": 0.4206096314555402,
      "flos": 21910964273280.0,
      "grad_norm": 2.4357135478696015,
      "language_loss": 0.86690843,
      "learning_rate": 2.602010031493217e-06,
      "loss": 0.88817596,
      "num_input_tokens_seen": 75408770,
      "step": 3498,
      "time_per_iteration": 2.6116881370544434
    },
    {
      "auxiliary_loss_clip": 0.01062383,
      "auxiliary_loss_mlp": 0.01020617,
      "balance_loss_clip": 1.03989768,
      "balance_loss_mlp": 1.01501107,
      "epoch": 0.42072987434617926,
      "flos": 29280742986240.0,
      "grad_norm": 1.958570724866971,
      "language_loss": 0.86607713,
      "learning_rate": 2.6012671409159367e-06,
      "loss": 0.8869071,
      "num_input_tokens_seen": 75430105,
      "step": 3499,
      "time_per_iteration": 3.510002374649048
    },
    {
      "auxiliary_loss_clip": 0.01070227,
      "auxiliary_loss_mlp": 0.01023037,
      "balance_loss_clip": 1.03465569,
      "balance_loss_mlp": 1.0169301,
      "epoch": 0.42085011723681837,
      "flos": 27603239788800.0,
      "grad_norm": 1.818256672442337,
      "language_loss": 0.81861442,
      "learning_rate": 2.6005241591269097e-06,
      "loss": 0.83954704,
      "num_input_tokens_seen": 75449475,
      "step": 3500,
      "time_per_iteration": 3.403935670852661
    },
    {
      "auxiliary_loss_clip": 0.01065735,
      "auxiliary_loss_mlp": 0.01021031,
      "balance_loss_clip": 1.04320073,
      "balance_loss_mlp": 1.01555312,
      "epoch": 0.4209703601274575,
      "flos": 27821101547520.0,
      "grad_norm": 1.722274084432287,
      "language_loss": 0.7977916,
      "learning_rate": 2.5997810862388454e-06,
      "loss": 0.81865919,
      "num_input_tokens_seen": 75469315,
      "step": 3501,
      "time_per_iteration": 2.716975688934326
    },
    {
      "auxiliary_loss_clip": 0.01083489,
      "auxiliary_loss_mlp": 0.01020237,
      "balance_loss_clip": 1.04153371,
      "balance_loss_mlp": 1.01462483,
      "epoch": 0.42109060301809653,
      "flos": 27527914379520.0,
      "grad_norm": 2.219978713544092,
      "language_loss": 0.75972366,
      "learning_rate": 2.599037922364467e-06,
      "loss": 0.78076088,
      "num_input_tokens_seen": 75488215,
      "step": 3502,
      "time_per_iteration": 2.614123582839966
    },
    {
      "auxiliary_loss_clip": 0.01062899,
      "auxiliary_loss_mlp": 0.01019575,
      "balance_loss_clip": 1.03944182,
      "balance_loss_mlp": 1.01385593,
      "epoch": 0.42121084590873564,
      "flos": 29316813131520.0,
      "grad_norm": 2.225558608830879,
      "language_loss": 0.75136268,
      "learning_rate": 2.5982946676165112e-06,
      "loss": 0.77218741,
      "num_input_tokens_seen": 75507985,
      "step": 3503,
      "time_per_iteration": 2.704035520553589
    },
    {
      "auxiliary_loss_clip": 0.01081385,
      "auxiliary_loss_mlp": 0.01013753,
      "balance_loss_clip": 1.08709598,
      "balance_loss_mlp": 1.01145208,
      "epoch": 0.42133108879937475,
      "flos": 67405163322240.0,
      "grad_norm": 0.7390353323543374,
      "language_loss": 0.57560158,
      "learning_rate": 2.5975513221077313e-06,
      "loss": 0.59655291,
      "num_input_tokens_seen": 75571955,
      "step": 3504,
      "time_per_iteration": 4.018537998199463
    },
    {
      "auxiliary_loss_clip": 0.01082402,
      "auxiliary_loss_mlp": 0.01025158,
      "balance_loss_clip": 1.04214168,
      "balance_loss_mlp": 1.01911449,
      "epoch": 0.4214513316900138,
      "flos": 23107914731520.0,
      "grad_norm": 2.8846497695008693,
      "language_loss": 0.88570333,
      "learning_rate": 2.5968078859508897e-06,
      "loss": 0.90677899,
      "num_input_tokens_seen": 75589155,
      "step": 3505,
      "time_per_iteration": 3.4081625938415527
    },
    {
      "auxiliary_loss_clip": 0.01092734,
      "auxiliary_loss_mlp": 0.01022398,
      "balance_loss_clip": 1.04116035,
      "balance_loss_mlp": 1.0165509,
      "epoch": 0.4215715745806529,
      "flos": 15337724284800.0,
      "grad_norm": 2.440934376283449,
      "language_loss": 0.7987839,
      "learning_rate": 2.5960643592587673e-06,
      "loss": 0.8199352,
      "num_input_tokens_seen": 75606565,
      "step": 3506,
      "time_per_iteration": 2.5364949703216553
    },
    {
      "auxiliary_loss_clip": 0.01072469,
      "auxiliary_loss_mlp": 0.01019654,
      "balance_loss_clip": 1.04255605,
      "balance_loss_mlp": 1.01406348,
      "epoch": 0.42169181747129203,
      "flos": 22129432721280.0,
      "grad_norm": 1.9007736763778296,
      "language_loss": 0.81413424,
      "learning_rate": 2.5953207421441553e-06,
      "loss": 0.83505547,
      "num_input_tokens_seen": 75625165,
      "step": 3507,
      "time_per_iteration": 2.5931320190429688
    },
    {
      "auxiliary_loss_clip": 0.01068412,
      "auxiliary_loss_mlp": 0.01022428,
      "balance_loss_clip": 1.04306948,
      "balance_loss_mlp": 1.01674485,
      "epoch": 0.4218120603619311,
      "flos": 22632518851200.0,
      "grad_norm": 2.2159799973519503,
      "language_loss": 0.75474226,
      "learning_rate": 2.5945770347198603e-06,
      "loss": 0.77565068,
      "num_input_tokens_seen": 75643320,
      "step": 3508,
      "time_per_iteration": 2.649444818496704
    },
    {
      "auxiliary_loss_clip": 0.01082731,
      "auxiliary_loss_mlp": 0.01015424,
      "balance_loss_clip": 1.04241586,
      "balance_loss_mlp": 1.01022387,
      "epoch": 0.4219323032525702,
      "flos": 19684863198720.0,
      "grad_norm": 3.1660574074213343,
      "language_loss": 0.82066333,
      "learning_rate": 2.593833237098701e-06,
      "loss": 0.84164488,
      "num_input_tokens_seen": 75660920,
      "step": 3509,
      "time_per_iteration": 2.5494980812072754
    },
    {
      "auxiliary_loss_clip": 0.0109594,
      "auxiliary_loss_mlp": 0.01021578,
      "balance_loss_clip": 1.04079568,
      "balance_loss_mlp": 1.01558161,
      "epoch": 0.4220525461432093,
      "flos": 30193379107200.0,
      "grad_norm": 1.9978195423356284,
      "language_loss": 0.62503976,
      "learning_rate": 2.593089349393512e-06,
      "loss": 0.64621496,
      "num_input_tokens_seen": 75681410,
      "step": 3510,
      "time_per_iteration": 2.6445424556732178
    },
    {
      "auxiliary_loss_clip": 0.01089938,
      "auxiliary_loss_mlp": 0.01016906,
      "balance_loss_clip": 1.04369712,
      "balance_loss_mlp": 1.01127362,
      "epoch": 0.42217278903384836,
      "flos": 24318212353920.0,
      "grad_norm": 5.2178228409688625,
      "language_loss": 0.83717012,
      "learning_rate": 2.592345371717141e-06,
      "loss": 0.85823846,
      "num_input_tokens_seen": 75700940,
      "step": 3511,
      "time_per_iteration": 2.5704922676086426
    },
    {
      "auxiliary_loss_clip": 0.01089567,
      "auxiliary_loss_mlp": 0.010226,
      "balance_loss_clip": 1.04017639,
      "balance_loss_mlp": 1.01672626,
      "epoch": 0.42229303192448747,
      "flos": 17094382617600.0,
      "grad_norm": 2.309599233109724,
      "language_loss": 0.72405767,
      "learning_rate": 2.591601304182448e-06,
      "loss": 0.74517936,
      "num_input_tokens_seen": 75718910,
      "step": 3512,
      "time_per_iteration": 2.5545718669891357
    },
    {
      "auxiliary_loss_clip": 0.01083815,
      "auxiliary_loss_mlp": 0.01018936,
      "balance_loss_clip": 1.04443204,
      "balance_loss_mlp": 1.01380408,
      "epoch": 0.4224132748151266,
      "flos": 22786771887360.0,
      "grad_norm": 1.8769543059359572,
      "language_loss": 0.79559553,
      "learning_rate": 2.5908571469023067e-06,
      "loss": 0.81662297,
      "num_input_tokens_seen": 75738395,
      "step": 3513,
      "time_per_iteration": 2.5621209144592285
    },
    {
      "auxiliary_loss_clip": 0.01106575,
      "auxiliary_loss_mlp": 0.01022012,
      "balance_loss_clip": 1.04343832,
      "balance_loss_mlp": 1.01650453,
      "epoch": 0.42253351770576564,
      "flos": 17820866545920.0,
      "grad_norm": 2.520441326562564,
      "language_loss": 0.75602585,
      "learning_rate": 2.5901128999896067e-06,
      "loss": 0.77731168,
      "num_input_tokens_seen": 75753825,
      "step": 3514,
      "time_per_iteration": 2.525601625442505
    },
    {
      "auxiliary_loss_clip": 0.01091428,
      "auxiliary_loss_mlp": 0.01018603,
      "balance_loss_clip": 1.04158902,
      "balance_loss_mlp": 1.01313138,
      "epoch": 0.42265376059640475,
      "flos": 28514927957760.0,
      "grad_norm": 1.7222551530666959,
      "language_loss": 0.68009031,
      "learning_rate": 2.5893685635572487e-06,
      "loss": 0.70119065,
      "num_input_tokens_seen": 75774675,
      "step": 3515,
      "time_per_iteration": 2.5696828365325928
    },
    {
      "auxiliary_loss_clip": 0.01076833,
      "auxiliary_loss_mlp": 0.01023654,
      "balance_loss_clip": 1.03995919,
      "balance_loss_mlp": 1.01764011,
      "epoch": 0.4227740034870438,
      "flos": 16255213920000.0,
      "grad_norm": 2.4730311485234338,
      "language_loss": 0.70059919,
      "learning_rate": 2.5886241377181483e-06,
      "loss": 0.72160399,
      "num_input_tokens_seen": 75793545,
      "step": 3516,
      "time_per_iteration": 2.5795323848724365
    },
    {
      "auxiliary_loss_clip": 0.01094309,
      "auxiliary_loss_mlp": 0.0102273,
      "balance_loss_clip": 1.04130507,
      "balance_loss_mlp": 1.01634312,
      "epoch": 0.4228942463776829,
      "flos": 25297718152320.0,
      "grad_norm": 2.3528477590502015,
      "language_loss": 0.81365347,
      "learning_rate": 2.587879622585234e-06,
      "loss": 0.83482391,
      "num_input_tokens_seen": 75812145,
      "step": 3517,
      "time_per_iteration": 2.552488088607788
    },
    {
      "auxiliary_loss_clip": 0.01093462,
      "auxiliary_loss_mlp": 0.01026183,
      "balance_loss_clip": 1.04353726,
      "balance_loss_mlp": 1.02047002,
      "epoch": 0.423014489268322,
      "flos": 26398174861440.0,
      "grad_norm": 2.671294872237873,
      "language_loss": 0.76416856,
      "learning_rate": 2.5871350182714486e-06,
      "loss": 0.78536499,
      "num_input_tokens_seen": 75833025,
      "step": 3518,
      "time_per_iteration": 2.594561815261841
    },
    {
      "auxiliary_loss_clip": 0.0110559,
      "auxiliary_loss_mlp": 0.01019474,
      "balance_loss_clip": 1.04265618,
      "balance_loss_mlp": 1.01396084,
      "epoch": 0.4231347321589611,
      "flos": 17275870886400.0,
      "grad_norm": 2.560347448248433,
      "language_loss": 0.80275071,
      "learning_rate": 2.586390324889748e-06,
      "loss": 0.82400137,
      "num_input_tokens_seen": 75848925,
      "step": 3519,
      "time_per_iteration": 2.457664728164673
    },
    {
      "auxiliary_loss_clip": 0.01087992,
      "auxiliary_loss_mlp": 0.01023552,
      "balance_loss_clip": 1.04084575,
      "balance_loss_mlp": 1.01794875,
      "epoch": 0.4232549750496002,
      "flos": 23001676035840.0,
      "grad_norm": 2.297350957462431,
      "language_loss": 0.67418545,
      "learning_rate": 2.5856455425531003e-06,
      "loss": 0.69530094,
      "num_input_tokens_seen": 75870400,
      "step": 3520,
      "time_per_iteration": 2.5931808948516846
    },
    {
      "auxiliary_loss_clip": 0.01093861,
      "auxiliary_loss_mlp": 0.01016827,
      "balance_loss_clip": 1.04239035,
      "balance_loss_mlp": 1.01143229,
      "epoch": 0.4233752179402393,
      "flos": 21250288316160.0,
      "grad_norm": 1.7856918252117633,
      "language_loss": 0.80408263,
      "learning_rate": 2.5849006713744902e-06,
      "loss": 0.82518953,
      "num_input_tokens_seen": 75889195,
      "step": 3521,
      "time_per_iteration": 2.5260589122772217
    },
    {
      "auxiliary_loss_clip": 0.01086064,
      "auxiliary_loss_mlp": 0.01019454,
      "balance_loss_clip": 1.04411268,
      "balance_loss_mlp": 1.01368177,
      "epoch": 0.42349546083087836,
      "flos": 20706392280960.0,
      "grad_norm": 2.1800767793284175,
      "language_loss": 0.7283988,
      "learning_rate": 2.5841557114669135e-06,
      "loss": 0.74945402,
      "num_input_tokens_seen": 75906055,
      "step": 3522,
      "time_per_iteration": 2.567350149154663
    },
    {
      "auxiliary_loss_clip": 0.0110711,
      "auxiliary_loss_mlp": 0.0102129,
      "balance_loss_clip": 1.04187012,
      "balance_loss_mlp": 1.01521385,
      "epoch": 0.42361570372151747,
      "flos": 18586871164800.0,
      "grad_norm": 3.4485963821957473,
      "language_loss": 0.67646527,
      "learning_rate": 2.58341066294338e-06,
      "loss": 0.69774926,
      "num_input_tokens_seen": 75922720,
      "step": 3523,
      "time_per_iteration": 2.468845844268799
    },
    {
      "auxiliary_loss_clip": 0.01057106,
      "auxiliary_loss_mlp": 0.00757188,
      "balance_loss_clip": 1.03766346,
      "balance_loss_mlp": 1.00186074,
      "epoch": 0.4237359466121566,
      "flos": 20961575481600.0,
      "grad_norm": 2.5957381779568065,
      "language_loss": 0.85545242,
      "learning_rate": 2.5826655259169124e-06,
      "loss": 0.87359536,
      "num_input_tokens_seen": 75941375,
      "step": 3524,
      "time_per_iteration": 2.6623620986938477
    },
    {
      "auxiliary_loss_clip": 0.01107721,
      "auxiliary_loss_mlp": 0.01024108,
      "balance_loss_clip": 1.04430246,
      "balance_loss_mlp": 1.01817739,
      "epoch": 0.42385618950279563,
      "flos": 18039979601280.0,
      "grad_norm": 2.1558243172929368,
      "language_loss": 0.90448838,
      "learning_rate": 2.5819203005005475e-06,
      "loss": 0.9258067,
      "num_input_tokens_seen": 75958710,
      "step": 3525,
      "time_per_iteration": 3.545015335083008
    },
    {
      "auxiliary_loss_clip": 0.01075708,
      "auxiliary_loss_mlp": 0.01022717,
      "balance_loss_clip": 1.04060149,
      "balance_loss_mlp": 1.01730812,
      "epoch": 0.42397643239343474,
      "flos": 23771396626560.0,
      "grad_norm": 1.6141529084891042,
      "language_loss": 0.7866596,
      "learning_rate": 2.581174986807336e-06,
      "loss": 0.80764377,
      "num_input_tokens_seen": 75978945,
      "step": 3526,
      "time_per_iteration": 3.33172607421875
    },
    {
      "auxiliary_loss_clip": 0.01097382,
      "auxiliary_loss_mlp": 0.00757024,
      "balance_loss_clip": 1.04348588,
      "balance_loss_mlp": 1.00184333,
      "epoch": 0.42409667528407385,
      "flos": 16546960200960.0,
      "grad_norm": 2.472425613703275,
      "language_loss": 0.91235596,
      "learning_rate": 2.580429584950341e-06,
      "loss": 0.93090004,
      "num_input_tokens_seen": 75994695,
      "step": 3527,
      "time_per_iteration": 2.5679726600646973
    },
    {
      "auxiliary_loss_clip": 0.01063139,
      "auxiliary_loss_mlp": 0.01020555,
      "balance_loss_clip": 1.03959131,
      "balance_loss_mlp": 1.01415086,
      "epoch": 0.4242169181747129,
      "flos": 16036025028480.0,
      "grad_norm": 2.0854657992569656,
      "language_loss": 0.66915703,
      "learning_rate": 2.5796840950426397e-06,
      "loss": 0.68999398,
      "num_input_tokens_seen": 76011780,
      "step": 3528,
      "time_per_iteration": 2.5766286849975586
    },
    {
      "auxiliary_loss_clip": 0.01097229,
      "auxiliary_loss_mlp": 0.01022157,
      "balance_loss_clip": 1.04258418,
      "balance_loss_mlp": 1.01646173,
      "epoch": 0.424337161065352,
      "flos": 20086071212160.0,
      "grad_norm": 1.894947185378922,
      "language_loss": 0.65605068,
      "learning_rate": 2.578938517197322e-06,
      "loss": 0.67724454,
      "num_input_tokens_seen": 76029875,
      "step": 3529,
      "time_per_iteration": 2.5810296535491943
    },
    {
      "auxiliary_loss_clip": 0.0108329,
      "auxiliary_loss_mlp": 0.01020662,
      "balance_loss_clip": 1.04283607,
      "balance_loss_mlp": 1.01479447,
      "epoch": 0.4244574039559911,
      "flos": 23880630850560.0,
      "grad_norm": 2.3538351790708307,
      "language_loss": 0.62946963,
      "learning_rate": 2.5781928515274916e-06,
      "loss": 0.65050912,
      "num_input_tokens_seen": 76048595,
      "step": 3530,
      "time_per_iteration": 3.6562514305114746
    },
    {
      "auxiliary_loss_clip": 0.01097181,
      "auxiliary_loss_mlp": 0.01022563,
      "balance_loss_clip": 1.04476953,
      "balance_loss_mlp": 1.01678109,
      "epoch": 0.4245776468466302,
      "flos": 17567806757760.0,
      "grad_norm": 2.542429405527291,
      "language_loss": 0.68048698,
      "learning_rate": 2.577447098146265e-06,
      "loss": 0.70168436,
      "num_input_tokens_seen": 76065770,
      "step": 3531,
      "time_per_iteration": 2.525009870529175
    },
    {
      "auxiliary_loss_clip": 0.01068921,
      "auxiliary_loss_mlp": 0.01025776,
      "balance_loss_clip": 1.03891778,
      "balance_loss_mlp": 1.0198009,
      "epoch": 0.4246978897372693,
      "flos": 27778395738240.0,
      "grad_norm": 1.6543189286439457,
      "language_loss": 0.79339206,
      "learning_rate": 2.5767012571667724e-06,
      "loss": 0.81433898,
      "num_input_tokens_seen": 76085250,
      "step": 3532,
      "time_per_iteration": 2.730757713317871
    },
    {
      "auxiliary_loss_clip": 0.01097144,
      "auxiliary_loss_mlp": 0.01018753,
      "balance_loss_clip": 1.04218543,
      "balance_loss_mlp": 1.01245904,
      "epoch": 0.42481813262790835,
      "flos": 15598443525120.0,
      "grad_norm": 5.754082478776174,
      "language_loss": 0.6846683,
      "learning_rate": 2.5759553287021587e-06,
      "loss": 0.70582724,
      "num_input_tokens_seen": 76103580,
      "step": 3533,
      "time_per_iteration": 2.5324313640594482
    },
    {
      "auxiliary_loss_clip": 0.01079192,
      "auxiliary_loss_mlp": 0.0102284,
      "balance_loss_clip": 1.04350471,
      "balance_loss_mlp": 1.01676607,
      "epoch": 0.42493837551854746,
      "flos": 23953339912320.0,
      "grad_norm": 1.8656120696171776,
      "language_loss": 0.77445614,
      "learning_rate": 2.5752093128655786e-06,
      "loss": 0.79547644,
      "num_input_tokens_seen": 76121825,
      "step": 3534,
      "time_per_iteration": 2.6277172565460205
    },
    {
      "auxiliary_loss_clip": 0.01079112,
      "auxiliary_loss_mlp": 0.01019934,
      "balance_loss_clip": 1.03866196,
      "balance_loss_mlp": 1.01367307,
      "epoch": 0.4250586184091866,
      "flos": 20815550668800.0,
      "grad_norm": 1.8353933534413718,
      "language_loss": 0.73865777,
      "learning_rate": 2.574463209770204e-06,
      "loss": 0.75964826,
      "num_input_tokens_seen": 76141140,
      "step": 3535,
      "time_per_iteration": 2.5461599826812744
    },
    {
      "auxiliary_loss_clip": 0.01066267,
      "auxiliary_loss_mlp": 0.01022074,
      "balance_loss_clip": 1.03856421,
      "balance_loss_mlp": 1.01619136,
      "epoch": 0.42517886129982563,
      "flos": 30373540243200.0,
      "grad_norm": 1.6855974572141799,
      "language_loss": 0.79412198,
      "learning_rate": 2.5737170195292165e-06,
      "loss": 0.81500542,
      "num_input_tokens_seen": 76164475,
      "step": 3536,
      "time_per_iteration": 2.7512266635894775
    },
    {
      "auxiliary_loss_clip": 0.01069837,
      "auxiliary_loss_mlp": 0.01021576,
      "balance_loss_clip": 1.03837132,
      "balance_loss_mlp": 1.0153141,
      "epoch": 0.42529910419046474,
      "flos": 20082506912640.0,
      "grad_norm": 2.6427704258772207,
      "language_loss": 0.78223056,
      "learning_rate": 2.572970742255814e-06,
      "loss": 0.80314469,
      "num_input_tokens_seen": 76182965,
      "step": 3537,
      "time_per_iteration": 2.599290370941162
    },
    {
      "auxiliary_loss_clip": 0.0109206,
      "auxiliary_loss_mlp": 0.01021831,
      "balance_loss_clip": 1.0414145,
      "balance_loss_mlp": 1.01644254,
      "epoch": 0.42541934708110385,
      "flos": 22634338919040.0,
      "grad_norm": 1.7133182238013196,
      "language_loss": 0.815081,
      "learning_rate": 2.5722243780632046e-06,
      "loss": 0.83621991,
      "num_input_tokens_seen": 76201230,
      "step": 3538,
      "time_per_iteration": 2.5908167362213135
    },
    {
      "auxiliary_loss_clip": 0.01044435,
      "auxiliary_loss_mlp": 0.01003061,
      "balance_loss_clip": 1.04980624,
      "balance_loss_mlp": 1.00066495,
      "epoch": 0.4255395899717429,
      "flos": 66207264912000.0,
      "grad_norm": 0.7582911382209758,
      "language_loss": 0.60437804,
      "learning_rate": 2.5714779270646125e-06,
      "loss": 0.62485301,
      "num_input_tokens_seen": 76262000,
      "step": 3539,
      "time_per_iteration": 3.1874608993530273
    },
    {
      "auxiliary_loss_clip": 0.01079954,
      "auxiliary_loss_mlp": 0.00756884,
      "balance_loss_clip": 1.04058242,
      "balance_loss_mlp": 1.001701,
      "epoch": 0.425659832862382,
      "flos": 17933778823680.0,
      "grad_norm": 2.798271313572547,
      "language_loss": 0.77842808,
      "learning_rate": 2.5707313893732735e-06,
      "loss": 0.79679644,
      "num_input_tokens_seen": 76280540,
      "step": 3540,
      "time_per_iteration": 2.6182432174682617
    },
    {
      "auxiliary_loss_clip": 0.01032546,
      "auxiliary_loss_mlp": 0.01021036,
      "balance_loss_clip": 1.03349805,
      "balance_loss_mlp": 1.01503682,
      "epoch": 0.4257800757530211,
      "flos": 24024721841280.0,
      "grad_norm": 1.7965723242824303,
      "language_loss": 0.77093303,
      "learning_rate": 2.5699847651024364e-06,
      "loss": 0.79146886,
      "num_input_tokens_seen": 76301180,
      "step": 3541,
      "time_per_iteration": 2.7352020740509033
    },
    {
      "auxiliary_loss_clip": 0.01092942,
      "auxiliary_loss_mlp": 0.0102015,
      "balance_loss_clip": 1.04318273,
      "balance_loss_mlp": 1.014678,
      "epoch": 0.4259003186436602,
      "flos": 23698270465920.0,
      "grad_norm": 2.4503305720276187,
      "language_loss": 0.77191341,
      "learning_rate": 2.5692380543653627e-06,
      "loss": 0.79304427,
      "num_input_tokens_seen": 76319335,
      "step": 3542,
      "time_per_iteration": 2.6040022373199463
    },
    {
      "auxiliary_loss_clip": 0.01094904,
      "auxiliary_loss_mlp": 0.00757175,
      "balance_loss_clip": 1.04155421,
      "balance_loss_mlp": 1.00175607,
      "epoch": 0.4260205615342993,
      "flos": 15261109660800.0,
      "grad_norm": 2.0303055958602623,
      "language_loss": 0.69522804,
      "learning_rate": 2.5684912572753293e-06,
      "loss": 0.71374881,
      "num_input_tokens_seen": 76335010,
      "step": 3543,
      "time_per_iteration": 2.5497477054595947
    },
    {
      "auxiliary_loss_clip": 0.01103807,
      "auxiliary_loss_mlp": 0.01017008,
      "balance_loss_clip": 1.04154682,
      "balance_loss_mlp": 1.01143217,
      "epoch": 0.4261408044249384,
      "flos": 30667978707840.0,
      "grad_norm": 2.0978521303646414,
      "language_loss": 0.84038138,
      "learning_rate": 2.5677443739456245e-06,
      "loss": 0.86158955,
      "num_input_tokens_seen": 76356670,
      "step": 3544,
      "time_per_iteration": 2.6276402473449707
    },
    {
      "auxiliary_loss_clip": 0.01075716,
      "auxiliary_loss_mlp": 0.01019338,
      "balance_loss_clip": 1.04067409,
      "balance_loss_mlp": 1.01341939,
      "epoch": 0.42626104731557746,
      "flos": 23260120191360.0,
      "grad_norm": 2.4395425119875593,
      "language_loss": 0.79865885,
      "learning_rate": 2.5669974044895495e-06,
      "loss": 0.8196094,
      "num_input_tokens_seen": 76373065,
      "step": 3545,
      "time_per_iteration": 2.635741710662842
    },
    {
      "auxiliary_loss_clip": 0.01072721,
      "auxiliary_loss_mlp": 0.01019648,
      "balance_loss_clip": 1.03999937,
      "balance_loss_mlp": 1.01380086,
      "epoch": 0.42638129020621657,
      "flos": 25887125934720.0,
      "grad_norm": 1.943465959077883,
      "language_loss": 0.79608583,
      "learning_rate": 2.5662503490204187e-06,
      "loss": 0.81700957,
      "num_input_tokens_seen": 76393230,
      "step": 3546,
      "time_per_iteration": 2.6598877906799316
    },
    {
      "auxiliary_loss_clip": 0.01078227,
      "auxiliary_loss_mlp": 0.01018809,
      "balance_loss_clip": 1.03822422,
      "balance_loss_mlp": 1.01325083,
      "epoch": 0.4265015330968556,
      "flos": 26504603147520.0,
      "grad_norm": 1.9526016172556377,
      "language_loss": 0.76387328,
      "learning_rate": 2.5655032076515603e-06,
      "loss": 0.78484362,
      "num_input_tokens_seen": 76412555,
      "step": 3547,
      "time_per_iteration": 2.691099166870117
    },
    {
      "auxiliary_loss_clip": 0.01078041,
      "auxiliary_loss_mlp": 0.0102077,
      "balance_loss_clip": 1.04135609,
      "balance_loss_mlp": 1.01496744,
      "epoch": 0.42662177598749473,
      "flos": 24391831449600.0,
      "grad_norm": 2.469633330659217,
      "language_loss": 0.82349622,
      "learning_rate": 2.5647559804963155e-06,
      "loss": 0.84448433,
      "num_input_tokens_seen": 76432485,
      "step": 3548,
      "time_per_iteration": 2.5872421264648438
    },
    {
      "auxiliary_loss_clip": 0.01058875,
      "auxiliary_loss_mlp": 0.01025158,
      "balance_loss_clip": 1.03862095,
      "balance_loss_mlp": 1.01946902,
      "epoch": 0.42674201887813384,
      "flos": 23150848049280.0,
      "grad_norm": 2.4445463103105802,
      "language_loss": 0.78873599,
      "learning_rate": 2.5640086676680364e-06,
      "loss": 0.80957627,
      "num_input_tokens_seen": 76453980,
      "step": 3549,
      "time_per_iteration": 2.688359498977661
    },
    {
      "auxiliary_loss_clip": 0.01093359,
      "auxiliary_loss_mlp": 0.01020009,
      "balance_loss_clip": 1.04089499,
      "balance_loss_mlp": 1.01379848,
      "epoch": 0.4268622617687729,
      "flos": 21691775381760.0,
      "grad_norm": 2.8364778197700082,
      "language_loss": 0.81499439,
      "learning_rate": 2.5632612692800923e-06,
      "loss": 0.83612812,
      "num_input_tokens_seen": 76473045,
      "step": 3550,
      "time_per_iteration": 2.5126912593841553
    },
    {
      "auxiliary_loss_clip": 0.01067608,
      "auxiliary_loss_mlp": 0.01027508,
      "balance_loss_clip": 1.03804398,
      "balance_loss_mlp": 1.0211271,
      "epoch": 0.426982504659412,
      "flos": 23442366821760.0,
      "grad_norm": 3.1675767901134178,
      "language_loss": 0.75454879,
      "learning_rate": 2.5625137854458603e-06,
      "loss": 0.77549994,
      "num_input_tokens_seen": 76492060,
      "step": 3551,
      "time_per_iteration": 3.4443485736846924
    },
    {
      "auxiliary_loss_clip": 0.01081431,
      "auxiliary_loss_mlp": 0.01023813,
      "balance_loss_clip": 1.04054308,
      "balance_loss_mlp": 1.01820374,
      "epoch": 0.4271027475500511,
      "flos": 18918555235200.0,
      "grad_norm": 2.121918634210868,
      "language_loss": 0.80457717,
      "learning_rate": 2.561766216278735e-06,
      "loss": 0.82562959,
      "num_input_tokens_seen": 76509655,
      "step": 3552,
      "time_per_iteration": 3.6400067806243896
    },
    {
      "auxiliary_loss_clip": 0.01048273,
      "auxiliary_loss_mlp": 0.01022363,
      "balance_loss_clip": 1.03709912,
      "balance_loss_mlp": 1.01642978,
      "epoch": 0.4272229904406902,
      "flos": 26873001970560.0,
      "grad_norm": 1.9003988538787313,
      "language_loss": 0.81400955,
      "learning_rate": 2.561018561892121e-06,
      "loss": 0.8347159,
      "num_input_tokens_seen": 76528795,
      "step": 3553,
      "time_per_iteration": 2.710634469985962
    },
    {
      "auxiliary_loss_clip": 0.01079518,
      "auxiliary_loss_mlp": 0.0102619,
      "balance_loss_clip": 1.03891468,
      "balance_loss_mlp": 1.02079284,
      "epoch": 0.4273432333313293,
      "flos": 23953643256960.0,
      "grad_norm": 1.7428856887428579,
      "language_loss": 0.765872,
      "learning_rate": 2.5602708223994363e-06,
      "loss": 0.78692907,
      "num_input_tokens_seen": 76550660,
      "step": 3554,
      "time_per_iteration": 2.6271162033081055
    },
    {
      "auxiliary_loss_clip": 0.01072489,
      "auxiliary_loss_mlp": 0.01020752,
      "balance_loss_clip": 1.0383935,
      "balance_loss_mlp": 1.01482439,
      "epoch": 0.4274634762219684,
      "flos": 29572944284160.0,
      "grad_norm": 2.452790817958081,
      "language_loss": 0.67260182,
      "learning_rate": 2.559522997914115e-06,
      "loss": 0.69353426,
      "num_input_tokens_seen": 76570240,
      "step": 3555,
      "time_per_iteration": 3.452664375305176
    },
    {
      "auxiliary_loss_clip": 0.01104902,
      "auxiliary_loss_mlp": 0.01023332,
      "balance_loss_clip": 1.04288912,
      "balance_loss_mlp": 1.01804471,
      "epoch": 0.42758371911260745,
      "flos": 21436288836480.0,
      "grad_norm": 2.3346192680820743,
      "language_loss": 0.84681189,
      "learning_rate": 2.558775088549599e-06,
      "loss": 0.86809421,
      "num_input_tokens_seen": 76589820,
      "step": 3556,
      "time_per_iteration": 2.548570394515991
    },
    {
      "auxiliary_loss_clip": 0.01091113,
      "auxiliary_loss_mlp": 0.01021478,
      "balance_loss_clip": 1.04054844,
      "balance_loss_mlp": 1.01556194,
      "epoch": 0.42770396200324656,
      "flos": 14754345477120.0,
      "grad_norm": 2.861150656989339,
      "language_loss": 0.66872185,
      "learning_rate": 2.5580270944193467e-06,
      "loss": 0.68984777,
      "num_input_tokens_seen": 76606640,
      "step": 3557,
      "time_per_iteration": 3.3429489135742188
    },
    {
      "auxiliary_loss_clip": 0.01080876,
      "auxiliary_loss_mlp": 0.01001668,
      "balance_loss_clip": 1.04674315,
      "balance_loss_mlp": 0.99942684,
      "epoch": 0.4278242048938857,
      "flos": 70661704227840.0,
      "grad_norm": 0.8938031742658049,
      "language_loss": 0.55458522,
      "learning_rate": 2.557279015636827e-06,
      "loss": 0.57541066,
      "num_input_tokens_seen": 76667050,
      "step": 3558,
      "time_per_iteration": 3.1256768703460693
    },
    {
      "auxiliary_loss_clip": 0.01066786,
      "auxiliary_loss_mlp": 0.01002141,
      "balance_loss_clip": 1.04404736,
      "balance_loss_mlp": 0.99995977,
      "epoch": 0.42794444778452473,
      "flos": 69372441060480.0,
      "grad_norm": 0.7636117894432496,
      "language_loss": 0.61172366,
      "learning_rate": 2.5565308523155245e-06,
      "loss": 0.63241291,
      "num_input_tokens_seen": 76726650,
      "step": 3559,
      "time_per_iteration": 3.099658250808716
    },
    {
      "auxiliary_loss_clip": 0.0105559,
      "auxiliary_loss_mlp": 0.01020017,
      "balance_loss_clip": 1.03805852,
      "balance_loss_mlp": 1.01404154,
      "epoch": 0.42806469067516384,
      "flos": 18216841864320.0,
      "grad_norm": 2.3707886351625,
      "language_loss": 0.82147032,
      "learning_rate": 2.5557826045689336e-06,
      "loss": 0.84222639,
      "num_input_tokens_seen": 76742890,
      "step": 3560,
      "time_per_iteration": 2.612460136413574
    },
    {
      "auxiliary_loss_clip": 0.01068545,
      "auxiliary_loss_mlp": 0.01003154,
      "balance_loss_clip": 1.07543194,
      "balance_loss_mlp": 1.00090122,
      "epoch": 0.4281849335658029,
      "flos": 54542343024000.0,
      "grad_norm": 0.825087046698107,
      "language_loss": 0.58812994,
      "learning_rate": 2.5550342725105643e-06,
      "loss": 0.6088469,
      "num_input_tokens_seen": 76801055,
      "step": 3561,
      "time_per_iteration": 3.165363311767578
    },
    {
      "auxiliary_loss_clip": 0.01091172,
      "auxiliary_loss_mlp": 0.01027633,
      "balance_loss_clip": 1.04174662,
      "balance_loss_mlp": 1.02192569,
      "epoch": 0.428305176456442,
      "flos": 17276743002240.0,
      "grad_norm": 1.748616731746465,
      "language_loss": 0.8117165,
      "learning_rate": 2.554285856253937e-06,
      "loss": 0.83290458,
      "num_input_tokens_seen": 76819890,
      "step": 3562,
      "time_per_iteration": 2.5378031730651855
    },
    {
      "auxiliary_loss_clip": 0.01076849,
      "auxiliary_loss_mlp": 0.01020632,
      "balance_loss_clip": 1.03968549,
      "balance_loss_mlp": 1.01502335,
      "epoch": 0.4284254193470811,
      "flos": 26361915125760.0,
      "grad_norm": 1.9658729531403254,
      "language_loss": 0.77734101,
      "learning_rate": 2.5535373559125855e-06,
      "loss": 0.79831576,
      "num_input_tokens_seen": 76840255,
      "step": 3563,
      "time_per_iteration": 2.6569929122924805
    },
    {
      "auxiliary_loss_clip": 0.01026012,
      "auxiliary_loss_mlp": 0.0101762,
      "balance_loss_clip": 1.02984571,
      "balance_loss_mlp": 1.01190424,
      "epoch": 0.42854566223772017,
      "flos": 29716731930240.0,
      "grad_norm": 1.6826235810625643,
      "language_loss": 0.8180849,
      "learning_rate": 2.552788771600057e-06,
      "loss": 0.83852124,
      "num_input_tokens_seen": 76860565,
      "step": 3564,
      "time_per_iteration": 2.7910685539245605
    },
    {
      "auxiliary_loss_clip": 0.01067815,
      "auxiliary_loss_mlp": 0.01025232,
      "balance_loss_clip": 1.03960466,
      "balance_loss_mlp": 1.01897383,
      "epoch": 0.4286659051283593,
      "flos": 22020350169600.0,
      "grad_norm": 1.8634536530332813,
      "language_loss": 0.8204394,
      "learning_rate": 2.5520401034299118e-06,
      "loss": 0.84136987,
      "num_input_tokens_seen": 76878325,
      "step": 3565,
      "time_per_iteration": 2.5957961082458496
    },
    {
      "auxiliary_loss_clip": 0.01090761,
      "auxiliary_loss_mlp": 0.01020846,
      "balance_loss_clip": 1.04007912,
      "balance_loss_mlp": 1.01455212,
      "epoch": 0.4287861480189984,
      "flos": 13336120632960.0,
      "grad_norm": 2.8072465764912176,
      "language_loss": 0.88136494,
      "learning_rate": 2.551291351515722e-06,
      "loss": 0.90248102,
      "num_input_tokens_seen": 76895340,
      "step": 3566,
      "time_per_iteration": 2.55369234085083
    },
    {
      "auxiliary_loss_clip": 0.01067419,
      "auxiliary_loss_mlp": 0.0075737,
      "balance_loss_clip": 1.03711307,
      "balance_loss_mlp": 1.00173938,
      "epoch": 0.42890639090963745,
      "flos": 26653964751360.0,
      "grad_norm": 2.626559120312909,
      "language_loss": 0.85727745,
      "learning_rate": 2.5505425159710726e-06,
      "loss": 0.87552536,
      "num_input_tokens_seen": 76915150,
      "step": 3567,
      "time_per_iteration": 2.6576037406921387
    },
    {
      "auxiliary_loss_clip": 0.0108461,
      "auxiliary_loss_mlp": 0.00757126,
      "balance_loss_clip": 1.04096663,
      "balance_loss_mlp": 1.00159454,
      "epoch": 0.42902663380027656,
      "flos": 24057758540160.0,
      "grad_norm": 1.9449945343309611,
      "language_loss": 0.83103484,
      "learning_rate": 2.549793596909561e-06,
      "loss": 0.84945226,
      "num_input_tokens_seen": 76933770,
      "step": 3568,
      "time_per_iteration": 2.6267178058624268
    },
    {
      "auxiliary_loss_clip": 0.01073155,
      "auxiliary_loss_mlp": 0.01020706,
      "balance_loss_clip": 1.03958941,
      "balance_loss_mlp": 1.01467657,
      "epoch": 0.42914687669091567,
      "flos": 15634361998080.0,
      "grad_norm": 2.001314115284855,
      "language_loss": 0.66009724,
      "learning_rate": 2.5490445944447976e-06,
      "loss": 0.68103588,
      "num_input_tokens_seen": 76952265,
      "step": 3569,
      "time_per_iteration": 2.5337870121002197
    },
    {
      "auxiliary_loss_clip": 0.01091294,
      "auxiliary_loss_mlp": 0.01020496,
      "balance_loss_clip": 1.04033697,
      "balance_loss_mlp": 1.01497388,
      "epoch": 0.4292671195815547,
      "flos": 31470508488960.0,
      "grad_norm": 2.295561897900054,
      "language_loss": 0.65211904,
      "learning_rate": 2.548295508690406e-06,
      "loss": 0.67323697,
      "num_input_tokens_seen": 76973560,
      "step": 3570,
      "time_per_iteration": 2.650258779525757
    },
    {
      "auxiliary_loss_clip": 0.01091907,
      "auxiliary_loss_mlp": 0.01020648,
      "balance_loss_clip": 1.03949428,
      "balance_loss_mlp": 1.01486313,
      "epoch": 0.42938736247219383,
      "flos": 30260059194240.0,
      "grad_norm": 2.425672991200429,
      "language_loss": 0.76663619,
      "learning_rate": 2.5475463397600217e-06,
      "loss": 0.78776169,
      "num_input_tokens_seen": 76993640,
      "step": 3571,
      "time_per_iteration": 2.5867257118225098
    },
    {
      "auxiliary_loss_clip": 0.0110679,
      "auxiliary_loss_mlp": 0.01021589,
      "balance_loss_clip": 1.04346907,
      "balance_loss_mlp": 1.01557183,
      "epoch": 0.42950760536283294,
      "flos": 29352162833280.0,
      "grad_norm": 2.2394424201161574,
      "language_loss": 0.7749052,
      "learning_rate": 2.546797087767293e-06,
      "loss": 0.79618907,
      "num_input_tokens_seen": 77013765,
      "step": 3572,
      "time_per_iteration": 2.5763418674468994
    },
    {
      "auxiliary_loss_clip": 0.01045237,
      "auxiliary_loss_mlp": 0.01024383,
      "balance_loss_clip": 1.03455973,
      "balance_loss_mlp": 1.01871753,
      "epoch": 0.429627848253472,
      "flos": 26872357363200.0,
      "grad_norm": 1.907598126681464,
      "language_loss": 0.87360936,
      "learning_rate": 2.546047752825881e-06,
      "loss": 0.89430553,
      "num_input_tokens_seen": 77034370,
      "step": 3573,
      "time_per_iteration": 2.652407169342041
    },
    {
      "auxiliary_loss_clip": 0.01054583,
      "auxiliary_loss_mlp": 0.01023313,
      "balance_loss_clip": 1.0363009,
      "balance_loss_mlp": 1.01753712,
      "epoch": 0.4297480911441111,
      "flos": 13882974278400.0,
      "grad_norm": 2.0978428694902918,
      "language_loss": 0.93378341,
      "learning_rate": 2.5452983350494595e-06,
      "loss": 0.95456243,
      "num_input_tokens_seen": 77049925,
      "step": 3574,
      "time_per_iteration": 2.630581855773926
    },
    {
      "auxiliary_loss_clip": 0.01091198,
      "auxiliary_loss_mlp": 0.00756704,
      "balance_loss_clip": 1.04009402,
      "balance_loss_mlp": 1.0015552,
      "epoch": 0.4298683340347502,
      "flos": 20743258705920.0,
      "grad_norm": 3.151006856093372,
      "language_loss": 0.65309477,
      "learning_rate": 2.544548834551713e-06,
      "loss": 0.67157382,
      "num_input_tokens_seen": 77068930,
      "step": 3575,
      "time_per_iteration": 2.535370349884033
    },
    {
      "auxiliary_loss_clip": 0.01059461,
      "auxiliary_loss_mlp": 0.00757109,
      "balance_loss_clip": 1.0367527,
      "balance_loss_mlp": 1.0016768,
      "epoch": 0.4299885769253893,
      "flos": 20883974987520.0,
      "grad_norm": 3.411163039817975,
      "language_loss": 0.94998783,
      "learning_rate": 2.5437992514463424e-06,
      "loss": 0.96815354,
      "num_input_tokens_seen": 77082255,
      "step": 3576,
      "time_per_iteration": 3.405853509902954
    },
    {
      "auxiliary_loss_clip": 0.01084845,
      "auxiliary_loss_mlp": 0.01021205,
      "balance_loss_clip": 1.03545034,
      "balance_loss_mlp": 1.01503921,
      "epoch": 0.4301088198160284,
      "flos": 25487017545600.0,
      "grad_norm": 1.645726378358176,
      "language_loss": 0.88141161,
      "learning_rate": 2.5430495858470565e-06,
      "loss": 0.90247214,
      "num_input_tokens_seen": 77101725,
      "step": 3577,
      "time_per_iteration": 2.5642447471618652
    },
    {
      "auxiliary_loss_clip": 0.0108734,
      "auxiliary_loss_mlp": 0.01018803,
      "balance_loss_clip": 1.0408175,
      "balance_loss_mlp": 1.01328111,
      "epoch": 0.43022906270666744,
      "flos": 18261367741440.0,
      "grad_norm": 2.7572133255729505,
      "language_loss": 0.77072352,
      "learning_rate": 2.54229983786758e-06,
      "loss": 0.79178494,
      "num_input_tokens_seen": 77119670,
      "step": 3578,
      "time_per_iteration": 3.2749102115631104
    },
    {
      "auxiliary_loss_clip": 0.01082457,
      "auxiliary_loss_mlp": 0.01019877,
      "balance_loss_clip": 1.03968215,
      "balance_loss_mlp": 1.0142622,
      "epoch": 0.43034930559730655,
      "flos": 23401518998400.0,
      "grad_norm": 2.4124599138351766,
      "language_loss": 0.85196012,
      "learning_rate": 2.541550007621651e-06,
      "loss": 0.87298346,
      "num_input_tokens_seen": 77138160,
      "step": 3579,
      "time_per_iteration": 2.637247085571289
    },
    {
      "auxiliary_loss_clip": 0.01089774,
      "auxiliary_loss_mlp": 0.01022969,
      "balance_loss_clip": 1.04031849,
      "balance_loss_mlp": 1.01731539,
      "epoch": 0.43046954848794566,
      "flos": 28186921941120.0,
      "grad_norm": 2.6256888989780953,
      "language_loss": 0.80321592,
      "learning_rate": 2.5408000952230156e-06,
      "loss": 0.82434338,
      "num_input_tokens_seen": 77156950,
      "step": 3580,
      "time_per_iteration": 2.6035170555114746
    },
    {
      "auxiliary_loss_clip": 0.01066725,
      "auxiliary_loss_mlp": 0.010221,
      "balance_loss_clip": 1.03691792,
      "balance_loss_mlp": 1.01601696,
      "epoch": 0.4305897913785847,
      "flos": 28582745587200.0,
      "grad_norm": 2.6560762857049713,
      "language_loss": 0.905689,
      "learning_rate": 2.5400501007854357e-06,
      "loss": 0.92657721,
      "num_input_tokens_seen": 77176395,
      "step": 3581,
      "time_per_iteration": 3.4522764682769775
    },
    {
      "auxiliary_loss_clip": 0.01055831,
      "auxiliary_loss_mlp": 0.01025154,
      "balance_loss_clip": 1.03600311,
      "balance_loss_mlp": 1.01966763,
      "epoch": 0.43071003426922383,
      "flos": 20450791981440.0,
      "grad_norm": 2.7422329850572877,
      "language_loss": 0.75722051,
      "learning_rate": 2.539300024422685e-06,
      "loss": 0.77803034,
      "num_input_tokens_seen": 77194340,
      "step": 3582,
      "time_per_iteration": 3.481651544570923
    },
    {
      "auxiliary_loss_clip": 0.01040737,
      "auxiliary_loss_mlp": 0.01005431,
      "balance_loss_clip": 1.03994191,
      "balance_loss_mlp": 1.00332093,
      "epoch": 0.43083027715986294,
      "flos": 52003223625600.0,
      "grad_norm": 0.7887606362458144,
      "language_loss": 0.60906327,
      "learning_rate": 2.538549866248549e-06,
      "loss": 0.62952495,
      "num_input_tokens_seen": 77249320,
      "step": 3583,
      "time_per_iteration": 3.041588544845581
    },
    {
      "auxiliary_loss_clip": 0.01089128,
      "auxiliary_loss_mlp": 0.01021962,
      "balance_loss_clip": 1.03741884,
      "balance_loss_mlp": 1.01602817,
      "epoch": 0.430950520050502,
      "flos": 16692757505280.0,
      "grad_norm": 1.9901426536980338,
      "language_loss": 0.81250358,
      "learning_rate": 2.5377996263768274e-06,
      "loss": 0.83361447,
      "num_input_tokens_seen": 77267400,
      "step": 3584,
      "time_per_iteration": 2.5801541805267334
    },
    {
      "auxiliary_loss_clip": 0.0109322,
      "auxiliary_loss_mlp": 0.01022257,
      "balance_loss_clip": 1.04052579,
      "balance_loss_mlp": 1.0164454,
      "epoch": 0.4310707629411411,
      "flos": 24610754914560.0,
      "grad_norm": 1.9384453176142582,
      "language_loss": 0.68888211,
      "learning_rate": 2.5370493049213293e-06,
      "loss": 0.71003687,
      "num_input_tokens_seen": 77287045,
      "step": 3585,
      "time_per_iteration": 2.570297956466675
    },
    {
      "auxiliary_loss_clip": 0.00996147,
      "auxiliary_loss_mlp": 0.01023154,
      "balance_loss_clip": 1.0243361,
      "balance_loss_mlp": 1.01687419,
      "epoch": 0.4311910058317802,
      "flos": 26435420467200.0,
      "grad_norm": 2.0387034268312085,
      "language_loss": 0.80351937,
      "learning_rate": 2.536298901995878e-06,
      "loss": 0.82371241,
      "num_input_tokens_seen": 77306255,
      "step": 3586,
      "time_per_iteration": 2.946929454803467
    },
    {
      "auxiliary_loss_clip": 0.01073855,
      "auxiliary_loss_mlp": 0.01021975,
      "balance_loss_clip": 1.03561342,
      "balance_loss_mlp": 1.0160296,
      "epoch": 0.43131124872241927,
      "flos": 25158253167360.0,
      "grad_norm": 1.6669557813485647,
      "language_loss": 0.79980022,
      "learning_rate": 2.535548417714311e-06,
      "loss": 0.82075846,
      "num_input_tokens_seen": 77325555,
      "step": 3587,
      "time_per_iteration": 3.053295850753784
    },
    {
      "auxiliary_loss_clip": 0.01089996,
      "auxiliary_loss_mlp": 0.01020793,
      "balance_loss_clip": 1.03941655,
      "balance_loss_mlp": 1.01513946,
      "epoch": 0.4314314916130584,
      "flos": 21616867071360.0,
      "grad_norm": 2.3957765976292063,
      "language_loss": 0.87527418,
      "learning_rate": 2.534797852190474e-06,
      "loss": 0.89638209,
      "num_input_tokens_seen": 77345735,
      "step": 3588,
      "time_per_iteration": 2.576842784881592
    },
    {
      "auxiliary_loss_clip": 0.01092242,
      "auxiliary_loss_mlp": 0.01026649,
      "balance_loss_clip": 1.03902996,
      "balance_loss_mlp": 1.02062953,
      "epoch": 0.4315517345036975,
      "flos": 19276678258560.0,
      "grad_norm": 2.104467703457016,
      "language_loss": 0.81971151,
      "learning_rate": 2.5340472055382283e-06,
      "loss": 0.84090042,
      "num_input_tokens_seen": 77361765,
      "step": 3589,
      "time_per_iteration": 2.4911904335021973
    },
    {
      "auxiliary_loss_clip": 0.01070034,
      "auxiliary_loss_mlp": 0.0102117,
      "balance_loss_clip": 1.037781,
      "balance_loss_mlp": 1.01569533,
      "epoch": 0.43167197739433655,
      "flos": 24275809889280.0,
      "grad_norm": 2.348399955545838,
      "language_loss": 0.80897659,
      "learning_rate": 2.5332964778714468e-06,
      "loss": 0.8298887,
      "num_input_tokens_seen": 77378950,
      "step": 3590,
      "time_per_iteration": 2.603524923324585
    },
    {
      "auxiliary_loss_clip": 0.01062763,
      "auxiliary_loss_mlp": 0.01018776,
      "balance_loss_clip": 1.03634214,
      "balance_loss_mlp": 1.01320314,
      "epoch": 0.43179222028497566,
      "flos": 16869392259840.0,
      "grad_norm": 3.0529409587201504,
      "language_loss": 0.66376704,
      "learning_rate": 2.5325456693040123e-06,
      "loss": 0.68458247,
      "num_input_tokens_seen": 77396145,
      "step": 3591,
      "time_per_iteration": 2.5517468452453613
    },
    {
      "auxiliary_loss_clip": 0.01088856,
      "auxiliary_loss_mlp": 0.01017908,
      "balance_loss_clip": 1.03809333,
      "balance_loss_mlp": 1.01215959,
      "epoch": 0.43191246317561477,
      "flos": 17641122508800.0,
      "grad_norm": 2.171092721628127,
      "language_loss": 0.74922311,
      "learning_rate": 2.531794779949824e-06,
      "loss": 0.77029073,
      "num_input_tokens_seen": 77414045,
      "step": 3592,
      "time_per_iteration": 2.5346221923828125
    },
    {
      "auxiliary_loss_clip": 0.01064163,
      "auxiliary_loss_mlp": 0.01020171,
      "balance_loss_clip": 1.0358355,
      "balance_loss_mlp": 1.01476502,
      "epoch": 0.4320327060662538,
      "flos": 23881085867520.0,
      "grad_norm": 1.8258758891087408,
      "language_loss": 0.87819469,
      "learning_rate": 2.5310438099227903e-06,
      "loss": 0.89903802,
      "num_input_tokens_seen": 77431310,
      "step": 3593,
      "time_per_iteration": 2.607337474822998
    },
    {
      "auxiliary_loss_clip": 0.01067266,
      "auxiliary_loss_mlp": 0.01006979,
      "balance_loss_clip": 1.04393649,
      "balance_loss_mlp": 1.00489318,
      "epoch": 0.43215294895689293,
      "flos": 66402176181120.0,
      "grad_norm": 0.8096183617618333,
      "language_loss": 0.5334084,
      "learning_rate": 2.530292759336833e-06,
      "loss": 0.55415082,
      "num_input_tokens_seen": 77492045,
      "step": 3594,
      "time_per_iteration": 3.194916248321533
    },
    {
      "auxiliary_loss_clip": 0.01063883,
      "auxiliary_loss_mlp": 0.01020647,
      "balance_loss_clip": 1.03265989,
      "balance_loss_mlp": 1.01455212,
      "epoch": 0.432273191847532,
      "flos": 20596323859200.0,
      "grad_norm": 2.6222958942798757,
      "language_loss": 0.69665319,
      "learning_rate": 2.5295416283058855e-06,
      "loss": 0.71749842,
      "num_input_tokens_seen": 77510910,
      "step": 3595,
      "time_per_iteration": 2.5736894607543945
    },
    {
      "auxiliary_loss_clip": 0.01081379,
      "auxiliary_loss_mlp": 0.00756783,
      "balance_loss_clip": 1.04004073,
      "balance_loss_mlp": 1.00168359,
      "epoch": 0.4323934347381711,
      "flos": 19284186038400.0,
      "grad_norm": 1.6360313065330108,
      "language_loss": 0.66440672,
      "learning_rate": 2.5287904169438943e-06,
      "loss": 0.68278831,
      "num_input_tokens_seen": 77530115,
      "step": 3596,
      "time_per_iteration": 2.560743570327759
    },
    {
      "auxiliary_loss_clip": 0.01033589,
      "auxiliary_loss_mlp": 0.01027172,
      "balance_loss_clip": 1.03654385,
      "balance_loss_mlp": 1.0206964,
      "epoch": 0.4325136776288102,
      "flos": 21728490134400.0,
      "grad_norm": 3.1454487932413984,
      "language_loss": 0.64431727,
      "learning_rate": 2.528039125364817e-06,
      "loss": 0.66492492,
      "num_input_tokens_seen": 77548920,
      "step": 3597,
      "time_per_iteration": 2.746166467666626
    },
    {
      "auxiliary_loss_clip": 0.01064903,
      "auxiliary_loss_mlp": 0.01021501,
      "balance_loss_clip": 1.03632951,
      "balance_loss_mlp": 1.01562381,
      "epoch": 0.43263392051944927,
      "flos": 22342630556160.0,
      "grad_norm": 2.1060588461990344,
      "language_loss": 0.75675356,
      "learning_rate": 2.5272877536826246e-06,
      "loss": 0.77761763,
      "num_input_tokens_seen": 77567715,
      "step": 3598,
      "time_per_iteration": 2.5903377532958984
    },
    {
      "auxiliary_loss_clip": 0.01052351,
      "auxiliary_loss_mlp": 0.01023155,
      "balance_loss_clip": 1.03490472,
      "balance_loss_mlp": 1.01715302,
      "epoch": 0.4327541634100884,
      "flos": 29170939991040.0,
      "grad_norm": 2.1752755123020537,
      "language_loss": 0.71090794,
      "learning_rate": 2.5265363020112986e-06,
      "loss": 0.73166293,
      "num_input_tokens_seen": 77588035,
      "step": 3599,
      "time_per_iteration": 2.741720199584961
    },
    {
      "auxiliary_loss_clip": 0.01084791,
      "auxiliary_loss_mlp": 0.01026103,
      "balance_loss_clip": 1.03608298,
      "balance_loss_mlp": 1.02028894,
      "epoch": 0.4328744063007275,
      "flos": 26069827582080.0,
      "grad_norm": 1.8523358409150406,
      "language_loss": 0.8372758,
      "learning_rate": 2.5257847704648344e-06,
      "loss": 0.85838473,
      "num_input_tokens_seen": 77609265,
      "step": 3600,
      "time_per_iteration": 2.5647225379943848
    },
    {
      "auxiliary_loss_clip": 0.01103004,
      "auxiliary_loss_mlp": 0.01021849,
      "balance_loss_clip": 1.04070318,
      "balance_loss_mlp": 1.01621652,
      "epoch": 0.43299464919136654,
      "flos": 16583219936640.0,
      "grad_norm": 2.100296515521423,
      "language_loss": 0.75278294,
      "learning_rate": 2.525033159157239e-06,
      "loss": 0.77403146,
      "num_input_tokens_seen": 77625580,
      "step": 3601,
      "time_per_iteration": 2.5497424602508545
    },
    {
      "auxiliary_loss_clip": 0.01093351,
      "auxiliary_loss_mlp": 0.01027314,
      "balance_loss_clip": 1.0401063,
      "balance_loss_mlp": 1.02104926,
      "epoch": 0.43311489208200565,
      "flos": 16109113271040.0,
      "grad_norm": 5.453169819031494,
      "language_loss": 0.77549124,
      "learning_rate": 2.52428146820253e-06,
      "loss": 0.79669785,
      "num_input_tokens_seen": 77643835,
      "step": 3602,
      "time_per_iteration": 3.386557102203369
    },
    {
      "auxiliary_loss_clip": 0.01062166,
      "auxiliary_loss_mlp": 0.01019535,
      "balance_loss_clip": 1.03655696,
      "balance_loss_mlp": 1.01313913,
      "epoch": 0.43323513497264476,
      "flos": 22932455437440.0,
      "grad_norm": 1.8149087382150502,
      "language_loss": 0.81574357,
      "learning_rate": 2.52352969771474e-06,
      "loss": 0.83656055,
      "num_input_tokens_seen": 77663060,
      "step": 3603,
      "time_per_iteration": 2.6606903076171875
    },
    {
      "auxiliary_loss_clip": 0.01079895,
      "auxiliary_loss_mlp": 0.01019063,
      "balance_loss_clip": 1.0398562,
      "balance_loss_mlp": 1.01335549,
      "epoch": 0.4333553778632838,
      "flos": 25301244533760.0,
      "grad_norm": 1.977422594476987,
      "language_loss": 0.88523972,
      "learning_rate": 2.5227778478079106e-06,
      "loss": 0.90622926,
      "num_input_tokens_seen": 77682470,
      "step": 3604,
      "time_per_iteration": 3.544609546661377
    },
    {
      "auxiliary_loss_clip": 0.0109366,
      "auxiliary_loss_mlp": 0.01024869,
      "balance_loss_clip": 1.04175806,
      "balance_loss_mlp": 1.01922131,
      "epoch": 0.43347562075392293,
      "flos": 19388983847040.0,
      "grad_norm": 1.5907269400776236,
      "language_loss": 0.76809096,
      "learning_rate": 2.522025918596098e-06,
      "loss": 0.78927624,
      "num_input_tokens_seen": 77700770,
      "step": 3605,
      "time_per_iteration": 2.5222160816192627
    },
    {
      "auxiliary_loss_clip": 0.01089198,
      "auxiliary_loss_mlp": 0.01020021,
      "balance_loss_clip": 1.04107451,
      "balance_loss_mlp": 1.01467431,
      "epoch": 0.43359586364456204,
      "flos": 26328537164160.0,
      "grad_norm": 1.5969140260655352,
      "language_loss": 0.65845889,
      "learning_rate": 2.521273910193368e-06,
      "loss": 0.67955106,
      "num_input_tokens_seen": 77723950,
      "step": 3606,
      "time_per_iteration": 2.622718334197998
    },
    {
      "auxiliary_loss_clip": 0.01094333,
      "auxiliary_loss_mlp": 0.01022966,
      "balance_loss_clip": 1.04073596,
      "balance_loss_mlp": 1.01725888,
      "epoch": 0.4337161065352011,
      "flos": 15990627035520.0,
      "grad_norm": 4.860246474142799,
      "language_loss": 0.87147045,
      "learning_rate": 2.5205218227138006e-06,
      "loss": 0.89264345,
      "num_input_tokens_seen": 77736905,
      "step": 3607,
      "time_per_iteration": 3.2189688682556152
    },
    {
      "auxiliary_loss_clip": 0.01104863,
      "auxiliary_loss_mlp": 0.01021339,
      "balance_loss_clip": 1.0415591,
      "balance_loss_mlp": 1.01574826,
      "epoch": 0.4338363494258402,
      "flos": 20226484149120.0,
      "grad_norm": 2.446969351882755,
      "language_loss": 0.79421818,
      "learning_rate": 2.519769656271486e-06,
      "loss": 0.81548023,
      "num_input_tokens_seen": 77754325,
      "step": 3608,
      "time_per_iteration": 3.279238224029541
    },
    {
      "auxiliary_loss_clip": 0.01045934,
      "auxiliary_loss_mlp": 0.01022128,
      "balance_loss_clip": 1.03589809,
      "balance_loss_mlp": 1.01650143,
      "epoch": 0.43395659231647926,
      "flos": 20085957457920.0,
      "grad_norm": 3.576865067651176,
      "language_loss": 0.67517495,
      "learning_rate": 2.5190174109805285e-06,
      "loss": 0.69585556,
      "num_input_tokens_seen": 77774150,
      "step": 3609,
      "time_per_iteration": 2.676323413848877
    },
    {
      "auxiliary_loss_clip": 0.01073935,
      "auxiliary_loss_mlp": 0.01019024,
      "balance_loss_clip": 1.03839636,
      "balance_loss_mlp": 1.01329052,
      "epoch": 0.43407683520711837,
      "flos": 19903862499840.0,
      "grad_norm": 2.0481556639120777,
      "language_loss": 0.64064682,
      "learning_rate": 2.518265086955042e-06,
      "loss": 0.66157639,
      "num_input_tokens_seen": 77791870,
      "step": 3610,
      "time_per_iteration": 2.5814459323883057
    },
    {
      "auxiliary_loss_clip": 0.0110276,
      "auxiliary_loss_mlp": 0.01026833,
      "balance_loss_clip": 1.04014432,
      "balance_loss_mlp": 1.02125967,
      "epoch": 0.4341970780977575,
      "flos": 23110758587520.0,
      "grad_norm": 1.918611595997087,
      "language_loss": 0.83919263,
      "learning_rate": 2.5175126843091534e-06,
      "loss": 0.86048853,
      "num_input_tokens_seen": 77811240,
      "step": 3611,
      "time_per_iteration": 2.544818162918091
    },
    {
      "auxiliary_loss_clip": 0.01075853,
      "auxiliary_loss_mlp": 0.0101894,
      "balance_loss_clip": 1.03894281,
      "balance_loss_mlp": 1.01326537,
      "epoch": 0.43431732098839654,
      "flos": 37410952360320.0,
      "grad_norm": 2.0759081543671574,
      "language_loss": 0.75587177,
      "learning_rate": 2.5167602031570034e-06,
      "loss": 0.77681965,
      "num_input_tokens_seen": 77831425,
      "step": 3612,
      "time_per_iteration": 2.6733603477478027
    },
    {
      "auxiliary_loss_clip": 0.01104032,
      "auxiliary_loss_mlp": 0.01019973,
      "balance_loss_clip": 1.04114985,
      "balance_loss_mlp": 1.01444793,
      "epoch": 0.43443756387903565,
      "flos": 31870882304640.0,
      "grad_norm": 2.0292075552770594,
      "language_loss": 0.73568153,
      "learning_rate": 2.51600764361274e-06,
      "loss": 0.75692159,
      "num_input_tokens_seen": 77852950,
      "step": 3613,
      "time_per_iteration": 2.6084556579589844
    },
    {
      "auxiliary_loss_clip": 0.01104297,
      "auxiliary_loss_mlp": 0.01022092,
      "balance_loss_clip": 1.04257083,
      "balance_loss_mlp": 1.01640844,
      "epoch": 0.43455780676967476,
      "flos": 23479384919040.0,
      "grad_norm": 6.933996565426964,
      "language_loss": 0.78669161,
      "learning_rate": 2.5152550057905283e-06,
      "loss": 0.80795544,
      "num_input_tokens_seen": 77872840,
      "step": 3614,
      "time_per_iteration": 2.536254405975342
    },
    {
      "auxiliary_loss_clip": 0.01089269,
      "auxiliary_loss_mlp": 0.00756935,
      "balance_loss_clip": 1.03961051,
      "balance_loss_mlp": 1.00179195,
      "epoch": 0.4346780496603138,
      "flos": 24209357310720.0,
      "grad_norm": 3.0596452437524024,
      "language_loss": 0.76932675,
      "learning_rate": 2.5145022898045415e-06,
      "loss": 0.78778881,
      "num_input_tokens_seen": 77892025,
      "step": 3615,
      "time_per_iteration": 2.629429817199707
    },
    {
      "auxiliary_loss_clip": 0.01078678,
      "auxiliary_loss_mlp": 0.01021357,
      "balance_loss_clip": 1.03867579,
      "balance_loss_mlp": 1.01531935,
      "epoch": 0.4347982925509529,
      "flos": 17094268863360.0,
      "grad_norm": 2.2142471128946184,
      "language_loss": 0.8975141,
      "learning_rate": 2.5137494957689664e-06,
      "loss": 0.91851443,
      "num_input_tokens_seen": 77907635,
      "step": 3616,
      "time_per_iteration": 2.528388261795044
    },
    {
      "auxiliary_loss_clip": 0.01060732,
      "auxiliary_loss_mlp": 0.01002276,
      "balance_loss_clip": 1.04711473,
      "balance_loss_mlp": 0.99980849,
      "epoch": 0.43491853544159204,
      "flos": 60951774620160.0,
      "grad_norm": 0.7586320745373016,
      "language_loss": 0.57327706,
      "learning_rate": 2.5129966237980016e-06,
      "loss": 0.59390712,
      "num_input_tokens_seen": 77970630,
      "step": 3617,
      "time_per_iteration": 3.224017381668091
    },
    {
      "auxiliary_loss_clip": 0.01066371,
      "auxiliary_loss_mlp": 0.01017705,
      "balance_loss_clip": 1.03810823,
      "balance_loss_mlp": 1.01234937,
      "epoch": 0.4350387783322311,
      "flos": 21946806910080.0,
      "grad_norm": 4.881923110628872,
      "language_loss": 0.78329998,
      "learning_rate": 2.512243674005857e-06,
      "loss": 0.80414069,
      "num_input_tokens_seen": 77989995,
      "step": 3618,
      "time_per_iteration": 2.597865104675293
    },
    {
      "auxiliary_loss_clip": 0.01047605,
      "auxiliary_loss_mlp": 0.01021033,
      "balance_loss_clip": 1.03786135,
      "balance_loss_mlp": 1.01521873,
      "epoch": 0.4351590212228702,
      "flos": 25085051170560.0,
      "grad_norm": 2.066718579432725,
      "language_loss": 0.86098266,
      "learning_rate": 2.5114906465067537e-06,
      "loss": 0.88166904,
      "num_input_tokens_seen": 78010980,
      "step": 3619,
      "time_per_iteration": 2.7261765003204346
    },
    {
      "auxiliary_loss_clip": 0.01092619,
      "auxiliary_loss_mlp": 0.01016545,
      "balance_loss_clip": 1.03921175,
      "balance_loss_mlp": 1.01102304,
      "epoch": 0.4352792641135093,
      "flos": 21508656635520.0,
      "grad_norm": 2.5941769962264147,
      "language_loss": 0.74904621,
      "learning_rate": 2.5107375414149264e-06,
      "loss": 0.77013779,
      "num_input_tokens_seen": 78030225,
      "step": 3620,
      "time_per_iteration": 2.5880143642425537
    },
    {
      "auxiliary_loss_clip": 0.01053131,
      "auxiliary_loss_mlp": 0.01021951,
      "balance_loss_clip": 1.03338552,
      "balance_loss_mlp": 1.01591325,
      "epoch": 0.43539950700414837,
      "flos": 16255327674240.0,
      "grad_norm": 2.298474973541055,
      "language_loss": 0.71832526,
      "learning_rate": 2.5099843588446197e-06,
      "loss": 0.73907602,
      "num_input_tokens_seen": 78048545,
      "step": 3621,
      "time_per_iteration": 2.6284987926483154
    },
    {
      "auxiliary_loss_clip": 0.0105576,
      "auxiliary_loss_mlp": 0.01020995,
      "balance_loss_clip": 1.03898239,
      "balance_loss_mlp": 1.01525533,
      "epoch": 0.4355197498947875,
      "flos": 16693743375360.0,
      "grad_norm": 1.8596577865275767,
      "language_loss": 0.616027,
      "learning_rate": 2.509231098910091e-06,
      "loss": 0.63679457,
      "num_input_tokens_seen": 78068415,
      "step": 3622,
      "time_per_iteration": 2.6108734607696533
    },
    {
      "auxiliary_loss_clip": 0.01072557,
      "auxiliary_loss_mlp": 0.01017654,
      "balance_loss_clip": 1.04135704,
      "balance_loss_mlp": 1.01177669,
      "epoch": 0.4356399927854266,
      "flos": 16364599816320.0,
      "grad_norm": 2.445649147791397,
      "language_loss": 0.74985349,
      "learning_rate": 2.508477761725611e-06,
      "loss": 0.77075559,
      "num_input_tokens_seen": 78086690,
      "step": 3623,
      "time_per_iteration": 2.591742992401123
    },
    {
      "auxiliary_loss_clip": 0.0109169,
      "auxiliary_loss_mlp": 0.01022715,
      "balance_loss_clip": 1.03946352,
      "balance_loss_mlp": 1.01722586,
      "epoch": 0.43576023567606564,
      "flos": 17203958104320.0,
      "grad_norm": 2.3421903429527897,
      "language_loss": 0.81069815,
      "learning_rate": 2.507724347405458e-06,
      "loss": 0.83184224,
      "num_input_tokens_seen": 78104640,
      "step": 3624,
      "time_per_iteration": 2.513348340988159
    },
    {
      "auxiliary_loss_clip": 0.01055538,
      "auxiliary_loss_mlp": 0.01021106,
      "balance_loss_clip": 1.03651905,
      "balance_loss_mlp": 1.01542902,
      "epoch": 0.43588047856670475,
      "flos": 15919093434240.0,
      "grad_norm": 2.4849902056750737,
      "language_loss": 0.82116604,
      "learning_rate": 2.5069708560639243e-06,
      "loss": 0.84193254,
      "num_input_tokens_seen": 78122550,
      "step": 3625,
      "time_per_iteration": 2.661360502243042
    },
    {
      "auxiliary_loss_clip": 0.01061568,
      "auxiliary_loss_mlp": 0.01021476,
      "balance_loss_clip": 1.03396964,
      "balance_loss_mlp": 1.01544416,
      "epoch": 0.4360007214573438,
      "flos": 23661821139840.0,
      "grad_norm": 1.986859875422191,
      "language_loss": 0.61292088,
      "learning_rate": 2.5062172878153158e-06,
      "loss": 0.63375133,
      "num_input_tokens_seen": 78141825,
      "step": 3626,
      "time_per_iteration": 2.6517913341522217
    },
    {
      "auxiliary_loss_clip": 0.0104165,
      "auxiliary_loss_mlp": 0.01022295,
      "balance_loss_clip": 1.03661656,
      "balance_loss_mlp": 1.01580453,
      "epoch": 0.4361209643479829,
      "flos": 21980791560960.0,
      "grad_norm": 1.9057411276358702,
      "language_loss": 0.87364733,
      "learning_rate": 2.505463642773947e-06,
      "loss": 0.89428675,
      "num_input_tokens_seen": 78161790,
      "step": 3627,
      "time_per_iteration": 2.68241024017334
    },
    {
      "auxiliary_loss_clip": 0.01062402,
      "auxiliary_loss_mlp": 0.00756895,
      "balance_loss_clip": 1.03502369,
      "balance_loss_mlp": 1.00168157,
      "epoch": 0.43624120723862203,
      "flos": 17422047371520.0,
      "grad_norm": 2.375079740120847,
      "language_loss": 0.75225329,
      "learning_rate": 2.504709921054146e-06,
      "loss": 0.77044624,
      "num_input_tokens_seen": 78178605,
      "step": 3628,
      "time_per_iteration": 3.3473880290985107
    },
    {
      "auxiliary_loss_clip": 0.0107293,
      "auxiliary_loss_mlp": 0.01023011,
      "balance_loss_clip": 1.03825498,
      "balance_loss_mlp": 1.01722074,
      "epoch": 0.4363614501292611,
      "flos": 17897253661440.0,
      "grad_norm": 2.39647275079609,
      "language_loss": 0.83529371,
      "learning_rate": 2.50395612277025e-06,
      "loss": 0.85625315,
      "num_input_tokens_seen": 78194460,
      "step": 3629,
      "time_per_iteration": 2.6125831604003906
    },
    {
      "auxiliary_loss_clip": 0.01079589,
      "auxiliary_loss_mlp": 0.01018102,
      "balance_loss_clip": 1.03822041,
      "balance_loss_mlp": 1.01244593,
      "epoch": 0.4364816930199002,
      "flos": 20304956759040.0,
      "grad_norm": 3.4045919856333478,
      "language_loss": 0.727422,
      "learning_rate": 2.503202248036612e-06,
      "loss": 0.7483989,
      "num_input_tokens_seen": 78213315,
      "step": 3630,
      "time_per_iteration": 3.3694612979888916
    },
    {
      "auxiliary_loss_clip": 0.0110272,
      "auxiliary_loss_mlp": 0.01022351,
      "balance_loss_clip": 1.04075575,
      "balance_loss_mlp": 1.01626861,
      "epoch": 0.4366019359105393,
      "flos": 24063635842560.0,
      "grad_norm": 2.0430998709716004,
      "language_loss": 0.73559976,
      "learning_rate": 2.5024482969675927e-06,
      "loss": 0.75685042,
      "num_input_tokens_seen": 78233270,
      "step": 3631,
      "time_per_iteration": 2.540330171585083
    },
    {
      "auxiliary_loss_clip": 0.01051432,
      "auxiliary_loss_mlp": 0.01017733,
      "balance_loss_clip": 1.03684795,
      "balance_loss_mlp": 1.01237786,
      "epoch": 0.43672217880117836,
      "flos": 21755801203200.0,
      "grad_norm": 2.198548738613091,
      "language_loss": 0.84177291,
      "learning_rate": 2.501694269677566e-06,
      "loss": 0.86246455,
      "num_input_tokens_seen": 78251040,
      "step": 3632,
      "time_per_iteration": 2.6464650630950928
    },
    {
      "auxiliary_loss_clip": 0.01092262,
      "auxiliary_loss_mlp": 0.01017108,
      "balance_loss_clip": 1.0391897,
      "balance_loss_mlp": 1.01149344,
      "epoch": 0.4368424216918175,
      "flos": 18036832400640.0,
      "grad_norm": 1.990810733512511,
      "language_loss": 0.80171096,
      "learning_rate": 2.500940166280918e-06,
      "loss": 0.82280469,
      "num_input_tokens_seen": 78269470,
      "step": 3633,
      "time_per_iteration": 3.3112642765045166
    },
    {
      "auxiliary_loss_clip": 0.01093514,
      "auxiliary_loss_mlp": 0.0102087,
      "balance_loss_clip": 1.0415256,
      "balance_loss_mlp": 1.01506412,
      "epoch": 0.4369626645824566,
      "flos": 25449468595200.0,
      "grad_norm": 1.8874122328038907,
      "language_loss": 0.79296708,
      "learning_rate": 2.500185986892045e-06,
      "loss": 0.81411088,
      "num_input_tokens_seen": 78288955,
      "step": 3634,
      "time_per_iteration": 2.564760684967041
    },
    {
      "auxiliary_loss_clip": 0.01092797,
      "auxiliary_loss_mlp": 0.01021581,
      "balance_loss_clip": 1.03956366,
      "balance_loss_mlp": 1.0159657,
      "epoch": 0.43708290747309564,
      "flos": 25305112177920.0,
      "grad_norm": 2.0438064409271726,
      "language_loss": 0.77706611,
      "learning_rate": 2.499431731625355e-06,
      "loss": 0.79820991,
      "num_input_tokens_seen": 78307980,
      "step": 3635,
      "time_per_iteration": 3.3686752319335938
    },
    {
      "auxiliary_loss_clip": 0.01101757,
      "auxiliary_loss_mlp": 0.01020818,
      "balance_loss_clip": 1.03878689,
      "balance_loss_mlp": 1.01492333,
      "epoch": 0.43720315036373475,
      "flos": 31577695136640.0,
      "grad_norm": 3.163820010796849,
      "language_loss": 0.79522169,
      "learning_rate": 2.4986774005952686e-06,
      "loss": 0.81644744,
      "num_input_tokens_seen": 78330355,
      "step": 3636,
      "time_per_iteration": 2.596588373184204
    },
    {
      "auxiliary_loss_clip": 0.01085975,
      "auxiliary_loss_mlp": 0.01021521,
      "balance_loss_clip": 1.04143715,
      "balance_loss_mlp": 1.01627231,
      "epoch": 0.43732339325437386,
      "flos": 23114209132800.0,
      "grad_norm": 2.674450552252413,
      "language_loss": 0.84796733,
      "learning_rate": 2.4979229939162166e-06,
      "loss": 0.86904228,
      "num_input_tokens_seen": 78349135,
      "step": 3637,
      "time_per_iteration": 2.57643985748291
    },
    {
      "auxiliary_loss_clip": 0.01086858,
      "auxiliary_loss_mlp": 0.01018828,
      "balance_loss_clip": 1.03894353,
      "balance_loss_mlp": 1.01350808,
      "epoch": 0.4374436361450129,
      "flos": 27748771666560.0,
      "grad_norm": 1.845266097094621,
      "language_loss": 0.80633056,
      "learning_rate": 2.4971685117026433e-06,
      "loss": 0.82738745,
      "num_input_tokens_seen": 78368900,
      "step": 3638,
      "time_per_iteration": 2.5741662979125977
    },
    {
      "auxiliary_loss_clip": 0.01092174,
      "auxiliary_loss_mlp": 0.01019463,
      "balance_loss_clip": 1.04005766,
      "balance_loss_mlp": 1.01395881,
      "epoch": 0.437563879035652,
      "flos": 24174765970560.0,
      "grad_norm": 1.4462632503008184,
      "language_loss": 0.76657736,
      "learning_rate": 2.4964139540690018e-06,
      "loss": 0.78769374,
      "num_input_tokens_seen": 78392235,
      "step": 3639,
      "time_per_iteration": 2.627265214920044
    },
    {
      "auxiliary_loss_clip": 0.0105928,
      "auxiliary_loss_mlp": 0.01020223,
      "balance_loss_clip": 1.03516293,
      "balance_loss_mlp": 1.01440525,
      "epoch": 0.4376841219262911,
      "flos": 23479460755200.0,
      "grad_norm": 1.8651926422996723,
      "language_loss": 0.72757965,
      "learning_rate": 2.495659321129758e-06,
      "loss": 0.7483747,
      "num_input_tokens_seen": 78409980,
      "step": 3640,
      "time_per_iteration": 2.5921857357025146
    },
    {
      "auxiliary_loss_clip": 0.01092631,
      "auxiliary_loss_mlp": 0.01024308,
      "balance_loss_clip": 1.03986549,
      "balance_loss_mlp": 1.01892924,
      "epoch": 0.4378043648169302,
      "flos": 25450189038720.0,
      "grad_norm": 1.8673868285433717,
      "language_loss": 0.75402319,
      "learning_rate": 2.494904612999389e-06,
      "loss": 0.77519262,
      "num_input_tokens_seen": 78428690,
      "step": 3641,
      "time_per_iteration": 2.6094956398010254
    },
    {
      "auxiliary_loss_clip": 0.01069267,
      "auxiliary_loss_mlp": 0.01004564,
      "balance_loss_clip": 1.04584849,
      "balance_loss_mlp": 1.00222707,
      "epoch": 0.4379246077075693,
      "flos": 53920467313920.0,
      "grad_norm": 0.7460522059116134,
      "language_loss": 0.56517243,
      "learning_rate": 2.4941498297923843e-06,
      "loss": 0.5859108,
      "num_input_tokens_seen": 78489260,
      "step": 3642,
      "time_per_iteration": 3.128419876098633
    },
    {
      "auxiliary_loss_clip": 0.01088302,
      "auxiliary_loss_mlp": 0.01020588,
      "balance_loss_clip": 1.03806651,
      "balance_loss_mlp": 1.01525033,
      "epoch": 0.43804485059820836,
      "flos": 20590029457920.0,
      "grad_norm": 1.8216245562476994,
      "language_loss": 0.69870692,
      "learning_rate": 2.4933949716232424e-06,
      "loss": 0.71979582,
      "num_input_tokens_seen": 78506785,
      "step": 3643,
      "time_per_iteration": 2.566601276397705
    },
    {
      "auxiliary_loss_clip": 0.01059492,
      "auxiliary_loss_mlp": 0.0102034,
      "balance_loss_clip": 1.03977311,
      "balance_loss_mlp": 1.0145489,
      "epoch": 0.43816509348884747,
      "flos": 23878355765760.0,
      "grad_norm": 15.990178027223578,
      "language_loss": 0.7393527,
      "learning_rate": 2.492640038606476e-06,
      "loss": 0.76015103,
      "num_input_tokens_seen": 78525150,
      "step": 3644,
      "time_per_iteration": 2.6758174896240234
    },
    {
      "auxiliary_loss_clip": 0.01086479,
      "auxiliary_loss_mlp": 0.01019838,
      "balance_loss_clip": 1.03656304,
      "balance_loss_mlp": 1.01425338,
      "epoch": 0.4382853363794866,
      "flos": 14686224503040.0,
      "grad_norm": 1.9108838504872234,
      "language_loss": 0.78629661,
      "learning_rate": 2.491885030856608e-06,
      "loss": 0.80735981,
      "num_input_tokens_seen": 78543245,
      "step": 3645,
      "time_per_iteration": 2.51613712310791
    },
    {
      "auxiliary_loss_clip": 0.01075532,
      "auxiliary_loss_mlp": 0.01022425,
      "balance_loss_clip": 1.03734648,
      "balance_loss_mlp": 1.01641989,
      "epoch": 0.43840557927012563,
      "flos": 17167205433600.0,
      "grad_norm": 2.192542756443546,
      "language_loss": 0.83088076,
      "learning_rate": 2.4911299484881713e-06,
      "loss": 0.85186028,
      "num_input_tokens_seen": 78560775,
      "step": 3646,
      "time_per_iteration": 2.5858139991760254
    },
    {
      "auxiliary_loss_clip": 0.01077497,
      "auxiliary_loss_mlp": 0.01017524,
      "balance_loss_clip": 1.0374558,
      "balance_loss_mlp": 1.0121181,
      "epoch": 0.43852582216076474,
      "flos": 19392699818880.0,
      "grad_norm": 1.8171916001474915,
      "language_loss": 0.81319225,
      "learning_rate": 2.490374791615712e-06,
      "loss": 0.83414245,
      "num_input_tokens_seen": 78580800,
      "step": 3647,
      "time_per_iteration": 2.558481454849243
    },
    {
      "auxiliary_loss_clip": 0.01103998,
      "auxiliary_loss_mlp": 0.00756867,
      "balance_loss_clip": 1.04083872,
      "balance_loss_mlp": 1.00162971,
      "epoch": 0.43864606505140386,
      "flos": 18076959780480.0,
      "grad_norm": 4.119074383651353,
      "language_loss": 0.7854706,
      "learning_rate": 2.4896195603537867e-06,
      "loss": 0.80407923,
      "num_input_tokens_seen": 78595410,
      "step": 3648,
      "time_per_iteration": 2.5665788650512695
    },
    {
      "auxiliary_loss_clip": 0.01044369,
      "auxiliary_loss_mlp": 0.01019512,
      "balance_loss_clip": 1.0355041,
      "balance_loss_mlp": 1.01374543,
      "epoch": 0.4387663079420429,
      "flos": 19646859231360.0,
      "grad_norm": 2.618456587730505,
      "language_loss": 0.73897779,
      "learning_rate": 2.488864254816964e-06,
      "loss": 0.75961661,
      "num_input_tokens_seen": 78614100,
      "step": 3649,
      "time_per_iteration": 2.5933234691619873
    },
    {
      "auxiliary_loss_clip": 0.01089,
      "auxiliary_loss_mlp": 0.01024311,
      "balance_loss_clip": 1.03892875,
      "balance_loss_mlp": 1.01822233,
      "epoch": 0.438886550832682,
      "flos": 19721388360960.0,
      "grad_norm": 2.2067805023681584,
      "language_loss": 0.68533635,
      "learning_rate": 2.4881088751198218e-06,
      "loss": 0.70646942,
      "num_input_tokens_seen": 78632260,
      "step": 3650,
      "time_per_iteration": 2.5388808250427246
    },
    {
      "auxiliary_loss_clip": 0.01079323,
      "auxiliary_loss_mlp": 0.01019733,
      "balance_loss_clip": 1.03921759,
      "balance_loss_mlp": 1.0137372,
      "epoch": 0.43900679372332113,
      "flos": 14538341704320.0,
      "grad_norm": 3.7360617501872677,
      "language_loss": 0.64021373,
      "learning_rate": 2.4873534213769517e-06,
      "loss": 0.66120434,
      "num_input_tokens_seen": 78647490,
      "step": 3651,
      "time_per_iteration": 2.5241923332214355
    },
    {
      "auxiliary_loss_clip": 0.01055294,
      "auxiliary_loss_mlp": 0.01023504,
      "balance_loss_clip": 1.03349352,
      "balance_loss_mlp": 1.01787162,
      "epoch": 0.4391270366139602,
      "flos": 24058251475200.0,
      "grad_norm": 1.6665005241626458,
      "language_loss": 0.71943837,
      "learning_rate": 2.4865978937029547e-06,
      "loss": 0.74022639,
      "num_input_tokens_seen": 78666470,
      "step": 3652,
      "time_per_iteration": 2.6383774280548096
    },
    {
      "auxiliary_loss_clip": 0.01051107,
      "auxiliary_loss_mlp": 0.01022206,
      "balance_loss_clip": 1.03597355,
      "balance_loss_mlp": 1.01642728,
      "epoch": 0.4392472795045993,
      "flos": 31541094138240.0,
      "grad_norm": 2.5441885711084846,
      "language_loss": 0.66402137,
      "learning_rate": 2.485842292212445e-06,
      "loss": 0.68475443,
      "num_input_tokens_seen": 78687685,
      "step": 3653,
      "time_per_iteration": 2.696760416030884
    },
    {
      "auxiliary_loss_clip": 0.01103663,
      "auxiliary_loss_mlp": 0.01022902,
      "balance_loss_clip": 1.04138517,
      "balance_loss_mlp": 1.01713228,
      "epoch": 0.4393675223952384,
      "flos": 14868054034560.0,
      "grad_norm": 2.3371473696466576,
      "language_loss": 0.80673844,
      "learning_rate": 2.485086617020045e-06,
      "loss": 0.82800412,
      "num_input_tokens_seen": 78706180,
      "step": 3654,
      "time_per_iteration": 3.273165464401245
    },
    {
      "auxiliary_loss_clip": 0.01078139,
      "auxiliary_loss_mlp": 0.0102095,
      "balance_loss_clip": 1.03727758,
      "balance_loss_mlp": 1.01456356,
      "epoch": 0.43948776528587746,
      "flos": 14827433719680.0,
      "grad_norm": 3.284071395052346,
      "language_loss": 0.81998229,
      "learning_rate": 2.4843308682403903e-06,
      "loss": 0.84097326,
      "num_input_tokens_seen": 78723095,
      "step": 3655,
      "time_per_iteration": 2.539717674255371
    },
    {
      "auxiliary_loss_clip": 0.01100766,
      "auxiliary_loss_mlp": 0.01020585,
      "balance_loss_clip": 1.03842628,
      "balance_loss_mlp": 1.01528001,
      "epoch": 0.4396080081765166,
      "flos": 13916048895360.0,
      "grad_norm": 1.7308068381108734,
      "language_loss": 0.82961953,
      "learning_rate": 2.4835750459881294e-06,
      "loss": 0.850833,
      "num_input_tokens_seen": 78739720,
      "step": 3656,
      "time_per_iteration": 3.2632877826690674
    },
    {
      "auxiliary_loss_clip": 0.01083569,
      "auxiliary_loss_mlp": 0.01024354,
      "balance_loss_clip": 1.04061556,
      "balance_loss_mlp": 1.01822925,
      "epoch": 0.43972825106715563,
      "flos": 18224918415360.0,
      "grad_norm": 2.022030589595084,
      "language_loss": 0.82547188,
      "learning_rate": 2.4828191503779177e-06,
      "loss": 0.84655112,
      "num_input_tokens_seen": 78757820,
      "step": 3657,
      "time_per_iteration": 2.5765233039855957
    },
    {
      "auxiliary_loss_clip": 0.01058845,
      "auxiliary_loss_mlp": 0.01018336,
      "balance_loss_clip": 1.03559518,
      "balance_loss_mlp": 1.01268852,
      "epoch": 0.43984849395779474,
      "flos": 16875117889920.0,
      "grad_norm": 2.125769825946366,
      "language_loss": 0.89988756,
      "learning_rate": 2.482063181524425e-06,
      "loss": 0.92065936,
      "num_input_tokens_seen": 78773720,
      "step": 3658,
      "time_per_iteration": 3.3174753189086914
    },
    {
      "auxiliary_loss_clip": 0.01103941,
      "auxiliary_loss_mlp": 0.01026477,
      "balance_loss_clip": 1.0419445,
      "balance_loss_mlp": 1.02041185,
      "epoch": 0.43996873684843385,
      "flos": 18693147778560.0,
      "grad_norm": 10.479347925721983,
      "language_loss": 0.81054246,
      "learning_rate": 2.4813071395423307e-06,
      "loss": 0.83184665,
      "num_input_tokens_seen": 78791285,
      "step": 3659,
      "time_per_iteration": 2.595860481262207
    },
    {
      "auxiliary_loss_clip": 0.01090081,
      "auxiliary_loss_mlp": 0.01022642,
      "balance_loss_clip": 1.03990674,
      "balance_loss_mlp": 1.01675892,
      "epoch": 0.4400889797390729,
      "flos": 23655375066240.0,
      "grad_norm": 2.0010846153256785,
      "language_loss": 0.64427847,
      "learning_rate": 2.4805510245463263e-06,
      "loss": 0.66540563,
      "num_input_tokens_seen": 78811440,
      "step": 3660,
      "time_per_iteration": 2.5454447269439697
    },
    {
      "auxiliary_loss_clip": 0.01093772,
      "auxiliary_loss_mlp": 0.0102262,
      "balance_loss_clip": 1.04148877,
      "balance_loss_mlp": 1.0166657,
      "epoch": 0.440209222629712,
      "flos": 23151454738560.0,
      "grad_norm": 7.771862927756168,
      "language_loss": 0.60648406,
      "learning_rate": 2.4797948366511137e-06,
      "loss": 0.62764794,
      "num_input_tokens_seen": 78831150,
      "step": 3661,
      "time_per_iteration": 3.3142008781433105
    },
    {
      "auxiliary_loss_clip": 0.01071152,
      "auxiliary_loss_mlp": 0.01026312,
      "balance_loss_clip": 1.04092348,
      "balance_loss_mlp": 1.02057838,
      "epoch": 0.4403294655203511,
      "flos": 24825507390720.0,
      "grad_norm": 2.169478243875172,
      "language_loss": 0.76321304,
      "learning_rate": 2.4790385759714055e-06,
      "loss": 0.78418761,
      "num_input_tokens_seen": 78850215,
      "step": 3662,
      "time_per_iteration": 2.6216320991516113
    },
    {
      "auxiliary_loss_clip": 0.01086668,
      "auxiliary_loss_mlp": 0.01020283,
      "balance_loss_clip": 1.04173446,
      "balance_loss_mlp": 1.01490033,
      "epoch": 0.4404497084109902,
      "flos": 22567279651200.0,
      "grad_norm": 3.2792626194099057,
      "language_loss": 0.71218562,
      "learning_rate": 2.478282242621926e-06,
      "loss": 0.73325515,
      "num_input_tokens_seen": 78870675,
      "step": 3663,
      "time_per_iteration": 2.6147453784942627
    },
    {
      "auxiliary_loss_clip": 0.01049288,
      "auxiliary_loss_mlp": 0.01002649,
      "balance_loss_clip": 1.04603171,
      "balance_loss_mlp": 1.00019383,
      "epoch": 0.4405699513016293,
      "flos": 64973978881920.0,
      "grad_norm": 0.845112851519771,
      "language_loss": 0.59545207,
      "learning_rate": 2.477525836717411e-06,
      "loss": 0.61597145,
      "num_input_tokens_seen": 78938440,
      "step": 3664,
      "time_per_iteration": 3.309168577194214
    },
    {
      "auxiliary_loss_clip": 0.01088563,
      "auxiliary_loss_mlp": 0.01021971,
      "balance_loss_clip": 1.0384531,
      "balance_loss_mlp": 1.01640129,
      "epoch": 0.4406901941922684,
      "flos": 35664797335680.0,
      "grad_norm": 2.9265418074063665,
      "language_loss": 0.79750538,
      "learning_rate": 2.476769358372606e-06,
      "loss": 0.81861067,
      "num_input_tokens_seen": 78960090,
      "step": 3665,
      "time_per_iteration": 2.645076274871826
    },
    {
      "auxiliary_loss_clip": 0.01059389,
      "auxiliary_loss_mlp": 0.01019322,
      "balance_loss_clip": 1.03751874,
      "balance_loss_mlp": 1.01401687,
      "epoch": 0.44081043708290746,
      "flos": 18042709703040.0,
      "grad_norm": 3.188418658473175,
      "language_loss": 0.74963558,
      "learning_rate": 2.4760128077022683e-06,
      "loss": 0.7704227,
      "num_input_tokens_seen": 78978225,
      "step": 3666,
      "time_per_iteration": 2.6266350746154785
    },
    {
      "auxiliary_loss_clip": 0.01046219,
      "auxiliary_loss_mlp": 0.01017568,
      "balance_loss_clip": 1.03658056,
      "balance_loss_mlp": 1.01217341,
      "epoch": 0.44093067997354657,
      "flos": 30156095583360.0,
      "grad_norm": 1.6547229064636129,
      "language_loss": 0.68642128,
      "learning_rate": 2.4752561848211672e-06,
      "loss": 0.70705914,
      "num_input_tokens_seen": 79000625,
      "step": 3667,
      "time_per_iteration": 2.6795427799224854
    },
    {
      "auxiliary_loss_clip": 0.01089651,
      "auxiliary_loss_mlp": 0.01024703,
      "balance_loss_clip": 1.04169524,
      "balance_loss_mlp": 1.01900816,
      "epoch": 0.4410509228641857,
      "flos": 23257124663040.0,
      "grad_norm": 3.622568340006627,
      "language_loss": 0.71652412,
      "learning_rate": 2.4744994898440797e-06,
      "loss": 0.73766768,
      "num_input_tokens_seen": 79019415,
      "step": 3668,
      "time_per_iteration": 2.561868667602539
    },
    {
      "auxiliary_loss_clip": 0.01065356,
      "auxiliary_loss_mlp": 0.01025109,
      "balance_loss_clip": 1.03723383,
      "balance_loss_mlp": 1.01922333,
      "epoch": 0.44117116575482473,
      "flos": 19502616568320.0,
      "grad_norm": 2.026257030150548,
      "language_loss": 0.83617741,
      "learning_rate": 2.473742722885797e-06,
      "loss": 0.85708201,
      "num_input_tokens_seen": 79038435,
      "step": 3669,
      "time_per_iteration": 2.588878870010376
    },
    {
      "auxiliary_loss_clip": 0.01084957,
      "auxiliary_loss_mlp": 0.00756902,
      "balance_loss_clip": 1.04007959,
      "balance_loss_mlp": 1.00178409,
      "epoch": 0.44129140864546385,
      "flos": 27055589863680.0,
      "grad_norm": 2.203440600956858,
      "language_loss": 0.65417266,
      "learning_rate": 2.4729858840611197e-06,
      "loss": 0.67259121,
      "num_input_tokens_seen": 79057345,
      "step": 3670,
      "time_per_iteration": 2.6310269832611084
    },
    {
      "auxiliary_loss_clip": 0.01102601,
      "auxiliary_loss_mlp": 0.01018347,
      "balance_loss_clip": 1.04123497,
      "balance_loss_mlp": 1.0129081,
      "epoch": 0.4414116515361029,
      "flos": 26104381004160.0,
      "grad_norm": 2.143414170669336,
      "language_loss": 0.72608453,
      "learning_rate": 2.4722289734848605e-06,
      "loss": 0.74729401,
      "num_input_tokens_seen": 79077810,
      "step": 3671,
      "time_per_iteration": 2.5443472862243652
    },
    {
      "auxiliary_loss_clip": 0.0105405,
      "auxiliary_loss_mlp": 0.01022844,
      "balance_loss_clip": 1.03461564,
      "balance_loss_mlp": 1.01736951,
      "epoch": 0.441531894426742,
      "flos": 21908120417280.0,
      "grad_norm": 2.303248039196166,
      "language_loss": 0.77975309,
      "learning_rate": 2.471471991271841e-06,
      "loss": 0.80052209,
      "num_input_tokens_seen": 79094935,
      "step": 3672,
      "time_per_iteration": 2.629533529281616
    },
    {
      "auxiliary_loss_clip": 0.01092293,
      "auxiliary_loss_mlp": 0.01020789,
      "balance_loss_clip": 1.0400852,
      "balance_loss_mlp": 1.01487637,
      "epoch": 0.4416521373173811,
      "flos": 23439143784960.0,
      "grad_norm": 1.9420382531227522,
      "language_loss": 0.79534519,
      "learning_rate": 2.470714937536896e-06,
      "loss": 0.81647605,
      "num_input_tokens_seen": 79113660,
      "step": 3673,
      "time_per_iteration": 2.5472376346588135
    },
    {
      "auxiliary_loss_clip": 0.01043639,
      "auxiliary_loss_mlp": 0.01023455,
      "balance_loss_clip": 1.03294659,
      "balance_loss_mlp": 1.01767635,
      "epoch": 0.4417723802080202,
      "flos": 20336135472000.0,
      "grad_norm": 11.293294662384083,
      "language_loss": 0.70393211,
      "learning_rate": 2.469957812394868e-06,
      "loss": 0.72460306,
      "num_input_tokens_seen": 79132470,
      "step": 3674,
      "time_per_iteration": 2.6566531658172607
    },
    {
      "auxiliary_loss_clip": 0.01105041,
      "auxiliary_loss_mlp": 0.01020677,
      "balance_loss_clip": 1.04339504,
      "balance_loss_mlp": 1.0151279,
      "epoch": 0.4418926230986593,
      "flos": 18882712598400.0,
      "grad_norm": 1.8679408645025253,
      "language_loss": 0.76496744,
      "learning_rate": 2.4692006159606148e-06,
      "loss": 0.7862246,
      "num_input_tokens_seen": 79150000,
      "step": 3675,
      "time_per_iteration": 2.488386631011963
    },
    {
      "auxiliary_loss_clip": 0.01101264,
      "auxiliary_loss_mlp": 0.01021113,
      "balance_loss_clip": 1.03955793,
      "balance_loss_mlp": 1.01541805,
      "epoch": 0.4420128659892984,
      "flos": 19466470586880.0,
      "grad_norm": 2.1306027901450983,
      "language_loss": 0.78613937,
      "learning_rate": 2.468443348349e-06,
      "loss": 0.80736315,
      "num_input_tokens_seen": 79167875,
      "step": 3676,
      "time_per_iteration": 2.537670850753784
    },
    {
      "auxiliary_loss_clip": 0.01055815,
      "auxiliary_loss_mlp": 0.0102236,
      "balance_loss_clip": 1.03822899,
      "balance_loss_mlp": 1.01597691,
      "epoch": 0.44213310887993745,
      "flos": 17896267791360.0,
      "grad_norm": 2.6967607347305305,
      "language_loss": 0.82385802,
      "learning_rate": 2.467686009674902e-06,
      "loss": 0.84463984,
      "num_input_tokens_seen": 79182325,
      "step": 3677,
      "time_per_iteration": 2.6043612957000732
    },
    {
      "auxiliary_loss_clip": 0.01092675,
      "auxiliary_loss_mlp": 0.01019651,
      "balance_loss_clip": 1.03991437,
      "balance_loss_mlp": 1.01373816,
      "epoch": 0.44225335177057656,
      "flos": 19206471790080.0,
      "grad_norm": 2.320654552131062,
      "language_loss": 0.85414416,
      "learning_rate": 2.466928600053209e-06,
      "loss": 0.87526739,
      "num_input_tokens_seen": 79197630,
      "step": 3678,
      "time_per_iteration": 2.5943357944488525
    },
    {
      "auxiliary_loss_clip": 0.01071396,
      "auxiliary_loss_mlp": 0.01016835,
      "balance_loss_clip": 1.03675699,
      "balance_loss_mlp": 1.01142859,
      "epoch": 0.4423735946612157,
      "flos": 23473242190080.0,
      "grad_norm": 1.8212279302449437,
      "language_loss": 0.71686697,
      "learning_rate": 2.466171119598818e-06,
      "loss": 0.73774928,
      "num_input_tokens_seen": 79217600,
      "step": 3679,
      "time_per_iteration": 2.601139545440674
    },
    {
      "auxiliary_loss_clip": 0.01094028,
      "auxiliary_loss_mlp": 0.01021593,
      "balance_loss_clip": 1.03999388,
      "balance_loss_mlp": 1.01569211,
      "epoch": 0.44249383755185473,
      "flos": 26687683975680.0,
      "grad_norm": 1.8121438078708576,
      "language_loss": 0.76927096,
      "learning_rate": 2.465413568426639e-06,
      "loss": 0.79042715,
      "num_input_tokens_seen": 79238550,
      "step": 3680,
      "time_per_iteration": 3.375643730163574
    },
    {
      "auxiliary_loss_clip": 0.01083798,
      "auxiliary_loss_mlp": 0.01017581,
      "balance_loss_clip": 1.03683341,
      "balance_loss_mlp": 1.01261628,
      "epoch": 0.44261408044249384,
      "flos": 23149824261120.0,
      "grad_norm": 1.6574855599273477,
      "language_loss": 0.81391466,
      "learning_rate": 2.464655946651591e-06,
      "loss": 0.83492845,
      "num_input_tokens_seen": 79257555,
      "step": 3681,
      "time_per_iteration": 2.584097146987915
    },
    {
      "auxiliary_loss_clip": 0.01089437,
      "auxiliary_loss_mlp": 0.01020212,
      "balance_loss_clip": 1.03891885,
      "balance_loss_mlp": 1.01457953,
      "epoch": 0.44273432333313295,
      "flos": 24464881774080.0,
      "grad_norm": 2.9909393525645416,
      "language_loss": 0.80785692,
      "learning_rate": 2.4638982543886065e-06,
      "loss": 0.82895339,
      "num_input_tokens_seen": 79277595,
      "step": 3682,
      "time_per_iteration": 3.3313112258911133
    },
    {
      "auxiliary_loss_clip": 0.01092531,
      "auxiliary_loss_mlp": 0.01023645,
      "balance_loss_clip": 1.04123032,
      "balance_loss_mlp": 1.01775265,
      "epoch": 0.442854566223772,
      "flos": 17530788660480.0,
      "grad_norm": 2.360767848058302,
      "language_loss": 0.87308228,
      "learning_rate": 2.4631404917526254e-06,
      "loss": 0.89424396,
      "num_input_tokens_seen": 79294550,
      "step": 3683,
      "time_per_iteration": 2.5721235275268555
    },
    {
      "auxiliary_loss_clip": 0.01091097,
      "auxiliary_loss_mlp": 0.01019858,
      "balance_loss_clip": 1.03918231,
      "balance_loss_mlp": 1.01449704,
      "epoch": 0.4429748091144111,
      "flos": 24898406042880.0,
      "grad_norm": 1.8777991015096236,
      "language_loss": 0.79471278,
      "learning_rate": 2.4623826588586e-06,
      "loss": 0.81582224,
      "num_input_tokens_seen": 79314820,
      "step": 3684,
      "time_per_iteration": 3.369296073913574
    },
    {
      "auxiliary_loss_clip": 0.01081816,
      "auxiliary_loss_mlp": 0.0101847,
      "balance_loss_clip": 1.03889751,
      "balance_loss_mlp": 1.01260507,
      "epoch": 0.4430950520050502,
      "flos": 21616753317120.0,
      "grad_norm": 1.533406169311177,
      "language_loss": 0.82960045,
      "learning_rate": 2.461624755821492e-06,
      "loss": 0.85060328,
      "num_input_tokens_seen": 79334300,
      "step": 3685,
      "time_per_iteration": 2.566100597381592
    },
    {
      "auxiliary_loss_clip": 0.01061597,
      "auxiliary_loss_mlp": 0.01018763,
      "balance_loss_clip": 1.03805518,
      "balance_loss_mlp": 1.01345778,
      "epoch": 0.4432152948956893,
      "flos": 24574608933120.0,
      "grad_norm": 2.605245720446278,
      "language_loss": 0.76802206,
      "learning_rate": 2.4608667827562763e-06,
      "loss": 0.78882563,
      "num_input_tokens_seen": 79353630,
      "step": 3686,
      "time_per_iteration": 2.6618621349334717
    },
    {
      "auxiliary_loss_clip": 0.01091926,
      "auxiliary_loss_mlp": 0.01022503,
      "balance_loss_clip": 1.0404892,
      "balance_loss_mlp": 1.01639986,
      "epoch": 0.4433355377863284,
      "flos": 21764408607360.0,
      "grad_norm": 2.1482904831795215,
      "language_loss": 0.90092444,
      "learning_rate": 2.460108739777936e-06,
      "loss": 0.92206872,
      "num_input_tokens_seen": 79372765,
      "step": 3687,
      "time_per_iteration": 3.306777238845825
    },
    {
      "auxiliary_loss_clip": 0.01069718,
      "auxiliary_loss_mlp": 0.01019522,
      "balance_loss_clip": 1.03575325,
      "balance_loss_mlp": 1.01382041,
      "epoch": 0.44345578067696745,
      "flos": 20086564147200.0,
      "grad_norm": 1.577541867177853,
      "language_loss": 0.76331019,
      "learning_rate": 2.4593506270014656e-06,
      "loss": 0.78420258,
      "num_input_tokens_seen": 79391735,
      "step": 3688,
      "time_per_iteration": 2.579739809036255
    },
    {
      "auxiliary_loss_clip": 0.01077683,
      "auxiliary_loss_mlp": 0.010189,
      "balance_loss_clip": 1.03691959,
      "balance_loss_mlp": 1.01319909,
      "epoch": 0.44357602356760656,
      "flos": 24171732524160.0,
      "grad_norm": 1.6816760606567438,
      "language_loss": 0.82122111,
      "learning_rate": 2.45859244454187e-06,
      "loss": 0.84218693,
      "num_input_tokens_seen": 79411525,
      "step": 3689,
      "time_per_iteration": 2.5875418186187744
    },
    {
      "auxiliary_loss_clip": 0.0108923,
      "auxiliary_loss_mlp": 0.01017837,
      "balance_loss_clip": 1.0391705,
      "balance_loss_mlp": 1.01232648,
      "epoch": 0.44369626645824567,
      "flos": 22709740164480.0,
      "grad_norm": 1.6547082252994567,
      "language_loss": 0.66132843,
      "learning_rate": 2.4578341925141655e-06,
      "loss": 0.68239915,
      "num_input_tokens_seen": 79430740,
      "step": 3690,
      "time_per_iteration": 2.5949695110321045
    },
    {
      "auxiliary_loss_clip": 0.01093777,
      "auxiliary_loss_mlp": 0.01019487,
      "balance_loss_clip": 1.04059744,
      "balance_loss_mlp": 1.01358342,
      "epoch": 0.4438165093488847,
      "flos": 38033017660800.0,
      "grad_norm": 2.299787428255534,
      "language_loss": 0.72034979,
      "learning_rate": 2.457075871033378e-06,
      "loss": 0.74148238,
      "num_input_tokens_seen": 79452615,
      "step": 3691,
      "time_per_iteration": 2.6787405014038086
    },
    {
      "auxiliary_loss_clip": 0.01059923,
      "auxiliary_loss_mlp": 0.01019559,
      "balance_loss_clip": 1.03501737,
      "balance_loss_mlp": 1.0138905,
      "epoch": 0.44393675223952384,
      "flos": 15525014019840.0,
      "grad_norm": 2.132602149249998,
      "language_loss": 0.88798141,
      "learning_rate": 2.4563174802145445e-06,
      "loss": 0.90877628,
      "num_input_tokens_seen": 79469865,
      "step": 3692,
      "time_per_iteration": 2.6156721115112305
    },
    {
      "auxiliary_loss_clip": 0.010544,
      "auxiliary_loss_mlp": 0.01013211,
      "balance_loss_clip": 1.04109764,
      "balance_loss_mlp": 1.01075578,
      "epoch": 0.44405699513016295,
      "flos": 64582288306560.0,
      "grad_norm": 0.6457711453450657,
      "language_loss": 0.48612165,
      "learning_rate": 2.455559020172712e-06,
      "loss": 0.50679779,
      "num_input_tokens_seen": 79537220,
      "step": 3693,
      "time_per_iteration": 3.2373249530792236
    },
    {
      "auxiliary_loss_clip": 0.01049795,
      "auxiliary_loss_mlp": 0.0102788,
      "balance_loss_clip": 1.03761995,
      "balance_loss_mlp": 1.02180648,
      "epoch": 0.444177238020802,
      "flos": 23989637566080.0,
      "grad_norm": 2.673201767372417,
      "language_loss": 0.89717674,
      "learning_rate": 2.4548004910229385e-06,
      "loss": 0.91795343,
      "num_input_tokens_seen": 79554795,
      "step": 3694,
      "time_per_iteration": 2.6975629329681396
    },
    {
      "auxiliary_loss_clip": 0.01090613,
      "auxiliary_loss_mlp": 0.00757132,
      "balance_loss_clip": 1.03978693,
      "balance_loss_mlp": 1.00175333,
      "epoch": 0.4442974809114411,
      "flos": 22565156238720.0,
      "grad_norm": 2.407193968243848,
      "language_loss": 0.87127596,
      "learning_rate": 2.4540418928802913e-06,
      "loss": 0.88975346,
      "num_input_tokens_seen": 79573530,
      "step": 3695,
      "time_per_iteration": 2.579618215560913
    },
    {
      "auxiliary_loss_clip": 0.01082575,
      "auxiliary_loss_mlp": 0.01021358,
      "balance_loss_clip": 1.04022586,
      "balance_loss_mlp": 1.0156002,
      "epoch": 0.4444177238020802,
      "flos": 17677609752960.0,
      "grad_norm": 2.782674197525043,
      "language_loss": 0.6585719,
      "learning_rate": 2.4532832258598506e-06,
      "loss": 0.67961121,
      "num_input_tokens_seen": 79591360,
      "step": 3696,
      "time_per_iteration": 2.545210838317871
    },
    {
      "auxiliary_loss_clip": 0.01103657,
      "auxiliary_loss_mlp": 0.01017746,
      "balance_loss_clip": 1.04229105,
      "balance_loss_mlp": 1.01205707,
      "epoch": 0.4445379666927193,
      "flos": 28624124263680.0,
      "grad_norm": 1.9744358296982993,
      "language_loss": 0.80758393,
      "learning_rate": 2.4525244900767047e-06,
      "loss": 0.82879794,
      "num_input_tokens_seen": 79612175,
      "step": 3697,
      "time_per_iteration": 2.6267969608306885
    },
    {
      "auxiliary_loss_clip": 0.01059708,
      "auxiliary_loss_mlp": 0.01010079,
      "balance_loss_clip": 1.03841507,
      "balance_loss_mlp": 1.0082196,
      "epoch": 0.4446582095833584,
      "flos": 70495193600640.0,
      "grad_norm": 0.7646062067379366,
      "language_loss": 0.6045326,
      "learning_rate": 2.4517656856459536e-06,
      "loss": 0.62523043,
      "num_input_tokens_seen": 79678020,
      "step": 3698,
      "time_per_iteration": 3.2342844009399414
    },
    {
      "auxiliary_loss_clip": 0.01088658,
      "auxiliary_loss_mlp": 0.01022593,
      "balance_loss_clip": 1.03839135,
      "balance_loss_mlp": 1.01698136,
      "epoch": 0.4447784524739975,
      "flos": 26507598675840.0,
      "grad_norm": 1.8128051620218828,
      "language_loss": 0.68156737,
      "learning_rate": 2.4510068126827073e-06,
      "loss": 0.70267987,
      "num_input_tokens_seen": 79699020,
      "step": 3699,
      "time_per_iteration": 2.6215198040008545
    },
    {
      "auxiliary_loss_clip": 0.01079697,
      "auxiliary_loss_mlp": 0.01022771,
      "balance_loss_clip": 1.04052186,
      "balance_loss_mlp": 1.01729321,
      "epoch": 0.44489869536463655,
      "flos": 11657821155840.0,
      "grad_norm": 2.150840685554112,
      "language_loss": 0.81357729,
      "learning_rate": 2.450247871302086e-06,
      "loss": 0.83460194,
      "num_input_tokens_seen": 79716795,
      "step": 3700,
      "time_per_iteration": 2.5386297702789307
    },
    {
      "auxiliary_loss_clip": 0.01091644,
      "auxiliary_loss_mlp": 0.01020227,
      "balance_loss_clip": 1.04168487,
      "balance_loss_mlp": 1.01476431,
      "epoch": 0.44501893825527566,
      "flos": 20450526554880.0,
      "grad_norm": 2.6025276956279666,
      "language_loss": 0.83481407,
      "learning_rate": 2.44948886161922e-06,
      "loss": 0.85593283,
      "num_input_tokens_seen": 79735810,
      "step": 3701,
      "time_per_iteration": 2.560530185699463
    },
    {
      "auxiliary_loss_clip": 0.01093295,
      "auxiliary_loss_mlp": 0.01021369,
      "balance_loss_clip": 1.04094529,
      "balance_loss_mlp": 1.01592422,
      "epoch": 0.4451391811459148,
      "flos": 18263111973120.0,
      "grad_norm": 1.8790332966488394,
      "language_loss": 0.84722316,
      "learning_rate": 2.4487297837492524e-06,
      "loss": 0.86836982,
      "num_input_tokens_seen": 79754975,
      "step": 3702,
      "time_per_iteration": 2.5305635929107666
    },
    {
      "auxiliary_loss_clip": 0.01054896,
      "auxiliary_loss_mlp": 0.01021462,
      "balance_loss_clip": 1.03250194,
      "balance_loss_mlp": 1.01572835,
      "epoch": 0.44525942403655383,
      "flos": 16912060151040.0,
      "grad_norm": 1.9673382628390126,
      "language_loss": 0.62396598,
      "learning_rate": 2.4479706378073323e-06,
      "loss": 0.64472955,
      "num_input_tokens_seen": 79773515,
      "step": 3703,
      "time_per_iteration": 2.6390089988708496
    },
    {
      "auxiliary_loss_clip": 0.01071833,
      "auxiliary_loss_mlp": 0.01019617,
      "balance_loss_clip": 1.04000783,
      "balance_loss_mlp": 1.01416636,
      "epoch": 0.44537966692719294,
      "flos": 23261106061440.0,
      "grad_norm": 2.342559994399073,
      "language_loss": 0.83701265,
      "learning_rate": 2.447211423908623e-06,
      "loss": 0.85792714,
      "num_input_tokens_seen": 79793560,
      "step": 3704,
      "time_per_iteration": 2.622746467590332
    },
    {
      "auxiliary_loss_clip": 0.01093118,
      "auxiliary_loss_mlp": 0.0102279,
      "balance_loss_clip": 1.04078865,
      "balance_loss_mlp": 1.0173099,
      "epoch": 0.445499909817832,
      "flos": 21726215049600.0,
      "grad_norm": 2.0990241589625573,
      "language_loss": 0.74922335,
      "learning_rate": 2.4464521421682966e-06,
      "loss": 0.7703824,
      "num_input_tokens_seen": 79811150,
      "step": 3705,
      "time_per_iteration": 2.604435920715332
    },
    {
      "auxiliary_loss_clip": 0.01087451,
      "auxiliary_loss_mlp": 0.0101751,
      "balance_loss_clip": 1.04041195,
      "balance_loss_mlp": 1.01228845,
      "epoch": 0.4456201527084711,
      "flos": 23990244255360.0,
      "grad_norm": 1.4010319356749046,
      "language_loss": 0.8755877,
      "learning_rate": 2.4456927927015345e-06,
      "loss": 0.89663726,
      "num_input_tokens_seen": 79832190,
      "step": 3706,
      "time_per_iteration": 3.3571462631225586
    },
    {
      "auxiliary_loss_clip": 0.0107746,
      "auxiliary_loss_mlp": 0.01022796,
      "balance_loss_clip": 1.03891182,
      "balance_loss_mlp": 1.01630163,
      "epoch": 0.4457403955991102,
      "flos": 18809055584640.0,
      "grad_norm": 2.3941913109741577,
      "language_loss": 0.76460952,
      "learning_rate": 2.4449333756235307e-06,
      "loss": 0.78561211,
      "num_input_tokens_seen": 79848905,
      "step": 3707,
      "time_per_iteration": 2.5475831031799316
    },
    {
      "auxiliary_loss_clip": 0.01091785,
      "auxiliary_loss_mlp": 0.01021958,
      "balance_loss_clip": 1.04225147,
      "balance_loss_mlp": 1.01634645,
      "epoch": 0.4458606384897493,
      "flos": 19209732744960.0,
      "grad_norm": 2.487665411713036,
      "language_loss": 0.78846228,
      "learning_rate": 2.4441738910494876e-06,
      "loss": 0.80959976,
      "num_input_tokens_seen": 79863640,
      "step": 3708,
      "time_per_iteration": 3.310994863510132
    },
    {
      "auxiliary_loss_clip": 0.01083412,
      "auxiliary_loss_mlp": 0.0102492,
      "balance_loss_clip": 1.04049039,
      "balance_loss_mlp": 1.01926076,
      "epoch": 0.4459808813803884,
      "flos": 21363428102400.0,
      "grad_norm": 2.0822077975182696,
      "language_loss": 0.81868637,
      "learning_rate": 2.4434143390946176e-06,
      "loss": 0.83976972,
      "num_input_tokens_seen": 79882450,
      "step": 3709,
      "time_per_iteration": 2.5594871044158936
    },
    {
      "auxiliary_loss_clip": 0.01063443,
      "auxiliary_loss_mlp": 0.01019706,
      "balance_loss_clip": 1.03735447,
      "balance_loss_mlp": 1.01410019,
      "epoch": 0.4461011242710275,
      "flos": 23290881805440.0,
      "grad_norm": 2.210766083007642,
      "language_loss": 0.85236067,
      "learning_rate": 2.4426547198741457e-06,
      "loss": 0.87319219,
      "num_input_tokens_seen": 79900655,
      "step": 3710,
      "time_per_iteration": 3.523674249649048
    },
    {
      "auxiliary_loss_clip": 0.01042285,
      "auxiliary_loss_mlp": 0.01023014,
      "balance_loss_clip": 1.03173351,
      "balance_loss_mlp": 1.01743793,
      "epoch": 0.44622136716166655,
      "flos": 20195040009600.0,
      "grad_norm": 2.3089102763291267,
      "language_loss": 0.7469365,
      "learning_rate": 2.441895033503305e-06,
      "loss": 0.76758951,
      "num_input_tokens_seen": 79918575,
      "step": 3711,
      "time_per_iteration": 2.6538569927215576
    },
    {
      "auxiliary_loss_clip": 0.01088017,
      "auxiliary_loss_mlp": 0.01022392,
      "balance_loss_clip": 1.03927934,
      "balance_loss_mlp": 1.01625228,
      "epoch": 0.44634161005230566,
      "flos": 21284879656320.0,
      "grad_norm": 1.8330006627794804,
      "language_loss": 0.82139772,
      "learning_rate": 2.4411352800973375e-06,
      "loss": 0.84250182,
      "num_input_tokens_seen": 79937010,
      "step": 3712,
      "time_per_iteration": 3.347440242767334
    },
    {
      "auxiliary_loss_clip": 0.01066601,
      "auxiliary_loss_mlp": 0.01019547,
      "balance_loss_clip": 1.03751922,
      "balance_loss_mlp": 1.01338983,
      "epoch": 0.44646185294294477,
      "flos": 22931545403520.0,
      "grad_norm": 2.957357953038974,
      "language_loss": 0.75099969,
      "learning_rate": 2.4403754597715005e-06,
      "loss": 0.7718612,
      "num_input_tokens_seen": 79956455,
      "step": 3713,
      "time_per_iteration": 2.6563119888305664
    },
    {
      "auxiliary_loss_clip": 0.01081399,
      "auxiliary_loss_mlp": 0.0102509,
      "balance_loss_clip": 1.03884125,
      "balance_loss_mlp": 1.01850033,
      "epoch": 0.4465820958335838,
      "flos": 22639874958720.0,
      "grad_norm": 2.1380945373253524,
      "language_loss": 0.93301868,
      "learning_rate": 2.4396155726410553e-06,
      "loss": 0.95408356,
      "num_input_tokens_seen": 79975065,
      "step": 3714,
      "time_per_iteration": 2.5785865783691406
    },
    {
      "auxiliary_loss_clip": 0.01089099,
      "auxiliary_loss_mlp": 0.01020078,
      "balance_loss_clip": 1.03954363,
      "balance_loss_mlp": 1.01454997,
      "epoch": 0.44670233872422294,
      "flos": 22674617971200.0,
      "grad_norm": 2.3736761602064935,
      "language_loss": 0.90321916,
      "learning_rate": 2.438855618821278e-06,
      "loss": 0.92431092,
      "num_input_tokens_seen": 79990865,
      "step": 3715,
      "time_per_iteration": 2.6248652935028076
    },
    {
      "auxiliary_loss_clip": 0.01091171,
      "auxiliary_loss_mlp": 0.01022993,
      "balance_loss_clip": 1.03917611,
      "balance_loss_mlp": 1.01710987,
      "epoch": 0.44682258161486205,
      "flos": 23584182727680.0,
      "grad_norm": 1.6554988467339515,
      "language_loss": 0.67488652,
      "learning_rate": 2.4380955984274517e-06,
      "loss": 0.69602811,
      "num_input_tokens_seen": 80009520,
      "step": 3716,
      "time_per_iteration": 2.6349575519561768
    },
    {
      "auxiliary_loss_clip": 0.01094812,
      "auxiliary_loss_mlp": 0.01022319,
      "balance_loss_clip": 1.04144955,
      "balance_loss_mlp": 1.01680207,
      "epoch": 0.4469428245055011,
      "flos": 26503541441280.0,
      "grad_norm": 2.26329722119317,
      "language_loss": 0.76826143,
      "learning_rate": 2.4373355115748716e-06,
      "loss": 0.78943276,
      "num_input_tokens_seen": 80030350,
      "step": 3717,
      "time_per_iteration": 2.632185697555542
    },
    {
      "auxiliary_loss_clip": 0.01080086,
      "auxiliary_loss_mlp": 0.0102409,
      "balance_loss_clip": 1.04155791,
      "balance_loss_mlp": 1.0183084,
      "epoch": 0.4470630673961402,
      "flos": 21506950321920.0,
      "grad_norm": 1.7652138492537326,
      "language_loss": 0.723194,
      "learning_rate": 2.436575358378842e-06,
      "loss": 0.74423575,
      "num_input_tokens_seen": 80049840,
      "step": 3718,
      "time_per_iteration": 2.5769286155700684
    },
    {
      "auxiliary_loss_clip": 0.01081871,
      "auxiliary_loss_mlp": 0.01020141,
      "balance_loss_clip": 1.04141402,
      "balance_loss_mlp": 1.01375699,
      "epoch": 0.44718331028677927,
      "flos": 16175490013440.0,
      "grad_norm": 2.8995443040605244,
      "language_loss": 0.82754588,
      "learning_rate": 2.4358151389546782e-06,
      "loss": 0.848566,
      "num_input_tokens_seen": 80066525,
      "step": 3719,
      "time_per_iteration": 2.5924770832061768
    },
    {
      "auxiliary_loss_clip": 0.01104333,
      "auxiliary_loss_mlp": 0.01023601,
      "balance_loss_clip": 1.0416894,
      "balance_loss_mlp": 1.01795959,
      "epoch": 0.4473035531774184,
      "flos": 19683194803200.0,
      "grad_norm": 2.8038830953542013,
      "language_loss": 0.75860107,
      "learning_rate": 2.4350548534177035e-06,
      "loss": 0.77988034,
      "num_input_tokens_seen": 80083355,
      "step": 3720,
      "time_per_iteration": 2.4797778129577637
    },
    {
      "auxiliary_loss_clip": 0.01064125,
      "auxiliary_loss_mlp": 0.01022845,
      "balance_loss_clip": 1.03755796,
      "balance_loss_mlp": 1.01743913,
      "epoch": 0.4474237960680575,
      "flos": 41430805701120.0,
      "grad_norm": 1.6931436850389545,
      "language_loss": 0.67104799,
      "learning_rate": 2.434294501883254e-06,
      "loss": 0.69191766,
      "num_input_tokens_seen": 80106450,
      "step": 3721,
      "time_per_iteration": 2.8165171146392822
    },
    {
      "auxiliary_loss_clip": 0.0108496,
      "auxiliary_loss_mlp": 0.01019285,
      "balance_loss_clip": 1.04246294,
      "balance_loss_mlp": 1.01335704,
      "epoch": 0.44754403895869654,
      "flos": 22893427681920.0,
      "grad_norm": 1.7715268921016103,
      "language_loss": 0.65939814,
      "learning_rate": 2.433534084466674e-06,
      "loss": 0.68044055,
      "num_input_tokens_seen": 80125670,
      "step": 3722,
      "time_per_iteration": 2.560816764831543
    },
    {
      "auxiliary_loss_clip": 0.01102061,
      "auxiliary_loss_mlp": 0.0102128,
      "balance_loss_clip": 1.04101419,
      "balance_loss_mlp": 1.01575446,
      "epoch": 0.44766428184933565,
      "flos": 25632663177600.0,
      "grad_norm": 1.5655843445806803,
      "language_loss": 0.70834589,
      "learning_rate": 2.4327736012833178e-06,
      "loss": 0.72957921,
      "num_input_tokens_seen": 80147390,
      "step": 3723,
      "time_per_iteration": 2.575693130493164
    },
    {
      "auxiliary_loss_clip": 0.01090961,
      "auxiliary_loss_mlp": 0.01020883,
      "balance_loss_clip": 1.04013014,
      "balance_loss_mlp": 1.01505041,
      "epoch": 0.44778452473997477,
      "flos": 20451057408000.0,
      "grad_norm": 5.7172605023708645,
      "language_loss": 0.76450062,
      "learning_rate": 2.4320130524485506e-06,
      "loss": 0.78561908,
      "num_input_tokens_seen": 80166185,
      "step": 3724,
      "time_per_iteration": 2.5308890342712402
    },
    {
      "auxiliary_loss_clip": 0.01067714,
      "auxiliary_loss_mlp": 0.01018821,
      "balance_loss_clip": 1.03798437,
      "balance_loss_mlp": 1.01381397,
      "epoch": 0.4479047676306138,
      "flos": 21977303097600.0,
      "grad_norm": 2.484543603649762,
      "language_loss": 0.79705894,
      "learning_rate": 2.431252438077746e-06,
      "loss": 0.81792432,
      "num_input_tokens_seen": 80185685,
      "step": 3725,
      "time_per_iteration": 2.641317844390869
    },
    {
      "auxiliary_loss_clip": 0.01092443,
      "auxiliary_loss_mlp": 0.00756996,
      "balance_loss_clip": 1.04027081,
      "balance_loss_mlp": 1.00168133,
      "epoch": 0.44802501052125293,
      "flos": 21469173863040.0,
      "grad_norm": 3.191103514280054,
      "language_loss": 0.77262437,
      "learning_rate": 2.4304917582862906e-06,
      "loss": 0.79111874,
      "num_input_tokens_seen": 80204865,
      "step": 3726,
      "time_per_iteration": 2.5792369842529297
    },
    {
      "auxiliary_loss_clip": 0.01102913,
      "auxiliary_loss_mlp": 0.01019679,
      "balance_loss_clip": 1.0411644,
      "balance_loss_mlp": 1.01407313,
      "epoch": 0.44814525341189204,
      "flos": 22129129376640.0,
      "grad_norm": 3.4293287009733326,
      "language_loss": 0.87959743,
      "learning_rate": 2.4297310131895774e-06,
      "loss": 0.90082335,
      "num_input_tokens_seen": 80223410,
      "step": 3727,
      "time_per_iteration": 2.539461135864258
    },
    {
      "auxiliary_loss_clip": 0.01089332,
      "auxiliary_loss_mlp": 0.01022695,
      "balance_loss_clip": 1.03953636,
      "balance_loss_mlp": 1.01681757,
      "epoch": 0.4482654963025311,
      "flos": 16655777326080.0,
      "grad_norm": 2.2315595360485765,
      "language_loss": 0.74745071,
      "learning_rate": 2.4289702029030113e-06,
      "loss": 0.76857096,
      "num_input_tokens_seen": 80240880,
      "step": 3728,
      "time_per_iteration": 2.519576072692871
    },
    {
      "auxiliary_loss_clip": 0.01089582,
      "auxiliary_loss_mlp": 0.01020103,
      "balance_loss_clip": 1.04024816,
      "balance_loss_mlp": 1.01449752,
      "epoch": 0.4483857391931702,
      "flos": 18843116071680.0,
      "grad_norm": 2.041844013417374,
      "language_loss": 0.8293767,
      "learning_rate": 2.4282093275420057e-06,
      "loss": 0.85047352,
      "num_input_tokens_seen": 80259910,
      "step": 3729,
      "time_per_iteration": 2.5693883895874023
    },
    {
      "auxiliary_loss_clip": 0.01090168,
      "auxiliary_loss_mlp": 0.0102089,
      "balance_loss_clip": 1.04137683,
      "balance_loss_mlp": 1.01543653,
      "epoch": 0.4485059820838093,
      "flos": 20374480702080.0,
      "grad_norm": 2.4655418082669147,
      "language_loss": 0.71200407,
      "learning_rate": 2.4274483872219863e-06,
      "loss": 0.73311472,
      "num_input_tokens_seen": 80277270,
      "step": 3730,
      "time_per_iteration": 2.534140110015869
    },
    {
      "auxiliary_loss_clip": 0.01092294,
      "auxiliary_loss_mlp": 0.01021927,
      "balance_loss_clip": 1.04131341,
      "balance_loss_mlp": 1.01617193,
      "epoch": 0.4486262249744484,
      "flos": 20049811476480.0,
      "grad_norm": 1.8088632858013067,
      "language_loss": 0.93654466,
      "learning_rate": 2.426687382058386e-06,
      "loss": 0.9576869,
      "num_input_tokens_seen": 80295550,
      "step": 3731,
      "time_per_iteration": 3.3256912231445312
    },
    {
      "auxiliary_loss_clip": 0.01057837,
      "auxiliary_loss_mlp": 0.01005027,
      "balance_loss_clip": 1.03661418,
      "balance_loss_mlp": 1.0030365,
      "epoch": 0.4487464678650875,
      "flos": 64602205349760.0,
      "grad_norm": 0.8549386271948236,
      "language_loss": 0.59764576,
      "learning_rate": 2.425926312166649e-06,
      "loss": 0.61827445,
      "num_input_tokens_seen": 80348425,
      "step": 3732,
      "time_per_iteration": 3.0083401203155518
    },
    {
      "auxiliary_loss_clip": 0.0107694,
      "auxiliary_loss_mlp": 0.01017436,
      "balance_loss_clip": 1.03825855,
      "balance_loss_mlp": 1.01101947,
      "epoch": 0.4488667107557266,
      "flos": 20771479808640.0,
      "grad_norm": 3.051365467131483,
      "language_loss": 0.7339853,
      "learning_rate": 2.42516517766223e-06,
      "loss": 0.75492907,
      "num_input_tokens_seen": 80366505,
      "step": 3733,
      "time_per_iteration": 2.5685818195343018
    },
    {
      "auxiliary_loss_clip": 0.01104072,
      "auxiliary_loss_mlp": 0.01018859,
      "balance_loss_clip": 1.04224515,
      "balance_loss_mlp": 1.01352739,
      "epoch": 0.44898695364636565,
      "flos": 23954022437760.0,
      "grad_norm": 2.2793344590868814,
      "language_loss": 0.67818946,
      "learning_rate": 2.4244039786605907e-06,
      "loss": 0.69941878,
      "num_input_tokens_seen": 80387510,
      "step": 3734,
      "time_per_iteration": 3.2834911346435547
    },
    {
      "auxiliary_loss_clip": 0.01055234,
      "auxiliary_loss_mlp": 0.01020196,
      "balance_loss_clip": 1.03561509,
      "balance_loss_mlp": 1.014364,
      "epoch": 0.44910719653700476,
      "flos": 18626316019200.0,
      "grad_norm": 2.807490938612333,
      "language_loss": 0.8249532,
      "learning_rate": 2.4236427152772055e-06,
      "loss": 0.84570754,
      "num_input_tokens_seen": 80405915,
      "step": 3735,
      "time_per_iteration": 3.4147086143493652
    },
    {
      "auxiliary_loss_clip": 0.01029411,
      "auxiliary_loss_mlp": 0.01002634,
      "balance_loss_clip": 1.03069329,
      "balance_loss_mlp": 1.00049973,
      "epoch": 0.4492274394276438,
      "flos": 57038994172800.0,
      "grad_norm": 0.8570907047575015,
      "language_loss": 0.57337648,
      "learning_rate": 2.422881387627557e-06,
      "loss": 0.59369701,
      "num_input_tokens_seen": 80458365,
      "step": 3736,
      "time_per_iteration": 2.943678855895996
    },
    {
      "auxiliary_loss_clip": 0.01073507,
      "auxiliary_loss_mlp": 0.01017617,
      "balance_loss_clip": 1.03826952,
      "balance_loss_mlp": 1.01220226,
      "epoch": 0.4493476823182829,
      "flos": 23256935072640.0,
      "grad_norm": 1.643496523888084,
      "language_loss": 0.77397192,
      "learning_rate": 2.422119995827139e-06,
      "loss": 0.79488313,
      "num_input_tokens_seen": 80478490,
      "step": 3737,
      "time_per_iteration": 2.6251847743988037
    },
    {
      "auxiliary_loss_clip": 0.01089192,
      "auxiliary_loss_mlp": 0.01019198,
      "balance_loss_clip": 1.04121768,
      "balance_loss_mlp": 1.01358283,
      "epoch": 0.44946792520892204,
      "flos": 15816949891200.0,
      "grad_norm": 2.5280331666335316,
      "language_loss": 0.74230111,
      "learning_rate": 2.4213585399914528e-06,
      "loss": 0.763385,
      "num_input_tokens_seen": 80495695,
      "step": 3738,
      "time_per_iteration": 3.2687623500823975
    },
    {
      "auxiliary_loss_clip": 0.01091126,
      "auxiliary_loss_mlp": 0.01018745,
      "balance_loss_clip": 1.0405966,
      "balance_loss_mlp": 1.01344597,
      "epoch": 0.4495881680995611,
      "flos": 19612116218880.0,
      "grad_norm": 3.4177767666316803,
      "language_loss": 0.85307199,
      "learning_rate": 2.4205970202360113e-06,
      "loss": 0.87417072,
      "num_input_tokens_seen": 80515260,
      "step": 3739,
      "time_per_iteration": 2.5959439277648926
    },
    {
      "auxiliary_loss_clip": 0.01045874,
      "auxiliary_loss_mlp": 0.01017724,
      "balance_loss_clip": 1.03363013,
      "balance_loss_mlp": 1.01188588,
      "epoch": 0.4497084109902002,
      "flos": 26033871191040.0,
      "grad_norm": 2.102049398284445,
      "language_loss": 0.7821582,
      "learning_rate": 2.4198354366763354e-06,
      "loss": 0.80279416,
      "num_input_tokens_seen": 80533900,
      "step": 3740,
      "time_per_iteration": 2.6502203941345215
    },
    {
      "auxiliary_loss_clip": 0.01080623,
      "auxiliary_loss_mlp": 0.0101778,
      "balance_loss_clip": 1.0401423,
      "balance_loss_mlp": 1.01207888,
      "epoch": 0.4498286538808393,
      "flos": 14795458727040.0,
      "grad_norm": 2.3512459611922756,
      "language_loss": 0.78536922,
      "learning_rate": 2.4190737894279587e-06,
      "loss": 0.80635321,
      "num_input_tokens_seen": 80551270,
      "step": 3741,
      "time_per_iteration": 2.621675968170166
    },
    {
      "auxiliary_loss_clip": 0.01070671,
      "auxiliary_loss_mlp": 0.01021004,
      "balance_loss_clip": 1.03814077,
      "balance_loss_mlp": 1.01560402,
      "epoch": 0.44994889677147837,
      "flos": 15451963695360.0,
      "grad_norm": 2.7414333399246478,
      "language_loss": 0.80465651,
      "learning_rate": 2.4183120786064203e-06,
      "loss": 0.82557321,
      "num_input_tokens_seen": 80568145,
      "step": 3742,
      "time_per_iteration": 2.566847085952759
    },
    {
      "auxiliary_loss_clip": 0.01088276,
      "auxiliary_loss_mlp": 0.00756678,
      "balance_loss_clip": 1.03861594,
      "balance_loss_mlp": 1.00168502,
      "epoch": 0.4500691396621175,
      "flos": 21800440834560.0,
      "grad_norm": 3.128800588966597,
      "language_loss": 0.85293972,
      "learning_rate": 2.417550304327273e-06,
      "loss": 0.87138933,
      "num_input_tokens_seen": 80586185,
      "step": 3743,
      "time_per_iteration": 2.563033103942871
    },
    {
      "auxiliary_loss_clip": 0.01103838,
      "auxiliary_loss_mlp": 0.01022453,
      "balance_loss_clip": 1.04122555,
      "balance_loss_mlp": 1.01647472,
      "epoch": 0.4501893825527566,
      "flos": 32384888841600.0,
      "grad_norm": 1.6776622882457286,
      "language_loss": 0.75853777,
      "learning_rate": 2.4167884667060763e-06,
      "loss": 0.77980071,
      "num_input_tokens_seen": 80608895,
      "step": 3744,
      "time_per_iteration": 2.612614154815674
    },
    {
      "auxiliary_loss_clip": 0.01083979,
      "auxiliary_loss_mlp": 0.01022321,
      "balance_loss_clip": 1.03997362,
      "balance_loss_mlp": 1.01630056,
      "epoch": 0.45030962544339564,
      "flos": 16546808528640.0,
      "grad_norm": 2.4427151237339726,
      "language_loss": 0.87931973,
      "learning_rate": 2.4160265658584e-06,
      "loss": 0.90038276,
      "num_input_tokens_seen": 80623785,
      "step": 3745,
      "time_per_iteration": 2.570798873901367
    },
    {
      "auxiliary_loss_clip": 0.01092623,
      "auxiliary_loss_mlp": 0.01019904,
      "balance_loss_clip": 1.04126167,
      "balance_loss_mlp": 1.01419044,
      "epoch": 0.45042986833403476,
      "flos": 19575060203520.0,
      "grad_norm": 2.0080977043469774,
      "language_loss": 0.68190032,
      "learning_rate": 2.4152646018998253e-06,
      "loss": 0.70302558,
      "num_input_tokens_seen": 80642735,
      "step": 3746,
      "time_per_iteration": 2.5180792808532715
    },
    {
      "auxiliary_loss_clip": 0.01088453,
      "auxiliary_loss_mlp": 0.01022014,
      "balance_loss_clip": 1.03863251,
      "balance_loss_mlp": 1.01613736,
      "epoch": 0.45055011122467387,
      "flos": 23114702067840.0,
      "grad_norm": 1.9169065454355456,
      "language_loss": 0.7162807,
      "learning_rate": 2.4145025749459403e-06,
      "loss": 0.73738539,
      "num_input_tokens_seen": 80663760,
      "step": 3747,
      "time_per_iteration": 2.5832719802856445
    },
    {
      "auxiliary_loss_clip": 0.01018539,
      "auxiliary_loss_mlp": 0.0102167,
      "balance_loss_clip": 1.03282404,
      "balance_loss_mlp": 1.01564407,
      "epoch": 0.4506703541153129,
      "flos": 19936482099840.0,
      "grad_norm": 2.044532426241445,
      "language_loss": 0.70448917,
      "learning_rate": 2.413740485112344e-06,
      "loss": 0.72489125,
      "num_input_tokens_seen": 80682100,
      "step": 3748,
      "time_per_iteration": 2.812849521636963
    },
    {
      "auxiliary_loss_clip": 0.01068825,
      "auxiliary_loss_mlp": 0.01018916,
      "balance_loss_clip": 1.03756499,
      "balance_loss_mlp": 1.01346505,
      "epoch": 0.45079059700595203,
      "flos": 19501516944000.0,
      "grad_norm": 1.6756085410033574,
      "language_loss": 0.82069218,
      "learning_rate": 2.412978332514646e-06,
      "loss": 0.84156966,
      "num_input_tokens_seen": 80700880,
      "step": 3749,
      "time_per_iteration": 2.790499448776245
    },
    {
      "auxiliary_loss_clip": 0.01079247,
      "auxiliary_loss_mlp": 0.01020023,
      "balance_loss_clip": 1.0403924,
      "balance_loss_mlp": 1.01367533,
      "epoch": 0.4509108398965911,
      "flos": 27638779080960.0,
      "grad_norm": 9.668710501875513,
      "language_loss": 0.72101724,
      "learning_rate": 2.4122161172684623e-06,
      "loss": 0.74201,
      "num_input_tokens_seen": 80721675,
      "step": 3750,
      "time_per_iteration": 2.6658856868743896
    },
    {
      "auxiliary_loss_clip": 0.01072093,
      "auxiliary_loss_mlp": 0.01026527,
      "balance_loss_clip": 1.03670764,
      "balance_loss_mlp": 1.02074575,
      "epoch": 0.4510310827872302,
      "flos": 20997797299200.0,
      "grad_norm": 2.3718001632744534,
      "language_loss": 0.84226364,
      "learning_rate": 2.4114538394894216e-06,
      "loss": 0.8632499,
      "num_input_tokens_seen": 80739315,
      "step": 3751,
      "time_per_iteration": 2.554438591003418
    },
    {
      "auxiliary_loss_clip": 0.01081311,
      "auxiliary_loss_mlp": 0.01018982,
      "balance_loss_clip": 1.03893232,
      "balance_loss_mlp": 1.0136981,
      "epoch": 0.4511513256778693,
      "flos": 16218537085440.0,
      "grad_norm": 2.4132517527631485,
      "language_loss": 0.83043802,
      "learning_rate": 2.410691499293161e-06,
      "loss": 0.85144097,
      "num_input_tokens_seen": 80757470,
      "step": 3752,
      "time_per_iteration": 2.5920393466949463
    },
    {
      "auxiliary_loss_clip": 0.01088177,
      "auxiliary_loss_mlp": 0.01019182,
      "balance_loss_clip": 1.03871846,
      "balance_loss_mlp": 1.01352549,
      "epoch": 0.45127156856850836,
      "flos": 25188749354880.0,
      "grad_norm": 1.6677016491371957,
      "language_loss": 0.74293506,
      "learning_rate": 2.409929096795326e-06,
      "loss": 0.76400864,
      "num_input_tokens_seen": 80777840,
      "step": 3753,
      "time_per_iteration": 2.5923588275909424
    },
    {
      "auxiliary_loss_clip": 0.01092526,
      "auxiliary_loss_mlp": 0.01023541,
      "balance_loss_clip": 1.0400579,
      "balance_loss_mlp": 1.01740193,
      "epoch": 0.4513918114591475,
      "flos": 20414608081920.0,
      "grad_norm": 2.294084549206153,
      "language_loss": 0.78977025,
      "learning_rate": 2.409166632111573e-06,
      "loss": 0.81093097,
      "num_input_tokens_seen": 80795975,
      "step": 3754,
      "time_per_iteration": 2.595811367034912
    },
    {
      "auxiliary_loss_clip": 0.01094945,
      "auxiliary_loss_mlp": 0.01019057,
      "balance_loss_clip": 1.04085159,
      "balance_loss_mlp": 1.01318645,
      "epoch": 0.4515120543497866,
      "flos": 26650741714560.0,
      "grad_norm": 2.1640308657177645,
      "language_loss": 0.80146581,
      "learning_rate": 2.4084041053575674e-06,
      "loss": 0.82260585,
      "num_input_tokens_seen": 80815395,
      "step": 3755,
      "time_per_iteration": 2.5803279876708984
    },
    {
      "auxiliary_loss_clip": 0.01077327,
      "auxiliary_loss_mlp": 0.01021758,
      "balance_loss_clip": 1.04044843,
      "balance_loss_mlp": 1.01612818,
      "epoch": 0.45163229724042564,
      "flos": 20597195975040.0,
      "grad_norm": 1.9888138625003566,
      "language_loss": 0.7253834,
      "learning_rate": 2.4076415166489834e-06,
      "loss": 0.74637425,
      "num_input_tokens_seen": 80834805,
      "step": 3756,
      "time_per_iteration": 2.691410779953003
    },
    {
      "auxiliary_loss_clip": 0.01051759,
      "auxiliary_loss_mlp": 0.01022665,
      "balance_loss_clip": 1.03665972,
      "balance_loss_mlp": 1.01709461,
      "epoch": 0.45175254013106475,
      "flos": 21691130774400.0,
      "grad_norm": 1.57349089095897,
      "language_loss": 0.78998858,
      "learning_rate": 2.406878866101506e-06,
      "loss": 0.81073278,
      "num_input_tokens_seen": 80853770,
      "step": 3757,
      "time_per_iteration": 2.6183557510375977
    },
    {
      "auxiliary_loss_clip": 0.01103783,
      "auxiliary_loss_mlp": 0.01020686,
      "balance_loss_clip": 1.04224229,
      "balance_loss_mlp": 1.01499951,
      "epoch": 0.45187278302170386,
      "flos": 18880778776320.0,
      "grad_norm": 2.899585440554277,
      "language_loss": 0.78193855,
      "learning_rate": 2.4061161538308273e-06,
      "loss": 0.80318326,
      "num_input_tokens_seen": 80870615,
      "step": 3758,
      "time_per_iteration": 3.5034987926483154
    },
    {
      "auxiliary_loss_clip": 0.01090484,
      "auxiliary_loss_mlp": 0.01019246,
      "balance_loss_clip": 1.04002941,
      "balance_loss_mlp": 1.01359832,
      "epoch": 0.4519930259123429,
      "flos": 18584141063040.0,
      "grad_norm": 2.9196735393532878,
      "language_loss": 0.89219558,
      "learning_rate": 2.4053533799526523e-06,
      "loss": 0.91329288,
      "num_input_tokens_seen": 80886335,
      "step": 3759,
      "time_per_iteration": 2.5876214504241943
    },
    {
      "auxiliary_loss_clip": 0.01074771,
      "auxiliary_loss_mlp": 0.01023997,
      "balance_loss_clip": 1.03821182,
      "balance_loss_mlp": 1.01843858,
      "epoch": 0.452113268802982,
      "flos": 25194740411520.0,
      "grad_norm": 1.8870639912337093,
      "language_loss": 0.86393267,
      "learning_rate": 2.404590544582691e-06,
      "loss": 0.88492036,
      "num_input_tokens_seen": 80904570,
      "step": 3760,
      "time_per_iteration": 3.347177505493164
    },
    {
      "auxiliary_loss_clip": 0.0106359,
      "auxiliary_loss_mlp": 0.01021563,
      "balance_loss_clip": 1.04065275,
      "balance_loss_mlp": 1.01590693,
      "epoch": 0.45223351169362114,
      "flos": 39381718561920.0,
      "grad_norm": 1.785218676942216,
      "language_loss": 0.80778348,
      "learning_rate": 2.403827647836666e-06,
      "loss": 0.82863498,
      "num_input_tokens_seen": 80925125,
      "step": 3761,
      "time_per_iteration": 3.571319103240967
    },
    {
      "auxiliary_loss_clip": 0.01102573,
      "auxiliary_loss_mlp": 0.01020383,
      "balance_loss_clip": 1.03995705,
      "balance_loss_mlp": 1.01465774,
      "epoch": 0.4523537545842602,
      "flos": 21584437061760.0,
      "grad_norm": 2.061823946097223,
      "language_loss": 0.69677579,
      "learning_rate": 2.4030646898303075e-06,
      "loss": 0.7180053,
      "num_input_tokens_seen": 80946615,
      "step": 3762,
      "time_per_iteration": 2.5186455249786377
    },
    {
      "auxiliary_loss_clip": 0.01079594,
      "auxiliary_loss_mlp": 0.01025748,
      "balance_loss_clip": 1.0385673,
      "balance_loss_mlp": 1.02035391,
      "epoch": 0.4524739974748993,
      "flos": 28442067223680.0,
      "grad_norm": 2.1797119837092476,
      "language_loss": 0.82217503,
      "learning_rate": 2.4023016706793566e-06,
      "loss": 0.84322846,
      "num_input_tokens_seen": 80966410,
      "step": 3763,
      "time_per_iteration": 3.4497623443603516
    },
    {
      "auxiliary_loss_clip": 0.01040297,
      "auxiliary_loss_mlp": 0.01007061,
      "balance_loss_clip": 1.03567529,
      "balance_loss_mlp": 1.00459385,
      "epoch": 0.4525942403655384,
      "flos": 61562236988160.0,
      "grad_norm": 0.7696294366051253,
      "language_loss": 0.56848413,
      "learning_rate": 2.401538590499561e-06,
      "loss": 0.58895773,
      "num_input_tokens_seen": 81026865,
      "step": 3764,
      "time_per_iteration": 3.235727071762085
    },
    {
      "auxiliary_loss_clip": 0.01092848,
      "auxiliary_loss_mlp": 0.0075678,
      "balance_loss_clip": 1.0414809,
      "balance_loss_mlp": 1.00163269,
      "epoch": 0.45271448325617747,
      "flos": 27532464549120.0,
      "grad_norm": 1.8476925861369005,
      "language_loss": 0.72134238,
      "learning_rate": 2.400775449406682e-06,
      "loss": 0.7398386,
      "num_input_tokens_seen": 81050060,
      "step": 3765,
      "time_per_iteration": 2.630603790283203
    },
    {
      "auxiliary_loss_clip": 0.01092446,
      "auxiliary_loss_mlp": 0.01020083,
      "balance_loss_clip": 1.04085827,
      "balance_loss_mlp": 1.01477528,
      "epoch": 0.4528347261468166,
      "flos": 22454632800000.0,
      "grad_norm": 2.034493301812382,
      "language_loss": 0.73119116,
      "learning_rate": 2.400012247516485e-06,
      "loss": 0.75231647,
      "num_input_tokens_seen": 81070625,
      "step": 3766,
      "time_per_iteration": 2.6135149002075195
    },
    {
      "auxiliary_loss_clip": 0.01069662,
      "auxiliary_loss_mlp": 0.01019667,
      "balance_loss_clip": 1.04046845,
      "balance_loss_mlp": 1.01394737,
      "epoch": 0.45295496903745563,
      "flos": 21105893980800.0,
      "grad_norm": 1.9804915678530646,
      "language_loss": 0.90486854,
      "learning_rate": 2.3992489849447484e-06,
      "loss": 0.92576182,
      "num_input_tokens_seen": 81089080,
      "step": 3767,
      "time_per_iteration": 2.610564947128296
    },
    {
      "auxiliary_loss_clip": 0.01064792,
      "auxiliary_loss_mlp": 0.01020527,
      "balance_loss_clip": 1.0380913,
      "balance_loss_mlp": 1.0147779,
      "epoch": 0.45307521192809475,
      "flos": 23223367520640.0,
      "grad_norm": 1.6176540306886549,
      "language_loss": 0.791318,
      "learning_rate": 2.3984856618072584e-06,
      "loss": 0.81217122,
      "num_input_tokens_seen": 81109115,
      "step": 3768,
      "time_per_iteration": 2.6602890491485596
    },
    {
      "auxiliary_loss_clip": 0.01070089,
      "auxiliary_loss_mlp": 0.01022576,
      "balance_loss_clip": 1.0397203,
      "balance_loss_mlp": 1.01668358,
      "epoch": 0.45319545481873386,
      "flos": 15561918362880.0,
      "grad_norm": 2.6198417826756284,
      "language_loss": 0.74098587,
      "learning_rate": 2.3977222782198098e-06,
      "loss": 0.76191252,
      "num_input_tokens_seen": 81127750,
      "step": 3769,
      "time_per_iteration": 2.578181743621826
    },
    {
      "auxiliary_loss_clip": 0.01064747,
      "auxiliary_loss_mlp": 0.01023035,
      "balance_loss_clip": 1.04017568,
      "balance_loss_mlp": 1.0165267,
      "epoch": 0.4533156977093729,
      "flos": 21946920664320.0,
      "grad_norm": 2.134096778437969,
      "language_loss": 0.75506455,
      "learning_rate": 2.3969588342982077e-06,
      "loss": 0.77594239,
      "num_input_tokens_seen": 81147125,
      "step": 3770,
      "time_per_iteration": 2.639674663543701
    },
    {
      "auxiliary_loss_clip": 0.01090731,
      "auxiliary_loss_mlp": 0.01022507,
      "balance_loss_clip": 1.04202938,
      "balance_loss_mlp": 1.01689196,
      "epoch": 0.453435940600012,
      "flos": 24244403667840.0,
      "grad_norm": 1.7972895303831242,
      "language_loss": 0.7260915,
      "learning_rate": 2.396195330158267e-06,
      "loss": 0.74722385,
      "num_input_tokens_seen": 81167015,
      "step": 3771,
      "time_per_iteration": 2.5607903003692627
    },
    {
      "auxiliary_loss_clip": 0.01104981,
      "auxiliary_loss_mlp": 0.01020129,
      "balance_loss_clip": 1.04268527,
      "balance_loss_mlp": 1.01444316,
      "epoch": 0.45355618349065113,
      "flos": 23442594330240.0,
      "grad_norm": 2.1043985516630634,
      "language_loss": 0.7957747,
      "learning_rate": 2.3954317659158094e-06,
      "loss": 0.81702584,
      "num_input_tokens_seen": 81187350,
      "step": 3772,
      "time_per_iteration": 2.5686872005462646
    },
    {
      "auxiliary_loss_clip": 0.01072052,
      "auxiliary_loss_mlp": 0.01002342,
      "balance_loss_clip": 1.03899705,
      "balance_loss_mlp": 0.9999935,
      "epoch": 0.4536764263812902,
      "flos": 66910305415680.0,
      "grad_norm": 0.9033535485086933,
      "language_loss": 0.56948364,
      "learning_rate": 2.394668141686667e-06,
      "loss": 0.59022754,
      "num_input_tokens_seen": 81249315,
      "step": 3773,
      "time_per_iteration": 3.1664295196533203
    },
    {
      "auxiliary_loss_clip": 0.01093511,
      "auxiliary_loss_mlp": 0.01020271,
      "balance_loss_clip": 1.04190421,
      "balance_loss_mlp": 1.01497221,
      "epoch": 0.4537966692719293,
      "flos": 42742981440000.0,
      "grad_norm": 2.1285295772543376,
      "language_loss": 0.69850886,
      "learning_rate": 2.3939044575866813e-06,
      "loss": 0.71964669,
      "num_input_tokens_seen": 81272065,
      "step": 3774,
      "time_per_iteration": 2.75183367729187
    },
    {
      "auxiliary_loss_clip": 0.01082183,
      "auxiliary_loss_mlp": 0.00756462,
      "balance_loss_clip": 1.04082394,
      "balance_loss_mlp": 1.00152421,
      "epoch": 0.4539169121625684,
      "flos": 35552150484480.0,
      "grad_norm": 2.1058803516159044,
      "language_loss": 0.75446993,
      "learning_rate": 2.3931407137317024e-06,
      "loss": 0.77285635,
      "num_input_tokens_seen": 81292220,
      "step": 3775,
      "time_per_iteration": 2.696499824523926
    },
    {
      "auxiliary_loss_clip": 0.01070602,
      "auxiliary_loss_mlp": 0.01024516,
      "balance_loss_clip": 1.04035854,
      "balance_loss_mlp": 1.01860297,
      "epoch": 0.45403715505320746,
      "flos": 18516664696320.0,
      "grad_norm": 3.2055612560177598,
      "language_loss": 0.85178423,
      "learning_rate": 2.3923769102375907e-06,
      "loss": 0.87273538,
      "num_input_tokens_seen": 81311085,
      "step": 3776,
      "time_per_iteration": 2.5660736560821533
    },
    {
      "auxiliary_loss_clip": 0.01065089,
      "auxiliary_loss_mlp": 0.01029637,
      "balance_loss_clip": 1.03980589,
      "balance_loss_mlp": 1.02353621,
      "epoch": 0.4541573979438466,
      "flos": 25048146827520.0,
      "grad_norm": 2.133178817032798,
      "language_loss": 0.78721231,
      "learning_rate": 2.391613047220213e-06,
      "loss": 0.80815959,
      "num_input_tokens_seen": 81330985,
      "step": 3777,
      "time_per_iteration": 2.6527163982391357
    },
    {
      "auxiliary_loss_clip": 0.01054162,
      "auxiliary_loss_mlp": 0.01019651,
      "balance_loss_clip": 1.03903532,
      "balance_loss_mlp": 1.01421773,
      "epoch": 0.4542776408344857,
      "flos": 18334342229760.0,
      "grad_norm": 2.2849690972644154,
      "language_loss": 0.78931451,
      "learning_rate": 2.390849124795447e-06,
      "loss": 0.81005269,
      "num_input_tokens_seen": 81346985,
      "step": 3778,
      "time_per_iteration": 2.59333872795105
    },
    {
      "auxiliary_loss_clip": 0.01106471,
      "auxiliary_loss_mlp": 0.0102051,
      "balance_loss_clip": 1.04381418,
      "balance_loss_mlp": 1.01492178,
      "epoch": 0.45439788372512474,
      "flos": 20703093408000.0,
      "grad_norm": 8.8848942084326,
      "language_loss": 0.83911985,
      "learning_rate": 2.3900851430791804e-06,
      "loss": 0.86038971,
      "num_input_tokens_seen": 81365005,
      "step": 3779,
      "time_per_iteration": 2.5600643157958984
    },
    {
      "auxiliary_loss_clip": 0.01106169,
      "auxiliary_loss_mlp": 0.01022751,
      "balance_loss_clip": 1.04338121,
      "balance_loss_mlp": 1.01664162,
      "epoch": 0.45451812661576385,
      "flos": 22311603515520.0,
      "grad_norm": 2.3155533470711895,
      "language_loss": 0.84518313,
      "learning_rate": 2.389321102187307e-06,
      "loss": 0.86647236,
      "num_input_tokens_seen": 81383785,
      "step": 3780,
      "time_per_iteration": 2.4884192943573
    },
    {
      "auxiliary_loss_clip": 0.01077785,
      "auxiliary_loss_mlp": 0.00756868,
      "balance_loss_clip": 1.04004228,
      "balance_loss_mlp": 1.00163555,
      "epoch": 0.4546383695064029,
      "flos": 21765508231680.0,
      "grad_norm": 1.6109174686675223,
      "language_loss": 0.8134374,
      "learning_rate": 2.3885570022357326e-06,
      "loss": 0.83178389,
      "num_input_tokens_seen": 81402915,
      "step": 3781,
      "time_per_iteration": 2.611341953277588
    },
    {
      "auxiliary_loss_clip": 0.01045903,
      "auxiliary_loss_mlp": 0.01002518,
      "balance_loss_clip": 1.04371655,
      "balance_loss_mlp": 1.00016963,
      "epoch": 0.454758612397042,
      "flos": 64249921710720.0,
      "grad_norm": 0.8107966385252509,
      "language_loss": 0.60856813,
      "learning_rate": 2.38779284334037e-06,
      "loss": 0.62905234,
      "num_input_tokens_seen": 81467890,
      "step": 3782,
      "time_per_iteration": 3.2080187797546387
    },
    {
      "auxiliary_loss_clip": 0.01057638,
      "auxiliary_loss_mlp": 0.01022173,
      "balance_loss_clip": 1.03825057,
      "balance_loss_mlp": 1.01652563,
      "epoch": 0.4548788552876811,
      "flos": 27306412485120.0,
      "grad_norm": 2.1212895373742113,
      "language_loss": 0.7889809,
      "learning_rate": 2.387028625617141e-06,
      "loss": 0.80977899,
      "num_input_tokens_seen": 81487105,
      "step": 3783,
      "time_per_iteration": 3.4450149536132812
    },
    {
      "auxiliary_loss_clip": 0.01079907,
      "auxiliary_loss_mlp": 0.0101981,
      "balance_loss_clip": 1.04051828,
      "balance_loss_mlp": 1.01420426,
      "epoch": 0.4549990981783202,
      "flos": 22859367194880.0,
      "grad_norm": 1.7338715916764844,
      "language_loss": 0.84442705,
      "learning_rate": 2.3862643491819766e-06,
      "loss": 0.86542422,
      "num_input_tokens_seen": 81505670,
      "step": 3784,
      "time_per_iteration": 2.6048083305358887
    },
    {
      "auxiliary_loss_clip": 0.01094181,
      "auxiliary_loss_mlp": 0.0102119,
      "balance_loss_clip": 1.043118,
      "balance_loss_mlp": 1.01554537,
      "epoch": 0.4551193410689593,
      "flos": 23260840634880.0,
      "grad_norm": 2.054125550770547,
      "language_loss": 0.84620297,
      "learning_rate": 2.3855000141508186e-06,
      "loss": 0.86735666,
      "num_input_tokens_seen": 81525825,
      "step": 3785,
      "time_per_iteration": 2.553565263748169
    },
    {
      "auxiliary_loss_clip": 0.01078321,
      "auxiliary_loss_mlp": 0.01023449,
      "balance_loss_clip": 1.04456794,
      "balance_loss_mlp": 1.01746213,
      "epoch": 0.4552395839595984,
      "flos": 20779632195840.0,
      "grad_norm": 2.3203607933558614,
      "language_loss": 0.83914471,
      "learning_rate": 2.3847356206396143e-06,
      "loss": 0.86016238,
      "num_input_tokens_seen": 81543135,
      "step": 3786,
      "time_per_iteration": 3.3271594047546387
    },
    {
      "auxiliary_loss_clip": 0.01106838,
      "auxiliary_loss_mlp": 0.01019854,
      "balance_loss_clip": 1.04544568,
      "balance_loss_mlp": 1.01394391,
      "epoch": 0.45535982685023746,
      "flos": 23259703092480.0,
      "grad_norm": 1.5929939523272958,
      "language_loss": 0.78467762,
      "learning_rate": 2.3839711687643227e-06,
      "loss": 0.80594456,
      "num_input_tokens_seen": 81564360,
      "step": 3787,
      "time_per_iteration": 3.243882179260254
    },
    {
      "auxiliary_loss_clip": 0.01085714,
      "auxiliary_loss_mlp": 0.01023852,
      "balance_loss_clip": 1.03733945,
      "balance_loss_mlp": 1.01744115,
      "epoch": 0.45548006974087657,
      "flos": 19648148446080.0,
      "grad_norm": 2.8935388603723045,
      "language_loss": 0.74481452,
      "learning_rate": 2.38320665864091e-06,
      "loss": 0.76591015,
      "num_input_tokens_seen": 81583710,
      "step": 3788,
      "time_per_iteration": 2.5375304222106934
    },
    {
      "auxiliary_loss_clip": 0.01043055,
      "auxiliary_loss_mlp": 0.01022242,
      "balance_loss_clip": 1.03672123,
      "balance_loss_mlp": 1.01638317,
      "epoch": 0.4556003126315157,
      "flos": 20049849394560.0,
      "grad_norm": 1.7374370837091442,
      "language_loss": 0.82174063,
      "learning_rate": 2.3824420903853516e-06,
      "loss": 0.84239364,
      "num_input_tokens_seen": 81602175,
      "step": 3789,
      "time_per_iteration": 3.4829602241516113
    },
    {
      "auxiliary_loss_clip": 0.01094424,
      "auxiliary_loss_mlp": 0.01020145,
      "balance_loss_clip": 1.04549325,
      "balance_loss_mlp": 1.01439595,
      "epoch": 0.45572055552215474,
      "flos": 22961586574080.0,
      "grad_norm": 2.148819598244991,
      "language_loss": 0.812841,
      "learning_rate": 2.3816774641136324e-06,
      "loss": 0.8339867,
      "num_input_tokens_seen": 81619430,
      "step": 3790,
      "time_per_iteration": 2.5478603839874268
    },
    {
      "auxiliary_loss_clip": 0.01091954,
      "auxiliary_loss_mlp": 0.00756851,
      "balance_loss_clip": 1.04129314,
      "balance_loss_mlp": 1.00166559,
      "epoch": 0.45584079841279385,
      "flos": 33112737820800.0,
      "grad_norm": 1.864778870001206,
      "language_loss": 0.71377683,
      "learning_rate": 2.380912779941745e-06,
      "loss": 0.73226488,
      "num_input_tokens_seen": 81642550,
      "step": 3791,
      "time_per_iteration": 2.7067270278930664
    },
    {
      "auxiliary_loss_clip": 0.01097075,
      "auxiliary_loss_mlp": 0.01024604,
      "balance_loss_clip": 1.04304504,
      "balance_loss_mlp": 1.01799083,
      "epoch": 0.45596104130343296,
      "flos": 27274665000960.0,
      "grad_norm": 2.1648545603652427,
      "language_loss": 0.83110565,
      "learning_rate": 2.3801480379856918e-06,
      "loss": 0.85232246,
      "num_input_tokens_seen": 81664260,
      "step": 3792,
      "time_per_iteration": 2.6055498123168945
    },
    {
      "auxiliary_loss_clip": 0.01080828,
      "auxiliary_loss_mlp": 0.0102731,
      "balance_loss_clip": 1.04169345,
      "balance_loss_mlp": 1.02174234,
      "epoch": 0.456081284194072,
      "flos": 21581934468480.0,
      "grad_norm": 1.679159280803519,
      "language_loss": 0.83585215,
      "learning_rate": 2.379383238361484e-06,
      "loss": 0.85693359,
      "num_input_tokens_seen": 81683620,
      "step": 3793,
      "time_per_iteration": 2.669135093688965
    },
    {
      "auxiliary_loss_clip": 0.01091784,
      "auxiliary_loss_mlp": 0.01022346,
      "balance_loss_clip": 1.04148161,
      "balance_loss_mlp": 1.01638293,
      "epoch": 0.4562015270847111,
      "flos": 35921762686080.0,
      "grad_norm": 2.4758468038075705,
      "language_loss": 0.7961669,
      "learning_rate": 2.3786183811851407e-06,
      "loss": 0.81730819,
      "num_input_tokens_seen": 81704325,
      "step": 3794,
      "time_per_iteration": 2.661508321762085
    },
    {
      "auxiliary_loss_clip": 0.01106854,
      "auxiliary_loss_mlp": 0.01023088,
      "balance_loss_clip": 1.04506385,
      "balance_loss_mlp": 1.01763391,
      "epoch": 0.45632176997535023,
      "flos": 13591493424000.0,
      "grad_norm": 2.0043089417803728,
      "language_loss": 0.80432492,
      "learning_rate": 2.3778534665726892e-06,
      "loss": 0.82562429,
      "num_input_tokens_seen": 81721155,
      "step": 3795,
      "time_per_iteration": 2.512634038925171
    },
    {
      "auxiliary_loss_clip": 0.01095473,
      "auxiliary_loss_mlp": 0.01023286,
      "balance_loss_clip": 1.04425049,
      "balance_loss_mlp": 1.01788032,
      "epoch": 0.4564420128659893,
      "flos": 32638176138240.0,
      "grad_norm": 2.8530158594048163,
      "language_loss": 0.72808206,
      "learning_rate": 2.377088494640168e-06,
      "loss": 0.74926972,
      "num_input_tokens_seen": 81742905,
      "step": 3796,
      "time_per_iteration": 2.6263489723205566
    },
    {
      "auxiliary_loss_clip": 0.01081312,
      "auxiliary_loss_mlp": 0.01019352,
      "balance_loss_clip": 1.0367794,
      "balance_loss_mlp": 1.01385379,
      "epoch": 0.4565622557566284,
      "flos": 20379865069440.0,
      "grad_norm": 2.045832106633771,
      "language_loss": 0.78415263,
      "learning_rate": 2.3763234655036216e-06,
      "loss": 0.80515933,
      "num_input_tokens_seen": 81762105,
      "step": 3797,
      "time_per_iteration": 2.5699002742767334
    },
    {
      "auxiliary_loss_clip": 0.01074135,
      "auxiliary_loss_mlp": 0.01025412,
      "balance_loss_clip": 1.04034722,
      "balance_loss_mlp": 1.01994312,
      "epoch": 0.45668249864726745,
      "flos": 25376721615360.0,
      "grad_norm": 2.1377161665848865,
      "language_loss": 0.87166846,
      "learning_rate": 2.3755583792791046e-06,
      "loss": 0.89266396,
      "num_input_tokens_seen": 81781975,
      "step": 3798,
      "time_per_iteration": 2.618574857711792
    },
    {
      "auxiliary_loss_clip": 0.01093307,
      "auxiliary_loss_mlp": 0.01020581,
      "balance_loss_clip": 1.04325271,
      "balance_loss_mlp": 1.01507962,
      "epoch": 0.45680274153790656,
      "flos": 15561615018240.0,
      "grad_norm": 2.5112949027547473,
      "language_loss": 0.74529302,
      "learning_rate": 2.3747932360826803e-06,
      "loss": 0.76643187,
      "num_input_tokens_seen": 81798905,
      "step": 3799,
      "time_per_iteration": 2.5471880435943604
    },
    {
      "auxiliary_loss_clip": 0.01086103,
      "auxiliary_loss_mlp": 0.01019835,
      "balance_loss_clip": 1.037714,
      "balance_loss_mlp": 1.01385105,
      "epoch": 0.4569229844285457,
      "flos": 19794969538560.0,
      "grad_norm": 2.562889752737271,
      "language_loss": 0.82329774,
      "learning_rate": 2.3740280360304205e-06,
      "loss": 0.84435713,
      "num_input_tokens_seen": 81816630,
      "step": 3800,
      "time_per_iteration": 2.5149710178375244
    },
    {
      "auxiliary_loss_clip": 0.01064296,
      "auxiliary_loss_mlp": 0.0102133,
      "balance_loss_clip": 1.03811026,
      "balance_loss_mlp": 1.01509821,
      "epoch": 0.45704322731918473,
      "flos": 24096027934080.0,
      "grad_norm": 1.7157208644475088,
      "language_loss": 0.68107438,
      "learning_rate": 2.3732627792384038e-06,
      "loss": 0.70193064,
      "num_input_tokens_seen": 81837700,
      "step": 3801,
      "time_per_iteration": 2.636671304702759
    },
    {
      "auxiliary_loss_clip": 0.01105132,
      "auxiliary_loss_mlp": 0.01021482,
      "balance_loss_clip": 1.04284906,
      "balance_loss_mlp": 1.01592135,
      "epoch": 0.45716347020982384,
      "flos": 31320274769280.0,
      "grad_norm": 2.1019061417556237,
      "language_loss": 0.75465024,
      "learning_rate": 2.3724974658227207e-06,
      "loss": 0.77591634,
      "num_input_tokens_seen": 81858490,
      "step": 3802,
      "time_per_iteration": 2.5746166706085205
    },
    {
      "auxiliary_loss_clip": 0.01078715,
      "auxiliary_loss_mlp": 0.00756744,
      "balance_loss_clip": 1.04187906,
      "balance_loss_mlp": 1.00169098,
      "epoch": 0.45728371310046295,
      "flos": 26503579359360.0,
      "grad_norm": 2.060262157202706,
      "language_loss": 0.70931315,
      "learning_rate": 2.3717320958994687e-06,
      "loss": 0.72766775,
      "num_input_tokens_seen": 81876050,
      "step": 3803,
      "time_per_iteration": 2.6202759742736816
    },
    {
      "auxiliary_loss_clip": 0.01075213,
      "auxiliary_loss_mlp": 0.01019723,
      "balance_loss_clip": 1.04161918,
      "balance_loss_mlp": 1.01428068,
      "epoch": 0.457403955991102,
      "flos": 17931238312320.0,
      "grad_norm": 2.018272508536614,
      "language_loss": 0.70552474,
      "learning_rate": 2.3709666695847534e-06,
      "loss": 0.72647411,
      "num_input_tokens_seen": 81894230,
      "step": 3804,
      "time_per_iteration": 2.57399845123291
    },
    {
      "auxiliary_loss_clip": 0.01058854,
      "auxiliary_loss_mlp": 0.01021061,
      "balance_loss_clip": 1.04052615,
      "balance_loss_mlp": 1.01568484,
      "epoch": 0.4575241988817411,
      "flos": 42233942171520.0,
      "grad_norm": 1.934118679393943,
      "language_loss": 0.70453584,
      "learning_rate": 2.370201186994689e-06,
      "loss": 0.725335,
      "num_input_tokens_seen": 81917915,
      "step": 3805,
      "time_per_iteration": 2.8436245918273926
    },
    {
      "auxiliary_loss_clip": 0.01083285,
      "auxiliary_loss_mlp": 0.01021216,
      "balance_loss_clip": 1.0438118,
      "balance_loss_mlp": 1.01559234,
      "epoch": 0.45764444177238023,
      "flos": 30119911683840.0,
      "grad_norm": 2.3597613492179725,
      "language_loss": 0.69641274,
      "learning_rate": 2.369435648245399e-06,
      "loss": 0.71745777,
      "num_input_tokens_seen": 81938130,
      "step": 3806,
      "time_per_iteration": 2.704066276550293
    },
    {
      "auxiliary_loss_clip": 0.01084469,
      "auxiliary_loss_mlp": 0.01027167,
      "balance_loss_clip": 1.04459977,
      "balance_loss_mlp": 1.02118266,
      "epoch": 0.4577646846630193,
      "flos": 24062536218240.0,
      "grad_norm": 2.5514967143924885,
      "language_loss": 0.85156935,
      "learning_rate": 2.368670053453015e-06,
      "loss": 0.87268573,
      "num_input_tokens_seen": 81959820,
      "step": 3807,
      "time_per_iteration": 2.620029926300049
    },
    {
      "auxiliary_loss_clip": 0.01098156,
      "auxiliary_loss_mlp": 0.01023458,
      "balance_loss_clip": 1.04529548,
      "balance_loss_mlp": 1.01714873,
      "epoch": 0.4578849275536584,
      "flos": 17420378976000.0,
      "grad_norm": 2.4024250186927896,
      "language_loss": 0.74065363,
      "learning_rate": 2.3679044027336757e-06,
      "loss": 0.76186979,
      "num_input_tokens_seen": 81975710,
      "step": 3808,
      "time_per_iteration": 2.5311551094055176
    },
    {
      "auxiliary_loss_clip": 0.01107481,
      "auxiliary_loss_mlp": 0.01020515,
      "balance_loss_clip": 1.04472804,
      "balance_loss_mlp": 1.01422417,
      "epoch": 0.4580051704442975,
      "flos": 13511504090880.0,
      "grad_norm": 2.778600675459704,
      "language_loss": 0.69317853,
      "learning_rate": 2.3671386962035326e-06,
      "loss": 0.71445847,
      "num_input_tokens_seen": 81993180,
      "step": 3809,
      "time_per_iteration": 3.533052921295166
    },
    {
      "auxiliary_loss_clip": 0.01094637,
      "auxiliary_loss_mlp": 0.01023721,
      "balance_loss_clip": 1.0431236,
      "balance_loss_mlp": 1.01777291,
      "epoch": 0.45812541333493656,
      "flos": 18039372912000.0,
      "grad_norm": 2.030632518379304,
      "language_loss": 0.68620932,
      "learning_rate": 2.3663729339787405e-06,
      "loss": 0.70739293,
      "num_input_tokens_seen": 82010115,
      "step": 3810,
      "time_per_iteration": 2.5766046047210693
    },
    {
      "auxiliary_loss_clip": 0.01106872,
      "auxiliary_loss_mlp": 0.01021385,
      "balance_loss_clip": 1.04532874,
      "balance_loss_mlp": 1.01532066,
      "epoch": 0.45824565622557567,
      "flos": 20223829883520.0,
      "grad_norm": 4.625577143131719,
      "language_loss": 0.73937732,
      "learning_rate": 2.365607116175466e-06,
      "loss": 0.76065993,
      "num_input_tokens_seen": 82025540,
      "step": 3811,
      "time_per_iteration": 2.466942071914673
    },
    {
      "auxiliary_loss_clip": 0.01107197,
      "auxiliary_loss_mlp": 0.01019243,
      "balance_loss_clip": 1.0454042,
      "balance_loss_mlp": 1.0133605,
      "epoch": 0.4583658991162148,
      "flos": 19866920238720.0,
      "grad_norm": 3.4576674489650245,
      "language_loss": 0.66983151,
      "learning_rate": 2.3648412429098825e-06,
      "loss": 0.69109589,
      "num_input_tokens_seen": 82043890,
      "step": 3812,
      "time_per_iteration": 3.3541479110717773
    },
    {
      "auxiliary_loss_clip": 0.01062997,
      "auxiliary_loss_mlp": 0.01026538,
      "balance_loss_clip": 1.03591132,
      "balance_loss_mlp": 1.02021086,
      "epoch": 0.45848614200685384,
      "flos": 21031895704320.0,
      "grad_norm": 2.0461747346354304,
      "language_loss": 0.81969333,
      "learning_rate": 2.364075314298172e-06,
      "loss": 0.84058869,
      "num_input_tokens_seen": 82061345,
      "step": 3813,
      "time_per_iteration": 3.3420801162719727
    },
    {
      "auxiliary_loss_clip": 0.01098638,
      "auxiliary_loss_mlp": 0.00756894,
      "balance_loss_clip": 1.04637313,
      "balance_loss_mlp": 1.00164938,
      "epoch": 0.45860638489749295,
      "flos": 21071416394880.0,
      "grad_norm": 1.9384027706139415,
      "language_loss": 0.70461297,
      "learning_rate": 2.3633093304565267e-06,
      "loss": 0.72316831,
      "num_input_tokens_seen": 82080400,
      "step": 3814,
      "time_per_iteration": 2.5365517139434814
    },
    {
      "auxiliary_loss_clip": 0.01111492,
      "auxiliary_loss_mlp": 0.01024231,
      "balance_loss_clip": 1.0477736,
      "balance_loss_mlp": 1.0183177,
      "epoch": 0.458726627788132,
      "flos": 26836325136000.0,
      "grad_norm": 2.3899642899865805,
      "language_loss": 0.62926775,
      "learning_rate": 2.3625432915011443e-06,
      "loss": 0.65062499,
      "num_input_tokens_seen": 82102310,
      "step": 3815,
      "time_per_iteration": 3.3401002883911133
    },
    {
      "auxiliary_loss_clip": 0.01083063,
      "auxiliary_loss_mlp": 0.01022724,
      "balance_loss_clip": 1.04270005,
      "balance_loss_mlp": 1.01667964,
      "epoch": 0.4588468706787711,
      "flos": 24100236840960.0,
      "grad_norm": 2.2053330039446184,
      "language_loss": 0.65409207,
      "learning_rate": 2.3617771975482334e-06,
      "loss": 0.67514992,
      "num_input_tokens_seen": 82121140,
      "step": 3816,
      "time_per_iteration": 2.5657944679260254
    },
    {
      "auxiliary_loss_clip": 0.01057405,
      "auxiliary_loss_mlp": 0.01018671,
      "balance_loss_clip": 1.04026067,
      "balance_loss_mlp": 1.01357436,
      "epoch": 0.4589671135694102,
      "flos": 17890959260160.0,
      "grad_norm": 2.0602548622695123,
      "language_loss": 0.74658144,
      "learning_rate": 2.3610110487140083e-06,
      "loss": 0.76734215,
      "num_input_tokens_seen": 82139575,
      "step": 3817,
      "time_per_iteration": 2.6373345851898193
    },
    {
      "auxiliary_loss_clip": 0.01079379,
      "auxiliary_loss_mlp": 0.01021959,
      "balance_loss_clip": 1.04550934,
      "balance_loss_mlp": 1.01587892,
      "epoch": 0.4590873564600493,
      "flos": 25629174714240.0,
      "grad_norm": 3.103432807915972,
      "language_loss": 0.80976629,
      "learning_rate": 2.360244845114695e-06,
      "loss": 0.83077967,
      "num_input_tokens_seen": 82159195,
      "step": 3818,
      "time_per_iteration": 2.626920700073242
    },
    {
      "auxiliary_loss_clip": 0.01073857,
      "auxiliary_loss_mlp": 0.01021095,
      "balance_loss_clip": 1.04264951,
      "balance_loss_mlp": 1.01513171,
      "epoch": 0.4592075993506884,
      "flos": 18516740532480.0,
      "grad_norm": 2.2634876406875923,
      "language_loss": 0.68514723,
      "learning_rate": 2.3594785868665245e-06,
      "loss": 0.70609677,
      "num_input_tokens_seen": 82175500,
      "step": 3819,
      "time_per_iteration": 2.571211099624634
    },
    {
      "auxiliary_loss_clip": 0.01069626,
      "auxiliary_loss_mlp": 0.00756983,
      "balance_loss_clip": 1.04027736,
      "balance_loss_mlp": 1.00168765,
      "epoch": 0.4593278422413275,
      "flos": 20633190284160.0,
      "grad_norm": 5.730988560683949,
      "language_loss": 0.80845904,
      "learning_rate": 2.3587122740857386e-06,
      "loss": 0.82672513,
      "num_input_tokens_seen": 82192600,
      "step": 3820,
      "time_per_iteration": 2.6098873615264893
    },
    {
      "auxiliary_loss_clip": 0.01092941,
      "auxiliary_loss_mlp": 0.01021655,
      "balance_loss_clip": 1.04249001,
      "balance_loss_mlp": 1.01638305,
      "epoch": 0.45944808513196655,
      "flos": 21360508410240.0,
      "grad_norm": 1.642145700421121,
      "language_loss": 0.78299767,
      "learning_rate": 2.357945906888586e-06,
      "loss": 0.80414361,
      "num_input_tokens_seen": 82212040,
      "step": 3821,
      "time_per_iteration": 2.612182378768921
    },
    {
      "auxiliary_loss_clip": 0.01093988,
      "auxiliary_loss_mlp": 0.01025758,
      "balance_loss_clip": 1.04283583,
      "balance_loss_mlp": 1.01941311,
      "epoch": 0.45956832802260567,
      "flos": 21429577336320.0,
      "grad_norm": 2.3260177942596543,
      "language_loss": 0.7985121,
      "learning_rate": 2.357179485391324e-06,
      "loss": 0.8197096,
      "num_input_tokens_seen": 82229895,
      "step": 3822,
      "time_per_iteration": 2.5454535484313965
    },
    {
      "auxiliary_loss_clip": 0.01107812,
      "auxiliary_loss_mlp": 0.01018241,
      "balance_loss_clip": 1.04634809,
      "balance_loss_mlp": 1.01275158,
      "epoch": 0.4596885709132448,
      "flos": 22384843430400.0,
      "grad_norm": 4.186918707217908,
      "language_loss": 0.8684929,
      "learning_rate": 2.3564130097102173e-06,
      "loss": 0.88975346,
      "num_input_tokens_seen": 82249550,
      "step": 3823,
      "time_per_iteration": 2.5528388023376465
    },
    {
      "auxiliary_loss_clip": 0.01083055,
      "auxiliary_loss_mlp": 0.01019594,
      "balance_loss_clip": 1.04895997,
      "balance_loss_mlp": 1.01373768,
      "epoch": 0.45980881380388383,
      "flos": 28984256945280.0,
      "grad_norm": 1.7268749660992413,
      "language_loss": 0.75097251,
      "learning_rate": 2.355646479961541e-06,
      "loss": 0.771999,
      "num_input_tokens_seen": 82268860,
      "step": 3824,
      "time_per_iteration": 2.6127448081970215
    },
    {
      "auxiliary_loss_clip": 0.011064,
      "auxiliary_loss_mlp": 0.01018181,
      "balance_loss_clip": 1.04449868,
      "balance_loss_mlp": 1.01190805,
      "epoch": 0.45992905669452294,
      "flos": 33399137652480.0,
      "grad_norm": 3.062819640943887,
      "language_loss": 0.71700835,
      "learning_rate": 2.354879896261576e-06,
      "loss": 0.73825419,
      "num_input_tokens_seen": 82289070,
      "step": 3825,
      "time_per_iteration": 2.6346564292907715
    },
    {
      "auxiliary_loss_clip": 0.01063904,
      "auxiliary_loss_mlp": 0.01022756,
      "balance_loss_clip": 1.03961551,
      "balance_loss_mlp": 1.01727581,
      "epoch": 0.46004929958516205,
      "flos": 36321036877440.0,
      "grad_norm": 1.9017089063522772,
      "language_loss": 0.56793588,
      "learning_rate": 2.3541132587266133e-06,
      "loss": 0.58880246,
      "num_input_tokens_seen": 82311790,
      "step": 3826,
      "time_per_iteration": 2.761756181716919
    },
    {
      "auxiliary_loss_clip": 0.01072046,
      "auxiliary_loss_mlp": 0.01019279,
      "balance_loss_clip": 1.04224277,
      "balance_loss_mlp": 1.01355982,
      "epoch": 0.4601695424758011,
      "flos": 17240369512320.0,
      "grad_norm": 1.8566723228974633,
      "language_loss": 0.69271839,
      "learning_rate": 2.3533465674729515e-06,
      "loss": 0.71363163,
      "num_input_tokens_seen": 82329020,
      "step": 3827,
      "time_per_iteration": 2.5959386825561523
    },
    {
      "auxiliary_loss_clip": 0.01108706,
      "auxiliary_loss_mlp": 0.01025037,
      "balance_loss_clip": 1.04632378,
      "balance_loss_mlp": 1.01879668,
      "epoch": 0.4602897853664402,
      "flos": 15890265642240.0,
      "grad_norm": 2.327074771777905,
      "language_loss": 0.72574413,
      "learning_rate": 2.352579822616895e-06,
      "loss": 0.74708152,
      "num_input_tokens_seen": 82346455,
      "step": 3828,
      "time_per_iteration": 2.537736415863037
    },
    {
      "auxiliary_loss_clip": 0.01081107,
      "auxiliary_loss_mlp": 0.01021099,
      "balance_loss_clip": 1.04335332,
      "balance_loss_mlp": 1.0153923,
      "epoch": 0.4604100282570793,
      "flos": 25415066845440.0,
      "grad_norm": 2.210759792246462,
      "language_loss": 0.77745342,
      "learning_rate": 2.351813024274761e-06,
      "loss": 0.7984755,
      "num_input_tokens_seen": 82367810,
      "step": 3829,
      "time_per_iteration": 2.600695848464966
    },
    {
      "auxiliary_loss_clip": 0.01074913,
      "auxiliary_loss_mlp": 0.01024335,
      "balance_loss_clip": 1.04595351,
      "balance_loss_mlp": 1.01869011,
      "epoch": 0.4605302711477184,
      "flos": 27632863860480.0,
      "grad_norm": 1.8497707725869217,
      "language_loss": 0.73631942,
      "learning_rate": 2.3510461725628693e-06,
      "loss": 0.75731182,
      "num_input_tokens_seen": 82388275,
      "step": 3830,
      "time_per_iteration": 2.693389892578125
    },
    {
      "auxiliary_loss_clip": 0.0107216,
      "auxiliary_loss_mlp": 0.010215,
      "balance_loss_clip": 1.04423857,
      "balance_loss_mlp": 1.01551008,
      "epoch": 0.4606505140383575,
      "flos": 23841792685440.0,
      "grad_norm": 4.455311930270885,
      "language_loss": 0.70835268,
      "learning_rate": 2.350279267597554e-06,
      "loss": 0.72928935,
      "num_input_tokens_seen": 82408915,
      "step": 3831,
      "time_per_iteration": 2.635688304901123
    },
    {
      "auxiliary_loss_clip": 0.01093501,
      "auxiliary_loss_mlp": 0.0102464,
      "balance_loss_clip": 1.0440228,
      "balance_loss_mlp": 1.01859581,
      "epoch": 0.46077075692899655,
      "flos": 16108847844480.0,
      "grad_norm": 2.986337042707476,
      "language_loss": 0.83070517,
      "learning_rate": 2.3495123094951515e-06,
      "loss": 0.85188657,
      "num_input_tokens_seen": 82427260,
      "step": 3832,
      "time_per_iteration": 2.594757556915283
    },
    {
      "auxiliary_loss_clip": 0.01084381,
      "auxiliary_loss_mlp": 0.01017419,
      "balance_loss_clip": 1.04523849,
      "balance_loss_mlp": 1.01149464,
      "epoch": 0.46089099981963566,
      "flos": 48801797792640.0,
      "grad_norm": 4.78459348912751,
      "language_loss": 0.76062745,
      "learning_rate": 2.34874529837201e-06,
      "loss": 0.78164548,
      "num_input_tokens_seen": 82450805,
      "step": 3833,
      "time_per_iteration": 2.800377607345581
    },
    {
      "auxiliary_loss_clip": 0.0104694,
      "auxiliary_loss_mlp": 0.01018656,
      "balance_loss_clip": 1.03968775,
      "balance_loss_mlp": 1.01322019,
      "epoch": 0.46101124271027477,
      "flos": 19101256882560.0,
      "grad_norm": 1.9447585302822594,
      "language_loss": 0.79179472,
      "learning_rate": 2.347978234344483e-06,
      "loss": 0.81245065,
      "num_input_tokens_seen": 82467010,
      "step": 3834,
      "time_per_iteration": 2.801358938217163
    },
    {
      "auxiliary_loss_clip": 0.01097134,
      "auxiliary_loss_mlp": 0.01026851,
      "balance_loss_clip": 1.04580784,
      "balance_loss_mlp": 1.02065825,
      "epoch": 0.4611314856009138,
      "flos": 39351032784000.0,
      "grad_norm": 2.100011422835114,
      "language_loss": 0.69361818,
      "learning_rate": 2.347211117528935e-06,
      "loss": 0.71485806,
      "num_input_tokens_seen": 82489310,
      "step": 3835,
      "time_per_iteration": 3.574294328689575
    },
    {
      "auxiliary_loss_clip": 0.01075456,
      "auxiliary_loss_mlp": 0.01023927,
      "balance_loss_clip": 1.0449543,
      "balance_loss_mlp": 1.01769841,
      "epoch": 0.46125172849155294,
      "flos": 20812706812800.0,
      "grad_norm": 1.657124467557555,
      "language_loss": 0.71802294,
      "learning_rate": 2.3464439480417374e-06,
      "loss": 0.73901677,
      "num_input_tokens_seen": 82508830,
      "step": 3836,
      "time_per_iteration": 2.6298580169677734
    },
    {
      "auxiliary_loss_clip": 0.01096158,
      "auxiliary_loss_mlp": 0.01025545,
      "balance_loss_clip": 1.04525208,
      "balance_loss_mlp": 1.01949489,
      "epoch": 0.46137197138219205,
      "flos": 17932717117440.0,
      "grad_norm": 2.9171597525916733,
      "language_loss": 0.77662849,
      "learning_rate": 2.3456767259992676e-06,
      "loss": 0.79784554,
      "num_input_tokens_seen": 82526475,
      "step": 3837,
      "time_per_iteration": 2.556056499481201
    },
    {
      "auxiliary_loss_clip": 0.0110659,
      "auxiliary_loss_mlp": 0.00757179,
      "balance_loss_clip": 1.04374766,
      "balance_loss_mlp": 1.00163674,
      "epoch": 0.4614922142728311,
      "flos": 16838478973440.0,
      "grad_norm": 2.413422682368346,
      "language_loss": 0.88656425,
      "learning_rate": 2.3449094515179135e-06,
      "loss": 0.90520197,
      "num_input_tokens_seen": 82543935,
      "step": 3838,
      "time_per_iteration": 3.235471487045288
    },
    {
      "auxiliary_loss_clip": 0.01086843,
      "auxiliary_loss_mlp": 0.01021035,
      "balance_loss_clip": 1.04391611,
      "balance_loss_mlp": 1.01511955,
      "epoch": 0.4616124571634702,
      "flos": 26617325834880.0,
      "grad_norm": 3.044661594147871,
      "language_loss": 0.81789082,
      "learning_rate": 2.34414212471407e-06,
      "loss": 0.83896965,
      "num_input_tokens_seen": 82563730,
      "step": 3839,
      "time_per_iteration": 3.378610134124756
    },
    {
      "auxiliary_loss_clip": 0.01097631,
      "auxiliary_loss_mlp": 0.01020245,
      "balance_loss_clip": 1.04458237,
      "balance_loss_mlp": 1.01432586,
      "epoch": 0.4617327000541093,
      "flos": 20342240282880.0,
      "grad_norm": 1.969982216305383,
      "language_loss": 0.72639894,
      "learning_rate": 2.3433747457041394e-06,
      "loss": 0.74757773,
      "num_input_tokens_seen": 82582435,
      "step": 3840,
      "time_per_iteration": 2.5196268558502197
    },
    {
      "auxiliary_loss_clip": 0.01070062,
      "auxiliary_loss_mlp": 0.01023833,
      "balance_loss_clip": 1.04743242,
      "balance_loss_mlp": 1.01743484,
      "epoch": 0.4618529429447484,
      "flos": 29573361383040.0,
      "grad_norm": 1.979717572144279,
      "language_loss": 0.85009235,
      "learning_rate": 2.342607314604533e-06,
      "loss": 0.87103128,
      "num_input_tokens_seen": 82602185,
      "step": 3841,
      "time_per_iteration": 3.4423563480377197
    },
    {
      "auxiliary_loss_clip": 0.01094391,
      "auxiliary_loss_mlp": 0.01023515,
      "balance_loss_clip": 1.04907691,
      "balance_loss_mlp": 1.01765859,
      "epoch": 0.4619731858353875,
      "flos": 19788788891520.0,
      "grad_norm": 1.7889575729936749,
      "language_loss": 0.84034324,
      "learning_rate": 2.3418398315316694e-06,
      "loss": 0.86152232,
      "num_input_tokens_seen": 82620005,
      "step": 3842,
      "time_per_iteration": 2.568742036819458
    },
    {
      "auxiliary_loss_clip": 0.01111312,
      "auxiliary_loss_mlp": 0.01029381,
      "balance_loss_clip": 1.04904854,
      "balance_loss_mlp": 1.02322686,
      "epoch": 0.4620934287260266,
      "flos": 18953032821120.0,
      "grad_norm": 2.3322114888856222,
      "language_loss": 0.78740519,
      "learning_rate": 2.3410722966019755e-06,
      "loss": 0.80881214,
      "num_input_tokens_seen": 82635120,
      "step": 3843,
      "time_per_iteration": 2.502314329147339
    },
    {
      "auxiliary_loss_clip": 0.0109487,
      "auxiliary_loss_mlp": 0.01017701,
      "balance_loss_clip": 1.0452323,
      "balance_loss_mlp": 1.01203275,
      "epoch": 0.46221367161666566,
      "flos": 37344689372160.0,
      "grad_norm": 1.7208757958584824,
      "language_loss": 0.65653634,
      "learning_rate": 2.3403047099318848e-06,
      "loss": 0.67766201,
      "num_input_tokens_seen": 82659190,
      "step": 3844,
      "time_per_iteration": 2.716064929962158
    },
    {
      "auxiliary_loss_clip": 0.0106134,
      "auxiliary_loss_mlp": 0.01019138,
      "balance_loss_clip": 1.04238319,
      "balance_loss_mlp": 1.01355267,
      "epoch": 0.46233391450730477,
      "flos": 14430282940800.0,
      "grad_norm": 2.375915054933034,
      "language_loss": 0.74219072,
      "learning_rate": 2.3395370716378405e-06,
      "loss": 0.76299548,
      "num_input_tokens_seen": 82676635,
      "step": 3845,
      "time_per_iteration": 2.604059934616089
    },
    {
      "auxiliary_loss_clip": 0.01099344,
      "auxiliary_loss_mlp": 0.0102579,
      "balance_loss_clip": 1.04668808,
      "balance_loss_mlp": 1.02028251,
      "epoch": 0.4624541573979438,
      "flos": 22495291032960.0,
      "grad_norm": 2.0724138716699465,
      "language_loss": 0.725106,
      "learning_rate": 2.338769381836292e-06,
      "loss": 0.74635738,
      "num_input_tokens_seen": 82696245,
      "step": 3846,
      "time_per_iteration": 2.5799601078033447
    },
    {
      "auxiliary_loss_clip": 0.01054394,
      "auxiliary_loss_mlp": 0.01026548,
      "balance_loss_clip": 1.03535116,
      "balance_loss_mlp": 1.02078176,
      "epoch": 0.46257440028858293,
      "flos": 14466808103040.0,
      "grad_norm": 1.948005855158259,
      "language_loss": 0.73052275,
      "learning_rate": 2.3380016406436984e-06,
      "loss": 0.75133216,
      "num_input_tokens_seen": 82713725,
      "step": 3847,
      "time_per_iteration": 2.577993392944336
    },
    {
      "auxiliary_loss_clip": 0.01043711,
      "auxiliary_loss_mlp": 0.01024774,
      "balance_loss_clip": 1.03496003,
      "balance_loss_mlp": 1.01850629,
      "epoch": 0.46269464317922204,
      "flos": 23334497648640.0,
      "grad_norm": 2.150288209582052,
      "language_loss": 0.81466264,
      "learning_rate": 2.337233848176524e-06,
      "loss": 0.83534741,
      "num_input_tokens_seen": 82731495,
      "step": 3848,
      "time_per_iteration": 2.6749155521392822
    },
    {
      "auxiliary_loss_clip": 0.01066067,
      "auxiliary_loss_mlp": 0.01024012,
      "balance_loss_clip": 1.04797792,
      "balance_loss_mlp": 1.01796484,
      "epoch": 0.4628148860698611,
      "flos": 18554024056320.0,
      "grad_norm": 2.2161625324442022,
      "language_loss": 0.83539629,
      "learning_rate": 2.3364660045512435e-06,
      "loss": 0.85629702,
      "num_input_tokens_seen": 82750255,
      "step": 3849,
      "time_per_iteration": 2.629251718521118
    },
    {
      "auxiliary_loss_clip": 0.01078692,
      "auxiliary_loss_mlp": 0.01005904,
      "balance_loss_clip": 1.06640756,
      "balance_loss_mlp": 1.00341249,
      "epoch": 0.4629351289605002,
      "flos": 70675278900480.0,
      "grad_norm": 0.7478401210737606,
      "language_loss": 0.58160782,
      "learning_rate": 2.335698109884337e-06,
      "loss": 0.60245383,
      "num_input_tokens_seen": 82815460,
      "step": 3850,
      "time_per_iteration": 3.367734432220459
    },
    {
      "auxiliary_loss_clip": 0.0107306,
      "auxiliary_loss_mlp": 0.01004954,
      "balance_loss_clip": 1.08974624,
      "balance_loss_mlp": 1.00272512,
      "epoch": 0.4630553718511393,
      "flos": 59694400558080.0,
      "grad_norm": 0.7890315907610546,
      "language_loss": 0.59854919,
      "learning_rate": 2.334930164292294e-06,
      "loss": 0.61932933,
      "num_input_tokens_seen": 82878010,
      "step": 3851,
      "time_per_iteration": 3.3604133129119873
    },
    {
      "auxiliary_loss_clip": 0.01064959,
      "auxiliary_loss_mlp": 0.01020685,
      "balance_loss_clip": 1.04464436,
      "balance_loss_mlp": 1.01520193,
      "epoch": 0.4631756147417784,
      "flos": 15962405932800.0,
      "grad_norm": 2.225189267542019,
      "language_loss": 0.80671155,
      "learning_rate": 2.334162167891612e-06,
      "loss": 0.82756799,
      "num_input_tokens_seen": 82895275,
      "step": 3852,
      "time_per_iteration": 2.609544515609741
    },
    {
      "auxiliary_loss_clip": 0.0109271,
      "auxiliary_loss_mlp": 0.01025687,
      "balance_loss_clip": 1.04840732,
      "balance_loss_mlp": 1.01966405,
      "epoch": 0.4632958576324175,
      "flos": 16474819910400.0,
      "grad_norm": 1.9929910006912168,
      "language_loss": 0.75124878,
      "learning_rate": 2.333394120798795e-06,
      "loss": 0.77243268,
      "num_input_tokens_seen": 82914010,
      "step": 3853,
      "time_per_iteration": 2.6569013595581055
    },
    {
      "auxiliary_loss_clip": 0.01084945,
      "auxiliary_loss_mlp": 0.01019662,
      "balance_loss_clip": 1.04513669,
      "balance_loss_mlp": 1.01354396,
      "epoch": 0.4634161005230566,
      "flos": 22348697448960.0,
      "grad_norm": 2.3552205864029254,
      "language_loss": 0.71898472,
      "learning_rate": 2.3326260231303545e-06,
      "loss": 0.74003088,
      "num_input_tokens_seen": 82932610,
      "step": 3854,
      "time_per_iteration": 2.5769009590148926
    },
    {
      "auxiliary_loss_clip": 0.01111048,
      "auxiliary_loss_mlp": 0.01022534,
      "balance_loss_clip": 1.04898596,
      "balance_loss_mlp": 1.01686811,
      "epoch": 0.46353634341369565,
      "flos": 15744051239040.0,
      "grad_norm": 2.139801803888486,
      "language_loss": 0.86746526,
      "learning_rate": 2.331857875002811e-06,
      "loss": 0.8888011,
      "num_input_tokens_seen": 82951210,
      "step": 3855,
      "time_per_iteration": 2.507467746734619
    },
    {
      "auxiliary_loss_clip": 0.01085573,
      "auxiliary_loss_mlp": 0.0102643,
      "balance_loss_clip": 1.04710126,
      "balance_loss_mlp": 1.02031469,
      "epoch": 0.46365658630433476,
      "flos": 28332340064640.0,
      "grad_norm": 1.7633770111668796,
      "language_loss": 0.76311147,
      "learning_rate": 2.3310896765326916e-06,
      "loss": 0.78423148,
      "num_input_tokens_seen": 82972210,
      "step": 3856,
      "time_per_iteration": 2.6143076419830322
    },
    {
      "auxiliary_loss_clip": 0.0107528,
      "auxiliary_loss_mlp": 0.01026724,
      "balance_loss_clip": 1.04961991,
      "balance_loss_mlp": 1.02069747,
      "epoch": 0.46377682919497387,
      "flos": 24610375733760.0,
      "grad_norm": 1.6283839859621998,
      "language_loss": 0.84411353,
      "learning_rate": 2.330321427836531e-06,
      "loss": 0.86513352,
      "num_input_tokens_seen": 82994080,
      "step": 3857,
      "time_per_iteration": 2.7440710067749023
    },
    {
      "auxiliary_loss_clip": 0.01100544,
      "auxiliary_loss_mlp": 0.01021441,
      "balance_loss_clip": 1.04764807,
      "balance_loss_mlp": 1.01527739,
      "epoch": 0.4638970720856129,
      "flos": 19062873734400.0,
      "grad_norm": 1.9232234275003321,
      "language_loss": 0.82847333,
      "learning_rate": 2.3295531290308733e-06,
      "loss": 0.84969306,
      "num_input_tokens_seen": 83012230,
      "step": 3858,
      "time_per_iteration": 2.528038501739502
    },
    {
      "auxiliary_loss_clip": 0.01112268,
      "auxiliary_loss_mlp": 0.00757045,
      "balance_loss_clip": 1.04961133,
      "balance_loss_mlp": 1.00157762,
      "epoch": 0.46401731497625204,
      "flos": 18472555918080.0,
      "grad_norm": 3.021875845981819,
      "language_loss": 0.76169682,
      "learning_rate": 2.3287847802322678e-06,
      "loss": 0.78038996,
      "num_input_tokens_seen": 83027800,
      "step": 3859,
      "time_per_iteration": 2.5147244930267334
    },
    {
      "auxiliary_loss_clip": 0.01081392,
      "auxiliary_loss_mlp": 0.01023008,
      "balance_loss_clip": 1.04838896,
      "balance_loss_mlp": 1.01636767,
      "epoch": 0.4641375578668911,
      "flos": 26069410483200.0,
      "grad_norm": 1.8946408452774384,
      "language_loss": 0.83997011,
      "learning_rate": 2.3280163815572723e-06,
      "loss": 0.86101401,
      "num_input_tokens_seen": 83048395,
      "step": 3860,
      "time_per_iteration": 2.612536668777466
    },
    {
      "auxiliary_loss_clip": 0.0108648,
      "auxiliary_loss_mlp": 0.01018343,
      "balance_loss_clip": 1.04541481,
      "balance_loss_mlp": 1.01258218,
      "epoch": 0.4642578007575302,
      "flos": 19572254265600.0,
      "grad_norm": 2.03652747611305,
      "language_loss": 0.76807928,
      "learning_rate": 2.3272479331224522e-06,
      "loss": 0.78912747,
      "num_input_tokens_seen": 83065825,
      "step": 3861,
      "time_per_iteration": 3.405871868133545
    },
    {
      "auxiliary_loss_clip": 0.01112224,
      "auxiliary_loss_mlp": 0.01021531,
      "balance_loss_clip": 1.04880309,
      "balance_loss_mlp": 1.01579666,
      "epoch": 0.4643780436481693,
      "flos": 28188893681280.0,
      "grad_norm": 1.854587349022881,
      "language_loss": 0.78151387,
      "learning_rate": 2.3264794350443817e-06,
      "loss": 0.80285138,
      "num_input_tokens_seen": 83087920,
      "step": 3862,
      "time_per_iteration": 2.5880320072174072
    },
    {
      "auxiliary_loss_clip": 0.01098829,
      "auxiliary_loss_mlp": 0.01020765,
      "balance_loss_clip": 1.04575598,
      "balance_loss_mlp": 1.01486433,
      "epoch": 0.46449828653880837,
      "flos": 25377669567360.0,
      "grad_norm": 1.766058850883677,
      "language_loss": 0.78470588,
      "learning_rate": 2.3257108874396396e-06,
      "loss": 0.80590177,
      "num_input_tokens_seen": 83109015,
      "step": 3863,
      "time_per_iteration": 2.636624336242676
    },
    {
      "auxiliary_loss_clip": 0.01089316,
      "auxiliary_loss_mlp": 0.01026516,
      "balance_loss_clip": 1.04787612,
      "balance_loss_mlp": 1.02025414,
      "epoch": 0.4646185294294475,
      "flos": 16036176700800.0,
      "grad_norm": 2.0849504313148546,
      "language_loss": 0.7345798,
      "learning_rate": 2.3249422904248152e-06,
      "loss": 0.75573814,
      "num_input_tokens_seen": 83127450,
      "step": 3864,
      "time_per_iteration": 3.488776683807373
    },
    {
      "auxiliary_loss_clip": 0.01101595,
      "auxiliary_loss_mlp": 0.0102578,
      "balance_loss_clip": 1.0481981,
      "balance_loss_mlp": 1.02001035,
      "epoch": 0.4647387723200866,
      "flos": 26365706933760.0,
      "grad_norm": 2.2167373992835606,
      "language_loss": 0.86887765,
      "learning_rate": 2.324173644116504e-06,
      "loss": 0.89015138,
      "num_input_tokens_seen": 83150300,
      "step": 3865,
      "time_per_iteration": 2.6271822452545166
    },
    {
      "auxiliary_loss_clip": 0.01096644,
      "auxiliary_loss_mlp": 0.01020604,
      "balance_loss_clip": 1.04860961,
      "balance_loss_mlp": 1.01464915,
      "epoch": 0.46485901521072565,
      "flos": 27162549002880.0,
      "grad_norm": 2.4986027244300226,
      "language_loss": 0.81787694,
      "learning_rate": 2.3234049486313087e-06,
      "loss": 0.8390494,
      "num_input_tokens_seen": 83171750,
      "step": 3866,
      "time_per_iteration": 3.4103143215179443
    },
    {
      "auxiliary_loss_clip": 0.01098897,
      "auxiliary_loss_mlp": 0.0102181,
      "balance_loss_clip": 1.04764247,
      "balance_loss_mlp": 1.0165143,
      "epoch": 0.46497925810136476,
      "flos": 24282142208640.0,
      "grad_norm": 1.8935607572675806,
      "language_loss": 0.76032364,
      "learning_rate": 2.322636204085839e-06,
      "loss": 0.78153074,
      "num_input_tokens_seen": 83191820,
      "step": 3867,
      "time_per_iteration": 2.5675785541534424
    },
    {
      "auxiliary_loss_clip": 0.01090238,
      "auxiliary_loss_mlp": 0.0102637,
      "balance_loss_clip": 1.04705071,
      "balance_loss_mlp": 1.02056718,
      "epoch": 0.46509950099200387,
      "flos": 16254986411520.0,
      "grad_norm": 2.6596492636223927,
      "language_loss": 0.79165679,
      "learning_rate": 2.3218674105967143e-06,
      "loss": 0.81282288,
      "num_input_tokens_seen": 83210085,
      "step": 3868,
      "time_per_iteration": 2.6190478801727295
    },
    {
      "auxiliary_loss_clip": 0.0108895,
      "auxiliary_loss_mlp": 0.01020202,
      "balance_loss_clip": 1.04808998,
      "balance_loss_mlp": 1.01458752,
      "epoch": 0.4652197438826429,
      "flos": 23444603988480.0,
      "grad_norm": 1.8835516224321638,
      "language_loss": 0.83514023,
      "learning_rate": 2.3210985682805593e-06,
      "loss": 0.85623169,
      "num_input_tokens_seen": 83231865,
      "step": 3869,
      "time_per_iteration": 2.6753225326538086
    },
    {
      "auxiliary_loss_clip": 0.01114735,
      "auxiliary_loss_mlp": 0.01020412,
      "balance_loss_clip": 1.05260205,
      "balance_loss_mlp": 1.01454127,
      "epoch": 0.46533998677328203,
      "flos": 16218233740800.0,
      "grad_norm": 2.112687345447812,
      "language_loss": 0.67842007,
      "learning_rate": 2.320329677254007e-06,
      "loss": 0.69977152,
      "num_input_tokens_seen": 83249195,
      "step": 3870,
      "time_per_iteration": 2.523045301437378
    },
    {
      "auxiliary_loss_clip": 0.01110836,
      "auxiliary_loss_mlp": 0.01021574,
      "balance_loss_clip": 1.04867148,
      "balance_loss_mlp": 1.01594734,
      "epoch": 0.46546022966392114,
      "flos": 21143973784320.0,
      "grad_norm": 3.5053257090753793,
      "language_loss": 0.72818166,
      "learning_rate": 2.319560737633697e-06,
      "loss": 0.74950576,
      "num_input_tokens_seen": 83267915,
      "step": 3871,
      "time_per_iteration": 2.4973247051239014
    },
    {
      "auxiliary_loss_clip": 0.01077308,
      "auxiliary_loss_mlp": 0.01020385,
      "balance_loss_clip": 1.04440331,
      "balance_loss_mlp": 1.01437116,
      "epoch": 0.4655804725545602,
      "flos": 41175129565440.0,
      "grad_norm": 1.526082538249828,
      "language_loss": 0.68181151,
      "learning_rate": 2.3187917495362775e-06,
      "loss": 0.70278841,
      "num_input_tokens_seen": 83292325,
      "step": 3872,
      "time_per_iteration": 2.8336522579193115
    },
    {
      "auxiliary_loss_clip": 0.0106526,
      "auxiliary_loss_mlp": 0.01027864,
      "balance_loss_clip": 1.04554415,
      "balance_loss_mlp": 1.02159357,
      "epoch": 0.4657007154451993,
      "flos": 19572860954880.0,
      "grad_norm": 3.334639175330612,
      "language_loss": 0.76799512,
      "learning_rate": 2.318022713078403e-06,
      "loss": 0.78892636,
      "num_input_tokens_seen": 83306905,
      "step": 3873,
      "time_per_iteration": 2.6665456295013428
    },
    {
      "auxiliary_loss_clip": 0.01073821,
      "auxiliary_loss_mlp": 0.01027362,
      "balance_loss_clip": 1.03891468,
      "balance_loss_mlp": 1.02145517,
      "epoch": 0.4658209583358384,
      "flos": 15519326307840.0,
      "grad_norm": 2.3307121696875863,
      "language_loss": 0.85283315,
      "learning_rate": 2.3172536283767354e-06,
      "loss": 0.87384498,
      "num_input_tokens_seen": 83320665,
      "step": 3874,
      "time_per_iteration": 2.5401804447174072
    },
    {
      "auxiliary_loss_clip": 0.01077773,
      "auxiliary_loss_mlp": 0.01018476,
      "balance_loss_clip": 1.04875112,
      "balance_loss_mlp": 1.01228046,
      "epoch": 0.4659412012264775,
      "flos": 14904958377600.0,
      "grad_norm": 2.2769288367209732,
      "language_loss": 0.81105757,
      "learning_rate": 2.3164844955479447e-06,
      "loss": 0.83202004,
      "num_input_tokens_seen": 83336475,
      "step": 3875,
      "time_per_iteration": 2.629408121109009
    },
    {
      "auxiliary_loss_clip": 0.0106152,
      "auxiliary_loss_mlp": 0.01022051,
      "balance_loss_clip": 1.04595256,
      "balance_loss_mlp": 1.01610899,
      "epoch": 0.4660614441171166,
      "flos": 24427901594880.0,
      "grad_norm": 1.9897975151306035,
      "language_loss": 0.70830202,
      "learning_rate": 2.3157153147087082e-06,
      "loss": 0.72913772,
      "num_input_tokens_seen": 83358365,
      "step": 3876,
      "time_per_iteration": 2.6818995475769043
    },
    {
      "auxiliary_loss_clip": 0.01061139,
      "auxiliary_loss_mlp": 0.0102255,
      "balance_loss_clip": 1.04735041,
      "balance_loss_mlp": 1.01709056,
      "epoch": 0.46618168700775564,
      "flos": 22093286739840.0,
      "grad_norm": 1.8347882367174353,
      "language_loss": 0.82986045,
      "learning_rate": 2.314946085975709e-06,
      "loss": 0.8506974,
      "num_input_tokens_seen": 83377345,
      "step": 3877,
      "time_per_iteration": 2.689469814300537
    },
    {
      "auxiliary_loss_clip": 0.01063219,
      "auxiliary_loss_mlp": 0.01020172,
      "balance_loss_clip": 1.03909016,
      "balance_loss_mlp": 1.01456034,
      "epoch": 0.46630192989839475,
      "flos": 26179365150720.0,
      "grad_norm": 1.8205606408432995,
      "language_loss": 0.82524896,
      "learning_rate": 2.3141768094656393e-06,
      "loss": 0.84608281,
      "num_input_tokens_seen": 83395920,
      "step": 3878,
      "time_per_iteration": 2.6579318046569824
    },
    {
      "auxiliary_loss_clip": 0.01039212,
      "auxiliary_loss_mlp": 0.01022965,
      "balance_loss_clip": 1.04206944,
      "balance_loss_mlp": 1.01722527,
      "epoch": 0.46642217278903386,
      "flos": 11511189653760.0,
      "grad_norm": 2.6840287258950744,
      "language_loss": 0.83296102,
      "learning_rate": 2.3134074852951966e-06,
      "loss": 0.8535828,
      "num_input_tokens_seen": 83412510,
      "step": 3879,
      "time_per_iteration": 2.9067740440368652
    },
    {
      "auxiliary_loss_clip": 0.01054952,
      "auxiliary_loss_mlp": 0.01025864,
      "balance_loss_clip": 1.03757894,
      "balance_loss_mlp": 1.020118,
      "epoch": 0.4665424156796729,
      "flos": 32309563432320.0,
      "grad_norm": 1.8045867192587517,
      "language_loss": 0.77789992,
      "learning_rate": 2.312638113581088e-06,
      "loss": 0.79870808,
      "num_input_tokens_seen": 83432995,
      "step": 3880,
      "time_per_iteration": 2.869887590408325
    },
    {
      "auxiliary_loss_clip": 0.01101378,
      "auxiliary_loss_mlp": 0.01021165,
      "balance_loss_clip": 1.04776251,
      "balance_loss_mlp": 1.01509142,
      "epoch": 0.46666265857031203,
      "flos": 18437812905600.0,
      "grad_norm": 2.6781941904239757,
      "language_loss": 0.78870219,
      "learning_rate": 2.311868694440027e-06,
      "loss": 0.80992758,
      "num_input_tokens_seen": 83447415,
      "step": 3881,
      "time_per_iteration": 2.561032295227051
    },
    {
      "auxiliary_loss_clip": 0.01102801,
      "auxiliary_loss_mlp": 0.01002495,
      "balance_loss_clip": 1.06929207,
      "balance_loss_mlp": 1.00006294,
      "epoch": 0.46678290146095114,
      "flos": 68446409806080.0,
      "grad_norm": 0.7397861246486288,
      "language_loss": 0.62486529,
      "learning_rate": 2.3110992279887323e-06,
      "loss": 0.64591825,
      "num_input_tokens_seen": 83519340,
      "step": 3882,
      "time_per_iteration": 3.27518367767334
    },
    {
      "auxiliary_loss_clip": 0.01073298,
      "auxiliary_loss_mlp": 0.01023802,
      "balance_loss_clip": 1.04514742,
      "balance_loss_mlp": 1.01764488,
      "epoch": 0.4669031443515902,
      "flos": 17714438259840.0,
      "grad_norm": 2.502706671796653,
      "language_loss": 0.85426551,
      "learning_rate": 2.310329714343932e-06,
      "loss": 0.87523651,
      "num_input_tokens_seen": 83535490,
      "step": 3883,
      "time_per_iteration": 2.619746446609497
    },
    {
      "auxiliary_loss_clip": 0.0107581,
      "auxiliary_loss_mlp": 0.01018182,
      "balance_loss_clip": 1.03992081,
      "balance_loss_mlp": 1.01248682,
      "epoch": 0.4670233872422293,
      "flos": 23949813530880.0,
      "grad_norm": 1.9077106326235045,
      "language_loss": 0.81812441,
      "learning_rate": 2.309560153622361e-06,
      "loss": 0.8390643,
      "num_input_tokens_seen": 83552400,
      "step": 3884,
      "time_per_iteration": 2.627788543701172
    },
    {
      "auxiliary_loss_clip": 0.01069309,
      "auxiliary_loss_mlp": 0.01021977,
      "balance_loss_clip": 1.04385519,
      "balance_loss_mlp": 1.01567698,
      "epoch": 0.4671436301328684,
      "flos": 28113795780480.0,
      "grad_norm": 2.3713802560570767,
      "language_loss": 0.74560714,
      "learning_rate": 2.3087905459407602e-06,
      "loss": 0.76652002,
      "num_input_tokens_seen": 83571340,
      "step": 3885,
      "time_per_iteration": 2.660111427307129
    },
    {
      "auxiliary_loss_clip": 0.01090646,
      "auxiliary_loss_mlp": 0.01003403,
      "balance_loss_clip": 1.07011962,
      "balance_loss_mlp": 1.00083983,
      "epoch": 0.46726387302350747,
      "flos": 69376157032320.0,
      "grad_norm": 0.7866285524528698,
      "language_loss": 0.62889457,
      "learning_rate": 2.3080208914158795e-06,
      "loss": 0.64983499,
      "num_input_tokens_seen": 83634340,
      "step": 3886,
      "time_per_iteration": 3.9627034664154053
    },
    {
      "auxiliary_loss_clip": 0.0107258,
      "auxiliary_loss_mlp": 0.01018011,
      "balance_loss_clip": 1.03983569,
      "balance_loss_mlp": 1.01233637,
      "epoch": 0.4673841159141466,
      "flos": 25521988066560.0,
      "grad_norm": 2.4787362911310615,
      "language_loss": 0.72455668,
      "learning_rate": 2.3072511901644753e-06,
      "loss": 0.74546254,
      "num_input_tokens_seen": 83653410,
      "step": 3887,
      "time_per_iteration": 2.5994808673858643
    },
    {
      "auxiliary_loss_clip": 0.01111826,
      "auxiliary_loss_mlp": 0.01017419,
      "balance_loss_clip": 1.04969978,
      "balance_loss_mlp": 1.01216793,
      "epoch": 0.4675043588047857,
      "flos": 24501596526720.0,
      "grad_norm": 1.9794054050978036,
      "language_loss": 0.80948943,
      "learning_rate": 2.306481442303309e-06,
      "loss": 0.83078188,
      "num_input_tokens_seen": 83672985,
      "step": 3888,
      "time_per_iteration": 2.5826146602630615
    },
    {
      "auxiliary_loss_clip": 0.01096106,
      "auxiliary_loss_mlp": 0.01020472,
      "balance_loss_clip": 1.04485953,
      "balance_loss_mlp": 1.01450849,
      "epoch": 0.46762460169542475,
      "flos": 20962940532480.0,
      "grad_norm": 3.2924361711354706,
      "language_loss": 0.73671091,
      "learning_rate": 2.3057116479491515e-06,
      "loss": 0.75787663,
      "num_input_tokens_seen": 83692395,
      "step": 3889,
      "time_per_iteration": 2.5759806632995605
    },
    {
      "auxiliary_loss_clip": 0.01100039,
      "auxiliary_loss_mlp": 0.01019071,
      "balance_loss_clip": 1.04684043,
      "balance_loss_mlp": 1.0133605,
      "epoch": 0.46774484458606386,
      "flos": 19173662599680.0,
      "grad_norm": 3.643020999079233,
      "language_loss": 0.76391232,
      "learning_rate": 2.30494180721878e-06,
      "loss": 0.78510344,
      "num_input_tokens_seen": 83709735,
      "step": 3890,
      "time_per_iteration": 3.357546091079712
    },
    {
      "auxiliary_loss_clip": 0.01100492,
      "auxiliary_loss_mlp": 0.01022794,
      "balance_loss_clip": 1.04787731,
      "balance_loss_mlp": 1.01740623,
      "epoch": 0.4678650874767029,
      "flos": 17969621460480.0,
      "grad_norm": 2.227228592329192,
      "language_loss": 0.8973375,
      "learning_rate": 2.3041719202289794e-06,
      "loss": 0.9185704,
      "num_input_tokens_seen": 83725910,
      "step": 3891,
      "time_per_iteration": 3.2807564735412598
    },
    {
      "auxiliary_loss_clip": 0.01099124,
      "auxiliary_loss_mlp": 0.01021352,
      "balance_loss_clip": 1.04814076,
      "balance_loss_mlp": 1.01592159,
      "epoch": 0.467985330367342,
      "flos": 21362935167360.0,
      "grad_norm": 1.7562739086836558,
      "language_loss": 0.80512279,
      "learning_rate": 2.30340198709654e-06,
      "loss": 0.82632756,
      "num_input_tokens_seen": 83745745,
      "step": 3892,
      "time_per_iteration": 3.298408031463623
    },
    {
      "auxiliary_loss_clip": 0.01090005,
      "auxiliary_loss_mlp": 0.01020929,
      "balance_loss_clip": 1.04703367,
      "balance_loss_mlp": 1.01517105,
      "epoch": 0.46810557325798113,
      "flos": 20523918142080.0,
      "grad_norm": 2.0208393243368707,
      "language_loss": 0.7465297,
      "learning_rate": 2.3026320079382605e-06,
      "loss": 0.76763904,
      "num_input_tokens_seen": 83762680,
      "step": 3893,
      "time_per_iteration": 2.591101884841919
    },
    {
      "auxiliary_loss_clip": 0.01110327,
      "auxiliary_loss_mlp": 0.0102038,
      "balance_loss_clip": 1.04922962,
      "balance_loss_mlp": 1.0149287,
      "epoch": 0.4682258161486202,
      "flos": 30120480455040.0,
      "grad_norm": 2.400454723666558,
      "language_loss": 0.76149869,
      "learning_rate": 2.3018619828709454e-06,
      "loss": 0.7828058,
      "num_input_tokens_seen": 83784220,
      "step": 3894,
      "time_per_iteration": 2.596251964569092
    },
    {
      "auxiliary_loss_clip": 0.01085735,
      "auxiliary_loss_mlp": 0.00757003,
      "balance_loss_clip": 1.04176378,
      "balance_loss_mlp": 1.00171399,
      "epoch": 0.4683460590392593,
      "flos": 25295253477120.0,
      "grad_norm": 1.9944600815958549,
      "language_loss": 0.82486576,
      "learning_rate": 2.3010919120114084e-06,
      "loss": 0.84329313,
      "num_input_tokens_seen": 83800750,
      "step": 3895,
      "time_per_iteration": 2.572685480117798
    },
    {
      "auxiliary_loss_clip": 0.0110058,
      "auxiliary_loss_mlp": 0.01023658,
      "balance_loss_clip": 1.0479238,
      "balance_loss_mlp": 1.01809943,
      "epoch": 0.4684663019298984,
      "flos": 15369623441280.0,
      "grad_norm": 2.7898814985488682,
      "language_loss": 0.66274643,
      "learning_rate": 2.3003217954764672e-06,
      "loss": 0.68398881,
      "num_input_tokens_seen": 83815455,
      "step": 3896,
      "time_per_iteration": 2.5009913444519043
    },
    {
      "auxiliary_loss_clip": 0.01099583,
      "auxiliary_loss_mlp": 0.01017463,
      "balance_loss_clip": 1.04617429,
      "balance_loss_mlp": 1.01169038,
      "epoch": 0.46858654482053747,
      "flos": 27781125840000.0,
      "grad_norm": 2.0306386856137615,
      "language_loss": 0.79544258,
      "learning_rate": 2.299551633382949e-06,
      "loss": 0.81661296,
      "num_input_tokens_seen": 83835765,
      "step": 3897,
      "time_per_iteration": 2.6073737144470215
    },
    {
      "auxiliary_loss_clip": 0.01087334,
      "auxiliary_loss_mlp": 0.01023031,
      "balance_loss_clip": 1.04732823,
      "balance_loss_mlp": 1.01716924,
      "epoch": 0.4687067877111766,
      "flos": 18042558030720.0,
      "grad_norm": 2.208238008795581,
      "language_loss": 0.86399508,
      "learning_rate": 2.2987814258476854e-06,
      "loss": 0.8850987,
      "num_input_tokens_seen": 83853565,
      "step": 3898,
      "time_per_iteration": 2.5877833366394043
    },
    {
      "auxiliary_loss_clip": 0.01055072,
      "auxiliary_loss_mlp": 0.01020544,
      "balance_loss_clip": 1.03577912,
      "balance_loss_mlp": 1.01489329,
      "epoch": 0.4688270306018157,
      "flos": 16978967746560.0,
      "grad_norm": 2.2615268118181087,
      "language_loss": 0.68065411,
      "learning_rate": 2.2980111729875177e-06,
      "loss": 0.70141023,
      "num_input_tokens_seen": 83869815,
      "step": 3899,
      "time_per_iteration": 2.5946640968322754
    },
    {
      "auxiliary_loss_clip": 0.01069873,
      "auxiliary_loss_mlp": 0.01026629,
      "balance_loss_clip": 1.03532791,
      "balance_loss_mlp": 1.0208832,
      "epoch": 0.46894727349245474,
      "flos": 17823558729600.0,
      "grad_norm": 1.6684460617379582,
      "language_loss": 0.82568455,
      "learning_rate": 2.2972408749192917e-06,
      "loss": 0.84664965,
      "num_input_tokens_seen": 83887545,
      "step": 3900,
      "time_per_iteration": 2.58268141746521
    },
    {
      "auxiliary_loss_clip": 0.01098801,
      "auxiliary_loss_mlp": 0.00756771,
      "balance_loss_clip": 1.04968107,
      "balance_loss_mlp": 1.00161934,
      "epoch": 0.46906751638309385,
      "flos": 21473534442240.0,
      "grad_norm": 1.91754802957579,
      "language_loss": 0.67130196,
      "learning_rate": 2.296470531759861e-06,
      "loss": 0.68985766,
      "num_input_tokens_seen": 83905645,
      "step": 3901,
      "time_per_iteration": 2.6274895668029785
    },
    {
      "auxiliary_loss_clip": 0.01073315,
      "auxiliary_loss_mlp": 0.01017008,
      "balance_loss_clip": 1.04423225,
      "balance_loss_mlp": 1.01108932,
      "epoch": 0.46918775927373296,
      "flos": 20339813525760.0,
      "grad_norm": 1.9246034196916988,
      "language_loss": 0.79428041,
      "learning_rate": 2.2957001436260866e-06,
      "loss": 0.81518364,
      "num_input_tokens_seen": 83922705,
      "step": 3902,
      "time_per_iteration": 2.682969331741333
    },
    {
      "auxiliary_loss_clip": 0.01090525,
      "auxiliary_loss_mlp": 0.01021261,
      "balance_loss_clip": 1.04917717,
      "balance_loss_mlp": 1.01591468,
      "epoch": 0.469308002164372,
      "flos": 18405079551360.0,
      "grad_norm": 1.941825339235507,
      "language_loss": 0.73360848,
      "learning_rate": 2.294929710634836e-06,
      "loss": 0.75472635,
      "num_input_tokens_seen": 83940795,
      "step": 3903,
      "time_per_iteration": 2.563297986984253
    },
    {
      "auxiliary_loss_clip": 0.01101787,
      "auxiliary_loss_mlp": 0.01022364,
      "balance_loss_clip": 1.04907584,
      "balance_loss_mlp": 1.01641202,
      "epoch": 0.46942824505501113,
      "flos": 37965124195200.0,
      "grad_norm": 1.7745770296168455,
      "language_loss": 0.61163235,
      "learning_rate": 2.2941592329029823e-06,
      "loss": 0.63287389,
      "num_input_tokens_seen": 83961900,
      "step": 3904,
      "time_per_iteration": 2.8367419242858887
    },
    {
      "auxiliary_loss_clip": 0.01103563,
      "auxiliary_loss_mlp": 0.0102511,
      "balance_loss_clip": 1.05008507,
      "balance_loss_mlp": 1.01897025,
      "epoch": 0.46954848794565024,
      "flos": 21874704537600.0,
      "grad_norm": 2.1487156155062066,
      "language_loss": 0.79255456,
      "learning_rate": 2.2933887105474067e-06,
      "loss": 0.81384128,
      "num_input_tokens_seen": 83980075,
      "step": 3905,
      "time_per_iteration": 2.6001336574554443
    },
    {
      "auxiliary_loss_clip": 0.01096806,
      "auxiliary_loss_mlp": 0.01022153,
      "balance_loss_clip": 1.04783678,
      "balance_loss_mlp": 1.01666331,
      "epoch": 0.4696687308362893,
      "flos": 22018643856000.0,
      "grad_norm": 1.5428867247775215,
      "language_loss": 0.81653118,
      "learning_rate": 2.2926181436849974e-06,
      "loss": 0.83772081,
      "num_input_tokens_seen": 83999430,
      "step": 3906,
      "time_per_iteration": 2.703334093093872
    },
    {
      "auxiliary_loss_clip": 0.01096216,
      "auxiliary_loss_mlp": 0.01025287,
      "balance_loss_clip": 1.04726112,
      "balance_loss_mlp": 1.01930523,
      "epoch": 0.4697889737269284,
      "flos": 21615653692800.0,
      "grad_norm": 1.8006111729039829,
      "language_loss": 0.72952282,
      "learning_rate": 2.2918475324326478e-06,
      "loss": 0.75073779,
      "num_input_tokens_seen": 84019150,
      "step": 3907,
      "time_per_iteration": 2.5952444076538086
    },
    {
      "auxiliary_loss_clip": 0.01097963,
      "auxiliary_loss_mlp": 0.00756955,
      "balance_loss_clip": 1.04729486,
      "balance_loss_mlp": 1.0017122,
      "epoch": 0.46990921661756746,
      "flos": 25230658884480.0,
      "grad_norm": 3.0099725601438445,
      "language_loss": 0.91546738,
      "learning_rate": 2.2910768769072603e-06,
      "loss": 0.93401653,
      "num_input_tokens_seen": 84037930,
      "step": 3908,
      "time_per_iteration": 2.6946544647216797
    },
    {
      "auxiliary_loss_clip": 0.01101284,
      "auxiliary_loss_mlp": 0.01024561,
      "balance_loss_clip": 1.04909837,
      "balance_loss_mlp": 1.01886582,
      "epoch": 0.47002945950820657,
      "flos": 13845690754560.0,
      "grad_norm": 1.8247076545314416,
      "language_loss": 0.75863779,
      "learning_rate": 2.2903061772257417e-06,
      "loss": 0.77989626,
      "num_input_tokens_seen": 84055915,
      "step": 3909,
      "time_per_iteration": 2.499359607696533
    },
    {
      "auxiliary_loss_clip": 0.01098495,
      "auxiliary_loss_mlp": 0.01021861,
      "balance_loss_clip": 1.04893017,
      "balance_loss_mlp": 1.01643372,
      "epoch": 0.4701497023988457,
      "flos": 26249230356480.0,
      "grad_norm": 1.4660463017218062,
      "language_loss": 0.78542656,
      "learning_rate": 2.289535433505007e-06,
      "loss": 0.80663013,
      "num_input_tokens_seen": 84077270,
      "step": 3910,
      "time_per_iteration": 2.618098020553589
    },
    {
      "auxiliary_loss_clip": 0.01088039,
      "auxiliary_loss_mlp": 0.0102142,
      "balance_loss_clip": 1.04893422,
      "balance_loss_mlp": 1.01575446,
      "epoch": 0.47026994528948474,
      "flos": 25631866897920.0,
      "grad_norm": 2.009949075884993,
      "language_loss": 0.63839674,
      "learning_rate": 2.2887646458619767e-06,
      "loss": 0.6594913,
      "num_input_tokens_seen": 84098635,
      "step": 3911,
      "time_per_iteration": 2.5922186374664307
    },
    {
      "auxiliary_loss_clip": 0.01076658,
      "auxiliary_loss_mlp": 0.01025758,
      "balance_loss_clip": 1.04797602,
      "balance_loss_mlp": 1.01958263,
      "epoch": 0.47039018818012385,
      "flos": 20556272315520.0,
      "grad_norm": 2.259368814132249,
      "language_loss": 0.76765442,
      "learning_rate": 2.2879938144135797e-06,
      "loss": 0.78867859,
      "num_input_tokens_seen": 84114740,
      "step": 3912,
      "time_per_iteration": 3.372391700744629
    },
    {
      "auxiliary_loss_clip": 0.0106292,
      "auxiliary_loss_mlp": 0.00756628,
      "balance_loss_clip": 1.0385623,
      "balance_loss_mlp": 1.00172865,
      "epoch": 0.47051043107076296,
      "flos": 21579242284800.0,
      "grad_norm": 1.5329009631868258,
      "language_loss": 0.75136167,
      "learning_rate": 2.2872229392767496e-06,
      "loss": 0.76955712,
      "num_input_tokens_seen": 84134845,
      "step": 3913,
      "time_per_iteration": 2.7310593128204346
    },
    {
      "auxiliary_loss_clip": 0.01100734,
      "auxiliary_loss_mlp": 0.0102206,
      "balance_loss_clip": 1.04807472,
      "balance_loss_mlp": 1.01667452,
      "epoch": 0.470630673961402,
      "flos": 18955194151680.0,
      "grad_norm": 1.5224485034297512,
      "language_loss": 0.74743485,
      "learning_rate": 2.286452020568428e-06,
      "loss": 0.76866275,
      "num_input_tokens_seen": 84152920,
      "step": 3914,
      "time_per_iteration": 2.5063962936401367
    },
    {
      "auxiliary_loss_clip": 0.01111794,
      "auxiliary_loss_mlp": 0.01021466,
      "balance_loss_clip": 1.04772103,
      "balance_loss_mlp": 1.01521993,
      "epoch": 0.4707509168520411,
      "flos": 19941070187520.0,
      "grad_norm": 2.4325385838419926,
      "language_loss": 0.72840279,
      "learning_rate": 2.2856810584055637e-06,
      "loss": 0.74973541,
      "num_input_tokens_seen": 84170455,
      "step": 3915,
      "time_per_iteration": 2.5417354106903076
    },
    {
      "auxiliary_loss_clip": 0.01097524,
      "auxiliary_loss_mlp": 0.01020076,
      "balance_loss_clip": 1.04685664,
      "balance_loss_mlp": 1.0147171,
      "epoch": 0.47087115974268023,
      "flos": 40122156343680.0,
      "grad_norm": 1.8621534911881947,
      "language_loss": 0.67951304,
      "learning_rate": 2.2849100529051085e-06,
      "loss": 0.70068908,
      "num_input_tokens_seen": 84197390,
      "step": 3916,
      "time_per_iteration": 3.4129388332366943
    },
    {
      "auxiliary_loss_clip": 0.01111373,
      "auxiliary_loss_mlp": 0.01020848,
      "balance_loss_clip": 1.04922032,
      "balance_loss_mlp": 1.01517928,
      "epoch": 0.4709914026333193,
      "flos": 13554399490560.0,
      "grad_norm": 2.2920734569678842,
      "language_loss": 0.80545813,
      "learning_rate": 2.284139004184026e-06,
      "loss": 0.82678038,
      "num_input_tokens_seen": 84214620,
      "step": 3917,
      "time_per_iteration": 3.272888422012329
    },
    {
      "auxiliary_loss_clip": 0.01112646,
      "auxiliary_loss_mlp": 0.01021268,
      "balance_loss_clip": 1.05042791,
      "balance_loss_mlp": 1.01543009,
      "epoch": 0.4711116455239584,
      "flos": 19976685315840.0,
      "grad_norm": 2.14657785688427,
      "language_loss": 0.74405539,
      "learning_rate": 2.2833679123592814e-06,
      "loss": 0.76539457,
      "num_input_tokens_seen": 84231880,
      "step": 3918,
      "time_per_iteration": 3.266014337539673
    },
    {
      "auxiliary_loss_clip": 0.01080976,
      "auxiliary_loss_mlp": 0.01022512,
      "balance_loss_clip": 1.04248142,
      "balance_loss_mlp": 1.01669109,
      "epoch": 0.4712318884145975,
      "flos": 32127582228480.0,
      "grad_norm": 1.6701230415562602,
      "language_loss": 0.63359529,
      "learning_rate": 2.2825967775478508e-06,
      "loss": 0.65463018,
      "num_input_tokens_seen": 84252980,
      "step": 3919,
      "time_per_iteration": 2.6402320861816406
    },
    {
      "auxiliary_loss_clip": 0.01109665,
      "auxiliary_loss_mlp": 0.01020906,
      "balance_loss_clip": 1.04686522,
      "balance_loss_mlp": 1.01546967,
      "epoch": 0.47135213130523657,
      "flos": 20049925230720.0,
      "grad_norm": 2.6106837654909305,
      "language_loss": 0.83648175,
      "learning_rate": 2.2818255998667135e-06,
      "loss": 0.85778743,
      "num_input_tokens_seen": 84271490,
      "step": 3920,
      "time_per_iteration": 2.5117876529693604
    },
    {
      "auxiliary_loss_clip": 0.01099659,
      "auxiliary_loss_mlp": 0.01018112,
      "balance_loss_clip": 1.05092895,
      "balance_loss_mlp": 1.01287842,
      "epoch": 0.4714723741958757,
      "flos": 19428997472640.0,
      "grad_norm": 5.566999753940537,
      "language_loss": 0.79323041,
      "learning_rate": 2.2810543794328566e-06,
      "loss": 0.81440806,
      "num_input_tokens_seen": 84290525,
      "step": 3921,
      "time_per_iteration": 2.523468494415283
    },
    {
      "auxiliary_loss_clip": 0.01103009,
      "auxiliary_loss_mlp": 0.0102382,
      "balance_loss_clip": 1.05027807,
      "balance_loss_mlp": 1.01828229,
      "epoch": 0.4715926170865148,
      "flos": 20375845752960.0,
      "grad_norm": 1.7471529395848224,
      "language_loss": 0.82486558,
      "learning_rate": 2.2802831163632735e-06,
      "loss": 0.84613383,
      "num_input_tokens_seen": 84309245,
      "step": 3922,
      "time_per_iteration": 2.599804639816284
    },
    {
      "auxiliary_loss_clip": 0.01034405,
      "auxiliary_loss_mlp": 0.0102211,
      "balance_loss_clip": 1.03242421,
      "balance_loss_mlp": 1.01615262,
      "epoch": 0.47171285997715384,
      "flos": 22674997152000.0,
      "grad_norm": 1.697558974207978,
      "language_loss": 0.74719417,
      "learning_rate": 2.279511810774965e-06,
      "loss": 0.76775932,
      "num_input_tokens_seen": 84330775,
      "step": 3923,
      "time_per_iteration": 2.6531975269317627
    },
    {
      "auxiliary_loss_clip": 0.011121,
      "auxiliary_loss_mlp": 0.01025723,
      "balance_loss_clip": 1.04940104,
      "balance_loss_mlp": 1.01973844,
      "epoch": 0.47183310286779295,
      "flos": 21107524458240.0,
      "grad_norm": 1.8217396753981658,
      "language_loss": 0.71344042,
      "learning_rate": 2.2787404627849364e-06,
      "loss": 0.73481864,
      "num_input_tokens_seen": 84349985,
      "step": 3924,
      "time_per_iteration": 2.545870780944824
    },
    {
      "auxiliary_loss_clip": 0.01090473,
      "auxiliary_loss_mlp": 0.01020985,
      "balance_loss_clip": 1.04673076,
      "balance_loss_mlp": 1.01557553,
      "epoch": 0.471953345758432,
      "flos": 21728755560960.0,
      "grad_norm": 2.1557766579500033,
      "language_loss": 0.78907275,
      "learning_rate": 2.277969072510202e-06,
      "loss": 0.81018734,
      "num_input_tokens_seen": 84368965,
      "step": 3925,
      "time_per_iteration": 2.5922253131866455
    },
    {
      "auxiliary_loss_clip": 0.01083482,
      "auxiliary_loss_mlp": 0.01021152,
      "balance_loss_clip": 1.04528546,
      "balance_loss_mlp": 1.01573992,
      "epoch": 0.4720735886490711,
      "flos": 19862900922240.0,
      "grad_norm": 1.6902909558299497,
      "language_loss": 0.81401837,
      "learning_rate": 2.2771976400677803e-06,
      "loss": 0.83506465,
      "num_input_tokens_seen": 84387795,
      "step": 3926,
      "time_per_iteration": 2.6140007972717285
    },
    {
      "auxiliary_loss_clip": 0.01051288,
      "auxiliary_loss_mlp": 0.01019475,
      "balance_loss_clip": 1.03561008,
      "balance_loss_mlp": 1.01405668,
      "epoch": 0.47219383153971023,
      "flos": 19173814272000.0,
      "grad_norm": 1.7575060603355297,
      "language_loss": 0.79136789,
      "learning_rate": 2.2764261655746965e-06,
      "loss": 0.8120755,
      "num_input_tokens_seen": 84405290,
      "step": 3927,
      "time_per_iteration": 2.616044282913208
    },
    {
      "auxiliary_loss_clip": 0.01072837,
      "auxiliary_loss_mlp": 0.01020186,
      "balance_loss_clip": 1.04364645,
      "balance_loss_mlp": 1.0147562,
      "epoch": 0.4723140744303493,
      "flos": 23226363048960.0,
      "grad_norm": 1.6325510768210456,
      "language_loss": 0.76125854,
      "learning_rate": 2.2756546491479832e-06,
      "loss": 0.78218877,
      "num_input_tokens_seen": 84426205,
      "step": 3928,
      "time_per_iteration": 2.6799681186676025
    },
    {
      "auxiliary_loss_clip": 0.01111156,
      "auxiliary_loss_mlp": 0.00756739,
      "balance_loss_clip": 1.04792786,
      "balance_loss_mlp": 1.00165164,
      "epoch": 0.4724343173209884,
      "flos": 18225221760000.0,
      "grad_norm": 2.399942557503999,
      "language_loss": 0.79806066,
      "learning_rate": 2.274883090904679e-06,
      "loss": 0.81673968,
      "num_input_tokens_seen": 84443970,
      "step": 3929,
      "time_per_iteration": 2.483196496963501
    },
    {
      "auxiliary_loss_clip": 0.0111155,
      "auxiliary_loss_mlp": 0.01023905,
      "balance_loss_clip": 1.04900873,
      "balance_loss_mlp": 1.01829612,
      "epoch": 0.4725545602116275,
      "flos": 21253132172160.0,
      "grad_norm": 2.2889497873741043,
      "language_loss": 0.68026638,
      "learning_rate": 2.2741114909618283e-06,
      "loss": 0.70162094,
      "num_input_tokens_seen": 84459865,
      "step": 3930,
      "time_per_iteration": 2.543774127960205
    },
    {
      "auxiliary_loss_clip": 0.0107326,
      "auxiliary_loss_mlp": 0.01018015,
      "balance_loss_clip": 1.04505229,
      "balance_loss_mlp": 1.01238239,
      "epoch": 0.47267480310226656,
      "flos": 21436137164160.0,
      "grad_norm": 2.2560970101193467,
      "language_loss": 0.72395575,
      "learning_rate": 2.2733398494364828e-06,
      "loss": 0.74486852,
      "num_input_tokens_seen": 84479110,
      "step": 3931,
      "time_per_iteration": 2.5805513858795166
    },
    {
      "auxiliary_loss_clip": 0.01068366,
      "auxiliary_loss_mlp": 0.0101895,
      "balance_loss_clip": 1.03825092,
      "balance_loss_mlp": 1.01358902,
      "epoch": 0.47279504599290567,
      "flos": 18772492504320.0,
      "grad_norm": 2.5190910250201086,
      "language_loss": 0.84745926,
      "learning_rate": 2.272568166445699e-06,
      "loss": 0.86833245,
      "num_input_tokens_seen": 84497675,
      "step": 3932,
      "time_per_iteration": 2.5645220279693604
    },
    {
      "auxiliary_loss_clip": 0.01097044,
      "auxiliary_loss_mlp": 0.01015123,
      "balance_loss_clip": 1.04596019,
      "balance_loss_mlp": 1.00949299,
      "epoch": 0.4729152888835448,
      "flos": 21107865720960.0,
      "grad_norm": 1.9583216990623493,
      "language_loss": 0.64652801,
      "learning_rate": 2.271796442106541e-06,
      "loss": 0.66764963,
      "num_input_tokens_seen": 84517030,
      "step": 3933,
      "time_per_iteration": 2.5217411518096924
    },
    {
      "auxiliary_loss_clip": 0.01069672,
      "auxiliary_loss_mlp": 0.01004398,
      "balance_loss_clip": 1.06788909,
      "balance_loss_mlp": 1.00219238,
      "epoch": 0.47303553177418384,
      "flos": 70208007540480.0,
      "grad_norm": 0.8217167757567415,
      "language_loss": 0.56495625,
      "learning_rate": 2.271024676536079e-06,
      "loss": 0.58569694,
      "num_input_tokens_seen": 84577290,
      "step": 3934,
      "time_per_iteration": 3.1539649963378906
    },
    {
      "auxiliary_loss_clip": 0.01086175,
      "auxiliary_loss_mlp": 0.01023404,
      "balance_loss_clip": 1.04733992,
      "balance_loss_mlp": 1.01708877,
      "epoch": 0.47315577466482295,
      "flos": 22457287065600.0,
      "grad_norm": 2.165922711654065,
      "language_loss": 0.72828025,
      "learning_rate": 2.2702528698513894e-06,
      "loss": 0.74937606,
      "num_input_tokens_seen": 84598415,
      "step": 3935,
      "time_per_iteration": 2.610551595687866
    },
    {
      "auxiliary_loss_clip": 0.01091276,
      "auxiliary_loss_mlp": 0.01022432,
      "balance_loss_clip": 1.04742956,
      "balance_loss_mlp": 1.01665068,
      "epoch": 0.47327601755546206,
      "flos": 24355154615040.0,
      "grad_norm": 1.84520669499554,
      "language_loss": 0.78942668,
      "learning_rate": 2.269481022169554e-06,
      "loss": 0.81056374,
      "num_input_tokens_seen": 84617010,
      "step": 3936,
      "time_per_iteration": 2.610649585723877
    },
    {
      "auxiliary_loss_clip": 0.01089289,
      "auxiliary_loss_mlp": 0.01021242,
      "balance_loss_clip": 1.04730463,
      "balance_loss_mlp": 1.01549017,
      "epoch": 0.4733962604461011,
      "flos": 22928815301760.0,
      "grad_norm": 2.2038693123757174,
      "language_loss": 0.80672401,
      "learning_rate": 2.2687091336076614e-06,
      "loss": 0.82782936,
      "num_input_tokens_seen": 84636350,
      "step": 3937,
      "time_per_iteration": 2.627044916152954
    },
    {
      "auxiliary_loss_clip": 0.01094562,
      "auxiliary_loss_mlp": 0.01025905,
      "balance_loss_clip": 1.04522431,
      "balance_loss_mlp": 1.02019835,
      "epoch": 0.4735165033367402,
      "flos": 18329033698560.0,
      "grad_norm": 2.7126694662338293,
      "language_loss": 0.80250579,
      "learning_rate": 2.267937204282807e-06,
      "loss": 0.8237105,
      "num_input_tokens_seen": 84653490,
      "step": 3938,
      "time_per_iteration": 3.2964518070220947
    },
    {
      "auxiliary_loss_clip": 0.01100489,
      "auxiliary_loss_mlp": 0.01021373,
      "balance_loss_clip": 1.04825926,
      "balance_loss_mlp": 1.01504874,
      "epoch": 0.4736367462273793,
      "flos": 23039111232000.0,
      "grad_norm": 2.3414848399650183,
      "language_loss": 0.79279673,
      "learning_rate": 2.2671652343120926e-06,
      "loss": 0.81401527,
      "num_input_tokens_seen": 84673965,
      "step": 3939,
      "time_per_iteration": 2.636439085006714
    },
    {
      "auxiliary_loss_clip": 0.01110748,
      "auxiliary_loss_mlp": 0.01021533,
      "balance_loss_clip": 1.04893351,
      "balance_loss_mlp": 1.0160079,
      "epoch": 0.4737569891180184,
      "flos": 25376683697280.0,
      "grad_norm": 1.630189208406975,
      "language_loss": 0.80686116,
      "learning_rate": 2.2663932238126236e-06,
      "loss": 0.82818395,
      "num_input_tokens_seen": 84692525,
      "step": 3940,
      "time_per_iteration": 2.541938543319702
    },
    {
      "auxiliary_loss_clip": 0.0109983,
      "auxiliary_loss_mlp": 0.01017607,
      "balance_loss_clip": 1.04767561,
      "balance_loss_mlp": 1.0118078,
      "epoch": 0.4738772320086575,
      "flos": 25851738314880.0,
      "grad_norm": 1.4655067448558194,
      "language_loss": 0.8024919,
      "learning_rate": 2.265621172901515e-06,
      "loss": 0.82366633,
      "num_input_tokens_seen": 84715640,
      "step": 3941,
      "time_per_iteration": 2.6919796466827393
    },
    {
      "auxiliary_loss_clip": 0.0111191,
      "auxiliary_loss_mlp": 0.01025155,
      "balance_loss_clip": 1.04934454,
      "balance_loss_mlp": 1.01910257,
      "epoch": 0.47399747489929656,
      "flos": 27566942135040.0,
      "grad_norm": 2.657102062356709,
      "language_loss": 0.70790601,
      "learning_rate": 2.2648490816958854e-06,
      "loss": 0.72927672,
      "num_input_tokens_seen": 84736635,
      "step": 3942,
      "time_per_iteration": 4.184028625488281
    },
    {
      "auxiliary_loss_clip": 0.0110126,
      "auxiliary_loss_mlp": 0.01022662,
      "balance_loss_clip": 1.04809737,
      "balance_loss_mlp": 1.01637363,
      "epoch": 0.47411771778993567,
      "flos": 24865976033280.0,
      "grad_norm": 2.5069646559637,
      "language_loss": 0.72987163,
      "learning_rate": 2.264076950312861e-06,
      "loss": 0.75111091,
      "num_input_tokens_seen": 84755445,
      "step": 3943,
      "time_per_iteration": 2.5745482444763184
    },
    {
      "auxiliary_loss_clip": 0.01086161,
      "auxiliary_loss_mlp": 0.01023752,
      "balance_loss_clip": 1.04604542,
      "balance_loss_mlp": 1.01758599,
      "epoch": 0.4742379606805748,
      "flos": 22750246725120.0,
      "grad_norm": 2.5095507394853165,
      "language_loss": 0.82257271,
      "learning_rate": 2.2633047788695727e-06,
      "loss": 0.84367186,
      "num_input_tokens_seen": 84775750,
      "step": 3944,
      "time_per_iteration": 3.4028706550598145
    },
    {
      "auxiliary_loss_clip": 0.01085625,
      "auxiliary_loss_mlp": 0.01022417,
      "balance_loss_clip": 1.0473423,
      "balance_loss_mlp": 1.01702261,
      "epoch": 0.47435820357121383,
      "flos": 19683081048960.0,
      "grad_norm": 2.0402121320839743,
      "language_loss": 0.64202297,
      "learning_rate": 2.262532567483159e-06,
      "loss": 0.6631034,
      "num_input_tokens_seen": 84794310,
      "step": 3945,
      "time_per_iteration": 2.594254970550537
    },
    {
      "auxiliary_loss_clip": 0.01113165,
      "auxiliary_loss_mlp": 0.00756973,
      "balance_loss_clip": 1.05041516,
      "balance_loss_mlp": 1.00177073,
      "epoch": 0.47447844646185294,
      "flos": 25231075983360.0,
      "grad_norm": 3.2908650200068505,
      "language_loss": 0.80338669,
      "learning_rate": 2.2617603162707635e-06,
      "loss": 0.82208812,
      "num_input_tokens_seen": 84814720,
      "step": 3946,
      "time_per_iteration": 2.611175298690796
    },
    {
      "auxiliary_loss_clip": 0.0111001,
      "auxiliary_loss_mlp": 0.0102147,
      "balance_loss_clip": 1.04856122,
      "balance_loss_mlp": 1.01583731,
      "epoch": 0.47459868935249205,
      "flos": 24572864701440.0,
      "grad_norm": 1.906702805261078,
      "language_loss": 0.82688588,
      "learning_rate": 2.2609880253495363e-06,
      "loss": 0.84820068,
      "num_input_tokens_seen": 84834355,
      "step": 3947,
      "time_per_iteration": 2.5274295806884766
    },
    {
      "auxiliary_loss_clip": 0.01075822,
      "auxiliary_loss_mlp": 0.01026867,
      "balance_loss_clip": 1.0466938,
      "balance_loss_mlp": 1.02090645,
      "epoch": 0.4747189322431311,
      "flos": 20560594976640.0,
      "grad_norm": 1.7651935103143397,
      "language_loss": 0.86372739,
      "learning_rate": 2.260215694836633e-06,
      "loss": 0.8847543,
      "num_input_tokens_seen": 84853530,
      "step": 3948,
      "time_per_iteration": 2.6366987228393555
    },
    {
      "auxiliary_loss_clip": 0.01065047,
      "auxiliary_loss_mlp": 0.0075679,
      "balance_loss_clip": 1.04522872,
      "balance_loss_mlp": 1.00172567,
      "epoch": 0.4748391751337702,
      "flos": 25997649373440.0,
      "grad_norm": 2.0209868570131877,
      "language_loss": 0.64987338,
      "learning_rate": 2.2594433248492157e-06,
      "loss": 0.66809165,
      "num_input_tokens_seen": 84872505,
      "step": 3949,
      "time_per_iteration": 2.7033112049102783
    },
    {
      "auxiliary_loss_clip": 0.01100106,
      "auxiliary_loss_mlp": 0.01022762,
      "balance_loss_clip": 1.04667616,
      "balance_loss_mlp": 1.01733804,
      "epoch": 0.47495941802440933,
      "flos": 22823297049600.0,
      "grad_norm": 2.761831050107444,
      "language_loss": 0.80490255,
      "learning_rate": 2.2586709155044527e-06,
      "loss": 0.82613122,
      "num_input_tokens_seen": 84893105,
      "step": 3950,
      "time_per_iteration": 2.6051905155181885
    },
    {
      "auxiliary_loss_clip": 0.01111904,
      "auxiliary_loss_mlp": 0.01021991,
      "balance_loss_clip": 1.04961419,
      "balance_loss_mlp": 1.01589084,
      "epoch": 0.4750796609150484,
      "flos": 27894265626240.0,
      "grad_norm": 1.732011056658428,
      "language_loss": 0.75926256,
      "learning_rate": 2.2578984669195167e-06,
      "loss": 0.7806015,
      "num_input_tokens_seen": 84914070,
      "step": 3951,
      "time_per_iteration": 2.5674281120300293
    },
    {
      "auxiliary_loss_clip": 0.01099184,
      "auxiliary_loss_mlp": 0.01021933,
      "balance_loss_clip": 1.04689932,
      "balance_loss_mlp": 1.01656818,
      "epoch": 0.4751999038056875,
      "flos": 35662825595520.0,
      "grad_norm": 1.858418000327347,
      "language_loss": 0.67886031,
      "learning_rate": 2.2571259792115887e-06,
      "loss": 0.70007145,
      "num_input_tokens_seen": 84935290,
      "step": 3952,
      "time_per_iteration": 2.6725313663482666
    },
    {
      "auxiliary_loss_clip": 0.01099557,
      "auxiliary_loss_mlp": 0.0102246,
      "balance_loss_clip": 1.04795361,
      "balance_loss_mlp": 1.01711082,
      "epoch": 0.4753201466963266,
      "flos": 22093059231360.0,
      "grad_norm": 1.7660518931820521,
      "language_loss": 0.79882491,
      "learning_rate": 2.2563534524978544e-06,
      "loss": 0.82004511,
      "num_input_tokens_seen": 84952760,
      "step": 3953,
      "time_per_iteration": 2.5817759037017822
    },
    {
      "auxiliary_loss_clip": 0.01067478,
      "auxiliary_loss_mlp": 0.01020837,
      "balance_loss_clip": 1.04804623,
      "balance_loss_mlp": 1.01557064,
      "epoch": 0.47544038958696566,
      "flos": 30193492861440.0,
      "grad_norm": 1.5313624006255435,
      "language_loss": 0.70619309,
      "learning_rate": 2.2555808868955052e-06,
      "loss": 0.72707617,
      "num_input_tokens_seen": 84974890,
      "step": 3954,
      "time_per_iteration": 2.6726646423339844
    },
    {
      "auxiliary_loss_clip": 0.01046509,
      "auxiliary_loss_mlp": 0.0102147,
      "balance_loss_clip": 1.03566372,
      "balance_loss_mlp": 1.01542628,
      "epoch": 0.47556063247760477,
      "flos": 23474190142080.0,
      "grad_norm": 2.2967146278052675,
      "language_loss": 0.74232876,
      "learning_rate": 2.254808282521738e-06,
      "loss": 0.76300853,
      "num_input_tokens_seen": 84993640,
      "step": 3955,
      "time_per_iteration": 2.739380359649658
    },
    {
      "auxiliary_loss_clip": 0.01073322,
      "auxiliary_loss_mlp": 0.00757092,
      "balance_loss_clip": 1.04382002,
      "balance_loss_mlp": 1.00179672,
      "epoch": 0.4756808753682438,
      "flos": 25157532723840.0,
      "grad_norm": 1.8863193995395795,
      "language_loss": 0.81175506,
      "learning_rate": 2.2540356394937573e-06,
      "loss": 0.83005917,
      "num_input_tokens_seen": 85012340,
      "step": 3956,
      "time_per_iteration": 2.6327428817749023
    },
    {
      "auxiliary_loss_clip": 0.01074463,
      "auxiliary_loss_mlp": 0.01021365,
      "balance_loss_clip": 1.04422307,
      "balance_loss_mlp": 1.01524353,
      "epoch": 0.47580111825888294,
      "flos": 15671569685760.0,
      "grad_norm": 2.1512957995101427,
      "language_loss": 0.84080851,
      "learning_rate": 2.253262957928772e-06,
      "loss": 0.86176682,
      "num_input_tokens_seen": 85029225,
      "step": 3957,
      "time_per_iteration": 2.6180636882781982
    },
    {
      "auxiliary_loss_clip": 0.01087909,
      "auxiliary_loss_mlp": 0.01021143,
      "balance_loss_clip": 1.04518294,
      "balance_loss_mlp": 1.01542687,
      "epoch": 0.47592136114952205,
      "flos": 17638316570880.0,
      "grad_norm": 2.0268438164795883,
      "language_loss": 0.72309852,
      "learning_rate": 2.2524902379439976e-06,
      "loss": 0.74418902,
      "num_input_tokens_seen": 85047895,
      "step": 3958,
      "time_per_iteration": 2.606616497039795
    },
    {
      "auxiliary_loss_clip": 0.0104525,
      "auxiliary_loss_mlp": 0.01003864,
      "balance_loss_clip": 1.07348871,
      "balance_loss_mlp": 1.00196826,
      "epoch": 0.4760416040401611,
      "flos": 61423264938240.0,
      "grad_norm": 0.751458279560313,
      "language_loss": 0.63722563,
      "learning_rate": 2.251717479656655e-06,
      "loss": 0.65771675,
      "num_input_tokens_seen": 85112690,
      "step": 3959,
      "time_per_iteration": 3.480008602142334
    },
    {
      "auxiliary_loss_clip": 0.01110676,
      "auxiliary_loss_mlp": 0.01023448,
      "balance_loss_clip": 1.04732442,
      "balance_loss_mlp": 1.01741636,
      "epoch": 0.4761618469308002,
      "flos": 18407847571200.0,
      "grad_norm": 5.301619740639313,
      "language_loss": 0.76376188,
      "learning_rate": 2.2509446831839704e-06,
      "loss": 0.78510314,
      "num_input_tokens_seen": 85132130,
      "step": 3960,
      "time_per_iteration": 3.031252384185791
    },
    {
      "auxiliary_loss_clip": 0.01085015,
      "auxiliary_loss_mlp": 0.01022481,
      "balance_loss_clip": 1.04411626,
      "balance_loss_mlp": 1.01660132,
      "epoch": 0.4762820898214393,
      "flos": 18042861375360.0,
      "grad_norm": 3.2651723414801483,
      "language_loss": 0.82432222,
      "learning_rate": 2.250171848643177e-06,
      "loss": 0.84539711,
      "num_input_tokens_seen": 85149420,
      "step": 3961,
      "time_per_iteration": 2.6508994102478027
    },
    {
      "auxiliary_loss_clip": 0.01081867,
      "auxiliary_loss_mlp": 0.01025429,
      "balance_loss_clip": 1.04520285,
      "balance_loss_mlp": 1.02019882,
      "epoch": 0.4764023327120784,
      "flos": 19320294101760.0,
      "grad_norm": 1.8804197953041166,
      "language_loss": 0.85994911,
      "learning_rate": 2.249398976151513e-06,
      "loss": 0.88102198,
      "num_input_tokens_seen": 85166970,
      "step": 3962,
      "time_per_iteration": 2.596675157546997
    },
    {
      "auxiliary_loss_clip": 0.01108094,
      "auxiliary_loss_mlp": 0.01025366,
      "balance_loss_clip": 1.04661345,
      "balance_loss_mlp": 1.01961446,
      "epoch": 0.4765225756027175,
      "flos": 22749450445440.0,
      "grad_norm": 2.1824547744827396,
      "language_loss": 0.7883532,
      "learning_rate": 2.248626065826223e-06,
      "loss": 0.80968779,
      "num_input_tokens_seen": 85185175,
      "step": 3963,
      "time_per_iteration": 3.3265182971954346
    },
    {
      "auxiliary_loss_clip": 0.01094488,
      "auxiliary_loss_mlp": 0.01007082,
      "balance_loss_clip": 1.06216681,
      "balance_loss_mlp": 1.00497198,
      "epoch": 0.4766428184933566,
      "flos": 65939303318400.0,
      "grad_norm": 0.7571092372096587,
      "language_loss": 0.62550437,
      "learning_rate": 2.2478531177845564e-06,
      "loss": 0.64652014,
      "num_input_tokens_seen": 85246170,
      "step": 3964,
      "time_per_iteration": 3.146111249923706
    },
    {
      "auxiliary_loss_clip": 0.01084588,
      "auxiliary_loss_mlp": 0.01019973,
      "balance_loss_clip": 1.04470754,
      "balance_loss_mlp": 1.01441836,
      "epoch": 0.47676306138399566,
      "flos": 24138923333760.0,
      "grad_norm": 1.8805504522066891,
      "language_loss": 0.84880728,
      "learning_rate": 2.247080132143769e-06,
      "loss": 0.8698529,
      "num_input_tokens_seen": 85268525,
      "step": 3965,
      "time_per_iteration": 2.6610918045043945
    },
    {
      "auxiliary_loss_clip": 0.01063838,
      "auxiliary_loss_mlp": 0.01021599,
      "balance_loss_clip": 1.03448641,
      "balance_loss_mlp": 1.01525378,
      "epoch": 0.47688330427463477,
      "flos": 12605958650880.0,
      "grad_norm": 2.046295075495567,
      "language_loss": 0.6947633,
      "learning_rate": 2.246307109021121e-06,
      "loss": 0.71561766,
      "num_input_tokens_seen": 85285930,
      "step": 3966,
      "time_per_iteration": 2.5926856994628906
    },
    {
      "auxiliary_loss_clip": 0.01088882,
      "auxiliary_loss_mlp": 0.01024522,
      "balance_loss_clip": 1.04558349,
      "balance_loss_mlp": 1.01861525,
      "epoch": 0.4770035471652739,
      "flos": 21392331730560.0,
      "grad_norm": 1.8253727851650963,
      "language_loss": 0.82302558,
      "learning_rate": 2.2455340485338817e-06,
      "loss": 0.8441596,
      "num_input_tokens_seen": 85303565,
      "step": 3967,
      "time_per_iteration": 2.57566237449646
    },
    {
      "auxiliary_loss_clip": 0.01100341,
      "auxiliary_loss_mlp": 0.01020974,
      "balance_loss_clip": 1.04789543,
      "balance_loss_mlp": 1.01535368,
      "epoch": 0.47712379005591293,
      "flos": 25158632348160.0,
      "grad_norm": 2.2230445617974604,
      "language_loss": 0.67847145,
      "learning_rate": 2.244760950799322e-06,
      "loss": 0.69968462,
      "num_input_tokens_seen": 85321835,
      "step": 3968,
      "time_per_iteration": 3.5787484645843506
    },
    {
      "auxiliary_loss_clip": 0.01068127,
      "auxiliary_loss_mlp": 0.01021693,
      "balance_loss_clip": 1.04137182,
      "balance_loss_mlp": 1.01597428,
      "epoch": 0.47724403294655204,
      "flos": 22056496151040.0,
      "grad_norm": 1.9576938150446912,
      "language_loss": 0.72739398,
      "learning_rate": 2.2439878159347203e-06,
      "loss": 0.74829215,
      "num_input_tokens_seen": 85341260,
      "step": 3969,
      "time_per_iteration": 3.416306972503662
    },
    {
      "auxiliary_loss_clip": 0.0109351,
      "auxiliary_loss_mlp": 0.01003634,
      "balance_loss_clip": 1.06114101,
      "balance_loss_mlp": 1.00154781,
      "epoch": 0.4773642758371911,
      "flos": 70237052789760.0,
      "grad_norm": 0.7282863666159728,
      "language_loss": 0.55246198,
      "learning_rate": 2.2432146440573616e-06,
      "loss": 0.5734334,
      "num_input_tokens_seen": 85407220,
      "step": 3970,
      "time_per_iteration": 3.198439836502075
    },
    {
      "auxiliary_loss_clip": 0.01072374,
      "auxiliary_loss_mlp": 0.01019169,
      "balance_loss_clip": 1.03957605,
      "balance_loss_mlp": 1.01354492,
      "epoch": 0.4774845187278302,
      "flos": 23550766848000.0,
      "grad_norm": 1.8419476515157054,
      "language_loss": 0.66780126,
      "learning_rate": 2.242441435284534e-06,
      "loss": 0.68871665,
      "num_input_tokens_seen": 85426095,
      "step": 3971,
      "time_per_iteration": 3.382925271987915
    },
    {
      "auxiliary_loss_clip": 0.01096427,
      "auxiliary_loss_mlp": 0.01023418,
      "balance_loss_clip": 1.04538083,
      "balance_loss_mlp": 1.01724911,
      "epoch": 0.4776047616184693,
      "flos": 23077570216320.0,
      "grad_norm": 2.2964035532805123,
      "language_loss": 0.85516059,
      "learning_rate": 2.2416681897335337e-06,
      "loss": 0.87635905,
      "num_input_tokens_seen": 85444245,
      "step": 3972,
      "time_per_iteration": 2.5947341918945312
    },
    {
      "auxiliary_loss_clip": 0.01046024,
      "auxiliary_loss_mlp": 0.0102679,
      "balance_loss_clip": 1.03381467,
      "balance_loss_mlp": 1.02082038,
      "epoch": 0.4777250045091084,
      "flos": 31900430540160.0,
      "grad_norm": 2.2451929239192467,
      "language_loss": 0.66808635,
      "learning_rate": 2.240894907521661e-06,
      "loss": 0.68881452,
      "num_input_tokens_seen": 85463325,
      "step": 3973,
      "time_per_iteration": 2.6809017658233643
    },
    {
      "auxiliary_loss_clip": 0.01087878,
      "auxiliary_loss_mlp": 0.0101921,
      "balance_loss_clip": 1.0478847,
      "balance_loss_mlp": 1.01352429,
      "epoch": 0.4778452473997475,
      "flos": 24280360058880.0,
      "grad_norm": 2.2971476032201754,
      "language_loss": 0.63604665,
      "learning_rate": 2.240121588766223e-06,
      "loss": 0.65711761,
      "num_input_tokens_seen": 85483375,
      "step": 3974,
      "time_per_iteration": 2.6239850521087646
    },
    {
      "auxiliary_loss_clip": 0.01085732,
      "auxiliary_loss_mlp": 0.01022789,
      "balance_loss_clip": 1.04530966,
      "balance_loss_mlp": 1.01709104,
      "epoch": 0.4779654902903866,
      "flos": 31577619300480.0,
      "grad_norm": 1.8270180537142873,
      "language_loss": 0.71465474,
      "learning_rate": 2.239348233584531e-06,
      "loss": 0.73573995,
      "num_input_tokens_seen": 85504230,
      "step": 3975,
      "time_per_iteration": 2.6283090114593506
    },
    {
      "auxiliary_loss_clip": 0.01097054,
      "auxiliary_loss_mlp": 0.01026687,
      "balance_loss_clip": 1.04606748,
      "balance_loss_mlp": 1.02085185,
      "epoch": 0.47808573318102565,
      "flos": 19502464896000.0,
      "grad_norm": 1.8384403783600811,
      "language_loss": 0.81057894,
      "learning_rate": 2.2385748420939013e-06,
      "loss": 0.83181632,
      "num_input_tokens_seen": 85523425,
      "step": 3976,
      "time_per_iteration": 2.5915029048919678
    },
    {
      "auxiliary_loss_clip": 0.01112585,
      "auxiliary_loss_mlp": 0.01020717,
      "balance_loss_clip": 1.05174732,
      "balance_loss_mlp": 1.01505721,
      "epoch": 0.47820597607166476,
      "flos": 22603311878400.0,
      "grad_norm": 1.9062535621779901,
      "language_loss": 0.71904898,
      "learning_rate": 2.2378014144116583e-06,
      "loss": 0.74038196,
      "num_input_tokens_seen": 85542235,
      "step": 3977,
      "time_per_iteration": 2.5337717533111572
    },
    {
      "auxiliary_loss_clip": 0.01112253,
      "auxiliary_loss_mlp": 0.01025127,
      "balance_loss_clip": 1.0485096,
      "balance_loss_mlp": 1.01965201,
      "epoch": 0.4783262189623039,
      "flos": 23005240335360.0,
      "grad_norm": 2.0937819130880015,
      "language_loss": 0.79706043,
      "learning_rate": 2.23702795065513e-06,
      "loss": 0.81843424,
      "num_input_tokens_seen": 85561815,
      "step": 3978,
      "time_per_iteration": 2.5612902641296387
    },
    {
      "auxiliary_loss_clip": 0.01084509,
      "auxiliary_loss_mlp": 0.01003378,
      "balance_loss_clip": 1.06215692,
      "balance_loss_mlp": 1.00142276,
      "epoch": 0.47844646185294293,
      "flos": 49777956748800.0,
      "grad_norm": 0.9835021978591205,
      "language_loss": 0.67437339,
      "learning_rate": 2.2362544509416493e-06,
      "loss": 0.69525218,
      "num_input_tokens_seen": 85613930,
      "step": 3979,
      "time_per_iteration": 2.9975709915161133
    },
    {
      "auxiliary_loss_clip": 0.01082531,
      "auxiliary_loss_mlp": 0.01027989,
      "balance_loss_clip": 1.04459858,
      "balance_loss_mlp": 1.02232099,
      "epoch": 0.47856670474358204,
      "flos": 20231603089920.0,
      "grad_norm": 2.1110090457635704,
      "language_loss": 0.82622039,
      "learning_rate": 2.2354809153885572e-06,
      "loss": 0.84732556,
      "num_input_tokens_seen": 85631000,
      "step": 3980,
      "time_per_iteration": 2.593740701675415
    },
    {
      "auxiliary_loss_clip": 0.01094894,
      "auxiliary_loss_mlp": 0.01023971,
      "balance_loss_clip": 1.04512525,
      "balance_loss_mlp": 1.01794529,
      "epoch": 0.47868694763422115,
      "flos": 20992754194560.0,
      "grad_norm": 2.28337538665171,
      "language_loss": 0.83335006,
      "learning_rate": 2.234707344113197e-06,
      "loss": 0.85453874,
      "num_input_tokens_seen": 85649095,
      "step": 3981,
      "time_per_iteration": 2.516765594482422
    },
    {
      "auxiliary_loss_clip": 0.01110154,
      "auxiliary_loss_mlp": 0.01022252,
      "balance_loss_clip": 1.04856396,
      "balance_loss_mlp": 1.01645529,
      "epoch": 0.4788071905248602,
      "flos": 19028585738880.0,
      "grad_norm": 1.6768502804993004,
      "language_loss": 0.77289951,
      "learning_rate": 2.233933737232919e-06,
      "loss": 0.79422355,
      "num_input_tokens_seen": 85666875,
      "step": 3982,
      "time_per_iteration": 2.54830002784729
    },
    {
      "auxiliary_loss_clip": 0.01050025,
      "auxiliary_loss_mlp": 0.00756758,
      "balance_loss_clip": 1.03667569,
      "balance_loss_mlp": 1.0017724,
      "epoch": 0.4789274334154993,
      "flos": 23004406137600.0,
      "grad_norm": 19.399846898145537,
      "language_loss": 0.78396213,
      "learning_rate": 2.2331600948650793e-06,
      "loss": 0.80202997,
      "num_input_tokens_seen": 85687020,
      "step": 3983,
      "time_per_iteration": 2.6593706607818604
    },
    {
      "auxiliary_loss_clip": 0.01068594,
      "auxiliary_loss_mlp": 0.00757112,
      "balance_loss_clip": 1.04629517,
      "balance_loss_mlp": 1.00173306,
      "epoch": 0.4790476763061384,
      "flos": 23077797724800.0,
      "grad_norm": 1.6069259133934597,
      "language_loss": 0.80096149,
      "learning_rate": 2.2323864171270386e-06,
      "loss": 0.81921852,
      "num_input_tokens_seen": 85708290,
      "step": 3984,
      "time_per_iteration": 2.7137629985809326
    },
    {
      "auxiliary_loss_clip": 0.0107355,
      "auxiliary_loss_mlp": 0.01022973,
      "balance_loss_clip": 1.04283464,
      "balance_loss_mlp": 1.01670516,
      "epoch": 0.4791679191967775,
      "flos": 21181446898560.0,
      "grad_norm": 2.205696527514279,
      "language_loss": 0.72633111,
      "learning_rate": 2.231612704136164e-06,
      "loss": 0.74729633,
      "num_input_tokens_seen": 85728660,
      "step": 3985,
      "time_per_iteration": 2.6740214824676514
    },
    {
      "auxiliary_loss_clip": 0.01100793,
      "auxiliary_loss_mlp": 0.01024463,
      "balance_loss_clip": 1.0480473,
      "balance_loss_mlp": 1.01863956,
      "epoch": 0.4792881620874166,
      "flos": 22303223619840.0,
      "grad_norm": 2.988322487402304,
      "language_loss": 0.75461757,
      "learning_rate": 2.2308389560098253e-06,
      "loss": 0.77587014,
      "num_input_tokens_seen": 85745035,
      "step": 3986,
      "time_per_iteration": 2.5191574096679688
    },
    {
      "auxiliary_loss_clip": 0.01066545,
      "auxiliary_loss_mlp": 0.01023198,
      "balance_loss_clip": 1.04745793,
      "balance_loss_mlp": 1.01714826,
      "epoch": 0.47940840497805565,
      "flos": 17422805733120.0,
      "grad_norm": 2.113432926546653,
      "language_loss": 0.77412015,
      "learning_rate": 2.2300651728654008e-06,
      "loss": 0.7950176,
      "num_input_tokens_seen": 85760295,
      "step": 3987,
      "time_per_iteration": 2.5957093238830566
    },
    {
      "auxiliary_loss_clip": 0.01080362,
      "auxiliary_loss_mlp": 0.00752283,
      "balance_loss_clip": 1.06011963,
      "balance_loss_mlp": 1.00089383,
      "epoch": 0.47952864786869476,
      "flos": 65364531914880.0,
      "grad_norm": 0.7304354058410656,
      "language_loss": 0.60146177,
      "learning_rate": 2.229291354820272e-06,
      "loss": 0.61978829,
      "num_input_tokens_seen": 85821305,
      "step": 3988,
      "time_per_iteration": 3.173870325088501
    },
    {
      "auxiliary_loss_clip": 0.01100839,
      "auxiliary_loss_mlp": 0.01024965,
      "balance_loss_clip": 1.04724836,
      "balance_loss_mlp": 1.01908779,
      "epoch": 0.47964889075933387,
      "flos": 16801650466560.0,
      "grad_norm": 2.4001986653817706,
      "language_loss": 0.76083112,
      "learning_rate": 2.228517501991828e-06,
      "loss": 0.78208911,
      "num_input_tokens_seen": 85840105,
      "step": 3989,
      "time_per_iteration": 3.353508710861206
    },
    {
      "auxiliary_loss_clip": 0.01071173,
      "auxiliary_loss_mlp": 0.01003507,
      "balance_loss_clip": 1.06080246,
      "balance_loss_mlp": 1.00144506,
      "epoch": 0.4797691336499729,
      "flos": 70086667397760.0,
      "grad_norm": 0.8161002590196416,
      "language_loss": 0.61010087,
      "learning_rate": 2.22774361449746e-06,
      "loss": 0.63084769,
      "num_input_tokens_seen": 85896585,
      "step": 3990,
      "time_per_iteration": 3.197566032409668
    },
    {
      "auxiliary_loss_clip": 0.01042121,
      "auxiliary_loss_mlp": 0.01020364,
      "balance_loss_clip": 1.04287982,
      "balance_loss_mlp": 1.01445723,
      "epoch": 0.47988937654061203,
      "flos": 18955345824000.0,
      "grad_norm": 2.7300599586572076,
      "language_loss": 0.70479906,
      "learning_rate": 2.2269696924545668e-06,
      "loss": 0.72542393,
      "num_input_tokens_seen": 85914415,
      "step": 3991,
      "time_per_iteration": 2.6827683448791504
    },
    {
      "auxiliary_loss_clip": 0.0107471,
      "auxiliary_loss_mlp": 0.01023376,
      "balance_loss_clip": 1.04593444,
      "balance_loss_mlp": 1.01781762,
      "epoch": 0.48000961943125114,
      "flos": 14463547148160.0,
      "grad_norm": 2.0421089762773654,
      "language_loss": 0.78116488,
      "learning_rate": 2.2261957359805523e-06,
      "loss": 0.80214578,
      "num_input_tokens_seen": 85931650,
      "step": 3992,
      "time_per_iteration": 2.613720178604126
    },
    {
      "auxiliary_loss_clip": 0.01110673,
      "auxiliary_loss_mlp": 0.01017273,
      "balance_loss_clip": 1.04813957,
      "balance_loss_mlp": 1.01138449,
      "epoch": 0.4801298623218902,
      "flos": 27053504369280.0,
      "grad_norm": 1.851479992535597,
      "language_loss": 0.74265838,
      "learning_rate": 2.225421745192823e-06,
      "loss": 0.76393783,
      "num_input_tokens_seen": 85951805,
      "step": 3993,
      "time_per_iteration": 2.5656464099884033
    },
    {
      "auxiliary_loss_clip": 0.0109379,
      "auxiliary_loss_mlp": 0.01023037,
      "balance_loss_clip": 1.04483771,
      "balance_loss_mlp": 1.01702893,
      "epoch": 0.4802501052125293,
      "flos": 26357402874240.0,
      "grad_norm": 2.0393530968579863,
      "language_loss": 0.78295851,
      "learning_rate": 2.2246477202087955e-06,
      "loss": 0.8041268,
      "num_input_tokens_seen": 85972485,
      "step": 3994,
      "time_per_iteration": 4.089417457580566
    },
    {
      "auxiliary_loss_clip": 0.01087416,
      "auxiliary_loss_mlp": 0.01024824,
      "balance_loss_clip": 1.04577637,
      "balance_loss_mlp": 1.01944518,
      "epoch": 0.4803703481031684,
      "flos": 20995901395200.0,
      "grad_norm": 1.6297669361772662,
      "language_loss": 0.82982379,
      "learning_rate": 2.223873661145887e-06,
      "loss": 0.85094619,
      "num_input_tokens_seen": 85992540,
      "step": 3995,
      "time_per_iteration": 2.618753433227539
    },
    {
      "auxiliary_loss_clip": 0.01079743,
      "auxiliary_loss_mlp": 0.00757028,
      "balance_loss_clip": 1.04777694,
      "balance_loss_mlp": 1.00171781,
      "epoch": 0.4804905909938075,
      "flos": 20705785591680.0,
      "grad_norm": 1.8012185926596238,
      "language_loss": 0.71211243,
      "learning_rate": 2.2230995681215226e-06,
      "loss": 0.73048013,
      "num_input_tokens_seen": 86012065,
      "step": 3996,
      "time_per_iteration": 3.372417688369751
    },
    {
      "auxiliary_loss_clip": 0.01072448,
      "auxiliary_loss_mlp": 0.01021048,
      "balance_loss_clip": 1.04464853,
      "balance_loss_mlp": 1.01550496,
      "epoch": 0.4806108338844466,
      "flos": 16656725278080.0,
      "grad_norm": 3.521098597276137,
      "language_loss": 0.78100574,
      "learning_rate": 2.2223254412531305e-06,
      "loss": 0.80194068,
      "num_input_tokens_seen": 86029435,
      "step": 3997,
      "time_per_iteration": 2.621997594833374
    },
    {
      "auxiliary_loss_clip": 0.01083608,
      "auxiliary_loss_mlp": 0.01021312,
      "balance_loss_clip": 1.04486179,
      "balance_loss_mlp": 1.01588166,
      "epoch": 0.4807310767750857,
      "flos": 20013400068480.0,
      "grad_norm": 1.7737819399281414,
      "language_loss": 0.82165945,
      "learning_rate": 2.221551280658146e-06,
      "loss": 0.84270865,
      "num_input_tokens_seen": 86048495,
      "step": 3998,
      "time_per_iteration": 2.56599497795105
    },
    {
      "auxiliary_loss_clip": 0.01062556,
      "auxiliary_loss_mlp": 0.01021776,
      "balance_loss_clip": 1.04540563,
      "balance_loss_mlp": 1.01621759,
      "epoch": 0.48085131966572475,
      "flos": 23187486965760.0,
      "grad_norm": 1.7906650066529135,
      "language_loss": 0.74240839,
      "learning_rate": 2.2207770864540085e-06,
      "loss": 0.76325172,
      "num_input_tokens_seen": 86067470,
      "step": 3999,
      "time_per_iteration": 2.6872167587280273
    },
    {
      "auxiliary_loss_clip": 0.01087754,
      "auxiliary_loss_mlp": 0.01021899,
      "balance_loss_clip": 1.04679549,
      "balance_loss_mlp": 1.01594746,
      "epoch": 0.48097156255636386,
      "flos": 20560746648960.0,
      "grad_norm": 1.97151659404191,
      "language_loss": 0.73459899,
      "learning_rate": 2.220002858758162e-06,
      "loss": 0.75569552,
      "num_input_tokens_seen": 86085460,
      "step": 4000,
      "time_per_iteration": 2.5633201599121094
    },
    {
      "auxiliary_loss_clip": 0.01082903,
      "auxiliary_loss_mlp": 0.01002653,
      "balance_loss_clip": 1.06079412,
      "balance_loss_mlp": 1.00062609,
      "epoch": 0.481091805447003,
      "flos": 70518750779520.0,
      "grad_norm": 0.873294530493176,
      "language_loss": 0.60836762,
      "learning_rate": 2.2192285976880573e-06,
      "loss": 0.62922317,
      "num_input_tokens_seen": 86149715,
      "step": 4001,
      "time_per_iteration": 3.185228109359741
    },
    {
      "auxiliary_loss_clip": 0.01077171,
      "auxiliary_loss_mlp": 0.00756707,
      "balance_loss_clip": 1.04692388,
      "balance_loss_mlp": 1.00161576,
      "epoch": 0.48121204833764203,
      "flos": 36431105299200.0,
      "grad_norm": 1.6386947794862041,
      "language_loss": 0.80933535,
      "learning_rate": 2.2184543033611485e-06,
      "loss": 0.82767415,
      "num_input_tokens_seen": 86170795,
      "step": 4002,
      "time_per_iteration": 2.742737293243408
    },
    {
      "auxiliary_loss_clip": 0.01097026,
      "auxiliary_loss_mlp": 0.01022904,
      "balance_loss_clip": 1.04548168,
      "balance_loss_mlp": 1.01753116,
      "epoch": 0.48133229122828114,
      "flos": 27492716350080.0,
      "grad_norm": 2.223840824280879,
      "language_loss": 0.8156355,
      "learning_rate": 2.2176799758948957e-06,
      "loss": 0.83683479,
      "num_input_tokens_seen": 86190955,
      "step": 4003,
      "time_per_iteration": 2.636016368865967
    },
    {
      "auxiliary_loss_clip": 0.01086942,
      "auxiliary_loss_mlp": 0.01027486,
      "balance_loss_clip": 1.04549479,
      "balance_loss_mlp": 1.0219847,
      "epoch": 0.4814525341189202,
      "flos": 43076295987840.0,
      "grad_norm": 1.769962196444109,
      "language_loss": 0.73388588,
      "learning_rate": 2.2169056154067635e-06,
      "loss": 0.75503016,
      "num_input_tokens_seen": 86214875,
      "step": 4004,
      "time_per_iteration": 2.8116109371185303
    },
    {
      "auxiliary_loss_clip": 0.01096226,
      "auxiliary_loss_mlp": 0.00756985,
      "balance_loss_clip": 1.04614091,
      "balance_loss_mlp": 1.00163746,
      "epoch": 0.4815727770095593,
      "flos": 24238829710080.0,
      "grad_norm": 1.9321311263607734,
      "language_loss": 0.82794261,
      "learning_rate": 2.216131222014222e-06,
      "loss": 0.84647471,
      "num_input_tokens_seen": 86232950,
      "step": 4005,
      "time_per_iteration": 2.6491615772247314
    },
    {
      "auxiliary_loss_clip": 0.01065169,
      "auxiliary_loss_mlp": 0.01024531,
      "balance_loss_clip": 1.03790653,
      "balance_loss_mlp": 1.01848447,
      "epoch": 0.4816930199001984,
      "flos": 18115570437120.0,
      "grad_norm": 2.4693150440281277,
      "language_loss": 0.80638516,
      "learning_rate": 2.2153567958347455e-06,
      "loss": 0.82728219,
      "num_input_tokens_seen": 86249160,
      "step": 4006,
      "time_per_iteration": 2.6362266540527344
    },
    {
      "auxiliary_loss_clip": 0.01083292,
      "auxiliary_loss_mlp": 0.01020736,
      "balance_loss_clip": 1.04629409,
      "balance_loss_mlp": 1.01455235,
      "epoch": 0.48181326279083747,
      "flos": 17276629248000.0,
      "grad_norm": 1.9084341960812914,
      "language_loss": 0.80271792,
      "learning_rate": 2.214582336985815e-06,
      "loss": 0.82375824,
      "num_input_tokens_seen": 86267060,
      "step": 4007,
      "time_per_iteration": 2.582029342651367
    },
    {
      "auxiliary_loss_clip": 0.01073231,
      "auxiliary_loss_mlp": 0.01020469,
      "balance_loss_clip": 1.03820848,
      "balance_loss_mlp": 1.01405573,
      "epoch": 0.4819335056814766,
      "flos": 14905034213760.0,
      "grad_norm": 2.4741437851037187,
      "language_loss": 0.6651935,
      "learning_rate": 2.2138078455849142e-06,
      "loss": 0.68613046,
      "num_input_tokens_seen": 86285055,
      "step": 4008,
      "time_per_iteration": 2.5629007816314697
    },
    {
      "auxiliary_loss_clip": 0.01096325,
      "auxiliary_loss_mlp": 0.01023411,
      "balance_loss_clip": 1.04789901,
      "balance_loss_mlp": 1.01793909,
      "epoch": 0.4820537485721157,
      "flos": 19246902514560.0,
      "grad_norm": 1.8057514114396642,
      "language_loss": 0.7879287,
      "learning_rate": 2.2130333217495334e-06,
      "loss": 0.80912614,
      "num_input_tokens_seen": 86304225,
      "step": 4009,
      "time_per_iteration": 2.5496346950531006
    },
    {
      "auxiliary_loss_clip": 0.01069007,
      "auxiliary_loss_mlp": 0.01021572,
      "balance_loss_clip": 1.03700924,
      "balance_loss_mlp": 1.01591539,
      "epoch": 0.48217399146275475,
      "flos": 16035607929600.0,
      "grad_norm": 2.8590472057475327,
      "language_loss": 0.68246263,
      "learning_rate": 2.2122587655971665e-06,
      "loss": 0.70336843,
      "num_input_tokens_seen": 86319170,
      "step": 4010,
      "time_per_iteration": 2.6037721633911133
    },
    {
      "auxiliary_loss_clip": 0.01083555,
      "auxiliary_loss_mlp": 0.01022564,
      "balance_loss_clip": 1.04484224,
      "balance_loss_mlp": 1.01719379,
      "epoch": 0.48229423435339386,
      "flos": 24136496576640.0,
      "grad_norm": 1.5912328316929736,
      "language_loss": 0.6396929,
      "learning_rate": 2.211484177245314e-06,
      "loss": 0.66075408,
      "num_input_tokens_seen": 86338760,
      "step": 4011,
      "time_per_iteration": 2.6002559661865234
    },
    {
      "auxiliary_loss_clip": 0.01111551,
      "auxiliary_loss_mlp": 0.01025525,
      "balance_loss_clip": 1.04881167,
      "balance_loss_mlp": 1.01990771,
      "epoch": 0.48241447724403297,
      "flos": 23807694280320.0,
      "grad_norm": 2.08556371119255,
      "language_loss": 0.72285295,
      "learning_rate": 2.21070955681148e-06,
      "loss": 0.74422371,
      "num_input_tokens_seen": 86357865,
      "step": 4012,
      "time_per_iteration": 2.5531370639801025
    },
    {
      "auxiliary_loss_clip": 0.01060271,
      "auxiliary_loss_mlp": 0.01022236,
      "balance_loss_clip": 1.0355835,
      "balance_loss_mlp": 1.01674986,
      "epoch": 0.482534720134672,
      "flos": 23112426983040.0,
      "grad_norm": 1.5665862642190054,
      "language_loss": 0.78175354,
      "learning_rate": 2.209934904413174e-06,
      "loss": 0.80257857,
      "num_input_tokens_seen": 86379470,
      "step": 4013,
      "time_per_iteration": 2.6325509548187256
    },
    {
      "auxiliary_loss_clip": 0.01041904,
      "auxiliary_loss_mlp": 0.01022925,
      "balance_loss_clip": 1.03590858,
      "balance_loss_mlp": 1.01687765,
      "epoch": 0.48265496302531113,
      "flos": 20925960353280.0,
      "grad_norm": 1.9127269394782154,
      "language_loss": 0.71839076,
      "learning_rate": 2.2091602201679095e-06,
      "loss": 0.73903906,
      "num_input_tokens_seen": 86399080,
      "step": 4014,
      "time_per_iteration": 3.5733208656311035
    },
    {
      "auxiliary_loss_clip": 0.01075457,
      "auxiliary_loss_mlp": 0.01022009,
      "balance_loss_clip": 1.04639578,
      "balance_loss_mlp": 1.01635599,
      "epoch": 0.48277520591595025,
      "flos": 15232926476160.0,
      "grad_norm": 2.3438023167020505,
      "language_loss": 0.8334164,
      "learning_rate": 2.208385504193206e-06,
      "loss": 0.8543911,
      "num_input_tokens_seen": 86416580,
      "step": 4015,
      "time_per_iteration": 2.7682442665100098
    },
    {
      "auxiliary_loss_clip": 0.01110474,
      "auxiliary_loss_mlp": 0.01017082,
      "balance_loss_clip": 1.04848027,
      "balance_loss_mlp": 1.01118159,
      "epoch": 0.4828954488065893,
      "flos": 17860614744960.0,
      "grad_norm": 3.8529074640790992,
      "language_loss": 0.81230515,
      "learning_rate": 2.2076107566065873e-06,
      "loss": 0.83358073,
      "num_input_tokens_seen": 86434365,
      "step": 4016,
      "time_per_iteration": 2.5319440364837646
    },
    {
      "auxiliary_loss_clip": 0.01099739,
      "auxiliary_loss_mlp": 0.01025206,
      "balance_loss_clip": 1.05126798,
      "balance_loss_mlp": 1.02002311,
      "epoch": 0.4830156916972284,
      "flos": 32090109114240.0,
      "grad_norm": 2.375962257549996,
      "language_loss": 0.75212258,
      "learning_rate": 2.2068359775255816e-06,
      "loss": 0.77337205,
      "num_input_tokens_seen": 86452675,
      "step": 4017,
      "time_per_iteration": 2.615861415863037
    },
    {
      "auxiliary_loss_clip": 0.01048019,
      "auxiliary_loss_mlp": 0.01019717,
      "balance_loss_clip": 1.03716731,
      "balance_loss_mlp": 1.01393497,
      "epoch": 0.48313593458786747,
      "flos": 21873870339840.0,
      "grad_norm": 2.6532081676601926,
      "language_loss": 0.77997065,
      "learning_rate": 2.206061167067723e-06,
      "loss": 0.80064809,
      "num_input_tokens_seen": 86470785,
      "step": 4018,
      "time_per_iteration": 2.6420798301696777
    },
    {
      "auxiliary_loss_clip": 0.01077343,
      "auxiliary_loss_mlp": 0.01020879,
      "balance_loss_clip": 1.0461117,
      "balance_loss_mlp": 1.01454318,
      "epoch": 0.4832561774785066,
      "flos": 22603387714560.0,
      "grad_norm": 2.5139682065783875,
      "language_loss": 0.79567587,
      "learning_rate": 2.205286325350549e-06,
      "loss": 0.81665814,
      "num_input_tokens_seen": 86489850,
      "step": 4019,
      "time_per_iteration": 3.3963727951049805
    },
    {
      "auxiliary_loss_clip": 0.01046693,
      "auxiliary_loss_mlp": 0.0102201,
      "balance_loss_clip": 1.0328548,
      "balance_loss_mlp": 1.01680923,
      "epoch": 0.4833764203691457,
      "flos": 13438681274880.0,
      "grad_norm": 2.065942211457874,
      "language_loss": 0.72600365,
      "learning_rate": 2.204511452491603e-06,
      "loss": 0.74669063,
      "num_input_tokens_seen": 86506475,
      "step": 4020,
      "time_per_iteration": 3.3168036937713623
    },
    {
      "auxiliary_loss_clip": 0.01113801,
      "auxiliary_loss_mlp": 0.01022153,
      "balance_loss_clip": 1.05306995,
      "balance_loss_mlp": 1.0165174,
      "epoch": 0.48349666325978474,
      "flos": 44131430540160.0,
      "grad_norm": 1.8073146496828827,
      "language_loss": 0.75189435,
      "learning_rate": 2.2037365486084316e-06,
      "loss": 0.77325392,
      "num_input_tokens_seen": 86529715,
      "step": 4021,
      "time_per_iteration": 2.8033649921417236
    },
    {
      "auxiliary_loss_clip": 0.01075485,
      "auxiliary_loss_mlp": 0.01024556,
      "balance_loss_clip": 1.04557502,
      "balance_loss_mlp": 1.01896763,
      "epoch": 0.48361690615042385,
      "flos": 26030610236160.0,
      "grad_norm": 2.144273601495832,
      "language_loss": 0.78075027,
      "learning_rate": 2.2029616138185886e-06,
      "loss": 0.80175066,
      "num_input_tokens_seen": 86548715,
      "step": 4022,
      "time_per_iteration": 3.4779250621795654
    },
    {
      "auxiliary_loss_clip": 0.01059787,
      "auxiliary_loss_mlp": 0.0102253,
      "balance_loss_clip": 1.03619254,
      "balance_loss_mlp": 1.01698053,
      "epoch": 0.48373714904106296,
      "flos": 22275495452160.0,
      "grad_norm": 1.6445746598929327,
      "language_loss": 0.82471049,
      "learning_rate": 2.202186648239629e-06,
      "loss": 0.84553361,
      "num_input_tokens_seen": 86568650,
      "step": 4023,
      "time_per_iteration": 2.611266613006592
    },
    {
      "auxiliary_loss_clip": 0.01097241,
      "auxiliary_loss_mlp": 0.01021203,
      "balance_loss_clip": 1.04817605,
      "balance_loss_mlp": 1.01578808,
      "epoch": 0.483857391931702,
      "flos": 28294753196160.0,
      "grad_norm": 1.8851827758511273,
      "language_loss": 0.71794641,
      "learning_rate": 2.201411651989117e-06,
      "loss": 0.73913085,
      "num_input_tokens_seen": 86590630,
      "step": 4024,
      "time_per_iteration": 2.607901096343994
    },
    {
      "auxiliary_loss_clip": 0.01083252,
      "auxiliary_loss_mlp": 0.00756941,
      "balance_loss_clip": 1.04661596,
      "balance_loss_mlp": 1.00153327,
      "epoch": 0.48397763482234113,
      "flos": 27420538141440.0,
      "grad_norm": 2.4912723822691767,
      "language_loss": 0.78281319,
      "learning_rate": 2.2006366251846167e-06,
      "loss": 0.80121517,
      "num_input_tokens_seen": 86611270,
      "step": 4025,
      "time_per_iteration": 2.6185154914855957
    },
    {
      "auxiliary_loss_clip": 0.01076432,
      "auxiliary_loss_mlp": 0.01020294,
      "balance_loss_clip": 1.03931522,
      "balance_loss_mlp": 1.01483178,
      "epoch": 0.48409787771298024,
      "flos": 16798958282880.0,
      "grad_norm": 2.1842678617740843,
      "language_loss": 0.75408334,
      "learning_rate": 2.1998615679436997e-06,
      "loss": 0.77505052,
      "num_input_tokens_seen": 86628810,
      "step": 4026,
      "time_per_iteration": 2.5928730964660645
    },
    {
      "auxiliary_loss_clip": 0.01089168,
      "auxiliary_loss_mlp": 0.0102366,
      "balance_loss_clip": 1.04702187,
      "balance_loss_mlp": 1.01757705,
      "epoch": 0.4842181206036193,
      "flos": 25085885368320.0,
      "grad_norm": 2.1237958303956845,
      "language_loss": 0.77724302,
      "learning_rate": 2.199086480383942e-06,
      "loss": 0.79837126,
      "num_input_tokens_seen": 86648185,
      "step": 4027,
      "time_per_iteration": 2.5861542224884033
    },
    {
      "auxiliary_loss_clip": 0.01090816,
      "auxiliary_loss_mlp": 0.0102458,
      "balance_loss_clip": 1.048298,
      "balance_loss_mlp": 1.01809156,
      "epoch": 0.4843383634942584,
      "flos": 30374905294080.0,
      "grad_norm": 2.8819440616604233,
      "language_loss": 0.68098193,
      "learning_rate": 2.1983113626229234e-06,
      "loss": 0.70213592,
      "num_input_tokens_seen": 86667435,
      "step": 4028,
      "time_per_iteration": 2.6935646533966064
    },
    {
      "auxiliary_loss_clip": 0.01079769,
      "auxiliary_loss_mlp": 0.00756888,
      "balance_loss_clip": 1.04774427,
      "balance_loss_mlp": 1.00160408,
      "epoch": 0.4844586063848975,
      "flos": 20415707706240.0,
      "grad_norm": 2.1497921159810582,
      "language_loss": 0.78719521,
      "learning_rate": 2.1975362147782293e-06,
      "loss": 0.80556178,
      "num_input_tokens_seen": 86686630,
      "step": 4029,
      "time_per_iteration": 2.6015145778656006
    },
    {
      "auxiliary_loss_clip": 0.01091294,
      "auxiliary_loss_mlp": 0.0100837,
      "balance_loss_clip": 1.08885908,
      "balance_loss_mlp": 1.00609338,
      "epoch": 0.48457884927553657,
      "flos": 70311468165120.0,
      "grad_norm": 0.7198469885369267,
      "language_loss": 0.54071927,
      "learning_rate": 2.196761036967448e-06,
      "loss": 0.56171596,
      "num_input_tokens_seen": 86754595,
      "step": 4030,
      "time_per_iteration": 3.351588726043701
    },
    {
      "auxiliary_loss_clip": 0.01096375,
      "auxiliary_loss_mlp": 0.01020286,
      "balance_loss_clip": 1.04836166,
      "balance_loss_mlp": 1.01513314,
      "epoch": 0.4846990921661757,
      "flos": 19936368345600.0,
      "grad_norm": 1.8667023819130466,
      "language_loss": 0.77495086,
      "learning_rate": 2.1959858293081743e-06,
      "loss": 0.79611742,
      "num_input_tokens_seen": 86773730,
      "step": 4031,
      "time_per_iteration": 2.540778636932373
    },
    {
      "auxiliary_loss_clip": 0.01063564,
      "auxiliary_loss_mlp": 0.01021855,
      "balance_loss_clip": 1.03776801,
      "balance_loss_mlp": 1.01621938,
      "epoch": 0.4848193350568148,
      "flos": 23078176905600.0,
      "grad_norm": 1.6964267261252481,
      "language_loss": 0.76396674,
      "learning_rate": 2.1952105919180056e-06,
      "loss": 0.78482091,
      "num_input_tokens_seen": 86792985,
      "step": 4032,
      "time_per_iteration": 2.6783742904663086
    },
    {
      "auxiliary_loss_clip": 0.01073435,
      "auxiliary_loss_mlp": 0.01015889,
      "balance_loss_clip": 1.03853655,
      "balance_loss_mlp": 1.01019347,
      "epoch": 0.48493957794745385,
      "flos": 22457666246400.0,
      "grad_norm": 3.2710909484778132,
      "language_loss": 0.68342394,
      "learning_rate": 2.1944353249145456e-06,
      "loss": 0.70431721,
      "num_input_tokens_seen": 86812095,
      "step": 4033,
      "time_per_iteration": 2.5940675735473633
    },
    {
      "auxiliary_loss_clip": 0.01111431,
      "auxiliary_loss_mlp": 0.01021604,
      "balance_loss_clip": 1.04903364,
      "balance_loss_mlp": 1.01612329,
      "epoch": 0.48505982083809296,
      "flos": 25048450172160.0,
      "grad_norm": 1.6631435367457692,
      "language_loss": 0.74441189,
      "learning_rate": 2.193660028415401e-06,
      "loss": 0.76574224,
      "num_input_tokens_seen": 86832875,
      "step": 4034,
      "time_per_iteration": 2.604710578918457
    },
    {
      "auxiliary_loss_clip": 0.01085735,
      "auxiliary_loss_mlp": 0.01017355,
      "balance_loss_clip": 1.04550767,
      "balance_loss_mlp": 1.01157892,
      "epoch": 0.485180063728732,
      "flos": 26763843582720.0,
      "grad_norm": 1.8366150164048383,
      "language_loss": 0.82494903,
      "learning_rate": 2.1928847025381852e-06,
      "loss": 0.84597993,
      "num_input_tokens_seen": 86853480,
      "step": 4035,
      "time_per_iteration": 2.626530885696411
    },
    {
      "auxiliary_loss_clip": 0.01099933,
      "auxiliary_loss_mlp": 0.0102123,
      "balance_loss_clip": 1.04676151,
      "balance_loss_mlp": 1.01496875,
      "epoch": 0.4853003066193711,
      "flos": 24061322839680.0,
      "grad_norm": 1.909878767064385,
      "language_loss": 0.84166223,
      "learning_rate": 2.192109347400512e-06,
      "loss": 0.86287385,
      "num_input_tokens_seen": 86873695,
      "step": 4036,
      "time_per_iteration": 2.5792086124420166
    },
    {
      "auxiliary_loss_clip": 0.01089278,
      "auxiliary_loss_mlp": 0.0102303,
      "balance_loss_clip": 1.04792094,
      "balance_loss_mlp": 1.01684892,
      "epoch": 0.48542054951001024,
      "flos": 23078631922560.0,
      "grad_norm": 1.9529570763641442,
      "language_loss": 0.79265463,
      "learning_rate": 2.191333963120004e-06,
      "loss": 0.8137778,
      "num_input_tokens_seen": 86892675,
      "step": 4037,
      "time_per_iteration": 2.629267454147339
    },
    {
      "auxiliary_loss_clip": 0.01084354,
      "auxiliary_loss_mlp": 0.01023432,
      "balance_loss_clip": 1.04630387,
      "balance_loss_mlp": 1.017349,
      "epoch": 0.4855407924006493,
      "flos": 25667178681600.0,
      "grad_norm": 2.8742980225684973,
      "language_loss": 0.70082021,
      "learning_rate": 2.190558549814286e-06,
      "loss": 0.72189814,
      "num_input_tokens_seen": 86912835,
      "step": 4038,
      "time_per_iteration": 2.639388084411621
    },
    {
      "auxiliary_loss_clip": 0.01091015,
      "auxiliary_loss_mlp": 0.01020163,
      "balance_loss_clip": 1.04775929,
      "balance_loss_mlp": 1.01459265,
      "epoch": 0.4856610352912884,
      "flos": 23990206337280.0,
      "grad_norm": 1.965815627311133,
      "language_loss": 0.80078846,
      "learning_rate": 2.1897831076009872e-06,
      "loss": 0.82190025,
      "num_input_tokens_seen": 86932475,
      "step": 4039,
      "time_per_iteration": 2.690312147140503
    },
    {
      "auxiliary_loss_clip": 0.01096488,
      "auxiliary_loss_mlp": 0.01019988,
      "balance_loss_clip": 1.04657269,
      "balance_loss_mlp": 1.01432896,
      "epoch": 0.4857812781819275,
      "flos": 24099061380480.0,
      "grad_norm": 1.6920596881970527,
      "language_loss": 0.80218649,
      "learning_rate": 2.1890076365977426e-06,
      "loss": 0.82335126,
      "num_input_tokens_seen": 86952300,
      "step": 4040,
      "time_per_iteration": 3.4261550903320312
    },
    {
      "auxiliary_loss_clip": 0.010692,
      "auxiliary_loss_mlp": 0.01006406,
      "balance_loss_clip": 1.0591805,
      "balance_loss_mlp": 1.00442719,
      "epoch": 0.48590152107256657,
      "flos": 56272117438080.0,
      "grad_norm": 0.8526269764295241,
      "language_loss": 0.527403,
      "learning_rate": 2.188232136922189e-06,
      "loss": 0.54815906,
      "num_input_tokens_seen": 87010420,
      "step": 4041,
      "time_per_iteration": 3.095374345779419
    },
    {
      "auxiliary_loss_clip": 0.01035111,
      "auxiliary_loss_mlp": 0.01021285,
      "balance_loss_clip": 1.03575599,
      "balance_loss_mlp": 1.01521742,
      "epoch": 0.4860217639632057,
      "flos": 20049015196800.0,
      "grad_norm": 2.046812327885968,
      "language_loss": 0.76019192,
      "learning_rate": 2.187456608691971e-06,
      "loss": 0.78075594,
      "num_input_tokens_seen": 87029295,
      "step": 4042,
      "time_per_iteration": 2.768759250640869
    },
    {
      "auxiliary_loss_clip": 0.01066172,
      "auxiliary_loss_mlp": 0.01021969,
      "balance_loss_clip": 1.04032636,
      "balance_loss_mlp": 1.0160532,
      "epoch": 0.4861420068538448,
      "flos": 17824089582720.0,
      "grad_norm": 2.559551434907664,
      "language_loss": 0.87646842,
      "learning_rate": 2.1866810520247334e-06,
      "loss": 0.89734983,
      "num_input_tokens_seen": 87048165,
      "step": 4043,
      "time_per_iteration": 2.9465601444244385
    },
    {
      "auxiliary_loss_clip": 0.01101346,
      "auxiliary_loss_mlp": 0.01020209,
      "balance_loss_clip": 1.04885602,
      "balance_loss_mlp": 1.01401627,
      "epoch": 0.48626224974448384,
      "flos": 26252529229440.0,
      "grad_norm": 1.7287163155784224,
      "language_loss": 0.64994836,
      "learning_rate": 2.185905467038129e-06,
      "loss": 0.67116392,
      "num_input_tokens_seen": 87067070,
      "step": 4044,
      "time_per_iteration": 2.6589035987854004
    },
    {
      "auxiliary_loss_clip": 0.01110784,
      "auxiliary_loss_mlp": 0.01020287,
      "balance_loss_clip": 1.05075085,
      "balance_loss_mlp": 1.01469028,
      "epoch": 0.48638249263512295,
      "flos": 22056685741440.0,
      "grad_norm": 1.6545555695277492,
      "language_loss": 0.77768052,
      "learning_rate": 2.1851298538498127e-06,
      "loss": 0.7989912,
      "num_input_tokens_seen": 87086785,
      "step": 4045,
      "time_per_iteration": 3.2930281162261963
    },
    {
      "auxiliary_loss_clip": 0.01099694,
      "auxiliary_loss_mlp": 0.00756928,
      "balance_loss_clip": 1.04923904,
      "balance_loss_mlp": 1.00153649,
      "epoch": 0.48650273552576206,
      "flos": 25122334694400.0,
      "grad_norm": 2.379267199579122,
      "language_loss": 0.80033141,
      "learning_rate": 2.184354212577446e-06,
      "loss": 0.8188976,
      "num_input_tokens_seen": 87107090,
      "step": 4046,
      "time_per_iteration": 3.402510643005371
    },
    {
      "auxiliary_loss_clip": 0.01110889,
      "auxiliary_loss_mlp": 0.01021755,
      "balance_loss_clip": 1.04785919,
      "balance_loss_mlp": 1.01583016,
      "epoch": 0.4866229784164011,
      "flos": 17458837960320.0,
      "grad_norm": 2.6614480061433077,
      "language_loss": 0.62969148,
      "learning_rate": 2.1835785433386907e-06,
      "loss": 0.6510179,
      "num_input_tokens_seen": 87125905,
      "step": 4047,
      "time_per_iteration": 2.465988874435425
    },
    {
      "auxiliary_loss_clip": 0.01060347,
      "auxiliary_loss_mlp": 0.0102462,
      "balance_loss_clip": 1.03607142,
      "balance_loss_mlp": 1.01884699,
      "epoch": 0.48674322130704023,
      "flos": 23333360106240.0,
      "grad_norm": 1.7809321859109282,
      "language_loss": 0.65554488,
      "learning_rate": 2.182802846251216e-06,
      "loss": 0.67639452,
      "num_input_tokens_seen": 87146175,
      "step": 4048,
      "time_per_iteration": 3.5967955589294434
    },
    {
      "auxiliary_loss_clip": 0.01075116,
      "auxiliary_loss_mlp": 0.01016785,
      "balance_loss_clip": 1.04478264,
      "balance_loss_mlp": 1.01120591,
      "epoch": 0.4868634641976793,
      "flos": 28806901747200.0,
      "grad_norm": 1.9113948510045518,
      "language_loss": 0.72366655,
      "learning_rate": 2.182027121432696e-06,
      "loss": 0.74458563,
      "num_input_tokens_seen": 87166800,
      "step": 4049,
      "time_per_iteration": 2.733041286468506
    },
    {
      "auxiliary_loss_clip": 0.01112379,
      "auxiliary_loss_mlp": 0.010222,
      "balance_loss_clip": 1.05001926,
      "balance_loss_mlp": 1.01594424,
      "epoch": 0.4869837070883184,
      "flos": 19027979049600.0,
      "grad_norm": 2.345031654505216,
      "language_loss": 0.82326567,
      "learning_rate": 2.1812513690008054e-06,
      "loss": 0.84461147,
      "num_input_tokens_seen": 87185920,
      "step": 4050,
      "time_per_iteration": 2.5034468173980713
    },
    {
      "auxiliary_loss_clip": 0.01099822,
      "auxiliary_loss_mlp": 0.01020679,
      "balance_loss_clip": 1.0470165,
      "balance_loss_mlp": 1.01467085,
      "epoch": 0.4871039499789575,
      "flos": 15123161399040.0,
      "grad_norm": 2.8653653532264576,
      "language_loss": 0.79842651,
      "learning_rate": 2.180475589073227e-06,
      "loss": 0.81963146,
      "num_input_tokens_seen": 87203620,
      "step": 4051,
      "time_per_iteration": 2.577303171157837
    },
    {
      "auxiliary_loss_clip": 0.01097109,
      "auxiliary_loss_mlp": 0.01018601,
      "balance_loss_clip": 1.04478967,
      "balance_loss_mlp": 1.01306069,
      "epoch": 0.48722419286959656,
      "flos": 26176293786240.0,
      "grad_norm": 2.650830975140176,
      "language_loss": 0.73799682,
      "learning_rate": 2.1796997817676456e-06,
      "loss": 0.75915384,
      "num_input_tokens_seen": 87224630,
      "step": 4052,
      "time_per_iteration": 2.5595972537994385
    },
    {
      "auxiliary_loss_clip": 0.01099955,
      "auxiliary_loss_mlp": 0.00756654,
      "balance_loss_clip": 1.04872227,
      "balance_loss_mlp": 1.00156283,
      "epoch": 0.4873444357602357,
      "flos": 24028513649280.0,
      "grad_norm": 2.2560327721868565,
      "language_loss": 0.66992533,
      "learning_rate": 2.1789239472017494e-06,
      "loss": 0.68849134,
      "num_input_tokens_seen": 87246280,
      "step": 4053,
      "time_per_iteration": 2.6252853870391846
    },
    {
      "auxiliary_loss_clip": 0.01067567,
      "auxiliary_loss_mlp": 0.01023441,
      "balance_loss_clip": 1.03986359,
      "balance_loss_mlp": 1.01784396,
      "epoch": 0.4874646786508748,
      "flos": 22822652442240.0,
      "grad_norm": 3.6054810039635137,
      "language_loss": 0.73072809,
      "learning_rate": 2.1781480854932326e-06,
      "loss": 0.75163817,
      "num_input_tokens_seen": 87266045,
      "step": 4054,
      "time_per_iteration": 2.606342077255249
    },
    {
      "auxiliary_loss_clip": 0.01046325,
      "auxiliary_loss_mlp": 0.01025063,
      "balance_loss_clip": 1.03414321,
      "balance_loss_mlp": 1.01925707,
      "epoch": 0.48758492154151384,
      "flos": 21289695252480.0,
      "grad_norm": 1.9743522723652742,
      "language_loss": 0.79553711,
      "learning_rate": 2.1773721967597933e-06,
      "loss": 0.81625092,
      "num_input_tokens_seen": 87284495,
      "step": 4055,
      "time_per_iteration": 2.6876962184906006
    },
    {
      "auxiliary_loss_clip": 0.01064007,
      "auxiliary_loss_mlp": 0.01003458,
      "balance_loss_clip": 1.05558181,
      "balance_loss_mlp": 1.00138366,
      "epoch": 0.48770516443215295,
      "flos": 62249579406720.0,
      "grad_norm": 0.856753078345241,
      "language_loss": 0.57349288,
      "learning_rate": 2.1765962811191322e-06,
      "loss": 0.59416753,
      "num_input_tokens_seen": 87338960,
      "step": 4056,
      "time_per_iteration": 3.0879604816436768
    },
    {
      "auxiliary_loss_clip": 0.01026992,
      "auxiliary_loss_mlp": 0.01002084,
      "balance_loss_clip": 1.03785026,
      "balance_loss_mlp": 0.99999744,
      "epoch": 0.48782540732279206,
      "flos": 66140357316480.0,
      "grad_norm": 0.8258618373672925,
      "language_loss": 0.62046635,
      "learning_rate": 2.1758203386889566e-06,
      "loss": 0.64075708,
      "num_input_tokens_seen": 87401730,
      "step": 4057,
      "time_per_iteration": 3.284573793411255
    },
    {
      "auxiliary_loss_clip": 0.01076198,
      "auxiliary_loss_mlp": 0.00756992,
      "balance_loss_clip": 1.04538274,
      "balance_loss_mlp": 1.00159144,
      "epoch": 0.4879456502134311,
      "flos": 14609496124800.0,
      "grad_norm": 2.1376964566521286,
      "language_loss": 0.83856243,
      "learning_rate": 2.1750443695869746e-06,
      "loss": 0.85689437,
      "num_input_tokens_seen": 87417300,
      "step": 4058,
      "time_per_iteration": 2.6535325050354004
    },
    {
      "auxiliary_loss_clip": 0.01095488,
      "auxiliary_loss_mlp": 0.01023433,
      "balance_loss_clip": 1.04451084,
      "balance_loss_mlp": 1.01778865,
      "epoch": 0.4880658931040702,
      "flos": 19502502814080.0,
      "grad_norm": 2.089997103157286,
      "language_loss": 0.86020714,
      "learning_rate": 2.174268373930901e-06,
      "loss": 0.88139635,
      "num_input_tokens_seen": 87434815,
      "step": 4059,
      "time_per_iteration": 2.5338451862335205
    },
    {
      "auxiliary_loss_clip": 0.01056801,
      "auxiliary_loss_mlp": 0.00757235,
      "balance_loss_clip": 1.03643286,
      "balance_loss_mlp": 1.00161326,
      "epoch": 0.48818613599470934,
      "flos": 16724694579840.0,
      "grad_norm": 2.256916490271291,
      "language_loss": 0.80009961,
      "learning_rate": 2.1734923518384537e-06,
      "loss": 0.81823993,
      "num_input_tokens_seen": 87451420,
      "step": 4060,
      "time_per_iteration": 2.6039316654205322
    },
    {
      "auxiliary_loss_clip": 0.01061542,
      "auxiliary_loss_mlp": 0.0102559,
      "balance_loss_clip": 1.03848636,
      "balance_loss_mlp": 1.02017152,
      "epoch": 0.4883063788853484,
      "flos": 26759141740800.0,
      "grad_norm": 1.8970333710455785,
      "language_loss": 0.8257851,
      "learning_rate": 2.1727163034273547e-06,
      "loss": 0.84665638,
      "num_input_tokens_seen": 87469585,
      "step": 4061,
      "time_per_iteration": 2.633775234222412
    },
    {
      "auxiliary_loss_clip": 0.01099374,
      "auxiliary_loss_mlp": 0.01020081,
      "balance_loss_clip": 1.04720116,
      "balance_loss_mlp": 1.01417708,
      "epoch": 0.4884266217759875,
      "flos": 16765239058560.0,
      "grad_norm": 2.239446418038759,
      "language_loss": 0.79274249,
      "learning_rate": 2.17194022881533e-06,
      "loss": 0.81393695,
      "num_input_tokens_seen": 87485675,
      "step": 4062,
      "time_per_iteration": 2.568937301635742
    },
    {
      "auxiliary_loss_clip": 0.01085923,
      "auxiliary_loss_mlp": 0.01026199,
      "balance_loss_clip": 1.04548359,
      "balance_loss_mlp": 1.01997936,
      "epoch": 0.4885468646666266,
      "flos": 24209433146880.0,
      "grad_norm": 1.7604450720426519,
      "language_loss": 0.67734015,
      "learning_rate": 2.1711641281201092e-06,
      "loss": 0.69846141,
      "num_input_tokens_seen": 87505605,
      "step": 4063,
      "time_per_iteration": 2.591047763824463
    },
    {
      "auxiliary_loss_clip": 0.01096197,
      "auxiliary_loss_mlp": 0.01019596,
      "balance_loss_clip": 1.0472846,
      "balance_loss_mlp": 1.01392508,
      "epoch": 0.48866710755726567,
      "flos": 14612529571200.0,
      "grad_norm": 2.3103989939032377,
      "language_loss": 0.79014158,
      "learning_rate": 2.1703880014594264e-06,
      "loss": 0.81129956,
      "num_input_tokens_seen": 87523195,
      "step": 4064,
      "time_per_iteration": 2.5494041442871094
    },
    {
      "auxiliary_loss_clip": 0.01041328,
      "auxiliary_loss_mlp": 0.01025096,
      "balance_loss_clip": 1.03812122,
      "balance_loss_mlp": 1.01963949,
      "epoch": 0.4887873504479048,
      "flos": 28807015501440.0,
      "grad_norm": 1.6389563107801048,
      "language_loss": 0.73686528,
      "learning_rate": 2.1696118489510182e-06,
      "loss": 0.7575295,
      "num_input_tokens_seen": 87544125,
      "step": 4065,
      "time_per_iteration": 2.6830520629882812
    },
    {
      "auxiliary_loss_clip": 0.01073491,
      "auxiliary_loss_mlp": 0.00756952,
      "balance_loss_clip": 1.04470038,
      "balance_loss_mlp": 1.00149262,
      "epoch": 0.48890759333854383,
      "flos": 22786620215040.0,
      "grad_norm": 1.771822239453196,
      "language_loss": 0.72669959,
      "learning_rate": 2.1688356707126286e-06,
      "loss": 0.74500406,
      "num_input_tokens_seen": 87563745,
      "step": 4066,
      "time_per_iteration": 3.6106176376342773
    },
    {
      "auxiliary_loss_clip": 0.01072733,
      "auxiliary_loss_mlp": 0.01021657,
      "balance_loss_clip": 1.04341197,
      "balance_loss_mlp": 1.01581573,
      "epoch": 0.48902783622918294,
      "flos": 17788057355520.0,
      "grad_norm": 2.1772665667081097,
      "language_loss": 0.69886208,
      "learning_rate": 2.168059466862001e-06,
      "loss": 0.71980596,
      "num_input_tokens_seen": 87581895,
      "step": 4067,
      "time_per_iteration": 2.5941765308380127
    },
    {
      "auxiliary_loss_clip": 0.01082968,
      "auxiliary_loss_mlp": 0.01021429,
      "balance_loss_clip": 1.04255891,
      "balance_loss_mlp": 1.01619291,
      "epoch": 0.48914807911982205,
      "flos": 22312513549440.0,
      "grad_norm": 1.9088071073228972,
      "language_loss": 0.81901491,
      "learning_rate": 2.167283237516887e-06,
      "loss": 0.8400588,
      "num_input_tokens_seen": 87600170,
      "step": 4068,
      "time_per_iteration": 2.599778652191162
    },
    {
      "auxiliary_loss_clip": 0.01083189,
      "auxiliary_loss_mlp": 0.01028188,
      "balance_loss_clip": 1.04375136,
      "balance_loss_mlp": 1.02222443,
      "epoch": 0.4892683220104611,
      "flos": 16364903160960.0,
      "grad_norm": 1.8685194438459551,
      "language_loss": 0.74801576,
      "learning_rate": 2.1665069827950383e-06,
      "loss": 0.76912957,
      "num_input_tokens_seen": 87617455,
      "step": 4069,
      "time_per_iteration": 2.534255027770996
    },
    {
      "auxiliary_loss_clip": 0.01085282,
      "auxiliary_loss_mlp": 0.01021484,
      "balance_loss_clip": 1.04581833,
      "balance_loss_mlp": 1.01620269,
      "epoch": 0.4893885649011002,
      "flos": 15740790284160.0,
      "grad_norm": 2.481942122243435,
      "language_loss": 0.8686859,
      "learning_rate": 2.1657307028142126e-06,
      "loss": 0.88975352,
      "num_input_tokens_seen": 87634995,
      "step": 4070,
      "time_per_iteration": 2.551093339920044
    },
    {
      "auxiliary_loss_clip": 0.01082084,
      "auxiliary_loss_mlp": 0.01023708,
      "balance_loss_clip": 1.04541278,
      "balance_loss_mlp": 1.01754832,
      "epoch": 0.48950880779173933,
      "flos": 28584338146560.0,
      "grad_norm": 1.9032130689961806,
      "language_loss": 0.67351878,
      "learning_rate": 2.164954397692171e-06,
      "loss": 0.69457674,
      "num_input_tokens_seen": 87654420,
      "step": 4071,
      "time_per_iteration": 4.114039421081543
    },
    {
      "auxiliary_loss_clip": 0.01064558,
      "auxiliary_loss_mlp": 0.01002971,
      "balance_loss_clip": 1.05398595,
      "balance_loss_mlp": 1.00094438,
      "epoch": 0.4896290506823784,
      "flos": 66192097680000.0,
      "grad_norm": 1.0738825795964235,
      "language_loss": 0.7727986,
      "learning_rate": 2.164178067546678e-06,
      "loss": 0.7934739,
      "num_input_tokens_seen": 87713585,
      "step": 4072,
      "time_per_iteration": 3.2250094413757324
    },
    {
      "auxiliary_loss_clip": 0.01085735,
      "auxiliary_loss_mlp": 0.01024985,
      "balance_loss_clip": 1.04419029,
      "balance_loss_mlp": 1.01933193,
      "epoch": 0.4897492935730175,
      "flos": 12532680817920.0,
      "grad_norm": 1.8568501331900222,
      "language_loss": 0.9088372,
      "learning_rate": 2.163401712495504e-06,
      "loss": 0.9299444,
      "num_input_tokens_seen": 87731280,
      "step": 4073,
      "time_per_iteration": 2.572619915008545
    },
    {
      "auxiliary_loss_clip": 0.01041221,
      "auxiliary_loss_mlp": 0.01024763,
      "balance_loss_clip": 1.03454936,
      "balance_loss_mlp": 1.01883841,
      "epoch": 0.4898695364636566,
      "flos": 23479043656320.0,
      "grad_norm": 1.7266320618925317,
      "language_loss": 0.79130995,
      "learning_rate": 2.1626253326564194e-06,
      "loss": 0.81196982,
      "num_input_tokens_seen": 87750230,
      "step": 4074,
      "time_per_iteration": 3.45241641998291
    },
    {
      "auxiliary_loss_clip": 0.01084065,
      "auxiliary_loss_mlp": 0.01024187,
      "balance_loss_clip": 1.04427791,
      "balance_loss_mlp": 1.01825058,
      "epoch": 0.48998977935429566,
      "flos": 27162549002880.0,
      "grad_norm": 2.1744702691594373,
      "language_loss": 0.77150154,
      "learning_rate": 2.161848928147201e-06,
      "loss": 0.79258406,
      "num_input_tokens_seen": 87770500,
      "step": 4075,
      "time_per_iteration": 2.6162116527557373
    },
    {
      "auxiliary_loss_clip": 0.01095708,
      "auxiliary_loss_mlp": 0.01019582,
      "balance_loss_clip": 1.04660082,
      "balance_loss_mlp": 1.01355028,
      "epoch": 0.4901100222449348,
      "flos": 20341671511680.0,
      "grad_norm": 3.215379700046048,
      "language_loss": 0.80763626,
      "learning_rate": 2.161072499085629e-06,
      "loss": 0.82878911,
      "num_input_tokens_seen": 87789495,
      "step": 4076,
      "time_per_iteration": 2.5742552280426025
    },
    {
      "auxiliary_loss_clip": 0.01075989,
      "auxiliary_loss_mlp": 0.0102111,
      "balance_loss_clip": 1.04604638,
      "balance_loss_mlp": 1.01546216,
      "epoch": 0.4902302651355739,
      "flos": 30449017324800.0,
      "grad_norm": 1.7031652206008374,
      "language_loss": 0.83285832,
      "learning_rate": 2.160296045589487e-06,
      "loss": 0.85382932,
      "num_input_tokens_seen": 87812955,
      "step": 4077,
      "time_per_iteration": 2.702775239944458
    },
    {
      "auxiliary_loss_clip": 0.01084047,
      "auxiliary_loss_mlp": 0.01017952,
      "balance_loss_clip": 1.03900921,
      "balance_loss_mlp": 1.01209021,
      "epoch": 0.49035050802621294,
      "flos": 19176316865280.0,
      "grad_norm": 2.005571648146879,
      "language_loss": 0.70300359,
      "learning_rate": 2.159519567776562e-06,
      "loss": 0.72402358,
      "num_input_tokens_seen": 87832605,
      "step": 4078,
      "time_per_iteration": 2.5850489139556885
    },
    {
      "auxiliary_loss_clip": 0.01060116,
      "auxiliary_loss_mlp": 0.01019287,
      "balance_loss_clip": 1.04206467,
      "balance_loss_mlp": 1.01336837,
      "epoch": 0.49047075091685205,
      "flos": 22230211213440.0,
      "grad_norm": 2.818702520107684,
      "language_loss": 0.71019846,
      "learning_rate": 2.1587430657646463e-06,
      "loss": 0.73099256,
      "num_input_tokens_seen": 87846040,
      "step": 4079,
      "time_per_iteration": 2.595374345779419
    },
    {
      "auxiliary_loss_clip": 0.01081795,
      "auxiliary_loss_mlp": 0.01020222,
      "balance_loss_clip": 1.04570329,
      "balance_loss_mlp": 1.01459575,
      "epoch": 0.4905909938074911,
      "flos": 20158552765440.0,
      "grad_norm": 1.8289352770139924,
      "language_loss": 0.77991408,
      "learning_rate": 2.157966539671533e-06,
      "loss": 0.80093426,
      "num_input_tokens_seen": 87865680,
      "step": 4080,
      "time_per_iteration": 2.604217767715454
    },
    {
      "auxiliary_loss_clip": 0.01071822,
      "auxiliary_loss_mlp": 0.01020356,
      "balance_loss_clip": 1.0430547,
      "balance_loss_mlp": 1.01503336,
      "epoch": 0.4907112366981302,
      "flos": 17204147694720.0,
      "grad_norm": 2.088206082872846,
      "language_loss": 0.67439044,
      "learning_rate": 2.157189989615021e-06,
      "loss": 0.69531226,
      "num_input_tokens_seen": 87884270,
      "step": 4081,
      "time_per_iteration": 2.5790517330169678
    },
    {
      "auxiliary_loss_clip": 0.01099895,
      "auxiliary_loss_mlp": 0.00757049,
      "balance_loss_clip": 1.04662657,
      "balance_loss_mlp": 1.00161362,
      "epoch": 0.4908314795887693,
      "flos": 21691092856320.0,
      "grad_norm": 1.8673296363854226,
      "language_loss": 0.75294524,
      "learning_rate": 2.156413415712913e-06,
      "loss": 0.77151471,
      "num_input_tokens_seen": 87906320,
      "step": 4082,
      "time_per_iteration": 2.6035170555114746
    },
    {
      "auxiliary_loss_clip": 0.01085637,
      "auxiliary_loss_mlp": 0.00757135,
      "balance_loss_clip": 1.04549897,
      "balance_loss_mlp": 1.00165439,
      "epoch": 0.4909517224794084,
      "flos": 26216079903360.0,
      "grad_norm": 1.591906597825168,
      "language_loss": 0.78569913,
      "learning_rate": 2.155636818083014e-06,
      "loss": 0.8041268,
      "num_input_tokens_seen": 87927690,
      "step": 4083,
      "time_per_iteration": 2.610321521759033
    },
    {
      "auxiliary_loss_clip": 0.01080608,
      "auxiliary_loss_mlp": 0.01019126,
      "balance_loss_clip": 1.04498315,
      "balance_loss_mlp": 1.01395869,
      "epoch": 0.4910719653700475,
      "flos": 23150582622720.0,
      "grad_norm": 1.7851430672241686,
      "language_loss": 0.84479737,
      "learning_rate": 2.154860196843134e-06,
      "loss": 0.86579472,
      "num_input_tokens_seen": 87946885,
      "step": 4084,
      "time_per_iteration": 2.591007709503174
    },
    {
      "auxiliary_loss_clip": 0.01108679,
      "auxiliary_loss_mlp": 0.01021318,
      "balance_loss_clip": 1.04643881,
      "balance_loss_mlp": 1.0157094,
      "epoch": 0.4911922082606866,
      "flos": 23334118467840.0,
      "grad_norm": 1.8469048049697727,
      "language_loss": 0.76628172,
      "learning_rate": 2.154083552111085e-06,
      "loss": 0.78758168,
      "num_input_tokens_seen": 87966055,
      "step": 4085,
      "time_per_iteration": 2.5104286670684814
    },
    {
      "auxiliary_loss_clip": 0.01107597,
      "auxiliary_loss_mlp": 0.01019638,
      "balance_loss_clip": 1.04518056,
      "balance_loss_mlp": 1.01387405,
      "epoch": 0.49131245115132566,
      "flos": 29205683003520.0,
      "grad_norm": 1.9360957571523638,
      "language_loss": 0.81717235,
      "learning_rate": 2.1533068840046834e-06,
      "loss": 0.83844471,
      "num_input_tokens_seen": 87986320,
      "step": 4086,
      "time_per_iteration": 2.5686235427856445
    },
    {
      "auxiliary_loss_clip": 0.01083892,
      "auxiliary_loss_mlp": 0.00757173,
      "balance_loss_clip": 1.04451013,
      "balance_loss_mlp": 1.00166368,
      "epoch": 0.49143269404196477,
      "flos": 20148997409280.0,
      "grad_norm": 2.78740604750722,
      "language_loss": 0.61490017,
      "learning_rate": 2.152530192641749e-06,
      "loss": 0.63331085,
      "num_input_tokens_seen": 88001230,
      "step": 4087,
      "time_per_iteration": 2.5305426120758057
    },
    {
      "auxiliary_loss_clip": 0.01094732,
      "auxiliary_loss_mlp": 0.01025082,
      "balance_loss_clip": 1.04686511,
      "balance_loss_mlp": 1.01924109,
      "epoch": 0.4915529369326039,
      "flos": 24392134794240.0,
      "grad_norm": 1.8234642999635144,
      "language_loss": 0.72019702,
      "learning_rate": 2.1517534781401068e-06,
      "loss": 0.74139524,
      "num_input_tokens_seen": 88019110,
      "step": 4088,
      "time_per_iteration": 2.586179256439209
    },
    {
      "auxiliary_loss_clip": 0.0109279,
      "auxiliary_loss_mlp": 0.01021189,
      "balance_loss_clip": 1.04363096,
      "balance_loss_mlp": 1.01545787,
      "epoch": 0.49167317982324293,
      "flos": 10525806552960.0,
      "grad_norm": 2.17952057242521,
      "language_loss": 0.70060599,
      "learning_rate": 2.150976740617581e-06,
      "loss": 0.72174579,
      "num_input_tokens_seen": 88035670,
      "step": 4089,
      "time_per_iteration": 2.497499704360962
    },
    {
      "auxiliary_loss_clip": 0.01084075,
      "auxiliary_loss_mlp": 0.01023569,
      "balance_loss_clip": 1.04450428,
      "balance_loss_mlp": 1.01799035,
      "epoch": 0.49179342271388204,
      "flos": 25595796752640.0,
      "grad_norm": 1.9945246083349344,
      "language_loss": 0.7124539,
      "learning_rate": 2.150199980192006e-06,
      "loss": 0.73353034,
      "num_input_tokens_seen": 88054790,
      "step": 4090,
      "time_per_iteration": 2.686222553253174
    },
    {
      "auxiliary_loss_clip": 0.01074094,
      "auxiliary_loss_mlp": 0.01019284,
      "balance_loss_clip": 1.03881359,
      "balance_loss_mlp": 1.0139792,
      "epoch": 0.49191366560452116,
      "flos": 21103960158720.0,
      "grad_norm": 1.786258900034341,
      "language_loss": 0.81139833,
      "learning_rate": 2.1494231969812114e-06,
      "loss": 0.83233213,
      "num_input_tokens_seen": 88073780,
      "step": 4091,
      "time_per_iteration": 2.584057331085205
    },
    {
      "auxiliary_loss_clip": 0.01071925,
      "auxiliary_loss_mlp": 0.01022428,
      "balance_loss_clip": 1.04345489,
      "balance_loss_mlp": 1.01678646,
      "epoch": 0.4920339084951602,
      "flos": 26069903418240.0,
      "grad_norm": 2.0427317408300607,
      "language_loss": 0.81202346,
      "learning_rate": 2.1486463911030372e-06,
      "loss": 0.83296698,
      "num_input_tokens_seen": 88094430,
      "step": 4092,
      "time_per_iteration": 3.4170446395874023
    },
    {
      "auxiliary_loss_clip": 0.01078407,
      "auxiliary_loss_mlp": 0.01024919,
      "balance_loss_clip": 1.04023945,
      "balance_loss_mlp": 1.01929522,
      "epoch": 0.4921541513857993,
      "flos": 25083534447360.0,
      "grad_norm": 1.963856241493857,
      "language_loss": 0.74587035,
      "learning_rate": 2.147869562675324e-06,
      "loss": 0.76690364,
      "num_input_tokens_seen": 88113400,
      "step": 4093,
      "time_per_iteration": 2.731400966644287
    },
    {
      "auxiliary_loss_clip": 0.01092602,
      "auxiliary_loss_mlp": 0.01021262,
      "balance_loss_clip": 1.04298663,
      "balance_loss_mlp": 1.01566768,
      "epoch": 0.49227439427643843,
      "flos": 24392134794240.0,
      "grad_norm": 11.302052741064008,
      "language_loss": 0.72320324,
      "learning_rate": 2.147092711815915e-06,
      "loss": 0.74434185,
      "num_input_tokens_seen": 88132750,
      "step": 4094,
      "time_per_iteration": 2.636996269226074
    },
    {
      "auxiliary_loss_clip": 0.0105839,
      "auxiliary_loss_mlp": 0.01018036,
      "balance_loss_clip": 1.03604031,
      "balance_loss_mlp": 1.01252532,
      "epoch": 0.4923946371670775,
      "flos": 11365316513280.0,
      "grad_norm": 2.643988948749763,
      "language_loss": 0.86462826,
      "learning_rate": 2.1463158386426593e-06,
      "loss": 0.88539255,
      "num_input_tokens_seen": 88150560,
      "step": 4095,
      "time_per_iteration": 2.5913729667663574
    },
    {
      "auxiliary_loss_clip": 0.01084063,
      "auxiliary_loss_mlp": 0.01025042,
      "balance_loss_clip": 1.0431577,
      "balance_loss_mlp": 1.01884568,
      "epoch": 0.4925148800577166,
      "flos": 30448600225920.0,
      "grad_norm": 4.794414581703033,
      "language_loss": 0.77331132,
      "learning_rate": 2.145538943273407e-06,
      "loss": 0.79440236,
      "num_input_tokens_seen": 88170835,
      "step": 4096,
      "time_per_iteration": 3.52812123298645
    },
    {
      "auxiliary_loss_clip": 0.01107017,
      "auxiliary_loss_mlp": 0.01022919,
      "balance_loss_clip": 1.04537678,
      "balance_loss_mlp": 1.01737285,
      "epoch": 0.49263512294835565,
      "flos": 20852568766080.0,
      "grad_norm": 2.5524948210181075,
      "language_loss": 0.72160316,
      "learning_rate": 2.144762025826013e-06,
      "loss": 0.74290258,
      "num_input_tokens_seen": 88189925,
      "step": 4097,
      "time_per_iteration": 3.303701639175415
    },
    {
      "auxiliary_loss_clip": 0.01096573,
      "auxiliary_loss_mlp": 0.01025772,
      "balance_loss_clip": 1.04561448,
      "balance_loss_mlp": 1.02012455,
      "epoch": 0.49275536583899476,
      "flos": 23769652394880.0,
      "grad_norm": 2.11984504127808,
      "language_loss": 0.86673599,
      "learning_rate": 2.143985086418334e-06,
      "loss": 0.88795948,
      "num_input_tokens_seen": 88205105,
      "step": 4098,
      "time_per_iteration": 2.5748162269592285
    },
    {
      "auxiliary_loss_clip": 0.01082008,
      "auxiliary_loss_mlp": 0.01016428,
      "balance_loss_clip": 1.04306078,
      "balance_loss_mlp": 1.01102781,
      "epoch": 0.4928756087296339,
      "flos": 22275722960640.0,
      "grad_norm": 1.420362792065791,
      "language_loss": 0.76699454,
      "learning_rate": 2.1432081251682324e-06,
      "loss": 0.78797889,
      "num_input_tokens_seen": 88225475,
      "step": 4099,
      "time_per_iteration": 2.5772454738616943
    },
    {
      "auxiliary_loss_clip": 0.01089507,
      "auxiliary_loss_mlp": 0.01021719,
      "balance_loss_clip": 1.04609466,
      "balance_loss_mlp": 1.01602077,
      "epoch": 0.49299585162027293,
      "flos": 19647465920640.0,
      "grad_norm": 2.015831839221587,
      "language_loss": 0.86864597,
      "learning_rate": 2.142431142193572e-06,
      "loss": 0.88975823,
      "num_input_tokens_seen": 88243255,
      "step": 4100,
      "time_per_iteration": 3.3253724575042725
    },
    {
      "auxiliary_loss_clip": 0.01106609,
      "auxiliary_loss_mlp": 0.01021951,
      "balance_loss_clip": 1.04572546,
      "balance_loss_mlp": 1.01640785,
      "epoch": 0.49311609451091204,
      "flos": 38840211365760.0,
      "grad_norm": 2.0967425830063053,
      "language_loss": 0.71809125,
      "learning_rate": 2.1416541376122207e-06,
      "loss": 0.73937678,
      "num_input_tokens_seen": 88263435,
      "step": 4101,
      "time_per_iteration": 2.6405019760131836
    },
    {
      "auxiliary_loss_clip": 0.01104435,
      "auxiliary_loss_mlp": 0.01021831,
      "balance_loss_clip": 1.04384458,
      "balance_loss_mlp": 1.01588225,
      "epoch": 0.49323633740155115,
      "flos": 28331581703040.0,
      "grad_norm": 1.8761384155164467,
      "language_loss": 0.73282295,
      "learning_rate": 2.1408771115420496e-06,
      "loss": 0.75408566,
      "num_input_tokens_seen": 88283295,
      "step": 4102,
      "time_per_iteration": 2.558750867843628
    },
    {
      "auxiliary_loss_clip": 0.01051723,
      "auxiliary_loss_mlp": 0.0102164,
      "balance_loss_clip": 1.04158998,
      "balance_loss_mlp": 1.01627576,
      "epoch": 0.4933565802921902,
      "flos": 21137338120320.0,
      "grad_norm": 7.787140127063273,
      "language_loss": 0.64878917,
      "learning_rate": 2.140100064100932e-06,
      "loss": 0.66952276,
      "num_input_tokens_seen": 88299270,
      "step": 4103,
      "time_per_iteration": 2.607663631439209
    },
    {
      "auxiliary_loss_clip": 0.01090319,
      "auxiliary_loss_mlp": 0.01019769,
      "balance_loss_clip": 1.04231739,
      "balance_loss_mlp": 1.01449406,
      "epoch": 0.4934768231828293,
      "flos": 18040851717120.0,
      "grad_norm": 2.532704853147851,
      "language_loss": 0.75545907,
      "learning_rate": 2.139322995406746e-06,
      "loss": 0.77655995,
      "num_input_tokens_seen": 88316905,
      "step": 4104,
      "time_per_iteration": 2.5384328365325928
    },
    {
      "auxiliary_loss_clip": 0.01106641,
      "auxiliary_loss_mlp": 0.01025191,
      "balance_loss_clip": 1.04586649,
      "balance_loss_mlp": 1.01937079,
      "epoch": 0.4935970660734684,
      "flos": 23471801303040.0,
      "grad_norm": 1.9649414303978405,
      "language_loss": 0.79338682,
      "learning_rate": 2.1385459055773727e-06,
      "loss": 0.81470513,
      "num_input_tokens_seen": 88335095,
      "step": 4105,
      "time_per_iteration": 2.5125226974487305
    },
    {
      "auxiliary_loss_clip": 0.01058469,
      "auxiliary_loss_mlp": 0.00756497,
      "balance_loss_clip": 1.04247308,
      "balance_loss_mlp": 1.00149143,
      "epoch": 0.4937173089641075,
      "flos": 64483349984640.0,
      "grad_norm": 2.347569808293375,
      "language_loss": 0.73813009,
      "learning_rate": 2.137768794730696e-06,
      "loss": 0.75627971,
      "num_input_tokens_seen": 88358545,
      "step": 4106,
      "time_per_iteration": 3.029829502105713
    },
    {
      "auxiliary_loss_clip": 0.01084692,
      "auxiliary_loss_mlp": 0.01026195,
      "balance_loss_clip": 1.04620647,
      "balance_loss_mlp": 1.02001369,
      "epoch": 0.4938375518547466,
      "flos": 22348204513920.0,
      "grad_norm": 2.0912518628108705,
      "language_loss": 0.8012991,
      "learning_rate": 2.1369916629846026e-06,
      "loss": 0.82240796,
      "num_input_tokens_seen": 88378295,
      "step": 4107,
      "time_per_iteration": 2.637446403503418
    },
    {
      "auxiliary_loss_clip": 0.01080495,
      "auxiliary_loss_mlp": 0.01017959,
      "balance_loss_clip": 1.04134703,
      "balance_loss_mlp": 1.01262426,
      "epoch": 0.4939577947453857,
      "flos": 17860652663040.0,
      "grad_norm": 1.7847459437500535,
      "language_loss": 0.75119609,
      "learning_rate": 2.136214510456983e-06,
      "loss": 0.77218056,
      "num_input_tokens_seen": 88396750,
      "step": 4108,
      "time_per_iteration": 2.5579018592834473
    },
    {
      "auxiliary_loss_clip": 0.01033207,
      "auxiliary_loss_mlp": 0.00752083,
      "balance_loss_clip": 1.04076195,
      "balance_loss_mlp": 1.00079489,
      "epoch": 0.49407803763602476,
      "flos": 70073471905920.0,
      "grad_norm": 0.8966506719059026,
      "language_loss": 0.63110679,
      "learning_rate": 2.1354373372657296e-06,
      "loss": 0.6489597,
      "num_input_tokens_seen": 88455190,
      "step": 4109,
      "time_per_iteration": 3.426469564437866
    },
    {
      "auxiliary_loss_clip": 0.01105781,
      "auxiliary_loss_mlp": 0.01021847,
      "balance_loss_clip": 1.04582536,
      "balance_loss_mlp": 1.0166496,
      "epoch": 0.49419828052666387,
      "flos": 24319842831360.0,
      "grad_norm": 1.5700772641781982,
      "language_loss": 0.71095777,
      "learning_rate": 2.1346601435287404e-06,
      "loss": 0.73223406,
      "num_input_tokens_seen": 88477460,
      "step": 4110,
      "time_per_iteration": 2.730350971221924
    },
    {
      "auxiliary_loss_clip": 0.01079556,
      "auxiliary_loss_mlp": 0.01019138,
      "balance_loss_clip": 1.04140782,
      "balance_loss_mlp": 1.01380384,
      "epoch": 0.494318523417303,
      "flos": 29388536323200.0,
      "grad_norm": 1.9427217065358888,
      "language_loss": 0.80486703,
      "learning_rate": 2.1338829293639144e-06,
      "loss": 0.82585394,
      "num_input_tokens_seen": 88497820,
      "step": 4111,
      "time_per_iteration": 2.67765474319458
    },
    {
      "auxiliary_loss_clip": 0.01049456,
      "auxiliary_loss_mlp": 0.01025446,
      "balance_loss_clip": 1.03994799,
      "balance_loss_mlp": 1.0196104,
      "epoch": 0.49443876630794203,
      "flos": 15270096245760.0,
      "grad_norm": 1.861121680965094,
      "language_loss": 0.83230758,
      "learning_rate": 2.1331056948891547e-06,
      "loss": 0.85305667,
      "num_input_tokens_seen": 88514920,
      "step": 4112,
      "time_per_iteration": 2.6125826835632324
    },
    {
      "auxiliary_loss_clip": 0.01068166,
      "auxiliary_loss_mlp": 0.0101948,
      "balance_loss_clip": 1.03422499,
      "balance_loss_mlp": 1.01408839,
      "epoch": 0.49455900919858115,
      "flos": 12348993300480.0,
      "grad_norm": 2.203154172837439,
      "language_loss": 0.76133096,
      "learning_rate": 2.1323284402223666e-06,
      "loss": 0.78220737,
      "num_input_tokens_seen": 88530910,
      "step": 4113,
      "time_per_iteration": 2.5616507530212402
    },
    {
      "auxiliary_loss_clip": 0.01107989,
      "auxiliary_loss_mlp": 0.00756294,
      "balance_loss_clip": 1.04852319,
      "balance_loss_mlp": 1.00144804,
      "epoch": 0.4946792520892202,
      "flos": 22781577110400.0,
      "grad_norm": 2.1392733915029853,
      "language_loss": 0.88341922,
      "learning_rate": 2.1315511654814597e-06,
      "loss": 0.90206206,
      "num_input_tokens_seen": 88549320,
      "step": 4114,
      "time_per_iteration": 2.5008206367492676
    },
    {
      "auxiliary_loss_clip": 0.01076184,
      "auxiliary_loss_mlp": 0.01020389,
      "balance_loss_clip": 1.04156959,
      "balance_loss_mlp": 1.01517653,
      "epoch": 0.4947994949798593,
      "flos": 23150317196160.0,
      "grad_norm": 1.967051808848231,
      "language_loss": 0.78277224,
      "learning_rate": 2.1307738707843456e-06,
      "loss": 0.803738,
      "num_input_tokens_seen": 88568985,
      "step": 4115,
      "time_per_iteration": 2.6507999897003174
    },
    {
      "auxiliary_loss_clip": 0.01095201,
      "auxiliary_loss_mlp": 0.0102412,
      "balance_loss_clip": 1.04456449,
      "balance_loss_mlp": 1.01818943,
      "epoch": 0.4949197378704984,
      "flos": 23662276156800.0,
      "grad_norm": 2.229390930031121,
      "language_loss": 0.69519538,
      "learning_rate": 2.1299965562489385e-06,
      "loss": 0.71638858,
      "num_input_tokens_seen": 88588790,
      "step": 4116,
      "time_per_iteration": 2.5529468059539795
    },
    {
      "auxiliary_loss_clip": 0.01094999,
      "auxiliary_loss_mlp": 0.01024635,
      "balance_loss_clip": 1.04329538,
      "balance_loss_mlp": 1.01890981,
      "epoch": 0.4950399807611375,
      "flos": 26914191056640.0,
      "grad_norm": 1.37119976906203,
      "language_loss": 0.79028291,
      "learning_rate": 2.129219221993158e-06,
      "loss": 0.81147927,
      "num_input_tokens_seen": 88613575,
      "step": 4117,
      "time_per_iteration": 2.6408536434173584
    },
    {
      "auxiliary_loss_clip": 0.01030812,
      "auxiliary_loss_mlp": 0.01003225,
      "balance_loss_clip": 1.03015018,
      "balance_loss_mlp": 1.00096023,
      "epoch": 0.4951602236517766,
      "flos": 67321003000320.0,
      "grad_norm": 0.7844924998584941,
      "language_loss": 0.59883678,
      "learning_rate": 2.128441868134924e-06,
      "loss": 0.61917716,
      "num_input_tokens_seen": 88675510,
      "step": 4118,
      "time_per_iteration": 3.214425563812256
    },
    {
      "auxiliary_loss_clip": 0.01068788,
      "auxiliary_loss_mlp": 0.01022151,
      "balance_loss_clip": 1.04103446,
      "balance_loss_mlp": 1.01663768,
      "epoch": 0.4952804665424157,
      "flos": 19903483319040.0,
      "grad_norm": 2.0159310116158866,
      "language_loss": 0.82652837,
      "learning_rate": 2.1276644947921606e-06,
      "loss": 0.84743774,
      "num_input_tokens_seen": 88694425,
      "step": 4119,
      "time_per_iteration": 3.362166404724121
    },
    {
      "auxiliary_loss_clip": 0.01091013,
      "auxiliary_loss_mlp": 0.0102206,
      "balance_loss_clip": 1.04248571,
      "balance_loss_mlp": 1.01612043,
      "epoch": 0.49540070943305475,
      "flos": 18808790158080.0,
      "grad_norm": 1.6282496461006384,
      "language_loss": 0.82601297,
      "learning_rate": 2.126887102082795e-06,
      "loss": 0.84714371,
      "num_input_tokens_seen": 88714450,
      "step": 4120,
      "time_per_iteration": 2.560361385345459
    },
    {
      "auxiliary_loss_clip": 0.01072016,
      "auxiliary_loss_mlp": 0.01020357,
      "balance_loss_clip": 1.04241574,
      "balance_loss_mlp": 1.01487982,
      "epoch": 0.49552095232369386,
      "flos": 24936372092160.0,
      "grad_norm": 1.9919160949468,
      "language_loss": 0.70301062,
      "learning_rate": 2.126109690124757e-06,
      "loss": 0.72393435,
      "num_input_tokens_seen": 88735265,
      "step": 4121,
      "time_per_iteration": 2.617730140686035
    },
    {
      "auxiliary_loss_clip": 0.01054782,
      "auxiliary_loss_mlp": 0.01022545,
      "balance_loss_clip": 1.04004216,
      "balance_loss_mlp": 1.01692688,
      "epoch": 0.495641195214333,
      "flos": 22859480949120.0,
      "grad_norm": 1.692414390420936,
      "language_loss": 0.71117258,
      "learning_rate": 2.1253322590359786e-06,
      "loss": 0.73194587,
      "num_input_tokens_seen": 88754600,
      "step": 4122,
      "time_per_iteration": 3.4333231449127197
    },
    {
      "auxiliary_loss_clip": 0.01095264,
      "auxiliary_loss_mlp": 0.01023547,
      "balance_loss_clip": 1.04405761,
      "balance_loss_mlp": 1.01812267,
      "epoch": 0.49576143810497203,
      "flos": 25771786899840.0,
      "grad_norm": 1.6481171745979792,
      "language_loss": 0.74045688,
      "learning_rate": 2.124554808934397e-06,
      "loss": 0.76164496,
      "num_input_tokens_seen": 88775180,
      "step": 4123,
      "time_per_iteration": 3.565615653991699
    },
    {
      "auxiliary_loss_clip": 0.01065001,
      "auxiliary_loss_mlp": 0.01023031,
      "balance_loss_clip": 1.0439899,
      "balance_loss_mlp": 1.01703799,
      "epoch": 0.49588168099561114,
      "flos": 22131101116800.0,
      "grad_norm": 1.9116007615651585,
      "language_loss": 0.73239267,
      "learning_rate": 2.1237773399379496e-06,
      "loss": 0.75327301,
      "num_input_tokens_seen": 88796145,
      "step": 4124,
      "time_per_iteration": 2.707895517349243
    },
    {
      "auxiliary_loss_clip": 0.01079858,
      "auxiliary_loss_mlp": 0.01021434,
      "balance_loss_clip": 1.04120851,
      "balance_loss_mlp": 1.01544118,
      "epoch": 0.49600192388625025,
      "flos": 24389518446720.0,
      "grad_norm": 1.9465046065237486,
      "language_loss": 0.87111247,
      "learning_rate": 2.122999852164578e-06,
      "loss": 0.89212537,
      "num_input_tokens_seen": 88816765,
      "step": 4125,
      "time_per_iteration": 2.636366128921509
    },
    {
      "auxiliary_loss_clip": 0.01053138,
      "auxiliary_loss_mlp": 0.01018803,
      "balance_loss_clip": 1.04073131,
      "balance_loss_mlp": 1.01300323,
      "epoch": 0.4961221667768893,
      "flos": 22859670539520.0,
      "grad_norm": 2.330790797403664,
      "language_loss": 0.58118278,
      "learning_rate": 2.122222345732227e-06,
      "loss": 0.60190225,
      "num_input_tokens_seen": 88836680,
      "step": 4126,
      "time_per_iteration": 3.4211483001708984
    },
    {
      "auxiliary_loss_clip": 0.01069489,
      "auxiliary_loss_mlp": 0.01023621,
      "balance_loss_clip": 1.04103756,
      "balance_loss_mlp": 1.01757443,
      "epoch": 0.4962424096675284,
      "flos": 17860008055680.0,
      "grad_norm": 1.9654349774225848,
      "language_loss": 0.82774889,
      "learning_rate": 2.121444820758843e-06,
      "loss": 0.84868002,
      "num_input_tokens_seen": 88855320,
      "step": 4127,
      "time_per_iteration": 2.618061065673828
    },
    {
      "auxiliary_loss_clip": 0.01038012,
      "auxiliary_loss_mlp": 0.0102656,
      "balance_loss_clip": 1.02995396,
      "balance_loss_mlp": 1.02047122,
      "epoch": 0.49636265255816747,
      "flos": 21795473566080.0,
      "grad_norm": 1.9582706041735372,
      "language_loss": 0.79112649,
      "learning_rate": 2.120667277362376e-06,
      "loss": 0.81177211,
      "num_input_tokens_seen": 88874035,
      "step": 4128,
      "time_per_iteration": 2.647787570953369
    },
    {
      "auxiliary_loss_clip": 0.01106277,
      "auxiliary_loss_mlp": 0.01028562,
      "balance_loss_clip": 1.04490137,
      "balance_loss_mlp": 1.0226016,
      "epoch": 0.4964828954488066,
      "flos": 16360239237120.0,
      "grad_norm": 2.2075326375502247,
      "language_loss": 0.84773982,
      "learning_rate": 2.1198897156607796e-06,
      "loss": 0.86908817,
      "num_input_tokens_seen": 88891390,
      "step": 4129,
      "time_per_iteration": 2.500934362411499
    },
    {
      "auxiliary_loss_clip": 0.01091065,
      "auxiliary_loss_mlp": 0.01021241,
      "balance_loss_clip": 1.04277086,
      "balance_loss_mlp": 1.01556325,
      "epoch": 0.4966031383394457,
      "flos": 24713050129920.0,
      "grad_norm": 2.2405080378529436,
      "language_loss": 0.74111718,
      "learning_rate": 2.1191121357720085e-06,
      "loss": 0.76224029,
      "num_input_tokens_seen": 88909450,
      "step": 4130,
      "time_per_iteration": 2.582838296890259
    },
    {
      "auxiliary_loss_clip": 0.01052261,
      "auxiliary_loss_mlp": 0.01019706,
      "balance_loss_clip": 1.04204535,
      "balance_loss_mlp": 1.01408815,
      "epoch": 0.49672338123008475,
      "flos": 22932872536320.0,
      "grad_norm": 2.5008413213396965,
      "language_loss": 0.74563515,
      "learning_rate": 2.1183345378140206e-06,
      "loss": 0.76635486,
      "num_input_tokens_seen": 88929195,
      "step": 4131,
      "time_per_iteration": 2.6566920280456543
    },
    {
      "auxiliary_loss_clip": 0.01061832,
      "auxiliary_loss_mlp": 0.0100302,
      "balance_loss_clip": 1.04005408,
      "balance_loss_mlp": 1.00058806,
      "epoch": 0.49684362412072386,
      "flos": 65983032915840.0,
      "grad_norm": 0.8533206038604221,
      "language_loss": 0.61961269,
      "learning_rate": 2.1175569219047783e-06,
      "loss": 0.64026117,
      "num_input_tokens_seen": 88990635,
      "step": 4132,
      "time_per_iteration": 3.2431235313415527
    },
    {
      "auxiliary_loss_clip": 0.01106029,
      "auxiliary_loss_mlp": 0.01023788,
      "balance_loss_clip": 1.04489493,
      "balance_loss_mlp": 1.01852202,
      "epoch": 0.49696386701136297,
      "flos": 19973158934400.0,
      "grad_norm": 1.7865242753685875,
      "language_loss": 0.73306131,
      "learning_rate": 2.1167792881622437e-06,
      "loss": 0.75435948,
      "num_input_tokens_seen": 89009655,
      "step": 4133,
      "time_per_iteration": 2.523735523223877
    },
    {
      "auxiliary_loss_clip": 0.01069478,
      "auxiliary_loss_mlp": 0.01025034,
      "balance_loss_clip": 1.03531408,
      "balance_loss_mlp": 1.01983404,
      "epoch": 0.497084109902002,
      "flos": 24752950001280.0,
      "grad_norm": 1.6208881760233151,
      "language_loss": 0.81120431,
      "learning_rate": 2.116001636704384e-06,
      "loss": 0.83214939,
      "num_input_tokens_seen": 89030040,
      "step": 4134,
      "time_per_iteration": 2.62564754486084
    },
    {
      "auxiliary_loss_clip": 0.01058445,
      "auxiliary_loss_mlp": 0.01025001,
      "balance_loss_clip": 1.04214931,
      "balance_loss_mlp": 1.01923418,
      "epoch": 0.49720435279264114,
      "flos": 21873984094080.0,
      "grad_norm": 1.9415946967087219,
      "language_loss": 0.80461639,
      "learning_rate": 2.1152239676491685e-06,
      "loss": 0.8254509,
      "num_input_tokens_seen": 89048145,
      "step": 4135,
      "time_per_iteration": 2.626304864883423
    },
    {
      "auxiliary_loss_clip": 0.01083842,
      "auxiliary_loss_mlp": 0.01021177,
      "balance_loss_clip": 1.04225373,
      "balance_loss_mlp": 1.01548767,
      "epoch": 0.49732459568328025,
      "flos": 23808073461120.0,
      "grad_norm": 1.9715403240682683,
      "language_loss": 0.73655367,
      "learning_rate": 2.114446281114569e-06,
      "loss": 0.75760388,
      "num_input_tokens_seen": 89067165,
      "step": 4136,
      "time_per_iteration": 2.650496244430542
    },
    {
      "auxiliary_loss_clip": 0.01081636,
      "auxiliary_loss_mlp": 0.01022373,
      "balance_loss_clip": 1.04239619,
      "balance_loss_mlp": 1.01642442,
      "epoch": 0.4974448385739193,
      "flos": 20049811476480.0,
      "grad_norm": 1.8170946342377157,
      "language_loss": 0.76085591,
      "learning_rate": 2.1136685772185587e-06,
      "loss": 0.781896,
      "num_input_tokens_seen": 89086190,
      "step": 4137,
      "time_per_iteration": 2.571913957595825
    },
    {
      "auxiliary_loss_clip": 0.0108351,
      "auxiliary_loss_mlp": 0.00756915,
      "balance_loss_clip": 1.04107332,
      "balance_loss_mlp": 1.00154328,
      "epoch": 0.4975650814645584,
      "flos": 24823346060160.0,
      "grad_norm": 1.8353427783117828,
      "language_loss": 0.78004259,
      "learning_rate": 2.1128908560791163e-06,
      "loss": 0.79844683,
      "num_input_tokens_seen": 89106020,
      "step": 4138,
      "time_per_iteration": 2.661090850830078
    },
    {
      "auxiliary_loss_clip": 0.01105345,
      "auxiliary_loss_mlp": 0.01020592,
      "balance_loss_clip": 1.04476333,
      "balance_loss_mlp": 1.01499486,
      "epoch": 0.4976853243551975,
      "flos": 19831570536960.0,
      "grad_norm": 2.2743391001953284,
      "language_loss": 0.78359342,
      "learning_rate": 2.1121131178142203e-06,
      "loss": 0.80485272,
      "num_input_tokens_seen": 89125385,
      "step": 4139,
      "time_per_iteration": 2.4805009365081787
    },
    {
      "auxiliary_loss_clip": 0.01081375,
      "auxiliary_loss_mlp": 0.01018057,
      "balance_loss_clip": 1.04126751,
      "balance_loss_mlp": 1.01295841,
      "epoch": 0.4978055672458366,
      "flos": 23144894910720.0,
      "grad_norm": 1.7718703588552074,
      "language_loss": 0.82345492,
      "learning_rate": 2.1113353625418544e-06,
      "loss": 0.84444922,
      "num_input_tokens_seen": 89143935,
      "step": 4140,
      "time_per_iteration": 2.599578619003296
    },
    {
      "auxiliary_loss_clip": 0.01088033,
      "auxiliary_loss_mlp": 0.01022596,
      "balance_loss_clip": 1.04251885,
      "balance_loss_mlp": 1.01753008,
      "epoch": 0.4979258101364757,
      "flos": 15561728772480.0,
      "grad_norm": 2.2735134088235673,
      "language_loss": 0.79010862,
      "learning_rate": 2.1105575903800017e-06,
      "loss": 0.81121492,
      "num_input_tokens_seen": 89162655,
      "step": 4141,
      "time_per_iteration": 2.503373146057129
    },
    {
      "auxiliary_loss_clip": 0.01090621,
      "auxiliary_loss_mlp": 0.01021695,
      "balance_loss_clip": 1.04296637,
      "balance_loss_mlp": 1.01618171,
      "epoch": 0.4980460530271148,
      "flos": 26358388744320.0,
      "grad_norm": 1.9296711894603649,
      "language_loss": 0.85295868,
      "learning_rate": 2.1097798014466502e-06,
      "loss": 0.87408185,
      "num_input_tokens_seen": 89182255,
      "step": 4142,
      "time_per_iteration": 2.575146198272705
    },
    {
      "auxiliary_loss_clip": 0.01094611,
      "auxiliary_loss_mlp": 0.01023183,
      "balance_loss_clip": 1.04404354,
      "balance_loss_mlp": 1.0171752,
      "epoch": 0.49816629591775385,
      "flos": 17276439657600.0,
      "grad_norm": 2.6023942500832087,
      "language_loss": 0.58488691,
      "learning_rate": 2.109001995859791e-06,
      "loss": 0.60606492,
      "num_input_tokens_seen": 89201155,
      "step": 4143,
      "time_per_iteration": 2.4988913536071777
    },
    {
      "auxiliary_loss_clip": 0.01050778,
      "auxiliary_loss_mlp": 0.0100239,
      "balance_loss_clip": 1.04010558,
      "balance_loss_mlp": 1.00014877,
      "epoch": 0.49828653880839296,
      "flos": 64937870818560.0,
      "grad_norm": 0.7986818353332856,
      "language_loss": 0.60073972,
      "learning_rate": 2.108224173737415e-06,
      "loss": 0.62127137,
      "num_input_tokens_seen": 89264455,
      "step": 4144,
      "time_per_iteration": 3.915881872177124
    },
    {
      "auxiliary_loss_clip": 0.01070251,
      "auxiliary_loss_mlp": 0.01022602,
      "balance_loss_clip": 1.03581083,
      "balance_loss_mlp": 1.01650167,
      "epoch": 0.498406781699032,
      "flos": 27486952801920.0,
      "grad_norm": 1.8619728771127937,
      "language_loss": 0.76417744,
      "learning_rate": 2.1074463351975183e-06,
      "loss": 0.78510594,
      "num_input_tokens_seen": 89283340,
      "step": 4145,
      "time_per_iteration": 2.661625623703003
    },
    {
      "auxiliary_loss_clip": 0.01065417,
      "auxiliary_loss_mlp": 0.01018669,
      "balance_loss_clip": 1.04059708,
      "balance_loss_mlp": 1.01314366,
      "epoch": 0.49852702458967113,
      "flos": 31502331809280.0,
      "grad_norm": 1.736156064500096,
      "language_loss": 0.71686321,
      "learning_rate": 2.106668480358098e-06,
      "loss": 0.7377041,
      "num_input_tokens_seen": 89303565,
      "step": 4146,
      "time_per_iteration": 2.666585922241211
    },
    {
      "auxiliary_loss_clip": 0.01072596,
      "auxiliary_loss_mlp": 0.01018104,
      "balance_loss_clip": 1.04304266,
      "balance_loss_mlp": 1.01217008,
      "epoch": 0.49864726748031024,
      "flos": 22854854943360.0,
      "grad_norm": 1.8638787893364903,
      "language_loss": 0.7076351,
      "learning_rate": 2.105890609337154e-06,
      "loss": 0.72854209,
      "num_input_tokens_seen": 89322080,
      "step": 4147,
      "time_per_iteration": 2.656616687774658
    },
    {
      "auxiliary_loss_clip": 0.01071375,
      "auxiliary_loss_mlp": 0.01002391,
      "balance_loss_clip": 1.03999043,
      "balance_loss_mlp": 1.0003165,
      "epoch": 0.4987675103709493,
      "flos": 70413042936960.0,
      "grad_norm": 0.69199182842636,
      "language_loss": 0.6382376,
      "learning_rate": 2.1051127222526883e-06,
      "loss": 0.65897524,
      "num_input_tokens_seen": 89394195,
      "step": 4148,
      "time_per_iteration": 4.768166780471802
    },
    {
      "auxiliary_loss_clip": 0.01092084,
      "auxiliary_loss_mlp": 0.01017543,
      "balance_loss_clip": 1.04319108,
      "balance_loss_mlp": 1.01204717,
      "epoch": 0.4988877532615884,
      "flos": 28770111158400.0,
      "grad_norm": 1.6233520238019183,
      "language_loss": 0.80988073,
      "learning_rate": 2.1043348192227067e-06,
      "loss": 0.83097708,
      "num_input_tokens_seen": 89414565,
      "step": 4149,
      "time_per_iteration": 2.58296799659729
    },
    {
      "auxiliary_loss_clip": 0.01068011,
      "auxiliary_loss_mlp": 0.0102568,
      "balance_loss_clip": 1.04124928,
      "balance_loss_mlp": 1.02008331,
      "epoch": 0.4990079961522275,
      "flos": 16874549118720.0,
      "grad_norm": 2.1543550604676005,
      "language_loss": 0.61929548,
      "learning_rate": 2.1035569003652156e-06,
      "loss": 0.64023232,
      "num_input_tokens_seen": 89433195,
      "step": 4150,
      "time_per_iteration": 2.605203866958618
    },
    {
      "auxiliary_loss_clip": 0.01055917,
      "auxiliary_loss_mlp": 0.01027118,
      "balance_loss_clip": 1.03944385,
      "balance_loss_mlp": 1.02072215,
      "epoch": 0.4991282390428666,
      "flos": 13292353117440.0,
      "grad_norm": 4.9296970796245745,
      "language_loss": 0.81483704,
      "learning_rate": 2.1027789657982255e-06,
      "loss": 0.83566737,
      "num_input_tokens_seen": 89447410,
      "step": 4151,
      "time_per_iteration": 2.5978074073791504
    },
    {
      "auxiliary_loss_clip": 0.01048735,
      "auxiliary_loss_mlp": 0.01024483,
      "balance_loss_clip": 1.0375073,
      "balance_loss_mlp": 1.01897597,
      "epoch": 0.4992484819335057,
      "flos": 21539304495360.0,
      "grad_norm": 1.9052930063811242,
      "language_loss": 0.7741375,
      "learning_rate": 2.1020010156397482e-06,
      "loss": 0.79486966,
      "num_input_tokens_seen": 89464630,
      "step": 4152,
      "time_per_iteration": 3.4397873878479004
    },
    {
      "auxiliary_loss_clip": 0.01095817,
      "auxiliary_loss_mlp": 0.01023627,
      "balance_loss_clip": 1.04549265,
      "balance_loss_mlp": 1.01794934,
      "epoch": 0.4993687248241448,
      "flos": 24862222143360.0,
      "grad_norm": 2.057580395903211,
      "language_loss": 0.77592021,
      "learning_rate": 2.101223050007797e-06,
      "loss": 0.79711467,
      "num_input_tokens_seen": 89483180,
      "step": 4153,
      "time_per_iteration": 2.568009376525879
    },
    {
      "auxiliary_loss_clip": 0.01071087,
      "auxiliary_loss_mlp": 0.01002819,
      "balance_loss_clip": 1.03970075,
      "balance_loss_mlp": 1.00072122,
      "epoch": 0.49948896771478385,
      "flos": 62947349297280.0,
      "grad_norm": 0.8146365994710468,
      "language_loss": 0.53762162,
      "learning_rate": 2.1004450690203904e-06,
      "loss": 0.5583607,
      "num_input_tokens_seen": 89539260,
      "step": 4154,
      "time_per_iteration": 3.1888110637664795
    },
    {
      "auxiliary_loss_clip": 0.01071044,
      "auxiliary_loss_mlp": 0.01002473,
      "balance_loss_clip": 1.03968763,
      "balance_loss_mlp": 1.0003866,
      "epoch": 0.49960921060542296,
      "flos": 68291132981760.0,
      "grad_norm": 0.8984980026870197,
      "language_loss": 0.63284111,
      "learning_rate": 2.099667072795546e-06,
      "loss": 0.65357625,
      "num_input_tokens_seen": 89601380,
      "step": 4155,
      "time_per_iteration": 3.1722443103790283
    },
    {
      "auxiliary_loss_clip": 0.01091623,
      "auxiliary_loss_mlp": 0.01023647,
      "balance_loss_clip": 1.04203403,
      "balance_loss_mlp": 1.01770163,
      "epoch": 0.49972945349606207,
      "flos": 23661593631360.0,
      "grad_norm": 1.924434056870061,
      "language_loss": 0.79444492,
      "learning_rate": 2.0988890614512864e-06,
      "loss": 0.81559765,
      "num_input_tokens_seen": 89621270,
      "step": 4156,
      "time_per_iteration": 2.551671266555786
    },
    {
      "auxiliary_loss_clip": 0.01081632,
      "auxiliary_loss_mlp": 0.01022554,
      "balance_loss_clip": 1.04252887,
      "balance_loss_mlp": 1.01676345,
      "epoch": 0.4998496963867011,
      "flos": 19757875605120.0,
      "grad_norm": 1.8944365636055684,
      "language_loss": 0.84468222,
      "learning_rate": 2.098111035105635e-06,
      "loss": 0.86572409,
      "num_input_tokens_seen": 89639695,
      "step": 4157,
      "time_per_iteration": 2.5944535732269287
    },
    {
      "auxiliary_loss_clip": 0.0104288,
      "auxiliary_loss_mlp": 0.01023596,
      "balance_loss_clip": 1.03708375,
      "balance_loss_mlp": 1.01801085,
      "epoch": 0.49996993927734024,
      "flos": 22267494737280.0,
      "grad_norm": 1.8635849282168255,
      "language_loss": 0.73192108,
      "learning_rate": 2.0973329938766176e-06,
      "loss": 0.75258583,
      "num_input_tokens_seen": 89657125,
      "step": 4158,
      "time_per_iteration": 2.620234489440918
    },
    {
      "auxiliary_loss_clip": 0.01096193,
      "auxiliary_loss_mlp": 0.01024369,
      "balance_loss_clip": 1.04448938,
      "balance_loss_mlp": 1.01833677,
      "epoch": 0.5000901821679793,
      "flos": 23329227035520.0,
      "grad_norm": 1.992446511808671,
      "language_loss": 0.79032868,
      "learning_rate": 2.0965549378822618e-06,
      "loss": 0.81153429,
      "num_input_tokens_seen": 89678415,
      "step": 4159,
      "time_per_iteration": 2.608905792236328
    },
    {
      "auxiliary_loss_clip": 0.01010427,
      "auxiliary_loss_mlp": 0.01023039,
      "balance_loss_clip": 1.03307164,
      "balance_loss_mlp": 1.01719773,
      "epoch": 0.5002104250586185,
      "flos": 20341064822400.0,
      "grad_norm": 1.9582996903153314,
      "language_loss": 0.84287453,
      "learning_rate": 2.095776867240599e-06,
      "loss": 0.86320925,
      "num_input_tokens_seen": 89695405,
      "step": 4160,
      "time_per_iteration": 2.8742477893829346
    },
    {
      "auxiliary_loss_clip": 0.01069477,
      "auxiliary_loss_mlp": 0.01020563,
      "balance_loss_clip": 1.04208052,
      "balance_loss_mlp": 1.01525784,
      "epoch": 0.5003306679492575,
      "flos": 13993118536320.0,
      "grad_norm": 2.2076057228805417,
      "language_loss": 0.82445711,
      "learning_rate": 2.094998782069661e-06,
      "loss": 0.84535754,
      "num_input_tokens_seen": 89713110,
      "step": 4161,
      "time_per_iteration": 3.3021700382232666
    },
    {
      "auxiliary_loss_clip": 0.01107302,
      "auxiliary_loss_mlp": 0.01022655,
      "balance_loss_clip": 1.04641557,
      "balance_loss_mlp": 1.01702523,
      "epoch": 0.5004509108398966,
      "flos": 27675228407040.0,
      "grad_norm": 1.6231270707625438,
      "language_loss": 0.75724518,
      "learning_rate": 2.0942206824874845e-06,
      "loss": 0.77854478,
      "num_input_tokens_seen": 89735885,
      "step": 4162,
      "time_per_iteration": 2.6501290798187256
    },
    {
      "auxiliary_loss_clip": 0.01088396,
      "auxiliary_loss_mlp": 0.01022047,
      "balance_loss_clip": 1.04480886,
      "balance_loss_mlp": 1.01633954,
      "epoch": 0.5005711537305357,
      "flos": 14977970784000.0,
      "grad_norm": 2.3590309877394833,
      "language_loss": 0.79077613,
      "learning_rate": 2.093442568612105e-06,
      "loss": 0.81188059,
      "num_input_tokens_seen": 89753690,
      "step": 4163,
      "time_per_iteration": 2.5828075408935547
    },
    {
      "auxiliary_loss_clip": 0.01104831,
      "auxiliary_loss_mlp": 0.01019022,
      "balance_loss_clip": 1.04301131,
      "balance_loss_mlp": 1.01306784,
      "epoch": 0.5006913966211748,
      "flos": 26505551099520.0,
      "grad_norm": 1.5903178562301101,
      "language_loss": 0.85090059,
      "learning_rate": 2.0926644405615613e-06,
      "loss": 0.8721391,
      "num_input_tokens_seen": 89774590,
      "step": 4164,
      "time_per_iteration": 2.6113064289093018
    },
    {
      "auxiliary_loss_clip": 0.01053774,
      "auxiliary_loss_mlp": 0.01019765,
      "balance_loss_clip": 1.03451669,
      "balance_loss_mlp": 1.01442766,
      "epoch": 0.5008116395118138,
      "flos": 20451398670720.0,
      "grad_norm": 1.8413139499172848,
      "language_loss": 0.81298244,
      "learning_rate": 2.091886298453897e-06,
      "loss": 0.83371782,
      "num_input_tokens_seen": 89792775,
      "step": 4165,
      "time_per_iteration": 2.592272996902466
    },
    {
      "auxiliary_loss_clip": 0.01095206,
      "auxiliary_loss_mlp": 0.01016505,
      "balance_loss_clip": 1.04471302,
      "balance_loss_mlp": 1.01116407,
      "epoch": 0.500931882402453,
      "flos": 21582010304640.0,
      "grad_norm": 1.9934813902042414,
      "language_loss": 0.73177004,
      "learning_rate": 2.091108142407153e-06,
      "loss": 0.75288713,
      "num_input_tokens_seen": 89811515,
      "step": 4166,
      "time_per_iteration": 2.576066017150879
    },
    {
      "auxiliary_loss_clip": 0.01069088,
      "auxiliary_loss_mlp": 0.01003068,
      "balance_loss_clip": 1.06830502,
      "balance_loss_mlp": 1.0011847,
      "epoch": 0.5010521252930921,
      "flos": 57791831166720.0,
      "grad_norm": 0.8323687389462993,
      "language_loss": 0.62355322,
      "learning_rate": 2.090329972539377e-06,
      "loss": 0.64427477,
      "num_input_tokens_seen": 89870080,
      "step": 4167,
      "time_per_iteration": 3.2052416801452637
    },
    {
      "auxiliary_loss_clip": 0.01006023,
      "auxiliary_loss_mlp": 0.01022178,
      "balance_loss_clip": 1.02821612,
      "balance_loss_mlp": 1.01676583,
      "epoch": 0.5011723681837311,
      "flos": 18627529397760.0,
      "grad_norm": 1.6520058187765272,
      "language_loss": 0.68260717,
      "learning_rate": 2.089551788968616e-06,
      "loss": 0.70288914,
      "num_input_tokens_seen": 89888045,
      "step": 4168,
      "time_per_iteration": 2.896822214126587
    },
    {
      "auxiliary_loss_clip": 0.01071545,
      "auxiliary_loss_mlp": 0.01003442,
      "balance_loss_clip": 1.0401566,
      "balance_loss_mlp": 1.00140333,
      "epoch": 0.5012926110743702,
      "flos": 55889603038080.0,
      "grad_norm": 0.8340941241133564,
      "language_loss": 0.60790557,
      "learning_rate": 2.08877359181292e-06,
      "loss": 0.62865543,
      "num_input_tokens_seen": 89944610,
      "step": 4169,
      "time_per_iteration": 3.619107723236084
    },
    {
      "auxiliary_loss_clip": 0.01072464,
      "auxiliary_loss_mlp": 0.01019918,
      "balance_loss_clip": 1.04185009,
      "balance_loss_mlp": 1.01455975,
      "epoch": 0.5014128539650093,
      "flos": 24240270597120.0,
      "grad_norm": 2.7000591470956765,
      "language_loss": 0.85651624,
      "learning_rate": 2.0879953811903396e-06,
      "loss": 0.87744015,
      "num_input_tokens_seen": 89959495,
      "step": 4170,
      "time_per_iteration": 3.791969060897827
    },
    {
      "auxiliary_loss_clip": 0.01089694,
      "auxiliary_loss_mlp": 0.01023346,
      "balance_loss_clip": 1.04188108,
      "balance_loss_mlp": 1.01797259,
      "epoch": 0.5015330968556484,
      "flos": 27529961955840.0,
      "grad_norm": 2.555532014841412,
      "language_loss": 0.78638351,
      "learning_rate": 2.08721715721893e-06,
      "loss": 0.80751389,
      "num_input_tokens_seen": 89978820,
      "step": 4171,
      "time_per_iteration": 2.649399995803833
    },
    {
      "auxiliary_loss_clip": 0.01091937,
      "auxiliary_loss_mlp": 0.01021813,
      "balance_loss_clip": 1.04305136,
      "balance_loss_mlp": 1.01630282,
      "epoch": 0.5016533397462875,
      "flos": 23802802848000.0,
      "grad_norm": 4.411328534990983,
      "language_loss": 0.76964724,
      "learning_rate": 2.0864389200167477e-06,
      "loss": 0.79078484,
      "num_input_tokens_seen": 89997075,
      "step": 4172,
      "time_per_iteration": 2.5631191730499268
    },
    {
      "auxiliary_loss_clip": 0.01096,
      "auxiliary_loss_mlp": 0.00756742,
      "balance_loss_clip": 1.04463005,
      "balance_loss_mlp": 1.0016427,
      "epoch": 0.5017735826369266,
      "flos": 25296997708800.0,
      "grad_norm": 1.736698468536115,
      "language_loss": 0.7908026,
      "learning_rate": 2.0856606697018504e-06,
      "loss": 0.80932999,
      "num_input_tokens_seen": 90015085,
      "step": 4173,
      "time_per_iteration": 2.595144271850586
    },
    {
      "auxiliary_loss_clip": 0.01072646,
      "auxiliary_loss_mlp": 0.0102301,
      "balance_loss_clip": 1.03504956,
      "balance_loss_mlp": 1.01737785,
      "epoch": 0.5018938255275657,
      "flos": 16875079971840.0,
      "grad_norm": 3.226817256776147,
      "language_loss": 0.73376924,
      "learning_rate": 2.084882406392297e-06,
      "loss": 0.75472581,
      "num_input_tokens_seen": 90033045,
      "step": 4174,
      "time_per_iteration": 4.0225443840026855
    },
    {
      "auxiliary_loss_clip": 0.01094697,
      "auxiliary_loss_mlp": 0.0102147,
      "balance_loss_clip": 1.04497135,
      "balance_loss_mlp": 1.01591182,
      "epoch": 0.5020140684182047,
      "flos": 25517513733120.0,
      "grad_norm": 2.3895865928193474,
      "language_loss": 0.71071941,
      "learning_rate": 2.0841041302061496e-06,
      "loss": 0.73188108,
      "num_input_tokens_seen": 90052505,
      "step": 4175,
      "time_per_iteration": 2.5566558837890625
    },
    {
      "auxiliary_loss_clip": 0.01086588,
      "auxiliary_loss_mlp": 0.01026047,
      "balance_loss_clip": 1.04530847,
      "balance_loss_mlp": 1.02053404,
      "epoch": 0.5021343113088439,
      "flos": 23661517795200.0,
      "grad_norm": 2.177343634667706,
      "language_loss": 0.75790721,
      "learning_rate": 2.083325841261473e-06,
      "loss": 0.77903354,
      "num_input_tokens_seen": 90071565,
      "step": 4176,
      "time_per_iteration": 2.6167666912078857
    },
    {
      "auxiliary_loss_clip": 0.01084554,
      "auxiliary_loss_mlp": 0.01019899,
      "balance_loss_clip": 1.04284525,
      "balance_loss_mlp": 1.01429033,
      "epoch": 0.502254554199483,
      "flos": 24536946228480.0,
      "grad_norm": 5.416746178952203,
      "language_loss": 0.66333032,
      "learning_rate": 2.0825475396763322e-06,
      "loss": 0.68437481,
      "num_input_tokens_seen": 90092215,
      "step": 4177,
      "time_per_iteration": 2.5920767784118652
    },
    {
      "auxiliary_loss_clip": 0.01016459,
      "auxiliary_loss_mlp": 0.01021912,
      "balance_loss_clip": 1.03850794,
      "balance_loss_mlp": 1.01616645,
      "epoch": 0.502374797090122,
      "flos": 34243121946240.0,
      "grad_norm": 2.4975092934971226,
      "language_loss": 0.66090721,
      "learning_rate": 2.081769225568796e-06,
      "loss": 0.68129092,
      "num_input_tokens_seen": 90114665,
      "step": 4178,
      "time_per_iteration": 3.837428569793701
    },
    {
      "auxiliary_loss_clip": 0.01096638,
      "auxiliary_loss_mlp": 0.01023961,
      "balance_loss_clip": 1.0445025,
      "balance_loss_mlp": 1.0182507,
      "epoch": 0.5024950399807612,
      "flos": 26033492010240.0,
      "grad_norm": 1.4161207830894924,
      "language_loss": 0.76112062,
      "learning_rate": 2.0809908990569327e-06,
      "loss": 0.78232658,
      "num_input_tokens_seen": 90136445,
      "step": 4179,
      "time_per_iteration": 2.8484323024749756
    },
    {
      "auxiliary_loss_clip": 0.01083062,
      "auxiliary_loss_mlp": 0.01021633,
      "balance_loss_clip": 1.04322362,
      "balance_loss_mlp": 1.01597691,
      "epoch": 0.5026152828714002,
      "flos": 21254610977280.0,
      "grad_norm": 1.786083544854663,
      "language_loss": 0.79114473,
      "learning_rate": 2.0802125602588146e-06,
      "loss": 0.81219161,
      "num_input_tokens_seen": 90155710,
      "step": 4180,
      "time_per_iteration": 2.57771372795105
    },
    {
      "auxiliary_loss_clip": 0.01107152,
      "auxiliary_loss_mlp": 0.01026648,
      "balance_loss_clip": 1.04565394,
      "balance_loss_mlp": 1.02087212,
      "epoch": 0.5027355257620393,
      "flos": 30958739118720.0,
      "grad_norm": 1.8058665972746482,
      "language_loss": 0.66480839,
      "learning_rate": 2.0794342092925146e-06,
      "loss": 0.68614638,
      "num_input_tokens_seen": 90176845,
      "step": 4181,
      "time_per_iteration": 2.6519649028778076
    },
    {
      "auxiliary_loss_clip": 0.01095731,
      "auxiliary_loss_mlp": 0.01021557,
      "balance_loss_clip": 1.04533339,
      "balance_loss_mlp": 1.01582265,
      "epoch": 0.5028557686526784,
      "flos": 24793494480000.0,
      "grad_norm": 1.9042616082491586,
      "language_loss": 0.68164843,
      "learning_rate": 2.078655846276108e-06,
      "loss": 0.70282131,
      "num_input_tokens_seen": 90197175,
      "step": 4182,
      "time_per_iteration": 2.7057442665100098
    },
    {
      "auxiliary_loss_clip": 0.01084732,
      "auxiliary_loss_mlp": 0.01022576,
      "balance_loss_clip": 1.04562664,
      "balance_loss_mlp": 1.0168395,
      "epoch": 0.5029760115433175,
      "flos": 22969246026240.0,
      "grad_norm": 1.893652275173284,
      "language_loss": 0.68691248,
      "learning_rate": 2.0778774713276727e-06,
      "loss": 0.70798552,
      "num_input_tokens_seen": 90216650,
      "step": 4183,
      "time_per_iteration": 2.667571783065796
    },
    {
      "auxiliary_loss_clip": 0.01094621,
      "auxiliary_loss_mlp": 0.0102047,
      "balance_loss_clip": 1.04276812,
      "balance_loss_mlp": 1.01488233,
      "epoch": 0.5030962544339566,
      "flos": 15307000588800.0,
      "grad_norm": 2.398439813514698,
      "language_loss": 0.68263108,
      "learning_rate": 2.077099084565287e-06,
      "loss": 0.70378196,
      "num_input_tokens_seen": 90234055,
      "step": 4184,
      "time_per_iteration": 2.5202696323394775
    },
    {
      "auxiliary_loss_clip": 0.01085815,
      "auxiliary_loss_mlp": 0.01019111,
      "balance_loss_clip": 1.04350889,
      "balance_loss_mlp": 1.01354659,
      "epoch": 0.5032164973245957,
      "flos": 24496932602880.0,
      "grad_norm": 2.003561603349586,
      "language_loss": 0.65479183,
      "learning_rate": 2.0763206861070313e-06,
      "loss": 0.67584109,
      "num_input_tokens_seen": 90253115,
      "step": 4185,
      "time_per_iteration": 2.6437153816223145
    },
    {
      "auxiliary_loss_clip": 0.01106819,
      "auxiliary_loss_mlp": 0.0102565,
      "balance_loss_clip": 1.04534638,
      "balance_loss_mlp": 1.01980877,
      "epoch": 0.5033367402152348,
      "flos": 16215124458240.0,
      "grad_norm": 3.1273986489985552,
      "language_loss": 0.75544316,
      "learning_rate": 2.0755422760709876e-06,
      "loss": 0.77676785,
      "num_input_tokens_seen": 90270515,
      "step": 4186,
      "time_per_iteration": 2.671988010406494
    },
    {
      "auxiliary_loss_clip": 0.01050004,
      "auxiliary_loss_mlp": 0.01027916,
      "balance_loss_clip": 1.03583324,
      "balance_loss_mlp": 1.02196121,
      "epoch": 0.5034569831058738,
      "flos": 21393165928320.0,
      "grad_norm": 1.8461000235738085,
      "language_loss": 0.76456857,
      "learning_rate": 2.0747638545752417e-06,
      "loss": 0.78534776,
      "num_input_tokens_seen": 90289075,
      "step": 4187,
      "time_per_iteration": 2.708810329437256
    },
    {
      "auxiliary_loss_clip": 0.01079394,
      "auxiliary_loss_mlp": 0.01019992,
      "balance_loss_clip": 1.04366994,
      "balance_loss_mlp": 1.01454127,
      "epoch": 0.503577225996513,
      "flos": 20560860403200.0,
      "grad_norm": 2.0893409886644703,
      "language_loss": 0.83530682,
      "learning_rate": 2.073985421737878e-06,
      "loss": 0.85630071,
      "num_input_tokens_seen": 90306385,
      "step": 4188,
      "time_per_iteration": 2.5578722953796387
    },
    {
      "auxiliary_loss_clip": 0.01094374,
      "auxiliary_loss_mlp": 0.01018431,
      "balance_loss_clip": 1.04479539,
      "balance_loss_mlp": 1.01267874,
      "epoch": 0.5036974688871521,
      "flos": 27231276666240.0,
      "grad_norm": 4.718914144837094,
      "language_loss": 0.73948711,
      "learning_rate": 2.0732069776769844e-06,
      "loss": 0.76061523,
      "num_input_tokens_seen": 90323795,
      "step": 4189,
      "time_per_iteration": 2.6373538970947266
    },
    {
      "auxiliary_loss_clip": 0.0110694,
      "auxiliary_loss_mlp": 0.01022076,
      "balance_loss_clip": 1.04573846,
      "balance_loss_mlp": 1.01582968,
      "epoch": 0.5038177117777911,
      "flos": 20414228901120.0,
      "grad_norm": 3.0198740519096905,
      "language_loss": 0.73376286,
      "learning_rate": 2.072428522510651e-06,
      "loss": 0.75505304,
      "num_input_tokens_seen": 90340360,
      "step": 4190,
      "time_per_iteration": 2.482123851776123
    },
    {
      "auxiliary_loss_clip": 0.01053956,
      "auxiliary_loss_mlp": 0.0102321,
      "balance_loss_clip": 1.03286493,
      "balance_loss_mlp": 1.01788485,
      "epoch": 0.5039379546684303,
      "flos": 21910130075520.0,
      "grad_norm": 2.3482488874439027,
      "language_loss": 0.75890756,
      "learning_rate": 2.071650056356968e-06,
      "loss": 0.77967924,
      "num_input_tokens_seen": 90357900,
      "step": 4191,
      "time_per_iteration": 2.620091199874878
    },
    {
      "auxiliary_loss_clip": 0.01106551,
      "auxiliary_loss_mlp": 0.01025379,
      "balance_loss_clip": 1.04529595,
      "balance_loss_mlp": 1.01973474,
      "epoch": 0.5040581975590693,
      "flos": 20012755461120.0,
      "grad_norm": 2.0606460988591913,
      "language_loss": 0.80397117,
      "learning_rate": 2.070871579334028e-06,
      "loss": 0.82529044,
      "num_input_tokens_seen": 90377010,
      "step": 4192,
      "time_per_iteration": 2.513511896133423
    },
    {
      "auxiliary_loss_clip": 0.01105666,
      "auxiliary_loss_mlp": 0.01018369,
      "balance_loss_clip": 1.04454899,
      "balance_loss_mlp": 1.01278436,
      "epoch": 0.5041784404497084,
      "flos": 20961954662400.0,
      "grad_norm": 1.904559562254121,
      "language_loss": 0.72006261,
      "learning_rate": 2.0700930915599264e-06,
      "loss": 0.74130297,
      "num_input_tokens_seen": 90396740,
      "step": 4193,
      "time_per_iteration": 2.519423246383667
    },
    {
      "auxiliary_loss_clip": 0.01104492,
      "auxiliary_loss_mlp": 0.01022107,
      "balance_loss_clip": 1.0435791,
      "balance_loss_mlp": 1.01701045,
      "epoch": 0.5042986833403476,
      "flos": 12496724426880.0,
      "grad_norm": 1.9665957215283256,
      "language_loss": 0.78236562,
      "learning_rate": 2.0693145931527583e-06,
      "loss": 0.8036316,
      "num_input_tokens_seen": 90413220,
      "step": 4194,
      "time_per_iteration": 2.4684505462646484
    },
    {
      "auxiliary_loss_clip": 0.01067071,
      "auxiliary_loss_mlp": 0.01022713,
      "balance_loss_clip": 1.03529942,
      "balance_loss_mlp": 1.01714611,
      "epoch": 0.5044189262309866,
      "flos": 29204697133440.0,
      "grad_norm": 1.6255630041655653,
      "language_loss": 0.78096104,
      "learning_rate": 2.068536084230622e-06,
      "loss": 0.8018589,
      "num_input_tokens_seen": 90435085,
      "step": 4195,
      "time_per_iteration": 2.6553149223327637
    },
    {
      "auxiliary_loss_clip": 0.01091469,
      "auxiliary_loss_mlp": 0.01023187,
      "balance_loss_clip": 1.04275465,
      "balance_loss_mlp": 1.01682162,
      "epoch": 0.5045391691216257,
      "flos": 23875170647040.0,
      "grad_norm": 2.2293458918064624,
      "language_loss": 0.88687706,
      "learning_rate": 2.067757564911616e-06,
      "loss": 0.90802366,
      "num_input_tokens_seen": 90453660,
      "step": 4196,
      "time_per_iteration": 3.371715545654297
    },
    {
      "auxiliary_loss_clip": 0.01083719,
      "auxiliary_loss_mlp": 0.00757011,
      "balance_loss_clip": 1.04292655,
      "balance_loss_mlp": 1.00169015,
      "epoch": 0.5046594120122648,
      "flos": 24647317994880.0,
      "grad_norm": 2.317068629548428,
      "language_loss": 0.92744148,
      "learning_rate": 2.0669790353138407e-06,
      "loss": 0.94584876,
      "num_input_tokens_seen": 90472625,
      "step": 4197,
      "time_per_iteration": 2.624624490737915
    },
    {
      "auxiliary_loss_clip": 0.01054734,
      "auxiliary_loss_mlp": 0.00757122,
      "balance_loss_clip": 1.03393936,
      "balance_loss_mlp": 1.00184286,
      "epoch": 0.5047796549029039,
      "flos": 23364804245760.0,
      "grad_norm": 2.755777288426852,
      "language_loss": 0.72871286,
      "learning_rate": 2.0662004955553995e-06,
      "loss": 0.74683142,
      "num_input_tokens_seen": 90492325,
      "step": 4198,
      "time_per_iteration": 2.657773494720459
    },
    {
      "auxiliary_loss_clip": 0.01085056,
      "auxiliary_loss_mlp": 0.01017091,
      "balance_loss_clip": 1.04375267,
      "balance_loss_mlp": 1.01166964,
      "epoch": 0.5048998977935429,
      "flos": 17305608712320.0,
      "grad_norm": 1.946057489035908,
      "language_loss": 0.76749682,
      "learning_rate": 2.065421945754395e-06,
      "loss": 0.78851825,
      "num_input_tokens_seen": 90510055,
      "step": 4199,
      "time_per_iteration": 2.555063486099243
    },
    {
      "auxiliary_loss_clip": 0.01045573,
      "auxiliary_loss_mlp": 0.01021797,
      "balance_loss_clip": 1.03316236,
      "balance_loss_mlp": 1.01638162,
      "epoch": 0.505020140684182,
      "flos": 34859651207040.0,
      "grad_norm": 1.6698540540488964,
      "language_loss": 0.77745712,
      "learning_rate": 2.0646433860289344e-06,
      "loss": 0.79813081,
      "num_input_tokens_seen": 90528980,
      "step": 4200,
      "time_per_iteration": 4.314202547073364
    },
    {
      "auxiliary_loss_clip": 0.01093998,
      "auxiliary_loss_mlp": 0.00757064,
      "balance_loss_clip": 1.04258418,
      "balance_loss_mlp": 1.0018189,
      "epoch": 0.5051403835748212,
      "flos": 24866317296000.0,
      "grad_norm": 2.0013545038390403,
      "language_loss": 0.8265295,
      "learning_rate": 2.0638648164971233e-06,
      "loss": 0.84504008,
      "num_input_tokens_seen": 90547445,
      "step": 4201,
      "time_per_iteration": 2.6528172492980957
    },
    {
      "auxiliary_loss_clip": 0.0106988,
      "auxiliary_loss_mlp": 0.01021471,
      "balance_loss_clip": 1.03649473,
      "balance_loss_mlp": 1.01625264,
      "epoch": 0.5052606264654602,
      "flos": 20961802990080.0,
      "grad_norm": 1.8536872802229158,
      "language_loss": 0.8901093,
      "learning_rate": 2.06308623727707e-06,
      "loss": 0.91102278,
      "num_input_tokens_seen": 90567545,
      "step": 4202,
      "time_per_iteration": 2.5962655544281006
    },
    {
      "auxiliary_loss_clip": 0.01082412,
      "auxiliary_loss_mlp": 0.01020981,
      "balance_loss_clip": 1.03802562,
      "balance_loss_mlp": 1.01471305,
      "epoch": 0.5053808693560993,
      "flos": 19644204965760.0,
      "grad_norm": 2.8093262469421294,
      "language_loss": 0.76674348,
      "learning_rate": 2.0623076484868846e-06,
      "loss": 0.78777742,
      "num_input_tokens_seen": 90585000,
      "step": 4203,
      "time_per_iteration": 2.629031181335449
    },
    {
      "auxiliary_loss_clip": 0.01038692,
      "auxiliary_loss_mlp": 0.0100466,
      "balance_loss_clip": 1.0286355,
      "balance_loss_mlp": 1.0026927,
      "epoch": 0.5055011122467384,
      "flos": 67511060755200.0,
      "grad_norm": 0.8381815442353043,
      "language_loss": 0.60672057,
      "learning_rate": 2.061529050244679e-06,
      "loss": 0.62715411,
      "num_input_tokens_seen": 90644745,
      "step": 4204,
      "time_per_iteration": 3.8527321815490723
    },
    {
      "auxiliary_loss_clip": 0.01068563,
      "auxiliary_loss_mlp": 0.01018413,
      "balance_loss_clip": 1.04250526,
      "balance_loss_mlp": 1.01234531,
      "epoch": 0.5056213551373775,
      "flos": 16874814545280.0,
      "grad_norm": 2.0752706644077468,
      "language_loss": 0.74284029,
      "learning_rate": 2.060750442668565e-06,
      "loss": 0.76371002,
      "num_input_tokens_seen": 90662500,
      "step": 4205,
      "time_per_iteration": 2.6389570236206055
    },
    {
      "auxiliary_loss_clip": 0.01093688,
      "auxiliary_loss_mlp": 0.01021926,
      "balance_loss_clip": 1.04441142,
      "balance_loss_mlp": 1.01574457,
      "epoch": 0.5057415980280165,
      "flos": 15335600872320.0,
      "grad_norm": 2.397874649106327,
      "language_loss": 0.63923627,
      "learning_rate": 2.059971825876657e-06,
      "loss": 0.6603924,
      "num_input_tokens_seen": 90677010,
      "step": 4206,
      "time_per_iteration": 2.5106942653656006
    },
    {
      "auxiliary_loss_clip": 0.01095404,
      "auxiliary_loss_mlp": 0.01018939,
      "balance_loss_clip": 1.0444386,
      "balance_loss_mlp": 1.01321983,
      "epoch": 0.5058618409186557,
      "flos": 19027979049600.0,
      "grad_norm": 1.9389525058645796,
      "language_loss": 0.76599252,
      "learning_rate": 2.0591931999870713e-06,
      "loss": 0.78713596,
      "num_input_tokens_seen": 90695935,
      "step": 4207,
      "time_per_iteration": 2.6039044857025146
    },
    {
      "auxiliary_loss_clip": 0.0104791,
      "auxiliary_loss_mlp": 0.01004888,
      "balance_loss_clip": 1.02819991,
      "balance_loss_mlp": 1.00296903,
      "epoch": 0.5059820838092948,
      "flos": 63458929077120.0,
      "grad_norm": 0.8197668405008759,
      "language_loss": 0.57532811,
      "learning_rate": 2.0584145651179234e-06,
      "loss": 0.59585607,
      "num_input_tokens_seen": 90751645,
      "step": 4208,
      "time_per_iteration": 3.151362657546997
    },
    {
      "auxiliary_loss_clip": 0.01079727,
      "auxiliary_loss_mlp": 0.00756679,
      "balance_loss_clip": 1.04257143,
      "balance_loss_mlp": 1.00182247,
      "epoch": 0.5061023266999338,
      "flos": 15443128782720.0,
      "grad_norm": 3.1917360026841055,
      "language_loss": 0.79893768,
      "learning_rate": 2.0576359213873327e-06,
      "loss": 0.81730181,
      "num_input_tokens_seen": 90766795,
      "step": 4209,
      "time_per_iteration": 2.563194751739502
    },
    {
      "auxiliary_loss_clip": 0.01082264,
      "auxiliary_loss_mlp": 0.0102043,
      "balance_loss_clip": 1.04094028,
      "balance_loss_mlp": 1.01436579,
      "epoch": 0.506222569590573,
      "flos": 22453002322560.0,
      "grad_norm": 3.440047512514645,
      "language_loss": 0.70613199,
      "learning_rate": 2.056857268913419e-06,
      "loss": 0.7271589,
      "num_input_tokens_seen": 90786845,
      "step": 4210,
      "time_per_iteration": 2.6311287879943848
    },
    {
      "auxiliary_loss_clip": 0.01092879,
      "auxiliary_loss_mlp": 0.01021703,
      "balance_loss_clip": 1.04422438,
      "balance_loss_mlp": 1.01610899,
      "epoch": 0.506342812481212,
      "flos": 17560147305600.0,
      "grad_norm": 2.544269544568103,
      "language_loss": 0.84015846,
      "learning_rate": 2.056078607814303e-06,
      "loss": 0.86130428,
      "num_input_tokens_seen": 90802630,
      "step": 4211,
      "time_per_iteration": 2.495757579803467
    },
    {
      "auxiliary_loss_clip": 0.01092676,
      "auxiliary_loss_mlp": 0.01018066,
      "balance_loss_clip": 1.04341209,
      "balance_loss_mlp": 1.01228464,
      "epoch": 0.5064630553718511,
      "flos": 23404173264000.0,
      "grad_norm": 1.7016319712388759,
      "language_loss": 0.78431815,
      "learning_rate": 2.055299938208106e-06,
      "loss": 0.80542558,
      "num_input_tokens_seen": 90823620,
      "step": 4212,
      "time_per_iteration": 2.5885508060455322
    },
    {
      "auxiliary_loss_clip": 0.01096267,
      "auxiliary_loss_mlp": 0.01027345,
      "balance_loss_clip": 1.04516411,
      "balance_loss_mlp": 1.02143264,
      "epoch": 0.5065832982624903,
      "flos": 23989258385280.0,
      "grad_norm": 1.6641729967777013,
      "language_loss": 0.86247998,
      "learning_rate": 2.0545212602129526e-06,
      "loss": 0.88371611,
      "num_input_tokens_seen": 90843475,
      "step": 4213,
      "time_per_iteration": 2.569700002670288
    },
    {
      "auxiliary_loss_clip": 0.01072045,
      "auxiliary_loss_mlp": 0.01023347,
      "balance_loss_clip": 1.037305,
      "balance_loss_mlp": 1.01710904,
      "epoch": 0.5067035411531293,
      "flos": 21504978581760.0,
      "grad_norm": 2.4997961556770134,
      "language_loss": 0.66562867,
      "learning_rate": 2.0537425739469673e-06,
      "loss": 0.68658257,
      "num_input_tokens_seen": 90862410,
      "step": 4214,
      "time_per_iteration": 2.5900967121124268
    },
    {
      "auxiliary_loss_clip": 0.01067203,
      "auxiliary_loss_mlp": 0.0100358,
      "balance_loss_clip": 1.04540062,
      "balance_loss_mlp": 1.00168467,
      "epoch": 0.5068237840437684,
      "flos": 65940365024640.0,
      "grad_norm": 0.8411875071554828,
      "language_loss": 0.59455979,
      "learning_rate": 2.052963879528276e-06,
      "loss": 0.61526763,
      "num_input_tokens_seen": 90922280,
      "step": 4215,
      "time_per_iteration": 3.089660167694092
    },
    {
      "auxiliary_loss_clip": 0.01092901,
      "auxiliary_loss_mlp": 0.01017191,
      "balance_loss_clip": 1.04413176,
      "balance_loss_mlp": 1.01154923,
      "epoch": 0.5069440269344075,
      "flos": 27266247187200.0,
      "grad_norm": 2.1249239259895254,
      "language_loss": 0.7626555,
      "learning_rate": 2.052185177075007e-06,
      "loss": 0.78375643,
      "num_input_tokens_seen": 90941850,
      "step": 4216,
      "time_per_iteration": 2.5980052947998047
    },
    {
      "auxiliary_loss_clip": 0.0109743,
      "auxiliary_loss_mlp": 0.01024678,
      "balance_loss_clip": 1.04572582,
      "balance_loss_mlp": 1.01929009,
      "epoch": 0.5070642698250466,
      "flos": 23368482299520.0,
      "grad_norm": 1.6193909416713104,
      "language_loss": 0.82611221,
      "learning_rate": 2.051406466705288e-06,
      "loss": 0.84733331,
      "num_input_tokens_seen": 90961390,
      "step": 4217,
      "time_per_iteration": 2.546687602996826
    },
    {
      "auxiliary_loss_clip": 0.01106478,
      "auxiliary_loss_mlp": 0.01019645,
      "balance_loss_clip": 1.04467106,
      "balance_loss_mlp": 1.01423001,
      "epoch": 0.5071845127156857,
      "flos": 20342240282880.0,
      "grad_norm": 2.6425004783063595,
      "language_loss": 0.81131053,
      "learning_rate": 2.0506277485372486e-06,
      "loss": 0.83257174,
      "num_input_tokens_seen": 90980215,
      "step": 4218,
      "time_per_iteration": 2.54140043258667
    },
    {
      "auxiliary_loss_clip": 0.01097573,
      "auxiliary_loss_mlp": 0.01020935,
      "balance_loss_clip": 1.04458117,
      "balance_loss_mlp": 1.01538563,
      "epoch": 0.5073047556063248,
      "flos": 12094530543360.0,
      "grad_norm": 1.9830353704564623,
      "language_loss": 0.66899925,
      "learning_rate": 2.04984902268902e-06,
      "loss": 0.6901843,
      "num_input_tokens_seen": 90997415,
      "step": 4219,
      "time_per_iteration": 2.518310070037842
    },
    {
      "auxiliary_loss_clip": 0.01093963,
      "auxiliary_loss_mlp": 0.01020994,
      "balance_loss_clip": 1.04139876,
      "balance_loss_mlp": 1.01453888,
      "epoch": 0.5074249984969639,
      "flos": 19684901116800.0,
      "grad_norm": 2.124641558535972,
      "language_loss": 0.75218177,
      "learning_rate": 2.0490702892787345e-06,
      "loss": 0.77333134,
      "num_input_tokens_seen": 91016475,
      "step": 4220,
      "time_per_iteration": 2.606841802597046
    },
    {
      "auxiliary_loss_clip": 0.01094864,
      "auxiliary_loss_mlp": 0.01021627,
      "balance_loss_clip": 1.04336166,
      "balance_loss_mlp": 1.01624453,
      "epoch": 0.5075452413876029,
      "flos": 28768139418240.0,
      "grad_norm": 1.991166613105654,
      "language_loss": 0.62224215,
      "learning_rate": 2.0482915484245246e-06,
      "loss": 0.64340711,
      "num_input_tokens_seen": 91038095,
      "step": 4221,
      "time_per_iteration": 2.602613687515259
    },
    {
      "auxiliary_loss_clip": 0.01050408,
      "auxiliary_loss_mlp": 0.01023789,
      "balance_loss_clip": 1.03717113,
      "balance_loss_mlp": 1.01771784,
      "epoch": 0.5076654842782421,
      "flos": 20341519839360.0,
      "grad_norm": 2.3347188754694232,
      "language_loss": 0.83935106,
      "learning_rate": 2.047512800244526e-06,
      "loss": 0.86009312,
      "num_input_tokens_seen": 91053360,
      "step": 4222,
      "time_per_iteration": 3.419086456298828
    },
    {
      "auxiliary_loss_clip": 0.01093114,
      "auxiliary_loss_mlp": 0.010201,
      "balance_loss_clip": 1.04516685,
      "balance_loss_mlp": 1.01421976,
      "epoch": 0.5077857271688812,
      "flos": 26362066798080.0,
      "grad_norm": 2.070977313166115,
      "language_loss": 0.78621638,
      "learning_rate": 2.046734044856873e-06,
      "loss": 0.80734849,
      "num_input_tokens_seen": 91072770,
      "step": 4223,
      "time_per_iteration": 2.612743854522705
    },
    {
      "auxiliary_loss_clip": 0.0109087,
      "auxiliary_loss_mlp": 0.01019487,
      "balance_loss_clip": 1.04259324,
      "balance_loss_mlp": 1.01414967,
      "epoch": 0.5079059700595202,
      "flos": 21801123360000.0,
      "grad_norm": 1.971591749421144,
      "language_loss": 0.81326544,
      "learning_rate": 2.045955282379702e-06,
      "loss": 0.834369,
      "num_input_tokens_seen": 91091430,
      "step": 4224,
      "time_per_iteration": 2.5248212814331055
    },
    {
      "auxiliary_loss_clip": 0.0109491,
      "auxiliary_loss_mlp": 0.01018427,
      "balance_loss_clip": 1.04353619,
      "balance_loss_mlp": 1.01241589,
      "epoch": 0.5080262129501594,
      "flos": 13189602885120.0,
      "grad_norm": 6.307450879298633,
      "language_loss": 0.75317186,
      "learning_rate": 2.045176512931152e-06,
      "loss": 0.77430522,
      "num_input_tokens_seen": 91106060,
      "step": 4225,
      "time_per_iteration": 4.0987770557403564
    },
    {
      "auxiliary_loss_clip": 0.01067067,
      "auxiliary_loss_mlp": 0.01018934,
      "balance_loss_clip": 1.04200292,
      "balance_loss_mlp": 1.0136652,
      "epoch": 0.5081464558407984,
      "flos": 25303822963200.0,
      "grad_norm": 2.2785615036890703,
      "language_loss": 0.75863415,
      "learning_rate": 2.0443977366293604e-06,
      "loss": 0.77949417,
      "num_input_tokens_seen": 91124100,
      "step": 4226,
      "time_per_iteration": 2.6328272819519043
    },
    {
      "auxiliary_loss_clip": 0.01038608,
      "auxiliary_loss_mlp": 0.01025651,
      "balance_loss_clip": 1.03262663,
      "balance_loss_mlp": 1.01915717,
      "epoch": 0.5082666987314375,
      "flos": 30953582259840.0,
      "grad_norm": 1.8820095580634824,
      "language_loss": 0.7690531,
      "learning_rate": 2.043618953592468e-06,
      "loss": 0.78969562,
      "num_input_tokens_seen": 91146555,
      "step": 4227,
      "time_per_iteration": 2.8197503089904785
    },
    {
      "auxiliary_loss_clip": 0.01078927,
      "auxiliary_loss_mlp": 0.01023141,
      "balance_loss_clip": 1.041394,
      "balance_loss_mlp": 1.01707602,
      "epoch": 0.5083869416220766,
      "flos": 19684521936000.0,
      "grad_norm": 1.5401303849938193,
      "language_loss": 0.81328809,
      "learning_rate": 2.0428401639386144e-06,
      "loss": 0.83430874,
      "num_input_tokens_seen": 91167120,
      "step": 4228,
      "time_per_iteration": 2.988767385482788
    },
    {
      "auxiliary_loss_clip": 0.01050344,
      "auxiliary_loss_mlp": 0.01004281,
      "balance_loss_clip": 1.04133153,
      "balance_loss_mlp": 1.00248098,
      "epoch": 0.5085071845127157,
      "flos": 71824328772480.0,
      "grad_norm": 0.8236286559478038,
      "language_loss": 0.58071035,
      "learning_rate": 2.042061367785943e-06,
      "loss": 0.60125655,
      "num_input_tokens_seen": 91220260,
      "step": 4229,
      "time_per_iteration": 3.151987314224243
    },
    {
      "auxiliary_loss_clip": 0.01071131,
      "auxiliary_loss_mlp": 0.0102088,
      "balance_loss_clip": 1.0407145,
      "balance_loss_mlp": 1.01525593,
      "epoch": 0.5086274274033548,
      "flos": 35954344368000.0,
      "grad_norm": 2.2208092284941516,
      "language_loss": 0.74852437,
      "learning_rate": 2.041282565252594e-06,
      "loss": 0.76944447,
      "num_input_tokens_seen": 91240425,
      "step": 4230,
      "time_per_iteration": 3.5211689472198486
    },
    {
      "auxiliary_loss_clip": 0.01071541,
      "auxiliary_loss_mlp": 0.01021897,
      "balance_loss_clip": 1.04161441,
      "balance_loss_mlp": 1.01651788,
      "epoch": 0.5087476702939938,
      "flos": 23515985917440.0,
      "grad_norm": 1.6601474721967455,
      "language_loss": 0.76831448,
      "learning_rate": 2.040503756456714e-06,
      "loss": 0.78924882,
      "num_input_tokens_seen": 91259635,
      "step": 4231,
      "time_per_iteration": 2.621028423309326
    },
    {
      "auxiliary_loss_clip": 0.01093928,
      "auxiliary_loss_mlp": 0.01021692,
      "balance_loss_clip": 1.04206491,
      "balance_loss_mlp": 1.01606488,
      "epoch": 0.508867913184633,
      "flos": 15123881842560.0,
      "grad_norm": 1.9485953334871784,
      "language_loss": 0.78639722,
      "learning_rate": 2.0397249415164456e-06,
      "loss": 0.80755341,
      "num_input_tokens_seen": 91276990,
      "step": 4232,
      "time_per_iteration": 2.5256662368774414
    },
    {
      "auxiliary_loss_clip": 0.0108266,
      "auxiliary_loss_mlp": 0.01020623,
      "balance_loss_clip": 1.04203272,
      "balance_loss_mlp": 1.014925,
      "epoch": 0.508988156075272,
      "flos": 25887694705920.0,
      "grad_norm": 1.6610188023954142,
      "language_loss": 0.8004638,
      "learning_rate": 2.0389461205499354e-06,
      "loss": 0.82149661,
      "num_input_tokens_seen": 91296125,
      "step": 4233,
      "time_per_iteration": 2.629589557647705
    },
    {
      "auxiliary_loss_clip": 0.01068158,
      "auxiliary_loss_mlp": 0.01022961,
      "balance_loss_clip": 1.03998685,
      "balance_loss_mlp": 1.01761127,
      "epoch": 0.5091083989659111,
      "flos": 13846562870400.0,
      "grad_norm": 1.8289937831715208,
      "language_loss": 0.73478758,
      "learning_rate": 2.03816729367533e-06,
      "loss": 0.7556988,
      "num_input_tokens_seen": 91314280,
      "step": 4234,
      "time_per_iteration": 2.5949509143829346
    },
    {
      "auxiliary_loss_clip": 0.01077156,
      "auxiliary_loss_mlp": 0.01024526,
      "balance_loss_clip": 1.04388058,
      "balance_loss_mlp": 1.01892066,
      "epoch": 0.5092286418565503,
      "flos": 21106955687040.0,
      "grad_norm": 2.26782193057522,
      "language_loss": 0.71753681,
      "learning_rate": 2.0373884610107765e-06,
      "loss": 0.73855364,
      "num_input_tokens_seen": 91334595,
      "step": 4235,
      "time_per_iteration": 2.61924147605896
    },
    {
      "auxiliary_loss_clip": 0.01091466,
      "auxiliary_loss_mlp": 0.01018751,
      "balance_loss_clip": 1.03972733,
      "balance_loss_mlp": 1.01327074,
      "epoch": 0.5093488847471893,
      "flos": 18623092982400.0,
      "grad_norm": 3.54225867308201,
      "language_loss": 0.69901073,
      "learning_rate": 2.0366096226744225e-06,
      "loss": 0.72011292,
      "num_input_tokens_seen": 91349790,
      "step": 4236,
      "time_per_iteration": 2.505720615386963
    },
    {
      "auxiliary_loss_clip": 0.01093081,
      "auxiliary_loss_mlp": 0.01028937,
      "balance_loss_clip": 1.04224801,
      "balance_loss_mlp": 1.0232091,
      "epoch": 0.5094691276378284,
      "flos": 23805950048640.0,
      "grad_norm": 4.848734250908273,
      "language_loss": 0.768125,
      "learning_rate": 2.035830778784418e-06,
      "loss": 0.78934515,
      "num_input_tokens_seen": 91370465,
      "step": 4237,
      "time_per_iteration": 2.6040475368499756
    },
    {
      "auxiliary_loss_clip": 0.01070684,
      "auxiliary_loss_mlp": 0.01018862,
      "balance_loss_clip": 1.03795075,
      "balance_loss_mlp": 1.0128125,
      "epoch": 0.5095893705284675,
      "flos": 17422312798080.0,
      "grad_norm": 2.0409628313254107,
      "language_loss": 0.8054167,
      "learning_rate": 2.0350519294589134e-06,
      "loss": 0.82631212,
      "num_input_tokens_seen": 91388505,
      "step": 4238,
      "time_per_iteration": 2.5306408405303955
    },
    {
      "auxiliary_loss_clip": 0.01043823,
      "auxiliary_loss_mlp": 0.01017543,
      "balance_loss_clip": 1.03264117,
      "balance_loss_mlp": 1.0119369,
      "epoch": 0.5097096134191066,
      "flos": 25851776232960.0,
      "grad_norm": 1.7558690039443734,
      "language_loss": 0.82849133,
      "learning_rate": 2.0342730748160588e-06,
      "loss": 0.849105,
      "num_input_tokens_seen": 91408970,
      "step": 4239,
      "time_per_iteration": 2.714369297027588
    },
    {
      "auxiliary_loss_clip": 0.01069276,
      "auxiliary_loss_mlp": 0.01019912,
      "balance_loss_clip": 1.032897,
      "balance_loss_mlp": 1.01420498,
      "epoch": 0.5098298563097456,
      "flos": 27747558288000.0,
      "grad_norm": 1.961252549149369,
      "language_loss": 0.7041021,
      "learning_rate": 2.033494214974006e-06,
      "loss": 0.724994,
      "num_input_tokens_seen": 91430115,
      "step": 4240,
      "time_per_iteration": 2.595306158065796
    },
    {
      "auxiliary_loss_clip": 0.01080935,
      "auxiliary_loss_mlp": 0.01020796,
      "balance_loss_clip": 1.04288685,
      "balance_loss_mlp": 1.01524949,
      "epoch": 0.5099500992003848,
      "flos": 21360925509120.0,
      "grad_norm": 2.221269523692864,
      "language_loss": 0.84066886,
      "learning_rate": 2.0327153500509067e-06,
      "loss": 0.86168617,
      "num_input_tokens_seen": 91449140,
      "step": 4241,
      "time_per_iteration": 2.5919811725616455
    },
    {
      "auxiliary_loss_clip": 0.01078007,
      "auxiliary_loss_mlp": 0.01021415,
      "balance_loss_clip": 1.0406338,
      "balance_loss_mlp": 1.01584482,
      "epoch": 0.5100703420910239,
      "flos": 19868095699200.0,
      "grad_norm": 2.5631248200373298,
      "language_loss": 0.84789973,
      "learning_rate": 2.031936480164916e-06,
      "loss": 0.86889398,
      "num_input_tokens_seen": 91466880,
      "step": 4242,
      "time_per_iteration": 2.550041437149048
    },
    {
      "auxiliary_loss_clip": 0.01067654,
      "auxiliary_loss_mlp": 0.01020044,
      "balance_loss_clip": 1.03724027,
      "balance_loss_mlp": 1.01428938,
      "epoch": 0.5101905849816629,
      "flos": 24651337311360.0,
      "grad_norm": 1.9652212840783256,
      "language_loss": 0.80411035,
      "learning_rate": 2.0311576054341857e-06,
      "loss": 0.82498729,
      "num_input_tokens_seen": 91487495,
      "step": 4243,
      "time_per_iteration": 2.646807909011841
    },
    {
      "auxiliary_loss_clip": 0.01106289,
      "auxiliary_loss_mlp": 0.01018042,
      "balance_loss_clip": 1.04503632,
      "balance_loss_mlp": 1.01209903,
      "epoch": 0.5103108278723021,
      "flos": 22932303765120.0,
      "grad_norm": 1.7652089812894871,
      "language_loss": 0.62609637,
      "learning_rate": 2.0303787259768715e-06,
      "loss": 0.6473397,
      "num_input_tokens_seen": 91508395,
      "step": 4244,
      "time_per_iteration": 2.502078056335449
    },
    {
      "auxiliary_loss_clip": 0.0107837,
      "auxiliary_loss_mlp": 0.0102224,
      "balance_loss_clip": 1.04255378,
      "balance_loss_mlp": 1.01646161,
      "epoch": 0.5104310707629411,
      "flos": 21508732471680.0,
      "grad_norm": 2.4581083970765567,
      "language_loss": 0.68956542,
      "learning_rate": 2.0295998419111294e-06,
      "loss": 0.71057147,
      "num_input_tokens_seen": 91525685,
      "step": 4245,
      "time_per_iteration": 2.649168014526367
    },
    {
      "auxiliary_loss_clip": 0.0104722,
      "auxiliary_loss_mlp": 0.01025024,
      "balance_loss_clip": 1.03830409,
      "balance_loss_mlp": 1.01903677,
      "epoch": 0.5105513136535802,
      "flos": 14904958377600.0,
      "grad_norm": 2.8747733670620836,
      "language_loss": 0.73653132,
      "learning_rate": 2.028820953355115e-06,
      "loss": 0.75725377,
      "num_input_tokens_seen": 91543785,
      "step": 4246,
      "time_per_iteration": 2.680659770965576
    },
    {
      "auxiliary_loss_clip": 0.01081096,
      "auxiliary_loss_mlp": 0.01021284,
      "balance_loss_clip": 1.0402565,
      "balance_loss_mlp": 1.01532674,
      "epoch": 0.5106715565442194,
      "flos": 22604449420800.0,
      "grad_norm": 2.2422916059447946,
      "language_loss": 0.78606069,
      "learning_rate": 2.0280420604269834e-06,
      "loss": 0.8070845,
      "num_input_tokens_seen": 91563325,
      "step": 4247,
      "time_per_iteration": 3.4995851516723633
    },
    {
      "auxiliary_loss_clip": 0.0105961,
      "auxiliary_loss_mlp": 0.01003227,
      "balance_loss_clip": 1.03905296,
      "balance_loss_mlp": 1.0012244,
      "epoch": 0.5107917994348584,
      "flos": 71035108237440.0,
      "grad_norm": 0.706321379508285,
      "language_loss": 0.58933353,
      "learning_rate": 2.027263163244895e-06,
      "loss": 0.60996187,
      "num_input_tokens_seen": 91632450,
      "step": 4248,
      "time_per_iteration": 3.273374319076538
    },
    {
      "auxiliary_loss_clip": 0.01090519,
      "auxiliary_loss_mlp": 0.01024672,
      "balance_loss_clip": 1.04300952,
      "balance_loss_mlp": 1.01922393,
      "epoch": 0.5109120423254975,
      "flos": 24829754215680.0,
      "grad_norm": 1.8248759775485095,
      "language_loss": 0.74369955,
      "learning_rate": 2.026484261927005e-06,
      "loss": 0.76485145,
      "num_input_tokens_seen": 91651945,
      "step": 4249,
      "time_per_iteration": 2.5478460788726807
    },
    {
      "auxiliary_loss_clip": 0.01095079,
      "auxiliary_loss_mlp": 0.0102085,
      "balance_loss_clip": 1.04414535,
      "balance_loss_mlp": 1.01491916,
      "epoch": 0.5110322852161366,
      "flos": 21249567872640.0,
      "grad_norm": 2.5109973101422285,
      "language_loss": 0.74347472,
      "learning_rate": 2.025705356591475e-06,
      "loss": 0.76463401,
      "num_input_tokens_seen": 91669635,
      "step": 4250,
      "time_per_iteration": 2.548365831375122
    },
    {
      "auxiliary_loss_clip": 0.01036775,
      "auxiliary_loss_mlp": 0.00751976,
      "balance_loss_clip": 1.03758252,
      "balance_loss_mlp": 1.00075746,
      "epoch": 0.5111525281067757,
      "flos": 66463775245440.0,
      "grad_norm": 0.7819024033416713,
      "language_loss": 0.57918072,
      "learning_rate": 2.024926447356462e-06,
      "loss": 0.59706825,
      "num_input_tokens_seen": 91731920,
      "step": 4251,
      "time_per_iteration": 3.9326248168945312
    },
    {
      "auxiliary_loss_clip": 0.01081961,
      "auxiliary_loss_mlp": 0.0102331,
      "balance_loss_clip": 1.03721333,
      "balance_loss_mlp": 1.01729596,
      "epoch": 0.5112727709974147,
      "flos": 14868509051520.0,
      "grad_norm": 3.3456630056898757,
      "language_loss": 0.78650618,
      "learning_rate": 2.024147534340127e-06,
      "loss": 0.80755889,
      "num_input_tokens_seen": 91749780,
      "step": 4252,
      "time_per_iteration": 2.5295164585113525
    },
    {
      "auxiliary_loss_clip": 0.01078042,
      "auxiliary_loss_mlp": 0.01021858,
      "balance_loss_clip": 1.03990293,
      "balance_loss_mlp": 1.01630902,
      "epoch": 0.5113930138880539,
      "flos": 21179664748800.0,
      "grad_norm": 1.6165696382937953,
      "language_loss": 0.80003107,
      "learning_rate": 2.02336861766063e-06,
      "loss": 0.82103002,
      "num_input_tokens_seen": 91768840,
      "step": 4253,
      "time_per_iteration": 2.5500712394714355
    },
    {
      "auxiliary_loss_clip": 0.01096413,
      "auxiliary_loss_mlp": 0.01023743,
      "balance_loss_clip": 1.04469514,
      "balance_loss_mlp": 1.01770186,
      "epoch": 0.511513256778693,
      "flos": 20411005864320.0,
      "grad_norm": 2.0718199900734353,
      "language_loss": 0.79100156,
      "learning_rate": 2.0225896974361327e-06,
      "loss": 0.81220317,
      "num_input_tokens_seen": 91788945,
      "step": 4254,
      "time_per_iteration": 2.5777344703674316
    },
    {
      "auxiliary_loss_clip": 0.0103513,
      "auxiliary_loss_mlp": 0.01002323,
      "balance_loss_clip": 1.03463459,
      "balance_loss_mlp": 1.00047553,
      "epoch": 0.511633499669332,
      "flos": 69886447597440.0,
      "grad_norm": 0.8565824200665375,
      "language_loss": 0.59885657,
      "learning_rate": 2.0218107737847962e-06,
      "loss": 0.6192311,
      "num_input_tokens_seen": 91850990,
      "step": 4255,
      "time_per_iteration": 3.2449069023132324
    },
    {
      "auxiliary_loss_clip": 0.01105184,
      "auxiliary_loss_mlp": 0.01023752,
      "balance_loss_clip": 1.04436338,
      "balance_loss_mlp": 1.0181551,
      "epoch": 0.5117537425599712,
      "flos": 24100161004800.0,
      "grad_norm": 2.0594372810688566,
      "language_loss": 0.74790692,
      "learning_rate": 2.0210318468247826e-06,
      "loss": 0.76919627,
      "num_input_tokens_seen": 91869960,
      "step": 4256,
      "time_per_iteration": 3.2779223918914795
    },
    {
      "auxiliary_loss_clip": 0.01077983,
      "auxiliary_loss_mlp": 0.01020635,
      "balance_loss_clip": 1.03938174,
      "balance_loss_mlp": 1.01524639,
      "epoch": 0.5118739854506102,
      "flos": 20961651317760.0,
      "grad_norm": 1.819180764138461,
      "language_loss": 0.81764394,
      "learning_rate": 2.020252916674255e-06,
      "loss": 0.83863008,
      "num_input_tokens_seen": 91889075,
      "step": 4257,
      "time_per_iteration": 2.6203320026397705
    },
    {
      "auxiliary_loss_clip": 0.01093227,
      "auxiliary_loss_mlp": 0.01019528,
      "balance_loss_clip": 1.04189265,
      "balance_loss_mlp": 1.01367736,
      "epoch": 0.5119942283412493,
      "flos": 17459255059200.0,
      "grad_norm": 1.8305011921074805,
      "language_loss": 0.80872011,
      "learning_rate": 2.019473983451375e-06,
      "loss": 0.82984763,
      "num_input_tokens_seen": 91907495,
      "step": 4258,
      "time_per_iteration": 2.519505262374878
    },
    {
      "auxiliary_loss_clip": 0.01065291,
      "auxiliary_loss_mlp": 0.01023113,
      "balance_loss_clip": 1.0394423,
      "balance_loss_mlp": 1.01728034,
      "epoch": 0.5121144712318885,
      "flos": 21068724211200.0,
      "grad_norm": 1.81341883270475,
      "language_loss": 0.71709585,
      "learning_rate": 2.0186950472743076e-06,
      "loss": 0.73797989,
      "num_input_tokens_seen": 91927400,
      "step": 4259,
      "time_per_iteration": 2.718336582183838
    },
    {
      "auxiliary_loss_clip": 0.01104403,
      "auxiliary_loss_mlp": 0.01020217,
      "balance_loss_clip": 1.04282999,
      "balance_loss_mlp": 1.01437247,
      "epoch": 0.5122347141225275,
      "flos": 19862597577600.0,
      "grad_norm": 1.5698181671910305,
      "language_loss": 0.73693961,
      "learning_rate": 2.0179161082612162e-06,
      "loss": 0.7581858,
      "num_input_tokens_seen": 91946790,
      "step": 4260,
      "time_per_iteration": 2.4868505001068115
    },
    {
      "auxiliary_loss_clip": 0.01080082,
      "auxiliary_loss_mlp": 0.01021854,
      "balance_loss_clip": 1.04060984,
      "balance_loss_mlp": 1.01619184,
      "epoch": 0.5123549570131666,
      "flos": 22530678652800.0,
      "grad_norm": 2.200588073322402,
      "language_loss": 0.73010665,
      "learning_rate": 2.017137166530266e-06,
      "loss": 0.75112605,
      "num_input_tokens_seen": 91966325,
      "step": 4261,
      "time_per_iteration": 2.6334638595581055
    },
    {
      "auxiliary_loss_clip": 0.01080927,
      "auxiliary_loss_mlp": 0.01021688,
      "balance_loss_clip": 1.04145885,
      "balance_loss_mlp": 1.01635027,
      "epoch": 0.5124751999038056,
      "flos": 20335111683840.0,
      "grad_norm": 2.1918245729398254,
      "language_loss": 0.79641795,
      "learning_rate": 2.0163582221996213e-06,
      "loss": 0.81744409,
      "num_input_tokens_seen": 91984700,
      "step": 4262,
      "time_per_iteration": 2.5569121837615967
    },
    {
      "auxiliary_loss_clip": 0.01078512,
      "auxiliary_loss_mlp": 0.01021957,
      "balance_loss_clip": 1.04056311,
      "balance_loss_mlp": 1.01601481,
      "epoch": 0.5125954427944448,
      "flos": 39789107222400.0,
      "grad_norm": 1.8240147261659516,
      "language_loss": 0.67769587,
      "learning_rate": 2.015579275387446e-06,
      "loss": 0.69870055,
      "num_input_tokens_seen": 92010020,
      "step": 4263,
      "time_per_iteration": 2.7386856079101562
    },
    {
      "auxiliary_loss_clip": 0.0108253,
      "auxiliary_loss_mlp": 0.01024762,
      "balance_loss_clip": 1.0434742,
      "balance_loss_mlp": 1.01907539,
      "epoch": 0.5127156856850839,
      "flos": 29207958088320.0,
      "grad_norm": 2.2587783750552535,
      "language_loss": 0.6895473,
      "learning_rate": 2.0148003262119085e-06,
      "loss": 0.71062016,
      "num_input_tokens_seen": 92030990,
      "step": 4264,
      "time_per_iteration": 2.613352060317993
    },
    {
      "auxiliary_loss_clip": 0.01060815,
      "auxiliary_loss_mlp": 0.01020912,
      "balance_loss_clip": 1.0376271,
      "balance_loss_mlp": 1.01505041,
      "epoch": 0.5128359285757229,
      "flos": 13555423278720.0,
      "grad_norm": 5.878904673263485,
      "language_loss": 0.7643435,
      "learning_rate": 2.0140213747911728e-06,
      "loss": 0.78516078,
      "num_input_tokens_seen": 92049525,
      "step": 4265,
      "time_per_iteration": 2.6164369583129883
    },
    {
      "auxiliary_loss_clip": 0.01063215,
      "auxiliary_loss_mlp": 0.01025817,
      "balance_loss_clip": 1.03907323,
      "balance_loss_mlp": 1.0200237,
      "epoch": 0.5129561714663621,
      "flos": 25194437066880.0,
      "grad_norm": 2.846483300042336,
      "language_loss": 0.8088128,
      "learning_rate": 2.013242421243406e-06,
      "loss": 0.82970315,
      "num_input_tokens_seen": 92068430,
      "step": 4266,
      "time_per_iteration": 2.6281068325042725
    },
    {
      "auxiliary_loss_clip": 0.01053011,
      "auxiliary_loss_mlp": 0.01017856,
      "balance_loss_clip": 1.04008102,
      "balance_loss_mlp": 1.01230359,
      "epoch": 0.5130764143570011,
      "flos": 18152171435520.0,
      "grad_norm": 1.7439458465256563,
      "language_loss": 0.79075682,
      "learning_rate": 2.012463465686774e-06,
      "loss": 0.8114655,
      "num_input_tokens_seen": 92088180,
      "step": 4267,
      "time_per_iteration": 2.673459768295288
    },
    {
      "auxiliary_loss_clip": 0.01029232,
      "auxiliary_loss_mlp": 0.0100283,
      "balance_loss_clip": 1.05339336,
      "balance_loss_mlp": 1.00102997,
      "epoch": 0.5131966572476402,
      "flos": 59802004304640.0,
      "grad_norm": 1.1706757064501738,
      "language_loss": 0.54683161,
      "learning_rate": 2.0116845082394446e-06,
      "loss": 0.56715214,
      "num_input_tokens_seen": 92153015,
      "step": 4268,
      "time_per_iteration": 3.246480941772461
    },
    {
      "auxiliary_loss_clip": 0.01095649,
      "auxiliary_loss_mlp": 0.01017444,
      "balance_loss_clip": 1.04295301,
      "balance_loss_mlp": 1.01197815,
      "epoch": 0.5133169001382794,
      "flos": 18517195549440.0,
      "grad_norm": 2.0244156005074125,
      "language_loss": 0.78965241,
      "learning_rate": 2.0109055490195836e-06,
      "loss": 0.81078327,
      "num_input_tokens_seen": 92171470,
      "step": 4269,
      "time_per_iteration": 2.5169801712036133
    },
    {
      "auxiliary_loss_clip": 0.01048608,
      "auxiliary_loss_mlp": 0.01019857,
      "balance_loss_clip": 1.03854525,
      "balance_loss_mlp": 1.01449609,
      "epoch": 0.5134371430289184,
      "flos": 15525355282560.0,
      "grad_norm": 2.5222851170552674,
      "language_loss": 0.63943112,
      "learning_rate": 2.0101265881453605e-06,
      "loss": 0.66011584,
      "num_input_tokens_seen": 92189945,
      "step": 4270,
      "time_per_iteration": 2.7031450271606445
    },
    {
      "auxiliary_loss_clip": 0.0108507,
      "auxiliary_loss_mlp": 0.01025729,
      "balance_loss_clip": 1.04584205,
      "balance_loss_mlp": 1.02031672,
      "epoch": 0.5135573859195575,
      "flos": 21435909655680.0,
      "grad_norm": 2.3011478083109944,
      "language_loss": 0.78247386,
      "learning_rate": 2.009347625734941e-06,
      "loss": 0.80358183,
      "num_input_tokens_seen": 92209855,
      "step": 4271,
      "time_per_iteration": 2.5796806812286377
    },
    {
      "auxiliary_loss_clip": 0.01106881,
      "auxiliary_loss_mlp": 0.0101756,
      "balance_loss_clip": 1.04513144,
      "balance_loss_mlp": 1.01176345,
      "epoch": 0.5136776288101966,
      "flos": 17714589932160.0,
      "grad_norm": 2.8531097160668955,
      "language_loss": 0.75379968,
      "learning_rate": 2.0085686619064954e-06,
      "loss": 0.77504408,
      "num_input_tokens_seen": 92226295,
      "step": 4272,
      "time_per_iteration": 2.5215563774108887
    },
    {
      "auxiliary_loss_clip": 0.01095188,
      "auxiliary_loss_mlp": 0.01024796,
      "balance_loss_clip": 1.04463625,
      "balance_loss_mlp": 1.01911533,
      "epoch": 0.5137978717008357,
      "flos": 16583561199360.0,
      "grad_norm": 2.683954860114032,
      "language_loss": 0.82705462,
      "learning_rate": 2.00778969677819e-06,
      "loss": 0.84825444,
      "num_input_tokens_seen": 92243330,
      "step": 4273,
      "time_per_iteration": 3.2626898288726807
    },
    {
      "auxiliary_loss_clip": 0.010805,
      "auxiliary_loss_mlp": 0.01019287,
      "balance_loss_clip": 1.0417608,
      "balance_loss_mlp": 1.01387167,
      "epoch": 0.5139181145914747,
      "flos": 20670360053760.0,
      "grad_norm": 2.4051939181100193,
      "language_loss": 0.63735241,
      "learning_rate": 2.0070107304681934e-06,
      "loss": 0.65835029,
      "num_input_tokens_seen": 92262285,
      "step": 4274,
      "time_per_iteration": 2.5936059951782227
    },
    {
      "auxiliary_loss_clip": 0.01064459,
      "auxiliary_loss_mlp": 0.01020645,
      "balance_loss_clip": 1.04038155,
      "balance_loss_mlp": 1.01486361,
      "epoch": 0.5140383574821139,
      "flos": 32929770746880.0,
      "grad_norm": 1.879605842434875,
      "language_loss": 0.7829923,
      "learning_rate": 2.006231763094675e-06,
      "loss": 0.80384338,
      "num_input_tokens_seen": 92283305,
      "step": 4275,
      "time_per_iteration": 2.689206600189209
    },
    {
      "auxiliary_loss_clip": 0.01067883,
      "auxiliary_loss_mlp": 0.01021862,
      "balance_loss_clip": 1.03567934,
      "balance_loss_mlp": 1.01627398,
      "epoch": 0.514158600372753,
      "flos": 19539141730560.0,
      "grad_norm": 1.993060495469665,
      "language_loss": 0.87636524,
      "learning_rate": 2.0054527947758027e-06,
      "loss": 0.89726269,
      "num_input_tokens_seen": 92302105,
      "step": 4276,
      "time_per_iteration": 3.3711674213409424
    },
    {
      "auxiliary_loss_clip": 0.0105817,
      "auxiliary_loss_mlp": 0.01002832,
      "balance_loss_clip": 1.03769827,
      "balance_loss_mlp": 1.00072181,
      "epoch": 0.514278843263392,
      "flos": 62530698574080.0,
      "grad_norm": 0.7477823389840539,
      "language_loss": 0.55914617,
      "learning_rate": 2.004673825629746e-06,
      "loss": 0.5797562,
      "num_input_tokens_seen": 92362885,
      "step": 4277,
      "time_per_iteration": 3.967280864715576
    },
    {
      "auxiliary_loss_clip": 0.01084198,
      "auxiliary_loss_mlp": 0.01020409,
      "balance_loss_clip": 1.04242086,
      "balance_loss_mlp": 1.01510429,
      "epoch": 0.5143990861540312,
      "flos": 25884547505280.0,
      "grad_norm": 1.6932618419384975,
      "language_loss": 0.72757363,
      "learning_rate": 2.0038948557746744e-06,
      "loss": 0.74861968,
      "num_input_tokens_seen": 92384740,
      "step": 4278,
      "time_per_iteration": 2.6208302974700928
    },
    {
      "auxiliary_loss_clip": 0.01088182,
      "auxiliary_loss_mlp": 0.01021524,
      "balance_loss_clip": 1.0411756,
      "balance_loss_mlp": 1.0159955,
      "epoch": 0.5145193290446702,
      "flos": 23332867171200.0,
      "grad_norm": 3.648465037137387,
      "language_loss": 0.75312948,
      "learning_rate": 2.0031158853287558e-06,
      "loss": 0.77422667,
      "num_input_tokens_seen": 92405175,
      "step": 4279,
      "time_per_iteration": 2.6035616397857666
    },
    {
      "auxiliary_loss_clip": 0.01077384,
      "auxiliary_loss_mlp": 0.0102227,
      "balance_loss_clip": 1.04167032,
      "balance_loss_mlp": 1.01662517,
      "epoch": 0.5146395719353093,
      "flos": 22858798423680.0,
      "grad_norm": 2.146866364785852,
      "language_loss": 0.70366824,
      "learning_rate": 2.0023369144101593e-06,
      "loss": 0.72466469,
      "num_input_tokens_seen": 92423345,
      "step": 4280,
      "time_per_iteration": 2.5760419368743896
    },
    {
      "auxiliary_loss_clip": 0.01078688,
      "auxiliary_loss_mlp": 0.01023286,
      "balance_loss_clip": 1.04078293,
      "balance_loss_mlp": 1.01772773,
      "epoch": 0.5147598148259485,
      "flos": 26393738446080.0,
      "grad_norm": 4.287976942949761,
      "language_loss": 0.76977944,
      "learning_rate": 2.0015579431370555e-06,
      "loss": 0.7907992,
      "num_input_tokens_seen": 92445025,
      "step": 4281,
      "time_per_iteration": 2.6835861206054688
    },
    {
      "auxiliary_loss_clip": 0.01088955,
      "auxiliary_loss_mlp": 0.01020213,
      "balance_loss_clip": 1.04207444,
      "balance_loss_mlp": 1.01453233,
      "epoch": 0.5148800577165875,
      "flos": 29967971650560.0,
      "grad_norm": 5.609218140586963,
      "language_loss": 0.7009657,
      "learning_rate": 2.000778971627612e-06,
      "loss": 0.72205734,
      "num_input_tokens_seen": 92464490,
      "step": 4282,
      "time_per_iteration": 3.511514663696289
    },
    {
      "auxiliary_loss_clip": 0.01084542,
      "auxiliary_loss_mlp": 0.01026728,
      "balance_loss_clip": 1.04286397,
      "balance_loss_mlp": 1.0208149,
      "epoch": 0.5150003006072266,
      "flos": 17933323806720.0,
      "grad_norm": 5.536922637934199,
      "language_loss": 0.9077189,
      "learning_rate": 2e-06,
      "loss": 0.92883164,
      "num_input_tokens_seen": 92482085,
      "step": 4283,
      "time_per_iteration": 2.5472757816314697
    },
    {
      "auxiliary_loss_clip": 0.01105516,
      "auxiliary_loss_mlp": 0.01022907,
      "balance_loss_clip": 1.04494238,
      "balance_loss_mlp": 1.0175339,
      "epoch": 0.5151205434978657,
      "flos": 18480708305280.0,
      "grad_norm": 1.9806171812330688,
      "language_loss": 0.85663378,
      "learning_rate": 1.9992210283723878e-06,
      "loss": 0.87791812,
      "num_input_tokens_seen": 92499325,
      "step": 4284,
      "time_per_iteration": 2.5140879154205322
    },
    {
      "auxiliary_loss_clip": 0.01105969,
      "auxiliary_loss_mlp": 0.01025208,
      "balance_loss_clip": 1.0463562,
      "balance_loss_mlp": 1.01969767,
      "epoch": 0.5152407863885048,
      "flos": 25343798670720.0,
      "grad_norm": 1.6202802845221578,
      "language_loss": 0.79229164,
      "learning_rate": 1.9984420568629448e-06,
      "loss": 0.81360346,
      "num_input_tokens_seen": 92522090,
      "step": 4285,
      "time_per_iteration": 2.547999620437622
    },
    {
      "auxiliary_loss_clip": 0.01091685,
      "auxiliary_loss_mlp": 0.01020352,
      "balance_loss_clip": 1.04161787,
      "balance_loss_mlp": 1.01499677,
      "epoch": 0.5153610292791438,
      "flos": 18331536291840.0,
      "grad_norm": 2.426952102188814,
      "language_loss": 0.78235912,
      "learning_rate": 1.9976630855898405e-06,
      "loss": 0.80347949,
      "num_input_tokens_seen": 92539845,
      "step": 4286,
      "time_per_iteration": 2.5608818531036377
    },
    {
      "auxiliary_loss_clip": 0.01080849,
      "auxiliary_loss_mlp": 0.01019049,
      "balance_loss_clip": 1.04099262,
      "balance_loss_mlp": 1.01365447,
      "epoch": 0.515481272169783,
      "flos": 30412605916800.0,
      "grad_norm": 2.489181336166049,
      "language_loss": 0.74909061,
      "learning_rate": 1.9968841146712445e-06,
      "loss": 0.77008963,
      "num_input_tokens_seen": 92559460,
      "step": 4287,
      "time_per_iteration": 2.6264216899871826
    },
    {
      "auxiliary_loss_clip": 0.01033774,
      "auxiliary_loss_mlp": 0.00756968,
      "balance_loss_clip": 1.0314734,
      "balance_loss_mlp": 1.00193739,
      "epoch": 0.5156015150604221,
      "flos": 23039414576640.0,
      "grad_norm": 1.638365233951283,
      "language_loss": 0.71495259,
      "learning_rate": 1.996105144225326e-06,
      "loss": 0.73286003,
      "num_input_tokens_seen": 92579695,
      "step": 4288,
      "time_per_iteration": 2.728530168533325
    },
    {
      "auxiliary_loss_clip": 0.01090466,
      "auxiliary_loss_mlp": 0.01022616,
      "balance_loss_clip": 1.04208755,
      "balance_loss_mlp": 1.01736164,
      "epoch": 0.5157217579510611,
      "flos": 17860500990720.0,
      "grad_norm": 2.5550783589735517,
      "language_loss": 0.7903986,
      "learning_rate": 1.995326174370254e-06,
      "loss": 0.81152946,
      "num_input_tokens_seen": 92598795,
      "step": 4289,
      "time_per_iteration": 2.505030393600464
    },
    {
      "auxiliary_loss_clip": 0.01089259,
      "auxiliary_loss_mlp": 0.00756892,
      "balance_loss_clip": 1.04103816,
      "balance_loss_mlp": 1.00189161,
      "epoch": 0.5158420008417003,
      "flos": 19173473009280.0,
      "grad_norm": 2.0973506420339754,
      "language_loss": 0.73054171,
      "learning_rate": 1.994547205224197e-06,
      "loss": 0.74900323,
      "num_input_tokens_seen": 92617700,
      "step": 4290,
      "time_per_iteration": 2.557068109512329
    },
    {
      "auxiliary_loss_clip": 0.01066849,
      "auxiliary_loss_mlp": 0.01021169,
      "balance_loss_clip": 1.03649807,
      "balance_loss_mlp": 1.01522303,
      "epoch": 0.5159622437323393,
      "flos": 22421747773440.0,
      "grad_norm": 2.0169039406897387,
      "language_loss": 0.67670876,
      "learning_rate": 1.993768236905325e-06,
      "loss": 0.69758892,
      "num_input_tokens_seen": 92638370,
      "step": 4291,
      "time_per_iteration": 2.5719940662384033
    },
    {
      "auxiliary_loss_clip": 0.01079008,
      "auxiliary_loss_mlp": 0.01019357,
      "balance_loss_clip": 1.04121029,
      "balance_loss_mlp": 1.0136615,
      "epoch": 0.5160824866229784,
      "flos": 24605029284480.0,
      "grad_norm": 3.983420633879962,
      "language_loss": 0.66487229,
      "learning_rate": 1.992989269531807e-06,
      "loss": 0.68585598,
      "num_input_tokens_seen": 92657180,
      "step": 4292,
      "time_per_iteration": 2.6571218967437744
    },
    {
      "auxiliary_loss_clip": 0.01081146,
      "auxiliary_loss_mlp": 0.01020657,
      "balance_loss_clip": 1.04223156,
      "balance_loss_mlp": 1.01485693,
      "epoch": 0.5162027295136175,
      "flos": 18004591981440.0,
      "grad_norm": 2.663035792325003,
      "language_loss": 0.68119371,
      "learning_rate": 1.99221030322181e-06,
      "loss": 0.70221174,
      "num_input_tokens_seen": 92673985,
      "step": 4293,
      "time_per_iteration": 2.5294442176818848
    },
    {
      "auxiliary_loss_clip": 0.01080129,
      "auxiliary_loss_mlp": 0.01023339,
      "balance_loss_clip": 1.0415653,
      "balance_loss_mlp": 1.01781607,
      "epoch": 0.5163229724042566,
      "flos": 27347070718080.0,
      "grad_norm": 1.779905659228889,
      "language_loss": 0.81181812,
      "learning_rate": 1.991431338093505e-06,
      "loss": 0.83285272,
      "num_input_tokens_seen": 92696340,
      "step": 4294,
      "time_per_iteration": 2.6435017585754395
    },
    {
      "auxiliary_loss_clip": 0.01078241,
      "auxiliary_loss_mlp": 0.01022757,
      "balance_loss_clip": 1.04321408,
      "balance_loss_mlp": 1.01746094,
      "epoch": 0.5164432152948957,
      "flos": 21764939460480.0,
      "grad_norm": 1.7272743099284344,
      "language_loss": 0.79191911,
      "learning_rate": 1.9906523742650587e-06,
      "loss": 0.81292909,
      "num_input_tokens_seen": 92715200,
      "step": 4295,
      "time_per_iteration": 2.5863635540008545
    },
    {
      "auxiliary_loss_clip": 0.01103888,
      "auxiliary_loss_mlp": 0.01027611,
      "balance_loss_clip": 1.04282522,
      "balance_loss_mlp": 1.0217073,
      "epoch": 0.5165634581855347,
      "flos": 25552332581760.0,
      "grad_norm": 1.9393290833054804,
      "language_loss": 0.7776013,
      "learning_rate": 1.9898734118546397e-06,
      "loss": 0.79891634,
      "num_input_tokens_seen": 92735150,
      "step": 4296,
      "time_per_iteration": 2.6000423431396484
    },
    {
      "auxiliary_loss_clip": 0.01031173,
      "auxiliary_loss_mlp": 0.01020993,
      "balance_loss_clip": 1.03866541,
      "balance_loss_mlp": 1.01490188,
      "epoch": 0.5166837010761739,
      "flos": 19903217892480.0,
      "grad_norm": 9.709924035595396,
      "language_loss": 0.80157602,
      "learning_rate": 1.989094450980416e-06,
      "loss": 0.82209766,
      "num_input_tokens_seen": 92755250,
      "step": 4297,
      "time_per_iteration": 2.7174150943756104
    },
    {
      "auxiliary_loss_clip": 0.01089539,
      "auxiliary_loss_mlp": 0.01018935,
      "balance_loss_clip": 1.04143012,
      "balance_loss_mlp": 1.01342177,
      "epoch": 0.516803943966813,
      "flos": 26648201203200.0,
      "grad_norm": 1.8707333062761153,
      "language_loss": 0.77236462,
      "learning_rate": 1.9883154917605556e-06,
      "loss": 0.79344934,
      "num_input_tokens_seen": 92774460,
      "step": 4298,
      "time_per_iteration": 2.5832359790802
    },
    {
      "auxiliary_loss_clip": 0.01104788,
      "auxiliary_loss_mlp": 0.01018334,
      "balance_loss_clip": 1.04467332,
      "balance_loss_mlp": 1.01311815,
      "epoch": 0.516924186857452,
      "flos": 19684901116800.0,
      "grad_norm": 2.9888112357791163,
      "language_loss": 0.83415389,
      "learning_rate": 1.9875365343132262e-06,
      "loss": 0.85538518,
      "num_input_tokens_seen": 92791580,
      "step": 4299,
      "time_per_iteration": 3.3360235691070557
    },
    {
      "auxiliary_loss_clip": 0.01091613,
      "auxiliary_loss_mlp": 0.00757115,
      "balance_loss_clip": 1.04284322,
      "balance_loss_mlp": 1.00184059,
      "epoch": 0.5170444297480912,
      "flos": 15958159107840.0,
      "grad_norm": 2.3836146492888157,
      "language_loss": 0.84634036,
      "learning_rate": 1.9867575787565946e-06,
      "loss": 0.86482763,
      "num_input_tokens_seen": 92806240,
      "step": 4300,
      "time_per_iteration": 2.494077205657959
    },
    {
      "auxiliary_loss_clip": 0.01092964,
      "auxiliary_loss_mlp": 0.01019127,
      "balance_loss_clip": 1.04465175,
      "balance_loss_mlp": 1.01327634,
      "epoch": 0.5171646726387302,
      "flos": 14175933937920.0,
      "grad_norm": 1.951567084559256,
      "language_loss": 0.86333156,
      "learning_rate": 1.9859786252088275e-06,
      "loss": 0.88445246,
      "num_input_tokens_seen": 92823420,
      "step": 4301,
      "time_per_iteration": 2.549410343170166
    },
    {
      "auxiliary_loss_clip": 0.01068281,
      "auxiliary_loss_mlp": 0.01022592,
      "balance_loss_clip": 1.0403409,
      "balance_loss_mlp": 1.01640463,
      "epoch": 0.5172849155293693,
      "flos": 23580353001600.0,
      "grad_norm": 5.218929454272181,
      "language_loss": 0.66661775,
      "learning_rate": 1.9851996737880914e-06,
      "loss": 0.68752646,
      "num_input_tokens_seen": 92838605,
      "step": 4302,
      "time_per_iteration": 3.3671560287475586
    },
    {
      "auxiliary_loss_clip": 0.01094566,
      "auxiliary_loss_mlp": 0.01025933,
      "balance_loss_clip": 1.04547274,
      "balance_loss_mlp": 1.01980627,
      "epoch": 0.5174051584200084,
      "flos": 14285319834240.0,
      "grad_norm": 2.5938504616272073,
      "language_loss": 0.74649143,
      "learning_rate": 1.9844207246125537e-06,
      "loss": 0.76769644,
      "num_input_tokens_seen": 92855185,
      "step": 4303,
      "time_per_iteration": 3.3117823600769043
    },
    {
      "auxiliary_loss_clip": 0.01083499,
      "auxiliary_loss_mlp": 0.01020787,
      "balance_loss_clip": 1.04430079,
      "balance_loss_mlp": 1.01545215,
      "epoch": 0.5175254013106475,
      "flos": 37892453051520.0,
      "grad_norm": 1.790817497211028,
      "language_loss": 0.68600476,
      "learning_rate": 1.983641777800379e-06,
      "loss": 0.70704758,
      "num_input_tokens_seen": 92877830,
      "step": 4304,
      "time_per_iteration": 2.7605574131011963
    },
    {
      "auxiliary_loss_clip": 0.01052442,
      "auxiliary_loss_mlp": 0.01002638,
      "balance_loss_clip": 1.04077673,
      "balance_loss_mlp": 1.00068307,
      "epoch": 0.5176456442012866,
      "flos": 68557236589440.0,
      "grad_norm": 0.7353855997764812,
      "language_loss": 0.58726728,
      "learning_rate": 1.9828628334697343e-06,
      "loss": 0.60781813,
      "num_input_tokens_seen": 92945040,
      "step": 4305,
      "time_per_iteration": 3.3185203075408936
    },
    {
      "auxiliary_loss_clip": 0.01051798,
      "auxiliary_loss_mlp": 0.0100295,
      "balance_loss_clip": 1.040447,
      "balance_loss_mlp": 1.00103045,
      "epoch": 0.5177658870919257,
      "flos": 64090587651840.0,
      "grad_norm": 0.7619331057020556,
      "language_loss": 0.54629433,
      "learning_rate": 1.982083891738784e-06,
      "loss": 0.56684172,
      "num_input_tokens_seen": 93005910,
      "step": 4306,
      "time_per_iteration": 3.2286510467529297
    },
    {
      "auxiliary_loss_clip": 0.01066793,
      "auxiliary_loss_mlp": 0.01021332,
      "balance_loss_clip": 1.03583574,
      "balance_loss_mlp": 1.01554489,
      "epoch": 0.5178861299825648,
      "flos": 26653661406720.0,
      "grad_norm": 1.9113346575669008,
      "language_loss": 0.8289988,
      "learning_rate": 1.9813049527256923e-06,
      "loss": 0.8498801,
      "num_input_tokens_seen": 93026305,
      "step": 4307,
      "time_per_iteration": 2.6064794063568115
    },
    {
      "auxiliary_loss_clip": 0.01071396,
      "auxiliary_loss_mlp": 0.01024574,
      "balance_loss_clip": 1.04195547,
      "balance_loss_mlp": 1.01869154,
      "epoch": 0.5180063728732038,
      "flos": 17933854659840.0,
      "grad_norm": 2.51072506885397,
      "language_loss": 0.8218379,
      "learning_rate": 1.9805260165486252e-06,
      "loss": 0.84279764,
      "num_input_tokens_seen": 93045675,
      "step": 4308,
      "time_per_iteration": 3.4041717052459717
    },
    {
      "auxiliary_loss_clip": 0.01090818,
      "auxiliary_loss_mlp": 0.01016624,
      "balance_loss_clip": 1.04351568,
      "balance_loss_mlp": 1.01131022,
      "epoch": 0.518126615763843,
      "flos": 19502957831040.0,
      "grad_norm": 2.4330625254725327,
      "language_loss": 0.8655771,
      "learning_rate": 1.9797470833257457e-06,
      "loss": 0.88665152,
      "num_input_tokens_seen": 93065375,
      "step": 4309,
      "time_per_iteration": 2.5782737731933594
    },
    {
      "auxiliary_loss_clip": 0.01094187,
      "auxiliary_loss_mlp": 0.01023734,
      "balance_loss_clip": 1.04557323,
      "balance_loss_mlp": 1.01804221,
      "epoch": 0.5182468586544821,
      "flos": 20706164772480.0,
      "grad_norm": 2.68718469011537,
      "language_loss": 0.77427769,
      "learning_rate": 1.9789681531752177e-06,
      "loss": 0.79545695,
      "num_input_tokens_seen": 93085595,
      "step": 4310,
      "time_per_iteration": 2.5398776531219482
    },
    {
      "auxiliary_loss_clip": 0.01049329,
      "auxiliary_loss_mlp": 0.01019066,
      "balance_loss_clip": 1.03787446,
      "balance_loss_mlp": 1.0139817,
      "epoch": 0.5183671015451211,
      "flos": 23114322887040.0,
      "grad_norm": 1.5499624260354274,
      "language_loss": 0.72922289,
      "learning_rate": 1.978189226215204e-06,
      "loss": 0.74990684,
      "num_input_tokens_seen": 93106140,
      "step": 4311,
      "time_per_iteration": 2.689117908477783
    },
    {
      "auxiliary_loss_clip": 0.01105706,
      "auxiliary_loss_mlp": 0.01019716,
      "balance_loss_clip": 1.04567409,
      "balance_loss_mlp": 1.01381803,
      "epoch": 0.5184873444357603,
      "flos": 17598682126080.0,
      "grad_norm": 2.20625828195935,
      "language_loss": 0.77203178,
      "learning_rate": 1.9774103025638675e-06,
      "loss": 0.79328603,
      "num_input_tokens_seen": 93124265,
      "step": 4312,
      "time_per_iteration": 2.483649253845215
    },
    {
      "auxiliary_loss_clip": 0.0104713,
      "auxiliary_loss_mlp": 0.01017714,
      "balance_loss_clip": 1.03580081,
      "balance_loss_mlp": 1.01221251,
      "epoch": 0.5186075873263993,
      "flos": 24939140112000.0,
      "grad_norm": 1.8180040205726098,
      "language_loss": 0.76560575,
      "learning_rate": 1.9766313823393696e-06,
      "loss": 0.78625423,
      "num_input_tokens_seen": 93145130,
      "step": 4313,
      "time_per_iteration": 2.725155830383301
    },
    {
      "auxiliary_loss_clip": 0.01057653,
      "auxiliary_loss_mlp": 0.01020565,
      "balance_loss_clip": 1.04008079,
      "balance_loss_mlp": 1.0149982,
      "epoch": 0.5187278302170384,
      "flos": 15191623635840.0,
      "grad_norm": 1.9909432024473168,
      "language_loss": 0.69510096,
      "learning_rate": 1.975852465659873e-06,
      "loss": 0.71588314,
      "num_input_tokens_seen": 93161110,
      "step": 4314,
      "time_per_iteration": 2.6262078285217285
    },
    {
      "auxiliary_loss_clip": 0.01083927,
      "auxiliary_loss_mlp": 0.01024814,
      "balance_loss_clip": 1.03737366,
      "balance_loss_mlp": 1.01916897,
      "epoch": 0.5188480731076776,
      "flos": 25011735419520.0,
      "grad_norm": 2.165046749507219,
      "language_loss": 0.7007516,
      "learning_rate": 1.9750735526435377e-06,
      "loss": 0.72183901,
      "num_input_tokens_seen": 93178055,
      "step": 4315,
      "time_per_iteration": 2.652109384536743
    },
    {
      "auxiliary_loss_clip": 0.01073202,
      "auxiliary_loss_mlp": 0.01020358,
      "balance_loss_clip": 1.04220092,
      "balance_loss_mlp": 1.01466298,
      "epoch": 0.5189683159983166,
      "flos": 24792432773760.0,
      "grad_norm": 2.5866507211445935,
      "language_loss": 0.79400909,
      "learning_rate": 1.974294643408525e-06,
      "loss": 0.81494468,
      "num_input_tokens_seen": 93195850,
      "step": 4316,
      "time_per_iteration": 2.5950639247894287
    },
    {
      "auxiliary_loss_clip": 0.01091761,
      "auxiliary_loss_mlp": 0.01020393,
      "balance_loss_clip": 1.04107952,
      "balance_loss_mlp": 1.01495111,
      "epoch": 0.5190885588889557,
      "flos": 24756590136960.0,
      "grad_norm": 2.232797283573952,
      "language_loss": 0.67082548,
      "learning_rate": 1.9735157380729947e-06,
      "loss": 0.69194698,
      "num_input_tokens_seen": 93216260,
      "step": 4317,
      "time_per_iteration": 2.6145429611206055
    },
    {
      "auxiliary_loss_clip": 0.01079566,
      "auxiliary_loss_mlp": 0.0101939,
      "balance_loss_clip": 1.04154146,
      "balance_loss_mlp": 1.01423764,
      "epoch": 0.5192088017795948,
      "flos": 24714680607360.0,
      "grad_norm": 2.2286907948854773,
      "language_loss": 0.84167981,
      "learning_rate": 1.9727368367551053e-06,
      "loss": 0.86266935,
      "num_input_tokens_seen": 93234810,
      "step": 4318,
      "time_per_iteration": 2.5958712100982666
    },
    {
      "auxiliary_loss_clip": 0.01072357,
      "auxiliary_loss_mlp": 0.01020897,
      "balance_loss_clip": 1.03752935,
      "balance_loss_mlp": 1.01551175,
      "epoch": 0.5193290446702339,
      "flos": 27231731683200.0,
      "grad_norm": 2.299307361857239,
      "language_loss": 0.68376565,
      "learning_rate": 1.9719579395730164e-06,
      "loss": 0.7046982,
      "num_input_tokens_seen": 93254185,
      "step": 4319,
      "time_per_iteration": 2.645273208618164
    },
    {
      "auxiliary_loss_clip": 0.01108156,
      "auxiliary_loss_mlp": 0.01019937,
      "balance_loss_clip": 1.04808688,
      "balance_loss_mlp": 1.01451039,
      "epoch": 0.5194492875608729,
      "flos": 11474929918080.0,
      "grad_norm": 2.2753761939587114,
      "language_loss": 0.93332136,
      "learning_rate": 1.9711790466448854e-06,
      "loss": 0.9546023,
      "num_input_tokens_seen": 93268205,
      "step": 4320,
      "time_per_iteration": 2.535845994949341
    },
    {
      "auxiliary_loss_clip": 0.01058659,
      "auxiliary_loss_mlp": 0.0102639,
      "balance_loss_clip": 1.0423491,
      "balance_loss_mlp": 1.02054334,
      "epoch": 0.5195695304515121,
      "flos": 20340951068160.0,
      "grad_norm": 3.42975630385393,
      "language_loss": 0.71293145,
      "learning_rate": 1.9704001580888704e-06,
      "loss": 0.73378193,
      "num_input_tokens_seen": 93286945,
      "step": 4321,
      "time_per_iteration": 2.715090036392212
    },
    {
      "auxiliary_loss_clip": 0.01078133,
      "auxiliary_loss_mlp": 0.00756961,
      "balance_loss_clip": 1.04028821,
      "balance_loss_mlp": 1.00212169,
      "epoch": 0.5196897733421512,
      "flos": 20050418165760.0,
      "grad_norm": 2.620573205496612,
      "language_loss": 0.86781055,
      "learning_rate": 1.9696212740231283e-06,
      "loss": 0.88616157,
      "num_input_tokens_seen": 93305595,
      "step": 4322,
      "time_per_iteration": 2.5711610317230225
    },
    {
      "auxiliary_loss_clip": 0.0109526,
      "auxiliary_loss_mlp": 0.01021455,
      "balance_loss_clip": 1.04346919,
      "balance_loss_mlp": 1.01558685,
      "epoch": 0.5198100162327902,
      "flos": 23807770116480.0,
      "grad_norm": 2.111698152007398,
      "language_loss": 0.82436001,
      "learning_rate": 1.9688423945658146e-06,
      "loss": 0.84552717,
      "num_input_tokens_seen": 93326460,
      "step": 4323,
      "time_per_iteration": 2.595960855484009
    },
    {
      "auxiliary_loss_clip": 0.01058777,
      "auxiliary_loss_mlp": 0.01021706,
      "balance_loss_clip": 1.03956437,
      "balance_loss_mlp": 1.01576936,
      "epoch": 0.5199302591234293,
      "flos": 24026200646400.0,
      "grad_norm": 2.7549009066126557,
      "language_loss": 0.71926546,
      "learning_rate": 1.9680635198350845e-06,
      "loss": 0.74007028,
      "num_input_tokens_seen": 93346170,
      "step": 4324,
      "time_per_iteration": 2.6734607219696045
    },
    {
      "auxiliary_loss_clip": 0.01094343,
      "auxiliary_loss_mlp": 0.01022163,
      "balance_loss_clip": 1.04386187,
      "balance_loss_mlp": 1.01613712,
      "epoch": 0.5200505020140684,
      "flos": 26361763453440.0,
      "grad_norm": 2.0396592160983658,
      "language_loss": 0.7250244,
      "learning_rate": 1.967284649949093e-06,
      "loss": 0.74618948,
      "num_input_tokens_seen": 93365380,
      "step": 4325,
      "time_per_iteration": 3.3838698863983154
    },
    {
      "auxiliary_loss_clip": 0.01064693,
      "auxiliary_loss_mlp": 0.01025237,
      "balance_loss_clip": 1.0419867,
      "balance_loss_mlp": 1.01947308,
      "epoch": 0.5201707449047075,
      "flos": 39607429363200.0,
      "grad_norm": 3.0500767094285264,
      "language_loss": 0.72240293,
      "learning_rate": 1.966505785025994e-06,
      "loss": 0.74330223,
      "num_input_tokens_seen": 93387285,
      "step": 4326,
      "time_per_iteration": 2.7958056926727295
    },
    {
      "auxiliary_loss_clip": 0.01055163,
      "auxiliary_loss_mlp": 0.01024344,
      "balance_loss_clip": 1.03814149,
      "balance_loss_mlp": 1.01854181,
      "epoch": 0.5202909877953465,
      "flos": 53686462504320.0,
      "grad_norm": 1.7130172811581268,
      "language_loss": 0.76050866,
      "learning_rate": 1.965726925183941e-06,
      "loss": 0.78130376,
      "num_input_tokens_seen": 93410390,
      "step": 4327,
      "time_per_iteration": 2.878861904144287
    },
    {
      "auxiliary_loss_clip": 0.01105754,
      "auxiliary_loss_mlp": 0.01016879,
      "balance_loss_clip": 1.04623628,
      "balance_loss_mlp": 1.01144564,
      "epoch": 0.5204112306859857,
      "flos": 19539065894400.0,
      "grad_norm": 3.1647393484285766,
      "language_loss": 0.84664124,
      "learning_rate": 1.964948070541087e-06,
      "loss": 0.86786759,
      "num_input_tokens_seen": 93429050,
      "step": 4328,
      "time_per_iteration": 3.3414480686187744
    },
    {
      "auxiliary_loss_clip": 0.01092317,
      "auxiliary_loss_mlp": 0.01022938,
      "balance_loss_clip": 1.04208958,
      "balance_loss_mlp": 1.01723099,
      "epoch": 0.5205314735766248,
      "flos": 15306507653760.0,
      "grad_norm": 2.3502099864794737,
      "language_loss": 0.69593233,
      "learning_rate": 1.9641692212155816e-06,
      "loss": 0.71708488,
      "num_input_tokens_seen": 93446815,
      "step": 4329,
      "time_per_iteration": 3.3064677715301514
    },
    {
      "auxiliary_loss_clip": 0.01048208,
      "auxiliary_loss_mlp": 0.01024308,
      "balance_loss_clip": 1.04134285,
      "balance_loss_mlp": 1.01867867,
      "epoch": 0.5206517164672638,
      "flos": 59267607891840.0,
      "grad_norm": 1.761958110021712,
      "language_loss": 0.72739267,
      "learning_rate": 1.9633903773255777e-06,
      "loss": 0.7481178,
      "num_input_tokens_seen": 93469130,
      "step": 4330,
      "time_per_iteration": 2.9613726139068604
    },
    {
      "auxiliary_loss_clip": 0.01102493,
      "auxiliary_loss_mlp": 0.01020448,
      "balance_loss_clip": 1.04231787,
      "balance_loss_mlp": 1.01505339,
      "epoch": 0.520771959357903,
      "flos": 26873608659840.0,
      "grad_norm": 2.0889865484680072,
      "language_loss": 0.74737829,
      "learning_rate": 1.9626115389892237e-06,
      "loss": 0.76860774,
      "num_input_tokens_seen": 93489920,
      "step": 4331,
      "time_per_iteration": 2.5922420024871826
    },
    {
      "auxiliary_loss_clip": 0.01067919,
      "auxiliary_loss_mlp": 0.01018316,
      "balance_loss_clip": 1.04368567,
      "balance_loss_mlp": 1.01261187,
      "epoch": 0.520892202248542,
      "flos": 26909527132800.0,
      "grad_norm": 2.202458463495454,
      "language_loss": 0.85718584,
      "learning_rate": 1.96183270632467e-06,
      "loss": 0.87804824,
      "num_input_tokens_seen": 93509770,
      "step": 4332,
      "time_per_iteration": 2.6427886486053467
    },
    {
      "auxiliary_loss_clip": 0.01057269,
      "auxiliary_loss_mlp": 0.00757091,
      "balance_loss_clip": 1.03747416,
      "balance_loss_mlp": 1.00188208,
      "epoch": 0.5210124451391811,
      "flos": 25851852069120.0,
      "grad_norm": 2.271168323945488,
      "language_loss": 0.79078901,
      "learning_rate": 1.9610538794500644e-06,
      "loss": 0.80893254,
      "num_input_tokens_seen": 93529320,
      "step": 4333,
      "time_per_iteration": 2.746330499649048
    },
    {
      "auxiliary_loss_clip": 0.01043325,
      "auxiliary_loss_mlp": 0.0100526,
      "balance_loss_clip": 1.04204106,
      "balance_loss_mlp": 1.00312638,
      "epoch": 0.5211326880298203,
      "flos": 70561266998400.0,
      "grad_norm": 0.7962095436925088,
      "language_loss": 0.59470212,
      "learning_rate": 1.9602750584835542e-06,
      "loss": 0.615188,
      "num_input_tokens_seen": 93595255,
      "step": 4334,
      "time_per_iteration": 4.066530704498291
    },
    {
      "auxiliary_loss_clip": 0.01083294,
      "auxiliary_loss_mlp": 0.010201,
      "balance_loss_clip": 1.04291463,
      "balance_loss_mlp": 1.01479769,
      "epoch": 0.5212529309204593,
      "flos": 15630494353920.0,
      "grad_norm": 2.233860805793045,
      "language_loss": 0.82994652,
      "learning_rate": 1.959496243543286e-06,
      "loss": 0.8509804,
      "num_input_tokens_seen": 93613135,
      "step": 4335,
      "time_per_iteration": 2.554715871810913
    },
    {
      "auxiliary_loss_clip": 0.01092929,
      "auxiliary_loss_mlp": 0.010261,
      "balance_loss_clip": 1.04461336,
      "balance_loss_mlp": 1.02008033,
      "epoch": 0.5213731738110984,
      "flos": 26244642268800.0,
      "grad_norm": 2.175372552890903,
      "language_loss": 0.79759932,
      "learning_rate": 1.9587174347474057e-06,
      "loss": 0.8187896,
      "num_input_tokens_seen": 93629645,
      "step": 4336,
      "time_per_iteration": 2.6584856510162354
    },
    {
      "auxiliary_loss_clip": 0.01056113,
      "auxiliary_loss_mlp": 0.01023473,
      "balance_loss_clip": 1.03984988,
      "balance_loss_mlp": 1.01791835,
      "epoch": 0.5214934167017375,
      "flos": 19419935051520.0,
      "grad_norm": 2.7645189621040487,
      "language_loss": 0.82075274,
      "learning_rate": 1.9579386322140574e-06,
      "loss": 0.84154862,
      "num_input_tokens_seen": 93645325,
      "step": 4337,
      "time_per_iteration": 2.6080706119537354
    },
    {
      "auxiliary_loss_clip": 0.01106422,
      "auxiliary_loss_mlp": 0.00756912,
      "balance_loss_clip": 1.0448736,
      "balance_loss_mlp": 1.00200081,
      "epoch": 0.5216136595923766,
      "flos": 30958397856000.0,
      "grad_norm": 2.2379036785734923,
      "language_loss": 0.81062019,
      "learning_rate": 1.9571598360613854e-06,
      "loss": 0.82925349,
      "num_input_tokens_seen": 93668200,
      "step": 4338,
      "time_per_iteration": 2.6387243270874023
    },
    {
      "auxiliary_loss_clip": 0.01083631,
      "auxiliary_loss_mlp": 0.01019477,
      "balance_loss_clip": 1.04227042,
      "balance_loss_mlp": 1.01402593,
      "epoch": 0.5217339024830157,
      "flos": 21947224008960.0,
      "grad_norm": 2.6016871937227353,
      "language_loss": 0.69586855,
      "learning_rate": 1.956381046407532e-06,
      "loss": 0.71689963,
      "num_input_tokens_seen": 93688495,
      "step": 4339,
      "time_per_iteration": 2.6224007606506348
    },
    {
      "auxiliary_loss_clip": 0.01068272,
      "auxiliary_loss_mlp": 0.01025862,
      "balance_loss_clip": 1.04131579,
      "balance_loss_mlp": 1.02005029,
      "epoch": 0.5218541453736548,
      "flos": 20925315745920.0,
      "grad_norm": 1.846565714715599,
      "language_loss": 0.86160457,
      "learning_rate": 1.9556022633706394e-06,
      "loss": 0.88254583,
      "num_input_tokens_seen": 93707285,
      "step": 4340,
      "time_per_iteration": 2.6552886962890625
    },
    {
      "auxiliary_loss_clip": 0.01079933,
      "auxiliary_loss_mlp": 0.01023208,
      "balance_loss_clip": 1.0423826,
      "balance_loss_mlp": 1.01762915,
      "epoch": 0.5219743882642939,
      "flos": 23953946601600.0,
      "grad_norm": 1.7688212911479455,
      "language_loss": 0.79837179,
      "learning_rate": 1.954823487068848e-06,
      "loss": 0.81940317,
      "num_input_tokens_seen": 93727495,
      "step": 4341,
      "time_per_iteration": 2.599429130554199
    },
    {
      "auxiliary_loss_clip": 0.01093344,
      "auxiliary_loss_mlp": 0.0102232,
      "balance_loss_clip": 1.04635811,
      "balance_loss_mlp": 1.01684868,
      "epoch": 0.5220946311549329,
      "flos": 28801555297920.0,
      "grad_norm": 1.8329750057150944,
      "language_loss": 0.81003571,
      "learning_rate": 1.9540447176202976e-06,
      "loss": 0.83119226,
      "num_input_tokens_seen": 93748740,
      "step": 4342,
      "time_per_iteration": 2.6523690223693848
    },
    {
      "auxiliary_loss_clip": 0.01057656,
      "auxiliary_loss_mlp": 0.01002032,
      "balance_loss_clip": 1.03756511,
      "balance_loss_mlp": 1.00000525,
      "epoch": 0.5222148740455721,
      "flos": 67196212312320.0,
      "grad_norm": 1.0223658114833882,
      "language_loss": 0.60601974,
      "learning_rate": 1.9532659551431272e-06,
      "loss": 0.6266166,
      "num_input_tokens_seen": 93815770,
      "step": 4343,
      "time_per_iteration": 3.3176188468933105
    },
    {
      "auxiliary_loss_clip": 0.01092717,
      "auxiliary_loss_mlp": 0.01019746,
      "balance_loss_clip": 1.0434289,
      "balance_loss_mlp": 1.01437604,
      "epoch": 0.5223351169362112,
      "flos": 61860325639680.0,
      "grad_norm": 1.6644482785100028,
      "language_loss": 0.67517686,
      "learning_rate": 1.9524871997554744e-06,
      "loss": 0.69630152,
      "num_input_tokens_seen": 93843530,
      "step": 4344,
      "time_per_iteration": 2.9539384841918945
    },
    {
      "auxiliary_loss_clip": 0.01090817,
      "auxiliary_loss_mlp": 0.01021852,
      "balance_loss_clip": 1.04223323,
      "balance_loss_mlp": 1.01621664,
      "epoch": 0.5224553598268502,
      "flos": 14649130569600.0,
      "grad_norm": 2.3517509039863618,
      "language_loss": 0.80636537,
      "learning_rate": 1.951708451575475e-06,
      "loss": 0.82749212,
      "num_input_tokens_seen": 93860595,
      "step": 4345,
      "time_per_iteration": 2.54134464263916
    },
    {
      "auxiliary_loss_clip": 0.01072304,
      "auxiliary_loss_mlp": 0.01022552,
      "balance_loss_clip": 1.04151571,
      "balance_loss_mlp": 1.01710439,
      "epoch": 0.5225756027174894,
      "flos": 14827585392000.0,
      "grad_norm": 2.423711707865044,
      "language_loss": 0.8231957,
      "learning_rate": 1.9509297107212657e-06,
      "loss": 0.84414423,
      "num_input_tokens_seen": 93877365,
      "step": 4346,
      "time_per_iteration": 2.582176923751831
    },
    {
      "auxiliary_loss_clip": 0.01102179,
      "auxiliary_loss_mlp": 0.01021174,
      "balance_loss_clip": 1.04281795,
      "balance_loss_mlp": 1.01597047,
      "epoch": 0.5226958456081284,
      "flos": 23514165849600.0,
      "grad_norm": 1.6663463024003125,
      "language_loss": 0.79129171,
      "learning_rate": 1.95015097731098e-06,
      "loss": 0.81252527,
      "num_input_tokens_seen": 93896855,
      "step": 4347,
      "time_per_iteration": 2.580432653427124
    },
    {
      "auxiliary_loss_clip": 0.01104821,
      "auxiliary_loss_mlp": 0.01018648,
      "balance_loss_clip": 1.04507709,
      "balance_loss_mlp": 1.01338172,
      "epoch": 0.5228160884987675,
      "flos": 19064959228800.0,
      "grad_norm": 2.2824544044675092,
      "language_loss": 0.82387286,
      "learning_rate": 1.949372251462751e-06,
      "loss": 0.84510756,
      "num_input_tokens_seen": 93914270,
      "step": 4348,
      "time_per_iteration": 2.493051767349243
    },
    {
      "auxiliary_loss_clip": 0.01067531,
      "auxiliary_loss_mlp": 0.00756617,
      "balance_loss_clip": 1.04207397,
      "balance_loss_mlp": 1.00194025,
      "epoch": 0.5229363313894067,
      "flos": 21065008239360.0,
      "grad_norm": 2.551366490910733,
      "language_loss": 0.82606524,
      "learning_rate": 1.9485935332947124e-06,
      "loss": 0.84430671,
      "num_input_tokens_seen": 93932180,
      "step": 4349,
      "time_per_iteration": 2.6384639739990234
    },
    {
      "auxiliary_loss_clip": 0.01069544,
      "auxiliary_loss_mlp": 0.01019431,
      "balance_loss_clip": 1.03849697,
      "balance_loss_mlp": 1.0143435,
      "epoch": 0.5230565742800457,
      "flos": 14832173479680.0,
      "grad_norm": 2.2354739391117744,
      "language_loss": 0.83594275,
      "learning_rate": 1.947814822924993e-06,
      "loss": 0.8568325,
      "num_input_tokens_seen": 93949690,
      "step": 4350,
      "time_per_iteration": 2.5375030040740967
    },
    {
      "auxiliary_loss_clip": 0.01102898,
      "auxiliary_loss_mlp": 0.01024384,
      "balance_loss_clip": 1.0437305,
      "balance_loss_mlp": 1.01931739,
      "epoch": 0.5231768171706848,
      "flos": 25815440661120.0,
      "grad_norm": 2.033843824674004,
      "language_loss": 0.82979488,
      "learning_rate": 1.9470361204717236e-06,
      "loss": 0.85106772,
      "num_input_tokens_seen": 93968830,
      "step": 4351,
      "time_per_iteration": 3.356825828552246
    },
    {
      "auxiliary_loss_clip": 0.01069866,
      "auxiliary_loss_mlp": 0.00756834,
      "balance_loss_clip": 1.04175591,
      "balance_loss_mlp": 1.00203538,
      "epoch": 0.5232970600613239,
      "flos": 22745810309760.0,
      "grad_norm": 2.048166975230279,
      "language_loss": 0.80936611,
      "learning_rate": 1.9462574260530326e-06,
      "loss": 0.8276332,
      "num_input_tokens_seen": 93989110,
      "step": 4352,
      "time_per_iteration": 2.6240272521972656
    },
    {
      "auxiliary_loss_clip": 0.01091992,
      "auxiliary_loss_mlp": 0.01019208,
      "balance_loss_clip": 1.04268265,
      "balance_loss_mlp": 1.01346231,
      "epoch": 0.523417302951963,
      "flos": 17312585639040.0,
      "grad_norm": 2.620817434599039,
      "language_loss": 0.80622739,
      "learning_rate": 1.9454787397870472e-06,
      "loss": 0.82733935,
      "num_input_tokens_seen": 94006430,
      "step": 4353,
      "time_per_iteration": 2.566189765930176
    },
    {
      "auxiliary_loss_clip": 0.01033372,
      "auxiliary_loss_mlp": 0.01023907,
      "balance_loss_clip": 1.03834796,
      "balance_loss_mlp": 1.01843786,
      "epoch": 0.523537545842602,
      "flos": 18553720711680.0,
      "grad_norm": 2.4524653970461,
      "language_loss": 0.72428882,
      "learning_rate": 1.944700061791894e-06,
      "loss": 0.7448616,
      "num_input_tokens_seen": 94024825,
      "step": 4354,
      "time_per_iteration": 3.453677177429199
    },
    {
      "auxiliary_loss_clip": 0.0108822,
      "auxiliary_loss_mlp": 0.01022849,
      "balance_loss_clip": 1.04177022,
      "balance_loss_mlp": 1.0173955,
      "epoch": 0.5236577887332411,
      "flos": 19721312524800.0,
      "grad_norm": 2.1932722490559526,
      "language_loss": 0.65249622,
      "learning_rate": 1.943921392185698e-06,
      "loss": 0.67360687,
      "num_input_tokens_seen": 94043450,
      "step": 4355,
      "time_per_iteration": 3.3589565753936768
    },
    {
      "auxiliary_loss_clip": 0.01079085,
      "auxiliary_loss_mlp": 0.0102065,
      "balance_loss_clip": 1.04166257,
      "balance_loss_mlp": 1.01499081,
      "epoch": 0.5237780316238803,
      "flos": 23552473161600.0,
      "grad_norm": 1.9220895778332892,
      "language_loss": 0.77060473,
      "learning_rate": 1.9431427310865814e-06,
      "loss": 0.79160208,
      "num_input_tokens_seen": 94063055,
      "step": 4356,
      "time_per_iteration": 2.6534156799316406
    },
    {
      "auxiliary_loss_clip": 0.01064442,
      "auxiliary_loss_mlp": 0.0102241,
      "balance_loss_clip": 1.04455829,
      "balance_loss_mlp": 1.01705146,
      "epoch": 0.5238982745145193,
      "flos": 22494077654400.0,
      "grad_norm": 5.026517126174539,
      "language_loss": 0.78748721,
      "learning_rate": 1.942364078612667e-06,
      "loss": 0.80835581,
      "num_input_tokens_seen": 94081785,
      "step": 4357,
      "time_per_iteration": 2.6339340209960938
    },
    {
      "auxiliary_loss_clip": 0.01064569,
      "auxiliary_loss_mlp": 0.01021448,
      "balance_loss_clip": 1.03997231,
      "balance_loss_mlp": 1.01624501,
      "epoch": 0.5240185174051584,
      "flos": 27091356664320.0,
      "grad_norm": 2.6708138923155498,
      "language_loss": 0.75551498,
      "learning_rate": 1.9415854348820765e-06,
      "loss": 0.77637511,
      "num_input_tokens_seen": 94101635,
      "step": 4358,
      "time_per_iteration": 2.7497434616088867
    },
    {
      "auxiliary_loss_clip": 0.0108951,
      "auxiliary_loss_mlp": 0.01021809,
      "balance_loss_clip": 1.04240489,
      "balance_loss_mlp": 1.01575589,
      "epoch": 0.5241387602957975,
      "flos": 22676893056000.0,
      "grad_norm": 3.167165546404665,
      "language_loss": 0.68452895,
      "learning_rate": 1.940806800012929e-06,
      "loss": 0.7056421,
      "num_input_tokens_seen": 94121705,
      "step": 4359,
      "time_per_iteration": 3.3352644443511963
    },
    {
      "auxiliary_loss_clip": 0.01047654,
      "auxiliary_loss_mlp": 0.00756737,
      "balance_loss_clip": 1.03811288,
      "balance_loss_mlp": 1.00195742,
      "epoch": 0.5242590031864366,
      "flos": 40556704400640.0,
      "grad_norm": 1.993055351844066,
      "language_loss": 0.63559395,
      "learning_rate": 1.9400281741233432e-06,
      "loss": 0.65363783,
      "num_input_tokens_seen": 94146595,
      "step": 4360,
      "time_per_iteration": 2.802933931350708
    },
    {
      "auxiliary_loss_clip": 0.0102863,
      "auxiliary_loss_mlp": 0.01004877,
      "balance_loss_clip": 1.03514314,
      "balance_loss_mlp": 1.00286222,
      "epoch": 0.5243792460770756,
      "flos": 66683002055040.0,
      "grad_norm": 0.690817426677631,
      "language_loss": 0.5247227,
      "learning_rate": 1.939249557331435e-06,
      "loss": 0.54505777,
      "num_input_tokens_seen": 94212410,
      "step": 4361,
      "time_per_iteration": 3.233046531677246
    },
    {
      "auxiliary_loss_clip": 0.01069773,
      "auxiliary_loss_mlp": 0.01022872,
      "balance_loss_clip": 1.0409658,
      "balance_loss_mlp": 1.01763833,
      "epoch": 0.5244994889677148,
      "flos": 28186163579520.0,
      "grad_norm": 2.088814198229436,
      "language_loss": 0.7266444,
      "learning_rate": 1.938470949755321e-06,
      "loss": 0.74757087,
      "num_input_tokens_seen": 94232290,
      "step": 4362,
      "time_per_iteration": 2.670011520385742
    },
    {
      "auxiliary_loss_clip": 0.01039694,
      "auxiliary_loss_mlp": 0.01003126,
      "balance_loss_clip": 1.03826988,
      "balance_loss_mlp": 1.00111163,
      "epoch": 0.5246197318583539,
      "flos": 65957238570240.0,
      "grad_norm": 0.8140661768650114,
      "language_loss": 0.55691445,
      "learning_rate": 1.937692351513115e-06,
      "loss": 0.57734263,
      "num_input_tokens_seen": 94291285,
      "step": 4363,
      "time_per_iteration": 3.158538818359375
    },
    {
      "auxiliary_loss_clip": 0.01093031,
      "auxiliary_loss_mlp": 0.0101882,
      "balance_loss_clip": 1.04267085,
      "balance_loss_mlp": 1.0134232,
      "epoch": 0.5247399747489929,
      "flos": 21035649594240.0,
      "grad_norm": 2.1122035604535996,
      "language_loss": 0.80827606,
      "learning_rate": 1.9369137627229297e-06,
      "loss": 0.82939452,
      "num_input_tokens_seen": 94309685,
      "step": 4364,
      "time_per_iteration": 2.542985200881958
    },
    {
      "auxiliary_loss_clip": 0.01088829,
      "auxiliary_loss_mlp": 0.0102302,
      "balance_loss_clip": 1.04181647,
      "balance_loss_mlp": 1.01754832,
      "epoch": 0.5248602176396321,
      "flos": 19027941131520.0,
      "grad_norm": 2.0217741960351363,
      "language_loss": 0.88488382,
      "learning_rate": 1.936135183502877e-06,
      "loss": 0.90600234,
      "num_input_tokens_seen": 94326985,
      "step": 4365,
      "time_per_iteration": 2.5580339431762695
    },
    {
      "auxiliary_loss_clip": 0.01066258,
      "auxiliary_loss_mlp": 0.01020656,
      "balance_loss_clip": 1.04253614,
      "balance_loss_mlp": 1.01520491,
      "epoch": 0.5249804605302711,
      "flos": 22202255537280.0,
      "grad_norm": 2.1515916800578236,
      "language_loss": 0.80324113,
      "learning_rate": 1.935356613971066e-06,
      "loss": 0.82411027,
      "num_input_tokens_seen": 94347645,
      "step": 4366,
      "time_per_iteration": 2.5972840785980225
    },
    {
      "auxiliary_loss_clip": 0.01074594,
      "auxiliary_loss_mlp": 0.00756794,
      "balance_loss_clip": 1.03980017,
      "balance_loss_mlp": 1.00193107,
      "epoch": 0.5251007034209102,
      "flos": 23807959706880.0,
      "grad_norm": 1.7987756509637103,
      "language_loss": 0.76982903,
      "learning_rate": 1.9345780542456047e-06,
      "loss": 0.78814292,
      "num_input_tokens_seen": 94367020,
      "step": 4367,
      "time_per_iteration": 2.616651773452759
    },
    {
      "auxiliary_loss_clip": 0.01091506,
      "auxiliary_loss_mlp": 0.01021213,
      "balance_loss_clip": 1.04270697,
      "balance_loss_mlp": 1.01590514,
      "epoch": 0.5252209463115494,
      "flos": 23296834944000.0,
      "grad_norm": 2.6957222971654105,
      "language_loss": 0.71671146,
      "learning_rate": 1.9337995044446007e-06,
      "loss": 0.73783863,
      "num_input_tokens_seen": 94385860,
      "step": 4368,
      "time_per_iteration": 2.5917043685913086
    },
    {
      "auxiliary_loss_clip": 0.01092388,
      "auxiliary_loss_mlp": 0.01019822,
      "balance_loss_clip": 1.04227114,
      "balance_loss_mlp": 1.01427889,
      "epoch": 0.5253411892021884,
      "flos": 19830736339200.0,
      "grad_norm": 1.9589064033760435,
      "language_loss": 0.80151606,
      "learning_rate": 1.9330209646861596e-06,
      "loss": 0.82263815,
      "num_input_tokens_seen": 94405010,
      "step": 4369,
      "time_per_iteration": 2.567537784576416
    },
    {
      "auxiliary_loss_clip": 0.01069262,
      "auxiliary_loss_mlp": 0.01023098,
      "balance_loss_clip": 1.03785133,
      "balance_loss_mlp": 1.01804996,
      "epoch": 0.5254614320928275,
      "flos": 24136003641600.0,
      "grad_norm": 1.8326227984593266,
      "language_loss": 0.77704227,
      "learning_rate": 1.9322424350883843e-06,
      "loss": 0.79796576,
      "num_input_tokens_seen": 94426845,
      "step": 4370,
      "time_per_iteration": 2.632443904876709
    },
    {
      "auxiliary_loss_clip": 0.01080178,
      "auxiliary_loss_mlp": 0.01024458,
      "balance_loss_clip": 1.04273915,
      "balance_loss_mlp": 1.01908779,
      "epoch": 0.5255816749834666,
      "flos": 24647280076800.0,
      "grad_norm": 1.7160618596095751,
      "language_loss": 0.78600979,
      "learning_rate": 1.931463915769379e-06,
      "loss": 0.80705613,
      "num_input_tokens_seen": 94446960,
      "step": 4371,
      "time_per_iteration": 2.6426186561584473
    },
    {
      "auxiliary_loss_clip": 0.01056166,
      "auxiliary_loss_mlp": 0.01021123,
      "balance_loss_clip": 1.04115701,
      "balance_loss_mlp": 1.01565099,
      "epoch": 0.5257019178741057,
      "flos": 14138309151360.0,
      "grad_norm": 2.57522702211099,
      "language_loss": 0.74423409,
      "learning_rate": 1.930685406847242e-06,
      "loss": 0.76500702,
      "num_input_tokens_seen": 94461535,
      "step": 4372,
      "time_per_iteration": 2.637631416320801
    },
    {
      "auxiliary_loss_clip": 0.01074613,
      "auxiliary_loss_mlp": 0.01018321,
      "balance_loss_clip": 1.03911936,
      "balance_loss_mlp": 1.01321244,
      "epoch": 0.5258221607647448,
      "flos": 23551146028800.0,
      "grad_norm": 2.2673807331741975,
      "language_loss": 0.81887525,
      "learning_rate": 1.9299069084400734e-06,
      "loss": 0.83980459,
      "num_input_tokens_seen": 94482395,
      "step": 4373,
      "time_per_iteration": 2.5921506881713867
    },
    {
      "auxiliary_loss_clip": 0.01065133,
      "auxiliary_loss_mlp": 0.01021622,
      "balance_loss_clip": 1.04375243,
      "balance_loss_mlp": 1.01613832,
      "epoch": 0.5259424036553839,
      "flos": 24968043740160.0,
      "grad_norm": 2.0004715072124144,
      "language_loss": 0.69780743,
      "learning_rate": 1.9291284206659717e-06,
      "loss": 0.71867496,
      "num_input_tokens_seen": 94500580,
      "step": 4374,
      "time_per_iteration": 2.6701202392578125
    },
    {
      "auxiliary_loss_clip": 0.01104603,
      "auxiliary_loss_mlp": 0.01017046,
      "balance_loss_clip": 1.04508448,
      "balance_loss_mlp": 1.01151729,
      "epoch": 0.526062646546023,
      "flos": 28766243514240.0,
      "grad_norm": 2.0627342841913343,
      "language_loss": 0.71867442,
      "learning_rate": 1.928349943643032e-06,
      "loss": 0.73989093,
      "num_input_tokens_seen": 94519680,
      "step": 4375,
      "time_per_iteration": 2.5566976070404053
    },
    {
      "auxiliary_loss_clip": 0.01082335,
      "auxiliary_loss_mlp": 0.01022206,
      "balance_loss_clip": 1.04012406,
      "balance_loss_mlp": 1.01680231,
      "epoch": 0.526182889436662,
      "flos": 22823638312320.0,
      "grad_norm": 1.7248935287214764,
      "language_loss": 0.82158983,
      "learning_rate": 1.9275714774893493e-06,
      "loss": 0.84263527,
      "num_input_tokens_seen": 94539135,
      "step": 4376,
      "time_per_iteration": 3.352175712585449
    },
    {
      "auxiliary_loss_clip": 0.01060836,
      "auxiliary_loss_mlp": 0.01020005,
      "balance_loss_clip": 1.03803992,
      "balance_loss_mlp": 1.01411045,
      "epoch": 0.5263031323273012,
      "flos": 22931659157760.0,
      "grad_norm": 2.472047322430449,
      "language_loss": 0.73004711,
      "learning_rate": 1.9267930223230154e-06,
      "loss": 0.75085557,
      "num_input_tokens_seen": 94557610,
      "step": 4377,
      "time_per_iteration": 2.621642827987671
    },
    {
      "auxiliary_loss_clip": 0.01080056,
      "auxiliary_loss_mlp": 0.01020356,
      "balance_loss_clip": 1.04257703,
      "balance_loss_mlp": 1.01513171,
      "epoch": 0.5264233752179402,
      "flos": 17750546323200.0,
      "grad_norm": 2.0256229817271176,
      "language_loss": 0.78441864,
      "learning_rate": 1.9260145782621224e-06,
      "loss": 0.80542278,
      "num_input_tokens_seen": 94575390,
      "step": 4378,
      "time_per_iteration": 2.5720386505126953
    },
    {
      "auxiliary_loss_clip": 0.01075179,
      "auxiliary_loss_mlp": 0.01019314,
      "balance_loss_clip": 1.04050159,
      "balance_loss_mlp": 1.01376438,
      "epoch": 0.5265436181085793,
      "flos": 24423692688000.0,
      "grad_norm": 2.0857636739874117,
      "language_loss": 0.87726492,
      "learning_rate": 1.925236145424758e-06,
      "loss": 0.89820987,
      "num_input_tokens_seen": 94594210,
      "step": 4379,
      "time_per_iteration": 3.3490021228790283
    },
    {
      "auxiliary_loss_clip": 0.01056903,
      "auxiliary_loss_mlp": 0.0100363,
      "balance_loss_clip": 1.03652072,
      "balance_loss_mlp": 1.00174618,
      "epoch": 0.5266638609992185,
      "flos": 69214879100160.0,
      "grad_norm": 0.7168980137181403,
      "language_loss": 0.57560444,
      "learning_rate": 1.924457723929012e-06,
      "loss": 0.59620976,
      "num_input_tokens_seen": 94665020,
      "step": 4380,
      "time_per_iteration": 4.0375237464904785
    },
    {
      "auxiliary_loss_clip": 0.0109119,
      "auxiliary_loss_mlp": 0.01016968,
      "balance_loss_clip": 1.04260576,
      "balance_loss_mlp": 1.01172602,
      "epoch": 0.5267841038898575,
      "flos": 20740680276480.0,
      "grad_norm": 1.6465818609333787,
      "language_loss": 0.8266449,
      "learning_rate": 1.9236793138929685e-06,
      "loss": 0.84772646,
      "num_input_tokens_seen": 94684290,
      "step": 4381,
      "time_per_iteration": 2.594412088394165
    },
    {
      "auxiliary_loss_clip": 0.01093073,
      "auxiliary_loss_mlp": 0.01020745,
      "balance_loss_clip": 1.04186881,
      "balance_loss_mlp": 1.01514232,
      "epoch": 0.5269043467804966,
      "flos": 17236084769280.0,
      "grad_norm": 2.0703315616221203,
      "language_loss": 0.81224692,
      "learning_rate": 1.9229009154347133e-06,
      "loss": 0.83338511,
      "num_input_tokens_seen": 94701880,
      "step": 4382,
      "time_per_iteration": 2.5219030380249023
    },
    {
      "auxiliary_loss_clip": 0.01057442,
      "auxiliary_loss_mlp": 0.00756737,
      "balance_loss_clip": 1.04076254,
      "balance_loss_mlp": 1.00191116,
      "epoch": 0.5270245896711357,
      "flos": 18225108005760.0,
      "grad_norm": 2.4139280958733353,
      "language_loss": 0.80350709,
      "learning_rate": 1.922122528672327e-06,
      "loss": 0.82164884,
      "num_input_tokens_seen": 94720545,
      "step": 4383,
      "time_per_iteration": 2.650634527206421
    },
    {
      "auxiliary_loss_clip": 0.01101604,
      "auxiliary_loss_mlp": 0.0101725,
      "balance_loss_clip": 1.04273677,
      "balance_loss_mlp": 1.01205885,
      "epoch": 0.5271448325617748,
      "flos": 21289657334400.0,
      "grad_norm": 3.234097733664497,
      "language_loss": 0.78259861,
      "learning_rate": 1.9213441537238914e-06,
      "loss": 0.80378711,
      "num_input_tokens_seen": 94737420,
      "step": 4384,
      "time_per_iteration": 2.4989709854125977
    },
    {
      "auxiliary_loss_clip": 0.01015766,
      "auxiliary_loss_mlp": 0.01003285,
      "balance_loss_clip": 1.03230047,
      "balance_loss_mlp": 1.00144911,
      "epoch": 0.5272650754524139,
      "flos": 65501380552320.0,
      "grad_norm": 0.8356432054921988,
      "language_loss": 0.57325256,
      "learning_rate": 1.920565790707485e-06,
      "loss": 0.59344304,
      "num_input_tokens_seen": 94802810,
      "step": 4385,
      "time_per_iteration": 4.2136390209198
    },
    {
      "auxiliary_loss_clip": 0.01058137,
      "auxiliary_loss_mlp": 0.0102151,
      "balance_loss_clip": 1.04352808,
      "balance_loss_mlp": 1.01566601,
      "epoch": 0.527385318343053,
      "flos": 19678113780480.0,
      "grad_norm": 2.1179300127751546,
      "language_loss": 0.65819311,
      "learning_rate": 1.9197874397411853e-06,
      "loss": 0.67898959,
      "num_input_tokens_seen": 94819440,
      "step": 4386,
      "time_per_iteration": 3.398916006088257
    },
    {
      "auxiliary_loss_clip": 0.01071264,
      "auxiliary_loss_mlp": 0.01024997,
      "balance_loss_clip": 1.03981066,
      "balance_loss_mlp": 1.01891422,
      "epoch": 0.5275055612336921,
      "flos": 12713562397440.0,
      "grad_norm": 4.28015516576679,
      "language_loss": 0.67139006,
      "learning_rate": 1.919009100943067e-06,
      "loss": 0.69235271,
      "num_input_tokens_seen": 94835130,
      "step": 4387,
      "time_per_iteration": 2.5988543033599854
    },
    {
      "auxiliary_loss_clip": 0.01057833,
      "auxiliary_loss_mlp": 0.01021558,
      "balance_loss_clip": 1.0401907,
      "balance_loss_mlp": 1.01546359,
      "epoch": 0.5276258041243311,
      "flos": 17750963422080.0,
      "grad_norm": 2.059800090457215,
      "language_loss": 0.65945232,
      "learning_rate": 1.9182307744312043e-06,
      "loss": 0.68024617,
      "num_input_tokens_seen": 94852235,
      "step": 4388,
      "time_per_iteration": 2.6825902462005615
    },
    {
      "auxiliary_loss_clip": 0.01082324,
      "auxiliary_loss_mlp": 0.01025579,
      "balance_loss_clip": 1.04285431,
      "balance_loss_mlp": 1.02042007,
      "epoch": 0.5277460470149702,
      "flos": 22712621938560.0,
      "grad_norm": 2.1300991432769383,
      "language_loss": 0.7685613,
      "learning_rate": 1.9174524603236676e-06,
      "loss": 0.78964031,
      "num_input_tokens_seen": 94871185,
      "step": 4389,
      "time_per_iteration": 2.6652896404266357
    },
    {
      "auxiliary_loss_clip": 0.01075963,
      "auxiliary_loss_mlp": 0.01018954,
      "balance_loss_clip": 1.03963995,
      "balance_loss_mlp": 1.01325536,
      "epoch": 0.5278662899056094,
      "flos": 19904810451840.0,
      "grad_norm": 1.8794520236871803,
      "language_loss": 0.76068747,
      "learning_rate": 1.916674158738527e-06,
      "loss": 0.7816366,
      "num_input_tokens_seen": 94890090,
      "step": 4390,
      "time_per_iteration": 2.5825116634368896
    },
    {
      "auxiliary_loss_clip": 0.01048637,
      "auxiliary_loss_mlp": 0.00757051,
      "balance_loss_clip": 1.03148317,
      "balance_loss_mlp": 1.00175989,
      "epoch": 0.5279865327962484,
      "flos": 18007208328960.0,
      "grad_norm": 1.8709081471977647,
      "language_loss": 0.59934795,
      "learning_rate": 1.9158958697938506e-06,
      "loss": 0.61740482,
      "num_input_tokens_seen": 94908470,
      "step": 4391,
      "time_per_iteration": 2.6385412216186523
    },
    {
      "auxiliary_loss_clip": 0.01079406,
      "auxiliary_loss_mlp": 0.01021796,
      "balance_loss_clip": 1.04158163,
      "balance_loss_mlp": 1.01644099,
      "epoch": 0.5281067756868875,
      "flos": 15926259951360.0,
      "grad_norm": 2.791824964735234,
      "language_loss": 0.86009091,
      "learning_rate": 1.9151175936077032e-06,
      "loss": 0.88110292,
      "num_input_tokens_seen": 94923440,
      "step": 4392,
      "time_per_iteration": 2.555119037628174
    },
    {
      "auxiliary_loss_clip": 0.01078736,
      "auxiliary_loss_mlp": 0.01020889,
      "balance_loss_clip": 1.03422785,
      "balance_loss_mlp": 1.01555157,
      "epoch": 0.5282270185775266,
      "flos": 19428466619520.0,
      "grad_norm": 1.738065569276747,
      "language_loss": 0.79370779,
      "learning_rate": 1.9143393302981507e-06,
      "loss": 0.814704,
      "num_input_tokens_seen": 94941125,
      "step": 4393,
      "time_per_iteration": 2.5847864151000977
    },
    {
      "auxiliary_loss_clip": 0.01080762,
      "auxiliary_loss_mlp": 0.01017201,
      "balance_loss_clip": 1.0424192,
      "balance_loss_mlp": 1.01187205,
      "epoch": 0.5283472614681657,
      "flos": 16401504159360.0,
      "grad_norm": 3.0286781587951923,
      "language_loss": 0.83217907,
      "learning_rate": 1.913561079983252e-06,
      "loss": 0.85315871,
      "num_input_tokens_seen": 94959950,
      "step": 4394,
      "time_per_iteration": 2.563667058944702
    },
    {
      "auxiliary_loss_clip": 0.01082587,
      "auxiliary_loss_mlp": 0.01028513,
      "balance_loss_clip": 1.04362357,
      "balance_loss_mlp": 1.02232289,
      "epoch": 0.5284675043588047,
      "flos": 26762933548800.0,
      "grad_norm": 2.376502713386426,
      "language_loss": 0.74767905,
      "learning_rate": 1.9127828427810693e-06,
      "loss": 0.76879001,
      "num_input_tokens_seen": 94980515,
      "step": 4395,
      "time_per_iteration": 2.6473684310913086
    },
    {
      "auxiliary_loss_clip": 0.01068543,
      "auxiliary_loss_mlp": 0.01021333,
      "balance_loss_clip": 1.04134047,
      "balance_loss_mlp": 1.01576877,
      "epoch": 0.5285877472494439,
      "flos": 19901852841600.0,
      "grad_norm": 2.1813785587950996,
      "language_loss": 0.81196332,
      "learning_rate": 1.9120046188096607e-06,
      "loss": 0.83286208,
      "num_input_tokens_seen": 94998560,
      "step": 4396,
      "time_per_iteration": 2.657482385635376
    },
    {
      "auxiliary_loss_clip": 0.01071779,
      "auxiliary_loss_mlp": 0.01028878,
      "balance_loss_clip": 1.04170883,
      "balance_loss_mlp": 1.02351391,
      "epoch": 0.528707990140083,
      "flos": 20013324232320.0,
      "grad_norm": 7.787685834320787,
      "language_loss": 0.74290097,
      "learning_rate": 1.9112264081870804e-06,
      "loss": 0.76390749,
      "num_input_tokens_seen": 95016950,
      "step": 4397,
      "time_per_iteration": 2.6140382289886475
    },
    {
      "auxiliary_loss_clip": 0.01054676,
      "auxiliary_loss_mlp": 0.01024963,
      "balance_loss_clip": 1.03827071,
      "balance_loss_mlp": 1.01895809,
      "epoch": 0.528828233030722,
      "flos": 20670056709120.0,
      "grad_norm": 2.319968831989835,
      "language_loss": 0.75675207,
      "learning_rate": 1.9104482110313843e-06,
      "loss": 0.77754849,
      "num_input_tokens_seen": 95036540,
      "step": 4398,
      "time_per_iteration": 2.6023011207580566
    },
    {
      "auxiliary_loss_clip": 0.01089863,
      "auxiliary_loss_mlp": 0.01020852,
      "balance_loss_clip": 1.04253423,
      "balance_loss_mlp": 1.01581538,
      "epoch": 0.5289484759213612,
      "flos": 25194816247680.0,
      "grad_norm": 2.1490995076980073,
      "language_loss": 0.73851746,
      "learning_rate": 1.909670027460623e-06,
      "loss": 0.7596246,
      "num_input_tokens_seen": 95053840,
      "step": 4399,
      "time_per_iteration": 2.605825185775757
    },
    {
      "auxiliary_loss_clip": 0.01090783,
      "auxiliary_loss_mlp": 0.0102276,
      "balance_loss_clip": 1.04370356,
      "balance_loss_mlp": 1.01717758,
      "epoch": 0.5290687188120002,
      "flos": 31141933701120.0,
      "grad_norm": 2.133341535029707,
      "language_loss": 0.71685243,
      "learning_rate": 1.908891857592847e-06,
      "loss": 0.73798782,
      "num_input_tokens_seen": 95074910,
      "step": 4400,
      "time_per_iteration": 2.6050832271575928
    },
    {
      "auxiliary_loss_clip": 0.01053829,
      "auxiliary_loss_mlp": 0.01020278,
      "balance_loss_clip": 1.03830218,
      "balance_loss_mlp": 1.01486278,
      "epoch": 0.5291889617026393,
      "flos": 20121875930880.0,
      "grad_norm": 3.1161151750114806,
      "language_loss": 0.89874566,
      "learning_rate": 1.9081137015461034e-06,
      "loss": 0.91948676,
      "num_input_tokens_seen": 95090985,
      "step": 4401,
      "time_per_iteration": 2.6153385639190674
    },
    {
      "auxiliary_loss_clip": 0.01045252,
      "auxiliary_loss_mlp": 0.01019968,
      "balance_loss_clip": 1.03344262,
      "balance_loss_mlp": 1.01467514,
      "epoch": 0.5293092045932785,
      "flos": 19645645852800.0,
      "grad_norm": 1.8886392670465693,
      "language_loss": 0.90658379,
      "learning_rate": 1.9073355594384383e-06,
      "loss": 0.92723596,
      "num_input_tokens_seen": 95109225,
      "step": 4402,
      "time_per_iteration": 2.5839123725891113
    },
    {
      "auxiliary_loss_clip": 0.01062561,
      "auxiliary_loss_mlp": 0.01024267,
      "balance_loss_clip": 1.04182792,
      "balance_loss_mlp": 1.01854527,
      "epoch": 0.5294294474839175,
      "flos": 24320108257920.0,
      "grad_norm": 2.1159828417419284,
      "language_loss": 0.80362678,
      "learning_rate": 1.906557431387895e-06,
      "loss": 0.82449502,
      "num_input_tokens_seen": 95128215,
      "step": 4403,
      "time_per_iteration": 3.4542007446289062
    },
    {
      "auxiliary_loss_clip": 0.01055841,
      "auxiliary_loss_mlp": 0.01023511,
      "balance_loss_clip": 1.04049492,
      "balance_loss_mlp": 1.01769698,
      "epoch": 0.5295496903745566,
      "flos": 18877707411840.0,
      "grad_norm": 2.0848144468561554,
      "language_loss": 0.78824067,
      "learning_rate": 1.905779317512516e-06,
      "loss": 0.80903423,
      "num_input_tokens_seen": 95145760,
      "step": 4404,
      "time_per_iteration": 2.5687053203582764
    },
    {
      "auxiliary_loss_clip": 0.01091111,
      "auxiliary_loss_mlp": 0.01022589,
      "balance_loss_clip": 1.04370642,
      "balance_loss_mlp": 1.01713252,
      "epoch": 0.5296699332651957,
      "flos": 20925201991680.0,
      "grad_norm": 2.2770557143153236,
      "language_loss": 0.80696881,
      "learning_rate": 1.9050012179303385e-06,
      "loss": 0.82810581,
      "num_input_tokens_seen": 95164270,
      "step": 4405,
      "time_per_iteration": 3.3331351280212402
    },
    {
      "auxiliary_loss_clip": 0.01093638,
      "auxiliary_loss_mlp": 0.01019418,
      "balance_loss_clip": 1.04296267,
      "balance_loss_mlp": 1.01361525,
      "epoch": 0.5297901761558348,
      "flos": 22048495436160.0,
      "grad_norm": 2.6192929916676007,
      "language_loss": 0.68879396,
      "learning_rate": 1.904223132759401e-06,
      "loss": 0.70992452,
      "num_input_tokens_seen": 95182870,
      "step": 4406,
      "time_per_iteration": 3.3786511421203613
    },
    {
      "auxiliary_loss_clip": 0.01089632,
      "auxiliary_loss_mlp": 0.01024218,
      "balance_loss_clip": 1.04189563,
      "balance_loss_mlp": 1.0186156,
      "epoch": 0.5299104190464738,
      "flos": 21800630424960.0,
      "grad_norm": 2.5886062337414897,
      "language_loss": 0.69347876,
      "learning_rate": 1.9034450621177383e-06,
      "loss": 0.71461725,
      "num_input_tokens_seen": 95201190,
      "step": 4407,
      "time_per_iteration": 2.5402257442474365
    },
    {
      "auxiliary_loss_clip": 0.01090297,
      "auxiliary_loss_mlp": 0.01030482,
      "balance_loss_clip": 1.04485989,
      "balance_loss_mlp": 1.02458739,
      "epoch": 0.530030661937113,
      "flos": 14722560074880.0,
      "grad_norm": 3.0226699926394134,
      "language_loss": 0.70469272,
      "learning_rate": 1.9026670061233824e-06,
      "loss": 0.72590053,
      "num_input_tokens_seen": 95218625,
      "step": 4408,
      "time_per_iteration": 2.5728936195373535
    },
    {
      "auxiliary_loss_clip": 0.01070522,
      "auxiliary_loss_mlp": 0.01017889,
      "balance_loss_clip": 1.04063463,
      "balance_loss_mlp": 1.01248026,
      "epoch": 0.5301509048277521,
      "flos": 21253625107200.0,
      "grad_norm": 1.9320861343714102,
      "language_loss": 0.80566859,
      "learning_rate": 1.901888964894365e-06,
      "loss": 0.82655275,
      "num_input_tokens_seen": 95237665,
      "step": 4409,
      "time_per_iteration": 2.5545191764831543
    },
    {
      "auxiliary_loss_clip": 0.01105306,
      "auxiliary_loss_mlp": 0.01019891,
      "balance_loss_clip": 1.0445807,
      "balance_loss_mlp": 1.01449072,
      "epoch": 0.5302711477183911,
      "flos": 25959379979520.0,
      "grad_norm": 1.8184029880442902,
      "language_loss": 0.67372489,
      "learning_rate": 1.9011109385487134e-06,
      "loss": 0.69497687,
      "num_input_tokens_seen": 95258915,
      "step": 4410,
      "time_per_iteration": 2.5692825317382812
    },
    {
      "auxiliary_loss_clip": 0.01103892,
      "auxiliary_loss_mlp": 0.01021307,
      "balance_loss_clip": 1.04400253,
      "balance_loss_mlp": 1.0155108,
      "epoch": 0.5303913906090303,
      "flos": 22275305861760.0,
      "grad_norm": 2.522284524495775,
      "language_loss": 0.66688859,
      "learning_rate": 1.900332927204454e-06,
      "loss": 0.68814051,
      "num_input_tokens_seen": 95277365,
      "step": 4411,
      "time_per_iteration": 2.4927780628204346
    },
    {
      "auxiliary_loss_clip": 0.01076817,
      "auxiliary_loss_mlp": 0.01017052,
      "balance_loss_clip": 1.04208684,
      "balance_loss_mlp": 1.01192045,
      "epoch": 0.5305116334996693,
      "flos": 24938305914240.0,
      "grad_norm": 2.0620155724129523,
      "language_loss": 0.76895261,
      "learning_rate": 1.8995549309796097e-06,
      "loss": 0.78989136,
      "num_input_tokens_seen": 95296670,
      "step": 4412,
      "time_per_iteration": 3.457167625427246
    },
    {
      "auxiliary_loss_clip": 0.01094197,
      "auxiliary_loss_mlp": 0.01022226,
      "balance_loss_clip": 1.04754567,
      "balance_loss_mlp": 1.01685238,
      "epoch": 0.5306318763903084,
      "flos": 20191172365440.0,
      "grad_norm": 1.7952968282225705,
      "language_loss": 0.769853,
      "learning_rate": 1.8987769499922028e-06,
      "loss": 0.79101723,
      "num_input_tokens_seen": 95315640,
      "step": 4413,
      "time_per_iteration": 2.6013078689575195
    },
    {
      "auxiliary_loss_clip": 0.01090859,
      "auxiliary_loss_mlp": 0.00756639,
      "balance_loss_clip": 1.0436399,
      "balance_loss_mlp": 1.00193572,
      "epoch": 0.5307521192809476,
      "flos": 20268431596800.0,
      "grad_norm": 2.2898406723539884,
      "language_loss": 0.70840925,
      "learning_rate": 1.897998984360252e-06,
      "loss": 0.72688425,
      "num_input_tokens_seen": 95334610,
      "step": 4414,
      "time_per_iteration": 2.5548765659332275
    },
    {
      "auxiliary_loss_clip": 0.01079904,
      "auxiliary_loss_mlp": 0.01018653,
      "balance_loss_clip": 1.04359329,
      "balance_loss_mlp": 1.01331234,
      "epoch": 0.5308723621715866,
      "flos": 28847029127040.0,
      "grad_norm": 1.4267329557790107,
      "language_loss": 0.7857753,
      "learning_rate": 1.897221034201775e-06,
      "loss": 0.80676091,
      "num_input_tokens_seen": 95358350,
      "step": 4415,
      "time_per_iteration": 2.703641653060913
    },
    {
      "auxiliary_loss_clip": 0.01065822,
      "auxiliary_loss_mlp": 0.01020398,
      "balance_loss_clip": 1.04181087,
      "balance_loss_mlp": 1.01542139,
      "epoch": 0.5309926050622257,
      "flos": 27460438012800.0,
      "grad_norm": 1.6194893179182066,
      "language_loss": 0.67089856,
      "learning_rate": 1.8964430996347842e-06,
      "loss": 0.69176072,
      "num_input_tokens_seen": 95379900,
      "step": 4416,
      "time_per_iteration": 2.6747100353240967
    },
    {
      "auxiliary_loss_clip": 0.01084217,
      "auxiliary_loss_mlp": 0.01018622,
      "balance_loss_clip": 1.0448457,
      "balance_loss_mlp": 1.01290023,
      "epoch": 0.5311128479528648,
      "flos": 20516220771840.0,
      "grad_norm": 1.6239949124689943,
      "language_loss": 0.82382685,
      "learning_rate": 1.8956651807772931e-06,
      "loss": 0.84485525,
      "num_input_tokens_seen": 95397935,
      "step": 4417,
      "time_per_iteration": 2.5947203636169434
    },
    {
      "auxiliary_loss_clip": 0.01089273,
      "auxiliary_loss_mlp": 0.01017887,
      "balance_loss_clip": 1.04314005,
      "balance_loss_mlp": 1.01274288,
      "epoch": 0.5312330908435039,
      "flos": 21399801592320.0,
      "grad_norm": 2.3671696475573367,
      "language_loss": 0.8359043,
      "learning_rate": 1.8948872777473115e-06,
      "loss": 0.85697585,
      "num_input_tokens_seen": 95415890,
      "step": 4418,
      "time_per_iteration": 2.6138370037078857
    },
    {
      "auxiliary_loss_clip": 0.01077737,
      "auxiliary_loss_mlp": 0.01018847,
      "balance_loss_clip": 1.04187262,
      "balance_loss_mlp": 1.01374173,
      "epoch": 0.531353333734143,
      "flos": 24719647875840.0,
      "grad_norm": 1.6837537569233405,
      "language_loss": 0.63189662,
      "learning_rate": 1.8941093906628458e-06,
      "loss": 0.65286243,
      "num_input_tokens_seen": 95433675,
      "step": 4419,
      "time_per_iteration": 2.794023275375366
    },
    {
      "auxiliary_loss_clip": 0.01078246,
      "auxiliary_loss_mlp": 0.0101716,
      "balance_loss_clip": 1.0415287,
      "balance_loss_mlp": 1.01198637,
      "epoch": 0.531473576624782,
      "flos": 30483229484160.0,
      "grad_norm": 2.093228303796852,
      "language_loss": 0.70760882,
      "learning_rate": 1.893331519641902e-06,
      "loss": 0.72856283,
      "num_input_tokens_seen": 95455820,
      "step": 4420,
      "time_per_iteration": 2.6574532985687256
    },
    {
      "auxiliary_loss_clip": 0.01059605,
      "auxiliary_loss_mlp": 0.01021511,
      "balance_loss_clip": 1.03362012,
      "balance_loss_mlp": 1.01596451,
      "epoch": 0.5315938195154212,
      "flos": 23005202417280.0,
      "grad_norm": 2.351780100969603,
      "language_loss": 0.73641419,
      "learning_rate": 1.8925536648024815e-06,
      "loss": 0.75722539,
      "num_input_tokens_seen": 95473240,
      "step": 4421,
      "time_per_iteration": 2.6359715461730957
    },
    {
      "auxiliary_loss_clip": 0.01102553,
      "auxiliary_loss_mlp": 0.01018363,
      "balance_loss_clip": 1.04262805,
      "balance_loss_mlp": 1.01280522,
      "epoch": 0.5317140624060602,
      "flos": 22750853414400.0,
      "grad_norm": 1.9122777949781768,
      "language_loss": 0.75665903,
      "learning_rate": 1.8917758262625849e-06,
      "loss": 0.77786815,
      "num_input_tokens_seen": 95493480,
      "step": 4422,
      "time_per_iteration": 2.5330214500427246
    },
    {
      "auxiliary_loss_clip": 0.01073028,
      "auxiliary_loss_mlp": 0.01021386,
      "balance_loss_clip": 1.03994441,
      "balance_loss_mlp": 1.01627517,
      "epoch": 0.5318343052966993,
      "flos": 22823334967680.0,
      "grad_norm": 1.8086607865228572,
      "language_loss": 0.8056581,
      "learning_rate": 1.8909980041402089e-06,
      "loss": 0.82660222,
      "num_input_tokens_seen": 95512075,
      "step": 4423,
      "time_per_iteration": 2.6241607666015625
    },
    {
      "auxiliary_loss_clip": 0.01092472,
      "auxiliary_loss_mlp": 0.01019489,
      "balance_loss_clip": 1.04298162,
      "balance_loss_mlp": 1.01386499,
      "epoch": 0.5319545481873384,
      "flos": 13627791077760.0,
      "grad_norm": 2.3676440896299806,
      "language_loss": 0.65901965,
      "learning_rate": 1.8902201985533494e-06,
      "loss": 0.68013924,
      "num_input_tokens_seen": 95529340,
      "step": 4424,
      "time_per_iteration": 2.4992542266845703
    },
    {
      "auxiliary_loss_clip": 0.0107657,
      "auxiliary_loss_mlp": 0.01016906,
      "balance_loss_clip": 1.04063976,
      "balance_loss_mlp": 1.01186597,
      "epoch": 0.5320747910779775,
      "flos": 22164630750720.0,
      "grad_norm": 6.254233032472354,
      "language_loss": 0.74726272,
      "learning_rate": 1.8894424096199983e-06,
      "loss": 0.76819742,
      "num_input_tokens_seen": 95548545,
      "step": 4425,
      "time_per_iteration": 2.682305335998535
    },
    {
      "auxiliary_loss_clip": 0.0108926,
      "auxiliary_loss_mlp": 0.01020645,
      "balance_loss_clip": 1.04263616,
      "balance_loss_mlp": 1.0152061,
      "epoch": 0.5321950339686166,
      "flos": 18590056283520.0,
      "grad_norm": 2.5519841223966937,
      "language_loss": 0.85983622,
      "learning_rate": 1.8886646374581463e-06,
      "loss": 0.88093519,
      "num_input_tokens_seen": 95567770,
      "step": 4426,
      "time_per_iteration": 2.515366315841675
    },
    {
      "auxiliary_loss_clip": 0.01093669,
      "auxiliary_loss_mlp": 0.0101852,
      "balance_loss_clip": 1.04402232,
      "balance_loss_mlp": 1.01286685,
      "epoch": 0.5323152768592557,
      "flos": 22859025932160.0,
      "grad_norm": 1.9718393740117806,
      "language_loss": 0.71191269,
      "learning_rate": 1.8878868821857795e-06,
      "loss": 0.73303461,
      "num_input_tokens_seen": 95587420,
      "step": 4427,
      "time_per_iteration": 2.565582513809204
    },
    {
      "auxiliary_loss_clip": 0.0104965,
      "auxiliary_loss_mlp": 0.01021295,
      "balance_loss_clip": 1.03746033,
      "balance_loss_mlp": 1.0155133,
      "epoch": 0.5324355197498948,
      "flos": 33951527337600.0,
      "grad_norm": 2.062290798366358,
      "language_loss": 0.75169897,
      "learning_rate": 1.8871091439208838e-06,
      "loss": 0.77240837,
      "num_input_tokens_seen": 95609030,
      "step": 4428,
      "time_per_iteration": 3.55536150932312
    },
    {
      "auxiliary_loss_clip": 0.01048638,
      "auxiliary_loss_mlp": 0.01022597,
      "balance_loss_clip": 1.03395164,
      "balance_loss_mlp": 1.01688433,
      "epoch": 0.5325557626405338,
      "flos": 23258868894720.0,
      "grad_norm": 4.865371832898263,
      "language_loss": 0.77692688,
      "learning_rate": 1.8863314227814414e-06,
      "loss": 0.79763925,
      "num_input_tokens_seen": 95627340,
      "step": 4429,
      "time_per_iteration": 2.6441426277160645
    },
    {
      "auxiliary_loss_clip": 0.01093603,
      "auxiliary_loss_mlp": 0.01020886,
      "balance_loss_clip": 1.04389167,
      "balance_loss_mlp": 1.0152775,
      "epoch": 0.532676005531173,
      "flos": 26720796510720.0,
      "grad_norm": 2.647391243234256,
      "language_loss": 0.489427,
      "learning_rate": 1.8855537188854313e-06,
      "loss": 0.51057196,
      "num_input_tokens_seen": 95646315,
      "step": 4430,
      "time_per_iteration": 2.622710704803467
    },
    {
      "auxiliary_loss_clip": 0.01091201,
      "auxiliary_loss_mlp": 0.01021491,
      "balance_loss_clip": 1.04092407,
      "balance_loss_mlp": 1.01620066,
      "epoch": 0.5327962484218121,
      "flos": 17896533217920.0,
      "grad_norm": 2.1946737910680496,
      "language_loss": 0.78337944,
      "learning_rate": 1.8847760323508315e-06,
      "loss": 0.80450642,
      "num_input_tokens_seen": 95665220,
      "step": 4431,
      "time_per_iteration": 3.2960546016693115
    },
    {
      "auxiliary_loss_clip": 0.01075233,
      "auxiliary_loss_mlp": 0.01020339,
      "balance_loss_clip": 1.04146504,
      "balance_loss_mlp": 1.01522207,
      "epoch": 0.5329164913124511,
      "flos": 17926991487360.0,
      "grad_norm": 1.9257582990013593,
      "language_loss": 0.75599921,
      "learning_rate": 1.883998363295616e-06,
      "loss": 0.77695489,
      "num_input_tokens_seen": 95682700,
      "step": 4432,
      "time_per_iteration": 3.3188462257385254
    },
    {
      "auxiliary_loss_clip": 0.01039894,
      "auxiliary_loss_mlp": 0.01002476,
      "balance_loss_clip": 1.03078544,
      "balance_loss_mlp": 1.00037754,
      "epoch": 0.5330367342030903,
      "flos": 57259851459840.0,
      "grad_norm": 0.8639061911171018,
      "language_loss": 0.62617701,
      "learning_rate": 1.8832207118377565e-06,
      "loss": 0.64660072,
      "num_input_tokens_seen": 95738070,
      "step": 4433,
      "time_per_iteration": 3.107433319091797
    },
    {
      "auxiliary_loss_clip": 0.01103188,
      "auxiliary_loss_mlp": 0.01017491,
      "balance_loss_clip": 1.04364705,
      "balance_loss_mlp": 1.01252246,
      "epoch": 0.5331569770937293,
      "flos": 17422426552320.0,
      "grad_norm": 2.091775369917384,
      "language_loss": 0.69922793,
      "learning_rate": 1.882443078095222e-06,
      "loss": 0.72043478,
      "num_input_tokens_seen": 95756950,
      "step": 4434,
      "time_per_iteration": 2.498424530029297
    },
    {
      "auxiliary_loss_clip": 0.01020326,
      "auxiliary_loss_mlp": 0.01002952,
      "balance_loss_clip": 1.03005803,
      "balance_loss_mlp": 1.00074625,
      "epoch": 0.5332772199843684,
      "flos": 56756841166080.0,
      "grad_norm": 0.8525188609779868,
      "language_loss": 0.66725409,
      "learning_rate": 1.8816654621859794e-06,
      "loss": 0.68748677,
      "num_input_tokens_seen": 95816615,
      "step": 4435,
      "time_per_iteration": 3.1244773864746094
    },
    {
      "auxiliary_loss_clip": 0.01101596,
      "auxiliary_loss_mlp": 0.01019975,
      "balance_loss_clip": 1.04316485,
      "balance_loss_mlp": 1.01432431,
      "epoch": 0.5333974628750076,
      "flos": 18699745524480.0,
      "grad_norm": 2.9524641265584233,
      "language_loss": 0.72499168,
      "learning_rate": 1.8808878642279915e-06,
      "loss": 0.74620736,
      "num_input_tokens_seen": 95832020,
      "step": 4436,
      "time_per_iteration": 2.4875335693359375
    },
    {
      "auxiliary_loss_clip": 0.01072038,
      "auxiliary_loss_mlp": 0.01025742,
      "balance_loss_clip": 1.04083645,
      "balance_loss_mlp": 1.02010643,
      "epoch": 0.5335177057656466,
      "flos": 23807770116480.0,
      "grad_norm": 2.4209791338573123,
      "language_loss": 0.65215743,
      "learning_rate": 1.8801102843392209e-06,
      "loss": 0.67313528,
      "num_input_tokens_seen": 95851425,
      "step": 4437,
      "time_per_iteration": 3.5090274810791016
    },
    {
      "auxiliary_loss_clip": 0.01056392,
      "auxiliary_loss_mlp": 0.01020077,
      "balance_loss_clip": 1.03228068,
      "balance_loss_mlp": 1.01474237,
      "epoch": 0.5336379486562857,
      "flos": 25080804345600.0,
      "grad_norm": 1.6117535528218139,
      "language_loss": 0.8513732,
      "learning_rate": 1.8793327226376238e-06,
      "loss": 0.8721379,
      "num_input_tokens_seen": 95870745,
      "step": 4438,
      "time_per_iteration": 2.6383309364318848
    },
    {
      "auxiliary_loss_clip": 0.01079579,
      "auxiliary_loss_mlp": 0.01021985,
      "balance_loss_clip": 1.04273152,
      "balance_loss_mlp": 1.01650774,
      "epoch": 0.5337581915469248,
      "flos": 21398777804160.0,
      "grad_norm": 1.840377425225722,
      "language_loss": 0.80275404,
      "learning_rate": 1.8785551792411569e-06,
      "loss": 0.82376969,
      "num_input_tokens_seen": 95889755,
      "step": 4439,
      "time_per_iteration": 2.5873143672943115
    },
    {
      "auxiliary_loss_clip": 0.01075314,
      "auxiliary_loss_mlp": 0.01020158,
      "balance_loss_clip": 1.03902698,
      "balance_loss_mlp": 1.01510918,
      "epoch": 0.5338784344375639,
      "flos": 14867636935680.0,
      "grad_norm": 2.2208271971017353,
      "language_loss": 0.82661229,
      "learning_rate": 1.8777776542677733e-06,
      "loss": 0.84756702,
      "num_input_tokens_seen": 95907805,
      "step": 4440,
      "time_per_iteration": 2.5855581760406494
    },
    {
      "auxiliary_loss_clip": 0.01067594,
      "auxiliary_loss_mlp": 0.01016379,
      "balance_loss_clip": 1.03950953,
      "balance_loss_mlp": 1.01085091,
      "epoch": 0.5339986773282029,
      "flos": 20815588586880.0,
      "grad_norm": 2.3538591758517686,
      "language_loss": 0.72763574,
      "learning_rate": 1.8770001478354216e-06,
      "loss": 0.74847549,
      "num_input_tokens_seen": 95927480,
      "step": 4441,
      "time_per_iteration": 2.6428611278533936
    },
    {
      "auxiliary_loss_clip": 0.01095811,
      "auxiliary_loss_mlp": 0.01024066,
      "balance_loss_clip": 1.04565406,
      "balance_loss_mlp": 1.01827574,
      "epoch": 0.5341189202188421,
      "flos": 17971100265600.0,
      "grad_norm": 3.2816910040881764,
      "language_loss": 0.84114444,
      "learning_rate": 1.8762226600620504e-06,
      "loss": 0.86234319,
      "num_input_tokens_seen": 95946095,
      "step": 4442,
      "time_per_iteration": 2.573012113571167
    },
    {
      "auxiliary_loss_clip": 0.01084166,
      "auxiliary_loss_mlp": 0.01022012,
      "balance_loss_clip": 1.04338861,
      "balance_loss_mlp": 1.01596487,
      "epoch": 0.5342391631094812,
      "flos": 11033215344000.0,
      "grad_norm": 3.979187277164517,
      "language_loss": 0.58896029,
      "learning_rate": 1.8754451910656031e-06,
      "loss": 0.61002207,
      "num_input_tokens_seen": 95959995,
      "step": 4443,
      "time_per_iteration": 2.5593347549438477
    },
    {
      "auxiliary_loss_clip": 0.01057812,
      "auxiliary_loss_mlp": 0.01019951,
      "balance_loss_clip": 1.04076254,
      "balance_loss_mlp": 1.01427937,
      "epoch": 0.5343594060001202,
      "flos": 15340833567360.0,
      "grad_norm": 12.462135546193958,
      "language_loss": 0.83043027,
      "learning_rate": 1.8746677409640212e-06,
      "loss": 0.85120785,
      "num_input_tokens_seen": 95977095,
      "step": 4444,
      "time_per_iteration": 2.672543525695801
    },
    {
      "auxiliary_loss_clip": 0.01091444,
      "auxiliary_loss_mlp": 0.01018564,
      "balance_loss_clip": 1.04374218,
      "balance_loss_mlp": 1.01303601,
      "epoch": 0.5344796488907594,
      "flos": 26903005223040.0,
      "grad_norm": 2.581826018640289,
      "language_loss": 0.84750724,
      "learning_rate": 1.8738903098752432e-06,
      "loss": 0.86860728,
      "num_input_tokens_seen": 95996225,
      "step": 4445,
      "time_per_iteration": 2.6288516521453857
    },
    {
      "auxiliary_loss_clip": 0.01083601,
      "auxiliary_loss_mlp": 0.01023663,
      "balance_loss_clip": 1.04461646,
      "balance_loss_mlp": 1.01831067,
      "epoch": 0.5345998917813984,
      "flos": 25413588040320.0,
      "grad_norm": 3.2140285192858,
      "language_loss": 0.73387009,
      "learning_rate": 1.8731128979172052e-06,
      "loss": 0.75494272,
      "num_input_tokens_seen": 96015425,
      "step": 4446,
      "time_per_iteration": 2.6816182136535645
    },
    {
      "auxiliary_loss_clip": 0.01071851,
      "auxiliary_loss_mlp": 0.01017146,
      "balance_loss_clip": 1.03858948,
      "balance_loss_mlp": 1.01204133,
      "epoch": 0.5347201346720375,
      "flos": 32856113733120.0,
      "grad_norm": 3.2142040319203615,
      "language_loss": 0.67092532,
      "learning_rate": 1.8723355052078394e-06,
      "loss": 0.69181532,
      "num_input_tokens_seen": 96035460,
      "step": 4447,
      "time_per_iteration": 2.691863775253296
    },
    {
      "auxiliary_loss_clip": 0.01093056,
      "auxiliary_loss_mlp": 0.01022304,
      "balance_loss_clip": 1.04228973,
      "balance_loss_mlp": 1.01654351,
      "epoch": 0.5348403775626767,
      "flos": 17969886887040.0,
      "grad_norm": 2.3495765619629583,
      "language_loss": 0.77607119,
      "learning_rate": 1.8715581318650765e-06,
      "loss": 0.79722476,
      "num_input_tokens_seen": 96054515,
      "step": 4448,
      "time_per_iteration": 2.5855424404144287
    },
    {
      "auxiliary_loss_clip": 0.01070879,
      "auxiliary_loss_mlp": 0.01021938,
      "balance_loss_clip": 1.04292607,
      "balance_loss_mlp": 1.01588488,
      "epoch": 0.5349606204533157,
      "flos": 17605279872000.0,
      "grad_norm": 3.944341975416763,
      "language_loss": 0.81627035,
      "learning_rate": 1.8707807780068422e-06,
      "loss": 0.8371985,
      "num_input_tokens_seen": 96072330,
      "step": 4449,
      "time_per_iteration": 2.6052796840667725
    },
    {
      "auxiliary_loss_clip": 0.01068584,
      "auxiliary_loss_mlp": 0.01019148,
      "balance_loss_clip": 1.03628218,
      "balance_loss_mlp": 1.01378071,
      "epoch": 0.5350808633439548,
      "flos": 29170333301760.0,
      "grad_norm": 2.2998683011796013,
      "language_loss": 0.66423696,
      "learning_rate": 1.8700034437510611e-06,
      "loss": 0.68511426,
      "num_input_tokens_seen": 96092425,
      "step": 4450,
      "time_per_iteration": 2.742828369140625
    },
    {
      "auxiliary_loss_clip": 0.01061274,
      "auxiliary_loss_mlp": 0.01019731,
      "balance_loss_clip": 1.03688169,
      "balance_loss_mlp": 1.01405942,
      "epoch": 0.5352011062345938,
      "flos": 19502009879040.0,
      "grad_norm": 2.3032634248712287,
      "language_loss": 0.81609702,
      "learning_rate": 1.8692261292156549e-06,
      "loss": 0.83690715,
      "num_input_tokens_seen": 96111660,
      "step": 4451,
      "time_per_iteration": 2.655837297439575
    },
    {
      "auxiliary_loss_clip": 0.01103907,
      "auxiliary_loss_mlp": 0.01020272,
      "balance_loss_clip": 1.04583383,
      "balance_loss_mlp": 1.01496768,
      "epoch": 0.535321349125233,
      "flos": 23479915772160.0,
      "grad_norm": 1.823717532996835,
      "language_loss": 0.80932605,
      "learning_rate": 1.8684488345185401e-06,
      "loss": 0.8305679,
      "num_input_tokens_seen": 96131835,
      "step": 4452,
      "time_per_iteration": 2.6344239711761475
    },
    {
      "auxiliary_loss_clip": 0.01106208,
      "auxiliary_loss_mlp": 0.01020965,
      "balance_loss_clip": 1.04712749,
      "balance_loss_mlp": 1.01532602,
      "epoch": 0.535441592015872,
      "flos": 20479733527680.0,
      "grad_norm": 2.5804004305051884,
      "language_loss": 0.78896773,
      "learning_rate": 1.8676715597776332e-06,
      "loss": 0.81023943,
      "num_input_tokens_seen": 96150180,
      "step": 4453,
      "time_per_iteration": 2.5379228591918945
    },
    {
      "auxiliary_loss_clip": 0.01055349,
      "auxiliary_loss_mlp": 0.01016945,
      "balance_loss_clip": 1.03995824,
      "balance_loss_mlp": 1.0115869,
      "epoch": 0.5355618349065111,
      "flos": 19575173957760.0,
      "grad_norm": 1.7793738385944953,
      "language_loss": 0.76305747,
      "learning_rate": 1.8668943051108455e-06,
      "loss": 0.78378034,
      "num_input_tokens_seen": 96167485,
      "step": 4454,
      "time_per_iteration": 3.44911789894104
    },
    {
      "auxiliary_loss_clip": 0.01078776,
      "auxiliary_loss_mlp": 0.01023299,
      "balance_loss_clip": 1.04162621,
      "balance_loss_mlp": 1.01785982,
      "epoch": 0.5356820777971503,
      "flos": 24026921089920.0,
      "grad_norm": 2.021352185843481,
      "language_loss": 0.7620526,
      "learning_rate": 1.8661170706360856e-06,
      "loss": 0.78307331,
      "num_input_tokens_seen": 96186650,
      "step": 4455,
      "time_per_iteration": 2.641228675842285
    },
    {
      "auxiliary_loss_clip": 0.01090983,
      "auxiliary_loss_mlp": 0.0101851,
      "balance_loss_clip": 1.04349303,
      "balance_loss_mlp": 1.01344669,
      "epoch": 0.5358023206877893,
      "flos": 20886667171200.0,
      "grad_norm": 1.6596765743168742,
      "language_loss": 0.81724572,
      "learning_rate": 1.8653398564712594e-06,
      "loss": 0.83834064,
      "num_input_tokens_seen": 96205595,
      "step": 4456,
      "time_per_iteration": 2.5575616359710693
    },
    {
      "auxiliary_loss_clip": 0.01088617,
      "auxiliary_loss_mlp": 0.01018969,
      "balance_loss_clip": 1.04293895,
      "balance_loss_mlp": 1.01363146,
      "epoch": 0.5359225635784284,
      "flos": 22421179002240.0,
      "grad_norm": 1.6721619032415502,
      "language_loss": 0.82064033,
      "learning_rate": 1.8645626627342704e-06,
      "loss": 0.84171623,
      "num_input_tokens_seen": 96226360,
      "step": 4457,
      "time_per_iteration": 4.169034242630005
    },
    {
      "auxiliary_loss_clip": 0.01094002,
      "auxiliary_loss_mlp": 0.01021772,
      "balance_loss_clip": 1.04406381,
      "balance_loss_mlp": 1.01663995,
      "epoch": 0.5360428064690675,
      "flos": 24100085168640.0,
      "grad_norm": 2.101398348017048,
      "language_loss": 0.81173635,
      "learning_rate": 1.8637854895430172e-06,
      "loss": 0.83289409,
      "num_input_tokens_seen": 96245625,
      "step": 4458,
      "time_per_iteration": 2.584651470184326
    },
    {
      "auxiliary_loss_clip": 0.01063072,
      "auxiliary_loss_mlp": 0.01024022,
      "balance_loss_clip": 1.04077029,
      "balance_loss_mlp": 1.0183239,
      "epoch": 0.5361630493597066,
      "flos": 21436668017280.0,
      "grad_norm": 2.107197691419215,
      "language_loss": 0.69695079,
      "learning_rate": 1.8630083370153978e-06,
      "loss": 0.71782172,
      "num_input_tokens_seen": 96265265,
      "step": 4459,
      "time_per_iteration": 2.672611951828003
    },
    {
      "auxiliary_loss_clip": 0.01013075,
      "auxiliary_loss_mlp": 0.01005599,
      "balance_loss_clip": 1.03211617,
      "balance_loss_mlp": 1.00334632,
      "epoch": 0.5362832922503457,
      "flos": 68894770095360.0,
      "grad_norm": 0.743485702695423,
      "language_loss": 0.55383086,
      "learning_rate": 1.8622312052693041e-06,
      "loss": 0.57401764,
      "num_input_tokens_seen": 96326445,
      "step": 4460,
      "time_per_iteration": 3.3593337535858154
    },
    {
      "auxiliary_loss_clip": 0.01091116,
      "auxiliary_loss_mlp": 0.01019301,
      "balance_loss_clip": 1.04179239,
      "balance_loss_mlp": 1.01385367,
      "epoch": 0.5364035351409848,
      "flos": 9795113717760.0,
      "grad_norm": 2.8584316074586686,
      "language_loss": 0.72440511,
      "learning_rate": 1.8614540944226267e-06,
      "loss": 0.74550927,
      "num_input_tokens_seen": 96343115,
      "step": 4461,
      "time_per_iteration": 2.540619134902954
    },
    {
      "auxiliary_loss_clip": 0.01075638,
      "auxiliary_loss_mlp": 0.01018361,
      "balance_loss_clip": 1.04343879,
      "balance_loss_mlp": 1.01338685,
      "epoch": 0.5365237780316239,
      "flos": 23292057265920.0,
      "grad_norm": 2.3006354720436653,
      "language_loss": 0.68075353,
      "learning_rate": 1.8606770045932537e-06,
      "loss": 0.70169353,
      "num_input_tokens_seen": 96362230,
      "step": 4462,
      "time_per_iteration": 2.6553797721862793
    },
    {
      "auxiliary_loss_clip": 0.01075143,
      "auxiliary_loss_mlp": 0.01021115,
      "balance_loss_clip": 1.04232264,
      "balance_loss_mlp": 1.01553607,
      "epoch": 0.5366440209222629,
      "flos": 26580535246080.0,
      "grad_norm": 2.027309549457814,
      "language_loss": 0.8159225,
      "learning_rate": 1.859899935899068e-06,
      "loss": 0.83688509,
      "num_input_tokens_seen": 96382085,
      "step": 4463,
      "time_per_iteration": 3.443821430206299
    },
    {
      "auxiliary_loss_clip": 0.01068756,
      "auxiliary_loss_mlp": 0.01023677,
      "balance_loss_clip": 1.03985429,
      "balance_loss_mlp": 1.01805282,
      "epoch": 0.5367642638129021,
      "flos": 19609992806400.0,
      "grad_norm": 1.6328808346258785,
      "language_loss": 0.79366714,
      "learning_rate": 1.8591228884579506e-06,
      "loss": 0.81459153,
      "num_input_tokens_seen": 96400580,
      "step": 4464,
      "time_per_iteration": 2.6245946884155273
    },
    {
      "auxiliary_loss_clip": 0.0106645,
      "auxiliary_loss_mlp": 0.01018054,
      "balance_loss_clip": 1.0396235,
      "balance_loss_mlp": 1.01248729,
      "epoch": 0.5368845067035412,
      "flos": 23917497275520.0,
      "grad_norm": 2.073807315518873,
      "language_loss": 0.82263172,
      "learning_rate": 1.8583458623877795e-06,
      "loss": 0.84347677,
      "num_input_tokens_seen": 96419680,
      "step": 4465,
      "time_per_iteration": 2.653367280960083
    },
    {
      "auxiliary_loss_clip": 0.0109057,
      "auxiliary_loss_mlp": 0.01020005,
      "balance_loss_clip": 1.04265475,
      "balance_loss_mlp": 1.01453662,
      "epoch": 0.5370047495941802,
      "flos": 16875004135680.0,
      "grad_norm": 1.9066694958056851,
      "language_loss": 0.74379385,
      "learning_rate": 1.8575688578064281e-06,
      "loss": 0.76489961,
      "num_input_tokens_seen": 96437805,
      "step": 4466,
      "time_per_iteration": 2.57503604888916
    },
    {
      "auxiliary_loss_clip": 0.01089892,
      "auxiliary_loss_mlp": 0.01021955,
      "balance_loss_clip": 1.04289794,
      "balance_loss_mlp": 1.01651585,
      "epoch": 0.5371249924848194,
      "flos": 20743031197440.0,
      "grad_norm": 1.6902638233118759,
      "language_loss": 0.76850152,
      "learning_rate": 1.8567918748317674e-06,
      "loss": 0.78962004,
      "num_input_tokens_seen": 96457155,
      "step": 4467,
      "time_per_iteration": 2.5608999729156494
    },
    {
      "auxiliary_loss_clip": 0.01069509,
      "auxiliary_loss_mlp": 0.01022078,
      "balance_loss_clip": 1.03935051,
      "balance_loss_mlp": 1.01664162,
      "epoch": 0.5372452353754584,
      "flos": 17970076477440.0,
      "grad_norm": 2.1265269751190123,
      "language_loss": 0.83044803,
      "learning_rate": 1.8560149135816659e-06,
      "loss": 0.8513639,
      "num_input_tokens_seen": 96473990,
      "step": 4468,
      "time_per_iteration": 2.650324583053589
    },
    {
      "auxiliary_loss_clip": 0.01089989,
      "auxiliary_loss_mlp": 0.01016181,
      "balance_loss_clip": 1.04040349,
      "balance_loss_mlp": 1.0109086,
      "epoch": 0.5373654782660975,
      "flos": 15378799616640.0,
      "grad_norm": 2.499234501264425,
      "language_loss": 0.83680779,
      "learning_rate": 1.8552379741739873e-06,
      "loss": 0.85786951,
      "num_input_tokens_seen": 96491335,
      "step": 4469,
      "time_per_iteration": 2.579396963119507
    },
    {
      "auxiliary_loss_clip": 0.01024453,
      "auxiliary_loss_mlp": 0.00752105,
      "balance_loss_clip": 1.0254426,
      "balance_loss_mlp": 1.00078809,
      "epoch": 0.5374857211567367,
      "flos": 69006279404160.0,
      "grad_norm": 1.7985439609655434,
      "language_loss": 0.55611926,
      "learning_rate": 1.8544610567265935e-06,
      "loss": 0.57388484,
      "num_input_tokens_seen": 96545275,
      "step": 4470,
      "time_per_iteration": 3.170833110809326
    },
    {
      "auxiliary_loss_clip": 0.01078041,
      "auxiliary_loss_mlp": 0.00756788,
      "balance_loss_clip": 1.04247117,
      "balance_loss_mlp": 1.00196421,
      "epoch": 0.5376059640473757,
      "flos": 15087129171840.0,
      "grad_norm": 2.1068859017471095,
      "language_loss": 0.8317799,
      "learning_rate": 1.853684161357341e-06,
      "loss": 0.85012817,
      "num_input_tokens_seen": 96562935,
      "step": 4471,
      "time_per_iteration": 2.5923757553100586
    },
    {
      "auxiliary_loss_clip": 0.01086242,
      "auxiliary_loss_mlp": 0.00756692,
      "balance_loss_clip": 1.03988516,
      "balance_loss_mlp": 1.00185585,
      "epoch": 0.5377262069380148,
      "flos": 19794666193920.0,
      "grad_norm": 1.8311121993277417,
      "language_loss": 0.77134013,
      "learning_rate": 1.852907288184085e-06,
      "loss": 0.78976947,
      "num_input_tokens_seen": 96581820,
      "step": 4472,
      "time_per_iteration": 2.525068521499634
    },
    {
      "auxiliary_loss_clip": 0.0104617,
      "auxiliary_loss_mlp": 0.01021267,
      "balance_loss_clip": 1.03574955,
      "balance_loss_mlp": 1.01538372,
      "epoch": 0.5378464498286539,
      "flos": 30005406846720.0,
      "grad_norm": 2.0130461569978824,
      "language_loss": 0.70203096,
      "learning_rate": 1.8521304373246762e-06,
      "loss": 0.7227053,
      "num_input_tokens_seen": 96602865,
      "step": 4473,
      "time_per_iteration": 2.753512144088745
    },
    {
      "auxiliary_loss_clip": 0.01091927,
      "auxiliary_loss_mlp": 0.01018289,
      "balance_loss_clip": 1.04208922,
      "balance_loss_mlp": 1.01272798,
      "epoch": 0.537966692719293,
      "flos": 21253321762560.0,
      "grad_norm": 2.3666049629974246,
      "language_loss": 0.8862741,
      "learning_rate": 1.8513536088969626e-06,
      "loss": 0.90737629,
      "num_input_tokens_seen": 96620530,
      "step": 4474,
      "time_per_iteration": 2.5231194496154785
    },
    {
      "auxiliary_loss_clip": 0.01090363,
      "auxiliary_loss_mlp": 0.01024823,
      "balance_loss_clip": 1.04213667,
      "balance_loss_mlp": 1.01911283,
      "epoch": 0.538086935609932,
      "flos": 21545295552000.0,
      "grad_norm": 2.0109366189907556,
      "language_loss": 0.80331111,
      "learning_rate": 1.8505768030187884e-06,
      "loss": 0.82446301,
      "num_input_tokens_seen": 96640660,
      "step": 4475,
      "time_per_iteration": 2.5946853160858154
    },
    {
      "auxiliary_loss_clip": 0.01073974,
      "auxiliary_loss_mlp": 0.01020684,
      "balance_loss_clip": 1.04086781,
      "balance_loss_mlp": 1.01550448,
      "epoch": 0.5382071785005712,
      "flos": 22749412527360.0,
      "grad_norm": 1.8397167149000797,
      "language_loss": 0.79910737,
      "learning_rate": 1.849800019807995e-06,
      "loss": 0.82005394,
      "num_input_tokens_seen": 96661885,
      "step": 4476,
      "time_per_iteration": 2.5842297077178955
    },
    {
      "auxiliary_loss_clip": 0.01055249,
      "auxiliary_loss_mlp": 0.01020023,
      "balance_loss_clip": 1.03505695,
      "balance_loss_mlp": 1.01460838,
      "epoch": 0.5383274213912103,
      "flos": 24936789191040.0,
      "grad_norm": 4.033990619208459,
      "language_loss": 0.70759475,
      "learning_rate": 1.8490232593824186e-06,
      "loss": 0.72834742,
      "num_input_tokens_seen": 96678340,
      "step": 4477,
      "time_per_iteration": 2.652120351791382
    },
    {
      "auxiliary_loss_clip": 0.01072399,
      "auxiliary_loss_mlp": 0.01020306,
      "balance_loss_clip": 1.03906393,
      "balance_loss_mlp": 1.01536787,
      "epoch": 0.5384476642818493,
      "flos": 22312399795200.0,
      "grad_norm": 1.5525411775117683,
      "language_loss": 0.84774655,
      "learning_rate": 1.8482465218598935e-06,
      "loss": 0.86867362,
      "num_input_tokens_seen": 96698285,
      "step": 4478,
      "time_per_iteration": 2.5704169273376465
    },
    {
      "auxiliary_loss_clip": 0.01067568,
      "auxiliary_loss_mlp": 0.01023656,
      "balance_loss_clip": 1.03930593,
      "balance_loss_mlp": 1.01798809,
      "epoch": 0.5385679071724885,
      "flos": 22713228627840.0,
      "grad_norm": 2.255064987738051,
      "language_loss": 0.83456135,
      "learning_rate": 1.8474698073582508e-06,
      "loss": 0.85547352,
      "num_input_tokens_seen": 96719655,
      "step": 4479,
      "time_per_iteration": 2.6489362716674805
    },
    {
      "auxiliary_loss_clip": 0.01067762,
      "auxiliary_loss_mlp": 0.01017107,
      "balance_loss_clip": 1.03966022,
      "balance_loss_mlp": 1.0115788,
      "epoch": 0.5386881500631275,
      "flos": 15955163579520.0,
      "grad_norm": 2.8905956673171893,
      "language_loss": 0.87437427,
      "learning_rate": 1.8466931159953166e-06,
      "loss": 0.89522302,
      "num_input_tokens_seen": 96736290,
      "step": 4480,
      "time_per_iteration": 3.3904643058776855
    },
    {
      "auxiliary_loss_clip": 0.01078161,
      "auxiliary_loss_mlp": 0.01021913,
      "balance_loss_clip": 1.0423404,
      "balance_loss_mlp": 1.01652813,
      "epoch": 0.5388083929537666,
      "flos": 24062270791680.0,
      "grad_norm": 3.0343439712139553,
      "language_loss": 0.83957851,
      "learning_rate": 1.8459164478889158e-06,
      "loss": 0.86057925,
      "num_input_tokens_seen": 96757685,
      "step": 4481,
      "time_per_iteration": 2.6035165786743164
    },
    {
      "auxiliary_loss_clip": 0.01058523,
      "auxiliary_loss_mlp": 0.01016906,
      "balance_loss_clip": 1.03394043,
      "balance_loss_mlp": 1.01212299,
      "epoch": 0.5389286358444056,
      "flos": 22239084044160.0,
      "grad_norm": 1.8455286922642098,
      "language_loss": 0.76157844,
      "learning_rate": 1.8451398031568663e-06,
      "loss": 0.78233272,
      "num_input_tokens_seen": 96777310,
      "step": 4482,
      "time_per_iteration": 3.4009768962860107
    },
    {
      "auxiliary_loss_clip": 0.01064551,
      "auxiliary_loss_mlp": 0.01018864,
      "balance_loss_clip": 1.03971791,
      "balance_loss_mlp": 1.01321018,
      "epoch": 0.5390488787350448,
      "flos": 24284113948800.0,
      "grad_norm": 1.8946308850878621,
      "language_loss": 0.74624825,
      "learning_rate": 1.844363181916986e-06,
      "loss": 0.76708239,
      "num_input_tokens_seen": 96798035,
      "step": 4483,
      "time_per_iteration": 3.387890100479126
    },
    {
      "auxiliary_loss_clip": 0.01091737,
      "auxiliary_loss_mlp": 0.01023481,
      "balance_loss_clip": 1.04129028,
      "balance_loss_mlp": 1.018152,
      "epoch": 0.5391691216256839,
      "flos": 16583257854720.0,
      "grad_norm": 2.6535897737495895,
      "language_loss": 0.83424509,
      "learning_rate": 1.8435865842870868e-06,
      "loss": 0.85539734,
      "num_input_tokens_seen": 96815975,
      "step": 4484,
      "time_per_iteration": 2.5401604175567627
    },
    {
      "auxiliary_loss_clip": 0.01079623,
      "auxiliary_loss_mlp": 0.00756689,
      "balance_loss_clip": 1.03953874,
      "balance_loss_mlp": 1.00184321,
      "epoch": 0.5392893645163229,
      "flos": 23332222563840.0,
      "grad_norm": 2.27414163933832,
      "language_loss": 0.71845579,
      "learning_rate": 1.8428100103849787e-06,
      "loss": 0.73681891,
      "num_input_tokens_seen": 96835770,
      "step": 4485,
      "time_per_iteration": 2.568342685699463
    },
    {
      "auxiliary_loss_clip": 0.01077116,
      "auxiliary_loss_mlp": 0.01023825,
      "balance_loss_clip": 1.04200149,
      "balance_loss_mlp": 1.01826429,
      "epoch": 0.5394096074069621,
      "flos": 15671645521920.0,
      "grad_norm": 3.558194797802404,
      "language_loss": 0.7317723,
      "learning_rate": 1.842033460328467e-06,
      "loss": 0.75278175,
      "num_input_tokens_seen": 96854490,
      "step": 4486,
      "time_per_iteration": 2.5621755123138428
    },
    {
      "auxiliary_loss_clip": 0.01079673,
      "auxiliary_loss_mlp": 0.00756474,
      "balance_loss_clip": 1.04054165,
      "balance_loss_mlp": 1.00199366,
      "epoch": 0.5395298502976011,
      "flos": 22895664848640.0,
      "grad_norm": 1.7022258322874937,
      "language_loss": 0.75026894,
      "learning_rate": 1.8412569342353541e-06,
      "loss": 0.76863039,
      "num_input_tokens_seen": 96874645,
      "step": 4487,
      "time_per_iteration": 2.594774007797241
    },
    {
      "auxiliary_loss_clip": 0.01076317,
      "auxiliary_loss_mlp": 0.01025896,
      "balance_loss_clip": 1.03982902,
      "balance_loss_mlp": 1.01975703,
      "epoch": 0.5396500931882402,
      "flos": 23844409032960.0,
      "grad_norm": 2.119422049924509,
      "language_loss": 0.84560788,
      "learning_rate": 1.840480432223438e-06,
      "loss": 0.86663002,
      "num_input_tokens_seen": 96893650,
      "step": 4488,
      "time_per_iteration": 2.6121182441711426
    },
    {
      "auxiliary_loss_clip": 0.0107685,
      "auxiliary_loss_mlp": 0.0102406,
      "balance_loss_clip": 1.03972709,
      "balance_loss_mlp": 1.01864505,
      "epoch": 0.5397703360788794,
      "flos": 26325389963520.0,
      "grad_norm": 2.1306697177418035,
      "language_loss": 0.77892876,
      "learning_rate": 1.8397039544105131e-06,
      "loss": 0.79993784,
      "num_input_tokens_seen": 96912735,
      "step": 4489,
      "time_per_iteration": 3.403672456741333
    },
    {
      "auxiliary_loss_clip": 0.01079723,
      "auxiliary_loss_mlp": 0.01018228,
      "balance_loss_clip": 1.03905427,
      "balance_loss_mlp": 1.01260114,
      "epoch": 0.5398905789695184,
      "flos": 21216682846080.0,
      "grad_norm": 2.9736441340148296,
      "language_loss": 0.6978277,
      "learning_rate": 1.8389275009143711e-06,
      "loss": 0.71880722,
      "num_input_tokens_seen": 96932475,
      "step": 4490,
      "time_per_iteration": 2.5668439865112305
    },
    {
      "auxiliary_loss_clip": 0.0109984,
      "auxiliary_loss_mlp": 0.01018544,
      "balance_loss_clip": 1.04133558,
      "balance_loss_mlp": 1.0132153,
      "epoch": 0.5400108218601575,
      "flos": 25082548577280.0,
      "grad_norm": 2.181589587074825,
      "language_loss": 0.73672706,
      "learning_rate": 1.8381510718527988e-06,
      "loss": 0.75791085,
      "num_input_tokens_seen": 96952085,
      "step": 4491,
      "time_per_iteration": 2.5661203861236572
    },
    {
      "auxiliary_loss_clip": 0.01079535,
      "auxiliary_loss_mlp": 0.01020285,
      "balance_loss_clip": 1.04010952,
      "balance_loss_mlp": 1.01462913,
      "epoch": 0.5401310647507966,
      "flos": 26359791713280.0,
      "grad_norm": 2.1632558651550235,
      "language_loss": 0.6352998,
      "learning_rate": 1.8373746673435812e-06,
      "loss": 0.65629804,
      "num_input_tokens_seen": 96973110,
      "step": 4492,
      "time_per_iteration": 2.5960440635681152
    },
    {
      "auxiliary_loss_clip": 0.01101758,
      "auxiliary_loss_mlp": 0.01019957,
      "balance_loss_clip": 1.04361594,
      "balance_loss_mlp": 1.014709,
      "epoch": 0.5402513076414357,
      "flos": 27857816300160.0,
      "grad_norm": 1.8526231470333459,
      "language_loss": 0.79318619,
      "learning_rate": 1.8365982875044964e-06,
      "loss": 0.81440341,
      "num_input_tokens_seen": 96993420,
      "step": 4493,
      "time_per_iteration": 2.5808894634246826
    },
    {
      "auxiliary_loss_clip": 0.01091631,
      "auxiliary_loss_mlp": 0.00756952,
      "balance_loss_clip": 1.0425874,
      "balance_loss_mlp": 1.00183094,
      "epoch": 0.5403715505320748,
      "flos": 22896006111360.0,
      "grad_norm": 3.233514614348205,
      "language_loss": 0.7590425,
      "learning_rate": 1.8358219324533217e-06,
      "loss": 0.77752841,
      "num_input_tokens_seen": 97013685,
      "step": 4494,
      "time_per_iteration": 2.5320348739624023
    },
    {
      "auxiliary_loss_clip": 0.01073091,
      "auxiliary_loss_mlp": 0.01018907,
      "balance_loss_clip": 1.03785574,
      "balance_loss_mlp": 1.0141356,
      "epoch": 0.5404917934227139,
      "flos": 30226605396480.0,
      "grad_norm": 1.8209041531554055,
      "language_loss": 0.70567489,
      "learning_rate": 1.8350456023078292e-06,
      "loss": 0.72659481,
      "num_input_tokens_seen": 97036060,
      "step": 4495,
      "time_per_iteration": 2.653076171875
    },
    {
      "auxiliary_loss_clip": 0.0110153,
      "auxiliary_loss_mlp": 0.01024554,
      "balance_loss_clip": 1.04095411,
      "balance_loss_mlp": 1.01865017,
      "epoch": 0.540612036313353,
      "flos": 19940577252480.0,
      "grad_norm": 2.8386625675086554,
      "language_loss": 0.78004682,
      "learning_rate": 1.8342692971857874e-06,
      "loss": 0.80130768,
      "num_input_tokens_seen": 97055260,
      "step": 4496,
      "time_per_iteration": 2.473813533782959
    },
    {
      "auxiliary_loss_clip": 0.01070664,
      "auxiliary_loss_mlp": 0.01021734,
      "balance_loss_clip": 1.03686893,
      "balance_loss_mlp": 1.0163846,
      "epoch": 0.540732279203992,
      "flos": 24281876782080.0,
      "grad_norm": 4.385679891121618,
      "language_loss": 0.71607816,
      "learning_rate": 1.833493017204962e-06,
      "loss": 0.73700213,
      "num_input_tokens_seen": 97075365,
      "step": 4497,
      "time_per_iteration": 2.599304676055908
    },
    {
      "auxiliary_loss_clip": 0.01100963,
      "auxiliary_loss_mlp": 0.0102397,
      "balance_loss_clip": 1.0416466,
      "balance_loss_mlp": 1.01860821,
      "epoch": 0.5408525220946312,
      "flos": 20195267518080.0,
      "grad_norm": 2.025556909542664,
      "language_loss": 0.77678663,
      "learning_rate": 1.8327167624831134e-06,
      "loss": 0.79803598,
      "num_input_tokens_seen": 97093095,
      "step": 4498,
      "time_per_iteration": 2.4791676998138428
    },
    {
      "auxiliary_loss_clip": 0.01101404,
      "auxiliary_loss_mlp": 0.01018879,
      "balance_loss_clip": 1.04292309,
      "balance_loss_mlp": 1.0135566,
      "epoch": 0.5409727649852702,
      "flos": 24136762003200.0,
      "grad_norm": 1.9404902491886047,
      "language_loss": 0.70572805,
      "learning_rate": 1.831940533137999e-06,
      "loss": 0.72693086,
      "num_input_tokens_seen": 97112000,
      "step": 4499,
      "time_per_iteration": 2.5467302799224854
    },
    {
      "auxiliary_loss_clip": 0.01082031,
      "auxiliary_loss_mlp": 0.01019252,
      "balance_loss_clip": 1.0415864,
      "balance_loss_mlp": 1.01390576,
      "epoch": 0.5410930078759093,
      "flos": 23914843009920.0,
      "grad_norm": 1.7550738249982185,
      "language_loss": 0.72434688,
      "learning_rate": 1.8311643292873718e-06,
      "loss": 0.74535972,
      "num_input_tokens_seen": 97130820,
      "step": 4500,
      "time_per_iteration": 2.540393590927124
    },
    {
      "auxiliary_loss_clip": 0.01083935,
      "auxiliary_loss_mlp": 0.01019918,
      "balance_loss_clip": 1.03828955,
      "balance_loss_mlp": 1.01467609,
      "epoch": 0.5412132507665485,
      "flos": 21107221113600.0,
      "grad_norm": 1.9025898150871525,
      "language_loss": 0.88083351,
      "learning_rate": 1.8303881510489818e-06,
      "loss": 0.90187204,
      "num_input_tokens_seen": 97149210,
      "step": 4501,
      "time_per_iteration": 2.5493969917297363
    },
    {
      "auxiliary_loss_clip": 0.01072244,
      "auxiliary_loss_mlp": 0.01022385,
      "balance_loss_clip": 1.03715479,
      "balance_loss_mlp": 1.01636791,
      "epoch": 0.5413334936571875,
      "flos": 30229980105600.0,
      "grad_norm": 3.0071050873126732,
      "language_loss": 0.6927017,
      "learning_rate": 1.829611998540574e-06,
      "loss": 0.71364802,
      "num_input_tokens_seen": 97170415,
      "step": 4502,
      "time_per_iteration": 2.620882749557495
    },
    {
      "auxiliary_loss_clip": 0.0108842,
      "auxiliary_loss_mlp": 0.00756575,
      "balance_loss_clip": 1.04042864,
      "balance_loss_mlp": 1.00186801,
      "epoch": 0.5414537365478266,
      "flos": 24281914700160.0,
      "grad_norm": 2.2532060700723733,
      "language_loss": 0.80266666,
      "learning_rate": 1.8288358718798914e-06,
      "loss": 0.82111669,
      "num_input_tokens_seen": 97189605,
      "step": 4503,
      "time_per_iteration": 2.561384677886963
    },
    {
      "auxiliary_loss_clip": 0.01080132,
      "auxiliary_loss_mlp": 0.00756574,
      "balance_loss_clip": 1.03844893,
      "balance_loss_mlp": 1.0018146,
      "epoch": 0.5415739794384657,
      "flos": 16656421933440.0,
      "grad_norm": 2.004419975057396,
      "language_loss": 0.72395861,
      "learning_rate": 1.8280597711846703e-06,
      "loss": 0.74232566,
      "num_input_tokens_seen": 97207845,
      "step": 4504,
      "time_per_iteration": 2.537266254425049
    },
    {
      "auxiliary_loss_clip": 0.01083419,
      "auxiliary_loss_mlp": 0.01017783,
      "balance_loss_clip": 1.04255581,
      "balance_loss_mlp": 1.01251137,
      "epoch": 0.5416942223291048,
      "flos": 23187979900800.0,
      "grad_norm": 2.2286981508157533,
      "language_loss": 0.83236647,
      "learning_rate": 1.8272836965726455e-06,
      "loss": 0.85337847,
      "num_input_tokens_seen": 97226780,
      "step": 4505,
      "time_per_iteration": 2.57260799407959
    },
    {
      "auxiliary_loss_clip": 0.01045712,
      "auxiliary_loss_mlp": 0.01021671,
      "balance_loss_clip": 1.03903985,
      "balance_loss_mlp": 1.01604128,
      "epoch": 0.5418144652197439,
      "flos": 20305335939840.0,
      "grad_norm": 1.9048401175943914,
      "language_loss": 0.78357506,
      "learning_rate": 1.8265076481615461e-06,
      "loss": 0.80424893,
      "num_input_tokens_seen": 97246695,
      "step": 4506,
      "time_per_iteration": 3.710946798324585
    },
    {
      "auxiliary_loss_clip": 0.01069712,
      "auxiliary_loss_mlp": 0.01020177,
      "balance_loss_clip": 1.03689027,
      "balance_loss_mlp": 1.01431227,
      "epoch": 0.541934708110383,
      "flos": 12460275100800.0,
      "grad_norm": 2.752894927860235,
      "language_loss": 0.87652749,
      "learning_rate": 1.8257316260690987e-06,
      "loss": 0.89742637,
      "num_input_tokens_seen": 97264480,
      "step": 4507,
      "time_per_iteration": 2.530888795852661
    },
    {
      "auxiliary_loss_clip": 0.01085335,
      "auxiliary_loss_mlp": 0.01015617,
      "balance_loss_clip": 1.0411272,
      "balance_loss_mlp": 1.01074111,
      "epoch": 0.5420549510010221,
      "flos": 21256051864320.0,
      "grad_norm": 1.6002840850353115,
      "language_loss": 0.76078069,
      "learning_rate": 1.8249556304130254e-06,
      "loss": 0.7817902,
      "num_input_tokens_seen": 97285760,
      "step": 4508,
      "time_per_iteration": 3.333984851837158
    },
    {
      "auxiliary_loss_clip": 0.01075719,
      "auxiliary_loss_mlp": 0.01021559,
      "balance_loss_clip": 1.03879547,
      "balance_loss_mlp": 1.0159471,
      "epoch": 0.5421751938916611,
      "flos": 29492727442560.0,
      "grad_norm": 2.298538742860011,
      "language_loss": 0.6829257,
      "learning_rate": 1.824179661311044e-06,
      "loss": 0.70389849,
      "num_input_tokens_seen": 97304510,
      "step": 4509,
      "time_per_iteration": 3.356196641921997
    },
    {
      "auxiliary_loss_clip": 0.01055405,
      "auxiliary_loss_mlp": 0.01019766,
      "balance_loss_clip": 1.03780282,
      "balance_loss_mlp": 1.01443458,
      "epoch": 0.5422954367823003,
      "flos": 18736232768640.0,
      "grad_norm": 2.314489463532321,
      "language_loss": 0.79905999,
      "learning_rate": 1.823403718880868e-06,
      "loss": 0.8198117,
      "num_input_tokens_seen": 97323270,
      "step": 4510,
      "time_per_iteration": 2.6442270278930664
    },
    {
      "auxiliary_loss_clip": 0.0108143,
      "auxiliary_loss_mlp": 0.01023847,
      "balance_loss_clip": 1.04051924,
      "balance_loss_mlp": 1.01838398,
      "epoch": 0.5424156796729394,
      "flos": 39972188050560.0,
      "grad_norm": 1.9449785346844708,
      "language_loss": 0.66833246,
      "learning_rate": 1.822627803240207e-06,
      "loss": 0.68938529,
      "num_input_tokens_seen": 97345600,
      "step": 4511,
      "time_per_iteration": 2.75958514213562
    },
    {
      "auxiliary_loss_clip": 0.01065771,
      "auxiliary_loss_mlp": 0.01022447,
      "balance_loss_clip": 1.0396117,
      "balance_loss_mlp": 1.0172317,
      "epoch": 0.5425359225635784,
      "flos": 11548131914880.0,
      "grad_norm": 2.651632143230263,
      "language_loss": 0.85649568,
      "learning_rate": 1.8218519145067675e-06,
      "loss": 0.87737787,
      "num_input_tokens_seen": 97361220,
      "step": 4512,
      "time_per_iteration": 2.5450518131256104
    },
    {
      "auxiliary_loss_clip": 0.01059019,
      "auxiliary_loss_mlp": 0.01022423,
      "balance_loss_clip": 1.03627729,
      "balance_loss_mlp": 1.01703811,
      "epoch": 0.5426561654542175,
      "flos": 20231754762240.0,
      "grad_norm": 2.2341442732826553,
      "language_loss": 0.89447677,
      "learning_rate": 1.8210760527982508e-06,
      "loss": 0.91529113,
      "num_input_tokens_seen": 97381505,
      "step": 4513,
      "time_per_iteration": 2.668592691421509
    },
    {
      "auxiliary_loss_clip": 0.01079398,
      "auxiliary_loss_mlp": 0.00756723,
      "balance_loss_clip": 1.04309082,
      "balance_loss_mlp": 1.00193167,
      "epoch": 0.5427764083448566,
      "flos": 21873832421760.0,
      "grad_norm": 1.840193180692174,
      "language_loss": 0.75080669,
      "learning_rate": 1.8203002182323552e-06,
      "loss": 0.76916784,
      "num_input_tokens_seen": 97399060,
      "step": 4514,
      "time_per_iteration": 2.571615695953369
    },
    {
      "auxiliary_loss_clip": 0.01074419,
      "auxiliary_loss_mlp": 0.01021077,
      "balance_loss_clip": 1.04216278,
      "balance_loss_mlp": 1.01554263,
      "epoch": 0.5428966512354957,
      "flos": 19642688242560.0,
      "grad_norm": 1.8173814790499954,
      "language_loss": 0.75929058,
      "learning_rate": 1.819524410926773e-06,
      "loss": 0.78024548,
      "num_input_tokens_seen": 97416740,
      "step": 4515,
      "time_per_iteration": 3.3485448360443115
    },
    {
      "auxiliary_loss_clip": 0.01030313,
      "auxiliary_loss_mlp": 0.01020502,
      "balance_loss_clip": 1.03379583,
      "balance_loss_mlp": 1.01469648,
      "epoch": 0.5430168941261347,
      "flos": 22384350495360.0,
      "grad_norm": 4.741237565718183,
      "language_loss": 0.76932251,
      "learning_rate": 1.8187486309991944e-06,
      "loss": 0.78983068,
      "num_input_tokens_seen": 97437620,
      "step": 4516,
      "time_per_iteration": 2.6754443645477295
    },
    {
      "auxiliary_loss_clip": 0.0108785,
      "auxiliary_loss_mlp": 0.01022229,
      "balance_loss_clip": 1.04170454,
      "balance_loss_mlp": 1.01716232,
      "epoch": 0.5431371370167739,
      "flos": 18765818922240.0,
      "grad_norm": 1.756171847334693,
      "language_loss": 0.77871585,
      "learning_rate": 1.817972878567304e-06,
      "loss": 0.79981661,
      "num_input_tokens_seen": 97456275,
      "step": 4517,
      "time_per_iteration": 2.55354642868042
    },
    {
      "auxiliary_loss_clip": 0.01080102,
      "auxiliary_loss_mlp": 0.01019344,
      "balance_loss_clip": 1.04118931,
      "balance_loss_mlp": 1.01413488,
      "epoch": 0.543257379907413,
      "flos": 18807955960320.0,
      "grad_norm": 1.8677121790103948,
      "language_loss": 0.76259911,
      "learning_rate": 1.8171971537487834e-06,
      "loss": 0.7835936,
      "num_input_tokens_seen": 97474925,
      "step": 4518,
      "time_per_iteration": 2.5723743438720703
    },
    {
      "auxiliary_loss_clip": 0.01101682,
      "auxiliary_loss_mlp": 0.01024244,
      "balance_loss_clip": 1.04167628,
      "balance_loss_mlp": 1.01828313,
      "epoch": 0.543377622798052,
      "flos": 17495287286400.0,
      "grad_norm": 1.9286010103060152,
      "language_loss": 0.80708939,
      "learning_rate": 1.8164214566613093e-06,
      "loss": 0.82834864,
      "num_input_tokens_seen": 97493550,
      "step": 4519,
      "time_per_iteration": 2.530580759048462
    },
    {
      "auxiliary_loss_clip": 0.01100704,
      "auxiliary_loss_mlp": 0.01018595,
      "balance_loss_clip": 1.0419085,
      "balance_loss_mlp": 1.01287568,
      "epoch": 0.5434978656886912,
      "flos": 18991302215040.0,
      "grad_norm": 2.800342335831304,
      "language_loss": 0.66448712,
      "learning_rate": 1.8156457874225547e-06,
      "loss": 0.68568009,
      "num_input_tokens_seen": 97512010,
      "step": 4520,
      "time_per_iteration": 2.481649875640869
    },
    {
      "auxiliary_loss_clip": 0.01061133,
      "auxiliary_loss_mlp": 0.01018633,
      "balance_loss_clip": 1.03390741,
      "balance_loss_mlp": 1.01339352,
      "epoch": 0.5436181085793302,
      "flos": 17276856756480.0,
      "grad_norm": 1.7853762930088586,
      "language_loss": 0.80653244,
      "learning_rate": 1.814870146150187e-06,
      "loss": 0.82733011,
      "num_input_tokens_seen": 97530120,
      "step": 4521,
      "time_per_iteration": 2.5682225227355957
    },
    {
      "auxiliary_loss_clip": 0.01077913,
      "auxiliary_loss_mlp": 0.01023826,
      "balance_loss_clip": 1.04116964,
      "balance_loss_mlp": 1.01813674,
      "epoch": 0.5437383514699693,
      "flos": 19100574357120.0,
      "grad_norm": 2.760510763135202,
      "language_loss": 0.78851098,
      "learning_rate": 1.814094532961871e-06,
      "loss": 0.80952835,
      "num_input_tokens_seen": 97548695,
      "step": 4522,
      "time_per_iteration": 2.53061842918396
    },
    {
      "auxiliary_loss_clip": 0.0105483,
      "auxiliary_loss_mlp": 0.01023268,
      "balance_loss_clip": 1.03789043,
      "balance_loss_mlp": 1.01776361,
      "epoch": 0.5438585943606085,
      "flos": 22604980273920.0,
      "grad_norm": 2.0118705739551466,
      "language_loss": 0.8372159,
      "learning_rate": 1.8133189479752666e-06,
      "loss": 0.85799688,
      "num_input_tokens_seen": 97567625,
      "step": 4523,
      "time_per_iteration": 2.692420721054077
    },
    {
      "auxiliary_loss_clip": 0.01103519,
      "auxiliary_loss_mlp": 0.01020992,
      "balance_loss_clip": 1.04451776,
      "balance_loss_mlp": 1.01597679,
      "epoch": 0.5439788372512475,
      "flos": 21800630424960.0,
      "grad_norm": 3.0241113922733285,
      "language_loss": 0.81799972,
      "learning_rate": 1.8125433913080292e-06,
      "loss": 0.83924484,
      "num_input_tokens_seen": 97585325,
      "step": 4524,
      "time_per_iteration": 2.494817018508911
    },
    {
      "auxiliary_loss_clip": 0.0099161,
      "auxiliary_loss_mlp": 0.01024274,
      "balance_loss_clip": 1.03068471,
      "balance_loss_mlp": 1.01935029,
      "epoch": 0.5440990801418866,
      "flos": 16401238732800.0,
      "grad_norm": 2.375684849034927,
      "language_loss": 0.82371521,
      "learning_rate": 1.811767863077811e-06,
      "loss": 0.8438741,
      "num_input_tokens_seen": 97604275,
      "step": 4525,
      "time_per_iteration": 2.9875664710998535
    },
    {
      "auxiliary_loss_clip": 0.01021613,
      "auxiliary_loss_mlp": 0.01024072,
      "balance_loss_clip": 1.02934647,
      "balance_loss_mlp": 1.01866317,
      "epoch": 0.5442193230325257,
      "flos": 21617739187200.0,
      "grad_norm": 1.6344533349550372,
      "language_loss": 0.78437948,
      "learning_rate": 1.8109923634022577e-06,
      "loss": 0.80483627,
      "num_input_tokens_seen": 97624300,
      "step": 4526,
      "time_per_iteration": 2.9247875213623047
    },
    {
      "auxiliary_loss_clip": 0.01102493,
      "auxiliary_loss_mlp": 0.01023166,
      "balance_loss_clip": 1.04250443,
      "balance_loss_mlp": 1.01753283,
      "epoch": 0.5443395659231648,
      "flos": 15482687391360.0,
      "grad_norm": 2.5150420873367234,
      "language_loss": 0.86347908,
      "learning_rate": 1.8102168923990128e-06,
      "loss": 0.8847357,
      "num_input_tokens_seen": 97637845,
      "step": 4527,
      "time_per_iteration": 2.465256929397583
    },
    {
      "auxiliary_loss_clip": 0.01092513,
      "auxiliary_loss_mlp": 0.00756366,
      "balance_loss_clip": 1.04409897,
      "balance_loss_mlp": 1.00188231,
      "epoch": 0.5444598088138038,
      "flos": 18772416668160.0,
      "grad_norm": 2.1586569674453733,
      "language_loss": 0.80192447,
      "learning_rate": 1.809441450185714e-06,
      "loss": 0.82041335,
      "num_input_tokens_seen": 97656330,
      "step": 4528,
      "time_per_iteration": 2.577651023864746
    },
    {
      "auxiliary_loss_clip": 0.01079969,
      "auxiliary_loss_mlp": 0.01019136,
      "balance_loss_clip": 1.04009759,
      "balance_loss_mlp": 1.01362288,
      "epoch": 0.544580051704443,
      "flos": 21144466719360.0,
      "grad_norm": 2.065239698543916,
      "language_loss": 0.73467714,
      "learning_rate": 1.8086660368799958e-06,
      "loss": 0.75566822,
      "num_input_tokens_seen": 97674380,
      "step": 4529,
      "time_per_iteration": 2.588787317276001
    },
    {
      "auxiliary_loss_clip": 0.01074838,
      "auxiliary_loss_mlp": 0.01016451,
      "balance_loss_clip": 1.03880763,
      "balance_loss_mlp": 1.01081204,
      "epoch": 0.5447002945950821,
      "flos": 32494388492160.0,
      "grad_norm": 1.9087124137233122,
      "language_loss": 0.77314866,
      "learning_rate": 1.807890652599488e-06,
      "loss": 0.79406154,
      "num_input_tokens_seen": 97698765,
      "step": 4530,
      "time_per_iteration": 2.7053983211517334
    },
    {
      "auxiliary_loss_clip": 0.01100313,
      "auxiliary_loss_mlp": 0.01020722,
      "balance_loss_clip": 1.04243183,
      "balance_loss_mlp": 1.01584589,
      "epoch": 0.5448205374857211,
      "flos": 11799712897920.0,
      "grad_norm": 2.1744613871780123,
      "language_loss": 0.82871556,
      "learning_rate": 1.8071152974618156e-06,
      "loss": 0.84992599,
      "num_input_tokens_seen": 97716565,
      "step": 4531,
      "time_per_iteration": 3.4890263080596924
    },
    {
      "auxiliary_loss_clip": 0.01066138,
      "auxiliary_loss_mlp": 0.0075667,
      "balance_loss_clip": 1.03901577,
      "balance_loss_mlp": 1.00179768,
      "epoch": 0.5449407803763603,
      "flos": 24136041559680.0,
      "grad_norm": 2.426648853434404,
      "language_loss": 0.7804997,
      "learning_rate": 1.806339971584599e-06,
      "loss": 0.79872775,
      "num_input_tokens_seen": 97733225,
      "step": 4532,
      "time_per_iteration": 2.661860466003418
    },
    {
      "auxiliary_loss_clip": 0.01102848,
      "auxiliary_loss_mlp": 0.01021842,
      "balance_loss_clip": 1.04331064,
      "balance_loss_mlp": 1.01635265,
      "epoch": 0.5450610232669993,
      "flos": 23260802716800.0,
      "grad_norm": 2.0458267570630575,
      "language_loss": 0.85363626,
      "learning_rate": 1.8055646750854546e-06,
      "loss": 0.87488317,
      "num_input_tokens_seen": 97752735,
      "step": 4533,
      "time_per_iteration": 2.510162591934204
    },
    {
      "auxiliary_loss_clip": 0.01077297,
      "auxiliary_loss_mlp": 0.01017622,
      "balance_loss_clip": 1.04104531,
      "balance_loss_mlp": 1.0122968,
      "epoch": 0.5451812661576384,
      "flos": 17786995649280.0,
      "grad_norm": 2.4266937150707095,
      "language_loss": 0.81284463,
      "learning_rate": 1.8047894080819945e-06,
      "loss": 0.83379388,
      "num_input_tokens_seen": 97769985,
      "step": 4534,
      "time_per_iteration": 3.24391508102417
    },
    {
      "auxiliary_loss_clip": 0.01060122,
      "auxiliary_loss_mlp": 0.01006114,
      "balance_loss_clip": 1.0309577,
      "balance_loss_mlp": 1.00413513,
      "epoch": 0.5453015090482776,
      "flos": 71069965004160.0,
      "grad_norm": 0.7268902271046394,
      "language_loss": 0.6312871,
      "learning_rate": 1.8040141706918258e-06,
      "loss": 0.65194952,
      "num_input_tokens_seen": 97831225,
      "step": 4535,
      "time_per_iteration": 4.027315378189087
    },
    {
      "auxiliary_loss_clip": 0.01067976,
      "auxiliary_loss_mlp": 0.01019569,
      "balance_loss_clip": 1.03680038,
      "balance_loss_mlp": 1.01421702,
      "epoch": 0.5454217519389166,
      "flos": 25554304321920.0,
      "grad_norm": 2.116689255199322,
      "language_loss": 0.76742673,
      "learning_rate": 1.8032389630325525e-06,
      "loss": 0.78830224,
      "num_input_tokens_seen": 97849975,
      "step": 4536,
      "time_per_iteration": 2.570528745651245
    },
    {
      "auxiliary_loss_clip": 0.01079205,
      "auxiliary_loss_mlp": 0.01020816,
      "balance_loss_clip": 1.03973806,
      "balance_loss_mlp": 1.01526976,
      "epoch": 0.5455419948295557,
      "flos": 23660531925120.0,
      "grad_norm": 1.8596574920578077,
      "language_loss": 0.75872976,
      "learning_rate": 1.8024637852217707e-06,
      "loss": 0.77972996,
      "num_input_tokens_seen": 97869700,
      "step": 4537,
      "time_per_iteration": 2.5938243865966797
    },
    {
      "auxiliary_loss_clip": 0.0107709,
      "auxiliary_loss_mlp": 0.01023936,
      "balance_loss_clip": 1.04136562,
      "balance_loss_mlp": 1.01852989,
      "epoch": 0.5456622377201948,
      "flos": 23406220840320.0,
      "grad_norm": 1.9981120150513967,
      "language_loss": 0.84913003,
      "learning_rate": 1.8016886373770766e-06,
      "loss": 0.87014025,
      "num_input_tokens_seen": 97888215,
      "step": 4538,
      "time_per_iteration": 2.56097412109375
    },
    {
      "auxiliary_loss_clip": 0.01083971,
      "auxiliary_loss_mlp": 0.01018197,
      "balance_loss_clip": 1.04378867,
      "balance_loss_mlp": 1.01272821,
      "epoch": 0.5457824806108339,
      "flos": 23990320091520.0,
      "grad_norm": 1.5949446998755856,
      "language_loss": 0.79190171,
      "learning_rate": 1.8009135196160579e-06,
      "loss": 0.81292331,
      "num_input_tokens_seen": 97907090,
      "step": 4539,
      "time_per_iteration": 2.5955309867858887
    },
    {
      "auxiliary_loss_clip": 0.01067514,
      "auxiliary_loss_mlp": 0.01020241,
      "balance_loss_clip": 1.03996277,
      "balance_loss_mlp": 1.01538587,
      "epoch": 0.545902723501473,
      "flos": 22568113848960.0,
      "grad_norm": 3.2867587403831466,
      "language_loss": 0.84506255,
      "learning_rate": 1.8001384320563e-06,
      "loss": 0.86594009,
      "num_input_tokens_seen": 97927345,
      "step": 4540,
      "time_per_iteration": 2.59344220161438
    },
    {
      "auxiliary_loss_clip": 0.01061215,
      "auxiliary_loss_mlp": 0.01001992,
      "balance_loss_clip": 1.0321517,
      "balance_loss_mlp": 1.00007296,
      "epoch": 0.5460229663921121,
      "flos": 55203256540800.0,
      "grad_norm": 0.9459017347451003,
      "language_loss": 0.57686108,
      "learning_rate": 1.7993633748153833e-06,
      "loss": 0.59749317,
      "num_input_tokens_seen": 97981950,
      "step": 4541,
      "time_per_iteration": 3.7308766841888428
    },
    {
      "auxiliary_loss_clip": 0.01091681,
      "auxiliary_loss_mlp": 0.01021531,
      "balance_loss_clip": 1.04189146,
      "balance_loss_mlp": 1.01626205,
      "epoch": 0.5461432092827512,
      "flos": 15415666041600.0,
      "grad_norm": 1.8422045195425731,
      "language_loss": 0.72801554,
      "learning_rate": 1.7985883480108834e-06,
      "loss": 0.74914765,
      "num_input_tokens_seen": 97999585,
      "step": 4542,
      "time_per_iteration": 2.5449445247650146
    },
    {
      "auxiliary_loss_clip": 0.01092476,
      "auxiliary_loss_mlp": 0.01022579,
      "balance_loss_clip": 1.04226446,
      "balance_loss_mlp": 1.01691961,
      "epoch": 0.5462634521733902,
      "flos": 24027224434560.0,
      "grad_norm": 1.7177228871349484,
      "language_loss": 0.72167635,
      "learning_rate": 1.797813351760371e-06,
      "loss": 0.74282694,
      "num_input_tokens_seen": 98021290,
      "step": 4543,
      "time_per_iteration": 2.5608513355255127
    },
    {
      "auxiliary_loss_clip": 0.01102104,
      "auxiliary_loss_mlp": 0.01018482,
      "balance_loss_clip": 1.04305387,
      "balance_loss_mlp": 1.01308787,
      "epoch": 0.5463836950640293,
      "flos": 22823183295360.0,
      "grad_norm": 1.8347578479617495,
      "language_loss": 0.78233469,
      "learning_rate": 1.7970383861814116e-06,
      "loss": 0.80354053,
      "num_input_tokens_seen": 98041060,
      "step": 4544,
      "time_per_iteration": 2.5545763969421387
    },
    {
      "auxiliary_loss_clip": 0.01092144,
      "auxiliary_loss_mlp": 0.01021222,
      "balance_loss_clip": 1.04480398,
      "balance_loss_mlp": 1.01546109,
      "epoch": 0.5465039379546685,
      "flos": 20450336964480.0,
      "grad_norm": 2.1201621708958953,
      "language_loss": 0.73786986,
      "learning_rate": 1.7962634513915684e-06,
      "loss": 0.75900346,
      "num_input_tokens_seen": 98058410,
      "step": 4545,
      "time_per_iteration": 2.511024236679077
    },
    {
      "auxiliary_loss_clip": 0.01102022,
      "auxiliary_loss_mlp": 0.0101974,
      "balance_loss_clip": 1.04264784,
      "balance_loss_mlp": 1.01436675,
      "epoch": 0.5466241808453075,
      "flos": 17344977730560.0,
      "grad_norm": 1.7214276111723137,
      "language_loss": 0.79699969,
      "learning_rate": 1.7954885475083969e-06,
      "loss": 0.81821734,
      "num_input_tokens_seen": 98076080,
      "step": 4546,
      "time_per_iteration": 2.521165132522583
    },
    {
      "auxiliary_loss_clip": 0.01103482,
      "auxiliary_loss_mlp": 0.0102799,
      "balance_loss_clip": 1.04365122,
      "balance_loss_mlp": 1.02226186,
      "epoch": 0.5467444237359466,
      "flos": 21619217992320.0,
      "grad_norm": 5.773216686664029,
      "language_loss": 0.72499764,
      "learning_rate": 1.7947136746494513e-06,
      "loss": 0.74631232,
      "num_input_tokens_seen": 98096995,
      "step": 4547,
      "time_per_iteration": 2.5119593143463135
    },
    {
      "auxiliary_loss_clip": 0.01088399,
      "auxiliary_loss_mlp": 0.01023996,
      "balance_loss_clip": 1.04096794,
      "balance_loss_mlp": 1.01862836,
      "epoch": 0.5468646666265857,
      "flos": 24172756312320.0,
      "grad_norm": 1.9431070883293133,
      "language_loss": 0.88463497,
      "learning_rate": 1.793938832932277e-06,
      "loss": 0.90575898,
      "num_input_tokens_seen": 98115105,
      "step": 4548,
      "time_per_iteration": 2.588310718536377
    },
    {
      "auxiliary_loss_clip": 0.01101148,
      "auxiliary_loss_mlp": 0.010207,
      "balance_loss_clip": 1.04182816,
      "balance_loss_mlp": 1.01540112,
      "epoch": 0.5469849095172248,
      "flos": 27529469020800.0,
      "grad_norm": 2.6996861072665617,
      "language_loss": 0.70379657,
      "learning_rate": 1.7931640224744185e-06,
      "loss": 0.72501504,
      "num_input_tokens_seen": 98135655,
      "step": 4549,
      "time_per_iteration": 2.55122709274292
    },
    {
      "auxiliary_loss_clip": 0.01066184,
      "auxiliary_loss_mlp": 0.0101861,
      "balance_loss_clip": 1.03820539,
      "balance_loss_mlp": 1.01315594,
      "epoch": 0.5471051524078638,
      "flos": 27967164278400.0,
      "grad_norm": 1.6904615741943192,
      "language_loss": 0.73911631,
      "learning_rate": 1.7923892433934127e-06,
      "loss": 0.75996423,
      "num_input_tokens_seen": 98156730,
      "step": 4550,
      "time_per_iteration": 2.6872243881225586
    },
    {
      "auxiliary_loss_clip": 0.01080278,
      "auxiliary_loss_mlp": 0.00756928,
      "balance_loss_clip": 1.04367423,
      "balance_loss_mlp": 1.00192237,
      "epoch": 0.547225395298503,
      "flos": 18152474780160.0,
      "grad_norm": 2.4275593230549544,
      "language_loss": 0.78837192,
      "learning_rate": 1.7916144958067939e-06,
      "loss": 0.80674398,
      "num_input_tokens_seen": 98174590,
      "step": 4551,
      "time_per_iteration": 2.5492875576019287
    },
    {
      "auxiliary_loss_clip": 0.01087683,
      "auxiliary_loss_mlp": 0.01018537,
      "balance_loss_clip": 1.03991818,
      "balance_loss_mlp": 1.01313984,
      "epoch": 0.5473456381891421,
      "flos": 21363655610880.0,
      "grad_norm": 1.7168544774829886,
      "language_loss": 0.78640318,
      "learning_rate": 1.7908397798320905e-06,
      "loss": 0.80746531,
      "num_input_tokens_seen": 98194325,
      "step": 4552,
      "time_per_iteration": 2.558070659637451
    },
    {
      "auxiliary_loss_clip": 0.01094789,
      "auxiliary_loss_mlp": 0.00757025,
      "balance_loss_clip": 1.04437649,
      "balance_loss_mlp": 1.00203276,
      "epoch": 0.5474658810797811,
      "flos": 19933865752320.0,
      "grad_norm": 1.8743005720267962,
      "language_loss": 0.74856812,
      "learning_rate": 1.7900650955868265e-06,
      "loss": 0.76708627,
      "num_input_tokens_seen": 98213970,
      "step": 4553,
      "time_per_iteration": 2.5938127040863037
    },
    {
      "auxiliary_loss_clip": 0.01087277,
      "auxiliary_loss_mlp": 0.007566,
      "balance_loss_clip": 1.04140651,
      "balance_loss_mlp": 1.00188386,
      "epoch": 0.5475861239704203,
      "flos": 50479945597440.0,
      "grad_norm": 1.3869348082380413,
      "language_loss": 0.76483095,
      "learning_rate": 1.7892904431885202e-06,
      "loss": 0.78326964,
      "num_input_tokens_seen": 98241145,
      "step": 4554,
      "time_per_iteration": 2.7958035469055176
    },
    {
      "auxiliary_loss_clip": 0.01055078,
      "auxiliary_loss_mlp": 0.01020956,
      "balance_loss_clip": 1.03798079,
      "balance_loss_mlp": 1.01579404,
      "epoch": 0.5477063668610593,
      "flos": 20707264396800.0,
      "grad_norm": 1.7963909597230494,
      "language_loss": 0.75502771,
      "learning_rate": 1.788515822754686e-06,
      "loss": 0.77578807,
      "num_input_tokens_seen": 98261565,
      "step": 4555,
      "time_per_iteration": 2.6576361656188965
    },
    {
      "auxiliary_loss_clip": 0.01071844,
      "auxiliary_loss_mlp": 0.01025001,
      "balance_loss_clip": 1.04125094,
      "balance_loss_mlp": 1.01927948,
      "epoch": 0.5478266097516984,
      "flos": 19611774956160.0,
      "grad_norm": 2.216559742047895,
      "language_loss": 0.78470248,
      "learning_rate": 1.7877412344028335e-06,
      "loss": 0.80567092,
      "num_input_tokens_seen": 98281370,
      "step": 4556,
      "time_per_iteration": 2.622884511947632
    },
    {
      "auxiliary_loss_clip": 0.01090984,
      "auxiliary_loss_mlp": 0.01018032,
      "balance_loss_clip": 1.04118371,
      "balance_loss_mlp": 1.01258111,
      "epoch": 0.5479468526423376,
      "flos": 12898273703040.0,
      "grad_norm": 2.2358782832162154,
      "language_loss": 0.77371848,
      "learning_rate": 1.7869666782504668e-06,
      "loss": 0.79480863,
      "num_input_tokens_seen": 98297950,
      "step": 4557,
      "time_per_iteration": 3.3547277450561523
    },
    {
      "auxiliary_loss_clip": 0.01076793,
      "auxiliary_loss_mlp": 0.01017111,
      "balance_loss_clip": 1.03929687,
      "balance_loss_mlp": 1.01172018,
      "epoch": 0.5480670955329766,
      "flos": 18590814645120.0,
      "grad_norm": 2.6532625933943197,
      "language_loss": 0.68992603,
      "learning_rate": 1.7861921544150867e-06,
      "loss": 0.71086502,
      "num_input_tokens_seen": 98316800,
      "step": 4558,
      "time_per_iteration": 2.5645604133605957
    },
    {
      "auxiliary_loss_clip": 0.01034623,
      "auxiliary_loss_mlp": 0.00756751,
      "balance_loss_clip": 1.03449059,
      "balance_loss_mlp": 1.00184906,
      "epoch": 0.5481873384236157,
      "flos": 15956073613440.0,
      "grad_norm": 5.392646897077183,
      "language_loss": 0.76769698,
      "learning_rate": 1.7854176630141856e-06,
      "loss": 0.78561068,
      "num_input_tokens_seen": 98333935,
      "step": 4559,
      "time_per_iteration": 2.685645580291748
    },
    {
      "auxiliary_loss_clip": 0.01103629,
      "auxiliary_loss_mlp": 0.01028084,
      "balance_loss_clip": 1.04377854,
      "balance_loss_mlp": 1.02247822,
      "epoch": 0.5483075813142548,
      "flos": 22786013525760.0,
      "grad_norm": 2.983183497710942,
      "language_loss": 0.84007061,
      "learning_rate": 1.784643204165255e-06,
      "loss": 0.86138767,
      "num_input_tokens_seen": 98353255,
      "step": 4560,
      "time_per_iteration": 3.2572109699249268
    },
    {
      "auxiliary_loss_clip": 0.01078731,
      "auxiliary_loss_mlp": 0.01020765,
      "balance_loss_clip": 1.03751278,
      "balance_loss_mlp": 1.01533806,
      "epoch": 0.5484278242048939,
      "flos": 19319194477440.0,
      "grad_norm": 2.076693482832115,
      "language_loss": 0.77465147,
      "learning_rate": 1.7838687779857783e-06,
      "loss": 0.79564643,
      "num_input_tokens_seen": 98371130,
      "step": 4561,
      "time_per_iteration": 3.372344732284546
    },
    {
      "auxiliary_loss_clip": 0.01076157,
      "auxiliary_loss_mlp": 0.01018832,
      "balance_loss_clip": 1.03908157,
      "balance_loss_mlp": 1.0129962,
      "epoch": 0.5485480670955329,
      "flos": 22817988518400.0,
      "grad_norm": 1.8771791976721306,
      "language_loss": 0.64349526,
      "learning_rate": 1.7830943845932366e-06,
      "loss": 0.6644451,
      "num_input_tokens_seen": 98390455,
      "step": 4562,
      "time_per_iteration": 2.5837128162384033
    },
    {
      "auxiliary_loss_clip": 0.01078866,
      "auxiliary_loss_mlp": 0.01026518,
      "balance_loss_clip": 1.0424825,
      "balance_loss_mlp": 1.02124631,
      "epoch": 0.5486683099861721,
      "flos": 22673328756480.0,
      "grad_norm": 1.6847924973938475,
      "language_loss": 0.74903929,
      "learning_rate": 1.7823200241051044e-06,
      "loss": 0.77009314,
      "num_input_tokens_seen": 98409370,
      "step": 4563,
      "time_per_iteration": 2.6182029247283936
    },
    {
      "auxiliary_loss_clip": 0.01101994,
      "auxiliary_loss_mlp": 0.01017604,
      "balance_loss_clip": 1.04257512,
      "balance_loss_mlp": 1.0123316,
      "epoch": 0.5487885528768112,
      "flos": 23151644328960.0,
      "grad_norm": 6.343944710430604,
      "language_loss": 0.80436128,
      "learning_rate": 1.7815456966388513e-06,
      "loss": 0.82555729,
      "num_input_tokens_seen": 98428465,
      "step": 4564,
      "time_per_iteration": 2.5378055572509766
    },
    {
      "auxiliary_loss_clip": 0.01063049,
      "auxiliary_loss_mlp": 0.01025485,
      "balance_loss_clip": 1.03982282,
      "balance_loss_mlp": 1.02003157,
      "epoch": 0.5489087957674502,
      "flos": 22056079052160.0,
      "grad_norm": 2.1357426062342553,
      "language_loss": 0.80977291,
      "learning_rate": 1.780771402311943e-06,
      "loss": 0.83065826,
      "num_input_tokens_seen": 98447300,
      "step": 4565,
      "time_per_iteration": 2.6214759349823
    },
    {
      "auxiliary_loss_clip": 0.01068928,
      "auxiliary_loss_mlp": 0.01021148,
      "balance_loss_clip": 1.03726816,
      "balance_loss_mlp": 1.01559854,
      "epoch": 0.5490290386580894,
      "flos": 24318250272000.0,
      "grad_norm": 1.929447564585644,
      "language_loss": 0.78844285,
      "learning_rate": 1.7799971412418374e-06,
      "loss": 0.80934358,
      "num_input_tokens_seen": 98468695,
      "step": 4566,
      "time_per_iteration": 2.6112148761749268
    },
    {
      "auxiliary_loss_clip": 0.01064943,
      "auxiliary_loss_mlp": 0.01020238,
      "balance_loss_clip": 1.04076123,
      "balance_loss_mlp": 1.01489127,
      "epoch": 0.5491492815487284,
      "flos": 18296831197440.0,
      "grad_norm": 2.7443136216696438,
      "language_loss": 0.74008536,
      "learning_rate": 1.7792229135459918e-06,
      "loss": 0.76093715,
      "num_input_tokens_seen": 98485345,
      "step": 4567,
      "time_per_iteration": 3.346250057220459
    },
    {
      "auxiliary_loss_clip": 0.01022859,
      "auxiliary_loss_mlp": 0.01005023,
      "balance_loss_clip": 1.04546261,
      "balance_loss_mlp": 1.00304461,
      "epoch": 0.5492695244393675,
      "flos": 64556276503680.0,
      "grad_norm": 0.7313349439829543,
      "language_loss": 0.61503422,
      "learning_rate": 1.7784487193418538e-06,
      "loss": 0.63531303,
      "num_input_tokens_seen": 98543195,
      "step": 4568,
      "time_per_iteration": 3.3465423583984375
    },
    {
      "auxiliary_loss_clip": 0.01067247,
      "auxiliary_loss_mlp": 0.01020594,
      "balance_loss_clip": 1.03910148,
      "balance_loss_mlp": 1.01475596,
      "epoch": 0.5493897673300067,
      "flos": 17381237466240.0,
      "grad_norm": 3.4426901049379968,
      "language_loss": 0.61233234,
      "learning_rate": 1.7776745587468698e-06,
      "loss": 0.63321078,
      "num_input_tokens_seen": 98560620,
      "step": 4569,
      "time_per_iteration": 2.835498094558716
    },
    {
      "auxiliary_loss_clip": 0.01101611,
      "auxiliary_loss_mlp": 0.0102346,
      "balance_loss_clip": 1.04238868,
      "balance_loss_mlp": 1.01803255,
      "epoch": 0.5495100102206457,
      "flos": 19903824581760.0,
      "grad_norm": 2.285987176720689,
      "language_loss": 0.8145144,
      "learning_rate": 1.7769004318784776e-06,
      "loss": 0.83576506,
      "num_input_tokens_seen": 98578265,
      "step": 4570,
      "time_per_iteration": 2.5315983295440674
    },
    {
      "auxiliary_loss_clip": 0.01087724,
      "auxiliary_loss_mlp": 0.01016478,
      "balance_loss_clip": 1.0399493,
      "balance_loss_mlp": 1.01122689,
      "epoch": 0.5496302531112848,
      "flos": 16729055159040.0,
      "grad_norm": 2.7779892129173542,
      "language_loss": 0.80723369,
      "learning_rate": 1.776126338854113e-06,
      "loss": 0.8282758,
      "num_input_tokens_seen": 98596055,
      "step": 4571,
      "time_per_iteration": 2.498518705368042
    },
    {
      "auxiliary_loss_clip": 0.01083825,
      "auxiliary_loss_mlp": 0.01018238,
      "balance_loss_clip": 1.04265666,
      "balance_loss_mlp": 1.01314735,
      "epoch": 0.5497504960019239,
      "flos": 24574684769280.0,
      "grad_norm": 1.7634585705873018,
      "language_loss": 0.84760493,
      "learning_rate": 1.7753522797912044e-06,
      "loss": 0.86862558,
      "num_input_tokens_seen": 98616140,
      "step": 4572,
      "time_per_iteration": 2.6103134155273438
    },
    {
      "auxiliary_loss_clip": 0.01079272,
      "auxiliary_loss_mlp": 0.01015888,
      "balance_loss_clip": 1.03988051,
      "balance_loss_mlp": 1.01043463,
      "epoch": 0.549870738892563,
      "flos": 15452304958080.0,
      "grad_norm": 3.0726419337374096,
      "language_loss": 0.69954908,
      "learning_rate": 1.7745782548071765e-06,
      "loss": 0.72050065,
      "num_input_tokens_seen": 98633035,
      "step": 4573,
      "time_per_iteration": 2.553194999694824
    },
    {
      "auxiliary_loss_clip": 0.01054994,
      "auxiliary_loss_mlp": 0.01023484,
      "balance_loss_clip": 1.03974009,
      "balance_loss_mlp": 1.01823258,
      "epoch": 0.549990981783202,
      "flos": 21071226804480.0,
      "grad_norm": 1.6667662514000048,
      "language_loss": 0.74387825,
      "learning_rate": 1.7738042640194482e-06,
      "loss": 0.76466304,
      "num_input_tokens_seen": 98652700,
      "step": 4574,
      "time_per_iteration": 2.600707769393921
    },
    {
      "auxiliary_loss_clip": 0.01102465,
      "auxiliary_loss_mlp": 0.01018761,
      "balance_loss_clip": 1.04349625,
      "balance_loss_mlp": 1.01319408,
      "epoch": 0.5501112246738411,
      "flos": 21397943606400.0,
      "grad_norm": 2.053273961809616,
      "language_loss": 0.70742065,
      "learning_rate": 1.7730303075454335e-06,
      "loss": 0.72863293,
      "num_input_tokens_seen": 98671590,
      "step": 4575,
      "time_per_iteration": 2.5245542526245117
    },
    {
      "auxiliary_loss_clip": 0.01064703,
      "auxiliary_loss_mlp": 0.01021075,
      "balance_loss_clip": 1.03892422,
      "balance_loss_mlp": 1.01518881,
      "epoch": 0.5502314675644803,
      "flos": 17458837960320.0,
      "grad_norm": 3.53174581813507,
      "language_loss": 0.84922624,
      "learning_rate": 1.7722563855025402e-06,
      "loss": 0.87008405,
      "num_input_tokens_seen": 98689620,
      "step": 4576,
      "time_per_iteration": 2.595731258392334
    },
    {
      "auxiliary_loss_clip": 0.01081215,
      "auxiliary_loss_mlp": 0.01018768,
      "balance_loss_clip": 1.04132235,
      "balance_loss_mlp": 1.01330864,
      "epoch": 0.5503517104551193,
      "flos": 24312372969600.0,
      "grad_norm": 2.171982465180392,
      "language_loss": 0.70734167,
      "learning_rate": 1.7714824980081721e-06,
      "loss": 0.72834146,
      "num_input_tokens_seen": 98708915,
      "step": 4577,
      "time_per_iteration": 2.625811815261841
    },
    {
      "auxiliary_loss_clip": 0.01087755,
      "auxiliary_loss_mlp": 0.01019506,
      "balance_loss_clip": 1.04289389,
      "balance_loss_mlp": 1.01445711,
      "epoch": 0.5504719533457584,
      "flos": 22421634019200.0,
      "grad_norm": 1.8371556345334081,
      "language_loss": 0.7394796,
      "learning_rate": 1.7707086451797276e-06,
      "loss": 0.76055217,
      "num_input_tokens_seen": 98729790,
      "step": 4578,
      "time_per_iteration": 2.557182788848877
    },
    {
      "auxiliary_loss_clip": 0.01026491,
      "auxiliary_loss_mlp": 0.01001778,
      "balance_loss_clip": 1.02754486,
      "balance_loss_mlp": 0.99987048,
      "epoch": 0.5505921962363975,
      "flos": 67300744694400.0,
      "grad_norm": 0.7138510860322518,
      "language_loss": 0.52317822,
      "learning_rate": 1.7699348271345993e-06,
      "loss": 0.54346091,
      "num_input_tokens_seen": 98792415,
      "step": 4579,
      "time_per_iteration": 3.1364965438842773
    },
    {
      "auxiliary_loss_clip": 0.01019157,
      "auxiliary_loss_mlp": 0.01002928,
      "balance_loss_clip": 1.02839398,
      "balance_loss_mlp": 1.00099707,
      "epoch": 0.5507124391270366,
      "flos": 45689982433920.0,
      "grad_norm": 0.7037226006545704,
      "language_loss": 0.54346907,
      "learning_rate": 1.7691610439901753e-06,
      "loss": 0.56368995,
      "num_input_tokens_seen": 98855350,
      "step": 4580,
      "time_per_iteration": 3.266072988510132
    },
    {
      "auxiliary_loss_clip": 0.01089441,
      "auxiliary_loss_mlp": 0.01020961,
      "balance_loss_clip": 1.04064441,
      "balance_loss_mlp": 1.01584339,
      "epoch": 0.5508326820176757,
      "flos": 22276064223360.0,
      "grad_norm": 1.9175542713780944,
      "language_loss": 0.75431383,
      "learning_rate": 1.7683872958638367e-06,
      "loss": 0.77541786,
      "num_input_tokens_seen": 98874230,
      "step": 4581,
      "time_per_iteration": 2.5802998542785645
    },
    {
      "auxiliary_loss_clip": 0.0107584,
      "auxiliary_loss_mlp": 0.01019559,
      "balance_loss_clip": 1.03835356,
      "balance_loss_mlp": 1.01433742,
      "epoch": 0.5509529249083148,
      "flos": 20014575528960.0,
      "grad_norm": 2.2167694437818444,
      "language_loss": 0.8476854,
      "learning_rate": 1.7676135828729614e-06,
      "loss": 0.86863941,
      "num_input_tokens_seen": 98893940,
      "step": 4582,
      "time_per_iteration": 2.576808452606201
    },
    {
      "auxiliary_loss_clip": 0.01087959,
      "auxiliary_loss_mlp": 0.01020303,
      "balance_loss_clip": 1.04122567,
      "balance_loss_mlp": 1.01493526,
      "epoch": 0.5510731677989539,
      "flos": 21836928078720.0,
      "grad_norm": 3.304236114532546,
      "language_loss": 0.8280586,
      "learning_rate": 1.7668399051349205e-06,
      "loss": 0.84914124,
      "num_input_tokens_seen": 98913620,
      "step": 4583,
      "time_per_iteration": 3.3224518299102783
    },
    {
      "auxiliary_loss_clip": 0.01058863,
      "auxiliary_loss_mlp": 0.01018771,
      "balance_loss_clip": 1.03661835,
      "balance_loss_mlp": 1.01355541,
      "epoch": 0.5511934106895929,
      "flos": 21469894306560.0,
      "grad_norm": 2.637386590917162,
      "language_loss": 0.83224666,
      "learning_rate": 1.766066262767081e-06,
      "loss": 0.85302305,
      "num_input_tokens_seen": 98931460,
      "step": 4584,
      "time_per_iteration": 2.6278207302093506
    },
    {
      "auxiliary_loss_clip": 0.0107519,
      "auxiliary_loss_mlp": 0.01020279,
      "balance_loss_clip": 1.04177499,
      "balance_loss_mlp": 1.01493812,
      "epoch": 0.5513136535802321,
      "flos": 21071037214080.0,
      "grad_norm": 2.701677035769614,
      "language_loss": 0.77118719,
      "learning_rate": 1.765292655886803e-06,
      "loss": 0.79214185,
      "num_input_tokens_seen": 98950105,
      "step": 4585,
      "time_per_iteration": 2.5593531131744385
    },
    {
      "auxiliary_loss_clip": 0.01065977,
      "auxiliary_loss_mlp": 0.01019282,
      "balance_loss_clip": 1.03881812,
      "balance_loss_mlp": 1.01386058,
      "epoch": 0.5514338964708712,
      "flos": 27817271821440.0,
      "grad_norm": 2.186180282846947,
      "language_loss": 0.71122539,
      "learning_rate": 1.764519084611443e-06,
      "loss": 0.73207796,
      "num_input_tokens_seen": 98970560,
      "step": 4586,
      "time_per_iteration": 3.4472620487213135
    },
    {
      "auxiliary_loss_clip": 0.01078801,
      "auxiliary_loss_mlp": 0.01019746,
      "balance_loss_clip": 1.04096031,
      "balance_loss_mlp": 1.01380336,
      "epoch": 0.5515541393615102,
      "flos": 21910698846720.0,
      "grad_norm": 2.523903385960527,
      "language_loss": 0.77526212,
      "learning_rate": 1.7637455490583505e-06,
      "loss": 0.79624754,
      "num_input_tokens_seen": 98989885,
      "step": 4587,
      "time_per_iteration": 3.2892093658447266
    },
    {
      "auxiliary_loss_clip": 0.01087226,
      "auxiliary_loss_mlp": 0.01019706,
      "balance_loss_clip": 1.04030347,
      "balance_loss_mlp": 1.01468396,
      "epoch": 0.5516743822521494,
      "flos": 20487506734080.0,
      "grad_norm": 6.9623697480904445,
      "language_loss": 0.77210665,
      "learning_rate": 1.7629720493448701e-06,
      "loss": 0.79317594,
      "num_input_tokens_seen": 99007180,
      "step": 4588,
      "time_per_iteration": 2.5564472675323486
    },
    {
      "auxiliary_loss_clip": 0.01080051,
      "auxiliary_loss_mlp": 0.01020441,
      "balance_loss_clip": 1.04107749,
      "balance_loss_mlp": 1.01516938,
      "epoch": 0.5517946251427884,
      "flos": 14942203983360.0,
      "grad_norm": 1.7923533857500524,
      "language_loss": 0.85203022,
      "learning_rate": 1.7621985855883418e-06,
      "loss": 0.87303507,
      "num_input_tokens_seen": 99023880,
      "step": 4589,
      "time_per_iteration": 2.573387861251831
    },
    {
      "auxiliary_loss_clip": 0.01065732,
      "auxiliary_loss_mlp": 0.01020902,
      "balance_loss_clip": 1.0342387,
      "balance_loss_mlp": 1.01561546,
      "epoch": 0.5519148680334275,
      "flos": 18406785864960.0,
      "grad_norm": 1.8090134344250923,
      "language_loss": 0.72751868,
      "learning_rate": 1.7614251579060983e-06,
      "loss": 0.74838507,
      "num_input_tokens_seen": 99042475,
      "step": 4590,
      "time_per_iteration": 2.616239547729492
    },
    {
      "auxiliary_loss_clip": 0.01059953,
      "auxiliary_loss_mlp": 0.01018486,
      "balance_loss_clip": 1.03839397,
      "balance_loss_mlp": 1.01272845,
      "epoch": 0.5520351109240667,
      "flos": 25115357767680.0,
      "grad_norm": 2.3402650750736345,
      "language_loss": 0.84945738,
      "learning_rate": 1.76065176641547e-06,
      "loss": 0.87024176,
      "num_input_tokens_seen": 99065185,
      "step": 4591,
      "time_per_iteration": 2.677046775817871
    },
    {
      "auxiliary_loss_clip": 0.01086944,
      "auxiliary_loss_mlp": 0.01017666,
      "balance_loss_clip": 1.03834081,
      "balance_loss_mlp": 1.01220322,
      "epoch": 0.5521553538147057,
      "flos": 21071681821440.0,
      "grad_norm": 1.682206992168825,
      "language_loss": 0.77678263,
      "learning_rate": 1.759878411233777e-06,
      "loss": 0.79782867,
      "num_input_tokens_seen": 99083645,
      "step": 4592,
      "time_per_iteration": 3.3285508155822754
    },
    {
      "auxiliary_loss_clip": 0.01087449,
      "auxiliary_loss_mlp": 0.0101881,
      "balance_loss_clip": 1.04050863,
      "balance_loss_mlp": 1.01323366,
      "epoch": 0.5522755967053448,
      "flos": 18881992154880.0,
      "grad_norm": 2.9987727632502827,
      "language_loss": 0.75923252,
      "learning_rate": 1.7591050924783388e-06,
      "loss": 0.78029513,
      "num_input_tokens_seen": 99100835,
      "step": 4593,
      "time_per_iteration": 2.5495824813842773
    },
    {
      "auxiliary_loss_clip": 0.01015336,
      "auxiliary_loss_mlp": 0.01002695,
      "balance_loss_clip": 1.02676392,
      "balance_loss_mlp": 1.00069225,
      "epoch": 0.5523958395959839,
      "flos": 64682535945600.0,
      "grad_norm": 0.8394695302826868,
      "language_loss": 0.57883132,
      "learning_rate": 1.7583318102664661e-06,
      "loss": 0.59901166,
      "num_input_tokens_seen": 99168400,
      "step": 4594,
      "time_per_iteration": 3.361759901046753
    },
    {
      "auxiliary_loss_clip": 0.01088468,
      "auxiliary_loss_mlp": 0.01020371,
      "balance_loss_clip": 1.03910875,
      "balance_loss_mlp": 1.01491165,
      "epoch": 0.552516082486623,
      "flos": 10891285683840.0,
      "grad_norm": 1.9980911305474451,
      "language_loss": 0.79119718,
      "learning_rate": 1.757558564715466e-06,
      "loss": 0.81228554,
      "num_input_tokens_seen": 99186475,
      "step": 4595,
      "time_per_iteration": 2.974728584289551
    },
    {
      "auxiliary_loss_clip": 0.01088689,
      "auxiliary_loss_mlp": 0.0102077,
      "balance_loss_clip": 1.04118991,
      "balance_loss_mlp": 1.0149374,
      "epoch": 0.552636325377262,
      "flos": 22201952192640.0,
      "grad_norm": 3.0107237790014287,
      "language_loss": 0.74140006,
      "learning_rate": 1.7567853559426386e-06,
      "loss": 0.76249462,
      "num_input_tokens_seen": 99203525,
      "step": 4596,
      "time_per_iteration": 2.551722526550293
    },
    {
      "auxiliary_loss_clip": 0.01090265,
      "auxiliary_loss_mlp": 0.01021809,
      "balance_loss_clip": 1.0408597,
      "balance_loss_mlp": 1.01653063,
      "epoch": 0.5527565682679012,
      "flos": 23990471763840.0,
      "grad_norm": 2.0817666013436336,
      "language_loss": 0.75240982,
      "learning_rate": 1.7560121840652797e-06,
      "loss": 0.7735306,
      "num_input_tokens_seen": 99222910,
      "step": 4597,
      "time_per_iteration": 2.5767147541046143
    },
    {
      "auxiliary_loss_clip": 0.01062123,
      "auxiliary_loss_mlp": 0.01018565,
      "balance_loss_clip": 1.03891039,
      "balance_loss_mlp": 1.01277125,
      "epoch": 0.5528768111585403,
      "flos": 19721312524800.0,
      "grad_norm": 2.055367857039999,
      "language_loss": 0.69096786,
      "learning_rate": 1.7552390492006782e-06,
      "loss": 0.71177471,
      "num_input_tokens_seen": 99241230,
      "step": 4598,
      "time_per_iteration": 2.6140806674957275
    },
    {
      "auxiliary_loss_clip": 0.01055469,
      "auxiliary_loss_mlp": 0.00756659,
      "balance_loss_clip": 1.0387125,
      "balance_loss_mlp": 1.00184798,
      "epoch": 0.5529970540491793,
      "flos": 26218506660480.0,
      "grad_norm": 1.6346183264434238,
      "language_loss": 0.65035367,
      "learning_rate": 1.7544659514661184e-06,
      "loss": 0.66847497,
      "num_input_tokens_seen": 99264320,
      "step": 4599,
      "time_per_iteration": 2.711480140686035
    },
    {
      "auxiliary_loss_clip": 0.01079489,
      "auxiliary_loss_mlp": 0.01019855,
      "balance_loss_clip": 1.03950167,
      "balance_loss_mlp": 1.01468754,
      "epoch": 0.5531172969398185,
      "flos": 24428280775680.0,
      "grad_norm": 2.1529660905273857,
      "language_loss": 0.79917812,
      "learning_rate": 1.7536928909788786e-06,
      "loss": 0.82017159,
      "num_input_tokens_seen": 99283625,
      "step": 4600,
      "time_per_iteration": 2.6428582668304443
    },
    {
      "auxiliary_loss_clip": 0.01016615,
      "auxiliary_loss_mlp": 0.0100403,
      "balance_loss_clip": 1.02990532,
      "balance_loss_mlp": 1.00199175,
      "epoch": 0.5532375398304575,
      "flos": 64912920721920.0,
      "grad_norm": 0.8825036370397018,
      "language_loss": 0.6199044,
      "learning_rate": 1.752919867856231e-06,
      "loss": 0.64011085,
      "num_input_tokens_seen": 99335270,
      "step": 4601,
      "time_per_iteration": 3.0447254180908203
    },
    {
      "auxiliary_loss_clip": 0.01074713,
      "auxiliary_loss_mlp": 0.01018615,
      "balance_loss_clip": 1.0377394,
      "balance_loss_mlp": 1.01332188,
      "epoch": 0.5533577827210966,
      "flos": 19685166543360.0,
      "grad_norm": 1.6742731747209663,
      "language_loss": 0.78990662,
      "learning_rate": 1.7521468822154436e-06,
      "loss": 0.81083989,
      "num_input_tokens_seen": 99354185,
      "step": 4602,
      "time_per_iteration": 2.6000752449035645
    },
    {
      "auxiliary_loss_clip": 0.01065983,
      "auxiliary_loss_mlp": 0.01019965,
      "balance_loss_clip": 1.03522491,
      "balance_loss_mlp": 1.01519656,
      "epoch": 0.5534780256117358,
      "flos": 32309222169600.0,
      "grad_norm": 1.7670203429409808,
      "language_loss": 0.75001669,
      "learning_rate": 1.751373934173777e-06,
      "loss": 0.77087617,
      "num_input_tokens_seen": 99376930,
      "step": 4603,
      "time_per_iteration": 2.65371036529541
    },
    {
      "auxiliary_loss_clip": 0.01099895,
      "auxiliary_loss_mlp": 0.0102009,
      "balance_loss_clip": 1.03970742,
      "balance_loss_mlp": 1.01463318,
      "epoch": 0.5535982685023748,
      "flos": 23224694653440.0,
      "grad_norm": 1.643904560134472,
      "language_loss": 0.731143,
      "learning_rate": 1.750601023848487e-06,
      "loss": 0.75234282,
      "num_input_tokens_seen": 99397655,
      "step": 4604,
      "time_per_iteration": 2.5930895805358887
    },
    {
      "auxiliary_loss_clip": 0.01100631,
      "auxiliary_loss_mlp": 0.00756715,
      "balance_loss_clip": 1.04260397,
      "balance_loss_mlp": 1.00186205,
      "epoch": 0.5537185113930139,
      "flos": 24354813352320.0,
      "grad_norm": 2.0658306969200444,
      "language_loss": 0.73840547,
      "learning_rate": 1.749828151356823e-06,
      "loss": 0.75697887,
      "num_input_tokens_seen": 99417850,
      "step": 4605,
      "time_per_iteration": 2.5350375175476074
    },
    {
      "auxiliary_loss_clip": 0.01074795,
      "auxiliary_loss_mlp": 0.01025019,
      "balance_loss_clip": 1.0384655,
      "balance_loss_mlp": 1.01985097,
      "epoch": 0.553838754283653,
      "flos": 23551259783040.0,
      "grad_norm": 1.8787042725583323,
      "language_loss": 0.75460178,
      "learning_rate": 1.7490553168160297e-06,
      "loss": 0.77559996,
      "num_input_tokens_seen": 99438920,
      "step": 4606,
      "time_per_iteration": 2.70241379737854
    },
    {
      "auxiliary_loss_clip": 0.01066035,
      "auxiliary_loss_mlp": 0.01018653,
      "balance_loss_clip": 1.03332925,
      "balance_loss_mlp": 1.01285982,
      "epoch": 0.5539589971742921,
      "flos": 17276970510720.0,
      "grad_norm": 2.4862060719162837,
      "language_loss": 0.7670064,
      "learning_rate": 1.748282520343345e-06,
      "loss": 0.78785336,
      "num_input_tokens_seen": 99457950,
      "step": 4607,
      "time_per_iteration": 2.534048080444336
    },
    {
      "auxiliary_loss_clip": 0.0109186,
      "auxiliary_loss_mlp": 0.01019678,
      "balance_loss_clip": 1.04183769,
      "balance_loss_mlp": 1.01405478,
      "epoch": 0.5540792400649311,
      "flos": 27566676708480.0,
      "grad_norm": 2.4611055212515263,
      "language_loss": 0.78690147,
      "learning_rate": 1.7475097620560023e-06,
      "loss": 0.8080169,
      "num_input_tokens_seen": 99478015,
      "step": 4608,
      "time_per_iteration": 2.6073973178863525
    },
    {
      "auxiliary_loss_clip": 0.01100734,
      "auxiliary_loss_mlp": 0.01020625,
      "balance_loss_clip": 1.04155743,
      "balance_loss_mlp": 1.01528728,
      "epoch": 0.5541994829555702,
      "flos": 23880934195200.0,
      "grad_norm": 1.6678605949239074,
      "language_loss": 0.7110554,
      "learning_rate": 1.746737042071228e-06,
      "loss": 0.73226905,
      "num_input_tokens_seen": 99496520,
      "step": 4609,
      "time_per_iteration": 3.328962802886963
    },
    {
      "auxiliary_loss_clip": 0.01071975,
      "auxiliary_loss_mlp": 0.01020906,
      "balance_loss_clip": 1.03767812,
      "balance_loss_mlp": 1.01530862,
      "epoch": 0.5543197258462094,
      "flos": 20117515351680.0,
      "grad_norm": 1.9832106149720645,
      "language_loss": 0.79187971,
      "learning_rate": 1.7459643605062424e-06,
      "loss": 0.81280851,
      "num_input_tokens_seen": 99513780,
      "step": 4610,
      "time_per_iteration": 2.5504589080810547
    },
    {
      "auxiliary_loss_clip": 0.01040029,
      "auxiliary_loss_mlp": 0.01018978,
      "balance_loss_clip": 1.03092432,
      "balance_loss_mlp": 1.01336348,
      "epoch": 0.5544399687368484,
      "flos": 20918300901120.0,
      "grad_norm": 1.5169935090053157,
      "language_loss": 0.80615664,
      "learning_rate": 1.745191717478262e-06,
      "loss": 0.82674676,
      "num_input_tokens_seen": 99532360,
      "step": 4611,
      "time_per_iteration": 2.648381471633911
    },
    {
      "auxiliary_loss_clip": 0.01071233,
      "auxiliary_loss_mlp": 0.01023457,
      "balance_loss_clip": 1.04111123,
      "balance_loss_mlp": 1.01813126,
      "epoch": 0.5545602116274875,
      "flos": 25520926360320.0,
      "grad_norm": 1.7282553013791127,
      "language_loss": 0.79354978,
      "learning_rate": 1.7444191131044948e-06,
      "loss": 0.81449664,
      "num_input_tokens_seen": 99552635,
      "step": 4612,
      "time_per_iteration": 4.067751169204712
    },
    {
      "auxiliary_loss_clip": 0.01072195,
      "auxiliary_loss_mlp": 0.01022408,
      "balance_loss_clip": 1.03783035,
      "balance_loss_mlp": 1.01656365,
      "epoch": 0.5546804545181266,
      "flos": 20997645626880.0,
      "grad_norm": 2.4450058920882185,
      "language_loss": 0.73041928,
      "learning_rate": 1.7436465475021456e-06,
      "loss": 0.75136524,
      "num_input_tokens_seen": 99572685,
      "step": 4613,
      "time_per_iteration": 2.558690309524536
    },
    {
      "auxiliary_loss_clip": 0.01061703,
      "auxiliary_loss_mlp": 0.010177,
      "balance_loss_clip": 1.03846526,
      "balance_loss_mlp": 1.01203144,
      "epoch": 0.5548006974087657,
      "flos": 26836059709440.0,
      "grad_norm": 1.9556970125982431,
      "language_loss": 0.71371865,
      "learning_rate": 1.7428740207884111e-06,
      "loss": 0.73451269,
      "num_input_tokens_seen": 99593565,
      "step": 4614,
      "time_per_iteration": 2.613537311553955
    },
    {
      "auxiliary_loss_clip": 0.01036966,
      "auxiliary_loss_mlp": 0.01019836,
      "balance_loss_clip": 1.03297591,
      "balance_loss_mlp": 1.01433778,
      "epoch": 0.5549209402994048,
      "flos": 33659212285440.0,
      "grad_norm": 1.845502521717604,
      "language_loss": 0.61110759,
      "learning_rate": 1.7421015330804833e-06,
      "loss": 0.63167566,
      "num_input_tokens_seen": 99613485,
      "step": 4615,
      "time_per_iteration": 2.746969699859619
    },
    {
      "auxiliary_loss_clip": 0.01102282,
      "auxiliary_loss_mlp": 0.01023081,
      "balance_loss_clip": 1.04276061,
      "balance_loss_mlp": 1.01768422,
      "epoch": 0.5550411831900439,
      "flos": 23771813725440.0,
      "grad_norm": 1.9529510438772775,
      "language_loss": 0.72320002,
      "learning_rate": 1.7413290844955475e-06,
      "loss": 0.74445367,
      "num_input_tokens_seen": 99633515,
      "step": 4616,
      "time_per_iteration": 2.5391440391540527
    },
    {
      "auxiliary_loss_clip": 0.01092141,
      "auxiliary_loss_mlp": 0.01023518,
      "balance_loss_clip": 1.04386401,
      "balance_loss_mlp": 1.01790071,
      "epoch": 0.555161426080683,
      "flos": 21653240561280.0,
      "grad_norm": 1.9080098550633955,
      "language_loss": 0.78450364,
      "learning_rate": 1.7405566751507843e-06,
      "loss": 0.80566025,
      "num_input_tokens_seen": 99651560,
      "step": 4617,
      "time_per_iteration": 2.5420069694519043
    },
    {
      "auxiliary_loss_clip": 0.01062368,
      "auxiliary_loss_mlp": 0.010238,
      "balance_loss_clip": 1.03797984,
      "balance_loss_mlp": 1.01864696,
      "epoch": 0.555281668971322,
      "flos": 49566740705280.0,
      "grad_norm": 1.5379063049463977,
      "language_loss": 0.67704195,
      "learning_rate": 1.7397843051633668e-06,
      "loss": 0.69790363,
      "num_input_tokens_seen": 99674255,
      "step": 4618,
      "time_per_iteration": 3.6776394844055176
    },
    {
      "auxiliary_loss_clip": 0.01077412,
      "auxiliary_loss_mlp": 0.01019247,
      "balance_loss_clip": 1.03547335,
      "balance_loss_mlp": 1.01397204,
      "epoch": 0.5554019118619612,
      "flos": 20743751640960.0,
      "grad_norm": 1.9709942654635946,
      "language_loss": 0.71522152,
      "learning_rate": 1.739011974650464e-06,
      "loss": 0.73618811,
      "num_input_tokens_seen": 99693585,
      "step": 4619,
      "time_per_iteration": 2.5233407020568848
    },
    {
      "auxiliary_loss_clip": 0.01042448,
      "auxiliary_loss_mlp": 0.01024423,
      "balance_loss_clip": 1.03096318,
      "balance_loss_mlp": 1.01848888,
      "epoch": 0.5555221547526003,
      "flos": 25485538740480.0,
      "grad_norm": 2.0412496811933045,
      "language_loss": 0.76786852,
      "learning_rate": 1.7382396837292365e-06,
      "loss": 0.78853726,
      "num_input_tokens_seen": 99714045,
      "step": 4620,
      "time_per_iteration": 2.6890437602996826
    },
    {
      "auxiliary_loss_clip": 0.01101763,
      "auxiliary_loss_mlp": 0.01018621,
      "balance_loss_clip": 1.04272103,
      "balance_loss_mlp": 1.012941,
      "epoch": 0.5556423976432393,
      "flos": 21764674033920.0,
      "grad_norm": 1.891865925917528,
      "language_loss": 0.73941875,
      "learning_rate": 1.737467432516841e-06,
      "loss": 0.76062262,
      "num_input_tokens_seen": 99734145,
      "step": 4621,
      "time_per_iteration": 2.5009829998016357
    },
    {
      "auxiliary_loss_clip": 0.01081349,
      "auxiliary_loss_mlp": 0.01020873,
      "balance_loss_clip": 1.04167295,
      "balance_loss_mlp": 1.01545477,
      "epoch": 0.5557626405338785,
      "flos": 24902501195520.0,
      "grad_norm": 3.576397482515315,
      "language_loss": 0.74312049,
      "learning_rate": 1.7366952211304274e-06,
      "loss": 0.76414269,
      "num_input_tokens_seen": 99751990,
      "step": 4622,
      "time_per_iteration": 2.6294353008270264
    },
    {
      "auxiliary_loss_clip": 0.01076991,
      "auxiliary_loss_mlp": 0.01019037,
      "balance_loss_clip": 1.04148197,
      "balance_loss_mlp": 1.01370502,
      "epoch": 0.5558828834245175,
      "flos": 18699480097920.0,
      "grad_norm": 4.768182399052333,
      "language_loss": 0.83637226,
      "learning_rate": 1.735923049687139e-06,
      "loss": 0.85733259,
      "num_input_tokens_seen": 99768565,
      "step": 4623,
      "time_per_iteration": 2.5500335693359375
    },
    {
      "auxiliary_loss_clip": 0.01079972,
      "auxiliary_loss_mlp": 0.0101979,
      "balance_loss_clip": 1.04054952,
      "balance_loss_mlp": 1.01466703,
      "epoch": 0.5560031263151566,
      "flos": 27274665000960.0,
      "grad_norm": 1.7356240365395066,
      "language_loss": 0.74055231,
      "learning_rate": 1.7351509183041144e-06,
      "loss": 0.76154995,
      "num_input_tokens_seen": 99788895,
      "step": 4624,
      "time_per_iteration": 2.6830294132232666
    },
    {
      "auxiliary_loss_clip": 0.01101643,
      "auxiliary_loss_mlp": 0.01017258,
      "balance_loss_clip": 1.04167557,
      "balance_loss_mlp": 1.01191759,
      "epoch": 0.5561233692057957,
      "flos": 23405955413760.0,
      "grad_norm": 1.8377628117068154,
      "language_loss": 0.71864408,
      "learning_rate": 1.7343788270984852e-06,
      "loss": 0.73983306,
      "num_input_tokens_seen": 99808035,
      "step": 4625,
      "time_per_iteration": 2.5103113651275635
    },
    {
      "auxiliary_loss_clip": 0.01065542,
      "auxiliary_loss_mlp": 0.01019573,
      "balance_loss_clip": 1.0360862,
      "balance_loss_mlp": 1.01385713,
      "epoch": 0.5562436120964348,
      "flos": 37673946685440.0,
      "grad_norm": 1.9290047222072166,
      "language_loss": 0.74866509,
      "learning_rate": 1.7336067761873764e-06,
      "loss": 0.76951623,
      "num_input_tokens_seen": 99830460,
      "step": 4626,
      "time_per_iteration": 2.7335116863250732
    },
    {
      "auxiliary_loss_clip": 0.01090548,
      "auxiliary_loss_mlp": 0.01024337,
      "balance_loss_clip": 1.04067755,
      "balance_loss_mlp": 1.01854312,
      "epoch": 0.5563638549870739,
      "flos": 25157570641920.0,
      "grad_norm": 2.0870495620342076,
      "language_loss": 0.76349747,
      "learning_rate": 1.7328347656879076e-06,
      "loss": 0.78464627,
      "num_input_tokens_seen": 99850320,
      "step": 4627,
      "time_per_iteration": 2.548523426055908
    },
    {
      "auxiliary_loss_clip": 0.01071549,
      "auxiliary_loss_mlp": 0.01017594,
      "balance_loss_clip": 1.04158127,
      "balance_loss_mlp": 1.01177692,
      "epoch": 0.556484097877713,
      "flos": 13583075610240.0,
      "grad_norm": 2.594626975094464,
      "language_loss": 0.68563545,
      "learning_rate": 1.7320627957171927e-06,
      "loss": 0.70652688,
      "num_input_tokens_seen": 99864980,
      "step": 4628,
      "time_per_iteration": 2.5692713260650635
    },
    {
      "auxiliary_loss_clip": 0.01101994,
      "auxiliary_loss_mlp": 0.0102071,
      "balance_loss_clip": 1.04348183,
      "balance_loss_mlp": 1.01547098,
      "epoch": 0.5566043407683521,
      "flos": 24683691484800.0,
      "grad_norm": 2.0725838956603027,
      "language_loss": 0.81647718,
      "learning_rate": 1.7312908663923382e-06,
      "loss": 0.8377043,
      "num_input_tokens_seen": 99881155,
      "step": 4629,
      "time_per_iteration": 2.5106749534606934
    },
    {
      "auxiliary_loss_clip": 0.01091964,
      "auxiliary_loss_mlp": 0.01017433,
      "balance_loss_clip": 1.04282892,
      "balance_loss_mlp": 1.01171398,
      "epoch": 0.5567245836589911,
      "flos": 20589877785600.0,
      "grad_norm": 2.0286409394259866,
      "language_loss": 0.67281479,
      "learning_rate": 1.7305189778304463e-06,
      "loss": 0.69390881,
      "num_input_tokens_seen": 99899330,
      "step": 4630,
      "time_per_iteration": 2.54895281791687
    },
    {
      "auxiliary_loss_clip": 0.01071562,
      "auxiliary_loss_mlp": 0.01021321,
      "balance_loss_clip": 1.03812933,
      "balance_loss_mlp": 1.01564682,
      "epoch": 0.5568448265496303,
      "flos": 20706278526720.0,
      "grad_norm": 1.8783463804389464,
      "language_loss": 0.80080819,
      "learning_rate": 1.729747130148611e-06,
      "loss": 0.82173705,
      "num_input_tokens_seen": 99918525,
      "step": 4631,
      "time_per_iteration": 2.5482847690582275
    },
    {
      "auxiliary_loss_clip": 0.0106575,
      "auxiliary_loss_mlp": 0.01020394,
      "balance_loss_clip": 1.04087615,
      "balance_loss_mlp": 1.01440096,
      "epoch": 0.5569650694402694,
      "flos": 25305339686400.0,
      "grad_norm": 2.053143709668854,
      "language_loss": 0.77015162,
      "learning_rate": 1.7289753234639208e-06,
      "loss": 0.79101312,
      "num_input_tokens_seen": 99937500,
      "step": 4632,
      "time_per_iteration": 2.6613340377807617
    },
    {
      "auxiliary_loss_clip": 0.01091624,
      "auxiliary_loss_mlp": 0.01021591,
      "balance_loss_clip": 1.0426271,
      "balance_loss_mlp": 1.01572585,
      "epoch": 0.5570853123309084,
      "flos": 19714297680000.0,
      "grad_norm": 2.018119416702843,
      "language_loss": 0.76710552,
      "learning_rate": 1.7282035578934592e-06,
      "loss": 0.78823769,
      "num_input_tokens_seen": 99955665,
      "step": 4633,
      "time_per_iteration": 2.513298511505127
    },
    {
      "auxiliary_loss_clip": 0.010636,
      "auxiliary_loss_mlp": 0.01023999,
      "balance_loss_clip": 1.03618574,
      "balance_loss_mlp": 1.01868784,
      "epoch": 0.5572055552215476,
      "flos": 16109985386880.0,
      "grad_norm": 1.9617444104821926,
      "language_loss": 0.78813016,
      "learning_rate": 1.727431833554301e-06,
      "loss": 0.80900609,
      "num_input_tokens_seen": 99974140,
      "step": 4634,
      "time_per_iteration": 2.585500717163086
    },
    {
      "auxiliary_loss_clip": 0.01044715,
      "auxiliary_loss_mlp": 0.01018379,
      "balance_loss_clip": 1.04116237,
      "balance_loss_mlp": 1.01288629,
      "epoch": 0.5573257981121866,
      "flos": 17130718189440.0,
      "grad_norm": 2.1051866004438464,
      "language_loss": 0.77619696,
      "learning_rate": 1.7266601505635175e-06,
      "loss": 0.79682791,
      "num_input_tokens_seen": 99991480,
      "step": 4635,
      "time_per_iteration": 3.433518648147583
    },
    {
      "auxiliary_loss_clip": 0.01090039,
      "auxiliary_loss_mlp": 0.01019475,
      "balance_loss_clip": 1.04316258,
      "balance_loss_mlp": 1.0137713,
      "epoch": 0.5574460410028257,
      "flos": 18809017666560.0,
      "grad_norm": 3.5664413471500995,
      "language_loss": 0.75973403,
      "learning_rate": 1.7258885090381717e-06,
      "loss": 0.78082919,
      "num_input_tokens_seen": 100009520,
      "step": 4636,
      "time_per_iteration": 2.510775089263916
    },
    {
      "auxiliary_loss_clip": 0.0107664,
      "auxiliary_loss_mlp": 0.01022295,
      "balance_loss_clip": 1.04017842,
      "balance_loss_mlp": 1.01702619,
      "epoch": 0.5575662838934649,
      "flos": 29645236247040.0,
      "grad_norm": 1.8152377820434824,
      "language_loss": 0.78520417,
      "learning_rate": 1.7251169090953213e-06,
      "loss": 0.80619347,
      "num_input_tokens_seen": 100029995,
      "step": 4637,
      "time_per_iteration": 3.4104185104370117
    },
    {
      "auxiliary_loss_clip": 0.01087811,
      "auxiliary_loss_mlp": 0.01018558,
      "balance_loss_clip": 1.03998089,
      "balance_loss_mlp": 1.01302624,
      "epoch": 0.5576865267841039,
      "flos": 22056647823360.0,
      "grad_norm": 3.41503822068356,
      "language_loss": 0.76845998,
      "learning_rate": 1.7243453508520168e-06,
      "loss": 0.7895236,
      "num_input_tokens_seen": 100046980,
      "step": 4638,
      "time_per_iteration": 3.3234710693359375
    },
    {
      "auxiliary_loss_clip": 0.0107003,
      "auxiliary_loss_mlp": 0.01021876,
      "balance_loss_clip": 1.03640437,
      "balance_loss_mlp": 1.01632428,
      "epoch": 0.557806769674743,
      "flos": 17197625784960.0,
      "grad_norm": 2.3588665790513006,
      "language_loss": 0.84559965,
      "learning_rate": 1.7235738344253038e-06,
      "loss": 0.86651874,
      "num_input_tokens_seen": 100060610,
      "step": 4639,
      "time_per_iteration": 2.526780843734741
    },
    {
      "auxiliary_loss_clip": 0.01083721,
      "auxiliary_loss_mlp": 0.01021817,
      "balance_loss_clip": 1.04231572,
      "balance_loss_mlp": 1.01581502,
      "epoch": 0.557927012565382,
      "flos": 24714756443520.0,
      "grad_norm": 2.6654091007915377,
      "language_loss": 0.82794559,
      "learning_rate": 1.72280235993222e-06,
      "loss": 0.84900093,
      "num_input_tokens_seen": 100078915,
      "step": 4640,
      "time_per_iteration": 2.6064701080322266
    },
    {
      "auxiliary_loss_clip": 0.01080309,
      "auxiliary_loss_mlp": 0.0075699,
      "balance_loss_clip": 1.03817964,
      "balance_loss_mlp": 1.00191295,
      "epoch": 0.5580472554560212,
      "flos": 16984996721280.0,
      "grad_norm": 3.4936840464180947,
      "language_loss": 0.69954145,
      "learning_rate": 1.722030927489798e-06,
      "loss": 0.7179144,
      "num_input_tokens_seen": 100096195,
      "step": 4641,
      "time_per_iteration": 2.533496379852295
    },
    {
      "auxiliary_loss_clip": 0.01063912,
      "auxiliary_loss_mlp": 0.01019415,
      "balance_loss_clip": 1.04093218,
      "balance_loss_mlp": 1.01366067,
      "epoch": 0.5581674983466602,
      "flos": 23511094485120.0,
      "grad_norm": 1.6438547154171406,
      "language_loss": 0.74310005,
      "learning_rate": 1.7212595372150634e-06,
      "loss": 0.7639333,
      "num_input_tokens_seen": 100116175,
      "step": 4642,
      "time_per_iteration": 2.6630051136016846
    },
    {
      "auxiliary_loss_clip": 0.01106085,
      "auxiliary_loss_mlp": 0.0102003,
      "balance_loss_clip": 1.04687583,
      "balance_loss_mlp": 1.01480889,
      "epoch": 0.5582877412372993,
      "flos": 13481993773440.0,
      "grad_norm": 2.3115215164811693,
      "language_loss": 0.72665751,
      "learning_rate": 1.720488189225035e-06,
      "loss": 0.74791867,
      "num_input_tokens_seen": 100133875,
      "step": 4643,
      "time_per_iteration": 3.263152837753296
    },
    {
      "auxiliary_loss_clip": 0.01089647,
      "auxiliary_loss_mlp": 0.01019474,
      "balance_loss_clip": 1.04151249,
      "balance_loss_mlp": 1.01393676,
      "epoch": 0.5584079841279385,
      "flos": 21905504069760.0,
      "grad_norm": 2.130052793195487,
      "language_loss": 0.79342538,
      "learning_rate": 1.7197168836367265e-06,
      "loss": 0.8145166,
      "num_input_tokens_seen": 100150685,
      "step": 4644,
      "time_per_iteration": 2.600064516067505
    },
    {
      "auxiliary_loss_clip": 0.01087267,
      "auxiliary_loss_mlp": 0.00756763,
      "balance_loss_clip": 1.04113531,
      "balance_loss_mlp": 1.00180638,
      "epoch": 0.5585282270185775,
      "flos": 18845542828800.0,
      "grad_norm": 1.8419160722423191,
      "language_loss": 0.8177709,
      "learning_rate": 1.7189456205671433e-06,
      "loss": 0.8362112,
      "num_input_tokens_seen": 100169530,
      "step": 4645,
      "time_per_iteration": 2.559913158416748
    },
    {
      "auxiliary_loss_clip": 0.01090287,
      "auxiliary_loss_mlp": 0.01019257,
      "balance_loss_clip": 1.0436275,
      "balance_loss_mlp": 1.01379728,
      "epoch": 0.5586484699092166,
      "flos": 21870419794560.0,
      "grad_norm": 2.0900753121288234,
      "language_loss": 0.82362545,
      "learning_rate": 1.7181744001332866e-06,
      "loss": 0.84472084,
      "num_input_tokens_seen": 100188140,
      "step": 4646,
      "time_per_iteration": 2.613124132156372
    },
    {
      "auxiliary_loss_clip": 0.01102683,
      "auxiliary_loss_mlp": 0.01018416,
      "balance_loss_clip": 1.04513741,
      "balance_loss_mlp": 1.01316774,
      "epoch": 0.5587687127998557,
      "flos": 22895437340160.0,
      "grad_norm": 1.7841362468652233,
      "language_loss": 0.62869847,
      "learning_rate": 1.7174032224521493e-06,
      "loss": 0.64990938,
      "num_input_tokens_seen": 100206850,
      "step": 4647,
      "time_per_iteration": 2.496335983276367
    },
    {
      "auxiliary_loss_clip": 0.0108923,
      "auxiliary_loss_mlp": 0.01022767,
      "balance_loss_clip": 1.04176974,
      "balance_loss_mlp": 1.01756072,
      "epoch": 0.5588889556904948,
      "flos": 20305146349440.0,
      "grad_norm": 1.6779367186765013,
      "language_loss": 0.69841355,
      "learning_rate": 1.7166320876407184e-06,
      "loss": 0.71953356,
      "num_input_tokens_seen": 100226270,
      "step": 4648,
      "time_per_iteration": 2.6026430130004883
    },
    {
      "auxiliary_loss_clip": 0.01105332,
      "auxiliary_loss_mlp": 0.00756854,
      "balance_loss_clip": 1.04563785,
      "balance_loss_mlp": 1.00182962,
      "epoch": 0.5590091985811338,
      "flos": 16474023630720.0,
      "grad_norm": 2.1884737431427848,
      "language_loss": 0.67523378,
      "learning_rate": 1.7158609958159742e-06,
      "loss": 0.69385564,
      "num_input_tokens_seen": 100243675,
      "step": 4649,
      "time_per_iteration": 2.4784774780273438
    },
    {
      "auxiliary_loss_clip": 0.01040587,
      "auxiliary_loss_mlp": 0.01023179,
      "balance_loss_clip": 1.04183018,
      "balance_loss_mlp": 1.01780903,
      "epoch": 0.559129441471773,
      "flos": 14533601944320.0,
      "grad_norm": 1.9444889368329938,
      "language_loss": 0.78367615,
      "learning_rate": 1.7150899470948911e-06,
      "loss": 0.80431384,
      "num_input_tokens_seen": 100258940,
      "step": 4650,
      "time_per_iteration": 2.662745952606201
    },
    {
      "auxiliary_loss_clip": 0.01048005,
      "auxiliary_loss_mlp": 0.01007904,
      "balance_loss_clip": 1.04035378,
      "balance_loss_mlp": 1.00593722,
      "epoch": 0.5592496843624121,
      "flos": 60527957379840.0,
      "grad_norm": 0.803623600083065,
      "language_loss": 0.56647408,
      "learning_rate": 1.7143189415944365e-06,
      "loss": 0.58703315,
      "num_input_tokens_seen": 100323400,
      "step": 4651,
      "time_per_iteration": 3.267728328704834
    },
    {
      "auxiliary_loss_clip": 0.01086958,
      "auxiliary_loss_mlp": 0.01021631,
      "balance_loss_clip": 1.04121065,
      "balance_loss_mlp": 1.01581335,
      "epoch": 0.5593699272530511,
      "flos": 20888335566720.0,
      "grad_norm": 1.7613296893904753,
      "language_loss": 0.75955796,
      "learning_rate": 1.7135479794315714e-06,
      "loss": 0.78064388,
      "num_input_tokens_seen": 100340355,
      "step": 4652,
      "time_per_iteration": 2.5461013317108154
    },
    {
      "auxiliary_loss_clip": 0.01062374,
      "auxiliary_loss_mlp": 0.01017495,
      "balance_loss_clip": 1.03975677,
      "balance_loss_mlp": 1.01226807,
      "epoch": 0.5594901701436903,
      "flos": 12898425375360.0,
      "grad_norm": 2.1635375239263714,
      "language_loss": 0.79160142,
      "learning_rate": 1.7127770607232502e-06,
      "loss": 0.8124001,
      "num_input_tokens_seen": 100358900,
      "step": 4653,
      "time_per_iteration": 2.619553565979004
    },
    {
      "auxiliary_loss_clip": 0.01066543,
      "auxiliary_loss_mlp": 0.01018374,
      "balance_loss_clip": 1.03933263,
      "balance_loss_mlp": 1.01308751,
      "epoch": 0.5596104130343293,
      "flos": 23114322887040.0,
      "grad_norm": 2.0117179019682263,
      "language_loss": 0.80135876,
      "learning_rate": 1.7120061855864204e-06,
      "loss": 0.82220799,
      "num_input_tokens_seen": 100378910,
      "step": 4654,
      "time_per_iteration": 2.619680881500244
    },
    {
      "auxiliary_loss_clip": 0.01089525,
      "auxiliary_loss_mlp": 0.01024096,
      "balance_loss_clip": 1.04385591,
      "balance_loss_mlp": 1.01860666,
      "epoch": 0.5597306559249684,
      "flos": 25960176259200.0,
      "grad_norm": 1.8285868861851147,
      "language_loss": 0.71128464,
      "learning_rate": 1.7112353541380233e-06,
      "loss": 0.7324208,
      "num_input_tokens_seen": 100398770,
      "step": 4655,
      "time_per_iteration": 2.6029136180877686
    },
    {
      "auxiliary_loss_clip": 0.01080461,
      "auxiliary_loss_mlp": 0.01023941,
      "balance_loss_clip": 1.04327154,
      "balance_loss_mlp": 1.01791239,
      "epoch": 0.5598508988156076,
      "flos": 22494494753280.0,
      "grad_norm": 1.6938988425633859,
      "language_loss": 0.72154653,
      "learning_rate": 1.7104645664949931e-06,
      "loss": 0.74259061,
      "num_input_tokens_seen": 100421240,
      "step": 4656,
      "time_per_iteration": 2.60036301612854
    },
    {
      "auxiliary_loss_clip": 0.01078996,
      "auxiliary_loss_mlp": 0.01022203,
      "balance_loss_clip": 1.04100692,
      "balance_loss_mlp": 1.01654363,
      "epoch": 0.5599711417062466,
      "flos": 23114777904000.0,
      "grad_norm": 3.3394336759156804,
      "language_loss": 0.71250224,
      "learning_rate": 1.7096938227742584e-06,
      "loss": 0.73351419,
      "num_input_tokens_seen": 100442370,
      "step": 4657,
      "time_per_iteration": 2.6671037673950195
    },
    {
      "auxiliary_loss_clip": 0.01104938,
      "auxiliary_loss_mlp": 0.01023326,
      "balance_loss_clip": 1.04658818,
      "balance_loss_mlp": 1.01766086,
      "epoch": 0.5600913845968857,
      "flos": 22341151751040.0,
      "grad_norm": 1.85208853787943,
      "language_loss": 0.84199947,
      "learning_rate": 1.70892312309274e-06,
      "loss": 0.86328208,
      "num_input_tokens_seen": 100460260,
      "step": 4658,
      "time_per_iteration": 2.4875001907348633
    },
    {
      "auxiliary_loss_clip": 0.01083167,
      "auxiliary_loss_mlp": 0.01020519,
      "balance_loss_clip": 1.0419718,
      "balance_loss_mlp": 1.01499939,
      "epoch": 0.5602116274875248,
      "flos": 17635396878720.0,
      "grad_norm": 2.0426293331140255,
      "language_loss": 0.68387032,
      "learning_rate": 1.7081524675673523e-06,
      "loss": 0.70490718,
      "num_input_tokens_seen": 100475750,
      "step": 4659,
      "time_per_iteration": 2.5772716999053955
    },
    {
      "auxiliary_loss_clip": 0.01045819,
      "auxiliary_loss_mlp": 0.0100652,
      "balance_loss_clip": 1.03677058,
      "balance_loss_mlp": 1.00445795,
      "epoch": 0.5603318703781639,
      "flos": 70123382150400.0,
      "grad_norm": 0.785706927338036,
      "language_loss": 0.59595835,
      "learning_rate": 1.7073818563150026e-06,
      "loss": 0.61648166,
      "num_input_tokens_seen": 100537830,
      "step": 4660,
      "time_per_iteration": 3.2434027194976807
    },
    {
      "auxiliary_loss_clip": 0.01092706,
      "auxiliary_loss_mlp": 0.01019253,
      "balance_loss_clip": 1.04288089,
      "balance_loss_mlp": 1.01376057,
      "epoch": 0.560452113268803,
      "flos": 18547502146560.0,
      "grad_norm": 2.6740507581203965,
      "language_loss": 0.86668563,
      "learning_rate": 1.7066112894525935e-06,
      "loss": 0.88780522,
      "num_input_tokens_seen": 100555910,
      "step": 4661,
      "time_per_iteration": 3.344594955444336
    },
    {
      "auxiliary_loss_clip": 0.01079788,
      "auxiliary_loss_mlp": 0.01024364,
      "balance_loss_clip": 1.04241037,
      "balance_loss_mlp": 1.0187676,
      "epoch": 0.5605723561594421,
      "flos": 25266994456320.0,
      "grad_norm": 1.7914538342414574,
      "language_loss": 0.72874475,
      "learning_rate": 1.7058407670970177e-06,
      "loss": 0.74978632,
      "num_input_tokens_seen": 100577385,
      "step": 4662,
      "time_per_iteration": 2.6210315227508545
    },
    {
      "auxiliary_loss_clip": 0.01088195,
      "auxiliary_loss_mlp": 0.01021676,
      "balance_loss_clip": 1.04373848,
      "balance_loss_mlp": 1.01587343,
      "epoch": 0.5606925990500812,
      "flos": 20597044302720.0,
      "grad_norm": 1.6626429578087587,
      "language_loss": 0.6141696,
      "learning_rate": 1.7050702893651643e-06,
      "loss": 0.63526833,
      "num_input_tokens_seen": 100596965,
      "step": 4663,
      "time_per_iteration": 3.2875351905822754
    },
    {
      "auxiliary_loss_clip": 0.01088751,
      "auxiliary_loss_mlp": 0.01022342,
      "balance_loss_clip": 1.04243803,
      "balance_loss_mlp": 1.01659274,
      "epoch": 0.5608128419407202,
      "flos": 35008899056640.0,
      "grad_norm": 2.4659535400303403,
      "language_loss": 0.75566465,
      "learning_rate": 1.7042998563739134e-06,
      "loss": 0.77677554,
      "num_input_tokens_seen": 100615315,
      "step": 4664,
      "time_per_iteration": 3.5313193798065186
    },
    {
      "auxiliary_loss_clip": 0.01081858,
      "auxiliary_loss_mlp": 0.01024757,
      "balance_loss_clip": 1.04239845,
      "balance_loss_mlp": 1.01891553,
      "epoch": 0.5609330848313594,
      "flos": 24641857791360.0,
      "grad_norm": 2.894751924576725,
      "language_loss": 0.71746492,
      "learning_rate": 1.703529468240139e-06,
      "loss": 0.73853111,
      "num_input_tokens_seen": 100634185,
      "step": 4665,
      "time_per_iteration": 2.5907480716705322
    },
    {
      "auxiliary_loss_clip": 0.01067215,
      "auxiliary_loss_mlp": 0.01020515,
      "balance_loss_clip": 1.03733134,
      "balance_loss_mlp": 1.01491225,
      "epoch": 0.5610533277219985,
      "flos": 18764453871360.0,
      "grad_norm": 2.058645556138878,
      "language_loss": 0.73805898,
      "learning_rate": 1.7027591250807088e-06,
      "loss": 0.75893629,
      "num_input_tokens_seen": 100651360,
      "step": 4666,
      "time_per_iteration": 2.5581321716308594
    },
    {
      "auxiliary_loss_clip": 0.01106803,
      "auxiliary_loss_mlp": 0.0102181,
      "balance_loss_clip": 1.04700184,
      "balance_loss_mlp": 1.01626682,
      "epoch": 0.5611735706126375,
      "flos": 15014154683520.0,
      "grad_norm": 2.481209407350902,
      "language_loss": 0.84651852,
      "learning_rate": 1.7019888270124825e-06,
      "loss": 0.86780465,
      "num_input_tokens_seen": 100668525,
      "step": 4667,
      "time_per_iteration": 2.449418067932129
    },
    {
      "auxiliary_loss_clip": 0.01093687,
      "auxiliary_loss_mlp": 0.01024613,
      "balance_loss_clip": 1.04470372,
      "balance_loss_mlp": 1.01847124,
      "epoch": 0.5612938135032767,
      "flos": 16469814723840.0,
      "grad_norm": 4.324359309021573,
      "language_loss": 0.8207972,
      "learning_rate": 1.7012185741523147e-06,
      "loss": 0.84198022,
      "num_input_tokens_seen": 100684850,
      "step": 4668,
      "time_per_iteration": 2.530423402786255
    },
    {
      "auxiliary_loss_clip": 0.0110471,
      "auxiliary_loss_mlp": 0.01023984,
      "balance_loss_clip": 1.0461359,
      "balance_loss_mlp": 1.0184437,
      "epoch": 0.5614140563939157,
      "flos": 25668809159040.0,
      "grad_norm": 2.1178280089244645,
      "language_loss": 0.62865746,
      "learning_rate": 1.7004483666170514e-06,
      "loss": 0.64994437,
      "num_input_tokens_seen": 100705345,
      "step": 4669,
      "time_per_iteration": 2.5228841304779053
    },
    {
      "auxiliary_loss_clip": 0.01088305,
      "auxiliary_loss_mlp": 0.010208,
      "balance_loss_clip": 1.04181862,
      "balance_loss_mlp": 1.01551604,
      "epoch": 0.5615342992845548,
      "flos": 24719875384320.0,
      "grad_norm": 2.20461580154358,
      "language_loss": 0.80119705,
      "learning_rate": 1.699678204523533e-06,
      "loss": 0.82228816,
      "num_input_tokens_seen": 100725210,
      "step": 4670,
      "time_per_iteration": 3.3338820934295654
    },
    {
      "auxiliary_loss_clip": 0.01079647,
      "auxiliary_loss_mlp": 0.01023487,
      "balance_loss_clip": 1.04383647,
      "balance_loss_mlp": 1.0175209,
      "epoch": 0.5616545421751938,
      "flos": 22017999248640.0,
      "grad_norm": 2.6835949589364523,
      "language_loss": 0.68854702,
      "learning_rate": 1.6989080879885918e-06,
      "loss": 0.70957839,
      "num_input_tokens_seen": 100743070,
      "step": 4671,
      "time_per_iteration": 2.641749620437622
    },
    {
      "auxiliary_loss_clip": 0.01036942,
      "auxiliary_loss_mlp": 0.01001387,
      "balance_loss_clip": 1.03839087,
      "balance_loss_mlp": 0.99947947,
      "epoch": 0.561774785065833,
      "flos": 53766328032000.0,
      "grad_norm": 0.9089922299411276,
      "language_loss": 0.61035419,
      "learning_rate": 1.6981380171290544e-06,
      "loss": 0.63073754,
      "num_input_tokens_seen": 100804095,
      "step": 4672,
      "time_per_iteration": 3.1882901191711426
    },
    {
      "auxiliary_loss_clip": 0.01078049,
      "auxiliary_loss_mlp": 0.01020196,
      "balance_loss_clip": 1.0419234,
      "balance_loss_mlp": 1.01477456,
      "epoch": 0.5618950279564721,
      "flos": 19751732876160.0,
      "grad_norm": 2.100819279358526,
      "language_loss": 0.74352205,
      "learning_rate": 1.6973679920617396e-06,
      "loss": 0.76450455,
      "num_input_tokens_seen": 100821630,
      "step": 4673,
      "time_per_iteration": 2.5740413665771484
    },
    {
      "auxiliary_loss_clip": 0.01075509,
      "auxiliary_loss_mlp": 0.0101943,
      "balance_loss_clip": 1.04157305,
      "balance_loss_mlp": 1.01352918,
      "epoch": 0.5620152708471111,
      "flos": 16802484664320.0,
      "grad_norm": 2.0437755630391132,
      "language_loss": 0.85394573,
      "learning_rate": 1.6965980129034603e-06,
      "loss": 0.87489516,
      "num_input_tokens_seen": 100839015,
      "step": 4674,
      "time_per_iteration": 2.5234861373901367
    },
    {
      "auxiliary_loss_clip": 0.01077821,
      "auxiliary_loss_mlp": 0.01019305,
      "balance_loss_clip": 1.04353738,
      "balance_loss_mlp": 1.01392233,
      "epoch": 0.5621355137377503,
      "flos": 26800254990720.0,
      "grad_norm": 1.6552565990642674,
      "language_loss": 0.76710057,
      "learning_rate": 1.6958280797710209e-06,
      "loss": 0.78807181,
      "num_input_tokens_seen": 100860940,
      "step": 4675,
      "time_per_iteration": 2.64943265914917
    },
    {
      "auxiliary_loss_clip": 0.01046018,
      "auxiliary_loss_mlp": 0.01001641,
      "balance_loss_clip": 1.03768253,
      "balance_loss_mlp": 0.99971026,
      "epoch": 0.5622557566283893,
      "flos": 61213631402880.0,
      "grad_norm": 0.7177657206186469,
      "language_loss": 0.54680347,
      "learning_rate": 1.6950581927812198e-06,
      "loss": 0.56728005,
      "num_input_tokens_seen": 100920510,
      "step": 4676,
      "time_per_iteration": 3.032928466796875
    },
    {
      "auxiliary_loss_clip": 0.01090119,
      "auxiliary_loss_mlp": 0.01020269,
      "balance_loss_clip": 1.04271984,
      "balance_loss_mlp": 1.01469302,
      "epoch": 0.5623759995190284,
      "flos": 26470921841280.0,
      "grad_norm": 2.3510935105433277,
      "language_loss": 0.78726983,
      "learning_rate": 1.6942883520508486e-06,
      "loss": 0.80837369,
      "num_input_tokens_seen": 100939245,
      "step": 4677,
      "time_per_iteration": 2.612734794616699
    },
    {
      "auxiliary_loss_clip": 0.01090084,
      "auxiliary_loss_mlp": 0.01020821,
      "balance_loss_clip": 1.04574513,
      "balance_loss_mlp": 1.01510787,
      "epoch": 0.5624962424096676,
      "flos": 19392927327360.0,
      "grad_norm": 2.307223378974925,
      "language_loss": 0.77652836,
      "learning_rate": 1.693518557696691e-06,
      "loss": 0.79763734,
      "num_input_tokens_seen": 100958385,
      "step": 4678,
      "time_per_iteration": 2.524108648300171
    },
    {
      "auxiliary_loss_clip": 0.01091119,
      "auxiliary_loss_mlp": 0.01018937,
      "balance_loss_clip": 1.04224265,
      "balance_loss_mlp": 1.0135572,
      "epoch": 0.5626164853003066,
      "flos": 20669412101760.0,
      "grad_norm": 1.9678494046071497,
      "language_loss": 0.890957,
      "learning_rate": 1.6927488098355252e-06,
      "loss": 0.91205752,
      "num_input_tokens_seen": 100976015,
      "step": 4679,
      "time_per_iteration": 2.557910203933716
    },
    {
      "auxiliary_loss_clip": 0.01022545,
      "auxiliary_loss_mlp": 0.01002959,
      "balance_loss_clip": 1.03621948,
      "balance_loss_mlp": 1.00114751,
      "epoch": 0.5627367281909457,
      "flos": 62772193347840.0,
      "grad_norm": 0.8974078965628871,
      "language_loss": 0.63154292,
      "learning_rate": 1.6919791085841201e-06,
      "loss": 0.65179801,
      "num_input_tokens_seen": 101033425,
      "step": 4680,
      "time_per_iteration": 3.1878228187561035
    },
    {
      "auxiliary_loss_clip": 0.0109122,
      "auxiliary_loss_mlp": 0.01023345,
      "balance_loss_clip": 1.04123676,
      "balance_loss_mlp": 1.01746774,
      "epoch": 0.5628569710815848,
      "flos": 12788811970560.0,
      "grad_norm": 2.4142472611498906,
      "language_loss": 0.7882117,
      "learning_rate": 1.6912094540592396e-06,
      "loss": 0.8093574,
      "num_input_tokens_seen": 101048945,
      "step": 4681,
      "time_per_iteration": 2.5122451782226562
    },
    {
      "auxiliary_loss_clip": 0.01088855,
      "auxiliary_loss_mlp": 0.01022226,
      "balance_loss_clip": 1.04262745,
      "balance_loss_mlp": 1.01693034,
      "epoch": 0.5629772139722239,
      "flos": 13763236746240.0,
      "grad_norm": 2.811835347750667,
      "language_loss": 0.81281197,
      "learning_rate": 1.6904398463776393e-06,
      "loss": 0.8339228,
      "num_input_tokens_seen": 101062745,
      "step": 4682,
      "time_per_iteration": 2.530787467956543
    },
    {
      "auxiliary_loss_clip": 0.01092154,
      "auxiliary_loss_mlp": 0.01020072,
      "balance_loss_clip": 1.04228592,
      "balance_loss_mlp": 1.01479697,
      "epoch": 0.5630974568628629,
      "flos": 21469818470400.0,
      "grad_norm": 1.765390612534894,
      "language_loss": 0.72854018,
      "learning_rate": 1.6896702856560683e-06,
      "loss": 0.74966246,
      "num_input_tokens_seen": 101081840,
      "step": 4683,
      "time_per_iteration": 2.537724256515503
    },
    {
      "auxiliary_loss_clip": 0.01071549,
      "auxiliary_loss_mlp": 0.01019396,
      "balance_loss_clip": 1.04176605,
      "balance_loss_mlp": 1.01387095,
      "epoch": 0.5632176997535021,
      "flos": 14247619211520.0,
      "grad_norm": 2.9039642139647164,
      "language_loss": 0.69160038,
      "learning_rate": 1.6889007720112677e-06,
      "loss": 0.71250987,
      "num_input_tokens_seen": 101099585,
      "step": 4684,
      "time_per_iteration": 2.6664364337921143
    },
    {
      "auxiliary_loss_clip": 0.01091645,
      "auxiliary_loss_mlp": 0.01019785,
      "balance_loss_clip": 1.04326844,
      "balance_loss_mlp": 1.01451612,
      "epoch": 0.5633379426441412,
      "flos": 20814261454080.0,
      "grad_norm": 1.6365409890472482,
      "language_loss": 0.76927298,
      "learning_rate": 1.6881313055599734e-06,
      "loss": 0.79038727,
      "num_input_tokens_seen": 101119515,
      "step": 4685,
      "time_per_iteration": 2.5313220024108887
    },
    {
      "auxiliary_loss_clip": 0.01083632,
      "auxiliary_loss_mlp": 0.01017113,
      "balance_loss_clip": 1.04266238,
      "balance_loss_mlp": 1.01143599,
      "epoch": 0.5634581855347802,
      "flos": 22603046451840.0,
      "grad_norm": 2.1946605075836487,
      "language_loss": 0.82649475,
      "learning_rate": 1.6873618864189117e-06,
      "loss": 0.84750223,
      "num_input_tokens_seen": 101135285,
      "step": 4686,
      "time_per_iteration": 2.5937302112579346
    },
    {
      "auxiliary_loss_clip": 0.0108825,
      "auxiliary_loss_mlp": 0.01024749,
      "balance_loss_clip": 1.04153025,
      "balance_loss_mlp": 1.01902711,
      "epoch": 0.5635784284254194,
      "flos": 21509111652480.0,
      "grad_norm": 2.2743965999355984,
      "language_loss": 0.78053343,
      "learning_rate": 1.686592514704803e-06,
      "loss": 0.8016634,
      "num_input_tokens_seen": 101152680,
      "step": 4687,
      "time_per_iteration": 3.288386106491089
    },
    {
      "auxiliary_loss_clip": 0.01076514,
      "auxiliary_loss_mlp": 0.0102016,
      "balance_loss_clip": 1.04231071,
      "balance_loss_mlp": 1.01509643,
      "epoch": 0.5636986713160584,
      "flos": 19829447124480.0,
      "grad_norm": 10.086482428231992,
      "language_loss": 0.70882362,
      "learning_rate": 1.685823190534361e-06,
      "loss": 0.72979039,
      "num_input_tokens_seen": 101170920,
      "step": 4688,
      "time_per_iteration": 2.5914082527160645
    },
    {
      "auxiliary_loss_clip": 0.01105257,
      "auxiliary_loss_mlp": 0.0102034,
      "balance_loss_clip": 1.0446521,
      "balance_loss_mlp": 1.01436186,
      "epoch": 0.5638189142066975,
      "flos": 19794514521600.0,
      "grad_norm": 1.8672051770303824,
      "language_loss": 0.83736438,
      "learning_rate": 1.6850539140242907e-06,
      "loss": 0.85862029,
      "num_input_tokens_seen": 101190180,
      "step": 4689,
      "time_per_iteration": 3.3222837448120117
    },
    {
      "auxiliary_loss_clip": 0.01087811,
      "auxiliary_loss_mlp": 0.01024046,
      "balance_loss_clip": 1.04276562,
      "balance_loss_mlp": 1.01850891,
      "epoch": 0.5639391570973367,
      "flos": 22896006111360.0,
      "grad_norm": 2.5419600602099974,
      "language_loss": 0.82259429,
      "learning_rate": 1.684284685291292e-06,
      "loss": 0.84371287,
      "num_input_tokens_seen": 101211825,
      "step": 4690,
      "time_per_iteration": 2.598860025405884
    },
    {
      "auxiliary_loss_clip": 0.01102436,
      "auxiliary_loss_mlp": 0.01025437,
      "balance_loss_clip": 1.04379022,
      "balance_loss_mlp": 1.01987278,
      "epoch": 0.5640593999879757,
      "flos": 23729032080000.0,
      "grad_norm": 2.164239613178433,
      "language_loss": 0.81127989,
      "learning_rate": 1.683515504452055e-06,
      "loss": 0.83255863,
      "num_input_tokens_seen": 101229200,
      "step": 4691,
      "time_per_iteration": 2.506988525390625
    },
    {
      "auxiliary_loss_clip": 0.01055846,
      "auxiliary_loss_mlp": 0.01023417,
      "balance_loss_clip": 1.0341357,
      "balance_loss_mlp": 1.0173496,
      "epoch": 0.5641796428786148,
      "flos": 22712280675840.0,
      "grad_norm": 2.0548678098330213,
      "language_loss": 0.6665777,
      "learning_rate": 1.6827463716232648e-06,
      "loss": 0.6873703,
      "num_input_tokens_seen": 101249860,
      "step": 4692,
      "time_per_iteration": 2.605945587158203
    },
    {
      "auxiliary_loss_clip": 0.01095117,
      "auxiliary_loss_mlp": 0.00756949,
      "balance_loss_clip": 1.04533482,
      "balance_loss_mlp": 1.00183475,
      "epoch": 0.5642998857692539,
      "flos": 19794021586560.0,
      "grad_norm": 1.9155205527398544,
      "language_loss": 0.7575689,
      "learning_rate": 1.6819772869215972e-06,
      "loss": 0.77608949,
      "num_input_tokens_seen": 101268940,
      "step": 4693,
      "time_per_iteration": 2.5534417629241943
    },
    {
      "auxiliary_loss_clip": 0.01080613,
      "auxiliary_loss_mlp": 0.01020463,
      "balance_loss_clip": 1.04234314,
      "balance_loss_mlp": 1.01528084,
      "epoch": 0.564420128659893,
      "flos": 23188169491200.0,
      "grad_norm": 2.008571364297676,
      "language_loss": 0.8227514,
      "learning_rate": 1.6812082504637228e-06,
      "loss": 0.84376216,
      "num_input_tokens_seen": 101290260,
      "step": 4694,
      "time_per_iteration": 2.6134443283081055
    },
    {
      "auxiliary_loss_clip": 0.0108874,
      "auxiliary_loss_mlp": 0.01019775,
      "balance_loss_clip": 1.04193735,
      "balance_loss_mlp": 1.01425004,
      "epoch": 0.564540371550532,
      "flos": 23260499372160.0,
      "grad_norm": 1.7163463796939147,
      "language_loss": 0.74367785,
      "learning_rate": 1.6804392623663025e-06,
      "loss": 0.764763,
      "num_input_tokens_seen": 101311465,
      "step": 4695,
      "time_per_iteration": 2.5944430828094482
    },
    {
      "auxiliary_loss_clip": 0.0108835,
      "auxiliary_loss_mlp": 0.01020223,
      "balance_loss_clip": 1.04344749,
      "balance_loss_mlp": 1.01478994,
      "epoch": 0.5646606144411712,
      "flos": 25012417944960.0,
      "grad_norm": 1.9124027518814195,
      "language_loss": 0.78225267,
      "learning_rate": 1.6796703227459935e-06,
      "loss": 0.80333841,
      "num_input_tokens_seen": 101329420,
      "step": 4696,
      "time_per_iteration": 3.3188772201538086
    },
    {
      "auxiliary_loss_clip": 0.01053278,
      "auxiliary_loss_mlp": 0.01019468,
      "balance_loss_clip": 1.03919649,
      "balance_loss_mlp": 1.01404989,
      "epoch": 0.5647808573318103,
      "flos": 36542652526080.0,
      "grad_norm": 2.376929430916381,
      "language_loss": 0.75979203,
      "learning_rate": 1.6789014317194407e-06,
      "loss": 0.78051949,
      "num_input_tokens_seen": 101350900,
      "step": 4697,
      "time_per_iteration": 2.8123364448547363
    },
    {
      "auxiliary_loss_clip": 0.0107674,
      "auxiliary_loss_mlp": 0.01022503,
      "balance_loss_clip": 1.04308844,
      "balance_loss_mlp": 1.01671517,
      "epoch": 0.5649011002224493,
      "flos": 22530640734720.0,
      "grad_norm": 2.8134075886668133,
      "language_loss": 0.72922099,
      "learning_rate": 1.6781325894032853e-06,
      "loss": 0.75021338,
      "num_input_tokens_seen": 101369860,
      "step": 4698,
      "time_per_iteration": 2.5922534465789795
    },
    {
      "auxiliary_loss_clip": 0.01071498,
      "auxiliary_loss_mlp": 0.01025334,
      "balance_loss_clip": 1.04221082,
      "balance_loss_mlp": 1.01989269,
      "epoch": 0.5650213431130885,
      "flos": 18517119713280.0,
      "grad_norm": 2.027913838080064,
      "language_loss": 0.92016047,
      "learning_rate": 1.6773637959141608e-06,
      "loss": 0.94112879,
      "num_input_tokens_seen": 101386835,
      "step": 4699,
      "time_per_iteration": 2.6029579639434814
    },
    {
      "auxiliary_loss_clip": 0.01077181,
      "auxiliary_loss_mlp": 0.01022238,
      "balance_loss_clip": 1.04154468,
      "balance_loss_mlp": 1.01662636,
      "epoch": 0.5651415860037275,
      "flos": 17528020640640.0,
      "grad_norm": 2.34471098879236,
      "language_loss": 0.66241491,
      "learning_rate": 1.6765950513686915e-06,
      "loss": 0.68340915,
      "num_input_tokens_seen": 101404945,
      "step": 4700,
      "time_per_iteration": 2.531456470489502
    },
    {
      "auxiliary_loss_clip": 0.01054508,
      "auxiliary_loss_mlp": 0.01027078,
      "balance_loss_clip": 1.03995585,
      "balance_loss_mlp": 1.0214901,
      "epoch": 0.5652618288943666,
      "flos": 25522367247360.0,
      "grad_norm": 2.5652197059672814,
      "language_loss": 0.7646538,
      "learning_rate": 1.675826355883496e-06,
      "loss": 0.78546965,
      "num_input_tokens_seen": 101424160,
      "step": 4701,
      "time_per_iteration": 2.679616928100586
    },
    {
      "auxiliary_loss_clip": 0.01068877,
      "auxiliary_loss_mlp": 0.01022788,
      "balance_loss_clip": 1.03575683,
      "balance_loss_mlp": 1.01712823,
      "epoch": 0.5653820717850057,
      "flos": 19685166543360.0,
      "grad_norm": 2.392634281757467,
      "language_loss": 0.79036236,
      "learning_rate": 1.6750577095751848e-06,
      "loss": 0.81127894,
      "num_input_tokens_seen": 101443270,
      "step": 4702,
      "time_per_iteration": 2.548253297805786
    },
    {
      "auxiliary_loss_clip": 0.01101233,
      "auxiliary_loss_mlp": 0.01022552,
      "balance_loss_clip": 1.04276669,
      "balance_loss_mlp": 1.01744127,
      "epoch": 0.5655023146756448,
      "flos": 26982160358400.0,
      "grad_norm": 1.8740392182046295,
      "language_loss": 0.72815889,
      "learning_rate": 1.6742891125603605e-06,
      "loss": 0.74939674,
      "num_input_tokens_seen": 101464175,
      "step": 4703,
      "time_per_iteration": 2.564971923828125
    },
    {
      "auxiliary_loss_clip": 0.01089267,
      "auxiliary_loss_mlp": 0.01020267,
      "balance_loss_clip": 1.04367781,
      "balance_loss_mlp": 1.01424646,
      "epoch": 0.5656225575662839,
      "flos": 27671626189440.0,
      "grad_norm": 2.9925385429660905,
      "language_loss": 0.7220667,
      "learning_rate": 1.6735205649556185e-06,
      "loss": 0.74316204,
      "num_input_tokens_seen": 101484045,
      "step": 4704,
      "time_per_iteration": 2.6300711631774902
    },
    {
      "auxiliary_loss_clip": 0.01062335,
      "auxiliary_loss_mlp": 0.01025899,
      "balance_loss_clip": 1.04082394,
      "balance_loss_mlp": 1.02033496,
      "epoch": 0.5657428004569229,
      "flos": 24351855742080.0,
      "grad_norm": 2.0175597491419075,
      "language_loss": 0.84792739,
      "learning_rate": 1.6727520668775476e-06,
      "loss": 0.8688097,
      "num_input_tokens_seen": 101504330,
      "step": 4705,
      "time_per_iteration": 2.6553475856781006
    },
    {
      "auxiliary_loss_clip": 0.011068,
      "auxiliary_loss_mlp": 0.01023327,
      "balance_loss_clip": 1.04587555,
      "balance_loss_mlp": 1.01762891,
      "epoch": 0.5658630433475621,
      "flos": 21946162302720.0,
      "grad_norm": 1.6027634129993957,
      "language_loss": 0.75337267,
      "learning_rate": 1.6719836184427275e-06,
      "loss": 0.77467394,
      "num_input_tokens_seen": 101524635,
      "step": 4706,
      "time_per_iteration": 2.518562078475952
    },
    {
      "auxiliary_loss_clip": 0.01077067,
      "auxiliary_loss_mlp": 0.01020613,
      "balance_loss_clip": 1.040452,
      "balance_loss_mlp": 1.01549554,
      "epoch": 0.5659832862382012,
      "flos": 30411620046720.0,
      "grad_norm": 1.7830373901871097,
      "language_loss": 0.64376926,
      "learning_rate": 1.671215219767733e-06,
      "loss": 0.66474605,
      "num_input_tokens_seen": 101544095,
      "step": 4707,
      "time_per_iteration": 2.638535737991333
    },
    {
      "auxiliary_loss_clip": 0.0106073,
      "auxiliary_loss_mlp": 0.0102546,
      "balance_loss_clip": 1.04162097,
      "balance_loss_mlp": 1.01997674,
      "epoch": 0.5661035291288402,
      "flos": 13189868311680.0,
      "grad_norm": 2.22616914071765,
      "language_loss": 0.76344311,
      "learning_rate": 1.670446870969127e-06,
      "loss": 0.7843051,
      "num_input_tokens_seen": 101561760,
      "step": 4708,
      "time_per_iteration": 2.6189091205596924
    },
    {
      "auxiliary_loss_clip": 0.01074115,
      "auxiliary_loss_mlp": 0.01022153,
      "balance_loss_clip": 1.04139996,
      "balance_loss_mlp": 1.01694059,
      "epoch": 0.5662237720194794,
      "flos": 16144842153600.0,
      "grad_norm": 2.081392262754109,
      "language_loss": 0.80242062,
      "learning_rate": 1.6696785721634685e-06,
      "loss": 0.82338333,
      "num_input_tokens_seen": 101576245,
      "step": 4709,
      "time_per_iteration": 2.510977268218994
    },
    {
      "auxiliary_loss_clip": 0.01097856,
      "auxiliary_loss_mlp": 0.01026064,
      "balance_loss_clip": 1.04691911,
      "balance_loss_mlp": 1.02021337,
      "epoch": 0.5663440149101184,
      "flos": 17678823131520.0,
      "grad_norm": 2.6102139170931276,
      "language_loss": 0.73771721,
      "learning_rate": 1.6689103234673086e-06,
      "loss": 0.75895643,
      "num_input_tokens_seen": 101594565,
      "step": 4710,
      "time_per_iteration": 2.536750078201294
    },
    {
      "auxiliary_loss_clip": 0.0106745,
      "auxiliary_loss_mlp": 0.01022874,
      "balance_loss_clip": 1.0347867,
      "balance_loss_mlp": 1.01755714,
      "epoch": 0.5664642578007575,
      "flos": 23370605712000.0,
      "grad_norm": 1.9888933429657971,
      "language_loss": 0.77460903,
      "learning_rate": 1.668142124997189e-06,
      "loss": 0.79551232,
      "num_input_tokens_seen": 101614225,
      "step": 4711,
      "time_per_iteration": 2.6240808963775635
    },
    {
      "auxiliary_loss_clip": 0.0102337,
      "auxiliary_loss_mlp": 0.01005562,
      "balance_loss_clip": 1.02185667,
      "balance_loss_mlp": 1.00396442,
      "epoch": 0.5665845006913967,
      "flos": 65523524711040.0,
      "grad_norm": 0.7272714194302815,
      "language_loss": 0.59792447,
      "learning_rate": 1.6673739768696453e-06,
      "loss": 0.61821383,
      "num_input_tokens_seen": 101680795,
      "step": 4712,
      "time_per_iteration": 3.182666540145874
    },
    {
      "auxiliary_loss_clip": 0.01080791,
      "auxiliary_loss_mlp": 0.01020586,
      "balance_loss_clip": 1.04198146,
      "balance_loss_mlp": 1.01484871,
      "epoch": 0.5667047435820357,
      "flos": 26143295005440.0,
      "grad_norm": 2.4333433465360015,
      "language_loss": 0.77844238,
      "learning_rate": 1.6666058792012052e-06,
      "loss": 0.79945612,
      "num_input_tokens_seen": 101701680,
      "step": 4713,
      "time_per_iteration": 3.376131772994995
    },
    {
      "auxiliary_loss_clip": 0.01053181,
      "auxiliary_loss_mlp": 0.01008522,
      "balance_loss_clip": 1.03362906,
      "balance_loss_mlp": 1.00654316,
      "epoch": 0.5668249864726748,
      "flos": 71874466525440.0,
      "grad_norm": 0.9347943311179704,
      "language_loss": 0.68692273,
      "learning_rate": 1.6658378321083878e-06,
      "loss": 0.70753974,
      "num_input_tokens_seen": 101766010,
      "step": 4714,
      "time_per_iteration": 3.190436601638794
    },
    {
      "auxiliary_loss_clip": 0.01029229,
      "auxiliary_loss_mlp": 0.01019613,
      "balance_loss_clip": 1.03336489,
      "balance_loss_mlp": 1.01430178,
      "epoch": 0.5669452293633139,
      "flos": 22197591613440.0,
      "grad_norm": 1.7932374559824251,
      "language_loss": 0.82249618,
      "learning_rate": 1.6650698357077055e-06,
      "loss": 0.84298462,
      "num_input_tokens_seen": 101783055,
      "step": 4715,
      "time_per_iteration": 3.575005531311035
    },
    {
      "auxiliary_loss_clip": 0.01082315,
      "auxiliary_loss_mlp": 0.01026614,
      "balance_loss_clip": 1.04393399,
      "balance_loss_mlp": 1.02091551,
      "epoch": 0.567065472253953,
      "flos": 18225145923840.0,
      "grad_norm": 2.4477007652400813,
      "language_loss": 0.81614709,
      "learning_rate": 1.6643018901156632e-06,
      "loss": 0.8372364,
      "num_input_tokens_seen": 101802150,
      "step": 4716,
      "time_per_iteration": 2.551278829574585
    },
    {
      "auxiliary_loss_clip": 0.01080531,
      "auxiliary_loss_mlp": 0.01019751,
      "balance_loss_clip": 1.04141021,
      "balance_loss_mlp": 1.01441336,
      "epoch": 0.567185715144592,
      "flos": 20373381077760.0,
      "grad_norm": 3.850353964726206,
      "language_loss": 0.79890919,
      "learning_rate": 1.6635339954487566e-06,
      "loss": 0.81991202,
      "num_input_tokens_seen": 101818025,
      "step": 4717,
      "time_per_iteration": 2.5944297313690186
    },
    {
      "auxiliary_loss_clip": 0.01081801,
      "auxiliary_loss_mlp": 0.01019539,
      "balance_loss_clip": 1.04333973,
      "balance_loss_mlp": 1.01392388,
      "epoch": 0.5673059580352312,
      "flos": 23223557111040.0,
      "grad_norm": 5.5280361051069145,
      "language_loss": 0.82826018,
      "learning_rate": 1.6627661518234765e-06,
      "loss": 0.84927356,
      "num_input_tokens_seen": 101837280,
      "step": 4718,
      "time_per_iteration": 2.5824697017669678
    },
    {
      "auxiliary_loss_clip": 0.01050454,
      "auxiliary_loss_mlp": 0.0102071,
      "balance_loss_clip": 1.04266429,
      "balance_loss_mlp": 1.01504493,
      "epoch": 0.5674262009258703,
      "flos": 21721399453440.0,
      "grad_norm": 1.9862593270260709,
      "language_loss": 0.85710955,
      "learning_rate": 1.661998359356302e-06,
      "loss": 0.87782121,
      "num_input_tokens_seen": 101856310,
      "step": 4719,
      "time_per_iteration": 2.7295799255371094
    },
    {
      "auxiliary_loss_clip": 0.0106362,
      "auxiliary_loss_mlp": 0.01002412,
      "balance_loss_clip": 1.03465366,
      "balance_loss_mlp": 1.00043321,
      "epoch": 0.5675464438165093,
      "flos": 67476621087360.0,
      "grad_norm": 2.355116731444087,
      "language_loss": 0.55693161,
      "learning_rate": 1.6612306181637077e-06,
      "loss": 0.57759196,
      "num_input_tokens_seen": 101915635,
      "step": 4720,
      "time_per_iteration": 3.0768988132476807
    },
    {
      "auxiliary_loss_clip": 0.010681,
      "auxiliary_loss_mlp": 0.01024168,
      "balance_loss_clip": 1.04134178,
      "balance_loss_mlp": 1.01876175,
      "epoch": 0.5676666867071485,
      "flos": 18881120039040.0,
      "grad_norm": 2.2272903124962693,
      "language_loss": 0.65590394,
      "learning_rate": 1.6604629283621598e-06,
      "loss": 0.67682666,
      "num_input_tokens_seen": 101933565,
      "step": 4721,
      "time_per_iteration": 2.619150400161743
    },
    {
      "auxiliary_loss_clip": 0.01103841,
      "auxiliary_loss_mlp": 0.01020692,
      "balance_loss_clip": 1.04366267,
      "balance_loss_mlp": 1.01490164,
      "epoch": 0.5677869295977875,
      "flos": 33549560962560.0,
      "grad_norm": 2.245691724046392,
      "language_loss": 0.74078166,
      "learning_rate": 1.6596952900681152e-06,
      "loss": 0.76202703,
      "num_input_tokens_seen": 101954325,
      "step": 4722,
      "time_per_iteration": 3.6149978637695312
    },
    {
      "auxiliary_loss_clip": 0.01044786,
      "auxiliary_loss_mlp": 0.01022379,
      "balance_loss_clip": 1.03732479,
      "balance_loss_mlp": 1.01631117,
      "epoch": 0.5679071724884266,
      "flos": 28039721667840.0,
      "grad_norm": 3.5634589004055996,
      "language_loss": 0.82526422,
      "learning_rate": 1.658927703398025e-06,
      "loss": 0.84593582,
      "num_input_tokens_seen": 101974390,
      "step": 4723,
      "time_per_iteration": 2.7157514095306396
    },
    {
      "auxiliary_loss_clip": 0.01056321,
      "auxiliary_loss_mlp": 0.01018227,
      "balance_loss_clip": 1.03774369,
      "balance_loss_mlp": 1.01291895,
      "epoch": 0.5680274153790658,
      "flos": 23552359407360.0,
      "grad_norm": 2.4830262975206208,
      "language_loss": 0.78523767,
      "learning_rate": 1.6581601684683309e-06,
      "loss": 0.80598313,
      "num_input_tokens_seen": 101994815,
      "step": 4724,
      "time_per_iteration": 2.7056736946105957
    },
    {
      "auxiliary_loss_clip": 0.01091906,
      "auxiliary_loss_mlp": 0.01023902,
      "balance_loss_clip": 1.045753,
      "balance_loss_mlp": 1.0184629,
      "epoch": 0.5681476582697048,
      "flos": 22457324983680.0,
      "grad_norm": 3.218283246305298,
      "language_loss": 0.68779856,
      "learning_rate": 1.6573926853954674e-06,
      "loss": 0.70895666,
      "num_input_tokens_seen": 102012400,
      "step": 4725,
      "time_per_iteration": 2.550504684448242
    },
    {
      "auxiliary_loss_clip": 0.01079831,
      "auxiliary_loss_mlp": 0.01019095,
      "balance_loss_clip": 1.04051805,
      "balance_loss_mlp": 1.0134654,
      "epoch": 0.5682679011603439,
      "flos": 19538952140160.0,
      "grad_norm": 1.9091968259041188,
      "language_loss": 0.8324666,
      "learning_rate": 1.6566252542958608e-06,
      "loss": 0.8534559,
      "num_input_tokens_seen": 102031900,
      "step": 4726,
      "time_per_iteration": 2.620119571685791
    },
    {
      "auxiliary_loss_clip": 0.01066387,
      "auxiliary_loss_mlp": 0.01022794,
      "balance_loss_clip": 1.03979886,
      "balance_loss_mlp": 1.01727498,
      "epoch": 0.568388144050983,
      "flos": 28767911909760.0,
      "grad_norm": 2.293259006625052,
      "language_loss": 0.78414214,
      "learning_rate": 1.6558578752859305e-06,
      "loss": 0.80503398,
      "num_input_tokens_seen": 102050860,
      "step": 4727,
      "time_per_iteration": 2.6488993167877197
    },
    {
      "auxiliary_loss_clip": 0.01067758,
      "auxiliary_loss_mlp": 0.01018322,
      "balance_loss_clip": 1.0400486,
      "balance_loss_mlp": 1.01305628,
      "epoch": 0.5685083869416221,
      "flos": 21211260560640.0,
      "grad_norm": 2.013217100110419,
      "language_loss": 0.79212022,
      "learning_rate": 1.6550905484820865e-06,
      "loss": 0.81298095,
      "num_input_tokens_seen": 102069320,
      "step": 4728,
      "time_per_iteration": 2.6116442680358887
    },
    {
      "auxiliary_loss_clip": 0.01102924,
      "auxiliary_loss_mlp": 0.01022085,
      "balance_loss_clip": 1.0429275,
      "balance_loss_mlp": 1.01616299,
      "epoch": 0.5686286298322611,
      "flos": 24829337116800.0,
      "grad_norm": 2.065472850843152,
      "language_loss": 0.79102659,
      "learning_rate": 1.6543232740007328e-06,
      "loss": 0.81227666,
      "num_input_tokens_seen": 102086435,
      "step": 4729,
      "time_per_iteration": 2.527637243270874
    },
    {
      "auxiliary_loss_clip": 0.01089877,
      "auxiliary_loss_mlp": 0.01020943,
      "balance_loss_clip": 1.04205179,
      "balance_loss_mlp": 1.0153935,
      "epoch": 0.5687488727229003,
      "flos": 26617553343360.0,
      "grad_norm": 2.612327296992802,
      "language_loss": 0.67271781,
      "learning_rate": 1.653556051958263e-06,
      "loss": 0.69382608,
      "num_input_tokens_seen": 102106115,
      "step": 4730,
      "time_per_iteration": 2.6536848545074463
    },
    {
      "auxiliary_loss_clip": 0.0104103,
      "auxiliary_loss_mlp": 0.01020654,
      "balance_loss_clip": 1.0389142,
      "balance_loss_mlp": 1.01507843,
      "epoch": 0.5688691156135394,
      "flos": 20810545482240.0,
      "grad_norm": 1.7072535009388023,
      "language_loss": 0.73798299,
      "learning_rate": 1.6527888824710642e-06,
      "loss": 0.75859988,
      "num_input_tokens_seen": 102125715,
      "step": 4731,
      "time_per_iteration": 2.6637349128723145
    },
    {
      "auxiliary_loss_clip": 0.01069554,
      "auxiliary_loss_mlp": 0.01023745,
      "balance_loss_clip": 1.04050946,
      "balance_loss_mlp": 1.01798725,
      "epoch": 0.5689893585041784,
      "flos": 25883106618240.0,
      "grad_norm": 2.0886578821142976,
      "language_loss": 0.76833224,
      "learning_rate": 1.6520217656555166e-06,
      "loss": 0.78926528,
      "num_input_tokens_seen": 102145005,
      "step": 4732,
      "time_per_iteration": 2.6882216930389404
    },
    {
      "auxiliary_loss_clip": 0.01080464,
      "auxiliary_loss_mlp": 0.01023404,
      "balance_loss_clip": 1.04132593,
      "balance_loss_mlp": 1.01797724,
      "epoch": 0.5691096013948175,
      "flos": 23479726181760.0,
      "grad_norm": 1.609056583270504,
      "language_loss": 0.70708573,
      "learning_rate": 1.65125470162799e-06,
      "loss": 0.72812438,
      "num_input_tokens_seen": 102165360,
      "step": 4733,
      "time_per_iteration": 2.5719072818756104
    },
    {
      "auxiliary_loss_clip": 0.01065058,
      "auxiliary_loss_mlp": 0.01021857,
      "balance_loss_clip": 1.03846645,
      "balance_loss_mlp": 1.01621234,
      "epoch": 0.5692298442854566,
      "flos": 18077452715520.0,
      "grad_norm": 2.454672505471563,
      "language_loss": 0.69652623,
      "learning_rate": 1.6504876905048485e-06,
      "loss": 0.71739542,
      "num_input_tokens_seen": 102182320,
      "step": 4734,
      "time_per_iteration": 2.59663987159729
    },
    {
      "auxiliary_loss_clip": 0.01101459,
      "auxiliary_loss_mlp": 0.01020797,
      "balance_loss_clip": 1.04220676,
      "balance_loss_mlp": 1.01550126,
      "epoch": 0.5693500871760957,
      "flos": 23041537989120.0,
      "grad_norm": 1.988103160831036,
      "language_loss": 0.71706241,
      "learning_rate": 1.6497207324024464e-06,
      "loss": 0.73828495,
      "num_input_tokens_seen": 102201220,
      "step": 4735,
      "time_per_iteration": 2.541006326675415
    },
    {
      "auxiliary_loss_clip": 0.01076056,
      "auxiliary_loss_mlp": 0.0102446,
      "balance_loss_clip": 1.03987598,
      "balance_loss_mlp": 1.01911092,
      "epoch": 0.5694703300667348,
      "flos": 18991681395840.0,
      "grad_norm": 2.06824600326947,
      "language_loss": 0.82657534,
      "learning_rate": 1.6489538274371305e-06,
      "loss": 0.84758055,
      "num_input_tokens_seen": 102219825,
      "step": 4736,
      "time_per_iteration": 2.605121612548828
    },
    {
      "auxiliary_loss_clip": 0.01083034,
      "auxiliary_loss_mlp": 0.01021331,
      "balance_loss_clip": 1.03933549,
      "balance_loss_mlp": 1.01583529,
      "epoch": 0.5695905729573739,
      "flos": 21910888437120.0,
      "grad_norm": 2.0664364743614723,
      "language_loss": 0.83160162,
      "learning_rate": 1.6481869757252396e-06,
      "loss": 0.85264528,
      "num_input_tokens_seen": 102238160,
      "step": 4737,
      "time_per_iteration": 2.556267738342285
    },
    {
      "auxiliary_loss_clip": 0.01089456,
      "auxiliary_loss_mlp": 0.01022911,
      "balance_loss_clip": 1.04255509,
      "balance_loss_mlp": 1.0179224,
      "epoch": 0.569710815848013,
      "flos": 28479236993280.0,
      "grad_norm": 3.310388087653467,
      "language_loss": 0.71837997,
      "learning_rate": 1.647420177383105e-06,
      "loss": 0.73950368,
      "num_input_tokens_seen": 102261030,
      "step": 4738,
      "time_per_iteration": 2.604832410812378
    },
    {
      "auxiliary_loss_clip": 0.01087081,
      "auxiliary_loss_mlp": 0.01019379,
      "balance_loss_clip": 1.04242516,
      "balance_loss_mlp": 1.01394856,
      "epoch": 0.569831058738652,
      "flos": 28368675636480.0,
      "grad_norm": 2.6604693835323454,
      "language_loss": 0.72846174,
      "learning_rate": 1.646653432527049e-06,
      "loss": 0.74952638,
      "num_input_tokens_seen": 102281670,
      "step": 4739,
      "time_per_iteration": 3.3891611099243164
    },
    {
      "auxiliary_loss_clip": 0.01062842,
      "auxiliary_loss_mlp": 0.0102181,
      "balance_loss_clip": 1.03761876,
      "balance_loss_mlp": 1.01653457,
      "epoch": 0.5699513016292912,
      "flos": 25852420840320.0,
      "grad_norm": 1.5542582856460234,
      "language_loss": 0.74656761,
      "learning_rate": 1.645886741273387e-06,
      "loss": 0.76741409,
      "num_input_tokens_seen": 102303485,
      "step": 4740,
      "time_per_iteration": 2.6403896808624268
    },
    {
      "auxiliary_loss_clip": 0.01046903,
      "auxiliary_loss_mlp": 0.01023926,
      "balance_loss_clip": 1.03481066,
      "balance_loss_mlp": 1.01827824,
      "epoch": 0.5700715445199303,
      "flos": 18039638338560.0,
      "grad_norm": 1.8918893399633345,
      "language_loss": 0.73795074,
      "learning_rate": 1.645120103738424e-06,
      "loss": 0.75865901,
      "num_input_tokens_seen": 102320995,
      "step": 4741,
      "time_per_iteration": 4.204739332199097
    },
    {
      "auxiliary_loss_clip": 0.01089695,
      "auxiliary_loss_mlp": 0.00756848,
      "balance_loss_clip": 1.04196286,
      "balance_loss_mlp": 1.00201917,
      "epoch": 0.5701917874105693,
      "flos": 11474929918080.0,
      "grad_norm": 4.4728736112139424,
      "language_loss": 0.83587873,
      "learning_rate": 1.6443535200384591e-06,
      "loss": 0.85434419,
      "num_input_tokens_seen": 102339170,
      "step": 4742,
      "time_per_iteration": 2.7131717205047607
    },
    {
      "auxiliary_loss_clip": 0.01102855,
      "auxiliary_loss_mlp": 0.01023211,
      "balance_loss_clip": 1.04385328,
      "balance_loss_mlp": 1.0175724,
      "epoch": 0.5703120303012085,
      "flos": 21763877754240.0,
      "grad_norm": 2.7390869352550467,
      "language_loss": 0.70678878,
      "learning_rate": 1.6435869902897827e-06,
      "loss": 0.7280494,
      "num_input_tokens_seen": 102357750,
      "step": 4743,
      "time_per_iteration": 2.513216972351074
    },
    {
      "auxiliary_loss_clip": 0.010296,
      "auxiliary_loss_mlp": 0.0100511,
      "balance_loss_clip": 1.03062892,
      "balance_loss_mlp": 1.00316679,
      "epoch": 0.5704322731918475,
      "flos": 56752063488000.0,
      "grad_norm": 0.8343964829918112,
      "language_loss": 0.61957556,
      "learning_rate": 1.6428205146086764e-06,
      "loss": 0.63992262,
      "num_input_tokens_seen": 102419730,
      "step": 4744,
      "time_per_iteration": 3.2929041385650635
    },
    {
      "auxiliary_loss_clip": 0.01080178,
      "auxiliary_loss_mlp": 0.0101958,
      "balance_loss_clip": 1.0406307,
      "balance_loss_mlp": 1.01412582,
      "epoch": 0.5705525160824866,
      "flos": 20743258705920.0,
      "grad_norm": 1.6130145766853599,
      "language_loss": 0.71004462,
      "learning_rate": 1.6420540931114142e-06,
      "loss": 0.73104227,
      "num_input_tokens_seen": 102440320,
      "step": 4745,
      "time_per_iteration": 2.587185859680176
    },
    {
      "auxiliary_loss_clip": 0.01077045,
      "auxiliary_loss_mlp": 0.01029527,
      "balance_loss_clip": 1.04042482,
      "balance_loss_mlp": 1.02398348,
      "epoch": 0.5706727589731257,
      "flos": 18773288784000.0,
      "grad_norm": 1.9206127381370832,
      "language_loss": 0.78871071,
      "learning_rate": 1.6412877259142616e-06,
      "loss": 0.80977643,
      "num_input_tokens_seen": 102460240,
      "step": 4746,
      "time_per_iteration": 2.5926332473754883
    },
    {
      "auxiliary_loss_clip": 0.01080616,
      "auxiliary_loss_mlp": 0.01023052,
      "balance_loss_clip": 1.04335237,
      "balance_loss_mlp": 1.01762486,
      "epoch": 0.5707930018637648,
      "flos": 27637110685440.0,
      "grad_norm": 3.320976568619362,
      "language_loss": 0.73802698,
      "learning_rate": 1.6405214131334757e-06,
      "loss": 0.7590636,
      "num_input_tokens_seen": 102478765,
      "step": 4747,
      "time_per_iteration": 2.6054749488830566
    },
    {
      "auxiliary_loss_clip": 0.0104676,
      "auxiliary_loss_mlp": 0.01019196,
      "balance_loss_clip": 1.03629923,
      "balance_loss_mlp": 1.01377809,
      "epoch": 0.5709132447544039,
      "flos": 27600016752000.0,
      "grad_norm": 1.9547386991597575,
      "language_loss": 0.79350162,
      "learning_rate": 1.6397551548853052e-06,
      "loss": 0.81416112,
      "num_input_tokens_seen": 102496930,
      "step": 4748,
      "time_per_iteration": 3.5563747882843018
    },
    {
      "auxiliary_loss_clip": 0.01075786,
      "auxiliary_loss_mlp": 0.01022479,
      "balance_loss_clip": 1.04106295,
      "balance_loss_mlp": 1.01686716,
      "epoch": 0.571033487645043,
      "flos": 21688059409920.0,
      "grad_norm": 1.78423112443106,
      "language_loss": 0.70815861,
      "learning_rate": 1.6389889512859917e-06,
      "loss": 0.72914124,
      "num_input_tokens_seen": 102516590,
      "step": 4749,
      "time_per_iteration": 2.6243221759796143
    },
    {
      "auxiliary_loss_clip": 0.01039657,
      "auxiliary_loss_mlp": 0.01002158,
      "balance_loss_clip": 1.03104901,
      "balance_loss_mlp": 1.00019121,
      "epoch": 0.5711537305356821,
      "flos": 70188469678080.0,
      "grad_norm": 0.8084533028258328,
      "language_loss": 0.60351646,
      "learning_rate": 1.638222802451767e-06,
      "loss": 0.62393457,
      "num_input_tokens_seen": 102578070,
      "step": 4750,
      "time_per_iteration": 3.1496613025665283
    },
    {
      "auxiliary_loss_clip": 0.01079413,
      "auxiliary_loss_mlp": 0.01018829,
      "balance_loss_clip": 1.03566372,
      "balance_loss_mlp": 1.01378322,
      "epoch": 0.5712739734263211,
      "flos": 24719799548160.0,
      "grad_norm": 1.670662383884434,
      "language_loss": 0.75276911,
      "learning_rate": 1.6374567084988561e-06,
      "loss": 0.7737515,
      "num_input_tokens_seen": 102599255,
      "step": 4751,
      "time_per_iteration": 2.6615536212921143
    },
    {
      "auxiliary_loss_clip": 0.01081535,
      "auxiliary_loss_mlp": 0.01019225,
      "balance_loss_clip": 1.04737592,
      "balance_loss_mlp": 1.01317859,
      "epoch": 0.5713942163169603,
      "flos": 26580573164160.0,
      "grad_norm": 1.7911487714618262,
      "language_loss": 0.764027,
      "learning_rate": 1.6366906695434738e-06,
      "loss": 0.78503454,
      "num_input_tokens_seen": 102621775,
      "step": 4752,
      "time_per_iteration": 2.5954151153564453
    },
    {
      "auxiliary_loss_clip": 0.01088058,
      "auxiliary_loss_mlp": 0.01021902,
      "balance_loss_clip": 1.04114842,
      "balance_loss_mlp": 1.01663017,
      "epoch": 0.5715144592075994,
      "flos": 21144580473600.0,
      "grad_norm": 2.400810380677175,
      "language_loss": 0.85788274,
      "learning_rate": 1.6359246857018275e-06,
      "loss": 0.87898242,
      "num_input_tokens_seen": 102639305,
      "step": 4753,
      "time_per_iteration": 2.6218342781066895
    },
    {
      "auxiliary_loss_clip": 0.01052267,
      "auxiliary_loss_mlp": 0.01020615,
      "balance_loss_clip": 1.03954339,
      "balance_loss_mlp": 1.01508367,
      "epoch": 0.5716347020982384,
      "flos": 23332450072320.0,
      "grad_norm": 2.0459730337797604,
      "language_loss": 0.78193653,
      "learning_rate": 1.6351587570901178e-06,
      "loss": 0.80266535,
      "num_input_tokens_seen": 102659430,
      "step": 4754,
      "time_per_iteration": 2.625967025756836
    },
    {
      "auxiliary_loss_clip": 0.01061773,
      "auxiliary_loss_mlp": 0.01021287,
      "balance_loss_clip": 1.0429461,
      "balance_loss_mlp": 1.01597619,
      "epoch": 0.5717549449888776,
      "flos": 17010904821120.0,
      "grad_norm": 3.023694597816353,
      "language_loss": 0.76206076,
      "learning_rate": 1.634392883824534e-06,
      "loss": 0.78289139,
      "num_input_tokens_seen": 102671430,
      "step": 4755,
      "time_per_iteration": 2.6211113929748535
    },
    {
      "auxiliary_loss_clip": 0.01041581,
      "auxiliary_loss_mlp": 0.01022222,
      "balance_loss_clip": 1.03388619,
      "balance_loss_mlp": 1.0165987,
      "epoch": 0.5718751878795166,
      "flos": 35521085525760.0,
      "grad_norm": 3.0113293108639407,
      "language_loss": 0.67568088,
      "learning_rate": 1.6336270660212595e-06,
      "loss": 0.69631886,
      "num_input_tokens_seen": 102693025,
      "step": 4756,
      "time_per_iteration": 2.7612602710723877
    },
    {
      "auxiliary_loss_clip": 0.0105986,
      "auxiliary_loss_mlp": 0.01020349,
      "balance_loss_clip": 1.03494918,
      "balance_loss_mlp": 1.01450181,
      "epoch": 0.5719954307701557,
      "flos": 38616813567360.0,
      "grad_norm": 2.0548220307025313,
      "language_loss": 0.66075766,
      "learning_rate": 1.6328613037964676e-06,
      "loss": 0.6815598,
      "num_input_tokens_seen": 102716090,
      "step": 4757,
      "time_per_iteration": 2.7593955993652344
    },
    {
      "auxiliary_loss_clip": 0.01087806,
      "auxiliary_loss_mlp": 0.01020326,
      "balance_loss_clip": 1.04099,
      "balance_loss_mlp": 1.01468134,
      "epoch": 0.5721156736607949,
      "flos": 20633190284160.0,
      "grad_norm": 2.397407365083926,
      "language_loss": 0.68170065,
      "learning_rate": 1.6320955972663241e-06,
      "loss": 0.70278192,
      "num_input_tokens_seen": 102735685,
      "step": 4758,
      "time_per_iteration": 2.5391414165496826
    },
    {
      "auxiliary_loss_clip": 0.01088583,
      "auxiliary_loss_mlp": 0.01021481,
      "balance_loss_clip": 1.04090953,
      "balance_loss_mlp": 1.01619649,
      "epoch": 0.5722359165514339,
      "flos": 37418118877440.0,
      "grad_norm": 1.862766256658496,
      "language_loss": 0.65472829,
      "learning_rate": 1.6313299465469857e-06,
      "loss": 0.67582893,
      "num_input_tokens_seen": 102758415,
      "step": 4759,
      "time_per_iteration": 2.708103656768799
    },
    {
      "auxiliary_loss_clip": 0.0109354,
      "auxiliary_loss_mlp": 0.01022702,
      "balance_loss_clip": 1.04393923,
      "balance_loss_mlp": 1.01708138,
      "epoch": 0.572356159442073,
      "flos": 21974572995840.0,
      "grad_norm": 4.431417979390824,
      "language_loss": 0.79386556,
      "learning_rate": 1.6305643517546014e-06,
      "loss": 0.81502795,
      "num_input_tokens_seen": 102773795,
      "step": 4760,
      "time_per_iteration": 2.594888210296631
    },
    {
      "auxiliary_loss_clip": 0.01101165,
      "auxiliary_loss_mlp": 0.01026129,
      "balance_loss_clip": 1.04208863,
      "balance_loss_mlp": 1.02104783,
      "epoch": 0.5724764023327121,
      "flos": 19137554536320.0,
      "grad_norm": 1.8181930899487386,
      "language_loss": 0.84924018,
      "learning_rate": 1.629798813005311e-06,
      "loss": 0.87051308,
      "num_input_tokens_seen": 102793515,
      "step": 4761,
      "time_per_iteration": 2.530229330062866
    },
    {
      "auxiliary_loss_clip": 0.010491,
      "auxiliary_loss_mlp": 0.01021909,
      "balance_loss_clip": 1.03708839,
      "balance_loss_mlp": 1.01671767,
      "epoch": 0.5725966452233512,
      "flos": 22821931998720.0,
      "grad_norm": 3.2060823311163307,
      "language_loss": 0.70510924,
      "learning_rate": 1.6290333304152473e-06,
      "loss": 0.72581929,
      "num_input_tokens_seen": 102813390,
      "step": 4762,
      "time_per_iteration": 2.692662239074707
    },
    {
      "auxiliary_loss_clip": 0.01071044,
      "auxiliary_loss_mlp": 0.01025164,
      "balance_loss_clip": 1.04299235,
      "balance_loss_mlp": 1.01975787,
      "epoch": 0.5727168881139902,
      "flos": 41499609200640.0,
      "grad_norm": 1.770501261576933,
      "language_loss": 0.57420218,
      "learning_rate": 1.6282679041005314e-06,
      "loss": 0.5951643,
      "num_input_tokens_seen": 102838980,
      "step": 4763,
      "time_per_iteration": 2.744988441467285
    },
    {
      "auxiliary_loss_clip": 0.01075502,
      "auxiliary_loss_mlp": 0.01019921,
      "balance_loss_clip": 1.03834009,
      "balance_loss_mlp": 1.01451778,
      "epoch": 0.5728371310046293,
      "flos": 14649433914240.0,
      "grad_norm": 2.5070605702768947,
      "language_loss": 0.87256014,
      "learning_rate": 1.6275025341772789e-06,
      "loss": 0.89351434,
      "num_input_tokens_seen": 102855285,
      "step": 4764,
      "time_per_iteration": 2.5676352977752686
    },
    {
      "auxiliary_loss_clip": 0.01081094,
      "auxiliary_loss_mlp": 0.01021978,
      "balance_loss_clip": 1.04284823,
      "balance_loss_mlp": 1.01615787,
      "epoch": 0.5729573738952685,
      "flos": 21508732471680.0,
      "grad_norm": 2.3031485983347513,
      "language_loss": 0.8174175,
      "learning_rate": 1.626737220761596e-06,
      "loss": 0.83844823,
      "num_input_tokens_seen": 102872750,
      "step": 4765,
      "time_per_iteration": 3.3452508449554443
    },
    {
      "auxiliary_loss_clip": 0.01080783,
      "auxiliary_loss_mlp": 0.01022203,
      "balance_loss_clip": 1.03849387,
      "balance_loss_mlp": 1.01708043,
      "epoch": 0.5730776167859075,
      "flos": 23623855090560.0,
      "grad_norm": 2.442651447574431,
      "language_loss": 0.79013443,
      "learning_rate": 1.62597196396958e-06,
      "loss": 0.81116426,
      "num_input_tokens_seen": 102890920,
      "step": 4766,
      "time_per_iteration": 2.595128297805786
    },
    {
      "auxiliary_loss_clip": 0.01081948,
      "auxiliary_loss_mlp": 0.01017778,
      "balance_loss_clip": 1.03632569,
      "balance_loss_mlp": 1.01254201,
      "epoch": 0.5731978596765466,
      "flos": 25741594056960.0,
      "grad_norm": 2.4830383639549947,
      "language_loss": 0.85579371,
      "learning_rate": 1.6252067639173197e-06,
      "loss": 0.876791,
      "num_input_tokens_seen": 102912830,
      "step": 4767,
      "time_per_iteration": 4.0773937702178955
    },
    {
      "auxiliary_loss_clip": 0.01089514,
      "auxiliary_loss_mlp": 0.0102095,
      "balance_loss_clip": 1.04256189,
      "balance_loss_mlp": 1.01559484,
      "epoch": 0.5733181025671857,
      "flos": 26361915125760.0,
      "grad_norm": 2.4791718826786417,
      "language_loss": 0.6996913,
      "learning_rate": 1.6244416207208956e-06,
      "loss": 0.72079599,
      "num_input_tokens_seen": 102933765,
      "step": 4768,
      "time_per_iteration": 2.571885347366333
    },
    {
      "auxiliary_loss_clip": 0.01055782,
      "auxiliary_loss_mlp": 0.01024044,
      "balance_loss_clip": 1.03482425,
      "balance_loss_mlp": 1.01877224,
      "epoch": 0.5734383454578248,
      "flos": 29426426536320.0,
      "grad_norm": 1.793399878004561,
      "language_loss": 0.73710984,
      "learning_rate": 1.6236765344963787e-06,
      "loss": 0.75790811,
      "num_input_tokens_seen": 102955025,
      "step": 4769,
      "time_per_iteration": 2.709655523300171
    },
    {
      "auxiliary_loss_clip": 0.01073724,
      "auxiliary_loss_mlp": 0.01023073,
      "balance_loss_clip": 1.03780937,
      "balance_loss_mlp": 1.01740766,
      "epoch": 0.5735585883484638,
      "flos": 34972828911360.0,
      "grad_norm": 2.436486781764792,
      "language_loss": 0.6900304,
      "learning_rate": 1.6229115053598322e-06,
      "loss": 0.71099836,
      "num_input_tokens_seen": 102976780,
      "step": 4770,
      "time_per_iteration": 2.6563186645507812
    },
    {
      "auxiliary_loss_clip": 0.01089944,
      "auxiliary_loss_mlp": 0.01025483,
      "balance_loss_clip": 1.04324341,
      "balance_loss_mlp": 1.01988578,
      "epoch": 0.573678831239103,
      "flos": 18772757930880.0,
      "grad_norm": 1.9680429033188986,
      "language_loss": 0.72165561,
      "learning_rate": 1.6221465334273108e-06,
      "loss": 0.74280989,
      "num_input_tokens_seen": 102995990,
      "step": 4771,
      "time_per_iteration": 2.560300588607788
    },
    {
      "auxiliary_loss_clip": 0.01063696,
      "auxiliary_loss_mlp": 0.0101838,
      "balance_loss_clip": 1.03825808,
      "balance_loss_mlp": 1.01278949,
      "epoch": 0.5737990741297421,
      "flos": 25705258485120.0,
      "grad_norm": 2.071406253575273,
      "language_loss": 0.61339349,
      "learning_rate": 1.6213816188148593e-06,
      "loss": 0.63421428,
      "num_input_tokens_seen": 103014695,
      "step": 4772,
      "time_per_iteration": 2.621163845062256
    },
    {
      "auxiliary_loss_clip": 0.01075656,
      "auxiliary_loss_mlp": 0.01019853,
      "balance_loss_clip": 1.04556441,
      "balance_loss_mlp": 1.01455414,
      "epoch": 0.5739193170203811,
      "flos": 27271555718400.0,
      "grad_norm": 4.591059343187797,
      "language_loss": 0.77178133,
      "learning_rate": 1.6206167616385162e-06,
      "loss": 0.79273641,
      "num_input_tokens_seen": 103035760,
      "step": 4773,
      "time_per_iteration": 3.4511444568634033
    },
    {
      "auxiliary_loss_clip": 0.0107972,
      "auxiliary_loss_mlp": 0.01023063,
      "balance_loss_clip": 1.04173815,
      "balance_loss_mlp": 1.01737356,
      "epoch": 0.5740395599110203,
      "flos": 12241351635840.0,
      "grad_norm": 2.12034081555046,
      "language_loss": 0.73579866,
      "learning_rate": 1.6198519620143078e-06,
      "loss": 0.75682652,
      "num_input_tokens_seen": 103052915,
      "step": 4774,
      "time_per_iteration": 2.5390892028808594
    },
    {
      "auxiliary_loss_clip": 0.01065607,
      "auxiliary_loss_mlp": 0.01022438,
      "balance_loss_clip": 1.03990734,
      "balance_loss_mlp": 1.01730919,
      "epoch": 0.5741598028016593,
      "flos": 25923764851200.0,
      "grad_norm": 1.6918877347124668,
      "language_loss": 0.78147614,
      "learning_rate": 1.6190872200582546e-06,
      "loss": 0.8023566,
      "num_input_tokens_seen": 103074655,
      "step": 4775,
      "time_per_iteration": 2.6931002140045166
    },
    {
      "auxiliary_loss_clip": 0.01077817,
      "auxiliary_loss_mlp": 0.00756786,
      "balance_loss_clip": 1.04049504,
      "balance_loss_mlp": 1.0018661,
      "epoch": 0.5742800456922984,
      "flos": 19246106234880.0,
      "grad_norm": 2.3903234695825506,
      "language_loss": 0.78032017,
      "learning_rate": 1.6183225358863676e-06,
      "loss": 0.79866618,
      "num_input_tokens_seen": 103091550,
      "step": 4776,
      "time_per_iteration": 2.5883266925811768
    },
    {
      "auxiliary_loss_clip": 0.01068118,
      "auxiliary_loss_mlp": 0.01020756,
      "balance_loss_clip": 1.03520155,
      "balance_loss_mlp": 1.01517355,
      "epoch": 0.5744002885829376,
      "flos": 30923161908480.0,
      "grad_norm": 2.4583835160059406,
      "language_loss": 0.72340858,
      "learning_rate": 1.617557909614648e-06,
      "loss": 0.74429733,
      "num_input_tokens_seen": 103110985,
      "step": 4777,
      "time_per_iteration": 2.6452386379241943
    },
    {
      "auxiliary_loss_clip": 0.01061647,
      "auxiliary_loss_mlp": 0.01019377,
      "balance_loss_clip": 1.03689575,
      "balance_loss_mlp": 1.01418519,
      "epoch": 0.5745205314735766,
      "flos": 23842171866240.0,
      "grad_norm": 1.9285012317006385,
      "language_loss": 0.86409122,
      "learning_rate": 1.6167933413590899e-06,
      "loss": 0.88490146,
      "num_input_tokens_seen": 103129890,
      "step": 4778,
      "time_per_iteration": 2.6812140941619873
    },
    {
      "auxiliary_loss_clip": 0.01093766,
      "auxiliary_loss_mlp": 0.01023578,
      "balance_loss_clip": 1.04488754,
      "balance_loss_mlp": 1.01803803,
      "epoch": 0.5746407743642157,
      "flos": 12313491926400.0,
      "grad_norm": 3.9486411008127345,
      "language_loss": 0.90280312,
      "learning_rate": 1.6160288312356773e-06,
      "loss": 0.92397654,
      "num_input_tokens_seen": 103147020,
      "step": 4779,
      "time_per_iteration": 2.5115745067596436
    },
    {
      "auxiliary_loss_clip": 0.01088591,
      "auxiliary_loss_mlp": 0.01017926,
      "balance_loss_clip": 1.03955781,
      "balance_loss_mlp": 1.01223075,
      "epoch": 0.5747610172548548,
      "flos": 24135927805440.0,
      "grad_norm": 1.780664175718255,
      "language_loss": 0.81970119,
      "learning_rate": 1.6152643793603857e-06,
      "loss": 0.84076637,
      "num_input_tokens_seen": 103167370,
      "step": 4780,
      "time_per_iteration": 2.6195316314697266
    },
    {
      "auxiliary_loss_clip": 0.01101909,
      "auxiliary_loss_mlp": 0.0101908,
      "balance_loss_clip": 1.04314923,
      "balance_loss_mlp": 1.0134654,
      "epoch": 0.5748812601454939,
      "flos": 25410668348160.0,
      "grad_norm": 1.6527874767591424,
      "language_loss": 0.87703764,
      "learning_rate": 1.6144999858491815e-06,
      "loss": 0.89824748,
      "num_input_tokens_seen": 103186000,
      "step": 4781,
      "time_per_iteration": 2.5644564628601074
    },
    {
      "auxiliary_loss_clip": 0.01076709,
      "auxiliary_loss_mlp": 0.01018324,
      "balance_loss_clip": 1.03842688,
      "balance_loss_mlp": 1.0122714,
      "epoch": 0.575001503036133,
      "flos": 30627396311040.0,
      "grad_norm": 1.7229899691331931,
      "language_loss": 0.85909474,
      "learning_rate": 1.6137356508180232e-06,
      "loss": 0.88004506,
      "num_input_tokens_seen": 103207710,
      "step": 4782,
      "time_per_iteration": 2.6680514812469482
    },
    {
      "auxiliary_loss_clip": 0.01099446,
      "auxiliary_loss_mlp": 0.00756594,
      "balance_loss_clip": 1.04051185,
      "balance_loss_mlp": 1.00192785,
      "epoch": 0.5751217459267721,
      "flos": 21728755560960.0,
      "grad_norm": 1.802942741133162,
      "language_loss": 0.81536186,
      "learning_rate": 1.6129713743828593e-06,
      "loss": 0.83392233,
      "num_input_tokens_seen": 103226720,
      "step": 4783,
      "time_per_iteration": 2.518407106399536
    },
    {
      "auxiliary_loss_clip": 0.01079666,
      "auxiliary_loss_mlp": 0.01019697,
      "balance_loss_clip": 1.04042459,
      "balance_loss_mlp": 1.01445222,
      "epoch": 0.5752419888174112,
      "flos": 21653695578240.0,
      "grad_norm": 2.1976239505840938,
      "language_loss": 0.75603724,
      "learning_rate": 1.6122071566596306e-06,
      "loss": 0.77703089,
      "num_input_tokens_seen": 103246995,
      "step": 4784,
      "time_per_iteration": 2.633455991744995
    },
    {
      "auxiliary_loss_clip": 0.010901,
      "auxiliary_loss_mlp": 0.01022295,
      "balance_loss_clip": 1.04167545,
      "balance_loss_mlp": 1.01662397,
      "epoch": 0.5753622317080502,
      "flos": 17777402375040.0,
      "grad_norm": 2.3078324113919346,
      "language_loss": 0.83260667,
      "learning_rate": 1.6114429977642674e-06,
      "loss": 0.85373068,
      "num_input_tokens_seen": 103261500,
      "step": 4785,
      "time_per_iteration": 2.4913570880889893
    },
    {
      "auxiliary_loss_clip": 0.01089666,
      "auxiliary_loss_mlp": 0.01019281,
      "balance_loss_clip": 1.04363608,
      "balance_loss_mlp": 1.01417565,
      "epoch": 0.5754824745986894,
      "flos": 19791518993280.0,
      "grad_norm": 2.3220946030606786,
      "language_loss": 0.738276,
      "learning_rate": 1.6106788978126926e-06,
      "loss": 0.75936544,
      "num_input_tokens_seen": 103280475,
      "step": 4786,
      "time_per_iteration": 2.583798885345459
    },
    {
      "auxiliary_loss_clip": 0.01051897,
      "auxiliary_loss_mlp": 0.01022067,
      "balance_loss_clip": 1.03556001,
      "balance_loss_mlp": 1.01618099,
      "epoch": 0.5756027174893285,
      "flos": 30987908173440.0,
      "grad_norm": 2.3677130650811087,
      "language_loss": 0.78820735,
      "learning_rate": 1.6099148569208196e-06,
      "loss": 0.80894697,
      "num_input_tokens_seen": 103297695,
      "step": 4787,
      "time_per_iteration": 2.6897904872894287
    },
    {
      "auxiliary_loss_clip": 0.01072615,
      "auxiliary_loss_mlp": 0.01021719,
      "balance_loss_clip": 1.04219484,
      "balance_loss_mlp": 1.01604807,
      "epoch": 0.5757229603799675,
      "flos": 28549291789440.0,
      "grad_norm": 1.6231428776548396,
      "language_loss": 0.63143992,
      "learning_rate": 1.6091508752045523e-06,
      "loss": 0.65238321,
      "num_input_tokens_seen": 103318575,
      "step": 4788,
      "time_per_iteration": 2.682673454284668
    },
    {
      "auxiliary_loss_clip": 0.01063266,
      "auxiliary_loss_mlp": 0.01019977,
      "balance_loss_clip": 1.03726923,
      "balance_loss_mlp": 1.01460993,
      "epoch": 0.5758432032706067,
      "flos": 23001031428480.0,
      "grad_norm": 1.6444458461971154,
      "language_loss": 0.86364645,
      "learning_rate": 1.608386952779787e-06,
      "loss": 0.88447893,
      "num_input_tokens_seen": 103337945,
      "step": 4789,
      "time_per_iteration": 2.633232831954956
    },
    {
      "auxiliary_loss_clip": 0.01077947,
      "auxiliary_loss_mlp": 0.01020458,
      "balance_loss_clip": 1.0404048,
      "balance_loss_mlp": 1.01523948,
      "epoch": 0.5759634461612457,
      "flos": 25742124910080.0,
      "grad_norm": 1.7139898463301988,
      "language_loss": 0.74601352,
      "learning_rate": 1.6076230897624098e-06,
      "loss": 0.76699758,
      "num_input_tokens_seen": 103360150,
      "step": 4790,
      "time_per_iteration": 2.664689540863037
    },
    {
      "auxiliary_loss_clip": 0.01092132,
      "auxiliary_loss_mlp": 0.01021885,
      "balance_loss_clip": 1.04164338,
      "balance_loss_mlp": 1.01610923,
      "epoch": 0.5760836890518848,
      "flos": 30594397530240.0,
      "grad_norm": 2.4632250863604463,
      "language_loss": 0.77435905,
      "learning_rate": 1.6068592862682974e-06,
      "loss": 0.79549921,
      "num_input_tokens_seen": 103378305,
      "step": 4791,
      "time_per_iteration": 3.42767071723938
    },
    {
      "auxiliary_loss_clip": 0.01076607,
      "auxiliary_loss_mlp": 0.01021119,
      "balance_loss_clip": 1.03975582,
      "balance_loss_mlp": 1.01593947,
      "epoch": 0.576203931942524,
      "flos": 36541932082560.0,
      "grad_norm": 1.8937300992134025,
      "language_loss": 0.74171609,
      "learning_rate": 1.6060955424133187e-06,
      "loss": 0.76269329,
      "num_input_tokens_seen": 103399230,
      "step": 4792,
      "time_per_iteration": 3.494133472442627
    },
    {
      "auxiliary_loss_clip": 0.01086281,
      "auxiliary_loss_mlp": 0.01019756,
      "balance_loss_clip": 1.04001439,
      "balance_loss_mlp": 1.01417398,
      "epoch": 0.576324174833163,
      "flos": 25519106292480.0,
      "grad_norm": 4.054946925145758,
      "language_loss": 0.89660394,
      "learning_rate": 1.6053318583133332e-06,
      "loss": 0.91766435,
      "num_input_tokens_seen": 103420100,
      "step": 4793,
      "time_per_iteration": 3.3623127937316895
    },
    {
      "auxiliary_loss_clip": 0.01086492,
      "auxiliary_loss_mlp": 0.0102083,
      "balance_loss_clip": 1.03982043,
      "balance_loss_mlp": 1.01547718,
      "epoch": 0.5764444177238021,
      "flos": 25121614250880.0,
      "grad_norm": 3.5073579537304487,
      "language_loss": 0.75549608,
      "learning_rate": 1.6045682340841907e-06,
      "loss": 0.77656925,
      "num_input_tokens_seen": 103439025,
      "step": 4794,
      "time_per_iteration": 2.564204454421997
    },
    {
      "auxiliary_loss_clip": 0.01030694,
      "auxiliary_loss_mlp": 0.00752365,
      "balance_loss_clip": 1.03129935,
      "balance_loss_mlp": 1.00136793,
      "epoch": 0.5765646606144411,
      "flos": 62218438611840.0,
      "grad_norm": 0.8480462753430519,
      "language_loss": 0.57952976,
      "learning_rate": 1.6038046698417336e-06,
      "loss": 0.59736037,
      "num_input_tokens_seen": 103499920,
      "step": 4795,
      "time_per_iteration": 3.2017555236816406
    },
    {
      "auxiliary_loss_clip": 0.01092871,
      "auxiliary_loss_mlp": 0.01017309,
      "balance_loss_clip": 1.04328656,
      "balance_loss_mlp": 1.01196575,
      "epoch": 0.5766849035050803,
      "flos": 25121083397760.0,
      "grad_norm": 2.3067856587069677,
      "language_loss": 0.68636912,
      "learning_rate": 1.6030411657017919e-06,
      "loss": 0.70747095,
      "num_input_tokens_seen": 103519575,
      "step": 4796,
      "time_per_iteration": 2.6167821884155273
    },
    {
      "auxiliary_loss_clip": 0.01093273,
      "auxiliary_loss_mlp": 0.01018427,
      "balance_loss_clip": 1.04266596,
      "balance_loss_mlp": 1.01319957,
      "epoch": 0.5768051463957193,
      "flos": 15992560857600.0,
      "grad_norm": 2.2397791535263645,
      "language_loss": 0.84503305,
      "learning_rate": 1.6022777217801903e-06,
      "loss": 0.86615008,
      "num_input_tokens_seen": 103536530,
      "step": 4797,
      "time_per_iteration": 2.502378225326538
    },
    {
      "auxiliary_loss_clip": 0.01057548,
      "auxiliary_loss_mlp": 0.01017547,
      "balance_loss_clip": 1.03823924,
      "balance_loss_mlp": 1.01227772,
      "epoch": 0.5769253892863584,
      "flos": 22165806211200.0,
      "grad_norm": 2.6960158618368424,
      "language_loss": 0.73959744,
      "learning_rate": 1.601514338192742e-06,
      "loss": 0.76034832,
      "num_input_tokens_seen": 103556460,
      "step": 4798,
      "time_per_iteration": 2.6660327911376953
    },
    {
      "auxiliary_loss_clip": 0.01100354,
      "auxiliary_loss_mlp": 0.0101668,
      "balance_loss_clip": 1.04194832,
      "balance_loss_mlp": 1.01161647,
      "epoch": 0.5770456321769976,
      "flos": 22858570915200.0,
      "grad_norm": 2.57926367480221,
      "language_loss": 0.71679026,
      "learning_rate": 1.6007510150552514e-06,
      "loss": 0.73796058,
      "num_input_tokens_seen": 103574520,
      "step": 4799,
      "time_per_iteration": 2.5404558181762695
    },
    {
      "auxiliary_loss_clip": 0.01093364,
      "auxiliary_loss_mlp": 0.01019512,
      "balance_loss_clip": 1.04248142,
      "balance_loss_mlp": 1.01359344,
      "epoch": 0.5771658750676366,
      "flos": 46357190352000.0,
      "grad_norm": 1.9052772797484496,
      "language_loss": 0.62463987,
      "learning_rate": 1.599987752483515e-06,
      "loss": 0.64576852,
      "num_input_tokens_seen": 103598965,
      "step": 4800,
      "time_per_iteration": 3.5617129802703857
    },
    {
      "auxiliary_loss_clip": 0.01066346,
      "auxiliary_loss_mlp": 0.01021244,
      "balance_loss_clip": 1.03850484,
      "balance_loss_mlp": 1.01582575,
      "epoch": 0.5772861179582757,
      "flos": 22161938567040.0,
      "grad_norm": 1.9694594151354856,
      "language_loss": 0.68050039,
      "learning_rate": 1.5992245505933184e-06,
      "loss": 0.70137626,
      "num_input_tokens_seen": 103618665,
      "step": 4801,
      "time_per_iteration": 2.599794864654541
    },
    {
      "auxiliary_loss_clip": 0.01103082,
      "auxiliary_loss_mlp": 0.0102147,
      "balance_loss_clip": 1.04346395,
      "balance_loss_mlp": 1.01632941,
      "epoch": 0.5774063608489148,
      "flos": 31251622942080.0,
      "grad_norm": 1.8454092802910755,
      "language_loss": 0.70976603,
      "learning_rate": 1.5984614095004388e-06,
      "loss": 0.73101157,
      "num_input_tokens_seen": 103639800,
      "step": 4802,
      "time_per_iteration": 2.5963003635406494
    },
    {
      "auxiliary_loss_clip": 0.01092413,
      "auxiliary_loss_mlp": 0.01023095,
      "balance_loss_clip": 1.04210377,
      "balance_loss_mlp": 1.01791239,
      "epoch": 0.5775266037395539,
      "flos": 22529237765760.0,
      "grad_norm": 3.12494262350731,
      "language_loss": 0.81034076,
      "learning_rate": 1.5976983293206438e-06,
      "loss": 0.83149582,
      "num_input_tokens_seen": 103655605,
      "step": 4803,
      "time_per_iteration": 2.5278749465942383
    },
    {
      "auxiliary_loss_clip": 0.01080044,
      "auxiliary_loss_mlp": 0.01017933,
      "balance_loss_clip": 1.0399096,
      "balance_loss_mlp": 1.01282835,
      "epoch": 0.577646846630193,
      "flos": 21070885541760.0,
      "grad_norm": 7.155191210288847,
      "language_loss": 0.71168399,
      "learning_rate": 1.5969353101696928e-06,
      "loss": 0.73266375,
      "num_input_tokens_seen": 103674045,
      "step": 4804,
      "time_per_iteration": 2.5639543533325195
    },
    {
      "auxiliary_loss_clip": 0.01087145,
      "auxiliary_loss_mlp": 0.01019305,
      "balance_loss_clip": 1.03918123,
      "balance_loss_mlp": 1.01419127,
      "epoch": 0.5777670895208321,
      "flos": 29716769848320.0,
      "grad_norm": 2.254414680488879,
      "language_loss": 0.79677814,
      "learning_rate": 1.5961723521633341e-06,
      "loss": 0.81784266,
      "num_input_tokens_seen": 103695285,
      "step": 4805,
      "time_per_iteration": 2.614196300506592
    },
    {
      "auxiliary_loss_clip": 0.01078029,
      "auxiliary_loss_mlp": 0.0102233,
      "balance_loss_clip": 1.04195952,
      "balance_loss_mlp": 1.01721287,
      "epoch": 0.5778873324114712,
      "flos": 19502464896000.0,
      "grad_norm": 2.1141357697525014,
      "language_loss": 0.91168201,
      "learning_rate": 1.5954094554173097e-06,
      "loss": 0.93268561,
      "num_input_tokens_seen": 103713275,
      "step": 4806,
      "time_per_iteration": 2.572737455368042
    },
    {
      "auxiliary_loss_clip": 0.01080677,
      "auxiliary_loss_mlp": 0.01018731,
      "balance_loss_clip": 1.04263425,
      "balance_loss_mlp": 1.01374173,
      "epoch": 0.5780075753021102,
      "flos": 14138574577920.0,
      "grad_norm": 2.0732875120113468,
      "language_loss": 0.79401076,
      "learning_rate": 1.5946466200473482e-06,
      "loss": 0.81500483,
      "num_input_tokens_seen": 103731185,
      "step": 4807,
      "time_per_iteration": 2.5280377864837646
    },
    {
      "auxiliary_loss_clip": 0.01082699,
      "auxiliary_loss_mlp": 0.01023148,
      "balance_loss_clip": 1.04314947,
      "balance_loss_mlp": 1.01784921,
      "epoch": 0.5781278181927494,
      "flos": 15263650172160.0,
      "grad_norm": 1.789701653634527,
      "language_loss": 0.83340663,
      "learning_rate": 1.5938838461691723e-06,
      "loss": 0.85446507,
      "num_input_tokens_seen": 103748095,
      "step": 4808,
      "time_per_iteration": 2.5862770080566406
    },
    {
      "auxiliary_loss_clip": 0.01104912,
      "auxiliary_loss_mlp": 0.01024098,
      "balance_loss_clip": 1.04561114,
      "balance_loss_mlp": 1.01882005,
      "epoch": 0.5782480610833884,
      "flos": 16728675978240.0,
      "grad_norm": 2.3635828286115985,
      "language_loss": 0.8264277,
      "learning_rate": 1.593121133898494e-06,
      "loss": 0.84771776,
      "num_input_tokens_seen": 103765300,
      "step": 4809,
      "time_per_iteration": 2.465834856033325
    },
    {
      "auxiliary_loss_clip": 0.01090207,
      "auxiliary_loss_mlp": 0.01019708,
      "balance_loss_clip": 1.04082036,
      "balance_loss_mlp": 1.01440048,
      "epoch": 0.5783683039740275,
      "flos": 25484401198080.0,
      "grad_norm": 2.342377917272589,
      "language_loss": 0.79455435,
      "learning_rate": 1.592358483351016e-06,
      "loss": 0.81565344,
      "num_input_tokens_seen": 103785475,
      "step": 4810,
      "time_per_iteration": 2.596176862716675
    },
    {
      "auxiliary_loss_clip": 0.01086734,
      "auxiliary_loss_mlp": 0.01019334,
      "balance_loss_clip": 1.04106224,
      "balance_loss_mlp": 1.0144558,
      "epoch": 0.5784885468646667,
      "flos": 18407809653120.0,
      "grad_norm": 1.8569249892428916,
      "language_loss": 0.72024477,
      "learning_rate": 1.5915958946424326e-06,
      "loss": 0.74130547,
      "num_input_tokens_seen": 103804160,
      "step": 4811,
      "time_per_iteration": 2.5048065185546875
    },
    {
      "auxiliary_loss_clip": 0.01064388,
      "auxiliary_loss_mlp": 0.00756902,
      "balance_loss_clip": 1.0426929,
      "balance_loss_mlp": 1.00196171,
      "epoch": 0.5786087897553057,
      "flos": 46104358072320.0,
      "grad_norm": 7.229390116157696,
      "language_loss": 0.74500477,
      "learning_rate": 1.5908333678884271e-06,
      "loss": 0.76321763,
      "num_input_tokens_seen": 103830580,
      "step": 4812,
      "time_per_iteration": 2.885871410369873
    },
    {
      "auxiliary_loss_clip": 0.01087155,
      "auxiliary_loss_mlp": 0.01022845,
      "balance_loss_clip": 1.041327,
      "balance_loss_mlp": 1.01757002,
      "epoch": 0.5787290326459448,
      "flos": 12387603957120.0,
      "grad_norm": 1.9889284482039231,
      "language_loss": 0.74430275,
      "learning_rate": 1.5900709032046743e-06,
      "loss": 0.76540273,
      "num_input_tokens_seen": 103848655,
      "step": 4813,
      "time_per_iteration": 2.5577924251556396
    },
    {
      "auxiliary_loss_clip": 0.01068745,
      "auxiliary_loss_mlp": 0.01019797,
      "balance_loss_clip": 1.03669071,
      "balance_loss_mlp": 1.0145309,
      "epoch": 0.5788492755365839,
      "flos": 23292322692480.0,
      "grad_norm": 2.801977748995366,
      "language_loss": 0.78530437,
      "learning_rate": 1.5893085007068391e-06,
      "loss": 0.80618978,
      "num_input_tokens_seen": 103866215,
      "step": 4814,
      "time_per_iteration": 2.587414026260376
    },
    {
      "auxiliary_loss_clip": 0.0107935,
      "auxiliary_loss_mlp": 0.01022072,
      "balance_loss_clip": 1.03994882,
      "balance_loss_mlp": 1.01615596,
      "epoch": 0.578969518427223,
      "flos": 24063332497920.0,
      "grad_norm": 1.9012870874353445,
      "language_loss": 0.70848602,
      "learning_rate": 1.5885461605105786e-06,
      "loss": 0.72950023,
      "num_input_tokens_seen": 103887815,
      "step": 4815,
      "time_per_iteration": 2.6238648891448975
    },
    {
      "auxiliary_loss_clip": 0.0107486,
      "auxiliary_loss_mlp": 0.01018683,
      "balance_loss_clip": 1.04311514,
      "balance_loss_mlp": 1.01316679,
      "epoch": 0.579089761317862,
      "flos": 21873984094080.0,
      "grad_norm": 2.6295323352283906,
      "language_loss": 0.76965249,
      "learning_rate": 1.5877838827315375e-06,
      "loss": 0.7905879,
      "num_input_tokens_seen": 103906360,
      "step": 4816,
      "time_per_iteration": 2.5570790767669678
    },
    {
      "auxiliary_loss_clip": 0.01102752,
      "auxiliary_loss_mlp": 0.01021842,
      "balance_loss_clip": 1.04390931,
      "balance_loss_mlp": 1.01645637,
      "epoch": 0.5792100042085012,
      "flos": 22931886666240.0,
      "grad_norm": 1.8388242860581194,
      "language_loss": 0.70406324,
      "learning_rate": 1.587021667485355e-06,
      "loss": 0.72530913,
      "num_input_tokens_seen": 103925730,
      "step": 4817,
      "time_per_iteration": 3.3468809127807617
    },
    {
      "auxiliary_loss_clip": 0.0108153,
      "auxiliary_loss_mlp": 0.01014968,
      "balance_loss_clip": 1.0415498,
      "balance_loss_mlp": 1.00967264,
      "epoch": 0.5793302470991403,
      "flos": 21472169391360.0,
      "grad_norm": 2.043986480186522,
      "language_loss": 0.78570479,
      "learning_rate": 1.5862595148876559e-06,
      "loss": 0.80666977,
      "num_input_tokens_seen": 103945835,
      "step": 4818,
      "time_per_iteration": 3.4592103958129883
    },
    {
      "auxiliary_loss_clip": 0.01053001,
      "auxiliary_loss_mlp": 0.01021036,
      "balance_loss_clip": 1.0419023,
      "balance_loss_mlp": 1.01568055,
      "epoch": 0.5794504899897793,
      "flos": 12712500691200.0,
      "grad_norm": 2.3241436594109373,
      "language_loss": 0.76627243,
      "learning_rate": 1.58549742505406e-06,
      "loss": 0.78701282,
      "num_input_tokens_seen": 103960580,
      "step": 4819,
      "time_per_iteration": 2.6580374240875244
    },
    {
      "auxiliary_loss_clip": 0.01102079,
      "auxiliary_loss_mlp": 0.01020324,
      "balance_loss_clip": 1.04326296,
      "balance_loss_mlp": 1.0149684,
      "epoch": 0.5795707328804185,
      "flos": 14868850314240.0,
      "grad_norm": 2.912807583027241,
      "language_loss": 0.75655687,
      "learning_rate": 1.5847353981001747e-06,
      "loss": 0.77778089,
      "num_input_tokens_seen": 103977760,
      "step": 4820,
      "time_per_iteration": 2.529618263244629
    },
    {
      "auxiliary_loss_clip": 0.01080519,
      "auxiliary_loss_mlp": 0.01021078,
      "balance_loss_clip": 1.04078555,
      "balance_loss_mlp": 1.01575184,
      "epoch": 0.5796909757710575,
      "flos": 36433039121280.0,
      "grad_norm": 2.072762365413568,
      "language_loss": 0.69986922,
      "learning_rate": 1.5839734341415993e-06,
      "loss": 0.72088516,
      "num_input_tokens_seen": 103999960,
      "step": 4821,
      "time_per_iteration": 2.7101407051086426
    },
    {
      "auxiliary_loss_clip": 0.01082682,
      "auxiliary_loss_mlp": 0.01019725,
      "balance_loss_clip": 1.04126334,
      "balance_loss_mlp": 1.01460195,
      "epoch": 0.5798112186616966,
      "flos": 23042144678400.0,
      "grad_norm": 2.1217633006084142,
      "language_loss": 0.76423794,
      "learning_rate": 1.5832115332939238e-06,
      "loss": 0.78526205,
      "num_input_tokens_seen": 104018400,
      "step": 4822,
      "time_per_iteration": 2.5827808380126953
    },
    {
      "auxiliary_loss_clip": 0.01089865,
      "auxiliary_loss_mlp": 0.0102247,
      "balance_loss_clip": 1.04189801,
      "balance_loss_mlp": 1.01697755,
      "epoch": 0.5799314615523358,
      "flos": 16654374357120.0,
      "grad_norm": 2.8186013562498102,
      "language_loss": 0.7452234,
      "learning_rate": 1.5824496956727272e-06,
      "loss": 0.76634675,
      "num_input_tokens_seen": 104035605,
      "step": 4823,
      "time_per_iteration": 2.5196733474731445
    },
    {
      "auxiliary_loss_clip": 0.01077484,
      "auxiliary_loss_mlp": 0.01021294,
      "balance_loss_clip": 1.03918886,
      "balance_loss_mlp": 1.01616848,
      "epoch": 0.5800517044429748,
      "flos": 20487772160640.0,
      "grad_norm": 1.6792271152096794,
      "language_loss": 0.7324394,
      "learning_rate": 1.5816879213935797e-06,
      "loss": 0.75342715,
      "num_input_tokens_seen": 104054415,
      "step": 4824,
      "time_per_iteration": 2.6102514266967773
    },
    {
      "auxiliary_loss_clip": 0.01087089,
      "auxiliary_loss_mlp": 0.01022941,
      "balance_loss_clip": 1.04069185,
      "balance_loss_mlp": 1.01802063,
      "epoch": 0.5801719473336139,
      "flos": 31540828711680.0,
      "grad_norm": 2.08718026668285,
      "language_loss": 0.7950303,
      "learning_rate": 1.5809262105720416e-06,
      "loss": 0.81613064,
      "num_input_tokens_seen": 104075455,
      "step": 4825,
      "time_per_iteration": 3.3714418411254883
    },
    {
      "auxiliary_loss_clip": 0.01100663,
      "auxiliary_loss_mlp": 0.01021333,
      "balance_loss_clip": 1.04256964,
      "balance_loss_mlp": 1.01626372,
      "epoch": 0.580292190224253,
      "flos": 20378045001600.0,
      "grad_norm": 1.5019618022257053,
      "language_loss": 0.79120308,
      "learning_rate": 1.5801645633236644e-06,
      "loss": 0.81242311,
      "num_input_tokens_seen": 104096440,
      "step": 4826,
      "time_per_iteration": 2.5836374759674072
    },
    {
      "auxiliary_loss_clip": 0.01077488,
      "auxiliary_loss_mlp": 0.01024771,
      "balance_loss_clip": 1.04006565,
      "balance_loss_mlp": 1.01942992,
      "epoch": 0.5804124331148921,
      "flos": 26617818769920.0,
      "grad_norm": 1.9258520194374877,
      "language_loss": 0.76923811,
      "learning_rate": 1.579402979763989e-06,
      "loss": 0.79026067,
      "num_input_tokens_seen": 104116775,
      "step": 4827,
      "time_per_iteration": 2.632479190826416
    },
    {
      "auxiliary_loss_clip": 0.01038195,
      "auxiliary_loss_mlp": 0.0101703,
      "balance_loss_clip": 1.03604496,
      "balance_loss_mlp": 1.011922,
      "epoch": 0.5805326760055312,
      "flos": 13480097869440.0,
      "grad_norm": 2.801281717655479,
      "language_loss": 0.81290483,
      "learning_rate": 1.578641460008548e-06,
      "loss": 0.83345711,
      "num_input_tokens_seen": 104134510,
      "step": 4828,
      "time_per_iteration": 2.730823040008545
    },
    {
      "auxiliary_loss_clip": 0.01088354,
      "auxiliary_loss_mlp": 0.01020265,
      "balance_loss_clip": 1.04133999,
      "balance_loss_mlp": 1.01466537,
      "epoch": 0.5806529188961702,
      "flos": 12092862147840.0,
      "grad_norm": 2.006372715812652,
      "language_loss": 0.68095005,
      "learning_rate": 1.5778800041728613e-06,
      "loss": 0.70203626,
      "num_input_tokens_seen": 104150800,
      "step": 4829,
      "time_per_iteration": 2.483421802520752
    },
    {
      "auxiliary_loss_clip": 0.01084584,
      "auxiliary_loss_mlp": 0.01016395,
      "balance_loss_clip": 1.03956437,
      "balance_loss_mlp": 1.01123285,
      "epoch": 0.5807731617868094,
      "flos": 26216534920320.0,
      "grad_norm": 1.5836775632907187,
      "language_loss": 0.66106129,
      "learning_rate": 1.577118612372443e-06,
      "loss": 0.68207109,
      "num_input_tokens_seen": 104172640,
      "step": 4830,
      "time_per_iteration": 2.599318742752075
    },
    {
      "auxiliary_loss_clip": 0.01078242,
      "auxiliary_loss_mlp": 0.00756711,
      "balance_loss_clip": 1.03881121,
      "balance_loss_mlp": 1.00197911,
      "epoch": 0.5808934046774484,
      "flos": 37965200031360.0,
      "grad_norm": 2.180763519823831,
      "language_loss": 0.70473641,
      "learning_rate": 1.5763572847227943e-06,
      "loss": 0.72308588,
      "num_input_tokens_seen": 104193525,
      "step": 4831,
      "time_per_iteration": 2.716736078262329
    },
    {
      "auxiliary_loss_clip": 0.01087362,
      "auxiliary_loss_mlp": 0.01021966,
      "balance_loss_clip": 1.0399332,
      "balance_loss_mlp": 1.01700115,
      "epoch": 0.5810136475680875,
      "flos": 20487961751040.0,
      "grad_norm": 1.8779386582655284,
      "language_loss": 0.8122167,
      "learning_rate": 1.5755960213394091e-06,
      "loss": 0.83331001,
      "num_input_tokens_seen": 104210625,
      "step": 4832,
      "time_per_iteration": 2.599066734313965
    },
    {
      "auxiliary_loss_clip": 0.01066597,
      "auxiliary_loss_mlp": 0.01022437,
      "balance_loss_clip": 1.04128802,
      "balance_loss_mlp": 1.01715565,
      "epoch": 0.5811338904587267,
      "flos": 17532077875200.0,
      "grad_norm": 1.9004107317671064,
      "language_loss": 0.78078067,
      "learning_rate": 1.5748348223377703e-06,
      "loss": 0.80167097,
      "num_input_tokens_seen": 104228180,
      "step": 4833,
      "time_per_iteration": 2.5653696060180664
    },
    {
      "auxiliary_loss_clip": 0.01068625,
      "auxiliary_loss_mlp": 0.01021744,
      "balance_loss_clip": 1.03591275,
      "balance_loss_mlp": 1.01668048,
      "epoch": 0.5812541333493657,
      "flos": 19459721168640.0,
      "grad_norm": 1.622634590045026,
      "language_loss": 0.78119218,
      "learning_rate": 1.5740736878333507e-06,
      "loss": 0.80209589,
      "num_input_tokens_seen": 104246020,
      "step": 4834,
      "time_per_iteration": 2.5764403343200684
    },
    {
      "auxiliary_loss_clip": 0.01079152,
      "auxiliary_loss_mlp": 0.01019745,
      "balance_loss_clip": 1.04078352,
      "balance_loss_mlp": 1.01426136,
      "epoch": 0.5813743762400048,
      "flos": 20597044302720.0,
      "grad_norm": 2.361742082611297,
      "language_loss": 0.78394437,
      "learning_rate": 1.5733126179416143e-06,
      "loss": 0.80493331,
      "num_input_tokens_seen": 104260505,
      "step": 4835,
      "time_per_iteration": 2.5848424434661865
    },
    {
      "auxiliary_loss_clip": 0.01087379,
      "auxiliary_loss_mlp": 0.01018575,
      "balance_loss_clip": 1.04027498,
      "balance_loss_mlp": 1.01322806,
      "epoch": 0.5814946191306439,
      "flos": 33180782958720.0,
      "grad_norm": 2.349301313478638,
      "language_loss": 0.73117483,
      "learning_rate": 1.5725516127780137e-06,
      "loss": 0.75223434,
      "num_input_tokens_seen": 104282640,
      "step": 4836,
      "time_per_iteration": 2.645784378051758
    },
    {
      "auxiliary_loss_clip": 0.01091043,
      "auxiliary_loss_mlp": 0.01022128,
      "balance_loss_clip": 1.04075575,
      "balance_loss_mlp": 1.01654959,
      "epoch": 0.581614862021283,
      "flos": 16145107580160.0,
      "grad_norm": 2.390913327811231,
      "language_loss": 0.88593119,
      "learning_rate": 1.5717906724579943e-06,
      "loss": 0.90706295,
      "num_input_tokens_seen": 104299700,
      "step": 4837,
      "time_per_iteration": 2.5573933124542236
    },
    {
      "auxiliary_loss_clip": 0.0107557,
      "auxiliary_loss_mlp": 0.01019823,
      "balance_loss_clip": 1.04424834,
      "balance_loss_mlp": 1.01451182,
      "epoch": 0.581735104911922,
      "flos": 33805464606720.0,
      "grad_norm": 2.2059407018982906,
      "language_loss": 0.68225312,
      "learning_rate": 1.571029797096989e-06,
      "loss": 0.70320708,
      "num_input_tokens_seen": 104320805,
      "step": 4838,
      "time_per_iteration": 2.74283766746521
    },
    {
      "auxiliary_loss_clip": 0.01101244,
      "auxiliary_loss_mlp": 0.01021504,
      "balance_loss_clip": 1.042068,
      "balance_loss_mlp": 1.01627064,
      "epoch": 0.5818553478025612,
      "flos": 23333398024320.0,
      "grad_norm": 1.8564629261148387,
      "language_loss": 0.79511356,
      "learning_rate": 1.570268986810423e-06,
      "loss": 0.81634104,
      "num_input_tokens_seen": 104340700,
      "step": 4839,
      "time_per_iteration": 2.5869598388671875
    },
    {
      "auxiliary_loss_clip": 0.01070531,
      "auxiliary_loss_mlp": 0.01019296,
      "balance_loss_clip": 1.03506351,
      "balance_loss_mlp": 1.01430106,
      "epoch": 0.5819755906932003,
      "flos": 20998252316160.0,
      "grad_norm": 1.9694339755919161,
      "language_loss": 0.74893481,
      "learning_rate": 1.5695082417137096e-06,
      "loss": 0.76983309,
      "num_input_tokens_seen": 104358575,
      "step": 4840,
      "time_per_iteration": 2.5544519424438477
    },
    {
      "auxiliary_loss_clip": 0.01075517,
      "auxiliary_loss_mlp": 0.0101891,
      "balance_loss_clip": 1.03746963,
      "balance_loss_mlp": 1.01381123,
      "epoch": 0.5820958335838393,
      "flos": 21433672488960.0,
      "grad_norm": 2.103629360711282,
      "language_loss": 0.75436604,
      "learning_rate": 1.5687475619222539e-06,
      "loss": 0.77531028,
      "num_input_tokens_seen": 104378530,
      "step": 4841,
      "time_per_iteration": 2.646791458129883
    },
    {
      "auxiliary_loss_clip": 0.01083946,
      "auxiliary_loss_mlp": 0.0101947,
      "balance_loss_clip": 1.04338169,
      "balance_loss_mlp": 1.01397121,
      "epoch": 0.5822160764744785,
      "flos": 17969393952000.0,
      "grad_norm": 4.068520275491454,
      "language_loss": 0.73407799,
      "learning_rate": 1.5679869475514496e-06,
      "loss": 0.75511217,
      "num_input_tokens_seen": 104395465,
      "step": 4842,
      "time_per_iteration": 2.529552698135376
    },
    {
      "auxiliary_loss_clip": 0.01089829,
      "auxiliary_loss_mlp": 0.01021399,
      "balance_loss_clip": 1.04238963,
      "balance_loss_mlp": 1.01555467,
      "epoch": 0.5823363193651175,
      "flos": 23035774440960.0,
      "grad_norm": 3.801806990223375,
      "language_loss": 0.8124851,
      "learning_rate": 1.567226398716682e-06,
      "loss": 0.83359742,
      "num_input_tokens_seen": 104415380,
      "step": 4843,
      "time_per_iteration": 3.3924851417541504
    },
    {
      "auxiliary_loss_clip": 0.0108109,
      "auxiliary_loss_mlp": 0.01015433,
      "balance_loss_clip": 1.04185426,
      "balance_loss_mlp": 1.00943398,
      "epoch": 0.5824565622557566,
      "flos": 32894686471680.0,
      "grad_norm": 2.803192038199386,
      "language_loss": 0.61776084,
      "learning_rate": 1.566465915533326e-06,
      "loss": 0.63872606,
      "num_input_tokens_seen": 104437410,
      "step": 4844,
      "time_per_iteration": 4.164021730422974
    },
    {
      "auxiliary_loss_clip": 0.01086807,
      "auxiliary_loss_mlp": 0.01020502,
      "balance_loss_clip": 1.04080474,
      "balance_loss_mlp": 1.01507783,
      "epoch": 0.5825768051463958,
      "flos": 22231462510080.0,
      "grad_norm": 3.16698419860094,
      "language_loss": 0.88529569,
      "learning_rate": 1.5657054981167458e-06,
      "loss": 0.90636885,
      "num_input_tokens_seen": 104456305,
      "step": 4845,
      "time_per_iteration": 2.5247602462768555
    },
    {
      "auxiliary_loss_clip": 0.01091105,
      "auxiliary_loss_mlp": 0.01019378,
      "balance_loss_clip": 1.04220498,
      "balance_loss_mlp": 1.01445222,
      "epoch": 0.5826970480370348,
      "flos": 28004068621440.0,
      "grad_norm": 1.767815983092744,
      "language_loss": 0.67316222,
      "learning_rate": 1.5649451465822965e-06,
      "loss": 0.69426709,
      "num_input_tokens_seen": 104477695,
      "step": 4846,
      "time_per_iteration": 2.6211259365081787
    },
    {
      "auxiliary_loss_clip": 0.0104473,
      "auxiliary_loss_mlp": 0.01021606,
      "balance_loss_clip": 1.03414249,
      "balance_loss_mlp": 1.01642382,
      "epoch": 0.5828172909276739,
      "flos": 17859970137600.0,
      "grad_norm": 1.708844990313146,
      "language_loss": 0.83825469,
      "learning_rate": 1.5641848610453218e-06,
      "loss": 0.85891807,
      "num_input_tokens_seen": 104496355,
      "step": 4847,
      "time_per_iteration": 2.6536076068878174
    },
    {
      "auxiliary_loss_clip": 0.01082819,
      "auxiliary_loss_mlp": 0.01019589,
      "balance_loss_clip": 1.04053187,
      "balance_loss_mlp": 1.01428378,
      "epoch": 0.582937533818313,
      "flos": 19867299419520.0,
      "grad_norm": 2.2944917214704983,
      "language_loss": 0.86325139,
      "learning_rate": 1.563424641621158e-06,
      "loss": 0.88427556,
      "num_input_tokens_seen": 104515535,
      "step": 4848,
      "time_per_iteration": 2.55096697807312
    },
    {
      "auxiliary_loss_clip": 0.01078509,
      "auxiliary_loss_mlp": 0.01020554,
      "balance_loss_clip": 1.04161489,
      "balance_loss_mlp": 1.01516843,
      "epoch": 0.5830577767089521,
      "flos": 26873191560960.0,
      "grad_norm": 1.9888963921343346,
      "language_loss": 0.69737017,
      "learning_rate": 1.5626644884251282e-06,
      "loss": 0.71836084,
      "num_input_tokens_seen": 104535055,
      "step": 4849,
      "time_per_iteration": 2.604645252227783
    },
    {
      "auxiliary_loss_clip": 0.01101635,
      "auxiliary_loss_mlp": 0.01019606,
      "balance_loss_clip": 1.04265022,
      "balance_loss_mlp": 1.01459599,
      "epoch": 0.5831780195995911,
      "flos": 25300372417920.0,
      "grad_norm": 1.6553335884813218,
      "language_loss": 0.88050783,
      "learning_rate": 1.5619044015725488e-06,
      "loss": 0.90172029,
      "num_input_tokens_seen": 104554745,
      "step": 4850,
      "time_per_iteration": 2.599351406097412
    },
    {
      "auxiliary_loss_clip": 0.01106201,
      "auxiliary_loss_mlp": 0.01021686,
      "balance_loss_clip": 1.046,
      "balance_loss_mlp": 1.01569247,
      "epoch": 0.5832982624902303,
      "flos": 14758743974400.0,
      "grad_norm": 2.339114509607426,
      "language_loss": 0.87011045,
      "learning_rate": 1.5611443811787224e-06,
      "loss": 0.89138931,
      "num_input_tokens_seen": 104568870,
      "step": 4851,
      "time_per_iteration": 3.2134487628936768
    },
    {
      "auxiliary_loss_clip": 0.01088541,
      "auxiliary_loss_mlp": 0.01017761,
      "balance_loss_clip": 1.04199326,
      "balance_loss_mlp": 1.01255727,
      "epoch": 0.5834185053808694,
      "flos": 20446393484160.0,
      "grad_norm": 2.244977417672288,
      "language_loss": 0.69513965,
      "learning_rate": 1.560384427358945e-06,
      "loss": 0.71620268,
      "num_input_tokens_seen": 104588415,
      "step": 4852,
      "time_per_iteration": 2.5480763912200928
    },
    {
      "auxiliary_loss_clip": 0.0108185,
      "auxiliary_loss_mlp": 0.01022142,
      "balance_loss_clip": 1.04104567,
      "balance_loss_mlp": 1.01689959,
      "epoch": 0.5835387482715084,
      "flos": 27202941809280.0,
      "grad_norm": 1.6050274952241241,
      "language_loss": 0.72914708,
      "learning_rate": 1.5596245402284998e-06,
      "loss": 0.75018704,
      "num_input_tokens_seen": 104611940,
      "step": 4853,
      "time_per_iteration": 2.6309516429901123
    },
    {
      "auxiliary_loss_clip": 0.0109113,
      "auxiliary_loss_mlp": 0.01018709,
      "balance_loss_clip": 1.0437181,
      "balance_loss_mlp": 1.01335311,
      "epoch": 0.5836589911621476,
      "flos": 16656497769600.0,
      "grad_norm": 1.7306973013313978,
      "language_loss": 0.8194778,
      "learning_rate": 1.5588647199026619e-06,
      "loss": 0.84057617,
      "num_input_tokens_seen": 104629675,
      "step": 4854,
      "time_per_iteration": 2.55526065826416
    },
    {
      "auxiliary_loss_clip": 0.01108577,
      "auxiliary_loss_mlp": 0.01020706,
      "balance_loss_clip": 1.04846668,
      "balance_loss_mlp": 1.01539826,
      "epoch": 0.5837792340527866,
      "flos": 20448782323200.0,
      "grad_norm": 2.200767344646592,
      "language_loss": 0.871755,
      "learning_rate": 1.5581049664966956e-06,
      "loss": 0.89304781,
      "num_input_tokens_seen": 104647435,
      "step": 4855,
      "time_per_iteration": 2.477644443511963
    },
    {
      "auxiliary_loss_clip": 0.01010335,
      "auxiliary_loss_mlp": 0.01004973,
      "balance_loss_clip": 1.02995503,
      "balance_loss_mlp": 1.00306594,
      "epoch": 0.5838994769434257,
      "flos": 66000788628480.0,
      "grad_norm": 0.9905116616497032,
      "language_loss": 0.65020353,
      "learning_rate": 1.5573452801258545e-06,
      "loss": 0.67035663,
      "num_input_tokens_seen": 104694605,
      "step": 4856,
      "time_per_iteration": 3.152484655380249
    },
    {
      "auxiliary_loss_clip": 0.0109216,
      "auxiliary_loss_mlp": 0.01024929,
      "balance_loss_clip": 1.04193723,
      "balance_loss_mlp": 1.01962686,
      "epoch": 0.5840197198340649,
      "flos": 21472662326400.0,
      "grad_norm": 1.87438953549529,
      "language_loss": 0.63234001,
      "learning_rate": 1.5565856609053824e-06,
      "loss": 0.65351093,
      "num_input_tokens_seen": 104713400,
      "step": 4857,
      "time_per_iteration": 2.866130828857422
    },
    {
      "auxiliary_loss_clip": 0.01103006,
      "auxiliary_loss_mlp": 0.01018817,
      "balance_loss_clip": 1.04429102,
      "balance_loss_mlp": 1.01325297,
      "epoch": 0.5841399627247039,
      "flos": 19137137437440.0,
      "grad_norm": 1.9975979673309003,
      "language_loss": 0.80253696,
      "learning_rate": 1.5558261089505127e-06,
      "loss": 0.8237552,
      "num_input_tokens_seen": 104732130,
      "step": 4858,
      "time_per_iteration": 2.520892381668091
    },
    {
      "auxiliary_loss_clip": 0.01093284,
      "auxiliary_loss_mlp": 0.01018552,
      "balance_loss_clip": 1.04577756,
      "balance_loss_mlp": 1.01324129,
      "epoch": 0.584260205615343,
      "flos": 26427723096960.0,
      "grad_norm": 1.8645729384303396,
      "language_loss": 0.79977167,
      "learning_rate": 1.5550666243764697e-06,
      "loss": 0.82089007,
      "num_input_tokens_seen": 104750290,
      "step": 4859,
      "time_per_iteration": 2.6090919971466064
    },
    {
      "auxiliary_loss_clip": 0.01088995,
      "auxiliary_loss_mlp": 0.01023147,
      "balance_loss_clip": 1.04162323,
      "balance_loss_mlp": 1.01773536,
      "epoch": 0.584380448505982,
      "flos": 13883543049600.0,
      "grad_norm": 2.040465023924056,
      "language_loss": 0.76773226,
      "learning_rate": 1.554307207298465e-06,
      "loss": 0.78885376,
      "num_input_tokens_seen": 104768550,
      "step": 4860,
      "time_per_iteration": 2.507509231567383
    },
    {
      "auxiliary_loss_clip": 0.01105088,
      "auxiliary_loss_mlp": 0.01022347,
      "balance_loss_clip": 1.04469943,
      "balance_loss_mlp": 1.01679146,
      "epoch": 0.5845006913966212,
      "flos": 21545864323200.0,
      "grad_norm": 1.9018293904143275,
      "language_loss": 0.78970581,
      "learning_rate": 1.553547857831704e-06,
      "loss": 0.81098008,
      "num_input_tokens_seen": 104785060,
      "step": 4861,
      "time_per_iteration": 2.5363035202026367
    },
    {
      "auxiliary_loss_clip": 0.01058893,
      "auxiliary_loss_mlp": 0.01001537,
      "balance_loss_clip": 1.02969527,
      "balance_loss_mlp": 0.99959391,
      "epoch": 0.5846209342872603,
      "flos": 58380642311040.0,
      "grad_norm": 0.8862511219249439,
      "language_loss": 0.6415987,
      "learning_rate": 1.5527885760913771e-06,
      "loss": 0.66220307,
      "num_input_tokens_seen": 104834950,
      "step": 4862,
      "time_per_iteration": 2.9657912254333496
    },
    {
      "auxiliary_loss_clip": 0.01075709,
      "auxiliary_loss_mlp": 0.01020248,
      "balance_loss_clip": 1.04002702,
      "balance_loss_mlp": 1.01499343,
      "epoch": 0.5847411771778993,
      "flos": 18590018365440.0,
      "grad_norm": 1.6183151831532918,
      "language_loss": 0.7682879,
      "learning_rate": 1.552029362192668e-06,
      "loss": 0.78924739,
      "num_input_tokens_seen": 104854210,
      "step": 4863,
      "time_per_iteration": 2.6196370124816895
    },
    {
      "auxiliary_loss_clip": 0.01063871,
      "auxiliary_loss_mlp": 0.01022581,
      "balance_loss_clip": 1.03896725,
      "balance_loss_mlp": 1.01746142,
      "epoch": 0.5848614200685385,
      "flos": 24242924862720.0,
      "grad_norm": 1.8416817424112182,
      "language_loss": 0.72516149,
      "learning_rate": 1.5512702162507478e-06,
      "loss": 0.74602604,
      "num_input_tokens_seen": 104874525,
      "step": 4864,
      "time_per_iteration": 2.61224627494812
    },
    {
      "auxiliary_loss_clip": 0.01039382,
      "auxiliary_loss_mlp": 0.01003686,
      "balance_loss_clip": 1.03023803,
      "balance_loss_mlp": 1.00193357,
      "epoch": 0.5849816629591775,
      "flos": 71666397682560.0,
      "grad_norm": 1.1386168904223348,
      "language_loss": 0.55713272,
      "learning_rate": 1.5505111383807792e-06,
      "loss": 0.57756341,
      "num_input_tokens_seen": 104937195,
      "step": 4865,
      "time_per_iteration": 3.216845750808716
    },
    {
      "auxiliary_loss_clip": 0.01054175,
      "auxiliary_loss_mlp": 0.01018556,
      "balance_loss_clip": 1.03787017,
      "balance_loss_mlp": 1.01356149,
      "epoch": 0.5851019058498166,
      "flos": 23804167898880.0,
      "grad_norm": 1.816863816564901,
      "language_loss": 0.80785811,
      "learning_rate": 1.5497521286979138e-06,
      "loss": 0.82858539,
      "num_input_tokens_seen": 104957435,
      "step": 4866,
      "time_per_iteration": 2.6813228130340576
    },
    {
      "auxiliary_loss_clip": 0.0105871,
      "auxiliary_loss_mlp": 0.010199,
      "balance_loss_clip": 1.03547764,
      "balance_loss_mlp": 1.01421404,
      "epoch": 0.5852221487404557,
      "flos": 24390769743360.0,
      "grad_norm": 2.3631139272953816,
      "language_loss": 0.74094343,
      "learning_rate": 1.5489931873172927e-06,
      "loss": 0.76172948,
      "num_input_tokens_seen": 104978755,
      "step": 4867,
      "time_per_iteration": 2.641165256500244
    },
    {
      "auxiliary_loss_clip": 0.01036319,
      "auxiliary_loss_mlp": 0.01022343,
      "balance_loss_clip": 1.03516364,
      "balance_loss_mlp": 1.01703501,
      "epoch": 0.5853423916310948,
      "flos": 27273868721280.0,
      "grad_norm": 3.4260143462382224,
      "language_loss": 0.79448813,
      "learning_rate": 1.5482343143540467e-06,
      "loss": 0.81507468,
      "num_input_tokens_seen": 105000020,
      "step": 4868,
      "time_per_iteration": 3.521383285522461
    },
    {
      "auxiliary_loss_clip": 0.01057083,
      "auxiliary_loss_mlp": 0.00756625,
      "balance_loss_clip": 1.03811538,
      "balance_loss_mlp": 1.00189686,
      "epoch": 0.5854626345217339,
      "flos": 11985372155520.0,
      "grad_norm": 1.9190634058840015,
      "language_loss": 0.82549798,
      "learning_rate": 1.547475509923295e-06,
      "loss": 0.84363508,
      "num_input_tokens_seen": 105017060,
      "step": 4869,
      "time_per_iteration": 2.572474956512451
    },
    {
      "auxiliary_loss_clip": 0.01012188,
      "auxiliary_loss_mlp": 0.01003942,
      "balance_loss_clip": 1.02614069,
      "balance_loss_mlp": 1.00187957,
      "epoch": 0.585582877412373,
      "flos": 64348955971200.0,
      "grad_norm": 0.7589335475873515,
      "language_loss": 0.56008029,
      "learning_rate": 1.5467167741401495e-06,
      "loss": 0.58024156,
      "num_input_tokens_seen": 105078540,
      "step": 4870,
      "time_per_iteration": 4.028737545013428
    },
    {
      "auxiliary_loss_clip": 0.01083982,
      "auxiliary_loss_mlp": 0.010216,
      "balance_loss_clip": 1.04448843,
      "balance_loss_mlp": 1.01595569,
      "epoch": 0.5857031203030121,
      "flos": 17013407414400.0,
      "grad_norm": 3.050365352199006,
      "language_loss": 0.71396828,
      "learning_rate": 1.5459581071197083e-06,
      "loss": 0.73502415,
      "num_input_tokens_seen": 105094200,
      "step": 4871,
      "time_per_iteration": 3.491455078125
    },
    {
      "auxiliary_loss_clip": 0.01091198,
      "auxiliary_loss_mlp": 0.01015863,
      "balance_loss_clip": 1.04312944,
      "balance_loss_mlp": 1.01061225,
      "epoch": 0.5858233631936511,
      "flos": 20887728877440.0,
      "grad_norm": 2.286232667900943,
      "language_loss": 0.83342749,
      "learning_rate": 1.5451995089770624e-06,
      "loss": 0.85449815,
      "num_input_tokens_seen": 105113985,
      "step": 4872,
      "time_per_iteration": 2.5333034992218018
    },
    {
      "auxiliary_loss_clip": 0.01100812,
      "auxiliary_loss_mlp": 0.0102082,
      "balance_loss_clip": 1.0416503,
      "balance_loss_mlp": 1.01576281,
      "epoch": 0.5859436060842903,
      "flos": 23194501810560.0,
      "grad_norm": 1.3372308735237763,
      "language_loss": 0.72038907,
      "learning_rate": 1.5444409798272885e-06,
      "loss": 0.7416054,
      "num_input_tokens_seen": 105138075,
      "step": 4873,
      "time_per_iteration": 2.667361259460449
    },
    {
      "auxiliary_loss_clip": 0.01068366,
      "auxiliary_loss_mlp": 0.01021009,
      "balance_loss_clip": 1.04107845,
      "balance_loss_mlp": 1.01567769,
      "epoch": 0.5860638489749294,
      "flos": 22494873934080.0,
      "grad_norm": 2.05831486448312,
      "language_loss": 0.80798864,
      "learning_rate": 1.543682519785456e-06,
      "loss": 0.8288824,
      "num_input_tokens_seen": 105156555,
      "step": 4874,
      "time_per_iteration": 2.6012320518493652
    },
    {
      "auxiliary_loss_clip": 0.0108231,
      "auxiliary_loss_mlp": 0.01023638,
      "balance_loss_clip": 1.04266906,
      "balance_loss_mlp": 1.01856542,
      "epoch": 0.5861840918655684,
      "flos": 17568148020480.0,
      "grad_norm": 2.4449155971994734,
      "language_loss": 0.80788565,
      "learning_rate": 1.5429241289666219e-06,
      "loss": 0.82894516,
      "num_input_tokens_seen": 105174055,
      "step": 4875,
      "time_per_iteration": 2.5749075412750244
    },
    {
      "auxiliary_loss_clip": 0.01077341,
      "auxiliary_loss_mlp": 0.01019076,
      "balance_loss_clip": 1.04067516,
      "balance_loss_mlp": 1.01393175,
      "epoch": 0.5863043347562076,
      "flos": 25558475310720.0,
      "grad_norm": 4.425741927756542,
      "language_loss": 0.69612139,
      "learning_rate": 1.5421658074858342e-06,
      "loss": 0.7170856,
      "num_input_tokens_seen": 105192160,
      "step": 4876,
      "time_per_iteration": 2.6553125381469727
    },
    {
      "auxiliary_loss_clip": 0.01084128,
      "auxiliary_loss_mlp": 0.01024141,
      "balance_loss_clip": 1.04476333,
      "balance_loss_mlp": 1.01861835,
      "epoch": 0.5864245776468466,
      "flos": 20669601692160.0,
      "grad_norm": 2.3909096413991273,
      "language_loss": 0.66518772,
      "learning_rate": 1.5414075554581298e-06,
      "loss": 0.68627048,
      "num_input_tokens_seen": 105210205,
      "step": 4877,
      "time_per_iteration": 3.398470878601074
    },
    {
      "auxiliary_loss_clip": 0.01102953,
      "auxiliary_loss_mlp": 0.0101841,
      "balance_loss_clip": 1.04255009,
      "balance_loss_mlp": 1.01318836,
      "epoch": 0.5865448205374857,
      "flos": 28916477233920.0,
      "grad_norm": 2.214017329466885,
      "language_loss": 0.78850377,
      "learning_rate": 1.5406493729985348e-06,
      "loss": 0.80971742,
      "num_input_tokens_seen": 105229400,
      "step": 4878,
      "time_per_iteration": 2.6048007011413574
    },
    {
      "auxiliary_loss_clip": 0.01041982,
      "auxiliary_loss_mlp": 0.00756717,
      "balance_loss_clip": 1.03704739,
      "balance_loss_mlp": 1.00174916,
      "epoch": 0.5866650634281249,
      "flos": 25844609715840.0,
      "grad_norm": 1.9760083821701209,
      "language_loss": 0.7242012,
      "learning_rate": 1.5398912602220644e-06,
      "loss": 0.74218822,
      "num_input_tokens_seen": 105248675,
      "step": 4879,
      "time_per_iteration": 2.662357807159424
    },
    {
      "auxiliary_loss_clip": 0.01055877,
      "auxiliary_loss_mlp": 0.01020203,
      "balance_loss_clip": 1.04185629,
      "balance_loss_mlp": 1.0146594,
      "epoch": 0.5867853063187639,
      "flos": 17054027729280.0,
      "grad_norm": 2.0483210538775536,
      "language_loss": 0.78606445,
      "learning_rate": 1.539133217243724e-06,
      "loss": 0.80682528,
      "num_input_tokens_seen": 105265695,
      "step": 4880,
      "time_per_iteration": 2.6646945476531982
    },
    {
      "auxiliary_loss_clip": 0.0106358,
      "auxiliary_loss_mlp": 0.01021339,
      "balance_loss_clip": 1.03728962,
      "balance_loss_mlp": 1.01551878,
      "epoch": 0.586905549209403,
      "flos": 24647355912960.0,
      "grad_norm": 2.16276579052597,
      "language_loss": 0.75997424,
      "learning_rate": 1.5383752441785081e-06,
      "loss": 0.78082347,
      "num_input_tokens_seen": 105284920,
      "step": 4881,
      "time_per_iteration": 2.631711006164551
    },
    {
      "auxiliary_loss_clip": 0.01093527,
      "auxiliary_loss_mlp": 0.01026717,
      "balance_loss_clip": 1.04434729,
      "balance_loss_mlp": 1.02135563,
      "epoch": 0.5870257921000421,
      "flos": 14722294648320.0,
      "grad_norm": 2.7120409781366934,
      "language_loss": 0.86036265,
      "learning_rate": 1.5376173411414003e-06,
      "loss": 0.88156509,
      "num_input_tokens_seen": 105302960,
      "step": 4882,
      "time_per_iteration": 2.5472617149353027
    },
    {
      "auxiliary_loss_clip": 0.01083595,
      "auxiliary_loss_mlp": 0.01022363,
      "balance_loss_clip": 1.04320097,
      "balance_loss_mlp": 1.01690602,
      "epoch": 0.5871460349906812,
      "flos": 23917269767040.0,
      "grad_norm": 2.2060094843829314,
      "language_loss": 0.78813577,
      "learning_rate": 1.5368595082473753e-06,
      "loss": 0.80919534,
      "num_input_tokens_seen": 105321260,
      "step": 4883,
      "time_per_iteration": 2.589160203933716
    },
    {
      "auxiliary_loss_clip": 0.01088973,
      "auxiliary_loss_mlp": 0.01017999,
      "balance_loss_clip": 1.04014254,
      "balance_loss_mlp": 1.01261711,
      "epoch": 0.5872662778813202,
      "flos": 22166374982400.0,
      "grad_norm": 1.5589785050556133,
      "language_loss": 0.77840042,
      "learning_rate": 1.5361017456113935e-06,
      "loss": 0.79947013,
      "num_input_tokens_seen": 105341610,
      "step": 4884,
      "time_per_iteration": 2.581984519958496
    },
    {
      "auxiliary_loss_clip": 0.01092703,
      "auxiliary_loss_mlp": 0.01024988,
      "balance_loss_clip": 1.04291821,
      "balance_loss_mlp": 1.01930499,
      "epoch": 0.5873865207719594,
      "flos": 18443879798400.0,
      "grad_norm": 8.232178901380209,
      "language_loss": 0.8577925,
      "learning_rate": 1.5353440533484085e-06,
      "loss": 0.87896943,
      "num_input_tokens_seen": 105360465,
      "step": 4885,
      "time_per_iteration": 2.5178308486938477
    },
    {
      "auxiliary_loss_clip": 0.01079824,
      "auxiliary_loss_mlp": 0.01023359,
      "balance_loss_clip": 1.04353809,
      "balance_loss_mlp": 1.01747859,
      "epoch": 0.5875067636625985,
      "flos": 54019246199040.0,
      "grad_norm": 1.821624695846818,
      "language_loss": 0.66151273,
      "learning_rate": 1.534586431573361e-06,
      "loss": 0.68254459,
      "num_input_tokens_seen": 105385405,
      "step": 4886,
      "time_per_iteration": 2.9327452182769775
    },
    {
      "auxiliary_loss_clip": 0.01044287,
      "auxiliary_loss_mlp": 0.01020299,
      "balance_loss_clip": 1.03837442,
      "balance_loss_mlp": 1.01412392,
      "epoch": 0.5876270065532375,
      "flos": 27997887974400.0,
      "grad_norm": 2.2501957931612986,
      "language_loss": 0.79416358,
      "learning_rate": 1.5338288804011817e-06,
      "loss": 0.81480944,
      "num_input_tokens_seen": 105404905,
      "step": 4887,
      "time_per_iteration": 2.7056703567504883
    },
    {
      "auxiliary_loss_clip": 0.01081756,
      "auxiliary_loss_mlp": 0.01022263,
      "balance_loss_clip": 1.04097521,
      "balance_loss_mlp": 1.01677084,
      "epoch": 0.5877472494438767,
      "flos": 21363617692800.0,
      "grad_norm": 2.1235336656546107,
      "language_loss": 0.71244001,
      "learning_rate": 1.533071399946791e-06,
      "loss": 0.73348022,
      "num_input_tokens_seen": 105423650,
      "step": 4888,
      "time_per_iteration": 2.6027932167053223
    },
    {
      "auxiliary_loss_clip": 0.01073683,
      "auxiliary_loss_mlp": 0.01020144,
      "balance_loss_clip": 1.04018664,
      "balance_loss_mlp": 1.0150305,
      "epoch": 0.5878674923345157,
      "flos": 22385222611200.0,
      "grad_norm": 4.340474226438216,
      "language_loss": 0.57578605,
      "learning_rate": 1.5323139903250977e-06,
      "loss": 0.59672427,
      "num_input_tokens_seen": 105444255,
      "step": 4889,
      "time_per_iteration": 2.574643850326538
    },
    {
      "auxiliary_loss_clip": 0.01075875,
      "auxiliary_loss_mlp": 0.01019583,
      "balance_loss_clip": 1.04011464,
      "balance_loss_mlp": 1.01412034,
      "epoch": 0.5879877352251548,
      "flos": 21870647303040.0,
      "grad_norm": 8.630536720431088,
      "language_loss": 0.7714234,
      "learning_rate": 1.5315566516510002e-06,
      "loss": 0.79237795,
      "num_input_tokens_seen": 105462425,
      "step": 4890,
      "time_per_iteration": 2.5926175117492676
    },
    {
      "auxiliary_loss_clip": 0.01103652,
      "auxiliary_loss_mlp": 0.01022235,
      "balance_loss_clip": 1.04401302,
      "balance_loss_mlp": 1.01674855,
      "epoch": 0.5881079781157939,
      "flos": 17495742303360.0,
      "grad_norm": 1.875094656637925,
      "language_loss": 0.6746068,
      "learning_rate": 1.5307993840393857e-06,
      "loss": 0.69586569,
      "num_input_tokens_seen": 105480505,
      "step": 4891,
      "time_per_iteration": 2.485811471939087
    },
    {
      "auxiliary_loss_clip": 0.011021,
      "auxiliary_loss_mlp": 0.01018427,
      "balance_loss_clip": 1.04185605,
      "balance_loss_mlp": 1.01324403,
      "epoch": 0.588228221006433,
      "flos": 22604070240000.0,
      "grad_norm": 1.822568717332566,
      "language_loss": 0.80267882,
      "learning_rate": 1.530042187605132e-06,
      "loss": 0.82388407,
      "num_input_tokens_seen": 105499760,
      "step": 4892,
      "time_per_iteration": 2.54085636138916
    },
    {
      "auxiliary_loss_clip": 0.01090867,
      "auxiliary_loss_mlp": 0.00756583,
      "balance_loss_clip": 1.04205084,
      "balance_loss_mlp": 1.00166035,
      "epoch": 0.5883484638970721,
      "flos": 26179327232640.0,
      "grad_norm": 1.9174888751960708,
      "language_loss": 0.84297991,
      "learning_rate": 1.5292850624631044e-06,
      "loss": 0.86145437,
      "num_input_tokens_seen": 105521955,
      "step": 4893,
      "time_per_iteration": 2.5797438621520996
    },
    {
      "auxiliary_loss_clip": 0.01082753,
      "auxiliary_loss_mlp": 0.01019445,
      "balance_loss_clip": 1.04061878,
      "balance_loss_mlp": 1.01378226,
      "epoch": 0.5884687067877111,
      "flos": 30446249304960.0,
      "grad_norm": 1.9866406319158727,
      "language_loss": 0.80424052,
      "learning_rate": 1.5285280087281593e-06,
      "loss": 0.82526243,
      "num_input_tokens_seen": 105542685,
      "step": 4894,
      "time_per_iteration": 3.4158120155334473
    },
    {
      "auxiliary_loss_clip": 0.01037804,
      "auxiliary_loss_mlp": 0.01002303,
      "balance_loss_clip": 1.02807355,
      "balance_loss_mlp": 1.00019348,
      "epoch": 0.5885889496783503,
      "flos": 70514466036480.0,
      "grad_norm": 0.6359141120027116,
      "language_loss": 0.56577349,
      "learning_rate": 1.5277710265151398e-06,
      "loss": 0.58617461,
      "num_input_tokens_seen": 105612165,
      "step": 4895,
      "time_per_iteration": 3.384507179260254
    },
    {
      "auxiliary_loss_clip": 0.01094637,
      "auxiliary_loss_mlp": 0.01019152,
      "balance_loss_clip": 1.04410481,
      "balance_loss_mlp": 1.01331115,
      "epoch": 0.5887091925689893,
      "flos": 19100763947520.0,
      "grad_norm": 5.1490123927598885,
      "language_loss": 0.77795994,
      "learning_rate": 1.5270141159388803e-06,
      "loss": 0.79909778,
      "num_input_tokens_seen": 105629185,
      "step": 4896,
      "time_per_iteration": 4.11450982093811
    },
    {
      "auxiliary_loss_clip": 0.01101042,
      "auxiliary_loss_mlp": 0.01019599,
      "balance_loss_clip": 1.04215181,
      "balance_loss_mlp": 1.01410913,
      "epoch": 0.5888294354596284,
      "flos": 23296493681280.0,
      "grad_norm": 1.7781096037504651,
      "language_loss": 0.80457962,
      "learning_rate": 1.526257277114203e-06,
      "loss": 0.82578605,
      "num_input_tokens_seen": 105650260,
      "step": 4897,
      "time_per_iteration": 2.5044164657592773
    },
    {
      "auxiliary_loss_clip": 0.01070497,
      "auxiliary_loss_mlp": 0.0102008,
      "balance_loss_clip": 1.03757858,
      "balance_loss_mlp": 1.01486492,
      "epoch": 0.5889496783502676,
      "flos": 21983711253120.0,
      "grad_norm": 1.9336349619000628,
      "language_loss": 0.79683417,
      "learning_rate": 1.5255005101559201e-06,
      "loss": 0.81773996,
      "num_input_tokens_seen": 105667870,
      "step": 4898,
      "time_per_iteration": 2.593031883239746
    },
    {
      "auxiliary_loss_clip": 0.01087345,
      "auxiliary_loss_mlp": 0.01018595,
      "balance_loss_clip": 1.04204392,
      "balance_loss_mlp": 1.01344526,
      "epoch": 0.5890699212409066,
      "flos": 21687149376000.0,
      "grad_norm": 2.0055149911367196,
      "language_loss": 0.76732731,
      "learning_rate": 1.524743815178833e-06,
      "loss": 0.7883867,
      "num_input_tokens_seen": 105685830,
      "step": 4899,
      "time_per_iteration": 2.5176243782043457
    },
    {
      "auxiliary_loss_clip": 0.01078087,
      "auxiliary_loss_mlp": 0.01019173,
      "balance_loss_clip": 1.03998935,
      "balance_loss_mlp": 1.01383853,
      "epoch": 0.5891901641315457,
      "flos": 19466622259200.0,
      "grad_norm": 2.0628699915282813,
      "language_loss": 0.80766392,
      "learning_rate": 1.5239871922977315e-06,
      "loss": 0.82863659,
      "num_input_tokens_seen": 105705745,
      "step": 4900,
      "time_per_iteration": 2.598663568496704
    },
    {
      "auxiliary_loss_clip": 0.01083229,
      "auxiliary_loss_mlp": 0.01025137,
      "balance_loss_clip": 1.04388309,
      "balance_loss_mlp": 1.01951635,
      "epoch": 0.5893104070221848,
      "flos": 19611926628480.0,
      "grad_norm": 2.4062727603120027,
      "language_loss": 0.90018547,
      "learning_rate": 1.523230641627394e-06,
      "loss": 0.92126918,
      "num_input_tokens_seen": 105724730,
      "step": 4901,
      "time_per_iteration": 2.543531656265259
    },
    {
      "auxiliary_loss_clip": 0.01058039,
      "auxiliary_loss_mlp": 0.01018577,
      "balance_loss_clip": 1.03966188,
      "balance_loss_mlp": 1.01326632,
      "epoch": 0.5894306499128239,
      "flos": 29062653719040.0,
      "grad_norm": 2.5050377055719526,
      "language_loss": 0.72846472,
      "learning_rate": 1.5224741632825888e-06,
      "loss": 0.74923086,
      "num_input_tokens_seen": 105744920,
      "step": 4902,
      "time_per_iteration": 3.6323022842407227
    },
    {
      "auxiliary_loss_clip": 0.0110615,
      "auxiliary_loss_mlp": 0.01019177,
      "balance_loss_clip": 1.04586339,
      "balance_loss_mlp": 1.01336908,
      "epoch": 0.589550892803463,
      "flos": 42301911473280.0,
      "grad_norm": 1.8637565895799433,
      "language_loss": 0.69493526,
      "learning_rate": 1.521717757378074e-06,
      "loss": 0.71618855,
      "num_input_tokens_seen": 105765465,
      "step": 4903,
      "time_per_iteration": 2.6859841346740723
    },
    {
      "auxiliary_loss_clip": 0.01091571,
      "auxiliary_loss_mlp": 0.01023418,
      "balance_loss_clip": 1.04139972,
      "balance_loss_mlp": 1.0176003,
      "epoch": 0.5896711356941021,
      "flos": 14138802086400.0,
      "grad_norm": 2.1058021032799887,
      "language_loss": 0.69569612,
      "learning_rate": 1.5209614240285943e-06,
      "loss": 0.71684599,
      "num_input_tokens_seen": 105783120,
      "step": 4904,
      "time_per_iteration": 2.544532060623169
    },
    {
      "auxiliary_loss_clip": 0.0110324,
      "auxiliary_loss_mlp": 0.00756765,
      "balance_loss_clip": 1.04398489,
      "balance_loss_mlp": 1.00179517,
      "epoch": 0.5897913785847412,
      "flos": 17203237660800.0,
      "grad_norm": 2.021972544519731,
      "language_loss": 0.84933126,
      "learning_rate": 1.520205163348887e-06,
      "loss": 0.86793131,
      "num_input_tokens_seen": 105801055,
      "step": 4905,
      "time_per_iteration": 2.478445529937744
    },
    {
      "auxiliary_loss_clip": 0.01027993,
      "auxiliary_loss_mlp": 0.01003208,
      "balance_loss_clip": 1.02700901,
      "balance_loss_mlp": 1.00118124,
      "epoch": 0.5899116214753802,
      "flos": 48799626410880.0,
      "grad_norm": 0.7272890274398452,
      "language_loss": 0.56907248,
      "learning_rate": 1.519448975453674e-06,
      "loss": 0.58938444,
      "num_input_tokens_seen": 105856155,
      "step": 4906,
      "time_per_iteration": 3.0751607418060303
    },
    {
      "auxiliary_loss_clip": 0.01091044,
      "auxiliary_loss_mlp": 0.00756767,
      "balance_loss_clip": 1.04321969,
      "balance_loss_mlp": 1.00181544,
      "epoch": 0.5900318643660194,
      "flos": 21105666472320.0,
      "grad_norm": 2.0297138663293,
      "language_loss": 0.76288134,
      "learning_rate": 1.5186928604576696e-06,
      "loss": 0.78135949,
      "num_input_tokens_seen": 105873350,
      "step": 4907,
      "time_per_iteration": 2.5809319019317627
    },
    {
      "auxiliary_loss_clip": 0.01081925,
      "auxiliary_loss_mlp": 0.01024145,
      "balance_loss_clip": 1.04396653,
      "balance_loss_mlp": 1.01879549,
      "epoch": 0.5901521072566585,
      "flos": 21180498946560.0,
      "grad_norm": 2.0236213877215965,
      "language_loss": 0.76988125,
      "learning_rate": 1.5179368184755752e-06,
      "loss": 0.79094201,
      "num_input_tokens_seen": 105891435,
      "step": 4908,
      "time_per_iteration": 2.5658819675445557
    },
    {
      "auxiliary_loss_clip": 0.01075322,
      "auxiliary_loss_mlp": 0.0101689,
      "balance_loss_clip": 1.04018056,
      "balance_loss_mlp": 1.01173472,
      "epoch": 0.5902723501472975,
      "flos": 20227811281920.0,
      "grad_norm": 2.3966048239583735,
      "language_loss": 0.82608998,
      "learning_rate": 1.5171808496220821e-06,
      "loss": 0.84701216,
      "num_input_tokens_seen": 105910190,
      "step": 4909,
      "time_per_iteration": 2.6126766204833984
    },
    {
      "auxiliary_loss_clip": 0.01079389,
      "auxiliary_loss_mlp": 0.01020285,
      "balance_loss_clip": 1.04118228,
      "balance_loss_mlp": 1.01517677,
      "epoch": 0.5903925930379367,
      "flos": 22966515924480.0,
      "grad_norm": 1.7437411905786895,
      "language_loss": 0.81513023,
      "learning_rate": 1.5164249540118708e-06,
      "loss": 0.83612692,
      "num_input_tokens_seen": 105929315,
      "step": 4910,
      "time_per_iteration": 2.5757105350494385
    },
    {
      "auxiliary_loss_clip": 0.01040938,
      "auxiliary_loss_mlp": 0.0101912,
      "balance_loss_clip": 1.03719187,
      "balance_loss_mlp": 1.01344311,
      "epoch": 0.5905128359285757,
      "flos": 23369961104640.0,
      "grad_norm": 1.8074849148686079,
      "language_loss": 0.83437061,
      "learning_rate": 1.5156691317596093e-06,
      "loss": 0.85497117,
      "num_input_tokens_seen": 105950740,
      "step": 4911,
      "time_per_iteration": 2.709592342376709
    },
    {
      "auxiliary_loss_clip": 0.01096411,
      "auxiliary_loss_mlp": 0.0075663,
      "balance_loss_clip": 1.0460794,
      "balance_loss_mlp": 1.00179052,
      "epoch": 0.5906330788192148,
      "flos": 28034526890880.0,
      "grad_norm": 2.582180578957884,
      "language_loss": 0.66918194,
      "learning_rate": 1.5149133829799556e-06,
      "loss": 0.68771231,
      "num_input_tokens_seen": 105968735,
      "step": 4912,
      "time_per_iteration": 2.5766396522521973
    },
    {
      "auxiliary_loss_clip": 0.01080455,
      "auxiliary_loss_mlp": 0.0102834,
      "balance_loss_clip": 1.04409659,
      "balance_loss_mlp": 1.0226624,
      "epoch": 0.590753321709854,
      "flos": 18479874107520.0,
      "grad_norm": 1.9684545839562086,
      "language_loss": 0.80774939,
      "learning_rate": 1.5141577077875556e-06,
      "loss": 0.82883739,
      "num_input_tokens_seen": 105986060,
      "step": 4913,
      "time_per_iteration": 2.5604941844940186
    },
    {
      "auxiliary_loss_clip": 0.01093119,
      "auxiliary_loss_mlp": 0.01019938,
      "balance_loss_clip": 1.04383874,
      "balance_loss_mlp": 1.01465976,
      "epoch": 0.590873564600493,
      "flos": 16875610824960.0,
      "grad_norm": 3.7905692738351386,
      "language_loss": 0.72385204,
      "learning_rate": 1.5134021062970451e-06,
      "loss": 0.7449826,
      "num_input_tokens_seen": 106004440,
      "step": 4914,
      "time_per_iteration": 2.5285260677337646
    },
    {
      "auxiliary_loss_clip": 0.01054832,
      "auxiliary_loss_mlp": 0.01021405,
      "balance_loss_clip": 1.03811753,
      "balance_loss_mlp": 1.01621652,
      "epoch": 0.5909938074911321,
      "flos": 13517836410240.0,
      "grad_norm": 1.8422890778152934,
      "language_loss": 0.80953419,
      "learning_rate": 1.5126465786230483e-06,
      "loss": 0.83029664,
      "num_input_tokens_seen": 106021215,
      "step": 4915,
      "time_per_iteration": 2.652010679244995
    },
    {
      "auxiliary_loss_clip": 0.01101727,
      "auxiliary_loss_mlp": 0.01018701,
      "balance_loss_clip": 1.04293573,
      "balance_loss_mlp": 1.01311326,
      "epoch": 0.5911140503817712,
      "flos": 26026060066560.0,
      "grad_norm": 2.258104035819484,
      "language_loss": 0.82292306,
      "learning_rate": 1.5118911248801787e-06,
      "loss": 0.84412742,
      "num_input_tokens_seen": 106039225,
      "step": 4916,
      "time_per_iteration": 2.5186030864715576
    },
    {
      "auxiliary_loss_clip": 0.01087574,
      "auxiliary_loss_mlp": 0.0101838,
      "balance_loss_clip": 1.04075253,
      "balance_loss_mlp": 1.01342416,
      "epoch": 0.5912342932724103,
      "flos": 23260992307200.0,
      "grad_norm": 2.759390038124139,
      "language_loss": 0.79916102,
      "learning_rate": 1.5111357451830364e-06,
      "loss": 0.82022059,
      "num_input_tokens_seen": 106057920,
      "step": 4917,
      "time_per_iteration": 2.5920088291168213
    },
    {
      "auxiliary_loss_clip": 0.01091044,
      "auxiliary_loss_mlp": 0.0102149,
      "balance_loss_clip": 1.04258847,
      "balance_loss_mlp": 1.01612246,
      "epoch": 0.5913545361630493,
      "flos": 19575060203520.0,
      "grad_norm": 2.8455735446750903,
      "language_loss": 0.70733166,
      "learning_rate": 1.5103804396462131e-06,
      "loss": 0.72845697,
      "num_input_tokens_seen": 106077855,
      "step": 4918,
      "time_per_iteration": 2.5226566791534424
    },
    {
      "auxiliary_loss_clip": 0.01093973,
      "auxiliary_loss_mlp": 0.01023453,
      "balance_loss_clip": 1.04345369,
      "balance_loss_mlp": 1.01773095,
      "epoch": 0.5914747790536885,
      "flos": 26215928231040.0,
      "grad_norm": 4.160832857097998,
      "language_loss": 0.80219865,
      "learning_rate": 1.5096252083842877e-06,
      "loss": 0.82337284,
      "num_input_tokens_seen": 106097065,
      "step": 4919,
      "time_per_iteration": 2.612246513366699
    },
    {
      "auxiliary_loss_clip": 0.01093682,
      "auxiliary_loss_mlp": 0.01020706,
      "balance_loss_clip": 1.04363227,
      "balance_loss_mlp": 1.01509476,
      "epoch": 0.5915950219443276,
      "flos": 27420007288320.0,
      "grad_norm": 2.341350884000144,
      "language_loss": 0.85479498,
      "learning_rate": 1.5088700515118285e-06,
      "loss": 0.87593883,
      "num_input_tokens_seen": 106116385,
      "step": 4920,
      "time_per_iteration": 3.3288354873657227
    },
    {
      "auxiliary_loss_clip": 0.01064772,
      "auxiliary_loss_mlp": 0.01020291,
      "balance_loss_clip": 1.03948092,
      "balance_loss_mlp": 1.01461709,
      "epoch": 0.5917152648349666,
      "flos": 21910016321280.0,
      "grad_norm": 3.877890859995502,
      "language_loss": 0.65983135,
      "learning_rate": 1.508114969143392e-06,
      "loss": 0.68068194,
      "num_input_tokens_seen": 106136370,
      "step": 4921,
      "time_per_iteration": 2.6263275146484375
    },
    {
      "auxiliary_loss_clip": 0.01080604,
      "auxiliary_loss_mlp": 0.01020858,
      "balance_loss_clip": 1.04185188,
      "balance_loss_mlp": 1.01578283,
      "epoch": 0.5918355077256057,
      "flos": 28111596531840.0,
      "grad_norm": 1.442556373773479,
      "language_loss": 0.77646774,
      "learning_rate": 1.5073599613935238e-06,
      "loss": 0.79748237,
      "num_input_tokens_seen": 106158490,
      "step": 4922,
      "time_per_iteration": 3.4218358993530273
    },
    {
      "auxiliary_loss_clip": 0.0108053,
      "auxiliary_loss_mlp": 0.01021143,
      "balance_loss_clip": 1.04329264,
      "balance_loss_mlp": 1.01543307,
      "epoch": 0.5919557506162448,
      "flos": 28186315251840.0,
      "grad_norm": 1.8667886857654261,
      "language_loss": 0.57588828,
      "learning_rate": 1.5066050283767574e-06,
      "loss": 0.59690499,
      "num_input_tokens_seen": 106179170,
      "step": 4923,
      "time_per_iteration": 3.3450050354003906
    },
    {
      "auxiliary_loss_clip": 0.01078665,
      "auxiliary_loss_mlp": 0.01019561,
      "balance_loss_clip": 1.04319763,
      "balance_loss_mlp": 1.01441753,
      "epoch": 0.5920759935068839,
      "flos": 12096009348480.0,
      "grad_norm": 1.9898052188296522,
      "language_loss": 0.83017254,
      "learning_rate": 1.505850170207616e-06,
      "loss": 0.8511548,
      "num_input_tokens_seen": 106196035,
      "step": 4924,
      "time_per_iteration": 2.568389415740967
    },
    {
      "auxiliary_loss_clip": 0.01074798,
      "auxiliary_loss_mlp": 0.01020213,
      "balance_loss_clip": 1.03860152,
      "balance_loss_mlp": 1.01497412,
      "epoch": 0.592196236397523,
      "flos": 29427374488320.0,
      "grad_norm": 2.1227023940872263,
      "language_loss": 0.78010631,
      "learning_rate": 1.505095387000611e-06,
      "loss": 0.80105639,
      "num_input_tokens_seen": 106218335,
      "step": 4925,
      "time_per_iteration": 2.626680850982666
    },
    {
      "auxiliary_loss_clip": 0.0107802,
      "auxiliary_loss_mlp": 0.01021129,
      "balance_loss_clip": 1.04142392,
      "balance_loss_mlp": 1.01591015,
      "epoch": 0.5923164792881621,
      "flos": 24386750426880.0,
      "grad_norm": 1.9465854357195471,
      "language_loss": 0.74288917,
      "learning_rate": 1.504340678870242e-06,
      "loss": 0.76388061,
      "num_input_tokens_seen": 106236550,
      "step": 4926,
      "time_per_iteration": 2.631066083908081
    },
    {
      "auxiliary_loss_clip": 0.01086013,
      "auxiliary_loss_mlp": 0.01023787,
      "balance_loss_clip": 1.04010093,
      "balance_loss_mlp": 1.01854491,
      "epoch": 0.5924367221788012,
      "flos": 24026503991040.0,
      "grad_norm": 1.928756359147112,
      "language_loss": 0.90086424,
      "learning_rate": 1.5035860459309989e-06,
      "loss": 0.92196226,
      "num_input_tokens_seen": 106254265,
      "step": 4927,
      "time_per_iteration": 2.5414552688598633
    },
    {
      "auxiliary_loss_clip": 0.01073135,
      "auxiliary_loss_mlp": 0.0102053,
      "balance_loss_clip": 1.03788686,
      "balance_loss_mlp": 1.01484966,
      "epoch": 0.5925569650694402,
      "flos": 26873039888640.0,
      "grad_norm": 1.8561005920329425,
      "language_loss": 0.63698351,
      "learning_rate": 1.5028314882973568e-06,
      "loss": 0.65792018,
      "num_input_tokens_seen": 106274670,
      "step": 4928,
      "time_per_iteration": 2.6312050819396973
    },
    {
      "auxiliary_loss_clip": 0.01070528,
      "auxiliary_loss_mlp": 0.01023818,
      "balance_loss_clip": 1.03675127,
      "balance_loss_mlp": 1.01838839,
      "epoch": 0.5926772079600794,
      "flos": 22304588670720.0,
      "grad_norm": 4.259981985696319,
      "language_loss": 0.8501929,
      "learning_rate": 1.502077006083783e-06,
      "loss": 0.87113637,
      "num_input_tokens_seen": 106293330,
      "step": 4929,
      "time_per_iteration": 3.447366952896118
    },
    {
      "auxiliary_loss_clip": 0.01090509,
      "auxiliary_loss_mlp": 0.00756362,
      "balance_loss_clip": 1.04538584,
      "balance_loss_mlp": 1.00162756,
      "epoch": 0.5927974508507184,
      "flos": 19867299419520.0,
      "grad_norm": 1.9374025663540992,
      "language_loss": 0.76548779,
      "learning_rate": 1.5013225994047315e-06,
      "loss": 0.78395647,
      "num_input_tokens_seen": 106310960,
      "step": 4930,
      "time_per_iteration": 2.5258374214172363
    },
    {
      "auxiliary_loss_clip": 0.01090492,
      "auxiliary_loss_mlp": 0.00756271,
      "balance_loss_clip": 1.04259658,
      "balance_loss_mlp": 1.00174522,
      "epoch": 0.5929176937413575,
      "flos": 15778452988800.0,
      "grad_norm": 1.823280513459352,
      "language_loss": 0.80416262,
      "learning_rate": 1.5005682683746452e-06,
      "loss": 0.82263029,
      "num_input_tokens_seen": 106329475,
      "step": 4931,
      "time_per_iteration": 2.583312511444092
    },
    {
      "auxiliary_loss_clip": 0.01091408,
      "auxiliary_loss_mlp": 0.01018987,
      "balance_loss_clip": 1.04427314,
      "balance_loss_mlp": 1.0136342,
      "epoch": 0.5930379366319967,
      "flos": 17603308131840.0,
      "grad_norm": 2.017212758284463,
      "language_loss": 0.72876132,
      "learning_rate": 1.4998140131079553e-06,
      "loss": 0.74986523,
      "num_input_tokens_seen": 106345565,
      "step": 4932,
      "time_per_iteration": 2.4842734336853027
    },
    {
      "auxiliary_loss_clip": 0.01032829,
      "auxiliary_loss_mlp": 0.00756478,
      "balance_loss_clip": 1.03596628,
      "balance_loss_mlp": 1.00170815,
      "epoch": 0.5931581795226357,
      "flos": 17705755019520.0,
      "grad_norm": 1.821440840870092,
      "language_loss": 0.74038231,
      "learning_rate": 1.4990598337190821e-06,
      "loss": 0.75827539,
      "num_input_tokens_seen": 106361920,
      "step": 4933,
      "time_per_iteration": 2.6753554344177246
    },
    {
      "auxiliary_loss_clip": 0.01102698,
      "auxiliary_loss_mlp": 0.00756708,
      "balance_loss_clip": 1.04346669,
      "balance_loss_mlp": 1.00169945,
      "epoch": 0.5932784224132748,
      "flos": 24282407635200.0,
      "grad_norm": 1.9445873529973674,
      "language_loss": 0.67929602,
      "learning_rate": 1.4983057303224338e-06,
      "loss": 0.69789016,
      "num_input_tokens_seen": 106381735,
      "step": 4934,
      "time_per_iteration": 2.5381879806518555
    },
    {
      "auxiliary_loss_clip": 0.01056312,
      "auxiliary_loss_mlp": 0.0102399,
      "balance_loss_clip": 1.0418756,
      "balance_loss_mlp": 1.01853275,
      "epoch": 0.5933986653039139,
      "flos": 22928739465600.0,
      "grad_norm": 1.7239614432139756,
      "language_loss": 0.87458479,
      "learning_rate": 1.4975517030324072e-06,
      "loss": 0.89538789,
      "num_input_tokens_seen": 106399745,
      "step": 4935,
      "time_per_iteration": 2.6511919498443604
    },
    {
      "auxiliary_loss_clip": 0.01059449,
      "auxiliary_loss_mlp": 0.00752523,
      "balance_loss_clip": 1.03013527,
      "balance_loss_mlp": 1.00123453,
      "epoch": 0.593518908194553,
      "flos": 71128341031680.0,
      "grad_norm": 0.7942762233007676,
      "language_loss": 0.6180805,
      "learning_rate": 1.4967977519633882e-06,
      "loss": 0.63620019,
      "num_input_tokens_seen": 106457205,
      "step": 4936,
      "time_per_iteration": 3.19913649559021
    },
    {
      "auxiliary_loss_clip": 0.01067241,
      "auxiliary_loss_mlp": 0.01017582,
      "balance_loss_clip": 1.04096961,
      "balance_loss_mlp": 1.01213384,
      "epoch": 0.593639151085192,
      "flos": 20450716145280.0,
      "grad_norm": 2.185523525921851,
      "language_loss": 0.78445625,
      "learning_rate": 1.4960438772297494e-06,
      "loss": 0.80530453,
      "num_input_tokens_seen": 106474250,
      "step": 4937,
      "time_per_iteration": 2.606224298477173
    },
    {
      "auxiliary_loss_clip": 0.01082269,
      "auxiliary_loss_mlp": 0.01021849,
      "balance_loss_clip": 1.04133129,
      "balance_loss_mlp": 1.01658869,
      "epoch": 0.5937593939758312,
      "flos": 30886067975040.0,
      "grad_norm": 2.974083598811621,
      "language_loss": 0.73644108,
      "learning_rate": 1.495290078945855e-06,
      "loss": 0.75748217,
      "num_input_tokens_seen": 106494015,
      "step": 4938,
      "time_per_iteration": 2.6135103702545166
    },
    {
      "auxiliary_loss_clip": 0.01100889,
      "auxiliary_loss_mlp": 0.01021291,
      "balance_loss_clip": 1.04269052,
      "balance_loss_mlp": 1.01608729,
      "epoch": 0.5938796368664703,
      "flos": 36900737631360.0,
      "grad_norm": 2.0245493319629806,
      "language_loss": 0.74754798,
      "learning_rate": 1.4945363572260529e-06,
      "loss": 0.76876974,
      "num_input_tokens_seen": 106515010,
      "step": 4939,
      "time_per_iteration": 2.627999782562256
    },
    {
      "auxiliary_loss_clip": 0.01088282,
      "auxiliary_loss_mlp": 0.0102004,
      "balance_loss_clip": 1.04136729,
      "balance_loss_mlp": 1.01480675,
      "epoch": 0.5939998797571093,
      "flos": 23845243230720.0,
      "grad_norm": 1.9437996947018712,
      "language_loss": 0.68176407,
      "learning_rate": 1.4937827121846845e-06,
      "loss": 0.7028473,
      "num_input_tokens_seen": 106535265,
      "step": 4940,
      "time_per_iteration": 2.5429210662841797
    },
    {
      "auxiliary_loss_clip": 0.0106162,
      "auxiliary_loss_mlp": 0.01024939,
      "balance_loss_clip": 1.04418981,
      "balance_loss_mlp": 1.01957178,
      "epoch": 0.5941201226477485,
      "flos": 25193716623360.0,
      "grad_norm": 1.6877514653644525,
      "language_loss": 0.73217613,
      "learning_rate": 1.4930291439360755e-06,
      "loss": 0.75304174,
      "num_input_tokens_seen": 106557830,
      "step": 4941,
      "time_per_iteration": 2.6680190563201904
    },
    {
      "auxiliary_loss_clip": 0.01089121,
      "auxiliary_loss_mlp": 0.01020373,
      "balance_loss_clip": 1.04235113,
      "balance_loss_mlp": 1.01455879,
      "epoch": 0.5942403655383875,
      "flos": 22421179002240.0,
      "grad_norm": 2.232271791033157,
      "language_loss": 0.79230368,
      "learning_rate": 1.4922756525945427e-06,
      "loss": 0.8133986,
      "num_input_tokens_seen": 106577140,
      "step": 4942,
      "time_per_iteration": 2.613865375518799
    },
    {
      "auxiliary_loss_clip": 0.0104566,
      "auxiliary_loss_mlp": 0.01001627,
      "balance_loss_clip": 1.03009439,
      "balance_loss_mlp": 0.99981529,
      "epoch": 0.5943606084290266,
      "flos": 67636296408960.0,
      "grad_norm": 0.7767667680489824,
      "language_loss": 0.59492218,
      "learning_rate": 1.4915222382743894e-06,
      "loss": 0.61539507,
      "num_input_tokens_seen": 106635975,
      "step": 4943,
      "time_per_iteration": 3.2077198028564453
    },
    {
      "auxiliary_loss_clip": 0.01091237,
      "auxiliary_loss_mlp": 0.01021226,
      "balance_loss_clip": 1.04344058,
      "balance_loss_mlp": 1.01553929,
      "epoch": 0.5944808513196658,
      "flos": 18225108005760.0,
      "grad_norm": 2.1183634183748574,
      "language_loss": 0.7194953,
      "learning_rate": 1.4907689010899085e-06,
      "loss": 0.74061996,
      "num_input_tokens_seen": 106653555,
      "step": 4944,
      "time_per_iteration": 2.5382587909698486
    },
    {
      "auxiliary_loss_clip": 0.01074884,
      "auxiliary_loss_mlp": 0.01018393,
      "balance_loss_clip": 1.03913844,
      "balance_loss_mlp": 1.01282895,
      "epoch": 0.5946010942103048,
      "flos": 24793153217280.0,
      "grad_norm": 2.3946700618275902,
      "language_loss": 0.62692243,
      "learning_rate": 1.4900156411553804e-06,
      "loss": 0.64785522,
      "num_input_tokens_seen": 106673385,
      "step": 4945,
      "time_per_iteration": 2.5891430377960205
    },
    {
      "auxiliary_loss_clip": 0.01080615,
      "auxiliary_loss_mlp": 0.01022583,
      "balance_loss_clip": 1.04300284,
      "balance_loss_mlp": 1.01716161,
      "epoch": 0.5947213371009439,
      "flos": 15233419411200.0,
      "grad_norm": 1.9452104981145437,
      "language_loss": 0.85758352,
      "learning_rate": 1.4892624585850739e-06,
      "loss": 0.87861556,
      "num_input_tokens_seen": 106691740,
      "step": 4946,
      "time_per_iteration": 3.348684787750244
    },
    {
      "auxiliary_loss_clip": 0.01103189,
      "auxiliary_loss_mlp": 0.01021719,
      "balance_loss_clip": 1.0435276,
      "balance_loss_mlp": 1.0162679,
      "epoch": 0.594841579991583,
      "flos": 25850411182080.0,
      "grad_norm": 24.995546281276333,
      "language_loss": 0.79590261,
      "learning_rate": 1.4885093534932465e-06,
      "loss": 0.81715167,
      "num_input_tokens_seen": 106709705,
      "step": 4947,
      "time_per_iteration": 2.5195446014404297
    },
    {
      "auxiliary_loss_clip": 0.01077304,
      "auxiliary_loss_mlp": 0.01021242,
      "balance_loss_clip": 1.04224396,
      "balance_loss_mlp": 1.01549888,
      "epoch": 0.5949618228822221,
      "flos": 23983001902080.0,
      "grad_norm": 2.0696592836682766,
      "language_loss": 0.71245539,
      "learning_rate": 1.4877563259941433e-06,
      "loss": 0.73344088,
      "num_input_tokens_seen": 106727560,
      "step": 4948,
      "time_per_iteration": 4.088801145553589
    },
    {
      "auxiliary_loss_clip": 0.01094127,
      "auxiliary_loss_mlp": 0.0102031,
      "balance_loss_clip": 1.0439961,
      "balance_loss_mlp": 1.01451397,
      "epoch": 0.5950820657728612,
      "flos": 40550409999360.0,
      "grad_norm": 2.511329795272733,
      "language_loss": 0.67985529,
      "learning_rate": 1.4870033762019988e-06,
      "loss": 0.70099968,
      "num_input_tokens_seen": 106747725,
      "step": 4949,
      "time_per_iteration": 2.7223246097564697
    },
    {
      "auxiliary_loss_clip": 0.01083074,
      "auxiliary_loss_mlp": 0.01021937,
      "balance_loss_clip": 1.04404783,
      "balance_loss_mlp": 1.01642108,
      "epoch": 0.5952023086635003,
      "flos": 23186652768000.0,
      "grad_norm": 1.7500964619171275,
      "language_loss": 0.73528659,
      "learning_rate": 1.4862505042310334e-06,
      "loss": 0.75633669,
      "num_input_tokens_seen": 106767010,
      "step": 4950,
      "time_per_iteration": 2.5819153785705566
    },
    {
      "auxiliary_loss_clip": 0.01080491,
      "auxiliary_loss_mlp": 0.01023734,
      "balance_loss_clip": 1.04437399,
      "balance_loss_mlp": 1.01850688,
      "epoch": 0.5953225515541394,
      "flos": 33655913412480.0,
      "grad_norm": 1.7531653613373719,
      "language_loss": 0.69831574,
      "learning_rate": 1.4854977101954587e-06,
      "loss": 0.71935797,
      "num_input_tokens_seen": 106789230,
      "step": 4951,
      "time_per_iteration": 2.707120180130005
    },
    {
      "auxiliary_loss_clip": 0.0109159,
      "auxiliary_loss_mlp": 0.01021335,
      "balance_loss_clip": 1.04188991,
      "balance_loss_mlp": 1.01579475,
      "epoch": 0.5954427944447784,
      "flos": 24461772491520.0,
      "grad_norm": 2.122256880831647,
      "language_loss": 0.86096692,
      "learning_rate": 1.4847449942094716e-06,
      "loss": 0.88209611,
      "num_input_tokens_seen": 106808110,
      "step": 4952,
      "time_per_iteration": 2.5961456298828125
    },
    {
      "auxiliary_loss_clip": 0.01071836,
      "auxiliary_loss_mlp": 0.01020479,
      "balance_loss_clip": 1.03837466,
      "balance_loss_mlp": 1.01516581,
      "epoch": 0.5955630373354175,
      "flos": 18553834465920.0,
      "grad_norm": 9.786581271796532,
      "language_loss": 0.86463439,
      "learning_rate": 1.4839923563872598e-06,
      "loss": 0.88555759,
      "num_input_tokens_seen": 106826650,
      "step": 4953,
      "time_per_iteration": 2.584472417831421
    },
    {
      "auxiliary_loss_clip": 0.01061966,
      "auxiliary_loss_mlp": 0.01020188,
      "balance_loss_clip": 1.04385972,
      "balance_loss_mlp": 1.01457024,
      "epoch": 0.5956832802260567,
      "flos": 19793718241920.0,
      "grad_norm": 1.8329282184149487,
      "language_loss": 0.75861651,
      "learning_rate": 1.483239796842997e-06,
      "loss": 0.77943802,
      "num_input_tokens_seen": 106844680,
      "step": 4954,
      "time_per_iteration": 3.3660190105438232
    },
    {
      "auxiliary_loss_clip": 0.01059766,
      "auxiliary_loss_mlp": 0.01021016,
      "balance_loss_clip": 1.04065967,
      "balance_loss_mlp": 1.01583362,
      "epoch": 0.5958035231166957,
      "flos": 19752642910080.0,
      "grad_norm": 1.7417521308896269,
      "language_loss": 0.84117222,
      "learning_rate": 1.4824873156908462e-06,
      "loss": 0.86198008,
      "num_input_tokens_seen": 106862605,
      "step": 4955,
      "time_per_iteration": 2.640073537826538
    },
    {
      "auxiliary_loss_clip": 0.01089414,
      "auxiliary_loss_mlp": 0.00757107,
      "balance_loss_clip": 1.04322171,
      "balance_loss_mlp": 1.00181186,
      "epoch": 0.5959237660073348,
      "flos": 21654946874880.0,
      "grad_norm": 1.5939118462333894,
      "language_loss": 0.75801992,
      "learning_rate": 1.4817349130449584e-06,
      "loss": 0.77648509,
      "num_input_tokens_seen": 106882325,
      "step": 4956,
      "time_per_iteration": 2.5865190029144287
    },
    {
      "auxiliary_loss_clip": 0.01086855,
      "auxiliary_loss_mlp": 0.01018455,
      "balance_loss_clip": 1.04163122,
      "balance_loss_mlp": 1.01321268,
      "epoch": 0.5960440088979739,
      "flos": 21172915330560.0,
      "grad_norm": 1.9336107698678429,
      "language_loss": 0.83110857,
      "learning_rate": 1.4809825890194717e-06,
      "loss": 0.85216165,
      "num_input_tokens_seen": 106900995,
      "step": 4957,
      "time_per_iteration": 2.5609829425811768
    },
    {
      "auxiliary_loss_clip": 0.01082827,
      "auxiliary_loss_mlp": 0.01018069,
      "balance_loss_clip": 1.04419923,
      "balance_loss_mlp": 1.01259446,
      "epoch": 0.596164251788613,
      "flos": 14759312745600.0,
      "grad_norm": 1.9317132513764377,
      "language_loss": 0.77519512,
      "learning_rate": 1.4802303437285139e-06,
      "loss": 0.79620409,
      "num_input_tokens_seen": 106918265,
      "step": 4958,
      "time_per_iteration": 2.553394317626953
    },
    {
      "auxiliary_loss_clip": 0.01073843,
      "auxiliary_loss_mlp": 0.01021974,
      "balance_loss_clip": 1.03762889,
      "balance_loss_mlp": 1.01651394,
      "epoch": 0.596284494679252,
      "flos": 20488037587200.0,
      "grad_norm": 2.553673211996171,
      "language_loss": 0.80591393,
      "learning_rate": 1.4794781772861994e-06,
      "loss": 0.82687217,
      "num_input_tokens_seen": 106934760,
      "step": 4959,
      "time_per_iteration": 2.5597517490386963
    },
    {
      "auxiliary_loss_clip": 0.01082028,
      "auxiliary_loss_mlp": 0.00756756,
      "balance_loss_clip": 1.04490662,
      "balance_loss_mlp": 1.00177979,
      "epoch": 0.5964047375698912,
      "flos": 31214946107520.0,
      "grad_norm": 5.087691623663024,
      "language_loss": 0.66779268,
      "learning_rate": 1.4787260898066324e-06,
      "loss": 0.68618053,
      "num_input_tokens_seen": 106954760,
      "step": 4960,
      "time_per_iteration": 2.7275309562683105
    },
    {
      "auxiliary_loss_clip": 0.01102406,
      "auxiliary_loss_mlp": 0.01020063,
      "balance_loss_clip": 1.04444587,
      "balance_loss_mlp": 1.01419163,
      "epoch": 0.5965249804605303,
      "flos": 27485701505280.0,
      "grad_norm": 2.3118882165258285,
      "language_loss": 0.86095041,
      "learning_rate": 1.4779740814039023e-06,
      "loss": 0.88217509,
      "num_input_tokens_seen": 106974845,
      "step": 4961,
      "time_per_iteration": 2.5334455966949463
    },
    {
      "auxiliary_loss_clip": 0.0110192,
      "auxiliary_loss_mlp": 0.01021476,
      "balance_loss_clip": 1.04263401,
      "balance_loss_mlp": 1.01592362,
      "epoch": 0.5966452233511693,
      "flos": 30776568324480.0,
      "grad_norm": 2.1140152446827987,
      "language_loss": 0.68347931,
      "learning_rate": 1.4772221521920894e-06,
      "loss": 0.70471334,
      "num_input_tokens_seen": 106994870,
      "step": 4962,
      "time_per_iteration": 2.602445125579834
    },
    {
      "auxiliary_loss_clip": 0.01076298,
      "auxiliary_loss_mlp": 0.01018489,
      "balance_loss_clip": 1.04580629,
      "balance_loss_mlp": 1.01325583,
      "epoch": 0.5967654662418085,
      "flos": 25483377409920.0,
      "grad_norm": 2.4244389348937525,
      "language_loss": 0.74423277,
      "learning_rate": 1.4764703022852598e-06,
      "loss": 0.76518065,
      "num_input_tokens_seen": 107015390,
      "step": 4963,
      "time_per_iteration": 2.6085145473480225
    },
    {
      "auxiliary_loss_clip": 0.01029565,
      "auxiliary_loss_mlp": 0.01017098,
      "balance_loss_clip": 1.03328896,
      "balance_loss_mlp": 1.01195431,
      "epoch": 0.5968857091324475,
      "flos": 19101143128320.0,
      "grad_norm": 2.164886790692738,
      "language_loss": 0.77054787,
      "learning_rate": 1.4757185317974696e-06,
      "loss": 0.79101449,
      "num_input_tokens_seen": 107033775,
      "step": 4964,
      "time_per_iteration": 2.6614561080932617
    },
    {
      "auxiliary_loss_clip": 0.01089785,
      "auxiliary_loss_mlp": 0.01019236,
      "balance_loss_clip": 1.04219496,
      "balance_loss_mlp": 1.01372862,
      "epoch": 0.5970059520230866,
      "flos": 23694782002560.0,
      "grad_norm": 2.0740186206566,
      "language_loss": 0.70886922,
      "learning_rate": 1.474966840842761e-06,
      "loss": 0.72995937,
      "num_input_tokens_seen": 107053355,
      "step": 4965,
      "time_per_iteration": 2.5440595149993896
    },
    {
      "auxiliary_loss_clip": 0.01095267,
      "auxiliary_loss_mlp": 0.01021044,
      "balance_loss_clip": 1.04507351,
      "balance_loss_mlp": 1.01580143,
      "epoch": 0.5971261949137258,
      "flos": 23187790310400.0,
      "grad_norm": 1.8046454536679535,
      "language_loss": 0.87148869,
      "learning_rate": 1.4742152295351655e-06,
      "loss": 0.89265186,
      "num_input_tokens_seen": 107072510,
      "step": 4966,
      "time_per_iteration": 2.5784173011779785
    },
    {
      "auxiliary_loss_clip": 0.01090832,
      "auxiliary_loss_mlp": 0.00757096,
      "balance_loss_clip": 1.04286194,
      "balance_loss_mlp": 1.00193524,
      "epoch": 0.5972464378043648,
      "flos": 20559760778880.0,
      "grad_norm": 3.5356393732078137,
      "language_loss": 0.64215529,
      "learning_rate": 1.4734636979887016e-06,
      "loss": 0.66063452,
      "num_input_tokens_seen": 107089970,
      "step": 4967,
      "time_per_iteration": 2.5577518939971924
    },
    {
      "auxiliary_loss_clip": 0.01067454,
      "auxiliary_loss_mlp": 0.01024687,
      "balance_loss_clip": 1.04134107,
      "balance_loss_mlp": 1.01877737,
      "epoch": 0.5973666806950039,
      "flos": 29389560111360.0,
      "grad_norm": 5.239347634458855,
      "language_loss": 0.90268886,
      "learning_rate": 1.4727122463173755e-06,
      "loss": 0.92361021,
      "num_input_tokens_seen": 107108500,
      "step": 4968,
      "time_per_iteration": 2.7393202781677246
    },
    {
      "auxiliary_loss_clip": 0.01076238,
      "auxiliary_loss_mlp": 0.0101887,
      "balance_loss_clip": 1.04059684,
      "balance_loss_mlp": 1.01359773,
      "epoch": 0.597486923585643,
      "flos": 22275722960640.0,
      "grad_norm": 1.7425225758097367,
      "language_loss": 0.64341581,
      "learning_rate": 1.471960874635183e-06,
      "loss": 0.66436684,
      "num_input_tokens_seen": 107128060,
      "step": 4969,
      "time_per_iteration": 2.584639072418213
    },
    {
      "auxiliary_loss_clip": 0.01081346,
      "auxiliary_loss_mlp": 0.01017364,
      "balance_loss_clip": 1.04222739,
      "balance_loss_mlp": 1.01175523,
      "epoch": 0.5976071664762821,
      "flos": 13774195071360.0,
      "grad_norm": 3.0794638203251363,
      "language_loss": 0.70313245,
      "learning_rate": 1.4712095830561055e-06,
      "loss": 0.72411954,
      "num_input_tokens_seen": 107146550,
      "step": 4970,
      "time_per_iteration": 2.5929458141326904
    },
    {
      "auxiliary_loss_clip": 0.01081851,
      "auxiliary_loss_mlp": 0.01021722,
      "balance_loss_clip": 1.04219544,
      "balance_loss_mlp": 1.0164026,
      "epoch": 0.5977274093669211,
      "flos": 19100612275200.0,
      "grad_norm": 1.9002006058388377,
      "language_loss": 0.81024957,
      "learning_rate": 1.4704583716941147e-06,
      "loss": 0.8312853,
      "num_input_tokens_seen": 107165415,
      "step": 4971,
      "time_per_iteration": 2.5689032077789307
    },
    {
      "auxiliary_loss_clip": 0.01097872,
      "auxiliary_loss_mlp": 0.01025942,
      "balance_loss_clip": 1.04822958,
      "balance_loss_mlp": 1.02051747,
      "epoch": 0.5978476522575603,
      "flos": 20378082919680.0,
      "grad_norm": 1.7928071865228605,
      "language_loss": 0.72138309,
      "learning_rate": 1.4697072406631672e-06,
      "loss": 0.74262118,
      "num_input_tokens_seen": 107185320,
      "step": 4972,
      "time_per_iteration": 3.375793933868408
    },
    {
      "auxiliary_loss_clip": 0.01048039,
      "auxiliary_loss_mlp": 0.01021038,
      "balance_loss_clip": 1.0364269,
      "balance_loss_mlp": 1.01510417,
      "epoch": 0.5979678951481994,
      "flos": 29025711457920.0,
      "grad_norm": 1.9271028697890533,
      "language_loss": 0.7288307,
      "learning_rate": 1.4689561900772097e-06,
      "loss": 0.74952137,
      "num_input_tokens_seen": 107205380,
      "step": 4973,
      "time_per_iteration": 2.729829788208008
    },
    {
      "auxiliary_loss_clip": 0.01074968,
      "auxiliary_loss_mlp": 0.01021136,
      "balance_loss_clip": 1.0394218,
      "balance_loss_mlp": 1.01595366,
      "epoch": 0.5980881380388384,
      "flos": 17969621460480.0,
      "grad_norm": 3.1128581506444384,
      "language_loss": 0.7245366,
      "learning_rate": 1.4682052200501758e-06,
      "loss": 0.74549758,
      "num_input_tokens_seen": 107222585,
      "step": 4974,
      "time_per_iteration": 3.313734531402588
    },
    {
      "auxiliary_loss_clip": 0.01102811,
      "auxiliary_loss_mlp": 0.01024373,
      "balance_loss_clip": 1.04405165,
      "balance_loss_mlp": 1.01883018,
      "epoch": 0.5982083809294776,
      "flos": 22964847528960.0,
      "grad_norm": 1.7910990037106678,
      "language_loss": 0.80105221,
      "learning_rate": 1.4674543306959876e-06,
      "loss": 0.82232404,
      "num_input_tokens_seen": 107242055,
      "step": 4975,
      "time_per_iteration": 3.4923095703125
    },
    {
      "auxiliary_loss_clip": 0.01079755,
      "auxiliary_loss_mlp": 0.0102023,
      "balance_loss_clip": 1.04203415,
      "balance_loss_mlp": 1.01455545,
      "epoch": 0.5983286238201166,
      "flos": 20993815900800.0,
      "grad_norm": 2.2816652828275537,
      "language_loss": 0.84363878,
      "learning_rate": 1.4667035221285535e-06,
      "loss": 0.86463869,
      "num_input_tokens_seen": 107259695,
      "step": 4976,
      "time_per_iteration": 2.5683255195617676
    },
    {
      "auxiliary_loss_clip": 0.01085839,
      "auxiliary_loss_mlp": 0.01018636,
      "balance_loss_clip": 1.04332113,
      "balance_loss_mlp": 1.01327443,
      "epoch": 0.5984488667107557,
      "flos": 28185936071040.0,
      "grad_norm": 1.7802713887780621,
      "language_loss": 0.74272323,
      "learning_rate": 1.4659527944617715e-06,
      "loss": 0.76376802,
      "num_input_tokens_seen": 107279640,
      "step": 4977,
      "time_per_iteration": 2.6061134338378906
    },
    {
      "auxiliary_loss_clip": 0.0104371,
      "auxiliary_loss_mlp": 0.01020608,
      "balance_loss_clip": 1.04003167,
      "balance_loss_mlp": 1.01521337,
      "epoch": 0.5985691096013949,
      "flos": 16473644449920.0,
      "grad_norm": 2.979244640872404,
      "language_loss": 0.76149857,
      "learning_rate": 1.465202147809526e-06,
      "loss": 0.7821418,
      "num_input_tokens_seen": 107298135,
      "step": 4978,
      "time_per_iteration": 2.6597440242767334
    },
    {
      "auxiliary_loss_clip": 0.01104961,
      "auxiliary_loss_mlp": 0.01018259,
      "balance_loss_clip": 1.04535866,
      "balance_loss_mlp": 1.01318073,
      "epoch": 0.5986893524920339,
      "flos": 26721175691520.0,
      "grad_norm": 1.8526616689632989,
      "language_loss": 0.76337361,
      "learning_rate": 1.4644515822856888e-06,
      "loss": 0.78460574,
      "num_input_tokens_seen": 107316570,
      "step": 4979,
      "time_per_iteration": 2.5865166187286377
    },
    {
      "auxiliary_loss_clip": 0.01028943,
      "auxiliary_loss_mlp": 0.01001856,
      "balance_loss_clip": 1.02909482,
      "balance_loss_mlp": 0.99987715,
      "epoch": 0.598809595382673,
      "flos": 61614649825920.0,
      "grad_norm": 0.768213662861367,
      "language_loss": 0.56465542,
      "learning_rate": 1.4637010980041215e-06,
      "loss": 0.58496344,
      "num_input_tokens_seen": 107378680,
      "step": 4980,
      "time_per_iteration": 3.93416166305542
    },
    {
      "auxiliary_loss_clip": 0.01103945,
      "auxiliary_loss_mlp": 0.01021186,
      "balance_loss_clip": 1.04485929,
      "balance_loss_mlp": 1.01544285,
      "epoch": 0.5989298382733121,
      "flos": 11803315115520.0,
      "grad_norm": 2.4885853806578524,
      "language_loss": 0.89852643,
      "learning_rate": 1.4629506950786707e-06,
      "loss": 0.91977769,
      "num_input_tokens_seen": 107394860,
      "step": 4981,
      "time_per_iteration": 2.482306957244873
    },
    {
      "auxiliary_loss_clip": 0.01059058,
      "auxiliary_loss_mlp": 0.0100278,
      "balance_loss_clip": 1.02999473,
      "balance_loss_mlp": 1.00089633,
      "epoch": 0.5990500811639512,
      "flos": 60031554883200.0,
      "grad_norm": 0.8214786688880555,
      "language_loss": 0.56047612,
      "learning_rate": 1.4622003736231733e-06,
      "loss": 0.5810945,
      "num_input_tokens_seen": 107453850,
      "step": 4982,
      "time_per_iteration": 3.200618267059326
    },
    {
      "auxiliary_loss_clip": 0.01087418,
      "auxiliary_loss_mlp": 0.01019923,
      "balance_loss_clip": 1.04500532,
      "balance_loss_mlp": 1.01430225,
      "epoch": 0.5991703240545903,
      "flos": 18224652988800.0,
      "grad_norm": 1.8477139620206366,
      "language_loss": 0.80434549,
      "learning_rate": 1.461450133751451e-06,
      "loss": 0.82541883,
      "num_input_tokens_seen": 107471920,
      "step": 4983,
      "time_per_iteration": 2.5305495262145996
    },
    {
      "auxiliary_loss_clip": 0.01088453,
      "auxiliary_loss_mlp": 0.01017991,
      "balance_loss_clip": 1.04422998,
      "balance_loss_mlp": 1.01234043,
      "epoch": 0.5992905669452293,
      "flos": 27712398176640.0,
      "grad_norm": 1.9455755750994825,
      "language_loss": 0.75938594,
      "learning_rate": 1.4606999755773153e-06,
      "loss": 0.78045046,
      "num_input_tokens_seen": 107493125,
      "step": 4984,
      "time_per_iteration": 2.6372592449188232
    },
    {
      "auxiliary_loss_clip": 0.01103633,
      "auxiliary_loss_mlp": 0.01021186,
      "balance_loss_clip": 1.04451084,
      "balance_loss_mlp": 1.01560974,
      "epoch": 0.5994108098358685,
      "flos": 20451095326080.0,
      "grad_norm": 1.673522005996517,
      "language_loss": 0.82505429,
      "learning_rate": 1.4599498992145643e-06,
      "loss": 0.84630251,
      "num_input_tokens_seen": 107513150,
      "step": 4985,
      "time_per_iteration": 2.5135960578918457
    },
    {
      "auxiliary_loss_clip": 0.01081818,
      "auxiliary_loss_mlp": 0.00756949,
      "balance_loss_clip": 1.04324913,
      "balance_loss_mlp": 1.0020411,
      "epoch": 0.5995310527265075,
      "flos": 22271969070720.0,
      "grad_norm": 1.8904065084629054,
      "language_loss": 0.71294087,
      "learning_rate": 1.4591999047769846e-06,
      "loss": 0.73132849,
      "num_input_tokens_seen": 107532005,
      "step": 4986,
      "time_per_iteration": 2.6392762660980225
    },
    {
      "auxiliary_loss_clip": 0.01047801,
      "auxiliary_loss_mlp": 0.01023305,
      "balance_loss_clip": 1.04055154,
      "balance_loss_mlp": 1.01753831,
      "epoch": 0.5996512956171466,
      "flos": 18918972334080.0,
      "grad_norm": 1.750827643650915,
      "language_loss": 0.75541484,
      "learning_rate": 1.4584499923783486e-06,
      "loss": 0.77612585,
      "num_input_tokens_seen": 107550585,
      "step": 4987,
      "time_per_iteration": 2.7042789459228516
    },
    {
      "auxiliary_loss_clip": 0.01077171,
      "auxiliary_loss_mlp": 0.01017402,
      "balance_loss_clip": 1.04292738,
      "balance_loss_mlp": 1.01231825,
      "epoch": 0.5997715385077858,
      "flos": 15372353543040.0,
      "grad_norm": 1.7541805036924987,
      "language_loss": 0.76216984,
      "learning_rate": 1.457700162132419e-06,
      "loss": 0.78311551,
      "num_input_tokens_seen": 107567575,
      "step": 4988,
      "time_per_iteration": 2.56296706199646
    },
    {
      "auxiliary_loss_clip": 0.01042966,
      "auxiliary_loss_mlp": 0.0101795,
      "balance_loss_clip": 1.03680575,
      "balance_loss_mlp": 1.01262105,
      "epoch": 0.5998917813984248,
      "flos": 25267184046720.0,
      "grad_norm": 2.3874739209676448,
      "language_loss": 0.72793907,
      "learning_rate": 1.4569504141529433e-06,
      "loss": 0.74854827,
      "num_input_tokens_seen": 107585410,
      "step": 4989,
      "time_per_iteration": 2.6891231536865234
    },
    {
      "auxiliary_loss_clip": 0.01088551,
      "auxiliary_loss_mlp": 0.01024735,
      "balance_loss_clip": 1.04692161,
      "balance_loss_mlp": 1.0188936,
      "epoch": 0.6000120242890639,
      "flos": 22056685741440.0,
      "grad_norm": 1.861733617686645,
      "language_loss": 0.71854329,
      "learning_rate": 1.456200748553658e-06,
      "loss": 0.73967612,
      "num_input_tokens_seen": 107603405,
      "step": 4990,
      "time_per_iteration": 2.6487128734588623
    },
    {
      "auxiliary_loss_clip": 0.01104401,
      "auxiliary_loss_mlp": 0.01024281,
      "balance_loss_clip": 1.04508901,
      "balance_loss_mlp": 1.01848185,
      "epoch": 0.600132267179703,
      "flos": 29866093534080.0,
      "grad_norm": 2.151263131321355,
      "language_loss": 0.78973365,
      "learning_rate": 1.455451165448287e-06,
      "loss": 0.81102049,
      "num_input_tokens_seen": 107626060,
      "step": 4991,
      "time_per_iteration": 2.649672031402588
    },
    {
      "auxiliary_loss_clip": 0.01073205,
      "auxiliary_loss_mlp": 0.01019854,
      "balance_loss_clip": 1.04280496,
      "balance_loss_mlp": 1.01425767,
      "epoch": 0.6002525100703421,
      "flos": 25047653892480.0,
      "grad_norm": 2.218282488328209,
      "language_loss": 0.73725367,
      "learning_rate": 1.4547016649505407e-06,
      "loss": 0.75818425,
      "num_input_tokens_seen": 107644070,
      "step": 4992,
      "time_per_iteration": 2.591578722000122
    },
    {
      "auxiliary_loss_clip": 0.01070337,
      "auxiliary_loss_mlp": 0.01019773,
      "balance_loss_clip": 1.04270148,
      "balance_loss_mlp": 1.01402438,
      "epoch": 0.6003727529609811,
      "flos": 20851658732160.0,
      "grad_norm": 1.9648429244311738,
      "language_loss": 0.85027224,
      "learning_rate": 1.4539522471741193e-06,
      "loss": 0.87117332,
      "num_input_tokens_seen": 107661495,
      "step": 4993,
      "time_per_iteration": 2.6400411128997803
    },
    {
      "auxiliary_loss_clip": 0.01090458,
      "auxiliary_loss_mlp": 0.01026412,
      "balance_loss_clip": 1.04190493,
      "balance_loss_mlp": 1.02028763,
      "epoch": 0.6004929958516203,
      "flos": 15596320112640.0,
      "grad_norm": 2.12835976118073,
      "language_loss": 0.70526254,
      "learning_rate": 1.4532029122327067e-06,
      "loss": 0.72643125,
      "num_input_tokens_seen": 107678280,
      "step": 4994,
      "time_per_iteration": 2.526304006576538
    },
    {
      "auxiliary_loss_clip": 0.01050449,
      "auxiliary_loss_mlp": 0.01024588,
      "balance_loss_clip": 1.03572249,
      "balance_loss_mlp": 1.01920593,
      "epoch": 0.6006132387422594,
      "flos": 21765470313600.0,
      "grad_norm": 1.8601704174794518,
      "language_loss": 0.75339139,
      "learning_rate": 1.4524536602399783e-06,
      "loss": 0.77414179,
      "num_input_tokens_seen": 107697370,
      "step": 4995,
      "time_per_iteration": 2.627772569656372
    },
    {
      "auxiliary_loss_clip": 0.01075961,
      "auxiliary_loss_mlp": 0.01024374,
      "balance_loss_clip": 1.04350567,
      "balance_loss_mlp": 1.01929295,
      "epoch": 0.6007334816328984,
      "flos": 22860846000000.0,
      "grad_norm": 1.688029023011907,
      "language_loss": 0.77406698,
      "learning_rate": 1.4517044913095938e-06,
      "loss": 0.79507029,
      "num_input_tokens_seen": 107717790,
      "step": 4996,
      "time_per_iteration": 2.5989134311676025
    },
    {
      "auxiliary_loss_clip": 0.01091167,
      "auxiliary_loss_mlp": 0.01021422,
      "balance_loss_clip": 1.04313135,
      "balance_loss_mlp": 1.01556563,
      "epoch": 0.6008537245235376,
      "flos": 28326804024960.0,
      "grad_norm": 2.661907745126305,
      "language_loss": 0.81463158,
      "learning_rate": 1.4509554055552022e-06,
      "loss": 0.83575749,
      "num_input_tokens_seen": 107738020,
      "step": 4997,
      "time_per_iteration": 3.368299961090088
    },
    {
      "auxiliary_loss_clip": 0.01081211,
      "auxiliary_loss_mlp": 0.01023185,
      "balance_loss_clip": 1.04464245,
      "balance_loss_mlp": 1.01754975,
      "epoch": 0.6009739674141766,
      "flos": 20888183894400.0,
      "grad_norm": 2.1476306568890338,
      "language_loss": 0.83913404,
      "learning_rate": 1.450206403090439e-06,
      "loss": 0.86017799,
      "num_input_tokens_seen": 107756215,
      "step": 4998,
      "time_per_iteration": 2.61626935005188
    },
    {
      "auxiliary_loss_clip": 0.01090221,
      "auxiliary_loss_mlp": 0.01018233,
      "balance_loss_clip": 1.04444933,
      "balance_loss_mlp": 1.01267529,
      "epoch": 0.6010942103048157,
      "flos": 20482842810240.0,
      "grad_norm": 3.2950589369629992,
      "language_loss": 0.8632654,
      "learning_rate": 1.4494574840289274e-06,
      "loss": 0.88435,
      "num_input_tokens_seen": 107773330,
      "step": 4999,
      "time_per_iteration": 3.400148868560791
    },
    {
      "auxiliary_loss_clip": 0.01091844,
      "auxiliary_loss_mlp": 0.01024337,
      "balance_loss_clip": 1.04265189,
      "balance_loss_mlp": 1.01848638,
      "epoch": 0.6012144531954549,
      "flos": 23808263051520.0,
      "grad_norm": 3.0419529873827824,
      "language_loss": 0.73826569,
      "learning_rate": 1.4487086484842782e-06,
      "loss": 0.75942755,
      "num_input_tokens_seen": 107791975,
      "step": 5000,
      "time_per_iteration": 3.3709797859191895
    },
    {
      "auxiliary_loss_clip": 0.0110193,
      "auxiliary_loss_mlp": 0.01019675,
      "balance_loss_clip": 1.04332995,
      "balance_loss_mlp": 1.01438522,
      "epoch": 0.6013346960860939,
      "flos": 18990316344960.0,
      "grad_norm": 2.333454268966503,
      "language_loss": 0.60348427,
      "learning_rate": 1.4479598965700878e-06,
      "loss": 0.62470031,
      "num_input_tokens_seen": 107809240,
      "step": 5001,
      "time_per_iteration": 2.483835220336914
    },
    {
      "auxiliary_loss_clip": 0.01069079,
      "auxiliary_loss_mlp": 0.01021357,
      "balance_loss_clip": 1.04176354,
      "balance_loss_mlp": 1.01566458,
      "epoch": 0.601454938976733,
      "flos": 24027641533440.0,
      "grad_norm": 2.577081793931062,
      "language_loss": 0.68498576,
      "learning_rate": 1.4472112283999427e-06,
      "loss": 0.70589006,
      "num_input_tokens_seen": 107827895,
      "step": 5002,
      "time_per_iteration": 2.6553425788879395
    },
    {
      "auxiliary_loss_clip": 0.01085724,
      "auxiliary_loss_mlp": 0.01022,
      "balance_loss_clip": 1.04545474,
      "balance_loss_mlp": 1.0167402,
      "epoch": 0.6015751818673721,
      "flos": 26429239820160.0,
      "grad_norm": 1.9478195841142143,
      "language_loss": 0.69426614,
      "learning_rate": 1.4464626440874143e-06,
      "loss": 0.71534336,
      "num_input_tokens_seen": 107847010,
      "step": 5003,
      "time_per_iteration": 2.583303213119507
    },
    {
      "auxiliary_loss_clip": 0.01058399,
      "auxiliary_loss_mlp": 0.01019075,
      "balance_loss_clip": 1.04291153,
      "balance_loss_mlp": 1.01315951,
      "epoch": 0.6016954247580112,
      "flos": 13116931741440.0,
      "grad_norm": 2.503398762392888,
      "language_loss": 0.74722922,
      "learning_rate": 1.4457141437460636e-06,
      "loss": 0.768004,
      "num_input_tokens_seen": 107864235,
      "step": 5004,
      "time_per_iteration": 2.7013049125671387
    },
    {
      "auxiliary_loss_clip": 0.01075951,
      "auxiliary_loss_mlp": 0.01020075,
      "balance_loss_clip": 1.04132843,
      "balance_loss_mlp": 1.01415622,
      "epoch": 0.6018156676486502,
      "flos": 23770676183040.0,
      "grad_norm": 1.7966520904347345,
      "language_loss": 0.73171294,
      "learning_rate": 1.444965727489436e-06,
      "loss": 0.75267315,
      "num_input_tokens_seen": 107883680,
      "step": 5005,
      "time_per_iteration": 3.3377139568328857
    },
    {
      "auxiliary_loss_clip": 0.01068504,
      "auxiliary_loss_mlp": 0.01020844,
      "balance_loss_clip": 1.04035187,
      "balance_loss_mlp": 1.0154078,
      "epoch": 0.6019359105392894,
      "flos": 26471793957120.0,
      "grad_norm": 2.3243135021525316,
      "language_loss": 0.63217795,
      "learning_rate": 1.444217395431066e-06,
      "loss": 0.6530714,
      "num_input_tokens_seen": 107906220,
      "step": 5006,
      "time_per_iteration": 2.658360004425049
    },
    {
      "auxiliary_loss_clip": 0.0102693,
      "auxiliary_loss_mlp": 0.01001269,
      "balance_loss_clip": 1.02792883,
      "balance_loss_mlp": 0.99946928,
      "epoch": 0.6020561534299285,
      "flos": 69197512619520.0,
      "grad_norm": 0.7971650026844164,
      "language_loss": 0.55777401,
      "learning_rate": 1.4434691476844755e-06,
      "loss": 0.57805598,
      "num_input_tokens_seen": 107967195,
      "step": 5007,
      "time_per_iteration": 3.153917074203491
    },
    {
      "auxiliary_loss_clip": 0.01070126,
      "auxiliary_loss_mlp": 0.01020383,
      "balance_loss_clip": 1.03793252,
      "balance_loss_mlp": 1.01553154,
      "epoch": 0.6021763963205675,
      "flos": 21837458931840.0,
      "grad_norm": 2.7037900545819764,
      "language_loss": 0.67269659,
      "learning_rate": 1.4427209843631729e-06,
      "loss": 0.69360167,
      "num_input_tokens_seen": 107984245,
      "step": 5008,
      "time_per_iteration": 2.564119577407837
    },
    {
      "auxiliary_loss_clip": 0.01105028,
      "auxiliary_loss_mlp": 0.00756922,
      "balance_loss_clip": 1.04718554,
      "balance_loss_mlp": 1.00205564,
      "epoch": 0.6022966392112067,
      "flos": 26581066099200.0,
      "grad_norm": 1.853220467839629,
      "language_loss": 0.81053966,
      "learning_rate": 1.4419729055806534e-06,
      "loss": 0.82915914,
      "num_input_tokens_seen": 108003680,
      "step": 5009,
      "time_per_iteration": 2.607872247695923
    },
    {
      "auxiliary_loss_clip": 0.01076151,
      "auxiliary_loss_mlp": 0.00756928,
      "balance_loss_clip": 1.04255176,
      "balance_loss_mlp": 1.00199771,
      "epoch": 0.6024168821018457,
      "flos": 20705785591680.0,
      "grad_norm": 1.805227559249514,
      "language_loss": 0.82278967,
      "learning_rate": 1.441224911450401e-06,
      "loss": 0.84112048,
      "num_input_tokens_seen": 108019635,
      "step": 5010,
      "time_per_iteration": 2.563330888748169
    },
    {
      "auxiliary_loss_clip": 0.01094842,
      "auxiliary_loss_mlp": 0.01027502,
      "balance_loss_clip": 1.04521346,
      "balance_loss_mlp": 1.02180052,
      "epoch": 0.6025371249924848,
      "flos": 24683274385920.0,
      "grad_norm": 1.7560246364738872,
      "language_loss": 0.82285547,
      "learning_rate": 1.4404770020858851e-06,
      "loss": 0.8440789,
      "num_input_tokens_seen": 108039120,
      "step": 5011,
      "time_per_iteration": 2.629984140396118
    },
    {
      "auxiliary_loss_clip": 0.01083235,
      "auxiliary_loss_mlp": 0.01022595,
      "balance_loss_clip": 1.04163909,
      "balance_loss_mlp": 1.01753736,
      "epoch": 0.602657367883124,
      "flos": 25958052846720.0,
      "grad_norm": 1.6759528837190985,
      "language_loss": 0.86217046,
      "learning_rate": 1.439729177600563e-06,
      "loss": 0.88322878,
      "num_input_tokens_seen": 108059615,
      "step": 5012,
      "time_per_iteration": 2.550417423248291
    },
    {
      "auxiliary_loss_clip": 0.01089235,
      "auxiliary_loss_mlp": 0.0102115,
      "balance_loss_clip": 1.04294634,
      "balance_loss_mlp": 1.01560426,
      "epoch": 0.602777610773763,
      "flos": 16692492078720.0,
      "grad_norm": 2.0973422101094874,
      "language_loss": 0.72873384,
      "learning_rate": 1.4389814381078793e-06,
      "loss": 0.7498377,
      "num_input_tokens_seen": 108078855,
      "step": 5013,
      "time_per_iteration": 2.5907464027404785
    },
    {
      "auxiliary_loss_clip": 0.00992328,
      "auxiliary_loss_mlp": 0.01027325,
      "balance_loss_clip": 1.02707553,
      "balance_loss_mlp": 1.02200866,
      "epoch": 0.6028978536644021,
      "flos": 13335931042560.0,
      "grad_norm": 2.0660863947478116,
      "language_loss": 0.79845858,
      "learning_rate": 1.438233783721265e-06,
      "loss": 0.81865507,
      "num_input_tokens_seen": 108095020,
      "step": 5014,
      "time_per_iteration": 2.9525845050811768
    },
    {
      "auxiliary_loss_clip": 0.01074973,
      "auxiliary_loss_mlp": 0.01023455,
      "balance_loss_clip": 1.04675877,
      "balance_loss_mlp": 1.01809692,
      "epoch": 0.6030180965550412,
      "flos": 19646783395200.0,
      "grad_norm": 3.0879467871177217,
      "language_loss": 0.77808309,
      "learning_rate": 1.43748621455414e-06,
      "loss": 0.79906738,
      "num_input_tokens_seen": 108111455,
      "step": 5015,
      "time_per_iteration": 2.8813247680664062
    },
    {
      "auxiliary_loss_clip": 0.01070057,
      "auxiliary_loss_mlp": 0.01022599,
      "balance_loss_clip": 1.03813934,
      "balance_loss_mlp": 1.01697791,
      "epoch": 0.6031383394456803,
      "flos": 14459755340160.0,
      "grad_norm": 2.327843385770832,
      "language_loss": 0.81085169,
      "learning_rate": 1.4367387307199082e-06,
      "loss": 0.83177823,
      "num_input_tokens_seen": 108128305,
      "step": 5016,
      "time_per_iteration": 2.512868642807007
    },
    {
      "auxiliary_loss_clip": 0.01094438,
      "auxiliary_loss_mlp": 0.01024631,
      "balance_loss_clip": 1.0454309,
      "balance_loss_mlp": 1.01933861,
      "epoch": 0.6032585823363193,
      "flos": 13919499440640.0,
      "grad_norm": 2.011234917306408,
      "language_loss": 0.82345849,
      "learning_rate": 1.4359913323319632e-06,
      "loss": 0.8446492,
      "num_input_tokens_seen": 108145475,
      "step": 5017,
      "time_per_iteration": 2.568020820617676
    },
    {
      "auxiliary_loss_clip": 0.01041243,
      "auxiliary_loss_mlp": 0.0102047,
      "balance_loss_clip": 1.03798318,
      "balance_loss_mlp": 1.01501942,
      "epoch": 0.6033788252269584,
      "flos": 24355571713920.0,
      "grad_norm": 1.932824420710797,
      "language_loss": 0.78098989,
      "learning_rate": 1.4352440195036847e-06,
      "loss": 0.80160713,
      "num_input_tokens_seen": 108165650,
      "step": 5018,
      "time_per_iteration": 2.7009408473968506
    },
    {
      "auxiliary_loss_clip": 0.01029619,
      "auxiliary_loss_mlp": 0.01020448,
      "balance_loss_clip": 1.03751242,
      "balance_loss_mlp": 1.01510406,
      "epoch": 0.6034990681175976,
      "flos": 25523656462080.0,
      "grad_norm": 1.5907126244157492,
      "language_loss": 0.79956877,
      "learning_rate": 1.4344967923484395e-06,
      "loss": 0.82006955,
      "num_input_tokens_seen": 108187620,
      "step": 5019,
      "time_per_iteration": 2.7684404850006104
    },
    {
      "auxiliary_loss_clip": 0.01087463,
      "auxiliary_loss_mlp": 0.01022873,
      "balance_loss_clip": 1.04171443,
      "balance_loss_mlp": 1.0176549,
      "epoch": 0.6036193110082366,
      "flos": 25960782948480.0,
      "grad_norm": 2.159296079491799,
      "language_loss": 0.71898061,
      "learning_rate": 1.433749650979581e-06,
      "loss": 0.74008393,
      "num_input_tokens_seen": 108207605,
      "step": 5020,
      "time_per_iteration": 2.5709645748138428
    },
    {
      "auxiliary_loss_clip": 0.01061237,
      "auxiliary_loss_mlp": 0.01021641,
      "balance_loss_clip": 1.0394206,
      "balance_loss_mlp": 1.01633334,
      "epoch": 0.6037395538988757,
      "flos": 25595796752640.0,
      "grad_norm": 2.350083577405139,
      "language_loss": 0.67872733,
      "learning_rate": 1.433002595510451e-06,
      "loss": 0.69955611,
      "num_input_tokens_seen": 108226385,
      "step": 5021,
      "time_per_iteration": 2.650455951690674
    },
    {
      "auxiliary_loss_clip": 0.01079547,
      "auxiliary_loss_mlp": 0.00757139,
      "balance_loss_clip": 1.04114723,
      "balance_loss_mlp": 1.0020026,
      "epoch": 0.6038597967895148,
      "flos": 17817871017600.0,
      "grad_norm": 2.7840563003114056,
      "language_loss": 0.71608132,
      "learning_rate": 1.4322556260543757e-06,
      "loss": 0.73444819,
      "num_input_tokens_seen": 108242960,
      "step": 5022,
      "time_per_iteration": 2.599726676940918
    },
    {
      "auxiliary_loss_clip": 0.01026033,
      "auxiliary_loss_mlp": 0.01002158,
      "balance_loss_clip": 1.0264076,
      "balance_loss_mlp": 1.00037026,
      "epoch": 0.6039800396801539,
      "flos": 65175194603520.0,
      "grad_norm": 0.9284790502780509,
      "language_loss": 0.62646025,
      "learning_rate": 1.4315087427246703e-06,
      "loss": 0.64674217,
      "num_input_tokens_seen": 108296785,
      "step": 5023,
      "time_per_iteration": 3.904336929321289
    },
    {
      "auxiliary_loss_clip": 0.01056842,
      "auxiliary_loss_mlp": 0.01005105,
      "balance_loss_clip": 1.02800274,
      "balance_loss_mlp": 1.00329328,
      "epoch": 0.604100282570793,
      "flos": 67392043666560.0,
      "grad_norm": 0.8675606070268066,
      "language_loss": 0.58472073,
      "learning_rate": 1.4307619456346372e-06,
      "loss": 0.60534024,
      "num_input_tokens_seen": 108341090,
      "step": 5024,
      "time_per_iteration": 2.83762264251709
    },
    {
      "auxiliary_loss_clip": 0.01091761,
      "auxiliary_loss_mlp": 0.01022052,
      "balance_loss_clip": 1.04265893,
      "balance_loss_mlp": 1.01635087,
      "epoch": 0.6042205254614321,
      "flos": 35300341992960.0,
      "grad_norm": 2.5686612378154523,
      "language_loss": 0.7401275,
      "learning_rate": 1.430015234897564e-06,
      "loss": 0.76126564,
      "num_input_tokens_seen": 108364370,
      "step": 5025,
      "time_per_iteration": 4.195336818695068
    },
    {
      "auxiliary_loss_clip": 0.01104276,
      "auxiliary_loss_mlp": 0.0075695,
      "balance_loss_clip": 1.04572022,
      "balance_loss_mlp": 1.00187016,
      "epoch": 0.6043407683520712,
      "flos": 45661619710080.0,
      "grad_norm": 1.6341497031447842,
      "language_loss": 0.66450149,
      "learning_rate": 1.4292686106267274e-06,
      "loss": 0.68311369,
      "num_input_tokens_seen": 108387220,
      "step": 5026,
      "time_per_iteration": 3.675619125366211
    },
    {
      "auxiliary_loss_clip": 0.01095082,
      "auxiliary_loss_mlp": 0.01026276,
      "balance_loss_clip": 1.04557419,
      "balance_loss_mlp": 1.02075934,
      "epoch": 0.6044610112427102,
      "flos": 16181860250880.0,
      "grad_norm": 1.8206393992246312,
      "language_loss": 0.77272868,
      "learning_rate": 1.4285220729353876e-06,
      "loss": 0.79394233,
      "num_input_tokens_seen": 108405760,
      "step": 5027,
      "time_per_iteration": 2.576563835144043
    },
    {
      "auxiliary_loss_clip": 0.01083046,
      "auxiliary_loss_mlp": 0.01020886,
      "balance_loss_clip": 1.04401493,
      "balance_loss_mlp": 1.0154624,
      "epoch": 0.6045812541333494,
      "flos": 13805525456640.0,
      "grad_norm": 1.9399302081417304,
      "language_loss": 0.77928847,
      "learning_rate": 1.4277756219367957e-06,
      "loss": 0.80032778,
      "num_input_tokens_seen": 108422785,
      "step": 5028,
      "time_per_iteration": 2.549499273300171
    },
    {
      "auxiliary_loss_clip": 0.01067135,
      "auxiliary_loss_mlp": 0.01020559,
      "balance_loss_clip": 1.04088485,
      "balance_loss_mlp": 1.01467276,
      "epoch": 0.6047014970239885,
      "flos": 19977140332800.0,
      "grad_norm": 2.01340869479537,
      "language_loss": 0.79814142,
      "learning_rate": 1.4270292577441864e-06,
      "loss": 0.81901836,
      "num_input_tokens_seen": 108442290,
      "step": 5029,
      "time_per_iteration": 2.634274482727051
    },
    {
      "auxiliary_loss_clip": 0.01093127,
      "auxiliary_loss_mlp": 0.01020342,
      "balance_loss_clip": 1.04369545,
      "balance_loss_mlp": 1.01493835,
      "epoch": 0.6048217399146275,
      "flos": 25339400173440.0,
      "grad_norm": 1.692824121662933,
      "language_loss": 0.72160566,
      "learning_rate": 1.4262829804707836e-06,
      "loss": 0.74274033,
      "num_input_tokens_seen": 108464280,
      "step": 5030,
      "time_per_iteration": 2.5802314281463623
    },
    {
      "auxiliary_loss_clip": 0.01093803,
      "auxiliary_loss_mlp": 0.0102251,
      "balance_loss_clip": 1.04423177,
      "balance_loss_mlp": 1.01675498,
      "epoch": 0.6049419828052667,
      "flos": 26033188665600.0,
      "grad_norm": 1.5703734715829514,
      "language_loss": 0.69985795,
      "learning_rate": 1.4255367902297958e-06,
      "loss": 0.72102106,
      "num_input_tokens_seen": 108485610,
      "step": 5031,
      "time_per_iteration": 3.35849666595459
    },
    {
      "auxiliary_loss_clip": 0.01103567,
      "auxiliary_loss_mlp": 0.0102233,
      "balance_loss_clip": 1.04541993,
      "balance_loss_mlp": 1.01714182,
      "epoch": 0.6050622256959057,
      "flos": 14649888931200.0,
      "grad_norm": 2.1842272188462735,
      "language_loss": 0.79161131,
      "learning_rate": 1.4247906871344215e-06,
      "loss": 0.81287026,
      "num_input_tokens_seen": 108501005,
      "step": 5032,
      "time_per_iteration": 2.479886770248413
    },
    {
      "auxiliary_loss_clip": 0.01076369,
      "auxiliary_loss_mlp": 0.01018192,
      "balance_loss_clip": 1.04035413,
      "balance_loss_mlp": 1.01309872,
      "epoch": 0.6051824685865448,
      "flos": 23333701368960.0,
      "grad_norm": 2.1751262876191038,
      "language_loss": 0.75539768,
      "learning_rate": 1.4240446712978415e-06,
      "loss": 0.77634323,
      "num_input_tokens_seen": 108519990,
      "step": 5033,
      "time_per_iteration": 2.5688343048095703
    },
    {
      "auxiliary_loss_clip": 0.01091972,
      "auxiliary_loss_mlp": 0.01018256,
      "balance_loss_clip": 1.04365492,
      "balance_loss_mlp": 1.0124383,
      "epoch": 0.605302711477184,
      "flos": 27565766674560.0,
      "grad_norm": 2.1597547689862626,
      "language_loss": 0.74464774,
      "learning_rate": 1.423298742833227e-06,
      "loss": 0.76575005,
      "num_input_tokens_seen": 108538650,
      "step": 5034,
      "time_per_iteration": 2.6152095794677734
    },
    {
      "auxiliary_loss_clip": 0.01067928,
      "auxiliary_loss_mlp": 0.01022189,
      "balance_loss_clip": 1.03973567,
      "balance_loss_mlp": 1.01672935,
      "epoch": 0.605422954367823,
      "flos": 15156273934080.0,
      "grad_norm": 2.203360207149517,
      "language_loss": 0.71915847,
      "learning_rate": 1.4225529018537352e-06,
      "loss": 0.74005961,
      "num_input_tokens_seen": 108554155,
      "step": 5035,
      "time_per_iteration": 2.5754706859588623
    },
    {
      "auxiliary_loss_clip": 0.01103873,
      "auxiliary_loss_mlp": 0.01021744,
      "balance_loss_clip": 1.04500675,
      "balance_loss_mlp": 1.01620698,
      "epoch": 0.6055431972584621,
      "flos": 27676441785600.0,
      "grad_norm": 1.8234431208696145,
      "language_loss": 0.78060663,
      "learning_rate": 1.4218071484725082e-06,
      "loss": 0.80186284,
      "num_input_tokens_seen": 108576275,
      "step": 5036,
      "time_per_iteration": 2.6101067066192627
    },
    {
      "auxiliary_loss_clip": 0.01069469,
      "auxiliary_loss_mlp": 0.01026444,
      "balance_loss_clip": 1.03978753,
      "balance_loss_mlp": 1.02117836,
      "epoch": 0.6056634401491012,
      "flos": 19389325109760.0,
      "grad_norm": 2.123336168781178,
      "language_loss": 0.76201379,
      "learning_rate": 1.4210614828026786e-06,
      "loss": 0.78297293,
      "num_input_tokens_seen": 108594125,
      "step": 5037,
      "time_per_iteration": 2.5529541969299316
    },
    {
      "auxiliary_loss_clip": 0.01102659,
      "auxiliary_loss_mlp": 0.0101837,
      "balance_loss_clip": 1.04310203,
      "balance_loss_mlp": 1.01320231,
      "epoch": 0.6057836830397403,
      "flos": 24791712330240.0,
      "grad_norm": 1.5655997954370708,
      "language_loss": 0.74483907,
      "learning_rate": 1.4203159049573605e-06,
      "loss": 0.76604933,
      "num_input_tokens_seen": 108615360,
      "step": 5038,
      "time_per_iteration": 2.5682268142700195
    },
    {
      "auxiliary_loss_clip": 0.01077965,
      "auxiliary_loss_mlp": 0.01024527,
      "balance_loss_clip": 1.04316688,
      "balance_loss_mlp": 1.01910567,
      "epoch": 0.6059039259303793,
      "flos": 20560329550080.0,
      "grad_norm": 2.043904027759625,
      "language_loss": 0.8678835,
      "learning_rate": 1.4195704150496593e-06,
      "loss": 0.88890839,
      "num_input_tokens_seen": 108633075,
      "step": 5039,
      "time_per_iteration": 2.5546391010284424
    },
    {
      "auxiliary_loss_clip": 0.01075494,
      "auxiliary_loss_mlp": 0.01021313,
      "balance_loss_clip": 1.04400563,
      "balance_loss_mlp": 1.0157578,
      "epoch": 0.6060241688210185,
      "flos": 21071871411840.0,
      "grad_norm": 1.7057700146584176,
      "language_loss": 0.73964643,
      "learning_rate": 1.4188250131926639e-06,
      "loss": 0.76061451,
      "num_input_tokens_seen": 108651875,
      "step": 5040,
      "time_per_iteration": 2.640742063522339
    },
    {
      "auxiliary_loss_clip": 0.01073469,
      "auxiliary_loss_mlp": 0.01023684,
      "balance_loss_clip": 1.03829122,
      "balance_loss_mlp": 1.017658,
      "epoch": 0.6061444117116576,
      "flos": 16362855584640.0,
      "grad_norm": 3.7695342551495936,
      "language_loss": 0.80361605,
      "learning_rate": 1.4180796994994525e-06,
      "loss": 0.82458758,
      "num_input_tokens_seen": 108669290,
      "step": 5041,
      "time_per_iteration": 2.527501344680786
    },
    {
      "auxiliary_loss_clip": 0.01077352,
      "auxiliary_loss_mlp": 0.01016588,
      "balance_loss_clip": 1.04151726,
      "balance_loss_mlp": 1.01115775,
      "epoch": 0.6062646546022966,
      "flos": 21509452915200.0,
      "grad_norm": 1.788356286567539,
      "language_loss": 0.72068822,
      "learning_rate": 1.4173344740830877e-06,
      "loss": 0.74162757,
      "num_input_tokens_seen": 108688420,
      "step": 5042,
      "time_per_iteration": 2.643578290939331
    },
    {
      "auxiliary_loss_clip": 0.01078178,
      "auxiliary_loss_mlp": 0.01023976,
      "balance_loss_clip": 1.04726362,
      "balance_loss_mlp": 1.01863277,
      "epoch": 0.6063848974929358,
      "flos": 38986236178560.0,
      "grad_norm": 1.5350600158375558,
      "language_loss": 0.70374155,
      "learning_rate": 1.4165893370566206e-06,
      "loss": 0.72476304,
      "num_input_tokens_seen": 108712175,
      "step": 5043,
      "time_per_iteration": 2.7412588596343994
    },
    {
      "auxiliary_loss_clip": 0.01093701,
      "auxiliary_loss_mlp": 0.01022807,
      "balance_loss_clip": 1.04356372,
      "balance_loss_mlp": 1.01685882,
      "epoch": 0.6065051403835748,
      "flos": 19648641381120.0,
      "grad_norm": 1.6344294988117987,
      "language_loss": 0.77683288,
      "learning_rate": 1.4158442885330865e-06,
      "loss": 0.79799795,
      "num_input_tokens_seen": 108730745,
      "step": 5044,
      "time_per_iteration": 2.56523060798645
    },
    {
      "auxiliary_loss_clip": 0.01094725,
      "auxiliary_loss_mlp": 0.01022725,
      "balance_loss_clip": 1.04501426,
      "balance_loss_mlp": 1.01692867,
      "epoch": 0.6066253832742139,
      "flos": 23515303392000.0,
      "grad_norm": 1.859436219545012,
      "language_loss": 0.78702044,
      "learning_rate": 1.4150993286255094e-06,
      "loss": 0.80819488,
      "num_input_tokens_seen": 108749995,
      "step": 5045,
      "time_per_iteration": 2.6052560806274414
    },
    {
      "auxiliary_loss_clip": 0.01100696,
      "auxiliary_loss_mlp": 0.01020903,
      "balance_loss_clip": 1.04246044,
      "balance_loss_mlp": 1.01584864,
      "epoch": 0.6067456261648531,
      "flos": 19135620714240.0,
      "grad_norm": 1.8766529141791746,
      "language_loss": 0.79740322,
      "learning_rate": 1.4143544574468993e-06,
      "loss": 0.81861919,
      "num_input_tokens_seen": 108768355,
      "step": 5046,
      "time_per_iteration": 2.503121852874756
    },
    {
      "auxiliary_loss_clip": 0.01086732,
      "auxiliary_loss_mlp": 0.01019204,
      "balance_loss_clip": 1.04142332,
      "balance_loss_mlp": 1.0136342,
      "epoch": 0.6068658690554921,
      "flos": 20522628927360.0,
      "grad_norm": 1.628569343568059,
      "language_loss": 0.8226223,
      "learning_rate": 1.4136096751102523e-06,
      "loss": 0.84368169,
      "num_input_tokens_seen": 108786685,
      "step": 5047,
      "time_per_iteration": 2.554758071899414
    },
    {
      "auxiliary_loss_clip": 0.0107948,
      "auxiliary_loss_mlp": 0.01022605,
      "balance_loss_clip": 1.04407263,
      "balance_loss_mlp": 1.01694536,
      "epoch": 0.6069861119461312,
      "flos": 27376656871680.0,
      "grad_norm": 5.006474793540665,
      "language_loss": 0.83402449,
      "learning_rate": 1.4128649817285516e-06,
      "loss": 0.85504532,
      "num_input_tokens_seen": 108804820,
      "step": 5048,
      "time_per_iteration": 2.6222083568573
    },
    {
      "auxiliary_loss_clip": 0.01085388,
      "auxiliary_loss_mlp": 0.01031993,
      "balance_loss_clip": 1.04656947,
      "balance_loss_mlp": 1.02610683,
      "epoch": 0.6071063548367702,
      "flos": 25628681779200.0,
      "grad_norm": 2.3309935973749627,
      "language_loss": 0.63041854,
      "learning_rate": 1.412120377414766e-06,
      "loss": 0.65159225,
      "num_input_tokens_seen": 108825010,
      "step": 5049,
      "time_per_iteration": 3.4042303562164307
    },
    {
      "auxiliary_loss_clip": 0.01104779,
      "auxiliary_loss_mlp": 0.01022902,
      "balance_loss_clip": 1.04664028,
      "balance_loss_mlp": 1.01767206,
      "epoch": 0.6072265977274094,
      "flos": 24462720443520.0,
      "grad_norm": 2.0216434586268677,
      "language_loss": 0.71411145,
      "learning_rate": 1.4113758622818522e-06,
      "loss": 0.73538822,
      "num_input_tokens_seen": 108845075,
      "step": 5050,
      "time_per_iteration": 2.5302464962005615
    },
    {
      "auxiliary_loss_clip": 0.01083033,
      "auxiliary_loss_mlp": 0.00756667,
      "balance_loss_clip": 1.04507327,
      "balance_loss_mlp": 1.00182641,
      "epoch": 0.6073468406180484,
      "flos": 18151147647360.0,
      "grad_norm": 1.9296831733968494,
      "language_loss": 0.83109736,
      "learning_rate": 1.410631436442751e-06,
      "loss": 0.84949434,
      "num_input_tokens_seen": 108863870,
      "step": 5051,
      "time_per_iteration": 4.058374881744385
    },
    {
      "auxiliary_loss_clip": 0.01092853,
      "auxiliary_loss_mlp": 0.01019411,
      "balance_loss_clip": 1.04337192,
      "balance_loss_mlp": 1.01393652,
      "epoch": 0.6074670835086875,
      "flos": 20699339518080.0,
      "grad_norm": 3.1337440665210345,
      "language_loss": 0.86832774,
      "learning_rate": 1.4098871000103936e-06,
      "loss": 0.88945037,
      "num_input_tokens_seen": 108882470,
      "step": 5052,
      "time_per_iteration": 2.5279271602630615
    },
    {
      "auxiliary_loss_clip": 0.01076955,
      "auxiliary_loss_mlp": 0.01017159,
      "balance_loss_clip": 1.04263902,
      "balance_loss_mlp": 1.01194942,
      "epoch": 0.6075873263993267,
      "flos": 23772268742400.0,
      "grad_norm": 1.7565719720081414,
      "language_loss": 0.8284815,
      "learning_rate": 1.409142853097693e-06,
      "loss": 0.84942257,
      "num_input_tokens_seen": 108902710,
      "step": 5053,
      "time_per_iteration": 2.577824592590332
    },
    {
      "auxiliary_loss_clip": 0.01077885,
      "auxiliary_loss_mlp": 0.01020784,
      "balance_loss_clip": 1.04200077,
      "balance_loss_mlp": 1.01546729,
      "epoch": 0.6077075692899657,
      "flos": 24456350206080.0,
      "grad_norm": 1.9325979992493463,
      "language_loss": 0.79677784,
      "learning_rate": 1.408398695817553e-06,
      "loss": 0.81776446,
      "num_input_tokens_seen": 108919935,
      "step": 5054,
      "time_per_iteration": 2.6026973724365234
    },
    {
      "auxiliary_loss_clip": 0.01079051,
      "auxiliary_loss_mlp": 0.01027414,
      "balance_loss_clip": 1.04151332,
      "balance_loss_mlp": 1.02122962,
      "epoch": 0.6078278121806048,
      "flos": 27384619668480.0,
      "grad_norm": 2.51897983982465,
      "language_loss": 0.70371658,
      "learning_rate": 1.4076546282828593e-06,
      "loss": 0.72478127,
      "num_input_tokens_seen": 108942790,
      "step": 5055,
      "time_per_iteration": 2.672647476196289
    },
    {
      "auxiliary_loss_clip": 0.01081917,
      "auxiliary_loss_mlp": 0.01023438,
      "balance_loss_clip": 1.04122269,
      "balance_loss_mlp": 1.01810658,
      "epoch": 0.6079480550712439,
      "flos": 38439534205440.0,
      "grad_norm": 2.276894867900898,
      "language_loss": 0.66130936,
      "learning_rate": 1.4069106506064874e-06,
      "loss": 0.68236291,
      "num_input_tokens_seen": 108964215,
      "step": 5056,
      "time_per_iteration": 2.7998878955841064
    },
    {
      "auxiliary_loss_clip": 0.01075318,
      "auxiliary_loss_mlp": 0.01020091,
      "balance_loss_clip": 1.04274476,
      "balance_loss_mlp": 1.01481271,
      "epoch": 0.608068297961883,
      "flos": 25338528057600.0,
      "grad_norm": 2.6673372822737123,
      "language_loss": 0.78649104,
      "learning_rate": 1.4061667629012989e-06,
      "loss": 0.80744505,
      "num_input_tokens_seen": 108984885,
      "step": 5057,
      "time_per_iteration": 3.3338184356689453
    },
    {
      "auxiliary_loss_clip": 0.01080679,
      "auxiliary_loss_mlp": 0.01021496,
      "balance_loss_clip": 1.0442853,
      "balance_loss_mlp": 1.01600015,
      "epoch": 0.608188540852522,
      "flos": 24204503796480.0,
      "grad_norm": 1.7044792252963301,
      "language_loss": 0.83380139,
      "learning_rate": 1.40542296528014e-06,
      "loss": 0.85482311,
      "num_input_tokens_seen": 109004545,
      "step": 5058,
      "time_per_iteration": 2.6289827823638916
    },
    {
      "auxiliary_loss_clip": 0.01093629,
      "auxiliary_loss_mlp": 0.01022837,
      "balance_loss_clip": 1.04319203,
      "balance_loss_mlp": 1.0172137,
      "epoch": 0.6083087837431612,
      "flos": 21286055116800.0,
      "grad_norm": 2.0449660007299406,
      "language_loss": 0.76449192,
      "learning_rate": 1.4046792578558452e-06,
      "loss": 0.78565657,
      "num_input_tokens_seen": 109022440,
      "step": 5059,
      "time_per_iteration": 2.5241169929504395
    },
    {
      "auxiliary_loss_clip": 0.01080738,
      "auxiliary_loss_mlp": 0.01020072,
      "balance_loss_clip": 1.04249263,
      "balance_loss_mlp": 1.01462126,
      "epoch": 0.6084290266338003,
      "flos": 16473265269120.0,
      "grad_norm": 2.4469623595779066,
      "language_loss": 0.76130545,
      "learning_rate": 1.4039356407412325e-06,
      "loss": 0.78231353,
      "num_input_tokens_seen": 109035680,
      "step": 5060,
      "time_per_iteration": 2.5886614322662354
    },
    {
      "auxiliary_loss_clip": 0.01043846,
      "auxiliary_loss_mlp": 0.01005561,
      "balance_loss_clip": 1.02475643,
      "balance_loss_mlp": 1.00372493,
      "epoch": 0.6085492695244393,
      "flos": 66449480129280.0,
      "grad_norm": 0.7807051031789513,
      "language_loss": 0.57094818,
      "learning_rate": 1.40319211404911e-06,
      "loss": 0.59144223,
      "num_input_tokens_seen": 109090680,
      "step": 5061,
      "time_per_iteration": 3.132448196411133
    },
    {
      "auxiliary_loss_clip": 0.01104046,
      "auxiliary_loss_mlp": 0.01022741,
      "balance_loss_clip": 1.04543006,
      "balance_loss_mlp": 1.01747453,
      "epoch": 0.6086695124150785,
      "flos": 23621011234560.0,
      "grad_norm": 1.751761115544834,
      "language_loss": 0.90871859,
      "learning_rate": 1.4024486778922691e-06,
      "loss": 0.92998648,
      "num_input_tokens_seen": 109108995,
      "step": 5062,
      "time_per_iteration": 2.5335729122161865
    },
    {
      "auxiliary_loss_clip": 0.01077912,
      "auxiliary_loss_mlp": 0.01022754,
      "balance_loss_clip": 1.03910947,
      "balance_loss_mlp": 1.01725006,
      "epoch": 0.6087897553057176,
      "flos": 20159121536640.0,
      "grad_norm": 21.470241884352724,
      "language_loss": 0.77810842,
      "learning_rate": 1.4017053323834884e-06,
      "loss": 0.79911512,
      "num_input_tokens_seen": 109128825,
      "step": 5063,
      "time_per_iteration": 2.5549471378326416
    },
    {
      "auxiliary_loss_clip": 0.01078497,
      "auxiliary_loss_mlp": 0.01018931,
      "balance_loss_clip": 1.04096317,
      "balance_loss_mlp": 1.01374197,
      "epoch": 0.6089099981963566,
      "flos": 25484818296960.0,
      "grad_norm": 1.8356457945813984,
      "language_loss": 0.761352,
      "learning_rate": 1.4009620776355333e-06,
      "loss": 0.78232628,
      "num_input_tokens_seen": 109150425,
      "step": 5064,
      "time_per_iteration": 2.616152286529541
    },
    {
      "auxiliary_loss_clip": 0.0109187,
      "auxiliary_loss_mlp": 0.01015817,
      "balance_loss_clip": 1.04137421,
      "balance_loss_mlp": 1.01041961,
      "epoch": 0.6090302410869958,
      "flos": 25334963758080.0,
      "grad_norm": 1.7926981330710037,
      "language_loss": 0.79582298,
      "learning_rate": 1.4002189137611553e-06,
      "loss": 0.8168999,
      "num_input_tokens_seen": 109169765,
      "step": 5065,
      "time_per_iteration": 2.582294225692749
    },
    {
      "auxiliary_loss_clip": 0.01092259,
      "auxiliary_loss_mlp": 0.0101999,
      "balance_loss_clip": 1.0432502,
      "balance_loss_mlp": 1.01467061,
      "epoch": 0.6091504839776348,
      "flos": 23989599648000.0,
      "grad_norm": 1.720335007946466,
      "language_loss": 0.70059741,
      "learning_rate": 1.3994758408730901e-06,
      "loss": 0.72171986,
      "num_input_tokens_seen": 109188950,
      "step": 5066,
      "time_per_iteration": 2.5779025554656982
    },
    {
      "auxiliary_loss_clip": 0.0107699,
      "auxiliary_loss_mlp": 0.01018547,
      "balance_loss_clip": 1.04160464,
      "balance_loss_mlp": 1.01243412,
      "epoch": 0.6092707268682739,
      "flos": 29645615427840.0,
      "grad_norm": 2.019096712328368,
      "language_loss": 0.76438093,
      "learning_rate": 1.3987328590840629e-06,
      "loss": 0.78533632,
      "num_input_tokens_seen": 109209895,
      "step": 5067,
      "time_per_iteration": 2.6299283504486084
    },
    {
      "auxiliary_loss_clip": 0.01091943,
      "auxiliary_loss_mlp": 0.01022234,
      "balance_loss_clip": 1.04195249,
      "balance_loss_mlp": 1.01702118,
      "epoch": 0.609390969758913,
      "flos": 24027262352640.0,
      "grad_norm": 1.886061400878393,
      "language_loss": 0.86768222,
      "learning_rate": 1.397989968506783e-06,
      "loss": 0.88882399,
      "num_input_tokens_seen": 109228905,
      "step": 5068,
      "time_per_iteration": 2.603066921234131
    },
    {
      "auxiliary_loss_clip": 0.01106824,
      "auxiliary_loss_mlp": 0.01024663,
      "balance_loss_clip": 1.0461905,
      "balance_loss_mlp": 1.01903915,
      "epoch": 0.6095112126495521,
      "flos": 11103345976320.0,
      "grad_norm": 3.864362207326293,
      "language_loss": 0.72295481,
      "learning_rate": 1.3972471692539458e-06,
      "loss": 0.74426973,
      "num_input_tokens_seen": 109243620,
      "step": 5069,
      "time_per_iteration": 2.4833617210388184
    },
    {
      "auxiliary_loss_clip": 0.01081277,
      "auxiliary_loss_mlp": 0.01019671,
      "balance_loss_clip": 1.04354095,
      "balance_loss_mlp": 1.01425624,
      "epoch": 0.6096314555401912,
      "flos": 17266884301440.0,
      "grad_norm": 2.1865957199154695,
      "language_loss": 0.7526989,
      "learning_rate": 1.3965044614382348e-06,
      "loss": 0.7737084,
      "num_input_tokens_seen": 109259070,
      "step": 5070,
      "time_per_iteration": 2.513770341873169
    },
    {
      "auxiliary_loss_clip": 0.01104506,
      "auxiliary_loss_mlp": 0.01020313,
      "balance_loss_clip": 1.04547727,
      "balance_loss_mlp": 1.01472819,
      "epoch": 0.6097516984308303,
      "flos": 21647666603520.0,
      "grad_norm": 2.850200931941287,
      "language_loss": 0.75598651,
      "learning_rate": 1.3957618451723162e-06,
      "loss": 0.77723467,
      "num_input_tokens_seen": 109275100,
      "step": 5071,
      "time_per_iteration": 2.4921579360961914
    },
    {
      "auxiliary_loss_clip": 0.01077227,
      "auxiliary_loss_mlp": 0.0102376,
      "balance_loss_clip": 1.04117632,
      "balance_loss_mlp": 1.01847625,
      "epoch": 0.6098719413214694,
      "flos": 27201690512640.0,
      "grad_norm": 1.9078461385977183,
      "language_loss": 0.71416104,
      "learning_rate": 1.3950193205688457e-06,
      "loss": 0.7351709,
      "num_input_tokens_seen": 109294825,
      "step": 5072,
      "time_per_iteration": 2.6019725799560547
    },
    {
      "auxiliary_loss_clip": 0.01069852,
      "auxiliary_loss_mlp": 0.01019485,
      "balance_loss_clip": 1.03876424,
      "balance_loss_mlp": 1.01422799,
      "epoch": 0.6099921842121084,
      "flos": 20415063098880.0,
      "grad_norm": 1.8814958966829458,
      "language_loss": 0.83925557,
      "learning_rate": 1.3942768877404627e-06,
      "loss": 0.86014891,
      "num_input_tokens_seen": 109313790,
      "step": 5073,
      "time_per_iteration": 2.597844362258911
    },
    {
      "auxiliary_loss_clip": 0.01101306,
      "auxiliary_loss_mlp": 0.01020393,
      "balance_loss_clip": 1.04226041,
      "balance_loss_mlp": 1.0150044,
      "epoch": 0.6101124271027476,
      "flos": 23368292709120.0,
      "grad_norm": 1.6424265370420583,
      "language_loss": 0.73741794,
      "learning_rate": 1.393534546799795e-06,
      "loss": 0.75863492,
      "num_input_tokens_seen": 109333490,
      "step": 5074,
      "time_per_iteration": 2.533534288406372
    },
    {
      "auxiliary_loss_clip": 0.01072714,
      "auxiliary_loss_mlp": 0.01024951,
      "balance_loss_clip": 1.03841949,
      "balance_loss_mlp": 1.01900291,
      "epoch": 0.6102326699933867,
      "flos": 26690262405120.0,
      "grad_norm": 1.99021281385233,
      "language_loss": 0.67947644,
      "learning_rate": 1.3927922978594536e-06,
      "loss": 0.70045304,
      "num_input_tokens_seen": 109354575,
      "step": 5075,
      "time_per_iteration": 3.4435110092163086
    },
    {
      "auxiliary_loss_clip": 0.01042161,
      "auxiliary_loss_mlp": 0.01005272,
      "balance_loss_clip": 1.02485836,
      "balance_loss_mlp": 1.0035553,
      "epoch": 0.6103529128840257,
      "flos": 60650321310720.0,
      "grad_norm": 0.7700727892335654,
      "language_loss": 0.57362568,
      "learning_rate": 1.3920501410320387e-06,
      "loss": 0.5941,
      "num_input_tokens_seen": 109410690,
      "step": 5076,
      "time_per_iteration": 3.0793628692626953
    },
    {
      "auxiliary_loss_clip": 0.01070255,
      "auxiliary_loss_mlp": 0.01020929,
      "balance_loss_clip": 1.03531742,
      "balance_loss_mlp": 1.01532912,
      "epoch": 0.6104731557746649,
      "flos": 19023049699200.0,
      "grad_norm": 2.357794132502949,
      "language_loss": 0.76038557,
      "learning_rate": 1.3913080764301333e-06,
      "loss": 0.78129739,
      "num_input_tokens_seen": 109427650,
      "step": 5077,
      "time_per_iteration": 3.3753600120544434
    },
    {
      "auxiliary_loss_clip": 0.01058497,
      "auxiliary_loss_mlp": 0.01028323,
      "balance_loss_clip": 1.03967261,
      "balance_loss_mlp": 1.02292871,
      "epoch": 0.6105933986653039,
      "flos": 23369088988800.0,
      "grad_norm": 1.7264338164409552,
      "language_loss": 0.71259463,
      "learning_rate": 1.3905661041663085e-06,
      "loss": 0.73346281,
      "num_input_tokens_seen": 109448835,
      "step": 5078,
      "time_per_iteration": 3.361795425415039
    },
    {
      "auxiliary_loss_clip": 0.01082284,
      "auxiliary_loss_mlp": 0.01023527,
      "balance_loss_clip": 1.0369432,
      "balance_loss_mlp": 1.01788855,
      "epoch": 0.610713641555943,
      "flos": 34640196888960.0,
      "grad_norm": 2.3978579057364526,
      "language_loss": 0.64984775,
      "learning_rate": 1.389824224353122e-06,
      "loss": 0.67090583,
      "num_input_tokens_seen": 109470425,
      "step": 5079,
      "time_per_iteration": 2.630530834197998
    },
    {
      "auxiliary_loss_clip": 0.01089456,
      "auxiliary_loss_mlp": 0.01019172,
      "balance_loss_clip": 1.04368472,
      "balance_loss_mlp": 1.01365805,
      "epoch": 0.610833884446582,
      "flos": 26648618302080.0,
      "grad_norm": 1.6314973103366779,
      "language_loss": 0.76893234,
      "learning_rate": 1.389082437103115e-06,
      "loss": 0.79001856,
      "num_input_tokens_seen": 109489695,
      "step": 5080,
      "time_per_iteration": 2.6706018447875977
    },
    {
      "auxiliary_loss_clip": 0.01066256,
      "auxiliary_loss_mlp": 0.01021075,
      "balance_loss_clip": 1.04178929,
      "balance_loss_mlp": 1.01538599,
      "epoch": 0.6109541273372212,
      "flos": 21217251617280.0,
      "grad_norm": 4.55600872838796,
      "language_loss": 0.77945334,
      "learning_rate": 1.3883407425288172e-06,
      "loss": 0.80032665,
      "num_input_tokens_seen": 109510030,
      "step": 5081,
      "time_per_iteration": 2.6083579063415527
    },
    {
      "auxiliary_loss_clip": 0.01079766,
      "auxiliary_loss_mlp": 0.01020649,
      "balance_loss_clip": 1.04172266,
      "balance_loss_mlp": 1.01501918,
      "epoch": 0.6110743702278603,
      "flos": 20086147048320.0,
      "grad_norm": 3.4779390199996674,
      "language_loss": 0.80098605,
      "learning_rate": 1.3875991407427417e-06,
      "loss": 0.82199013,
      "num_input_tokens_seen": 109528255,
      "step": 5082,
      "time_per_iteration": 2.584683656692505
    },
    {
      "auxiliary_loss_clip": 0.01024147,
      "auxiliary_loss_mlp": 0.0100182,
      "balance_loss_clip": 1.02418888,
      "balance_loss_mlp": 1.00005519,
      "epoch": 0.6111946131184993,
      "flos": 68308888694400.0,
      "grad_norm": 0.7758717461316539,
      "language_loss": 0.58147705,
      "learning_rate": 1.38685763185739e-06,
      "loss": 0.60173666,
      "num_input_tokens_seen": 109581915,
      "step": 5083,
      "time_per_iteration": 3.91672945022583
    },
    {
      "auxiliary_loss_clip": 0.01099911,
      "auxiliary_loss_mlp": 0.01018801,
      "balance_loss_clip": 1.04174483,
      "balance_loss_mlp": 1.01341534,
      "epoch": 0.6113148560091385,
      "flos": 19939705136640.0,
      "grad_norm": 2.654655445112345,
      "language_loss": 0.6801405,
      "learning_rate": 1.3861162159852476e-06,
      "loss": 0.70132756,
      "num_input_tokens_seen": 109600050,
      "step": 5084,
      "time_per_iteration": 2.4843790531158447
    },
    {
      "auxiliary_loss_clip": 0.01077398,
      "auxiliary_loss_mlp": 0.01020059,
      "balance_loss_clip": 1.04048109,
      "balance_loss_mlp": 1.01423836,
      "epoch": 0.6114350988997775,
      "flos": 23734075184640.0,
      "grad_norm": 2.6277542817240525,
      "language_loss": 0.80033207,
      "learning_rate": 1.3853748932387875e-06,
      "loss": 0.82130671,
      "num_input_tokens_seen": 109620690,
      "step": 5085,
      "time_per_iteration": 2.596454620361328
    },
    {
      "auxiliary_loss_clip": 0.01072023,
      "auxiliary_loss_mlp": 0.01016032,
      "balance_loss_clip": 1.03929377,
      "balance_loss_mlp": 1.01060212,
      "epoch": 0.6115553417904166,
      "flos": 24025935219840.0,
      "grad_norm": 2.3721630401321283,
      "language_loss": 0.75324786,
      "learning_rate": 1.3846336637304671e-06,
      "loss": 0.77412844,
      "num_input_tokens_seen": 109638960,
      "step": 5086,
      "time_per_iteration": 2.5639448165893555
    },
    {
      "auxiliary_loss_clip": 0.01075907,
      "auxiliary_loss_mlp": 0.01019014,
      "balance_loss_clip": 1.04480302,
      "balance_loss_mlp": 1.01369405,
      "epoch": 0.6116755846810558,
      "flos": 23735857334400.0,
      "grad_norm": 1.9727426979527518,
      "language_loss": 0.83155394,
      "learning_rate": 1.3838925275727316e-06,
      "loss": 0.85250312,
      "num_input_tokens_seen": 109659700,
      "step": 5087,
      "time_per_iteration": 2.6270556449890137
    },
    {
      "auxiliary_loss_clip": 0.01103643,
      "auxiliary_loss_mlp": 0.01019681,
      "balance_loss_clip": 1.04496658,
      "balance_loss_mlp": 1.01450729,
      "epoch": 0.6117958275716948,
      "flos": 18663637461120.0,
      "grad_norm": 1.7887844555610215,
      "language_loss": 0.79327869,
      "learning_rate": 1.3831514848780089e-06,
      "loss": 0.81451195,
      "num_input_tokens_seen": 109679275,
      "step": 5088,
      "time_per_iteration": 2.4794132709503174
    },
    {
      "auxiliary_loss_clip": 0.01093013,
      "auxiliary_loss_mlp": 0.01021025,
      "balance_loss_clip": 1.04428971,
      "balance_loss_mlp": 1.01596141,
      "epoch": 0.6119160704623339,
      "flos": 16472999842560.0,
      "grad_norm": 3.17705478397062,
      "language_loss": 0.92050171,
      "learning_rate": 1.3824105357587152e-06,
      "loss": 0.94164211,
      "num_input_tokens_seen": 109696380,
      "step": 5089,
      "time_per_iteration": 2.540445566177368
    },
    {
      "auxiliary_loss_clip": 0.01077201,
      "auxiliary_loss_mlp": 0.01019849,
      "balance_loss_clip": 1.03958941,
      "balance_loss_mlp": 1.01460981,
      "epoch": 0.612036313352973,
      "flos": 23917762702080.0,
      "grad_norm": 1.5365686555839217,
      "language_loss": 0.82757932,
      "learning_rate": 1.381669680327253e-06,
      "loss": 0.84854984,
      "num_input_tokens_seen": 109718060,
      "step": 5090,
      "time_per_iteration": 2.6026947498321533
    },
    {
      "auxiliary_loss_clip": 0.01079089,
      "auxiliary_loss_mlp": 0.01020462,
      "balance_loss_clip": 1.04241824,
      "balance_loss_mlp": 1.0145638,
      "epoch": 0.6121565562436121,
      "flos": 26976927663360.0,
      "grad_norm": 2.1297031325001754,
      "language_loss": 0.71368855,
      "learning_rate": 1.380928918696008e-06,
      "loss": 0.73468405,
      "num_input_tokens_seen": 109736830,
      "step": 5091,
      "time_per_iteration": 2.6104037761688232
    },
    {
      "auxiliary_loss_clip": 0.01087645,
      "auxiliary_loss_mlp": 0.01018143,
      "balance_loss_clip": 1.04060817,
      "balance_loss_mlp": 1.01255512,
      "epoch": 0.6122767991342511,
      "flos": 15670659651840.0,
      "grad_norm": 2.3836131491507793,
      "language_loss": 0.71026123,
      "learning_rate": 1.3801882509773548e-06,
      "loss": 0.73131907,
      "num_input_tokens_seen": 109754690,
      "step": 5092,
      "time_per_iteration": 2.4963080883026123
    },
    {
      "auxiliary_loss_clip": 0.01092194,
      "auxiliary_loss_mlp": 0.01023605,
      "balance_loss_clip": 1.04249251,
      "balance_loss_mlp": 1.01813936,
      "epoch": 0.6123970420248903,
      "flos": 27966785097600.0,
      "grad_norm": 2.3058211841999747,
      "language_loss": 0.81956226,
      "learning_rate": 1.3794476772836503e-06,
      "loss": 0.84072018,
      "num_input_tokens_seen": 109775790,
      "step": 5093,
      "time_per_iteration": 2.6797356605529785
    },
    {
      "auxiliary_loss_clip": 0.01063619,
      "auxiliary_loss_mlp": 0.01023256,
      "balance_loss_clip": 1.04298747,
      "balance_loss_mlp": 1.01764452,
      "epoch": 0.6125172849155294,
      "flos": 21470766422400.0,
      "grad_norm": 1.6559717794958095,
      "language_loss": 0.84531766,
      "learning_rate": 1.3787071977272402e-06,
      "loss": 0.86618638,
      "num_input_tokens_seen": 109795050,
      "step": 5094,
      "time_per_iteration": 2.591020107269287
    },
    {
      "auxiliary_loss_clip": 0.01035341,
      "auxiliary_loss_mlp": 0.01023673,
      "balance_loss_clip": 1.03201461,
      "balance_loss_mlp": 1.0183177,
      "epoch": 0.6126375278061684,
      "flos": 16249905388800.0,
      "grad_norm": 3.0830571293256597,
      "language_loss": 0.71494889,
      "learning_rate": 1.3779668124204535e-06,
      "loss": 0.73553908,
      "num_input_tokens_seen": 109811465,
      "step": 5095,
      "time_per_iteration": 2.63254451751709
    },
    {
      "auxiliary_loss_clip": 0.01067899,
      "auxiliary_loss_mlp": 0.01020164,
      "balance_loss_clip": 1.03690863,
      "balance_loss_mlp": 1.014853,
      "epoch": 0.6127577706968076,
      "flos": 20450943653760.0,
      "grad_norm": 1.6275913076322523,
      "language_loss": 0.80888599,
      "learning_rate": 1.3772265214756074e-06,
      "loss": 0.82976663,
      "num_input_tokens_seen": 109831225,
      "step": 5096,
      "time_per_iteration": 2.548264265060425
    },
    {
      "auxiliary_loss_clip": 0.01094383,
      "auxiliary_loss_mlp": 0.01020224,
      "balance_loss_clip": 1.04370582,
      "balance_loss_mlp": 1.0148474,
      "epoch": 0.6128780135874466,
      "flos": 18262391529600.0,
      "grad_norm": 1.89440188280278,
      "language_loss": 0.75444818,
      "learning_rate": 1.3764863250050025e-06,
      "loss": 0.77559417,
      "num_input_tokens_seen": 109849465,
      "step": 5097,
      "time_per_iteration": 2.553239583969116
    },
    {
      "auxiliary_loss_clip": 0.01068156,
      "auxiliary_loss_mlp": 0.01022118,
      "balance_loss_clip": 1.04200387,
      "balance_loss_mlp": 1.01677704,
      "epoch": 0.6129982564780857,
      "flos": 24939443456640.0,
      "grad_norm": 1.8837077899494883,
      "language_loss": 0.80775791,
      "learning_rate": 1.3757462231209272e-06,
      "loss": 0.82866061,
      "num_input_tokens_seen": 109869770,
      "step": 5098,
      "time_per_iteration": 2.6230316162109375
    },
    {
      "auxiliary_loss_clip": 0.01075786,
      "auxiliary_loss_mlp": 0.01018246,
      "balance_loss_clip": 1.03894448,
      "balance_loss_mlp": 1.01255131,
      "epoch": 0.6131184993687249,
      "flos": 22494229326720.0,
      "grad_norm": 1.9749744371557838,
      "language_loss": 0.8892414,
      "learning_rate": 1.3750062159356525e-06,
      "loss": 0.9101817,
      "num_input_tokens_seen": 109889120,
      "step": 5099,
      "time_per_iteration": 2.6021320819854736
    },
    {
      "auxiliary_loss_clip": 0.01064562,
      "auxiliary_loss_mlp": 0.01020117,
      "balance_loss_clip": 1.03961682,
      "balance_loss_mlp": 1.01506305,
      "epoch": 0.6132387422593639,
      "flos": 15887535540480.0,
      "grad_norm": 1.8539032896773588,
      "language_loss": 0.83216262,
      "learning_rate": 1.3742663035614382e-06,
      "loss": 0.85300946,
      "num_input_tokens_seen": 109906490,
      "step": 5100,
      "time_per_iteration": 3.382457733154297
    },
    {
      "auxiliary_loss_clip": 0.01102104,
      "auxiliary_loss_mlp": 0.01023332,
      "balance_loss_clip": 1.04334116,
      "balance_loss_mlp": 1.01763082,
      "epoch": 0.613358985150003,
      "flos": 25413929303040.0,
      "grad_norm": 1.8393018487262063,
      "language_loss": 0.7991451,
      "learning_rate": 1.3735264861105283e-06,
      "loss": 0.82039952,
      "num_input_tokens_seen": 109927130,
      "step": 5101,
      "time_per_iteration": 2.548336982727051
    },
    {
      "auxiliary_loss_clip": 0.01066731,
      "auxiliary_loss_mlp": 0.01019684,
      "balance_loss_clip": 1.04153085,
      "balance_loss_mlp": 1.01463294,
      "epoch": 0.6134792280406421,
      "flos": 21363428102400.0,
      "grad_norm": 2.857812270179664,
      "language_loss": 0.78301561,
      "learning_rate": 1.372786763695152e-06,
      "loss": 0.80387974,
      "num_input_tokens_seen": 109945890,
      "step": 5102,
      "time_per_iteration": 2.6169638633728027
    },
    {
      "auxiliary_loss_clip": 0.01093129,
      "auxiliary_loss_mlp": 0.01024905,
      "balance_loss_clip": 1.0435369,
      "balance_loss_mlp": 1.01945674,
      "epoch": 0.6135994709312812,
      "flos": 21213156464640.0,
      "grad_norm": 13.622491034065087,
      "language_loss": 0.77515697,
      "learning_rate": 1.3720471364275257e-06,
      "loss": 0.79633731,
      "num_input_tokens_seen": 109965535,
      "step": 5103,
      "time_per_iteration": 4.048259735107422
    },
    {
      "auxiliary_loss_clip": 0.01066771,
      "auxiliary_loss_mlp": 0.00756994,
      "balance_loss_clip": 1.03977776,
      "balance_loss_mlp": 1.00194311,
      "epoch": 0.6137197138219203,
      "flos": 14795837907840.0,
      "grad_norm": 2.3118018354209915,
      "language_loss": 0.7850228,
      "learning_rate": 1.3713076044198486e-06,
      "loss": 0.80326045,
      "num_input_tokens_seen": 109982345,
      "step": 5104,
      "time_per_iteration": 2.5732948780059814
    },
    {
      "auxiliary_loss_clip": 0.0107617,
      "auxiliary_loss_mlp": 0.01023732,
      "balance_loss_clip": 1.03978717,
      "balance_loss_mlp": 1.01812625,
      "epoch": 0.6138399567125594,
      "flos": 20086602065280.0,
      "grad_norm": 2.210843794307289,
      "language_loss": 0.81122899,
      "learning_rate": 1.3705681677843086e-06,
      "loss": 0.83222795,
      "num_input_tokens_seen": 110000940,
      "step": 5105,
      "time_per_iteration": 2.553581714630127
    },
    {
      "auxiliary_loss_clip": 0.01053285,
      "auxiliary_loss_mlp": 0.01002718,
      "balance_loss_clip": 1.02450037,
      "balance_loss_mlp": 1.00088239,
      "epoch": 0.6139601996031985,
      "flos": 60130996191360.0,
      "grad_norm": 0.7730135386242161,
      "language_loss": 0.60545659,
      "learning_rate": 1.3698288266330768e-06,
      "loss": 0.62601662,
      "num_input_tokens_seen": 110061565,
      "step": 5106,
      "time_per_iteration": 3.1792490482330322
    },
    {
      "auxiliary_loss_clip": 0.01069417,
      "auxiliary_loss_mlp": 0.0102084,
      "balance_loss_clip": 1.03893471,
      "balance_loss_mlp": 1.01552379,
      "epoch": 0.6140804424938375,
      "flos": 23588960405760.0,
      "grad_norm": 2.2206115506248363,
      "language_loss": 0.72965878,
      "learning_rate": 1.3690895810783113e-06,
      "loss": 0.75056136,
      "num_input_tokens_seen": 110080360,
      "step": 5107,
      "time_per_iteration": 2.6121602058410645
    },
    {
      "auxiliary_loss_clip": 0.01031745,
      "auxiliary_loss_mlp": 0.00756863,
      "balance_loss_clip": 1.03168297,
      "balance_loss_mlp": 1.00191796,
      "epoch": 0.6142006853844767,
      "flos": 21400370363520.0,
      "grad_norm": 2.4960769584845814,
      "language_loss": 0.71617103,
      "learning_rate": 1.3683504312321543e-06,
      "loss": 0.73405707,
      "num_input_tokens_seen": 110100695,
      "step": 5108,
      "time_per_iteration": 2.707178831100464
    },
    {
      "auxiliary_loss_clip": 0.01093429,
      "auxiliary_loss_mlp": 0.01022156,
      "balance_loss_clip": 1.04388118,
      "balance_loss_mlp": 1.01652074,
      "epoch": 0.6143209282751158,
      "flos": 12058991251200.0,
      "grad_norm": 1.945827426625247,
      "language_loss": 0.80074048,
      "learning_rate": 1.3676113772067355e-06,
      "loss": 0.82189631,
      "num_input_tokens_seen": 110117750,
      "step": 5109,
      "time_per_iteration": 3.4682843685150146
    },
    {
      "auxiliary_loss_clip": 0.01054307,
      "auxiliary_loss_mlp": 0.01020531,
      "balance_loss_clip": 1.03926611,
      "balance_loss_mlp": 1.01495194,
      "epoch": 0.6144411711657548,
      "flos": 25084596153600.0,
      "grad_norm": 2.2271994947023175,
      "language_loss": 0.72876412,
      "learning_rate": 1.3668724191141671e-06,
      "loss": 0.74951249,
      "num_input_tokens_seen": 110137020,
      "step": 5110,
      "time_per_iteration": 2.674386978149414
    },
    {
      "auxiliary_loss_clip": 0.01050364,
      "auxiliary_loss_mlp": 0.01030358,
      "balance_loss_clip": 1.03655338,
      "balance_loss_mlp": 1.02479696,
      "epoch": 0.6145614140563939,
      "flos": 20115771120000.0,
      "grad_norm": 2.4491160509111767,
      "language_loss": 0.66786969,
      "learning_rate": 1.3661335570665493e-06,
      "loss": 0.68867695,
      "num_input_tokens_seen": 110154930,
      "step": 5111,
      "time_per_iteration": 2.636502265930176
    },
    {
      "auxiliary_loss_clip": 0.01077692,
      "auxiliary_loss_mlp": 0.01023517,
      "balance_loss_clip": 1.04237866,
      "balance_loss_mlp": 1.01791453,
      "epoch": 0.614681656947033,
      "flos": 16802257155840.0,
      "grad_norm": 2.960344219220611,
      "language_loss": 0.69447517,
      "learning_rate": 1.3653947911759676e-06,
      "loss": 0.71548724,
      "num_input_tokens_seen": 110172480,
      "step": 5112,
      "time_per_iteration": 2.575618028640747
    },
    {
      "auxiliary_loss_clip": 0.01055086,
      "auxiliary_loss_mlp": 0.010254,
      "balance_loss_clip": 1.04062676,
      "balance_loss_mlp": 1.01928186,
      "epoch": 0.6148018998376721,
      "flos": 38804709991680.0,
      "grad_norm": 1.8296551022675422,
      "language_loss": 0.74454677,
      "learning_rate": 1.3646561215544904e-06,
      "loss": 0.76535165,
      "num_input_tokens_seen": 110197120,
      "step": 5113,
      "time_per_iteration": 2.807992935180664
    },
    {
      "auxiliary_loss_clip": 0.01091427,
      "auxiliary_loss_mlp": 0.01019255,
      "balance_loss_clip": 1.04446936,
      "balance_loss_mlp": 1.01378071,
      "epoch": 0.6149221427283111,
      "flos": 23329037445120.0,
      "grad_norm": 2.1733695252160605,
      "language_loss": 0.79298818,
      "learning_rate": 1.363917548314176e-06,
      "loss": 0.81409496,
      "num_input_tokens_seen": 110216385,
      "step": 5114,
      "time_per_iteration": 2.590672731399536
    },
    {
      "auxiliary_loss_clip": 0.01088651,
      "auxiliary_loss_mlp": 0.0102477,
      "balance_loss_clip": 1.04307675,
      "balance_loss_mlp": 1.01915264,
      "epoch": 0.6150423856189503,
      "flos": 22381506639360.0,
      "grad_norm": 2.2115680971548275,
      "language_loss": 0.7321279,
      "learning_rate": 1.3631790715670626e-06,
      "loss": 0.75326204,
      "num_input_tokens_seen": 110234790,
      "step": 5115,
      "time_per_iteration": 2.575653076171875
    },
    {
      "auxiliary_loss_clip": 0.01024884,
      "auxiliary_loss_mlp": 0.01018471,
      "balance_loss_clip": 1.036641,
      "balance_loss_mlp": 1.01318419,
      "epoch": 0.6151626285095894,
      "flos": 18693754467840.0,
      "grad_norm": 1.970900276728303,
      "language_loss": 0.85668981,
      "learning_rate": 1.3624406914251783e-06,
      "loss": 0.87712342,
      "num_input_tokens_seen": 110251910,
      "step": 5116,
      "time_per_iteration": 2.854503631591797
    },
    {
      "auxiliary_loss_clip": 0.01092143,
      "auxiliary_loss_mlp": 0.01023302,
      "balance_loss_clip": 1.04328346,
      "balance_loss_mlp": 1.0181911,
      "epoch": 0.6152828714002284,
      "flos": 15853512971520.0,
      "grad_norm": 2.2082597220888545,
      "language_loss": 0.88298357,
      "learning_rate": 1.3617024080005335e-06,
      "loss": 0.90413803,
      "num_input_tokens_seen": 110268810,
      "step": 5117,
      "time_per_iteration": 2.811274528503418
    },
    {
      "auxiliary_loss_clip": 0.01071654,
      "auxiliary_loss_mlp": 0.00756799,
      "balance_loss_clip": 1.03974509,
      "balance_loss_mlp": 1.00196314,
      "epoch": 0.6154031142908676,
      "flos": 24872460024960.0,
      "grad_norm": 1.6424905779921668,
      "language_loss": 0.74268073,
      "learning_rate": 1.3609642214051266e-06,
      "loss": 0.76096529,
      "num_input_tokens_seen": 110293035,
      "step": 5118,
      "time_per_iteration": 2.714428424835205
    },
    {
      "auxiliary_loss_clip": 0.01076438,
      "auxiliary_loss_mlp": 0.01022066,
      "balance_loss_clip": 1.04495311,
      "balance_loss_mlp": 1.01634073,
      "epoch": 0.6155233571815066,
      "flos": 19246750842240.0,
      "grad_norm": 2.018782584226494,
      "language_loss": 0.66220528,
      "learning_rate": 1.3602261317509385e-06,
      "loss": 0.68319035,
      "num_input_tokens_seen": 110309695,
      "step": 5119,
      "time_per_iteration": 2.6198954582214355
    },
    {
      "auxiliary_loss_clip": 0.01090992,
      "auxiliary_loss_mlp": 0.01019434,
      "balance_loss_clip": 1.04379344,
      "balance_loss_mlp": 1.01364684,
      "epoch": 0.6156436000721457,
      "flos": 18772037487360.0,
      "grad_norm": 2.4359473150902926,
      "language_loss": 0.82808179,
      "learning_rate": 1.3594881391499387e-06,
      "loss": 0.84918606,
      "num_input_tokens_seen": 110328610,
      "step": 5120,
      "time_per_iteration": 2.548429489135742
    },
    {
      "auxiliary_loss_clip": 0.01079838,
      "auxiliary_loss_mlp": 0.01022566,
      "balance_loss_clip": 1.04310071,
      "balance_loss_mlp": 1.01677847,
      "epoch": 0.6157638429627849,
      "flos": 18043164720000.0,
      "grad_norm": 1.8604260499702376,
      "language_loss": 0.79462653,
      "learning_rate": 1.3587502437140778e-06,
      "loss": 0.81565058,
      "num_input_tokens_seen": 110346775,
      "step": 5121,
      "time_per_iteration": 2.545153856277466
    },
    {
      "auxiliary_loss_clip": 0.01077058,
      "auxiliary_loss_mlp": 0.01022462,
      "balance_loss_clip": 1.04055834,
      "balance_loss_mlp": 1.01693404,
      "epoch": 0.6158840858534239,
      "flos": 25559082000000.0,
      "grad_norm": 3.309082994662537,
      "language_loss": 0.84830815,
      "learning_rate": 1.3580124455552952e-06,
      "loss": 0.86930341,
      "num_input_tokens_seen": 110366140,
      "step": 5122,
      "time_per_iteration": 2.6184892654418945
    },
    {
      "auxiliary_loss_clip": 0.01090268,
      "auxiliary_loss_mlp": 0.00756517,
      "balance_loss_clip": 1.04342103,
      "balance_loss_mlp": 1.00195026,
      "epoch": 0.616004328744063,
      "flos": 24642881579520.0,
      "grad_norm": 1.7507735846083443,
      "language_loss": 0.87499452,
      "learning_rate": 1.3572747447855148e-06,
      "loss": 0.89346242,
      "num_input_tokens_seen": 110386550,
      "step": 5123,
      "time_per_iteration": 2.5641086101531982
    },
    {
      "auxiliary_loss_clip": 0.01106544,
      "auxiliary_loss_mlp": 0.01019061,
      "balance_loss_clip": 1.04734731,
      "balance_loss_mlp": 1.01348197,
      "epoch": 0.6161245716347021,
      "flos": 21691851217920.0,
      "grad_norm": 2.964286673898772,
      "language_loss": 0.69000089,
      "learning_rate": 1.356537141516644e-06,
      "loss": 0.71125686,
      "num_input_tokens_seen": 110403970,
      "step": 5124,
      "time_per_iteration": 2.532773017883301
    },
    {
      "auxiliary_loss_clip": 0.01091493,
      "auxiliary_loss_mlp": 0.01021523,
      "balance_loss_clip": 1.04404199,
      "balance_loss_mlp": 1.01608157,
      "epoch": 0.6162448145253412,
      "flos": 35192131557120.0,
      "grad_norm": 2.18536842016954,
      "language_loss": 0.61690432,
      "learning_rate": 1.3557996358605775e-06,
      "loss": 0.63803446,
      "num_input_tokens_seen": 110423890,
      "step": 5125,
      "time_per_iteration": 2.653027296066284
    },
    {
      "auxiliary_loss_clip": 0.01088848,
      "auxiliary_loss_mlp": 0.01024804,
      "balance_loss_clip": 1.0416472,
      "balance_loss_mlp": 1.01955938,
      "epoch": 0.6163650574159802,
      "flos": 21617360006400.0,
      "grad_norm": 2.0706891655322033,
      "language_loss": 0.70024979,
      "learning_rate": 1.3550622279291941e-06,
      "loss": 0.72138631,
      "num_input_tokens_seen": 110442035,
      "step": 5126,
      "time_per_iteration": 3.5253028869628906
    },
    {
      "auxiliary_loss_clip": 0.01048189,
      "auxiliary_loss_mlp": 0.01018817,
      "balance_loss_clip": 1.03740561,
      "balance_loss_mlp": 1.01332164,
      "epoch": 0.6164853003066194,
      "flos": 24574495178880.0,
      "grad_norm": 1.394570205465297,
      "language_loss": 0.83566421,
      "learning_rate": 1.354324917834358e-06,
      "loss": 0.85633427,
      "num_input_tokens_seen": 110463280,
      "step": 5127,
      "time_per_iteration": 2.6899139881134033
    },
    {
      "auxiliary_loss_clip": 0.01035056,
      "auxiliary_loss_mlp": 0.00756751,
      "balance_loss_clip": 1.03863859,
      "balance_loss_mlp": 1.00187588,
      "epoch": 0.6166055431972585,
      "flos": 21838179375360.0,
      "grad_norm": 1.8460909056399302,
      "language_loss": 0.77147186,
      "learning_rate": 1.353587705687918e-06,
      "loss": 0.78938985,
      "num_input_tokens_seen": 110481455,
      "step": 5128,
      "time_per_iteration": 2.70047664642334
    },
    {
      "auxiliary_loss_clip": 0.01073565,
      "auxiliary_loss_mlp": 0.01021379,
      "balance_loss_clip": 1.03748178,
      "balance_loss_mlp": 1.01587498,
      "epoch": 0.6167257860878975,
      "flos": 17787185239680.0,
      "grad_norm": 2.5985700437420136,
      "language_loss": 0.71805549,
      "learning_rate": 1.3528505916017096e-06,
      "loss": 0.73900485,
      "num_input_tokens_seen": 110499155,
      "step": 5129,
      "time_per_iteration": 4.156963586807251
    },
    {
      "auxiliary_loss_clip": 0.01095452,
      "auxiliary_loss_mlp": 0.01026619,
      "balance_loss_clip": 1.04466534,
      "balance_loss_mlp": 1.02079844,
      "epoch": 0.6168460289785367,
      "flos": 23216656020480.0,
      "grad_norm": 2.1345008579232294,
      "language_loss": 0.88712448,
      "learning_rate": 1.3521135756875514e-06,
      "loss": 0.90834522,
      "num_input_tokens_seen": 110515470,
      "step": 5130,
      "time_per_iteration": 2.545731544494629
    },
    {
      "auxiliary_loss_clip": 0.0103451,
      "auxiliary_loss_mlp": 0.01017445,
      "balance_loss_clip": 1.03484035,
      "balance_loss_mlp": 1.01247108,
      "epoch": 0.6169662718691757,
      "flos": 26215662804480.0,
      "grad_norm": 1.9571793016658847,
      "language_loss": 0.86533511,
      "learning_rate": 1.3513766580572496e-06,
      "loss": 0.88585472,
      "num_input_tokens_seen": 110538290,
      "step": 5131,
      "time_per_iteration": 2.7261345386505127
    },
    {
      "auxiliary_loss_clip": 0.01087855,
      "auxiliary_loss_mlp": 0.01020921,
      "balance_loss_clip": 1.04135394,
      "balance_loss_mlp": 1.0161345,
      "epoch": 0.6170865147598148,
      "flos": 19028130721920.0,
      "grad_norm": 2.7433931242839615,
      "language_loss": 0.7722339,
      "learning_rate": 1.3506398388225924e-06,
      "loss": 0.79332167,
      "num_input_tokens_seen": 110555610,
      "step": 5132,
      "time_per_iteration": 2.5386688709259033
    },
    {
      "auxiliary_loss_clip": 0.01103074,
      "auxiliary_loss_mlp": 0.01021117,
      "balance_loss_clip": 1.04553366,
      "balance_loss_mlp": 1.01594305,
      "epoch": 0.617206757650454,
      "flos": 18262353611520.0,
      "grad_norm": 1.8636354096545853,
      "language_loss": 0.72323596,
      "learning_rate": 1.349903118095355e-06,
      "loss": 0.74447787,
      "num_input_tokens_seen": 110574745,
      "step": 5133,
      "time_per_iteration": 2.5242950916290283
    },
    {
      "auxiliary_loss_clip": 0.01092116,
      "auxiliary_loss_mlp": 0.0102363,
      "balance_loss_clip": 1.04227567,
      "balance_loss_mlp": 1.01818812,
      "epoch": 0.617327000541093,
      "flos": 18188924106240.0,
      "grad_norm": 1.7155666456117178,
      "language_loss": 0.73330784,
      "learning_rate": 1.349166495987298e-06,
      "loss": 0.75446534,
      "num_input_tokens_seen": 110593310,
      "step": 5134,
      "time_per_iteration": 2.5115301609039307
    },
    {
      "auxiliary_loss_clip": 0.01060105,
      "auxiliary_loss_mlp": 0.01002695,
      "balance_loss_clip": 1.06181288,
      "balance_loss_mlp": 1.00080001,
      "epoch": 0.6174472434317321,
      "flos": 61840777726080.0,
      "grad_norm": 0.8197164443433839,
      "language_loss": 0.6079973,
      "learning_rate": 1.348429972610166e-06,
      "loss": 0.62862527,
      "num_input_tokens_seen": 110657615,
      "step": 5135,
      "time_per_iteration": 4.0618896484375
    },
    {
      "auxiliary_loss_clip": 0.01030521,
      "auxiliary_loss_mlp": 0.01002435,
      "balance_loss_clip": 1.05358088,
      "balance_loss_mlp": 1.00037277,
      "epoch": 0.6175674863223712,
      "flos": 71237575255680.0,
      "grad_norm": 0.8480922095357302,
      "language_loss": 0.57812846,
      "learning_rate": 1.3476935480756897e-06,
      "loss": 0.59845805,
      "num_input_tokens_seen": 110714365,
      "step": 5136,
      "time_per_iteration": 3.1003239154815674
    },
    {
      "auxiliary_loss_clip": 0.01073288,
      "auxiliary_loss_mlp": 0.01024493,
      "balance_loss_clip": 1.04356909,
      "balance_loss_mlp": 1.01874375,
      "epoch": 0.6176877292130103,
      "flos": 21837610604160.0,
      "grad_norm": 4.804956537054601,
      "language_loss": 0.75131172,
      "learning_rate": 1.346957222495583e-06,
      "loss": 0.77228951,
      "num_input_tokens_seen": 110732160,
      "step": 5137,
      "time_per_iteration": 2.612852096557617
    },
    {
      "auxiliary_loss_clip": 0.01076654,
      "auxiliary_loss_mlp": 0.0075673,
      "balance_loss_clip": 1.04426575,
      "balance_loss_mlp": 1.00185251,
      "epoch": 0.6178079721036493,
      "flos": 17743266051840.0,
      "grad_norm": 7.275805757852588,
      "language_loss": 0.71043694,
      "learning_rate": 1.3462209959815466e-06,
      "loss": 0.72877073,
      "num_input_tokens_seen": 110746900,
      "step": 5138,
      "time_per_iteration": 2.5441160202026367
    },
    {
      "auxiliary_loss_clip": 0.01078473,
      "auxiliary_loss_mlp": 0.01020641,
      "balance_loss_clip": 1.04206431,
      "balance_loss_mlp": 1.0152055,
      "epoch": 0.6179282149942885,
      "flos": 22635059362560.0,
      "grad_norm": 1.8882993692361316,
      "language_loss": 0.74472314,
      "learning_rate": 1.345484868645265e-06,
      "loss": 0.76571429,
      "num_input_tokens_seen": 110765710,
      "step": 5139,
      "time_per_iteration": 2.562819719314575
    },
    {
      "auxiliary_loss_clip": 0.01064324,
      "auxiliary_loss_mlp": 0.01020558,
      "balance_loss_clip": 1.04072857,
      "balance_loss_mlp": 1.01474047,
      "epoch": 0.6180484578849276,
      "flos": 22312551467520.0,
      "grad_norm": 2.0367340329140995,
      "language_loss": 0.78485596,
      "learning_rate": 1.3447488405984088e-06,
      "loss": 0.80570477,
      "num_input_tokens_seen": 110783970,
      "step": 5140,
      "time_per_iteration": 2.646634817123413
    },
    {
      "auxiliary_loss_clip": 0.0107468,
      "auxiliary_loss_mlp": 0.01018826,
      "balance_loss_clip": 1.0407176,
      "balance_loss_mlp": 1.01360178,
      "epoch": 0.6181687007755666,
      "flos": 35228353374720.0,
      "grad_norm": 3.458420553923224,
      "language_loss": 0.69654763,
      "learning_rate": 1.3440129119526322e-06,
      "loss": 0.71748269,
      "num_input_tokens_seen": 110806395,
      "step": 5141,
      "time_per_iteration": 2.7077341079711914
    },
    {
      "auxiliary_loss_clip": 0.01053392,
      "auxiliary_loss_mlp": 0.0100429,
      "balance_loss_clip": 1.02448058,
      "balance_loss_mlp": 1.0024066,
      "epoch": 0.6182889436662057,
      "flos": 61552605795840.0,
      "grad_norm": 0.8030861397533479,
      "language_loss": 0.51205277,
      "learning_rate": 1.3432770828195762e-06,
      "loss": 0.53262961,
      "num_input_tokens_seen": 110867380,
      "step": 5142,
      "time_per_iteration": 3.251138210296631
    },
    {
      "auxiliary_loss_clip": 0.01061746,
      "auxiliary_loss_mlp": 0.01017503,
      "balance_loss_clip": 1.03827643,
      "balance_loss_mlp": 1.0120759,
      "epoch": 0.6184091865568448,
      "flos": 19612040382720.0,
      "grad_norm": 2.3876648311089927,
      "language_loss": 0.70191491,
      "learning_rate": 1.3425413533108635e-06,
      "loss": 0.72270739,
      "num_input_tokens_seen": 110885980,
      "step": 5143,
      "time_per_iteration": 2.6100828647613525
    },
    {
      "auxiliary_loss_clip": 0.0105098,
      "auxiliary_loss_mlp": 0.01019813,
      "balance_loss_clip": 1.03987694,
      "balance_loss_mlp": 1.01428151,
      "epoch": 0.6185294294474839,
      "flos": 23589149996160.0,
      "grad_norm": 3.7552337304309136,
      "language_loss": 0.70359057,
      "learning_rate": 1.341805723538105e-06,
      "loss": 0.72429848,
      "num_input_tokens_seen": 110906085,
      "step": 5144,
      "time_per_iteration": 2.6370584964752197
    },
    {
      "auxiliary_loss_clip": 0.01077989,
      "auxiliary_loss_mlp": 0.01023448,
      "balance_loss_clip": 1.04368889,
      "balance_loss_mlp": 1.0178864,
      "epoch": 0.618649672338123,
      "flos": 26764526108160.0,
      "grad_norm": 1.5877572194511573,
      "language_loss": 0.77722412,
      "learning_rate": 1.3410701936128948e-06,
      "loss": 0.79823846,
      "num_input_tokens_seen": 110928865,
      "step": 5145,
      "time_per_iteration": 2.6274585723876953
    },
    {
      "auxiliary_loss_clip": 0.01092021,
      "auxiliary_loss_mlp": 0.01019302,
      "balance_loss_clip": 1.0458672,
      "balance_loss_mlp": 1.01400912,
      "epoch": 0.6187699152287621,
      "flos": 14457897354240.0,
      "grad_norm": 2.6739353671334216,
      "language_loss": 0.85292983,
      "learning_rate": 1.340334763646812e-06,
      "loss": 0.87404311,
      "num_input_tokens_seen": 110943000,
      "step": 5146,
      "time_per_iteration": 2.472651243209839
    },
    {
      "auxiliary_loss_clip": 0.01105509,
      "auxiliary_loss_mlp": 0.01023354,
      "balance_loss_clip": 1.04596376,
      "balance_loss_mlp": 1.01725626,
      "epoch": 0.6188901581194012,
      "flos": 20086867491840.0,
      "grad_norm": 1.6312039494347785,
      "language_loss": 0.74319148,
      "learning_rate": 1.3395994337514218e-06,
      "loss": 0.76448005,
      "num_input_tokens_seen": 110963170,
      "step": 5147,
      "time_per_iteration": 2.5398106575012207
    },
    {
      "auxiliary_loss_clip": 0.01090214,
      "auxiliary_loss_mlp": 0.01021542,
      "balance_loss_clip": 1.04232836,
      "balance_loss_mlp": 1.01632977,
      "epoch": 0.6190104010100402,
      "flos": 25702983400320.0,
      "grad_norm": 1.6071353247577904,
      "language_loss": 0.78777784,
      "learning_rate": 1.3388642040382725e-06,
      "loss": 0.80889535,
      "num_input_tokens_seen": 110983595,
      "step": 5148,
      "time_per_iteration": 2.5647871494293213
    },
    {
      "auxiliary_loss_clip": 0.01070062,
      "auxiliary_loss_mlp": 0.01019056,
      "balance_loss_clip": 1.04071701,
      "balance_loss_mlp": 1.01369739,
      "epoch": 0.6191306439006794,
      "flos": 30444808417920.0,
      "grad_norm": 1.790771043614495,
      "language_loss": 0.84215975,
      "learning_rate": 1.3381290746188975e-06,
      "loss": 0.86305094,
      "num_input_tokens_seen": 111002965,
      "step": 5149,
      "time_per_iteration": 2.7231547832489014
    },
    {
      "auxiliary_loss_clip": 0.01089051,
      "auxiliary_loss_mlp": 0.01024985,
      "balance_loss_clip": 1.04191911,
      "balance_loss_mlp": 1.01942086,
      "epoch": 0.6192508867913185,
      "flos": 26688101074560.0,
      "grad_norm": 1.7645184061638268,
      "language_loss": 0.67489868,
      "learning_rate": 1.3373940456048152e-06,
      "loss": 0.69603896,
      "num_input_tokens_seen": 111022990,
      "step": 5150,
      "time_per_iteration": 2.5696539878845215
    },
    {
      "auxiliary_loss_clip": 0.01102838,
      "auxiliary_loss_mlp": 0.0101923,
      "balance_loss_clip": 1.04480851,
      "balance_loss_mlp": 1.01411891,
      "epoch": 0.6193711296819575,
      "flos": 36725050828800.0,
      "grad_norm": 1.789247791599386,
      "language_loss": 0.59088141,
      "learning_rate": 1.3366591171075299e-06,
      "loss": 0.61210215,
      "num_input_tokens_seen": 111046495,
      "step": 5151,
      "time_per_iteration": 3.4114952087402344
    },
    {
      "auxiliary_loss_clip": 0.01076486,
      "auxiliary_loss_mlp": 0.01019605,
      "balance_loss_clip": 1.04214835,
      "balance_loss_mlp": 1.01438999,
      "epoch": 0.6194913725725967,
      "flos": 25194930001920.0,
      "grad_norm": 2.276502900291538,
      "language_loss": 0.91055858,
      "learning_rate": 1.335924289238529e-06,
      "loss": 0.93151951,
      "num_input_tokens_seen": 111065705,
      "step": 5152,
      "time_per_iteration": 2.617648124694824
    },
    {
      "auxiliary_loss_clip": 0.01087363,
      "auxiliary_loss_mlp": 0.00756863,
      "balance_loss_clip": 1.04631782,
      "balance_loss_mlp": 1.00203276,
      "epoch": 0.6196116154632357,
      "flos": 21180953963520.0,
      "grad_norm": 1.639877900154108,
      "language_loss": 0.76813436,
      "learning_rate": 1.3351895621092859e-06,
      "loss": 0.78657663,
      "num_input_tokens_seen": 111086050,
      "step": 5153,
      "time_per_iteration": 2.557785749435425
    },
    {
      "auxiliary_loss_clip": 0.01019424,
      "auxiliary_loss_mlp": 0.01023309,
      "balance_loss_clip": 1.03935766,
      "balance_loss_mlp": 1.01816833,
      "epoch": 0.6197318583538748,
      "flos": 16255631018880.0,
      "grad_norm": 1.921054484570975,
      "language_loss": 0.76680297,
      "learning_rate": 1.3344549358312567e-06,
      "loss": 0.78723031,
      "num_input_tokens_seen": 111104450,
      "step": 5154,
      "time_per_iteration": 2.892969846725464
    },
    {
      "auxiliary_loss_clip": 0.01091189,
      "auxiliary_loss_mlp": 0.01020382,
      "balance_loss_clip": 1.04262936,
      "balance_loss_mlp": 1.01484513,
      "epoch": 0.619852101244514,
      "flos": 24427901594880.0,
      "grad_norm": 1.8605313828026868,
      "language_loss": 0.78273219,
      "learning_rate": 1.3337204105158852e-06,
      "loss": 0.80384791,
      "num_input_tokens_seen": 111123320,
      "step": 5155,
      "time_per_iteration": 4.471375942230225
    },
    {
      "auxiliary_loss_clip": 0.01068563,
      "auxiliary_loss_mlp": 0.0102165,
      "balance_loss_clip": 1.03853297,
      "balance_loss_mlp": 1.01620805,
      "epoch": 0.619972344135153,
      "flos": 16729168913280.0,
      "grad_norm": 2.4521083420711633,
      "language_loss": 0.73105371,
      "learning_rate": 1.332985986274597e-06,
      "loss": 0.75195575,
      "num_input_tokens_seen": 111140950,
      "step": 5156,
      "time_per_iteration": 2.6359145641326904
    },
    {
      "auxiliary_loss_clip": 0.01033182,
      "auxiliary_loss_mlp": 0.00756715,
      "balance_loss_clip": 1.03836942,
      "balance_loss_mlp": 1.00199747,
      "epoch": 0.6200925870257921,
      "flos": 12496838181120.0,
      "grad_norm": 2.001036482514785,
      "language_loss": 0.75218529,
      "learning_rate": 1.3322516632188047e-06,
      "loss": 0.77008426,
      "num_input_tokens_seen": 111157845,
      "step": 5157,
      "time_per_iteration": 2.7596917152404785
    },
    {
      "auxiliary_loss_clip": 0.01066695,
      "auxiliary_loss_mlp": 0.01023907,
      "balance_loss_clip": 1.04206014,
      "balance_loss_mlp": 1.01831293,
      "epoch": 0.6202128299164312,
      "flos": 26541621244800.0,
      "grad_norm": 1.8050078297134315,
      "language_loss": 0.66886413,
      "learning_rate": 1.3315174414599045e-06,
      "loss": 0.68977022,
      "num_input_tokens_seen": 111179165,
      "step": 5158,
      "time_per_iteration": 3.090064287185669
    },
    {
      "auxiliary_loss_clip": 0.01091864,
      "auxiliary_loss_mlp": 0.01019684,
      "balance_loss_clip": 1.04275656,
      "balance_loss_mlp": 1.01428664,
      "epoch": 0.6203330728070703,
      "flos": 18772492504320.0,
      "grad_norm": 2.21902689147214,
      "language_loss": 0.75728416,
      "learning_rate": 1.3307833211092768e-06,
      "loss": 0.77839959,
      "num_input_tokens_seen": 111197830,
      "step": 5159,
      "time_per_iteration": 2.5793895721435547
    },
    {
      "auxiliary_loss_clip": 0.01103001,
      "auxiliary_loss_mlp": 0.01025204,
      "balance_loss_clip": 1.04468,
      "balance_loss_mlp": 1.01964927,
      "epoch": 0.6204533156977093,
      "flos": 20631787315200.0,
      "grad_norm": 1.5985905011062105,
      "language_loss": 0.75154638,
      "learning_rate": 1.3300493022782873e-06,
      "loss": 0.77282834,
      "num_input_tokens_seen": 111218400,
      "step": 5160,
      "time_per_iteration": 2.5106823444366455
    },
    {
      "auxiliary_loss_clip": 0.01041758,
      "auxiliary_loss_mlp": 0.00757071,
      "balance_loss_clip": 1.03202951,
      "balance_loss_mlp": 1.00203764,
      "epoch": 0.6205735585883485,
      "flos": 17349982917120.0,
      "grad_norm": 1.884889139136638,
      "language_loss": 0.72574741,
      "learning_rate": 1.3293153850782855e-06,
      "loss": 0.74373573,
      "num_input_tokens_seen": 111236720,
      "step": 5161,
      "time_per_iteration": 3.5613856315612793
    },
    {
      "auxiliary_loss_clip": 0.01056005,
      "auxiliary_loss_mlp": 0.0102215,
      "balance_loss_clip": 1.03304744,
      "balance_loss_mlp": 1.01622272,
      "epoch": 0.6206938014789876,
      "flos": 22967160531840.0,
      "grad_norm": 2.0141877057299435,
      "language_loss": 0.71412539,
      "learning_rate": 1.3285815696206069e-06,
      "loss": 0.73490691,
      "num_input_tokens_seen": 111258265,
      "step": 5162,
      "time_per_iteration": 2.6654038429260254
    },
    {
      "auxiliary_loss_clip": 0.01065758,
      "auxiliary_loss_mlp": 0.01022303,
      "balance_loss_clip": 1.03976583,
      "balance_loss_mlp": 1.01671815,
      "epoch": 0.6208140443696266,
      "flos": 23985201150720.0,
      "grad_norm": 1.856832019761696,
      "language_loss": 0.77024269,
      "learning_rate": 1.32784785601657e-06,
      "loss": 0.79112333,
      "num_input_tokens_seen": 111277675,
      "step": 5163,
      "time_per_iteration": 2.627060890197754
    },
    {
      "auxiliary_loss_clip": 0.01078663,
      "auxiliary_loss_mlp": 0.01019324,
      "balance_loss_clip": 1.04091096,
      "balance_loss_mlp": 1.01378357,
      "epoch": 0.6209342872602658,
      "flos": 35080053477120.0,
      "grad_norm": 1.683360413402341,
      "language_loss": 0.74006522,
      "learning_rate": 1.3271142443774798e-06,
      "loss": 0.76104504,
      "num_input_tokens_seen": 111299910,
      "step": 5164,
      "time_per_iteration": 2.7657716274261475
    },
    {
      "auxiliary_loss_clip": 0.01075087,
      "auxiliary_loss_mlp": 0.01019272,
      "balance_loss_clip": 1.04171491,
      "balance_loss_mlp": 1.01402652,
      "epoch": 0.6210545301509048,
      "flos": 26981743259520.0,
      "grad_norm": 2.1384582296084242,
      "language_loss": 0.81551504,
      "learning_rate": 1.3263807348146228e-06,
      "loss": 0.83645856,
      "num_input_tokens_seen": 111319765,
      "step": 5165,
      "time_per_iteration": 2.6203274726867676
    },
    {
      "auxiliary_loss_clip": 0.01081797,
      "auxiliary_loss_mlp": 0.01027476,
      "balance_loss_clip": 1.04192376,
      "balance_loss_mlp": 1.02178717,
      "epoch": 0.6211747730415439,
      "flos": 33620942891520.0,
      "grad_norm": 23.325440030303923,
      "language_loss": 0.73322672,
      "learning_rate": 1.3256473274392733e-06,
      "loss": 0.75431943,
      "num_input_tokens_seen": 111341110,
      "step": 5166,
      "time_per_iteration": 2.7207794189453125
    },
    {
      "auxiliary_loss_clip": 0.01100685,
      "auxiliary_loss_mlp": 0.01023456,
      "balance_loss_clip": 1.0428282,
      "balance_loss_mlp": 1.01796079,
      "epoch": 0.6212950159321831,
      "flos": 34169919949440.0,
      "grad_norm": 1.8730618334910079,
      "language_loss": 0.70059514,
      "learning_rate": 1.3249140223626873e-06,
      "loss": 0.72183651,
      "num_input_tokens_seen": 111362730,
      "step": 5167,
      "time_per_iteration": 2.608929395675659
    },
    {
      "auxiliary_loss_clip": 0.01087405,
      "auxiliary_loss_mlp": 0.01018763,
      "balance_loss_clip": 1.04129064,
      "balance_loss_mlp": 1.0135715,
      "epoch": 0.6214152588228221,
      "flos": 27968301820800.0,
      "grad_norm": 1.7617187554797011,
      "language_loss": 0.75440925,
      "learning_rate": 1.3241808196961077e-06,
      "loss": 0.77547091,
      "num_input_tokens_seen": 111383855,
      "step": 5168,
      "time_per_iteration": 2.6307618618011475
    },
    {
      "auxiliary_loss_clip": 0.01074748,
      "auxiliary_loss_mlp": 0.01019069,
      "balance_loss_clip": 1.03997648,
      "balance_loss_mlp": 1.01382625,
      "epoch": 0.6215355017134612,
      "flos": 20232285615360.0,
      "grad_norm": 1.7622647864946064,
      "language_loss": 0.70548379,
      "learning_rate": 1.3234477195507608e-06,
      "loss": 0.72642195,
      "num_input_tokens_seen": 111402685,
      "step": 5169,
      "time_per_iteration": 2.5553572177886963
    },
    {
      "auxiliary_loss_clip": 0.01061665,
      "auxiliary_loss_mlp": 0.01022291,
      "balance_loss_clip": 1.03931928,
      "balance_loss_mlp": 1.01731694,
      "epoch": 0.6216557446041003,
      "flos": 41431374472320.0,
      "grad_norm": 2.6124174804082356,
      "language_loss": 0.6239745,
      "learning_rate": 1.322714722037857e-06,
      "loss": 0.64481401,
      "num_input_tokens_seen": 111424130,
      "step": 5170,
      "time_per_iteration": 2.7846789360046387
    },
    {
      "auxiliary_loss_clip": 0.0106885,
      "auxiliary_loss_mlp": 0.01026459,
      "balance_loss_clip": 1.04070055,
      "balance_loss_mlp": 1.02090347,
      "epoch": 0.6217759874947394,
      "flos": 27931283723520.0,
      "grad_norm": 2.046245684717463,
      "language_loss": 0.77352965,
      "learning_rate": 1.321981827268591e-06,
      "loss": 0.79448271,
      "num_input_tokens_seen": 111444785,
      "step": 5171,
      "time_per_iteration": 2.6442813873291016
    },
    {
      "auxiliary_loss_clip": 0.01076764,
      "auxiliary_loss_mlp": 0.01020189,
      "balance_loss_clip": 1.03962564,
      "balance_loss_mlp": 1.014992,
      "epoch": 0.6218962303853784,
      "flos": 21768010824960.0,
      "grad_norm": 1.8145667114973425,
      "language_loss": 0.81300771,
      "learning_rate": 1.3212490353541426e-06,
      "loss": 0.83397728,
      "num_input_tokens_seen": 111467045,
      "step": 5172,
      "time_per_iteration": 2.6344213485717773
    },
    {
      "auxiliary_loss_clip": 0.01104593,
      "auxiliary_loss_mlp": 0.01020492,
      "balance_loss_clip": 1.04466438,
      "balance_loss_mlp": 1.01490748,
      "epoch": 0.6220164732760175,
      "flos": 21248089067520.0,
      "grad_norm": 2.0091229040506784,
      "language_loss": 0.80151975,
      "learning_rate": 1.3205163464056762e-06,
      "loss": 0.8227706,
      "num_input_tokens_seen": 111483650,
      "step": 5173,
      "time_per_iteration": 2.4832682609558105
    },
    {
      "auxiliary_loss_clip": 0.01087549,
      "auxiliary_loss_mlp": 0.01021431,
      "balance_loss_clip": 1.04021287,
      "balance_loss_mlp": 1.01621592,
      "epoch": 0.6221367161666567,
      "flos": 26138517327360.0,
      "grad_norm": 1.8826048280568586,
      "language_loss": 0.72920191,
      "learning_rate": 1.319783760534339e-06,
      "loss": 0.75029171,
      "num_input_tokens_seen": 111502895,
      "step": 5174,
      "time_per_iteration": 2.618185043334961
    },
    {
      "auxiliary_loss_clip": 0.01088175,
      "auxiliary_loss_mlp": 0.010223,
      "balance_loss_clip": 1.04212093,
      "balance_loss_mlp": 1.01669443,
      "epoch": 0.6222569590572957,
      "flos": 16285748025600.0,
      "grad_norm": 2.5551970301881166,
      "language_loss": 0.7520355,
      "learning_rate": 1.319051277851266e-06,
      "loss": 0.77314019,
      "num_input_tokens_seen": 111519180,
      "step": 5175,
      "time_per_iteration": 2.5587761402130127
    },
    {
      "auxiliary_loss_clip": 0.0108671,
      "auxiliary_loss_mlp": 0.01019988,
      "balance_loss_clip": 1.04298425,
      "balance_loss_mlp": 1.01470733,
      "epoch": 0.6223772019479348,
      "flos": 18225828449280.0,
      "grad_norm": 2.1256536690828804,
      "language_loss": 0.84590578,
      "learning_rate": 1.3183188984675716e-06,
      "loss": 0.8669728,
      "num_input_tokens_seen": 111537545,
      "step": 5176,
      "time_per_iteration": 2.6081044673919678
    },
    {
      "auxiliary_loss_clip": 0.01077615,
      "auxiliary_loss_mlp": 0.01027263,
      "balance_loss_clip": 1.04374719,
      "balance_loss_mlp": 1.02197647,
      "epoch": 0.6224974448385739,
      "flos": 27492223415040.0,
      "grad_norm": 4.576296240908369,
      "language_loss": 0.71408391,
      "learning_rate": 1.3175866224943586e-06,
      "loss": 0.73513269,
      "num_input_tokens_seen": 111556265,
      "step": 5177,
      "time_per_iteration": 3.41733980178833
    },
    {
      "auxiliary_loss_clip": 0.010774,
      "auxiliary_loss_mlp": 0.01023269,
      "balance_loss_clip": 1.04115558,
      "balance_loss_mlp": 1.01772857,
      "epoch": 0.622617687729213,
      "flos": 19793983668480.0,
      "grad_norm": 3.4214404846086373,
      "language_loss": 0.73505545,
      "learning_rate": 1.316854450042712e-06,
      "loss": 0.75606215,
      "num_input_tokens_seen": 111574205,
      "step": 5178,
      "time_per_iteration": 2.5470988750457764
    },
    {
      "auxiliary_loss_clip": 0.0109143,
      "auxiliary_loss_mlp": 0.01019536,
      "balance_loss_clip": 1.04209328,
      "balance_loss_mlp": 1.01412356,
      "epoch": 0.622737930619852,
      "flos": 23041082972160.0,
      "grad_norm": 1.9677856296556917,
      "language_loss": 0.74256098,
      "learning_rate": 1.3161223812237024e-06,
      "loss": 0.76367062,
      "num_input_tokens_seen": 111593560,
      "step": 5179,
      "time_per_iteration": 2.5775680541992188
    },
    {
      "auxiliary_loss_clip": 0.01101821,
      "auxiliary_loss_mlp": 0.01025631,
      "balance_loss_clip": 1.04260206,
      "balance_loss_mlp": 1.02004886,
      "epoch": 0.6228581735104912,
      "flos": 12635544804480.0,
      "grad_norm": 2.24925831215971,
      "language_loss": 0.85298896,
      "learning_rate": 1.3153904161483842e-06,
      "loss": 0.87426353,
      "num_input_tokens_seen": 111608860,
      "step": 5180,
      "time_per_iteration": 3.158921003341675
    },
    {
      "auxiliary_loss_clip": 0.01066533,
      "auxiliary_loss_mlp": 0.01022102,
      "balance_loss_clip": 1.03773713,
      "balance_loss_mlp": 1.01636219,
      "epoch": 0.6229784164011303,
      "flos": 23804926260480.0,
      "grad_norm": 2.0777098707366646,
      "language_loss": 0.85683107,
      "learning_rate": 1.3146585549277953e-06,
      "loss": 0.87771738,
      "num_input_tokens_seen": 111627500,
      "step": 5181,
      "time_per_iteration": 3.3758842945098877
    },
    {
      "auxiliary_loss_clip": 0.01076757,
      "auxiliary_loss_mlp": 0.01026961,
      "balance_loss_clip": 1.04192066,
      "balance_loss_mlp": 1.02159047,
      "epoch": 0.6230986592917693,
      "flos": 22416135897600.0,
      "grad_norm": 2.4545005311602197,
      "language_loss": 0.78189182,
      "learning_rate": 1.3139267976729591e-06,
      "loss": 0.80292904,
      "num_input_tokens_seen": 111647690,
      "step": 5182,
      "time_per_iteration": 2.550697088241577
    },
    {
      "auxiliary_loss_clip": 0.01090768,
      "auxiliary_loss_mlp": 0.01022721,
      "balance_loss_clip": 1.04286385,
      "balance_loss_mlp": 1.01696587,
      "epoch": 0.6232189021824085,
      "flos": 34530848910720.0,
      "grad_norm": 2.9509687726295004,
      "language_loss": 0.71866971,
      "learning_rate": 1.3131951444948815e-06,
      "loss": 0.73980457,
      "num_input_tokens_seen": 111667090,
      "step": 5183,
      "time_per_iteration": 2.6314849853515625
    },
    {
      "auxiliary_loss_clip": 0.0107893,
      "auxiliary_loss_mlp": 0.01023746,
      "balance_loss_clip": 1.04300356,
      "balance_loss_mlp": 1.01823568,
      "epoch": 0.6233391450730476,
      "flos": 22239197798400.0,
      "grad_norm": 2.9767709386660752,
      "language_loss": 0.76298213,
      "learning_rate": 1.3124635955045546e-06,
      "loss": 0.78400898,
      "num_input_tokens_seen": 111686905,
      "step": 5184,
      "time_per_iteration": 2.55721116065979
    },
    {
      "auxiliary_loss_clip": 0.01052487,
      "auxiliary_loss_mlp": 0.00756933,
      "balance_loss_clip": 1.03848743,
      "balance_loss_mlp": 1.00177491,
      "epoch": 0.6234593879636866,
      "flos": 20334391240320.0,
      "grad_norm": 1.9251113713081602,
      "language_loss": 0.83854461,
      "learning_rate": 1.3117321508129537e-06,
      "loss": 0.85663879,
      "num_input_tokens_seen": 111704985,
      "step": 5185,
      "time_per_iteration": 2.616039276123047
    },
    {
      "auxiliary_loss_clip": 0.01078063,
      "auxiliary_loss_mlp": 0.01019314,
      "balance_loss_clip": 1.04221368,
      "balance_loss_mlp": 1.01382422,
      "epoch": 0.6235796308543258,
      "flos": 20666833672320.0,
      "grad_norm": 1.795863259178133,
      "language_loss": 0.76393479,
      "learning_rate": 1.3110008105310388e-06,
      "loss": 0.78490859,
      "num_input_tokens_seen": 111724805,
      "step": 5186,
      "time_per_iteration": 2.5622739791870117
    },
    {
      "auxiliary_loss_clip": 0.01101456,
      "auxiliary_loss_mlp": 0.01026925,
      "balance_loss_clip": 1.04227281,
      "balance_loss_mlp": 1.02125311,
      "epoch": 0.6236998737449648,
      "flos": 26621269315200.0,
      "grad_norm": 1.6030724628496114,
      "language_loss": 0.77725512,
      "learning_rate": 1.3102695747697526e-06,
      "loss": 0.79853892,
      "num_input_tokens_seen": 111747675,
      "step": 5187,
      "time_per_iteration": 3.4005866050720215
    },
    {
      "auxiliary_loss_clip": 0.0102626,
      "auxiliary_loss_mlp": 0.01019419,
      "balance_loss_clip": 1.03259158,
      "balance_loss_mlp": 1.01405787,
      "epoch": 0.6238201166356039,
      "flos": 12676089283200.0,
      "grad_norm": 2.2734363555740007,
      "language_loss": 0.90963674,
      "learning_rate": 1.3095384436400237e-06,
      "loss": 0.93009347,
      "num_input_tokens_seen": 111759205,
      "step": 5188,
      "time_per_iteration": 2.661921262741089
    },
    {
      "auxiliary_loss_clip": 0.01075802,
      "auxiliary_loss_mlp": 0.01019287,
      "balance_loss_clip": 1.04122496,
      "balance_loss_mlp": 1.01392913,
      "epoch": 0.623940359526243,
      "flos": 10453704180480.0,
      "grad_norm": 2.545559768669738,
      "language_loss": 0.82303584,
      "learning_rate": 1.3088074172527633e-06,
      "loss": 0.84398669,
      "num_input_tokens_seen": 111776335,
      "step": 5189,
      "time_per_iteration": 2.5285375118255615
    },
    {
      "auxiliary_loss_clip": 0.01076191,
      "auxiliary_loss_mlp": 0.01019174,
      "balance_loss_clip": 1.03899491,
      "balance_loss_mlp": 1.01383364,
      "epoch": 0.6240606024168821,
      "flos": 29062084947840.0,
      "grad_norm": 1.8297894582320073,
      "language_loss": 0.71769261,
      "learning_rate": 1.3080764957188684e-06,
      "loss": 0.73864627,
      "num_input_tokens_seen": 111796580,
      "step": 5190,
      "time_per_iteration": 2.635733127593994
    },
    {
      "auxiliary_loss_clip": 0.01055114,
      "auxiliary_loss_mlp": 0.01017342,
      "balance_loss_clip": 1.04026771,
      "balance_loss_mlp": 1.01196218,
      "epoch": 0.6241808453075212,
      "flos": 22020274333440.0,
      "grad_norm": 1.8865451789761583,
      "language_loss": 0.70979035,
      "learning_rate": 1.3073456791492192e-06,
      "loss": 0.73051488,
      "num_input_tokens_seen": 111816290,
      "step": 5191,
      "time_per_iteration": 2.625661849975586
    },
    {
      "auxiliary_loss_clip": 0.01075827,
      "auxiliary_loss_mlp": 0.01022318,
      "balance_loss_clip": 1.0381856,
      "balance_loss_mlp": 1.01692355,
      "epoch": 0.6243010881981603,
      "flos": 21140636993280.0,
      "grad_norm": 1.8562374956917604,
      "language_loss": 0.78498173,
      "learning_rate": 1.3066149676546801e-06,
      "loss": 0.80596316,
      "num_input_tokens_seen": 111834470,
      "step": 5192,
      "time_per_iteration": 2.608551502227783
    },
    {
      "auxiliary_loss_clip": 0.01070614,
      "auxiliary_loss_mlp": 0.01023005,
      "balance_loss_clip": 1.04208755,
      "balance_loss_mlp": 1.01753938,
      "epoch": 0.6244213310887994,
      "flos": 22347066971520.0,
      "grad_norm": 1.6368819091161093,
      "language_loss": 0.66282773,
      "learning_rate": 1.3058843613460985e-06,
      "loss": 0.68376386,
      "num_input_tokens_seen": 111852410,
      "step": 5193,
      "time_per_iteration": 2.5839555263519287
    },
    {
      "auxiliary_loss_clip": 0.01061873,
      "auxiliary_loss_mlp": 0.01020823,
      "balance_loss_clip": 1.03895664,
      "balance_loss_mlp": 1.01534796,
      "epoch": 0.6245415739794384,
      "flos": 15233798592000.0,
      "grad_norm": 2.541826996588347,
      "language_loss": 0.74425268,
      "learning_rate": 1.3051538603343075e-06,
      "loss": 0.76507968,
      "num_input_tokens_seen": 111870340,
      "step": 5194,
      "time_per_iteration": 2.60111665725708
    },
    {
      "auxiliary_loss_clip": 0.01087738,
      "auxiliary_loss_mlp": 0.01023374,
      "balance_loss_clip": 1.04038334,
      "balance_loss_mlp": 1.01825094,
      "epoch": 0.6246618168700776,
      "flos": 18881878400640.0,
      "grad_norm": 2.2318953726837862,
      "language_loss": 0.68252957,
      "learning_rate": 1.3044234647301235e-06,
      "loss": 0.70364076,
      "num_input_tokens_seen": 111888365,
      "step": 5195,
      "time_per_iteration": 2.5292816162109375
    },
    {
      "auxiliary_loss_clip": 0.01084154,
      "auxiliary_loss_mlp": 0.01020042,
      "balance_loss_clip": 1.03961682,
      "balance_loss_mlp": 1.01527357,
      "epoch": 0.6247820597607167,
      "flos": 14320934962560.0,
      "grad_norm": 1.7583065223673455,
      "language_loss": 0.72397375,
      "learning_rate": 1.303693174644347e-06,
      "loss": 0.74501574,
      "num_input_tokens_seen": 111905840,
      "step": 5196,
      "time_per_iteration": 2.5435919761657715
    },
    {
      "auxiliary_loss_clip": 0.01077757,
      "auxiliary_loss_mlp": 0.01020321,
      "balance_loss_clip": 1.03929734,
      "balance_loss_mlp": 1.01459599,
      "epoch": 0.6249023026513557,
      "flos": 22640178303360.0,
      "grad_norm": 1.9511516946544523,
      "language_loss": 0.8055023,
      "learning_rate": 1.3029629901877625e-06,
      "loss": 0.82648313,
      "num_input_tokens_seen": 111925215,
      "step": 5197,
      "time_per_iteration": 2.5582993030548096
    },
    {
      "auxiliary_loss_clip": 0.01092124,
      "auxiliary_loss_mlp": 0.01019701,
      "balance_loss_clip": 1.04651439,
      "balance_loss_mlp": 1.01382363,
      "epoch": 0.6250225455419949,
      "flos": 20268772859520.0,
      "grad_norm": 3.0020033405811724,
      "language_loss": 0.77716368,
      "learning_rate": 1.3022329114711376e-06,
      "loss": 0.79828191,
      "num_input_tokens_seen": 111943925,
      "step": 5198,
      "time_per_iteration": 2.543057918548584
    },
    {
      "auxiliary_loss_clip": 0.01079201,
      "auxiliary_loss_mlp": 0.01019851,
      "balance_loss_clip": 1.04349375,
      "balance_loss_mlp": 1.01422751,
      "epoch": 0.6251427884326339,
      "flos": 23439940064640.0,
      "grad_norm": 1.9395668524134477,
      "language_loss": 0.70054507,
      "learning_rate": 1.3015029386052256e-06,
      "loss": 0.72153556,
      "num_input_tokens_seen": 111964095,
      "step": 5199,
      "time_per_iteration": 2.588178873062134
    },
    {
      "auxiliary_loss_clip": 0.01063568,
      "auxiliary_loss_mlp": 0.01025861,
      "balance_loss_clip": 1.04019606,
      "balance_loss_mlp": 1.02034211,
      "epoch": 0.625263031323273,
      "flos": 31725767525760.0,
      "grad_norm": 2.0337380169973356,
      "language_loss": 0.73140109,
      "learning_rate": 1.3007730717007622e-06,
      "loss": 0.75229537,
      "num_input_tokens_seen": 111984910,
      "step": 5200,
      "time_per_iteration": 2.6972131729125977
    },
    {
      "auxiliary_loss_clip": 0.01103511,
      "auxiliary_loss_mlp": 0.0102268,
      "balance_loss_clip": 1.04438949,
      "balance_loss_mlp": 1.01712215,
      "epoch": 0.6253832742139122,
      "flos": 24136648248960.0,
      "grad_norm": 2.0067985540649027,
      "language_loss": 0.75951791,
      "learning_rate": 1.3000433108684676e-06,
      "loss": 0.78077984,
      "num_input_tokens_seen": 112005410,
      "step": 5201,
      "time_per_iteration": 2.507830858230591
    },
    {
      "auxiliary_loss_clip": 0.01078724,
      "auxiliary_loss_mlp": 0.01017036,
      "balance_loss_clip": 1.03522992,
      "balance_loss_mlp": 1.01146007,
      "epoch": 0.6255035171045512,
      "flos": 27671057418240.0,
      "grad_norm": 4.802205097185224,
      "language_loss": 0.80248642,
      "learning_rate": 1.2993136562190467e-06,
      "loss": 0.82344401,
      "num_input_tokens_seen": 112024530,
      "step": 5202,
      "time_per_iteration": 2.572521209716797
    },
    {
      "auxiliary_loss_clip": 0.01077812,
      "auxiliary_loss_mlp": 0.01023011,
      "balance_loss_clip": 1.03965616,
      "balance_loss_mlp": 1.01740766,
      "epoch": 0.6256237599951903,
      "flos": 20229745104000.0,
      "grad_norm": 2.1024767406576013,
      "language_loss": 0.70550114,
      "learning_rate": 1.2985841078631871e-06,
      "loss": 0.72650933,
      "num_input_tokens_seen": 112043850,
      "step": 5203,
      "time_per_iteration": 2.5491549968719482
    },
    {
      "auxiliary_loss_clip": 0.01040244,
      "auxiliary_loss_mlp": 0.01023349,
      "balance_loss_clip": 1.03605556,
      "balance_loss_mlp": 1.01788306,
      "epoch": 0.6257440028858293,
      "flos": 24172870066560.0,
      "grad_norm": 2.534243009115208,
      "language_loss": 0.78723168,
      "learning_rate": 1.2978546659115608e-06,
      "loss": 0.80786753,
      "num_input_tokens_seen": 112061930,
      "step": 5204,
      "time_per_iteration": 3.703134536743164
    },
    {
      "auxiliary_loss_clip": 0.01078714,
      "auxiliary_loss_mlp": 0.01023988,
      "balance_loss_clip": 1.04164648,
      "balance_loss_mlp": 1.01853144,
      "epoch": 0.6258642457764685,
      "flos": 15853778398080.0,
      "grad_norm": 1.9570171178404598,
      "language_loss": 0.85483265,
      "learning_rate": 1.2971253304748228e-06,
      "loss": 0.87585974,
      "num_input_tokens_seen": 112079645,
      "step": 5205,
      "time_per_iteration": 2.5633742809295654
    },
    {
      "auxiliary_loss_clip": 0.01094068,
      "auxiliary_loss_mlp": 0.01022484,
      "balance_loss_clip": 1.04629207,
      "balance_loss_mlp": 1.01696134,
      "epoch": 0.6259844886671075,
      "flos": 11912966438400.0,
      "grad_norm": 1.914597239958309,
      "language_loss": 0.75053215,
      "learning_rate": 1.296396101663614e-06,
      "loss": 0.77169764,
      "num_input_tokens_seen": 112096205,
      "step": 5206,
      "time_per_iteration": 3.2012202739715576
    },
    {
      "auxiliary_loss_clip": 0.01092185,
      "auxiliary_loss_mlp": 0.01022408,
      "balance_loss_clip": 1.04389358,
      "balance_loss_mlp": 1.0168767,
      "epoch": 0.6261047315577466,
      "flos": 15889772707200.0,
      "grad_norm": 1.96458865555185,
      "language_loss": 0.84244663,
      "learning_rate": 1.2956669795885565e-06,
      "loss": 0.86359257,
      "num_input_tokens_seen": 112112835,
      "step": 5207,
      "time_per_iteration": 2.559605121612549
    },
    {
      "auxiliary_loss_clip": 0.01059035,
      "auxiliary_loss_mlp": 0.01026291,
      "balance_loss_clip": 1.03579092,
      "balance_loss_mlp": 1.0207504,
      "epoch": 0.6262249744483858,
      "flos": 31251622942080.0,
      "grad_norm": 2.0105353058457585,
      "language_loss": 0.68244606,
      "learning_rate": 1.294937964360259e-06,
      "loss": 0.70329928,
      "num_input_tokens_seen": 112133105,
      "step": 5208,
      "time_per_iteration": 3.4359936714172363
    },
    {
      "auxiliary_loss_clip": 0.01072572,
      "auxiliary_loss_mlp": 0.01024214,
      "balance_loss_clip": 1.03997231,
      "balance_loss_mlp": 1.0179646,
      "epoch": 0.6263452173390248,
      "flos": 27201045905280.0,
      "grad_norm": 2.8296936592964173,
      "language_loss": 0.71217799,
      "learning_rate": 1.2942090560893108e-06,
      "loss": 0.73314583,
      "num_input_tokens_seen": 112152510,
      "step": 5209,
      "time_per_iteration": 2.622445583343506
    },
    {
      "auxiliary_loss_clip": 0.01101569,
      "auxiliary_loss_mlp": 0.01017611,
      "balance_loss_clip": 1.04296529,
      "balance_loss_mlp": 1.01262188,
      "epoch": 0.6264654602296639,
      "flos": 37345106471040.0,
      "grad_norm": 2.3691525214034317,
      "language_loss": 0.60701674,
      "learning_rate": 1.2934802548862882e-06,
      "loss": 0.62820852,
      "num_input_tokens_seen": 112175295,
      "step": 5210,
      "time_per_iteration": 2.717768907546997
    },
    {
      "auxiliary_loss_clip": 0.01071907,
      "auxiliary_loss_mlp": 0.01022302,
      "balance_loss_clip": 1.03818917,
      "balance_loss_mlp": 1.01705718,
      "epoch": 0.626585703120303,
      "flos": 14758706056320.0,
      "grad_norm": 2.408383893118759,
      "language_loss": 0.83073992,
      "learning_rate": 1.292751560861749e-06,
      "loss": 0.85168195,
      "num_input_tokens_seen": 112190200,
      "step": 5211,
      "time_per_iteration": 2.5442733764648438
    },
    {
      "auxiliary_loss_clip": 0.01101718,
      "auxiliary_loss_mlp": 0.01021872,
      "balance_loss_clip": 1.04219437,
      "balance_loss_mlp": 1.01602221,
      "epoch": 0.6267059460109421,
      "flos": 22349569564800.0,
      "grad_norm": 9.112530051570156,
      "language_loss": 0.80103326,
      "learning_rate": 1.2920229741262354e-06,
      "loss": 0.8222692,
      "num_input_tokens_seen": 112208205,
      "step": 5212,
      "time_per_iteration": 3.321898937225342
    },
    {
      "auxiliary_loss_clip": 0.0107652,
      "auxiliary_loss_mlp": 0.01019676,
      "balance_loss_clip": 1.03966618,
      "balance_loss_mlp": 1.01433825,
      "epoch": 0.6268261889015811,
      "flos": 17750735913600.0,
      "grad_norm": 2.664329392683608,
      "language_loss": 0.75274533,
      "learning_rate": 1.2912944947902739e-06,
      "loss": 0.77370727,
      "num_input_tokens_seen": 112224690,
      "step": 5213,
      "time_per_iteration": 2.53812575340271
    },
    {
      "auxiliary_loss_clip": 0.01078624,
      "auxiliary_loss_mlp": 0.01019471,
      "balance_loss_clip": 1.0404073,
      "balance_loss_mlp": 1.0136174,
      "epoch": 0.6269464317922203,
      "flos": 32848833461760.0,
      "grad_norm": 2.3690542663370024,
      "language_loss": 0.72093809,
      "learning_rate": 1.2905661229643742e-06,
      "loss": 0.74191904,
      "num_input_tokens_seen": 112244450,
      "step": 5214,
      "time_per_iteration": 2.6982321739196777
    },
    {
      "auxiliary_loss_clip": 0.01100495,
      "auxiliary_loss_mlp": 0.01022599,
      "balance_loss_clip": 1.04183316,
      "balance_loss_mlp": 1.01712132,
      "epoch": 0.6270666746828594,
      "flos": 17931010803840.0,
      "grad_norm": 2.1390261829438892,
      "language_loss": 0.84408164,
      "learning_rate": 1.2898378587590299e-06,
      "loss": 0.86531258,
      "num_input_tokens_seen": 112261050,
      "step": 5215,
      "time_per_iteration": 2.49440598487854
    },
    {
      "auxiliary_loss_clip": 0.01079632,
      "auxiliary_loss_mlp": 0.01020179,
      "balance_loss_clip": 1.03551948,
      "balance_loss_mlp": 1.01515734,
      "epoch": 0.6271869175734984,
      "flos": 17459255059200.0,
      "grad_norm": 2.160756200882183,
      "language_loss": 0.87256384,
      "learning_rate": 1.2891097022847173e-06,
      "loss": 0.89356202,
      "num_input_tokens_seen": 112278395,
      "step": 5216,
      "time_per_iteration": 2.540754795074463
    },
    {
      "auxiliary_loss_clip": 0.01074143,
      "auxiliary_loss_mlp": 0.01023315,
      "balance_loss_clip": 1.03863573,
      "balance_loss_mlp": 1.01745915,
      "epoch": 0.6273071604641376,
      "flos": 26870954394240.0,
      "grad_norm": 3.0412096231839483,
      "language_loss": 0.66510856,
      "learning_rate": 1.2883816536518978e-06,
      "loss": 0.68608314,
      "num_input_tokens_seen": 112299535,
      "step": 5217,
      "time_per_iteration": 2.59893798828125
    },
    {
      "auxiliary_loss_clip": 0.010863,
      "auxiliary_loss_mlp": 0.01020495,
      "balance_loss_clip": 1.04000378,
      "balance_loss_mlp": 1.01552153,
      "epoch": 0.6274274033547766,
      "flos": 26064481132800.0,
      "grad_norm": 2.6074242474642153,
      "language_loss": 0.81835395,
      "learning_rate": 1.2876537129710155e-06,
      "loss": 0.83942187,
      "num_input_tokens_seen": 112317265,
      "step": 5218,
      "time_per_iteration": 2.6171798706054688
    },
    {
      "auxiliary_loss_clip": 0.01063331,
      "auxiliary_loss_mlp": 0.0102383,
      "balance_loss_clip": 1.03928578,
      "balance_loss_mlp": 1.01815915,
      "epoch": 0.6275476462454157,
      "flos": 20268317842560.0,
      "grad_norm": 2.046301870590369,
      "language_loss": 0.75230062,
      "learning_rate": 1.286925880352499e-06,
      "loss": 0.77317226,
      "num_input_tokens_seen": 112336125,
      "step": 5219,
      "time_per_iteration": 2.592162609100342
    },
    {
      "auxiliary_loss_clip": 0.01073745,
      "auxiliary_loss_mlp": 0.01018357,
      "balance_loss_clip": 1.04268551,
      "balance_loss_mlp": 1.01304877,
      "epoch": 0.6276678891360549,
      "flos": 26322659861760.0,
      "grad_norm": 1.6052158871723232,
      "language_loss": 0.71251011,
      "learning_rate": 1.2861981559067592e-06,
      "loss": 0.7334311,
      "num_input_tokens_seen": 112356730,
      "step": 5220,
      "time_per_iteration": 2.6339454650878906
    },
    {
      "auxiliary_loss_clip": 0.01050964,
      "auxiliary_loss_mlp": 0.01019774,
      "balance_loss_clip": 1.0380553,
      "balance_loss_mlp": 1.01446939,
      "epoch": 0.6277881320266939,
      "flos": 13913925482880.0,
      "grad_norm": 1.9546116811512713,
      "language_loss": 0.80249244,
      "learning_rate": 1.2854705397441917e-06,
      "loss": 0.82319987,
      "num_input_tokens_seen": 112372270,
      "step": 5221,
      "time_per_iteration": 2.609663724899292
    },
    {
      "auxiliary_loss_clip": 0.01063561,
      "auxiliary_loss_mlp": 0.01019731,
      "balance_loss_clip": 1.03806138,
      "balance_loss_mlp": 1.01439619,
      "epoch": 0.627908374917333,
      "flos": 27051153448320.0,
      "grad_norm": 2.880824290967754,
      "language_loss": 0.77411127,
      "learning_rate": 1.2847430319751747e-06,
      "loss": 0.79494423,
      "num_input_tokens_seen": 112390365,
      "step": 5222,
      "time_per_iteration": 2.663882255554199
    },
    {
      "auxiliary_loss_clip": 0.01079619,
      "auxiliary_loss_mlp": 0.01020419,
      "balance_loss_clip": 1.03967786,
      "balance_loss_mlp": 1.01509082,
      "epoch": 0.6280286178079721,
      "flos": 23771472462720.0,
      "grad_norm": 9.570968772153385,
      "language_loss": 0.67382598,
      "learning_rate": 1.2840156327100712e-06,
      "loss": 0.69482636,
      "num_input_tokens_seen": 112407490,
      "step": 5223,
      "time_per_iteration": 2.546264171600342
    },
    {
      "auxiliary_loss_clip": 0.01101184,
      "auxiliary_loss_mlp": 0.0101813,
      "balance_loss_clip": 1.04255056,
      "balance_loss_mlp": 1.0127176,
      "epoch": 0.6281488606986112,
      "flos": 26361535944960.0,
      "grad_norm": 1.828205956619732,
      "language_loss": 0.72509778,
      "learning_rate": 1.2832883420592272e-06,
      "loss": 0.74629092,
      "num_input_tokens_seen": 112426385,
      "step": 5224,
      "time_per_iteration": 2.5653529167175293
    },
    {
      "auxiliary_loss_clip": 0.01080085,
      "auxiliary_loss_mlp": 0.01023697,
      "balance_loss_clip": 1.04432404,
      "balance_loss_mlp": 1.01795983,
      "epoch": 0.6282691035892503,
      "flos": 36140117379840.0,
      "grad_norm": 2.6226019489096517,
      "language_loss": 0.64276147,
      "learning_rate": 1.282561160132972e-06,
      "loss": 0.66379929,
      "num_input_tokens_seen": 112446905,
      "step": 5225,
      "time_per_iteration": 2.708946943283081
    },
    {
      "auxiliary_loss_clip": 0.01080254,
      "auxiliary_loss_mlp": 0.01028917,
      "balance_loss_clip": 1.04033279,
      "balance_loss_mlp": 1.02343607,
      "epoch": 0.6283893464798894,
      "flos": 26539384078080.0,
      "grad_norm": 1.726273145572033,
      "language_loss": 0.81081337,
      "learning_rate": 1.2818340870416186e-06,
      "loss": 0.83190507,
      "num_input_tokens_seen": 112468040,
      "step": 5226,
      "time_per_iteration": 2.6471471786499023
    },
    {
      "auxiliary_loss_clip": 0.01065623,
      "auxiliary_loss_mlp": 0.01022425,
      "balance_loss_clip": 1.0378567,
      "balance_loss_mlp": 1.01659846,
      "epoch": 0.6285095893705285,
      "flos": 22239425306880.0,
      "grad_norm": 1.9154334604948522,
      "language_loss": 0.75778115,
      "learning_rate": 1.2811071228954626e-06,
      "loss": 0.77866167,
      "num_input_tokens_seen": 112486675,
      "step": 5227,
      "time_per_iteration": 2.6561548709869385
    },
    {
      "auxiliary_loss_clip": 0.01068694,
      "auxiliary_loss_mlp": 0.01020354,
      "balance_loss_clip": 1.03494835,
      "balance_loss_mlp": 1.01514506,
      "epoch": 0.6286298322611675,
      "flos": 26544692609280.0,
      "grad_norm": 1.7681795081812686,
      "language_loss": 0.81044841,
      "learning_rate": 1.2803802678047846e-06,
      "loss": 0.83133888,
      "num_input_tokens_seen": 112506825,
      "step": 5228,
      "time_per_iteration": 2.5903234481811523
    },
    {
      "auxiliary_loss_clip": 0.01078262,
      "auxiliary_loss_mlp": 0.01026551,
      "balance_loss_clip": 1.0426389,
      "balance_loss_mlp": 1.02055764,
      "epoch": 0.6287500751518067,
      "flos": 21797179879680.0,
      "grad_norm": 3.1505213153734575,
      "language_loss": 0.7431252,
      "learning_rate": 1.279653521879848e-06,
      "loss": 0.76417339,
      "num_input_tokens_seen": 112526890,
      "step": 5229,
      "time_per_iteration": 3.3737945556640625
    },
    {
      "auxiliary_loss_clip": 0.01016299,
      "auxiliary_loss_mlp": 0.01019593,
      "balance_loss_clip": 1.02879477,
      "balance_loss_mlp": 1.01449704,
      "epoch": 0.6288703180424458,
      "flos": 20011580000640.0,
      "grad_norm": 2.1893223764843532,
      "language_loss": 0.84339893,
      "learning_rate": 1.2789268852308997e-06,
      "loss": 0.86375785,
      "num_input_tokens_seen": 112542100,
      "step": 5230,
      "time_per_iteration": 2.6638436317443848
    },
    {
      "auxiliary_loss_clip": 0.01090471,
      "auxiliary_loss_mlp": 0.01024294,
      "balance_loss_clip": 1.04109561,
      "balance_loss_mlp": 1.01879215,
      "epoch": 0.6289905609330848,
      "flos": 22126968046080.0,
      "grad_norm": 1.731954119750375,
      "language_loss": 0.70735967,
      "learning_rate": 1.2782003579681688e-06,
      "loss": 0.72850734,
      "num_input_tokens_seen": 112561630,
      "step": 5231,
      "time_per_iteration": 2.6109776496887207
    },
    {
      "auxiliary_loss_clip": 0.01101735,
      "auxiliary_loss_mlp": 0.01025221,
      "balance_loss_clip": 1.04249966,
      "balance_loss_mlp": 1.01940978,
      "epoch": 0.629110803823724,
      "flos": 25520736769920.0,
      "grad_norm": 1.875070053964971,
      "language_loss": 0.74541646,
      "learning_rate": 1.2774739402018701e-06,
      "loss": 0.76668596,
      "num_input_tokens_seen": 112582465,
      "step": 5232,
      "time_per_iteration": 3.290781021118164
    },
    {
      "auxiliary_loss_clip": 0.01084462,
      "auxiliary_loss_mlp": 0.01022149,
      "balance_loss_clip": 1.04361129,
      "balance_loss_mlp": 1.01662397,
      "epoch": 0.629231046714363,
      "flos": 20888714747520.0,
      "grad_norm": 1.7113837087853387,
      "language_loss": 0.73332334,
      "learning_rate": 1.2767476320422002e-06,
      "loss": 0.75438946,
      "num_input_tokens_seen": 112602390,
      "step": 5233,
      "time_per_iteration": 3.28788161277771
    },
    {
      "auxiliary_loss_clip": 0.01025439,
      "auxiliary_loss_mlp": 0.01006713,
      "balance_loss_clip": 1.02510405,
      "balance_loss_mlp": 1.00480592,
      "epoch": 0.6293512896050021,
      "flos": 65057494596480.0,
      "grad_norm": 0.6783723789890039,
      "language_loss": 0.57175857,
      "learning_rate": 1.2760214335993392e-06,
      "loss": 0.59208006,
      "num_input_tokens_seen": 112669035,
      "step": 5234,
      "time_per_iteration": 3.277395725250244
    },
    {
      "auxiliary_loss_clip": 0.01089016,
      "auxiliary_loss_mlp": 0.01019584,
      "balance_loss_clip": 1.04078937,
      "balance_loss_mlp": 1.01473236,
      "epoch": 0.6294715324956413,
      "flos": 34680703449600.0,
      "grad_norm": 2.0038079985209163,
      "language_loss": 0.58536285,
      "learning_rate": 1.2752953449834514e-06,
      "loss": 0.60644883,
      "num_input_tokens_seen": 112691485,
      "step": 5235,
      "time_per_iteration": 2.70436692237854
    },
    {
      "auxiliary_loss_clip": 0.01100822,
      "auxiliary_loss_mlp": 0.01022639,
      "balance_loss_clip": 1.04230225,
      "balance_loss_mlp": 1.01746535,
      "epoch": 0.6295917753862803,
      "flos": 22786430624640.0,
      "grad_norm": 1.7164664719194755,
      "language_loss": 0.80566013,
      "learning_rate": 1.2745693663046836e-06,
      "loss": 0.82689476,
      "num_input_tokens_seen": 112710555,
      "step": 5236,
      "time_per_iteration": 2.520932197570801
    },
    {
      "auxiliary_loss_clip": 0.01084207,
      "auxiliary_loss_mlp": 0.01018466,
      "balance_loss_clip": 1.03969741,
      "balance_loss_mlp": 1.01351607,
      "epoch": 0.6297120182769194,
      "flos": 20852568766080.0,
      "grad_norm": 1.9176456356017317,
      "language_loss": 0.8100028,
      "learning_rate": 1.2738434976731662e-06,
      "loss": 0.83102953,
      "num_input_tokens_seen": 112728740,
      "step": 5237,
      "time_per_iteration": 2.5136704444885254
    },
    {
      "auxiliary_loss_clip": 0.01081069,
      "auxiliary_loss_mlp": 0.01025209,
      "balance_loss_clip": 1.04418492,
      "balance_loss_mlp": 1.01919806,
      "epoch": 0.6298322611675584,
      "flos": 19499545203840.0,
      "grad_norm": 1.7028819313034893,
      "language_loss": 0.7515769,
      "learning_rate": 1.2731177391990125e-06,
      "loss": 0.77263963,
      "num_input_tokens_seen": 112748665,
      "step": 5238,
      "time_per_iteration": 3.341106414794922
    },
    {
      "auxiliary_loss_clip": 0.01076399,
      "auxiliary_loss_mlp": 0.01016934,
      "balance_loss_clip": 1.03936553,
      "balance_loss_mlp": 1.01163793,
      "epoch": 0.6299525040581976,
      "flos": 12606110323200.0,
      "grad_norm": 4.646750559563335,
      "language_loss": 0.81726575,
      "learning_rate": 1.2723920909923203e-06,
      "loss": 0.83819902,
      "num_input_tokens_seen": 112764410,
      "step": 5239,
      "time_per_iteration": 2.54348087310791
    },
    {
      "auxiliary_loss_clip": 0.01053956,
      "auxiliary_loss_mlp": 0.01004787,
      "balance_loss_clip": 1.02519119,
      "balance_loss_mlp": 1.00283146,
      "epoch": 0.6300727469488366,
      "flos": 57731228023680.0,
      "grad_norm": 0.8490031072404807,
      "language_loss": 0.60529768,
      "learning_rate": 1.2716665531631688e-06,
      "loss": 0.62588501,
      "num_input_tokens_seen": 112818695,
      "step": 5240,
      "time_per_iteration": 3.0808842182159424
    },
    {
      "auxiliary_loss_clip": 0.01084592,
      "auxiliary_loss_mlp": 0.01016637,
      "balance_loss_clip": 1.03978515,
      "balance_loss_mlp": 1.01101029,
      "epoch": 0.6301929898394757,
      "flos": 22529427356160.0,
      "grad_norm": 2.2404021587404284,
      "language_loss": 0.77067631,
      "learning_rate": 1.270941125821623e-06,
      "loss": 0.79168868,
      "num_input_tokens_seen": 112839120,
      "step": 5241,
      "time_per_iteration": 2.586900472640991
    },
    {
      "auxiliary_loss_clip": 0.01087057,
      "auxiliary_loss_mlp": 0.01023273,
      "balance_loss_clip": 1.03854442,
      "balance_loss_mlp": 1.01795006,
      "epoch": 0.6303132327301149,
      "flos": 28296080328960.0,
      "grad_norm": 1.7891646785865358,
      "language_loss": 0.75535816,
      "learning_rate": 1.2702158090777278e-06,
      "loss": 0.77646148,
      "num_input_tokens_seen": 112860210,
      "step": 5242,
      "time_per_iteration": 2.574239492416382
    },
    {
      "auxiliary_loss_clip": 0.01068183,
      "auxiliary_loss_mlp": 0.0101993,
      "balance_loss_clip": 1.04088783,
      "balance_loss_mlp": 1.0147686,
      "epoch": 0.6304334756207539,
      "flos": 25266842784000.0,
      "grad_norm": 2.498307362405347,
      "language_loss": 0.74904168,
      "learning_rate": 1.2694906030415148e-06,
      "loss": 0.76992279,
      "num_input_tokens_seen": 112877955,
      "step": 5243,
      "time_per_iteration": 2.6525421142578125
    },
    {
      "auxiliary_loss_clip": 0.01077942,
      "auxiliary_loss_mlp": 0.01022211,
      "balance_loss_clip": 1.03888321,
      "balance_loss_mlp": 1.01658416,
      "epoch": 0.630553718511393,
      "flos": 18035088168960.0,
      "grad_norm": 3.622557221825905,
      "language_loss": 0.82959735,
      "learning_rate": 1.2687655078229958e-06,
      "loss": 0.85059893,
      "num_input_tokens_seen": 112892285,
      "step": 5244,
      "time_per_iteration": 2.51106858253479
    },
    {
      "auxiliary_loss_clip": 0.01072278,
      "auxiliary_loss_mlp": 0.01020682,
      "balance_loss_clip": 1.03838849,
      "balance_loss_mlp": 1.01540744,
      "epoch": 0.6306739614020321,
      "flos": 27306336648960.0,
      "grad_norm": 2.2339955036188663,
      "language_loss": 0.69068813,
      "learning_rate": 1.2680405235321678e-06,
      "loss": 0.71161771,
      "num_input_tokens_seen": 112913620,
      "step": 5245,
      "time_per_iteration": 2.6351261138916016
    },
    {
      "auxiliary_loss_clip": 0.01072276,
      "auxiliary_loss_mlp": 0.00756696,
      "balance_loss_clip": 1.04036224,
      "balance_loss_mlp": 1.00161493,
      "epoch": 0.6307942042926712,
      "flos": 15343260324480.0,
      "grad_norm": 2.7952113874475386,
      "language_loss": 0.78519666,
      "learning_rate": 1.267315650279011e-06,
      "loss": 0.80348635,
      "num_input_tokens_seen": 112932090,
      "step": 5246,
      "time_per_iteration": 2.537310838699341
    },
    {
      "auxiliary_loss_clip": 0.010468,
      "auxiliary_loss_mlp": 0.01017779,
      "balance_loss_clip": 1.03144574,
      "balance_loss_mlp": 1.01245594,
      "epoch": 0.6309144471833102,
      "flos": 19608248574720.0,
      "grad_norm": 3.0087292980595874,
      "language_loss": 0.73807681,
      "learning_rate": 1.2665908881734874e-06,
      "loss": 0.75872266,
      "num_input_tokens_seen": 112950925,
      "step": 5247,
      "time_per_iteration": 2.6340603828430176
    },
    {
      "auxiliary_loss_clip": 0.01088168,
      "auxiliary_loss_mlp": 0.01022601,
      "balance_loss_clip": 1.0424881,
      "balance_loss_mlp": 1.01770186,
      "epoch": 0.6310346900739494,
      "flos": 17495249368320.0,
      "grad_norm": 2.4749810675221444,
      "language_loss": 0.84936398,
      "learning_rate": 1.2658662373255432e-06,
      "loss": 0.87047166,
      "num_input_tokens_seen": 112969315,
      "step": 5248,
      "time_per_iteration": 2.5057764053344727
    },
    {
      "auxiliary_loss_clip": 0.01033878,
      "auxiliary_loss_mlp": 0.01002261,
      "balance_loss_clip": 1.02463961,
      "balance_loss_mlp": 1.00037754,
      "epoch": 0.6311549329645885,
      "flos": 55076001177600.0,
      "grad_norm": 0.7069874969595,
      "language_loss": 0.52206433,
      "learning_rate": 1.2651416978451063e-06,
      "loss": 0.54242569,
      "num_input_tokens_seen": 113034700,
      "step": 5249,
      "time_per_iteration": 3.2506186962127686
    },
    {
      "auxiliary_loss_clip": 0.01103676,
      "auxiliary_loss_mlp": 0.01019715,
      "balance_loss_clip": 1.04453552,
      "balance_loss_mlp": 1.01422501,
      "epoch": 0.6312751758552275,
      "flos": 41905822400640.0,
      "grad_norm": 2.0669087641198023,
      "language_loss": 0.65286618,
      "learning_rate": 1.2644172698420903e-06,
      "loss": 0.67410004,
      "num_input_tokens_seen": 113056805,
      "step": 5250,
      "time_per_iteration": 2.730923891067505
    },
    {
      "auxiliary_loss_clip": 0.01062945,
      "auxiliary_loss_mlp": 0.01024052,
      "balance_loss_clip": 1.03923559,
      "balance_loss_mlp": 1.01855636,
      "epoch": 0.6313954187458667,
      "flos": 19648868889600.0,
      "grad_norm": 2.075389332056535,
      "language_loss": 0.84932399,
      "learning_rate": 1.2636929534263892e-06,
      "loss": 0.87019396,
      "num_input_tokens_seen": 113075790,
      "step": 5251,
      "time_per_iteration": 2.6157851219177246
    },
    {
      "auxiliary_loss_clip": 0.01066782,
      "auxiliary_loss_mlp": 0.01019813,
      "balance_loss_clip": 1.03788126,
      "balance_loss_mlp": 1.01458859,
      "epoch": 0.6315156616365057,
      "flos": 22896536964480.0,
      "grad_norm": 1.773442197618142,
      "language_loss": 0.7800231,
      "learning_rate": 1.2629687487078821e-06,
      "loss": 0.80088907,
      "num_input_tokens_seen": 113094600,
      "step": 5252,
      "time_per_iteration": 2.6564836502075195
    },
    {
      "auxiliary_loss_clip": 0.01088992,
      "auxiliary_loss_mlp": 0.01026529,
      "balance_loss_clip": 1.04056406,
      "balance_loss_mlp": 1.0207684,
      "epoch": 0.6316359045271448,
      "flos": 23728159964160.0,
      "grad_norm": 2.6565236324770796,
      "language_loss": 0.76621878,
      "learning_rate": 1.2622446557964293e-06,
      "loss": 0.78737402,
      "num_input_tokens_seen": 113112605,
      "step": 5253,
      "time_per_iteration": 2.560793876647949
    },
    {
      "auxiliary_loss_clip": 0.01077383,
      "auxiliary_loss_mlp": 0.010197,
      "balance_loss_clip": 1.03870463,
      "balance_loss_mlp": 1.01499152,
      "epoch": 0.631756147417784,
      "flos": 33111145261440.0,
      "grad_norm": 2.556300917276841,
      "language_loss": 0.71207929,
      "learning_rate": 1.261520674801876e-06,
      "loss": 0.73305011,
      "num_input_tokens_seen": 113133200,
      "step": 5254,
      "time_per_iteration": 2.747030019760132
    },
    {
      "auxiliary_loss_clip": 0.01072452,
      "auxiliary_loss_mlp": 0.01020163,
      "balance_loss_clip": 1.04282498,
      "balance_loss_mlp": 1.01453066,
      "epoch": 0.631876390308423,
      "flos": 31251092088960.0,
      "grad_norm": 3.5053870461863887,
      "language_loss": 0.72499263,
      "learning_rate": 1.2607968058340488e-06,
      "loss": 0.74591875,
      "num_input_tokens_seen": 113152895,
      "step": 5255,
      "time_per_iteration": 3.401352643966675
    },
    {
      "auxiliary_loss_clip": 0.0107339,
      "auxiliary_loss_mlp": 0.01024067,
      "balance_loss_clip": 1.03846848,
      "balance_loss_mlp": 1.01869106,
      "epoch": 0.6319966331990621,
      "flos": 24683463976320.0,
      "grad_norm": 12.701548420470472,
      "language_loss": 0.73491752,
      "learning_rate": 1.2600730490027583e-06,
      "loss": 0.7558921,
      "num_input_tokens_seen": 113173135,
      "step": 5256,
      "time_per_iteration": 2.6296730041503906
    },
    {
      "auxiliary_loss_clip": 0.0106251,
      "auxiliary_loss_mlp": 0.01020529,
      "balance_loss_clip": 1.0366137,
      "balance_loss_mlp": 1.01522076,
      "epoch": 0.6321168760897012,
      "flos": 17493580972800.0,
      "grad_norm": 1.8080050669342789,
      "language_loss": 0.8016935,
      "learning_rate": 1.2593494044177984e-06,
      "loss": 0.82252395,
      "num_input_tokens_seen": 113191440,
      "step": 5257,
      "time_per_iteration": 2.5524020195007324
    },
    {
      "auxiliary_loss_clip": 0.01100906,
      "auxiliary_loss_mlp": 0.01020167,
      "balance_loss_clip": 1.04137993,
      "balance_loss_mlp": 1.01449609,
      "epoch": 0.6322371189803403,
      "flos": 18297286214400.0,
      "grad_norm": 2.4759454890281254,
      "language_loss": 0.8097955,
      "learning_rate": 1.2586258721889448e-06,
      "loss": 0.83100629,
      "num_input_tokens_seen": 113208790,
      "step": 5258,
      "time_per_iteration": 3.24507212638855
    },
    {
      "auxiliary_loss_clip": 0.01044994,
      "auxiliary_loss_mlp": 0.01021168,
      "balance_loss_clip": 1.03767157,
      "balance_loss_mlp": 1.01592541,
      "epoch": 0.6323573618709794,
      "flos": 20159349045120.0,
      "grad_norm": 1.9224258201811102,
      "language_loss": 0.81426716,
      "learning_rate": 1.2579024524259573e-06,
      "loss": 0.83492875,
      "num_input_tokens_seen": 113225050,
      "step": 5259,
      "time_per_iteration": 3.370359420776367
    },
    {
      "auxiliary_loss_clip": 0.01081271,
      "auxiliary_loss_mlp": 0.01021083,
      "balance_loss_clip": 1.04268312,
      "balance_loss_mlp": 1.01559627,
      "epoch": 0.6324776047616185,
      "flos": 20044161682560.0,
      "grad_norm": 1.9117139337471007,
      "language_loss": 0.91266137,
      "learning_rate": 1.2571791452385768e-06,
      "loss": 0.93368495,
      "num_input_tokens_seen": 113242315,
      "step": 5260,
      "time_per_iteration": 2.541168451309204
    },
    {
      "auxiliary_loss_clip": 0.01072068,
      "auxiliary_loss_mlp": 0.01023305,
      "balance_loss_clip": 1.03779364,
      "balance_loss_mlp": 1.01794338,
      "epoch": 0.6325978476522576,
      "flos": 30850945781760.0,
      "grad_norm": 1.8240838126044885,
      "language_loss": 0.77377748,
      "learning_rate": 1.2564559507365301e-06,
      "loss": 0.79473126,
      "num_input_tokens_seen": 113264720,
      "step": 5261,
      "time_per_iteration": 2.6559925079345703
    },
    {
      "auxiliary_loss_clip": 0.01072613,
      "auxiliary_loss_mlp": 0.01021057,
      "balance_loss_clip": 1.04003477,
      "balance_loss_mlp": 1.01494718,
      "epoch": 0.6327180905428966,
      "flos": 24537401245440.0,
      "grad_norm": 2.3593701333824173,
      "language_loss": 0.78931677,
      "learning_rate": 1.2557328690295244e-06,
      "loss": 0.81025338,
      "num_input_tokens_seen": 113282910,
      "step": 5262,
      "time_per_iteration": 2.5736143589019775
    },
    {
      "auxiliary_loss_clip": 0.01060339,
      "auxiliary_loss_mlp": 0.01018265,
      "balance_loss_clip": 1.03936684,
      "balance_loss_mlp": 1.01284099,
      "epoch": 0.6328383334335358,
      "flos": 21577156790400.0,
      "grad_norm": 1.9589490753929928,
      "language_loss": 0.76232046,
      "learning_rate": 1.255009900227251e-06,
      "loss": 0.78310645,
      "num_input_tokens_seen": 113301935,
      "step": 5263,
      "time_per_iteration": 2.6067142486572266
    },
    {
      "auxiliary_loss_clip": 0.01100241,
      "auxiliary_loss_mlp": 0.01021034,
      "balance_loss_clip": 1.04333472,
      "balance_loss_mlp": 1.01610756,
      "epoch": 0.6329585763241748,
      "flos": 22932076256640.0,
      "grad_norm": 1.6893646443828827,
      "language_loss": 0.79236174,
      "learning_rate": 1.254287044439383e-06,
      "loss": 0.81357449,
      "num_input_tokens_seen": 113321540,
      "step": 5264,
      "time_per_iteration": 3.2693376541137695
    },
    {
      "auxiliary_loss_clip": 0.01054147,
      "auxiliary_loss_mlp": 0.01006289,
      "balance_loss_clip": 1.02523601,
      "balance_loss_mlp": 1.00439358,
      "epoch": 0.6330788192148139,
      "flos": 70943364299520.0,
      "grad_norm": 0.7765819322764522,
      "language_loss": 0.544411,
      "learning_rate": 1.2535643017755776e-06,
      "loss": 0.56501538,
      "num_input_tokens_seen": 113383730,
      "step": 5265,
      "time_per_iteration": 3.1860079765319824
    },
    {
      "auxiliary_loss_clip": 0.01060746,
      "auxiliary_loss_mlp": 0.01024521,
      "balance_loss_clip": 1.03918469,
      "balance_loss_mlp": 1.01902246,
      "epoch": 0.6331990621054531,
      "flos": 21246231081600.0,
      "grad_norm": 2.59903706397111,
      "language_loss": 0.71830511,
      "learning_rate": 1.2528416723454737e-06,
      "loss": 0.7391578,
      "num_input_tokens_seen": 113400400,
      "step": 5266,
      "time_per_iteration": 2.7033283710479736
    },
    {
      "auxiliary_loss_clip": 0.01098947,
      "auxiliary_loss_mlp": 0.01018,
      "balance_loss_clip": 1.04167676,
      "balance_loss_mlp": 1.01295745,
      "epoch": 0.6333193049960921,
      "flos": 34462272919680.0,
      "grad_norm": 1.429333993872571,
      "language_loss": 0.71263415,
      "learning_rate": 1.2521191562586945e-06,
      "loss": 0.73380363,
      "num_input_tokens_seen": 113424050,
      "step": 5267,
      "time_per_iteration": 2.62723445892334
    },
    {
      "auxiliary_loss_clip": 0.01100045,
      "auxiliary_loss_mlp": 0.007565,
      "balance_loss_clip": 1.04225004,
      "balance_loss_mlp": 1.0016048,
      "epoch": 0.6334395478867312,
      "flos": 18331687964160.0,
      "grad_norm": 2.306905060315204,
      "language_loss": 0.76903009,
      "learning_rate": 1.2513967536248445e-06,
      "loss": 0.78759551,
      "num_input_tokens_seen": 113440370,
      "step": 5268,
      "time_per_iteration": 2.5608320236206055
    },
    {
      "auxiliary_loss_clip": 0.01080589,
      "auxiliary_loss_mlp": 0.01022771,
      "balance_loss_clip": 1.03940749,
      "balance_loss_mlp": 1.01753223,
      "epoch": 0.6335597907773702,
      "flos": 23625409731840.0,
      "grad_norm": 1.968360715640384,
      "language_loss": 0.81126535,
      "learning_rate": 1.2506744645535117e-06,
      "loss": 0.83229899,
      "num_input_tokens_seen": 113460800,
      "step": 5269,
      "time_per_iteration": 2.568596124649048
    },
    {
      "auxiliary_loss_clip": 0.01077871,
      "auxiliary_loss_mlp": 0.01016671,
      "balance_loss_clip": 1.03843999,
      "balance_loss_mlp": 1.01143765,
      "epoch": 0.6336800336680094,
      "flos": 22713114873600.0,
      "grad_norm": 2.877959966589486,
      "language_loss": 0.60526085,
      "learning_rate": 1.249952289154267e-06,
      "loss": 0.62620622,
      "num_input_tokens_seen": 113480840,
      "step": 5270,
      "time_per_iteration": 2.6198973655700684
    },
    {
      "auxiliary_loss_clip": 0.01033248,
      "auxiliary_loss_mlp": 0.0102183,
      "balance_loss_clip": 1.03102136,
      "balance_loss_mlp": 1.01679969,
      "epoch": 0.6338002765586485,
      "flos": 23624992632960.0,
      "grad_norm": 1.9846437524863323,
      "language_loss": 0.76600617,
      "learning_rate": 1.2492302275366635e-06,
      "loss": 0.78655696,
      "num_input_tokens_seen": 113500515,
      "step": 5271,
      "time_per_iteration": 2.6722753047943115
    },
    {
      "auxiliary_loss_clip": 0.01092657,
      "auxiliary_loss_mlp": 0.01021467,
      "balance_loss_clip": 1.04280853,
      "balance_loss_mlp": 1.01591492,
      "epoch": 0.6339205194492875,
      "flos": 26507864102400.0,
      "grad_norm": 2.3307370373006533,
      "language_loss": 0.65552312,
      "learning_rate": 1.2485082798102377e-06,
      "loss": 0.67666429,
      "num_input_tokens_seen": 113520930,
      "step": 5272,
      "time_per_iteration": 2.647580146789551
    },
    {
      "auxiliary_loss_clip": 0.010682,
      "auxiliary_loss_mlp": 0.01019107,
      "balance_loss_clip": 1.03915048,
      "balance_loss_mlp": 1.01321554,
      "epoch": 0.6340407623399267,
      "flos": 18545871669120.0,
      "grad_norm": 2.3700309943606674,
      "language_loss": 0.68645394,
      "learning_rate": 1.2477864460845084e-06,
      "loss": 0.70732701,
      "num_input_tokens_seen": 113537330,
      "step": 5273,
      "time_per_iteration": 2.5735113620758057
    },
    {
      "auxiliary_loss_clip": 0.01078792,
      "auxiliary_loss_mlp": 0.01019895,
      "balance_loss_clip": 1.03991413,
      "balance_loss_mlp": 1.01437807,
      "epoch": 0.6341610052305657,
      "flos": 17714514096000.0,
      "grad_norm": 2.896194757198562,
      "language_loss": 0.73524141,
      "learning_rate": 1.2470647264689776e-06,
      "loss": 0.75622833,
      "num_input_tokens_seen": 113555810,
      "step": 5274,
      "time_per_iteration": 2.5781173706054688
    },
    {
      "auxiliary_loss_clip": 0.01040918,
      "auxiliary_loss_mlp": 0.01020704,
      "balance_loss_clip": 1.03613377,
      "balance_loss_mlp": 1.01527131,
      "epoch": 0.6342812481212048,
      "flos": 23589301668480.0,
      "grad_norm": 2.035468175311854,
      "language_loss": 0.71320963,
      "learning_rate": 1.2463431210731282e-06,
      "loss": 0.73382586,
      "num_input_tokens_seen": 113575395,
      "step": 5275,
      "time_per_iteration": 2.661787509918213
    },
    {
      "auxiliary_loss_clip": 0.01052747,
      "auxiliary_loss_mlp": 0.01018619,
      "balance_loss_clip": 1.03816211,
      "balance_loss_mlp": 1.01323116,
      "epoch": 0.634401491011844,
      "flos": 17823862074240.0,
      "grad_norm": 4.297473030501146,
      "language_loss": 0.7573477,
      "learning_rate": 1.2456216300064289e-06,
      "loss": 0.77806139,
      "num_input_tokens_seen": 113592945,
      "step": 5276,
      "time_per_iteration": 2.641972064971924
    },
    {
      "auxiliary_loss_clip": 0.01082599,
      "auxiliary_loss_mlp": 0.01020849,
      "balance_loss_clip": 1.04183877,
      "balance_loss_mlp": 1.01531124,
      "epoch": 0.634521733902483,
      "flos": 21360129229440.0,
      "grad_norm": 1.827168158693078,
      "language_loss": 0.78584105,
      "learning_rate": 1.244900253378328e-06,
      "loss": 0.80687547,
      "num_input_tokens_seen": 113613000,
      "step": 5277,
      "time_per_iteration": 2.585048198699951
    },
    {
      "auxiliary_loss_clip": 0.00997567,
      "auxiliary_loss_mlp": 0.01024122,
      "balance_loss_clip": 1.027475,
      "balance_loss_mlp": 1.01883817,
      "epoch": 0.6346419767931221,
      "flos": 16546922282880.0,
      "grad_norm": 2.2775925035584086,
      "language_loss": 0.69183481,
      "learning_rate": 1.2441789912982583e-06,
      "loss": 0.71205169,
      "num_input_tokens_seen": 113630085,
      "step": 5278,
      "time_per_iteration": 2.910874605178833
    },
    {
      "auxiliary_loss_clip": 0.01089278,
      "auxiliary_loss_mlp": 0.01020266,
      "balance_loss_clip": 1.04245067,
      "balance_loss_mlp": 1.01457977,
      "epoch": 0.6347622196837612,
      "flos": 24353182874880.0,
      "grad_norm": 1.8401168808513382,
      "language_loss": 0.65049517,
      "learning_rate": 1.2434578438756346e-06,
      "loss": 0.67159057,
      "num_input_tokens_seen": 113650515,
      "step": 5279,
      "time_per_iteration": 2.8038744926452637
    },
    {
      "auxiliary_loss_clip": 0.01087077,
      "auxiliary_loss_mlp": 0.01019215,
      "balance_loss_clip": 1.03887701,
      "balance_loss_mlp": 1.01394653,
      "epoch": 0.6348824625744003,
      "flos": 64527686271360.0,
      "grad_norm": 4.218844950486513,
      "language_loss": 0.78014338,
      "learning_rate": 1.242736811219855e-06,
      "loss": 0.80120635,
      "num_input_tokens_seen": 113676475,
      "step": 5280,
      "time_per_iteration": 2.9991960525512695
    },
    {
      "auxiliary_loss_clip": 0.01089,
      "auxiliary_loss_mlp": 0.010183,
      "balance_loss_clip": 1.04060161,
      "balance_loss_mlp": 1.01282871,
      "epoch": 0.6350027054650393,
      "flos": 28624693034880.0,
      "grad_norm": 1.8849629904066845,
      "language_loss": 0.81969911,
      "learning_rate": 1.2420158934402988e-06,
      "loss": 0.84077215,
      "num_input_tokens_seen": 113697090,
      "step": 5281,
      "time_per_iteration": 3.6403603553771973
    },
    {
      "auxiliary_loss_clip": 0.01064868,
      "auxiliary_loss_mlp": 0.01021323,
      "balance_loss_clip": 1.03692698,
      "balance_loss_mlp": 1.01578534,
      "epoch": 0.6351229483556785,
      "flos": 23004747400320.0,
      "grad_norm": 2.251071330778987,
      "language_loss": 0.84838414,
      "learning_rate": 1.2412950906463286e-06,
      "loss": 0.86924601,
      "num_input_tokens_seen": 113714395,
      "step": 5282,
      "time_per_iteration": 2.631476879119873
    },
    {
      "auxiliary_loss_clip": 0.01047356,
      "auxiliary_loss_mlp": 0.01019955,
      "balance_loss_clip": 1.03544211,
      "balance_loss_mlp": 1.01480496,
      "epoch": 0.6352431912463176,
      "flos": 21941157116160.0,
      "grad_norm": 2.2851865370019477,
      "language_loss": 0.89573556,
      "learning_rate": 1.2405744029472902e-06,
      "loss": 0.91640866,
      "num_input_tokens_seen": 113733880,
      "step": 5283,
      "time_per_iteration": 2.749929189682007
    },
    {
      "auxiliary_loss_clip": 0.01076262,
      "auxiliary_loss_mlp": 0.01019439,
      "balance_loss_clip": 1.04035008,
      "balance_loss_mlp": 1.01422691,
      "epoch": 0.6353634341369566,
      "flos": 13736949465600.0,
      "grad_norm": 1.9503088694336819,
      "language_loss": 0.76187694,
      "learning_rate": 1.2398538304525108e-06,
      "loss": 0.78283393,
      "num_input_tokens_seen": 113752505,
      "step": 5284,
      "time_per_iteration": 3.3530797958374023
    },
    {
      "auxiliary_loss_clip": 0.0106127,
      "auxiliary_loss_mlp": 0.01022877,
      "balance_loss_clip": 1.04173493,
      "balance_loss_mlp": 1.01723814,
      "epoch": 0.6354836770275958,
      "flos": 19318094853120.0,
      "grad_norm": 2.057978178283343,
      "language_loss": 0.75589663,
      "learning_rate": 1.2391333732713016e-06,
      "loss": 0.77673811,
      "num_input_tokens_seen": 113770310,
      "step": 5285,
      "time_per_iteration": 3.3820042610168457
    },
    {
      "auxiliary_loss_clip": 0.01063615,
      "auxiliary_loss_mlp": 0.01028646,
      "balance_loss_clip": 1.041242,
      "balance_loss_mlp": 1.02245069,
      "epoch": 0.6356039199182348,
      "flos": 21615350348160.0,
      "grad_norm": 2.4150132446957784,
      "language_loss": 0.78804618,
      "learning_rate": 1.2384130315129543e-06,
      "loss": 0.80896884,
      "num_input_tokens_seen": 113788635,
      "step": 5286,
      "time_per_iteration": 2.6800944805145264
    },
    {
      "auxiliary_loss_clip": 0.00996519,
      "auxiliary_loss_mlp": 0.01020052,
      "balance_loss_clip": 1.03032112,
      "balance_loss_mlp": 1.01442552,
      "epoch": 0.6357241628088739,
      "flos": 18113826205440.0,
      "grad_norm": 2.2459734267132108,
      "language_loss": 0.73280573,
      "learning_rate": 1.2376928052867447e-06,
      "loss": 0.75297141,
      "num_input_tokens_seen": 113807755,
      "step": 5287,
      "time_per_iteration": 3.0747134685516357
    },
    {
      "auxiliary_loss_clip": 0.01073913,
      "auxiliary_loss_mlp": 0.01022007,
      "balance_loss_clip": 1.03980649,
      "balance_loss_mlp": 1.01673174,
      "epoch": 0.6358444056995131,
      "flos": 24937509634560.0,
      "grad_norm": 2.261073415835588,
      "language_loss": 0.77844089,
      "learning_rate": 1.2369726947019299e-06,
      "loss": 0.79940009,
      "num_input_tokens_seen": 113828230,
      "step": 5288,
      "time_per_iteration": 2.8672733306884766
    },
    {
      "auxiliary_loss_clip": 0.01085007,
      "auxiliary_loss_mlp": 0.01016049,
      "balance_loss_clip": 1.03827357,
      "balance_loss_mlp": 1.01078296,
      "epoch": 0.6359646485901521,
      "flos": 23295507811200.0,
      "grad_norm": 3.661135513014527,
      "language_loss": 0.67420644,
      "learning_rate": 1.2362526998677511e-06,
      "loss": 0.69521701,
      "num_input_tokens_seen": 113844595,
      "step": 5289,
      "time_per_iteration": 2.561614990234375
    },
    {
      "auxiliary_loss_clip": 0.01075462,
      "auxiliary_loss_mlp": 0.01022223,
      "balance_loss_clip": 1.03818893,
      "balance_loss_mlp": 1.01726401,
      "epoch": 0.6360848914807912,
      "flos": 20889586863360.0,
      "grad_norm": 2.448399342372538,
      "language_loss": 0.84719706,
      "learning_rate": 1.2355328208934301e-06,
      "loss": 0.86817384,
      "num_input_tokens_seen": 113863470,
      "step": 5290,
      "time_per_iteration": 4.1493964195251465
    },
    {
      "auxiliary_loss_clip": 0.01086879,
      "auxiliary_loss_mlp": 0.00756846,
      "balance_loss_clip": 1.03869033,
      "balance_loss_mlp": 1.00189161,
      "epoch": 0.6362051343714303,
      "flos": 18481807929600.0,
      "grad_norm": 1.6874863079787192,
      "language_loss": 0.72357613,
      "learning_rate": 1.2348130578881728e-06,
      "loss": 0.74201334,
      "num_input_tokens_seen": 113881690,
      "step": 5291,
      "time_per_iteration": 2.6364502906799316
    },
    {
      "auxiliary_loss_clip": 0.01100319,
      "auxiliary_loss_mlp": 0.01025325,
      "balance_loss_clip": 1.04141855,
      "balance_loss_mlp": 1.01962376,
      "epoch": 0.6363253772620694,
      "flos": 24391907285760.0,
      "grad_norm": 2.4497350464910768,
      "language_loss": 0.76235253,
      "learning_rate": 1.2340934109611664e-06,
      "loss": 0.78360897,
      "num_input_tokens_seen": 113902450,
      "step": 5292,
      "time_per_iteration": 2.5207552909851074
    },
    {
      "auxiliary_loss_clip": 0.01073678,
      "auxiliary_loss_mlp": 0.01023314,
      "balance_loss_clip": 1.0418905,
      "balance_loss_mlp": 1.01730895,
      "epoch": 0.6364456201527084,
      "flos": 25960631276160.0,
      "grad_norm": 2.579270874135778,
      "language_loss": 0.68741381,
      "learning_rate": 1.2333738802215798e-06,
      "loss": 0.70838368,
      "num_input_tokens_seen": 113922670,
      "step": 5293,
      "time_per_iteration": 2.6828277111053467
    },
    {
      "auxiliary_loss_clip": 0.01052794,
      "auxiliary_loss_mlp": 0.01020184,
      "balance_loss_clip": 1.03701162,
      "balance_loss_mlp": 1.01490617,
      "epoch": 0.6365658630433476,
      "flos": 20742803688960.0,
      "grad_norm": 2.0399973078143048,
      "language_loss": 0.81419557,
      "learning_rate": 1.2326544657785668e-06,
      "loss": 0.83492535,
      "num_input_tokens_seen": 113942360,
      "step": 5294,
      "time_per_iteration": 2.631098747253418
    },
    {
      "auxiliary_loss_clip": 0.01072197,
      "auxiliary_loss_mlp": 0.01024456,
      "balance_loss_clip": 1.04304957,
      "balance_loss_mlp": 1.01867104,
      "epoch": 0.6366861059339867,
      "flos": 21436288836480.0,
      "grad_norm": 2.6828849313843595,
      "language_loss": 0.74831343,
      "learning_rate": 1.2319351677412608e-06,
      "loss": 0.76927996,
      "num_input_tokens_seen": 113959405,
      "step": 5295,
      "time_per_iteration": 2.6068148612976074
    },
    {
      "auxiliary_loss_clip": 0.01064941,
      "auxiliary_loss_mlp": 0.01018681,
      "balance_loss_clip": 1.03921986,
      "balance_loss_mlp": 1.01273537,
      "epoch": 0.6368063488246257,
      "flos": 22268935624320.0,
      "grad_norm": 2.033768241182113,
      "language_loss": 0.74388736,
      "learning_rate": 1.2312159862187796e-06,
      "loss": 0.7647236,
      "num_input_tokens_seen": 113977815,
      "step": 5296,
      "time_per_iteration": 2.585334539413452
    },
    {
      "auxiliary_loss_clip": 0.01103512,
      "auxiliary_loss_mlp": 0.01028563,
      "balance_loss_clip": 1.04329324,
      "balance_loss_mlp": 1.02300477,
      "epoch": 0.6369265917152649,
      "flos": 22422999070080.0,
      "grad_norm": 1.8226436087435123,
      "language_loss": 0.7623111,
      "learning_rate": 1.2304969213202217e-06,
      "loss": 0.78363192,
      "num_input_tokens_seen": 113999075,
      "step": 5297,
      "time_per_iteration": 2.553439140319824
    },
    {
      "auxiliary_loss_clip": 0.01075767,
      "auxiliary_loss_mlp": 0.01020191,
      "balance_loss_clip": 1.03909516,
      "balance_loss_mlp": 1.01522565,
      "epoch": 0.6370468346059039,
      "flos": 24720519991680.0,
      "grad_norm": 5.7973370957330435,
      "language_loss": 0.79499936,
      "learning_rate": 1.2297779731546692e-06,
      "loss": 0.81595892,
      "num_input_tokens_seen": 114018170,
      "step": 5298,
      "time_per_iteration": 2.5925989151000977
    },
    {
      "auxiliary_loss_clip": 0.01073897,
      "auxiliary_loss_mlp": 0.01021106,
      "balance_loss_clip": 1.0401299,
      "balance_loss_mlp": 1.01565492,
      "epoch": 0.637167077496543,
      "flos": 25298666104320.0,
      "grad_norm": 2.1081791332464945,
      "language_loss": 0.78146017,
      "learning_rate": 1.2290591418311853e-06,
      "loss": 0.80241024,
      "num_input_tokens_seen": 114035565,
      "step": 5299,
      "time_per_iteration": 2.633071184158325
    },
    {
      "auxiliary_loss_clip": 0.01082656,
      "auxiliary_loss_mlp": 0.01020867,
      "balance_loss_clip": 1.0421803,
      "balance_loss_mlp": 1.01547575,
      "epoch": 0.637287320387182,
      "flos": 27673484175360.0,
      "grad_norm": 1.5759156521363087,
      "language_loss": 0.7225064,
      "learning_rate": 1.2283404274588172e-06,
      "loss": 0.74354166,
      "num_input_tokens_seen": 114054510,
      "step": 5300,
      "time_per_iteration": 2.585996389389038
    },
    {
      "auxiliary_loss_clip": 0.00981872,
      "auxiliary_loss_mlp": 0.01003663,
      "balance_loss_clip": 1.01533246,
      "balance_loss_mlp": 1.00146914,
      "epoch": 0.6374075632778212,
      "flos": 63179885352960.0,
      "grad_norm": 0.7467512960882037,
      "language_loss": 0.52705938,
      "learning_rate": 1.227621830146592e-06,
      "loss": 0.54691476,
      "num_input_tokens_seen": 114109875,
      "step": 5301,
      "time_per_iteration": 3.197873592376709
    },
    {
      "auxiliary_loss_clip": 0.01061432,
      "auxiliary_loss_mlp": 0.01025171,
      "balance_loss_clip": 1.04106545,
      "balance_loss_mlp": 1.01969361,
      "epoch": 0.6375278061684603,
      "flos": 25560560805120.0,
      "grad_norm": 2.8495188514881353,
      "language_loss": 0.79125834,
      "learning_rate": 1.2269033500035217e-06,
      "loss": 0.81212437,
      "num_input_tokens_seen": 114130010,
      "step": 5302,
      "time_per_iteration": 2.7393813133239746
    },
    {
      "auxiliary_loss_clip": 0.01050582,
      "auxiliary_loss_mlp": 0.0102407,
      "balance_loss_clip": 1.03517318,
      "balance_loss_mlp": 1.01898861,
      "epoch": 0.6376480490590993,
      "flos": 25668733322880.0,
      "grad_norm": 1.778296753748043,
      "language_loss": 0.73418033,
      "learning_rate": 1.2261849871385988e-06,
      "loss": 0.75492692,
      "num_input_tokens_seen": 114151115,
      "step": 5303,
      "time_per_iteration": 2.649305582046509
    },
    {
      "auxiliary_loss_clip": 0.01099121,
      "auxiliary_loss_mlp": 0.01020414,
      "balance_loss_clip": 1.04045677,
      "balance_loss_mlp": 1.01475716,
      "epoch": 0.6377682919497385,
      "flos": 31540222022400.0,
      "grad_norm": 3.270902950210451,
      "language_loss": 0.62483799,
      "learning_rate": 1.2254667416607972e-06,
      "loss": 0.64603341,
      "num_input_tokens_seen": 114172715,
      "step": 5304,
      "time_per_iteration": 2.627568006515503
    },
    {
      "auxiliary_loss_clip": 0.01085905,
      "auxiliary_loss_mlp": 0.01019209,
      "balance_loss_clip": 1.04056513,
      "balance_loss_mlp": 1.01379406,
      "epoch": 0.6378885348403776,
      "flos": 23041424234880.0,
      "grad_norm": 1.7680765621367707,
      "language_loss": 0.83040404,
      "learning_rate": 1.2247486136790756e-06,
      "loss": 0.85145521,
      "num_input_tokens_seen": 114192195,
      "step": 5305,
      "time_per_iteration": 2.6070659160614014
    },
    {
      "auxiliary_loss_clip": 0.01088863,
      "auxiliary_loss_mlp": 0.01027149,
      "balance_loss_clip": 1.04134583,
      "balance_loss_mlp": 1.0220263,
      "epoch": 0.6380087777310166,
      "flos": 18699025080960.0,
      "grad_norm": 2.113639876415326,
      "language_loss": 0.80384278,
      "learning_rate": 1.2240306033023726e-06,
      "loss": 0.82500285,
      "num_input_tokens_seen": 114210020,
      "step": 5306,
      "time_per_iteration": 2.577333688735962
    },
    {
      "auxiliary_loss_clip": 0.01067411,
      "auxiliary_loss_mlp": 0.01020227,
      "balance_loss_clip": 1.03770614,
      "balance_loss_mlp": 1.01476467,
      "epoch": 0.6381290206216558,
      "flos": 23333815123200.0,
      "grad_norm": 1.8085764430754858,
      "language_loss": 0.72316349,
      "learning_rate": 1.223312710639611e-06,
      "loss": 0.74403989,
      "num_input_tokens_seen": 114228740,
      "step": 5307,
      "time_per_iteration": 3.7300925254821777
    },
    {
      "auxiliary_loss_clip": 0.01078073,
      "auxiliary_loss_mlp": 0.01018558,
      "balance_loss_clip": 1.04155946,
      "balance_loss_mlp": 1.01300251,
      "epoch": 0.6382492635122948,
      "flos": 18882485089920.0,
      "grad_norm": 2.0419686868125346,
      "language_loss": 0.86908948,
      "learning_rate": 1.2225949357996928e-06,
      "loss": 0.89005578,
      "num_input_tokens_seen": 114246865,
      "step": 5308,
      "time_per_iteration": 2.794302225112915
    },
    {
      "auxiliary_loss_clip": 0.01078546,
      "auxiliary_loss_mlp": 0.01019337,
      "balance_loss_clip": 1.03494382,
      "balance_loss_mlp": 1.01441395,
      "epoch": 0.6383695064029339,
      "flos": 27821632400640.0,
      "grad_norm": 1.619873183250115,
      "language_loss": 0.80520821,
      "learning_rate": 1.221877278891505e-06,
      "loss": 0.82618701,
      "num_input_tokens_seen": 114266120,
      "step": 5309,
      "time_per_iteration": 2.6491990089416504
    },
    {
      "auxiliary_loss_clip": 0.01087775,
      "auxiliary_loss_mlp": 0.01025989,
      "balance_loss_clip": 1.04349995,
      "balance_loss_mlp": 1.02026987,
      "epoch": 0.638489749293573,
      "flos": 26398023189120.0,
      "grad_norm": 2.3611883975801295,
      "language_loss": 0.71508515,
      "learning_rate": 1.221159740023915e-06,
      "loss": 0.7362228,
      "num_input_tokens_seen": 114285950,
      "step": 5310,
      "time_per_iteration": 3.6234607696533203
    },
    {
      "auxiliary_loss_clip": 0.01067139,
      "auxiliary_loss_mlp": 0.0075683,
      "balance_loss_clip": 1.03962207,
      "balance_loss_mlp": 1.00192952,
      "epoch": 0.6386099921842121,
      "flos": 23990623436160.0,
      "grad_norm": 2.28175240309858,
      "language_loss": 0.72473562,
      "learning_rate": 1.2204423193057735e-06,
      "loss": 0.74297523,
      "num_input_tokens_seen": 114304780,
      "step": 5311,
      "time_per_iteration": 3.47220778465271
    },
    {
      "auxiliary_loss_clip": 0.01027296,
      "auxiliary_loss_mlp": 0.01001365,
      "balance_loss_clip": 1.01830959,
      "balance_loss_mlp": 0.99938565,
      "epoch": 0.6387302350748512,
      "flos": 71737210840320.0,
      "grad_norm": 0.8509587394189942,
      "language_loss": 0.63375396,
      "learning_rate": 1.2197250168459122e-06,
      "loss": 0.65404058,
      "num_input_tokens_seen": 114361180,
      "step": 5312,
      "time_per_iteration": 3.18684720993042
    },
    {
      "auxiliary_loss_clip": 0.01091455,
      "auxiliary_loss_mlp": 0.01018108,
      "balance_loss_clip": 1.04302061,
      "balance_loss_mlp": 1.01283908,
      "epoch": 0.6388504779654903,
      "flos": 14537393752320.0,
      "grad_norm": 2.9978077912646492,
      "language_loss": 0.7455467,
      "learning_rate": 1.2190078327531454e-06,
      "loss": 0.76664233,
      "num_input_tokens_seen": 114377425,
      "step": 5313,
      "time_per_iteration": 2.5017993450164795
    },
    {
      "auxiliary_loss_clip": 0.0108892,
      "auxiliary_loss_mlp": 0.01022021,
      "balance_loss_clip": 1.04083121,
      "balance_loss_mlp": 1.01676726,
      "epoch": 0.6389707208561294,
      "flos": 22348318268160.0,
      "grad_norm": 2.0601832615595486,
      "language_loss": 0.72690582,
      "learning_rate": 1.2182907671362697e-06,
      "loss": 0.74801528,
      "num_input_tokens_seen": 114398120,
      "step": 5314,
      "time_per_iteration": 2.589867353439331
    },
    {
      "auxiliary_loss_clip": 0.01086891,
      "auxiliary_loss_mlp": 0.01019475,
      "balance_loss_clip": 1.04069102,
      "balance_loss_mlp": 1.01398802,
      "epoch": 0.6390909637467684,
      "flos": 19428883718400.0,
      "grad_norm": 2.409163690980708,
      "language_loss": 0.78969038,
      "learning_rate": 1.2175738201040626e-06,
      "loss": 0.81075394,
      "num_input_tokens_seen": 114415160,
      "step": 5315,
      "time_per_iteration": 2.522658586502075
    },
    {
      "auxiliary_loss_clip": 0.0108576,
      "auxiliary_loss_mlp": 0.01024866,
      "balance_loss_clip": 1.04023218,
      "balance_loss_mlp": 1.01964474,
      "epoch": 0.6392112066374076,
      "flos": 24092766979200.0,
      "grad_norm": 2.79603354288892,
      "language_loss": 0.78795886,
      "learning_rate": 1.2168569917652855e-06,
      "loss": 0.8090651,
      "num_input_tokens_seen": 114435015,
      "step": 5316,
      "time_per_iteration": 3.352876901626587
    },
    {
      "auxiliary_loss_clip": 0.01087837,
      "auxiliary_loss_mlp": 0.01018135,
      "balance_loss_clip": 1.04102373,
      "balance_loss_mlp": 1.01244307,
      "epoch": 0.6393314495280467,
      "flos": 26797449052800.0,
      "grad_norm": 1.5103852776356594,
      "language_loss": 0.64085931,
      "learning_rate": 1.2161402822286797e-06,
      "loss": 0.661919,
      "num_input_tokens_seen": 114455700,
      "step": 5317,
      "time_per_iteration": 2.564281940460205
    },
    {
      "auxiliary_loss_clip": 0.01058328,
      "auxiliary_loss_mlp": 0.01016088,
      "balance_loss_clip": 1.03705812,
      "balance_loss_mlp": 1.01081634,
      "epoch": 0.6394516924186857,
      "flos": 20262440540160.0,
      "grad_norm": 6.2229816972082945,
      "language_loss": 0.79066014,
      "learning_rate": 1.2154236916029703e-06,
      "loss": 0.81140429,
      "num_input_tokens_seen": 114473675,
      "step": 5318,
      "time_per_iteration": 2.596245050430298
    },
    {
      "auxiliary_loss_clip": 0.01051156,
      "auxiliary_loss_mlp": 0.01021482,
      "balance_loss_clip": 1.03503895,
      "balance_loss_mlp": 1.01614749,
      "epoch": 0.6395719353093249,
      "flos": 18370791555840.0,
      "grad_norm": 2.428507468449099,
      "language_loss": 0.73517257,
      "learning_rate": 1.2147072199968627e-06,
      "loss": 0.75589895,
      "num_input_tokens_seen": 114492310,
      "step": 5319,
      "time_per_iteration": 2.5991744995117188
    },
    {
      "auxiliary_loss_clip": 0.01083944,
      "auxiliary_loss_mlp": 0.01022854,
      "balance_loss_clip": 1.03834343,
      "balance_loss_mlp": 1.01773405,
      "epoch": 0.6396921781999639,
      "flos": 17568223856640.0,
      "grad_norm": 1.8463438487082255,
      "language_loss": 0.71342981,
      "learning_rate": 1.2139908675190454e-06,
      "loss": 0.73449779,
      "num_input_tokens_seen": 114511520,
      "step": 5320,
      "time_per_iteration": 2.5383334159851074
    },
    {
      "auxiliary_loss_clip": 0.01038733,
      "auxiliary_loss_mlp": 0.01022114,
      "balance_loss_clip": 1.03532243,
      "balance_loss_mlp": 1.01661277,
      "epoch": 0.639812421090603,
      "flos": 21253359680640.0,
      "grad_norm": 2.140958237824062,
      "language_loss": 0.74971056,
      "learning_rate": 1.2132746342781883e-06,
      "loss": 0.7703191,
      "num_input_tokens_seen": 114532680,
      "step": 5321,
      "time_per_iteration": 2.735408067703247
    },
    {
      "auxiliary_loss_clip": 0.01099785,
      "auxiliary_loss_mlp": 0.01020727,
      "balance_loss_clip": 1.04100204,
      "balance_loss_mlp": 1.01496315,
      "epoch": 0.6399326639812422,
      "flos": 11182501111680.0,
      "grad_norm": 3.177367142261583,
      "language_loss": 0.80175674,
      "learning_rate": 1.2125585203829442e-06,
      "loss": 0.82296193,
      "num_input_tokens_seen": 114548320,
      "step": 5322,
      "time_per_iteration": 2.5203397274017334
    },
    {
      "auxiliary_loss_clip": 0.01057278,
      "auxiliary_loss_mlp": 0.01021996,
      "balance_loss_clip": 1.03738642,
      "balance_loss_mlp": 1.01644683,
      "epoch": 0.6400529068718812,
      "flos": 23913098778240.0,
      "grad_norm": 2.010869294371261,
      "language_loss": 0.73926318,
      "learning_rate": 1.211842525941946e-06,
      "loss": 0.7600559,
      "num_input_tokens_seen": 114568115,
      "step": 5323,
      "time_per_iteration": 2.639233350753784
    },
    {
      "auxiliary_loss_clip": 0.01043869,
      "auxiliary_loss_mlp": 0.01019224,
      "balance_loss_clip": 1.03500009,
      "balance_loss_mlp": 1.01390386,
      "epoch": 0.6401731497625203,
      "flos": 44022120480000.0,
      "grad_norm": 2.1608047448830083,
      "language_loss": 0.7944845,
      "learning_rate": 1.2111266510638105e-06,
      "loss": 0.81511545,
      "num_input_tokens_seen": 114591040,
      "step": 5324,
      "time_per_iteration": 2.876742124557495
    },
    {
      "auxiliary_loss_clip": 0.01033417,
      "auxiliary_loss_mlp": 0.01022775,
      "balance_loss_clip": 1.0349772,
      "balance_loss_mlp": 1.01726484,
      "epoch": 0.6402933926531594,
      "flos": 20663989816320.0,
      "grad_norm": 1.7397836593714537,
      "language_loss": 0.80368954,
      "learning_rate": 1.2104108958571346e-06,
      "loss": 0.82425147,
      "num_input_tokens_seen": 114609310,
      "step": 5325,
      "time_per_iteration": 2.7020816802978516
    },
    {
      "auxiliary_loss_clip": 0.01084758,
      "auxiliary_loss_mlp": 0.01022228,
      "balance_loss_clip": 1.03937888,
      "balance_loss_mlp": 1.0170697,
      "epoch": 0.6404136355437985,
      "flos": 24865634770560.0,
      "grad_norm": 1.4824315445693153,
      "language_loss": 0.75914317,
      "learning_rate": 1.2096952604304975e-06,
      "loss": 0.780213,
      "num_input_tokens_seen": 114629740,
      "step": 5326,
      "time_per_iteration": 2.593749761581421
    },
    {
      "auxiliary_loss_clip": 0.01085379,
      "auxiliary_loss_mlp": 0.0101924,
      "balance_loss_clip": 1.03841376,
      "balance_loss_mlp": 1.0138278,
      "epoch": 0.6405338784344375,
      "flos": 40482744042240.0,
      "grad_norm": 2.0979172324830864,
      "language_loss": 0.70505685,
      "learning_rate": 1.2089797448924616e-06,
      "loss": 0.72610301,
      "num_input_tokens_seen": 114653615,
      "step": 5327,
      "time_per_iteration": 2.7657742500305176
    },
    {
      "auxiliary_loss_clip": 0.01054904,
      "auxiliary_loss_mlp": 0.01023478,
      "balance_loss_clip": 1.03923047,
      "balance_loss_mlp": 1.01791978,
      "epoch": 0.6406541213250767,
      "flos": 20888108058240.0,
      "grad_norm": 2.5107721062962867,
      "language_loss": 0.65940535,
      "learning_rate": 1.2082643493515692e-06,
      "loss": 0.68018919,
      "num_input_tokens_seen": 114671935,
      "step": 5328,
      "time_per_iteration": 2.667407274246216
    },
    {
      "auxiliary_loss_clip": 0.01083516,
      "auxiliary_loss_mlp": 0.01020316,
      "balance_loss_clip": 1.03776097,
      "balance_loss_mlp": 1.01494265,
      "epoch": 0.6407743642157158,
      "flos": 23298275831040.0,
      "grad_norm": 3.139093260514308,
      "language_loss": 0.81539279,
      "learning_rate": 1.207549073916346e-06,
      "loss": 0.83643115,
      "num_input_tokens_seen": 114692870,
      "step": 5329,
      "time_per_iteration": 2.6578445434570312
    },
    {
      "auxiliary_loss_clip": 0.01079847,
      "auxiliary_loss_mlp": 0.01019724,
      "balance_loss_clip": 1.04356515,
      "balance_loss_mlp": 1.01440978,
      "epoch": 0.6408946071063548,
      "flos": 15014420110080.0,
      "grad_norm": 2.586346258218958,
      "language_loss": 0.77629012,
      "learning_rate": 1.2068339186952976e-06,
      "loss": 0.7972858,
      "num_input_tokens_seen": 114710410,
      "step": 5330,
      "time_per_iteration": 2.522266149520874
    },
    {
      "auxiliary_loss_clip": 0.01087172,
      "auxiliary_loss_mlp": 0.01021222,
      "balance_loss_clip": 1.0402205,
      "balance_loss_mlp": 1.01569939,
      "epoch": 0.6410148499969939,
      "flos": 22530792407040.0,
      "grad_norm": 1.7482604302442208,
      "language_loss": 0.73673654,
      "learning_rate": 1.2061188837969136e-06,
      "loss": 0.75782049,
      "num_input_tokens_seen": 114730020,
      "step": 5331,
      "time_per_iteration": 2.573240280151367
    },
    {
      "auxiliary_loss_clip": 0.01067476,
      "auxiliary_loss_mlp": 0.01020794,
      "balance_loss_clip": 1.03934288,
      "balance_loss_mlp": 1.01517653,
      "epoch": 0.641135092887633,
      "flos": 12423636184320.0,
      "grad_norm": 2.8860071743101194,
      "language_loss": 0.84086293,
      "learning_rate": 1.2054039693296631e-06,
      "loss": 0.8617456,
      "num_input_tokens_seen": 114748015,
      "step": 5332,
      "time_per_iteration": 2.5617852210998535
    },
    {
      "auxiliary_loss_clip": 0.010608,
      "auxiliary_loss_mlp": 0.01022976,
      "balance_loss_clip": 1.04016757,
      "balance_loss_mlp": 1.01779962,
      "epoch": 0.6412553357782721,
      "flos": 22129508557440.0,
      "grad_norm": 1.7222408285718391,
      "language_loss": 0.81506789,
      "learning_rate": 1.2046891754019992e-06,
      "loss": 0.83590567,
      "num_input_tokens_seen": 114768625,
      "step": 5333,
      "time_per_iteration": 2.7087717056274414
    },
    {
      "auxiliary_loss_clip": 0.01088335,
      "auxiliary_loss_mlp": 0.01023292,
      "balance_loss_clip": 1.04050004,
      "balance_loss_mlp": 1.01815426,
      "epoch": 0.6413755786689112,
      "flos": 15890455232640.0,
      "grad_norm": 3.116253624933637,
      "language_loss": 0.82673717,
      "learning_rate": 1.2039745021223548e-06,
      "loss": 0.84785342,
      "num_input_tokens_seen": 114786045,
      "step": 5334,
      "time_per_iteration": 3.3166651725769043
    },
    {
      "auxiliary_loss_clip": 0.01008541,
      "auxiliary_loss_mlp": 0.01004094,
      "balance_loss_clip": 1.0269599,
      "balance_loss_mlp": 1.00217521,
      "epoch": 0.6414958215595503,
      "flos": 68046642679680.0,
      "grad_norm": 0.788659946791083,
      "language_loss": 0.57029116,
      "learning_rate": 1.2032599495991456e-06,
      "loss": 0.5904175,
      "num_input_tokens_seen": 114850785,
      "step": 5335,
      "time_per_iteration": 3.349209785461426
    },
    {
      "auxiliary_loss_clip": 0.01087894,
      "auxiliary_loss_mlp": 0.01020082,
      "balance_loss_clip": 1.04119027,
      "balance_loss_mlp": 1.01424718,
      "epoch": 0.6416160644501894,
      "flos": 44094677869440.0,
      "grad_norm": 1.737073783821418,
      "language_loss": 0.69830698,
      "learning_rate": 1.2025455179407685e-06,
      "loss": 0.7193867,
      "num_input_tokens_seen": 114871945,
      "step": 5336,
      "time_per_iteration": 3.4442732334136963
    },
    {
      "auxiliary_loss_clip": 0.01079364,
      "auxiliary_loss_mlp": 0.0075671,
      "balance_loss_clip": 1.03518975,
      "balance_loss_mlp": 1.00192428,
      "epoch": 0.6417363073408284,
      "flos": 20961954662400.0,
      "grad_norm": 3.4230843574834444,
      "language_loss": 0.73916078,
      "learning_rate": 1.2018312072556022e-06,
      "loss": 0.75752151,
      "num_input_tokens_seen": 114890445,
      "step": 5337,
      "time_per_iteration": 3.308694362640381
    },
    {
      "auxiliary_loss_clip": 0.01098431,
      "auxiliary_loss_mlp": 0.00756753,
      "balance_loss_clip": 1.04087663,
      "balance_loss_mlp": 1.00188136,
      "epoch": 0.6418565502314676,
      "flos": 22457287065600.0,
      "grad_norm": 2.9433047346878123,
      "language_loss": 0.7440747,
      "learning_rate": 1.2011170176520077e-06,
      "loss": 0.76262653,
      "num_input_tokens_seen": 114911360,
      "step": 5338,
      "time_per_iteration": 2.549844264984131
    },
    {
      "auxiliary_loss_clip": 0.01036621,
      "auxiliary_loss_mlp": 0.01019135,
      "balance_loss_clip": 1.03557837,
      "balance_loss_mlp": 1.01366615,
      "epoch": 0.6419767931221066,
      "flos": 25047805564800.0,
      "grad_norm": 1.5637252790469514,
      "language_loss": 0.81290853,
      "learning_rate": 1.2004029492383256e-06,
      "loss": 0.83346617,
      "num_input_tokens_seen": 114932700,
      "step": 5339,
      "time_per_iteration": 2.741098165512085
    },
    {
      "auxiliary_loss_clip": 0.01084666,
      "auxiliary_loss_mlp": 0.01019989,
      "balance_loss_clip": 1.03953266,
      "balance_loss_mlp": 1.01473522,
      "epoch": 0.6420970360127457,
      "flos": 19465712225280.0,
      "grad_norm": 1.9152819913491326,
      "language_loss": 0.73354989,
      "learning_rate": 1.1996890021228814e-06,
      "loss": 0.75459641,
      "num_input_tokens_seen": 114949475,
      "step": 5340,
      "time_per_iteration": 2.551483154296875
    },
    {
      "auxiliary_loss_clip": 0.01077384,
      "auxiliary_loss_mlp": 0.01019173,
      "balance_loss_clip": 1.03905869,
      "balance_loss_mlp": 1.01406741,
      "epoch": 0.6422172789033849,
      "flos": 40409314536960.0,
      "grad_norm": 2.546468571561199,
      "language_loss": 0.70113021,
      "learning_rate": 1.1989751764139785e-06,
      "loss": 0.72209579,
      "num_input_tokens_seen": 114973125,
      "step": 5341,
      "time_per_iteration": 3.540361166000366
    },
    {
      "auxiliary_loss_clip": 0.01053542,
      "auxiliary_loss_mlp": 0.01018929,
      "balance_loss_clip": 1.03523993,
      "balance_loss_mlp": 1.01334381,
      "epoch": 0.6423375217940239,
      "flos": 27675342161280.0,
      "grad_norm": 1.9637137995071332,
      "language_loss": 0.82790434,
      "learning_rate": 1.1982614722199044e-06,
      "loss": 0.848629,
      "num_input_tokens_seen": 114994300,
      "step": 5342,
      "time_per_iteration": 2.6781864166259766
    },
    {
      "auxiliary_loss_clip": 0.01076819,
      "auxiliary_loss_mlp": 0.01019161,
      "balance_loss_clip": 1.03842044,
      "balance_loss_mlp": 1.01431847,
      "epoch": 0.642457764684663,
      "flos": 18371208654720.0,
      "grad_norm": 2.120228610403524,
      "language_loss": 0.77654147,
      "learning_rate": 1.1975478896489276e-06,
      "loss": 0.79750121,
      "num_input_tokens_seen": 115012135,
      "step": 5343,
      "time_per_iteration": 2.634819984436035
    },
    {
      "auxiliary_loss_clip": 0.0109731,
      "auxiliary_loss_mlp": 0.01017598,
      "balance_loss_clip": 1.04008424,
      "balance_loss_mlp": 1.01253438,
      "epoch": 0.6425780075753021,
      "flos": 19752263729280.0,
      "grad_norm": 1.8856604216755015,
      "language_loss": 0.76343626,
      "learning_rate": 1.1968344288092981e-06,
      "loss": 0.78458536,
      "num_input_tokens_seen": 115028715,
      "step": 5344,
      "time_per_iteration": 2.496892213821411
    },
    {
      "auxiliary_loss_clip": 0.01085976,
      "auxiliary_loss_mlp": 0.00756838,
      "balance_loss_clip": 1.0395155,
      "balance_loss_mlp": 1.00197268,
      "epoch": 0.6426982504659412,
      "flos": 20560632894720.0,
      "grad_norm": 1.8386768743764588,
      "language_loss": 0.64809531,
      "learning_rate": 1.1961210898092468e-06,
      "loss": 0.66652346,
      "num_input_tokens_seen": 115047665,
      "step": 5345,
      "time_per_iteration": 2.6155893802642822
    },
    {
      "auxiliary_loss_clip": 0.01077709,
      "auxiliary_loss_mlp": 0.01021637,
      "balance_loss_clip": 1.04002738,
      "balance_loss_mlp": 1.0160042,
      "epoch": 0.6428184933565803,
      "flos": 17853561982080.0,
      "grad_norm": 2.514216025831933,
      "language_loss": 0.79292822,
      "learning_rate": 1.1954078727569874e-06,
      "loss": 0.81392169,
      "num_input_tokens_seen": 115064965,
      "step": 5346,
      "time_per_iteration": 2.5552315711975098
    },
    {
      "auxiliary_loss_clip": 0.01062491,
      "auxiliary_loss_mlp": 0.007569,
      "balance_loss_clip": 1.03636968,
      "balance_loss_mlp": 1.00195038,
      "epoch": 0.6429387362472194,
      "flos": 22459220887680.0,
      "grad_norm": 2.0261419201069493,
      "language_loss": 0.77838802,
      "learning_rate": 1.1946947777607141e-06,
      "loss": 0.79658192,
      "num_input_tokens_seen": 115086100,
      "step": 5347,
      "time_per_iteration": 2.6530163288116455
    },
    {
      "auxiliary_loss_clip": 0.01044826,
      "auxiliary_loss_mlp": 0.0101943,
      "balance_loss_clip": 1.03098869,
      "balance_loss_mlp": 1.01401758,
      "epoch": 0.6430589791378585,
      "flos": 24754807987200.0,
      "grad_norm": 1.9344426193354454,
      "language_loss": 0.80315399,
      "learning_rate": 1.1939818049286024e-06,
      "loss": 0.82379651,
      "num_input_tokens_seen": 115104260,
      "step": 5348,
      "time_per_iteration": 2.619145393371582
    },
    {
      "auxiliary_loss_clip": 0.01027608,
      "auxiliary_loss_mlp": 0.01022494,
      "balance_loss_clip": 1.03145278,
      "balance_loss_mlp": 1.01722527,
      "epoch": 0.6431792220284975,
      "flos": 24903638737920.0,
      "grad_norm": 2.115790831077142,
      "language_loss": 0.7539463,
      "learning_rate": 1.1932689543688101e-06,
      "loss": 0.77444732,
      "num_input_tokens_seen": 115125365,
      "step": 5349,
      "time_per_iteration": 2.7103071212768555
    },
    {
      "auxiliary_loss_clip": 0.01067315,
      "auxiliary_loss_mlp": 0.01019182,
      "balance_loss_clip": 1.03476799,
      "balance_loss_mlp": 1.01373994,
      "epoch": 0.6432994649191367,
      "flos": 21034398297600.0,
      "grad_norm": 2.1614491210337468,
      "language_loss": 0.72144103,
      "learning_rate": 1.1925562261894756e-06,
      "loss": 0.74230599,
      "num_input_tokens_seen": 115144445,
      "step": 5350,
      "time_per_iteration": 2.5571608543395996
    },
    {
      "auxiliary_loss_clip": 0.01074887,
      "auxiliary_loss_mlp": 0.01021029,
      "balance_loss_clip": 1.0388701,
      "balance_loss_mlp": 1.0159986,
      "epoch": 0.6434197078097758,
      "flos": 30887129681280.0,
      "grad_norm": 1.766202424531437,
      "language_loss": 0.77734149,
      "learning_rate": 1.1918436204987207e-06,
      "loss": 0.79830074,
      "num_input_tokens_seen": 115166305,
      "step": 5351,
      "time_per_iteration": 2.6916675567626953
    },
    {
      "auxiliary_loss_clip": 0.01082,
      "auxiliary_loss_mlp": 0.01021039,
      "balance_loss_clip": 1.04320419,
      "balance_loss_mlp": 1.01557922,
      "epoch": 0.6435399507004148,
      "flos": 15014268437760.0,
      "grad_norm": 2.1295657073024334,
      "language_loss": 0.81589067,
      "learning_rate": 1.191131137404645e-06,
      "loss": 0.8369211,
      "num_input_tokens_seen": 115183045,
      "step": 5352,
      "time_per_iteration": 2.601726770401001
    },
    {
      "auxiliary_loss_clip": 0.01066723,
      "auxiliary_loss_mlp": 0.01021894,
      "balance_loss_clip": 1.03953695,
      "balance_loss_mlp": 1.01663399,
      "epoch": 0.643660193591054,
      "flos": 19904052090240.0,
      "grad_norm": 3.243190506346435,
      "language_loss": 0.77008933,
      "learning_rate": 1.190418777015333e-06,
      "loss": 0.79097557,
      "num_input_tokens_seen": 115201955,
      "step": 5353,
      "time_per_iteration": 2.6157710552215576
    },
    {
      "auxiliary_loss_clip": 0.01069051,
      "auxiliary_loss_mlp": 0.01016971,
      "balance_loss_clip": 1.03465438,
      "balance_loss_mlp": 1.01206207,
      "epoch": 0.643780436481693,
      "flos": 24135889887360.0,
      "grad_norm": 1.586719989997699,
      "language_loss": 0.73820817,
      "learning_rate": 1.1897065394388487e-06,
      "loss": 0.75906843,
      "num_input_tokens_seen": 115222395,
      "step": 5354,
      "time_per_iteration": 2.6487410068511963
    },
    {
      "auxiliary_loss_clip": 0.01072957,
      "auxiliary_loss_mlp": 0.01025345,
      "balance_loss_clip": 1.040923,
      "balance_loss_mlp": 1.01997125,
      "epoch": 0.6439006793723321,
      "flos": 23151037639680.0,
      "grad_norm": 1.7725333728668702,
      "language_loss": 0.76411474,
      "learning_rate": 1.1889944247832385e-06,
      "loss": 0.78509778,
      "num_input_tokens_seen": 115242635,
      "step": 5355,
      "time_per_iteration": 2.5728132724761963
    },
    {
      "auxiliary_loss_clip": 0.01087445,
      "auxiliary_loss_mlp": 0.0102499,
      "balance_loss_clip": 1.03915739,
      "balance_loss_mlp": 1.01974499,
      "epoch": 0.6440209222629713,
      "flos": 23619873692160.0,
      "grad_norm": 2.044106729642257,
      "language_loss": 0.70772094,
      "learning_rate": 1.1882824331565283e-06,
      "loss": 0.72884524,
      "num_input_tokens_seen": 115262095,
      "step": 5356,
      "time_per_iteration": 2.6241846084594727
    },
    {
      "auxiliary_loss_clip": 0.01067138,
      "auxiliary_loss_mlp": 0.01022052,
      "balance_loss_clip": 1.03910232,
      "balance_loss_mlp": 1.01682174,
      "epoch": 0.6441411651536103,
      "flos": 16546732692480.0,
      "grad_norm": 2.023360534034197,
      "language_loss": 0.89044446,
      "learning_rate": 1.1875705646667287e-06,
      "loss": 0.91133636,
      "num_input_tokens_seen": 115279985,
      "step": 5357,
      "time_per_iteration": 2.549248218536377
    },
    {
      "auxiliary_loss_clip": 0.01087577,
      "auxiliary_loss_mlp": 0.01020536,
      "balance_loss_clip": 1.03904831,
      "balance_loss_mlp": 1.01485014,
      "epoch": 0.6442614080442494,
      "flos": 25413322613760.0,
      "grad_norm": 2.3209961268565955,
      "language_loss": 0.75531423,
      "learning_rate": 1.1868588194218282e-06,
      "loss": 0.77639538,
      "num_input_tokens_seen": 115300365,
      "step": 5358,
      "time_per_iteration": 2.7221150398254395
    },
    {
      "auxiliary_loss_clip": 0.01077892,
      "auxiliary_loss_mlp": 0.01022285,
      "balance_loss_clip": 1.03910923,
      "balance_loss_mlp": 1.01678932,
      "epoch": 0.6443816509348885,
      "flos": 28296573264000.0,
      "grad_norm": 1.5852660660181597,
      "language_loss": 0.74074602,
      "learning_rate": 1.1861471975297979e-06,
      "loss": 0.76174772,
      "num_input_tokens_seen": 115322060,
      "step": 5359,
      "time_per_iteration": 3.3893375396728516
    },
    {
      "auxiliary_loss_clip": 0.01052456,
      "auxiliary_loss_mlp": 0.01018079,
      "balance_loss_clip": 1.0348649,
      "balance_loss_mlp": 1.01239538,
      "epoch": 0.6445018938255276,
      "flos": 36693341262720.0,
      "grad_norm": 2.886301174901944,
      "language_loss": 0.71037644,
      "learning_rate": 1.185435699098591e-06,
      "loss": 0.73108178,
      "num_input_tokens_seen": 115348255,
      "step": 5360,
      "time_per_iteration": 2.78118896484375
    },
    {
      "auxiliary_loss_clip": 0.01076671,
      "auxiliary_loss_mlp": 0.01019135,
      "balance_loss_clip": 1.03949928,
      "balance_loss_mlp": 1.01369333,
      "epoch": 0.6446221367161666,
      "flos": 14503143674880.0,
      "grad_norm": 2.775692648693741,
      "language_loss": 0.78481388,
      "learning_rate": 1.1847243242361403e-06,
      "loss": 0.80577195,
      "num_input_tokens_seen": 115366845,
      "step": 5361,
      "time_per_iteration": 2.546170473098755
    },
    {
      "auxiliary_loss_clip": 0.01072405,
      "auxiliary_loss_mlp": 0.01023748,
      "balance_loss_clip": 1.04151237,
      "balance_loss_mlp": 1.01861048,
      "epoch": 0.6447423796068057,
      "flos": 24611740784640.0,
      "grad_norm": 1.653734831894956,
      "language_loss": 0.77700514,
      "learning_rate": 1.1840130730503624e-06,
      "loss": 0.79796672,
      "num_input_tokens_seen": 115388125,
      "step": 5362,
      "time_per_iteration": 3.339651584625244
    },
    {
      "auxiliary_loss_clip": 0.01099585,
      "auxiliary_loss_mlp": 0.010211,
      "balance_loss_clip": 1.04142332,
      "balance_loss_mlp": 1.01584339,
      "epoch": 0.6448626224974449,
      "flos": 25049701468800.0,
      "grad_norm": 1.8363316429157102,
      "language_loss": 0.75057912,
      "learning_rate": 1.1833019456491518e-06,
      "loss": 0.77178597,
      "num_input_tokens_seen": 115409655,
      "step": 5363,
      "time_per_iteration": 3.442549467086792
    },
    {
      "auxiliary_loss_clip": 0.01087546,
      "auxiliary_loss_mlp": 0.01022118,
      "balance_loss_clip": 1.04086351,
      "balance_loss_mlp": 1.01668215,
      "epoch": 0.6449828653880839,
      "flos": 22532650392960.0,
      "grad_norm": 2.720937006970208,
      "language_loss": 0.79049712,
      "learning_rate": 1.1825909421403871e-06,
      "loss": 0.81159377,
      "num_input_tokens_seen": 115428750,
      "step": 5364,
      "time_per_iteration": 2.554560422897339
    },
    {
      "auxiliary_loss_clip": 0.01086068,
      "auxiliary_loss_mlp": 0.0102086,
      "balance_loss_clip": 1.03901267,
      "balance_loss_mlp": 1.01571298,
      "epoch": 0.645103108278723,
      "flos": 25697712787200.0,
      "grad_norm": 1.878011019613755,
      "language_loss": 0.76617855,
      "learning_rate": 1.181880062631926e-06,
      "loss": 0.78724784,
      "num_input_tokens_seen": 115448085,
      "step": 5365,
      "time_per_iteration": 2.6348531246185303
    },
    {
      "auxiliary_loss_clip": 0.0107225,
      "auxiliary_loss_mlp": 0.010257,
      "balance_loss_clip": 1.03760648,
      "balance_loss_mlp": 1.0197221,
      "epoch": 0.6452233511693621,
      "flos": 27452588970240.0,
      "grad_norm": 2.189609102284384,
      "language_loss": 0.84765518,
      "learning_rate": 1.1811693072316093e-06,
      "loss": 0.86863476,
      "num_input_tokens_seen": 115465765,
      "step": 5366,
      "time_per_iteration": 2.5950214862823486
    },
    {
      "auxiliary_loss_clip": 0.01097847,
      "auxiliary_loss_mlp": 0.00756678,
      "balance_loss_clip": 1.03968406,
      "balance_loss_mlp": 1.00176811,
      "epoch": 0.6453435940600012,
      "flos": 19210642778880.0,
      "grad_norm": 2.374162341285743,
      "language_loss": 0.84444726,
      "learning_rate": 1.1804586760472574e-06,
      "loss": 0.86299253,
      "num_input_tokens_seen": 115482230,
      "step": 5367,
      "time_per_iteration": 3.2531301975250244
    },
    {
      "auxiliary_loss_clip": 0.01061037,
      "auxiliary_loss_mlp": 0.01017649,
      "balance_loss_clip": 1.03786874,
      "balance_loss_mlp": 1.01221943,
      "epoch": 0.6454638369506402,
      "flos": 25739963579520.0,
      "grad_norm": 3.5110857779659015,
      "language_loss": 0.80102003,
      "learning_rate": 1.1797481691866736e-06,
      "loss": 0.82180691,
      "num_input_tokens_seen": 115499455,
      "step": 5368,
      "time_per_iteration": 2.687586545944214
    },
    {
      "auxiliary_loss_clip": 0.01071673,
      "auxiliary_loss_mlp": 0.01023595,
      "balance_loss_clip": 1.04254794,
      "balance_loss_mlp": 1.01870751,
      "epoch": 0.6455840798412794,
      "flos": 20990896208640.0,
      "grad_norm": 1.996384739438723,
      "language_loss": 0.8302905,
      "learning_rate": 1.1790377867576393e-06,
      "loss": 0.85124314,
      "num_input_tokens_seen": 115517205,
      "step": 5369,
      "time_per_iteration": 2.701052188873291
    },
    {
      "auxiliary_loss_clip": 0.01076088,
      "auxiliary_loss_mlp": 0.01018663,
      "balance_loss_clip": 1.0395503,
      "balance_loss_mlp": 1.01336479,
      "epoch": 0.6457043227319185,
      "flos": 26069941336320.0,
      "grad_norm": 1.9978648739720843,
      "language_loss": 0.76476485,
      "learning_rate": 1.1783275288679203e-06,
      "loss": 0.78571236,
      "num_input_tokens_seen": 115534370,
      "step": 5370,
      "time_per_iteration": 2.6272943019866943
    },
    {
      "auxiliary_loss_clip": 0.0103931,
      "auxiliary_loss_mlp": 0.01002878,
      "balance_loss_clip": 1.02061951,
      "balance_loss_mlp": 1.00100636,
      "epoch": 0.6458245656225575,
      "flos": 60377534069760.0,
      "grad_norm": 0.8483354570842077,
      "language_loss": 0.57176304,
      "learning_rate": 1.177617395625262e-06,
      "loss": 0.5921849,
      "num_input_tokens_seen": 115592345,
      "step": 5371,
      "time_per_iteration": 3.095428228378296
    },
    {
      "auxiliary_loss_clip": 0.01086243,
      "auxiliary_loss_mlp": 0.01022208,
      "balance_loss_clip": 1.04109406,
      "balance_loss_mlp": 1.01695418,
      "epoch": 0.6459448085131967,
      "flos": 23079049021440.0,
      "grad_norm": 1.744476567345128,
      "language_loss": 0.75239885,
      "learning_rate": 1.1769073871373908e-06,
      "loss": 0.7734834,
      "num_input_tokens_seen": 115612550,
      "step": 5372,
      "time_per_iteration": 2.599217176437378
    },
    {
      "auxiliary_loss_clip": 0.01064036,
      "auxiliary_loss_mlp": 0.01017524,
      "balance_loss_clip": 1.03743386,
      "balance_loss_mlp": 1.01262176,
      "epoch": 0.6460650514038357,
      "flos": 22600202595840.0,
      "grad_norm": 1.7315343478350242,
      "language_loss": 0.83669639,
      "learning_rate": 1.176197503512015e-06,
      "loss": 0.85751194,
      "num_input_tokens_seen": 115632265,
      "step": 5373,
      "time_per_iteration": 2.584378719329834
    },
    {
      "auxiliary_loss_clip": 0.01081458,
      "auxiliary_loss_mlp": 0.01019494,
      "balance_loss_clip": 1.04307175,
      "balance_loss_mlp": 1.01447868,
      "epoch": 0.6461852942944748,
      "flos": 20268810777600.0,
      "grad_norm": 2.6252702756244592,
      "language_loss": 0.82727671,
      "learning_rate": 1.1754877448568223e-06,
      "loss": 0.84828627,
      "num_input_tokens_seen": 115651720,
      "step": 5374,
      "time_per_iteration": 2.606182098388672
    },
    {
      "auxiliary_loss_clip": 0.0107634,
      "auxiliary_loss_mlp": 0.01022598,
      "balance_loss_clip": 1.04094231,
      "balance_loss_mlp": 1.01744485,
      "epoch": 0.646305537185114,
      "flos": 23369316497280.0,
      "grad_norm": 2.025665148444454,
      "language_loss": 0.89985979,
      "learning_rate": 1.1747781112794837e-06,
      "loss": 0.92084908,
      "num_input_tokens_seen": 115668215,
      "step": 5375,
      "time_per_iteration": 2.5569989681243896
    },
    {
      "auxiliary_loss_clip": 0.01067399,
      "auxiliary_loss_mlp": 0.0102275,
      "balance_loss_clip": 1.03942931,
      "balance_loss_mlp": 1.01766574,
      "epoch": 0.646425780075753,
      "flos": 24279639615360.0,
      "grad_norm": 4.3494154042506965,
      "language_loss": 0.82926726,
      "learning_rate": 1.1740686028876487e-06,
      "loss": 0.85016876,
      "num_input_tokens_seen": 115687080,
      "step": 5376,
      "time_per_iteration": 2.6879782676696777
    },
    {
      "auxiliary_loss_clip": 0.01081822,
      "auxiliary_loss_mlp": 0.01017223,
      "balance_loss_clip": 1.03837383,
      "balance_loss_mlp": 1.01225162,
      "epoch": 0.6465460229663921,
      "flos": 20816081521920.0,
      "grad_norm": 3.3875248949096557,
      "language_loss": 0.74903601,
      "learning_rate": 1.1733592197889507e-06,
      "loss": 0.77002645,
      "num_input_tokens_seen": 115703990,
      "step": 5377,
      "time_per_iteration": 2.52400279045105
    },
    {
      "auxiliary_loss_clip": 0.01077266,
      "auxiliary_loss_mlp": 0.01021041,
      "balance_loss_clip": 1.03708553,
      "balance_loss_mlp": 1.01609123,
      "epoch": 0.6466662658570312,
      "flos": 22855309960320.0,
      "grad_norm": 1.8660344114514098,
      "language_loss": 0.72656983,
      "learning_rate": 1.1726499620910014e-06,
      "loss": 0.74755293,
      "num_input_tokens_seen": 115724270,
      "step": 5378,
      "time_per_iteration": 2.5824623107910156
    },
    {
      "auxiliary_loss_clip": 0.01077135,
      "auxiliary_loss_mlp": 0.0101889,
      "balance_loss_clip": 1.0334152,
      "balance_loss_mlp": 1.01354623,
      "epoch": 0.6467865087476703,
      "flos": 15306355981440.0,
      "grad_norm": 2.156319560011613,
      "language_loss": 0.77768636,
      "learning_rate": 1.1719408299013955e-06,
      "loss": 0.79864657,
      "num_input_tokens_seen": 115742995,
      "step": 5379,
      "time_per_iteration": 2.4910836219787598
    },
    {
      "auxiliary_loss_clip": 0.0109795,
      "auxiliary_loss_mlp": 0.01023747,
      "balance_loss_clip": 1.04130352,
      "balance_loss_mlp": 1.01831973,
      "epoch": 0.6469067516383094,
      "flos": 19575704810880.0,
      "grad_norm": 2.537508394274164,
      "language_loss": 0.75762212,
      "learning_rate": 1.1712318233277067e-06,
      "loss": 0.77883905,
      "num_input_tokens_seen": 115762015,
      "step": 5380,
      "time_per_iteration": 2.529176950454712
    },
    {
      "auxiliary_loss_clip": 0.01038639,
      "auxiliary_loss_mlp": 0.01002384,
      "balance_loss_clip": 1.0203414,
      "balance_loss_mlp": 1.00029814,
      "epoch": 0.6470269945289485,
      "flos": 65104078101120.0,
      "grad_norm": 0.7497102486307547,
      "language_loss": 0.57855654,
      "learning_rate": 1.1705229424774916e-06,
      "loss": 0.59896678,
      "num_input_tokens_seen": 115816285,
      "step": 5381,
      "time_per_iteration": 2.9933018684387207
    },
    {
      "auxiliary_loss_clip": 0.0107668,
      "auxiliary_loss_mlp": 0.01022372,
      "balance_loss_clip": 1.03872156,
      "balance_loss_mlp": 1.01708853,
      "epoch": 0.6471472374195876,
      "flos": 30699347011200.0,
      "grad_norm": 2.1874024055466244,
      "language_loss": 0.64108491,
      "learning_rate": 1.1698141874582867e-06,
      "loss": 0.66207552,
      "num_input_tokens_seen": 115837330,
      "step": 5382,
      "time_per_iteration": 2.6594789028167725
    },
    {
      "auxiliary_loss_clip": 0.0109785,
      "auxiliary_loss_mlp": 0.01022791,
      "balance_loss_clip": 1.04139161,
      "balance_loss_mlp": 1.01786494,
      "epoch": 0.6472674803102266,
      "flos": 20523918142080.0,
      "grad_norm": 1.9829610239427637,
      "language_loss": 0.72368169,
      "learning_rate": 1.169105558377609e-06,
      "loss": 0.74488813,
      "num_input_tokens_seen": 115857420,
      "step": 5383,
      "time_per_iteration": 2.5240888595581055
    },
    {
      "auxiliary_loss_clip": 0.01039671,
      "auxiliary_loss_mlp": 0.007566,
      "balance_loss_clip": 1.03984642,
      "balance_loss_mlp": 1.00177324,
      "epoch": 0.6473877232008658,
      "flos": 24717638217600.0,
      "grad_norm": 1.6932682803323427,
      "language_loss": 0.7851541,
      "learning_rate": 1.1683970553429587e-06,
      "loss": 0.80311692,
      "num_input_tokens_seen": 115878875,
      "step": 5384,
      "time_per_iteration": 2.7034056186676025
    },
    {
      "auxiliary_loss_clip": 0.01063069,
      "auxiliary_loss_mlp": 0.01024547,
      "balance_loss_clip": 1.03910875,
      "balance_loss_mlp": 1.01903105,
      "epoch": 0.6475079660915048,
      "flos": 15887232195840.0,
      "grad_norm": 2.058145331515127,
      "language_loss": 0.82268775,
      "learning_rate": 1.1676886784618128e-06,
      "loss": 0.84356391,
      "num_input_tokens_seen": 115895540,
      "step": 5385,
      "time_per_iteration": 2.6211934089660645
    },
    {
      "auxiliary_loss_clip": 0.01079605,
      "auxiliary_loss_mlp": 0.01017889,
      "balance_loss_clip": 1.0357728,
      "balance_loss_mlp": 1.01245558,
      "epoch": 0.6476282089821439,
      "flos": 17383360878720.0,
      "grad_norm": 2.4855931985670434,
      "language_loss": 0.84017104,
      "learning_rate": 1.1669804278416332e-06,
      "loss": 0.86114591,
      "num_input_tokens_seen": 115910265,
      "step": 5386,
      "time_per_iteration": 3.288051128387451
    },
    {
      "auxiliary_loss_clip": 0.0107576,
      "auxiliary_loss_mlp": 0.0102201,
      "balance_loss_clip": 1.04020071,
      "balance_loss_mlp": 1.01652396,
      "epoch": 0.6477484518727831,
      "flos": 20196177552000.0,
      "grad_norm": 2.0221410567690516,
      "language_loss": 0.71470422,
      "learning_rate": 1.1662723035898602e-06,
      "loss": 0.73568195,
      "num_input_tokens_seen": 115930025,
      "step": 5387,
      "time_per_iteration": 3.369624376296997
    },
    {
      "auxiliary_loss_clip": 0.01086136,
      "auxiliary_loss_mlp": 0.0101996,
      "balance_loss_clip": 1.04155707,
      "balance_loss_mlp": 1.01455665,
      "epoch": 0.6478686947634221,
      "flos": 25412753842560.0,
      "grad_norm": 2.2867059118097464,
      "language_loss": 0.81939518,
      "learning_rate": 1.165564305813915e-06,
      "loss": 0.84045613,
      "num_input_tokens_seen": 115949025,
      "step": 5388,
      "time_per_iteration": 2.5693819522857666
    },
    {
      "auxiliary_loss_clip": 0.01085651,
      "auxiliary_loss_mlp": 0.01020689,
      "balance_loss_clip": 1.03917217,
      "balance_loss_mlp": 1.0156014,
      "epoch": 0.6479889376540612,
      "flos": 20085616195200.0,
      "grad_norm": 1.824161578369402,
      "language_loss": 0.8146714,
      "learning_rate": 1.1648564346212019e-06,
      "loss": 0.83573484,
      "num_input_tokens_seen": 115968145,
      "step": 5389,
      "time_per_iteration": 3.301180601119995
    },
    {
      "auxiliary_loss_clip": 0.01077818,
      "auxiliary_loss_mlp": 0.01022929,
      "balance_loss_clip": 1.03548765,
      "balance_loss_mlp": 1.01770151,
      "epoch": 0.6481091805447003,
      "flos": 26760355119360.0,
      "grad_norm": 1.65995030563033,
      "language_loss": 0.7588923,
      "learning_rate": 1.164148690119104e-06,
      "loss": 0.77989972,
      "num_input_tokens_seen": 115989425,
      "step": 5390,
      "time_per_iteration": 2.6282591819763184
    },
    {
      "auxiliary_loss_clip": 0.01097211,
      "auxiliary_loss_mlp": 0.01021798,
      "balance_loss_clip": 1.04008877,
      "balance_loss_mlp": 1.01666903,
      "epoch": 0.6482294234353394,
      "flos": 23954401618560.0,
      "grad_norm": 2.0780697260463312,
      "language_loss": 0.74070698,
      "learning_rate": 1.163441072414985e-06,
      "loss": 0.76189709,
      "num_input_tokens_seen": 116009630,
      "step": 5391,
      "time_per_iteration": 2.50838565826416
    },
    {
      "auxiliary_loss_clip": 0.01085897,
      "auxiliary_loss_mlp": 0.0102039,
      "balance_loss_clip": 1.04081535,
      "balance_loss_mlp": 1.01537371,
      "epoch": 0.6483496663259785,
      "flos": 26212022668800.0,
      "grad_norm": 2.0106687202700653,
      "language_loss": 0.69750965,
      "learning_rate": 1.16273358161619e-06,
      "loss": 0.7185725,
      "num_input_tokens_seen": 116029965,
      "step": 5392,
      "time_per_iteration": 2.5992050170898438
    },
    {
      "auxiliary_loss_clip": 0.01074059,
      "auxiliary_loss_mlp": 0.01020812,
      "balance_loss_clip": 1.04132986,
      "balance_loss_mlp": 1.01572442,
      "epoch": 0.6484699092166175,
      "flos": 20924291957760.0,
      "grad_norm": 2.1734153160676346,
      "language_loss": 0.83849812,
      "learning_rate": 1.1620262178300446e-06,
      "loss": 0.85944682,
      "num_input_tokens_seen": 116048580,
      "step": 5393,
      "time_per_iteration": 2.5531909465789795
    },
    {
      "auxiliary_loss_clip": 0.01064447,
      "auxiliary_loss_mlp": 0.01018312,
      "balance_loss_clip": 1.03961051,
      "balance_loss_mlp": 1.01284957,
      "epoch": 0.6485901521072567,
      "flos": 33075643887360.0,
      "grad_norm": 1.8281919915118436,
      "language_loss": 0.7612648,
      "learning_rate": 1.1613189811638563e-06,
      "loss": 0.78209239,
      "num_input_tokens_seen": 116070305,
      "step": 5394,
      "time_per_iteration": 3.718090295791626
    },
    {
      "auxiliary_loss_clip": 0.01089361,
      "auxiliary_loss_mlp": 0.01019668,
      "balance_loss_clip": 1.04277134,
      "balance_loss_mlp": 1.01468194,
      "epoch": 0.6487103949978957,
      "flos": 22276291731840.0,
      "grad_norm": 2.302599131806018,
      "language_loss": 0.78109312,
      "learning_rate": 1.1606118717249117e-06,
      "loss": 0.80218339,
      "num_input_tokens_seen": 116090405,
      "step": 5395,
      "time_per_iteration": 2.546802520751953
    },
    {
      "auxiliary_loss_clip": 0.01097458,
      "auxiliary_loss_mlp": 0.01020151,
      "balance_loss_clip": 1.03832221,
      "balance_loss_mlp": 1.01471806,
      "epoch": 0.6488306378885348,
      "flos": 22932645027840.0,
      "grad_norm": 1.9359448958955825,
      "language_loss": 0.6807515,
      "learning_rate": 1.1599048896204787e-06,
      "loss": 0.70192754,
      "num_input_tokens_seen": 116110285,
      "step": 5396,
      "time_per_iteration": 2.5191712379455566
    },
    {
      "auxiliary_loss_clip": 0.01061905,
      "auxiliary_loss_mlp": 0.01022055,
      "balance_loss_clip": 1.04168105,
      "balance_loss_mlp": 1.01691103,
      "epoch": 0.648950880779174,
      "flos": 20378196673920.0,
      "grad_norm": 1.9266387137821566,
      "language_loss": 0.80825591,
      "learning_rate": 1.1591980349578061e-06,
      "loss": 0.82909548,
      "num_input_tokens_seen": 116128955,
      "step": 5397,
      "time_per_iteration": 2.595012903213501
    },
    {
      "auxiliary_loss_clip": 0.01019961,
      "auxiliary_loss_mlp": 0.01002806,
      "balance_loss_clip": 1.02071548,
      "balance_loss_mlp": 1.0006125,
      "epoch": 0.649071123669813,
      "flos": 59937449973120.0,
      "grad_norm": 0.9317055818141127,
      "language_loss": 0.5428763,
      "learning_rate": 1.158491307844123e-06,
      "loss": 0.56310397,
      "num_input_tokens_seen": 116188875,
      "step": 5398,
      "time_per_iteration": 3.160275459289551
    },
    {
      "auxiliary_loss_clip": 0.01068983,
      "auxiliary_loss_mlp": 0.01019947,
      "balance_loss_clip": 1.03614426,
      "balance_loss_mlp": 1.0148809,
      "epoch": 0.6491913665604521,
      "flos": 20448516896640.0,
      "grad_norm": 1.6601064755450792,
      "language_loss": 0.84081757,
      "learning_rate": 1.1577847083866387e-06,
      "loss": 0.86170691,
      "num_input_tokens_seen": 116207910,
      "step": 5399,
      "time_per_iteration": 2.659445285797119
    },
    {
      "auxiliary_loss_clip": 0.01068746,
      "auxiliary_loss_mlp": 0.01021901,
      "balance_loss_clip": 1.03513324,
      "balance_loss_mlp": 1.01623583,
      "epoch": 0.6493116094510912,
      "flos": 16948736985600.0,
      "grad_norm": 2.6111957781758663,
      "language_loss": 0.72146589,
      "learning_rate": 1.1570782366925453e-06,
      "loss": 0.74237239,
      "num_input_tokens_seen": 116226425,
      "step": 5400,
      "time_per_iteration": 2.5237576961517334
    },
    {
      "auxiliary_loss_clip": 0.0107834,
      "auxiliary_loss_mlp": 0.01018121,
      "balance_loss_clip": 1.03926289,
      "balance_loss_mlp": 1.01262236,
      "epoch": 0.6494318523417303,
      "flos": 18804695005440.0,
      "grad_norm": 1.720008423871956,
      "language_loss": 0.75557351,
      "learning_rate": 1.1563718928690132e-06,
      "loss": 0.77653813,
      "num_input_tokens_seen": 116243860,
      "step": 5401,
      "time_per_iteration": 2.6258747577667236
    },
    {
      "auxiliary_loss_clip": 0.0105773,
      "auxiliary_loss_mlp": 0.01022553,
      "balance_loss_clip": 1.03594506,
      "balance_loss_mlp": 1.01725745,
      "epoch": 0.6495520952323693,
      "flos": 18984476960640.0,
      "grad_norm": 2.128929304449037,
      "language_loss": 0.71534175,
      "learning_rate": 1.1556656770231942e-06,
      "loss": 0.73614454,
      "num_input_tokens_seen": 116260055,
      "step": 5402,
      "time_per_iteration": 2.558018445968628
    },
    {
      "auxiliary_loss_clip": 0.01087279,
      "auxiliary_loss_mlp": 0.0102284,
      "balance_loss_clip": 1.03945041,
      "balance_loss_mlp": 1.01800656,
      "epoch": 0.6496723381230085,
      "flos": 22747478705280.0,
      "grad_norm": 1.5000827466115745,
      "language_loss": 0.7621938,
      "learning_rate": 1.1549595892622207e-06,
      "loss": 0.78329498,
      "num_input_tokens_seen": 116278825,
      "step": 5403,
      "time_per_iteration": 2.5983059406280518
    },
    {
      "auxiliary_loss_clip": 0.01003365,
      "auxiliary_loss_mlp": 0.0100267,
      "balance_loss_clip": 1.02143764,
      "balance_loss_mlp": 1.0007987,
      "epoch": 0.6497925810136476,
      "flos": 62151341425920.0,
      "grad_norm": 0.8122729242186568,
      "language_loss": 0.58956778,
      "learning_rate": 1.1542536296932047e-06,
      "loss": 0.60962808,
      "num_input_tokens_seen": 116342360,
      "step": 5404,
      "time_per_iteration": 3.256246328353882
    },
    {
      "auxiliary_loss_clip": 0.01064962,
      "auxiliary_loss_mlp": 0.01021016,
      "balance_loss_clip": 1.03802538,
      "balance_loss_mlp": 1.01537776,
      "epoch": 0.6499128239042866,
      "flos": 20158780273920.0,
      "grad_norm": 1.7957155859828853,
      "language_loss": 0.70278102,
      "learning_rate": 1.1535477984232414e-06,
      "loss": 0.7236408,
      "num_input_tokens_seen": 116362235,
      "step": 5405,
      "time_per_iteration": 2.9702301025390625
    },
    {
      "auxiliary_loss_clip": 0.01047083,
      "auxiliary_loss_mlp": 0.0101931,
      "balance_loss_clip": 1.03484941,
      "balance_loss_mlp": 1.01434207,
      "epoch": 0.6500330667949258,
      "flos": 24464730101760.0,
      "grad_norm": 2.0232405815145644,
      "language_loss": 0.76714069,
      "learning_rate": 1.152842095559404e-06,
      "loss": 0.7878046,
      "num_input_tokens_seen": 116382895,
      "step": 5406,
      "time_per_iteration": 2.644946336746216
    },
    {
      "auxiliary_loss_clip": 0.01075027,
      "auxiliary_loss_mlp": 0.01023358,
      "balance_loss_clip": 1.03770268,
      "balance_loss_mlp": 1.01831532,
      "epoch": 0.6501533096855648,
      "flos": 25479396011520.0,
      "grad_norm": 1.888135041450697,
      "language_loss": 0.77075714,
      "learning_rate": 1.1521365212087474e-06,
      "loss": 0.79174095,
      "num_input_tokens_seen": 116402880,
      "step": 5407,
      "time_per_iteration": 2.6106677055358887
    },
    {
      "auxiliary_loss_clip": 0.0108551,
      "auxiliary_loss_mlp": 0.01018393,
      "balance_loss_clip": 1.03941417,
      "balance_loss_mlp": 1.0130372,
      "epoch": 0.6502735525762039,
      "flos": 44822564766720.0,
      "grad_norm": 1.6170149850956823,
      "language_loss": 0.70791602,
      "learning_rate": 1.1514310754783062e-06,
      "loss": 0.72895503,
      "num_input_tokens_seen": 116425830,
      "step": 5408,
      "time_per_iteration": 2.7553646564483643
    },
    {
      "auxiliary_loss_clip": 0.01073872,
      "auxiliary_loss_mlp": 0.01019435,
      "balance_loss_clip": 1.03801084,
      "balance_loss_mlp": 1.01402569,
      "epoch": 0.6503937954668431,
      "flos": 28661104442880.0,
      "grad_norm": 1.855293488708696,
      "language_loss": 0.73428291,
      "learning_rate": 1.1507257584750964e-06,
      "loss": 0.75521594,
      "num_input_tokens_seen": 116446010,
      "step": 5409,
      "time_per_iteration": 2.6440794467926025
    },
    {
      "auxiliary_loss_clip": 0.01097998,
      "auxiliary_loss_mlp": 0.01021246,
      "balance_loss_clip": 1.04062927,
      "balance_loss_mlp": 1.01600695,
      "epoch": 0.6505140383574821,
      "flos": 20924633220480.0,
      "grad_norm": 1.7948619534442367,
      "language_loss": 0.77721465,
      "learning_rate": 1.150020570306113e-06,
      "loss": 0.79840714,
      "num_input_tokens_seen": 116465150,
      "step": 5410,
      "time_per_iteration": 2.522829532623291
    },
    {
      "auxiliary_loss_clip": 0.01077435,
      "auxiliary_loss_mlp": 0.0101933,
      "balance_loss_clip": 1.03808212,
      "balance_loss_mlp": 1.01384676,
      "epoch": 0.6506342812481212,
      "flos": 20597347647360.0,
      "grad_norm": 1.7745616136131714,
      "language_loss": 0.7478568,
      "learning_rate": 1.1493155110783338e-06,
      "loss": 0.7688244,
      "num_input_tokens_seen": 116483675,
      "step": 5411,
      "time_per_iteration": 2.5523340702056885
    },
    {
      "auxiliary_loss_clip": 0.01084493,
      "auxiliary_loss_mlp": 0.01020797,
      "balance_loss_clip": 1.04004335,
      "balance_loss_mlp": 1.01517367,
      "epoch": 0.6507545241387603,
      "flos": 30229070071680.0,
      "grad_norm": 2.489376371661779,
      "language_loss": 0.70558721,
      "learning_rate": 1.1486105808987155e-06,
      "loss": 0.72664011,
      "num_input_tokens_seen": 116505165,
      "step": 5412,
      "time_per_iteration": 3.6409101486206055
    },
    {
      "auxiliary_loss_clip": 0.01085304,
      "auxiliary_loss_mlp": 0.01016577,
      "balance_loss_clip": 1.04016399,
      "balance_loss_mlp": 1.01106071,
      "epoch": 0.6508747670293994,
      "flos": 17130111500160.0,
      "grad_norm": 1.9587306810692842,
      "language_loss": 0.80947226,
      "learning_rate": 1.1479057798741947e-06,
      "loss": 0.83049113,
      "num_input_tokens_seen": 116523220,
      "step": 5413,
      "time_per_iteration": 3.3013973236083984
    },
    {
      "auxiliary_loss_clip": 0.0104999,
      "auxiliary_loss_mlp": 0.01004074,
      "balance_loss_clip": 1.05255771,
      "balance_loss_mlp": 1.00203514,
      "epoch": 0.6509950099200384,
      "flos": 68565854044800.0,
      "grad_norm": 0.7854666732867773,
      "language_loss": 0.53293371,
      "learning_rate": 1.14720110811169e-06,
      "loss": 0.55347431,
      "num_input_tokens_seen": 116580450,
      "step": 5414,
      "time_per_iteration": 3.89443039894104
    },
    {
      "auxiliary_loss_clip": 0.01087837,
      "auxiliary_loss_mlp": 0.01020557,
      "balance_loss_clip": 1.04072416,
      "balance_loss_mlp": 1.01526368,
      "epoch": 0.6511152528106776,
      "flos": 22349721237120.0,
      "grad_norm": 2.1284989798172345,
      "language_loss": 0.76784283,
      "learning_rate": 1.146496565718098e-06,
      "loss": 0.78892672,
      "num_input_tokens_seen": 116601020,
      "step": 5415,
      "time_per_iteration": 2.5718793869018555
    },
    {
      "auxiliary_loss_clip": 0.01069814,
      "auxiliary_loss_mlp": 0.0102119,
      "balance_loss_clip": 1.04145896,
      "balance_loss_mlp": 1.01547682,
      "epoch": 0.6512354957013167,
      "flos": 20524259404800.0,
      "grad_norm": 6.26794643491867,
      "language_loss": 0.75584406,
      "learning_rate": 1.1457921528002996e-06,
      "loss": 0.77675414,
      "num_input_tokens_seen": 116619455,
      "step": 5416,
      "time_per_iteration": 2.5428762435913086
    },
    {
      "auxiliary_loss_clip": 0.01096534,
      "auxiliary_loss_mlp": 0.00756805,
      "balance_loss_clip": 1.03884339,
      "balance_loss_mlp": 1.00177991,
      "epoch": 0.6513557385919557,
      "flos": 32339756275200.0,
      "grad_norm": 3.4118423134432487,
      "language_loss": 0.72546065,
      "learning_rate": 1.1450878694651522e-06,
      "loss": 0.74399406,
      "num_input_tokens_seen": 116640020,
      "step": 5417,
      "time_per_iteration": 2.656024932861328
    },
    {
      "auxiliary_loss_clip": 0.01043811,
      "auxiliary_loss_mlp": 0.01021792,
      "balance_loss_clip": 1.03072429,
      "balance_loss_mlp": 1.01639509,
      "epoch": 0.6514759814825949,
      "flos": 12094795969920.0,
      "grad_norm": 3.1757310071430873,
      "language_loss": 0.63274348,
      "learning_rate": 1.1443837158194954e-06,
      "loss": 0.65339947,
      "num_input_tokens_seen": 116655165,
      "step": 5418,
      "time_per_iteration": 2.5718674659729004
    },
    {
      "auxiliary_loss_clip": 0.01056872,
      "auxiliary_loss_mlp": 0.01020904,
      "balance_loss_clip": 1.04084611,
      "balance_loss_mlp": 1.01556087,
      "epoch": 0.651596224373234,
      "flos": 22529010257280.0,
      "grad_norm": 2.474907637398055,
      "language_loss": 0.74571109,
      "learning_rate": 1.1436796919701484e-06,
      "loss": 0.76648885,
      "num_input_tokens_seen": 116673880,
      "step": 5419,
      "time_per_iteration": 3.4515817165374756
    },
    {
      "auxiliary_loss_clip": 0.01070851,
      "auxiliary_loss_mlp": 0.0101762,
      "balance_loss_clip": 1.0420469,
      "balance_loss_mlp": 1.01237178,
      "epoch": 0.651716467263873,
      "flos": 27821442810240.0,
      "grad_norm": 1.8324183028331578,
      "language_loss": 0.61977756,
      "learning_rate": 1.1429757980239115e-06,
      "loss": 0.64066231,
      "num_input_tokens_seen": 116694305,
      "step": 5420,
      "time_per_iteration": 2.6481082439422607
    },
    {
      "auxiliary_loss_clip": 0.01098814,
      "auxiliary_loss_mlp": 0.01027128,
      "balance_loss_clip": 1.04085922,
      "balance_loss_mlp": 1.02140284,
      "epoch": 0.6518367101545122,
      "flos": 24318591534720.0,
      "grad_norm": 2.5143007407879,
      "language_loss": 0.81728232,
      "learning_rate": 1.1422720340875636e-06,
      "loss": 0.83854163,
      "num_input_tokens_seen": 116713055,
      "step": 5421,
      "time_per_iteration": 2.558980703353882
    },
    {
      "auxiliary_loss_clip": 0.01090379,
      "auxiliary_loss_mlp": 0.01020674,
      "balance_loss_clip": 1.04174364,
      "balance_loss_mlp": 1.01559889,
      "epoch": 0.6519569530451512,
      "flos": 20014044675840.0,
      "grad_norm": 2.331104829623262,
      "language_loss": 0.79626966,
      "learning_rate": 1.1415684002678671e-06,
      "loss": 0.81738019,
      "num_input_tokens_seen": 116731815,
      "step": 5422,
      "time_per_iteration": 2.5500106811523438
    },
    {
      "auxiliary_loss_clip": 0.01079927,
      "auxiliary_loss_mlp": 0.01019525,
      "balance_loss_clip": 1.04066586,
      "balance_loss_mlp": 1.0140655,
      "epoch": 0.6520771959357903,
      "flos": 21577990988160.0,
      "grad_norm": 3.0859581481403353,
      "language_loss": 0.77505773,
      "learning_rate": 1.1408648966715617e-06,
      "loss": 0.79605222,
      "num_input_tokens_seen": 116749335,
      "step": 5423,
      "time_per_iteration": 2.6509079933166504
    },
    {
      "auxiliary_loss_clip": 0.01079297,
      "auxiliary_loss_mlp": 0.0102313,
      "balance_loss_clip": 1.03877139,
      "balance_loss_mlp": 1.01779521,
      "epoch": 0.6521974388264293,
      "flos": 22713228627840.0,
      "grad_norm": 1.8667156780807523,
      "language_loss": 0.72745013,
      "learning_rate": 1.1401615234053683e-06,
      "loss": 0.74847436,
      "num_input_tokens_seen": 116768155,
      "step": 5424,
      "time_per_iteration": 2.6327195167541504
    },
    {
      "auxiliary_loss_clip": 0.01073152,
      "auxiliary_loss_mlp": 0.01022281,
      "balance_loss_clip": 1.03759384,
      "balance_loss_mlp": 1.01685977,
      "epoch": 0.6523176817170685,
      "flos": 23005164499200.0,
      "grad_norm": 1.715987560262742,
      "language_loss": 0.75997889,
      "learning_rate": 1.1394582805759885e-06,
      "loss": 0.78093326,
      "num_input_tokens_seen": 116787435,
      "step": 5425,
      "time_per_iteration": 2.5649943351745605
    },
    {
      "auxiliary_loss_clip": 0.01085347,
      "auxiliary_loss_mlp": 0.01022179,
      "balance_loss_clip": 1.03948522,
      "balance_loss_mlp": 1.01691937,
      "epoch": 0.6524379246077076,
      "flos": 21690334494720.0,
      "grad_norm": 1.9352527618796456,
      "language_loss": 0.75933701,
      "learning_rate": 1.1387551682901022e-06,
      "loss": 0.7804122,
      "num_input_tokens_seen": 116808040,
      "step": 5426,
      "time_per_iteration": 2.6092066764831543
    },
    {
      "auxiliary_loss_clip": 0.01061582,
      "auxiliary_loss_mlp": 0.01017739,
      "balance_loss_clip": 1.03754854,
      "balance_loss_mlp": 1.01215696,
      "epoch": 0.6525581674983466,
      "flos": 19392965245440.0,
      "grad_norm": 7.663747293163044,
      "language_loss": 0.7078858,
      "learning_rate": 1.138052186654373e-06,
      "loss": 0.728679,
      "num_input_tokens_seen": 116825510,
      "step": 5427,
      "time_per_iteration": 2.5757431983947754
    },
    {
      "auxiliary_loss_clip": 0.01080489,
      "auxiliary_loss_mlp": 0.01019181,
      "balance_loss_clip": 1.04031968,
      "balance_loss_mlp": 1.01341391,
      "epoch": 0.6526784103889858,
      "flos": 17167357105920.0,
      "grad_norm": 10.800504385138279,
      "language_loss": 0.88340175,
      "learning_rate": 1.1373493357754417e-06,
      "loss": 0.90439844,
      "num_input_tokens_seen": 116844415,
      "step": 5428,
      "time_per_iteration": 2.566051483154297
    },
    {
      "auxiliary_loss_clip": 0.01097709,
      "auxiliary_loss_mlp": 0.01016345,
      "balance_loss_clip": 1.03933883,
      "balance_loss_mlp": 1.01129365,
      "epoch": 0.6527986532796248,
      "flos": 18991150542720.0,
      "grad_norm": 1.9366815182412345,
      "language_loss": 0.77165639,
      "learning_rate": 1.1366466157599303e-06,
      "loss": 0.79279691,
      "num_input_tokens_seen": 116863690,
      "step": 5429,
      "time_per_iteration": 2.465585708618164
    },
    {
      "auxiliary_loss_clip": 0.01052614,
      "auxiliary_loss_mlp": 0.00756799,
      "balance_loss_clip": 1.03791857,
      "balance_loss_mlp": 1.00175643,
      "epoch": 0.6529188961702639,
      "flos": 14239883923200.0,
      "grad_norm": 6.072717796081713,
      "language_loss": 0.76210403,
      "learning_rate": 1.1359440267144412e-06,
      "loss": 0.78019822,
      "num_input_tokens_seen": 116881145,
      "step": 5430,
      "time_per_iteration": 2.6274449825286865
    },
    {
      "auxiliary_loss_clip": 0.01088196,
      "auxiliary_loss_mlp": 0.01017748,
      "balance_loss_clip": 1.04028761,
      "balance_loss_mlp": 1.01274121,
      "epoch": 0.653039139060903,
      "flos": 36685795564800.0,
      "grad_norm": 2.3626398588690405,
      "language_loss": 0.74151295,
      "learning_rate": 1.1352415687455556e-06,
      "loss": 0.76257241,
      "num_input_tokens_seen": 116902405,
      "step": 5431,
      "time_per_iteration": 2.641491413116455
    },
    {
      "auxiliary_loss_clip": 0.01086519,
      "auxiliary_loss_mlp": 0.01026475,
      "balance_loss_clip": 1.04211712,
      "balance_loss_mlp": 1.02082455,
      "epoch": 0.6531593819515421,
      "flos": 25378731273600.0,
      "grad_norm": 3.251637210219771,
      "language_loss": 0.63575715,
      "learning_rate": 1.1345392419598362e-06,
      "loss": 0.65688711,
      "num_input_tokens_seen": 116921285,
      "step": 5432,
      "time_per_iteration": 2.611699342727661
    },
    {
      "auxiliary_loss_clip": 0.01087519,
      "auxiliary_loss_mlp": 0.01014644,
      "balance_loss_clip": 1.0398221,
      "balance_loss_mlp": 1.00932384,
      "epoch": 0.6532796248421812,
      "flos": 21180650618880.0,
      "grad_norm": 1.7125329453186522,
      "language_loss": 0.71953487,
      "learning_rate": 1.1338370464638263e-06,
      "loss": 0.74055648,
      "num_input_tokens_seen": 116940685,
      "step": 5433,
      "time_per_iteration": 2.5246009826660156
    },
    {
      "auxiliary_loss_clip": 0.01097712,
      "auxiliary_loss_mlp": 0.01018041,
      "balance_loss_clip": 1.03998935,
      "balance_loss_mlp": 1.01272094,
      "epoch": 0.6533998677328203,
      "flos": 17677875179520.0,
      "grad_norm": 2.3947898931341842,
      "language_loss": 0.64075077,
      "learning_rate": 1.1331349823640474e-06,
      "loss": 0.66190827,
      "num_input_tokens_seen": 116958115,
      "step": 5434,
      "time_per_iteration": 2.510118246078491
    },
    {
      "auxiliary_loss_clip": 0.01089366,
      "auxiliary_loss_mlp": 0.00756366,
      "balance_loss_clip": 1.04248977,
      "balance_loss_mlp": 1.00168252,
      "epoch": 0.6535201106234594,
      "flos": 28402774041600.0,
      "grad_norm": 2.431373606095066,
      "language_loss": 0.78066492,
      "learning_rate": 1.132433049767003e-06,
      "loss": 0.79912221,
      "num_input_tokens_seen": 116976030,
      "step": 5435,
      "time_per_iteration": 2.5552592277526855
    },
    {
      "auxiliary_loss_clip": 0.01072044,
      "auxiliary_loss_mlp": 0.01022426,
      "balance_loss_clip": 1.03789318,
      "balance_loss_mlp": 1.01746058,
      "epoch": 0.6536403535140984,
      "flos": 23588922487680.0,
      "grad_norm": 1.7433765338090954,
      "language_loss": 0.81095815,
      "learning_rate": 1.1317312487791748e-06,
      "loss": 0.83190286,
      "num_input_tokens_seen": 116997680,
      "step": 5436,
      "time_per_iteration": 2.6216580867767334
    },
    {
      "auxiliary_loss_clip": 0.01088752,
      "auxiliary_loss_mlp": 0.01023021,
      "balance_loss_clip": 1.04054666,
      "balance_loss_mlp": 1.01766515,
      "epoch": 0.6537605964047376,
      "flos": 21581593205760.0,
      "grad_norm": 2.234347699191942,
      "language_loss": 0.73260689,
      "learning_rate": 1.1310295795070253e-06,
      "loss": 0.75372463,
      "num_input_tokens_seen": 117017620,
      "step": 5437,
      "time_per_iteration": 3.2845404148101807
    },
    {
      "auxiliary_loss_clip": 0.0105096,
      "auxiliary_loss_mlp": 0.0102233,
      "balance_loss_clip": 1.03735113,
      "balance_loss_mlp": 1.01693571,
      "epoch": 0.6538808392953767,
      "flos": 26836438890240.0,
      "grad_norm": 1.6672702432734623,
      "language_loss": 0.80819321,
      "learning_rate": 1.1303280420569982e-06,
      "loss": 0.82892609,
      "num_input_tokens_seen": 117039505,
      "step": 5438,
      "time_per_iteration": 2.6763885021209717
    },
    {
      "auxiliary_loss_clip": 0.01087735,
      "auxiliary_loss_mlp": 0.01017792,
      "balance_loss_clip": 1.03982925,
      "balance_loss_mlp": 1.01253164,
      "epoch": 0.6540010821860157,
      "flos": 30740915278080.0,
      "grad_norm": 1.857720056969995,
      "language_loss": 0.77459186,
      "learning_rate": 1.1296266365355158e-06,
      "loss": 0.79564708,
      "num_input_tokens_seen": 117062890,
      "step": 5439,
      "time_per_iteration": 3.420686721801758
    },
    {
      "auxiliary_loss_clip": 0.01059268,
      "auxiliary_loss_mlp": 0.01021496,
      "balance_loss_clip": 1.03622222,
      "balance_loss_mlp": 1.01605451,
      "epoch": 0.6541213250766549,
      "flos": 26909602968960.0,
      "grad_norm": 1.9336729375192352,
      "language_loss": 0.74019492,
      "learning_rate": 1.1289253630489806e-06,
      "loss": 0.76100254,
      "num_input_tokens_seen": 117083940,
      "step": 5440,
      "time_per_iteration": 3.3273067474365234
    },
    {
      "auxiliary_loss_clip": 0.01089967,
      "auxiliary_loss_mlp": 0.01024037,
      "balance_loss_clip": 1.04005671,
      "balance_loss_mlp": 1.01857138,
      "epoch": 0.6542415679672939,
      "flos": 19174420961280.0,
      "grad_norm": 2.2886839374033134,
      "language_loss": 0.72050852,
      "learning_rate": 1.1282242217037753e-06,
      "loss": 0.74164855,
      "num_input_tokens_seen": 117101440,
      "step": 5441,
      "time_per_iteration": 2.5755562782287598
    },
    {
      "auxiliary_loss_clip": 0.01055129,
      "auxiliary_loss_mlp": 0.01018611,
      "balance_loss_clip": 1.03662133,
      "balance_loss_mlp": 1.01311839,
      "epoch": 0.654361810857933,
      "flos": 48176888636160.0,
      "grad_norm": 2.1542158237450644,
      "language_loss": 0.6199311,
      "learning_rate": 1.127523212606262e-06,
      "loss": 0.64066839,
      "num_input_tokens_seen": 117124265,
      "step": 5442,
      "time_per_iteration": 2.85512638092041
    },
    {
      "auxiliary_loss_clip": 0.01082775,
      "auxiliary_loss_mlp": 0.01020466,
      "balance_loss_clip": 1.03786373,
      "balance_loss_mlp": 1.01501536,
      "epoch": 0.6544820537485722,
      "flos": 26945597278080.0,
      "grad_norm": 1.7758242761186407,
      "language_loss": 0.73126864,
      "learning_rate": 1.1268223358627835e-06,
      "loss": 0.7523011,
      "num_input_tokens_seen": 117146755,
      "step": 5443,
      "time_per_iteration": 2.6004252433776855
    },
    {
      "auxiliary_loss_clip": 0.01099151,
      "auxiliary_loss_mlp": 0.01017415,
      "balance_loss_clip": 1.04088593,
      "balance_loss_mlp": 1.01177359,
      "epoch": 0.6546022966392112,
      "flos": 20888411402880.0,
      "grad_norm": 9.385036371972763,
      "language_loss": 0.71867108,
      "learning_rate": 1.126121591579663e-06,
      "loss": 0.73983681,
      "num_input_tokens_seen": 117165960,
      "step": 5444,
      "time_per_iteration": 2.4867289066314697
    },
    {
      "auxiliary_loss_clip": 0.01084948,
      "auxiliary_loss_mlp": 0.01020232,
      "balance_loss_clip": 1.04069412,
      "balance_loss_mlp": 1.01512074,
      "epoch": 0.6547225395298503,
      "flos": 24939026357760.0,
      "grad_norm": 1.6096061736752025,
      "language_loss": 0.69154203,
      "learning_rate": 1.1254209798632018e-06,
      "loss": 0.71259385,
      "num_input_tokens_seen": 117186980,
      "step": 5445,
      "time_per_iteration": 2.5656425952911377
    },
    {
      "auxiliary_loss_clip": 0.01030776,
      "auxiliary_loss_mlp": 0.0101842,
      "balance_loss_clip": 1.03316569,
      "balance_loss_mlp": 1.01291239,
      "epoch": 0.6548427824204894,
      "flos": 22568189685120.0,
      "grad_norm": 1.8472330119319524,
      "language_loss": 0.84500432,
      "learning_rate": 1.124720500819683e-06,
      "loss": 0.86549628,
      "num_input_tokens_seen": 117205135,
      "step": 5446,
      "time_per_iteration": 3.489738702774048
    },
    {
      "auxiliary_loss_clip": 0.01098809,
      "auxiliary_loss_mlp": 0.01023572,
      "balance_loss_clip": 1.04147339,
      "balance_loss_mlp": 1.01785326,
      "epoch": 0.6549630253111285,
      "flos": 18444486487680.0,
      "grad_norm": 2.027185998160215,
      "language_loss": 0.82408834,
      "learning_rate": 1.1240201545553682e-06,
      "loss": 0.84531212,
      "num_input_tokens_seen": 117222935,
      "step": 5447,
      "time_per_iteration": 2.778864622116089
    },
    {
      "auxiliary_loss_clip": 0.01061729,
      "auxiliary_loss_mlp": 0.01022286,
      "balance_loss_clip": 1.03811693,
      "balance_loss_mlp": 1.01686811,
      "epoch": 0.6550832682017675,
      "flos": 25189393962240.0,
      "grad_norm": 1.8477737375598913,
      "language_loss": 0.73450279,
      "learning_rate": 1.1233199411764987e-06,
      "loss": 0.75534296,
      "num_input_tokens_seen": 117242370,
      "step": 5448,
      "time_per_iteration": 2.679152250289917
    },
    {
      "auxiliary_loss_clip": 0.01063592,
      "auxiliary_loss_mlp": 0.0101942,
      "balance_loss_clip": 1.03700233,
      "balance_loss_mlp": 1.01418662,
      "epoch": 0.6552035110924067,
      "flos": 22750398397440.0,
      "grad_norm": 2.346681726828668,
      "language_loss": 0.69191653,
      "learning_rate": 1.1226198607892978e-06,
      "loss": 0.71274662,
      "num_input_tokens_seen": 117262930,
      "step": 5449,
      "time_per_iteration": 2.574234962463379
    },
    {
      "auxiliary_loss_clip": 0.01044312,
      "auxiliary_loss_mlp": 0.01017362,
      "balance_loss_clip": 1.03268766,
      "balance_loss_mlp": 1.01219118,
      "epoch": 0.6553237539830458,
      "flos": 21801350868480.0,
      "grad_norm": 1.7663113922546687,
      "language_loss": 0.79996789,
      "learning_rate": 1.1219199134999664e-06,
      "loss": 0.82058465,
      "num_input_tokens_seen": 117281430,
      "step": 5450,
      "time_per_iteration": 2.6696646213531494
    },
    {
      "auxiliary_loss_clip": 0.01062786,
      "auxiliary_loss_mlp": 0.0102083,
      "balance_loss_clip": 1.03642344,
      "balance_loss_mlp": 1.01476169,
      "epoch": 0.6554439968736848,
      "flos": 20889359354880.0,
      "grad_norm": 7.134695074187984,
      "language_loss": 0.78881258,
      "learning_rate": 1.1212200994146863e-06,
      "loss": 0.80964875,
      "num_input_tokens_seen": 117299185,
      "step": 5451,
      "time_per_iteration": 2.539306163787842
    },
    {
      "auxiliary_loss_clip": 0.01061851,
      "auxiliary_loss_mlp": 0.01020688,
      "balance_loss_clip": 1.03528392,
      "balance_loss_mlp": 1.01536584,
      "epoch": 0.655564239764324,
      "flos": 16140633246720.0,
      "grad_norm": 2.159278314350945,
      "language_loss": 0.75808609,
      "learning_rate": 1.120520418639618e-06,
      "loss": 0.77891147,
      "num_input_tokens_seen": 117317720,
      "step": 5452,
      "time_per_iteration": 2.6546363830566406
    },
    {
      "auxiliary_loss_clip": 0.01083859,
      "auxiliary_loss_mlp": 0.01023205,
      "balance_loss_clip": 1.03970432,
      "balance_loss_mlp": 1.01799273,
      "epoch": 0.655684482654963,
      "flos": 29572944284160.0,
      "grad_norm": 2.2829321562110882,
      "language_loss": 0.83410829,
      "learning_rate": 1.119820871280903e-06,
      "loss": 0.85517895,
      "num_input_tokens_seen": 117338795,
      "step": 5453,
      "time_per_iteration": 2.5862674713134766
    },
    {
      "auxiliary_loss_clip": 0.01090339,
      "auxiliary_loss_mlp": 0.01020889,
      "balance_loss_clip": 1.0421052,
      "balance_loss_mlp": 1.01569474,
      "epoch": 0.6558047255456021,
      "flos": 29792019421440.0,
      "grad_norm": 2.004787417841824,
      "language_loss": 0.73478317,
      "learning_rate": 1.1191214574446614e-06,
      "loss": 0.7558955,
      "num_input_tokens_seen": 117359040,
      "step": 5454,
      "time_per_iteration": 2.663632869720459
    },
    {
      "auxiliary_loss_clip": 0.01073196,
      "auxiliary_loss_mlp": 0.01019719,
      "balance_loss_clip": 1.036852,
      "balance_loss_mlp": 1.01452148,
      "epoch": 0.6559249684362413,
      "flos": 29061705767040.0,
      "grad_norm": 1.5145353131012793,
      "language_loss": 0.79959977,
      "learning_rate": 1.118422177236995e-06,
      "loss": 0.82052886,
      "num_input_tokens_seen": 117380865,
      "step": 5455,
      "time_per_iteration": 2.6235711574554443
    },
    {
      "auxiliary_loss_clip": 0.01072707,
      "auxiliary_loss_mlp": 0.01025271,
      "balance_loss_clip": 1.03771877,
      "balance_loss_mlp": 1.0192126,
      "epoch": 0.6560452113268803,
      "flos": 20227280428800.0,
      "grad_norm": 2.142720770353553,
      "language_loss": 0.85904092,
      "learning_rate": 1.1177230307639835e-06,
      "loss": 0.88002068,
      "num_input_tokens_seen": 117398405,
      "step": 5456,
      "time_per_iteration": 2.58359432220459
    },
    {
      "auxiliary_loss_clip": 0.01064408,
      "auxiliary_loss_mlp": 0.0101796,
      "balance_loss_clip": 1.03900301,
      "balance_loss_mlp": 1.0128336,
      "epoch": 0.6561654542175194,
      "flos": 25047843482880.0,
      "grad_norm": 2.185094215514908,
      "language_loss": 0.78867567,
      "learning_rate": 1.1170240181316865e-06,
      "loss": 0.80949938,
      "num_input_tokens_seen": 117419850,
      "step": 5457,
      "time_per_iteration": 2.6134774684906006
    },
    {
      "auxiliary_loss_clip": 0.01063642,
      "auxiliary_loss_mlp": 0.0102121,
      "balance_loss_clip": 1.03637588,
      "balance_loss_mlp": 1.0156343,
      "epoch": 0.6562856971081584,
      "flos": 22858912177920.0,
      "grad_norm": 2.3356596125880995,
      "language_loss": 0.79948092,
      "learning_rate": 1.1163251394461442e-06,
      "loss": 0.82032943,
      "num_input_tokens_seen": 117438330,
      "step": 5458,
      "time_per_iteration": 2.618616819381714
    },
    {
      "auxiliary_loss_clip": 0.0109096,
      "auxiliary_loss_mlp": 0.01020841,
      "balance_loss_clip": 1.04197717,
      "balance_loss_mlp": 1.01541412,
      "epoch": 0.6564059399987976,
      "flos": 18874143112320.0,
      "grad_norm": 1.970595082377823,
      "language_loss": 0.82664865,
      "learning_rate": 1.1156263948133746e-06,
      "loss": 0.84776664,
      "num_input_tokens_seen": 117454985,
      "step": 5459,
      "time_per_iteration": 2.496326446533203
    },
    {
      "auxiliary_loss_clip": 0.01047386,
      "auxiliary_loss_mlp": 0.0075677,
      "balance_loss_clip": 1.03566253,
      "balance_loss_mlp": 1.00180101,
      "epoch": 0.6565261828894366,
      "flos": 25486562528640.0,
      "grad_norm": 2.761528051936116,
      "language_loss": 0.77626967,
      "learning_rate": 1.1149277843393787e-06,
      "loss": 0.79431123,
      "num_input_tokens_seen": 117476145,
      "step": 5460,
      "time_per_iteration": 2.6936933994293213
    },
    {
      "auxiliary_loss_clip": 0.01038673,
      "auxiliary_loss_mlp": 0.00756808,
      "balance_loss_clip": 1.03609467,
      "balance_loss_mlp": 1.00190449,
      "epoch": 0.6566464257800757,
      "flos": 19685583642240.0,
      "grad_norm": 2.9078525074275303,
      "language_loss": 0.63070953,
      "learning_rate": 1.1142293081301342e-06,
      "loss": 0.64866436,
      "num_input_tokens_seen": 117494025,
      "step": 5461,
      "time_per_iteration": 2.699049949645996
    },
    {
      "auxiliary_loss_clip": 0.01066849,
      "auxiliary_loss_mlp": 0.01018193,
      "balance_loss_clip": 1.03400791,
      "balance_loss_mlp": 1.01320982,
      "epoch": 0.6567666686707149,
      "flos": 23516403016320.0,
      "grad_norm": 1.6521597994028254,
      "language_loss": 0.68041092,
      "learning_rate": 1.1135309662915995e-06,
      "loss": 0.70126128,
      "num_input_tokens_seen": 117514190,
      "step": 5462,
      "time_per_iteration": 2.6286275386810303
    },
    {
      "auxiliary_loss_clip": 0.01046464,
      "auxiliary_loss_mlp": 0.01019593,
      "balance_loss_clip": 1.03527927,
      "balance_loss_mlp": 1.01439822,
      "epoch": 0.6568869115613539,
      "flos": 32784125114880.0,
      "grad_norm": 2.746423796335615,
      "language_loss": 0.60439765,
      "learning_rate": 1.112832758929712e-06,
      "loss": 0.62505823,
      "num_input_tokens_seen": 117536800,
      "step": 5463,
      "time_per_iteration": 3.5450477600097656
    },
    {
      "auxiliary_loss_clip": 0.01076383,
      "auxiliary_loss_mlp": 0.01023271,
      "balance_loss_clip": 1.03518963,
      "balance_loss_mlp": 1.01805246,
      "epoch": 0.657007154451993,
      "flos": 18444410651520.0,
      "grad_norm": 1.937766809666335,
      "language_loss": 0.75361443,
      "learning_rate": 1.11213468615039e-06,
      "loss": 0.77461094,
      "num_input_tokens_seen": 117556230,
      "step": 5464,
      "time_per_iteration": 2.5217738151550293
    },
    {
      "auxiliary_loss_clip": 0.01033809,
      "auxiliary_loss_mlp": 0.01019474,
      "balance_loss_clip": 1.03529716,
      "balance_loss_mlp": 1.0142529,
      "epoch": 0.6571273973426321,
      "flos": 25159125283200.0,
      "grad_norm": 1.8132179033500149,
      "language_loss": 0.75201797,
      "learning_rate": 1.1114367480595292e-06,
      "loss": 0.77255082,
      "num_input_tokens_seen": 117577310,
      "step": 5465,
      "time_per_iteration": 3.498230457305908
    },
    {
      "auxiliary_loss_clip": 0.01032867,
      "auxiliary_loss_mlp": 0.01025815,
      "balance_loss_clip": 1.03939342,
      "balance_loss_mlp": 1.02011347,
      "epoch": 0.6572476402332712,
      "flos": 17531736612480.0,
      "grad_norm": 1.9419615439982068,
      "language_loss": 0.81397164,
      "learning_rate": 1.1107389447630086e-06,
      "loss": 0.83455849,
      "num_input_tokens_seen": 117596010,
      "step": 5466,
      "time_per_iteration": 3.631183624267578
    },
    {
      "auxiliary_loss_clip": 0.01076881,
      "auxiliary_loss_mlp": 0.00756422,
      "balance_loss_clip": 1.03907633,
      "balance_loss_mlp": 1.00191045,
      "epoch": 0.6573678831239103,
      "flos": 17015872089600.0,
      "grad_norm": 2.840304522350582,
      "language_loss": 0.78376323,
      "learning_rate": 1.1100412763666818e-06,
      "loss": 0.80209625,
      "num_input_tokens_seen": 117611270,
      "step": 5467,
      "time_per_iteration": 2.557816982269287
    },
    {
      "auxiliary_loss_clip": 0.01072685,
      "auxiliary_loss_mlp": 0.01018523,
      "balance_loss_clip": 1.0379405,
      "balance_loss_mlp": 1.01301241,
      "epoch": 0.6574881260145494,
      "flos": 23912074990080.0,
      "grad_norm": 1.6462810942903339,
      "language_loss": 0.80003321,
      "learning_rate": 1.1093437429763865e-06,
      "loss": 0.82094526,
      "num_input_tokens_seen": 117631535,
      "step": 5468,
      "time_per_iteration": 2.613736629486084
    },
    {
      "auxiliary_loss_clip": 0.01085855,
      "auxiliary_loss_mlp": 0.01016296,
      "balance_loss_clip": 1.03992295,
      "balance_loss_mlp": 1.0112679,
      "epoch": 0.6576083689051885,
      "flos": 11220050062080.0,
      "grad_norm": 2.017537872008367,
      "language_loss": 0.73577374,
      "learning_rate": 1.1086463446979361e-06,
      "loss": 0.75679529,
      "num_input_tokens_seen": 117649885,
      "step": 5469,
      "time_per_iteration": 2.506765127182007
    },
    {
      "auxiliary_loss_clip": 0.01087166,
      "auxiliary_loss_mlp": 0.01018787,
      "balance_loss_clip": 1.04047847,
      "balance_loss_mlp": 1.01348519,
      "epoch": 0.6577286117958275,
      "flos": 22457742082560.0,
      "grad_norm": 2.401752736319286,
      "language_loss": 0.77786827,
      "learning_rate": 1.1079490816371277e-06,
      "loss": 0.79892778,
      "num_input_tokens_seen": 117669650,
      "step": 5470,
      "time_per_iteration": 2.563321590423584
    },
    {
      "auxiliary_loss_clip": 0.01081781,
      "auxiliary_loss_mlp": 0.00756628,
      "balance_loss_clip": 1.03649163,
      "balance_loss_mlp": 1.00193322,
      "epoch": 0.6578488546864667,
      "flos": 21874363274880.0,
      "grad_norm": 2.3326286102988787,
      "language_loss": 0.74733174,
      "learning_rate": 1.1072519538997352e-06,
      "loss": 0.76571584,
      "num_input_tokens_seen": 117688790,
      "step": 5471,
      "time_per_iteration": 3.358574151992798
    },
    {
      "auxiliary_loss_clip": 0.0107272,
      "auxiliary_loss_mlp": 0.01017659,
      "balance_loss_clip": 1.0364635,
      "balance_loss_mlp": 1.01231825,
      "epoch": 0.6579690975771058,
      "flos": 23545647907200.0,
      "grad_norm": 2.086069415685247,
      "language_loss": 0.82195699,
      "learning_rate": 1.1065549615915095e-06,
      "loss": 0.84286082,
      "num_input_tokens_seen": 117708620,
      "step": 5472,
      "time_per_iteration": 2.5847344398498535
    },
    {
      "auxiliary_loss_clip": 0.01080124,
      "auxiliary_loss_mlp": 0.01018866,
      "balance_loss_clip": 1.03667402,
      "balance_loss_mlp": 1.01331997,
      "epoch": 0.6580893404677448,
      "flos": 32746727836800.0,
      "grad_norm": 2.5808939134027864,
      "language_loss": 0.78391945,
      "learning_rate": 1.105858104818187e-06,
      "loss": 0.80490935,
      "num_input_tokens_seen": 117729775,
      "step": 5473,
      "time_per_iteration": 2.6021392345428467
    },
    {
      "auxiliary_loss_clip": 0.01086935,
      "auxiliary_loss_mlp": 0.01020187,
      "balance_loss_clip": 1.04056108,
      "balance_loss_mlp": 1.01475751,
      "epoch": 0.658209583358384,
      "flos": 15889962297600.0,
      "grad_norm": 2.972039516721739,
      "language_loss": 0.7536912,
      "learning_rate": 1.105161383685478e-06,
      "loss": 0.77476245,
      "num_input_tokens_seen": 117746160,
      "step": 5474,
      "time_per_iteration": 2.5188539028167725
    },
    {
      "auxiliary_loss_clip": 0.01015194,
      "auxiliary_loss_mlp": 0.0100247,
      "balance_loss_clip": 1.01799989,
      "balance_loss_mlp": 1.0005511,
      "epoch": 0.658329826249023,
      "flos": 62702176469760.0,
      "grad_norm": 0.7261141489971761,
      "language_loss": 0.56282341,
      "learning_rate": 1.1044647982990771e-06,
      "loss": 0.58300006,
      "num_input_tokens_seen": 117808045,
      "step": 5475,
      "time_per_iteration": 3.196823835372925
    },
    {
      "auxiliary_loss_clip": 0.01070881,
      "auxiliary_loss_mlp": 0.01020432,
      "balance_loss_clip": 1.03694797,
      "balance_loss_mlp": 1.01501095,
      "epoch": 0.6584500691396621,
      "flos": 31725312508800.0,
      "grad_norm": 2.5059381274578505,
      "language_loss": 0.64595282,
      "learning_rate": 1.1037683487646536e-06,
      "loss": 0.666866,
      "num_input_tokens_seen": 117828330,
      "step": 5476,
      "time_per_iteration": 2.634112596511841
    },
    {
      "auxiliary_loss_clip": 0.01071307,
      "auxiliary_loss_mlp": 0.00756828,
      "balance_loss_clip": 1.03798544,
      "balance_loss_mlp": 1.00180531,
      "epoch": 0.6585703120303013,
      "flos": 18408075079680.0,
      "grad_norm": 1.8304381495361814,
      "language_loss": 0.7712692,
      "learning_rate": 1.1030720351878583e-06,
      "loss": 0.78955054,
      "num_input_tokens_seen": 117846450,
      "step": 5477,
      "time_per_iteration": 2.5915427207946777
    },
    {
      "auxiliary_loss_clip": 0.0102713,
      "auxiliary_loss_mlp": 0.01002275,
      "balance_loss_clip": 1.01898944,
      "balance_loss_mlp": 1.00029647,
      "epoch": 0.6586905549209403,
      "flos": 58315478947200.0,
      "grad_norm": 0.8245597413602381,
      "language_loss": 0.5758357,
      "learning_rate": 1.102375857674323e-06,
      "loss": 0.59612978,
      "num_input_tokens_seen": 117908365,
      "step": 5478,
      "time_per_iteration": 3.132662534713745
    },
    {
      "auxiliary_loss_clip": 0.01079157,
      "auxiliary_loss_mlp": 0.01017694,
      "balance_loss_clip": 1.04069173,
      "balance_loss_mlp": 1.01268435,
      "epoch": 0.6588107978115794,
      "flos": 22784762229120.0,
      "grad_norm": 2.1558966883177555,
      "language_loss": 0.904755,
      "learning_rate": 1.1016798163296561e-06,
      "loss": 0.92572349,
      "num_input_tokens_seen": 117927565,
      "step": 5479,
      "time_per_iteration": 2.6403417587280273
    },
    {
      "auxiliary_loss_clip": 0.01080997,
      "auxiliary_loss_mlp": 0.01015369,
      "balance_loss_clip": 1.03980136,
      "balance_loss_mlp": 1.01003432,
      "epoch": 0.6589310407022185,
      "flos": 20669601692160.0,
      "grad_norm": 1.9937398416362042,
      "language_loss": 0.65965283,
      "learning_rate": 1.1009839112594471e-06,
      "loss": 0.6806165,
      "num_input_tokens_seen": 117945590,
      "step": 5480,
      "time_per_iteration": 2.527122735977173
    },
    {
      "auxiliary_loss_clip": 0.01085668,
      "auxiliary_loss_mlp": 0.01021794,
      "balance_loss_clip": 1.03944707,
      "balance_loss_mlp": 1.01643848,
      "epoch": 0.6590512835928576,
      "flos": 25633004440320.0,
      "grad_norm": 2.1327412698347676,
      "language_loss": 0.72008657,
      "learning_rate": 1.1002881425692638e-06,
      "loss": 0.74116123,
      "num_input_tokens_seen": 117966020,
      "step": 5481,
      "time_per_iteration": 2.652634859085083
    },
    {
      "auxiliary_loss_clip": 0.01087203,
      "auxiliary_loss_mlp": 0.01020526,
      "balance_loss_clip": 1.03954041,
      "balance_loss_mlp": 1.01523614,
      "epoch": 0.6591715264834966,
      "flos": 23728008291840.0,
      "grad_norm": 1.6822781712404093,
      "language_loss": 0.75123268,
      "learning_rate": 1.0995925103646532e-06,
      "loss": 0.77230996,
      "num_input_tokens_seen": 117984620,
      "step": 5482,
      "time_per_iteration": 2.516392946243286
    },
    {
      "auxiliary_loss_clip": 0.01062465,
      "auxiliary_loss_mlp": 0.01019465,
      "balance_loss_clip": 1.03861153,
      "balance_loss_mlp": 1.01402593,
      "epoch": 0.6592917693741358,
      "flos": 35776837497600.0,
      "grad_norm": 1.734613293878135,
      "language_loss": 0.66777074,
      "learning_rate": 1.0988970147511437e-06,
      "loss": 0.68859005,
      "num_input_tokens_seen": 118006500,
      "step": 5483,
      "time_per_iteration": 2.7327146530151367
    },
    {
      "auxiliary_loss_clip": 0.01072117,
      "auxiliary_loss_mlp": 0.01022504,
      "balance_loss_clip": 1.03959429,
      "balance_loss_mlp": 1.01717579,
      "epoch": 0.6594120122647749,
      "flos": 21398929476480.0,
      "grad_norm": 4.1316223969564945,
      "language_loss": 0.80518514,
      "learning_rate": 1.0982016558342405e-06,
      "loss": 0.82613134,
      "num_input_tokens_seen": 118025470,
      "step": 5484,
      "time_per_iteration": 2.5443806648254395
    },
    {
      "auxiliary_loss_clip": 0.01098901,
      "auxiliary_loss_mlp": 0.01017805,
      "balance_loss_clip": 1.0412854,
      "balance_loss_mlp": 1.01258671,
      "epoch": 0.6595322551554139,
      "flos": 19353709981440.0,
      "grad_norm": 2.3742396597073623,
      "language_loss": 0.71348751,
      "learning_rate": 1.0975064337194291e-06,
      "loss": 0.73465466,
      "num_input_tokens_seen": 118043515,
      "step": 5485,
      "time_per_iteration": 2.5089004039764404
    },
    {
      "auxiliary_loss_clip": 0.01061477,
      "auxiliary_loss_mlp": 0.01030323,
      "balance_loss_clip": 1.04125357,
      "balance_loss_mlp": 1.02493227,
      "epoch": 0.6596524980460531,
      "flos": 16839009826560.0,
      "grad_norm": 1.6377878014161424,
      "language_loss": 0.70226812,
      "learning_rate": 1.0968113485121743e-06,
      "loss": 0.72318608,
      "num_input_tokens_seen": 118063105,
      "step": 5486,
      "time_per_iteration": 2.6169955730438232
    },
    {
      "auxiliary_loss_clip": 0.0108635,
      "auxiliary_loss_mlp": 0.00756679,
      "balance_loss_clip": 1.03877711,
      "balance_loss_mlp": 1.00178456,
      "epoch": 0.6597727409366921,
      "flos": 21800706261120.0,
      "grad_norm": 4.326722465183868,
      "language_loss": 0.80168527,
      "learning_rate": 1.0961164003179185e-06,
      "loss": 0.82011557,
      "num_input_tokens_seen": 118081615,
      "step": 5487,
      "time_per_iteration": 2.563870906829834
    },
    {
      "auxiliary_loss_clip": 0.0106354,
      "auxiliary_loss_mlp": 0.01022317,
      "balance_loss_clip": 1.03762686,
      "balance_loss_mlp": 1.0168153,
      "epoch": 0.6598929838273312,
      "flos": 23732861806080.0,
      "grad_norm": 2.2944431460051007,
      "language_loss": 0.83900785,
      "learning_rate": 1.0954215892420884e-06,
      "loss": 0.85986638,
      "num_input_tokens_seen": 118102315,
      "step": 5488,
      "time_per_iteration": 2.599179267883301
    },
    {
      "auxiliary_loss_clip": 0.01058865,
      "auxiliary_loss_mlp": 0.01026096,
      "balance_loss_clip": 1.03503358,
      "balance_loss_mlp": 1.02023959,
      "epoch": 0.6600132267179702,
      "flos": 19976571561600.0,
      "grad_norm": 1.6364481165556584,
      "language_loss": 0.70965368,
      "learning_rate": 1.094726915390082e-06,
      "loss": 0.73050332,
      "num_input_tokens_seen": 118120650,
      "step": 5489,
      "time_per_iteration": 3.398759603500366
    },
    {
      "auxiliary_loss_clip": 0.01086371,
      "auxiliary_loss_mlp": 0.01022654,
      "balance_loss_clip": 1.04028344,
      "balance_loss_mlp": 1.01727486,
      "epoch": 0.6601334696086094,
      "flos": 22344640214400.0,
      "grad_norm": 2.0595421926652606,
      "language_loss": 0.69597191,
      "learning_rate": 1.0940323788672836e-06,
      "loss": 0.71706212,
      "num_input_tokens_seen": 118139825,
      "step": 5490,
      "time_per_iteration": 3.269906759262085
    },
    {
      "auxiliary_loss_clip": 0.01084087,
      "auxiliary_loss_mlp": 0.0101971,
      "balance_loss_clip": 1.04057372,
      "balance_loss_mlp": 1.01446223,
      "epoch": 0.6602537124992485,
      "flos": 25705485993600.0,
      "grad_norm": 1.7705243655546827,
      "language_loss": 0.73818362,
      "learning_rate": 1.0933379797790522e-06,
      "loss": 0.75922155,
      "num_input_tokens_seen": 118159240,
      "step": 5491,
      "time_per_iteration": 2.5567424297332764
    },
    {
      "auxiliary_loss_clip": 0.01097695,
      "auxiliary_loss_mlp": 0.0102211,
      "balance_loss_clip": 1.04071605,
      "balance_loss_mlp": 1.01640916,
      "epoch": 0.6603739553898875,
      "flos": 25850942035200.0,
      "grad_norm": 2.9606034259793876,
      "language_loss": 0.71580285,
      "learning_rate": 1.0926437182307293e-06,
      "loss": 0.73700082,
      "num_input_tokens_seen": 118178050,
      "step": 5492,
      "time_per_iteration": 3.3764657974243164
    },
    {
      "auxiliary_loss_clip": 0.01075001,
      "auxiliary_loss_mlp": 0.01022628,
      "balance_loss_clip": 1.0381763,
      "balance_loss_mlp": 1.01721001,
      "epoch": 0.6604941982805267,
      "flos": 24572523438720.0,
      "grad_norm": 1.919595274886001,
      "language_loss": 0.78092575,
      "learning_rate": 1.0919495943276338e-06,
      "loss": 0.801902,
      "num_input_tokens_seen": 118199070,
      "step": 5493,
      "time_per_iteration": 2.658172607421875
    },
    {
      "auxiliary_loss_clip": 0.01068077,
      "auxiliary_loss_mlp": 0.01019054,
      "balance_loss_clip": 1.03726077,
      "balance_loss_mlp": 1.0133884,
      "epoch": 0.6606144411711657,
      "flos": 13263487407360.0,
      "grad_norm": 2.6595119544543024,
      "language_loss": 0.76696038,
      "learning_rate": 1.0912556081750611e-06,
      "loss": 0.78783172,
      "num_input_tokens_seen": 118217000,
      "step": 5494,
      "time_per_iteration": 2.755927085876465
    },
    {
      "auxiliary_loss_clip": 0.01069091,
      "auxiliary_loss_mlp": 0.01021119,
      "balance_loss_clip": 1.03682351,
      "balance_loss_mlp": 1.01608872,
      "epoch": 0.6607346840618048,
      "flos": 25157608560000.0,
      "grad_norm": 1.9536797733683502,
      "language_loss": 0.76790649,
      "learning_rate": 1.0905617598782909e-06,
      "loss": 0.78880858,
      "num_input_tokens_seen": 118237205,
      "step": 5495,
      "time_per_iteration": 2.6616692543029785
    },
    {
      "auxiliary_loss_clip": 0.01049731,
      "auxiliary_loss_mlp": 0.0102118,
      "balance_loss_clip": 1.03654206,
      "balance_loss_mlp": 1.0158124,
      "epoch": 0.660854926952444,
      "flos": 17639871212160.0,
      "grad_norm": 2.277642136106688,
      "language_loss": 0.8118633,
      "learning_rate": 1.0898680495425775e-06,
      "loss": 0.83257246,
      "num_input_tokens_seen": 118255495,
      "step": 5496,
      "time_per_iteration": 3.3633577823638916
    },
    {
      "auxiliary_loss_clip": 0.01075348,
      "auxiliary_loss_mlp": 0.0102063,
      "balance_loss_clip": 1.03861666,
      "balance_loss_mlp": 1.01534009,
      "epoch": 0.660975169843083,
      "flos": 16837834366080.0,
      "grad_norm": 2.019670844950254,
      "language_loss": 0.80368531,
      "learning_rate": 1.0891744772731594e-06,
      "loss": 0.8246451,
      "num_input_tokens_seen": 118273310,
      "step": 5497,
      "time_per_iteration": 2.615781307220459
    },
    {
      "auxiliary_loss_clip": 0.01085793,
      "auxiliary_loss_mlp": 0.01023418,
      "balance_loss_clip": 1.03866577,
      "balance_loss_mlp": 1.01831639,
      "epoch": 0.6610954127337221,
      "flos": 26872850298240.0,
      "grad_norm": 1.7952320819783787,
      "language_loss": 0.65906644,
      "learning_rate": 1.088481043175248e-06,
      "loss": 0.6801585,
      "num_input_tokens_seen": 118293880,
      "step": 5498,
      "time_per_iteration": 2.571960210800171
    },
    {
      "auxiliary_loss_clip": 0.01075422,
      "auxiliary_loss_mlp": 0.01019164,
      "balance_loss_clip": 1.03814125,
      "balance_loss_mlp": 1.0137403,
      "epoch": 0.6612156556243612,
      "flos": 26467926312960.0,
      "grad_norm": 1.9254627967412972,
      "language_loss": 0.75726157,
      "learning_rate": 1.0877877473540368e-06,
      "loss": 0.77820742,
      "num_input_tokens_seen": 118314465,
      "step": 5499,
      "time_per_iteration": 2.732895851135254
    },
    {
      "auxiliary_loss_clip": 0.01096247,
      "auxiliary_loss_mlp": 0.0101869,
      "balance_loss_clip": 1.03848279,
      "balance_loss_mlp": 1.01376045,
      "epoch": 0.6613358985150003,
      "flos": 19793945750400.0,
      "grad_norm": 2.200300339801325,
      "language_loss": 0.72514838,
      "learning_rate": 1.0870945899147002e-06,
      "loss": 0.74629772,
      "num_input_tokens_seen": 118331110,
      "step": 5500,
      "time_per_iteration": 2.490938663482666
    },
    {
      "auxiliary_loss_clip": 0.01082975,
      "auxiliary_loss_mlp": 0.01022103,
      "balance_loss_clip": 1.03826451,
      "balance_loss_mlp": 1.0170871,
      "epoch": 0.6614561414056394,
      "flos": 26833936296960.0,
      "grad_norm": 1.9962530367343336,
      "language_loss": 0.76332802,
      "learning_rate": 1.0864015709623879e-06,
      "loss": 0.78437883,
      "num_input_tokens_seen": 118351980,
      "step": 5501,
      "time_per_iteration": 2.614112377166748
    },
    {
      "auxiliary_loss_clip": 0.0108677,
      "auxiliary_loss_mlp": 0.01019362,
      "balance_loss_clip": 1.03863907,
      "balance_loss_mlp": 1.01416695,
      "epoch": 0.6615763842962785,
      "flos": 22896878227200.0,
      "grad_norm": 2.579628286435393,
      "language_loss": 0.80303729,
      "learning_rate": 1.0857086906022313e-06,
      "loss": 0.82409859,
      "num_input_tokens_seen": 118370315,
      "step": 5502,
      "time_per_iteration": 2.5396080017089844
    },
    {
      "auxiliary_loss_clip": 0.01021337,
      "auxiliary_loss_mlp": 0.01016995,
      "balance_loss_clip": 1.03030014,
      "balance_loss_mlp": 1.01155937,
      "epoch": 0.6616966271869176,
      "flos": 24792622364160.0,
      "grad_norm": 1.9750646676857502,
      "language_loss": 0.73005581,
      "learning_rate": 1.0850159489393388e-06,
      "loss": 0.75043911,
      "num_input_tokens_seen": 118389575,
      "step": 5503,
      "time_per_iteration": 2.7167606353759766
    },
    {
      "auxiliary_loss_clip": 0.01060979,
      "auxiliary_loss_mlp": 0.01021173,
      "balance_loss_clip": 1.03515792,
      "balance_loss_mlp": 1.0157398,
      "epoch": 0.6618168700775566,
      "flos": 17204033940480.0,
      "grad_norm": 1.8476035328297666,
      "language_loss": 0.82180095,
      "learning_rate": 1.0843233460787992e-06,
      "loss": 0.84262246,
      "num_input_tokens_seen": 118406790,
      "step": 5504,
      "time_per_iteration": 2.5534565448760986
    },
    {
      "auxiliary_loss_clip": 0.01047628,
      "auxiliary_loss_mlp": 0.01020604,
      "balance_loss_clip": 1.03296781,
      "balance_loss_mlp": 1.01548958,
      "epoch": 0.6619371129681958,
      "flos": 25449430677120.0,
      "grad_norm": 1.7607282124328576,
      "language_loss": 0.78350323,
      "learning_rate": 1.0836308821256805e-06,
      "loss": 0.80418551,
      "num_input_tokens_seen": 118427590,
      "step": 5505,
      "time_per_iteration": 2.6443450450897217
    },
    {
      "auxiliary_loss_clip": 0.01082698,
      "auxiliary_loss_mlp": 0.01019914,
      "balance_loss_clip": 1.03726244,
      "balance_loss_mlp": 1.01482987,
      "epoch": 0.6620573558588349,
      "flos": 18042368440320.0,
      "grad_norm": 2.0536737408045544,
      "language_loss": 0.77700204,
      "learning_rate": 1.0829385571850282e-06,
      "loss": 0.79802811,
      "num_input_tokens_seen": 118444570,
      "step": 5506,
      "time_per_iteration": 2.4792556762695312
    },
    {
      "auxiliary_loss_clip": 0.0109888,
      "auxiliary_loss_mlp": 0.01020731,
      "balance_loss_clip": 1.0401454,
      "balance_loss_mlp": 1.01520288,
      "epoch": 0.6621775987494739,
      "flos": 17787526502400.0,
      "grad_norm": 2.6134721245347414,
      "language_loss": 0.8351649,
      "learning_rate": 1.0822463713618679e-06,
      "loss": 0.85636103,
      "num_input_tokens_seen": 118461425,
      "step": 5507,
      "time_per_iteration": 2.5143420696258545
    },
    {
      "auxiliary_loss_clip": 0.01058136,
      "auxiliary_loss_mlp": 0.01023867,
      "balance_loss_clip": 1.03554654,
      "balance_loss_mlp": 1.01871085,
      "epoch": 0.6622978416401131,
      "flos": 17494453088640.0,
      "grad_norm": 2.2284599316337235,
      "language_loss": 0.84781802,
      "learning_rate": 1.0815543247612034e-06,
      "loss": 0.86863804,
      "num_input_tokens_seen": 118478495,
      "step": 5508,
      "time_per_iteration": 2.54687237739563
    },
    {
      "auxiliary_loss_clip": 0.01075929,
      "auxiliary_loss_mlp": 0.01016309,
      "balance_loss_clip": 1.03821516,
      "balance_loss_mlp": 1.01098347,
      "epoch": 0.6624180845307521,
      "flos": 21650245032960.0,
      "grad_norm": 1.7549166068122126,
      "language_loss": 0.83243394,
      "learning_rate": 1.0808624174880168e-06,
      "loss": 0.8533563,
      "num_input_tokens_seen": 118499145,
      "step": 5509,
      "time_per_iteration": 2.6091530323028564
    },
    {
      "auxiliary_loss_clip": 0.0109689,
      "auxiliary_loss_mlp": 0.01017726,
      "balance_loss_clip": 1.04047477,
      "balance_loss_mlp": 1.01280844,
      "epoch": 0.6625383274213912,
      "flos": 23808187215360.0,
      "grad_norm": 1.7780979708098283,
      "language_loss": 0.79975355,
      "learning_rate": 1.080170649647272e-06,
      "loss": 0.82089972,
      "num_input_tokens_seen": 118518950,
      "step": 5510,
      "time_per_iteration": 2.518946647644043
    },
    {
      "auxiliary_loss_clip": 0.01095111,
      "auxiliary_loss_mlp": 0.01020823,
      "balance_loss_clip": 1.03896046,
      "balance_loss_mlp": 1.015468,
      "epoch": 0.6626585703120303,
      "flos": 33266156659200.0,
      "grad_norm": 1.7631659613317496,
      "language_loss": 0.67567503,
      "learning_rate": 1.0794790213439068e-06,
      "loss": 0.69683444,
      "num_input_tokens_seen": 118545850,
      "step": 5511,
      "time_per_iteration": 2.668872117996216
    },
    {
      "auxiliary_loss_clip": 0.0105123,
      "auxiliary_loss_mlp": 0.01019499,
      "balance_loss_clip": 1.03715181,
      "balance_loss_mlp": 1.01385474,
      "epoch": 0.6627788132026694,
      "flos": 22087674864000.0,
      "grad_norm": 2.2982237060872213,
      "language_loss": 0.78567338,
      "learning_rate": 1.078787532682843e-06,
      "loss": 0.80638063,
      "num_input_tokens_seen": 118563325,
      "step": 5512,
      "time_per_iteration": 2.6669921875
    },
    {
      "auxiliary_loss_clip": 0.01083068,
      "auxiliary_loss_mlp": 0.01020322,
      "balance_loss_clip": 1.03849256,
      "balance_loss_mlp": 1.01516604,
      "epoch": 0.6628990560933085,
      "flos": 36176528787840.0,
      "grad_norm": 2.135520634216109,
      "language_loss": 0.76108295,
      "learning_rate": 1.0780961837689773e-06,
      "loss": 0.78211683,
      "num_input_tokens_seen": 118582835,
      "step": 5513,
      "time_per_iteration": 2.6473753452301025
    },
    {
      "auxiliary_loss_clip": 0.01074442,
      "auxiliary_loss_mlp": 0.0101872,
      "balance_loss_clip": 1.04006338,
      "balance_loss_mlp": 1.01338577,
      "epoch": 0.6630192989839476,
      "flos": 18515451317760.0,
      "grad_norm": 1.6329155955925125,
      "language_loss": 0.69998616,
      "learning_rate": 1.0774049747071883e-06,
      "loss": 0.72091776,
      "num_input_tokens_seen": 118600715,
      "step": 5514,
      "time_per_iteration": 2.592588424682617
    },
    {
      "auxiliary_loss_clip": 0.01045747,
      "auxiliary_loss_mlp": 0.01022889,
      "balance_loss_clip": 1.03686523,
      "balance_loss_mlp": 1.0173701,
      "epoch": 0.6631395418745867,
      "flos": 35812452625920.0,
      "grad_norm": 1.8459021890281389,
      "language_loss": 0.67880702,
      "learning_rate": 1.076713905602332e-06,
      "loss": 0.69949341,
      "num_input_tokens_seen": 118621290,
      "step": 5515,
      "time_per_iteration": 3.4929451942443848
    },
    {
      "auxiliary_loss_clip": 0.01087209,
      "auxiliary_loss_mlp": 0.01019618,
      "balance_loss_clip": 1.04060173,
      "balance_loss_mlp": 1.01461434,
      "epoch": 0.6632597847652257,
      "flos": 20049811476480.0,
      "grad_norm": 1.8002762836191717,
      "language_loss": 0.81499887,
      "learning_rate": 1.07602297655924e-06,
      "loss": 0.8360672,
      "num_input_tokens_seen": 118639610,
      "step": 5516,
      "time_per_iteration": 3.2949907779693604
    },
    {
      "auxiliary_loss_clip": 0.01099612,
      "auxiliary_loss_mlp": 0.0102158,
      "balance_loss_clip": 1.04267025,
      "balance_loss_mlp": 1.01643026,
      "epoch": 0.6633800276558649,
      "flos": 21216569091840.0,
      "grad_norm": 1.675210136058255,
      "language_loss": 0.81185269,
      "learning_rate": 1.0753321876827292e-06,
      "loss": 0.83306456,
      "num_input_tokens_seen": 118658895,
      "step": 5517,
      "time_per_iteration": 2.5009918212890625
    },
    {
      "auxiliary_loss_clip": 0.01096604,
      "auxiliary_loss_mlp": 0.01018989,
      "balance_loss_clip": 1.03967905,
      "balance_loss_mlp": 1.01360655,
      "epoch": 0.663500270546504,
      "flos": 23990016746880.0,
      "grad_norm": 1.8891842908242142,
      "language_loss": 0.74166799,
      "learning_rate": 1.0746415390775893e-06,
      "loss": 0.76282388,
      "num_input_tokens_seen": 118677025,
      "step": 5518,
      "time_per_iteration": 3.278083324432373
    },
    {
      "auxiliary_loss_clip": 0.01096976,
      "auxiliary_loss_mlp": 0.01021798,
      "balance_loss_clip": 1.04079461,
      "balance_loss_mlp": 1.01678252,
      "epoch": 0.663620513437143,
      "flos": 17934385512960.0,
      "grad_norm": 2.054737316407019,
      "language_loss": 0.76283771,
      "learning_rate": 1.0739510308485939e-06,
      "loss": 0.78402543,
      "num_input_tokens_seen": 118694240,
      "step": 5519,
      "time_per_iteration": 2.5462453365325928
    },
    {
      "auxiliary_loss_clip": 0.0101443,
      "auxiliary_loss_mlp": 0.0100291,
      "balance_loss_clip": 1.02045763,
      "balance_loss_mlp": 1.00131273,
      "epoch": 0.6637407563277821,
      "flos": 57846074123520.0,
      "grad_norm": 0.8120830632959286,
      "language_loss": 0.62613153,
      "learning_rate": 1.07326066310049e-06,
      "loss": 0.64630485,
      "num_input_tokens_seen": 118758365,
      "step": 5520,
      "time_per_iteration": 3.1826343536376953
    },
    {
      "auxiliary_loss_clip": 0.01063491,
      "auxiliary_loss_mlp": 0.01021919,
      "balance_loss_clip": 1.03666532,
      "balance_loss_mlp": 1.0160656,
      "epoch": 0.6638609992184212,
      "flos": 27308346307200.0,
      "grad_norm": 2.121899072932559,
      "language_loss": 0.79508108,
      "learning_rate": 1.0725704359380059e-06,
      "loss": 0.81593519,
      "num_input_tokens_seen": 118778220,
      "step": 5521,
      "time_per_iteration": 2.688105344772339
    },
    {
      "auxiliary_loss_clip": 0.01097107,
      "auxiliary_loss_mlp": 0.0101926,
      "balance_loss_clip": 1.03977942,
      "balance_loss_mlp": 1.01437569,
      "epoch": 0.6639812421090603,
      "flos": 18626846872320.0,
      "grad_norm": 1.7210808816689949,
      "language_loss": 0.71959889,
      "learning_rate": 1.0718803494658497e-06,
      "loss": 0.74076259,
      "num_input_tokens_seen": 118797110,
      "step": 5522,
      "time_per_iteration": 2.456970453262329
    },
    {
      "auxiliary_loss_clip": 0.01000526,
      "auxiliary_loss_mlp": 0.0102368,
      "balance_loss_clip": 1.0301795,
      "balance_loss_mlp": 1.01825261,
      "epoch": 0.6641014849996993,
      "flos": 15926297869440.0,
      "grad_norm": 3.1884087094867932,
      "language_loss": 0.83698106,
      "learning_rate": 1.071190403788707e-06,
      "loss": 0.85722315,
      "num_input_tokens_seen": 118812415,
      "step": 5523,
      "time_per_iteration": 3.7096519470214844
    },
    {
      "auxiliary_loss_clip": 0.01062603,
      "auxiliary_loss_mlp": 0.01019845,
      "balance_loss_clip": 1.03793383,
      "balance_loss_mlp": 1.01434994,
      "epoch": 0.6642217278903385,
      "flos": 26507902020480.0,
      "grad_norm": 1.9156902107295437,
      "language_loss": 0.75363457,
      "learning_rate": 1.0705005990112415e-06,
      "loss": 0.77445906,
      "num_input_tokens_seen": 118832195,
      "step": 5524,
      "time_per_iteration": 2.9096901416778564
    },
    {
      "auxiliary_loss_clip": 0.01040399,
      "auxiliary_loss_mlp": 0.01025337,
      "balance_loss_clip": 1.03356457,
      "balance_loss_mlp": 1.02014565,
      "epoch": 0.6643419707809776,
      "flos": 15379102961280.0,
      "grad_norm": 2.722546964437392,
      "language_loss": 0.74780071,
      "learning_rate": 1.0698109352380957e-06,
      "loss": 0.76845813,
      "num_input_tokens_seen": 118849795,
      "step": 5525,
      "time_per_iteration": 2.5839622020721436
    },
    {
      "auxiliary_loss_clip": 0.01096338,
      "auxiliary_loss_mlp": 0.01021424,
      "balance_loss_clip": 1.03931713,
      "balance_loss_mlp": 1.01667404,
      "epoch": 0.6644622136716166,
      "flos": 25119870019200.0,
      "grad_norm": 1.8934367949009936,
      "language_loss": 0.78215498,
      "learning_rate": 1.0691214125738909e-06,
      "loss": 0.80333257,
      "num_input_tokens_seen": 118870000,
      "step": 5526,
      "time_per_iteration": 2.5621159076690674
    },
    {
      "auxiliary_loss_clip": 0.01047654,
      "auxiliary_loss_mlp": 0.01002745,
      "balance_loss_clip": 1.02028131,
      "balance_loss_mlp": 1.00111198,
      "epoch": 0.6645824565622558,
      "flos": 66208364536320.0,
      "grad_norm": 0.9063417774905198,
      "language_loss": 0.57460773,
      "learning_rate": 1.0684320311232287e-06,
      "loss": 0.59511173,
      "num_input_tokens_seen": 118932905,
      "step": 5527,
      "time_per_iteration": 3.1425485610961914
    },
    {
      "auxiliary_loss_clip": 0.01074881,
      "auxiliary_loss_mlp": 0.0102003,
      "balance_loss_clip": 1.03732383,
      "balance_loss_mlp": 1.01470172,
      "epoch": 0.6647026994528948,
      "flos": 25084444481280.0,
      "grad_norm": 2.0534515236058257,
      "language_loss": 0.81355286,
      "learning_rate": 1.0677427909906865e-06,
      "loss": 0.83450198,
      "num_input_tokens_seen": 118953355,
      "step": 5528,
      "time_per_iteration": 2.6415042877197266
    },
    {
      "auxiliary_loss_clip": 0.01098634,
      "auxiliary_loss_mlp": 0.0102667,
      "balance_loss_clip": 1.04025745,
      "balance_loss_mlp": 1.02117705,
      "epoch": 0.6648229423435339,
      "flos": 18224084217600.0,
      "grad_norm": 3.4626878427443053,
      "language_loss": 0.7223171,
      "learning_rate": 1.0670536922808216e-06,
      "loss": 0.74357009,
      "num_input_tokens_seen": 118973480,
      "step": 5529,
      "time_per_iteration": 2.504500150680542
    },
    {
      "auxiliary_loss_clip": 0.0107174,
      "auxiliary_loss_mlp": 0.01017748,
      "balance_loss_clip": 1.03727341,
      "balance_loss_mlp": 1.01268506,
      "epoch": 0.6649431852341731,
      "flos": 18298878773760.0,
      "grad_norm": 2.795388975373888,
      "language_loss": 0.72181821,
      "learning_rate": 1.06636473509817e-06,
      "loss": 0.74271309,
      "num_input_tokens_seen": 118989860,
      "step": 5530,
      "time_per_iteration": 2.5966122150421143
    },
    {
      "auxiliary_loss_clip": 0.01072806,
      "auxiliary_loss_mlp": 0.00756801,
      "balance_loss_clip": 1.03850484,
      "balance_loss_mlp": 1.00170076,
      "epoch": 0.6650634281248121,
      "flos": 17021483965440.0,
      "grad_norm": 2.1705401413661654,
      "language_loss": 0.80501783,
      "learning_rate": 1.0656759195472447e-06,
      "loss": 0.82331389,
      "num_input_tokens_seen": 119007150,
      "step": 5531,
      "time_per_iteration": 2.5379860401153564
    },
    {
      "auxiliary_loss_clip": 0.01029252,
      "auxiliary_loss_mlp": 0.0100123,
      "balance_loss_clip": 1.02168083,
      "balance_loss_mlp": 0.99946541,
      "epoch": 0.6651836710154512,
      "flos": 69301172885760.0,
      "grad_norm": 0.7712474305059603,
      "language_loss": 0.59738332,
      "learning_rate": 1.0649872457325414e-06,
      "loss": 0.61768812,
      "num_input_tokens_seen": 119068435,
      "step": 5532,
      "time_per_iteration": 3.1077473163604736
    },
    {
      "auxiliary_loss_clip": 0.01037892,
      "auxiliary_loss_mlp": 0.01001587,
      "balance_loss_clip": 1.02017736,
      "balance_loss_mlp": 1.00002575,
      "epoch": 0.6653039139060903,
      "flos": 66889488389760.0,
      "grad_norm": 0.8529561075918562,
      "language_loss": 0.55060887,
      "learning_rate": 1.0642987137585278e-06,
      "loss": 0.57100368,
      "num_input_tokens_seen": 119127960,
      "step": 5533,
      "time_per_iteration": 3.154489278793335
    },
    {
      "auxiliary_loss_clip": 0.01074019,
      "auxiliary_loss_mlp": 0.01018663,
      "balance_loss_clip": 1.0389266,
      "balance_loss_mlp": 1.01352477,
      "epoch": 0.6654241567967294,
      "flos": 21472169391360.0,
      "grad_norm": 1.9507436788771289,
      "language_loss": 0.82548404,
      "learning_rate": 1.0636103237296561e-06,
      "loss": 0.84641087,
      "num_input_tokens_seen": 119146885,
      "step": 5534,
      "time_per_iteration": 2.56705904006958
    },
    {
      "auxiliary_loss_clip": 0.010842,
      "auxiliary_loss_mlp": 0.01020774,
      "balance_loss_clip": 1.04065132,
      "balance_loss_mlp": 1.01601481,
      "epoch": 0.6655443996873684,
      "flos": 25121879677440.0,
      "grad_norm": 1.9855668498013594,
      "language_loss": 0.84343815,
      "learning_rate": 1.062922075750353e-06,
      "loss": 0.86448789,
      "num_input_tokens_seen": 119166900,
      "step": 5535,
      "time_per_iteration": 2.6131088733673096
    },
    {
      "auxiliary_loss_clip": 0.01058424,
      "auxiliary_loss_mlp": 0.0101767,
      "balance_loss_clip": 1.03586316,
      "balance_loss_mlp": 1.01238883,
      "epoch": 0.6656646425780076,
      "flos": 17459255059200.0,
      "grad_norm": 2.2554261383690286,
      "language_loss": 0.71932572,
      "learning_rate": 1.0622339699250267e-06,
      "loss": 0.74008667,
      "num_input_tokens_seen": 119184820,
      "step": 5536,
      "time_per_iteration": 2.5571067333221436
    },
    {
      "auxiliary_loss_clip": 0.01053495,
      "auxiliary_loss_mlp": 0.01018642,
      "balance_loss_clip": 1.03295159,
      "balance_loss_mlp": 1.0134263,
      "epoch": 0.6657848854686467,
      "flos": 23436072420480.0,
      "grad_norm": 1.734509203125118,
      "language_loss": 0.79446143,
      "learning_rate": 1.0615460063580624e-06,
      "loss": 0.81518281,
      "num_input_tokens_seen": 119203295,
      "step": 5537,
      "time_per_iteration": 2.6714580059051514
    },
    {
      "auxiliary_loss_clip": 0.0107342,
      "auxiliary_loss_mlp": 0.01018532,
      "balance_loss_clip": 1.03723741,
      "balance_loss_mlp": 1.0136857,
      "epoch": 0.6659051283592857,
      "flos": 11511492998400.0,
      "grad_norm": 1.8148495814498098,
      "language_loss": 0.72985327,
      "learning_rate": 1.060858185153821e-06,
      "loss": 0.75077271,
      "num_input_tokens_seen": 119221395,
      "step": 5538,
      "time_per_iteration": 2.534996509552002
    },
    {
      "auxiliary_loss_clip": 0.01076181,
      "auxiliary_loss_mlp": 0.01019584,
      "balance_loss_clip": 1.03836346,
      "balance_loss_mlp": 1.01414192,
      "epoch": 0.6660253712499249,
      "flos": 20596627203840.0,
      "grad_norm": 2.532332735734417,
      "language_loss": 0.76289225,
      "learning_rate": 1.0601705064166474e-06,
      "loss": 0.7838499,
      "num_input_tokens_seen": 119239790,
      "step": 5539,
      "time_per_iteration": 2.5877466201782227
    },
    {
      "auxiliary_loss_clip": 0.01065294,
      "auxiliary_loss_mlp": 0.01021764,
      "balance_loss_clip": 1.0390451,
      "balance_loss_mlp": 1.01655126,
      "epoch": 0.666145614140564,
      "flos": 21253625107200.0,
      "grad_norm": 2.093150676520071,
      "language_loss": 0.73568082,
      "learning_rate": 1.0594829702508596e-06,
      "loss": 0.75655138,
      "num_input_tokens_seen": 119257505,
      "step": 5540,
      "time_per_iteration": 2.5470468997955322
    },
    {
      "auxiliary_loss_clip": 0.01061515,
      "auxiliary_loss_mlp": 0.01019383,
      "balance_loss_clip": 1.03622997,
      "balance_loss_mlp": 1.01416469,
      "epoch": 0.666265857031203,
      "flos": 33728812064640.0,
      "grad_norm": 2.7906361353647315,
      "language_loss": 0.55224252,
      "learning_rate": 1.0587955767607592e-06,
      "loss": 0.57305145,
      "num_input_tokens_seen": 119279365,
      "step": 5541,
      "time_per_iteration": 3.6491620540618896
    },
    {
      "auxiliary_loss_clip": 0.0109695,
      "auxiliary_loss_mlp": 0.01019431,
      "balance_loss_clip": 1.03998661,
      "balance_loss_mlp": 1.01395667,
      "epoch": 0.6663860999218422,
      "flos": 17458534615680.0,
      "grad_norm": 2.5567624380697027,
      "language_loss": 0.77208292,
      "learning_rate": 1.0581083260506206e-06,
      "loss": 0.79324675,
      "num_input_tokens_seen": 119296150,
      "step": 5542,
      "time_per_iteration": 3.5697946548461914
    },
    {
      "auxiliary_loss_clip": 0.01071813,
      "auxiliary_loss_mlp": 0.01018796,
      "balance_loss_clip": 1.03737843,
      "balance_loss_mlp": 1.01380396,
      "epoch": 0.6665063428124812,
      "flos": 17678709377280.0,
      "grad_norm": 3.261662446861194,
      "language_loss": 0.76595604,
      "learning_rate": 1.0574212182246993e-06,
      "loss": 0.78686213,
      "num_input_tokens_seen": 119314845,
      "step": 5543,
      "time_per_iteration": 2.5922462940216064
    },
    {
      "auxiliary_loss_clip": 0.01072873,
      "auxiliary_loss_mlp": 0.01019724,
      "balance_loss_clip": 1.03745306,
      "balance_loss_mlp": 1.01397777,
      "epoch": 0.6666265857031203,
      "flos": 27675759260160.0,
      "grad_norm": 13.494208209963986,
      "language_loss": 0.75793177,
      "learning_rate": 1.0567342533872303e-06,
      "loss": 0.77885771,
      "num_input_tokens_seen": 119334875,
      "step": 5544,
      "time_per_iteration": 3.3834621906280518
    },
    {
      "auxiliary_loss_clip": 0.01071448,
      "auxiliary_loss_mlp": 0.01021842,
      "balance_loss_clip": 1.03661335,
      "balance_loss_mlp": 1.01641798,
      "epoch": 0.6667468285937594,
      "flos": 25049208533760.0,
      "grad_norm": 1.6247196804906177,
      "language_loss": 0.80627441,
      "learning_rate": 1.0560474316424255e-06,
      "loss": 0.82720733,
      "num_input_tokens_seen": 119354635,
      "step": 5545,
      "time_per_iteration": 2.5900824069976807
    },
    {
      "auxiliary_loss_clip": 0.01074824,
      "auxiliary_loss_mlp": 0.01022794,
      "balance_loss_clip": 1.03776312,
      "balance_loss_mlp": 1.01726854,
      "epoch": 0.6668670714843985,
      "flos": 22782487144320.0,
      "grad_norm": 2.3290677328509264,
      "language_loss": 0.73992288,
      "learning_rate": 1.0553607530944746e-06,
      "loss": 0.76089901,
      "num_input_tokens_seen": 119372690,
      "step": 5546,
      "time_per_iteration": 2.5798933506011963
    },
    {
      "auxiliary_loss_clip": 0.01062926,
      "auxiliary_loss_mlp": 0.01021442,
      "balance_loss_clip": 1.03786135,
      "balance_loss_mlp": 1.01608372,
      "epoch": 0.6669873143750376,
      "flos": 22166071637760.0,
      "grad_norm": 2.555256686319823,
      "language_loss": 0.89707083,
      "learning_rate": 1.0546742178475463e-06,
      "loss": 0.91791451,
      "num_input_tokens_seen": 119391685,
      "step": 5547,
      "time_per_iteration": 2.5963382720947266
    },
    {
      "auxiliary_loss_clip": 0.01044518,
      "auxiliary_loss_mlp": 0.01018924,
      "balance_loss_clip": 1.0359813,
      "balance_loss_mlp": 1.01405704,
      "epoch": 0.6671075572656767,
      "flos": 20516524116480.0,
      "grad_norm": 1.9961082607168386,
      "language_loss": 0.86695063,
      "learning_rate": 1.0539878260057868e-06,
      "loss": 0.88758504,
      "num_input_tokens_seen": 119410725,
      "step": 5548,
      "time_per_iteration": 3.392439365386963
    },
    {
      "auxiliary_loss_clip": 0.01082426,
      "auxiliary_loss_mlp": 0.01017801,
      "balance_loss_clip": 1.0414319,
      "balance_loss_mlp": 1.01226354,
      "epoch": 0.6672278001563158,
      "flos": 17933134216320.0,
      "grad_norm": 3.474421536611129,
      "language_loss": 0.68693793,
      "learning_rate": 1.0533015776733226e-06,
      "loss": 0.70794022,
      "num_input_tokens_seen": 119426875,
      "step": 5549,
      "time_per_iteration": 2.577721118927002
    },
    {
      "auxiliary_loss_clip": 0.01063398,
      "auxiliary_loss_mlp": 0.0101857,
      "balance_loss_clip": 1.03268754,
      "balance_loss_mlp": 1.01290774,
      "epoch": 0.6673480430469548,
      "flos": 22344109361280.0,
      "grad_norm": 2.7192194532655733,
      "language_loss": 0.78955531,
      "learning_rate": 1.0526154729542566e-06,
      "loss": 0.81037498,
      "num_input_tokens_seen": 119446935,
      "step": 5550,
      "time_per_iteration": 2.542814016342163
    },
    {
      "auxiliary_loss_clip": 0.01061383,
      "auxiliary_loss_mlp": 0.01023314,
      "balance_loss_clip": 1.03941131,
      "balance_loss_mlp": 1.01775861,
      "epoch": 0.6674682859375939,
      "flos": 20705899345920.0,
      "grad_norm": 2.7672364549245816,
      "language_loss": 0.80302173,
      "learning_rate": 1.0519295119526699e-06,
      "loss": 0.82386863,
      "num_input_tokens_seen": 119463240,
      "step": 5551,
      "time_per_iteration": 2.676255702972412
    },
    {
      "auxiliary_loss_clip": 0.0107313,
      "auxiliary_loss_mlp": 0.0101773,
      "balance_loss_clip": 1.03763103,
      "balance_loss_mlp": 1.01229084,
      "epoch": 0.667588528828233,
      "flos": 26208685877760.0,
      "grad_norm": 1.672170809822941,
      "language_loss": 0.82899404,
      "learning_rate": 1.0512436947726227e-06,
      "loss": 0.84990263,
      "num_input_tokens_seen": 119484655,
      "step": 5552,
      "time_per_iteration": 2.580902099609375
    },
    {
      "auxiliary_loss_clip": 0.01060838,
      "auxiliary_loss_mlp": 0.01015899,
      "balance_loss_clip": 1.03573394,
      "balance_loss_mlp": 1.01017129,
      "epoch": 0.6677087717188721,
      "flos": 23072982128640.0,
      "grad_norm": 2.2764328010353623,
      "language_loss": 0.6486159,
      "learning_rate": 1.0505580215181517e-06,
      "loss": 0.66938329,
      "num_input_tokens_seen": 119502895,
      "step": 5553,
      "time_per_iteration": 2.6253020763397217
    },
    {
      "auxiliary_loss_clip": 0.01005294,
      "auxiliary_loss_mlp": 0.01001707,
      "balance_loss_clip": 1.01520658,
      "balance_loss_mlp": 1.00000274,
      "epoch": 0.6678290146095112,
      "flos": 70948028223360.0,
      "grad_norm": 0.7863352020132242,
      "language_loss": 0.56622684,
      "learning_rate": 1.0498724922932753e-06,
      "loss": 0.58629692,
      "num_input_tokens_seen": 119561010,
      "step": 5554,
      "time_per_iteration": 3.1868889331817627
    },
    {
      "auxiliary_loss_clip": 0.0110084,
      "auxiliary_loss_mlp": 0.01019268,
      "balance_loss_clip": 1.04275382,
      "balance_loss_mlp": 1.01354599,
      "epoch": 0.6679492575001503,
      "flos": 18663068689920.0,
      "grad_norm": 2.4220528881376566,
      "language_loss": 0.86410069,
      "learning_rate": 1.0491871072019851e-06,
      "loss": 0.88530171,
      "num_input_tokens_seen": 119578900,
      "step": 5555,
      "time_per_iteration": 2.8397371768951416
    },
    {
      "auxiliary_loss_clip": 0.01064102,
      "auxiliary_loss_mlp": 0.01022781,
      "balance_loss_clip": 1.03685284,
      "balance_loss_mlp": 1.01758623,
      "epoch": 0.6680695003907894,
      "flos": 29714343091200.0,
      "grad_norm": 1.887957247517055,
      "language_loss": 0.64169979,
      "learning_rate": 1.0485018663482555e-06,
      "loss": 0.66256857,
      "num_input_tokens_seen": 119598920,
      "step": 5556,
      "time_per_iteration": 2.634338140487671
    },
    {
      "auxiliary_loss_clip": 0.0108947,
      "auxiliary_loss_mlp": 0.01017196,
      "balance_loss_clip": 1.04158366,
      "balance_loss_mlp": 1.01144683,
      "epoch": 0.6681897432814284,
      "flos": 28221399527040.0,
      "grad_norm": 2.741944199212148,
      "language_loss": 0.71094191,
      "learning_rate": 1.0478167698360354e-06,
      "loss": 0.73200858,
      "num_input_tokens_seen": 119618220,
      "step": 5557,
      "time_per_iteration": 2.6057589054107666
    },
    {
      "auxiliary_loss_clip": 0.01085304,
      "auxiliary_loss_mlp": 0.01019221,
      "balance_loss_clip": 1.03889191,
      "balance_loss_mlp": 1.01380038,
      "epoch": 0.6683099861720676,
      "flos": 25048905189120.0,
      "grad_norm": 2.1236834723503066,
      "language_loss": 0.69984514,
      "learning_rate": 1.0471318177692556e-06,
      "loss": 0.7208904,
      "num_input_tokens_seen": 119638520,
      "step": 5558,
      "time_per_iteration": 2.5367603302001953
    },
    {
      "auxiliary_loss_clip": 0.01048303,
      "auxiliary_loss_mlp": 0.0102305,
      "balance_loss_clip": 1.03512907,
      "balance_loss_mlp": 1.0177691,
      "epoch": 0.6684302290627067,
      "flos": 22998870097920.0,
      "grad_norm": 5.505372879476258,
      "language_loss": 0.76106346,
      "learning_rate": 1.046447010251821e-06,
      "loss": 0.78177691,
      "num_input_tokens_seen": 119655850,
      "step": 5559,
      "time_per_iteration": 2.6645700931549072
    },
    {
      "auxiliary_loss_clip": 0.01070379,
      "auxiliary_loss_mlp": 0.01022792,
      "balance_loss_clip": 1.0382787,
      "balance_loss_mlp": 1.01757407,
      "epoch": 0.6685504719533457,
      "flos": 26575985076480.0,
      "grad_norm": 1.8071700746300154,
      "language_loss": 0.75778282,
      "learning_rate": 1.0457623473876157e-06,
      "loss": 0.77871448,
      "num_input_tokens_seen": 119675355,
      "step": 5560,
      "time_per_iteration": 2.698509454727173
    },
    {
      "auxiliary_loss_clip": 0.01096496,
      "auxiliary_loss_mlp": 0.01020489,
      "balance_loss_clip": 1.03911304,
      "balance_loss_mlp": 1.01561022,
      "epoch": 0.6686707148439849,
      "flos": 28988617524480.0,
      "grad_norm": 3.958868334715436,
      "language_loss": 0.71365738,
      "learning_rate": 1.0450778292805046e-06,
      "loss": 0.73482716,
      "num_input_tokens_seen": 119695340,
      "step": 5561,
      "time_per_iteration": 2.5719799995422363
    },
    {
      "auxiliary_loss_clip": 0.0108609,
      "auxiliary_loss_mlp": 0.01020002,
      "balance_loss_clip": 1.03818429,
      "balance_loss_mlp": 1.01487911,
      "epoch": 0.6687909577346239,
      "flos": 23625409731840.0,
      "grad_norm": 1.4813642424147335,
      "language_loss": 0.78553581,
      "learning_rate": 1.0443934560343267e-06,
      "loss": 0.8065967,
      "num_input_tokens_seen": 119716750,
      "step": 5562,
      "time_per_iteration": 2.5911855697631836
    },
    {
      "auxiliary_loss_clip": 0.0105028,
      "auxiliary_loss_mlp": 0.01018574,
      "balance_loss_clip": 1.03272104,
      "balance_loss_mlp": 1.01338243,
      "epoch": 0.668911200625263,
      "flos": 23150810131200.0,
      "grad_norm": 2.046383032136369,
      "language_loss": 0.78205597,
      "learning_rate": 1.0437092277529034e-06,
      "loss": 0.80274451,
      "num_input_tokens_seen": 119736005,
      "step": 5563,
      "time_per_iteration": 2.602008581161499
    },
    {
      "auxiliary_loss_clip": 0.01073278,
      "auxiliary_loss_mlp": 0.01021027,
      "balance_loss_clip": 1.03764272,
      "balance_loss_mlp": 1.01581728,
      "epoch": 0.6690314435159022,
      "flos": 18553910302080.0,
      "grad_norm": 3.1272777121758675,
      "language_loss": 0.73672462,
      "learning_rate": 1.0430251445400292e-06,
      "loss": 0.75766766,
      "num_input_tokens_seen": 119754050,
      "step": 5564,
      "time_per_iteration": 2.5835447311401367
    },
    {
      "auxiliary_loss_clip": 0.00999186,
      "auxiliary_loss_mlp": 0.01021391,
      "balance_loss_clip": 1.02754307,
      "balance_loss_mlp": 1.01624966,
      "epoch": 0.6691516864065412,
      "flos": 31762254769920.0,
      "grad_norm": 2.573006982707164,
      "language_loss": 0.62330973,
      "learning_rate": 1.0423412064994787e-06,
      "loss": 0.64351547,
      "num_input_tokens_seen": 119774820,
      "step": 5565,
      "time_per_iteration": 3.021019220352173
    },
    {
      "auxiliary_loss_clip": 0.01059018,
      "auxiliary_loss_mlp": 0.01020706,
      "balance_loss_clip": 1.03484845,
      "balance_loss_mlp": 1.01559782,
      "epoch": 0.6692719292971803,
      "flos": 34936758766080.0,
      "grad_norm": 2.0987825906220063,
      "language_loss": 0.73585486,
      "learning_rate": 1.0416574137350064e-06,
      "loss": 0.75665212,
      "num_input_tokens_seen": 119795525,
      "step": 5566,
      "time_per_iteration": 3.4291892051696777
    },
    {
      "auxiliary_loss_clip": 0.01088636,
      "auxiliary_loss_mlp": 0.01021259,
      "balance_loss_clip": 1.04028034,
      "balance_loss_mlp": 1.01597762,
      "epoch": 0.6693921721878194,
      "flos": 20451284916480.0,
      "grad_norm": 3.3939515026796157,
      "language_loss": 0.81172657,
      "learning_rate": 1.0409737663503428e-06,
      "loss": 0.83282554,
      "num_input_tokens_seen": 119813905,
      "step": 5567,
      "time_per_iteration": 3.320638418197632
    },
    {
      "auxiliary_loss_clip": 0.01086065,
      "auxiliary_loss_mlp": 0.01020963,
      "balance_loss_clip": 1.03768778,
      "balance_loss_mlp": 1.01544046,
      "epoch": 0.6695124150784585,
      "flos": 16616218717440.0,
      "grad_norm": 2.0119454830163574,
      "language_loss": 0.82592535,
      "learning_rate": 1.040290264449196e-06,
      "loss": 0.84699559,
      "num_input_tokens_seen": 119832010,
      "step": 5568,
      "time_per_iteration": 3.251948118209839
    },
    {
      "auxiliary_loss_clip": 0.01082386,
      "auxiliary_loss_mlp": 0.01021902,
      "balance_loss_clip": 1.03820264,
      "balance_loss_mlp": 1.01665974,
      "epoch": 0.6696326579690975,
      "flos": 26654609358720.0,
      "grad_norm": 3.9919859059813287,
      "language_loss": 0.64341211,
      "learning_rate": 1.0396069081352532e-06,
      "loss": 0.66445494,
      "num_input_tokens_seen": 119851165,
      "step": 5569,
      "time_per_iteration": 2.5901358127593994
    },
    {
      "auxiliary_loss_clip": 0.01045818,
      "auxiliary_loss_mlp": 0.01001525,
      "balance_loss_clip": 1.01860404,
      "balance_loss_mlp": 0.99986762,
      "epoch": 0.6697529008597367,
      "flos": 66971108200320.0,
      "grad_norm": 0.7702608228507538,
      "language_loss": 0.55989295,
      "learning_rate": 1.0389236975121782e-06,
      "loss": 0.58036637,
      "num_input_tokens_seen": 119906015,
      "step": 5570,
      "time_per_iteration": 3.7476589679718018
    },
    {
      "auxiliary_loss_clip": 0.01096588,
      "auxiliary_loss_mlp": 0.01015298,
      "balance_loss_clip": 1.03916264,
      "balance_loss_mlp": 1.00982893,
      "epoch": 0.6698731437503758,
      "flos": 20889056010240.0,
      "grad_norm": 1.895114220468952,
      "language_loss": 0.70778179,
      "learning_rate": 1.0382406326836147e-06,
      "loss": 0.72890067,
      "num_input_tokens_seen": 119925160,
      "step": 5571,
      "time_per_iteration": 2.5187177658081055
    },
    {
      "auxiliary_loss_clip": 0.01087338,
      "auxiliary_loss_mlp": 0.01020247,
      "balance_loss_clip": 1.03985155,
      "balance_loss_mlp": 1.01453984,
      "epoch": 0.6699933866410148,
      "flos": 20411385045120.0,
      "grad_norm": 2.851436514188609,
      "language_loss": 0.76245832,
      "learning_rate": 1.0375577137531828e-06,
      "loss": 0.78353417,
      "num_input_tokens_seen": 119943720,
      "step": 5572,
      "time_per_iteration": 2.5326671600341797
    },
    {
      "auxiliary_loss_clip": 0.01071252,
      "auxiliary_loss_mlp": 0.01019578,
      "balance_loss_clip": 1.03661585,
      "balance_loss_mlp": 1.01403737,
      "epoch": 0.670113629531654,
      "flos": 29025635621760.0,
      "grad_norm": 1.6681388381244373,
      "language_loss": 0.71777034,
      "learning_rate": 1.0368749408244802e-06,
      "loss": 0.73867869,
      "num_input_tokens_seen": 119966640,
      "step": 5573,
      "time_per_iteration": 2.6437137126922607
    },
    {
      "auxiliary_loss_clip": 0.01087232,
      "auxiliary_loss_mlp": 0.01023152,
      "balance_loss_clip": 1.0399406,
      "balance_loss_mlp": 1.01782393,
      "epoch": 0.670233872422293,
      "flos": 19793718241920.0,
      "grad_norm": 3.549458576497346,
      "language_loss": 0.78981888,
      "learning_rate": 1.0361923140010836e-06,
      "loss": 0.81092268,
      "num_input_tokens_seen": 119985125,
      "step": 5574,
      "time_per_iteration": 3.3759613037109375
    },
    {
      "auxiliary_loss_clip": 0.01085742,
      "auxiliary_loss_mlp": 0.01016954,
      "balance_loss_clip": 1.03786635,
      "balance_loss_mlp": 1.01126456,
      "epoch": 0.6703541153129321,
      "flos": 24245996227200.0,
      "grad_norm": 2.7800498408725876,
      "language_loss": 0.63097203,
      "learning_rate": 1.0355098333865455e-06,
      "loss": 0.651999,
      "num_input_tokens_seen": 120004355,
      "step": 5575,
      "time_per_iteration": 2.5358903408050537
    },
    {
      "auxiliary_loss_clip": 0.01081455,
      "auxiliary_loss_mlp": 0.01021688,
      "balance_loss_clip": 1.04255688,
      "balance_loss_mlp": 1.0164398,
      "epoch": 0.6704743582035713,
      "flos": 26690982848640.0,
      "grad_norm": 1.7132015070462205,
      "language_loss": 0.69010937,
      "learning_rate": 1.0348274990844006e-06,
      "loss": 0.71114081,
      "num_input_tokens_seen": 120027115,
      "step": 5576,
      "time_per_iteration": 2.614975690841675
    },
    {
      "auxiliary_loss_clip": 0.01082694,
      "auxiliary_loss_mlp": 0.01020989,
      "balance_loss_clip": 1.03734779,
      "balance_loss_mlp": 1.01595819,
      "epoch": 0.6705946010942103,
      "flos": 23516668442880.0,
      "grad_norm": 1.7903485255821447,
      "language_loss": 0.72533602,
      "learning_rate": 1.034145311198155e-06,
      "loss": 0.74637294,
      "num_input_tokens_seen": 120047130,
      "step": 5577,
      "time_per_iteration": 2.5350372791290283
    },
    {
      "auxiliary_loss_clip": 0.01095467,
      "auxiliary_loss_mlp": 0.0101858,
      "balance_loss_clip": 1.03864002,
      "balance_loss_mlp": 1.01340961,
      "epoch": 0.6707148439848494,
      "flos": 24063294579840.0,
      "grad_norm": 2.136475461989233,
      "language_loss": 0.63825428,
      "learning_rate": 1.0334632698312989e-06,
      "loss": 0.65939474,
      "num_input_tokens_seen": 120067925,
      "step": 5578,
      "time_per_iteration": 2.548666000366211
    },
    {
      "auxiliary_loss_clip": 0.01074148,
      "auxiliary_loss_mlp": 0.01021226,
      "balance_loss_clip": 1.0391438,
      "balance_loss_mlp": 1.01582587,
      "epoch": 0.6708350868754885,
      "flos": 22530868243200.0,
      "grad_norm": 2.206516988029904,
      "language_loss": 0.75435662,
      "learning_rate": 1.032781375087295e-06,
      "loss": 0.77531034,
      "num_input_tokens_seen": 120087825,
      "step": 5579,
      "time_per_iteration": 2.543484926223755
    },
    {
      "auxiliary_loss_clip": 0.01073218,
      "auxiliary_loss_mlp": 0.01020109,
      "balance_loss_clip": 1.03864264,
      "balance_loss_mlp": 1.01503086,
      "epoch": 0.6709553297661276,
      "flos": 25230052195200.0,
      "grad_norm": 2.6943226082745575,
      "language_loss": 0.67379534,
      "learning_rate": 1.0320996270695891e-06,
      "loss": 0.69472861,
      "num_input_tokens_seen": 120108895,
      "step": 5580,
      "time_per_iteration": 2.6350977420806885
    },
    {
      "auxiliary_loss_clip": 0.0106461,
      "auxiliary_loss_mlp": 0.01019701,
      "balance_loss_clip": 1.03707361,
      "balance_loss_mlp": 1.01445019,
      "epoch": 0.6710755726567667,
      "flos": 20450829899520.0,
      "grad_norm": 1.791007680012049,
      "language_loss": 0.73583281,
      "learning_rate": 1.0314180258815998e-06,
      "loss": 0.7566759,
      "num_input_tokens_seen": 120127535,
      "step": 5581,
      "time_per_iteration": 2.590390682220459
    },
    {
      "auxiliary_loss_clip": 0.01061319,
      "auxiliary_loss_mlp": 0.01019217,
      "balance_loss_clip": 1.03613174,
      "balance_loss_mlp": 1.014184,
      "epoch": 0.6711958155474057,
      "flos": 25997838963840.0,
      "grad_norm": 1.6453855303221765,
      "language_loss": 0.74169052,
      "learning_rate": 1.0307365716267247e-06,
      "loss": 0.76249588,
      "num_input_tokens_seen": 120147980,
      "step": 5582,
      "time_per_iteration": 2.702686071395874
    },
    {
      "auxiliary_loss_clip": 0.01083398,
      "auxiliary_loss_mlp": 0.01019863,
      "balance_loss_clip": 1.03780472,
      "balance_loss_mlp": 1.01459134,
      "epoch": 0.6713160584380449,
      "flos": 19939743054720.0,
      "grad_norm": 2.0655671888722207,
      "language_loss": 0.78272748,
      "learning_rate": 1.0300552644083423e-06,
      "loss": 0.80376005,
      "num_input_tokens_seen": 120166905,
      "step": 5583,
      "time_per_iteration": 2.4996144771575928
    },
    {
      "auxiliary_loss_clip": 0.01057131,
      "auxiliary_loss_mlp": 0.01018763,
      "balance_loss_clip": 1.03862309,
      "balance_loss_mlp": 1.01327395,
      "epoch": 0.6714363013286839,
      "flos": 18225335514240.0,
      "grad_norm": 2.7777855794331603,
      "language_loss": 0.72358996,
      "learning_rate": 1.0293741043298036e-06,
      "loss": 0.74434888,
      "num_input_tokens_seen": 120185255,
      "step": 5584,
      "time_per_iteration": 2.612842321395874
    },
    {
      "auxiliary_loss_clip": 0.01057477,
      "auxiliary_loss_mlp": 0.01024016,
      "balance_loss_clip": 1.0395484,
      "balance_loss_mlp": 1.01863027,
      "epoch": 0.671556544219323,
      "flos": 25814758135680.0,
      "grad_norm": 2.4289946936351616,
      "language_loss": 0.71622807,
      "learning_rate": 1.0286930914944436e-06,
      "loss": 0.73704296,
      "num_input_tokens_seen": 120205070,
      "step": 5585,
      "time_per_iteration": 2.626152753829956
    },
    {
      "auxiliary_loss_clip": 0.01094413,
      "auxiliary_loss_mlp": 0.0102022,
      "balance_loss_clip": 1.03606176,
      "balance_loss_mlp": 1.01536202,
      "epoch": 0.6716767871099621,
      "flos": 15852185838720.0,
      "grad_norm": 2.8751557723463086,
      "language_loss": 0.77184337,
      "learning_rate": 1.0280122260055684e-06,
      "loss": 0.79298967,
      "num_input_tokens_seen": 120220780,
      "step": 5586,
      "time_per_iteration": 2.4901986122131348
    },
    {
      "auxiliary_loss_clip": 0.01098081,
      "auxiliary_loss_mlp": 0.0102342,
      "balance_loss_clip": 1.03980303,
      "balance_loss_mlp": 1.01781464,
      "epoch": 0.6717970300006012,
      "flos": 19758178949760.0,
      "grad_norm": 2.189960531475515,
      "language_loss": 0.82597637,
      "learning_rate": 1.0273315079664652e-06,
      "loss": 0.84719133,
      "num_input_tokens_seen": 120238735,
      "step": 5587,
      "time_per_iteration": 2.480884313583374
    },
    {
      "auxiliary_loss_clip": 0.01086119,
      "auxiliary_loss_mlp": 0.01016644,
      "balance_loss_clip": 1.03910482,
      "balance_loss_mlp": 1.01147079,
      "epoch": 0.6719172728912403,
      "flos": 25487472562560.0,
      "grad_norm": 2.7986799841062013,
      "language_loss": 0.74386293,
      "learning_rate": 1.0266509374803992e-06,
      "loss": 0.76489055,
      "num_input_tokens_seen": 120259895,
      "step": 5588,
      "time_per_iteration": 2.585653305053711
    },
    {
      "auxiliary_loss_clip": 0.01096922,
      "auxiliary_loss_mlp": 0.00756754,
      "balance_loss_clip": 1.03955007,
      "balance_loss_mlp": 1.00176358,
      "epoch": 0.6720375157818794,
      "flos": 15881734074240.0,
      "grad_norm": 2.7059808764580726,
      "language_loss": 0.84712726,
      "learning_rate": 1.0259705146506123e-06,
      "loss": 0.86566401,
      "num_input_tokens_seen": 120274790,
      "step": 5589,
      "time_per_iteration": 2.4446160793304443
    },
    {
      "auxiliary_loss_clip": 0.0108564,
      "auxiliary_loss_mlp": 0.010213,
      "balance_loss_clip": 1.03858578,
      "balance_loss_mlp": 1.01611114,
      "epoch": 0.6721577586725185,
      "flos": 32013342817920.0,
      "grad_norm": 2.6344753010130852,
      "language_loss": 0.77794361,
      "learning_rate": 1.025290239580324e-06,
      "loss": 0.79901302,
      "num_input_tokens_seen": 120295460,
      "step": 5590,
      "time_per_iteration": 2.608637809753418
    },
    {
      "auxiliary_loss_clip": 0.01051084,
      "auxiliary_loss_mlp": 0.01024037,
      "balance_loss_clip": 1.03625011,
      "balance_loss_mlp": 1.01849699,
      "epoch": 0.6722780015631575,
      "flos": 20739808160640.0,
      "grad_norm": 1.882372317449718,
      "language_loss": 0.75728166,
      "learning_rate": 1.0246101123727313e-06,
      "loss": 0.7780329,
      "num_input_tokens_seen": 120314440,
      "step": 5591,
      "time_per_iteration": 2.605813980102539
    },
    {
      "auxiliary_loss_clip": 0.01084219,
      "auxiliary_loss_mlp": 0.0102538,
      "balance_loss_clip": 1.03786016,
      "balance_loss_mlp": 1.02063286,
      "epoch": 0.6723982444537967,
      "flos": 16911491379840.0,
      "grad_norm": 2.2260213839162994,
      "language_loss": 0.78697777,
      "learning_rate": 1.0239301331310085e-06,
      "loss": 0.80807382,
      "num_input_tokens_seen": 120332060,
      "step": 5592,
      "time_per_iteration": 2.519402503967285
    },
    {
      "auxiliary_loss_clip": 0.01080862,
      "auxiliary_loss_mlp": 0.01019637,
      "balance_loss_clip": 1.03642523,
      "balance_loss_mlp": 1.0144906,
      "epoch": 0.6725184873444358,
      "flos": 20669905036800.0,
      "grad_norm": 5.146838682167499,
      "language_loss": 0.88397706,
      "learning_rate": 1.0232503019583088e-06,
      "loss": 0.90498203,
      "num_input_tokens_seen": 120351670,
      "step": 5593,
      "time_per_iteration": 4.104326486587524
    },
    {
      "auxiliary_loss_clip": 0.01075567,
      "auxiliary_loss_mlp": 0.01020891,
      "balance_loss_clip": 1.03319871,
      "balance_loss_mlp": 1.01561582,
      "epoch": 0.6726387302350748,
      "flos": 23729600851200.0,
      "grad_norm": 1.9334360073306707,
      "language_loss": 0.69731683,
      "learning_rate": 1.0225706189577619e-06,
      "loss": 0.71828139,
      "num_input_tokens_seen": 120370195,
      "step": 5594,
      "time_per_iteration": 2.528409957885742
    },
    {
      "auxiliary_loss_clip": 0.01084808,
      "auxiliary_loss_mlp": 0.01020744,
      "balance_loss_clip": 1.03902924,
      "balance_loss_mlp": 1.01522183,
      "epoch": 0.672758973125714,
      "flos": 15189689813760.0,
      "grad_norm": 2.085082344332125,
      "language_loss": 0.75066626,
      "learning_rate": 1.021891084232475e-06,
      "loss": 0.77172172,
      "num_input_tokens_seen": 120388130,
      "step": 5595,
      "time_per_iteration": 3.2367641925811768
    },
    {
      "auxiliary_loss_clip": 0.01086644,
      "auxiliary_loss_mlp": 0.01022173,
      "balance_loss_clip": 1.03892863,
      "balance_loss_mlp": 1.01663852,
      "epoch": 0.672879216016353,
      "flos": 18079196947200.0,
      "grad_norm": 2.8917556038783605,
      "language_loss": 0.79624724,
      "learning_rate": 1.0212116978855325e-06,
      "loss": 0.81733543,
      "num_input_tokens_seen": 120406145,
      "step": 5596,
      "time_per_iteration": 2.4820942878723145
    },
    {
      "auxiliary_loss_clip": 0.01056766,
      "auxiliary_loss_mlp": 0.01016233,
      "balance_loss_clip": 1.03506005,
      "balance_loss_mlp": 1.01126754,
      "epoch": 0.6729994589069921,
      "flos": 23478550721280.0,
      "grad_norm": 2.010424838444774,
      "language_loss": 0.78737706,
      "learning_rate": 1.020532460019997e-06,
      "loss": 0.80810702,
      "num_input_tokens_seen": 120425395,
      "step": 5597,
      "time_per_iteration": 2.661501169204712
    },
    {
      "auxiliary_loss_clip": 0.0101536,
      "auxiliary_loss_mlp": 0.01021424,
      "balance_loss_clip": 1.02987218,
      "balance_loss_mlp": 1.01630664,
      "epoch": 0.6731197017976313,
      "flos": 26324366175360.0,
      "grad_norm": 1.8875146247246841,
      "language_loss": 0.71150726,
      "learning_rate": 1.0198533707389096e-06,
      "loss": 0.73187506,
      "num_input_tokens_seen": 120446270,
      "step": 5598,
      "time_per_iteration": 2.8401684761047363
    },
    {
      "auxiliary_loss_clip": 0.01076567,
      "auxiliary_loss_mlp": 0.0075699,
      "balance_loss_clip": 1.03404164,
      "balance_loss_mlp": 1.00178695,
      "epoch": 0.6732399446882703,
      "flos": 21618573384960.0,
      "grad_norm": 1.8521640637850103,
      "language_loss": 0.7321558,
      "learning_rate": 1.0191744301452853e-06,
      "loss": 0.75049138,
      "num_input_tokens_seen": 120465570,
      "step": 5599,
      "time_per_iteration": 3.891207218170166
    },
    {
      "auxiliary_loss_clip": 0.01096185,
      "auxiliary_loss_mlp": 0.01022175,
      "balance_loss_clip": 1.03806663,
      "balance_loss_mlp": 1.01684904,
      "epoch": 0.6733601875789094,
      "flos": 25882272420480.0,
      "grad_norm": 1.8227630625802966,
      "language_loss": 0.70359612,
      "learning_rate": 1.0184956383421208e-06,
      "loss": 0.72477973,
      "num_input_tokens_seen": 120484220,
      "step": 5600,
      "time_per_iteration": 2.5805959701538086
    },
    {
      "auxiliary_loss_clip": 0.01085084,
      "auxiliary_loss_mlp": 0.01020485,
      "balance_loss_clip": 1.03871942,
      "balance_loss_mlp": 1.015082,
      "epoch": 0.6734804304695485,
      "flos": 22931772912000.0,
      "grad_norm": 2.2302998048922893,
      "language_loss": 0.65869641,
      "learning_rate": 1.017816995432387e-06,
      "loss": 0.67975211,
      "num_input_tokens_seen": 120503320,
      "step": 5601,
      "time_per_iteration": 2.522463798522949
    },
    {
      "auxiliary_loss_clip": 0.0106708,
      "auxiliary_loss_mlp": 0.0101833,
      "balance_loss_clip": 1.03419042,
      "balance_loss_mlp": 1.01303959,
      "epoch": 0.6736006733601876,
      "flos": 18699973032960.0,
      "grad_norm": 1.9108564094539295,
      "language_loss": 0.74058396,
      "learning_rate": 1.0171385015190353e-06,
      "loss": 0.76143801,
      "num_input_tokens_seen": 120523180,
      "step": 5602,
      "time_per_iteration": 2.5861051082611084
    },
    {
      "auxiliary_loss_clip": 0.01066245,
      "auxiliary_loss_mlp": 0.00756755,
      "balance_loss_clip": 1.03997779,
      "balance_loss_mlp": 1.00182104,
      "epoch": 0.6737209162508266,
      "flos": 19429793752320.0,
      "grad_norm": 1.968603414479305,
      "language_loss": 0.73010218,
      "learning_rate": 1.0164601567049908e-06,
      "loss": 0.74833226,
      "num_input_tokens_seen": 120541710,
      "step": 5603,
      "time_per_iteration": 2.5454537868499756
    },
    {
      "auxiliary_loss_clip": 0.01075345,
      "auxiliary_loss_mlp": 0.01024186,
      "balance_loss_clip": 1.0381434,
      "balance_loss_mlp": 1.01860404,
      "epoch": 0.6738411591414658,
      "flos": 20160183242880.0,
      "grad_norm": 2.1854920560182878,
      "language_loss": 0.80006993,
      "learning_rate": 1.015781961093158e-06,
      "loss": 0.82106525,
      "num_input_tokens_seen": 120561030,
      "step": 5604,
      "time_per_iteration": 2.5945770740509033
    },
    {
      "auxiliary_loss_clip": 0.01073318,
      "auxiliary_loss_mlp": 0.01019847,
      "balance_loss_clip": 1.03492165,
      "balance_loss_mlp": 1.01468801,
      "epoch": 0.6739614020321049,
      "flos": 21656046499200.0,
      "grad_norm": 3.4261815101577966,
      "language_loss": 0.77292687,
      "learning_rate": 1.0151039147864197e-06,
      "loss": 0.79385853,
      "num_input_tokens_seen": 120581005,
      "step": 5605,
      "time_per_iteration": 2.5448813438415527
    },
    {
      "auxiliary_loss_clip": 0.01003633,
      "auxiliary_loss_mlp": 0.01017067,
      "balance_loss_clip": 1.03029656,
      "balance_loss_mlp": 1.01141953,
      "epoch": 0.6740816449227439,
      "flos": 19173700517760.0,
      "grad_norm": 2.0884023486925916,
      "language_loss": 0.66247654,
      "learning_rate": 1.0144260178876336e-06,
      "loss": 0.68268353,
      "num_input_tokens_seen": 120600350,
      "step": 5606,
      "time_per_iteration": 2.8618030548095703
    },
    {
      "auxiliary_loss_clip": 0.01074735,
      "auxiliary_loss_mlp": 0.0101869,
      "balance_loss_clip": 1.03812575,
      "balance_loss_mlp": 1.01360297,
      "epoch": 0.6742018878133831,
      "flos": 21098651627520.0,
      "grad_norm": 2.499573357826944,
      "language_loss": 0.67369902,
      "learning_rate": 1.0137482704996388e-06,
      "loss": 0.69463325,
      "num_input_tokens_seen": 120614700,
      "step": 5607,
      "time_per_iteration": 2.680447578430176
    },
    {
      "auxiliary_loss_clip": 0.0106119,
      "auxiliary_loss_mlp": 0.01024017,
      "balance_loss_clip": 1.03795445,
      "balance_loss_mlp": 1.01862311,
      "epoch": 0.6743221307040221,
      "flos": 23552207735040.0,
      "grad_norm": 3.4825553276392096,
      "language_loss": 0.78661442,
      "learning_rate": 1.0130706727252461e-06,
      "loss": 0.80746657,
      "num_input_tokens_seen": 120631755,
      "step": 5608,
      "time_per_iteration": 2.655363082885742
    },
    {
      "auxiliary_loss_clip": 0.01060398,
      "auxiliary_loss_mlp": 0.01022168,
      "balance_loss_clip": 1.03675818,
      "balance_loss_mlp": 1.01679707,
      "epoch": 0.6744423735946612,
      "flos": 16251194603520.0,
      "grad_norm": 2.559457423488187,
      "language_loss": 0.68319899,
      "learning_rate": 1.0123932246672468e-06,
      "loss": 0.70402467,
      "num_input_tokens_seen": 120645900,
      "step": 5609,
      "time_per_iteration": 2.579418897628784
    },
    {
      "auxiliary_loss_clip": 0.01009508,
      "auxiliary_loss_mlp": 0.0075243,
      "balance_loss_clip": 1.02179909,
      "balance_loss_mlp": 1.00096703,
      "epoch": 0.6745626164853004,
      "flos": 57849259242240.0,
      "grad_norm": 0.743323372107462,
      "language_loss": 0.55727577,
      "learning_rate": 1.0117159264284114e-06,
      "loss": 0.57489514,
      "num_input_tokens_seen": 120709070,
      "step": 5610,
      "time_per_iteration": 3.1900455951690674
    },
    {
      "auxiliary_loss_clip": 0.0107435,
      "auxiliary_loss_mlp": 0.01018412,
      "balance_loss_clip": 1.0390327,
      "balance_loss_mlp": 1.01321745,
      "epoch": 0.6746828593759394,
      "flos": 20487089635200.0,
      "grad_norm": 2.000104994430929,
      "language_loss": 0.7724238,
      "learning_rate": 1.0110387781114837e-06,
      "loss": 0.79335141,
      "num_input_tokens_seen": 120727685,
      "step": 5611,
      "time_per_iteration": 2.600144624710083
    },
    {
      "auxiliary_loss_clip": 0.01095223,
      "auxiliary_loss_mlp": 0.01020777,
      "balance_loss_clip": 1.03868794,
      "balance_loss_mlp": 1.01560307,
      "epoch": 0.6748031022665785,
      "flos": 19210225680000.0,
      "grad_norm": 2.006097364472755,
      "language_loss": 0.77308005,
      "learning_rate": 1.0103617798191872e-06,
      "loss": 0.79424006,
      "num_input_tokens_seen": 120747160,
      "step": 5612,
      "time_per_iteration": 2.469144582748413
    },
    {
      "auxiliary_loss_clip": 0.01067409,
      "auxiliary_loss_mlp": 0.01017227,
      "balance_loss_clip": 1.04058647,
      "balance_loss_mlp": 1.01174366,
      "epoch": 0.6749233451572175,
      "flos": 15196818412800.0,
      "grad_norm": 3.469259535977417,
      "language_loss": 0.82411659,
      "learning_rate": 1.0096849316542217e-06,
      "loss": 0.84496295,
      "num_input_tokens_seen": 120763710,
      "step": 5613,
      "time_per_iteration": 2.6039083003997803
    },
    {
      "auxiliary_loss_clip": 0.01016835,
      "auxiliary_loss_mlp": 0.01016459,
      "balance_loss_clip": 1.02866817,
      "balance_loss_mlp": 1.01119316,
      "epoch": 0.6750435880478567,
      "flos": 26501569701120.0,
      "grad_norm": 2.242579872712509,
      "language_loss": 0.74760318,
      "learning_rate": 1.0090082337192643e-06,
      "loss": 0.76793611,
      "num_input_tokens_seen": 120783355,
      "step": 5614,
      "time_per_iteration": 2.7041220664978027
    },
    {
      "auxiliary_loss_clip": 0.01035743,
      "auxiliary_loss_mlp": 0.01021637,
      "balance_loss_clip": 1.03334117,
      "balance_loss_mlp": 1.01638293,
      "epoch": 0.6751638309384957,
      "flos": 23406562103040.0,
      "grad_norm": 2.380655716308064,
      "language_loss": 0.7862736,
      "learning_rate": 1.0083316861169705e-06,
      "loss": 0.80684739,
      "num_input_tokens_seen": 120802090,
      "step": 5615,
      "time_per_iteration": 2.688950300216675
    },
    {
      "auxiliary_loss_clip": 0.01062173,
      "auxiliary_loss_mlp": 0.01018574,
      "balance_loss_clip": 1.03644574,
      "balance_loss_mlp": 1.01277709,
      "epoch": 0.6752840738291348,
      "flos": 23443693954560.0,
      "grad_norm": 5.494108933334983,
      "language_loss": 0.7155779,
      "learning_rate": 1.0076552889499713e-06,
      "loss": 0.73638541,
      "num_input_tokens_seen": 120822855,
      "step": 5616,
      "time_per_iteration": 2.6356987953186035
    },
    {
      "auxiliary_loss_clip": 0.01084602,
      "auxiliary_loss_mlp": 0.01019097,
      "balance_loss_clip": 1.03916538,
      "balance_loss_mlp": 1.0141381,
      "epoch": 0.675404316719774,
      "flos": 30338418049920.0,
      "grad_norm": 2.214338581006747,
      "language_loss": 0.73993337,
      "learning_rate": 1.006979042320876e-06,
      "loss": 0.76097035,
      "num_input_tokens_seen": 120843070,
      "step": 5617,
      "time_per_iteration": 2.6641740798950195
    },
    {
      "auxiliary_loss_clip": 0.01074127,
      "auxiliary_loss_mlp": 0.0101577,
      "balance_loss_clip": 1.03705156,
      "balance_loss_mlp": 1.01041734,
      "epoch": 0.675524559610413,
      "flos": 23624840960640.0,
      "grad_norm": 2.8946352182750155,
      "language_loss": 0.63036931,
      "learning_rate": 1.0063029463322702e-06,
      "loss": 0.65126824,
      "num_input_tokens_seen": 120863345,
      "step": 5618,
      "time_per_iteration": 2.5648088455200195
    },
    {
      "auxiliary_loss_clip": 0.01039136,
      "auxiliary_loss_mlp": 0.00756779,
      "balance_loss_clip": 1.03154945,
      "balance_loss_mlp": 1.00180602,
      "epoch": 0.6756448025010521,
      "flos": 21250591660800.0,
      "grad_norm": 2.6831863208833244,
      "language_loss": 0.75422782,
      "learning_rate": 1.0056270010867164e-06,
      "loss": 0.77218699,
      "num_input_tokens_seen": 120880915,
      "step": 5619,
      "time_per_iteration": 4.374788284301758
    },
    {
      "auxiliary_loss_clip": 0.01076701,
      "auxiliary_loss_mlp": 0.01022674,
      "balance_loss_clip": 1.03814507,
      "balance_loss_mlp": 1.01694632,
      "epoch": 0.6757650453916912,
      "flos": 21648311210880.0,
      "grad_norm": 2.6805338004304406,
      "language_loss": 0.78343368,
      "learning_rate": 1.004951206686758e-06,
      "loss": 0.80442739,
      "num_input_tokens_seen": 120899190,
      "step": 5620,
      "time_per_iteration": 2.6040709018707275
    },
    {
      "auxiliary_loss_clip": 0.01086685,
      "auxiliary_loss_mlp": 0.01023678,
      "balance_loss_clip": 1.03946185,
      "balance_loss_mlp": 1.01819396,
      "epoch": 0.6758852882823303,
      "flos": 21797634896640.0,
      "grad_norm": 1.9261021144798736,
      "language_loss": 0.71487498,
      "learning_rate": 1.0042755632349087e-06,
      "loss": 0.73597854,
      "num_input_tokens_seen": 120916080,
      "step": 5621,
      "time_per_iteration": 2.4972305297851562
    },
    {
      "auxiliary_loss_clip": 0.01053512,
      "auxiliary_loss_mlp": 0.01021555,
      "balance_loss_clip": 1.03226304,
      "balance_loss_mlp": 1.01626801,
      "epoch": 0.6760055311729694,
      "flos": 27091204992000.0,
      "grad_norm": 2.1769120899725425,
      "language_loss": 0.62942255,
      "learning_rate": 1.0036000708336653e-06,
      "loss": 0.65017325,
      "num_input_tokens_seen": 120935210,
      "step": 5622,
      "time_per_iteration": 3.3850042819976807
    },
    {
      "auxiliary_loss_clip": 0.0107375,
      "auxiliary_loss_mlp": 0.01022825,
      "balance_loss_clip": 1.03903699,
      "balance_loss_mlp": 1.01760674,
      "epoch": 0.6761257740636085,
      "flos": 18001482698880.0,
      "grad_norm": 2.151385040803772,
      "language_loss": 0.79803503,
      "learning_rate": 1.0029247295854984e-06,
      "loss": 0.81900072,
      "num_input_tokens_seen": 120951830,
      "step": 5623,
      "time_per_iteration": 2.511827230453491
    },
    {
      "auxiliary_loss_clip": 0.01062702,
      "auxiliary_loss_mlp": 0.01021955,
      "balance_loss_clip": 1.03796101,
      "balance_loss_mlp": 1.01718974,
      "epoch": 0.6762460169542476,
      "flos": 15123692252160.0,
      "grad_norm": 2.03187548634346,
      "language_loss": 0.72010416,
      "learning_rate": 1.0022495395928588e-06,
      "loss": 0.74095076,
      "num_input_tokens_seen": 120970310,
      "step": 5624,
      "time_per_iteration": 2.6118969917297363
    },
    {
      "auxiliary_loss_clip": 0.01047628,
      "auxiliary_loss_mlp": 0.01001023,
      "balance_loss_clip": 1.02048838,
      "balance_loss_mlp": 0.99923497,
      "epoch": 0.6763662598448866,
      "flos": 67894095957120.0,
      "grad_norm": 0.785787021296035,
      "language_loss": 0.62331665,
      "learning_rate": 1.0015745009581697e-06,
      "loss": 0.64380318,
      "num_input_tokens_seen": 121031915,
      "step": 5625,
      "time_per_iteration": 3.8653008937835693
    },
    {
      "auxiliary_loss_clip": 0.01077889,
      "auxiliary_loss_mlp": 0.01018506,
      "balance_loss_clip": 1.0372746,
      "balance_loss_mlp": 1.01342487,
      "epoch": 0.6764865027355258,
      "flos": 20633948645760.0,
      "grad_norm": 1.7480678722687935,
      "language_loss": 0.66987145,
      "learning_rate": 1.0008996137838343e-06,
      "loss": 0.69083542,
      "num_input_tokens_seen": 121050890,
      "step": 5626,
      "time_per_iteration": 2.5159897804260254
    },
    {
      "auxiliary_loss_clip": 0.01099891,
      "auxiliary_loss_mlp": 0.0102105,
      "balance_loss_clip": 1.04139388,
      "balance_loss_mlp": 1.01549459,
      "epoch": 0.6766067456261649,
      "flos": 21217972060800.0,
      "grad_norm": 2.1495278119911587,
      "language_loss": 0.79869473,
      "learning_rate": 1.000224878172234e-06,
      "loss": 0.81990421,
      "num_input_tokens_seen": 121070015,
      "step": 5627,
      "time_per_iteration": 2.5505692958831787
    },
    {
      "auxiliary_loss_clip": 0.01081887,
      "auxiliary_loss_mlp": 0.01018216,
      "balance_loss_clip": 1.03963709,
      "balance_loss_mlp": 1.01314712,
      "epoch": 0.6767269885168039,
      "flos": 19940311825920.0,
      "grad_norm": 5.95211261166824,
      "language_loss": 0.73218524,
      "learning_rate": 9.99550294225724e-07,
      "loss": 0.75318629,
      "num_input_tokens_seen": 121089170,
      "step": 5628,
      "time_per_iteration": 2.5391507148742676
    },
    {
      "auxiliary_loss_clip": 0.01049393,
      "auxiliary_loss_mlp": 0.01021437,
      "balance_loss_clip": 1.03864694,
      "balance_loss_mlp": 1.01599514,
      "epoch": 0.6768472314074431,
      "flos": 20816195276160.0,
      "grad_norm": 1.93826651066891,
      "language_loss": 0.72469175,
      "learning_rate": 9.988758620466402e-07,
      "loss": 0.74540007,
      "num_input_tokens_seen": 121108040,
      "step": 5629,
      "time_per_iteration": 2.717938184738159
    },
    {
      "auxiliary_loss_clip": 0.01034519,
      "auxiliary_loss_mlp": 0.01020251,
      "balance_loss_clip": 1.035815,
      "balance_loss_mlp": 1.01516402,
      "epoch": 0.6769674742980821,
      "flos": 23188283245440.0,
      "grad_norm": 3.0935115421273727,
      "language_loss": 0.76520431,
      "learning_rate": 9.982015817372917e-07,
      "loss": 0.785752,
      "num_input_tokens_seen": 121128480,
      "step": 5630,
      "time_per_iteration": 2.648918867111206
    },
    {
      "auxiliary_loss_clip": 0.01051545,
      "auxiliary_loss_mlp": 0.01021663,
      "balance_loss_clip": 1.0357846,
      "balance_loss_mlp": 1.01613486,
      "epoch": 0.6770877171887212,
      "flos": 24245199947520.0,
      "grad_norm": 1.97875705228881,
      "language_loss": 0.8246029,
      "learning_rate": 9.975274533999657e-07,
      "loss": 0.84533501,
      "num_input_tokens_seen": 121148010,
      "step": 5631,
      "time_per_iteration": 2.695258140563965
    },
    {
      "auxiliary_loss_clip": 0.01096806,
      "auxiliary_loss_mlp": 0.01021453,
      "balance_loss_clip": 1.03943348,
      "balance_loss_mlp": 1.0158267,
      "epoch": 0.6772079600793603,
      "flos": 18143033178240.0,
      "grad_norm": 2.5074993709534317,
      "language_loss": 0.8388781,
      "learning_rate": 9.96853477136929e-07,
      "loss": 0.86006069,
      "num_input_tokens_seen": 121162755,
      "step": 5632,
      "time_per_iteration": 2.4698824882507324
    },
    {
      "auxiliary_loss_clip": 0.01054509,
      "auxiliary_loss_mlp": 0.01016914,
      "balance_loss_clip": 1.03348565,
      "balance_loss_mlp": 1.01180935,
      "epoch": 0.6773282029699994,
      "flos": 22454064028800.0,
      "grad_norm": 2.4436282172657884,
      "language_loss": 0.75381923,
      "learning_rate": 9.96179653050422e-07,
      "loss": 0.77453339,
      "num_input_tokens_seen": 121182915,
      "step": 5633,
      "time_per_iteration": 2.6123621463775635
    },
    {
      "auxiliary_loss_clip": 0.01054745,
      "auxiliary_loss_mlp": 0.01018664,
      "balance_loss_clip": 1.03263915,
      "balance_loss_mlp": 1.01336837,
      "epoch": 0.6774484458606385,
      "flos": 18695498699520.0,
      "grad_norm": 3.8671687355404796,
      "language_loss": 0.74383974,
      "learning_rate": 9.955059812426635e-07,
      "loss": 0.76457381,
      "num_input_tokens_seen": 121200445,
      "step": 5634,
      "time_per_iteration": 2.5631215572357178
    },
    {
      "auxiliary_loss_clip": 0.01101197,
      "auxiliary_loss_mlp": 0.01019285,
      "balance_loss_clip": 1.04373693,
      "balance_loss_mlp": 1.01369715,
      "epoch": 0.6775686887512776,
      "flos": 25996398076800.0,
      "grad_norm": 1.9699668147332452,
      "language_loss": 0.82754022,
      "learning_rate": 9.948324618158493e-07,
      "loss": 0.84874505,
      "num_input_tokens_seen": 121220785,
      "step": 5635,
      "time_per_iteration": 2.549422025680542
    },
    {
      "auxiliary_loss_clip": 0.01087585,
      "auxiliary_loss_mlp": 0.01020532,
      "balance_loss_clip": 1.0390873,
      "balance_loss_mlp": 1.01510489,
      "epoch": 0.6776889316419167,
      "flos": 13589597520000.0,
      "grad_norm": 2.6460280389568926,
      "language_loss": 0.78366184,
      "learning_rate": 9.941590948721502e-07,
      "loss": 0.80474299,
      "num_input_tokens_seen": 121237985,
      "step": 5636,
      "time_per_iteration": 2.487187385559082
    },
    {
      "auxiliary_loss_clip": 0.01062633,
      "auxiliary_loss_mlp": 0.01021213,
      "balance_loss_clip": 1.03422379,
      "balance_loss_mlp": 1.01637602,
      "epoch": 0.6778091745325557,
      "flos": 27603656887680.0,
      "grad_norm": 1.7915030456859544,
      "language_loss": 0.76815027,
      "learning_rate": 9.934858805137188e-07,
      "loss": 0.78898877,
      "num_input_tokens_seen": 121258635,
      "step": 5637,
      "time_per_iteration": 2.6253538131713867
    },
    {
      "auxiliary_loss_clip": 0.01081618,
      "auxiliary_loss_mlp": 0.01022129,
      "balance_loss_clip": 1.03852975,
      "balance_loss_mlp": 1.01716983,
      "epoch": 0.6779294174231949,
      "flos": 18736043178240.0,
      "grad_norm": 1.6763994595940346,
      "language_loss": 0.80917895,
      "learning_rate": 9.92812818842677e-07,
      "loss": 0.83021641,
      "num_input_tokens_seen": 121277810,
      "step": 5638,
      "time_per_iteration": 2.5119571685791016
    },
    {
      "auxiliary_loss_clip": 0.01079907,
      "auxiliary_loss_mlp": 0.01019957,
      "balance_loss_clip": 1.04032207,
      "balance_loss_mlp": 1.01444399,
      "epoch": 0.678049660313834,
      "flos": 45876978875520.0,
      "grad_norm": 1.8539034734658209,
      "language_loss": 0.63832521,
      "learning_rate": 9.921399099611306e-07,
      "loss": 0.65932381,
      "num_input_tokens_seen": 121298975,
      "step": 5639,
      "time_per_iteration": 2.7468483448028564
    },
    {
      "auxiliary_loss_clip": 0.01073099,
      "auxiliary_loss_mlp": 0.01021305,
      "balance_loss_clip": 1.03753436,
      "balance_loss_mlp": 1.01622415,
      "epoch": 0.678169903204473,
      "flos": 19976609479680.0,
      "grad_norm": 1.710028776748778,
      "language_loss": 0.69096458,
      "learning_rate": 9.914671539711588e-07,
      "loss": 0.71190864,
      "num_input_tokens_seen": 121318495,
      "step": 5640,
      "time_per_iteration": 2.5409111976623535
    },
    {
      "auxiliary_loss_clip": 0.0099896,
      "auxiliary_loss_mlp": 0.0075677,
      "balance_loss_clip": 1.02707505,
      "balance_loss_mlp": 1.00189269,
      "epoch": 0.6782901460951122,
      "flos": 21397640261760.0,
      "grad_norm": 1.9334640115990411,
      "language_loss": 0.77967024,
      "learning_rate": 9.90794550974817e-07,
      "loss": 0.7972275,
      "num_input_tokens_seen": 121338890,
      "step": 5641,
      "time_per_iteration": 2.87683367729187
    },
    {
      "auxiliary_loss_clip": 0.01063369,
      "auxiliary_loss_mlp": 0.01022215,
      "balance_loss_clip": 1.03720474,
      "balance_loss_mlp": 1.01641273,
      "epoch": 0.6784103889857512,
      "flos": 21436137164160.0,
      "grad_norm": 2.3259579596382376,
      "language_loss": 0.81138718,
      "learning_rate": 9.901221010741407e-07,
      "loss": 0.83224303,
      "num_input_tokens_seen": 121358210,
      "step": 5642,
      "time_per_iteration": 3.458608388900757
    },
    {
      "auxiliary_loss_clip": 0.0108901,
      "auxiliary_loss_mlp": 0.01020857,
      "balance_loss_clip": 1.04130077,
      "balance_loss_mlp": 1.01568007,
      "epoch": 0.6785306318763903,
      "flos": 32674701300480.0,
      "grad_norm": 1.9971714271659358,
      "language_loss": 0.74456745,
      "learning_rate": 9.894498043711375e-07,
      "loss": 0.76566613,
      "num_input_tokens_seen": 121379955,
      "step": 5643,
      "time_per_iteration": 2.6309545040130615
    },
    {
      "auxiliary_loss_clip": 0.01072074,
      "auxiliary_loss_mlp": 0.01020496,
      "balance_loss_clip": 1.03797698,
      "balance_loss_mlp": 1.01493812,
      "epoch": 0.6786508747670293,
      "flos": 25634634917760.0,
      "grad_norm": 4.885944278345869,
      "language_loss": 0.69503069,
      "learning_rate": 9.887776609677962e-07,
      "loss": 0.71595639,
      "num_input_tokens_seen": 121401325,
      "step": 5644,
      "time_per_iteration": 2.697134256362915
    },
    {
      "auxiliary_loss_clip": 0.01062667,
      "auxiliary_loss_mlp": 0.01020328,
      "balance_loss_clip": 1.03573442,
      "balance_loss_mlp": 1.01491034,
      "epoch": 0.6787711176576685,
      "flos": 19173890108160.0,
      "grad_norm": 1.682130951951105,
      "language_loss": 0.72318369,
      "learning_rate": 9.88105670966079e-07,
      "loss": 0.74401367,
      "num_input_tokens_seen": 121419785,
      "step": 5645,
      "time_per_iteration": 4.1522462368011475
    },
    {
      "auxiliary_loss_clip": 0.01039566,
      "auxiliary_loss_mlp": 0.0101769,
      "balance_loss_clip": 1.03167832,
      "balance_loss_mlp": 1.01262116,
      "epoch": 0.6788913605483076,
      "flos": 13986558708480.0,
      "grad_norm": 1.862784951314551,
      "language_loss": 0.78741813,
      "learning_rate": 9.874338344679283e-07,
      "loss": 0.80799067,
      "num_input_tokens_seen": 121435630,
      "step": 5646,
      "time_per_iteration": 2.577112913131714
    },
    {
      "auxiliary_loss_clip": 0.01095075,
      "auxiliary_loss_mlp": 0.010232,
      "balance_loss_clip": 1.03911853,
      "balance_loss_mlp": 1.01827097,
      "epoch": 0.6790116034389466,
      "flos": 22019743480320.0,
      "grad_norm": 1.8307593949019285,
      "language_loss": 0.74014366,
      "learning_rate": 9.86762151575259e-07,
      "loss": 0.76132643,
      "num_input_tokens_seen": 121455625,
      "step": 5647,
      "time_per_iteration": 3.326137065887451
    },
    {
      "auxiliary_loss_clip": 0.01042397,
      "auxiliary_loss_mlp": 0.00756633,
      "balance_loss_clip": 1.03707302,
      "balance_loss_mlp": 1.00187755,
      "epoch": 0.6791318463295858,
      "flos": 20924519466240.0,
      "grad_norm": 1.5007627402495716,
      "language_loss": 0.80321634,
      "learning_rate": 9.860906223899651e-07,
      "loss": 0.82120663,
      "num_input_tokens_seen": 121475020,
      "step": 5648,
      "time_per_iteration": 2.6172807216644287
    },
    {
      "auxiliary_loss_clip": 0.01077207,
      "auxiliary_loss_mlp": 0.01023939,
      "balance_loss_clip": 1.03910422,
      "balance_loss_mlp": 1.01892018,
      "epoch": 0.6792520892202248,
      "flos": 28515307138560.0,
      "grad_norm": 2.0112842764866166,
      "language_loss": 0.75665605,
      "learning_rate": 9.854192470139184e-07,
      "loss": 0.77766752,
      "num_input_tokens_seen": 121496500,
      "step": 5649,
      "time_per_iteration": 2.640660285949707
    },
    {
      "auxiliary_loss_clip": 0.0106969,
      "auxiliary_loss_mlp": 0.01022954,
      "balance_loss_clip": 1.03728545,
      "balance_loss_mlp": 1.01807261,
      "epoch": 0.6793723321108639,
      "flos": 20014006757760.0,
      "grad_norm": 2.7849981390836684,
      "language_loss": 0.72117019,
      "learning_rate": 9.847480255489645e-07,
      "loss": 0.74209666,
      "num_input_tokens_seen": 121515525,
      "step": 5650,
      "time_per_iteration": 2.5486998558044434
    },
    {
      "auxiliary_loss_clip": 0.01073474,
      "auxiliary_loss_mlp": 0.01020501,
      "balance_loss_clip": 1.0371294,
      "balance_loss_mlp": 1.01538348,
      "epoch": 0.6794925750015031,
      "flos": 26651803420800.0,
      "grad_norm": 1.8757489632608177,
      "language_loss": 0.6925773,
      "learning_rate": 9.840769580969295e-07,
      "loss": 0.71351707,
      "num_input_tokens_seen": 121535965,
      "step": 5651,
      "time_per_iteration": 3.5690929889678955
    },
    {
      "auxiliary_loss_clip": 0.01087053,
      "auxiliary_loss_mlp": 0.01018506,
      "balance_loss_clip": 1.03922522,
      "balance_loss_mlp": 1.0134393,
      "epoch": 0.6796128178921421,
      "flos": 21582541157760.0,
      "grad_norm": 2.0538829737649635,
      "language_loss": 0.79968601,
      "learning_rate": 9.834060447596114e-07,
      "loss": 0.82074165,
      "num_input_tokens_seen": 121555235,
      "step": 5652,
      "time_per_iteration": 2.5658118724823
    },
    {
      "auxiliary_loss_clip": 0.01084901,
      "auxiliary_loss_mlp": 0.01018337,
      "balance_loss_clip": 1.03818512,
      "balance_loss_mlp": 1.01291871,
      "epoch": 0.6797330607827812,
      "flos": 22494191408640.0,
      "grad_norm": 2.1231914504500287,
      "language_loss": 0.78496134,
      "learning_rate": 9.827352856387868e-07,
      "loss": 0.80599368,
      "num_input_tokens_seen": 121574945,
      "step": 5653,
      "time_per_iteration": 2.5192575454711914
    },
    {
      "auxiliary_loss_clip": 0.01012667,
      "auxiliary_loss_mlp": 0.01003271,
      "balance_loss_clip": 1.02639318,
      "balance_loss_mlp": 1.00108898,
      "epoch": 0.6798533036734203,
      "flos": 66313048590720.0,
      "grad_norm": 0.7760101045518064,
      "language_loss": 0.64232254,
      "learning_rate": 9.820646808362118e-07,
      "loss": 0.6624819,
      "num_input_tokens_seen": 121641200,
      "step": 5654,
      "time_per_iteration": 3.306555986404419
    },
    {
      "auxiliary_loss_clip": 0.01068755,
      "auxiliary_loss_mlp": 0.01024452,
      "balance_loss_clip": 1.03752816,
      "balance_loss_mlp": 1.01933467,
      "epoch": 0.6799735465640594,
      "flos": 16182011923200.0,
      "grad_norm": 2.3683174070258013,
      "language_loss": 0.7303766,
      "learning_rate": 9.813942304536154e-07,
      "loss": 0.75130868,
      "num_input_tokens_seen": 121659170,
      "step": 5655,
      "time_per_iteration": 2.5273783206939697
    },
    {
      "auxiliary_loss_clip": 0.01072927,
      "auxiliary_loss_mlp": 0.01021905,
      "balance_loss_clip": 1.0384655,
      "balance_loss_mlp": 1.01688075,
      "epoch": 0.6800937894546984,
      "flos": 22127840161920.0,
      "grad_norm": 1.7577702870106153,
      "language_loss": 0.63605517,
      "learning_rate": 9.807239345927043e-07,
      "loss": 0.65700352,
      "num_input_tokens_seen": 121679180,
      "step": 5656,
      "time_per_iteration": 2.6237285137176514
    },
    {
      "auxiliary_loss_clip": 0.01069443,
      "auxiliary_loss_mlp": 0.01021414,
      "balance_loss_clip": 1.03607678,
      "balance_loss_mlp": 1.01622272,
      "epoch": 0.6802140323453376,
      "flos": 31615623267840.0,
      "grad_norm": 2.133052881417871,
      "language_loss": 0.72319847,
      "learning_rate": 9.80053793355162e-07,
      "loss": 0.74410701,
      "num_input_tokens_seen": 121697875,
      "step": 5657,
      "time_per_iteration": 2.607969284057617
    },
    {
      "auxiliary_loss_clip": 0.01038044,
      "auxiliary_loss_mlp": 0.01022223,
      "balance_loss_clip": 1.03432608,
      "balance_loss_mlp": 1.01678443,
      "epoch": 0.6803342752359767,
      "flos": 17714893276800.0,
      "grad_norm": 2.1320132762487276,
      "language_loss": 0.75156248,
      "learning_rate": 9.793838068426472e-07,
      "loss": 0.77216512,
      "num_input_tokens_seen": 121715570,
      "step": 5658,
      "time_per_iteration": 2.6511871814727783
    },
    {
      "auxiliary_loss_clip": 0.01097404,
      "auxiliary_loss_mlp": 0.01018982,
      "balance_loss_clip": 1.04105544,
      "balance_loss_mlp": 1.0136888,
      "epoch": 0.6804545181266157,
      "flos": 11328336334080.0,
      "grad_norm": 2.2556001535680417,
      "language_loss": 0.60989213,
      "learning_rate": 9.78713975156799e-07,
      "loss": 0.63105595,
      "num_input_tokens_seen": 121731435,
      "step": 5659,
      "time_per_iteration": 2.4473071098327637
    },
    {
      "auxiliary_loss_clip": 0.01060044,
      "auxiliary_loss_mlp": 0.01022239,
      "balance_loss_clip": 1.04294491,
      "balance_loss_mlp": 1.01660609,
      "epoch": 0.6805747610172549,
      "flos": 29353527884160.0,
      "grad_norm": 1.776430311103069,
      "language_loss": 0.71802682,
      "learning_rate": 9.780442983992273e-07,
      "loss": 0.73884958,
      "num_input_tokens_seen": 121749950,
      "step": 5660,
      "time_per_iteration": 2.6743273735046387
    },
    {
      "auxiliary_loss_clip": 0.01075175,
      "auxiliary_loss_mlp": 0.01020715,
      "balance_loss_clip": 1.03907681,
      "balance_loss_mlp": 1.01537991,
      "epoch": 0.680695003907894,
      "flos": 37634805175680.0,
      "grad_norm": 2.094269709179265,
      "language_loss": 0.71643639,
      "learning_rate": 9.773747766715238e-07,
      "loss": 0.73739529,
      "num_input_tokens_seen": 121770770,
      "step": 5661,
      "time_per_iteration": 2.6877477169036865
    },
    {
      "auxiliary_loss_clip": 0.01073563,
      "auxiliary_loss_mlp": 0.01022915,
      "balance_loss_clip": 1.03711724,
      "balance_loss_mlp": 1.01761627,
      "epoch": 0.680815246798533,
      "flos": 22129546475520.0,
      "grad_norm": 1.7430479471867213,
      "language_loss": 0.80533236,
      "learning_rate": 9.767054100752536e-07,
      "loss": 0.82629716,
      "num_input_tokens_seen": 121790720,
      "step": 5662,
      "time_per_iteration": 2.587416887283325
    },
    {
      "auxiliary_loss_clip": 0.01048622,
      "auxiliary_loss_mlp": 0.01020287,
      "balance_loss_clip": 1.03418279,
      "balance_loss_mlp": 1.01501775,
      "epoch": 0.6809354896891722,
      "flos": 17203730595840.0,
      "grad_norm": 2.4209881394877657,
      "language_loss": 0.81674838,
      "learning_rate": 9.760361987119584e-07,
      "loss": 0.83743751,
      "num_input_tokens_seen": 121808455,
      "step": 5663,
      "time_per_iteration": 2.5498526096343994
    },
    {
      "auxiliary_loss_clip": 0.01069951,
      "auxiliary_loss_mlp": 0.01019574,
      "balance_loss_clip": 1.0363344,
      "balance_loss_mlp": 1.01399493,
      "epoch": 0.6810557325798112,
      "flos": 12459782165760.0,
      "grad_norm": 2.5050999759930104,
      "language_loss": 0.67699647,
      "learning_rate": 9.753671426831592e-07,
      "loss": 0.69789165,
      "num_input_tokens_seen": 121824470,
      "step": 5664,
      "time_per_iteration": 2.563619613647461
    },
    {
      "auxiliary_loss_clip": 0.01084786,
      "auxiliary_loss_mlp": 0.01021197,
      "balance_loss_clip": 1.03840113,
      "balance_loss_mlp": 1.01606822,
      "epoch": 0.6811759754704503,
      "flos": 22157919250560.0,
      "grad_norm": 1.7680438270871721,
      "language_loss": 0.79532862,
      "learning_rate": 9.746982420903483e-07,
      "loss": 0.81638849,
      "num_input_tokens_seen": 121842665,
      "step": 5665,
      "time_per_iteration": 2.5051915645599365
    },
    {
      "auxiliary_loss_clip": 0.0108165,
      "auxiliary_loss_mlp": 0.01019485,
      "balance_loss_clip": 1.0418241,
      "balance_loss_mlp": 1.01429033,
      "epoch": 0.6812962183610894,
      "flos": 17527034770560.0,
      "grad_norm": 1.7094211134447512,
      "language_loss": 0.74950314,
      "learning_rate": 9.740294970349993e-07,
      "loss": 0.77051455,
      "num_input_tokens_seen": 121859080,
      "step": 5666,
      "time_per_iteration": 2.550919532775879
    },
    {
      "auxiliary_loss_clip": 0.01030402,
      "auxiliary_loss_mlp": 0.01002828,
      "balance_loss_clip": 1.02316093,
      "balance_loss_mlp": 1.00089729,
      "epoch": 0.6814164612517285,
      "flos": 60279874911360.0,
      "grad_norm": 0.8825740606258032,
      "language_loss": 0.60925931,
      "learning_rate": 9.733609076185594e-07,
      "loss": 0.62959164,
      "num_input_tokens_seen": 121915485,
      "step": 5667,
      "time_per_iteration": 3.064631938934326
    },
    {
      "auxiliary_loss_clip": 0.01084767,
      "auxiliary_loss_mlp": 0.01023055,
      "balance_loss_clip": 1.039675,
      "balance_loss_mlp": 1.01759517,
      "epoch": 0.6815367041423676,
      "flos": 19319763248640.0,
      "grad_norm": 1.9112487770237958,
      "language_loss": 0.8355689,
      "learning_rate": 9.72692473942455e-07,
      "loss": 0.85664713,
      "num_input_tokens_seen": 121932710,
      "step": 5668,
      "time_per_iteration": 2.488210916519165
    },
    {
      "auxiliary_loss_clip": 0.01045317,
      "auxiliary_loss_mlp": 0.010201,
      "balance_loss_clip": 1.03874123,
      "balance_loss_mlp": 1.01468503,
      "epoch": 0.6816569470330067,
      "flos": 22163758634880.0,
      "grad_norm": 1.6106595291239825,
      "language_loss": 0.77507889,
      "learning_rate": 9.720241961080849e-07,
      "loss": 0.79573303,
      "num_input_tokens_seen": 121952025,
      "step": 5669,
      "time_per_iteration": 2.665940046310425
    },
    {
      "auxiliary_loss_clip": 0.01095596,
      "auxiliary_loss_mlp": 0.01019956,
      "balance_loss_clip": 1.03840065,
      "balance_loss_mlp": 1.01498532,
      "epoch": 0.6817771899236458,
      "flos": 41466686256000.0,
      "grad_norm": 2.6829333912828592,
      "language_loss": 0.72844434,
      "learning_rate": 9.713560742168259e-07,
      "loss": 0.74959987,
      "num_input_tokens_seen": 121974650,
      "step": 5670,
      "time_per_iteration": 3.3913791179656982
    },
    {
      "auxiliary_loss_clip": 0.01057918,
      "auxiliary_loss_mlp": 0.01023282,
      "balance_loss_clip": 1.03878236,
      "balance_loss_mlp": 1.01799798,
      "epoch": 0.6818974328142848,
      "flos": 21108282819840.0,
      "grad_norm": 1.7981001250097985,
      "language_loss": 0.7148056,
      "learning_rate": 9.706881083700333e-07,
      "loss": 0.73561764,
      "num_input_tokens_seen": 121994335,
      "step": 5671,
      "time_per_iteration": 3.3451268672943115
    },
    {
      "auxiliary_loss_clip": 0.01021371,
      "auxiliary_loss_mlp": 0.01020422,
      "balance_loss_clip": 1.03160882,
      "balance_loss_mlp": 1.01502514,
      "epoch": 0.682017675704924,
      "flos": 20443587546240.0,
      "grad_norm": 2.0773795504381876,
      "language_loss": 0.82503784,
      "learning_rate": 9.700202986690357e-07,
      "loss": 0.84545577,
      "num_input_tokens_seen": 122012635,
      "step": 5672,
      "time_per_iteration": 2.6399009227752686
    },
    {
      "auxiliary_loss_clip": 0.01083606,
      "auxiliary_loss_mlp": 0.00756818,
      "balance_loss_clip": 1.03843725,
      "balance_loss_mlp": 1.00173116,
      "epoch": 0.682137918595563,
      "flos": 20046323013120.0,
      "grad_norm": 1.8492394143803326,
      "language_loss": 0.66430801,
      "learning_rate": 9.693526452151413e-07,
      "loss": 0.6827122,
      "num_input_tokens_seen": 122031685,
      "step": 5673,
      "time_per_iteration": 3.339132070541382
    },
    {
      "auxiliary_loss_clip": 0.01066065,
      "auxiliary_loss_mlp": 0.0101771,
      "balance_loss_clip": 1.03834689,
      "balance_loss_mlp": 1.01211917,
      "epoch": 0.6822581614862021,
      "flos": 31687156869120.0,
      "grad_norm": 1.6099337433461907,
      "language_loss": 0.75475395,
      "learning_rate": 9.686851481096305e-07,
      "loss": 0.77559167,
      "num_input_tokens_seen": 122052995,
      "step": 5674,
      "time_per_iteration": 2.704791307449341
    },
    {
      "auxiliary_loss_clip": 0.01031011,
      "auxiliary_loss_mlp": 0.01022003,
      "balance_loss_clip": 1.03928995,
      "balance_loss_mlp": 1.01637292,
      "epoch": 0.6823784043768413,
      "flos": 23479839936000.0,
      "grad_norm": 3.1426709992754787,
      "language_loss": 0.71997857,
      "learning_rate": 9.68017807453762e-07,
      "loss": 0.74050874,
      "num_input_tokens_seen": 122071740,
      "step": 5675,
      "time_per_iteration": 2.656341791152954
    },
    {
      "auxiliary_loss_clip": 0.0107381,
      "auxiliary_loss_mlp": 0.00756578,
      "balance_loss_clip": 1.03999281,
      "balance_loss_mlp": 1.00171041,
      "epoch": 0.6824986472674803,
      "flos": 14138877922560.0,
      "grad_norm": 1.8178553193306632,
      "language_loss": 0.73366785,
      "learning_rate": 9.673506233487721e-07,
      "loss": 0.75197166,
      "num_input_tokens_seen": 122089705,
      "step": 5676,
      "time_per_iteration": 2.6041972637176514
    },
    {
      "auxiliary_loss_clip": 0.01072609,
      "auxiliary_loss_mlp": 0.00756519,
      "balance_loss_clip": 1.03776526,
      "balance_loss_mlp": 1.00173914,
      "epoch": 0.6826188901581194,
      "flos": 21507026158080.0,
      "grad_norm": 2.1468197085909813,
      "language_loss": 0.85893226,
      "learning_rate": 9.666835958958717e-07,
      "loss": 0.87722349,
      "num_input_tokens_seen": 122109025,
      "step": 5677,
      "time_per_iteration": 3.3040249347686768
    },
    {
      "auxiliary_loss_clip": 0.01096683,
      "auxiliary_loss_mlp": 0.0101848,
      "balance_loss_clip": 1.03993738,
      "balance_loss_mlp": 1.01338696,
      "epoch": 0.6827391330487584,
      "flos": 20812024287360.0,
      "grad_norm": 4.697986080435933,
      "language_loss": 0.8062166,
      "learning_rate": 9.660167251962484e-07,
      "loss": 0.82736826,
      "num_input_tokens_seen": 122127385,
      "step": 5678,
      "time_per_iteration": 2.52252197265625
    },
    {
      "auxiliary_loss_clip": 0.01062353,
      "auxiliary_loss_mlp": 0.01020072,
      "balance_loss_clip": 1.03735399,
      "balance_loss_mlp": 1.01515794,
      "epoch": 0.6828593759393976,
      "flos": 21690903265920.0,
      "grad_norm": 1.8930397332296687,
      "language_loss": 0.78011239,
      "learning_rate": 9.653500113510654e-07,
      "loss": 0.8009367,
      "num_input_tokens_seen": 122146500,
      "step": 5679,
      "time_per_iteration": 2.572521924972534
    },
    {
      "auxiliary_loss_clip": 0.01072461,
      "auxiliary_loss_mlp": 0.01021207,
      "balance_loss_clip": 1.03715479,
      "balance_loss_mlp": 1.01569653,
      "epoch": 0.6829796188300367,
      "flos": 25340044780800.0,
      "grad_norm": 3.994389871686773,
      "language_loss": 0.66846061,
      "learning_rate": 9.646834544614627e-07,
      "loss": 0.68939722,
      "num_input_tokens_seen": 122167000,
      "step": 5680,
      "time_per_iteration": 2.609212636947632
    },
    {
      "auxiliary_loss_clip": 0.01067582,
      "auxiliary_loss_mlp": 0.01020071,
      "balance_loss_clip": 1.03730547,
      "balance_loss_mlp": 1.01486409,
      "epoch": 0.6830998617206757,
      "flos": 20706923134080.0,
      "grad_norm": 2.612519140004982,
      "language_loss": 0.76307857,
      "learning_rate": 9.64017054628558e-07,
      "loss": 0.7839551,
      "num_input_tokens_seen": 122185825,
      "step": 5681,
      "time_per_iteration": 2.5363662242889404
    },
    {
      "auxiliary_loss_clip": 0.01046445,
      "auxiliary_loss_mlp": 0.01020282,
      "balance_loss_clip": 1.03502643,
      "balance_loss_mlp": 1.01523685,
      "epoch": 0.6832201046113149,
      "flos": 21728831397120.0,
      "grad_norm": 1.7487105898045645,
      "language_loss": 0.79118502,
      "learning_rate": 9.63350811953441e-07,
      "loss": 0.81185234,
      "num_input_tokens_seen": 122206200,
      "step": 5682,
      "time_per_iteration": 2.660726547241211
    },
    {
      "auxiliary_loss_clip": 0.01058428,
      "auxiliary_loss_mlp": 0.0101835,
      "balance_loss_clip": 1.0350225,
      "balance_loss_mlp": 1.01304221,
      "epoch": 0.6833403475019539,
      "flos": 19538572959360.0,
      "grad_norm": 2.13338943226163,
      "language_loss": 0.7063874,
      "learning_rate": 9.626847265371826e-07,
      "loss": 0.72715521,
      "num_input_tokens_seen": 122225520,
      "step": 5683,
      "time_per_iteration": 2.691375255584717
    },
    {
      "auxiliary_loss_clip": 0.01072361,
      "auxiliary_loss_mlp": 0.01022861,
      "balance_loss_clip": 1.0372647,
      "balance_loss_mlp": 1.01782417,
      "epoch": 0.683460590392593,
      "flos": 19354051244160.0,
      "grad_norm": 2.1896627188531994,
      "language_loss": 0.78780001,
      "learning_rate": 9.620187984808262e-07,
      "loss": 0.80875224,
      "num_input_tokens_seen": 122244320,
      "step": 5684,
      "time_per_iteration": 2.5551681518554688
    },
    {
      "auxiliary_loss_clip": 0.01063552,
      "auxiliary_loss_mlp": 0.00756566,
      "balance_loss_clip": 1.03434682,
      "balance_loss_mlp": 1.00170684,
      "epoch": 0.6835808332832322,
      "flos": 23290388870400.0,
      "grad_norm": 1.9633168018680298,
      "language_loss": 0.85837424,
      "learning_rate": 9.613530278853919e-07,
      "loss": 0.87657547,
      "num_input_tokens_seen": 122264295,
      "step": 5685,
      "time_per_iteration": 2.610483169555664
    },
    {
      "auxiliary_loss_clip": 0.01081818,
      "auxiliary_loss_mlp": 0.01018211,
      "balance_loss_clip": 1.04169488,
      "balance_loss_mlp": 1.01337421,
      "epoch": 0.6837010761738712,
      "flos": 21655591482240.0,
      "grad_norm": 1.8551400804685942,
      "language_loss": 0.74712396,
      "learning_rate": 9.60687414851879e-07,
      "loss": 0.76812422,
      "num_input_tokens_seen": 122285300,
      "step": 5686,
      "time_per_iteration": 2.5416128635406494
    },
    {
      "auxiliary_loss_clip": 0.01061844,
      "auxiliary_loss_mlp": 0.01020634,
      "balance_loss_clip": 1.03618717,
      "balance_loss_mlp": 1.01545429,
      "epoch": 0.6838213190645103,
      "flos": 17568299692800.0,
      "grad_norm": 2.1722493836011134,
      "language_loss": 0.77025354,
      "learning_rate": 9.600219594812575e-07,
      "loss": 0.79107833,
      "num_input_tokens_seen": 122303240,
      "step": 5687,
      "time_per_iteration": 2.585230588912964
    },
    {
      "auxiliary_loss_clip": 0.01095295,
      "auxiliary_loss_mlp": 0.01017596,
      "balance_loss_clip": 1.03868222,
      "balance_loss_mlp": 1.01256561,
      "epoch": 0.6839415619551494,
      "flos": 23114777904000.0,
      "grad_norm": 2.215006699597332,
      "language_loss": 0.72524881,
      "learning_rate": 9.593566618744786e-07,
      "loss": 0.74637771,
      "num_input_tokens_seen": 122323390,
      "step": 5688,
      "time_per_iteration": 2.493577718734741
    },
    {
      "auxiliary_loss_clip": 0.01096776,
      "auxiliary_loss_mlp": 0.01021975,
      "balance_loss_clip": 1.03977776,
      "balance_loss_mlp": 1.01686645,
      "epoch": 0.6840618048457885,
      "flos": 22130077328640.0,
      "grad_norm": 1.9517559028730431,
      "language_loss": 0.74013543,
      "learning_rate": 9.58691522132466e-07,
      "loss": 0.76132292,
      "num_input_tokens_seen": 122342200,
      "step": 5689,
      "time_per_iteration": 2.5373029708862305
    },
    {
      "auxiliary_loss_clip": 0.01072356,
      "auxiliary_loss_mlp": 0.01018204,
      "balance_loss_clip": 1.03777599,
      "balance_loss_mlp": 1.01291382,
      "epoch": 0.6841820477364275,
      "flos": 22017961330560.0,
      "grad_norm": 2.189705158930103,
      "language_loss": 0.84945345,
      "learning_rate": 9.58026540356123e-07,
      "loss": 0.87035906,
      "num_input_tokens_seen": 122360465,
      "step": 5690,
      "time_per_iteration": 2.542085886001587
    },
    {
      "auxiliary_loss_clip": 0.01087016,
      "auxiliary_loss_mlp": 0.01020027,
      "balance_loss_clip": 1.04004121,
      "balance_loss_mlp": 1.01464462,
      "epoch": 0.6843022906270667,
      "flos": 24902880376320.0,
      "grad_norm": 1.8329576934422072,
      "language_loss": 0.8683362,
      "learning_rate": 9.573617166463246e-07,
      "loss": 0.88940668,
      "num_input_tokens_seen": 122381680,
      "step": 5691,
      "time_per_iteration": 2.5880932807922363
    },
    {
      "auxiliary_loss_clip": 0.01072531,
      "auxiliary_loss_mlp": 0.01022798,
      "balance_loss_clip": 1.03713262,
      "balance_loss_mlp": 1.01801753,
      "epoch": 0.6844225335177058,
      "flos": 19971718047360.0,
      "grad_norm": 2.0567568869599135,
      "language_loss": 0.60128427,
      "learning_rate": 9.56697051103924e-07,
      "loss": 0.62223756,
      "num_input_tokens_seen": 122399120,
      "step": 5692,
      "time_per_iteration": 2.526407241821289
    },
    {
      "auxiliary_loss_clip": 0.01063457,
      "auxiliary_loss_mlp": 0.01018525,
      "balance_loss_clip": 1.03110564,
      "balance_loss_mlp": 1.01353288,
      "epoch": 0.6845427764083448,
      "flos": 25885609211520.0,
      "grad_norm": 1.9588707293072052,
      "language_loss": 0.81238592,
      "learning_rate": 9.560325438297522e-07,
      "loss": 0.8332057,
      "num_input_tokens_seen": 122417430,
      "step": 5693,
      "time_per_iteration": 2.591142416000366
    },
    {
      "auxiliary_loss_clip": 0.01069741,
      "auxiliary_loss_mlp": 0.01019036,
      "balance_loss_clip": 1.04166126,
      "balance_loss_mlp": 1.01422906,
      "epoch": 0.684663019298984,
      "flos": 18882143827200.0,
      "grad_norm": 1.9081981333658644,
      "language_loss": 0.86817396,
      "learning_rate": 9.553681949246127e-07,
      "loss": 0.88906169,
      "num_input_tokens_seen": 122435055,
      "step": 5694,
      "time_per_iteration": 2.5258960723876953
    },
    {
      "auxiliary_loss_clip": 0.0105415,
      "auxiliary_loss_mlp": 0.01021536,
      "balance_loss_clip": 1.03348672,
      "balance_loss_mlp": 1.01576293,
      "epoch": 0.684783262189623,
      "flos": 54197435594880.0,
      "grad_norm": 1.7798381307057838,
      "language_loss": 0.75576055,
      "learning_rate": 9.547040044892886e-07,
      "loss": 0.77651745,
      "num_input_tokens_seen": 122462570,
      "step": 5695,
      "time_per_iteration": 2.887502908706665
    },
    {
      "auxiliary_loss_clip": 0.01038997,
      "auxiliary_loss_mlp": 0.01003965,
      "balance_loss_clip": 1.02167487,
      "balance_loss_mlp": 1.00204527,
      "epoch": 0.6849035050802621,
      "flos": 63976461995520.0,
      "grad_norm": 0.8559769554934499,
      "language_loss": 0.60021633,
      "learning_rate": 9.540399726245354e-07,
      "loss": 0.62064594,
      "num_input_tokens_seen": 122519275,
      "step": 5696,
      "time_per_iteration": 3.734311103820801
    },
    {
      "auxiliary_loss_clip": 0.0107592,
      "auxiliary_loss_mlp": 0.01021339,
      "balance_loss_clip": 1.03932214,
      "balance_loss_mlp": 1.01598644,
      "epoch": 0.6850237479709013,
      "flos": 25226222469120.0,
      "grad_norm": 2.0544945783634447,
      "language_loss": 0.69024694,
      "learning_rate": 9.533760994310859e-07,
      "loss": 0.71121949,
      "num_input_tokens_seen": 122539675,
      "step": 5697,
      "time_per_iteration": 3.301426649093628
    },
    {
      "auxiliary_loss_clip": 0.01096878,
      "auxiliary_loss_mlp": 0.01018742,
      "balance_loss_clip": 1.03938818,
      "balance_loss_mlp": 1.01370883,
      "epoch": 0.6851439908615403,
      "flos": 19356136738560.0,
      "grad_norm": 1.9806449973605036,
      "language_loss": 0.75287485,
      "learning_rate": 9.527123850096508e-07,
      "loss": 0.77403104,
      "num_input_tokens_seen": 122558035,
      "step": 5698,
      "time_per_iteration": 2.506739377975464
    },
    {
      "auxiliary_loss_clip": 0.01081412,
      "auxiliary_loss_mlp": 0.01017197,
      "balance_loss_clip": 1.0389452,
      "balance_loss_mlp": 1.0121274,
      "epoch": 0.6852642337521794,
      "flos": 23184188092800.0,
      "grad_norm": 4.348001428516919,
      "language_loss": 0.7188158,
      "learning_rate": 9.520488294609142e-07,
      "loss": 0.73980188,
      "num_input_tokens_seen": 122576815,
      "step": 5699,
      "time_per_iteration": 3.2605929374694824
    },
    {
      "auxiliary_loss_clip": 0.01007483,
      "auxiliary_loss_mlp": 0.01003091,
      "balance_loss_clip": 1.02053213,
      "balance_loss_mlp": 1.00111222,
      "epoch": 0.6853844766428185,
      "flos": 62652797078400.0,
      "grad_norm": 0.7318152621087912,
      "language_loss": 0.53819299,
      "learning_rate": 9.513854328855368e-07,
      "loss": 0.55829871,
      "num_input_tokens_seen": 122634690,
      "step": 5700,
      "time_per_iteration": 3.15804386138916
    },
    {
      "auxiliary_loss_clip": 0.01095323,
      "auxiliary_loss_mlp": 0.01018157,
      "balance_loss_clip": 1.03904247,
      "balance_loss_mlp": 1.01324296,
      "epoch": 0.6855047195334576,
      "flos": 23439295457280.0,
      "grad_norm": 2.23340294457254,
      "language_loss": 0.81121272,
      "learning_rate": 9.507221953841558e-07,
      "loss": 0.83234757,
      "num_input_tokens_seen": 122652320,
      "step": 5701,
      "time_per_iteration": 2.4903483390808105
    },
    {
      "auxiliary_loss_clip": 0.01085018,
      "auxiliary_loss_mlp": 0.01018065,
      "balance_loss_clip": 1.0403831,
      "balance_loss_mlp": 1.01262879,
      "epoch": 0.6856249624240967,
      "flos": 20666757836160.0,
      "grad_norm": 1.6407280225478715,
      "language_loss": 0.77937806,
      "learning_rate": 9.500591170573824e-07,
      "loss": 0.80040896,
      "num_input_tokens_seen": 122672340,
      "step": 5702,
      "time_per_iteration": 3.288987636566162
    },
    {
      "auxiliary_loss_clip": 0.01043434,
      "auxiliary_loss_mlp": 0.01019097,
      "balance_loss_clip": 1.03375864,
      "balance_loss_mlp": 1.01412606,
      "epoch": 0.6857452053147358,
      "flos": 17088922414080.0,
      "grad_norm": 2.0166434623054923,
      "language_loss": 0.74236268,
      "learning_rate": 9.493961980058078e-07,
      "loss": 0.76298797,
      "num_input_tokens_seen": 122689935,
      "step": 5703,
      "time_per_iteration": 2.6183583736419678
    },
    {
      "auxiliary_loss_clip": 0.01029665,
      "auxiliary_loss_mlp": 0.01019056,
      "balance_loss_clip": 1.02968025,
      "balance_loss_mlp": 1.01411808,
      "epoch": 0.6858654482053749,
      "flos": 30849921993600.0,
      "grad_norm": 2.048836734777688,
      "language_loss": 0.67185837,
      "learning_rate": 9.48733438329993e-07,
      "loss": 0.69234562,
      "num_input_tokens_seen": 122710200,
      "step": 5704,
      "time_per_iteration": 2.7002010345458984
    },
    {
      "auxiliary_loss_clip": 0.01097377,
      "auxiliary_loss_mlp": 0.0075652,
      "balance_loss_clip": 1.04119194,
      "balance_loss_mlp": 1.00173092,
      "epoch": 0.6859856910960139,
      "flos": 28879876235520.0,
      "grad_norm": 1.9324356267585219,
      "language_loss": 0.74669206,
      "learning_rate": 9.480708381304807e-07,
      "loss": 0.76523101,
      "num_input_tokens_seen": 122731495,
      "step": 5705,
      "time_per_iteration": 2.595078468322754
    },
    {
      "auxiliary_loss_clip": 0.01037823,
      "auxiliary_loss_mlp": 0.01024725,
      "balance_loss_clip": 1.03251469,
      "balance_loss_mlp": 1.01926255,
      "epoch": 0.6861059339866531,
      "flos": 19356553837440.0,
      "grad_norm": 2.6980029923281093,
      "language_loss": 0.83469021,
      "learning_rate": 9.474083975077858e-07,
      "loss": 0.85531574,
      "num_input_tokens_seen": 122748620,
      "step": 5706,
      "time_per_iteration": 2.576221227645874
    },
    {
      "auxiliary_loss_clip": 0.01088033,
      "auxiliary_loss_mlp": 0.01016732,
      "balance_loss_clip": 1.03970361,
      "balance_loss_mlp": 1.01177573,
      "epoch": 0.6862261768772921,
      "flos": 22202141783040.0,
      "grad_norm": 2.2981429324683376,
      "language_loss": 0.80512106,
      "learning_rate": 9.467461165623994e-07,
      "loss": 0.82616866,
      "num_input_tokens_seen": 122767670,
      "step": 5707,
      "time_per_iteration": 2.558104991912842
    },
    {
      "auxiliary_loss_clip": 0.01086402,
      "auxiliary_loss_mlp": 0.01018223,
      "balance_loss_clip": 1.03879285,
      "balance_loss_mlp": 1.01336837,
      "epoch": 0.6863464197679312,
      "flos": 26288030603520.0,
      "grad_norm": 2.5454767172594837,
      "language_loss": 0.80108857,
      "learning_rate": 9.46083995394791e-07,
      "loss": 0.82213485,
      "num_input_tokens_seen": 122785480,
      "step": 5708,
      "time_per_iteration": 2.5435447692871094
    },
    {
      "auxiliary_loss_clip": 0.0108323,
      "auxiliary_loss_mlp": 0.00756331,
      "balance_loss_clip": 1.03787804,
      "balance_loss_mlp": 1.0016228,
      "epoch": 0.6864666626585703,
      "flos": 37818227266560.0,
      "grad_norm": 2.1739397979867245,
      "language_loss": 0.63547456,
      "learning_rate": 9.454220341054012e-07,
      "loss": 0.65387017,
      "num_input_tokens_seen": 122810265,
      "step": 5709,
      "time_per_iteration": 2.708216905593872
    },
    {
      "auxiliary_loss_clip": 0.01058398,
      "auxiliary_loss_mlp": 0.0102335,
      "balance_loss_clip": 1.03724945,
      "balance_loss_mlp": 1.01797986,
      "epoch": 0.6865869055492094,
      "flos": 19393192753920.0,
      "grad_norm": 2.2712244581393537,
      "language_loss": 0.80564493,
      "learning_rate": 9.447602327946512e-07,
      "loss": 0.82646239,
      "num_input_tokens_seen": 122828905,
      "step": 5710,
      "time_per_iteration": 2.5543556213378906
    },
    {
      "auxiliary_loss_clip": 0.01076268,
      "auxiliary_loss_mlp": 0.01021737,
      "balance_loss_clip": 1.03723121,
      "balance_loss_mlp": 1.0165751,
      "epoch": 0.6867071484398485,
      "flos": 20378045001600.0,
      "grad_norm": 2.1826072855798855,
      "language_loss": 0.76671916,
      "learning_rate": 9.440985915629338e-07,
      "loss": 0.78769922,
      "num_input_tokens_seen": 122846235,
      "step": 5711,
      "time_per_iteration": 2.6007790565490723
    },
    {
      "auxiliary_loss_clip": 0.01096886,
      "auxiliary_loss_mlp": 0.01019551,
      "balance_loss_clip": 1.04084432,
      "balance_loss_mlp": 1.01452291,
      "epoch": 0.6868273913304875,
      "flos": 15891024003840.0,
      "grad_norm": 2.4365960490875063,
      "language_loss": 0.73388666,
      "learning_rate": 9.434371105106223e-07,
      "loss": 0.75505102,
      "num_input_tokens_seen": 122863835,
      "step": 5712,
      "time_per_iteration": 2.4457287788391113
    },
    {
      "auxiliary_loss_clip": 0.01058517,
      "auxiliary_loss_mlp": 0.01020638,
      "balance_loss_clip": 1.0353272,
      "balance_loss_mlp": 1.01526499,
      "epoch": 0.6869476342211267,
      "flos": 24464805937920.0,
      "grad_norm": 1.7501412101827196,
      "language_loss": 0.70704305,
      "learning_rate": 9.427757897380602e-07,
      "loss": 0.72783464,
      "num_input_tokens_seen": 122883235,
      "step": 5713,
      "time_per_iteration": 2.639444589614868
    },
    {
      "auxiliary_loss_clip": 0.01049847,
      "auxiliary_loss_mlp": 0.01017424,
      "balance_loss_clip": 1.03031254,
      "balance_loss_mlp": 1.01210737,
      "epoch": 0.6870678771117658,
      "flos": 18444562323840.0,
      "grad_norm": 4.359556589312544,
      "language_loss": 0.85292375,
      "learning_rate": 9.421146293455695e-07,
      "loss": 0.87359655,
      "num_input_tokens_seen": 122898975,
      "step": 5714,
      "time_per_iteration": 2.5417723655700684
    },
    {
      "auxiliary_loss_clip": 0.01075978,
      "auxiliary_loss_mlp": 0.010187,
      "balance_loss_clip": 1.03826654,
      "balance_loss_mlp": 1.01352334,
      "epoch": 0.6871881200024048,
      "flos": 22202558881920.0,
      "grad_norm": 2.072149963599122,
      "language_loss": 0.68593752,
      "learning_rate": 9.414536294334489e-07,
      "loss": 0.70688432,
      "num_input_tokens_seen": 122918995,
      "step": 5715,
      "time_per_iteration": 2.595599889755249
    },
    {
      "auxiliary_loss_clip": 0.01075934,
      "auxiliary_loss_mlp": 0.01019753,
      "balance_loss_clip": 1.03714848,
      "balance_loss_mlp": 1.01446021,
      "epoch": 0.687308362893044,
      "flos": 22129925656320.0,
      "grad_norm": 1.9833093839530012,
      "language_loss": 0.69602084,
      "learning_rate": 9.407927901019708e-07,
      "loss": 0.71697772,
      "num_input_tokens_seen": 122938125,
      "step": 5716,
      "time_per_iteration": 2.541229486465454
    },
    {
      "auxiliary_loss_clip": 0.01084389,
      "auxiliary_loss_mlp": 0.01019597,
      "balance_loss_clip": 1.03876233,
      "balance_loss_mlp": 1.01452124,
      "epoch": 0.687428605783683,
      "flos": 25042572869760.0,
      "grad_norm": 2.0766529685675006,
      "language_loss": 0.76881015,
      "learning_rate": 9.401321114513854e-07,
      "loss": 0.78985,
      "num_input_tokens_seen": 122957020,
      "step": 5717,
      "time_per_iteration": 2.575885057449341
    },
    {
      "auxiliary_loss_clip": 0.01095985,
      "auxiliary_loss_mlp": 0.01019188,
      "balance_loss_clip": 1.0391897,
      "balance_loss_mlp": 1.01400232,
      "epoch": 0.6875488486743221,
      "flos": 23772382496640.0,
      "grad_norm": 1.5800677663601672,
      "language_loss": 0.75157064,
      "learning_rate": 9.394715935819155e-07,
      "loss": 0.77272236,
      "num_input_tokens_seen": 122977410,
      "step": 5718,
      "time_per_iteration": 2.502164602279663
    },
    {
      "auxiliary_loss_clip": 0.01088742,
      "auxiliary_loss_mlp": 0.01021691,
      "balance_loss_clip": 1.04043674,
      "balance_loss_mlp": 1.01633227,
      "epoch": 0.6876690915649613,
      "flos": 25519106292480.0,
      "grad_norm": 3.8992754459377896,
      "language_loss": 0.62694919,
      "learning_rate": 9.388112365937608e-07,
      "loss": 0.64805353,
      "num_input_tokens_seen": 122996875,
      "step": 5719,
      "time_per_iteration": 2.584179639816284
    },
    {
      "auxiliary_loss_clip": 0.01062381,
      "auxiliary_loss_mlp": 0.01019945,
      "balance_loss_clip": 1.03685844,
      "balance_loss_mlp": 1.0145452,
      "epoch": 0.6877893344556003,
      "flos": 19430059178880.0,
      "grad_norm": 2.724199404069205,
      "language_loss": 0.82651079,
      "learning_rate": 9.381510405870985e-07,
      "loss": 0.84733409,
      "num_input_tokens_seen": 123015890,
      "step": 5720,
      "time_per_iteration": 2.5583858489990234
    },
    {
      "auxiliary_loss_clip": 0.01088045,
      "auxiliary_loss_mlp": 0.01020009,
      "balance_loss_clip": 1.0395751,
      "balance_loss_mlp": 1.01476669,
      "epoch": 0.6879095773462394,
      "flos": 18663296198400.0,
      "grad_norm": 2.162944383685435,
      "language_loss": 0.77417874,
      "learning_rate": 9.374910056620791e-07,
      "loss": 0.7952593,
      "num_input_tokens_seen": 123034955,
      "step": 5721,
      "time_per_iteration": 2.5363259315490723
    },
    {
      "auxiliary_loss_clip": 0.01085578,
      "auxiliary_loss_mlp": 0.0102278,
      "balance_loss_clip": 1.04016185,
      "balance_loss_mlp": 1.0175612,
      "epoch": 0.6880298202368785,
      "flos": 20885036693760.0,
      "grad_norm": 1.8337902405493973,
      "language_loss": 0.81026447,
      "learning_rate": 9.368311319188293e-07,
      "loss": 0.83134806,
      "num_input_tokens_seen": 123052770,
      "step": 5722,
      "time_per_iteration": 3.3599467277526855
    },
    {
      "auxiliary_loss_clip": 0.01057562,
      "auxiliary_loss_mlp": 0.01018774,
      "balance_loss_clip": 1.0349915,
      "balance_loss_mlp": 1.01355815,
      "epoch": 0.6881500631275176,
      "flos": 30155868074880.0,
      "grad_norm": 1.8776129573214824,
      "language_loss": 0.79430914,
      "learning_rate": 9.361714194574515e-07,
      "loss": 0.81507248,
      "num_input_tokens_seen": 123075105,
      "step": 5723,
      "time_per_iteration": 3.377558708190918
    },
    {
      "auxiliary_loss_clip": 0.0104936,
      "auxiliary_loss_mlp": 0.01001962,
      "balance_loss_clip": 1.0229044,
      "balance_loss_mlp": 0.99994773,
      "epoch": 0.6882703060181566,
      "flos": 66189092100480.0,
      "grad_norm": 0.7321388552996757,
      "language_loss": 0.58236694,
      "learning_rate": 9.355118683780228e-07,
      "loss": 0.60288012,
      "num_input_tokens_seen": 123145175,
      "step": 5724,
      "time_per_iteration": 3.243166208267212
    },
    {
      "auxiliary_loss_clip": 0.01097068,
      "auxiliary_loss_mlp": 0.01018344,
      "balance_loss_clip": 1.03992665,
      "balance_loss_mlp": 1.01330757,
      "epoch": 0.6883905489087958,
      "flos": 18216121420800.0,
      "grad_norm": 2.1354829546891043,
      "language_loss": 0.79609764,
      "learning_rate": 9.348524787805987e-07,
      "loss": 0.81725174,
      "num_input_tokens_seen": 123160365,
      "step": 5725,
      "time_per_iteration": 3.2597479820251465
    },
    {
      "auxiliary_loss_clip": 0.01063092,
      "auxiliary_loss_mlp": 0.01017441,
      "balance_loss_clip": 1.03557396,
      "balance_loss_mlp": 1.01232958,
      "epoch": 0.6885107917994349,
      "flos": 14057561456640.0,
      "grad_norm": 3.885565710999261,
      "language_loss": 0.85277617,
      "learning_rate": 9.341932507652053e-07,
      "loss": 0.87358147,
      "num_input_tokens_seen": 123174855,
      "step": 5726,
      "time_per_iteration": 2.556588888168335
    },
    {
      "auxiliary_loss_clip": 0.01075052,
      "auxiliary_loss_mlp": 0.01023044,
      "balance_loss_clip": 1.03688157,
      "balance_loss_mlp": 1.01732755,
      "epoch": 0.6886310346900739,
      "flos": 28693041517440.0,
      "grad_norm": 1.7898076653479982,
      "language_loss": 0.78430378,
      "learning_rate": 9.335341844318489e-07,
      "loss": 0.80528474,
      "num_input_tokens_seen": 123194995,
      "step": 5727,
      "time_per_iteration": 3.361445903778076
    },
    {
      "auxiliary_loss_clip": 0.01070189,
      "auxiliary_loss_mlp": 0.01018704,
      "balance_loss_clip": 1.03656685,
      "balance_loss_mlp": 1.01354265,
      "epoch": 0.6887512775807131,
      "flos": 24537628753920.0,
      "grad_norm": 2.083216028265462,
      "language_loss": 0.72814524,
      "learning_rate": 9.328752798805091e-07,
      "loss": 0.74903411,
      "num_input_tokens_seen": 123213465,
      "step": 5728,
      "time_per_iteration": 2.5650150775909424
    },
    {
      "auxiliary_loss_clip": 0.01083118,
      "auxiliary_loss_mlp": 0.01022151,
      "balance_loss_clip": 1.03865576,
      "balance_loss_mlp": 1.01693249,
      "epoch": 0.6888715204713521,
      "flos": 22416287569920.0,
      "grad_norm": 2.4245980221016747,
      "language_loss": 0.76164901,
      "learning_rate": 9.322165372111399e-07,
      "loss": 0.78270173,
      "num_input_tokens_seen": 123231610,
      "step": 5729,
      "time_per_iteration": 2.5502781867980957
    },
    {
      "auxiliary_loss_clip": 0.01054743,
      "auxiliary_loss_mlp": 0.0101848,
      "balance_loss_clip": 1.03513002,
      "balance_loss_mlp": 1.01349366,
      "epoch": 0.6889917633619912,
      "flos": 22056496151040.0,
      "grad_norm": 3.292575566420004,
      "language_loss": 0.75756669,
      "learning_rate": 9.315579565236747e-07,
      "loss": 0.77829897,
      "num_input_tokens_seen": 123250715,
      "step": 5730,
      "time_per_iteration": 2.5658297538757324
    },
    {
      "auxiliary_loss_clip": 0.01068185,
      "auxiliary_loss_mlp": 0.01019727,
      "balance_loss_clip": 1.04234266,
      "balance_loss_mlp": 1.01411498,
      "epoch": 0.6891120062526304,
      "flos": 23951899025280.0,
      "grad_norm": 1.9725296559038397,
      "language_loss": 0.74024338,
      "learning_rate": 9.308995379180162e-07,
      "loss": 0.76112247,
      "num_input_tokens_seen": 123270270,
      "step": 5731,
      "time_per_iteration": 2.662341594696045
    },
    {
      "auxiliary_loss_clip": 0.01040032,
      "auxiliary_loss_mlp": 0.01001756,
      "balance_loss_clip": 1.02314436,
      "balance_loss_mlp": 0.99980146,
      "epoch": 0.6892322491432694,
      "flos": 64123624350720.0,
      "grad_norm": 0.7465019378711177,
      "language_loss": 0.59492052,
      "learning_rate": 9.302412814940488e-07,
      "loss": 0.61533839,
      "num_input_tokens_seen": 123333045,
      "step": 5732,
      "time_per_iteration": 3.1580865383148193
    },
    {
      "auxiliary_loss_clip": 0.01077683,
      "auxiliary_loss_mlp": 0.01018777,
      "balance_loss_clip": 1.04029047,
      "balance_loss_mlp": 1.01327527,
      "epoch": 0.6893524920339085,
      "flos": 23004633646080.0,
      "grad_norm": 2.2087814996289445,
      "language_loss": 0.7093488,
      "learning_rate": 9.295831873516276e-07,
      "loss": 0.73031336,
      "num_input_tokens_seen": 123352320,
      "step": 5733,
      "time_per_iteration": 2.591996431350708
    },
    {
      "auxiliary_loss_clip": 0.01095613,
      "auxiliary_loss_mlp": 0.01019374,
      "balance_loss_clip": 1.03948402,
      "balance_loss_mlp": 1.01414108,
      "epoch": 0.6894727349245476,
      "flos": 21398322787200.0,
      "grad_norm": 1.5917483031669966,
      "language_loss": 0.76344335,
      "learning_rate": 9.289252555905873e-07,
      "loss": 0.78459322,
      "num_input_tokens_seen": 123372400,
      "step": 5734,
      "time_per_iteration": 2.4846713542938232
    },
    {
      "auxiliary_loss_clip": 0.01085081,
      "auxiliary_loss_mlp": 0.01018885,
      "balance_loss_clip": 1.04064178,
      "balance_loss_mlp": 1.01364231,
      "epoch": 0.6895929778151867,
      "flos": 19867375255680.0,
      "grad_norm": 1.995588075724386,
      "language_loss": 0.76135761,
      "learning_rate": 9.282674863107334e-07,
      "loss": 0.78239727,
      "num_input_tokens_seen": 123390215,
      "step": 5735,
      "time_per_iteration": 2.551293134689331
    },
    {
      "auxiliary_loss_clip": 0.01076807,
      "auxiliary_loss_mlp": 0.01020132,
      "balance_loss_clip": 1.03637326,
      "balance_loss_mlp": 1.01497293,
      "epoch": 0.6897132207058257,
      "flos": 18180695882880.0,
      "grad_norm": 2.210670765659214,
      "language_loss": 0.76103246,
      "learning_rate": 9.276098796118488e-07,
      "loss": 0.78200185,
      "num_input_tokens_seen": 123406700,
      "step": 5736,
      "time_per_iteration": 2.479397773742676
    },
    {
      "auxiliary_loss_clip": 0.01071581,
      "auxiliary_loss_mlp": 0.0101856,
      "balance_loss_clip": 1.03868794,
      "balance_loss_mlp": 1.01342821,
      "epoch": 0.6898334635964649,
      "flos": 32564367452160.0,
      "grad_norm": 2.6171819093217117,
      "language_loss": 0.66413248,
      "learning_rate": 9.269524355936938e-07,
      "loss": 0.68503386,
      "num_input_tokens_seen": 123429880,
      "step": 5737,
      "time_per_iteration": 2.6632163524627686
    },
    {
      "auxiliary_loss_clip": 0.01072287,
      "auxiliary_loss_mlp": 0.01016767,
      "balance_loss_clip": 1.03729641,
      "balance_loss_mlp": 1.01182914,
      "epoch": 0.689953706487104,
      "flos": 22821135719040.0,
      "grad_norm": 1.8134120358227237,
      "language_loss": 0.84992105,
      "learning_rate": 9.262951543560002e-07,
      "loss": 0.87081158,
      "num_input_tokens_seen": 123449105,
      "step": 5738,
      "time_per_iteration": 2.5676376819610596
    },
    {
      "auxiliary_loss_clip": 0.01070152,
      "auxiliary_loss_mlp": 0.01024942,
      "balance_loss_clip": 1.04242873,
      "balance_loss_mlp": 1.0195986,
      "epoch": 0.690073949377743,
      "flos": 18517347221760.0,
      "grad_norm": 2.193946481975226,
      "language_loss": 0.86715043,
      "learning_rate": 9.256380359984795e-07,
      "loss": 0.88810134,
      "num_input_tokens_seen": 123466215,
      "step": 5739,
      "time_per_iteration": 2.5623064041137695
    },
    {
      "auxiliary_loss_clip": 0.01054495,
      "auxiliary_loss_mlp": 0.01021328,
      "balance_loss_clip": 1.03692424,
      "balance_loss_mlp": 1.01622903,
      "epoch": 0.6901941922683821,
      "flos": 34859878715520.0,
      "grad_norm": 2.2715181931547823,
      "language_loss": 0.7460798,
      "learning_rate": 9.249810806208139e-07,
      "loss": 0.76683795,
      "num_input_tokens_seen": 123485480,
      "step": 5740,
      "time_per_iteration": 2.8080015182495117
    },
    {
      "auxiliary_loss_clip": 0.0105098,
      "auxiliary_loss_mlp": 0.00756362,
      "balance_loss_clip": 1.03489721,
      "balance_loss_mlp": 1.00172067,
      "epoch": 0.6903144351590212,
      "flos": 16255555182720.0,
      "grad_norm": 2.1679879451419715,
      "language_loss": 0.80247498,
      "learning_rate": 9.243242883226627e-07,
      "loss": 0.82054842,
      "num_input_tokens_seen": 123504575,
      "step": 5741,
      "time_per_iteration": 2.6096129417419434
    },
    {
      "auxiliary_loss_clip": 0.01084973,
      "auxiliary_loss_mlp": 0.01022011,
      "balance_loss_clip": 1.03707218,
      "balance_loss_mlp": 1.0165782,
      "epoch": 0.6904346780496603,
      "flos": 28037484501120.0,
      "grad_norm": 1.943938935580429,
      "language_loss": 0.69201684,
      "learning_rate": 9.236676592036628e-07,
      "loss": 0.71308666,
      "num_input_tokens_seen": 123524250,
      "step": 5742,
      "time_per_iteration": 2.622786045074463
    },
    {
      "auxiliary_loss_clip": 0.01063734,
      "auxiliary_loss_mlp": 0.01018713,
      "balance_loss_clip": 1.03346157,
      "balance_loss_mlp": 1.01356649,
      "epoch": 0.6905549209402994,
      "flos": 23626585192320.0,
      "grad_norm": 1.7445116302541575,
      "language_loss": 0.73522925,
      "learning_rate": 9.230111933634228e-07,
      "loss": 0.75605375,
      "num_input_tokens_seen": 123545845,
      "step": 5743,
      "time_per_iteration": 2.5814881324768066
    },
    {
      "auxiliary_loss_clip": 0.0108408,
      "auxiliary_loss_mlp": 0.01019447,
      "balance_loss_clip": 1.03873324,
      "balance_loss_mlp": 1.01467848,
      "epoch": 0.6906751638309385,
      "flos": 23117318415360.0,
      "grad_norm": 1.5555644235032473,
      "language_loss": 0.80997813,
      "learning_rate": 9.223548909015288e-07,
      "loss": 0.83101338,
      "num_input_tokens_seen": 123567535,
      "step": 5744,
      "time_per_iteration": 2.5838394165039062
    },
    {
      "auxiliary_loss_clip": 0.0104634,
      "auxiliary_loss_mlp": 0.01023274,
      "balance_loss_clip": 1.03428161,
      "balance_loss_mlp": 1.01828551,
      "epoch": 0.6907954067215776,
      "flos": 27307777536000.0,
      "grad_norm": 1.9651948850708592,
      "language_loss": 0.71984875,
      "learning_rate": 9.216987519175407e-07,
      "loss": 0.74054486,
      "num_input_tokens_seen": 123587710,
      "step": 5745,
      "time_per_iteration": 2.6450376510620117
    },
    {
      "auxiliary_loss_clip": 0.01075312,
      "auxiliary_loss_mlp": 0.0101796,
      "balance_loss_clip": 1.03620517,
      "balance_loss_mlp": 1.01289368,
      "epoch": 0.6909156496122166,
      "flos": 21691547873280.0,
      "grad_norm": 1.6078980673451098,
      "language_loss": 0.6807971,
      "learning_rate": 9.210427765109942e-07,
      "loss": 0.70172989,
      "num_input_tokens_seen": 123607385,
      "step": 5746,
      "time_per_iteration": 2.57100772857666
    },
    {
      "auxiliary_loss_clip": 0.01064838,
      "auxiliary_loss_mlp": 0.01021035,
      "balance_loss_clip": 1.03362584,
      "balance_loss_mlp": 1.01548862,
      "epoch": 0.6910358925028558,
      "flos": 22563449925120.0,
      "grad_norm": 2.533654195833679,
      "language_loss": 0.81553292,
      "learning_rate": 9.20386964781402e-07,
      "loss": 0.83639169,
      "num_input_tokens_seen": 123625405,
      "step": 5747,
      "time_per_iteration": 2.531494140625
    },
    {
      "auxiliary_loss_clip": 0.0107377,
      "auxiliary_loss_mlp": 0.01018989,
      "balance_loss_clip": 1.03757119,
      "balance_loss_mlp": 1.01398873,
      "epoch": 0.6911561353934949,
      "flos": 22056268642560.0,
      "grad_norm": 2.355468934930546,
      "language_loss": 0.84219837,
      "learning_rate": 9.197313168282472e-07,
      "loss": 0.86312598,
      "num_input_tokens_seen": 123642850,
      "step": 5748,
      "time_per_iteration": 3.330629825592041
    },
    {
      "auxiliary_loss_clip": 0.01085038,
      "auxiliary_loss_mlp": 0.01017977,
      "balance_loss_clip": 1.03721929,
      "balance_loss_mlp": 1.01274717,
      "epoch": 0.6912763782841339,
      "flos": 24208826457600.0,
      "grad_norm": 2.0993794013337306,
      "language_loss": 0.72371894,
      "learning_rate": 9.190758327509935e-07,
      "loss": 0.74474907,
      "num_input_tokens_seen": 123661595,
      "step": 5749,
      "time_per_iteration": 3.337468147277832
    },
    {
      "auxiliary_loss_clip": 0.01006239,
      "auxiliary_loss_mlp": 0.00752624,
      "balance_loss_clip": 1.02409816,
      "balance_loss_mlp": 1.00103211,
      "epoch": 0.6913966211747731,
      "flos": 52335097286400.0,
      "grad_norm": 1.0571476428317863,
      "language_loss": 0.64415234,
      "learning_rate": 9.184205126490767e-07,
      "loss": 0.66174096,
      "num_input_tokens_seen": 123710490,
      "step": 5750,
      "time_per_iteration": 3.7571778297424316
    },
    {
      "auxiliary_loss_clip": 0.01021694,
      "auxiliary_loss_mlp": 0.0075263,
      "balance_loss_clip": 1.02450454,
      "balance_loss_mlp": 1.00091934,
      "epoch": 0.6915168640654121,
      "flos": 66747520811520.0,
      "grad_norm": 1.068299015652813,
      "language_loss": 0.59688395,
      "learning_rate": 9.177653566219075e-07,
      "loss": 0.61462718,
      "num_input_tokens_seen": 123765215,
      "step": 5751,
      "time_per_iteration": 3.0583415031433105
    },
    {
      "auxiliary_loss_clip": 0.01064757,
      "auxiliary_loss_mlp": 0.01021686,
      "balance_loss_clip": 1.03758121,
      "balance_loss_mlp": 1.0165894,
      "epoch": 0.6916371069560512,
      "flos": 18298499592960.0,
      "grad_norm": 2.197219681751927,
      "language_loss": 0.76581722,
      "learning_rate": 9.171103647688744e-07,
      "loss": 0.78668165,
      "num_input_tokens_seen": 123783955,
      "step": 5752,
      "time_per_iteration": 2.5559420585632324
    },
    {
      "auxiliary_loss_clip": 0.01014385,
      "auxiliary_loss_mlp": 0.01020082,
      "balance_loss_clip": 1.0302434,
      "balance_loss_mlp": 1.01532006,
      "epoch": 0.6917573498466904,
      "flos": 19647807183360.0,
      "grad_norm": 4.737152141469053,
      "language_loss": 0.69733953,
      "learning_rate": 9.164555371893367e-07,
      "loss": 0.71768427,
      "num_input_tokens_seen": 123803885,
      "step": 5753,
      "time_per_iteration": 3.455747127532959
    },
    {
      "auxiliary_loss_clip": 0.01083784,
      "auxiliary_loss_mlp": 0.00756438,
      "balance_loss_clip": 1.03942645,
      "balance_loss_mlp": 1.00171351,
      "epoch": 0.6918775927373294,
      "flos": 14212079919360.0,
      "grad_norm": 1.9310123030730992,
      "language_loss": 0.75076699,
      "learning_rate": 9.158008739826333e-07,
      "loss": 0.76916921,
      "num_input_tokens_seen": 123821485,
      "step": 5754,
      "time_per_iteration": 2.5332441329956055
    },
    {
      "auxiliary_loss_clip": 0.01062573,
      "auxiliary_loss_mlp": 0.01019397,
      "balance_loss_clip": 1.03275263,
      "balance_loss_mlp": 1.01420867,
      "epoch": 0.6919978356279685,
      "flos": 23987589989760.0,
      "grad_norm": 3.474200056572909,
      "language_loss": 0.868563,
      "learning_rate": 9.151463752480744e-07,
      "loss": 0.88938266,
      "num_input_tokens_seen": 123840215,
      "step": 5755,
      "time_per_iteration": 2.568756580352783
    },
    {
      "auxiliary_loss_clip": 0.01051003,
      "auxiliary_loss_mlp": 0.01023412,
      "balance_loss_clip": 1.03336787,
      "balance_loss_mlp": 1.01806843,
      "epoch": 0.6921180785186076,
      "flos": 23625182223360.0,
      "grad_norm": 1.4350662050111764,
      "language_loss": 0.8041712,
      "learning_rate": 9.144920410849493e-07,
      "loss": 0.82491529,
      "num_input_tokens_seen": 123861450,
      "step": 5756,
      "time_per_iteration": 2.632763385772705
    },
    {
      "auxiliary_loss_clip": 0.01077673,
      "auxiliary_loss_mlp": 0.01021525,
      "balance_loss_clip": 1.04129374,
      "balance_loss_mlp": 1.01629472,
      "epoch": 0.6922383214092467,
      "flos": 21144770064000.0,
      "grad_norm": 1.8078943327379768,
      "language_loss": 0.80695909,
      "learning_rate": 9.138378715925176e-07,
      "loss": 0.82795107,
      "num_input_tokens_seen": 123880545,
      "step": 5757,
      "time_per_iteration": 2.549119472503662
    },
    {
      "auxiliary_loss_clip": 0.01072877,
      "auxiliary_loss_mlp": 0.01018822,
      "balance_loss_clip": 1.03757501,
      "balance_loss_mlp": 1.01364565,
      "epoch": 0.6923585642998857,
      "flos": 21472813998720.0,
      "grad_norm": 1.9850355873972687,
      "language_loss": 0.81051743,
      "learning_rate": 9.131838668700167e-07,
      "loss": 0.83143443,
      "num_input_tokens_seen": 123900615,
      "step": 5758,
      "time_per_iteration": 2.5728299617767334
    },
    {
      "auxiliary_loss_clip": 0.01065791,
      "auxiliary_loss_mlp": 0.01018637,
      "balance_loss_clip": 1.03774095,
      "balance_loss_mlp": 1.01352918,
      "epoch": 0.6924788071905249,
      "flos": 21107296949760.0,
      "grad_norm": 1.9780733194803912,
      "language_loss": 0.86700714,
      "learning_rate": 9.125300270166598e-07,
      "loss": 0.88785136,
      "num_input_tokens_seen": 123921220,
      "step": 5759,
      "time_per_iteration": 2.6098315715789795
    },
    {
      "auxiliary_loss_clip": 0.01059776,
      "auxiliary_loss_mlp": 0.01015499,
      "balance_loss_clip": 1.03732395,
      "balance_loss_mlp": 1.01022387,
      "epoch": 0.692599050081164,
      "flos": 26252415475200.0,
      "grad_norm": 1.7041911085204509,
      "language_loss": 0.85916507,
      "learning_rate": 9.118763521316324e-07,
      "loss": 0.8799178,
      "num_input_tokens_seen": 123941795,
      "step": 5760,
      "time_per_iteration": 2.6607494354248047
    },
    {
      "auxiliary_loss_clip": 0.01096051,
      "auxiliary_loss_mlp": 0.00756729,
      "balance_loss_clip": 1.03874159,
      "balance_loss_mlp": 1.00169623,
      "epoch": 0.692719292971803,
      "flos": 20887235942400.0,
      "grad_norm": 1.8332793042554738,
      "language_loss": 0.76215017,
      "learning_rate": 9.112228423140987e-07,
      "loss": 0.78067791,
      "num_input_tokens_seen": 123960715,
      "step": 5761,
      "time_per_iteration": 2.4856672286987305
    },
    {
      "auxiliary_loss_clip": 0.01074211,
      "auxiliary_loss_mlp": 0.0102263,
      "balance_loss_clip": 1.03824401,
      "balance_loss_mlp": 1.01718247,
      "epoch": 0.6928395358624422,
      "flos": 25924333622400.0,
      "grad_norm": 2.394282224903677,
      "language_loss": 0.86535394,
      "learning_rate": 9.105694976631932e-07,
      "loss": 0.88632238,
      "num_input_tokens_seen": 123978625,
      "step": 5762,
      "time_per_iteration": 2.63209867477417
    },
    {
      "auxiliary_loss_clip": 0.01082694,
      "auxiliary_loss_mlp": 0.01022397,
      "balance_loss_clip": 1.03885102,
      "balance_loss_mlp": 1.01702106,
      "epoch": 0.6929597787530812,
      "flos": 23588808733440.0,
      "grad_norm": 14.616374974634764,
      "language_loss": 0.72359318,
      "learning_rate": 9.099163182780283e-07,
      "loss": 0.74464405,
      "num_input_tokens_seen": 123996780,
      "step": 5763,
      "time_per_iteration": 2.52494740486145
    },
    {
      "auxiliary_loss_clip": 0.01060584,
      "auxiliary_loss_mlp": 0.01023292,
      "balance_loss_clip": 1.03397155,
      "balance_loss_mlp": 1.01774311,
      "epoch": 0.6930800216437203,
      "flos": 18257386343040.0,
      "grad_norm": 2.7489633289599205,
      "language_loss": 0.49909204,
      "learning_rate": 9.092633042576916e-07,
      "loss": 0.51993084,
      "num_input_tokens_seen": 124014045,
      "step": 5764,
      "time_per_iteration": 2.5733485221862793
    },
    {
      "auxiliary_loss_clip": 0.01068679,
      "auxiliary_loss_mlp": 0.01019845,
      "balance_loss_clip": 1.0365026,
      "balance_loss_mlp": 1.01447773,
      "epoch": 0.6932002645343595,
      "flos": 29171167499520.0,
      "grad_norm": 1.8423404604480869,
      "language_loss": 0.56296414,
      "learning_rate": 9.086104557012446e-07,
      "loss": 0.58384943,
      "num_input_tokens_seen": 124034615,
      "step": 5765,
      "time_per_iteration": 2.6088008880615234
    },
    {
      "auxiliary_loss_clip": 0.01085768,
      "auxiliary_loss_mlp": 0.01018778,
      "balance_loss_clip": 1.03899384,
      "balance_loss_mlp": 1.01355958,
      "epoch": 0.6933205074249985,
      "flos": 23845053640320.0,
      "grad_norm": 2.496025977190428,
      "language_loss": 0.65537739,
      "learning_rate": 9.079577727077239e-07,
      "loss": 0.67642289,
      "num_input_tokens_seen": 124053445,
      "step": 5766,
      "time_per_iteration": 2.5946714878082275
    },
    {
      "auxiliary_loss_clip": 0.0108248,
      "auxiliary_loss_mlp": 0.0102315,
      "balance_loss_clip": 1.03851855,
      "balance_loss_mlp": 1.01781821,
      "epoch": 0.6934407503156376,
      "flos": 24168774913920.0,
      "grad_norm": 2.3699474165388406,
      "language_loss": 0.72127235,
      "learning_rate": 9.073052553761404e-07,
      "loss": 0.74232864,
      "num_input_tokens_seen": 124072810,
      "step": 5767,
      "time_per_iteration": 2.5294172763824463
    },
    {
      "auxiliary_loss_clip": 0.01051632,
      "auxiliary_loss_mlp": 0.01019964,
      "balance_loss_clip": 1.03689456,
      "balance_loss_mlp": 1.01452231,
      "epoch": 0.6935609932062767,
      "flos": 20633417792640.0,
      "grad_norm": 5.975109773678433,
      "language_loss": 0.77997464,
      "learning_rate": 9.066529038054805e-07,
      "loss": 0.80069059,
      "num_input_tokens_seen": 124092875,
      "step": 5768,
      "time_per_iteration": 2.628241539001465
    },
    {
      "auxiliary_loss_clip": 0.01073112,
      "auxiliary_loss_mlp": 0.01019901,
      "balance_loss_clip": 1.03795063,
      "balance_loss_mlp": 1.01511192,
      "epoch": 0.6936812360969158,
      "flos": 18255831701760.0,
      "grad_norm": 1.8341042545689348,
      "language_loss": 0.73969585,
      "learning_rate": 9.060007180947071e-07,
      "loss": 0.76062596,
      "num_input_tokens_seen": 124110930,
      "step": 5769,
      "time_per_iteration": 2.5136635303497314
    },
    {
      "auxiliary_loss_clip": 0.01048221,
      "auxiliary_loss_mlp": 0.01021655,
      "balance_loss_clip": 1.03723717,
      "balance_loss_mlp": 1.01622486,
      "epoch": 0.6938014789875548,
      "flos": 31319781834240.0,
      "grad_norm": 2.667623766491182,
      "language_loss": 0.73645258,
      "learning_rate": 9.053486983427534e-07,
      "loss": 0.75715137,
      "num_input_tokens_seen": 124132180,
      "step": 5770,
      "time_per_iteration": 2.683258533477783
    },
    {
      "auxiliary_loss_clip": 0.01073352,
      "auxiliary_loss_mlp": 0.01020896,
      "balance_loss_clip": 1.03676772,
      "balance_loss_mlp": 1.01561451,
      "epoch": 0.6939217218781939,
      "flos": 17530257807360.0,
      "grad_norm": 1.9824515179304725,
      "language_loss": 0.70386446,
      "learning_rate": 9.046968446485326e-07,
      "loss": 0.72480702,
      "num_input_tokens_seen": 124150585,
      "step": 5771,
      "time_per_iteration": 2.521029472351074
    },
    {
      "auxiliary_loss_clip": 0.01085074,
      "auxiliary_loss_mlp": 0.01020892,
      "balance_loss_clip": 1.04012775,
      "balance_loss_mlp": 1.0153873,
      "epoch": 0.6940419647688331,
      "flos": 18553758629760.0,
      "grad_norm": 3.6246451425403023,
      "language_loss": 0.70706487,
      "learning_rate": 9.040451571109295e-07,
      "loss": 0.7281245,
      "num_input_tokens_seen": 124166205,
      "step": 5772,
      "time_per_iteration": 2.5435125827789307
    },
    {
      "auxiliary_loss_clip": 0.01041532,
      "auxiliary_loss_mlp": 0.01010926,
      "balance_loss_clip": 1.05463135,
      "balance_loss_mlp": 1.0089947,
      "epoch": 0.6941622076594721,
      "flos": 66932687134080.0,
      "grad_norm": 0.8329998875710828,
      "language_loss": 0.60396898,
      "learning_rate": 9.033936358288042e-07,
      "loss": 0.62449348,
      "num_input_tokens_seen": 124219940,
      "step": 5773,
      "time_per_iteration": 3.0894947052001953
    },
    {
      "auxiliary_loss_clip": 0.01095747,
      "auxiliary_loss_mlp": 0.0101487,
      "balance_loss_clip": 1.03888464,
      "balance_loss_mlp": 1.00976467,
      "epoch": 0.6942824505501112,
      "flos": 26580459409920.0,
      "grad_norm": 1.7315640715003715,
      "language_loss": 0.8246181,
      "learning_rate": 9.027422809009937e-07,
      "loss": 0.84572423,
      "num_input_tokens_seen": 124239885,
      "step": 5774,
      "time_per_iteration": 3.304870367050171
    },
    {
      "auxiliary_loss_clip": 0.01086386,
      "auxiliary_loss_mlp": 0.0101631,
      "balance_loss_clip": 1.038867,
      "balance_loss_mlp": 1.01132727,
      "epoch": 0.6944026934407503,
      "flos": 21250250398080.0,
      "grad_norm": 2.5735107286858647,
      "language_loss": 0.83204144,
      "learning_rate": 9.020910924263054e-07,
      "loss": 0.85306835,
      "num_input_tokens_seen": 124258410,
      "step": 5775,
      "time_per_iteration": 3.293088436126709
    },
    {
      "auxiliary_loss_clip": 0.01041884,
      "auxiliary_loss_mlp": 0.01008912,
      "balance_loss_clip": 1.05504346,
      "balance_loss_mlp": 1.00717151,
      "epoch": 0.6945229363313894,
      "flos": 70683403420800.0,
      "grad_norm": 0.8130322201825717,
      "language_loss": 0.58119059,
      "learning_rate": 9.014400705035261e-07,
      "loss": 0.60169852,
      "num_input_tokens_seen": 124315315,
      "step": 5776,
      "time_per_iteration": 3.9156529903411865
    },
    {
      "auxiliary_loss_clip": 0.0109718,
      "auxiliary_loss_mlp": 0.01018283,
      "balance_loss_clip": 1.04168403,
      "balance_loss_mlp": 1.01329958,
      "epoch": 0.6946431792220285,
      "flos": 18954928725120.0,
      "grad_norm": 2.595102760580358,
      "language_loss": 0.76863635,
      "learning_rate": 9.00789215231414e-07,
      "loss": 0.78979099,
      "num_input_tokens_seen": 124333710,
      "step": 5777,
      "time_per_iteration": 2.475017786026001
    },
    {
      "auxiliary_loss_clip": 0.01067559,
      "auxiliary_loss_mlp": 0.00756569,
      "balance_loss_clip": 1.03848863,
      "balance_loss_mlp": 1.00172305,
      "epoch": 0.6947634221126676,
      "flos": 20340875232000.0,
      "grad_norm": 1.9823605104438582,
      "language_loss": 0.82034057,
      "learning_rate": 9.001385267087056e-07,
      "loss": 0.83858186,
      "num_input_tokens_seen": 124352855,
      "step": 5778,
      "time_per_iteration": 2.6232903003692627
    },
    {
      "auxiliary_loss_clip": 0.01084066,
      "auxiliary_loss_mlp": 0.01016779,
      "balance_loss_clip": 1.03826809,
      "balance_loss_mlp": 1.01170933,
      "epoch": 0.6948836650033067,
      "flos": 21835790536320.0,
      "grad_norm": 1.5196747943758517,
      "language_loss": 0.70676911,
      "learning_rate": 8.994880050341072e-07,
      "loss": 0.7277776,
      "num_input_tokens_seen": 124372960,
      "step": 5779,
      "time_per_iteration": 3.3039228916168213
    },
    {
      "auxiliary_loss_clip": 0.0107738,
      "auxiliary_loss_mlp": 0.01023999,
      "balance_loss_clip": 1.03990114,
      "balance_loss_mlp": 1.01884031,
      "epoch": 0.6950039078939457,
      "flos": 23659659809280.0,
      "grad_norm": 1.8689600080750395,
      "language_loss": 0.77749562,
      "learning_rate": 8.988376503063026e-07,
      "loss": 0.79850936,
      "num_input_tokens_seen": 124394220,
      "step": 5780,
      "time_per_iteration": 2.645116090774536
    },
    {
      "auxiliary_loss_clip": 0.01049248,
      "auxiliary_loss_mlp": 0.01019812,
      "balance_loss_clip": 1.03688335,
      "balance_loss_mlp": 1.01449203,
      "epoch": 0.6951241507845849,
      "flos": 21794260187520.0,
      "grad_norm": 2.565481900755062,
      "language_loss": 0.81788719,
      "learning_rate": 8.981874626239521e-07,
      "loss": 0.83857787,
      "num_input_tokens_seen": 124412795,
      "step": 5781,
      "time_per_iteration": 2.6236987113952637
    },
    {
      "auxiliary_loss_clip": 0.01083404,
      "auxiliary_loss_mlp": 0.0102408,
      "balance_loss_clip": 1.03903329,
      "balance_loss_mlp": 1.01884115,
      "epoch": 0.695244393675224,
      "flos": 14649320160000.0,
      "grad_norm": 2.267852817350382,
      "language_loss": 0.88103598,
      "learning_rate": 8.975374420856872e-07,
      "loss": 0.90211076,
      "num_input_tokens_seen": 124429690,
      "step": 5782,
      "time_per_iteration": 2.52250599861145
    },
    {
      "auxiliary_loss_clip": 0.01060786,
      "auxiliary_loss_mlp": 0.0101827,
      "balance_loss_clip": 1.03598785,
      "balance_loss_mlp": 1.01336789,
      "epoch": 0.695364636565863,
      "flos": 16875079971840.0,
      "grad_norm": 2.3539174067154653,
      "language_loss": 0.7282232,
      "learning_rate": 8.968875887901157e-07,
      "loss": 0.74901378,
      "num_input_tokens_seen": 124447070,
      "step": 5783,
      "time_per_iteration": 2.5646467208862305
    },
    {
      "auxiliary_loss_clip": 0.01075003,
      "auxiliary_loss_mlp": 0.01020045,
      "balance_loss_clip": 1.03834224,
      "balance_loss_mlp": 1.01454329,
      "epoch": 0.6954848794565022,
      "flos": 19356553837440.0,
      "grad_norm": 4.119181476823383,
      "language_loss": 0.63210142,
      "learning_rate": 8.9623790283582e-07,
      "loss": 0.65305185,
      "num_input_tokens_seen": 124464950,
      "step": 5784,
      "time_per_iteration": 2.5691416263580322
    },
    {
      "auxiliary_loss_clip": 0.01061331,
      "auxiliary_loss_mlp": 0.01021874,
      "balance_loss_clip": 1.03735828,
      "balance_loss_mlp": 1.01646185,
      "epoch": 0.6956051223471412,
      "flos": 18992250167040.0,
      "grad_norm": 5.310535065894993,
      "language_loss": 0.7692641,
      "learning_rate": 8.955883843213561e-07,
      "loss": 0.79009616,
      "num_input_tokens_seen": 124483965,
      "step": 5785,
      "time_per_iteration": 2.5728938579559326
    },
    {
      "auxiliary_loss_clip": 0.01086059,
      "auxiliary_loss_mlp": 0.01022368,
      "balance_loss_clip": 1.03866148,
      "balance_loss_mlp": 1.0168128,
      "epoch": 0.6957253652377803,
      "flos": 16109075352960.0,
      "grad_norm": 2.0346743339540554,
      "language_loss": 0.86907727,
      "learning_rate": 8.949390333452569e-07,
      "loss": 0.89016157,
      "num_input_tokens_seen": 124501910,
      "step": 5786,
      "time_per_iteration": 2.540369987487793
    },
    {
      "auxiliary_loss_clip": 0.01095826,
      "auxiliary_loss_mlp": 0.01018974,
      "balance_loss_clip": 1.03990221,
      "balance_loss_mlp": 1.01384783,
      "epoch": 0.6958456081284194,
      "flos": 29391266424960.0,
      "grad_norm": 1.829556016544264,
      "language_loss": 0.67809522,
      "learning_rate": 8.942898500060279e-07,
      "loss": 0.69924325,
      "num_input_tokens_seen": 124521625,
      "step": 5787,
      "time_per_iteration": 2.5418007373809814
    },
    {
      "auxiliary_loss_clip": 0.01045472,
      "auxiliary_loss_mlp": 0.0102113,
      "balance_loss_clip": 1.03738093,
      "balance_loss_mlp": 1.01556253,
      "epoch": 0.6959658510190585,
      "flos": 25157153543040.0,
      "grad_norm": 3.255819172078297,
      "language_loss": 0.71925461,
      "learning_rate": 8.936408344021493e-07,
      "loss": 0.73992068,
      "num_input_tokens_seen": 124538540,
      "step": 5788,
      "time_per_iteration": 2.6589903831481934
    },
    {
      "auxiliary_loss_clip": 0.01071875,
      "auxiliary_loss_mlp": 0.01021476,
      "balance_loss_clip": 1.04046643,
      "balance_loss_mlp": 1.0156858,
      "epoch": 0.6960860939096976,
      "flos": 42817700160000.0,
      "grad_norm": 2.099821210637512,
      "language_loss": 0.71367729,
      "learning_rate": 8.929919866320765e-07,
      "loss": 0.7346108,
      "num_input_tokens_seen": 124559355,
      "step": 5789,
      "time_per_iteration": 2.7446160316467285
    },
    {
      "auxiliary_loss_clip": 0.01062732,
      "auxiliary_loss_mlp": 0.00756809,
      "balance_loss_clip": 1.03712058,
      "balance_loss_mlp": 1.0016458,
      "epoch": 0.6962063368003367,
      "flos": 17568489283200.0,
      "grad_norm": 2.0542527034763034,
      "language_loss": 0.81504947,
      "learning_rate": 8.923433067942385e-07,
      "loss": 0.83324486,
      "num_input_tokens_seen": 124577920,
      "step": 5790,
      "time_per_iteration": 2.5840327739715576
    },
    {
      "auxiliary_loss_clip": 0.01058429,
      "auxiliary_loss_mlp": 0.01022587,
      "balance_loss_clip": 1.03739035,
      "balance_loss_mlp": 1.01726985,
      "epoch": 0.6963265796909758,
      "flos": 21253776779520.0,
      "grad_norm": 1.8548847408056235,
      "language_loss": 0.68615687,
      "learning_rate": 8.916947949870417e-07,
      "loss": 0.706967,
      "num_input_tokens_seen": 124597585,
      "step": 5791,
      "time_per_iteration": 2.6269075870513916
    },
    {
      "auxiliary_loss_clip": 0.01040914,
      "auxiliary_loss_mlp": 0.01003015,
      "balance_loss_clip": 1.02402234,
      "balance_loss_mlp": 1.00091732,
      "epoch": 0.6964468225816148,
      "flos": 68835066935040.0,
      "grad_norm": 0.7422875942270356,
      "language_loss": 0.58086753,
      "learning_rate": 8.910464513088615e-07,
      "loss": 0.6013068,
      "num_input_tokens_seen": 124661625,
      "step": 5792,
      "time_per_iteration": 3.1915664672851562
    },
    {
      "auxiliary_loss_clip": 0.01071801,
      "auxiliary_loss_mlp": 0.01020218,
      "balance_loss_clip": 1.03763759,
      "balance_loss_mlp": 1.01425791,
      "epoch": 0.696567065472254,
      "flos": 18952767394560.0,
      "grad_norm": 4.4533083168059955,
      "language_loss": 0.78433418,
      "learning_rate": 8.903982758580542e-07,
      "loss": 0.80525446,
      "num_input_tokens_seen": 124680565,
      "step": 5793,
      "time_per_iteration": 2.58005690574646
    },
    {
      "auxiliary_loss_clip": 0.01070994,
      "auxiliary_loss_mlp": 0.01026861,
      "balance_loss_clip": 1.040681,
      "balance_loss_mlp": 1.02128196,
      "epoch": 0.696687308362893,
      "flos": 22858874259840.0,
      "grad_norm": 2.005659821031623,
      "language_loss": 0.80359352,
      "learning_rate": 8.897502687329457e-07,
      "loss": 0.82457209,
      "num_input_tokens_seen": 124700365,
      "step": 5794,
      "time_per_iteration": 2.544973134994507
    },
    {
      "auxiliary_loss_clip": 0.01060382,
      "auxiliary_loss_mlp": 0.01019366,
      "balance_loss_clip": 1.0365026,
      "balance_loss_mlp": 1.01421893,
      "epoch": 0.6968075512535321,
      "flos": 24975248175360.0,
      "grad_norm": 1.9905350589633273,
      "language_loss": 0.79593533,
      "learning_rate": 8.891024300318382e-07,
      "loss": 0.81673288,
      "num_input_tokens_seen": 124718935,
      "step": 5795,
      "time_per_iteration": 2.640843629837036
    },
    {
      "auxiliary_loss_clip": 0.01061091,
      "auxiliary_loss_mlp": 0.01019929,
      "balance_loss_clip": 1.0361371,
      "balance_loss_mlp": 1.01486564,
      "epoch": 0.6969277941441713,
      "flos": 21032426557440.0,
      "grad_norm": 1.4724955383806846,
      "language_loss": 0.75600648,
      "learning_rate": 8.884547598530103e-07,
      "loss": 0.77681673,
      "num_input_tokens_seen": 124739505,
      "step": 5796,
      "time_per_iteration": 2.5849130153656006
    },
    {
      "auxiliary_loss_clip": 0.01018002,
      "auxiliary_loss_mlp": 0.01023997,
      "balance_loss_clip": 1.03086984,
      "balance_loss_mlp": 1.01868618,
      "epoch": 0.6970480370348103,
      "flos": 21581517369600.0,
      "grad_norm": 2.034220002678494,
      "language_loss": 0.75580132,
      "learning_rate": 8.8780725829471e-07,
      "loss": 0.77622128,
      "num_input_tokens_seen": 124757410,
      "step": 5797,
      "time_per_iteration": 2.8310511112213135
    },
    {
      "auxiliary_loss_clip": 0.01095494,
      "auxiliary_loss_mlp": 0.01021783,
      "balance_loss_clip": 1.03863585,
      "balance_loss_mlp": 1.01625788,
      "epoch": 0.6971682799254494,
      "flos": 22421368592640.0,
      "grad_norm": 2.1290069052482257,
      "language_loss": 0.77823448,
      "learning_rate": 8.87159925455165e-07,
      "loss": 0.7994073,
      "num_input_tokens_seen": 124777240,
      "step": 5798,
      "time_per_iteration": 2.7414708137512207
    },
    {
      "auxiliary_loss_clip": 0.01060054,
      "auxiliary_loss_mlp": 0.01021622,
      "balance_loss_clip": 1.03664494,
      "balance_loss_mlp": 1.01651061,
      "epoch": 0.6972885228160886,
      "flos": 20007598602240.0,
      "grad_norm": 4.593978418470964,
      "language_loss": 0.7331841,
      "learning_rate": 8.865127614325738e-07,
      "loss": 0.7540009,
      "num_input_tokens_seen": 124795670,
      "step": 5799,
      "time_per_iteration": 3.3756556510925293
    },
    {
      "auxiliary_loss_clip": 0.01077522,
      "auxiliary_loss_mlp": 0.01023269,
      "balance_loss_clip": 1.0400815,
      "balance_loss_mlp": 1.01755857,
      "epoch": 0.6974087657067276,
      "flos": 37856534578560.0,
      "grad_norm": 1.9558751950151485,
      "language_loss": 0.66749781,
      "learning_rate": 8.85865766325113e-07,
      "loss": 0.68850577,
      "num_input_tokens_seen": 124819600,
      "step": 5800,
      "time_per_iteration": 2.733764171600342
    },
    {
      "auxiliary_loss_clip": 0.01075341,
      "auxiliary_loss_mlp": 0.01020644,
      "balance_loss_clip": 1.03888726,
      "balance_loss_mlp": 1.01539314,
      "epoch": 0.6975290085973667,
      "flos": 29491400309760.0,
      "grad_norm": 3.267664056759383,
      "language_loss": 0.71953714,
      "learning_rate": 8.852189402309287e-07,
      "loss": 0.74049699,
      "num_input_tokens_seen": 124838785,
      "step": 5801,
      "time_per_iteration": 3.3340229988098145
    },
    {
      "auxiliary_loss_clip": 0.01076624,
      "auxiliary_loss_mlp": 0.01020834,
      "balance_loss_clip": 1.03611779,
      "balance_loss_mlp": 1.01564884,
      "epoch": 0.6976492514880057,
      "flos": 12897249914880.0,
      "grad_norm": 2.493617466104944,
      "language_loss": 0.74363041,
      "learning_rate": 8.845722832481441e-07,
      "loss": 0.76460499,
      "num_input_tokens_seen": 124854215,
      "step": 5802,
      "time_per_iteration": 3.251957654953003
    },
    {
      "auxiliary_loss_clip": 0.01082545,
      "auxiliary_loss_mlp": 0.01023589,
      "balance_loss_clip": 1.03792834,
      "balance_loss_mlp": 1.01835513,
      "epoch": 0.6977694943786449,
      "flos": 24355230451200.0,
      "grad_norm": 1.899755401675746,
      "language_loss": 0.77468413,
      "learning_rate": 8.83925795474858e-07,
      "loss": 0.79574549,
      "num_input_tokens_seen": 124874340,
      "step": 5803,
      "time_per_iteration": 2.5403852462768555
    },
    {
      "auxiliary_loss_clip": 0.01048499,
      "auxiliary_loss_mlp": 0.01017473,
      "balance_loss_clip": 1.03348422,
      "balance_loss_mlp": 1.0119983,
      "epoch": 0.6978897372692839,
      "flos": 29901064055040.0,
      "grad_norm": 2.5503746901461444,
      "language_loss": 0.59246576,
      "learning_rate": 8.832794770091414e-07,
      "loss": 0.6131255,
      "num_input_tokens_seen": 124895175,
      "step": 5804,
      "time_per_iteration": 2.654717206954956
    },
    {
      "auxiliary_loss_clip": 0.01072354,
      "auxiliary_loss_mlp": 0.01021231,
      "balance_loss_clip": 1.0365994,
      "balance_loss_mlp": 1.01580358,
      "epoch": 0.698009980159923,
      "flos": 21763688163840.0,
      "grad_norm": 2.744622995943874,
      "language_loss": 0.82740819,
      "learning_rate": 8.826333279490401e-07,
      "loss": 0.84834409,
      "num_input_tokens_seen": 124915810,
      "step": 5805,
      "time_per_iteration": 3.341470241546631
    },
    {
      "auxiliary_loss_clip": 0.01073289,
      "auxiliary_loss_mlp": 0.01019989,
      "balance_loss_clip": 1.03786552,
      "balance_loss_mlp": 1.01486874,
      "epoch": 0.6981302230505622,
      "flos": 19858767851520.0,
      "grad_norm": 2.0780393406610016,
      "language_loss": 0.68145549,
      "learning_rate": 8.819873483925748e-07,
      "loss": 0.70238829,
      "num_input_tokens_seen": 124932930,
      "step": 5806,
      "time_per_iteration": 2.507686138153076
    },
    {
      "auxiliary_loss_clip": 0.0105998,
      "auxiliary_loss_mlp": 0.00756704,
      "balance_loss_clip": 1.0373826,
      "balance_loss_mlp": 1.00165713,
      "epoch": 0.6982504659412012,
      "flos": 22200738814080.0,
      "grad_norm": 2.1557250309563463,
      "language_loss": 0.74318671,
      "learning_rate": 8.81341538437739e-07,
      "loss": 0.76135355,
      "num_input_tokens_seen": 124951220,
      "step": 5807,
      "time_per_iteration": 2.6261417865753174
    },
    {
      "auxiliary_loss_clip": 0.01071112,
      "auxiliary_loss_mlp": 0.01017846,
      "balance_loss_clip": 1.03554773,
      "balance_loss_mlp": 1.01282382,
      "epoch": 0.6983707088318403,
      "flos": 35591291994240.0,
      "grad_norm": 2.0548374131566303,
      "language_loss": 0.68047237,
      "learning_rate": 8.80695898182503e-07,
      "loss": 0.70136195,
      "num_input_tokens_seen": 124972200,
      "step": 5808,
      "time_per_iteration": 2.6421403884887695
    },
    {
      "auxiliary_loss_clip": 0.01057911,
      "auxiliary_loss_mlp": 0.01007072,
      "balance_loss_clip": 1.05183625,
      "balance_loss_mlp": 1.00528383,
      "epoch": 0.6984909517224794,
      "flos": 65446910087040.0,
      "grad_norm": 0.8967953738659509,
      "language_loss": 0.65051252,
      "learning_rate": 8.800504277248093e-07,
      "loss": 0.67116231,
      "num_input_tokens_seen": 125036950,
      "step": 5809,
      "time_per_iteration": 3.170903444290161
    },
    {
      "auxiliary_loss_clip": 0.01046855,
      "auxiliary_loss_mlp": 0.00756459,
      "balance_loss_clip": 1.03399372,
      "balance_loss_mlp": 1.00166643,
      "epoch": 0.6986111946131185,
      "flos": 18548639688960.0,
      "grad_norm": 4.186874800588517,
      "language_loss": 0.75516999,
      "learning_rate": 8.794051271625753e-07,
      "loss": 0.77320313,
      "num_input_tokens_seen": 125054585,
      "step": 5810,
      "time_per_iteration": 2.550865411758423
    },
    {
      "auxiliary_loss_clip": 0.01069725,
      "auxiliary_loss_mlp": 0.0101758,
      "balance_loss_clip": 1.03636026,
      "balance_loss_mlp": 1.01224566,
      "epoch": 0.6987314375037575,
      "flos": 23041386316800.0,
      "grad_norm": 1.6574804503287428,
      "language_loss": 0.8314569,
      "learning_rate": 8.787599965936925e-07,
      "loss": 0.85232997,
      "num_input_tokens_seen": 125075515,
      "step": 5811,
      "time_per_iteration": 2.6022675037384033
    },
    {
      "auxiliary_loss_clip": 0.01060548,
      "auxiliary_loss_mlp": 0.01019647,
      "balance_loss_clip": 1.03658676,
      "balance_loss_mlp": 1.01471734,
      "epoch": 0.6988516803943967,
      "flos": 38403501978240.0,
      "grad_norm": 1.8671025819988771,
      "language_loss": 0.72012293,
      "learning_rate": 8.781150361160261e-07,
      "loss": 0.74092495,
      "num_input_tokens_seen": 125097425,
      "step": 5812,
      "time_per_iteration": 2.7178561687469482
    },
    {
      "auxiliary_loss_clip": 0.01049929,
      "auxiliary_loss_mlp": 0.01021835,
      "balance_loss_clip": 1.03476787,
      "balance_loss_mlp": 1.0165782,
      "epoch": 0.6989719232850358,
      "flos": 24099250970880.0,
      "grad_norm": 1.7432508278297274,
      "language_loss": 0.73428071,
      "learning_rate": 8.774702458274181e-07,
      "loss": 0.75499833,
      "num_input_tokens_seen": 125117830,
      "step": 5813,
      "time_per_iteration": 2.6080093383789062
    },
    {
      "auxiliary_loss_clip": 0.01080813,
      "auxiliary_loss_mlp": 0.01021872,
      "balance_loss_clip": 1.0406884,
      "balance_loss_mlp": 1.01630449,
      "epoch": 0.6990921661756748,
      "flos": 14868622805760.0,
      "grad_norm": 2.421463509830934,
      "language_loss": 0.7053411,
      "learning_rate": 8.768256258256799e-07,
      "loss": 0.72636795,
      "num_input_tokens_seen": 125134455,
      "step": 5814,
      "time_per_iteration": 2.472196340560913
    },
    {
      "auxiliary_loss_clip": 0.01087361,
      "auxiliary_loss_mlp": 0.01020595,
      "balance_loss_clip": 1.03977418,
      "balance_loss_mlp": 1.01526678,
      "epoch": 0.699212409066314,
      "flos": 20195798371200.0,
      "grad_norm": 1.8326779628069485,
      "language_loss": 0.74022299,
      "learning_rate": 8.76181176208602e-07,
      "loss": 0.76130259,
      "num_input_tokens_seen": 125152555,
      "step": 5815,
      "time_per_iteration": 2.5354955196380615
    },
    {
      "auxiliary_loss_clip": 0.01050071,
      "auxiliary_loss_mlp": 0.01023977,
      "balance_loss_clip": 1.04011214,
      "balance_loss_mlp": 1.01849914,
      "epoch": 0.699332651956953,
      "flos": 19429945424640.0,
      "grad_norm": 1.8149906406413139,
      "language_loss": 0.7345165,
      "learning_rate": 8.755368970739461e-07,
      "loss": 0.75525701,
      "num_input_tokens_seen": 125171915,
      "step": 5816,
      "time_per_iteration": 2.5988359451293945
    },
    {
      "auxiliary_loss_clip": 0.01062142,
      "auxiliary_loss_mlp": 0.01021339,
      "balance_loss_clip": 1.03599882,
      "balance_loss_mlp": 1.01574516,
      "epoch": 0.6994528948475921,
      "flos": 16145562597120.0,
      "grad_norm": 2.445702693688381,
      "language_loss": 0.61567783,
      "learning_rate": 8.748927885194479e-07,
      "loss": 0.63651264,
      "num_input_tokens_seen": 125190220,
      "step": 5817,
      "time_per_iteration": 2.59515118598938
    },
    {
      "auxiliary_loss_clip": 0.01017535,
      "auxiliary_loss_mlp": 0.01006131,
      "balance_loss_clip": 1.02886057,
      "balance_loss_mlp": 1.00448632,
      "epoch": 0.6995731377382313,
      "flos": 64958508305280.0,
      "grad_norm": 0.7988051117907754,
      "language_loss": 0.57386148,
      "learning_rate": 8.742488506428209e-07,
      "loss": 0.59409815,
      "num_input_tokens_seen": 125249310,
      "step": 5818,
      "time_per_iteration": 3.159648895263672
    },
    {
      "auxiliary_loss_clip": 0.01072158,
      "auxiliary_loss_mlp": 0.00756671,
      "balance_loss_clip": 1.0370326,
      "balance_loss_mlp": 1.00159073,
      "epoch": 0.6996933806288703,
      "flos": 24902463277440.0,
      "grad_norm": 2.488781322523372,
      "language_loss": 0.78272057,
      "learning_rate": 8.736050835417466e-07,
      "loss": 0.80100882,
      "num_input_tokens_seen": 125269350,
      "step": 5819,
      "time_per_iteration": 2.6310782432556152
    },
    {
      "auxiliary_loss_clip": 0.01085882,
      "auxiliary_loss_mlp": 0.0102133,
      "balance_loss_clip": 1.03918862,
      "balance_loss_mlp": 1.01579833,
      "epoch": 0.6998136235195094,
      "flos": 20779935540480.0,
      "grad_norm": 2.4311094487557923,
      "language_loss": 0.61570513,
      "learning_rate": 8.729614873138862e-07,
      "loss": 0.63677722,
      "num_input_tokens_seen": 125286985,
      "step": 5820,
      "time_per_iteration": 2.5549681186676025
    },
    {
      "auxiliary_loss_clip": 0.0104822,
      "auxiliary_loss_mlp": 0.01021871,
      "balance_loss_clip": 1.03643346,
      "balance_loss_mlp": 1.01622045,
      "epoch": 0.6999338664101485,
      "flos": 23735781498240.0,
      "grad_norm": 2.046131277270421,
      "language_loss": 0.7765764,
      "learning_rate": 8.723180620568716e-07,
      "loss": 0.79727733,
      "num_input_tokens_seen": 125306240,
      "step": 5821,
      "time_per_iteration": 2.6281955242156982
    },
    {
      "auxiliary_loss_clip": 0.01070383,
      "auxiliary_loss_mlp": 0.01018844,
      "balance_loss_clip": 1.03895664,
      "balance_loss_mlp": 1.0136826,
      "epoch": 0.7000541093007876,
      "flos": 19866616894080.0,
      "grad_norm": 2.3146863419122505,
      "language_loss": 0.84904802,
      "learning_rate": 8.716748078683116e-07,
      "loss": 0.86994028,
      "num_input_tokens_seen": 125323015,
      "step": 5822,
      "time_per_iteration": 2.569622278213501
    },
    {
      "auxiliary_loss_clip": 0.01010576,
      "auxiliary_loss_mlp": 0.01020846,
      "balance_loss_clip": 1.02751613,
      "balance_loss_mlp": 1.01495981,
      "epoch": 0.7001743521914267,
      "flos": 29681609736960.0,
      "grad_norm": 2.9969626992537033,
      "language_loss": 0.68773848,
      "learning_rate": 8.710317248457855e-07,
      "loss": 0.70805264,
      "num_input_tokens_seen": 125342630,
      "step": 5823,
      "time_per_iteration": 2.905143976211548
    },
    {
      "auxiliary_loss_clip": 0.01063048,
      "auxiliary_loss_mlp": 0.01021988,
      "balance_loss_clip": 1.03535736,
      "balance_loss_mlp": 1.01675749,
      "epoch": 0.7002945950820658,
      "flos": 27492185496960.0,
      "grad_norm": 2.0763821413803285,
      "language_loss": 0.72313267,
      "learning_rate": 8.703888130868482e-07,
      "loss": 0.74398303,
      "num_input_tokens_seen": 125364480,
      "step": 5824,
      "time_per_iteration": 3.702413320541382
    },
    {
      "auxiliary_loss_clip": 0.01058834,
      "auxiliary_loss_mlp": 0.01020014,
      "balance_loss_clip": 1.03714418,
      "balance_loss_mlp": 1.01486135,
      "epoch": 0.7004148379727049,
      "flos": 22160346007680.0,
      "grad_norm": 1.908081634044067,
      "language_loss": 0.82103908,
      "learning_rate": 8.697460726890307e-07,
      "loss": 0.84182763,
      "num_input_tokens_seen": 125381625,
      "step": 5825,
      "time_per_iteration": 2.578277349472046
    },
    {
      "auxiliary_loss_clip": 0.01065644,
      "auxiliary_loss_mlp": 0.00756509,
      "balance_loss_clip": 1.03774047,
      "balance_loss_mlp": 1.00170577,
      "epoch": 0.7005350808633439,
      "flos": 19425584845440.0,
      "grad_norm": 2.3225224687305106,
      "language_loss": 0.90371799,
      "learning_rate": 8.691035037498354e-07,
      "loss": 0.92193955,
      "num_input_tokens_seen": 125397615,
      "step": 5826,
      "time_per_iteration": 2.619938373565674
    },
    {
      "auxiliary_loss_clip": 0.01075557,
      "auxiliary_loss_mlp": 0.01020541,
      "balance_loss_clip": 1.03770137,
      "balance_loss_mlp": 1.01514053,
      "epoch": 0.7006553237539831,
      "flos": 23478929902080.0,
      "grad_norm": 1.789223187082494,
      "language_loss": 0.71805227,
      "learning_rate": 8.684611063667391e-07,
      "loss": 0.7390132,
      "num_input_tokens_seen": 125418080,
      "step": 5827,
      "time_per_iteration": 3.31834077835083
    },
    {
      "auxiliary_loss_clip": 0.01084043,
      "auxiliary_loss_mlp": 0.01019344,
      "balance_loss_clip": 1.03743958,
      "balance_loss_mlp": 1.014498,
      "epoch": 0.7007755666446221,
      "flos": 31215590714880.0,
      "grad_norm": 1.9088107141764548,
      "language_loss": 0.7722131,
      "learning_rate": 8.678188806371935e-07,
      "loss": 0.79324692,
      "num_input_tokens_seen": 125440115,
      "step": 5828,
      "time_per_iteration": 3.3384101390838623
    },
    {
      "auxiliary_loss_clip": 0.01083263,
      "auxiliary_loss_mlp": 0.01020313,
      "balance_loss_clip": 1.03730524,
      "balance_loss_mlp": 1.01576495,
      "epoch": 0.7008958095352612,
      "flos": 18151830172800.0,
      "grad_norm": 1.8450773807876564,
      "language_loss": 0.85370457,
      "learning_rate": 8.671768266586228e-07,
      "loss": 0.87474036,
      "num_input_tokens_seen": 125458240,
      "step": 5829,
      "time_per_iteration": 2.5419700145721436
    },
    {
      "auxiliary_loss_clip": 0.01062407,
      "auxiliary_loss_mlp": 0.01020239,
      "balance_loss_clip": 1.03879941,
      "balance_loss_mlp": 1.01498783,
      "epoch": 0.7010160524259004,
      "flos": 27454674464640.0,
      "grad_norm": 1.7946886076604307,
      "language_loss": 0.7831713,
      "learning_rate": 8.665349445284275e-07,
      "loss": 0.80399776,
      "num_input_tokens_seen": 125477980,
      "step": 5830,
      "time_per_iteration": 2.623338222503662
    },
    {
      "auxiliary_loss_clip": 0.01054773,
      "auxiliary_loss_mlp": 0.01018826,
      "balance_loss_clip": 1.03920746,
      "balance_loss_mlp": 1.01388431,
      "epoch": 0.7011362953165394,
      "flos": 23844333196800.0,
      "grad_norm": 1.739896273176414,
      "language_loss": 0.80828631,
      "learning_rate": 8.658932343439799e-07,
      "loss": 0.82902229,
      "num_input_tokens_seen": 125497765,
      "step": 5831,
      "time_per_iteration": 3.3514978885650635
    },
    {
      "auxiliary_loss_clip": 0.01096968,
      "auxiliary_loss_mlp": 0.0102218,
      "balance_loss_clip": 1.04083455,
      "balance_loss_mlp": 1.01673758,
      "epoch": 0.7012565382071785,
      "flos": 24825545308800.0,
      "grad_norm": 2.3590655275653005,
      "language_loss": 0.77934945,
      "learning_rate": 8.65251696202627e-07,
      "loss": 0.80054092,
      "num_input_tokens_seen": 125514145,
      "step": 5832,
      "time_per_iteration": 2.529552936553955
    },
    {
      "auxiliary_loss_clip": 0.01048662,
      "auxiliary_loss_mlp": 0.01019401,
      "balance_loss_clip": 1.03296912,
      "balance_loss_mlp": 1.01420963,
      "epoch": 0.7013767810978175,
      "flos": 21399574083840.0,
      "grad_norm": 12.378103397415149,
      "language_loss": 0.87601125,
      "learning_rate": 8.646103302016896e-07,
      "loss": 0.8966918,
      "num_input_tokens_seen": 125533115,
      "step": 5833,
      "time_per_iteration": 2.5599334239959717
    },
    {
      "auxiliary_loss_clip": 0.01051004,
      "auxiliary_loss_mlp": 0.01019793,
      "balance_loss_clip": 1.03591895,
      "balance_loss_mlp": 1.01426721,
      "epoch": 0.7014970239884567,
      "flos": 16688814024960.0,
      "grad_norm": 3.201358474371219,
      "language_loss": 0.88417149,
      "learning_rate": 8.639691364384614e-07,
      "loss": 0.90487945,
      "num_input_tokens_seen": 125550740,
      "step": 5834,
      "time_per_iteration": 2.6279311180114746
    },
    {
      "auxiliary_loss_clip": 0.0106478,
      "auxiliary_loss_mlp": 0.01021288,
      "balance_loss_clip": 1.03129768,
      "balance_loss_mlp": 1.01576257,
      "epoch": 0.7016172668790958,
      "flos": 12569926423680.0,
      "grad_norm": 2.4649565755596323,
      "language_loss": 0.72546375,
      "learning_rate": 8.633281150102136e-07,
      "loss": 0.74632442,
      "num_input_tokens_seen": 125567590,
      "step": 5835,
      "time_per_iteration": 2.5049026012420654
    },
    {
      "auxiliary_loss_clip": 0.01068416,
      "auxiliary_loss_mlp": 0.01019107,
      "balance_loss_clip": 1.03639126,
      "balance_loss_mlp": 1.01401424,
      "epoch": 0.7017375097697348,
      "flos": 17454401544960.0,
      "grad_norm": 2.3542452999289325,
      "language_loss": 0.67917097,
      "learning_rate": 8.626872660141855e-07,
      "loss": 0.70004618,
      "num_input_tokens_seen": 125585500,
      "step": 5836,
      "time_per_iteration": 2.5939714908599854
    },
    {
      "auxiliary_loss_clip": 0.01043601,
      "auxiliary_loss_mlp": 0.01020923,
      "balance_loss_clip": 1.03449976,
      "balance_loss_mlp": 1.01560378,
      "epoch": 0.701857752660374,
      "flos": 18514882546560.0,
      "grad_norm": 1.7002247741678314,
      "language_loss": 0.75045574,
      "learning_rate": 8.620465895475957e-07,
      "loss": 0.77110094,
      "num_input_tokens_seen": 125603720,
      "step": 5837,
      "time_per_iteration": 2.581956148147583
    },
    {
      "auxiliary_loss_clip": 0.01048154,
      "auxiliary_loss_mlp": 0.01021018,
      "balance_loss_clip": 1.03567338,
      "balance_loss_mlp": 1.01596963,
      "epoch": 0.701977995551013,
      "flos": 24428280775680.0,
      "grad_norm": 1.79872441814873,
      "language_loss": 0.75370622,
      "learning_rate": 8.614060857076333e-07,
      "loss": 0.77439791,
      "num_input_tokens_seen": 125624390,
      "step": 5838,
      "time_per_iteration": 2.672790050506592
    },
    {
      "auxiliary_loss_clip": 0.01071767,
      "auxiliary_loss_mlp": 0.01024921,
      "balance_loss_clip": 1.03749394,
      "balance_loss_mlp": 1.01956248,
      "epoch": 0.7020982384416521,
      "flos": 23004974908800.0,
      "grad_norm": 1.8048524617853552,
      "language_loss": 0.74784064,
      "learning_rate": 8.60765754591462e-07,
      "loss": 0.76880753,
      "num_input_tokens_seen": 125644085,
      "step": 5839,
      "time_per_iteration": 2.5588490962982178
    },
    {
      "auxiliary_loss_clip": 0.01094641,
      "auxiliary_loss_mlp": 0.01019057,
      "balance_loss_clip": 1.0389111,
      "balance_loss_mlp": 1.01401436,
      "epoch": 0.7022184813322913,
      "flos": 20451171162240.0,
      "grad_norm": 1.8184283336074143,
      "language_loss": 0.72680926,
      "learning_rate": 8.601255962962211e-07,
      "loss": 0.74794626,
      "num_input_tokens_seen": 125663095,
      "step": 5840,
      "time_per_iteration": 2.532456159591675
    },
    {
      "auxiliary_loss_clip": 0.01086542,
      "auxiliary_loss_mlp": 0.01022568,
      "balance_loss_clip": 1.03939128,
      "balance_loss_mlp": 1.01661944,
      "epoch": 0.7023387242229303,
      "flos": 19792466945280.0,
      "grad_norm": 2.70248315140741,
      "language_loss": 0.71971935,
      "learning_rate": 8.594856109190194e-07,
      "loss": 0.74081045,
      "num_input_tokens_seen": 125680125,
      "step": 5841,
      "time_per_iteration": 2.488816499710083
    },
    {
      "auxiliary_loss_clip": 0.01096751,
      "auxiliary_loss_mlp": 0.01019095,
      "balance_loss_clip": 1.0399828,
      "balance_loss_mlp": 1.0136714,
      "epoch": 0.7024589671135694,
      "flos": 33262289015040.0,
      "grad_norm": 1.6669129838908818,
      "language_loss": 0.69181293,
      "learning_rate": 8.588457985569446e-07,
      "loss": 0.71297145,
      "num_input_tokens_seen": 125703035,
      "step": 5842,
      "time_per_iteration": 2.644596815109253
    },
    {
      "auxiliary_loss_clip": 0.01095782,
      "auxiliary_loss_mlp": 0.0102266,
      "balance_loss_clip": 1.0392189,
      "balance_loss_mlp": 1.01722383,
      "epoch": 0.7025792100042085,
      "flos": 19100991456000.0,
      "grad_norm": 5.524866388205618,
      "language_loss": 0.71789777,
      "learning_rate": 8.582061593070542e-07,
      "loss": 0.73908222,
      "num_input_tokens_seen": 125723765,
      "step": 5843,
      "time_per_iteration": 2.4957616329193115
    },
    {
      "auxiliary_loss_clip": 0.01096187,
      "auxiliary_loss_mlp": 0.00756568,
      "balance_loss_clip": 1.03967333,
      "balance_loss_mlp": 1.00162053,
      "epoch": 0.7026994528948476,
      "flos": 18954587462400.0,
      "grad_norm": 2.100148005318213,
      "language_loss": 0.76981312,
      "learning_rate": 8.57566693266383e-07,
      "loss": 0.78834063,
      "num_input_tokens_seen": 125741455,
      "step": 5844,
      "time_per_iteration": 2.508974075317383
    },
    {
      "auxiliary_loss_clip": 0.01072294,
      "auxiliary_loss_mlp": 0.00756934,
      "balance_loss_clip": 1.03661489,
      "balance_loss_mlp": 1.00166011,
      "epoch": 0.7028196957854866,
      "flos": 19538686713600.0,
      "grad_norm": 2.4108237903092857,
      "language_loss": 0.69496298,
      "learning_rate": 8.569274005319354e-07,
      "loss": 0.71325529,
      "num_input_tokens_seen": 125759855,
      "step": 5845,
      "time_per_iteration": 2.525089979171753
    },
    {
      "auxiliary_loss_clip": 0.0108797,
      "auxiliary_loss_mlp": 0.01021163,
      "balance_loss_clip": 1.03964949,
      "balance_loss_mlp": 1.01587892,
      "epoch": 0.7029399386761258,
      "flos": 20847146480640.0,
      "grad_norm": 1.8947554118960188,
      "language_loss": 0.79582071,
      "learning_rate": 8.562882812006913e-07,
      "loss": 0.816912,
      "num_input_tokens_seen": 125777345,
      "step": 5846,
      "time_per_iteration": 2.5514047145843506
    },
    {
      "auxiliary_loss_clip": 0.0109409,
      "auxiliary_loss_mlp": 0.01024924,
      "balance_loss_clip": 1.03790879,
      "balance_loss_mlp": 1.01959848,
      "epoch": 0.7030601815667649,
      "flos": 22057216594560.0,
      "grad_norm": 1.6824526229943662,
      "language_loss": 0.77357757,
      "learning_rate": 8.556493353696066e-07,
      "loss": 0.79476774,
      "num_input_tokens_seen": 125796345,
      "step": 5847,
      "time_per_iteration": 2.475311756134033
    },
    {
      "auxiliary_loss_clip": 0.01084892,
      "auxiliary_loss_mlp": 0.00756792,
      "balance_loss_clip": 1.03997397,
      "balance_loss_mlp": 1.00157022,
      "epoch": 0.7031804244574039,
      "flos": 27201197577600.0,
      "grad_norm": 2.1962356535724346,
      "language_loss": 0.68324023,
      "learning_rate": 8.550105631356077e-07,
      "loss": 0.701657,
      "num_input_tokens_seen": 125816070,
      "step": 5848,
      "time_per_iteration": 2.5979602336883545
    },
    {
      "auxiliary_loss_clip": 0.01055494,
      "auxiliary_loss_mlp": 0.01020095,
      "balance_loss_clip": 1.03552699,
      "balance_loss_mlp": 1.01469159,
      "epoch": 0.7033006673480431,
      "flos": 22381885820160.0,
      "grad_norm": 2.0924189839376752,
      "language_loss": 0.77277744,
      "learning_rate": 8.543719645955961e-07,
      "loss": 0.79353333,
      "num_input_tokens_seen": 125834400,
      "step": 5849,
      "time_per_iteration": 2.5865817070007324
    },
    {
      "auxiliary_loss_clip": 0.01070916,
      "auxiliary_loss_mlp": 0.01019225,
      "balance_loss_clip": 1.03629601,
      "balance_loss_mlp": 1.01414073,
      "epoch": 0.7034209102386821,
      "flos": 24718206988800.0,
      "grad_norm": 1.7964130092403894,
      "language_loss": 0.74732268,
      "learning_rate": 8.537335398464467e-07,
      "loss": 0.76822412,
      "num_input_tokens_seen": 125854720,
      "step": 5850,
      "time_per_iteration": 3.3932902812957764
    },
    {
      "auxiliary_loss_clip": 0.01075783,
      "auxiliary_loss_mlp": 0.01021569,
      "balance_loss_clip": 1.0373745,
      "balance_loss_mlp": 1.01624298,
      "epoch": 0.7035411531293212,
      "flos": 22557875967360.0,
      "grad_norm": 2.9901184603576567,
      "language_loss": 0.84919477,
      "learning_rate": 8.53095288985007e-07,
      "loss": 0.87016833,
      "num_input_tokens_seen": 125868455,
      "step": 5851,
      "time_per_iteration": 2.5297467708587646
    },
    {
      "auxiliary_loss_clip": 0.01095113,
      "auxiliary_loss_mlp": 0.0101778,
      "balance_loss_clip": 1.03914237,
      "balance_loss_mlp": 1.01285028,
      "epoch": 0.7036613960199604,
      "flos": 22677196400640.0,
      "grad_norm": 1.6448785190132489,
      "language_loss": 0.82131219,
      "learning_rate": 8.524572121081009e-07,
      "loss": 0.8424412,
      "num_input_tokens_seen": 125888555,
      "step": 5852,
      "time_per_iteration": 2.519613265991211
    },
    {
      "auxiliary_loss_clip": 0.01085991,
      "auxiliary_loss_mlp": 0.01022113,
      "balance_loss_clip": 1.03940582,
      "balance_loss_mlp": 1.01674318,
      "epoch": 0.7037816389105994,
      "flos": 22494343080960.0,
      "grad_norm": 7.7686660936479806,
      "language_loss": 0.62241721,
      "learning_rate": 8.518193093125232e-07,
      "loss": 0.6434983,
      "num_input_tokens_seen": 125907610,
      "step": 5853,
      "time_per_iteration": 3.264564037322998
    },
    {
      "auxiliary_loss_clip": 0.01072015,
      "auxiliary_loss_mlp": 0.01021426,
      "balance_loss_clip": 1.0361762,
      "balance_loss_mlp": 1.01658046,
      "epoch": 0.7039018818012385,
      "flos": 27089839941120.0,
      "grad_norm": 1.7362437472189471,
      "language_loss": 0.80863035,
      "learning_rate": 8.511815806950436e-07,
      "loss": 0.82956469,
      "num_input_tokens_seen": 125928640,
      "step": 5854,
      "time_per_iteration": 3.3595829010009766
    },
    {
      "auxiliary_loss_clip": 0.01080216,
      "auxiliary_loss_mlp": 0.01017732,
      "balance_loss_clip": 1.03553808,
      "balance_loss_mlp": 1.01264465,
      "epoch": 0.7040221246918776,
      "flos": 17751797619840.0,
      "grad_norm": 1.721851384037599,
      "language_loss": 0.77783436,
      "learning_rate": 8.505440263524044e-07,
      "loss": 0.79881382,
      "num_input_tokens_seen": 125947485,
      "step": 5855,
      "time_per_iteration": 2.558257818222046
    },
    {
      "auxiliary_loss_clip": 0.01085874,
      "auxiliary_loss_mlp": 0.01018313,
      "balance_loss_clip": 1.0382719,
      "balance_loss_mlp": 1.01269817,
      "epoch": 0.7041423675825167,
      "flos": 16281159937920.0,
      "grad_norm": 3.544944218587552,
      "language_loss": 0.882599,
      "learning_rate": 8.49906646381322e-07,
      "loss": 0.90364087,
      "num_input_tokens_seen": 125960320,
      "step": 5856,
      "time_per_iteration": 2.4675474166870117
    },
    {
      "auxiliary_loss_clip": 0.0104836,
      "auxiliary_loss_mlp": 0.01016682,
      "balance_loss_clip": 1.03195739,
      "balance_loss_mlp": 1.01169634,
      "epoch": 0.7042626104731557,
      "flos": 25485500822400.0,
      "grad_norm": 2.239387679791078,
      "language_loss": 0.72409576,
      "learning_rate": 8.492694408784884e-07,
      "loss": 0.74474621,
      "num_input_tokens_seen": 125980575,
      "step": 5857,
      "time_per_iteration": 3.400623321533203
    },
    {
      "auxiliary_loss_clip": 0.01086258,
      "auxiliary_loss_mlp": 0.01021447,
      "balance_loss_clip": 1.03937662,
      "balance_loss_mlp": 1.01627612,
      "epoch": 0.7043828533637949,
      "flos": 17859515120640.0,
      "grad_norm": 3.0581271234636813,
      "language_loss": 0.62984049,
      "learning_rate": 8.486324099405642e-07,
      "loss": 0.65091753,
      "num_input_tokens_seen": 125997420,
      "step": 5858,
      "time_per_iteration": 2.5039682388305664
    },
    {
      "auxiliary_loss_clip": 0.01081506,
      "auxiliary_loss_mlp": 0.01022362,
      "balance_loss_clip": 1.03690267,
      "balance_loss_mlp": 1.01741171,
      "epoch": 0.704503096254434,
      "flos": 29496670922880.0,
      "grad_norm": 2.611443781712541,
      "language_loss": 0.74649429,
      "learning_rate": 8.479955536641887e-07,
      "loss": 0.76753294,
      "num_input_tokens_seen": 126018915,
      "step": 5859,
      "time_per_iteration": 2.6416983604431152
    },
    {
      "auxiliary_loss_clip": 0.01074687,
      "auxiliary_loss_mlp": 0.01021091,
      "balance_loss_clip": 1.03683305,
      "balance_loss_mlp": 1.01611423,
      "epoch": 0.704623339145073,
      "flos": 30923427335040.0,
      "grad_norm": 4.206738621539867,
      "language_loss": 0.6622768,
      "learning_rate": 8.473588721459716e-07,
      "loss": 0.68323457,
      "num_input_tokens_seen": 126038825,
      "step": 5860,
      "time_per_iteration": 2.670161485671997
    },
    {
      "auxiliary_loss_clip": 0.01084715,
      "auxiliary_loss_mlp": 0.01026629,
      "balance_loss_clip": 1.04112363,
      "balance_loss_mlp": 1.02070689,
      "epoch": 0.7047435820357122,
      "flos": 23917004340480.0,
      "grad_norm": 2.6179788177048158,
      "language_loss": 0.70593083,
      "learning_rate": 8.467223654824967e-07,
      "loss": 0.72704434,
      "num_input_tokens_seen": 126058280,
      "step": 5861,
      "time_per_iteration": 2.5583081245422363
    },
    {
      "auxiliary_loss_clip": 0.0108663,
      "auxiliary_loss_mlp": 0.01020101,
      "balance_loss_clip": 1.03913939,
      "balance_loss_mlp": 1.01496577,
      "epoch": 0.7048638249263512,
      "flos": 46497224108160.0,
      "grad_norm": 1.993664520988378,
      "language_loss": 0.6234889,
      "learning_rate": 8.460860337703233e-07,
      "loss": 0.64455616,
      "num_input_tokens_seen": 126078885,
      "step": 5862,
      "time_per_iteration": 2.7522072792053223
    },
    {
      "auxiliary_loss_clip": 0.01060694,
      "auxiliary_loss_mlp": 0.0102254,
      "balance_loss_clip": 1.03837705,
      "balance_loss_mlp": 1.01697874,
      "epoch": 0.7049840678169903,
      "flos": 21691358282880.0,
      "grad_norm": 1.9112338285273593,
      "language_loss": 0.7030341,
      "learning_rate": 8.454498771059797e-07,
      "loss": 0.72386646,
      "num_input_tokens_seen": 126098260,
      "step": 5863,
      "time_per_iteration": 2.6011667251586914
    },
    {
      "auxiliary_loss_clip": 0.01039779,
      "auxiliary_loss_mlp": 0.0102018,
      "balance_loss_clip": 1.03139186,
      "balance_loss_mlp": 1.01444936,
      "epoch": 0.7051043107076294,
      "flos": 18407013373440.0,
      "grad_norm": 2.578917070252548,
      "language_loss": 0.83299839,
      "learning_rate": 8.448138955859725e-07,
      "loss": 0.85359794,
      "num_input_tokens_seen": 126114845,
      "step": 5864,
      "time_per_iteration": 2.6347782611846924
    },
    {
      "auxiliary_loss_clip": 0.01072665,
      "auxiliary_loss_mlp": 0.01018111,
      "balance_loss_clip": 1.0393194,
      "balance_loss_mlp": 1.01260924,
      "epoch": 0.7052245535982685,
      "flos": 19321128299520.0,
      "grad_norm": 2.1374316638477433,
      "language_loss": 0.9015429,
      "learning_rate": 8.44178089306778e-07,
      "loss": 0.92245066,
      "num_input_tokens_seen": 126132780,
      "step": 5865,
      "time_per_iteration": 2.555706024169922
    },
    {
      "auxiliary_loss_clip": 0.01095337,
      "auxiliary_loss_mlp": 0.0101884,
      "balance_loss_clip": 1.03941154,
      "balance_loss_mlp": 1.01392293,
      "epoch": 0.7053447964889076,
      "flos": 19064125031040.0,
      "grad_norm": 2.027677576897005,
      "language_loss": 0.76906872,
      "learning_rate": 8.4354245836485e-07,
      "loss": 0.79021049,
      "num_input_tokens_seen": 126151225,
      "step": 5866,
      "time_per_iteration": 2.495440721511841
    },
    {
      "auxiliary_loss_clip": 0.01052615,
      "auxiliary_loss_mlp": 0.01019857,
      "balance_loss_clip": 1.03375995,
      "balance_loss_mlp": 1.01394475,
      "epoch": 0.7054650393795466,
      "flos": 27381586222080.0,
      "grad_norm": 1.9768084982560885,
      "language_loss": 0.73086798,
      "learning_rate": 8.429070028566108e-07,
      "loss": 0.7515927,
      "num_input_tokens_seen": 126172535,
      "step": 5867,
      "time_per_iteration": 2.6667275428771973
    },
    {
      "auxiliary_loss_clip": 0.01083005,
      "auxiliary_loss_mlp": 0.01021676,
      "balance_loss_clip": 1.03921628,
      "balance_loss_mlp": 1.01643968,
      "epoch": 0.7055852822701858,
      "flos": 16103766821760.0,
      "grad_norm": 2.245299217559151,
      "language_loss": 0.75191778,
      "learning_rate": 8.422717228784586e-07,
      "loss": 0.7729646,
      "num_input_tokens_seen": 126189410,
      "step": 5868,
      "time_per_iteration": 2.5247411727905273
    },
    {
      "auxiliary_loss_clip": 0.01038747,
      "auxiliary_loss_mlp": 0.01019607,
      "balance_loss_clip": 1.03331041,
      "balance_loss_mlp": 1.01420355,
      "epoch": 0.7057055251608249,
      "flos": 11693891301120.0,
      "grad_norm": 1.8706017530786236,
      "language_loss": 0.69418836,
      "learning_rate": 8.416366185267663e-07,
      "loss": 0.71477199,
      "num_input_tokens_seen": 126206910,
      "step": 5869,
      "time_per_iteration": 2.601658821105957
    },
    {
      "auxiliary_loss_clip": 0.0108518,
      "auxiliary_loss_mlp": 0.01020119,
      "balance_loss_clip": 1.03858316,
      "balance_loss_mlp": 1.01490951,
      "epoch": 0.7058257680514639,
      "flos": 22713797399040.0,
      "grad_norm": 1.745398174708208,
      "language_loss": 0.77873886,
      "learning_rate": 8.410016898978778e-07,
      "loss": 0.79979187,
      "num_input_tokens_seen": 126224385,
      "step": 5870,
      "time_per_iteration": 2.6020753383636475
    },
    {
      "auxiliary_loss_clip": 0.01038603,
      "auxiliary_loss_mlp": 0.01019747,
      "balance_loss_clip": 1.03949213,
      "balance_loss_mlp": 1.01459396,
      "epoch": 0.7059460109421031,
      "flos": 17531433267840.0,
      "grad_norm": 1.7066955554666907,
      "language_loss": 0.78865874,
      "learning_rate": 8.403669370881115e-07,
      "loss": 0.80924225,
      "num_input_tokens_seen": 126243120,
      "step": 5871,
      "time_per_iteration": 2.6262521743774414
    },
    {
      "auxiliary_loss_clip": 0.01097518,
      "auxiliary_loss_mlp": 0.01022385,
      "balance_loss_clip": 1.04071879,
      "balance_loss_mlp": 1.01753938,
      "epoch": 0.7060662538327421,
      "flos": 23546633777280.0,
      "grad_norm": 1.7401505274486897,
      "language_loss": 0.78529859,
      "learning_rate": 8.397323601937587e-07,
      "loss": 0.80649763,
      "num_input_tokens_seen": 126263020,
      "step": 5872,
      "time_per_iteration": 2.5929200649261475
    },
    {
      "auxiliary_loss_clip": 0.01057612,
      "auxiliary_loss_mlp": 0.01020685,
      "balance_loss_clip": 1.03634071,
      "balance_loss_mlp": 1.0155735,
      "epoch": 0.7061864967233812,
      "flos": 30263206394880.0,
      "grad_norm": 1.8751260729840205,
      "language_loss": 0.77206039,
      "learning_rate": 8.390979593110838e-07,
      "loss": 0.79284334,
      "num_input_tokens_seen": 126285150,
      "step": 5873,
      "time_per_iteration": 2.6876678466796875
    },
    {
      "auxiliary_loss_clip": 0.01073706,
      "auxiliary_loss_mlp": 0.01021084,
      "balance_loss_clip": 1.0386517,
      "balance_loss_mlp": 1.01557708,
      "epoch": 0.7063067396140204,
      "flos": 20703396752640.0,
      "grad_norm": 1.9101861233136115,
      "language_loss": 0.81576127,
      "learning_rate": 8.384637345363262e-07,
      "loss": 0.83670914,
      "num_input_tokens_seen": 126304340,
      "step": 5874,
      "time_per_iteration": 2.6340630054473877
    },
    {
      "auxiliary_loss_clip": 0.01075944,
      "auxiliary_loss_mlp": 0.01017464,
      "balance_loss_clip": 1.03854418,
      "balance_loss_mlp": 1.01222134,
      "epoch": 0.7064269825046594,
      "flos": 32268677690880.0,
      "grad_norm": 1.8854940270397524,
      "language_loss": 0.76714361,
      "learning_rate": 8.378296859656964e-07,
      "loss": 0.78807765,
      "num_input_tokens_seen": 126325495,
      "step": 5875,
      "time_per_iteration": 2.724397897720337
    },
    {
      "auxiliary_loss_clip": 0.01072512,
      "auxiliary_loss_mlp": 0.0102388,
      "balance_loss_clip": 1.03884161,
      "balance_loss_mlp": 1.01861668,
      "epoch": 0.7065472253952985,
      "flos": 30229752597120.0,
      "grad_norm": 2.5317746243536368,
      "language_loss": 0.68710303,
      "learning_rate": 8.371958136953792e-07,
      "loss": 0.70806694,
      "num_input_tokens_seen": 126345525,
      "step": 5876,
      "time_per_iteration": 3.4209017753601074
    },
    {
      "auxiliary_loss_clip": 0.01059112,
      "auxiliary_loss_mlp": 0.01022287,
      "balance_loss_clip": 1.03582144,
      "balance_loss_mlp": 1.01650834,
      "epoch": 0.7066674682859376,
      "flos": 16218575003520.0,
      "grad_norm": 2.713019401359027,
      "language_loss": 0.66639477,
      "learning_rate": 8.365621178215326e-07,
      "loss": 0.68720877,
      "num_input_tokens_seen": 126361995,
      "step": 5877,
      "time_per_iteration": 2.6006007194519043
    },
    {
      "auxiliary_loss_clip": 0.01086121,
      "auxiliary_loss_mlp": 0.01021058,
      "balance_loss_clip": 1.03974462,
      "balance_loss_mlp": 1.0162096,
      "epoch": 0.7067877111765767,
      "flos": 14832249315840.0,
      "grad_norm": 4.2129599822021255,
      "language_loss": 0.74826384,
      "learning_rate": 8.359285984402871e-07,
      "loss": 0.76933569,
      "num_input_tokens_seen": 126379260,
      "step": 5878,
      "time_per_iteration": 3.2958054542541504
    },
    {
      "auxiliary_loss_clip": 0.0106177,
      "auxiliary_loss_mlp": 0.0101727,
      "balance_loss_clip": 1.03404093,
      "balance_loss_mlp": 1.01251936,
      "epoch": 0.7069079540672157,
      "flos": 25442150405760.0,
      "grad_norm": 2.1337997206402,
      "language_loss": 0.73944753,
      "learning_rate": 8.352952556477489e-07,
      "loss": 0.76023793,
      "num_input_tokens_seen": 126397170,
      "step": 5879,
      "time_per_iteration": 3.4039292335510254
    },
    {
      "auxiliary_loss_clip": 0.01082399,
      "auxiliary_loss_mlp": 0.01021645,
      "balance_loss_clip": 1.03935242,
      "balance_loss_mlp": 1.01637554,
      "epoch": 0.7070281969578549,
      "flos": 24610034471040.0,
      "grad_norm": 4.143517555259325,
      "language_loss": 0.77013528,
      "learning_rate": 8.34662089539993e-07,
      "loss": 0.79117572,
      "num_input_tokens_seen": 126416680,
      "step": 5880,
      "time_per_iteration": 2.551081657409668
    },
    {
      "auxiliary_loss_clip": 0.0109534,
      "auxiliary_loss_mlp": 0.0101893,
      "balance_loss_clip": 1.04066682,
      "balance_loss_mlp": 1.01400661,
      "epoch": 0.707148439848494,
      "flos": 26726901321600.0,
      "grad_norm": 3.2328995886167315,
      "language_loss": 0.79053807,
      "learning_rate": 8.340291002130722e-07,
      "loss": 0.81168079,
      "num_input_tokens_seen": 126435870,
      "step": 5881,
      "time_per_iteration": 2.563267707824707
    },
    {
      "auxiliary_loss_clip": 0.01097061,
      "auxiliary_loss_mlp": 0.01022858,
      "balance_loss_clip": 1.04068685,
      "balance_loss_mlp": 1.01726115,
      "epoch": 0.707268682739133,
      "flos": 15087546270720.0,
      "grad_norm": 2.567626756644536,
      "language_loss": 0.79464704,
      "learning_rate": 8.3339628776301e-07,
      "loss": 0.8158462,
      "num_input_tokens_seen": 126454010,
      "step": 5882,
      "time_per_iteration": 3.294011354446411
    },
    {
      "auxiliary_loss_clip": 0.0109543,
      "auxiliary_loss_mlp": 0.01019277,
      "balance_loss_clip": 1.03867292,
      "balance_loss_mlp": 1.01425838,
      "epoch": 0.7073889256297722,
      "flos": 34315982680320.0,
      "grad_norm": 1.901055571905621,
      "language_loss": 0.5706591,
      "learning_rate": 8.327636522858033e-07,
      "loss": 0.59180617,
      "num_input_tokens_seen": 126473615,
      "step": 5883,
      "time_per_iteration": 2.5853378772735596
    },
    {
      "auxiliary_loss_clip": 0.01040849,
      "auxiliary_loss_mlp": 0.01023526,
      "balance_loss_clip": 1.03691602,
      "balance_loss_mlp": 1.01804185,
      "epoch": 0.7075091685204112,
      "flos": 20085995376000.0,
      "grad_norm": 2.0085328424198976,
      "language_loss": 0.77185869,
      "learning_rate": 8.321311938774225e-07,
      "loss": 0.7925024,
      "num_input_tokens_seen": 126492705,
      "step": 5884,
      "time_per_iteration": 2.642927885055542
    },
    {
      "auxiliary_loss_clip": 0.0109755,
      "auxiliary_loss_mlp": 0.01021541,
      "balance_loss_clip": 1.04029369,
      "balance_loss_mlp": 1.01637006,
      "epoch": 0.7076294114110503,
      "flos": 20779215096960.0,
      "grad_norm": 2.120046305250047,
      "language_loss": 0.79378569,
      "learning_rate": 8.314989126338104e-07,
      "loss": 0.81497657,
      "num_input_tokens_seen": 126512715,
      "step": 5885,
      "time_per_iteration": 2.497243642807007
    },
    {
      "auxiliary_loss_clip": 0.01087098,
      "auxiliary_loss_mlp": 0.01020474,
      "balance_loss_clip": 1.04028404,
      "balance_loss_mlp": 1.01506221,
      "epoch": 0.7077496543016895,
      "flos": 17969621460480.0,
      "grad_norm": 1.6204658736384443,
      "language_loss": 0.84262836,
      "learning_rate": 8.308668086508847e-07,
      "loss": 0.86370409,
      "num_input_tokens_seen": 126530795,
      "step": 5886,
      "time_per_iteration": 2.5309436321258545
    },
    {
      "auxiliary_loss_clip": 0.01065278,
      "auxiliary_loss_mlp": 0.01015547,
      "balance_loss_clip": 1.03792608,
      "balance_loss_mlp": 1.01002157,
      "epoch": 0.7078698971923285,
      "flos": 45481572328320.0,
      "grad_norm": 1.9109694071665047,
      "language_loss": 0.73933893,
      "learning_rate": 8.302348820245342e-07,
      "loss": 0.76014721,
      "num_input_tokens_seen": 126553360,
      "step": 5887,
      "time_per_iteration": 2.802074670791626
    },
    {
      "auxiliary_loss_clip": 0.01060037,
      "auxiliary_loss_mlp": 0.01022233,
      "balance_loss_clip": 1.03889501,
      "balance_loss_mlp": 1.01664805,
      "epoch": 0.7079901400829676,
      "flos": 26946166049280.0,
      "grad_norm": 2.4205658976057127,
      "language_loss": 0.69992983,
      "learning_rate": 8.296031328506232e-07,
      "loss": 0.72075254,
      "num_input_tokens_seen": 126573110,
      "step": 5888,
      "time_per_iteration": 2.6533477306365967
    },
    {
      "auxiliary_loss_clip": 0.01073574,
      "auxiliary_loss_mlp": 0.01019204,
      "balance_loss_clip": 1.03948104,
      "balance_loss_mlp": 1.01382136,
      "epoch": 0.7081103829736067,
      "flos": 24425361083520.0,
      "grad_norm": 1.891617541990623,
      "language_loss": 0.7588557,
      "learning_rate": 8.289715612249857e-07,
      "loss": 0.77978349,
      "num_input_tokens_seen": 126593725,
      "step": 5889,
      "time_per_iteration": 2.5812265872955322
    },
    {
      "auxiliary_loss_clip": 0.01071895,
      "auxiliary_loss_mlp": 0.01022484,
      "balance_loss_clip": 1.03798676,
      "balance_loss_mlp": 1.01705742,
      "epoch": 0.7082306258642458,
      "flos": 18544809962880.0,
      "grad_norm": 2.4709817509552643,
      "language_loss": 0.7806018,
      "learning_rate": 8.283401672434305e-07,
      "loss": 0.80154562,
      "num_input_tokens_seen": 126608950,
      "step": 5890,
      "time_per_iteration": 2.5457584857940674
    },
    {
      "auxiliary_loss_clip": 0.01069698,
      "auxiliary_loss_mlp": 0.01021347,
      "balance_loss_clip": 1.03859711,
      "balance_loss_mlp": 1.01631641,
      "epoch": 0.7083508687548848,
      "flos": 23479802017920.0,
      "grad_norm": 2.8385679828786183,
      "language_loss": 0.7048018,
      "learning_rate": 8.277089510017412e-07,
      "loss": 0.72571218,
      "num_input_tokens_seen": 126629755,
      "step": 5891,
      "time_per_iteration": 2.5923800468444824
    },
    {
      "auxiliary_loss_clip": 0.01070049,
      "auxiliary_loss_mlp": 0.01020401,
      "balance_loss_clip": 1.03804326,
      "balance_loss_mlp": 1.01525116,
      "epoch": 0.708471111645524,
      "flos": 22421671937280.0,
      "grad_norm": 1.7238503571975687,
      "language_loss": 0.82238829,
      "learning_rate": 8.270779125956719e-07,
      "loss": 0.84329283,
      "num_input_tokens_seen": 126650135,
      "step": 5892,
      "time_per_iteration": 2.5806469917297363
    },
    {
      "auxiliary_loss_clip": 0.01046559,
      "auxiliary_loss_mlp": 0.01018387,
      "balance_loss_clip": 1.03535318,
      "balance_loss_mlp": 1.0131743,
      "epoch": 0.7085913545361631,
      "flos": 20924974483200.0,
      "grad_norm": 1.969523349913247,
      "language_loss": 0.80318373,
      "learning_rate": 8.264470521209505e-07,
      "loss": 0.82383323,
      "num_input_tokens_seen": 126668500,
      "step": 5893,
      "time_per_iteration": 2.6209094524383545
    },
    {
      "auxiliary_loss_clip": 0.0108567,
      "auxiliary_loss_mlp": 0.01021837,
      "balance_loss_clip": 1.03862882,
      "balance_loss_mlp": 1.01649928,
      "epoch": 0.7087115974268021,
      "flos": 15014154683520.0,
      "grad_norm": 2.444184650143778,
      "language_loss": 0.76874387,
      "learning_rate": 8.258163696732785e-07,
      "loss": 0.78981888,
      "num_input_tokens_seen": 126686090,
      "step": 5894,
      "time_per_iteration": 2.555694818496704
    },
    {
      "auxiliary_loss_clip": 0.01086631,
      "auxiliary_loss_mlp": 0.01019805,
      "balance_loss_clip": 1.03954816,
      "balance_loss_mlp": 1.01472628,
      "epoch": 0.7088318403174413,
      "flos": 21540934972800.0,
      "grad_norm": 1.9909960062408574,
      "language_loss": 0.76920295,
      "learning_rate": 8.251858653483288e-07,
      "loss": 0.79026729,
      "num_input_tokens_seen": 126704255,
      "step": 5895,
      "time_per_iteration": 2.532728672027588
    },
    {
      "auxiliary_loss_clip": 0.01083634,
      "auxiliary_loss_mlp": 0.01019168,
      "balance_loss_clip": 1.03983176,
      "balance_loss_mlp": 1.01380014,
      "epoch": 0.7089520832080803,
      "flos": 15518226683520.0,
      "grad_norm": 2.2464600553168257,
      "language_loss": 0.85861671,
      "learning_rate": 8.245555392417501e-07,
      "loss": 0.87964475,
      "num_input_tokens_seen": 126718910,
      "step": 5896,
      "time_per_iteration": 2.5031239986419678
    },
    {
      "auxiliary_loss_clip": 0.01048112,
      "auxiliary_loss_mlp": 0.01016258,
      "balance_loss_clip": 1.03447306,
      "balance_loss_mlp": 1.01096523,
      "epoch": 0.7090723260987194,
      "flos": 20414759754240.0,
      "grad_norm": 2.307934847032834,
      "language_loss": 0.78970826,
      "learning_rate": 8.239253914491613e-07,
      "loss": 0.81035197,
      "num_input_tokens_seen": 126737235,
      "step": 5897,
      "time_per_iteration": 2.600910186767578
    },
    {
      "auxiliary_loss_clip": 0.01062845,
      "auxiliary_loss_mlp": 0.01017288,
      "balance_loss_clip": 1.03790486,
      "balance_loss_mlp": 1.01206028,
      "epoch": 0.7091925689893585,
      "flos": 25670818817280.0,
      "grad_norm": 1.7806855993570563,
      "language_loss": 0.75109386,
      "learning_rate": 8.232954220661556e-07,
      "loss": 0.77189517,
      "num_input_tokens_seen": 126759970,
      "step": 5898,
      "time_per_iteration": 2.685889482498169
    },
    {
      "auxiliary_loss_clip": 0.01098672,
      "auxiliary_loss_mlp": 0.01023252,
      "balance_loss_clip": 1.04309773,
      "balance_loss_mlp": 1.01796257,
      "epoch": 0.7093128118799976,
      "flos": 24208902293760.0,
      "grad_norm": 2.567880471618608,
      "language_loss": 0.703565,
      "learning_rate": 8.226656311882989e-07,
      "loss": 0.72478431,
      "num_input_tokens_seen": 126779280,
      "step": 5899,
      "time_per_iteration": 2.5024919509887695
    },
    {
      "auxiliary_loss_clip": 0.01082353,
      "auxiliary_loss_mlp": 0.01022366,
      "balance_loss_clip": 1.03890157,
      "balance_loss_mlp": 1.01740134,
      "epoch": 0.7094330547706367,
      "flos": 16648231628160.0,
      "grad_norm": 2.070147321463482,
      "language_loss": 0.76833522,
      "learning_rate": 8.22036018911129e-07,
      "loss": 0.78938246,
      "num_input_tokens_seen": 126797310,
      "step": 5900,
      "time_per_iteration": 2.513205051422119
    },
    {
      "auxiliary_loss_clip": 0.01097263,
      "auxiliary_loss_mlp": 0.0102312,
      "balance_loss_clip": 1.03987575,
      "balance_loss_mlp": 1.01762128,
      "epoch": 0.7095532976612757,
      "flos": 16284875909760.0,
      "grad_norm": 3.2570639313536858,
      "language_loss": 0.80694056,
      "learning_rate": 8.214065853301599e-07,
      "loss": 0.82814437,
      "num_input_tokens_seen": 126812840,
      "step": 5901,
      "time_per_iteration": 2.448702812194824
    },
    {
      "auxiliary_loss_clip": 0.01041217,
      "auxiliary_loss_mlp": 0.01002431,
      "balance_loss_clip": 1.0245657,
      "balance_loss_mlp": 1.00054729,
      "epoch": 0.7096735405519149,
      "flos": 70728763495680.0,
      "grad_norm": 0.8153939428192774,
      "language_loss": 0.58220154,
      "learning_rate": 8.207773305408734e-07,
      "loss": 0.60263801,
      "num_input_tokens_seen": 126880060,
      "step": 5902,
      "time_per_iteration": 3.262901544570923
    },
    {
      "auxiliary_loss_clip": 0.01051262,
      "auxiliary_loss_mlp": 0.01021107,
      "balance_loss_clip": 1.03625822,
      "balance_loss_mlp": 1.01549816,
      "epoch": 0.709793783442554,
      "flos": 23623665500160.0,
      "grad_norm": 2.5969630811420417,
      "language_loss": 0.7992177,
      "learning_rate": 8.201482546387288e-07,
      "loss": 0.8199414,
      "num_input_tokens_seen": 126899535,
      "step": 5903,
      "time_per_iteration": 4.175033807754517
    },
    {
      "auxiliary_loss_clip": 0.01081809,
      "auxiliary_loss_mlp": 0.01019892,
      "balance_loss_clip": 1.03823161,
      "balance_loss_mlp": 1.01489711,
      "epoch": 0.709914026333193,
      "flos": 25995791387520.0,
      "grad_norm": 1.8931621107319223,
      "language_loss": 0.91780007,
      "learning_rate": 8.195193577191553e-07,
      "loss": 0.93881702,
      "num_input_tokens_seen": 126921365,
      "step": 5904,
      "time_per_iteration": 2.5770936012268066
    },
    {
      "auxiliary_loss_clip": 0.01071676,
      "auxiliary_loss_mlp": 0.00756529,
      "balance_loss_clip": 1.03921199,
      "balance_loss_mlp": 1.00164485,
      "epoch": 0.7100342692238322,
      "flos": 24863738866560.0,
      "grad_norm": 1.7633798283473592,
      "language_loss": 0.84615141,
      "learning_rate": 8.188906398775579e-07,
      "loss": 0.86443341,
      "num_input_tokens_seen": 126941910,
      "step": 5905,
      "time_per_iteration": 3.3845226764678955
    },
    {
      "auxiliary_loss_clip": 0.01096102,
      "auxiliary_loss_mlp": 0.00756693,
      "balance_loss_clip": 1.03868365,
      "balance_loss_mlp": 1.00161088,
      "epoch": 0.7101545121144712,
      "flos": 24934286597760.0,
      "grad_norm": 1.734843456644513,
      "language_loss": 0.68995965,
      "learning_rate": 8.18262101209311e-07,
      "loss": 0.70848757,
      "num_input_tokens_seen": 126961120,
      "step": 5906,
      "time_per_iteration": 2.5569369792938232
    },
    {
      "auxiliary_loss_clip": 0.01080192,
      "auxiliary_loss_mlp": 0.01021992,
      "balance_loss_clip": 1.03864801,
      "balance_loss_mlp": 1.01673448,
      "epoch": 0.7102747550051103,
      "flos": 23771093281920.0,
      "grad_norm": 1.7956239455665202,
      "language_loss": 0.70067441,
      "learning_rate": 8.176337418097626e-07,
      "loss": 0.72169626,
      "num_input_tokens_seen": 126981590,
      "step": 5907,
      "time_per_iteration": 2.519369125366211
    },
    {
      "auxiliary_loss_clip": 0.01081842,
      "auxiliary_loss_mlp": 0.00756526,
      "balance_loss_clip": 1.03812075,
      "balance_loss_mlp": 1.00157475,
      "epoch": 0.7103949978957494,
      "flos": 15305673456000.0,
      "grad_norm": 2.2358397915030364,
      "language_loss": 0.79289544,
      "learning_rate": 8.170055617742364e-07,
      "loss": 0.81127912,
      "num_input_tokens_seen": 126998870,
      "step": 5908,
      "time_per_iteration": 2.5120723247528076
    },
    {
      "auxiliary_loss_clip": 0.01071664,
      "auxiliary_loss_mlp": 0.01021902,
      "balance_loss_clip": 1.03647709,
      "balance_loss_mlp": 1.0162816,
      "epoch": 0.7105152407863885,
      "flos": 22641050419200.0,
      "grad_norm": 1.9524590091309835,
      "language_loss": 0.70909548,
      "learning_rate": 8.163775611980252e-07,
      "loss": 0.73003113,
      "num_input_tokens_seen": 127017980,
      "step": 5909,
      "time_per_iteration": 3.4636754989624023
    },
    {
      "auxiliary_loss_clip": 0.01070061,
      "auxiliary_loss_mlp": 0.01019335,
      "balance_loss_clip": 1.03753984,
      "balance_loss_mlp": 1.0143435,
      "epoch": 0.7106354836770276,
      "flos": 17240521184640.0,
      "grad_norm": 1.7447488529285062,
      "language_loss": 0.79091877,
      "learning_rate": 8.157497401763982e-07,
      "loss": 0.8118127,
      "num_input_tokens_seen": 127035645,
      "step": 5910,
      "time_per_iteration": 2.5886223316192627
    },
    {
      "auxiliary_loss_clip": 0.01081117,
      "auxiliary_loss_mlp": 0.01020265,
      "balance_loss_clip": 1.03730595,
      "balance_loss_mlp": 1.01510572,
      "epoch": 0.7107557265676667,
      "flos": 20195722535040.0,
      "grad_norm": 1.765825636284145,
      "language_loss": 0.77800012,
      "learning_rate": 8.151220988045935e-07,
      "loss": 0.79901397,
      "num_input_tokens_seen": 127054900,
      "step": 5911,
      "time_per_iteration": 2.517886161804199
    },
    {
      "auxiliary_loss_clip": 0.01082673,
      "auxiliary_loss_mlp": 0.01016871,
      "balance_loss_clip": 1.03800631,
      "balance_loss_mlp": 1.01210523,
      "epoch": 0.7108759694583058,
      "flos": 21509225406720.0,
      "grad_norm": 1.6620351252776624,
      "language_loss": 0.82868809,
      "learning_rate": 8.144946371778234e-07,
      "loss": 0.84968352,
      "num_input_tokens_seen": 127075010,
      "step": 5912,
      "time_per_iteration": 2.5651373863220215
    },
    {
      "auxiliary_loss_clip": 0.01068007,
      "auxiliary_loss_mlp": 0.0075692,
      "balance_loss_clip": 1.03683186,
      "balance_loss_mlp": 1.00170243,
      "epoch": 0.7109962123489448,
      "flos": 24064242531840.0,
      "grad_norm": 1.8628056857863466,
      "language_loss": 0.78248632,
      "learning_rate": 8.138673553912751e-07,
      "loss": 0.80073559,
      "num_input_tokens_seen": 127095570,
      "step": 5913,
      "time_per_iteration": 2.58792781829834
    },
    {
      "auxiliary_loss_clip": 0.01046573,
      "auxiliary_loss_mlp": 0.01019537,
      "balance_loss_clip": 1.03575492,
      "balance_loss_mlp": 1.01429486,
      "epoch": 0.711116455239584,
      "flos": 30483001975680.0,
      "grad_norm": 9.231650652976814,
      "language_loss": 0.56883383,
      "learning_rate": 8.132402535401059e-07,
      "loss": 0.58949494,
      "num_input_tokens_seen": 127116825,
      "step": 5914,
      "time_per_iteration": 2.6951828002929688
    },
    {
      "auxiliary_loss_clip": 0.01079384,
      "auxiliary_loss_mlp": 0.01019564,
      "balance_loss_clip": 1.04106116,
      "balance_loss_mlp": 1.01423788,
      "epoch": 0.711236698130223,
      "flos": 25047919319040.0,
      "grad_norm": 1.797979421206169,
      "language_loss": 0.74615979,
      "learning_rate": 8.126133317194465e-07,
      "loss": 0.76714921,
      "num_input_tokens_seen": 127137015,
      "step": 5915,
      "time_per_iteration": 2.5911033153533936
    },
    {
      "auxiliary_loss_clip": 0.01034619,
      "auxiliary_loss_mlp": 0.01024767,
      "balance_loss_clip": 1.03734922,
      "balance_loss_mlp": 1.01932847,
      "epoch": 0.7113569410208621,
      "flos": 24208978129920.0,
      "grad_norm": 1.8659392009883347,
      "language_loss": 0.74317431,
      "learning_rate": 8.11986590024401e-07,
      "loss": 0.7637682,
      "num_input_tokens_seen": 127156755,
      "step": 5916,
      "time_per_iteration": 2.695059061050415
    },
    {
      "auxiliary_loss_clip": 0.01071524,
      "auxiliary_loss_mlp": 0.010223,
      "balance_loss_clip": 1.04207993,
      "balance_loss_mlp": 1.01661026,
      "epoch": 0.7114771839115013,
      "flos": 35441930390400.0,
      "grad_norm": 1.8641789266521835,
      "language_loss": 0.68833816,
      "learning_rate": 8.113600285500442e-07,
      "loss": 0.70927644,
      "num_input_tokens_seen": 127176965,
      "step": 5917,
      "time_per_iteration": 2.7039895057678223
    },
    {
      "auxiliary_loss_clip": 0.0109482,
      "auxiliary_loss_mlp": 0.01015949,
      "balance_loss_clip": 1.03802562,
      "balance_loss_mlp": 1.01092684,
      "epoch": 0.7115974268021403,
      "flos": 21101230056960.0,
      "grad_norm": 1.7209536405121266,
      "language_loss": 0.7449767,
      "learning_rate": 8.107336473914268e-07,
      "loss": 0.76608443,
      "num_input_tokens_seen": 127195595,
      "step": 5918,
      "time_per_iteration": 2.545900583267212
    },
    {
      "auxiliary_loss_clip": 0.01026893,
      "auxiliary_loss_mlp": 0.01002396,
      "balance_loss_clip": 1.02088726,
      "balance_loss_mlp": 1.00046492,
      "epoch": 0.7117176696927794,
      "flos": 56759040414720.0,
      "grad_norm": 0.7638623681173499,
      "language_loss": 0.55713809,
      "learning_rate": 8.101074466435694e-07,
      "loss": 0.57743096,
      "num_input_tokens_seen": 127255070,
      "step": 5919,
      "time_per_iteration": 3.092705011367798
    },
    {
      "auxiliary_loss_clip": 0.01085187,
      "auxiliary_loss_mlp": 0.01020566,
      "balance_loss_clip": 1.03841686,
      "balance_loss_mlp": 1.01563978,
      "epoch": 0.7118379125834186,
      "flos": 15927132067200.0,
      "grad_norm": 1.9412672938204008,
      "language_loss": 0.67858756,
      "learning_rate": 8.094814264014662e-07,
      "loss": 0.6996451,
      "num_input_tokens_seen": 127273825,
      "step": 5920,
      "time_per_iteration": 2.502368450164795
    },
    {
      "auxiliary_loss_clip": 0.01095243,
      "auxiliary_loss_mlp": 0.01021032,
      "balance_loss_clip": 1.03844082,
      "balance_loss_mlp": 1.01536632,
      "epoch": 0.7119581554740576,
      "flos": 20195419190400.0,
      "grad_norm": 3.9516933066229183,
      "language_loss": 0.80886042,
      "learning_rate": 8.088555867600844e-07,
      "loss": 0.83002311,
      "num_input_tokens_seen": 127289990,
      "step": 5921,
      "time_per_iteration": 2.5368258953094482
    },
    {
      "auxiliary_loss_clip": 0.01062161,
      "auxiliary_loss_mlp": 0.01017867,
      "balance_loss_clip": 1.03926694,
      "balance_loss_mlp": 1.01306295,
      "epoch": 0.7120783983646967,
      "flos": 34718290318080.0,
      "grad_norm": 1.6848496124560137,
      "language_loss": 0.60518843,
      "learning_rate": 8.08229927814362e-07,
      "loss": 0.62598872,
      "num_input_tokens_seen": 127312880,
      "step": 5922,
      "time_per_iteration": 2.714944839477539
    },
    {
      "auxiliary_loss_clip": 0.0105777,
      "auxiliary_loss_mlp": 0.01019126,
      "balance_loss_clip": 1.03536355,
      "balance_loss_mlp": 1.01415825,
      "epoch": 0.7121986412553358,
      "flos": 26361498026880.0,
      "grad_norm": 2.099623246393165,
      "language_loss": 0.65123588,
      "learning_rate": 8.076044496592134e-07,
      "loss": 0.67200482,
      "num_input_tokens_seen": 127334730,
      "step": 5923,
      "time_per_iteration": 2.7460711002349854
    },
    {
      "auxiliary_loss_clip": 0.01069184,
      "auxiliary_loss_mlp": 0.01021755,
      "balance_loss_clip": 1.0363493,
      "balance_loss_mlp": 1.01667023,
      "epoch": 0.7123188841459749,
      "flos": 11146923901440.0,
      "grad_norm": 2.985358581467021,
      "language_loss": 0.77807069,
      "learning_rate": 8.069791523895204e-07,
      "loss": 0.79898006,
      "num_input_tokens_seen": 127351180,
      "step": 5924,
      "time_per_iteration": 2.5229086875915527
    },
    {
      "auxiliary_loss_clip": 0.01060481,
      "auxiliary_loss_mlp": 0.01020698,
      "balance_loss_clip": 1.03615165,
      "balance_loss_mlp": 1.01554847,
      "epoch": 0.7124391270366139,
      "flos": 20813654764800.0,
      "grad_norm": 1.9030776452655966,
      "language_loss": 0.77310717,
      "learning_rate": 8.063540361001422e-07,
      "loss": 0.79391885,
      "num_input_tokens_seen": 127369750,
      "step": 5925,
      "time_per_iteration": 2.647073268890381
    },
    {
      "auxiliary_loss_clip": 0.01056976,
      "auxiliary_loss_mlp": 0.0101867,
      "balance_loss_clip": 1.03487992,
      "balance_loss_mlp": 1.01320767,
      "epoch": 0.7125593699272531,
      "flos": 17605696970880.0,
      "grad_norm": 2.391538078950991,
      "language_loss": 0.79271364,
      "learning_rate": 8.057291008859069e-07,
      "loss": 0.81347007,
      "num_input_tokens_seen": 127387910,
      "step": 5926,
      "time_per_iteration": 2.5763936042785645
    },
    {
      "auxiliary_loss_clip": 0.0108516,
      "auxiliary_loss_mlp": 0.01023531,
      "balance_loss_clip": 1.03903258,
      "balance_loss_mlp": 1.01827979,
      "epoch": 0.7126796128178922,
      "flos": 28656364682880.0,
      "grad_norm": 1.9597327876824238,
      "language_loss": 0.68231684,
      "learning_rate": 8.051043468416187e-07,
      "loss": 0.70340371,
      "num_input_tokens_seen": 127409160,
      "step": 5927,
      "time_per_iteration": 2.6405367851257324
    },
    {
      "auxiliary_loss_clip": 0.01095163,
      "auxiliary_loss_mlp": 0.0101993,
      "balance_loss_clip": 1.03954828,
      "balance_loss_mlp": 1.01479828,
      "epoch": 0.7127998557085312,
      "flos": 16036290455040.0,
      "grad_norm": 1.988582439422213,
      "language_loss": 0.82232344,
      "learning_rate": 8.044797740620506e-07,
      "loss": 0.84347439,
      "num_input_tokens_seen": 127427765,
      "step": 5928,
      "time_per_iteration": 3.2503979206085205
    },
    {
      "auxiliary_loss_clip": 0.01039848,
      "auxiliary_loss_mlp": 0.01020165,
      "balance_loss_clip": 1.03111506,
      "balance_loss_mlp": 1.01531637,
      "epoch": 0.7129200985991703,
      "flos": 23405462478720.0,
      "grad_norm": 3.962371893393149,
      "language_loss": 0.7869786,
      "learning_rate": 8.038553826419494e-07,
      "loss": 0.80757868,
      "num_input_tokens_seen": 127446475,
      "step": 5929,
      "time_per_iteration": 2.6463282108306885
    },
    {
      "auxiliary_loss_clip": 0.01093238,
      "auxiliary_loss_mlp": 0.0101678,
      "balance_loss_clip": 1.03695405,
      "balance_loss_mlp": 1.01172233,
      "epoch": 0.7130403414898094,
      "flos": 21399574083840.0,
      "grad_norm": 1.7179770672659918,
      "language_loss": 0.80914593,
      "learning_rate": 8.032311726760364e-07,
      "loss": 0.83024609,
      "num_input_tokens_seen": 127467695,
      "step": 5930,
      "time_per_iteration": 3.2952775955200195
    },
    {
      "auxiliary_loss_clip": 0.01057619,
      "auxiliary_loss_mlp": 0.01018276,
      "balance_loss_clip": 1.03673804,
      "balance_loss_mlp": 1.01229501,
      "epoch": 0.7131605843804485,
      "flos": 74744114636160.0,
      "grad_norm": 1.8976992135265807,
      "language_loss": 0.6911329,
      "learning_rate": 8.026071442590022e-07,
      "loss": 0.71189183,
      "num_input_tokens_seen": 127494590,
      "step": 5931,
      "time_per_iteration": 3.7479119300842285
    },
    {
      "auxiliary_loss_clip": 0.01082667,
      "auxiliary_loss_mlp": 0.01017534,
      "balance_loss_clip": 1.03918648,
      "balance_loss_mlp": 1.01251566,
      "epoch": 0.7132808272710875,
      "flos": 18370677801600.0,
      "grad_norm": 1.9280245968267695,
      "language_loss": 0.80480587,
      "learning_rate": 8.019832974855134e-07,
      "loss": 0.82580793,
      "num_input_tokens_seen": 127512550,
      "step": 5932,
      "time_per_iteration": 2.538464307785034
    },
    {
      "auxiliary_loss_clip": 0.01058511,
      "auxiliary_loss_mlp": 0.0102009,
      "balance_loss_clip": 1.03604674,
      "balance_loss_mlp": 1.01483583,
      "epoch": 0.7134010701617267,
      "flos": 23255342513280.0,
      "grad_norm": 4.04150479695154,
      "language_loss": 0.82183194,
      "learning_rate": 8.013596324502052e-07,
      "loss": 0.84261793,
      "num_input_tokens_seen": 127531015,
      "step": 5933,
      "time_per_iteration": 2.5948967933654785
    },
    {
      "auxiliary_loss_clip": 0.01080603,
      "auxiliary_loss_mlp": 0.01017154,
      "balance_loss_clip": 1.03917313,
      "balance_loss_mlp": 1.01237679,
      "epoch": 0.7135213130523658,
      "flos": 23655033803520.0,
      "grad_norm": 1.8848176879417406,
      "language_loss": 0.78582072,
      "learning_rate": 8.007361492476872e-07,
      "loss": 0.80679828,
      "num_input_tokens_seen": 127550340,
      "step": 5934,
      "time_per_iteration": 3.3606972694396973
    },
    {
      "auxiliary_loss_clip": 0.01060181,
      "auxiliary_loss_mlp": 0.01022714,
      "balance_loss_clip": 1.03425407,
      "balance_loss_mlp": 1.01740313,
      "epoch": 0.7136415559430048,
      "flos": 24792963626880.0,
      "grad_norm": 1.4469781267716557,
      "language_loss": 0.79098612,
      "learning_rate": 8.001128479725426e-07,
      "loss": 0.81181502,
      "num_input_tokens_seen": 127572245,
      "step": 5935,
      "time_per_iteration": 2.697103977203369
    },
    {
      "auxiliary_loss_clip": 0.01042655,
      "auxiliary_loss_mlp": 0.01016451,
      "balance_loss_clip": 1.03342319,
      "balance_loss_mlp": 1.01111007,
      "epoch": 0.713761798833644,
      "flos": 18298954609920.0,
      "grad_norm": 1.6692632528601108,
      "language_loss": 0.81197727,
      "learning_rate": 7.994897287193248e-07,
      "loss": 0.83256829,
      "num_input_tokens_seen": 127591625,
      "step": 5936,
      "time_per_iteration": 2.6124086380004883
    },
    {
      "auxiliary_loss_clip": 0.0108318,
      "auxiliary_loss_mlp": 0.01023105,
      "balance_loss_clip": 1.03697979,
      "balance_loss_mlp": 1.01765728,
      "epoch": 0.713882041724283,
      "flos": 15559984540800.0,
      "grad_norm": 2.4794568570740854,
      "language_loss": 0.83668649,
      "learning_rate": 7.988667915825605e-07,
      "loss": 0.8577494,
      "num_input_tokens_seen": 127608690,
      "step": 5937,
      "time_per_iteration": 2.5751330852508545
    },
    {
      "auxiliary_loss_clip": 0.01071517,
      "auxiliary_loss_mlp": 0.01019899,
      "balance_loss_clip": 1.03705943,
      "balance_loss_mlp": 1.0145793,
      "epoch": 0.7140022846149221,
      "flos": 24063294579840.0,
      "grad_norm": 2.494126204730082,
      "language_loss": 0.75678831,
      "learning_rate": 7.982440366567491e-07,
      "loss": 0.77770251,
      "num_input_tokens_seen": 127627180,
      "step": 5938,
      "time_per_iteration": 2.5621273517608643
    },
    {
      "auxiliary_loss_clip": 0.01085326,
      "auxiliary_loss_mlp": 0.01019455,
      "balance_loss_clip": 1.03831935,
      "balance_loss_mlp": 1.01438308,
      "epoch": 0.7141225275055613,
      "flos": 27894189790080.0,
      "grad_norm": 1.613188450866302,
      "language_loss": 0.75198025,
      "learning_rate": 7.97621464036361e-07,
      "loss": 0.77302808,
      "num_input_tokens_seen": 127648940,
      "step": 5939,
      "time_per_iteration": 2.609415054321289
    },
    {
      "auxiliary_loss_clip": 0.01083,
      "auxiliary_loss_mlp": 0.01019498,
      "balance_loss_clip": 1.03687322,
      "balance_loss_mlp": 1.01383245,
      "epoch": 0.7142427703962003,
      "flos": 19684635690240.0,
      "grad_norm": 1.9001237111947469,
      "language_loss": 0.67834771,
      "learning_rate": 7.969990738158417e-07,
      "loss": 0.69937265,
      "num_input_tokens_seen": 127667350,
      "step": 5940,
      "time_per_iteration": 2.511333465576172
    },
    {
      "auxiliary_loss_clip": 0.0108311,
      "auxiliary_loss_mlp": 0.01019763,
      "balance_loss_clip": 1.03867555,
      "balance_loss_mlp": 1.0147059,
      "epoch": 0.7143630132868394,
      "flos": 21034474133760.0,
      "grad_norm": 2.269543693351451,
      "language_loss": 0.85052812,
      "learning_rate": 7.963768660896062e-07,
      "loss": 0.87155688,
      "num_input_tokens_seen": 127685760,
      "step": 5941,
      "time_per_iteration": 2.5783801078796387
    },
    {
      "auxiliary_loss_clip": 0.01086128,
      "auxiliary_loss_mlp": 0.01020632,
      "balance_loss_clip": 1.04029393,
      "balance_loss_mlp": 1.01505589,
      "epoch": 0.7144832561774785,
      "flos": 24131984325120.0,
      "grad_norm": 3.7725940771300266,
      "language_loss": 0.82553387,
      "learning_rate": 7.957548409520432e-07,
      "loss": 0.84660149,
      "num_input_tokens_seen": 127704985,
      "step": 5942,
      "time_per_iteration": 2.526499032974243
    },
    {
      "auxiliary_loss_clip": 0.01057328,
      "auxiliary_loss_mlp": 0.01017097,
      "balance_loss_clip": 1.03528333,
      "balance_loss_mlp": 1.01209283,
      "epoch": 0.7146034990681176,
      "flos": 16327657555200.0,
      "grad_norm": 2.05291540173409,
      "language_loss": 0.84399033,
      "learning_rate": 7.951329984975135e-07,
      "loss": 0.86473459,
      "num_input_tokens_seen": 127721925,
      "step": 5943,
      "time_per_iteration": 2.6129939556121826
    },
    {
      "auxiliary_loss_clip": 0.01012081,
      "auxiliary_loss_mlp": 0.01001868,
      "balance_loss_clip": 1.0200069,
      "balance_loss_mlp": 0.99985296,
      "epoch": 0.7147237419587567,
      "flos": 69633766990080.0,
      "grad_norm": 0.7149308769372705,
      "language_loss": 0.54223228,
      "learning_rate": 7.94511338820349e-07,
      "loss": 0.56237173,
      "num_input_tokens_seen": 127784230,
      "step": 5944,
      "time_per_iteration": 3.182631731033325
    },
    {
      "auxiliary_loss_clip": 0.01068148,
      "auxiliary_loss_mlp": 0.00756806,
      "balance_loss_clip": 1.03501701,
      "balance_loss_mlp": 1.00157809,
      "epoch": 0.7148439848493958,
      "flos": 22268632279680.0,
      "grad_norm": 3.2751581376564007,
      "language_loss": 0.78271633,
      "learning_rate": 7.938898620148575e-07,
      "loss": 0.80096585,
      "num_input_tokens_seen": 127801990,
      "step": 5945,
      "time_per_iteration": 2.599522113800049
    },
    {
      "auxiliary_loss_clip": 0.01067115,
      "auxiliary_loss_mlp": 0.01019907,
      "balance_loss_clip": 1.03510499,
      "balance_loss_mlp": 1.01467335,
      "epoch": 0.7149642277400349,
      "flos": 17933323806720.0,
      "grad_norm": 1.9116295835130261,
      "language_loss": 0.71210217,
      "learning_rate": 7.932685681753135e-07,
      "loss": 0.73297238,
      "num_input_tokens_seen": 127819270,
      "step": 5946,
      "time_per_iteration": 2.516807794570923
    },
    {
      "auxiliary_loss_clip": 0.01095017,
      "auxiliary_loss_mlp": 0.0101696,
      "balance_loss_clip": 1.03966475,
      "balance_loss_mlp": 1.01194096,
      "epoch": 0.7150844706306739,
      "flos": 31684388849280.0,
      "grad_norm": 2.0140261496216785,
      "language_loss": 0.62519813,
      "learning_rate": 7.92647457395969e-07,
      "loss": 0.64631784,
      "num_input_tokens_seen": 127841095,
      "step": 5947,
      "time_per_iteration": 2.5969808101654053
    },
    {
      "auxiliary_loss_clip": 0.01043494,
      "auxiliary_loss_mlp": 0.01020712,
      "balance_loss_clip": 1.03534031,
      "balance_loss_mlp": 1.01513314,
      "epoch": 0.7152047135213131,
      "flos": 10927772928000.0,
      "grad_norm": 2.2686205477795114,
      "language_loss": 0.74135518,
      "learning_rate": 7.920265297710444e-07,
      "loss": 0.76199728,
      "num_input_tokens_seen": 127858485,
      "step": 5948,
      "time_per_iteration": 2.664450168609619
    },
    {
      "auxiliary_loss_clip": 0.01084035,
      "auxiliary_loss_mlp": 0.01023949,
      "balance_loss_clip": 1.0386312,
      "balance_loss_mlp": 1.01871574,
      "epoch": 0.7153249564119522,
      "flos": 20997721463040.0,
      "grad_norm": 2.7049060505703224,
      "language_loss": 0.73636448,
      "learning_rate": 7.914057853947363e-07,
      "loss": 0.75744438,
      "num_input_tokens_seen": 127877665,
      "step": 5949,
      "time_per_iteration": 2.574350118637085
    },
    {
      "auxiliary_loss_clip": 0.01059294,
      "auxiliary_loss_mlp": 0.01023868,
      "balance_loss_clip": 1.03831971,
      "balance_loss_mlp": 1.018682,
      "epoch": 0.7154451993025912,
      "flos": 24245389537920.0,
      "grad_norm": 2.4183457960720167,
      "language_loss": 0.62537915,
      "learning_rate": 7.907852243612089e-07,
      "loss": 0.64621079,
      "num_input_tokens_seen": 127898070,
      "step": 5950,
      "time_per_iteration": 2.7040181159973145
    },
    {
      "auxiliary_loss_clip": 0.01071056,
      "auxiliary_loss_mlp": 0.01017602,
      "balance_loss_clip": 1.03675652,
      "balance_loss_mlp": 1.01248527,
      "epoch": 0.7155654421932304,
      "flos": 23333170515840.0,
      "grad_norm": 1.8971481634869765,
      "language_loss": 0.72444284,
      "learning_rate": 7.901648467646009e-07,
      "loss": 0.74532938,
      "num_input_tokens_seen": 127917010,
      "step": 5951,
      "time_per_iteration": 2.5905871391296387
    },
    {
      "auxiliary_loss_clip": 0.01096475,
      "auxiliary_loss_mlp": 0.01020965,
      "balance_loss_clip": 1.04020786,
      "balance_loss_mlp": 1.01567459,
      "epoch": 0.7156856850838694,
      "flos": 22714138661760.0,
      "grad_norm": 1.60402975355333,
      "language_loss": 0.72506911,
      "learning_rate": 7.895446526990244e-07,
      "loss": 0.74624348,
      "num_input_tokens_seen": 127937025,
      "step": 5952,
      "time_per_iteration": 2.6180002689361572
    },
    {
      "auxiliary_loss_clip": 0.01050308,
      "auxiliary_loss_mlp": 0.010205,
      "balance_loss_clip": 1.03582585,
      "balance_loss_mlp": 1.01523399,
      "epoch": 0.7158059279745085,
      "flos": 19867489009920.0,
      "grad_norm": 1.6891982670805072,
      "language_loss": 0.75682092,
      "learning_rate": 7.889246422585609e-07,
      "loss": 0.77752906,
      "num_input_tokens_seen": 127956410,
      "step": 5953,
      "time_per_iteration": 2.61407732963562
    },
    {
      "auxiliary_loss_clip": 0.01096292,
      "auxiliary_loss_mlp": 0.01019497,
      "balance_loss_clip": 1.04011726,
      "balance_loss_mlp": 1.01460683,
      "epoch": 0.7159261708651476,
      "flos": 24137103265920.0,
      "grad_norm": 2.1723773563274005,
      "language_loss": 0.73764479,
      "learning_rate": 7.883048155372675e-07,
      "loss": 0.75880271,
      "num_input_tokens_seen": 127974925,
      "step": 5954,
      "time_per_iteration": 3.3686115741729736
    },
    {
      "auxiliary_loss_clip": 0.01073097,
      "auxiliary_loss_mlp": 0.01021152,
      "balance_loss_clip": 1.03713536,
      "balance_loss_mlp": 1.01593649,
      "epoch": 0.7160464137557867,
      "flos": 16985110475520.0,
      "grad_norm": 2.8140658821709033,
      "language_loss": 0.71937531,
      "learning_rate": 7.876851726291698e-07,
      "loss": 0.74031782,
      "num_input_tokens_seen": 127993225,
      "step": 5955,
      "time_per_iteration": 2.5634868144989014
    },
    {
      "auxiliary_loss_clip": 0.0106241,
      "auxiliary_loss_mlp": 0.01019704,
      "balance_loss_clip": 1.03701854,
      "balance_loss_mlp": 1.01476586,
      "epoch": 0.7161666566464258,
      "flos": 25230583048320.0,
      "grad_norm": 1.9647402933237985,
      "language_loss": 0.78778398,
      "learning_rate": 7.870657136282666e-07,
      "loss": 0.80860513,
      "num_input_tokens_seen": 128012085,
      "step": 5956,
      "time_per_iteration": 4.121799945831299
    },
    {
      "auxiliary_loss_clip": 0.01086053,
      "auxiliary_loss_mlp": 0.01020855,
      "balance_loss_clip": 1.03935313,
      "balance_loss_mlp": 1.01570225,
      "epoch": 0.7162868995370649,
      "flos": 26470770168960.0,
      "grad_norm": 1.7460338773938933,
      "language_loss": 0.82001638,
      "learning_rate": 7.86446438628531e-07,
      "loss": 0.84108543,
      "num_input_tokens_seen": 128033155,
      "step": 5957,
      "time_per_iteration": 2.612689256668091
    },
    {
      "auxiliary_loss_clip": 0.01046188,
      "auxiliary_loss_mlp": 0.0100212,
      "balance_loss_clip": 1.02019966,
      "balance_loss_mlp": 1.00012898,
      "epoch": 0.716407142427704,
      "flos": 70005919703040.0,
      "grad_norm": 0.7750122449832137,
      "language_loss": 0.56872177,
      "learning_rate": 7.858273477239059e-07,
      "loss": 0.58920491,
      "num_input_tokens_seen": 128101575,
      "step": 5958,
      "time_per_iteration": 3.1551618576049805
    },
    {
      "auxiliary_loss_clip": 0.01042169,
      "auxiliary_loss_mlp": 0.01019761,
      "balance_loss_clip": 1.03347087,
      "balance_loss_mlp": 1.01428354,
      "epoch": 0.716527385318343,
      "flos": 20742538262400.0,
      "grad_norm": 3.171405333324697,
      "language_loss": 0.71568441,
      "learning_rate": 7.852084410083067e-07,
      "loss": 0.73630369,
      "num_input_tokens_seen": 128120395,
      "step": 5959,
      "time_per_iteration": 2.7032763957977295
    },
    {
      "auxiliary_loss_clip": 0.01067052,
      "auxiliary_loss_mlp": 0.0101803,
      "balance_loss_clip": 1.03536665,
      "balance_loss_mlp": 1.01324344,
      "epoch": 0.7166476282089821,
      "flos": 25374181104000.0,
      "grad_norm": 2.07351466963021,
      "language_loss": 0.63906729,
      "learning_rate": 7.84589718575621e-07,
      "loss": 0.65991813,
      "num_input_tokens_seen": 128140840,
      "step": 5960,
      "time_per_iteration": 3.356813430786133
    },
    {
      "auxiliary_loss_clip": 0.01073946,
      "auxiliary_loss_mlp": 0.01019599,
      "balance_loss_clip": 1.03595662,
      "balance_loss_mlp": 1.01418138,
      "epoch": 0.7167678710996213,
      "flos": 24136003641600.0,
      "grad_norm": 7.116415217450658,
      "language_loss": 0.69136536,
      "learning_rate": 7.83971180519708e-07,
      "loss": 0.7123009,
      "num_input_tokens_seen": 128159695,
      "step": 5961,
      "time_per_iteration": 2.6103577613830566
    },
    {
      "auxiliary_loss_clip": 0.01098275,
      "auxiliary_loss_mlp": 0.01015764,
      "balance_loss_clip": 1.0414499,
      "balance_loss_mlp": 1.01012588,
      "epoch": 0.7168881139902603,
      "flos": 30229183825920.0,
      "grad_norm": 2.385081980869075,
      "language_loss": 0.75804615,
      "learning_rate": 7.833528269344008e-07,
      "loss": 0.77918661,
      "num_input_tokens_seen": 128179600,
      "step": 5962,
      "time_per_iteration": 2.6277709007263184
    },
    {
      "auxiliary_loss_clip": 0.01060051,
      "auxiliary_loss_mlp": 0.01021259,
      "balance_loss_clip": 1.04044461,
      "balance_loss_mlp": 1.01557243,
      "epoch": 0.7170083568808994,
      "flos": 14607903565440.0,
      "grad_norm": 2.2300903110487633,
      "language_loss": 0.77957058,
      "learning_rate": 7.827346579135023e-07,
      "loss": 0.80038369,
      "num_input_tokens_seen": 128196940,
      "step": 5963,
      "time_per_iteration": 2.6075963973999023
    },
    {
      "auxiliary_loss_clip": 0.0106967,
      "auxiliary_loss_mlp": 0.01019234,
      "balance_loss_clip": 1.03696024,
      "balance_loss_mlp": 1.01391757,
      "epoch": 0.7171285997715385,
      "flos": 23333322188160.0,
      "grad_norm": 1.9705671867942482,
      "language_loss": 0.82950968,
      "learning_rate": 7.821166735507885e-07,
      "loss": 0.85039878,
      "num_input_tokens_seen": 128215970,
      "step": 5964,
      "time_per_iteration": 2.6469948291778564
    },
    {
      "auxiliary_loss_clip": 0.01095802,
      "auxiliary_loss_mlp": 0.01017813,
      "balance_loss_clip": 1.03958976,
      "balance_loss_mlp": 1.01271653,
      "epoch": 0.7172488426621776,
      "flos": 16545329723520.0,
      "grad_norm": 2.2996063671763842,
      "language_loss": 0.68435669,
      "learning_rate": 7.81498873940007e-07,
      "loss": 0.70549285,
      "num_input_tokens_seen": 128233185,
      "step": 5965,
      "time_per_iteration": 2.4587628841400146
    },
    {
      "auxiliary_loss_clip": 0.01085978,
      "auxiliary_loss_mlp": 0.01016184,
      "balance_loss_clip": 1.03751087,
      "balance_loss_mlp": 1.01069427,
      "epoch": 0.7173690855528166,
      "flos": 26544010083840.0,
      "grad_norm": 2.855307965035378,
      "language_loss": 0.77774811,
      "learning_rate": 7.808812591748768e-07,
      "loss": 0.79876977,
      "num_input_tokens_seen": 128253565,
      "step": 5966,
      "time_per_iteration": 2.6169819831848145
    },
    {
      "auxiliary_loss_clip": 0.01058063,
      "auxiliary_loss_mlp": 0.01016106,
      "balance_loss_clip": 1.03598404,
      "balance_loss_mlp": 1.01094413,
      "epoch": 0.7174893284434558,
      "flos": 22786316870400.0,
      "grad_norm": 2.554749111810832,
      "language_loss": 0.64828593,
      "learning_rate": 7.802638293490915e-07,
      "loss": 0.66902757,
      "num_input_tokens_seen": 128273210,
      "step": 5967,
      "time_per_iteration": 2.603285551071167
    },
    {
      "auxiliary_loss_clip": 0.01076212,
      "auxiliary_loss_mlp": 0.01020253,
      "balance_loss_clip": 1.0401448,
      "balance_loss_mlp": 1.01534462,
      "epoch": 0.7176095713340949,
      "flos": 23295735319680.0,
      "grad_norm": 2.708945100944166,
      "language_loss": 0.77244806,
      "learning_rate": 7.796465845563123e-07,
      "loss": 0.79341269,
      "num_input_tokens_seen": 128292085,
      "step": 5968,
      "time_per_iteration": 2.6479458808898926
    },
    {
      "auxiliary_loss_clip": 0.01065393,
      "auxiliary_loss_mlp": 0.00756777,
      "balance_loss_clip": 1.03584683,
      "balance_loss_mlp": 1.00166321,
      "epoch": 0.7177298142247339,
      "flos": 25593900848640.0,
      "grad_norm": 2.5167305804841367,
      "language_loss": 0.79467922,
      "learning_rate": 7.790295248901766e-07,
      "loss": 0.8129009,
      "num_input_tokens_seen": 128313215,
      "step": 5969,
      "time_per_iteration": 2.6151888370513916
    },
    {
      "auxiliary_loss_clip": 0.01086735,
      "auxiliary_loss_mlp": 0.01018669,
      "balance_loss_clip": 1.04082632,
      "balance_loss_mlp": 1.01328421,
      "epoch": 0.7178500571153731,
      "flos": 31655636893440.0,
      "grad_norm": 2.370559737184435,
      "language_loss": 0.62159538,
      "learning_rate": 7.784126504442902e-07,
      "loss": 0.64264941,
      "num_input_tokens_seen": 128336445,
      "step": 5970,
      "time_per_iteration": 2.7175979614257812
    },
    {
      "auxiliary_loss_clip": 0.01058154,
      "auxiliary_loss_mlp": 0.01016414,
      "balance_loss_clip": 1.03731036,
      "balance_loss_mlp": 1.01107383,
      "epoch": 0.7179703000060121,
      "flos": 19429262899200.0,
      "grad_norm": 1.4855792636083776,
      "language_loss": 0.67461073,
      "learning_rate": 7.777959613122351e-07,
      "loss": 0.69535643,
      "num_input_tokens_seen": 128356270,
      "step": 5971,
      "time_per_iteration": 2.5992064476013184
    },
    {
      "auxiliary_loss_clip": 0.01059525,
      "auxiliary_loss_mlp": 0.01021067,
      "balance_loss_clip": 1.03416228,
      "balance_loss_mlp": 1.01595926,
      "epoch": 0.7180905428966512,
      "flos": 28841720595840.0,
      "grad_norm": 1.595653181377096,
      "language_loss": 0.77786219,
      "learning_rate": 7.771794575875604e-07,
      "loss": 0.79866809,
      "num_input_tokens_seen": 128378140,
      "step": 5972,
      "time_per_iteration": 2.6897695064544678
    },
    {
      "auxiliary_loss_clip": 0.01080968,
      "auxiliary_loss_mlp": 0.01022911,
      "balance_loss_clip": 1.04162371,
      "balance_loss_mlp": 1.01731431,
      "epoch": 0.7182107857872904,
      "flos": 20049621886080.0,
      "grad_norm": 2.3398520701835372,
      "language_loss": 0.77723336,
      "learning_rate": 7.765631393637888e-07,
      "loss": 0.79827213,
      "num_input_tokens_seen": 128396335,
      "step": 5973,
      "time_per_iteration": 2.5776987075805664
    },
    {
      "auxiliary_loss_clip": 0.01084995,
      "auxiliary_loss_mlp": 0.01019456,
      "balance_loss_clip": 1.03777337,
      "balance_loss_mlp": 1.01387668,
      "epoch": 0.7183310286779294,
      "flos": 22749905462400.0,
      "grad_norm": 3.526489088511613,
      "language_loss": 0.48611712,
      "learning_rate": 7.75947006734417e-07,
      "loss": 0.50716168,
      "num_input_tokens_seen": 128414115,
      "step": 5974,
      "time_per_iteration": 2.588975667953491
    },
    {
      "auxiliary_loss_clip": 0.01096559,
      "auxiliary_loss_mlp": 0.01018995,
      "balance_loss_clip": 1.03897393,
      "balance_loss_mlp": 1.01396143,
      "epoch": 0.7184512715685685,
      "flos": 17159773489920.0,
      "grad_norm": 4.752447718209228,
      "language_loss": 0.8287226,
      "learning_rate": 7.753310597929101e-07,
      "loss": 0.84987807,
      "num_input_tokens_seen": 128430755,
      "step": 5975,
      "time_per_iteration": 2.4572370052337646
    },
    {
      "auxiliary_loss_clip": 0.01047916,
      "auxiliary_loss_mlp": 0.01002029,
      "balance_loss_clip": 1.02202916,
      "balance_loss_mlp": 0.99997866,
      "epoch": 0.7185715144592076,
      "flos": 65516282357760.0,
      "grad_norm": 0.7574830848033957,
      "language_loss": 0.55235964,
      "learning_rate": 7.747152986327095e-07,
      "loss": 0.57285905,
      "num_input_tokens_seen": 128491300,
      "step": 5976,
      "time_per_iteration": 3.0254476070404053
    },
    {
      "auxiliary_loss_clip": 0.01042847,
      "auxiliary_loss_mlp": 0.0102277,
      "balance_loss_clip": 1.03377497,
      "balance_loss_mlp": 1.01774216,
      "epoch": 0.7186917573498467,
      "flos": 16182391104000.0,
      "grad_norm": 2.6183916328156163,
      "language_loss": 0.6797744,
      "learning_rate": 7.740997233472228e-07,
      "loss": 0.70043063,
      "num_input_tokens_seen": 128508920,
      "step": 5977,
      "time_per_iteration": 2.6117429733276367
    },
    {
      "auxiliary_loss_clip": 0.01070204,
      "auxiliary_loss_mlp": 0.01015911,
      "balance_loss_clip": 1.03610396,
      "balance_loss_mlp": 1.0111928,
      "epoch": 0.7188120002404857,
      "flos": 29244862431360.0,
      "grad_norm": 3.7831017904256146,
      "language_loss": 0.70542902,
      "learning_rate": 7.734843340298329e-07,
      "loss": 0.72629017,
      "num_input_tokens_seen": 128528745,
      "step": 5978,
      "time_per_iteration": 2.6490578651428223
    },
    {
      "auxiliary_loss_clip": 0.01072052,
      "auxiliary_loss_mlp": 0.0102431,
      "balance_loss_clip": 1.0363493,
      "balance_loss_mlp": 1.01871574,
      "epoch": 0.7189322431311249,
      "flos": 33403953248640.0,
      "grad_norm": 2.0094693436156428,
      "language_loss": 0.75224668,
      "learning_rate": 7.72869130773895e-07,
      "loss": 0.77321029,
      "num_input_tokens_seen": 128549345,
      "step": 5979,
      "time_per_iteration": 2.683276891708374
    },
    {
      "auxiliary_loss_clip": 0.01037369,
      "auxiliary_loss_mlp": 0.0100254,
      "balance_loss_clip": 1.02096796,
      "balance_loss_mlp": 1.00040627,
      "epoch": 0.719052486021764,
      "flos": 61357760311680.0,
      "grad_norm": 0.7920120390833543,
      "language_loss": 0.59328389,
      "learning_rate": 7.722541136727343e-07,
      "loss": 0.61368299,
      "num_input_tokens_seen": 128605360,
      "step": 5980,
      "time_per_iteration": 3.7977168560028076
    },
    {
      "auxiliary_loss_clip": 0.01083282,
      "auxiliary_loss_mlp": 0.01016215,
      "balance_loss_clip": 1.0386411,
      "balance_loss_mlp": 1.01104689,
      "epoch": 0.719172728912403,
      "flos": 15598633115520.0,
      "grad_norm": 2.1920663746632787,
      "language_loss": 0.80853915,
      "learning_rate": 7.716392828196483e-07,
      "loss": 0.82953411,
      "num_input_tokens_seen": 128623160,
      "step": 5981,
      "time_per_iteration": 3.29705810546875
    },
    {
      "auxiliary_loss_clip": 0.01082872,
      "auxiliary_loss_mlp": 0.0102282,
      "balance_loss_clip": 1.03862548,
      "balance_loss_mlp": 1.01778913,
      "epoch": 0.7192929718030422,
      "flos": 15554600173440.0,
      "grad_norm": 2.305258129062995,
      "language_loss": 0.77117985,
      "learning_rate": 7.710246383079064e-07,
      "loss": 0.7922368,
      "num_input_tokens_seen": 128638545,
      "step": 5982,
      "time_per_iteration": 2.482395887374878
    },
    {
      "auxiliary_loss_clip": 0.01074777,
      "auxiliary_loss_mlp": 0.01019441,
      "balance_loss_clip": 1.03719544,
      "balance_loss_mlp": 1.01415086,
      "epoch": 0.7194132146936812,
      "flos": 21864125393280.0,
      "grad_norm": 2.741854942327786,
      "language_loss": 0.91577899,
      "learning_rate": 7.704101802307492e-07,
      "loss": 0.93672121,
      "num_input_tokens_seen": 128650845,
      "step": 5983,
      "time_per_iteration": 3.284641742706299
    },
    {
      "auxiliary_loss_clip": 0.01062518,
      "auxiliary_loss_mlp": 0.01025541,
      "balance_loss_clip": 1.03958035,
      "balance_loss_mlp": 1.01986361,
      "epoch": 0.7195334575843203,
      "flos": 27341041743360.0,
      "grad_norm": 2.2952463616467234,
      "language_loss": 0.87036288,
      "learning_rate": 7.697959086813912e-07,
      "loss": 0.89124346,
      "num_input_tokens_seen": 128667010,
      "step": 5984,
      "time_per_iteration": 2.7291171550750732
    },
    {
      "auxiliary_loss_clip": 0.01061776,
      "auxiliary_loss_mlp": 0.01022476,
      "balance_loss_clip": 1.03709877,
      "balance_loss_mlp": 1.01737356,
      "epoch": 0.7196537004749595,
      "flos": 18772606258560.0,
      "grad_norm": 4.339423270110724,
      "language_loss": 0.80477273,
      "learning_rate": 7.691818237530145e-07,
      "loss": 0.82561529,
      "num_input_tokens_seen": 128685870,
      "step": 5985,
      "time_per_iteration": 2.611072063446045
    },
    {
      "auxiliary_loss_clip": 0.01053755,
      "auxiliary_loss_mlp": 0.01020414,
      "balance_loss_clip": 1.03698492,
      "balance_loss_mlp": 1.01544571,
      "epoch": 0.7197739433655985,
      "flos": 24533078584320.0,
      "grad_norm": 3.1859691986238636,
      "language_loss": 0.77390426,
      "learning_rate": 7.685679255387774e-07,
      "loss": 0.79464591,
      "num_input_tokens_seen": 128704185,
      "step": 5986,
      "time_per_iteration": 3.490934371948242
    },
    {
      "auxiliary_loss_clip": 0.01067234,
      "auxiliary_loss_mlp": 0.01023665,
      "balance_loss_clip": 1.03604817,
      "balance_loss_mlp": 1.0184021,
      "epoch": 0.7198941862562376,
      "flos": 18042520112640.0,
      "grad_norm": 8.171722941454124,
      "language_loss": 0.77144337,
      "learning_rate": 7.679542141318065e-07,
      "loss": 0.79235232,
      "num_input_tokens_seen": 128721290,
      "step": 5987,
      "time_per_iteration": 2.5533056259155273
    },
    {
      "auxiliary_loss_clip": 0.01076812,
      "auxiliary_loss_mlp": 0.01019121,
      "balance_loss_clip": 1.0386343,
      "balance_loss_mlp": 1.0138638,
      "epoch": 0.7200144291468767,
      "flos": 29024915178240.0,
      "grad_norm": 1.7259929094372748,
      "language_loss": 0.75735271,
      "learning_rate": 7.673406896252013e-07,
      "loss": 0.77831209,
      "num_input_tokens_seen": 128742665,
      "step": 5988,
      "time_per_iteration": 2.647106409072876
    },
    {
      "auxiliary_loss_clip": 0.01062088,
      "auxiliary_loss_mlp": 0.01024168,
      "balance_loss_clip": 1.03649724,
      "balance_loss_mlp": 1.01849365,
      "epoch": 0.7201346720375158,
      "flos": 25376607861120.0,
      "grad_norm": 1.917817330898594,
      "language_loss": 0.78496724,
      "learning_rate": 7.667273521120347e-07,
      "loss": 0.80582976,
      "num_input_tokens_seen": 128762225,
      "step": 5989,
      "time_per_iteration": 2.622974395751953
    },
    {
      "auxiliary_loss_clip": 0.01059343,
      "auxiliary_loss_mlp": 0.01020709,
      "balance_loss_clip": 1.03579021,
      "balance_loss_mlp": 1.0155412,
      "epoch": 0.7202549149281549,
      "flos": 14357346370560.0,
      "grad_norm": 2.00390195376945,
      "language_loss": 0.79773229,
      "learning_rate": 7.661142016853468e-07,
      "loss": 0.81853282,
      "num_input_tokens_seen": 128779585,
      "step": 5990,
      "time_per_iteration": 2.614225387573242
    },
    {
      "auxiliary_loss_clip": 0.01046982,
      "auxiliary_loss_mlp": 0.01021401,
      "balance_loss_clip": 1.03403497,
      "balance_loss_mlp": 1.01651311,
      "epoch": 0.7203751578187939,
      "flos": 23003837366400.0,
      "grad_norm": 2.1186521557370828,
      "language_loss": 0.74938625,
      "learning_rate": 7.655012384381543e-07,
      "loss": 0.77007008,
      "num_input_tokens_seen": 128799070,
      "step": 5991,
      "time_per_iteration": 2.6534829139709473
    },
    {
      "auxiliary_loss_clip": 0.01061962,
      "auxiliary_loss_mlp": 0.01022551,
      "balance_loss_clip": 1.03286743,
      "balance_loss_mlp": 1.01712656,
      "epoch": 0.7204954007094331,
      "flos": 23694478657920.0,
      "grad_norm": 2.007689335911887,
      "language_loss": 0.81564415,
      "learning_rate": 7.648884624634415e-07,
      "loss": 0.83648926,
      "num_input_tokens_seen": 128817620,
      "step": 5992,
      "time_per_iteration": 2.6407055854797363
    },
    {
      "auxiliary_loss_clip": 0.01081837,
      "auxiliary_loss_mlp": 0.01022281,
      "balance_loss_clip": 1.03851092,
      "balance_loss_mlp": 1.01704502,
      "epoch": 0.7206156436000721,
      "flos": 16254872657280.0,
      "grad_norm": 1.9634883563493921,
      "language_loss": 0.88930863,
      "learning_rate": 7.642758738541683e-07,
      "loss": 0.91034985,
      "num_input_tokens_seen": 128834200,
      "step": 5993,
      "time_per_iteration": 2.4915783405303955
    },
    {
      "auxiliary_loss_clip": 0.01035464,
      "auxiliary_loss_mlp": 0.01003164,
      "balance_loss_clip": 1.01940334,
      "balance_loss_mlp": 1.00123262,
      "epoch": 0.7207358864907112,
      "flos": 54383653572480.0,
      "grad_norm": 0.757527525542114,
      "language_loss": 0.60716283,
      "learning_rate": 7.636634727032621e-07,
      "loss": 0.62754917,
      "num_input_tokens_seen": 128891305,
      "step": 5994,
      "time_per_iteration": 3.01037335395813
    },
    {
      "auxiliary_loss_clip": 0.01064113,
      "auxiliary_loss_mlp": 0.01020532,
      "balance_loss_clip": 1.03600872,
      "balance_loss_mlp": 1.01494408,
      "epoch": 0.7208561293813504,
      "flos": 19137554536320.0,
      "grad_norm": 2.1248852221107626,
      "language_loss": 0.79111838,
      "learning_rate": 7.630512591036231e-07,
      "loss": 0.81196481,
      "num_input_tokens_seen": 128910615,
      "step": 5995,
      "time_per_iteration": 2.613964557647705
    },
    {
      "auxiliary_loss_clip": 0.01083123,
      "auxiliary_loss_mlp": 0.01021581,
      "balance_loss_clip": 1.03824699,
      "balance_loss_mlp": 1.01647305,
      "epoch": 0.7209763722719894,
      "flos": 17750432568960.0,
      "grad_norm": 3.442697676411928,
      "language_loss": 0.6485424,
      "learning_rate": 7.624392331481255e-07,
      "loss": 0.6695894,
      "num_input_tokens_seen": 128928270,
      "step": 5996,
      "time_per_iteration": 2.47786808013916
    },
    {
      "auxiliary_loss_clip": 0.01035353,
      "auxiliary_loss_mlp": 0.0100211,
      "balance_loss_clip": 1.01917779,
      "balance_loss_mlp": 1.00016654,
      "epoch": 0.7210966151626285,
      "flos": 66826031339520.0,
      "grad_norm": 0.7434670799522933,
      "language_loss": 0.51759368,
      "learning_rate": 7.618273949296115e-07,
      "loss": 0.53796834,
      "num_input_tokens_seen": 128987780,
      "step": 5997,
      "time_per_iteration": 3.047106981277466
    },
    {
      "auxiliary_loss_clip": 0.01071527,
      "auxiliary_loss_mlp": 0.01020132,
      "balance_loss_clip": 1.03681374,
      "balance_loss_mlp": 1.01465774,
      "epoch": 0.7212168580532676,
      "flos": 21143973784320.0,
      "grad_norm": 1.922039739926309,
      "language_loss": 0.68773735,
      "learning_rate": 7.612157445408987e-07,
      "loss": 0.70865393,
      "num_input_tokens_seen": 129005590,
      "step": 5998,
      "time_per_iteration": 2.558063507080078
    },
    {
      "auxiliary_loss_clip": 0.01070036,
      "auxiliary_loss_mlp": 0.01020961,
      "balance_loss_clip": 1.04077041,
      "balance_loss_mlp": 1.01513171,
      "epoch": 0.7213371009439067,
      "flos": 22347901169280.0,
      "grad_norm": 2.18047944809366,
      "language_loss": 0.74153697,
      "learning_rate": 7.606042820747716e-07,
      "loss": 0.76244688,
      "num_input_tokens_seen": 129021995,
      "step": 5999,
      "time_per_iteration": 2.6084883213043213
    },
    {
      "auxiliary_loss_clip": 0.01073122,
      "auxiliary_loss_mlp": 0.01019084,
      "balance_loss_clip": 1.0385797,
      "balance_loss_mlp": 1.01407409,
      "epoch": 0.7214573438345457,
      "flos": 18517915992960.0,
      "grad_norm": 2.7109657550621935,
      "language_loss": 0.85234809,
      "learning_rate": 7.599930076239889e-07,
      "loss": 0.87327015,
      "num_input_tokens_seen": 129039280,
      "step": 6000,
      "time_per_iteration": 2.518864631652832
    },
    {
      "auxiliary_loss_clip": 0.01039663,
      "auxiliary_loss_mlp": 0.00756528,
      "balance_loss_clip": 1.02981281,
      "balance_loss_mlp": 1.00160944,
      "epoch": 0.7215775867251849,
      "flos": 35739023120640.0,
      "grad_norm": 1.8634614484422332,
      "language_loss": 0.70359331,
      "learning_rate": 7.593819212812818e-07,
      "loss": 0.72155523,
      "num_input_tokens_seen": 129060860,
      "step": 6001,
      "time_per_iteration": 2.77272891998291
    },
    {
      "auxiliary_loss_clip": 0.01082204,
      "auxiliary_loss_mlp": 0.01019188,
      "balance_loss_clip": 1.03782678,
      "balance_loss_mlp": 1.01402664,
      "epoch": 0.721697829615824,
      "flos": 20374291111680.0,
      "grad_norm": 2.1214160620315927,
      "language_loss": 0.71871626,
      "learning_rate": 7.587710231393508e-07,
      "loss": 0.73973024,
      "num_input_tokens_seen": 129079215,
      "step": 6002,
      "time_per_iteration": 2.50058913230896
    },
    {
      "auxiliary_loss_clip": 0.01021622,
      "auxiliary_loss_mlp": 0.01018563,
      "balance_loss_clip": 1.03298569,
      "balance_loss_mlp": 1.01344848,
      "epoch": 0.721818072506463,
      "flos": 20231868516480.0,
      "grad_norm": 2.405435054090132,
      "language_loss": 0.83617055,
      "learning_rate": 7.581603132908685e-07,
      "loss": 0.85657239,
      "num_input_tokens_seen": 129097185,
      "step": 6003,
      "time_per_iteration": 2.7026290893554688
    },
    {
      "auxiliary_loss_clip": 0.01061502,
      "auxiliary_loss_mlp": 0.01019892,
      "balance_loss_clip": 1.0368762,
      "balance_loss_mlp": 1.01446176,
      "epoch": 0.7219383153971022,
      "flos": 18188848270080.0,
      "grad_norm": 1.8950205335378012,
      "language_loss": 0.78395665,
      "learning_rate": 7.575497918284795e-07,
      "loss": 0.80477059,
      "num_input_tokens_seen": 129114730,
      "step": 6004,
      "time_per_iteration": 2.576524019241333
    },
    {
      "auxiliary_loss_clip": 0.01095593,
      "auxiliary_loss_mlp": 0.01024684,
      "balance_loss_clip": 1.03816199,
      "balance_loss_mlp": 1.01935816,
      "epoch": 0.7220585582877412,
      "flos": 17343726433920.0,
      "grad_norm": 2.270796449583161,
      "language_loss": 0.74793005,
      "learning_rate": 7.569394588447984e-07,
      "loss": 0.76913285,
      "num_input_tokens_seen": 129131745,
      "step": 6005,
      "time_per_iteration": 3.2830116748809814
    },
    {
      "auxiliary_loss_clip": 0.01083679,
      "auxiliary_loss_mlp": 0.01021313,
      "balance_loss_clip": 1.03677535,
      "balance_loss_mlp": 1.01625001,
      "epoch": 0.7221788011783803,
      "flos": 16977868122240.0,
      "grad_norm": 2.5851115432471237,
      "language_loss": 0.78367895,
      "learning_rate": 7.563293144324146e-07,
      "loss": 0.80472887,
      "num_input_tokens_seen": 129147295,
      "step": 6006,
      "time_per_iteration": 2.5160515308380127
    },
    {
      "auxiliary_loss_clip": 0.01097912,
      "auxiliary_loss_mlp": 0.010223,
      "balance_loss_clip": 1.04174101,
      "balance_loss_mlp": 1.01715064,
      "epoch": 0.7222990440690195,
      "flos": 26288751047040.0,
      "grad_norm": 2.649265960199682,
      "language_loss": 0.8048591,
      "learning_rate": 7.557193586838834e-07,
      "loss": 0.82606113,
      "num_input_tokens_seen": 129162660,
      "step": 6007,
      "time_per_iteration": 3.230353593826294
    },
    {
      "auxiliary_loss_clip": 0.01066004,
      "auxiliary_loss_mlp": 0.0101822,
      "balance_loss_clip": 1.03564429,
      "balance_loss_mlp": 1.01306772,
      "epoch": 0.7224192869596585,
      "flos": 17603535640320.0,
      "grad_norm": 2.508336354852439,
      "language_loss": 0.70978403,
      "learning_rate": 7.551095916917371e-07,
      "loss": 0.73062623,
      "num_input_tokens_seen": 129179990,
      "step": 6008,
      "time_per_iteration": 2.5967841148376465
    },
    {
      "auxiliary_loss_clip": 0.01060591,
      "auxiliary_loss_mlp": 0.0102251,
      "balance_loss_clip": 1.03740489,
      "balance_loss_mlp": 1.01674938,
      "epoch": 0.7225395298502976,
      "flos": 12933964667520.0,
      "grad_norm": 3.2678593416321235,
      "language_loss": 0.66479182,
      "learning_rate": 7.545000135484758e-07,
      "loss": 0.68562287,
      "num_input_tokens_seen": 129197425,
      "step": 6009,
      "time_per_iteration": 3.3325412273406982
    },
    {
      "auxiliary_loss_clip": 0.01094967,
      "auxiliary_loss_mlp": 0.00756836,
      "balance_loss_clip": 1.03898764,
      "balance_loss_mlp": 1.00167823,
      "epoch": 0.7226597727409367,
      "flos": 29646525461760.0,
      "grad_norm": 2.4546304154136664,
      "language_loss": 0.62700981,
      "learning_rate": 7.538906243465714e-07,
      "loss": 0.64552784,
      "num_input_tokens_seen": 129217560,
      "step": 6010,
      "time_per_iteration": 2.6214969158172607
    },
    {
      "auxiliary_loss_clip": 0.01097931,
      "auxiliary_loss_mlp": 0.01020012,
      "balance_loss_clip": 1.0407182,
      "balance_loss_mlp": 1.01461768,
      "epoch": 0.7227800156315758,
      "flos": 13773322955520.0,
      "grad_norm": 2.0868248602657986,
      "language_loss": 0.78760809,
      "learning_rate": 7.5328142417847e-07,
      "loss": 0.80878747,
      "num_input_tokens_seen": 129234325,
      "step": 6011,
      "time_per_iteration": 2.5218851566314697
    },
    {
      "auxiliary_loss_clip": 0.01085033,
      "auxiliary_loss_mlp": 0.01026908,
      "balance_loss_clip": 1.03884518,
      "balance_loss_mlp": 1.02198207,
      "epoch": 0.7229002585222148,
      "flos": 20303895052800.0,
      "grad_norm": 1.7278446380568926,
      "language_loss": 0.6934827,
      "learning_rate": 7.526724131365838e-07,
      "loss": 0.71460211,
      "num_input_tokens_seen": 129255280,
      "step": 6012,
      "time_per_iteration": 3.2643795013427734
    },
    {
      "auxiliary_loss_clip": 0.01066495,
      "auxiliary_loss_mlp": 0.01022384,
      "balance_loss_clip": 1.0375582,
      "balance_loss_mlp": 1.01687074,
      "epoch": 0.723020501412854,
      "flos": 16583106182400.0,
      "grad_norm": 1.9593845640113043,
      "language_loss": 0.70845902,
      "learning_rate": 7.520635913133017e-07,
      "loss": 0.72934783,
      "num_input_tokens_seen": 129273910,
      "step": 6013,
      "time_per_iteration": 2.578651189804077
    },
    {
      "auxiliary_loss_clip": 0.01083926,
      "auxiliary_loss_mlp": 0.01020108,
      "balance_loss_clip": 1.03850222,
      "balance_loss_mlp": 1.01436472,
      "epoch": 0.7231407443034931,
      "flos": 28550808512640.0,
      "grad_norm": 2.8280305264771775,
      "language_loss": 0.82404065,
      "learning_rate": 7.514549588009798e-07,
      "loss": 0.84508091,
      "num_input_tokens_seen": 129294785,
      "step": 6014,
      "time_per_iteration": 2.575056314468384
    },
    {
      "auxiliary_loss_clip": 0.01070896,
      "auxiliary_loss_mlp": 0.0102169,
      "balance_loss_clip": 1.0374999,
      "balance_loss_mlp": 1.01659358,
      "epoch": 0.7232609871941321,
      "flos": 30011170394880.0,
      "grad_norm": 2.28775221785116,
      "language_loss": 0.70712018,
      "learning_rate": 7.508465156919492e-07,
      "loss": 0.72804606,
      "num_input_tokens_seen": 129318295,
      "step": 6015,
      "time_per_iteration": 2.691739797592163
    },
    {
      "auxiliary_loss_clip": 0.01072998,
      "auxiliary_loss_mlp": 0.01019299,
      "balance_loss_clip": 1.03819132,
      "balance_loss_mlp": 1.01388144,
      "epoch": 0.7233812300847713,
      "flos": 16655853162240.0,
      "grad_norm": 2.513541025535612,
      "language_loss": 0.60884136,
      "learning_rate": 7.502382620785083e-07,
      "loss": 0.62976432,
      "num_input_tokens_seen": 129334845,
      "step": 6016,
      "time_per_iteration": 2.5021049976348877
    },
    {
      "auxiliary_loss_clip": 0.01020166,
      "auxiliary_loss_mlp": 0.01003753,
      "balance_loss_clip": 1.03099895,
      "balance_loss_mlp": 1.00207222,
      "epoch": 0.7235014729754103,
      "flos": 67265432910720.0,
      "grad_norm": 0.8028207250351165,
      "language_loss": 0.62505507,
      "learning_rate": 7.496301980529289e-07,
      "loss": 0.64529431,
      "num_input_tokens_seen": 129398055,
      "step": 6017,
      "time_per_iteration": 3.2268223762512207
    },
    {
      "auxiliary_loss_clip": 0.01096944,
      "auxiliary_loss_mlp": 0.01020199,
      "balance_loss_clip": 1.0397681,
      "balance_loss_mlp": 1.01503158,
      "epoch": 0.7236217158660494,
      "flos": 26945673114240.0,
      "grad_norm": 2.149801029784365,
      "language_loss": 0.74729633,
      "learning_rate": 7.490223237074547e-07,
      "loss": 0.76846778,
      "num_input_tokens_seen": 129417765,
      "step": 6018,
      "time_per_iteration": 2.5911800861358643
    },
    {
      "auxiliary_loss_clip": 0.01060318,
      "auxiliary_loss_mlp": 0.01023083,
      "balance_loss_clip": 1.03439116,
      "balance_loss_mlp": 1.01784921,
      "epoch": 0.7237419587566886,
      "flos": 29425895683200.0,
      "grad_norm": 1.8878566719981293,
      "language_loss": 0.66124934,
      "learning_rate": 7.484146391342989e-07,
      "loss": 0.68208337,
      "num_input_tokens_seen": 129437560,
      "step": 6019,
      "time_per_iteration": 2.720487117767334
    },
    {
      "auxiliary_loss_clip": 0.01073643,
      "auxiliary_loss_mlp": 0.0101911,
      "balance_loss_clip": 1.03753233,
      "balance_loss_mlp": 1.01391578,
      "epoch": 0.7238622016473276,
      "flos": 17823407057280.0,
      "grad_norm": 2.127721288093974,
      "language_loss": 0.56998187,
      "learning_rate": 7.478071444256484e-07,
      "loss": 0.59090936,
      "num_input_tokens_seen": 129455320,
      "step": 6020,
      "time_per_iteration": 2.523348093032837
    },
    {
      "auxiliary_loss_clip": 0.01060075,
      "auxiliary_loss_mlp": 0.01019723,
      "balance_loss_clip": 1.03756928,
      "balance_loss_mlp": 1.01424861,
      "epoch": 0.7239824445379667,
      "flos": 25741480302720.0,
      "grad_norm": 1.926073598218383,
      "language_loss": 0.79235578,
      "learning_rate": 7.471998396736579e-07,
      "loss": 0.81315374,
      "num_input_tokens_seen": 129475700,
      "step": 6021,
      "time_per_iteration": 2.6512763500213623
    },
    {
      "auxiliary_loss_clip": 0.01059415,
      "auxiliary_loss_mlp": 0.01017246,
      "balance_loss_clip": 1.03672528,
      "balance_loss_mlp": 1.01203012,
      "epoch": 0.7241026874286057,
      "flos": 23151151393920.0,
      "grad_norm": 2.03410948448115,
      "language_loss": 0.76191962,
      "learning_rate": 7.465927249704549e-07,
      "loss": 0.78268623,
      "num_input_tokens_seen": 129493585,
      "step": 6022,
      "time_per_iteration": 2.6046388149261475
    },
    {
      "auxiliary_loss_clip": 0.01082658,
      "auxiliary_loss_mlp": 0.01019272,
      "balance_loss_clip": 1.03791261,
      "balance_loss_mlp": 1.01419353,
      "epoch": 0.7242229303192449,
      "flos": 20269000368000.0,
      "grad_norm": 2.316989504633978,
      "language_loss": 0.77174896,
      "learning_rate": 7.459858004081398e-07,
      "loss": 0.79276824,
      "num_input_tokens_seen": 129511555,
      "step": 6023,
      "time_per_iteration": 2.5708377361297607
    },
    {
      "auxiliary_loss_clip": 0.0101377,
      "auxiliary_loss_mlp": 0.01001841,
      "balance_loss_clip": 1.02002692,
      "balance_loss_mlp": 1.00000501,
      "epoch": 0.724343173209884,
      "flos": 62318865790080.0,
      "grad_norm": 0.6562152606221667,
      "language_loss": 0.58022165,
      "learning_rate": 7.453790660787815e-07,
      "loss": 0.6003778,
      "num_input_tokens_seen": 129579650,
      "step": 6024,
      "time_per_iteration": 3.326911211013794
    },
    {
      "auxiliary_loss_clip": 0.0107032,
      "auxiliary_loss_mlp": 0.01018642,
      "balance_loss_clip": 1.03768373,
      "balance_loss_mlp": 1.01300907,
      "epoch": 0.724463416100523,
      "flos": 35009278237440.0,
      "grad_norm": 2.29689515972765,
      "language_loss": 0.63569891,
      "learning_rate": 7.447725220744214e-07,
      "loss": 0.65658855,
      "num_input_tokens_seen": 129601895,
      "step": 6025,
      "time_per_iteration": 2.6742844581604004
    },
    {
      "auxiliary_loss_clip": 0.01095889,
      "auxiliary_loss_mlp": 0.01022976,
      "balance_loss_clip": 1.03896689,
      "balance_loss_mlp": 1.01760888,
      "epoch": 0.7245836589911622,
      "flos": 21874135766400.0,
      "grad_norm": 2.233984236362058,
      "language_loss": 0.77466673,
      "learning_rate": 7.441661684870717e-07,
      "loss": 0.7958554,
      "num_input_tokens_seen": 129622150,
      "step": 6026,
      "time_per_iteration": 2.6054956912994385
    },
    {
      "auxiliary_loss_clip": 0.01095001,
      "auxiliary_loss_mlp": 0.01017302,
      "balance_loss_clip": 1.0389756,
      "balance_loss_mlp": 1.0122894,
      "epoch": 0.7247039018818012,
      "flos": 23008918389120.0,
      "grad_norm": 1.7928096074964268,
      "language_loss": 0.81903476,
      "learning_rate": 7.435600054087152e-07,
      "loss": 0.84015775,
      "num_input_tokens_seen": 129644315,
      "step": 6027,
      "time_per_iteration": 2.5208542346954346
    },
    {
      "auxiliary_loss_clip": 0.01095993,
      "auxiliary_loss_mlp": 0.01023465,
      "balance_loss_clip": 1.03994584,
      "balance_loss_mlp": 1.01808572,
      "epoch": 0.7248241447724403,
      "flos": 31725274590720.0,
      "grad_norm": 2.6020485898199226,
      "language_loss": 0.74816608,
      "learning_rate": 7.42954032931308e-07,
      "loss": 0.76936066,
      "num_input_tokens_seen": 129665355,
      "step": 6028,
      "time_per_iteration": 2.621290922164917
    },
    {
      "auxiliary_loss_clip": 0.0106942,
      "auxiliary_loss_mlp": 0.01021037,
      "balance_loss_clip": 1.03555274,
      "balance_loss_mlp": 1.01585472,
      "epoch": 0.7249443876630794,
      "flos": 34899854423040.0,
      "grad_norm": 2.151068611058693,
      "language_loss": 0.74258363,
      "learning_rate": 7.423482511467733e-07,
      "loss": 0.76348817,
      "num_input_tokens_seen": 129686125,
      "step": 6029,
      "time_per_iteration": 2.6780014038085938
    },
    {
      "auxiliary_loss_clip": 0.01029731,
      "auxiliary_loss_mlp": 0.01021244,
      "balance_loss_clip": 1.03355098,
      "balance_loss_mlp": 1.01604056,
      "epoch": 0.7250646305537185,
      "flos": 26361687617280.0,
      "grad_norm": 3.253597918154866,
      "language_loss": 0.65083408,
      "learning_rate": 7.417426601470099e-07,
      "loss": 0.6713438,
      "num_input_tokens_seen": 129706485,
      "step": 6030,
      "time_per_iteration": 2.729184627532959
    },
    {
      "auxiliary_loss_clip": 0.01083505,
      "auxiliary_loss_mlp": 0.01021325,
      "balance_loss_clip": 1.03854501,
      "balance_loss_mlp": 1.01571035,
      "epoch": 0.7251848734443576,
      "flos": 30084258637440.0,
      "grad_norm": 2.6411505516026867,
      "language_loss": 0.78974748,
      "learning_rate": 7.411372600238841e-07,
      "loss": 0.81079578,
      "num_input_tokens_seen": 129727100,
      "step": 6031,
      "time_per_iteration": 3.3437366485595703
    },
    {
      "auxiliary_loss_clip": 0.01096595,
      "auxiliary_loss_mlp": 0.01022448,
      "balance_loss_clip": 1.0394907,
      "balance_loss_mlp": 1.01694322,
      "epoch": 0.7253051163349967,
      "flos": 17787185239680.0,
      "grad_norm": 1.974765518859182,
      "language_loss": 0.7419219,
      "learning_rate": 7.405320508692346e-07,
      "loss": 0.76311231,
      "num_input_tokens_seen": 129745840,
      "step": 6032,
      "time_per_iteration": 2.494083881378174
    },
    {
      "auxiliary_loss_clip": 0.01094296,
      "auxiliary_loss_mlp": 0.01018356,
      "balance_loss_clip": 1.03957438,
      "balance_loss_mlp": 1.01321769,
      "epoch": 0.7254253592256358,
      "flos": 12643014666240.0,
      "grad_norm": 2.2114549610648466,
      "language_loss": 0.75197929,
      "learning_rate": 7.399270327748727e-07,
      "loss": 0.7731058,
      "num_input_tokens_seen": 129763500,
      "step": 6033,
      "time_per_iteration": 3.2671737670898438
    },
    {
      "auxiliary_loss_clip": 0.01060596,
      "auxiliary_loss_mlp": 0.00756077,
      "balance_loss_clip": 1.03618169,
      "balance_loss_mlp": 1.00149012,
      "epoch": 0.7255456021162748,
      "flos": 27201690512640.0,
      "grad_norm": 2.0528775469514486,
      "language_loss": 0.74435484,
      "learning_rate": 7.39322205832577e-07,
      "loss": 0.76252162,
      "num_input_tokens_seen": 129784390,
      "step": 6034,
      "time_per_iteration": 3.4167990684509277
    },
    {
      "auxiliary_loss_clip": 0.01071639,
      "auxiliary_loss_mlp": 0.01017778,
      "balance_loss_clip": 1.03680134,
      "balance_loss_mlp": 1.01266146,
      "epoch": 0.725665845006914,
      "flos": 21290339859840.0,
      "grad_norm": 2.87295068181264,
      "language_loss": 0.81228733,
      "learning_rate": 7.387175701341009e-07,
      "loss": 0.8331815,
      "num_input_tokens_seen": 129803060,
      "step": 6035,
      "time_per_iteration": 2.6062095165252686
    },
    {
      "auxiliary_loss_clip": 0.01082512,
      "auxiliary_loss_mlp": 0.01017512,
      "balance_loss_clip": 1.03837645,
      "balance_loss_mlp": 1.01224852,
      "epoch": 0.7257860878975531,
      "flos": 16035494175360.0,
      "grad_norm": 2.6349204173539116,
      "language_loss": 0.72053051,
      "learning_rate": 7.381131257711659e-07,
      "loss": 0.74153066,
      "num_input_tokens_seen": 129820165,
      "step": 6036,
      "time_per_iteration": 2.4761946201324463
    },
    {
      "auxiliary_loss_clip": 0.01067672,
      "auxiliary_loss_mlp": 0.01022669,
      "balance_loss_clip": 1.04078305,
      "balance_loss_mlp": 1.01742101,
      "epoch": 0.7259063307881921,
      "flos": 12131548640640.0,
      "grad_norm": 1.7434493788749448,
      "language_loss": 0.8392114,
      "learning_rate": 7.375088728354677e-07,
      "loss": 0.86011481,
      "num_input_tokens_seen": 129835195,
      "step": 6037,
      "time_per_iteration": 2.583317279815674
    },
    {
      "auxiliary_loss_clip": 0.01059599,
      "auxiliary_loss_mlp": 0.01019285,
      "balance_loss_clip": 1.03585601,
      "balance_loss_mlp": 1.01409078,
      "epoch": 0.7260265736788313,
      "flos": 30446363059200.0,
      "grad_norm": 1.5840347969029078,
      "language_loss": 0.67330384,
      "learning_rate": 7.369048114186691e-07,
      "loss": 0.69409263,
      "num_input_tokens_seen": 129856240,
      "step": 6038,
      "time_per_iteration": 3.387930393218994
    },
    {
      "auxiliary_loss_clip": 0.0106155,
      "auxiliary_loss_mlp": 0.0075648,
      "balance_loss_clip": 1.03964162,
      "balance_loss_mlp": 1.00151086,
      "epoch": 0.7261468165694703,
      "flos": 21144390883200.0,
      "grad_norm": 5.014641836825136,
      "language_loss": 0.83216709,
      "learning_rate": 7.363009416124055e-07,
      "loss": 0.8503474,
      "num_input_tokens_seen": 129875565,
      "step": 6039,
      "time_per_iteration": 2.6119773387908936
    },
    {
      "auxiliary_loss_clip": 0.01052969,
      "auxiliary_loss_mlp": 0.01021819,
      "balance_loss_clip": 1.03254271,
      "balance_loss_mlp": 1.01640058,
      "epoch": 0.7262670594601094,
      "flos": 22308304642560.0,
      "grad_norm": 2.7413406486368865,
      "language_loss": 0.63033539,
      "learning_rate": 7.356972635082852e-07,
      "loss": 0.65108335,
      "num_input_tokens_seen": 129894420,
      "step": 6040,
      "time_per_iteration": 2.5917115211486816
    },
    {
      "auxiliary_loss_clip": 0.01040916,
      "auxiliary_loss_mlp": 0.01022524,
      "balance_loss_clip": 1.03740954,
      "balance_loss_mlp": 1.01711798,
      "epoch": 0.7263873023507486,
      "flos": 25337238842880.0,
      "grad_norm": 1.6313701857714196,
      "language_loss": 0.75237775,
      "learning_rate": 7.35093777197884e-07,
      "loss": 0.77301216,
      "num_input_tokens_seen": 129914490,
      "step": 6041,
      "time_per_iteration": 2.6760566234588623
    },
    {
      "auxiliary_loss_clip": 0.01062435,
      "auxiliary_loss_mlp": 0.01016648,
      "balance_loss_clip": 1.03217149,
      "balance_loss_mlp": 1.01176667,
      "epoch": 0.7265075452413876,
      "flos": 23880896277120.0,
      "grad_norm": 2.4532657696749935,
      "language_loss": 0.86071062,
      "learning_rate": 7.344904827727525e-07,
      "loss": 0.88150144,
      "num_input_tokens_seen": 129931670,
      "step": 6042,
      "time_per_iteration": 2.631622791290283
    },
    {
      "auxiliary_loss_clip": 0.01064735,
      "auxiliary_loss_mlp": 0.01019115,
      "balance_loss_clip": 1.03786469,
      "balance_loss_mlp": 1.01383138,
      "epoch": 0.7266277881320267,
      "flos": 28726722823680.0,
      "grad_norm": 2.3209457584174253,
      "language_loss": 0.73601758,
      "learning_rate": 7.338873803244076e-07,
      "loss": 0.75685608,
      "num_input_tokens_seen": 129946905,
      "step": 6043,
      "time_per_iteration": 2.637002468109131
    },
    {
      "auxiliary_loss_clip": 0.01066581,
      "auxiliary_loss_mlp": 0.01019041,
      "balance_loss_clip": 1.03574133,
      "balance_loss_mlp": 1.01407886,
      "epoch": 0.7267480310226658,
      "flos": 24865824360960.0,
      "grad_norm": 2.350159022967456,
      "language_loss": 0.80693704,
      "learning_rate": 7.332844699443401e-07,
      "loss": 0.8277933,
      "num_input_tokens_seen": 129965505,
      "step": 6044,
      "time_per_iteration": 2.6713268756866455
    },
    {
      "auxiliary_loss_clip": 0.0104725,
      "auxiliary_loss_mlp": 0.01019955,
      "balance_loss_clip": 1.03537393,
      "balance_loss_mlp": 1.01508808,
      "epoch": 0.7268682739133049,
      "flos": 27200932151040.0,
      "grad_norm": 1.9321378160882676,
      "language_loss": 0.75475103,
      "learning_rate": 7.326817517240121e-07,
      "loss": 0.77542305,
      "num_input_tokens_seen": 129987210,
      "step": 6045,
      "time_per_iteration": 2.731915235519409
    },
    {
      "auxiliary_loss_clip": 0.01083853,
      "auxiliary_loss_mlp": 0.00756338,
      "balance_loss_clip": 1.03801608,
      "balance_loss_mlp": 1.00153577,
      "epoch": 0.7269885168039439,
      "flos": 33510798633600.0,
      "grad_norm": 2.867122515931098,
      "language_loss": 0.83143795,
      "learning_rate": 7.320792257548545e-07,
      "loss": 0.84983987,
      "num_input_tokens_seen": 130008385,
      "step": 6046,
      "time_per_iteration": 2.7083323001861572
    },
    {
      "auxiliary_loss_clip": 0.01073293,
      "auxiliary_loss_mlp": 0.01019227,
      "balance_loss_clip": 1.03884435,
      "balance_loss_mlp": 1.01385105,
      "epoch": 0.7271087596945831,
      "flos": 24315899351040.0,
      "grad_norm": 2.286234107626633,
      "language_loss": 0.76268935,
      "learning_rate": 7.314768921282704e-07,
      "loss": 0.78361452,
      "num_input_tokens_seen": 130029040,
      "step": 6047,
      "time_per_iteration": 2.5994112491607666
    },
    {
      "auxiliary_loss_clip": 0.01083834,
      "auxiliary_loss_mlp": 0.01018764,
      "balance_loss_clip": 1.03775716,
      "balance_loss_mlp": 1.0137217,
      "epoch": 0.7272290025852222,
      "flos": 23807390935680.0,
      "grad_norm": 2.581723756268819,
      "language_loss": 0.71749818,
      "learning_rate": 7.30874750935633e-07,
      "loss": 0.73852414,
      "num_input_tokens_seen": 130048725,
      "step": 6048,
      "time_per_iteration": 2.6183242797851562
    },
    {
      "auxiliary_loss_clip": 0.01049396,
      "auxiliary_loss_mlp": 0.01020858,
      "balance_loss_clip": 1.03010988,
      "balance_loss_mlp": 1.01557064,
      "epoch": 0.7273492454758612,
      "flos": 16721850723840.0,
      "grad_norm": 2.179449780301872,
      "language_loss": 0.7894541,
      "learning_rate": 7.30272802268286e-07,
      "loss": 0.8101567,
      "num_input_tokens_seen": 130065720,
      "step": 6049,
      "time_per_iteration": 2.602942943572998
    },
    {
      "auxiliary_loss_clip": 0.01020846,
      "auxiliary_loss_mlp": 0.01017725,
      "balance_loss_clip": 1.02842712,
      "balance_loss_mlp": 1.01274824,
      "epoch": 0.7274694883665004,
      "flos": 28033465184640.0,
      "grad_norm": 1.9871337896319572,
      "language_loss": 0.76225203,
      "learning_rate": 7.29671046217547e-07,
      "loss": 0.78263772,
      "num_input_tokens_seen": 130084830,
      "step": 6050,
      "time_per_iteration": 2.753711700439453
    },
    {
      "auxiliary_loss_clip": 0.01052562,
      "auxiliary_loss_mlp": 0.01022057,
      "balance_loss_clip": 1.03120267,
      "balance_loss_mlp": 1.01713419,
      "epoch": 0.7275897312571394,
      "flos": 30375322392960.0,
      "grad_norm": 1.8431878114425604,
      "language_loss": 0.81560159,
      "learning_rate": 7.290694828746988e-07,
      "loss": 0.83634776,
      "num_input_tokens_seen": 130104495,
      "step": 6051,
      "time_per_iteration": 2.673285484313965
    },
    {
      "auxiliary_loss_clip": 0.01061983,
      "auxiliary_loss_mlp": 0.01019569,
      "balance_loss_clip": 1.03699052,
      "balance_loss_mlp": 1.0142312,
      "epoch": 0.7277099741477785,
      "flos": 19206585544320.0,
      "grad_norm": 4.006884039740548,
      "language_loss": 0.85985839,
      "learning_rate": 7.284681123310004e-07,
      "loss": 0.880674,
      "num_input_tokens_seen": 130123210,
      "step": 6052,
      "time_per_iteration": 2.6155149936676025
    },
    {
      "auxiliary_loss_clip": 0.01076345,
      "auxiliary_loss_mlp": 0.01022691,
      "balance_loss_clip": 1.03659678,
      "balance_loss_mlp": 1.01706135,
      "epoch": 0.7278302170384175,
      "flos": 20669980872960.0,
      "grad_norm": 1.7884758713214908,
      "language_loss": 0.79526961,
      "learning_rate": 7.27866934677678e-07,
      "loss": 0.81625992,
      "num_input_tokens_seen": 130142880,
      "step": 6053,
      "time_per_iteration": 2.535623550415039
    },
    {
      "auxiliary_loss_clip": 0.01031307,
      "auxiliary_loss_mlp": 0.01018686,
      "balance_loss_clip": 1.02730274,
      "balance_loss_mlp": 1.01321149,
      "epoch": 0.7279504599290567,
      "flos": 19094886645120.0,
      "grad_norm": 1.6845964913107803,
      "language_loss": 0.78435725,
      "learning_rate": 7.272659500059297e-07,
      "loss": 0.80485725,
      "num_input_tokens_seen": 130160220,
      "step": 6054,
      "time_per_iteration": 2.67022705078125
    },
    {
      "auxiliary_loss_clip": 0.01086191,
      "auxiliary_loss_mlp": 0.01026144,
      "balance_loss_clip": 1.03911972,
      "balance_loss_mlp": 1.02107763,
      "epoch": 0.7280707028196958,
      "flos": 19064162949120.0,
      "grad_norm": 2.252944157134152,
      "language_loss": 0.80402803,
      "learning_rate": 7.266651584069264e-07,
      "loss": 0.82515138,
      "num_input_tokens_seen": 130177885,
      "step": 6055,
      "time_per_iteration": 2.5324289798736572
    },
    {
      "auxiliary_loss_clip": 0.01086068,
      "auxiliary_loss_mlp": 0.01017367,
      "balance_loss_clip": 1.04104686,
      "balance_loss_mlp": 1.0121994,
      "epoch": 0.7281909457103348,
      "flos": 37199347084800.0,
      "grad_norm": 2.800166006551224,
      "language_loss": 0.57008618,
      "learning_rate": 7.260645599718045e-07,
      "loss": 0.5911206,
      "num_input_tokens_seen": 130204240,
      "step": 6056,
      "time_per_iteration": 2.6958649158477783
    },
    {
      "auxiliary_loss_clip": 0.01072556,
      "auxiliary_loss_mlp": 0.01024739,
      "balance_loss_clip": 1.03845251,
      "balance_loss_mlp": 1.01916027,
      "epoch": 0.728311188600974,
      "flos": 20669146675200.0,
      "grad_norm": 2.299499014039266,
      "language_loss": 0.67351186,
      "learning_rate": 7.254641547916767e-07,
      "loss": 0.69448483,
      "num_input_tokens_seen": 130221735,
      "step": 6057,
      "time_per_iteration": 3.385303497314453
    },
    {
      "auxiliary_loss_clip": 0.01096923,
      "auxiliary_loss_mlp": 0.01027574,
      "balance_loss_clip": 1.04151034,
      "balance_loss_mlp": 1.02200067,
      "epoch": 0.728431431491613,
      "flos": 28843237319040.0,
      "grad_norm": 2.05019820890264,
      "language_loss": 0.69528729,
      "learning_rate": 7.248639429576226e-07,
      "loss": 0.71653223,
      "num_input_tokens_seen": 130241190,
      "step": 6058,
      "time_per_iteration": 3.3687744140625
    },
    {
      "auxiliary_loss_clip": 0.01083824,
      "auxiliary_loss_mlp": 0.01022748,
      "balance_loss_clip": 1.03912044,
      "balance_loss_mlp": 1.01748168,
      "epoch": 0.7285516743822521,
      "flos": 25994085073920.0,
      "grad_norm": 3.0211328096739076,
      "language_loss": 0.72217226,
      "learning_rate": 7.242639245606959e-07,
      "loss": 0.74323797,
      "num_input_tokens_seen": 130260980,
      "step": 6059,
      "time_per_iteration": 2.6149885654449463
    },
    {
      "auxiliary_loss_clip": 0.01076166,
      "auxiliary_loss_mlp": 0.01018678,
      "balance_loss_clip": 1.03870261,
      "balance_loss_mlp": 1.01342118,
      "epoch": 0.7286719172728913,
      "flos": 16401617913600.0,
      "grad_norm": 1.7431659008827571,
      "language_loss": 0.82468653,
      "learning_rate": 7.236640996919168e-07,
      "loss": 0.84563494,
      "num_input_tokens_seen": 130280025,
      "step": 6060,
      "time_per_iteration": 3.3835020065307617
    },
    {
      "auxiliary_loss_clip": 0.01083954,
      "auxiliary_loss_mlp": 0.01020469,
      "balance_loss_clip": 1.0381341,
      "balance_loss_mlp": 1.0155338,
      "epoch": 0.7287921601635303,
      "flos": 22020350169600.0,
      "grad_norm": 1.5849838456886978,
      "language_loss": 0.70563287,
      "learning_rate": 7.230644684422782e-07,
      "loss": 0.72667706,
      "num_input_tokens_seen": 130300255,
      "step": 6061,
      "time_per_iteration": 2.564659357070923
    },
    {
      "auxiliary_loss_clip": 0.01060274,
      "auxiliary_loss_mlp": 0.01020717,
      "balance_loss_clip": 1.03640866,
      "balance_loss_mlp": 1.0153048,
      "epoch": 0.7289124030541694,
      "flos": 24602830035840.0,
      "grad_norm": 1.7837928862705223,
      "language_loss": 0.81757325,
      "learning_rate": 7.224650309027451e-07,
      "loss": 0.83838314,
      "num_input_tokens_seen": 130320005,
      "step": 6062,
      "time_per_iteration": 2.690748453140259
    },
    {
      "auxiliary_loss_clip": 0.01086251,
      "auxiliary_loss_mlp": 0.01020616,
      "balance_loss_clip": 1.03983021,
      "balance_loss_mlp": 1.01553142,
      "epoch": 0.7290326459448085,
      "flos": 21395554767360.0,
      "grad_norm": 2.68167050819861,
      "language_loss": 0.69045025,
      "learning_rate": 7.218657871642506e-07,
      "loss": 0.71151894,
      "num_input_tokens_seen": 130338810,
      "step": 6063,
      "time_per_iteration": 3.339735507965088
    },
    {
      "auxiliary_loss_clip": 0.01096336,
      "auxiliary_loss_mlp": 0.01021392,
      "balance_loss_clip": 1.03944182,
      "balance_loss_mlp": 1.01617372,
      "epoch": 0.7291528888354476,
      "flos": 18589639184640.0,
      "grad_norm": 2.581180848387585,
      "language_loss": 0.62528521,
      "learning_rate": 7.212667373177012e-07,
      "loss": 0.6464625,
      "num_input_tokens_seen": 130353805,
      "step": 6064,
      "time_per_iteration": 2.5352067947387695
    },
    {
      "auxiliary_loss_clip": 0.01061033,
      "auxiliary_loss_mlp": 0.01020879,
      "balance_loss_clip": 1.03626359,
      "balance_loss_mlp": 1.01571417,
      "epoch": 0.7292731317260867,
      "flos": 18952956984960.0,
      "grad_norm": 2.3341494545929864,
      "language_loss": 0.75584626,
      "learning_rate": 7.206678814539704e-07,
      "loss": 0.77666545,
      "num_input_tokens_seen": 130372105,
      "step": 6065,
      "time_per_iteration": 2.638273000717163
    },
    {
      "auxiliary_loss_clip": 0.01049595,
      "auxiliary_loss_mlp": 0.01020128,
      "balance_loss_clip": 1.03451443,
      "balance_loss_mlp": 1.01515675,
      "epoch": 0.7293933746167258,
      "flos": 21069596327040.0,
      "grad_norm": 1.56384559389017,
      "language_loss": 0.72736526,
      "learning_rate": 7.20069219663904e-07,
      "loss": 0.74806249,
      "num_input_tokens_seen": 130391990,
      "step": 6066,
      "time_per_iteration": 2.6868338584899902
    },
    {
      "auxiliary_loss_clip": 0.01084593,
      "auxiliary_loss_mlp": 0.01016382,
      "balance_loss_clip": 1.0379231,
      "balance_loss_mlp": 1.01135767,
      "epoch": 0.7295136175073649,
      "flos": 22455391161600.0,
      "grad_norm": 2.506893583644264,
      "language_loss": 0.79890084,
      "learning_rate": 7.1947075203832e-07,
      "loss": 0.81991059,
      "num_input_tokens_seen": 130411970,
      "step": 6067,
      "time_per_iteration": 2.5564846992492676
    },
    {
      "auxiliary_loss_clip": 0.01046691,
      "auxiliary_loss_mlp": 0.01001775,
      "balance_loss_clip": 1.02066684,
      "balance_loss_mlp": 0.99989194,
      "epoch": 0.7296338603980039,
      "flos": 56131249484160.0,
      "grad_norm": 0.8807275670633101,
      "language_loss": 0.60087752,
      "learning_rate": 7.188724786680049e-07,
      "loss": 0.62136221,
      "num_input_tokens_seen": 130472440,
      "step": 6068,
      "time_per_iteration": 3.120227098464966
    },
    {
      "auxiliary_loss_clip": 0.01069853,
      "auxiliary_loss_mlp": 0.01020341,
      "balance_loss_clip": 1.03637671,
      "balance_loss_mlp": 1.01508403,
      "epoch": 0.7297541032886431,
      "flos": 25230620966400.0,
      "grad_norm": 4.812913214390468,
      "language_loss": 0.75625432,
      "learning_rate": 7.182743996437162e-07,
      "loss": 0.77715623,
      "num_input_tokens_seen": 130491975,
      "step": 6069,
      "time_per_iteration": 2.622638702392578
    },
    {
      "auxiliary_loss_clip": 0.01061113,
      "auxiliary_loss_mlp": 0.0101879,
      "balance_loss_clip": 1.03495312,
      "balance_loss_mlp": 1.01313663,
      "epoch": 0.7298743461792822,
      "flos": 26469935971200.0,
      "grad_norm": 2.2549449482021835,
      "language_loss": 0.69176149,
      "learning_rate": 7.176765150561819e-07,
      "loss": 0.71256053,
      "num_input_tokens_seen": 130510580,
      "step": 6070,
      "time_per_iteration": 2.6648945808410645
    },
    {
      "auxiliary_loss_clip": 0.01093715,
      "auxiliary_loss_mlp": 0.01019503,
      "balance_loss_clip": 1.03687429,
      "balance_loss_mlp": 1.01416528,
      "epoch": 0.7299945890699212,
      "flos": 19570851296640.0,
      "grad_norm": 2.0127562296034114,
      "language_loss": 0.80042499,
      "learning_rate": 7.170788249961002e-07,
      "loss": 0.82155716,
      "num_input_tokens_seen": 130529090,
      "step": 6071,
      "time_per_iteration": 2.548562526702881
    },
    {
      "auxiliary_loss_clip": 0.01093999,
      "auxiliary_loss_mlp": 0.01021164,
      "balance_loss_clip": 1.03823733,
      "balance_loss_mlp": 1.01605868,
      "epoch": 0.7301148319605604,
      "flos": 22931128304640.0,
      "grad_norm": 2.0177028386497007,
      "language_loss": 0.8815645,
      "learning_rate": 7.164813295541418e-07,
      "loss": 0.9027161,
      "num_input_tokens_seen": 130548655,
      "step": 6072,
      "time_per_iteration": 2.5337352752685547
    },
    {
      "auxiliary_loss_clip": 0.01070572,
      "auxiliary_loss_mlp": 0.01022743,
      "balance_loss_clip": 1.03589928,
      "balance_loss_mlp": 1.01767993,
      "epoch": 0.7302350748511994,
      "flos": 25371792264960.0,
      "grad_norm": 2.438192134692267,
      "language_loss": 0.70615053,
      "learning_rate": 7.15884028820944e-07,
      "loss": 0.72708368,
      "num_input_tokens_seen": 130567710,
      "step": 6073,
      "time_per_iteration": 2.6440563201904297
    },
    {
      "auxiliary_loss_clip": 0.0105985,
      "auxiliary_loss_mlp": 0.01016957,
      "balance_loss_clip": 1.03550172,
      "balance_loss_mlp": 1.01203966,
      "epoch": 0.7303553177418385,
      "flos": 27821670318720.0,
      "grad_norm": 2.9859296496550978,
      "language_loss": 0.61059648,
      "learning_rate": 7.152869228871185e-07,
      "loss": 0.63136458,
      "num_input_tokens_seen": 130590195,
      "step": 6074,
      "time_per_iteration": 2.6376214027404785
    },
    {
      "auxiliary_loss_clip": 0.01073922,
      "auxiliary_loss_mlp": 0.01024202,
      "balance_loss_clip": 1.03768671,
      "balance_loss_mlp": 1.01900482,
      "epoch": 0.7304755606324776,
      "flos": 24428849546880.0,
      "grad_norm": 2.204264361606122,
      "language_loss": 0.72148848,
      "learning_rate": 7.146900118432457e-07,
      "loss": 0.74246973,
      "num_input_tokens_seen": 130609940,
      "step": 6075,
      "time_per_iteration": 2.682713747024536
    },
    {
      "auxiliary_loss_clip": 0.01026392,
      "auxiliary_loss_mlp": 0.01025273,
      "balance_loss_clip": 1.03325558,
      "balance_loss_mlp": 1.02039468,
      "epoch": 0.7305958035231167,
      "flos": 23842664801280.0,
      "grad_norm": 1.6365232681496162,
      "language_loss": 0.85831374,
      "learning_rate": 7.140932957798753e-07,
      "loss": 0.87883043,
      "num_input_tokens_seen": 130628380,
      "step": 6076,
      "time_per_iteration": 2.767939567565918
    },
    {
      "auxiliary_loss_clip": 0.01076267,
      "auxiliary_loss_mlp": 0.01017701,
      "balance_loss_clip": 1.03833461,
      "balance_loss_mlp": 1.0124557,
      "epoch": 0.7307160464137558,
      "flos": 16728789732480.0,
      "grad_norm": 2.0413032975675103,
      "language_loss": 0.71671212,
      "learning_rate": 7.134967747875309e-07,
      "loss": 0.73765182,
      "num_input_tokens_seen": 130646590,
      "step": 6077,
      "time_per_iteration": 2.816880941390991
    },
    {
      "auxiliary_loss_clip": 0.01086266,
      "auxiliary_loss_mlp": 0.01021206,
      "balance_loss_clip": 1.03887558,
      "balance_loss_mlp": 1.01611602,
      "epoch": 0.7308362893043949,
      "flos": 21800402916480.0,
      "grad_norm": 2.0512474955422277,
      "language_loss": 0.81691325,
      "learning_rate": 7.129004489567014e-07,
      "loss": 0.83798802,
      "num_input_tokens_seen": 130664070,
      "step": 6078,
      "time_per_iteration": 2.5338618755340576
    },
    {
      "auxiliary_loss_clip": 0.01058123,
      "auxiliary_loss_mlp": 0.01018611,
      "balance_loss_clip": 1.03455579,
      "balance_loss_mlp": 1.01334453,
      "epoch": 0.730956532195034,
      "flos": 10708925299200.0,
      "grad_norm": 2.3087808059050063,
      "language_loss": 0.78042412,
      "learning_rate": 7.123043183778512e-07,
      "loss": 0.80119151,
      "num_input_tokens_seen": 130681400,
      "step": 6079,
      "time_per_iteration": 2.629396677017212
    },
    {
      "auxiliary_loss_clip": 0.01060096,
      "auxiliary_loss_mlp": 0.01027676,
      "balance_loss_clip": 1.03545308,
      "balance_loss_mlp": 1.0224576,
      "epoch": 0.731076775085673,
      "flos": 19794021586560.0,
      "grad_norm": 1.6467547637566324,
      "language_loss": 0.65036392,
      "learning_rate": 7.117083831414114e-07,
      "loss": 0.67124158,
      "num_input_tokens_seen": 130700675,
      "step": 6080,
      "time_per_iteration": 2.592167615890503
    },
    {
      "auxiliary_loss_clip": 0.01093663,
      "auxiliary_loss_mlp": 0.01020165,
      "balance_loss_clip": 1.03818798,
      "balance_loss_mlp": 1.01515245,
      "epoch": 0.7311970179763122,
      "flos": 20449009831680.0,
      "grad_norm": 1.8060033227095995,
      "language_loss": 0.69498503,
      "learning_rate": 7.11112643337787e-07,
      "loss": 0.71612334,
      "num_input_tokens_seen": 130719720,
      "step": 6081,
      "time_per_iteration": 2.6222524642944336
    },
    {
      "auxiliary_loss_clip": 0.01067158,
      "auxiliary_loss_mlp": 0.01025346,
      "balance_loss_clip": 1.03935599,
      "balance_loss_mlp": 1.01976705,
      "epoch": 0.7313172608669513,
      "flos": 18515716744320.0,
      "grad_norm": 2.773588265744782,
      "language_loss": 0.76227283,
      "learning_rate": 7.10517099057349e-07,
      "loss": 0.78319788,
      "num_input_tokens_seen": 130736670,
      "step": 6082,
      "time_per_iteration": 2.59863018989563
    },
    {
      "auxiliary_loss_clip": 0.01065785,
      "auxiliary_loss_mlp": 0.01018564,
      "balance_loss_clip": 1.03591549,
      "balance_loss_mlp": 1.01303554,
      "epoch": 0.7314375037575903,
      "flos": 16182618612480.0,
      "grad_norm": 2.358808371017693,
      "language_loss": 0.6147449,
      "learning_rate": 7.099217503904411e-07,
      "loss": 0.63558841,
      "num_input_tokens_seen": 130754525,
      "step": 6083,
      "time_per_iteration": 3.3723831176757812
    },
    {
      "auxiliary_loss_clip": 0.01071964,
      "auxiliary_loss_mlp": 0.01019496,
      "balance_loss_clip": 1.03680003,
      "balance_loss_mlp": 1.01437902,
      "epoch": 0.7315577466482295,
      "flos": 17969886887040.0,
      "grad_norm": 2.4157959657898553,
      "language_loss": 0.90110081,
      "learning_rate": 7.093265974273788e-07,
      "loss": 0.92201543,
      "num_input_tokens_seen": 130772420,
      "step": 6084,
      "time_per_iteration": 3.3720884323120117
    },
    {
      "auxiliary_loss_clip": 0.01084133,
      "auxiliary_loss_mlp": 0.0101941,
      "balance_loss_clip": 1.03701806,
      "balance_loss_mlp": 1.01445723,
      "epoch": 0.7316779895388685,
      "flos": 18407392554240.0,
      "grad_norm": 2.019765727626275,
      "language_loss": 0.71620321,
      "learning_rate": 7.087316402584447e-07,
      "loss": 0.73723871,
      "num_input_tokens_seen": 130791245,
      "step": 6085,
      "time_per_iteration": 3.279341697692871
    },
    {
      "auxiliary_loss_clip": 0.01093717,
      "auxiliary_loss_mlp": 0.01016381,
      "balance_loss_clip": 1.03757036,
      "balance_loss_mlp": 1.01076341,
      "epoch": 0.7317982324295076,
      "flos": 17930062851840.0,
      "grad_norm": 2.727761031530961,
      "language_loss": 0.86221051,
      "learning_rate": 7.081368789738953e-07,
      "loss": 0.88331151,
      "num_input_tokens_seen": 130808445,
      "step": 6086,
      "time_per_iteration": 2.54868745803833
    },
    {
      "auxiliary_loss_clip": 0.01072214,
      "auxiliary_loss_mlp": 0.01021878,
      "balance_loss_clip": 1.03569293,
      "balance_loss_mlp": 1.01648688,
      "epoch": 0.7319184753201466,
      "flos": 27231997109760.0,
      "grad_norm": 2.117007125815227,
      "language_loss": 0.77858007,
      "learning_rate": 7.075423136639537e-07,
      "loss": 0.79952097,
      "num_input_tokens_seen": 130827700,
      "step": 6087,
      "time_per_iteration": 2.620424747467041
    },
    {
      "auxiliary_loss_clip": 0.0105304,
      "auxiliary_loss_mlp": 0.01018542,
      "balance_loss_clip": 1.03304124,
      "balance_loss_mlp": 1.01312745,
      "epoch": 0.7320387182107858,
      "flos": 37451421002880.0,
      "grad_norm": 1.9518688970302849,
      "language_loss": 0.74635053,
      "learning_rate": 7.069479444188149e-07,
      "loss": 0.76706636,
      "num_input_tokens_seen": 130848290,
      "step": 6088,
      "time_per_iteration": 2.718148708343506
    },
    {
      "auxiliary_loss_clip": 0.0107259,
      "auxiliary_loss_mlp": 0.01016781,
      "balance_loss_clip": 1.03787994,
      "balance_loss_mlp": 1.01159883,
      "epoch": 0.7321589611014249,
      "flos": 17860993925760.0,
      "grad_norm": 3.6650708268057213,
      "language_loss": 0.82135713,
      "learning_rate": 7.063537713286453e-07,
      "loss": 0.84225088,
      "num_input_tokens_seen": 130865970,
      "step": 6089,
      "time_per_iteration": 3.345421552658081
    },
    {
      "auxiliary_loss_clip": 0.01072911,
      "auxiliary_loss_mlp": 0.01017986,
      "balance_loss_clip": 1.03702712,
      "balance_loss_mlp": 1.01277363,
      "epoch": 0.7322792039920639,
      "flos": 26102788444800.0,
      "grad_norm": 2.149358715568292,
      "language_loss": 0.81174487,
      "learning_rate": 7.057597944835803e-07,
      "loss": 0.83265382,
      "num_input_tokens_seen": 130885245,
      "step": 6090,
      "time_per_iteration": 2.5810611248016357
    },
    {
      "auxiliary_loss_clip": 0.01063314,
      "auxiliary_loss_mlp": 0.01016135,
      "balance_loss_clip": 1.03670454,
      "balance_loss_mlp": 1.01094079,
      "epoch": 0.7323994468827031,
      "flos": 25371147657600.0,
      "grad_norm": 1.5621384989248968,
      "language_loss": 0.74435341,
      "learning_rate": 7.051660139737253e-07,
      "loss": 0.76514792,
      "num_input_tokens_seen": 130903465,
      "step": 6091,
      "time_per_iteration": 2.649975538253784
    },
    {
      "auxiliary_loss_clip": 0.0107724,
      "auxiliary_loss_mlp": 0.00756543,
      "balance_loss_clip": 1.03764009,
      "balance_loss_mlp": 1.00148141,
      "epoch": 0.7325196897733421,
      "flos": 26909527132800.0,
      "grad_norm": 2.1493129982485115,
      "language_loss": 0.7686336,
      "learning_rate": 7.045724298891565e-07,
      "loss": 0.78697145,
      "num_input_tokens_seen": 130922935,
      "step": 6092,
      "time_per_iteration": 2.5518219470977783
    },
    {
      "auxiliary_loss_clip": 0.01081795,
      "auxiliary_loss_mlp": 0.01018659,
      "balance_loss_clip": 1.0382266,
      "balance_loss_mlp": 1.01336932,
      "epoch": 0.7326399326639812,
      "flos": 25778157137280.0,
      "grad_norm": 3.7005003854938265,
      "language_loss": 0.69141102,
      "learning_rate": 7.039790423199192e-07,
      "loss": 0.71241558,
      "num_input_tokens_seen": 130942575,
      "step": 6093,
      "time_per_iteration": 2.600287914276123
    },
    {
      "auxiliary_loss_clip": 0.01072636,
      "auxiliary_loss_mlp": 0.01016342,
      "balance_loss_clip": 1.03796005,
      "balance_loss_mlp": 1.01113296,
      "epoch": 0.7327601755546204,
      "flos": 21034360379520.0,
      "grad_norm": 2.2972425596009747,
      "language_loss": 0.77850342,
      "learning_rate": 7.033858513560322e-07,
      "loss": 0.79939318,
      "num_input_tokens_seen": 130958870,
      "step": 6094,
      "time_per_iteration": 2.5308997631073
    },
    {
      "auxiliary_loss_clip": 0.01083332,
      "auxiliary_loss_mlp": 0.01018789,
      "balance_loss_clip": 1.03875279,
      "balance_loss_mlp": 1.01363873,
      "epoch": 0.7328804184452594,
      "flos": 16291056556800.0,
      "grad_norm": 2.99842239394983,
      "language_loss": 0.76683021,
      "learning_rate": 7.027928570874794e-07,
      "loss": 0.78785145,
      "num_input_tokens_seen": 130977060,
      "step": 6095,
      "time_per_iteration": 2.5392231941223145
    },
    {
      "auxiliary_loss_clip": 0.0109418,
      "auxiliary_loss_mlp": 0.01020356,
      "balance_loss_clip": 1.03805649,
      "balance_loss_mlp": 1.01507807,
      "epoch": 0.7330006613358985,
      "flos": 17860159728000.0,
      "grad_norm": 2.025447547078553,
      "language_loss": 0.85296261,
      "learning_rate": 7.022000596042194e-07,
      "loss": 0.87410796,
      "num_input_tokens_seen": 130994160,
      "step": 6096,
      "time_per_iteration": 2.4540562629699707
    },
    {
      "auxiliary_loss_clip": 0.01059072,
      "auxiliary_loss_mlp": 0.01021659,
      "balance_loss_clip": 1.03499818,
      "balance_loss_mlp": 1.01675344,
      "epoch": 0.7331209042265376,
      "flos": 22494267244800.0,
      "grad_norm": 2.7980776376609757,
      "language_loss": 0.81875575,
      "learning_rate": 7.016074589961784e-07,
      "loss": 0.83956301,
      "num_input_tokens_seen": 131012725,
      "step": 6097,
      "time_per_iteration": 2.7792043685913086
    },
    {
      "auxiliary_loss_clip": 0.01066959,
      "auxiliary_loss_mlp": 0.01019125,
      "balance_loss_clip": 1.03985262,
      "balance_loss_mlp": 1.01371264,
      "epoch": 0.7332411471171767,
      "flos": 33075530133120.0,
      "grad_norm": 1.8610892215331647,
      "language_loss": 0.66973722,
      "learning_rate": 7.01015055353253e-07,
      "loss": 0.69059807,
      "num_input_tokens_seen": 131035150,
      "step": 6098,
      "time_per_iteration": 2.662773847579956
    },
    {
      "auxiliary_loss_clip": 0.01046051,
      "auxiliary_loss_mlp": 0.01019823,
      "balance_loss_clip": 1.03798294,
      "balance_loss_mlp": 1.01424956,
      "epoch": 0.7333613900078157,
      "flos": 22744976112000.0,
      "grad_norm": 1.974302444023397,
      "language_loss": 0.77896297,
      "learning_rate": 7.004228487653123e-07,
      "loss": 0.7996217,
      "num_input_tokens_seen": 131055955,
      "step": 6099,
      "time_per_iteration": 2.7082295417785645
    },
    {
      "auxiliary_loss_clip": 0.0106321,
      "auxiliary_loss_mlp": 0.0101852,
      "balance_loss_clip": 1.03481889,
      "balance_loss_mlp": 1.01321244,
      "epoch": 0.7334816328984549,
      "flos": 22348318268160.0,
      "grad_norm": 2.5897852678061852,
      "language_loss": 0.78716767,
      "learning_rate": 6.998308393221906e-07,
      "loss": 0.80798495,
      "num_input_tokens_seen": 131074360,
      "step": 6100,
      "time_per_iteration": 2.5927505493164062
    },
    {
      "auxiliary_loss_clip": 0.01059374,
      "auxiliary_loss_mlp": 0.01019222,
      "balance_loss_clip": 1.03630519,
      "balance_loss_mlp": 1.01406574,
      "epoch": 0.733601875789094,
      "flos": 20737988092800.0,
      "grad_norm": 2.8908547105985187,
      "language_loss": 0.71440101,
      "learning_rate": 6.992390271136977e-07,
      "loss": 0.73518705,
      "num_input_tokens_seen": 131090070,
      "step": 6101,
      "time_per_iteration": 2.6249077320098877
    },
    {
      "auxiliary_loss_clip": 0.01083699,
      "auxiliary_loss_mlp": 0.01021028,
      "balance_loss_clip": 1.03802884,
      "balance_loss_mlp": 1.0161674,
      "epoch": 0.733722118679733,
      "flos": 22566521289600.0,
      "grad_norm": 1.6797855086987787,
      "language_loss": 0.85481977,
      "learning_rate": 6.986474122296094e-07,
      "loss": 0.87586707,
      "num_input_tokens_seen": 131109185,
      "step": 6102,
      "time_per_iteration": 2.526933431625366
    },
    {
      "auxiliary_loss_clip": 0.0109736,
      "auxiliary_loss_mlp": 0.0101806,
      "balance_loss_clip": 1.040627,
      "balance_loss_mlp": 1.01281524,
      "epoch": 0.7338423615703722,
      "flos": 20086260802560.0,
      "grad_norm": 3.7795362751874944,
      "language_loss": 0.72473061,
      "learning_rate": 6.980559947596751e-07,
      "loss": 0.7458849,
      "num_input_tokens_seen": 131127725,
      "step": 6103,
      "time_per_iteration": 2.530122756958008
    },
    {
      "auxiliary_loss_clip": 0.01048289,
      "auxiliary_loss_mlp": 0.01019206,
      "balance_loss_clip": 1.0365001,
      "balance_loss_mlp": 1.01370788,
      "epoch": 0.7339626044610112,
      "flos": 21689727805440.0,
      "grad_norm": 2.617445372366043,
      "language_loss": 0.75722688,
      "learning_rate": 6.974647747936109e-07,
      "loss": 0.77790177,
      "num_input_tokens_seen": 131146110,
      "step": 6104,
      "time_per_iteration": 2.6272990703582764
    },
    {
      "auxiliary_loss_clip": 0.01094753,
      "auxiliary_loss_mlp": 0.00756777,
      "balance_loss_clip": 1.03851378,
      "balance_loss_mlp": 1.00164557,
      "epoch": 0.7340828473516503,
      "flos": 15270058327680.0,
      "grad_norm": 2.236053334296774,
      "language_loss": 0.82439488,
      "learning_rate": 6.968737524211039e-07,
      "loss": 0.84291017,
      "num_input_tokens_seen": 131162920,
      "step": 6105,
      "time_per_iteration": 2.5921125411987305
    },
    {
      "auxiliary_loss_clip": 0.01076679,
      "auxiliary_loss_mlp": 0.01017962,
      "balance_loss_clip": 1.03400755,
      "balance_loss_mlp": 1.01249874,
      "epoch": 0.7342030902422895,
      "flos": 22932341683200.0,
      "grad_norm": 2.2281433218264004,
      "language_loss": 0.80332613,
      "learning_rate": 6.962829277318132e-07,
      "loss": 0.82427251,
      "num_input_tokens_seen": 131182515,
      "step": 6106,
      "time_per_iteration": 2.672689914703369
    },
    {
      "auxiliary_loss_clip": 0.01083928,
      "auxiliary_loss_mlp": 0.01020814,
      "balance_loss_clip": 1.03985548,
      "balance_loss_mlp": 1.01558924,
      "epoch": 0.7343233331329285,
      "flos": 25850221591680.0,
      "grad_norm": 2.431303190184809,
      "language_loss": 0.83475643,
      "learning_rate": 6.956923008153652e-07,
      "loss": 0.85580385,
      "num_input_tokens_seen": 131202280,
      "step": 6107,
      "time_per_iteration": 2.598153591156006
    },
    {
      "auxiliary_loss_clip": 0.0108336,
      "auxiliary_loss_mlp": 0.01024498,
      "balance_loss_clip": 1.03635454,
      "balance_loss_mlp": 1.01963472,
      "epoch": 0.7344435760235676,
      "flos": 18480973731840.0,
      "grad_norm": 2.0351692078703905,
      "language_loss": 0.84236747,
      "learning_rate": 6.951018717613593e-07,
      "loss": 0.86344606,
      "num_input_tokens_seen": 131221295,
      "step": 6108,
      "time_per_iteration": 2.513259172439575
    },
    {
      "auxiliary_loss_clip": 0.01081073,
      "auxiliary_loss_mlp": 0.01022281,
      "balance_loss_clip": 1.03729725,
      "balance_loss_mlp": 1.01714015,
      "epoch": 0.7345638189142067,
      "flos": 17641994624640.0,
      "grad_norm": 2.0183143651189352,
      "language_loss": 0.78310603,
      "learning_rate": 6.945116406593614e-07,
      "loss": 0.80413961,
      "num_input_tokens_seen": 131240150,
      "step": 6109,
      "time_per_iteration": 3.3097872734069824
    },
    {
      "auxiliary_loss_clip": 0.01038686,
      "auxiliary_loss_mlp": 0.01021446,
      "balance_loss_clip": 1.03137589,
      "balance_loss_mlp": 1.01611996,
      "epoch": 0.7346840618048458,
      "flos": 20261947605120.0,
      "grad_norm": 2.1674905643636895,
      "language_loss": 0.73909807,
      "learning_rate": 6.939216075989089e-07,
      "loss": 0.75969934,
      "num_input_tokens_seen": 131258080,
      "step": 6110,
      "time_per_iteration": 3.391960859298706
    },
    {
      "auxiliary_loss_clip": 0.01070233,
      "auxiliary_loss_mlp": 0.01015712,
      "balance_loss_clip": 1.03740692,
      "balance_loss_mlp": 1.01050258,
      "epoch": 0.7348043046954849,
      "flos": 29025749376000.0,
      "grad_norm": 2.0167006149171947,
      "language_loss": 0.65573668,
      "learning_rate": 6.933317726695109e-07,
      "loss": 0.67659616,
      "num_input_tokens_seen": 131279310,
      "step": 6111,
      "time_per_iteration": 2.621265411376953
    },
    {
      "auxiliary_loss_clip": 0.01052351,
      "auxiliary_loss_mlp": 0.01019004,
      "balance_loss_clip": 1.03684497,
      "balance_loss_mlp": 1.01377964,
      "epoch": 0.734924547586124,
      "flos": 17933134216320.0,
      "grad_norm": 2.868017217484407,
      "language_loss": 0.79529405,
      "learning_rate": 6.92742135960644e-07,
      "loss": 0.81600761,
      "num_input_tokens_seen": 131297010,
      "step": 6112,
      "time_per_iteration": 3.319035530090332
    },
    {
      "auxiliary_loss_clip": 0.01036825,
      "auxiliary_loss_mlp": 0.01003288,
      "balance_loss_clip": 1.02056146,
      "balance_loss_mlp": 1.00158298,
      "epoch": 0.7350447904767631,
      "flos": 63595578072960.0,
      "grad_norm": 0.811726384661002,
      "language_loss": 0.55651248,
      "learning_rate": 6.921526975617556e-07,
      "loss": 0.5769136,
      "num_input_tokens_seen": 131356470,
      "step": 6113,
      "time_per_iteration": 3.1818830966949463
    },
    {
      "auxiliary_loss_clip": 0.01071769,
      "auxiliary_loss_mlp": 0.01022885,
      "balance_loss_clip": 1.03827465,
      "balance_loss_mlp": 1.01750851,
      "epoch": 0.7351650333674021,
      "flos": 21582161976960.0,
      "grad_norm": 1.8624728705685354,
      "language_loss": 0.75443268,
      "learning_rate": 6.915634575622631e-07,
      "loss": 0.77537924,
      "num_input_tokens_seen": 131374985,
      "step": 6114,
      "time_per_iteration": 2.580105781555176
    },
    {
      "auxiliary_loss_clip": 0.01094693,
      "auxiliary_loss_mlp": 0.01015613,
      "balance_loss_clip": 1.03868878,
      "balance_loss_mlp": 1.01050532,
      "epoch": 0.7352852762580413,
      "flos": 18188279498880.0,
      "grad_norm": 1.8915851675391504,
      "language_loss": 0.70934904,
      "learning_rate": 6.909744160515532e-07,
      "loss": 0.73045206,
      "num_input_tokens_seen": 131393125,
      "step": 6115,
      "time_per_iteration": 3.943394899368286
    },
    {
      "auxiliary_loss_clip": 0.01068627,
      "auxiliary_loss_mlp": 0.0102344,
      "balance_loss_clip": 1.03753781,
      "balance_loss_mlp": 1.01784027,
      "epoch": 0.7354055191486804,
      "flos": 38913147936000.0,
      "grad_norm": 1.712088099163712,
      "language_loss": 0.69651401,
      "learning_rate": 6.903855731189849e-07,
      "loss": 0.7174347,
      "num_input_tokens_seen": 131415760,
      "step": 6116,
      "time_per_iteration": 2.7137205600738525
    },
    {
      "auxiliary_loss_clip": 0.01071496,
      "auxiliary_loss_mlp": 0.01021469,
      "balance_loss_clip": 1.03600597,
      "balance_loss_mlp": 1.01607823,
      "epoch": 0.7355257620393194,
      "flos": 16291852836480.0,
      "grad_norm": 3.1640815383998584,
      "language_loss": 0.81705457,
      "learning_rate": 6.897969288538825e-07,
      "loss": 0.8379842,
      "num_input_tokens_seen": 131433705,
      "step": 6117,
      "time_per_iteration": 2.5712764263153076
    },
    {
      "auxiliary_loss_clip": 0.01068506,
      "auxiliary_loss_mlp": 0.01020984,
      "balance_loss_clip": 1.03520238,
      "balance_loss_mlp": 1.01613188,
      "epoch": 0.7356460049299585,
      "flos": 18116215044480.0,
      "grad_norm": 1.9325853637322572,
      "language_loss": 0.81502724,
      "learning_rate": 6.892084833455452e-07,
      "loss": 0.83592218,
      "num_input_tokens_seen": 131453275,
      "step": 6118,
      "time_per_iteration": 2.5853772163391113
    },
    {
      "auxiliary_loss_clip": 0.01081035,
      "auxiliary_loss_mlp": 0.01017175,
      "balance_loss_clip": 1.03781247,
      "balance_loss_mlp": 1.01234114,
      "epoch": 0.7357662478205976,
      "flos": 21327357957120.0,
      "grad_norm": 1.737215609763255,
      "language_loss": 0.83852005,
      "learning_rate": 6.886202366832384e-07,
      "loss": 0.85950214,
      "num_input_tokens_seen": 131474960,
      "step": 6119,
      "time_per_iteration": 2.589594602584839
    },
    {
      "auxiliary_loss_clip": 0.01038224,
      "auxiliary_loss_mlp": 0.01018597,
      "balance_loss_clip": 1.03474641,
      "balance_loss_mlp": 1.01302409,
      "epoch": 0.7358864907112367,
      "flos": 14248605081600.0,
      "grad_norm": 1.958772841662362,
      "language_loss": 0.73552883,
      "learning_rate": 6.880321889561987e-07,
      "loss": 0.75609708,
      "num_input_tokens_seen": 131492935,
      "step": 6120,
      "time_per_iteration": 2.671964645385742
    },
    {
      "auxiliary_loss_clip": 0.01058339,
      "auxiliary_loss_mlp": 0.01021996,
      "balance_loss_clip": 1.036309,
      "balance_loss_mlp": 1.01609242,
      "epoch": 0.7360067336018757,
      "flos": 22311868942080.0,
      "grad_norm": 3.1308684134184146,
      "language_loss": 0.65158814,
      "learning_rate": 6.874443402536338e-07,
      "loss": 0.67239153,
      "num_input_tokens_seen": 131512025,
      "step": 6121,
      "time_per_iteration": 2.613734006881714
    },
    {
      "auxiliary_loss_clip": 0.01071069,
      "auxiliary_loss_mlp": 0.01018646,
      "balance_loss_clip": 1.03755367,
      "balance_loss_mlp": 1.01309347,
      "epoch": 0.7361269764925149,
      "flos": 25556844833280.0,
      "grad_norm": 1.7323342222523832,
      "language_loss": 0.80570924,
      "learning_rate": 6.868566906647177e-07,
      "loss": 0.82660639,
      "num_input_tokens_seen": 131532975,
      "step": 6122,
      "time_per_iteration": 2.6668541431427
    },
    {
      "auxiliary_loss_clip": 0.0108586,
      "auxiliary_loss_mlp": 0.01021709,
      "balance_loss_clip": 1.03835201,
      "balance_loss_mlp": 1.01618397,
      "epoch": 0.736247219383154,
      "flos": 20378613772800.0,
      "grad_norm": 1.7888961439897195,
      "language_loss": 0.83638668,
      "learning_rate": 6.862692402785984e-07,
      "loss": 0.85746241,
      "num_input_tokens_seen": 131553225,
      "step": 6123,
      "time_per_iteration": 2.5467216968536377
    },
    {
      "auxiliary_loss_clip": 0.01029711,
      "auxiliary_loss_mlp": 0.01005389,
      "balance_loss_clip": 1.04333711,
      "balance_loss_mlp": 1.00357652,
      "epoch": 0.736367462273793,
      "flos": 70347234965760.0,
      "grad_norm": 0.690458441916426,
      "language_loss": 0.49524459,
      "learning_rate": 6.856819891843899e-07,
      "loss": 0.51559556,
      "num_input_tokens_seen": 131617930,
      "step": 6124,
      "time_per_iteration": 3.332237720489502
    },
    {
      "auxiliary_loss_clip": 0.01024955,
      "auxiliary_loss_mlp": 0.01023694,
      "balance_loss_clip": 1.02964997,
      "balance_loss_mlp": 1.01835048,
      "epoch": 0.7364877051644322,
      "flos": 22414543338240.0,
      "grad_norm": 2.0132002774169,
      "language_loss": 0.72102714,
      "learning_rate": 6.8509493747118e-07,
      "loss": 0.74151361,
      "num_input_tokens_seen": 131636740,
      "step": 6125,
      "time_per_iteration": 2.686816692352295
    },
    {
      "auxiliary_loss_clip": 0.01095673,
      "auxiliary_loss_mlp": 0.01018702,
      "balance_loss_clip": 1.03987551,
      "balance_loss_mlp": 1.01368046,
      "epoch": 0.7366079480550712,
      "flos": 12131889903360.0,
      "grad_norm": 2.1358874277984325,
      "language_loss": 0.88400757,
      "learning_rate": 6.845080852280221e-07,
      "loss": 0.90515131,
      "num_input_tokens_seen": 131653810,
      "step": 6126,
      "time_per_iteration": 2.5123207569122314
    },
    {
      "auxiliary_loss_clip": 0.01058743,
      "auxiliary_loss_mlp": 0.01018574,
      "balance_loss_clip": 1.03608251,
      "balance_loss_mlp": 1.01349854,
      "epoch": 0.7367281909457103,
      "flos": 15051134862720.0,
      "grad_norm": 2.061440484725044,
      "language_loss": 0.74232459,
      "learning_rate": 6.839214325439409e-07,
      "loss": 0.7630977,
      "num_input_tokens_seen": 131671505,
      "step": 6127,
      "time_per_iteration": 2.5882978439331055
    },
    {
      "auxiliary_loss_clip": 0.01060853,
      "auxiliary_loss_mlp": 0.01022567,
      "balance_loss_clip": 1.03410745,
      "balance_loss_mlp": 1.01745296,
      "epoch": 0.7368484338363495,
      "flos": 23512838716800.0,
      "grad_norm": 1.810721334308124,
      "language_loss": 0.71722209,
      "learning_rate": 6.833349795079327e-07,
      "loss": 0.7380563,
      "num_input_tokens_seen": 131690615,
      "step": 6128,
      "time_per_iteration": 2.6087355613708496
    },
    {
      "auxiliary_loss_clip": 0.01056102,
      "auxiliary_loss_mlp": 0.01025192,
      "balance_loss_clip": 1.03604352,
      "balance_loss_mlp": 1.01981306,
      "epoch": 0.7369686767269885,
      "flos": 27420310632960.0,
      "grad_norm": 1.9598506235399649,
      "language_loss": 0.68268275,
      "learning_rate": 6.827487262089613e-07,
      "loss": 0.70349574,
      "num_input_tokens_seen": 131711120,
      "step": 6129,
      "time_per_iteration": 2.6288652420043945
    },
    {
      "auxiliary_loss_clip": 0.01024992,
      "auxiliary_loss_mlp": 0.01002486,
      "balance_loss_clip": 1.02066088,
      "balance_loss_mlp": 1.00076962,
      "epoch": 0.7370889196176276,
      "flos": 70300509840000.0,
      "grad_norm": 0.8909384002996313,
      "language_loss": 0.5675621,
      "learning_rate": 6.821626727359606e-07,
      "loss": 0.58783686,
      "num_input_tokens_seen": 131776680,
      "step": 6130,
      "time_per_iteration": 3.2360100746154785
    },
    {
      "auxiliary_loss_clip": 0.0106805,
      "auxiliary_loss_mlp": 0.01020324,
      "balance_loss_clip": 1.04097915,
      "balance_loss_mlp": 1.01467085,
      "epoch": 0.7372091625082667,
      "flos": 18042785539200.0,
      "grad_norm": 2.707248638675429,
      "language_loss": 0.77121973,
      "learning_rate": 6.815768191778348e-07,
      "loss": 0.79210341,
      "num_input_tokens_seen": 131794760,
      "step": 6131,
      "time_per_iteration": 2.600802421569824
    },
    {
      "auxiliary_loss_clip": 0.01085647,
      "auxiliary_loss_mlp": 0.01020872,
      "balance_loss_clip": 1.03894043,
      "balance_loss_mlp": 1.01547503,
      "epoch": 0.7373294053989058,
      "flos": 33728963736960.0,
      "grad_norm": 1.7537166755922171,
      "language_loss": 0.73125589,
      "learning_rate": 6.809911656234569e-07,
      "loss": 0.75232106,
      "num_input_tokens_seen": 131816735,
      "step": 6132,
      "time_per_iteration": 2.621208667755127
    },
    {
      "auxiliary_loss_clip": 0.01060976,
      "auxiliary_loss_mlp": 0.01017085,
      "balance_loss_clip": 1.03469443,
      "balance_loss_mlp": 1.01170015,
      "epoch": 0.7374496482895448,
      "flos": 21508429127040.0,
      "grad_norm": 2.5113316969236665,
      "language_loss": 0.78349209,
      "learning_rate": 6.804057121616707e-07,
      "loss": 0.80427265,
      "num_input_tokens_seen": 131834940,
      "step": 6133,
      "time_per_iteration": 2.633617639541626
    },
    {
      "auxiliary_loss_clip": 0.01082175,
      "auxiliary_loss_mlp": 0.01021436,
      "balance_loss_clip": 1.03775573,
      "balance_loss_mlp": 1.01596773,
      "epoch": 0.737569891180184,
      "flos": 24939253866240.0,
      "grad_norm": 1.8925154297481699,
      "language_loss": 0.72066152,
      "learning_rate": 6.798204588812888e-07,
      "loss": 0.74169767,
      "num_input_tokens_seen": 131854355,
      "step": 6134,
      "time_per_iteration": 3.331234931945801
    },
    {
      "auxiliary_loss_clip": 0.01033038,
      "auxiliary_loss_mlp": 0.00756636,
      "balance_loss_clip": 1.03322136,
      "balance_loss_mlp": 1.00160813,
      "epoch": 0.7376901340708231,
      "flos": 20666454491520.0,
      "grad_norm": 1.9128182353840921,
      "language_loss": 0.75728124,
      "learning_rate": 6.792354058710937e-07,
      "loss": 0.77517796,
      "num_input_tokens_seen": 131871825,
      "step": 6135,
      "time_per_iteration": 2.700223445892334
    },
    {
      "auxiliary_loss_clip": 0.01090641,
      "auxiliary_loss_mlp": 0.01016988,
      "balance_loss_clip": 1.03729403,
      "balance_loss_mlp": 1.01179338,
      "epoch": 0.7378103769614621,
      "flos": 23808073461120.0,
      "grad_norm": 1.8222362371754706,
      "language_loss": 0.64804208,
      "learning_rate": 6.786505532198374e-07,
      "loss": 0.66911846,
      "num_input_tokens_seen": 131890770,
      "step": 6136,
      "time_per_iteration": 3.2888007164001465
    },
    {
      "auxiliary_loss_clip": 0.01095876,
      "auxiliary_loss_mlp": 0.01020655,
      "balance_loss_clip": 1.03927147,
      "balance_loss_mlp": 1.01502252,
      "epoch": 0.7379306198521013,
      "flos": 22239425306880.0,
      "grad_norm": 5.506650230836627,
      "language_loss": 0.85145068,
      "learning_rate": 6.780659010162411e-07,
      "loss": 0.87261599,
      "num_input_tokens_seen": 131909720,
      "step": 6137,
      "time_per_iteration": 3.2679085731506348
    },
    {
      "auxiliary_loss_clip": 0.01059315,
      "auxiliary_loss_mlp": 0.01019404,
      "balance_loss_clip": 1.03565383,
      "balance_loss_mlp": 1.0143671,
      "epoch": 0.7380508627427403,
      "flos": 14904882541440.0,
      "grad_norm": 1.8937682987316664,
      "language_loss": 0.83214843,
      "learning_rate": 6.774814493489975e-07,
      "loss": 0.85293561,
      "num_input_tokens_seen": 131927395,
      "step": 6138,
      "time_per_iteration": 2.614321708679199
    },
    {
      "auxiliary_loss_clip": 0.01080014,
      "auxiliary_loss_mlp": 0.01018921,
      "balance_loss_clip": 1.03574395,
      "balance_loss_mlp": 1.01380658,
      "epoch": 0.7381711056333794,
      "flos": 21687793983360.0,
      "grad_norm": 2.305321495147391,
      "language_loss": 0.66391337,
      "learning_rate": 6.768971983067655e-07,
      "loss": 0.68490279,
      "num_input_tokens_seen": 131947725,
      "step": 6139,
      "time_per_iteration": 2.5306949615478516
    },
    {
      "auxiliary_loss_clip": 0.01046272,
      "auxiliary_loss_mlp": 0.01001996,
      "balance_loss_clip": 1.02041471,
      "balance_loss_mlp": 1.00035143,
      "epoch": 0.7382913485240186,
      "flos": 52409816006400.0,
      "grad_norm": 1.0427728397048086,
      "language_loss": 0.67682552,
      "learning_rate": 6.763131479781772e-07,
      "loss": 0.69730818,
      "num_input_tokens_seen": 131997485,
      "step": 6140,
      "time_per_iteration": 2.965938091278076
    },
    {
      "auxiliary_loss_clip": 0.01054976,
      "auxiliary_loss_mlp": 0.01018156,
      "balance_loss_clip": 1.03108764,
      "balance_loss_mlp": 1.01274133,
      "epoch": 0.7384115914146576,
      "flos": 21800971687680.0,
      "grad_norm": 1.7605552652185121,
      "language_loss": 0.75850272,
      "learning_rate": 6.757292984518316e-07,
      "loss": 0.77923405,
      "num_input_tokens_seen": 132016885,
      "step": 6141,
      "time_per_iteration": 3.4805679321289062
    },
    {
      "auxiliary_loss_clip": 0.01036496,
      "auxiliary_loss_mlp": 0.01002514,
      "balance_loss_clip": 1.02052999,
      "balance_loss_mlp": 1.00083339,
      "epoch": 0.7385318343052967,
      "flos": 61500675841920.0,
      "grad_norm": 0.7390760923387004,
      "language_loss": 0.56404591,
      "learning_rate": 6.751456498162981e-07,
      "loss": 0.58443606,
      "num_input_tokens_seen": 132075920,
      "step": 6142,
      "time_per_iteration": 3.081529378890991
    },
    {
      "auxiliary_loss_clip": 0.01084058,
      "auxiliary_loss_mlp": 0.01017739,
      "balance_loss_clip": 1.03737712,
      "balance_loss_mlp": 1.01286888,
      "epoch": 0.7386520771959358,
      "flos": 17015341236480.0,
      "grad_norm": 1.8050251706763363,
      "language_loss": 0.8559491,
      "learning_rate": 6.745622021601174e-07,
      "loss": 0.87696707,
      "num_input_tokens_seen": 132092945,
      "step": 6143,
      "time_per_iteration": 2.577580213546753
    },
    {
      "auxiliary_loss_clip": 0.01057055,
      "auxiliary_loss_mlp": 0.01017942,
      "balance_loss_clip": 1.03428471,
      "balance_loss_mlp": 1.01268816,
      "epoch": 0.7387723200865749,
      "flos": 18772757930880.0,
      "grad_norm": 2.468565867114803,
      "language_loss": 0.69555855,
      "learning_rate": 6.739789555717954e-07,
      "loss": 0.71630847,
      "num_input_tokens_seen": 132109920,
      "step": 6144,
      "time_per_iteration": 2.5716872215270996
    },
    {
      "auxiliary_loss_clip": 0.01092724,
      "auxiliary_loss_mlp": 0.01019321,
      "balance_loss_clip": 1.03746951,
      "balance_loss_mlp": 1.01427543,
      "epoch": 0.738892562977214,
      "flos": 22527569370240.0,
      "grad_norm": 2.1616855193982905,
      "language_loss": 0.77225864,
      "learning_rate": 6.733959101398124e-07,
      "loss": 0.79337907,
      "num_input_tokens_seen": 132128050,
      "step": 6145,
      "time_per_iteration": 2.564663887023926
    },
    {
      "auxiliary_loss_clip": 0.01073042,
      "auxiliary_loss_mlp": 0.01020135,
      "balance_loss_clip": 1.0368588,
      "balance_loss_mlp": 1.01460099,
      "epoch": 0.7390128058678531,
      "flos": 21503310186240.0,
      "grad_norm": 1.8791675870404665,
      "language_loss": 0.81278181,
      "learning_rate": 6.728130659526143e-07,
      "loss": 0.83371353,
      "num_input_tokens_seen": 132145860,
      "step": 6146,
      "time_per_iteration": 2.558588743209839
    },
    {
      "auxiliary_loss_clip": 0.0106321,
      "auxiliary_loss_mlp": 0.01025485,
      "balance_loss_clip": 1.03092456,
      "balance_loss_mlp": 1.0203675,
      "epoch": 0.7391330487584922,
      "flos": 25778574236160.0,
      "grad_norm": 2.282849699663664,
      "language_loss": 0.71375281,
      "learning_rate": 6.7223042309862e-07,
      "loss": 0.73463976,
      "num_input_tokens_seen": 132166060,
      "step": 6147,
      "time_per_iteration": 2.6449193954467773
    },
    {
      "auxiliary_loss_clip": 0.01084411,
      "auxiliary_loss_mlp": 0.01022333,
      "balance_loss_clip": 1.03806496,
      "balance_loss_mlp": 1.01738608,
      "epoch": 0.7392532916491312,
      "flos": 28369282325760.0,
      "grad_norm": 1.9798500295426291,
      "language_loss": 0.73497677,
      "learning_rate": 6.716479816662144e-07,
      "loss": 0.75604421,
      "num_input_tokens_seen": 132187790,
      "step": 6148,
      "time_per_iteration": 2.580674409866333
    },
    {
      "auxiliary_loss_clip": 0.01073363,
      "auxiliary_loss_mlp": 0.0101869,
      "balance_loss_clip": 1.03679132,
      "balance_loss_mlp": 1.01351357,
      "epoch": 0.7393735345397703,
      "flos": 23588088289920.0,
      "grad_norm": 3.0045004382000613,
      "language_loss": 0.72956944,
      "learning_rate": 6.710657417437531e-07,
      "loss": 0.75048995,
      "num_input_tokens_seen": 132207495,
      "step": 6149,
      "time_per_iteration": 2.640401840209961
    },
    {
      "auxiliary_loss_clip": 0.01064683,
      "auxiliary_loss_mlp": 0.01017968,
      "balance_loss_clip": 1.03448308,
      "balance_loss_mlp": 1.01296735,
      "epoch": 0.7394937774304094,
      "flos": 19976836988160.0,
      "grad_norm": 2.5489142370713673,
      "language_loss": 0.8021006,
      "learning_rate": 6.704837034195628e-07,
      "loss": 0.82292712,
      "num_input_tokens_seen": 132225960,
      "step": 6150,
      "time_per_iteration": 2.555586338043213
    },
    {
      "auxiliary_loss_clip": 0.01082884,
      "auxiliary_loss_mlp": 0.01025179,
      "balance_loss_clip": 1.03670692,
      "balance_loss_mlp": 1.01994848,
      "epoch": 0.7396140203210485,
      "flos": 23480332871040.0,
      "grad_norm": 1.808825299396801,
      "language_loss": 0.85257047,
      "learning_rate": 6.699018667819376e-07,
      "loss": 0.87365115,
      "num_input_tokens_seen": 132245360,
      "step": 6151,
      "time_per_iteration": 2.5904970169067383
    },
    {
      "auxiliary_loss_clip": 0.01084793,
      "auxiliary_loss_mlp": 0.01021174,
      "balance_loss_clip": 1.03728342,
      "balance_loss_mlp": 1.0155766,
      "epoch": 0.7397342632116876,
      "flos": 25557716949120.0,
      "grad_norm": 1.6381452135425982,
      "language_loss": 0.72921634,
      "learning_rate": 6.693202319191415e-07,
      "loss": 0.75027597,
      "num_input_tokens_seen": 132267095,
      "step": 6152,
      "time_per_iteration": 2.564283609390259
    },
    {
      "auxiliary_loss_clip": 0.0109655,
      "auxiliary_loss_mlp": 0.01020348,
      "balance_loss_clip": 1.04185486,
      "balance_loss_mlp": 1.01484656,
      "epoch": 0.7398545061023267,
      "flos": 24757386416640.0,
      "grad_norm": 3.2689760438523163,
      "language_loss": 0.74818826,
      "learning_rate": 6.687387989194084e-07,
      "loss": 0.7693572,
      "num_input_tokens_seen": 132286610,
      "step": 6153,
      "time_per_iteration": 2.59381365776062
    },
    {
      "auxiliary_loss_clip": 0.01063924,
      "auxiliary_loss_mlp": 0.01020341,
      "balance_loss_clip": 1.03804576,
      "balance_loss_mlp": 1.01518226,
      "epoch": 0.7399747489929658,
      "flos": 16510472956800.0,
      "grad_norm": 1.8254678589332085,
      "language_loss": 0.79197299,
      "learning_rate": 6.681575678709404e-07,
      "loss": 0.81281567,
      "num_input_tokens_seen": 132305300,
      "step": 6154,
      "time_per_iteration": 2.558356523513794
    },
    {
      "auxiliary_loss_clip": 0.01080042,
      "auxiliary_loss_mlp": 0.01019864,
      "balance_loss_clip": 1.03644586,
      "balance_loss_mlp": 1.01483631,
      "epoch": 0.7400949918836048,
      "flos": 24099326807040.0,
      "grad_norm": 2.272033686469446,
      "language_loss": 0.70841432,
      "learning_rate": 6.67576538861911e-07,
      "loss": 0.72941339,
      "num_input_tokens_seen": 132323875,
      "step": 6155,
      "time_per_iteration": 2.5961339473724365
    },
    {
      "auxiliary_loss_clip": 0.01063059,
      "auxiliary_loss_mlp": 0.0102155,
      "balance_loss_clip": 1.03434587,
      "balance_loss_mlp": 1.0164156,
      "epoch": 0.740215234774244,
      "flos": 21804877249920.0,
      "grad_norm": 2.151257020780946,
      "language_loss": 0.82038391,
      "learning_rate": 6.669957119804612e-07,
      "loss": 0.84122998,
      "num_input_tokens_seen": 132345510,
      "step": 6156,
      "time_per_iteration": 2.5996694564819336
    },
    {
      "auxiliary_loss_clip": 0.01074016,
      "auxiliary_loss_mlp": 0.01018545,
      "balance_loss_clip": 1.03771353,
      "balance_loss_mlp": 1.01343715,
      "epoch": 0.7403354776648831,
      "flos": 18735133144320.0,
      "grad_norm": 4.179168095062197,
      "language_loss": 0.71974134,
      "learning_rate": 6.66415087314702e-07,
      "loss": 0.74066699,
      "num_input_tokens_seen": 132360465,
      "step": 6157,
      "time_per_iteration": 2.571725606918335
    },
    {
      "auxiliary_loss_clip": 0.0107131,
      "auxiliary_loss_mlp": 0.01015226,
      "balance_loss_clip": 1.03745222,
      "balance_loss_mlp": 1.0099721,
      "epoch": 0.7404557205555221,
      "flos": 16911453461760.0,
      "grad_norm": 2.023676120879199,
      "language_loss": 0.73735738,
      "learning_rate": 6.65834664952714e-07,
      "loss": 0.7582227,
      "num_input_tokens_seen": 132377915,
      "step": 6158,
      "time_per_iteration": 2.549245595932007
    },
    {
      "auxiliary_loss_clip": 0.0105895,
      "auxiliary_loss_mlp": 0.01018805,
      "balance_loss_clip": 1.03536355,
      "balance_loss_mlp": 1.01372981,
      "epoch": 0.7405759634461613,
      "flos": 21216493255680.0,
      "grad_norm": 1.589790304398098,
      "language_loss": 0.75959492,
      "learning_rate": 6.652544449825457e-07,
      "loss": 0.78037244,
      "num_input_tokens_seen": 132398170,
      "step": 6159,
      "time_per_iteration": 2.6400904655456543
    },
    {
      "auxiliary_loss_clip": 0.01070214,
      "auxiliary_loss_mlp": 0.01022857,
      "balance_loss_clip": 1.03830338,
      "balance_loss_mlp": 1.01766253,
      "epoch": 0.7406962063368003,
      "flos": 20481894858240.0,
      "grad_norm": 2.190206616983228,
      "language_loss": 0.76582474,
      "learning_rate": 6.646744274922182e-07,
      "loss": 0.78675544,
      "num_input_tokens_seen": 132416615,
      "step": 6160,
      "time_per_iteration": 3.4118850231170654
    },
    {
      "auxiliary_loss_clip": 0.01069169,
      "auxiliary_loss_mlp": 0.01017632,
      "balance_loss_clip": 1.03552473,
      "balance_loss_mlp": 1.01226473,
      "epoch": 0.7408164492274394,
      "flos": 19793945750400.0,
      "grad_norm": 3.1606036932062853,
      "language_loss": 0.75517046,
      "learning_rate": 6.640946125697171e-07,
      "loss": 0.77603853,
      "num_input_tokens_seen": 132434145,
      "step": 6161,
      "time_per_iteration": 2.556137800216675
    },
    {
      "auxiliary_loss_clip": 0.01080306,
      "auxiliary_loss_mlp": 0.01019018,
      "balance_loss_clip": 1.035501,
      "balance_loss_mlp": 1.01348341,
      "epoch": 0.7409366921180786,
      "flos": 29207389317120.0,
      "grad_norm": 2.269478289868841,
      "language_loss": 0.75400496,
      "learning_rate": 6.635150003030017e-07,
      "loss": 0.77499819,
      "num_input_tokens_seen": 132452670,
      "step": 6162,
      "time_per_iteration": 3.380399227142334
    },
    {
      "auxiliary_loss_clip": 0.01042988,
      "auxiliary_loss_mlp": 0.01019254,
      "balance_loss_clip": 1.03470182,
      "balance_loss_mlp": 1.01433992,
      "epoch": 0.7410569350087176,
      "flos": 22932227928960.0,
      "grad_norm": 2.509202207142764,
      "language_loss": 0.86340821,
      "learning_rate": 6.629355907799981e-07,
      "loss": 0.88403058,
      "num_input_tokens_seen": 132472475,
      "step": 6163,
      "time_per_iteration": 3.3898580074310303
    },
    {
      "auxiliary_loss_clip": 0.0108042,
      "auxiliary_loss_mlp": 0.01020311,
      "balance_loss_clip": 1.03544855,
      "balance_loss_mlp": 1.01518488,
      "epoch": 0.7411771778993567,
      "flos": 30442722923520.0,
      "grad_norm": 3.9615678985044958,
      "language_loss": 0.69208992,
      "learning_rate": 6.623563840886015e-07,
      "loss": 0.7130971,
      "num_input_tokens_seen": 132493400,
      "step": 6164,
      "time_per_iteration": 2.6562411785125732
    },
    {
      "auxiliary_loss_clip": 0.01085247,
      "auxiliary_loss_mlp": 0.01015919,
      "balance_loss_clip": 1.03951526,
      "balance_loss_mlp": 1.01069164,
      "epoch": 0.7412974207899958,
      "flos": 20524145650560.0,
      "grad_norm": 2.887637571635656,
      "language_loss": 0.69634742,
      "learning_rate": 6.617773803166795e-07,
      "loss": 0.71735907,
      "num_input_tokens_seen": 132511725,
      "step": 6165,
      "time_per_iteration": 2.5279364585876465
    },
    {
      "auxiliary_loss_clip": 0.01071418,
      "auxiliary_loss_mlp": 0.00756754,
      "balance_loss_clip": 1.0366677,
      "balance_loss_mlp": 1.00163829,
      "epoch": 0.7414176636806349,
      "flos": 22092869640960.0,
      "grad_norm": 5.386578062075573,
      "language_loss": 0.82024223,
      "learning_rate": 6.611985795520634e-07,
      "loss": 0.83852398,
      "num_input_tokens_seen": 132530270,
      "step": 6166,
      "time_per_iteration": 3.5048842430114746
    },
    {
      "auxiliary_loss_clip": 0.01061473,
      "auxiliary_loss_mlp": 0.01019558,
      "balance_loss_clip": 1.03697586,
      "balance_loss_mlp": 1.01419353,
      "epoch": 0.7415379065712739,
      "flos": 25157570641920.0,
      "grad_norm": 1.913156858704363,
      "language_loss": 0.77442908,
      "learning_rate": 6.606199818825588e-07,
      "loss": 0.79523933,
      "num_input_tokens_seen": 132550725,
      "step": 6167,
      "time_per_iteration": 2.678922653198242
    },
    {
      "auxiliary_loss_clip": 0.01072599,
      "auxiliary_loss_mlp": 0.01020276,
      "balance_loss_clip": 1.03597069,
      "balance_loss_mlp": 1.01534414,
      "epoch": 0.7416581494619131,
      "flos": 16873525330560.0,
      "grad_norm": 2.03491544207319,
      "language_loss": 0.81983119,
      "learning_rate": 6.600415873959377e-07,
      "loss": 0.84075993,
      "num_input_tokens_seen": 132568600,
      "step": 6168,
      "time_per_iteration": 2.54034686088562
    },
    {
      "auxiliary_loss_clip": 0.01033891,
      "auxiliary_loss_mlp": 0.00756335,
      "balance_loss_clip": 1.03588843,
      "balance_loss_mlp": 1.00136685,
      "epoch": 0.7417783923525522,
      "flos": 28441384698240.0,
      "grad_norm": 1.9610674271310335,
      "language_loss": 0.64564693,
      "learning_rate": 6.594633961799437e-07,
      "loss": 0.66354918,
      "num_input_tokens_seen": 132587640,
      "step": 6169,
      "time_per_iteration": 2.779783248901367
    },
    {
      "auxiliary_loss_clip": 0.01060115,
      "auxiliary_loss_mlp": 0.01019089,
      "balance_loss_clip": 1.03514671,
      "balance_loss_mlp": 1.01399934,
      "epoch": 0.7418986352431912,
      "flos": 20086374556800.0,
      "grad_norm": 1.6902934884888985,
      "language_loss": 0.81214762,
      "learning_rate": 6.588854083222857e-07,
      "loss": 0.83293962,
      "num_input_tokens_seen": 132607075,
      "step": 6170,
      "time_per_iteration": 2.601621627807617
    },
    {
      "auxiliary_loss_clip": 0.01064942,
      "auxiliary_loss_mlp": 0.01021223,
      "balance_loss_clip": 1.03438807,
      "balance_loss_mlp": 1.01545906,
      "epoch": 0.7420188781338304,
      "flos": 18261519413760.0,
      "grad_norm": 2.1524293759041604,
      "language_loss": 0.80929637,
      "learning_rate": 6.583076239106444e-07,
      "loss": 0.83015805,
      "num_input_tokens_seen": 132625580,
      "step": 6171,
      "time_per_iteration": 2.6119725704193115
    },
    {
      "auxiliary_loss_clip": 0.01070289,
      "auxiliary_loss_mlp": 0.01019571,
      "balance_loss_clip": 1.03623533,
      "balance_loss_mlp": 1.01412582,
      "epoch": 0.7421391210244694,
      "flos": 13773702136320.0,
      "grad_norm": 3.0603894662472126,
      "language_loss": 0.7499671,
      "learning_rate": 6.577300430326707e-07,
      "loss": 0.77086574,
      "num_input_tokens_seen": 132640525,
      "step": 6172,
      "time_per_iteration": 2.549023151397705
    },
    {
      "auxiliary_loss_clip": 0.01048688,
      "auxiliary_loss_mlp": 0.01017879,
      "balance_loss_clip": 1.03022051,
      "balance_loss_mlp": 1.01274145,
      "epoch": 0.7422593639151085,
      "flos": 15963543475200.0,
      "grad_norm": 2.129621721134056,
      "language_loss": 0.72247767,
      "learning_rate": 6.571526657759821e-07,
      "loss": 0.74314332,
      "num_input_tokens_seen": 132656265,
      "step": 6173,
      "time_per_iteration": 2.59637713432312
    },
    {
      "auxiliary_loss_clip": 0.01083861,
      "auxiliary_loss_mlp": 0.01016077,
      "balance_loss_clip": 1.03710711,
      "balance_loss_mlp": 1.01087928,
      "epoch": 0.7423796068057477,
      "flos": 30116840319360.0,
      "grad_norm": 2.0539045362521136,
      "language_loss": 0.70719063,
      "learning_rate": 6.565754922281663e-07,
      "loss": 0.72819,
      "num_input_tokens_seen": 132678510,
      "step": 6174,
      "time_per_iteration": 2.614088535308838
    },
    {
      "auxiliary_loss_clip": 0.01072701,
      "auxiliary_loss_mlp": 0.01020594,
      "balance_loss_clip": 1.03638661,
      "balance_loss_mlp": 1.01567698,
      "epoch": 0.7424998496963867,
      "flos": 20523993978240.0,
      "grad_norm": 1.6645813540225676,
      "language_loss": 0.78312147,
      "learning_rate": 6.559985224767801e-07,
      "loss": 0.80405438,
      "num_input_tokens_seen": 132696385,
      "step": 6175,
      "time_per_iteration": 2.5907506942749023
    },
    {
      "auxiliary_loss_clip": 0.01055464,
      "auxiliary_loss_mlp": 0.01021339,
      "balance_loss_clip": 1.03638124,
      "balance_loss_mlp": 1.01594806,
      "epoch": 0.7426200925870258,
      "flos": 21873718667520.0,
      "grad_norm": 2.4999675239967623,
      "language_loss": 0.75881851,
      "learning_rate": 6.55421756609349e-07,
      "loss": 0.77958655,
      "num_input_tokens_seen": 132714640,
      "step": 6176,
      "time_per_iteration": 2.603031873703003
    },
    {
      "auxiliary_loss_clip": 0.01077123,
      "auxiliary_loss_mlp": 0.01022207,
      "balance_loss_clip": 1.03925967,
      "balance_loss_mlp": 1.01676798,
      "epoch": 0.7427403354776649,
      "flos": 26434434597120.0,
      "grad_norm": 2.4560489187777224,
      "language_loss": 0.78937459,
      "learning_rate": 6.54845194713369e-07,
      "loss": 0.81036788,
      "num_input_tokens_seen": 132735590,
      "step": 6177,
      "time_per_iteration": 2.6254303455352783
    },
    {
      "auxiliary_loss_clip": 0.01085337,
      "auxiliary_loss_mlp": 0.0102262,
      "balance_loss_clip": 1.03875089,
      "balance_loss_mlp": 1.01764297,
      "epoch": 0.742860578368304,
      "flos": 19900260282240.0,
      "grad_norm": 2.2391855004996497,
      "language_loss": 0.8007046,
      "learning_rate": 6.542688368763034e-07,
      "loss": 0.8217842,
      "num_input_tokens_seen": 132753995,
      "step": 6178,
      "time_per_iteration": 2.5349366664886475
    },
    {
      "auxiliary_loss_clip": 0.01080554,
      "auxiliary_loss_mlp": 0.01019998,
      "balance_loss_clip": 1.03766859,
      "balance_loss_mlp": 1.01490426,
      "epoch": 0.742980821258943,
      "flos": 24829526707200.0,
      "grad_norm": 3.570450604293944,
      "language_loss": 0.77082431,
      "learning_rate": 6.536926831855854e-07,
      "loss": 0.79182982,
      "num_input_tokens_seen": 132773160,
      "step": 6179,
      "time_per_iteration": 2.607539415359497
    },
    {
      "auxiliary_loss_clip": 0.01067727,
      "auxiliary_loss_mlp": 0.01018537,
      "balance_loss_clip": 1.0354712,
      "balance_loss_mlp": 1.01343751,
      "epoch": 0.7431010641495821,
      "flos": 25231000147200.0,
      "grad_norm": 3.173165972839362,
      "language_loss": 0.73092711,
      "learning_rate": 6.531167337286165e-07,
      "loss": 0.75178981,
      "num_input_tokens_seen": 132793180,
      "step": 6180,
      "time_per_iteration": 2.5980405807495117
    },
    {
      "auxiliary_loss_clip": 0.01068722,
      "auxiliary_loss_mlp": 0.01019113,
      "balance_loss_clip": 1.03749561,
      "balance_loss_mlp": 1.01418948,
      "epoch": 0.7432213070402213,
      "flos": 21764522361600.0,
      "grad_norm": 2.000396160169887,
      "language_loss": 0.79764837,
      "learning_rate": 6.52540988592768e-07,
      "loss": 0.81852674,
      "num_input_tokens_seen": 132814200,
      "step": 6181,
      "time_per_iteration": 2.616119146347046
    },
    {
      "auxiliary_loss_clip": 0.0106908,
      "auxiliary_loss_mlp": 0.01018245,
      "balance_loss_clip": 1.03597045,
      "balance_loss_mlp": 1.01307988,
      "epoch": 0.7433415499308603,
      "flos": 14795610399360.0,
      "grad_norm": 2.343734878239039,
      "language_loss": 0.83528775,
      "learning_rate": 6.519654478653814e-07,
      "loss": 0.856161,
      "num_input_tokens_seen": 132832565,
      "step": 6182,
      "time_per_iteration": 2.591724157333374
    },
    {
      "auxiliary_loss_clip": 0.01025943,
      "auxiliary_loss_mlp": 0.0100081,
      "balance_loss_clip": 1.01898682,
      "balance_loss_mlp": 0.99908143,
      "epoch": 0.7434617928214994,
      "flos": 67162568924160.0,
      "grad_norm": 0.7466688377701934,
      "language_loss": 0.5608269,
      "learning_rate": 6.51390111633763e-07,
      "loss": 0.58109438,
      "num_input_tokens_seen": 132897840,
      "step": 6183,
      "time_per_iteration": 3.230053424835205
    },
    {
      "auxiliary_loss_clip": 0.01033317,
      "auxiliary_loss_mlp": 0.01016654,
      "balance_loss_clip": 1.03306675,
      "balance_loss_mlp": 1.01143825,
      "epoch": 0.7435820357121385,
      "flos": 27379841990400.0,
      "grad_norm": 1.6623133960896417,
      "language_loss": 0.7617476,
      "learning_rate": 6.508149799851932e-07,
      "loss": 0.7822473,
      "num_input_tokens_seen": 132919505,
      "step": 6184,
      "time_per_iteration": 2.767812728881836
    },
    {
      "auxiliary_loss_clip": 0.0106093,
      "auxiliary_loss_mlp": 0.01016302,
      "balance_loss_clip": 1.0294261,
      "balance_loss_mlp": 1.01146233,
      "epoch": 0.7437022786027776,
      "flos": 23989902992640.0,
      "grad_norm": 3.05155730255619,
      "language_loss": 0.60741293,
      "learning_rate": 6.502400530069183e-07,
      "loss": 0.62818527,
      "num_input_tokens_seen": 132939390,
      "step": 6185,
      "time_per_iteration": 2.5617763996124268
    },
    {
      "auxiliary_loss_clip": 0.01060114,
      "auxiliary_loss_mlp": 0.01022819,
      "balance_loss_clip": 1.03674662,
      "balance_loss_mlp": 1.0171622,
      "epoch": 0.7438225214934167,
      "flos": 21868637644800.0,
      "grad_norm": 1.5690519617453587,
      "language_loss": 0.68283021,
      "learning_rate": 6.496653307861535e-07,
      "loss": 0.70365953,
      "num_input_tokens_seen": 132960060,
      "step": 6186,
      "time_per_iteration": 3.4199535846710205
    },
    {
      "auxiliary_loss_clip": 0.01085469,
      "auxiliary_loss_mlp": 0.01023514,
      "balance_loss_clip": 1.03787482,
      "balance_loss_mlp": 1.01836371,
      "epoch": 0.7439427643840558,
      "flos": 20232171861120.0,
      "grad_norm": 1.7900907442035094,
      "language_loss": 0.66070783,
      "learning_rate": 6.490908134100857e-07,
      "loss": 0.68179762,
      "num_input_tokens_seen": 132978525,
      "step": 6187,
      "time_per_iteration": 3.3117635250091553
    },
    {
      "auxiliary_loss_clip": 0.01084299,
      "auxiliary_loss_mlp": 0.01020464,
      "balance_loss_clip": 1.03792489,
      "balance_loss_mlp": 1.01488805,
      "epoch": 0.7440630072746949,
      "flos": 20851999994880.0,
      "grad_norm": 2.0571289401020105,
      "language_loss": 0.69458395,
      "learning_rate": 6.48516500965866e-07,
      "loss": 0.71563154,
      "num_input_tokens_seen": 132998460,
      "step": 6188,
      "time_per_iteration": 2.539656400680542
    },
    {
      "auxiliary_loss_clip": 0.01082143,
      "auxiliary_loss_mlp": 0.01016515,
      "balance_loss_clip": 1.03492999,
      "balance_loss_mlp": 1.01131761,
      "epoch": 0.7441832501653339,
      "flos": 26506081952640.0,
      "grad_norm": 1.8257483864544628,
      "language_loss": 0.81575155,
      "learning_rate": 6.479423935406192e-07,
      "loss": 0.83673811,
      "num_input_tokens_seen": 133018445,
      "step": 6189,
      "time_per_iteration": 3.402949094772339
    },
    {
      "auxiliary_loss_clip": 0.01030893,
      "auxiliary_loss_mlp": 0.01003117,
      "balance_loss_clip": 1.02579319,
      "balance_loss_mlp": 1.00126934,
      "epoch": 0.7443034930559731,
      "flos": 68609242379520.0,
      "grad_norm": 0.7981868297743896,
      "language_loss": 0.6198346,
      "learning_rate": 6.473684912214357e-07,
      "loss": 0.64017469,
      "num_input_tokens_seen": 133082005,
      "step": 6190,
      "time_per_iteration": 3.2904345989227295
    },
    {
      "auxiliary_loss_clip": 0.01082573,
      "auxiliary_loss_mlp": 0.01018313,
      "balance_loss_clip": 1.03764677,
      "balance_loss_mlp": 1.01307416,
      "epoch": 0.7444237359466122,
      "flos": 18656622616320.0,
      "grad_norm": 2.878585840942882,
      "language_loss": 0.69842017,
      "learning_rate": 6.467947940953778e-07,
      "loss": 0.71942908,
      "num_input_tokens_seen": 133100530,
      "step": 6191,
      "time_per_iteration": 2.561612367630005
    },
    {
      "auxiliary_loss_clip": 0.01071515,
      "auxiliary_loss_mlp": 0.0102331,
      "balance_loss_clip": 1.03766155,
      "balance_loss_mlp": 1.01821995,
      "epoch": 0.7445439788372512,
      "flos": 22819656913920.0,
      "grad_norm": 1.9259446274939158,
      "language_loss": 0.72184718,
      "learning_rate": 6.462213022494732e-07,
      "loss": 0.74279547,
      "num_input_tokens_seen": 133119775,
      "step": 6192,
      "time_per_iteration": 3.7865288257598877
    },
    {
      "auxiliary_loss_clip": 0.01036046,
      "auxiliary_loss_mlp": 0.01001996,
      "balance_loss_clip": 1.01937902,
      "balance_loss_mlp": 1.00025558,
      "epoch": 0.7446642217278904,
      "flos": 67052652174720.0,
      "grad_norm": 0.7687061946895306,
      "language_loss": 0.61005664,
      "learning_rate": 6.456480157707201e-07,
      "loss": 0.63043702,
      "num_input_tokens_seen": 133184550,
      "step": 6193,
      "time_per_iteration": 3.0996956825256348
    },
    {
      "auxiliary_loss_clip": 0.01059764,
      "auxiliary_loss_mlp": 0.01022309,
      "balance_loss_clip": 1.03560925,
      "balance_loss_mlp": 1.01669455,
      "epoch": 0.7447844646185294,
      "flos": 17419203515520.0,
      "grad_norm": 2.0034091129415534,
      "language_loss": 0.84978098,
      "learning_rate": 6.450749347460866e-07,
      "loss": 0.87060171,
      "num_input_tokens_seen": 133201525,
      "step": 6194,
      "time_per_iteration": 2.662600040435791
    },
    {
      "auxiliary_loss_clip": 0.01094429,
      "auxiliary_loss_mlp": 0.01024068,
      "balance_loss_clip": 1.0384959,
      "balance_loss_mlp": 1.01895428,
      "epoch": 0.7449047075091685,
      "flos": 26618349623040.0,
      "grad_norm": 2.010685348150353,
      "language_loss": 0.79182172,
      "learning_rate": 6.445020592625083e-07,
      "loss": 0.8130067,
      "num_input_tokens_seen": 133222175,
      "step": 6195,
      "time_per_iteration": 2.5438854694366455
    },
    {
      "auxiliary_loss_clip": 0.01093545,
      "auxiliary_loss_mlp": 0.01020983,
      "balance_loss_clip": 1.03756058,
      "balance_loss_mlp": 1.01574707,
      "epoch": 0.7450249503998077,
      "flos": 14172028375680.0,
      "grad_norm": 2.4538069938046965,
      "language_loss": 0.80556226,
      "learning_rate": 6.4392938940689e-07,
      "loss": 0.82670748,
      "num_input_tokens_seen": 133237590,
      "step": 6196,
      "time_per_iteration": 2.5177955627441406
    },
    {
      "auxiliary_loss_clip": 0.01046536,
      "auxiliary_loss_mlp": 0.00756406,
      "balance_loss_clip": 1.03538442,
      "balance_loss_mlp": 1.00146604,
      "epoch": 0.7451451932904467,
      "flos": 19608551919360.0,
      "grad_norm": 2.6071142064015276,
      "language_loss": 0.715253,
      "learning_rate": 6.433569252661049e-07,
      "loss": 0.73328245,
      "num_input_tokens_seen": 133255590,
      "step": 6197,
      "time_per_iteration": 2.629000663757324
    },
    {
      "auxiliary_loss_clip": 0.01058532,
      "auxiliary_loss_mlp": 0.01020238,
      "balance_loss_clip": 1.03505206,
      "balance_loss_mlp": 1.01536846,
      "epoch": 0.7452654361810858,
      "flos": 12497065689600.0,
      "grad_norm": 1.9103883429497541,
      "language_loss": 0.71516985,
      "learning_rate": 6.427846669269952e-07,
      "loss": 0.73595756,
      "num_input_tokens_seen": 133273210,
      "step": 6198,
      "time_per_iteration": 2.6340978145599365
    },
    {
      "auxiliary_loss_clip": 0.01096573,
      "auxiliary_loss_mlp": 0.01021614,
      "balance_loss_clip": 1.04027545,
      "balance_loss_mlp": 1.016783,
      "epoch": 0.7453856790717249,
      "flos": 22129508557440.0,
      "grad_norm": 2.0436851556405133,
      "language_loss": 0.82555735,
      "learning_rate": 6.422126144763729e-07,
      "loss": 0.84673917,
      "num_input_tokens_seen": 133292600,
      "step": 6199,
      "time_per_iteration": 2.5546841621398926
    },
    {
      "auxiliary_loss_clip": 0.01060611,
      "auxiliary_loss_mlp": 0.00756567,
      "balance_loss_clip": 1.0360148,
      "balance_loss_mlp": 1.00140131,
      "epoch": 0.745505921962364,
      "flos": 20012717543040.0,
      "grad_norm": 2.2324849779587312,
      "language_loss": 0.77117848,
      "learning_rate": 6.416407680010174e-07,
      "loss": 0.78935027,
      "num_input_tokens_seen": 133306960,
      "step": 6200,
      "time_per_iteration": 2.6412241458892822
    },
    {
      "auxiliary_loss_clip": 0.01046497,
      "auxiliary_loss_mlp": 0.01023245,
      "balance_loss_clip": 1.03611267,
      "balance_loss_mlp": 1.01775861,
      "epoch": 0.745626164853003,
      "flos": 24680013431040.0,
      "grad_norm": 1.984756187375147,
      "language_loss": 0.80689931,
      "learning_rate": 6.410691275876774e-07,
      "loss": 0.82759672,
      "num_input_tokens_seen": 133326380,
      "step": 6201,
      "time_per_iteration": 2.6733272075653076
    },
    {
      "auxiliary_loss_clip": 0.01068051,
      "auxiliary_loss_mlp": 0.01019373,
      "balance_loss_clip": 1.03708565,
      "balance_loss_mlp": 1.01430345,
      "epoch": 0.7457464077436422,
      "flos": 14540616789120.0,
      "grad_norm": 3.728520754904127,
      "language_loss": 0.7676689,
      "learning_rate": 6.404976933230704e-07,
      "loss": 0.78854316,
      "num_input_tokens_seen": 133342900,
      "step": 6202,
      "time_per_iteration": 2.609452962875366
    },
    {
      "auxiliary_loss_clip": 0.01075975,
      "auxiliary_loss_mlp": 0.01020124,
      "balance_loss_clip": 1.03876686,
      "balance_loss_mlp": 1.01490903,
      "epoch": 0.7458666506342813,
      "flos": 34024008890880.0,
      "grad_norm": 1.795337549028326,
      "language_loss": 0.72760224,
      "learning_rate": 6.399264652938813e-07,
      "loss": 0.74856329,
      "num_input_tokens_seen": 133363805,
      "step": 6203,
      "time_per_iteration": 2.710733652114868
    },
    {
      "auxiliary_loss_clip": 0.01068396,
      "auxiliary_loss_mlp": 0.01018148,
      "balance_loss_clip": 1.03594232,
      "balance_loss_mlp": 1.01305771,
      "epoch": 0.7459868935249203,
      "flos": 24281270092800.0,
      "grad_norm": 2.109491264894713,
      "language_loss": 0.74531221,
      "learning_rate": 6.393554435867679e-07,
      "loss": 0.76617765,
      "num_input_tokens_seen": 133384655,
      "step": 6204,
      "time_per_iteration": 2.696490526199341
    },
    {
      "auxiliary_loss_clip": 0.01059275,
      "auxiliary_loss_mlp": 0.0101789,
      "balance_loss_clip": 1.03528631,
      "balance_loss_mlp": 1.01245666,
      "epoch": 0.7461071364155595,
      "flos": 21910964273280.0,
      "grad_norm": 2.090386859139405,
      "language_loss": 0.83627403,
      "learning_rate": 6.387846282883502e-07,
      "loss": 0.85704571,
      "num_input_tokens_seen": 133401185,
      "step": 6205,
      "time_per_iteration": 2.667846202850342
    },
    {
      "auxiliary_loss_clip": 0.0109249,
      "auxiliary_loss_mlp": 0.01022303,
      "balance_loss_clip": 1.03716707,
      "balance_loss_mlp": 1.01694775,
      "epoch": 0.7462273793061985,
      "flos": 22891721368320.0,
      "grad_norm": 2.0031497542719525,
      "language_loss": 0.77168298,
      "learning_rate": 6.38214019485223e-07,
      "loss": 0.79283082,
      "num_input_tokens_seen": 133420010,
      "step": 6206,
      "time_per_iteration": 2.525913953781128
    },
    {
      "auxiliary_loss_clip": 0.01033809,
      "auxiliary_loss_mlp": 0.01021007,
      "balance_loss_clip": 1.03186536,
      "balance_loss_mlp": 1.01573181,
      "epoch": 0.7463476221968376,
      "flos": 19970163406080.0,
      "grad_norm": 1.8434853293441522,
      "language_loss": 0.71335101,
      "learning_rate": 6.376436172639461e-07,
      "loss": 0.73389912,
      "num_input_tokens_seen": 133437855,
      "step": 6207,
      "time_per_iteration": 2.7124040126800537
    },
    {
      "auxiliary_loss_clip": 0.01016784,
      "auxiliary_loss_mlp": 0.01021283,
      "balance_loss_clip": 1.03434527,
      "balance_loss_mlp": 1.0155313,
      "epoch": 0.7464678650874768,
      "flos": 16838478973440.0,
      "grad_norm": 2.6261766650604583,
      "language_loss": 0.64946008,
      "learning_rate": 6.370734217110487e-07,
      "loss": 0.66984075,
      "num_input_tokens_seen": 133456600,
      "step": 6208,
      "time_per_iteration": 2.6974856853485107
    },
    {
      "auxiliary_loss_clip": 0.01070715,
      "auxiliary_loss_mlp": 0.01024587,
      "balance_loss_clip": 1.03791666,
      "balance_loss_mlp": 1.01905847,
      "epoch": 0.7465881079781158,
      "flos": 48104255410560.0,
      "grad_norm": 2.915129710936605,
      "language_loss": 0.6433869,
      "learning_rate": 6.36503432913031e-07,
      "loss": 0.6643399,
      "num_input_tokens_seen": 133479745,
      "step": 6209,
      "time_per_iteration": 2.8775198459625244
    },
    {
      "auxiliary_loss_clip": 0.01075563,
      "auxiliary_loss_mlp": 0.01020572,
      "balance_loss_clip": 1.03527844,
      "balance_loss_mlp": 1.01525807,
      "epoch": 0.7467083508687549,
      "flos": 19679099650560.0,
      "grad_norm": 2.49546484694507,
      "language_loss": 0.69639683,
      "learning_rate": 6.359336509563569e-07,
      "loss": 0.71735817,
      "num_input_tokens_seen": 133495765,
      "step": 6210,
      "time_per_iteration": 2.568190813064575
    },
    {
      "auxiliary_loss_clip": 0.01049875,
      "auxiliary_loss_mlp": 0.01026144,
      "balance_loss_clip": 1.03298306,
      "balance_loss_mlp": 1.02065444,
      "epoch": 0.7468285937593939,
      "flos": 17897405333760.0,
      "grad_norm": 1.8708072410516068,
      "language_loss": 0.8071655,
      "learning_rate": 6.353640759274641e-07,
      "loss": 0.82792574,
      "num_input_tokens_seen": 133514655,
      "step": 6211,
      "time_per_iteration": 2.6352527141571045
    },
    {
      "auxiliary_loss_clip": 0.01083146,
      "auxiliary_loss_mlp": 0.01018151,
      "balance_loss_clip": 1.03635573,
      "balance_loss_mlp": 1.01269472,
      "epoch": 0.7469488366500331,
      "flos": 23143264433280.0,
      "grad_norm": 3.7795089232381014,
      "language_loss": 0.75074971,
      "learning_rate": 6.347947079127556e-07,
      "loss": 0.77176261,
      "num_input_tokens_seen": 133532555,
      "step": 6212,
      "time_per_iteration": 3.3500163555145264
    },
    {
      "auxiliary_loss_clip": 0.01072165,
      "auxiliary_loss_mlp": 0.01018677,
      "balance_loss_clip": 1.03777909,
      "balance_loss_mlp": 1.01343429,
      "epoch": 0.7470690795406721,
      "flos": 16692719587200.0,
      "grad_norm": 2.775002888933624,
      "language_loss": 0.77127802,
      "learning_rate": 6.342255469986053e-07,
      "loss": 0.79218644,
      "num_input_tokens_seen": 133551300,
      "step": 6213,
      "time_per_iteration": 3.3960108757019043
    },
    {
      "auxiliary_loss_clip": 0.01094676,
      "auxiliary_loss_mlp": 0.01019989,
      "balance_loss_clip": 1.03840947,
      "balance_loss_mlp": 1.01471686,
      "epoch": 0.7471893224313112,
      "flos": 25195081674240.0,
      "grad_norm": 1.8045148495322059,
      "language_loss": 0.76251292,
      "learning_rate": 6.336565932713533e-07,
      "loss": 0.78365958,
      "num_input_tokens_seen": 133570725,
      "step": 6214,
      "time_per_iteration": 3.3889541625976562
    },
    {
      "auxiliary_loss_clip": 0.01062761,
      "auxiliary_loss_mlp": 0.01021153,
      "balance_loss_clip": 1.03685427,
      "balance_loss_mlp": 1.01586556,
      "epoch": 0.7473095653219504,
      "flos": 22528289813760.0,
      "grad_norm": 1.9029379754164997,
      "language_loss": 0.77968216,
      "learning_rate": 6.330878468173088e-07,
      "loss": 0.80052131,
      "num_input_tokens_seen": 133590790,
      "step": 6215,
      "time_per_iteration": 2.659543514251709
    },
    {
      "auxiliary_loss_clip": 0.0108315,
      "auxiliary_loss_mlp": 0.01018197,
      "balance_loss_clip": 1.0367744,
      "balance_loss_mlp": 1.01316333,
      "epoch": 0.7474298082125894,
      "flos": 18115949617920.0,
      "grad_norm": 1.981206945415905,
      "language_loss": 0.72882199,
      "learning_rate": 6.32519307722752e-07,
      "loss": 0.74983549,
      "num_input_tokens_seen": 133608685,
      "step": 6216,
      "time_per_iteration": 2.5761356353759766
    },
    {
      "auxiliary_loss_clip": 0.01029444,
      "auxiliary_loss_mlp": 0.01005235,
      "balance_loss_clip": 1.0426681,
      "balance_loss_mlp": 1.0035181,
      "epoch": 0.7475500511032285,
      "flos": 62093382497280.0,
      "grad_norm": 0.9475994737928206,
      "language_loss": 0.54940885,
      "learning_rate": 6.31950976073929e-07,
      "loss": 0.56975561,
      "num_input_tokens_seen": 133662775,
      "step": 6217,
      "time_per_iteration": 3.196566343307495
    },
    {
      "auxiliary_loss_clip": 0.01033811,
      "auxiliary_loss_mlp": 0.01019132,
      "balance_loss_clip": 1.03020048,
      "balance_loss_mlp": 1.01384187,
      "epoch": 0.7476702939938676,
      "flos": 17787526502400.0,
      "grad_norm": 2.1522947873040574,
      "language_loss": 0.80920058,
      "learning_rate": 6.31382851957055e-07,
      "loss": 0.82973003,
      "num_input_tokens_seen": 133679595,
      "step": 6218,
      "time_per_iteration": 3.7672581672668457
    },
    {
      "auxiliary_loss_clip": 0.01051569,
      "auxiliary_loss_mlp": 0.00756691,
      "balance_loss_clip": 1.03162527,
      "balance_loss_mlp": 1.00155151,
      "epoch": 0.7477905368845067,
      "flos": 27930411607680.0,
      "grad_norm": 2.10234165476,
      "language_loss": 0.71497434,
      "learning_rate": 6.308149354583143e-07,
      "loss": 0.73305696,
      "num_input_tokens_seen": 133699000,
      "step": 6219,
      "time_per_iteration": 2.6889967918395996
    },
    {
      "auxiliary_loss_clip": 0.01083829,
      "auxiliary_loss_mlp": 0.01019381,
      "balance_loss_clip": 1.03813696,
      "balance_loss_mlp": 1.0137006,
      "epoch": 0.7479107797751458,
      "flos": 26872812380160.0,
      "grad_norm": 1.7499195289601337,
      "language_loss": 0.81923771,
      "learning_rate": 6.302472266638586e-07,
      "loss": 0.8402698,
      "num_input_tokens_seen": 133719540,
      "step": 6220,
      "time_per_iteration": 2.6052370071411133
    },
    {
      "auxiliary_loss_clip": 0.01097284,
      "auxiliary_loss_mlp": 0.01019686,
      "balance_loss_clip": 1.039621,
      "balance_loss_mlp": 1.01418424,
      "epoch": 0.7480310226657849,
      "flos": 33945915461760.0,
      "grad_norm": 2.129487137384764,
      "language_loss": 0.69989711,
      "learning_rate": 6.296797256598101e-07,
      "loss": 0.72106683,
      "num_input_tokens_seen": 133741020,
      "step": 6221,
      "time_per_iteration": 2.7150375843048096
    },
    {
      "auxiliary_loss_clip": 0.01056921,
      "auxiliary_loss_mlp": 0.01020223,
      "balance_loss_clip": 1.03474212,
      "balance_loss_mlp": 1.01497459,
      "epoch": 0.748151265556424,
      "flos": 24828844181760.0,
      "grad_norm": 1.7314009996062794,
      "language_loss": 0.8133285,
      "learning_rate": 6.291124325322576e-07,
      "loss": 0.83409989,
      "num_input_tokens_seen": 133761145,
      "step": 6222,
      "time_per_iteration": 2.6168506145477295
    },
    {
      "auxiliary_loss_clip": 0.0107387,
      "auxiliary_loss_mlp": 0.01018538,
      "balance_loss_clip": 1.03778553,
      "balance_loss_mlp": 1.01311636,
      "epoch": 0.748271508447063,
      "flos": 38402402353920.0,
      "grad_norm": 1.7018419542392236,
      "language_loss": 0.62329221,
      "learning_rate": 6.285453473672595e-07,
      "loss": 0.6442163,
      "num_input_tokens_seen": 133783715,
      "step": 6223,
      "time_per_iteration": 2.714644193649292
    },
    {
      "auxiliary_loss_clip": 0.01092464,
      "auxiliary_loss_mlp": 0.01018785,
      "balance_loss_clip": 1.03644943,
      "balance_loss_mlp": 1.01382029,
      "epoch": 0.7483917513377022,
      "flos": 21543892583040.0,
      "grad_norm": 2.2974637499853467,
      "language_loss": 0.7543903,
      "learning_rate": 6.279784702508415e-07,
      "loss": 0.7755028,
      "num_input_tokens_seen": 133804465,
      "step": 6224,
      "time_per_iteration": 2.5187997817993164
    },
    {
      "auxiliary_loss_clip": 0.01011739,
      "auxiliary_loss_mlp": 0.01001729,
      "balance_loss_clip": 1.02005565,
      "balance_loss_mlp": 1.0,
      "epoch": 0.7485119942283412,
      "flos": 62321899236480.0,
      "grad_norm": 0.8023516220470845,
      "language_loss": 0.58510149,
      "learning_rate": 6.274118012689979e-07,
      "loss": 0.60523617,
      "num_input_tokens_seen": 133866365,
      "step": 6225,
      "time_per_iteration": 3.283809185028076
    },
    {
      "auxiliary_loss_clip": 0.01064312,
      "auxiliary_loss_mlp": 0.01016743,
      "balance_loss_clip": 1.03180671,
      "balance_loss_mlp": 1.01172769,
      "epoch": 0.7486322371189803,
      "flos": 29940357237120.0,
      "grad_norm": 1.6636661383360074,
      "language_loss": 0.68210572,
      "learning_rate": 6.268453405076943e-07,
      "loss": 0.70291626,
      "num_input_tokens_seen": 133888760,
      "step": 6226,
      "time_per_iteration": 2.6696488857269287
    },
    {
      "auxiliary_loss_clip": 0.01069201,
      "auxiliary_loss_mlp": 0.01017549,
      "balance_loss_clip": 1.0351069,
      "balance_loss_mlp": 1.01278615,
      "epoch": 0.7487524800096195,
      "flos": 18951212753280.0,
      "grad_norm": 2.1107047201440214,
      "language_loss": 0.82286036,
      "learning_rate": 6.262790880528592e-07,
      "loss": 0.84372783,
      "num_input_tokens_seen": 133906380,
      "step": 6227,
      "time_per_iteration": 2.5278055667877197
    },
    {
      "auxiliary_loss_clip": 0.01064366,
      "auxiliary_loss_mlp": 0.01022235,
      "balance_loss_clip": 1.03694761,
      "balance_loss_mlp": 1.01693296,
      "epoch": 0.7488727229002585,
      "flos": 18699366343680.0,
      "grad_norm": 3.350927895791899,
      "language_loss": 0.7923649,
      "learning_rate": 6.257130439903951e-07,
      "loss": 0.81323087,
      "num_input_tokens_seen": 133922875,
      "step": 6228,
      "time_per_iteration": 2.6062583923339844
    },
    {
      "auxiliary_loss_clip": 0.0109655,
      "auxiliary_loss_mlp": 0.01020505,
      "balance_loss_clip": 1.03933477,
      "balance_loss_mlp": 1.01530719,
      "epoch": 0.7489929657908976,
      "flos": 23625637240320.0,
      "grad_norm": 2.061960456385598,
      "language_loss": 0.81057394,
      "learning_rate": 6.251472084061695e-07,
      "loss": 0.83174443,
      "num_input_tokens_seen": 133941795,
      "step": 6229,
      "time_per_iteration": 2.4961349964141846
    },
    {
      "auxiliary_loss_clip": 0.01080973,
      "auxiliary_loss_mlp": 0.01020639,
      "balance_loss_clip": 1.0382762,
      "balance_loss_mlp": 1.01578128,
      "epoch": 0.7491132086815367,
      "flos": 20553238869120.0,
      "grad_norm": 1.9420348384432398,
      "language_loss": 0.89441019,
      "learning_rate": 6.245815813860191e-07,
      "loss": 0.91542637,
      "num_input_tokens_seen": 133957305,
      "step": 6230,
      "time_per_iteration": 2.5624489784240723
    },
    {
      "auxiliary_loss_clip": 0.01094631,
      "auxiliary_loss_mlp": 0.01018398,
      "balance_loss_clip": 1.03767335,
      "balance_loss_mlp": 1.01302421,
      "epoch": 0.7492334515721758,
      "flos": 23005240335360.0,
      "grad_norm": 2.0028706109335,
      "language_loss": 0.70342374,
      "learning_rate": 6.240161630157495e-07,
      "loss": 0.72455406,
      "num_input_tokens_seen": 133976660,
      "step": 6231,
      "time_per_iteration": 2.495187282562256
    },
    {
      "auxiliary_loss_clip": 0.01094613,
      "auxiliary_loss_mlp": 0.01018086,
      "balance_loss_clip": 1.03817379,
      "balance_loss_mlp": 1.01281714,
      "epoch": 0.7493536944628149,
      "flos": 16400669961600.0,
      "grad_norm": 2.7717008481528604,
      "language_loss": 0.70261645,
      "learning_rate": 6.23450953381133e-07,
      "loss": 0.72374344,
      "num_input_tokens_seen": 133994750,
      "step": 6232,
      "time_per_iteration": 2.5433857440948486
    },
    {
      "auxiliary_loss_clip": 0.01070615,
      "auxiliary_loss_mlp": 0.01019489,
      "balance_loss_clip": 1.03578556,
      "balance_loss_mlp": 1.01436949,
      "epoch": 0.749473937353454,
      "flos": 15340226878080.0,
      "grad_norm": 2.082206361678156,
      "language_loss": 0.68182755,
      "learning_rate": 6.228859525679131e-07,
      "loss": 0.70272863,
      "num_input_tokens_seen": 134009165,
      "step": 6233,
      "time_per_iteration": 2.583872079849243
    },
    {
      "auxiliary_loss_clip": 0.01081952,
      "auxiliary_loss_mlp": 0.01018103,
      "balance_loss_clip": 1.0366596,
      "balance_loss_mlp": 1.01299787,
      "epoch": 0.7495941802440931,
      "flos": 18953032821120.0,
      "grad_norm": 13.280708927470359,
      "language_loss": 0.79826117,
      "learning_rate": 6.223211606617986e-07,
      "loss": 0.81926179,
      "num_input_tokens_seen": 134027585,
      "step": 6234,
      "time_per_iteration": 2.583289623260498
    },
    {
      "auxiliary_loss_clip": 0.01082192,
      "auxiliary_loss_mlp": 0.01018582,
      "balance_loss_clip": 1.03918028,
      "balance_loss_mlp": 1.01391256,
      "epoch": 0.7497144231347321,
      "flos": 22494684343680.0,
      "grad_norm": 1.8218915571345615,
      "language_loss": 0.83955729,
      "learning_rate": 6.217565777484701e-07,
      "loss": 0.86056501,
      "num_input_tokens_seen": 134046680,
      "step": 6235,
      "time_per_iteration": 2.613409996032715
    },
    {
      "auxiliary_loss_clip": 0.01064589,
      "auxiliary_loss_mlp": 0.00756564,
      "balance_loss_clip": 1.03361702,
      "balance_loss_mlp": 1.00147736,
      "epoch": 0.7498346660253713,
      "flos": 24245806636800.0,
      "grad_norm": 1.9955348673364128,
      "language_loss": 0.80387819,
      "learning_rate": 6.211922039135722e-07,
      "loss": 0.82208967,
      "num_input_tokens_seen": 134066825,
      "step": 6236,
      "time_per_iteration": 2.723799705505371
    },
    {
      "auxiliary_loss_clip": 0.01096587,
      "auxiliary_loss_mlp": 0.01020112,
      "balance_loss_clip": 1.04042959,
      "balance_loss_mlp": 1.01500058,
      "epoch": 0.7499549089160104,
      "flos": 24389253020160.0,
      "grad_norm": 2.2406565183782923,
      "language_loss": 0.81037438,
      "learning_rate": 6.206280392427201e-07,
      "loss": 0.83154136,
      "num_input_tokens_seen": 134086410,
      "step": 6237,
      "time_per_iteration": 2.5647623538970947
    },
    {
      "auxiliary_loss_clip": 0.01082736,
      "auxiliary_loss_mlp": 0.01018515,
      "balance_loss_clip": 1.03726625,
      "balance_loss_mlp": 1.01310277,
      "epoch": 0.7500751518066494,
      "flos": 34060116954240.0,
      "grad_norm": 1.883174542273253,
      "language_loss": 0.73858392,
      "learning_rate": 6.200640838214983e-07,
      "loss": 0.75959635,
      "num_input_tokens_seen": 134109185,
      "step": 6238,
      "time_per_iteration": 4.237205505371094
    },
    {
      "auxiliary_loss_clip": 0.01093433,
      "auxiliary_loss_mlp": 0.01022372,
      "balance_loss_clip": 1.03722668,
      "balance_loss_mlp": 1.01700497,
      "epoch": 0.7501953946972886,
      "flos": 18845580746880.0,
      "grad_norm": 2.177904446482454,
      "language_loss": 0.66875505,
      "learning_rate": 6.195003377354578e-07,
      "loss": 0.68991315,
      "num_input_tokens_seen": 134128455,
      "step": 6239,
      "time_per_iteration": 2.547403573989868
    },
    {
      "auxiliary_loss_clip": 0.01082893,
      "auxiliary_loss_mlp": 0.01019199,
      "balance_loss_clip": 1.03589654,
      "balance_loss_mlp": 1.01371539,
      "epoch": 0.7503156375879276,
      "flos": 20259255421440.0,
      "grad_norm": 2.474968211991983,
      "language_loss": 0.73419905,
      "learning_rate": 6.189368010701183e-07,
      "loss": 0.75522,
      "num_input_tokens_seen": 134145515,
      "step": 6240,
      "time_per_iteration": 2.6049420833587646
    },
    {
      "auxiliary_loss_clip": 0.01083798,
      "auxiliary_loss_mlp": 0.01021438,
      "balance_loss_clip": 1.03562796,
      "balance_loss_mlp": 1.01597869,
      "epoch": 0.7504358804785667,
      "flos": 13481728346880.0,
      "grad_norm": 2.5142021596464232,
      "language_loss": 0.76399624,
      "learning_rate": 6.183734739109683e-07,
      "loss": 0.7850486,
      "num_input_tokens_seen": 134163335,
      "step": 6241,
      "time_per_iteration": 3.386747121810913
    },
    {
      "auxiliary_loss_clip": 0.01079895,
      "auxiliary_loss_mlp": 0.01021709,
      "balance_loss_clip": 1.03856158,
      "balance_loss_mlp": 1.01604033,
      "epoch": 0.7505561233692057,
      "flos": 29463634224000.0,
      "grad_norm": 2.2383468474511417,
      "language_loss": 0.68718934,
      "learning_rate": 6.178103563434629e-07,
      "loss": 0.70820534,
      "num_input_tokens_seen": 134182335,
      "step": 6242,
      "time_per_iteration": 2.608663320541382
    },
    {
      "auxiliary_loss_clip": 0.01093962,
      "auxiliary_loss_mlp": 0.01022077,
      "balance_loss_clip": 1.03734756,
      "balance_loss_mlp": 1.01700795,
      "epoch": 0.7506763662598449,
      "flos": 20304501742080.0,
      "grad_norm": 1.8050864744773432,
      "language_loss": 0.84151042,
      "learning_rate": 6.172474484530283e-07,
      "loss": 0.86267078,
      "num_input_tokens_seen": 134201070,
      "step": 6243,
      "time_per_iteration": 2.5767507553100586
    },
    {
      "auxiliary_loss_clip": 0.01073861,
      "auxiliary_loss_mlp": 0.01021138,
      "balance_loss_clip": 1.03739715,
      "balance_loss_mlp": 1.01554704,
      "epoch": 0.750796609150484,
      "flos": 37233900506880.0,
      "grad_norm": 1.7513463044188686,
      "language_loss": 0.75876331,
      "learning_rate": 6.166847503250563e-07,
      "loss": 0.77971327,
      "num_input_tokens_seen": 134223310,
      "step": 6244,
      "time_per_iteration": 3.7056734561920166
    },
    {
      "auxiliary_loss_clip": 0.01071185,
      "auxiliary_loss_mlp": 0.01020285,
      "balance_loss_clip": 1.03656483,
      "balance_loss_mlp": 1.01513553,
      "epoch": 0.750916852041123,
      "flos": 19611433693440.0,
      "grad_norm": 2.6182296124861724,
      "language_loss": 0.79153848,
      "learning_rate": 6.161222620449078e-07,
      "loss": 0.81245315,
      "num_input_tokens_seen": 134242085,
      "step": 6245,
      "time_per_iteration": 2.5882089138031006
    },
    {
      "auxiliary_loss_clip": 0.01055105,
      "auxiliary_loss_mlp": 0.01023654,
      "balance_loss_clip": 1.03391838,
      "balance_loss_mlp": 1.01853728,
      "epoch": 0.7510370949317622,
      "flos": 25114675242240.0,
      "grad_norm": 2.34071937484081,
      "language_loss": 0.80165374,
      "learning_rate": 6.155599836979117e-07,
      "loss": 0.82244134,
      "num_input_tokens_seen": 134260770,
      "step": 6246,
      "time_per_iteration": 2.7307779788970947
    },
    {
      "auxiliary_loss_clip": 0.0104503,
      "auxiliary_loss_mlp": 0.01024051,
      "balance_loss_clip": 1.03284597,
      "balance_loss_mlp": 1.01857293,
      "epoch": 0.7511573378224012,
      "flos": 19064276703360.0,
      "grad_norm": 2.5368437303947147,
      "language_loss": 0.81468177,
      "learning_rate": 6.149979153693649e-07,
      "loss": 0.83537257,
      "num_input_tokens_seen": 134278025,
      "step": 6247,
      "time_per_iteration": 2.644946575164795
    },
    {
      "auxiliary_loss_clip": 0.01086189,
      "auxiliary_loss_mlp": 0.01019234,
      "balance_loss_clip": 1.03884208,
      "balance_loss_mlp": 1.01379192,
      "epoch": 0.7512775807130403,
      "flos": 19939705136640.0,
      "grad_norm": 2.2029703561888665,
      "language_loss": 0.77109188,
      "learning_rate": 6.144360571445343e-07,
      "loss": 0.79214609,
      "num_input_tokens_seen": 134297170,
      "step": 6248,
      "time_per_iteration": 2.6714065074920654
    },
    {
      "auxiliary_loss_clip": 0.01074089,
      "auxiliary_loss_mlp": 0.01018457,
      "balance_loss_clip": 1.03260195,
      "balance_loss_mlp": 1.01327693,
      "epoch": 0.7513978236036795,
      "flos": 20741969491200.0,
      "grad_norm": 4.484926310884468,
      "language_loss": 0.80194426,
      "learning_rate": 6.138744091086509e-07,
      "loss": 0.82286972,
      "num_input_tokens_seen": 134316755,
      "step": 6249,
      "time_per_iteration": 2.59873104095459
    },
    {
      "auxiliary_loss_clip": 0.01058266,
      "auxiliary_loss_mlp": 0.01019552,
      "balance_loss_clip": 1.03588533,
      "balance_loss_mlp": 1.01430058,
      "epoch": 0.7515180664943185,
      "flos": 27565615002240.0,
      "grad_norm": 3.2984709938133823,
      "language_loss": 0.72801018,
      "learning_rate": 6.133129713469183e-07,
      "loss": 0.74878836,
      "num_input_tokens_seen": 134335960,
      "step": 6250,
      "time_per_iteration": 2.685049057006836
    },
    {
      "auxiliary_loss_clip": 0.01062562,
      "auxiliary_loss_mlp": 0.01018504,
      "balance_loss_clip": 1.03570724,
      "balance_loss_mlp": 1.01315784,
      "epoch": 0.7516383093849576,
      "flos": 33806033377920.0,
      "grad_norm": 1.6088446276754014,
      "language_loss": 0.63466936,
      "learning_rate": 6.127517439445053e-07,
      "loss": 0.65548003,
      "num_input_tokens_seen": 134356805,
      "step": 6251,
      "time_per_iteration": 2.7476727962493896
    },
    {
      "auxiliary_loss_clip": 0.01041099,
      "auxiliary_loss_mlp": 0.01019387,
      "balance_loss_clip": 1.03546524,
      "balance_loss_mlp": 1.01442766,
      "epoch": 0.7517585522755967,
      "flos": 29748403578240.0,
      "grad_norm": 2.266343452559274,
      "language_loss": 0.82038587,
      "learning_rate": 6.121907269865498e-07,
      "loss": 0.84099066,
      "num_input_tokens_seen": 134376295,
      "step": 6252,
      "time_per_iteration": 2.752399206161499
    },
    {
      "auxiliary_loss_clip": 0.01013837,
      "auxiliary_loss_mlp": 0.01003726,
      "balance_loss_clip": 1.0188303,
      "balance_loss_mlp": 1.00193775,
      "epoch": 0.7518787951662358,
      "flos": 69814496897280.0,
      "grad_norm": 0.92630425790862,
      "language_loss": 0.67270428,
      "learning_rate": 6.116299205581577e-07,
      "loss": 0.69287992,
      "num_input_tokens_seen": 134431125,
      "step": 6253,
      "time_per_iteration": 3.1765432357788086
    },
    {
      "auxiliary_loss_clip": 0.01098166,
      "auxiliary_loss_mlp": 0.01022907,
      "balance_loss_clip": 1.04113293,
      "balance_loss_mlp": 1.01715207,
      "epoch": 0.7519990380568748,
      "flos": 34206028012800.0,
      "grad_norm": 2.35945211642673,
      "language_loss": 0.68699586,
      "learning_rate": 6.110693247444018e-07,
      "loss": 0.70820665,
      "num_input_tokens_seen": 134452960,
      "step": 6254,
      "time_per_iteration": 2.6934237480163574
    },
    {
      "auxiliary_loss_clip": 0.01051059,
      "auxiliary_loss_mlp": 0.01017503,
      "balance_loss_clip": 1.03279877,
      "balance_loss_mlp": 1.01255012,
      "epoch": 0.752119280947514,
      "flos": 21727845527040.0,
      "grad_norm": 1.8666681271666452,
      "language_loss": 0.82501149,
      "learning_rate": 6.105089396303258e-07,
      "loss": 0.84569705,
      "num_input_tokens_seen": 134471350,
      "step": 6255,
      "time_per_iteration": 2.6681230068206787
    },
    {
      "auxiliary_loss_clip": 0.01071241,
      "auxiliary_loss_mlp": 0.01023516,
      "balance_loss_clip": 1.03768146,
      "balance_loss_mlp": 1.01795793,
      "epoch": 0.7522395238381531,
      "flos": 32745438622080.0,
      "grad_norm": 1.8808875787406343,
      "language_loss": 0.7561515,
      "learning_rate": 6.099487653009383e-07,
      "loss": 0.77709901,
      "num_input_tokens_seen": 134490695,
      "step": 6256,
      "time_per_iteration": 2.7563698291778564
    },
    {
      "auxiliary_loss_clip": 0.01083532,
      "auxiliary_loss_mlp": 0.01019304,
      "balance_loss_clip": 1.03783441,
      "balance_loss_mlp": 1.01466703,
      "epoch": 0.7523597667287921,
      "flos": 23478209458560.0,
      "grad_norm": 1.9134745787712715,
      "language_loss": 0.83505827,
      "learning_rate": 6.093888018412192e-07,
      "loss": 0.85608661,
      "num_input_tokens_seen": 134506885,
      "step": 6257,
      "time_per_iteration": 2.642199993133545
    },
    {
      "auxiliary_loss_clip": 0.01037187,
      "auxiliary_loss_mlp": 0.01001508,
      "balance_loss_clip": 1.02057981,
      "balance_loss_mlp": 0.9997679,
      "epoch": 0.7524800096194313,
      "flos": 67354219238400.0,
      "grad_norm": 0.7685726275547035,
      "language_loss": 0.54674596,
      "learning_rate": 6.088290493361125e-07,
      "loss": 0.56713289,
      "num_input_tokens_seen": 134571770,
      "step": 6258,
      "time_per_iteration": 3.311633825302124
    },
    {
      "auxiliary_loss_clip": 0.01043515,
      "auxiliary_loss_mlp": 0.0102018,
      "balance_loss_clip": 1.03594124,
      "balance_loss_mlp": 1.01484275,
      "epoch": 0.7526002525100703,
      "flos": 13007735435520.0,
      "grad_norm": 2.1713718693866557,
      "language_loss": 0.71485484,
      "learning_rate": 6.082695078705322e-07,
      "loss": 0.73549187,
      "num_input_tokens_seen": 134589250,
      "step": 6259,
      "time_per_iteration": 2.7339954376220703
    },
    {
      "auxiliary_loss_clip": 0.01084392,
      "auxiliary_loss_mlp": 0.01020884,
      "balance_loss_clip": 1.03801107,
      "balance_loss_mlp": 1.01545978,
      "epoch": 0.7527204954007094,
      "flos": 21399346575360.0,
      "grad_norm": 2.0642419504924434,
      "language_loss": 0.69026172,
      "learning_rate": 6.077101775293618e-07,
      "loss": 0.7113145,
      "num_input_tokens_seen": 134608075,
      "step": 6260,
      "time_per_iteration": 2.6033082008361816
    },
    {
      "auxiliary_loss_clip": 0.01081975,
      "auxiliary_loss_mlp": 0.01021989,
      "balance_loss_clip": 1.03769112,
      "balance_loss_mlp": 1.01604056,
      "epoch": 0.7528407382913486,
      "flos": 18948861832320.0,
      "grad_norm": 3.1305200927740575,
      "language_loss": 0.82671934,
      "learning_rate": 6.071510583974504e-07,
      "loss": 0.84775901,
      "num_input_tokens_seen": 134623260,
      "step": 6261,
      "time_per_iteration": 2.570186138153076
    },
    {
      "auxiliary_loss_clip": 0.01093617,
      "auxiliary_loss_mlp": 0.01024417,
      "balance_loss_clip": 1.03749418,
      "balance_loss_mlp": 1.01894236,
      "epoch": 0.7529609811819876,
      "flos": 15233609001600.0,
      "grad_norm": 2.035369836097277,
      "language_loss": 0.71839809,
      "learning_rate": 6.065921505596161e-07,
      "loss": 0.73957849,
      "num_input_tokens_seen": 134641540,
      "step": 6262,
      "time_per_iteration": 2.5666353702545166
    },
    {
      "auxiliary_loss_clip": 0.01057688,
      "auxiliary_loss_mlp": 0.01017971,
      "balance_loss_clip": 1.03638983,
      "balance_loss_mlp": 1.01298845,
      "epoch": 0.7530812240726267,
      "flos": 19356515919360.0,
      "grad_norm": 1.7286728544299228,
      "language_loss": 0.76613951,
      "learning_rate": 6.060334541006445e-07,
      "loss": 0.78689605,
      "num_input_tokens_seen": 134660035,
      "step": 6263,
      "time_per_iteration": 2.6466856002807617
    },
    {
      "auxiliary_loss_clip": 0.01061238,
      "auxiliary_loss_mlp": 0.01020798,
      "balance_loss_clip": 1.0352639,
      "balance_loss_mlp": 1.01554418,
      "epoch": 0.7532014669632658,
      "flos": 27750857160960.0,
      "grad_norm": 1.568353359202059,
      "language_loss": 0.68994224,
      "learning_rate": 6.05474969105289e-07,
      "loss": 0.71076262,
      "num_input_tokens_seen": 134683025,
      "step": 6264,
      "time_per_iteration": 4.2939183712005615
    },
    {
      "auxiliary_loss_clip": 0.01082644,
      "auxiliary_loss_mlp": 0.01017574,
      "balance_loss_clip": 1.03797615,
      "balance_loss_mlp": 1.01210856,
      "epoch": 0.7533217098539049,
      "flos": 14139181267200.0,
      "grad_norm": 2.271496918720842,
      "language_loss": 0.7408855,
      "learning_rate": 6.049166956582725e-07,
      "loss": 0.76188767,
      "num_input_tokens_seen": 134701290,
      "step": 6265,
      "time_per_iteration": 2.6222243309020996
    },
    {
      "auxiliary_loss_clip": 0.0108342,
      "auxiliary_loss_mlp": 0.01016708,
      "balance_loss_clip": 1.03811347,
      "balance_loss_mlp": 1.01172161,
      "epoch": 0.753441952744544,
      "flos": 26431287396480.0,
      "grad_norm": 2.050313720879215,
      "language_loss": 0.87718046,
      "learning_rate": 6.043586338442841e-07,
      "loss": 0.8981818,
      "num_input_tokens_seen": 134720345,
      "step": 6266,
      "time_per_iteration": 2.6476666927337646
    },
    {
      "auxiliary_loss_clip": 0.01094036,
      "auxiliary_loss_mlp": 0.01018051,
      "balance_loss_clip": 1.03927958,
      "balance_loss_mlp": 1.01337504,
      "epoch": 0.7535621956351831,
      "flos": 23880896277120.0,
      "grad_norm": 1.784244192074371,
      "language_loss": 0.73117143,
      "learning_rate": 6.038007837479815e-07,
      "loss": 0.75229228,
      "num_input_tokens_seen": 134741450,
      "step": 6267,
      "time_per_iteration": 3.39148211479187
    },
    {
      "auxiliary_loss_clip": 0.01080239,
      "auxiliary_loss_mlp": 0.01020155,
      "balance_loss_clip": 1.0365622,
      "balance_loss_mlp": 1.01471329,
      "epoch": 0.7536824385258222,
      "flos": 21797862405120.0,
      "grad_norm": 2.059280535573223,
      "language_loss": 0.6410296,
      "learning_rate": 6.032431454539897e-07,
      "loss": 0.66203356,
      "num_input_tokens_seen": 134760295,
      "step": 6268,
      "time_per_iteration": 2.6166605949401855
    },
    {
      "auxiliary_loss_clip": 0.01058783,
      "auxiliary_loss_mlp": 0.01021573,
      "balance_loss_clip": 1.03632164,
      "balance_loss_mlp": 1.01642573,
      "epoch": 0.7538026814164612,
      "flos": 28914088394880.0,
      "grad_norm": 2.053387671315247,
      "language_loss": 0.81565857,
      "learning_rate": 6.026857190469014e-07,
      "loss": 0.83646214,
      "num_input_tokens_seen": 134782050,
      "step": 6269,
      "time_per_iteration": 3.9566266536712646
    },
    {
      "auxiliary_loss_clip": 0.01071084,
      "auxiliary_loss_mlp": 0.01016107,
      "balance_loss_clip": 1.0360465,
      "balance_loss_mlp": 1.01071227,
      "epoch": 0.7539229243071004,
      "flos": 21106766096640.0,
      "grad_norm": 2.2058564814181625,
      "language_loss": 0.73698407,
      "learning_rate": 6.0212850461128e-07,
      "loss": 0.75785595,
      "num_input_tokens_seen": 134801170,
      "step": 6270,
      "time_per_iteration": 2.655881404876709
    },
    {
      "auxiliary_loss_clip": 0.01071012,
      "auxiliary_loss_mlp": 0.01019369,
      "balance_loss_clip": 1.03635073,
      "balance_loss_mlp": 1.01388884,
      "epoch": 0.7540431671977395,
      "flos": 15160255332480.0,
      "grad_norm": 2.372968758722405,
      "language_loss": 0.7485016,
      "learning_rate": 6.015715022316516e-07,
      "loss": 0.76940542,
      "num_input_tokens_seen": 134819150,
      "step": 6271,
      "time_per_iteration": 2.5772790908813477
    },
    {
      "auxiliary_loss_clip": 0.01044131,
      "auxiliary_loss_mlp": 0.01016065,
      "balance_loss_clip": 1.03244281,
      "balance_loss_mlp": 1.01067424,
      "epoch": 0.7541634100883785,
      "flos": 18772568340480.0,
      "grad_norm": 3.513696794164078,
      "language_loss": 0.78341651,
      "learning_rate": 6.010147119925154e-07,
      "loss": 0.8040185,
      "num_input_tokens_seen": 134836905,
      "step": 6272,
      "time_per_iteration": 2.7256593704223633
    },
    {
      "auxiliary_loss_clip": 0.01058064,
      "auxiliary_loss_mlp": 0.0102002,
      "balance_loss_clip": 1.03592753,
      "balance_loss_mlp": 1.01464415,
      "epoch": 0.7542836529790176,
      "flos": 20596854712320.0,
      "grad_norm": 1.9018171151283665,
      "language_loss": 0.66605854,
      "learning_rate": 6.004581339783348e-07,
      "loss": 0.68683946,
      "num_input_tokens_seen": 134855225,
      "step": 6273,
      "time_per_iteration": 2.6380791664123535
    },
    {
      "auxiliary_loss_clip": 0.01082082,
      "auxiliary_loss_mlp": 0.01026186,
      "balance_loss_clip": 1.03677428,
      "balance_loss_mlp": 1.02021062,
      "epoch": 0.7544038958696567,
      "flos": 19096896303360.0,
      "grad_norm": 2.626314791706346,
      "language_loss": 0.68266475,
      "learning_rate": 5.999017682735425e-07,
      "loss": 0.70374739,
      "num_input_tokens_seen": 134871615,
      "step": 6274,
      "time_per_iteration": 2.6058974266052246
    },
    {
      "auxiliary_loss_clip": 0.01032891,
      "auxiliary_loss_mlp": 0.01020418,
      "balance_loss_clip": 1.03229022,
      "balance_loss_mlp": 1.01530087,
      "epoch": 0.7545241387602958,
      "flos": 31726032952320.0,
      "grad_norm": 1.8738310919538688,
      "language_loss": 0.66248381,
      "learning_rate": 5.993456149625387e-07,
      "loss": 0.6830169,
      "num_input_tokens_seen": 134892765,
      "step": 6275,
      "time_per_iteration": 2.8004908561706543
    },
    {
      "auxiliary_loss_clip": 0.01056913,
      "auxiliary_loss_mlp": 0.01017703,
      "balance_loss_clip": 1.03481984,
      "balance_loss_mlp": 1.0128181,
      "epoch": 0.7546443816509348,
      "flos": 20298207340800.0,
      "grad_norm": 2.7452189322083402,
      "language_loss": 0.82400727,
      "learning_rate": 5.987896741296909e-07,
      "loss": 0.84475344,
      "num_input_tokens_seen": 134910505,
      "step": 6276,
      "time_per_iteration": 2.6833410263061523
    },
    {
      "auxiliary_loss_clip": 0.01062968,
      "auxiliary_loss_mlp": 0.01021933,
      "balance_loss_clip": 1.03195667,
      "balance_loss_mlp": 1.01660681,
      "epoch": 0.754764624541574,
      "flos": 23698422138240.0,
      "grad_norm": 2.0400898436599344,
      "language_loss": 0.78215998,
      "learning_rate": 5.982339458593361e-07,
      "loss": 0.80300897,
      "num_input_tokens_seen": 134930445,
      "step": 6277,
      "time_per_iteration": 2.6291916370391846
    },
    {
      "auxiliary_loss_clip": 0.01075023,
      "auxiliary_loss_mlp": 0.00756637,
      "balance_loss_clip": 1.03302217,
      "balance_loss_mlp": 1.00147128,
      "epoch": 0.7548848674322131,
      "flos": 25339513927680.0,
      "grad_norm": 1.9551291841465679,
      "language_loss": 0.84047234,
      "learning_rate": 5.976784302357767e-07,
      "loss": 0.85878891,
      "num_input_tokens_seen": 134951010,
      "step": 6278,
      "time_per_iteration": 2.653534412384033
    },
    {
      "auxiliary_loss_clip": 0.01084237,
      "auxiliary_loss_mlp": 0.01022269,
      "balance_loss_clip": 1.03894591,
      "balance_loss_mlp": 1.01726234,
      "epoch": 0.7550051103228521,
      "flos": 19575173957760.0,
      "grad_norm": 2.5829628090321752,
      "language_loss": 0.73508281,
      "learning_rate": 5.971231273432855e-07,
      "loss": 0.75614786,
      "num_input_tokens_seen": 134970495,
      "step": 6279,
      "time_per_iteration": 2.550808906555176
    },
    {
      "auxiliary_loss_clip": 0.01036974,
      "auxiliary_loss_mlp": 0.01002508,
      "balance_loss_clip": 1.02107716,
      "balance_loss_mlp": 1.00070786,
      "epoch": 0.7551253532134913,
      "flos": 64156130196480.0,
      "grad_norm": 1.3652663403209981,
      "language_loss": 0.54533595,
      "learning_rate": 5.965680372661e-07,
      "loss": 0.56573075,
      "num_input_tokens_seen": 135028060,
      "step": 6280,
      "time_per_iteration": 3.0942225456237793
    },
    {
      "auxiliary_loss_clip": 0.01071496,
      "auxiliary_loss_mlp": 0.01019949,
      "balance_loss_clip": 1.03766584,
      "balance_loss_mlp": 1.01525545,
      "epoch": 0.7552455961041303,
      "flos": 26070396353280.0,
      "grad_norm": 1.9741229476861544,
      "language_loss": 0.56356227,
      "learning_rate": 5.960131600884266e-07,
      "loss": 0.58447665,
      "num_input_tokens_seen": 135047330,
      "step": 6281,
      "time_per_iteration": 2.6320037841796875
    },
    {
      "auxiliary_loss_clip": 0.0105961,
      "auxiliary_loss_mlp": 0.01020098,
      "balance_loss_clip": 1.03614295,
      "balance_loss_mlp": 1.01510918,
      "epoch": 0.7553658389947694,
      "flos": 24500496902400.0,
      "grad_norm": 1.8598523039723305,
      "language_loss": 0.76277751,
      "learning_rate": 5.954584958944413e-07,
      "loss": 0.78357458,
      "num_input_tokens_seen": 135065995,
      "step": 6282,
      "time_per_iteration": 2.681453227996826
    },
    {
      "auxiliary_loss_clip": 0.01060276,
      "auxiliary_loss_mlp": 0.00756672,
      "balance_loss_clip": 1.03545809,
      "balance_loss_mlp": 1.00146699,
      "epoch": 0.7554860818854086,
      "flos": 21801654213120.0,
      "grad_norm": 2.2021951174707604,
      "language_loss": 0.81709051,
      "learning_rate": 5.949040447682854e-07,
      "loss": 0.83526003,
      "num_input_tokens_seen": 135085820,
      "step": 6283,
      "time_per_iteration": 2.7151949405670166
    },
    {
      "auxiliary_loss_clip": 0.01071499,
      "auxiliary_loss_mlp": 0.01019842,
      "balance_loss_clip": 1.03671598,
      "balance_loss_mlp": 1.01473069,
      "epoch": 0.7556063247760476,
      "flos": 16363955208960.0,
      "grad_norm": 2.1846677750511825,
      "language_loss": 0.68632698,
      "learning_rate": 5.943498067940686e-07,
      "loss": 0.7072404,
      "num_input_tokens_seen": 135102845,
      "step": 6284,
      "time_per_iteration": 2.5539238452911377
    },
    {
      "auxiliary_loss_clip": 0.01055184,
      "auxiliary_loss_mlp": 0.01022242,
      "balance_loss_clip": 1.03240037,
      "balance_loss_mlp": 1.01707125,
      "epoch": 0.7557265676666867,
      "flos": 27237608985600.0,
      "grad_norm": 1.9727470143506278,
      "language_loss": 0.81231153,
      "learning_rate": 5.937957820558686e-07,
      "loss": 0.83308583,
      "num_input_tokens_seen": 135122190,
      "step": 6285,
      "time_per_iteration": 2.675147533416748
    },
    {
      "auxiliary_loss_clip": 0.01020967,
      "auxiliary_loss_mlp": 0.01001263,
      "balance_loss_clip": 1.02039361,
      "balance_loss_mlp": 0.99949914,
      "epoch": 0.7558468105573258,
      "flos": 62195601876480.0,
      "grad_norm": 0.8490833646530772,
      "language_loss": 0.65260518,
      "learning_rate": 5.932419706377296e-07,
      "loss": 0.67282748,
      "num_input_tokens_seen": 135180495,
      "step": 6286,
      "time_per_iteration": 3.1481542587280273
    },
    {
      "auxiliary_loss_clip": 0.01047935,
      "auxiliary_loss_mlp": 0.0101576,
      "balance_loss_clip": 1.03126085,
      "balance_loss_mlp": 1.01067877,
      "epoch": 0.7559670534479649,
      "flos": 33251520280320.0,
      "grad_norm": 1.9055060828468564,
      "language_loss": 0.74513757,
      "learning_rate": 5.92688372623666e-07,
      "loss": 0.76577455,
      "num_input_tokens_seen": 135199200,
      "step": 6287,
      "time_per_iteration": 2.759394884109497
    },
    {
      "auxiliary_loss_clip": 0.010802,
      "auxiliary_loss_mlp": 0.01016127,
      "balance_loss_clip": 1.03573394,
      "balance_loss_mlp": 1.01092684,
      "epoch": 0.7560872963386039,
      "flos": 14066130942720.0,
      "grad_norm": 2.953740063796441,
      "language_loss": 0.7402159,
      "learning_rate": 5.921349880976574e-07,
      "loss": 0.76117915,
      "num_input_tokens_seen": 135217035,
      "step": 6288,
      "time_per_iteration": 2.5550107955932617
    },
    {
      "auxiliary_loss_clip": 0.01071897,
      "auxiliary_loss_mlp": 0.00756856,
      "balance_loss_clip": 1.03531146,
      "balance_loss_mlp": 1.00152063,
      "epoch": 0.7562075392292431,
      "flos": 20414380573440.0,
      "grad_norm": 5.234882246967673,
      "language_loss": 0.81928265,
      "learning_rate": 5.915818171436515e-07,
      "loss": 0.83757019,
      "num_input_tokens_seen": 135236370,
      "step": 6289,
      "time_per_iteration": 2.6136648654937744
    },
    {
      "auxiliary_loss_clip": 0.01073831,
      "auxiliary_loss_mlp": 0.0102005,
      "balance_loss_clip": 1.03711164,
      "balance_loss_mlp": 1.01460183,
      "epoch": 0.7563277821198822,
      "flos": 20378917117440.0,
      "grad_norm": 1.5764309501793312,
      "language_loss": 0.74535871,
      "learning_rate": 5.910288598455642e-07,
      "loss": 0.76629752,
      "num_input_tokens_seen": 135255720,
      "step": 6290,
      "time_per_iteration": 4.1692304611206055
    },
    {
      "auxiliary_loss_clip": 0.01085767,
      "auxiliary_loss_mlp": 0.01023592,
      "balance_loss_clip": 1.03912187,
      "balance_loss_mlp": 1.01796246,
      "epoch": 0.7564480250105212,
      "flos": 18590245873920.0,
      "grad_norm": 2.1478436305414244,
      "language_loss": 0.74142277,
      "learning_rate": 5.90476116287278e-07,
      "loss": 0.76251638,
      "num_input_tokens_seen": 135273320,
      "step": 6291,
      "time_per_iteration": 2.5285582542419434
    },
    {
      "auxiliary_loss_clip": 0.01068682,
      "auxiliary_loss_mlp": 0.01025113,
      "balance_loss_clip": 1.03665936,
      "balance_loss_mlp": 1.01982355,
      "epoch": 0.7565682679011604,
      "flos": 21217668716160.0,
      "grad_norm": 1.8287867936039632,
      "language_loss": 0.68246341,
      "learning_rate": 5.899235865526456e-07,
      "loss": 0.70340139,
      "num_input_tokens_seen": 135292615,
      "step": 6292,
      "time_per_iteration": 3.410491943359375
    },
    {
      "auxiliary_loss_clip": 0.01060124,
      "auxiliary_loss_mlp": 0.01020796,
      "balance_loss_clip": 1.03649259,
      "balance_loss_mlp": 1.01594687,
      "epoch": 0.7566885107917994,
      "flos": 20451095326080.0,
      "grad_norm": 1.7103655815969006,
      "language_loss": 0.82242501,
      "learning_rate": 5.893712707254825e-07,
      "loss": 0.84323424,
      "num_input_tokens_seen": 135310075,
      "step": 6293,
      "time_per_iteration": 2.678727388381958
    },
    {
      "auxiliary_loss_clip": 0.01041676,
      "auxiliary_loss_mlp": 0.0101952,
      "balance_loss_clip": 1.03205729,
      "balance_loss_mlp": 1.01375651,
      "epoch": 0.7568087536824385,
      "flos": 19027827377280.0,
      "grad_norm": 2.813730067636932,
      "language_loss": 0.66253471,
      "learning_rate": 5.888191688895769e-07,
      "loss": 0.68314672,
      "num_input_tokens_seen": 135327335,
      "step": 6294,
      "time_per_iteration": 2.6743857860565186
    },
    {
      "auxiliary_loss_clip": 0.01094032,
      "auxiliary_loss_mlp": 0.010208,
      "balance_loss_clip": 1.03789043,
      "balance_loss_mlp": 1.0151521,
      "epoch": 0.7569289965730777,
      "flos": 15226897501440.0,
      "grad_norm": 4.038329830032655,
      "language_loss": 0.61891508,
      "learning_rate": 5.882672811286813e-07,
      "loss": 0.64006335,
      "num_input_tokens_seen": 135343615,
      "step": 6295,
      "time_per_iteration": 3.3414506912231445
    },
    {
      "auxiliary_loss_clip": 0.01095352,
      "auxiliary_loss_mlp": 0.0102189,
      "balance_loss_clip": 1.03908205,
      "balance_loss_mlp": 1.01659441,
      "epoch": 0.7570492394637167,
      "flos": 20771024791680.0,
      "grad_norm": 2.3689542939227155,
      "language_loss": 0.69674182,
      "learning_rate": 5.877156075265166e-07,
      "loss": 0.71791422,
      "num_input_tokens_seen": 135359880,
      "step": 6296,
      "time_per_iteration": 2.492616653442383
    },
    {
      "auxiliary_loss_clip": 0.01072912,
      "auxiliary_loss_mlp": 0.01016564,
      "balance_loss_clip": 1.03656244,
      "balance_loss_mlp": 1.01116049,
      "epoch": 0.7571694823543558,
      "flos": 15665616547200.0,
      "grad_norm": 2.8436310074343885,
      "language_loss": 0.6968233,
      "learning_rate": 5.871641481667715e-07,
      "loss": 0.71771801,
      "num_input_tokens_seen": 135374325,
      "step": 6297,
      "time_per_iteration": 2.558769702911377
    },
    {
      "auxiliary_loss_clip": 0.0104423,
      "auxiliary_loss_mlp": 0.01023133,
      "balance_loss_clip": 1.03384566,
      "balance_loss_mlp": 1.01736021,
      "epoch": 0.7572897252449949,
      "flos": 25411502545920.0,
      "grad_norm": 1.8299335170016513,
      "language_loss": 0.84427088,
      "learning_rate": 5.866129031331011e-07,
      "loss": 0.86494452,
      "num_input_tokens_seen": 135393980,
      "step": 6298,
      "time_per_iteration": 2.66424560546875
    },
    {
      "auxiliary_loss_clip": 0.01068719,
      "auxiliary_loss_mlp": 0.01018108,
      "balance_loss_clip": 1.03478789,
      "balance_loss_mlp": 1.01279092,
      "epoch": 0.757409968135634,
      "flos": 24281611355520.0,
      "grad_norm": 3.1429154782077737,
      "language_loss": 0.83312118,
      "learning_rate": 5.8606187250913e-07,
      "loss": 0.85398948,
      "num_input_tokens_seen": 135412030,
      "step": 6299,
      "time_per_iteration": 2.63623046875
    },
    {
      "auxiliary_loss_clip": 0.01075337,
      "auxiliary_loss_mlp": 0.00756497,
      "balance_loss_clip": 1.03352964,
      "balance_loss_mlp": 1.00150299,
      "epoch": 0.757530211026273,
      "flos": 24136041559680.0,
      "grad_norm": 2.0871455731116177,
      "language_loss": 0.84079123,
      "learning_rate": 5.855110563784482e-07,
      "loss": 0.85910958,
      "num_input_tokens_seen": 135430565,
      "step": 6300,
      "time_per_iteration": 2.5801522731781006
    },
    {
      "auxiliary_loss_clip": 0.01083322,
      "auxiliary_loss_mlp": 0.00756681,
      "balance_loss_clip": 1.03691745,
      "balance_loss_mlp": 1.00150728,
      "epoch": 0.7576504539169122,
      "flos": 23954098273920.0,
      "grad_norm": 1.7761311876858583,
      "language_loss": 0.64143181,
      "learning_rate": 5.849604548246156e-07,
      "loss": 0.65983182,
      "num_input_tokens_seen": 135451675,
      "step": 6301,
      "time_per_iteration": 2.707247495651245
    },
    {
      "auxiliary_loss_clip": 0.01071645,
      "auxiliary_loss_mlp": 0.00756645,
      "balance_loss_clip": 1.03735757,
      "balance_loss_mlp": 1.00158095,
      "epoch": 0.7577706968075513,
      "flos": 21253473434880.0,
      "grad_norm": 2.0602917215500116,
      "language_loss": 0.80345732,
      "learning_rate": 5.844100679311565e-07,
      "loss": 0.82174015,
      "num_input_tokens_seen": 135470635,
      "step": 6302,
      "time_per_iteration": 2.61002779006958
    },
    {
      "auxiliary_loss_clip": 0.01067672,
      "auxiliary_loss_mlp": 0.01017423,
      "balance_loss_clip": 1.03536367,
      "balance_loss_mlp": 1.01176953,
      "epoch": 0.7578909396981903,
      "flos": 18298575429120.0,
      "grad_norm": 2.1692249479418506,
      "language_loss": 0.76730967,
      "learning_rate": 5.838598957815637e-07,
      "loss": 0.78816068,
      "num_input_tokens_seen": 135487865,
      "step": 6303,
      "time_per_iteration": 2.638482093811035
    },
    {
      "auxiliary_loss_clip": 0.0106009,
      "auxiliary_loss_mlp": 0.01017134,
      "balance_loss_clip": 1.03363228,
      "balance_loss_mlp": 1.01201379,
      "epoch": 0.7580111825888295,
      "flos": 25376190762240.0,
      "grad_norm": 1.8769807169628676,
      "language_loss": 0.85451794,
      "learning_rate": 5.833099384592996e-07,
      "loss": 0.87529016,
      "num_input_tokens_seen": 135508440,
      "step": 6304,
      "time_per_iteration": 2.609058141708374
    },
    {
      "auxiliary_loss_clip": 0.01065931,
      "auxiliary_loss_mlp": 0.0101908,
      "balance_loss_clip": 1.03521609,
      "balance_loss_mlp": 1.01368916,
      "epoch": 0.7581314254794685,
      "flos": 23770903691520.0,
      "grad_norm": 2.140132984838944,
      "language_loss": 0.71550596,
      "learning_rate": 5.827601960477913e-07,
      "loss": 0.73635608,
      "num_input_tokens_seen": 135526365,
      "step": 6305,
      "time_per_iteration": 2.648022174835205
    },
    {
      "auxiliary_loss_clip": 0.01081816,
      "auxiliary_loss_mlp": 0.01022446,
      "balance_loss_clip": 1.03655553,
      "balance_loss_mlp": 1.01768339,
      "epoch": 0.7582516683701076,
      "flos": 22056799495680.0,
      "grad_norm": 1.8062074014558405,
      "language_loss": 0.70765471,
      "learning_rate": 5.822106686304344e-07,
      "loss": 0.72869742,
      "num_input_tokens_seen": 135545655,
      "step": 6306,
      "time_per_iteration": 2.5489375591278076
    },
    {
      "auxiliary_loss_clip": 0.01060218,
      "auxiliary_loss_mlp": 0.01021305,
      "balance_loss_clip": 1.03540277,
      "balance_loss_mlp": 1.01585746,
      "epoch": 0.7583719112607467,
      "flos": 31652413856640.0,
      "grad_norm": 1.7353100705455815,
      "language_loss": 0.58032322,
      "learning_rate": 5.816613562905919e-07,
      "loss": 0.60113847,
      "num_input_tokens_seen": 135566840,
      "step": 6307,
      "time_per_iteration": 2.723135471343994
    },
    {
      "auxiliary_loss_clip": 0.01050138,
      "auxiliary_loss_mlp": 0.01020845,
      "balance_loss_clip": 1.03626001,
      "balance_loss_mlp": 1.01573706,
      "epoch": 0.7584921541513858,
      "flos": 33070904127360.0,
      "grad_norm": 1.5309778692275025,
      "language_loss": 0.69783604,
      "learning_rate": 5.811122591115933e-07,
      "loss": 0.71854591,
      "num_input_tokens_seen": 135587825,
      "step": 6308,
      "time_per_iteration": 2.705273389816284
    },
    {
      "auxiliary_loss_clip": 0.01052709,
      "auxiliary_loss_mlp": 0.01022404,
      "balance_loss_clip": 1.03754175,
      "balance_loss_mlp": 1.01712942,
      "epoch": 0.7586123970420249,
      "flos": 23328317001600.0,
      "grad_norm": 8.558247649293827,
      "language_loss": 0.7113049,
      "learning_rate": 5.805633771767376e-07,
      "loss": 0.73205602,
      "num_input_tokens_seen": 135605220,
      "step": 6309,
      "time_per_iteration": 2.6682956218719482
    },
    {
      "auxiliary_loss_clip": 0.01071446,
      "auxiliary_loss_mlp": 0.01020428,
      "balance_loss_clip": 1.03993821,
      "balance_loss_mlp": 1.01470852,
      "epoch": 0.7587326399326639,
      "flos": 18336276051840.0,
      "grad_norm": 2.6186985301299823,
      "language_loss": 0.77938139,
      "learning_rate": 5.800147105692888e-07,
      "loss": 0.80030012,
      "num_input_tokens_seen": 135624795,
      "step": 6310,
      "time_per_iteration": 2.6145384311676025
    },
    {
      "auxiliary_loss_clip": 0.01082767,
      "auxiliary_loss_mlp": 0.01020153,
      "balance_loss_clip": 1.0362761,
      "balance_loss_mlp": 1.01512563,
      "epoch": 0.7588528828233031,
      "flos": 17277008428800.0,
      "grad_norm": 1.97539557547286,
      "language_loss": 0.79580742,
      "learning_rate": 5.794662593724795e-07,
      "loss": 0.8168366,
      "num_input_tokens_seen": 135643800,
      "step": 6311,
      "time_per_iteration": 2.625474214553833
    },
    {
      "auxiliary_loss_clip": 0.01095903,
      "auxiliary_loss_mlp": 0.01025083,
      "balance_loss_clip": 1.04102087,
      "balance_loss_mlp": 1.01984394,
      "epoch": 0.7589731257139422,
      "flos": 17715613720320.0,
      "grad_norm": 2.2090338543150634,
      "language_loss": 0.75299215,
      "learning_rate": 5.789180236695091e-07,
      "loss": 0.77420199,
      "num_input_tokens_seen": 135660655,
      "step": 6312,
      "time_per_iteration": 2.5520901679992676
    },
    {
      "auxiliary_loss_clip": 0.01079676,
      "auxiliary_loss_mlp": 0.0102242,
      "balance_loss_clip": 1.0372957,
      "balance_loss_mlp": 1.01759839,
      "epoch": 0.7590933686045812,
      "flos": 15962898867840.0,
      "grad_norm": 1.9927868162452513,
      "language_loss": 0.85081053,
      "learning_rate": 5.78370003543544e-07,
      "loss": 0.87183148,
      "num_input_tokens_seen": 135679410,
      "step": 6313,
      "time_per_iteration": 2.5447380542755127
    },
    {
      "auxiliary_loss_clip": 0.01081485,
      "auxiliary_loss_mlp": 0.00756723,
      "balance_loss_clip": 1.03752148,
      "balance_loss_mlp": 1.00157094,
      "epoch": 0.7592136114952204,
      "flos": 21070127180160.0,
      "grad_norm": 2.226875355510257,
      "language_loss": 0.83955818,
      "learning_rate": 5.778221990777203e-07,
      "loss": 0.85794026,
      "num_input_tokens_seen": 135697150,
      "step": 6314,
      "time_per_iteration": 2.6122026443481445
    },
    {
      "auxiliary_loss_clip": 0.01068056,
      "auxiliary_loss_mlp": 0.01023282,
      "balance_loss_clip": 1.03630686,
      "balance_loss_mlp": 1.01787603,
      "epoch": 0.7593338543858594,
      "flos": 25299803646720.0,
      "grad_norm": 2.2599419250685777,
      "language_loss": 0.82509673,
      "learning_rate": 5.772746103551372e-07,
      "loss": 0.84601015,
      "num_input_tokens_seen": 135712545,
      "step": 6315,
      "time_per_iteration": 2.640101671218872
    },
    {
      "auxiliary_loss_clip": 0.0106056,
      "auxiliary_loss_mlp": 0.01016903,
      "balance_loss_clip": 1.03084159,
      "balance_loss_mlp": 1.01142859,
      "epoch": 0.7594540972764985,
      "flos": 31835077585920.0,
      "grad_norm": 2.0565150045921694,
      "language_loss": 0.71742755,
      "learning_rate": 5.767272374588648e-07,
      "loss": 0.73820221,
      "num_input_tokens_seen": 135733950,
      "step": 6316,
      "time_per_iteration": 4.173519611358643
    },
    {
      "auxiliary_loss_clip": 0.01082422,
      "auxiliary_loss_mlp": 0.01019187,
      "balance_loss_clip": 1.03963852,
      "balance_loss_mlp": 1.01379323,
      "epoch": 0.7595743401671377,
      "flos": 37600289671680.0,
      "grad_norm": 1.7199469265470815,
      "language_loss": 0.77923393,
      "learning_rate": 5.76180080471939e-07,
      "loss": 0.80025005,
      "num_input_tokens_seen": 135757120,
      "step": 6317,
      "time_per_iteration": 2.73380184173584
    },
    {
      "auxiliary_loss_clip": 0.01096046,
      "auxiliary_loss_mlp": 0.01019805,
      "balance_loss_clip": 1.03920436,
      "balance_loss_mlp": 1.01405859,
      "epoch": 0.7596945830577767,
      "flos": 18289209663360.0,
      "grad_norm": 2.36553698343554,
      "language_loss": 0.72452927,
      "learning_rate": 5.756331394773631e-07,
      "loss": 0.74568778,
      "num_input_tokens_seen": 135773335,
      "step": 6318,
      "time_per_iteration": 3.3275272846221924
    },
    {
      "auxiliary_loss_clip": 0.01028695,
      "auxiliary_loss_mlp": 0.00756865,
      "balance_loss_clip": 1.03396988,
      "balance_loss_mlp": 1.00152838,
      "epoch": 0.7598148259484158,
      "flos": 22235102645760.0,
      "grad_norm": 1.8792008505852456,
      "language_loss": 0.76582438,
      "learning_rate": 5.750864145581071e-07,
      "loss": 0.78367996,
      "num_input_tokens_seen": 135792555,
      "step": 6319,
      "time_per_iteration": 2.7444188594818115
    },
    {
      "auxiliary_loss_clip": 0.0109431,
      "auxiliary_loss_mlp": 0.01021953,
      "balance_loss_clip": 1.03849578,
      "balance_loss_mlp": 1.01696157,
      "epoch": 0.7599350688390549,
      "flos": 27164141562240.0,
      "grad_norm": 20.63318491587017,
      "language_loss": 0.86062711,
      "learning_rate": 5.745399057971085e-07,
      "loss": 0.88178974,
      "num_input_tokens_seen": 135813690,
      "step": 6320,
      "time_per_iteration": 2.5756635665893555
    },
    {
      "auxiliary_loss_clip": 0.01084259,
      "auxiliary_loss_mlp": 0.01019494,
      "balance_loss_clip": 1.03786397,
      "balance_loss_mlp": 1.01421881,
      "epoch": 0.760055311729694,
      "flos": 15562562970240.0,
      "grad_norm": 2.82467097594429,
      "language_loss": 0.75379109,
      "learning_rate": 5.739936132772738e-07,
      "loss": 0.77482861,
      "num_input_tokens_seen": 135832255,
      "step": 6321,
      "time_per_iteration": 3.427896499633789
    },
    {
      "auxiliary_loss_clip": 0.01092232,
      "auxiliary_loss_mlp": 0.01020865,
      "balance_loss_clip": 1.03692555,
      "balance_loss_mlp": 1.01546741,
      "epoch": 0.760175554620333,
      "flos": 25157836068480.0,
      "grad_norm": 2.12152046885248,
      "language_loss": 0.7422685,
      "learning_rate": 5.734475370814733e-07,
      "loss": 0.76339948,
      "num_input_tokens_seen": 135851935,
      "step": 6322,
      "time_per_iteration": 2.640050172805786
    },
    {
      "auxiliary_loss_clip": 0.01082462,
      "auxiliary_loss_mlp": 0.01018578,
      "balance_loss_clip": 1.0365088,
      "balance_loss_mlp": 1.01344323,
      "epoch": 0.7602957975109722,
      "flos": 24356140485120.0,
      "grad_norm": 1.8443955594051153,
      "language_loss": 0.78483731,
      "learning_rate": 5.729016772925483e-07,
      "loss": 0.80584764,
      "num_input_tokens_seen": 135873510,
      "step": 6323,
      "time_per_iteration": 2.6557295322418213
    },
    {
      "auxiliary_loss_clip": 0.01040874,
      "auxiliary_loss_mlp": 0.01019551,
      "balance_loss_clip": 1.03578711,
      "balance_loss_mlp": 1.01413298,
      "epoch": 0.7604160404016113,
      "flos": 25195043756160.0,
      "grad_norm": 1.750212226345572,
      "language_loss": 0.70811105,
      "learning_rate": 5.723560339933038e-07,
      "loss": 0.7287153,
      "num_input_tokens_seen": 135893845,
      "step": 6324,
      "time_per_iteration": 2.7153801918029785
    },
    {
      "auxiliary_loss_clip": 0.01083958,
      "auxiliary_loss_mlp": 0.00756454,
      "balance_loss_clip": 1.03694248,
      "balance_loss_mlp": 1.00151396,
      "epoch": 0.7605362832922503,
      "flos": 29864425138560.0,
      "grad_norm": 2.8775887139409897,
      "language_loss": 0.65509886,
      "learning_rate": 5.71810607266513e-07,
      "loss": 0.67350292,
      "num_input_tokens_seen": 135912430,
      "step": 6325,
      "time_per_iteration": 2.6824965476989746
    },
    {
      "auxiliary_loss_clip": 0.01082377,
      "auxiliary_loss_mlp": 0.01019999,
      "balance_loss_clip": 1.03726745,
      "balance_loss_mlp": 1.01495314,
      "epoch": 0.7606565261828895,
      "flos": 13919651112960.0,
      "grad_norm": 1.6808326656118655,
      "language_loss": 0.60472399,
      "learning_rate": 5.712653971949184e-07,
      "loss": 0.6257478,
      "num_input_tokens_seen": 135930550,
      "step": 6326,
      "time_per_iteration": 2.6058349609375
    },
    {
      "auxiliary_loss_clip": 0.01085262,
      "auxiliary_loss_mlp": 0.01016801,
      "balance_loss_clip": 1.03877318,
      "balance_loss_mlp": 1.01137948,
      "epoch": 0.7607767690735285,
      "flos": 18553227776640.0,
      "grad_norm": 45.03844395483164,
      "language_loss": 0.75310493,
      "learning_rate": 5.707204038612268e-07,
      "loss": 0.77412552,
      "num_input_tokens_seen": 135947980,
      "step": 6327,
      "time_per_iteration": 2.5545027256011963
    },
    {
      "auxiliary_loss_clip": 0.01070419,
      "auxiliary_loss_mlp": 0.01020597,
      "balance_loss_clip": 1.03755808,
      "balance_loss_mlp": 1.01490819,
      "epoch": 0.7608970119641676,
      "flos": 20925088237440.0,
      "grad_norm": 2.549291483138817,
      "language_loss": 0.73732996,
      "learning_rate": 5.701756273481138e-07,
      "loss": 0.7582401,
      "num_input_tokens_seen": 135965400,
      "step": 6328,
      "time_per_iteration": 2.6266472339630127
    },
    {
      "auxiliary_loss_clip": 0.0106942,
      "auxiliary_loss_mlp": 0.01019182,
      "balance_loss_clip": 1.03704488,
      "balance_loss_mlp": 1.01392531,
      "epoch": 0.7610172548548068,
      "flos": 23809666020480.0,
      "grad_norm": 1.6027515421953389,
      "language_loss": 0.74054343,
      "learning_rate": 5.696310677382212e-07,
      "loss": 0.76142943,
      "num_input_tokens_seen": 135986795,
      "step": 6329,
      "time_per_iteration": 2.6357080936431885
    },
    {
      "auxiliary_loss_clip": 0.01021999,
      "auxiliary_loss_mlp": 0.01008775,
      "balance_loss_clip": 1.03224707,
      "balance_loss_mlp": 1.00702286,
      "epoch": 0.7611374977454458,
      "flos": 66503409690240.0,
      "grad_norm": 0.913366066339247,
      "language_loss": 0.61752707,
      "learning_rate": 5.690867251141576e-07,
      "loss": 0.63783479,
      "num_input_tokens_seen": 136053450,
      "step": 6330,
      "time_per_iteration": 3.3904809951782227
    },
    {
      "auxiliary_loss_clip": 0.01078591,
      "auxiliary_loss_mlp": 0.01019533,
      "balance_loss_clip": 1.03638244,
      "balance_loss_mlp": 1.01418948,
      "epoch": 0.7612577406360849,
      "flos": 15634968687360.0,
      "grad_norm": 3.0217696497239896,
      "language_loss": 0.91526169,
      "learning_rate": 5.685425995585013e-07,
      "loss": 0.93624294,
      "num_input_tokens_seen": 136071375,
      "step": 6331,
      "time_per_iteration": 2.553673028945923
    },
    {
      "auxiliary_loss_clip": 0.01026557,
      "auxiliary_loss_mlp": 0.01002304,
      "balance_loss_clip": 1.02019191,
      "balance_loss_mlp": 1.00033748,
      "epoch": 0.761377983526724,
      "flos": 60533493419520.0,
      "grad_norm": 0.7879874032344547,
      "language_loss": 0.58928478,
      "learning_rate": 5.679986911537935e-07,
      "loss": 0.60957348,
      "num_input_tokens_seen": 136138905,
      "step": 6332,
      "time_per_iteration": 3.332641839981079
    },
    {
      "auxiliary_loss_clip": 0.01031903,
      "auxiliary_loss_mlp": 0.01016952,
      "balance_loss_clip": 1.03265738,
      "balance_loss_mlp": 1.01190662,
      "epoch": 0.7614982264173631,
      "flos": 35775434528640.0,
      "grad_norm": 2.380327221662229,
      "language_loss": 0.67089087,
      "learning_rate": 5.674549999825462e-07,
      "loss": 0.69137943,
      "num_input_tokens_seen": 136161720,
      "step": 6333,
      "time_per_iteration": 2.818164110183716
    },
    {
      "auxiliary_loss_clip": 0.0103566,
      "auxiliary_loss_mlp": 0.01003474,
      "balance_loss_clip": 1.01958001,
      "balance_loss_mlp": 1.00154233,
      "epoch": 0.7616184693080021,
      "flos": 67932744531840.0,
      "grad_norm": 0.910257907261321,
      "language_loss": 0.71376103,
      "learning_rate": 5.669115261272363e-07,
      "loss": 0.73415238,
      "num_input_tokens_seen": 136222040,
      "step": 6334,
      "time_per_iteration": 3.1836297512054443
    },
    {
      "auxiliary_loss_clip": 0.01079251,
      "auxiliary_loss_mlp": 0.01021233,
      "balance_loss_clip": 1.03563571,
      "balance_loss_mlp": 1.01601481,
      "epoch": 0.7617387121986413,
      "flos": 20524069814400.0,
      "grad_norm": 2.4109934509974194,
      "language_loss": 0.73207402,
      "learning_rate": 5.663682696703081e-07,
      "loss": 0.75307882,
      "num_input_tokens_seen": 136240305,
      "step": 6335,
      "time_per_iteration": 2.608776092529297
    },
    {
      "auxiliary_loss_clip": 0.01092824,
      "auxiliary_loss_mlp": 0.01018386,
      "balance_loss_clip": 1.03767323,
      "balance_loss_mlp": 1.01334667,
      "epoch": 0.7618589550892804,
      "flos": 18626467691520.0,
      "grad_norm": 1.9027537477313017,
      "language_loss": 0.819978,
      "learning_rate": 5.658252306941746e-07,
      "loss": 0.84109008,
      "num_input_tokens_seen": 136259625,
      "step": 6336,
      "time_per_iteration": 2.5285892486572266
    },
    {
      "auxiliary_loss_clip": 0.01041201,
      "auxiliary_loss_mlp": 0.01022882,
      "balance_loss_clip": 1.03358662,
      "balance_loss_mlp": 1.01713026,
      "epoch": 0.7619791979799194,
      "flos": 17455463251200.0,
      "grad_norm": 2.7890382810403396,
      "language_loss": 0.75238764,
      "learning_rate": 5.65282409281212e-07,
      "loss": 0.77302843,
      "num_input_tokens_seen": 136277090,
      "step": 6337,
      "time_per_iteration": 2.6846189498901367
    },
    {
      "auxiliary_loss_clip": 0.01070471,
      "auxiliary_loss_mlp": 0.01019418,
      "balance_loss_clip": 1.0355866,
      "balance_loss_mlp": 1.01418185,
      "epoch": 0.7620994408705585,
      "flos": 14139181267200.0,
      "grad_norm": 2.0401672550631753,
      "language_loss": 0.7022602,
      "learning_rate": 5.64739805513768e-07,
      "loss": 0.72315907,
      "num_input_tokens_seen": 136294635,
      "step": 6338,
      "time_per_iteration": 2.6213133335113525
    },
    {
      "auxiliary_loss_clip": 0.01034375,
      "auxiliary_loss_mlp": 0.00752313,
      "balance_loss_clip": 1.0195688,
      "balance_loss_mlp": 1.00087452,
      "epoch": 0.7622196837611976,
      "flos": 70714733806080.0,
      "grad_norm": 0.7845932483995606,
      "language_loss": 0.5563761,
      "learning_rate": 5.641974194741541e-07,
      "loss": 0.57424295,
      "num_input_tokens_seen": 136350320,
      "step": 6339,
      "time_per_iteration": 3.0902628898620605
    },
    {
      "auxiliary_loss_clip": 0.01026103,
      "auxiliary_loss_mlp": 0.01002651,
      "balance_loss_clip": 1.03559852,
      "balance_loss_mlp": 1.00089824,
      "epoch": 0.7623399266518367,
      "flos": 60690031591680.0,
      "grad_norm": 0.7767557007320012,
      "language_loss": 0.63695157,
      "learning_rate": 5.636552512446502e-07,
      "loss": 0.65723908,
      "num_input_tokens_seen": 136411375,
      "step": 6340,
      "time_per_iteration": 3.2206733226776123
    },
    {
      "auxiliary_loss_clip": 0.01073884,
      "auxiliary_loss_mlp": 0.0101712,
      "balance_loss_clip": 1.03501642,
      "balance_loss_mlp": 1.01200259,
      "epoch": 0.7624601695424758,
      "flos": 26471301022080.0,
      "grad_norm": 1.8122527565570694,
      "language_loss": 0.78018916,
      "learning_rate": 5.631133009075027e-07,
      "loss": 0.80109918,
      "num_input_tokens_seen": 136430560,
      "step": 6341,
      "time_per_iteration": 2.637768507003784
    },
    {
      "auxiliary_loss_clip": 0.01083152,
      "auxiliary_loss_mlp": 0.00756502,
      "balance_loss_clip": 1.03842521,
      "balance_loss_mlp": 1.00154686,
      "epoch": 0.7625804124331149,
      "flos": 19137782044800.0,
      "grad_norm": 1.856370398856188,
      "language_loss": 0.68920159,
      "learning_rate": 5.625715685449242e-07,
      "loss": 0.70759809,
      "num_input_tokens_seen": 136448665,
      "step": 6342,
      "time_per_iteration": 4.081526279449463
    },
    {
      "auxiliary_loss_clip": 0.01049492,
      "auxiliary_loss_mlp": 0.01019645,
      "balance_loss_clip": 1.04059911,
      "balance_loss_mlp": 1.01458812,
      "epoch": 0.762700655323754,
      "flos": 26215473214080.0,
      "grad_norm": 4.756102648693864,
      "language_loss": 0.71535838,
      "learning_rate": 5.620300542390966e-07,
      "loss": 0.73604971,
      "num_input_tokens_seen": 136469710,
      "step": 6343,
      "time_per_iteration": 2.6833932399749756
    },
    {
      "auxiliary_loss_clip": 0.01067126,
      "auxiliary_loss_mlp": 0.01020193,
      "balance_loss_clip": 1.03637886,
      "balance_loss_mlp": 1.01539445,
      "epoch": 0.762820898214393,
      "flos": 22384767594240.0,
      "grad_norm": 1.9232525286502153,
      "language_loss": 0.85012543,
      "learning_rate": 5.614887580721659e-07,
      "loss": 0.87099862,
      "num_input_tokens_seen": 136489855,
      "step": 6344,
      "time_per_iteration": 3.4033377170562744
    },
    {
      "auxiliary_loss_clip": 0.01047529,
      "auxiliary_loss_mlp": 0.01021699,
      "balance_loss_clip": 1.0336411,
      "balance_loss_mlp": 1.01620913,
      "epoch": 0.7629411411050322,
      "flos": 15702027955200.0,
      "grad_norm": 2.09417737069763,
      "language_loss": 0.73777384,
      "learning_rate": 5.609476801262481e-07,
      "loss": 0.75846612,
      "num_input_tokens_seen": 136504715,
      "step": 6345,
      "time_per_iteration": 2.6112165451049805
    },
    {
      "auxiliary_loss_clip": 0.0105659,
      "auxiliary_loss_mlp": 0.01022164,
      "balance_loss_clip": 1.03838301,
      "balance_loss_mlp": 1.01681149,
      "epoch": 0.7630613839956712,
      "flos": 13771957904640.0,
      "grad_norm": 2.6505414786374484,
      "language_loss": 0.64290094,
      "learning_rate": 5.604068204834223e-07,
      "loss": 0.66368848,
      "num_input_tokens_seen": 136521610,
      "step": 6346,
      "time_per_iteration": 2.632298231124878
    },
    {
      "auxiliary_loss_clip": 0.01039708,
      "auxiliary_loss_mlp": 0.0075679,
      "balance_loss_clip": 1.0352819,
      "balance_loss_mlp": 1.00150394,
      "epoch": 0.7631816268863103,
      "flos": 14571037140480.0,
      "grad_norm": 2.8749179969606935,
      "language_loss": 0.76676416,
      "learning_rate": 5.598661792257367e-07,
      "loss": 0.78472918,
      "num_input_tokens_seen": 136538655,
      "step": 6347,
      "time_per_iteration": 3.526815891265869
    },
    {
      "auxiliary_loss_clip": 0.01083558,
      "auxiliary_loss_mlp": 0.01018276,
      "balance_loss_clip": 1.0374155,
      "balance_loss_mlp": 1.01310515,
      "epoch": 0.7633018697769495,
      "flos": 19064200867200.0,
      "grad_norm": 2.1632178032447458,
      "language_loss": 0.75577545,
      "learning_rate": 5.593257564352071e-07,
      "loss": 0.77679378,
      "num_input_tokens_seen": 136557095,
      "step": 6348,
      "time_per_iteration": 2.5641071796417236
    },
    {
      "auxiliary_loss_clip": 0.01079942,
      "auxiliary_loss_mlp": 0.01016459,
      "balance_loss_clip": 1.03619695,
      "balance_loss_mlp": 1.01153874,
      "epoch": 0.7634221126675885,
      "flos": 22055055264000.0,
      "grad_norm": 1.6541407479090742,
      "language_loss": 0.75596404,
      "learning_rate": 5.58785552193815e-07,
      "loss": 0.77692807,
      "num_input_tokens_seen": 136577340,
      "step": 6349,
      "time_per_iteration": 2.5936763286590576
    },
    {
      "auxiliary_loss_clip": 0.01093436,
      "auxiliary_loss_mlp": 0.01016945,
      "balance_loss_clip": 1.03762209,
      "balance_loss_mlp": 1.01195574,
      "epoch": 0.7635423555582276,
      "flos": 29385009941760.0,
      "grad_norm": 6.018591628817099,
      "language_loss": 0.75787109,
      "learning_rate": 5.582455665835086e-07,
      "loss": 0.77897483,
      "num_input_tokens_seen": 136597635,
      "step": 6350,
      "time_per_iteration": 2.617672920227051
    },
    {
      "auxiliary_loss_clip": 0.01073,
      "auxiliary_loss_mlp": 0.01029278,
      "balance_loss_clip": 1.03544617,
      "balance_loss_mlp": 1.02321899,
      "epoch": 0.7636625984488667,
      "flos": 17786806058880.0,
      "grad_norm": 3.247793135067826,
      "language_loss": 0.72330499,
      "learning_rate": 5.577057996862036e-07,
      "loss": 0.74432778,
      "num_input_tokens_seen": 136615260,
      "step": 6351,
      "time_per_iteration": 2.616938591003418
    },
    {
      "auxiliary_loss_clip": 0.01093033,
      "auxiliary_loss_mlp": 0.01020928,
      "balance_loss_clip": 1.03857958,
      "balance_loss_mlp": 1.0156709,
      "epoch": 0.7637828413395058,
      "flos": 23736956958720.0,
      "grad_norm": 2.0469402682783393,
      "language_loss": 0.76049626,
      "learning_rate": 5.571662515837814e-07,
      "loss": 0.78163582,
      "num_input_tokens_seen": 136637220,
      "step": 6352,
      "time_per_iteration": 2.560238838195801
    },
    {
      "auxiliary_loss_clip": 0.01067244,
      "auxiliary_loss_mlp": 0.01020068,
      "balance_loss_clip": 1.03656638,
      "balance_loss_mlp": 1.01491511,
      "epoch": 0.7639030842301449,
      "flos": 36286218028800.0,
      "grad_norm": 1.7698856223055976,
      "language_loss": 0.8370164,
      "learning_rate": 5.566269223580926e-07,
      "loss": 0.85788953,
      "num_input_tokens_seen": 136658930,
      "step": 6353,
      "time_per_iteration": 2.7523865699768066
    },
    {
      "auxiliary_loss_clip": 0.01084008,
      "auxiliary_loss_mlp": 0.01018731,
      "balance_loss_clip": 1.03808188,
      "balance_loss_mlp": 1.01384604,
      "epoch": 0.764023327120784,
      "flos": 28880710433280.0,
      "grad_norm": 1.669904824281021,
      "language_loss": 0.7525323,
      "learning_rate": 5.560878120909511e-07,
      "loss": 0.77355963,
      "num_input_tokens_seen": 136681530,
      "step": 6354,
      "time_per_iteration": 2.6727542877197266
    },
    {
      "auxiliary_loss_clip": 0.01034874,
      "auxiliary_loss_mlp": 0.01003128,
      "balance_loss_clip": 1.018296,
      "balance_loss_mlp": 1.00138783,
      "epoch": 0.7641435700114231,
      "flos": 64796889110400.0,
      "grad_norm": 0.858891103445701,
      "language_loss": 0.58584654,
      "learning_rate": 5.55548920864141e-07,
      "loss": 0.60622656,
      "num_input_tokens_seen": 136742185,
      "step": 6355,
      "time_per_iteration": 3.1664342880249023
    },
    {
      "auxiliary_loss_clip": 0.01083035,
      "auxiliary_loss_mlp": 0.01017666,
      "balance_loss_clip": 1.03930283,
      "balance_loss_mlp": 1.01280487,
      "epoch": 0.7642638129020621,
      "flos": 16837606857600.0,
      "grad_norm": 1.776548619446823,
      "language_loss": 0.7810927,
      "learning_rate": 5.550102487594113e-07,
      "loss": 0.8020997,
      "num_input_tokens_seen": 136760855,
      "step": 6356,
      "time_per_iteration": 2.5824668407440186
    },
    {
      "auxiliary_loss_clip": 0.01046744,
      "auxiliary_loss_mlp": 0.00756394,
      "balance_loss_clip": 1.03273702,
      "balance_loss_mlp": 1.00155687,
      "epoch": 0.7643840557927013,
      "flos": 30411544210560.0,
      "grad_norm": 1.552453186913255,
      "language_loss": 0.71699107,
      "learning_rate": 5.54471795858477e-07,
      "loss": 0.73502237,
      "num_input_tokens_seen": 136780925,
      "step": 6357,
      "time_per_iteration": 2.7463951110839844
    },
    {
      "auxiliary_loss_clip": 0.01061288,
      "auxiliary_loss_mlp": 0.01021605,
      "balance_loss_clip": 1.0343132,
      "balance_loss_mlp": 1.01647329,
      "epoch": 0.7645042986833404,
      "flos": 16985148393600.0,
      "grad_norm": 2.7507886598634546,
      "language_loss": 0.83246589,
      "learning_rate": 5.539335622430235e-07,
      "loss": 0.85329485,
      "num_input_tokens_seen": 136799545,
      "step": 6358,
      "time_per_iteration": 2.6629490852355957
    },
    {
      "auxiliary_loss_clip": 0.01081831,
      "auxiliary_loss_mlp": 0.01020122,
      "balance_loss_clip": 1.03582406,
      "balance_loss_mlp": 1.01454866,
      "epoch": 0.7646245415739794,
      "flos": 17313419836800.0,
      "grad_norm": 3.868969911144162,
      "language_loss": 0.74945152,
      "learning_rate": 5.533955479946975e-07,
      "loss": 0.7704711,
      "num_input_tokens_seen": 136818325,
      "step": 6359,
      "time_per_iteration": 2.5355188846588135
    },
    {
      "auxiliary_loss_clip": 0.01007272,
      "auxiliary_loss_mlp": 0.0075211,
      "balance_loss_clip": 1.03384256,
      "balance_loss_mlp": 1.0010165,
      "epoch": 0.7647447844646186,
      "flos": 70409478637440.0,
      "grad_norm": 0.8564045840848514,
      "language_loss": 0.65749061,
      "learning_rate": 5.528577531951173e-07,
      "loss": 0.67508447,
      "num_input_tokens_seen": 136878730,
      "step": 6360,
      "time_per_iteration": 3.1885054111480713
    },
    {
      "auxiliary_loss_clip": 0.01072128,
      "auxiliary_loss_mlp": 0.01018517,
      "balance_loss_clip": 1.03726625,
      "balance_loss_mlp": 1.01352167,
      "epoch": 0.7648650273552576,
      "flos": 17677837261440.0,
      "grad_norm": 2.4218770270714858,
      "language_loss": 0.73742235,
      "learning_rate": 5.523201779258653e-07,
      "loss": 0.75832868,
      "num_input_tokens_seen": 136897705,
      "step": 6361,
      "time_per_iteration": 2.661207675933838
    },
    {
      "auxiliary_loss_clip": 0.01092075,
      "auxiliary_loss_mlp": 0.01019204,
      "balance_loss_clip": 1.03650713,
      "balance_loss_mlp": 1.01394963,
      "epoch": 0.7649852702458967,
      "flos": 22164099897600.0,
      "grad_norm": 2.0817482884720517,
      "language_loss": 0.84169817,
      "learning_rate": 5.517828222684912e-07,
      "loss": 0.86281091,
      "num_input_tokens_seen": 136918360,
      "step": 6362,
      "time_per_iteration": 2.5789294242858887
    },
    {
      "auxiliary_loss_clip": 0.01023324,
      "auxiliary_loss_mlp": 0.01001358,
      "balance_loss_clip": 1.01809239,
      "balance_loss_mlp": 0.99949819,
      "epoch": 0.7651055131365359,
      "flos": 69855079294080.0,
      "grad_norm": 1.4883239150777332,
      "language_loss": 0.58976042,
      "learning_rate": 5.512456863045117e-07,
      "loss": 0.61000723,
      "num_input_tokens_seen": 136979050,
      "step": 6363,
      "time_per_iteration": 3.216456651687622
    },
    {
      "auxiliary_loss_clip": 0.0109432,
      "auxiliary_loss_mlp": 0.01019312,
      "balance_loss_clip": 1.03759348,
      "balance_loss_mlp": 1.01393867,
      "epoch": 0.7652257560271749,
      "flos": 19466053488000.0,
      "grad_norm": 1.7503003675239723,
      "language_loss": 0.74264657,
      "learning_rate": 5.507087701154089e-07,
      "loss": 0.76378292,
      "num_input_tokens_seen": 136998970,
      "step": 6364,
      "time_per_iteration": 2.506798267364502
    },
    {
      "auxiliary_loss_clip": 0.01048245,
      "auxiliary_loss_mlp": 0.01020304,
      "balance_loss_clip": 1.03594589,
      "balance_loss_mlp": 1.01520228,
      "epoch": 0.765345998917814,
      "flos": 15962936785920.0,
      "grad_norm": 1.8035975056005096,
      "language_loss": 0.75497401,
      "learning_rate": 5.50172073782634e-07,
      "loss": 0.77565944,
      "num_input_tokens_seen": 137016950,
      "step": 6365,
      "time_per_iteration": 2.7284703254699707
    },
    {
      "auxiliary_loss_clip": 0.01051595,
      "auxiliary_loss_mlp": 0.01022605,
      "balance_loss_clip": 1.03448212,
      "balance_loss_mlp": 1.01742876,
      "epoch": 0.7654662418084531,
      "flos": 23662124484480.0,
      "grad_norm": 1.8441681390430524,
      "language_loss": 0.87926912,
      "learning_rate": 5.496355973876023e-07,
      "loss": 0.90001112,
      "num_input_tokens_seen": 137036205,
      "step": 6366,
      "time_per_iteration": 2.618528366088867
    },
    {
      "auxiliary_loss_clip": 0.01061657,
      "auxiliary_loss_mlp": 0.00756699,
      "balance_loss_clip": 1.03634644,
      "balance_loss_mlp": 1.00147665,
      "epoch": 0.7655864846990922,
      "flos": 41466800010240.0,
      "grad_norm": 1.7042751165677243,
      "language_loss": 0.70885742,
      "learning_rate": 5.490993410116984e-07,
      "loss": 0.72704101,
      "num_input_tokens_seen": 137059195,
      "step": 6367,
      "time_per_iteration": 2.854867458343506
    },
    {
      "auxiliary_loss_clip": 0.01054446,
      "auxiliary_loss_mlp": 0.01019732,
      "balance_loss_clip": 1.03671288,
      "balance_loss_mlp": 1.01487482,
      "epoch": 0.7657067275897312,
      "flos": 43146009521280.0,
      "grad_norm": 1.6480287942304244,
      "language_loss": 0.69579017,
      "learning_rate": 5.485633047362704e-07,
      "loss": 0.71653199,
      "num_input_tokens_seen": 137081200,
      "step": 6368,
      "time_per_iteration": 3.6881861686706543
    },
    {
      "auxiliary_loss_clip": 0.0109721,
      "auxiliary_loss_mlp": 0.01023534,
      "balance_loss_clip": 1.04166877,
      "balance_loss_mlp": 1.01775205,
      "epoch": 0.7658269704803703,
      "flos": 17313723181440.0,
      "grad_norm": 2.100467643679611,
      "language_loss": 0.78489423,
      "learning_rate": 5.480274886426341e-07,
      "loss": 0.80610168,
      "num_input_tokens_seen": 137097840,
      "step": 6369,
      "time_per_iteration": 2.4991283416748047
    },
    {
      "auxiliary_loss_clip": 0.01076135,
      "auxiliary_loss_mlp": 0.01017723,
      "balance_loss_clip": 1.03861547,
      "balance_loss_mlp": 1.01294577,
      "epoch": 0.7659472133710095,
      "flos": 12569812669440.0,
      "grad_norm": 9.126449625572578,
      "language_loss": 0.77851957,
      "learning_rate": 5.474918928120744e-07,
      "loss": 0.79945815,
      "num_input_tokens_seen": 137114335,
      "step": 6370,
      "time_per_iteration": 3.3163487911224365
    },
    {
      "auxiliary_loss_clip": 0.01080167,
      "auxiliary_loss_mlp": 0.01016015,
      "balance_loss_clip": 1.03680086,
      "balance_loss_mlp": 1.01104724,
      "epoch": 0.7660674562616485,
      "flos": 22709436819840.0,
      "grad_norm": 43.93569714784165,
      "language_loss": 0.87626404,
      "learning_rate": 5.469565173258392e-07,
      "loss": 0.89722586,
      "num_input_tokens_seen": 137132850,
      "step": 6371,
      "time_per_iteration": 2.531080484390259
    },
    {
      "auxiliary_loss_clip": 0.01094924,
      "auxiliary_loss_mlp": 0.01019437,
      "balance_loss_clip": 1.03760731,
      "balance_loss_mlp": 1.0138402,
      "epoch": 0.7661876991522876,
      "flos": 17058388308480.0,
      "grad_norm": 1.7160107987277482,
      "language_loss": 0.6368469,
      "learning_rate": 5.464213622651454e-07,
      "loss": 0.65799057,
      "num_input_tokens_seen": 137150665,
      "step": 6372,
      "time_per_iteration": 2.527397394180298
    },
    {
      "auxiliary_loss_clip": 0.01057996,
      "auxiliary_loss_mlp": 0.0102012,
      "balance_loss_clip": 1.03484654,
      "balance_loss_mlp": 1.01487505,
      "epoch": 0.7663079420429267,
      "flos": 20086298720640.0,
      "grad_norm": 1.8495643012781537,
      "language_loss": 0.84226346,
      "learning_rate": 5.458864277111753e-07,
      "loss": 0.86304468,
      "num_input_tokens_seen": 137168500,
      "step": 6373,
      "time_per_iteration": 3.393026351928711
    },
    {
      "auxiliary_loss_clip": 0.01067875,
      "auxiliary_loss_mlp": 0.00756179,
      "balance_loss_clip": 1.03632545,
      "balance_loss_mlp": 1.00140309,
      "epoch": 0.7664281849335658,
      "flos": 12679122729600.0,
      "grad_norm": 2.741542083132413,
      "language_loss": 0.69392425,
      "learning_rate": 5.453517137450769e-07,
      "loss": 0.71216476,
      "num_input_tokens_seen": 137185075,
      "step": 6374,
      "time_per_iteration": 2.5816729068756104
    },
    {
      "auxiliary_loss_clip": 0.01081659,
      "auxiliary_loss_mlp": 0.01019995,
      "balance_loss_clip": 1.03828263,
      "balance_loss_mlp": 1.01440358,
      "epoch": 0.7665484278242048,
      "flos": 22347408234240.0,
      "grad_norm": 3.7612766522644834,
      "language_loss": 0.76156873,
      "learning_rate": 5.448172204479684e-07,
      "loss": 0.7825852,
      "num_input_tokens_seen": 137204355,
      "step": 6375,
      "time_per_iteration": 2.5321927070617676
    },
    {
      "auxiliary_loss_clip": 0.01092301,
      "auxiliary_loss_mlp": 0.01021221,
      "balance_loss_clip": 1.03691363,
      "balance_loss_mlp": 1.01592803,
      "epoch": 0.766668670714844,
      "flos": 23619873692160.0,
      "grad_norm": 4.4224091972415955,
      "language_loss": 0.74800265,
      "learning_rate": 5.442829479009294e-07,
      "loss": 0.76913786,
      "num_input_tokens_seen": 137223135,
      "step": 6376,
      "time_per_iteration": 2.5533721446990967
    },
    {
      "auxiliary_loss_clip": 0.0107922,
      "auxiliary_loss_mlp": 0.01020035,
      "balance_loss_clip": 1.03713298,
      "balance_loss_mlp": 1.01444745,
      "epoch": 0.7667889136054831,
      "flos": 19429149144960.0,
      "grad_norm": 2.243823722950823,
      "language_loss": 0.71669513,
      "learning_rate": 5.437488961850103e-07,
      "loss": 0.73768771,
      "num_input_tokens_seen": 137242935,
      "step": 6377,
      "time_per_iteration": 2.5413241386413574
    },
    {
      "auxiliary_loss_clip": 0.01039758,
      "auxiliary_loss_mlp": 0.01019548,
      "balance_loss_clip": 1.03185439,
      "balance_loss_mlp": 1.01462483,
      "epoch": 0.7669091564961221,
      "flos": 26868565555200.0,
      "grad_norm": 1.963493428762794,
      "language_loss": 0.75566852,
      "learning_rate": 5.432150653812258e-07,
      "loss": 0.77626157,
      "num_input_tokens_seen": 137262970,
      "step": 6378,
      "time_per_iteration": 2.7032294273376465
    },
    {
      "auxiliary_loss_clip": 0.01072075,
      "auxiliary_loss_mlp": 0.01020765,
      "balance_loss_clip": 1.03124833,
      "balance_loss_mlp": 1.01539481,
      "epoch": 0.7670293993867613,
      "flos": 12386921431680.0,
      "grad_norm": 2.715981724351881,
      "language_loss": 0.82772416,
      "learning_rate": 5.42681455570557e-07,
      "loss": 0.8486526,
      "num_input_tokens_seen": 137279500,
      "step": 6379,
      "time_per_iteration": 2.502119302749634
    },
    {
      "auxiliary_loss_clip": 0.01091233,
      "auxiliary_loss_mlp": 0.01017343,
      "balance_loss_clip": 1.03595328,
      "balance_loss_mlp": 1.0120976,
      "epoch": 0.7671496422774003,
      "flos": 21765129050880.0,
      "grad_norm": 1.9006604199770507,
      "language_loss": 0.64630818,
      "learning_rate": 5.42148066833954e-07,
      "loss": 0.66739392,
      "num_input_tokens_seen": 137298745,
      "step": 6380,
      "time_per_iteration": 2.537383794784546
    },
    {
      "auxiliary_loss_clip": 0.01092055,
      "auxiliary_loss_mlp": 0.01020369,
      "balance_loss_clip": 1.03653264,
      "balance_loss_mlp": 1.0151329,
      "epoch": 0.7672698851680394,
      "flos": 21071340558720.0,
      "grad_norm": 4.387421058906509,
      "language_loss": 0.75416243,
      "learning_rate": 5.416148992523289e-07,
      "loss": 0.77528667,
      "num_input_tokens_seen": 137317320,
      "step": 6381,
      "time_per_iteration": 2.508953809738159
    },
    {
      "auxiliary_loss_clip": 0.01020206,
      "auxiliary_loss_mlp": 0.01023039,
      "balance_loss_clip": 1.03260326,
      "balance_loss_mlp": 1.01773715,
      "epoch": 0.7673901280586786,
      "flos": 16978247303040.0,
      "grad_norm": 1.9116389036288686,
      "language_loss": 0.78405762,
      "learning_rate": 5.410819529065644e-07,
      "loss": 0.80449009,
      "num_input_tokens_seen": 137335275,
      "step": 6382,
      "time_per_iteration": 2.7675766944885254
    },
    {
      "auxiliary_loss_clip": 0.01043441,
      "auxiliary_loss_mlp": 0.0102189,
      "balance_loss_clip": 1.03281498,
      "balance_loss_mlp": 1.01674628,
      "epoch": 0.7675103709493176,
      "flos": 29245279530240.0,
      "grad_norm": 2.305281199242855,
      "language_loss": 0.65215141,
      "learning_rate": 5.405492278775079e-07,
      "loss": 0.67280471,
      "num_input_tokens_seen": 137355055,
      "step": 6383,
      "time_per_iteration": 2.927652597427368
    },
    {
      "auxiliary_loss_clip": 0.01074586,
      "auxiliary_loss_mlp": 0.0102079,
      "balance_loss_clip": 1.03721523,
      "balance_loss_mlp": 1.01550353,
      "epoch": 0.7676306138399567,
      "flos": 29025559785600.0,
      "grad_norm": 2.4832605151348734,
      "language_loss": 0.80304599,
      "learning_rate": 5.400167242459732e-07,
      "loss": 0.82399976,
      "num_input_tokens_seen": 137374015,
      "step": 6384,
      "time_per_iteration": 2.638605833053589
    },
    {
      "auxiliary_loss_clip": 0.01078839,
      "auxiliary_loss_mlp": 0.01022062,
      "balance_loss_clip": 1.03640664,
      "balance_loss_mlp": 1.01712418,
      "epoch": 0.7677508567305958,
      "flos": 22567317569280.0,
      "grad_norm": 1.686572108367598,
      "language_loss": 0.80523658,
      "learning_rate": 5.394844420927405e-07,
      "loss": 0.82624555,
      "num_input_tokens_seen": 137393625,
      "step": 6385,
      "time_per_iteration": 2.563405752182007
    },
    {
      "auxiliary_loss_clip": 0.01092725,
      "auxiliary_loss_mlp": 0.01025294,
      "balance_loss_clip": 1.0379194,
      "balance_loss_mlp": 1.02010834,
      "epoch": 0.7678710996212349,
      "flos": 25413815548800.0,
      "grad_norm": 2.07687141718629,
      "language_loss": 0.73422933,
      "learning_rate": 5.389523814985562e-07,
      "loss": 0.75540948,
      "num_input_tokens_seen": 137413045,
      "step": 6386,
      "time_per_iteration": 2.5464823246002197
    },
    {
      "auxiliary_loss_clip": 0.01045366,
      "auxiliary_loss_mlp": 0.01016503,
      "balance_loss_clip": 1.03673458,
      "balance_loss_mlp": 1.01105475,
      "epoch": 0.767991342511874,
      "flos": 26759027986560.0,
      "grad_norm": 1.9536500917368451,
      "language_loss": 0.76279265,
      "learning_rate": 5.384205425441344e-07,
      "loss": 0.78341126,
      "num_input_tokens_seen": 137433955,
      "step": 6387,
      "time_per_iteration": 2.731081962585449
    },
    {
      "auxiliary_loss_clip": 0.01070136,
      "auxiliary_loss_mlp": 0.01017194,
      "balance_loss_clip": 1.03563643,
      "balance_loss_mlp": 1.01212132,
      "epoch": 0.7681115854025131,
      "flos": 26361915125760.0,
      "grad_norm": 1.859380154613755,
      "language_loss": 0.84339231,
      "learning_rate": 5.378889253101537e-07,
      "loss": 0.86426568,
      "num_input_tokens_seen": 137454510,
      "step": 6388,
      "time_per_iteration": 2.61665940284729
    },
    {
      "auxiliary_loss_clip": 0.01081925,
      "auxiliary_loss_mlp": 0.01019629,
      "balance_loss_clip": 1.03585577,
      "balance_loss_mlp": 1.01465178,
      "epoch": 0.7682318282931522,
      "flos": 23259210157440.0,
      "grad_norm": 1.609825118479653,
      "language_loss": 0.80978012,
      "learning_rate": 5.373575298772617e-07,
      "loss": 0.83079565,
      "num_input_tokens_seen": 137473630,
      "step": 6389,
      "time_per_iteration": 2.5866034030914307
    },
    {
      "auxiliary_loss_clip": 0.01034199,
      "auxiliary_loss_mlp": 0.01002365,
      "balance_loss_clip": 1.01792026,
      "balance_loss_mlp": 1.0004096,
      "epoch": 0.7683520711837912,
      "flos": 70079500880640.0,
      "grad_norm": 0.7679706490447007,
      "language_loss": 0.61311328,
      "learning_rate": 5.368263563260689e-07,
      "loss": 0.63347888,
      "num_input_tokens_seen": 137538765,
      "step": 6390,
      "time_per_iteration": 3.218453884124756
    },
    {
      "auxiliary_loss_clip": 0.01084642,
      "auxiliary_loss_mlp": 0.01016549,
      "balance_loss_clip": 1.03760386,
      "balance_loss_mlp": 1.01153064,
      "epoch": 0.7684723140744304,
      "flos": 18626884790400.0,
      "grad_norm": 1.7087207682846586,
      "language_loss": 0.63945311,
      "learning_rate": 5.362954047371537e-07,
      "loss": 0.660465,
      "num_input_tokens_seen": 137557875,
      "step": 6391,
      "time_per_iteration": 2.5507397651672363
    },
    {
      "auxiliary_loss_clip": 0.01053244,
      "auxiliary_loss_mlp": 0.01022176,
      "balance_loss_clip": 1.03828907,
      "balance_loss_mlp": 1.01685071,
      "epoch": 0.7685925569650695,
      "flos": 27455394908160.0,
      "grad_norm": 1.9729228185531198,
      "language_loss": 0.72324222,
      "learning_rate": 5.357646751910627e-07,
      "loss": 0.74399644,
      "num_input_tokens_seen": 137579055,
      "step": 6392,
      "time_per_iteration": 2.656716823577881
    },
    {
      "auxiliary_loss_clip": 0.01072804,
      "auxiliary_loss_mlp": 0.01022033,
      "balance_loss_clip": 1.03645158,
      "balance_loss_mlp": 1.01652873,
      "epoch": 0.7687127998557085,
      "flos": 24538045852800.0,
      "grad_norm": 7.034762180396517,
      "language_loss": 0.79567158,
      "learning_rate": 5.352341677683061e-07,
      "loss": 0.81661993,
      "num_input_tokens_seen": 137600355,
      "step": 6393,
      "time_per_iteration": 3.486816883087158
    },
    {
      "auxiliary_loss_clip": 0.01059437,
      "auxiliary_loss_mlp": 0.01022378,
      "balance_loss_clip": 1.03557813,
      "balance_loss_mlp": 1.01708508,
      "epoch": 0.7688330427463477,
      "flos": 25158329003520.0,
      "grad_norm": 2.2894364533133933,
      "language_loss": 0.79268116,
      "learning_rate": 5.347038825493617e-07,
      "loss": 0.81349933,
      "num_input_tokens_seen": 137621885,
      "step": 6394,
      "time_per_iteration": 3.476940870285034
    },
    {
      "auxiliary_loss_clip": 0.01067946,
      "auxiliary_loss_mlp": 0.01020467,
      "balance_loss_clip": 1.03727365,
      "balance_loss_mlp": 1.01552868,
      "epoch": 0.7689532856369867,
      "flos": 21213194382720.0,
      "grad_norm": 2.4200846825866904,
      "language_loss": 0.68555486,
      "learning_rate": 5.341738196146732e-07,
      "loss": 0.70643896,
      "num_input_tokens_seen": 137640230,
      "step": 6395,
      "time_per_iteration": 2.5570645332336426
    },
    {
      "auxiliary_loss_clip": 0.0108391,
      "auxiliary_loss_mlp": 0.01015414,
      "balance_loss_clip": 1.0363251,
      "balance_loss_mlp": 1.01019526,
      "epoch": 0.7690735285276258,
      "flos": 25121424660480.0,
      "grad_norm": 2.767150651814401,
      "language_loss": 0.73378628,
      "learning_rate": 5.336439790446503e-07,
      "loss": 0.75477952,
      "num_input_tokens_seen": 137659330,
      "step": 6396,
      "time_per_iteration": 3.3588008880615234
    },
    {
      "auxiliary_loss_clip": 0.01062065,
      "auxiliary_loss_mlp": 0.01021217,
      "balance_loss_clip": 1.03585458,
      "balance_loss_mlp": 1.01561105,
      "epoch": 0.769193771418265,
      "flos": 54747929376000.0,
      "grad_norm": 1.6135519847212354,
      "language_loss": 0.62717354,
      "learning_rate": 5.331143609196711e-07,
      "loss": 0.64800638,
      "num_input_tokens_seen": 137683145,
      "step": 6397,
      "time_per_iteration": 2.936150550842285
    },
    {
      "auxiliary_loss_clip": 0.01073524,
      "auxiliary_loss_mlp": 0.01021711,
      "balance_loss_clip": 1.03201008,
      "balance_loss_mlp": 1.01650429,
      "epoch": 0.769314014308904,
      "flos": 37344916880640.0,
      "grad_norm": 1.7050429529390316,
      "language_loss": 0.77092981,
      "learning_rate": 5.325849653200758e-07,
      "loss": 0.79188216,
      "num_input_tokens_seen": 137707095,
      "step": 6398,
      "time_per_iteration": 2.6378884315490723
    },
    {
      "auxiliary_loss_clip": 0.01094519,
      "auxiliary_loss_mlp": 0.01017872,
      "balance_loss_clip": 1.03895271,
      "balance_loss_mlp": 1.01256466,
      "epoch": 0.7694342571995431,
      "flos": 20633796973440.0,
      "grad_norm": 1.756225155759885,
      "language_loss": 0.75996625,
      "learning_rate": 5.32055792326175e-07,
      "loss": 0.78109014,
      "num_input_tokens_seen": 137725520,
      "step": 6399,
      "time_per_iteration": 3.33292555809021
    },
    {
      "auxiliary_loss_clip": 0.01070657,
      "auxiliary_loss_mlp": 0.01017083,
      "balance_loss_clip": 1.03710508,
      "balance_loss_mlp": 1.01153362,
      "epoch": 0.7695545000901821,
      "flos": 24210039836160.0,
      "grad_norm": 1.9259182162957988,
      "language_loss": 0.7299937,
      "learning_rate": 5.315268420182437e-07,
      "loss": 0.750871,
      "num_input_tokens_seen": 137744195,
      "step": 6400,
      "time_per_iteration": 2.561522960662842
    },
    {
      "auxiliary_loss_clip": 0.01059312,
      "auxiliary_loss_mlp": 0.00756591,
      "balance_loss_clip": 1.03639913,
      "balance_loss_mlp": 1.00152075,
      "epoch": 0.7696747429808213,
      "flos": 28003765276800.0,
      "grad_norm": 6.022339381493662,
      "language_loss": 0.76717889,
      "learning_rate": 5.309981144765221e-07,
      "loss": 0.78533792,
      "num_input_tokens_seen": 137764340,
      "step": 6401,
      "time_per_iteration": 2.6976897716522217
    },
    {
      "auxiliary_loss_clip": 0.0104856,
      "auxiliary_loss_mlp": 0.01018307,
      "balance_loss_clip": 1.03544283,
      "balance_loss_mlp": 1.01321113,
      "epoch": 0.7697949858714603,
      "flos": 11511113817600.0,
      "grad_norm": 4.593441175339641,
      "language_loss": 0.75790316,
      "learning_rate": 5.304696097812196e-07,
      "loss": 0.77857184,
      "num_input_tokens_seen": 137780940,
      "step": 6402,
      "time_per_iteration": 2.591466188430786
    },
    {
      "auxiliary_loss_clip": 0.01071202,
      "auxiliary_loss_mlp": 0.01021281,
      "balance_loss_clip": 1.03544927,
      "balance_loss_mlp": 1.01557934,
      "epoch": 0.7699152287620994,
      "flos": 26690717422080.0,
      "grad_norm": 2.8837588427175067,
      "language_loss": 0.60805285,
      "learning_rate": 5.299413280125078e-07,
      "loss": 0.62897772,
      "num_input_tokens_seen": 137799250,
      "step": 6403,
      "time_per_iteration": 2.5973525047302246
    },
    {
      "auxiliary_loss_clip": 0.01073971,
      "auxiliary_loss_mlp": 0.01023972,
      "balance_loss_clip": 1.03676331,
      "balance_loss_mlp": 1.0189023,
      "epoch": 0.7700354716527386,
      "flos": 16546808528640.0,
      "grad_norm": 2.7447838460440455,
      "language_loss": 0.73230946,
      "learning_rate": 5.294132692505284e-07,
      "loss": 0.75328887,
      "num_input_tokens_seen": 137817660,
      "step": 6404,
      "time_per_iteration": 2.544513702392578
    },
    {
      "auxiliary_loss_clip": 0.0103942,
      "auxiliary_loss_mlp": 0.01019952,
      "balance_loss_clip": 1.029755,
      "balance_loss_mlp": 1.01467967,
      "epoch": 0.7701557145433776,
      "flos": 19244627429760.0,
      "grad_norm": 2.039557954109117,
      "language_loss": 0.79182082,
      "learning_rate": 5.288854335753861e-07,
      "loss": 0.81241453,
      "num_input_tokens_seen": 137835920,
      "step": 6405,
      "time_per_iteration": 2.6428463459014893
    },
    {
      "auxiliary_loss_clip": 0.01080954,
      "auxiliary_loss_mlp": 0.01017245,
      "balance_loss_clip": 1.03581095,
      "balance_loss_mlp": 1.01240802,
      "epoch": 0.7702759574340167,
      "flos": 31688408165760.0,
      "grad_norm": 3.0730728720990292,
      "language_loss": 0.75551802,
      "learning_rate": 5.283578210671551e-07,
      "loss": 0.77649999,
      "num_input_tokens_seen": 137858160,
      "step": 6406,
      "time_per_iteration": 2.602665901184082
    },
    {
      "auxiliary_loss_clip": 0.01070376,
      "auxiliary_loss_mlp": 0.01017932,
      "balance_loss_clip": 1.03662825,
      "balance_loss_mlp": 1.01304758,
      "epoch": 0.7703962003246558,
      "flos": 16801953811200.0,
      "grad_norm": 2.530135537978754,
      "language_loss": 0.76556909,
      "learning_rate": 5.278304318058719e-07,
      "loss": 0.78645217,
      "num_input_tokens_seen": 137876015,
      "step": 6407,
      "time_per_iteration": 2.5551722049713135
    },
    {
      "auxiliary_loss_clip": 0.01029567,
      "auxiliary_loss_mlp": 0.01021746,
      "balance_loss_clip": 1.03472281,
      "balance_loss_mlp": 1.01628661,
      "epoch": 0.7705164432152949,
      "flos": 35738985202560.0,
      "grad_norm": 1.9688615326217933,
      "language_loss": 0.78969634,
      "learning_rate": 5.273032658715411e-07,
      "loss": 0.81020951,
      "num_input_tokens_seen": 137898825,
      "step": 6408,
      "time_per_iteration": 2.80853009223938
    },
    {
      "auxiliary_loss_clip": 0.01040341,
      "auxiliary_loss_mlp": 0.01019752,
      "balance_loss_clip": 1.02961516,
      "balance_loss_mlp": 1.01488519,
      "epoch": 0.7706366861059339,
      "flos": 23368103118720.0,
      "grad_norm": 2.1223934176802803,
      "language_loss": 0.76294273,
      "learning_rate": 5.267763233441347e-07,
      "loss": 0.78354365,
      "num_input_tokens_seen": 137919455,
      "step": 6409,
      "time_per_iteration": 2.677358388900757
    },
    {
      "auxiliary_loss_clip": 0.01083761,
      "auxiliary_loss_mlp": 0.01018748,
      "balance_loss_clip": 1.03904629,
      "balance_loss_mlp": 1.01320791,
      "epoch": 0.7707569289965731,
      "flos": 22932114174720.0,
      "grad_norm": 3.2677555379668193,
      "language_loss": 0.69567722,
      "learning_rate": 5.26249604303588e-07,
      "loss": 0.71670228,
      "num_input_tokens_seen": 137937960,
      "step": 6410,
      "time_per_iteration": 2.5739223957061768
    },
    {
      "auxiliary_loss_clip": 0.01094624,
      "auxiliary_loss_mlp": 0.01020534,
      "balance_loss_clip": 1.03876066,
      "balance_loss_mlp": 1.0154202,
      "epoch": 0.7708771718872122,
      "flos": 17422578224640.0,
      "grad_norm": 2.1214918853853066,
      "language_loss": 0.77964032,
      "learning_rate": 5.257231088298057e-07,
      "loss": 0.80079198,
      "num_input_tokens_seen": 137956370,
      "step": 6411,
      "time_per_iteration": 2.476710796356201
    },
    {
      "auxiliary_loss_clip": 0.01013984,
      "auxiliary_loss_mlp": 0.0100249,
      "balance_loss_clip": 1.01821554,
      "balance_loss_mlp": 1.00064206,
      "epoch": 0.7709974147778512,
      "flos": 72247349733120.0,
      "grad_norm": 0.8006831203822456,
      "language_loss": 0.53993988,
      "learning_rate": 5.25196837002655e-07,
      "loss": 0.56010461,
      "num_input_tokens_seen": 138016080,
      "step": 6412,
      "time_per_iteration": 3.2079646587371826
    },
    {
      "auxiliary_loss_clip": 0.01072408,
      "auxiliary_loss_mlp": 0.01026463,
      "balance_loss_clip": 1.03788972,
      "balance_loss_mlp": 1.02085149,
      "epoch": 0.7711176576684904,
      "flos": 39862877990400.0,
      "grad_norm": 2.66999991348085,
      "language_loss": 0.68624914,
      "learning_rate": 5.24670788901971e-07,
      "loss": 0.70723796,
      "num_input_tokens_seen": 138039170,
      "step": 6413,
      "time_per_iteration": 2.7142927646636963
    },
    {
      "auxiliary_loss_clip": 0.01075177,
      "auxiliary_loss_mlp": 0.01019888,
      "balance_loss_clip": 1.0394876,
      "balance_loss_mlp": 1.01373386,
      "epoch": 0.7712379005591294,
      "flos": 36979361913600.0,
      "grad_norm": 3.8090169899666755,
      "language_loss": 0.6834327,
      "learning_rate": 5.241449646075557e-07,
      "loss": 0.70438337,
      "num_input_tokens_seen": 138062395,
      "step": 6414,
      "time_per_iteration": 2.7257027626037598
    },
    {
      "auxiliary_loss_clip": 0.01086076,
      "auxiliary_loss_mlp": 0.01021646,
      "balance_loss_clip": 1.03790212,
      "balance_loss_mlp": 1.01623976,
      "epoch": 0.7713581434497685,
      "flos": 22778581582080.0,
      "grad_norm": 2.1302078582172466,
      "language_loss": 0.72740626,
      "learning_rate": 5.236193641991762e-07,
      "loss": 0.74848342,
      "num_input_tokens_seen": 138080325,
      "step": 6415,
      "time_per_iteration": 2.519768476486206
    },
    {
      "auxiliary_loss_clip": 0.01067283,
      "auxiliary_loss_mlp": 0.01020229,
      "balance_loss_clip": 1.0348804,
      "balance_loss_mlp": 1.01512074,
      "epoch": 0.7714783863404077,
      "flos": 24099743905920.0,
      "grad_norm": 2.2747995764621183,
      "language_loss": 0.70114064,
      "learning_rate": 5.23093987756565e-07,
      "loss": 0.72201574,
      "num_input_tokens_seen": 138099020,
      "step": 6416,
      "time_per_iteration": 2.6257643699645996
    },
    {
      "auxiliary_loss_clip": 0.01059483,
      "auxiliary_loss_mlp": 0.01019646,
      "balance_loss_clip": 1.03413951,
      "balance_loss_mlp": 1.01419485,
      "epoch": 0.7715986292310467,
      "flos": 21065463256320.0,
      "grad_norm": 2.0192665909984164,
      "language_loss": 0.75436538,
      "learning_rate": 5.225688353594217e-07,
      "loss": 0.77515662,
      "num_input_tokens_seen": 138118650,
      "step": 6417,
      "time_per_iteration": 2.6302714347839355
    },
    {
      "auxiliary_loss_clip": 0.01071255,
      "auxiliary_loss_mlp": 0.0075653,
      "balance_loss_clip": 1.03673565,
      "balance_loss_mlp": 1.00162292,
      "epoch": 0.7717188721216858,
      "flos": 20596968466560.0,
      "grad_norm": 2.167697860736623,
      "language_loss": 0.77760702,
      "learning_rate": 5.220439070874108e-07,
      "loss": 0.79588491,
      "num_input_tokens_seen": 138137890,
      "step": 6418,
      "time_per_iteration": 2.605365514755249
    },
    {
      "auxiliary_loss_clip": 0.01081405,
      "auxiliary_loss_mlp": 0.01021804,
      "balance_loss_clip": 1.03774917,
      "balance_loss_mlp": 1.01663661,
      "epoch": 0.7718391150123249,
      "flos": 26253401345280.0,
      "grad_norm": 2.061949262977739,
      "language_loss": 0.70813382,
      "learning_rate": 5.215192030201652e-07,
      "loss": 0.72916591,
      "num_input_tokens_seen": 138158880,
      "step": 6419,
      "time_per_iteration": 3.3337204456329346
    },
    {
      "auxiliary_loss_clip": 0.01054321,
      "auxiliary_loss_mlp": 0.01021424,
      "balance_loss_clip": 1.03469777,
      "balance_loss_mlp": 1.01642048,
      "epoch": 0.771959357902964,
      "flos": 22051680554880.0,
      "grad_norm": 2.0152384541600914,
      "language_loss": 0.86686999,
      "learning_rate": 5.209947232372798e-07,
      "loss": 0.88762742,
      "num_input_tokens_seen": 138176370,
      "step": 6420,
      "time_per_iteration": 3.3744394779205322
    },
    {
      "auxiliary_loss_clip": 0.01083024,
      "auxiliary_loss_mlp": 0.0075644,
      "balance_loss_clip": 1.0369761,
      "balance_loss_mlp": 1.00153637,
      "epoch": 0.772079600793603,
      "flos": 30448638144000.0,
      "grad_norm": 2.6791421212173203,
      "language_loss": 0.81116509,
      "learning_rate": 5.204704678183196e-07,
      "loss": 0.82955974,
      "num_input_tokens_seen": 138195105,
      "step": 6421,
      "time_per_iteration": 3.3570971488952637
    },
    {
      "auxiliary_loss_clip": 0.01095117,
      "auxiliary_loss_mlp": 0.01020308,
      "balance_loss_clip": 1.03948247,
      "balance_loss_mlp": 1.0149343,
      "epoch": 0.7721998436842422,
      "flos": 12971551536000.0,
      "grad_norm": 1.9656607402148147,
      "language_loss": 0.85009396,
      "learning_rate": 5.19946436842813e-07,
      "loss": 0.87124819,
      "num_input_tokens_seen": 138212235,
      "step": 6422,
      "time_per_iteration": 2.472904920578003
    },
    {
      "auxiliary_loss_clip": 0.01052582,
      "auxiliary_loss_mlp": 0.01018974,
      "balance_loss_clip": 1.03610349,
      "balance_loss_mlp": 1.01397657,
      "epoch": 0.7723200865748813,
      "flos": 32638289892480.0,
      "grad_norm": 1.6730931652412604,
      "language_loss": 0.68434942,
      "learning_rate": 5.194226303902546e-07,
      "loss": 0.70506501,
      "num_input_tokens_seen": 138231970,
      "step": 6423,
      "time_per_iteration": 2.6902875900268555
    },
    {
      "auxiliary_loss_clip": 0.01070662,
      "auxiliary_loss_mlp": 0.01019729,
      "balance_loss_clip": 1.03657007,
      "balance_loss_mlp": 1.01451659,
      "epoch": 0.7724403294655203,
      "flos": 21107827802880.0,
      "grad_norm": 1.916586753746731,
      "language_loss": 0.71004486,
      "learning_rate": 5.188990485401072e-07,
      "loss": 0.73094875,
      "num_input_tokens_seen": 138251175,
      "step": 6424,
      "time_per_iteration": 3.3759121894836426
    },
    {
      "auxiliary_loss_clip": 0.01079467,
      "auxiliary_loss_mlp": 0.01016849,
      "balance_loss_clip": 1.03646946,
      "balance_loss_mlp": 1.01177907,
      "epoch": 0.7725605723561595,
      "flos": 22092907559040.0,
      "grad_norm": 1.9348692860791479,
      "language_loss": 0.8634249,
      "learning_rate": 5.183756913717954e-07,
      "loss": 0.88438809,
      "num_input_tokens_seen": 138270950,
      "step": 6425,
      "time_per_iteration": 2.5262415409088135
    },
    {
      "auxiliary_loss_clip": 0.01059346,
      "auxiliary_loss_mlp": 0.01020598,
      "balance_loss_clip": 1.03041434,
      "balance_loss_mlp": 1.0156033,
      "epoch": 0.7726808152467985,
      "flos": 34498456819200.0,
      "grad_norm": 1.8473056311198097,
      "language_loss": 0.73013675,
      "learning_rate": 5.178525589647136e-07,
      "loss": 0.75093615,
      "num_input_tokens_seen": 138292590,
      "step": 6426,
      "time_per_iteration": 2.6988584995269775
    },
    {
      "auxiliary_loss_clip": 0.01071865,
      "auxiliary_loss_mlp": 0.01018858,
      "balance_loss_clip": 1.03660679,
      "balance_loss_mlp": 1.01393485,
      "epoch": 0.7728010581374376,
      "flos": 22308342560640.0,
      "grad_norm": 2.291188475504971,
      "language_loss": 0.78901809,
      "learning_rate": 5.173296513982197e-07,
      "loss": 0.80992532,
      "num_input_tokens_seen": 138311115,
      "step": 6427,
      "time_per_iteration": 2.545241355895996
    },
    {
      "auxiliary_loss_clip": 0.01062012,
      "auxiliary_loss_mlp": 0.0102328,
      "balance_loss_clip": 1.03821945,
      "balance_loss_mlp": 1.01733136,
      "epoch": 0.7729213010280768,
      "flos": 27128943532800.0,
      "grad_norm": 4.173493450490036,
      "language_loss": 0.6487658,
      "learning_rate": 5.168069687516398e-07,
      "loss": 0.66961873,
      "num_input_tokens_seen": 138330885,
      "step": 6428,
      "time_per_iteration": 2.6996054649353027
    },
    {
      "auxiliary_loss_clip": 0.01066745,
      "auxiliary_loss_mlp": 0.01017426,
      "balance_loss_clip": 1.03600216,
      "balance_loss_mlp": 1.01193333,
      "epoch": 0.7730415439187158,
      "flos": 18152171435520.0,
      "grad_norm": 1.9917813174434253,
      "language_loss": 0.71953559,
      "learning_rate": 5.16284511104263e-07,
      "loss": 0.74037737,
      "num_input_tokens_seen": 138350020,
      "step": 6429,
      "time_per_iteration": 2.6175239086151123
    },
    {
      "auxiliary_loss_clip": 0.01062219,
      "auxiliary_loss_mlp": 0.0102116,
      "balance_loss_clip": 1.03344727,
      "balance_loss_mlp": 1.01576591,
      "epoch": 0.7731617868093549,
      "flos": 11949074501760.0,
      "grad_norm": 3.2521132577384146,
      "language_loss": 0.80702412,
      "learning_rate": 5.157622785353457e-07,
      "loss": 0.82785785,
      "num_input_tokens_seen": 138368135,
      "step": 6430,
      "time_per_iteration": 2.5688796043395996
    },
    {
      "auxiliary_loss_clip": 0.01034323,
      "auxiliary_loss_mlp": 0.01001947,
      "balance_loss_clip": 1.01817679,
      "balance_loss_mlp": 1.00013494,
      "epoch": 0.7732820296999939,
      "flos": 64207898426880.0,
      "grad_norm": 0.6540727895205181,
      "language_loss": 0.6028446,
      "learning_rate": 5.152402711241113e-07,
      "loss": 0.62320733,
      "num_input_tokens_seen": 138436040,
      "step": 6431,
      "time_per_iteration": 3.193941593170166
    },
    {
      "auxiliary_loss_clip": 0.01059052,
      "auxiliary_loss_mlp": 0.01018269,
      "balance_loss_clip": 1.03540838,
      "balance_loss_mlp": 1.01315784,
      "epoch": 0.7734022725906331,
      "flos": 25304581324800.0,
      "grad_norm": 1.8797853941474185,
      "language_loss": 0.83047521,
      "learning_rate": 5.147184889497465e-07,
      "loss": 0.85124838,
      "num_input_tokens_seen": 138455510,
      "step": 6432,
      "time_per_iteration": 2.660618543624878
    },
    {
      "auxiliary_loss_clip": 0.01050948,
      "auxiliary_loss_mlp": 0.0101978,
      "balance_loss_clip": 1.03351784,
      "balance_loss_mlp": 1.01457083,
      "epoch": 0.7735225154812722,
      "flos": 17349338309760.0,
      "grad_norm": 2.247748933161074,
      "language_loss": 0.79672265,
      "learning_rate": 5.141969320914072e-07,
      "loss": 0.8174299,
      "num_input_tokens_seen": 138473015,
      "step": 6433,
      "time_per_iteration": 2.559262752532959
    },
    {
      "auxiliary_loss_clip": 0.01095328,
      "auxiliary_loss_mlp": 0.01021038,
      "balance_loss_clip": 1.03855228,
      "balance_loss_mlp": 1.01550043,
      "epoch": 0.7736427583719112,
      "flos": 32632564262400.0,
      "grad_norm": 3.13865590424771,
      "language_loss": 0.62604153,
      "learning_rate": 5.136756006282113e-07,
      "loss": 0.64720511,
      "num_input_tokens_seen": 138491680,
      "step": 6434,
      "time_per_iteration": 2.604416847229004
    },
    {
      "auxiliary_loss_clip": 0.01094082,
      "auxiliary_loss_mlp": 0.01020377,
      "balance_loss_clip": 1.03745556,
      "balance_loss_mlp": 1.01518273,
      "epoch": 0.7737630012625504,
      "flos": 19861839216000.0,
      "grad_norm": 2.8888984556354913,
      "language_loss": 0.85098308,
      "learning_rate": 5.131544946392446e-07,
      "loss": 0.87212765,
      "num_input_tokens_seen": 138506960,
      "step": 6435,
      "time_per_iteration": 2.465740203857422
    },
    {
      "auxiliary_loss_clip": 0.01064443,
      "auxiliary_loss_mlp": 0.01021064,
      "balance_loss_clip": 1.0379709,
      "balance_loss_mlp": 1.01544929,
      "epoch": 0.7738832441531894,
      "flos": 36025271280000.0,
      "grad_norm": 2.2969842826442477,
      "language_loss": 0.64512122,
      "learning_rate": 5.126336142035592e-07,
      "loss": 0.66597629,
      "num_input_tokens_seen": 138526995,
      "step": 6436,
      "time_per_iteration": 2.709369659423828
    },
    {
      "auxiliary_loss_clip": 0.01070861,
      "auxiliary_loss_mlp": 0.01018285,
      "balance_loss_clip": 1.03636503,
      "balance_loss_mlp": 1.01304579,
      "epoch": 0.7740034870438285,
      "flos": 13406857954560.0,
      "grad_norm": 3.3551567455512643,
      "language_loss": 0.71856713,
      "learning_rate": 5.121129594001721e-07,
      "loss": 0.73945862,
      "num_input_tokens_seen": 138541260,
      "step": 6437,
      "time_per_iteration": 2.513336658477783
    },
    {
      "auxiliary_loss_clip": 0.01082334,
      "auxiliary_loss_mlp": 0.01021352,
      "balance_loss_clip": 1.03842866,
      "balance_loss_mlp": 1.01574302,
      "epoch": 0.7741237299344677,
      "flos": 22088660734080.0,
      "grad_norm": 1.7833333544649659,
      "language_loss": 0.81157839,
      "learning_rate": 5.115925303080661e-07,
      "loss": 0.83261526,
      "num_input_tokens_seen": 138560970,
      "step": 6438,
      "time_per_iteration": 2.5618526935577393
    },
    {
      "auxiliary_loss_clip": 0.0105804,
      "auxiliary_loss_mlp": 0.01021286,
      "balance_loss_clip": 1.03140306,
      "balance_loss_mlp": 1.01646137,
      "epoch": 0.7742439728251067,
      "flos": 19866806484480.0,
      "grad_norm": 2.1971891162858768,
      "language_loss": 0.79181653,
      "learning_rate": 5.110723270061899e-07,
      "loss": 0.81260979,
      "num_input_tokens_seen": 138577460,
      "step": 6439,
      "time_per_iteration": 2.537731885910034
    },
    {
      "auxiliary_loss_clip": 0.01091242,
      "auxiliary_loss_mlp": 0.01020525,
      "balance_loss_clip": 1.03664446,
      "balance_loss_mlp": 1.01561069,
      "epoch": 0.7743642157157458,
      "flos": 16691999143680.0,
      "grad_norm": 1.8837990435252199,
      "language_loss": 0.79408216,
      "learning_rate": 5.105523495734572e-07,
      "loss": 0.81519985,
      "num_input_tokens_seen": 138594860,
      "step": 6440,
      "time_per_iteration": 2.509756565093994
    },
    {
      "auxiliary_loss_clip": 0.01093225,
      "auxiliary_loss_mlp": 0.01021838,
      "balance_loss_clip": 1.0371567,
      "balance_loss_mlp": 1.01630104,
      "epoch": 0.7744844586063849,
      "flos": 20306511400320.0,
      "grad_norm": 1.6100012373821952,
      "language_loss": 0.75196439,
      "learning_rate": 5.100325980887499e-07,
      "loss": 0.77311504,
      "num_input_tokens_seen": 138614785,
      "step": 6441,
      "time_per_iteration": 2.5152177810668945
    },
    {
      "auxiliary_loss_clip": 0.0106931,
      "auxiliary_loss_mlp": 0.01018838,
      "balance_loss_clip": 1.03779769,
      "balance_loss_mlp": 1.01347399,
      "epoch": 0.774604701497024,
      "flos": 22968942681600.0,
      "grad_norm": 2.295458406288643,
      "language_loss": 0.83387423,
      "learning_rate": 5.095130726309116e-07,
      "loss": 0.8547557,
      "num_input_tokens_seen": 138634960,
      "step": 6442,
      "time_per_iteration": 2.6296093463897705
    },
    {
      "auxiliary_loss_clip": 0.01043341,
      "auxiliary_loss_mlp": 0.01002179,
      "balance_loss_clip": 1.01781201,
      "balance_loss_mlp": 1.00030756,
      "epoch": 0.774724944387663,
      "flos": 60294700880640.0,
      "grad_norm": 0.7884160553099642,
      "language_loss": 0.58981645,
      "learning_rate": 5.089937732787559e-07,
      "loss": 0.61027169,
      "num_input_tokens_seen": 138699520,
      "step": 6443,
      "time_per_iteration": 3.1493966579437256
    },
    {
      "auxiliary_loss_clip": 0.01054428,
      "auxiliary_loss_mlp": 0.01020768,
      "balance_loss_clip": 1.03171563,
      "balance_loss_mlp": 1.01526606,
      "epoch": 0.7748451872783022,
      "flos": 26763464401920.0,
      "grad_norm": 3.0028378554679716,
      "language_loss": 0.66201723,
      "learning_rate": 5.084747001110592e-07,
      "loss": 0.68276918,
      "num_input_tokens_seen": 138719145,
      "step": 6444,
      "time_per_iteration": 3.3391454219818115
    },
    {
      "auxiliary_loss_clip": 0.01075559,
      "auxiliary_loss_mlp": 0.00756499,
      "balance_loss_clip": 1.03918552,
      "balance_loss_mlp": 1.00156009,
      "epoch": 0.7749654301689413,
      "flos": 30341375660160.0,
      "grad_norm": 1.6465345978386843,
      "language_loss": 0.70329905,
      "learning_rate": 5.07955853206564e-07,
      "loss": 0.72161961,
      "num_input_tokens_seen": 138743850,
      "step": 6445,
      "time_per_iteration": 0.7302021980285645
    },
    {
      "auxiliary_loss_clip": 0.0108288,
      "auxiliary_loss_mlp": 0.01021471,
      "balance_loss_clip": 1.03743017,
      "balance_loss_mlp": 1.01607943,
      "epoch": 0.7750856730595803,
      "flos": 43183217208960.0,
      "grad_norm": 1.719404150081889,
      "language_loss": 0.71043432,
      "learning_rate": 5.074372326439807e-07,
      "loss": 0.73147774,
      "num_input_tokens_seen": 138766860,
      "step": 6446,
      "time_per_iteration": 2.74586820602417
    },
    {
      "auxiliary_loss_clip": 0.0105101,
      "auxiliary_loss_mlp": 0.01019878,
      "balance_loss_clip": 1.0325141,
      "balance_loss_mlp": 1.01482105,
      "epoch": 0.7752059159502195,
      "flos": 17641994624640.0,
      "grad_norm": 2.2542282761220167,
      "language_loss": 0.73743522,
      "learning_rate": 5.069188385019814e-07,
      "loss": 0.75814414,
      "num_input_tokens_seen": 138784560,
      "step": 6447,
      "time_per_iteration": 3.3684985637664795
    },
    {
      "auxiliary_loss_clip": 0.01047896,
      "auxiliary_loss_mlp": 0.01018797,
      "balance_loss_clip": 1.0335381,
      "balance_loss_mlp": 1.01340246,
      "epoch": 0.7753261588408585,
      "flos": 12679350238080.0,
      "grad_norm": 2.5365837374086815,
      "language_loss": 0.60953718,
      "learning_rate": 5.064006708592077e-07,
      "loss": 0.63020414,
      "num_input_tokens_seen": 138800805,
      "step": 6448,
      "time_per_iteration": 2.6438071727752686
    },
    {
      "auxiliary_loss_clip": 0.01059869,
      "auxiliary_loss_mlp": 0.0101887,
      "balance_loss_clip": 1.0341481,
      "balance_loss_mlp": 1.01399136,
      "epoch": 0.7754464017314976,
      "flos": 16692605832960.0,
      "grad_norm": 2.6095728521240096,
      "language_loss": 0.75858808,
      "learning_rate": 5.058827297942641e-07,
      "loss": 0.77937543,
      "num_input_tokens_seen": 138815910,
      "step": 6449,
      "time_per_iteration": 2.5248241424560547
    },
    {
      "auxiliary_loss_clip": 0.01067214,
      "auxiliary_loss_mlp": 0.01018296,
      "balance_loss_clip": 1.03692198,
      "balance_loss_mlp": 1.01308632,
      "epoch": 0.7755666446221368,
      "flos": 19720971262080.0,
      "grad_norm": 2.7375884199779237,
      "language_loss": 0.75120151,
      "learning_rate": 5.053650153857237e-07,
      "loss": 0.77205658,
      "num_input_tokens_seen": 138834920,
      "step": 6450,
      "time_per_iteration": 3.3760170936584473
    },
    {
      "auxiliary_loss_clip": 0.01081512,
      "auxiliary_loss_mlp": 0.01021424,
      "balance_loss_clip": 1.03818798,
      "balance_loss_mlp": 1.01618528,
      "epoch": 0.7756868875127758,
      "flos": 18695384945280.0,
      "grad_norm": 1.712324194777758,
      "language_loss": 0.69739473,
      "learning_rate": 5.048475277121214e-07,
      "loss": 0.71842408,
      "num_input_tokens_seen": 138852135,
      "step": 6451,
      "time_per_iteration": 2.5148117542266846
    },
    {
      "auxiliary_loss_clip": 0.01079409,
      "auxiliary_loss_mlp": 0.01017003,
      "balance_loss_clip": 1.03521299,
      "balance_loss_mlp": 1.01192141,
      "epoch": 0.7758071304034149,
      "flos": 28406793358080.0,
      "grad_norm": 3.995170841970826,
      "language_loss": 0.769095,
      "learning_rate": 5.043302668519598e-07,
      "loss": 0.79005909,
      "num_input_tokens_seen": 138871470,
      "step": 6452,
      "time_per_iteration": 2.5986146926879883
    },
    {
      "auxiliary_loss_clip": 0.01081657,
      "auxiliary_loss_mlp": 0.01018015,
      "balance_loss_clip": 1.03627253,
      "balance_loss_mlp": 1.01293373,
      "epoch": 0.775927373294054,
      "flos": 20597461401600.0,
      "grad_norm": 2.1926805063777937,
      "language_loss": 0.72222257,
      "learning_rate": 5.038132328837079e-07,
      "loss": 0.74321932,
      "num_input_tokens_seen": 138889860,
      "step": 6453,
      "time_per_iteration": 2.5174059867858887
    },
    {
      "auxiliary_loss_clip": 0.01084002,
      "auxiliary_loss_mlp": 0.01016236,
      "balance_loss_clip": 1.03870237,
      "balance_loss_mlp": 1.01090717,
      "epoch": 0.7760476161846931,
      "flos": 22528441486080.0,
      "grad_norm": 2.3545548444101163,
      "language_loss": 0.74220049,
      "learning_rate": 5.032964258857993e-07,
      "loss": 0.76320291,
      "num_input_tokens_seen": 138909955,
      "step": 6454,
      "time_per_iteration": 2.5575010776519775
    },
    {
      "auxiliary_loss_clip": 0.01081482,
      "auxiliary_loss_mlp": 0.0102105,
      "balance_loss_clip": 1.03493869,
      "balance_loss_mlp": 1.01563787,
      "epoch": 0.7761678590753321,
      "flos": 48655090454400.0,
      "grad_norm": 1.9759522891667267,
      "language_loss": 0.68445379,
      "learning_rate": 5.027798459366329e-07,
      "loss": 0.70547915,
      "num_input_tokens_seen": 138935320,
      "step": 6455,
      "time_per_iteration": 2.795203924179077
    },
    {
      "auxiliary_loss_clip": 0.01084291,
      "auxiliary_loss_mlp": 0.01019988,
      "balance_loss_clip": 1.03767848,
      "balance_loss_mlp": 1.01475799,
      "epoch": 0.7762881019659713,
      "flos": 26179440986880.0,
      "grad_norm": 1.5447773401492197,
      "language_loss": 0.6359123,
      "learning_rate": 5.02263493114573e-07,
      "loss": 0.65695512,
      "num_input_tokens_seen": 138957115,
      "step": 6456,
      "time_per_iteration": 2.576231002807617
    },
    {
      "auxiliary_loss_clip": 0.01091633,
      "auxiliary_loss_mlp": 0.01020009,
      "balance_loss_clip": 1.03631568,
      "balance_loss_mlp": 1.01474619,
      "epoch": 0.7764083448566104,
      "flos": 20590067376000.0,
      "grad_norm": 3.0719725006262553,
      "language_loss": 0.77233481,
      "learning_rate": 5.017473674979502e-07,
      "loss": 0.79345119,
      "num_input_tokens_seen": 138973140,
      "step": 6457,
      "time_per_iteration": 2.5031256675720215
    },
    {
      "auxiliary_loss_clip": 0.01026418,
      "auxiliary_loss_mlp": 0.01008516,
      "balance_loss_clip": 1.03719997,
      "balance_loss_mlp": 1.00679898,
      "epoch": 0.7765285877472494,
      "flos": 67299607152000.0,
      "grad_norm": 0.7537427471555909,
      "language_loss": 0.5834012,
      "learning_rate": 5.01231469165061e-07,
      "loss": 0.60375053,
      "num_input_tokens_seen": 139028965,
      "step": 6458,
      "time_per_iteration": 3.1039955615997314
    },
    {
      "auxiliary_loss_clip": 0.01033576,
      "auxiliary_loss_mlp": 0.01002616,
      "balance_loss_clip": 1.01792526,
      "balance_loss_mlp": 1.00082779,
      "epoch": 0.7766488306378886,
      "flos": 61350593794560.0,
      "grad_norm": 0.8315584945608426,
      "language_loss": 0.56873763,
      "learning_rate": 5.007157981941663e-07,
      "loss": 0.58909953,
      "num_input_tokens_seen": 139094325,
      "step": 6459,
      "time_per_iteration": 3.2659311294555664
    },
    {
      "auxiliary_loss_clip": 0.0102248,
      "auxiliary_loss_mlp": 0.01001494,
      "balance_loss_clip": 1.01646042,
      "balance_loss_mlp": 0.99965829,
      "epoch": 0.7767690735285276,
      "flos": 62952202811520.0,
      "grad_norm": 0.8830495099764981,
      "language_loss": 0.6740098,
      "learning_rate": 5.002003546634928e-07,
      "loss": 0.69424963,
      "num_input_tokens_seen": 139150425,
      "step": 6460,
      "time_per_iteration": 3.1101956367492676
    },
    {
      "auxiliary_loss_clip": 0.0103955,
      "auxiliary_loss_mlp": 0.01020604,
      "balance_loss_clip": 1.03617525,
      "balance_loss_mlp": 1.01542163,
      "epoch": 0.7768893164191667,
      "flos": 20888487239040.0,
      "grad_norm": 1.698118750505003,
      "language_loss": 0.76120615,
      "learning_rate": 4.996851386512331e-07,
      "loss": 0.78180766,
      "num_input_tokens_seen": 139169130,
      "step": 6461,
      "time_per_iteration": 2.648594379425049
    },
    {
      "auxiliary_loss_clip": 0.01066959,
      "auxiliary_loss_mlp": 0.01020902,
      "balance_loss_clip": 1.03516722,
      "balance_loss_mlp": 1.01517665,
      "epoch": 0.7770095593098058,
      "flos": 20706695625600.0,
      "grad_norm": 1.9171332000993997,
      "language_loss": 0.83076477,
      "learning_rate": 4.991701502355444e-07,
      "loss": 0.85164332,
      "num_input_tokens_seen": 139189595,
      "step": 6462,
      "time_per_iteration": 2.612222671508789
    },
    {
      "auxiliary_loss_clip": 0.01082671,
      "auxiliary_loss_mlp": 0.01020387,
      "balance_loss_clip": 1.03687346,
      "balance_loss_mlp": 1.01576495,
      "epoch": 0.7771298022004449,
      "flos": 24720027056640.0,
      "grad_norm": 1.5513445935118058,
      "language_loss": 0.75757527,
      "learning_rate": 4.986553894945518e-07,
      "loss": 0.77860594,
      "num_input_tokens_seen": 139210805,
      "step": 6463,
      "time_per_iteration": 2.5860939025878906
    },
    {
      "auxiliary_loss_clip": 0.01040422,
      "auxiliary_loss_mlp": 0.01022369,
      "balance_loss_clip": 1.0338037,
      "balance_loss_mlp": 1.01767826,
      "epoch": 0.777250045091084,
      "flos": 25011545829120.0,
      "grad_norm": 2.0361027072752065,
      "language_loss": 0.86057699,
      "learning_rate": 4.981408565063416e-07,
      "loss": 0.8812049,
      "num_input_tokens_seen": 139230750,
      "step": 6464,
      "time_per_iteration": 2.717700242996216
    },
    {
      "auxiliary_loss_clip": 0.01094029,
      "auxiliary_loss_mlp": 0.01019497,
      "balance_loss_clip": 1.03788018,
      "balance_loss_mlp": 1.01431108,
      "epoch": 0.777370287981723,
      "flos": 20121913848960.0,
      "grad_norm": 1.8448872587039005,
      "language_loss": 0.76078629,
      "learning_rate": 4.976265513489701e-07,
      "loss": 0.78192151,
      "num_input_tokens_seen": 139250720,
      "step": 6465,
      "time_per_iteration": 2.496825695037842
    },
    {
      "auxiliary_loss_clip": 0.01082593,
      "auxiliary_loss_mlp": 0.01018929,
      "balance_loss_clip": 1.03662157,
      "balance_loss_mlp": 1.01387763,
      "epoch": 0.7774905308723622,
      "flos": 21720565255680.0,
      "grad_norm": 1.7410664093811816,
      "language_loss": 0.80411768,
      "learning_rate": 4.971124741004562e-07,
      "loss": 0.82513297,
      "num_input_tokens_seen": 139269720,
      "step": 6466,
      "time_per_iteration": 2.5816571712493896
    },
    {
      "auxiliary_loss_clip": 0.01079658,
      "auxiliary_loss_mlp": 0.01019728,
      "balance_loss_clip": 1.03650367,
      "balance_loss_mlp": 1.01450396,
      "epoch": 0.7776107737630013,
      "flos": 16035949192320.0,
      "grad_norm": 1.7002284213281142,
      "language_loss": 0.76531625,
      "learning_rate": 4.965986248387846e-07,
      "loss": 0.78631008,
      "num_input_tokens_seen": 139288035,
      "step": 6467,
      "time_per_iteration": 2.491811990737915
    },
    {
      "auxiliary_loss_clip": 0.01069707,
      "auxiliary_loss_mlp": 0.01020211,
      "balance_loss_clip": 1.0351181,
      "balance_loss_mlp": 1.01521921,
      "epoch": 0.7777310166536403,
      "flos": 24793229053440.0,
      "grad_norm": 1.5917648126065203,
      "language_loss": 0.77468324,
      "learning_rate": 4.960850036419073e-07,
      "loss": 0.79558241,
      "num_input_tokens_seen": 139307135,
      "step": 6468,
      "time_per_iteration": 2.6184463500976562
    },
    {
      "auxiliary_loss_clip": 0.01064645,
      "auxiliary_loss_mlp": 0.01018154,
      "balance_loss_clip": 1.03375268,
      "balance_loss_mlp": 1.01284862,
      "epoch": 0.7778512595442795,
      "flos": 17274316245120.0,
      "grad_norm": 1.830686410049301,
      "language_loss": 0.78563279,
      "learning_rate": 4.955716105877378e-07,
      "loss": 0.80646074,
      "num_input_tokens_seen": 139325905,
      "step": 6469,
      "time_per_iteration": 2.5359151363372803
    },
    {
      "auxiliary_loss_clip": 0.01082558,
      "auxiliary_loss_mlp": 0.00756734,
      "balance_loss_clip": 1.03697777,
      "balance_loss_mlp": 1.00165439,
      "epoch": 0.7779715024349185,
      "flos": 17750318814720.0,
      "grad_norm": 1.8206531930192573,
      "language_loss": 0.83124316,
      "learning_rate": 4.950584457541598e-07,
      "loss": 0.84963608,
      "num_input_tokens_seen": 139344370,
      "step": 6470,
      "time_per_iteration": 3.3038816452026367
    },
    {
      "auxiliary_loss_clip": 0.01082129,
      "auxiliary_loss_mlp": 0.01021171,
      "balance_loss_clip": 1.0367167,
      "balance_loss_mlp": 1.01598215,
      "epoch": 0.7780917453255576,
      "flos": 24319198224000.0,
      "grad_norm": 1.3872114945555554,
      "language_loss": 0.81848502,
      "learning_rate": 4.945455092190183e-07,
      "loss": 0.83951807,
      "num_input_tokens_seen": 139365625,
      "step": 6471,
      "time_per_iteration": 3.3637921810150146
    },
    {
      "auxiliary_loss_clip": 0.01043332,
      "auxiliary_loss_mlp": 0.01003075,
      "balance_loss_clip": 1.01786852,
      "balance_loss_mlp": 1.00137031,
      "epoch": 0.7782119882161967,
      "flos": 56371482910080.0,
      "grad_norm": 0.6839125386103901,
      "language_loss": 0.55916727,
      "learning_rate": 4.940328010601271e-07,
      "loss": 0.57963133,
      "num_input_tokens_seen": 139430540,
      "step": 6472,
      "time_per_iteration": 3.1460776329040527
    },
    {
      "auxiliary_loss_clip": 0.0106914,
      "auxiliary_loss_mlp": 0.01022762,
      "balance_loss_clip": 1.03940129,
      "balance_loss_mlp": 1.01700449,
      "epoch": 0.7783322311068358,
      "flos": 46793444722560.0,
      "grad_norm": 1.7923176159431613,
      "language_loss": 0.77168155,
      "learning_rate": 4.935203213552621e-07,
      "loss": 0.79260057,
      "num_input_tokens_seen": 139454280,
      "step": 6473,
      "time_per_iteration": 3.5639498233795166
    },
    {
      "auxiliary_loss_clip": 0.01065248,
      "auxiliary_loss_mlp": 0.01019485,
      "balance_loss_clip": 1.03708696,
      "balance_loss_mlp": 1.01384664,
      "epoch": 0.7784524739974749,
      "flos": 19059612779520.0,
      "grad_norm": 3.8952336982801774,
      "language_loss": 0.67073798,
      "learning_rate": 4.930080701821662e-07,
      "loss": 0.6915853,
      "num_input_tokens_seen": 139471745,
      "step": 6474,
      "time_per_iteration": 2.5566797256469727
    },
    {
      "auxiliary_loss_clip": 0.01061573,
      "auxiliary_loss_mlp": 0.01021476,
      "balance_loss_clip": 1.02933228,
      "balance_loss_mlp": 1.01645422,
      "epoch": 0.778572716888114,
      "flos": 24793456561920.0,
      "grad_norm": 1.9626637331519767,
      "language_loss": 0.77083504,
      "learning_rate": 4.92496047618548e-07,
      "loss": 0.79166555,
      "num_input_tokens_seen": 139491505,
      "step": 6475,
      "time_per_iteration": 2.6057097911834717
    },
    {
      "auxiliary_loss_clip": 0.01082756,
      "auxiliary_loss_mlp": 0.01018431,
      "balance_loss_clip": 1.03786016,
      "balance_loss_mlp": 1.01326299,
      "epoch": 0.7786929597787531,
      "flos": 20079814728960.0,
      "grad_norm": 2.0316253527706234,
      "language_loss": 0.7771647,
      "learning_rate": 4.919842537420811e-07,
      "loss": 0.79817665,
      "num_input_tokens_seen": 139508620,
      "step": 6476,
      "time_per_iteration": 3.3216707706451416
    },
    {
      "auxiliary_loss_clip": 0.01070543,
      "auxiliary_loss_mlp": 0.01021891,
      "balance_loss_clip": 1.03847885,
      "balance_loss_mlp": 1.0168786,
      "epoch": 0.7788132026693921,
      "flos": 21874401192960.0,
      "grad_norm": 2.0769147067030285,
      "language_loss": 0.79350126,
      "learning_rate": 4.91472688630404e-07,
      "loss": 0.81442559,
      "num_input_tokens_seen": 139529360,
      "step": 6477,
      "time_per_iteration": 2.583151340484619
    },
    {
      "auxiliary_loss_clip": 0.01091705,
      "auxiliary_loss_mlp": 0.01019167,
      "balance_loss_clip": 1.03695118,
      "balance_loss_mlp": 1.0141902,
      "epoch": 0.7789334455600313,
      "flos": 11183524899840.0,
      "grad_norm": 1.9274073649166852,
      "language_loss": 0.73876762,
      "learning_rate": 4.909613523611202e-07,
      "loss": 0.75987625,
      "num_input_tokens_seen": 139546240,
      "step": 6478,
      "time_per_iteration": 2.4805829524993896
    },
    {
      "auxiliary_loss_clip": 0.01046966,
      "auxiliary_loss_mlp": 0.00756617,
      "balance_loss_clip": 1.03600574,
      "balance_loss_mlp": 1.00170004,
      "epoch": 0.7790536884506704,
      "flos": 28698008785920.0,
      "grad_norm": 3.9152348319246273,
      "language_loss": 0.74778211,
      "learning_rate": 4.904502450117991e-07,
      "loss": 0.76581794,
      "num_input_tokens_seen": 139567200,
      "step": 6479,
      "time_per_iteration": 2.6932411193847656
    },
    {
      "auxiliary_loss_clip": 0.01063715,
      "auxiliary_loss_mlp": 0.01020782,
      "balance_loss_clip": 1.03859997,
      "balance_loss_mlp": 1.01582909,
      "epoch": 0.7791739313413094,
      "flos": 11073873576960.0,
      "grad_norm": 2.7686306922743302,
      "language_loss": 0.7236256,
      "learning_rate": 4.899393666599762e-07,
      "loss": 0.74447054,
      "num_input_tokens_seen": 139583775,
      "step": 6480,
      "time_per_iteration": 2.5649912357330322
    },
    {
      "auxiliary_loss_clip": 0.01091136,
      "auxiliary_loss_mlp": 0.01015395,
      "balance_loss_clip": 1.0353508,
      "balance_loss_mlp": 1.01057339,
      "epoch": 0.7792941742319486,
      "flos": 14680764299520.0,
      "grad_norm": 2.9175934964748063,
      "language_loss": 0.72742343,
      "learning_rate": 4.894287173831506e-07,
      "loss": 0.74848872,
      "num_input_tokens_seen": 139599735,
      "step": 6481,
      "time_per_iteration": 2.476576089859009
    },
    {
      "auxiliary_loss_clip": 0.01067892,
      "auxiliary_loss_mlp": 0.01019823,
      "balance_loss_clip": 1.03449368,
      "balance_loss_mlp": 1.01417279,
      "epoch": 0.7794144171225876,
      "flos": 23261143979520.0,
      "grad_norm": 23.328196111172073,
      "language_loss": 0.84363198,
      "learning_rate": 4.889182972587877e-07,
      "loss": 0.86450911,
      "num_input_tokens_seen": 139619030,
      "step": 6482,
      "time_per_iteration": 2.598958969116211
    },
    {
      "auxiliary_loss_clip": 0.01063573,
      "auxiliary_loss_mlp": 0.01019432,
      "balance_loss_clip": 1.03864431,
      "balance_loss_mlp": 1.01414478,
      "epoch": 0.7795346600132267,
      "flos": 21509225406720.0,
      "grad_norm": 1.90145010725598,
      "language_loss": 0.66714174,
      "learning_rate": 4.884081063643177e-07,
      "loss": 0.68797177,
      "num_input_tokens_seen": 139637690,
      "step": 6483,
      "time_per_iteration": 2.603041410446167
    },
    {
      "auxiliary_loss_clip": 0.0102928,
      "auxiliary_loss_mlp": 0.01003106,
      "balance_loss_clip": 1.02480721,
      "balance_loss_mlp": 1.00144863,
      "epoch": 0.7796549029038659,
      "flos": 70058190919680.0,
      "grad_norm": 1.3506280866779787,
      "language_loss": 0.52467376,
      "learning_rate": 4.878981447771353e-07,
      "loss": 0.54499757,
      "num_input_tokens_seen": 139692070,
      "step": 6484,
      "time_per_iteration": 3.164877414703369
    },
    {
      "auxiliary_loss_clip": 0.01056478,
      "auxiliary_loss_mlp": 0.0101953,
      "balance_loss_clip": 1.03466105,
      "balance_loss_mlp": 1.01390922,
      "epoch": 0.7797751457945049,
      "flos": 23991760978560.0,
      "grad_norm": 1.689728909457237,
      "language_loss": 0.73068225,
      "learning_rate": 4.873884125746035e-07,
      "loss": 0.75144231,
      "num_input_tokens_seen": 139713745,
      "step": 6485,
      "time_per_iteration": 2.610880136489868
    },
    {
      "auxiliary_loss_clip": 0.01070075,
      "auxiliary_loss_mlp": 0.01015899,
      "balance_loss_clip": 1.03621531,
      "balance_loss_mlp": 1.0106504,
      "epoch": 0.779895388685144,
      "flos": 22676968892160.0,
      "grad_norm": 2.1066414055813727,
      "language_loss": 0.72020316,
      "learning_rate": 4.868789098340456e-07,
      "loss": 0.74106294,
      "num_input_tokens_seen": 139731650,
      "step": 6486,
      "time_per_iteration": 2.577446699142456
    },
    {
      "auxiliary_loss_clip": 0.01055205,
      "auxiliary_loss_mlp": 0.01018136,
      "balance_loss_clip": 1.03385699,
      "balance_loss_mlp": 1.01333797,
      "epoch": 0.7800156315757831,
      "flos": 23770941609600.0,
      "grad_norm": 2.1709391012436847,
      "language_loss": 0.7323221,
      "learning_rate": 4.863696366327543e-07,
      "loss": 0.75305545,
      "num_input_tokens_seen": 139750820,
      "step": 6487,
      "time_per_iteration": 2.5978333950042725
    },
    {
      "auxiliary_loss_clip": 0.01081069,
      "auxiliary_loss_mlp": 0.01020913,
      "balance_loss_clip": 1.0351665,
      "balance_loss_mlp": 1.01568866,
      "epoch": 0.7801358744664222,
      "flos": 26431969921920.0,
      "grad_norm": 1.9853250891336252,
      "language_loss": 0.78078038,
      "learning_rate": 4.85860593047986e-07,
      "loss": 0.80180019,
      "num_input_tokens_seen": 139770885,
      "step": 6488,
      "time_per_iteration": 2.6082661151885986
    },
    {
      "auxiliary_loss_clip": 0.01058502,
      "auxiliary_loss_mlp": 0.01020334,
      "balance_loss_clip": 1.03401709,
      "balance_loss_mlp": 1.01539612,
      "epoch": 0.7802561173570612,
      "flos": 26324517847680.0,
      "grad_norm": 2.26797961166143,
      "language_loss": 0.74745905,
      "learning_rate": 4.853517791569613e-07,
      "loss": 0.76824749,
      "num_input_tokens_seen": 139793065,
      "step": 6489,
      "time_per_iteration": 2.6508407592773438
    },
    {
      "auxiliary_loss_clip": 0.01069562,
      "auxiliary_loss_mlp": 0.00756622,
      "balance_loss_clip": 1.03502607,
      "balance_loss_mlp": 1.00153625,
      "epoch": 0.7803763602477004,
      "flos": 40336946737920.0,
      "grad_norm": 2.3588132797209678,
      "language_loss": 0.66159177,
      "learning_rate": 4.848431950368684e-07,
      "loss": 0.67985362,
      "num_input_tokens_seen": 139815625,
      "step": 6490,
      "time_per_iteration": 2.7317240238189697
    },
    {
      "auxiliary_loss_clip": 0.01043984,
      "auxiliary_loss_mlp": 0.00752288,
      "balance_loss_clip": 1.0185771,
      "balance_loss_mlp": 1.00097263,
      "epoch": 0.7804966031383395,
      "flos": 67007974625280.0,
      "grad_norm": 0.8187488265825874,
      "language_loss": 0.55711579,
      "learning_rate": 4.843348407648569e-07,
      "loss": 0.57507849,
      "num_input_tokens_seen": 139876905,
      "step": 6491,
      "time_per_iteration": 3.060152053833008
    },
    {
      "auxiliary_loss_clip": 0.0108102,
      "auxiliary_loss_mlp": 0.01018957,
      "balance_loss_clip": 1.03436208,
      "balance_loss_mlp": 1.0133841,
      "epoch": 0.7806168460289785,
      "flos": 17742204345600.0,
      "grad_norm": 4.43403922230321,
      "language_loss": 0.83144987,
      "learning_rate": 4.838267164180457e-07,
      "loss": 0.85244966,
      "num_input_tokens_seen": 139892575,
      "step": 6492,
      "time_per_iteration": 2.505772352218628
    },
    {
      "auxiliary_loss_clip": 0.01094646,
      "auxiliary_loss_mlp": 0.01023723,
      "balance_loss_clip": 1.03804851,
      "balance_loss_mlp": 1.01832604,
      "epoch": 0.7807370889196176,
      "flos": 23948220971520.0,
      "grad_norm": 2.1309863202781907,
      "language_loss": 0.83904511,
      "learning_rate": 4.833188220735156e-07,
      "loss": 0.86022878,
      "num_input_tokens_seen": 139912245,
      "step": 6493,
      "time_per_iteration": 2.531081199645996
    },
    {
      "auxiliary_loss_clip": 0.0107969,
      "auxiliary_loss_mlp": 0.01020022,
      "balance_loss_clip": 1.03530955,
      "balance_loss_mlp": 1.01503563,
      "epoch": 0.7808573318102567,
      "flos": 18990998870400.0,
      "grad_norm": 2.2114481250551608,
      "language_loss": 0.74913239,
      "learning_rate": 4.828111578083152e-07,
      "loss": 0.77012956,
      "num_input_tokens_seen": 139929150,
      "step": 6494,
      "time_per_iteration": 2.508676767349243
    },
    {
      "auxiliary_loss_clip": 0.01065229,
      "auxiliary_loss_mlp": 0.01020657,
      "balance_loss_clip": 1.03514016,
      "balance_loss_mlp": 1.01527786,
      "epoch": 0.7809775747008958,
      "flos": 23982622721280.0,
      "grad_norm": 2.099650697791296,
      "language_loss": 0.81269425,
      "learning_rate": 4.823037236994556e-07,
      "loss": 0.83355314,
      "num_input_tokens_seen": 139947315,
      "step": 6495,
      "time_per_iteration": 2.6110117435455322
    },
    {
      "auxiliary_loss_clip": 0.01034504,
      "auxiliary_loss_mlp": 0.01001665,
      "balance_loss_clip": 1.01868033,
      "balance_loss_mlp": 0.999901,
      "epoch": 0.7810978175915348,
      "flos": 68542600210560.0,
      "grad_norm": 0.7153004720722673,
      "language_loss": 0.56245291,
      "learning_rate": 4.817965198239136e-07,
      "loss": 0.58281457,
      "num_input_tokens_seen": 140013775,
      "step": 6496,
      "time_per_iteration": 3.122091293334961
    },
    {
      "auxiliary_loss_clip": 0.01059101,
      "auxiliary_loss_mlp": 0.01019855,
      "balance_loss_clip": 1.03523803,
      "balance_loss_mlp": 1.01423407,
      "epoch": 0.781218060482174,
      "flos": 19643939539200.0,
      "grad_norm": 2.228821407592035,
      "language_loss": 0.74804294,
      "learning_rate": 4.812895462586331e-07,
      "loss": 0.76883256,
      "num_input_tokens_seen": 140031600,
      "step": 6497,
      "time_per_iteration": 4.025408029556274
    },
    {
      "auxiliary_loss_clip": 0.01054846,
      "auxiliary_loss_mlp": 0.01021168,
      "balance_loss_clip": 1.03384507,
      "balance_loss_mlp": 1.01636076,
      "epoch": 0.7813383033728131,
      "flos": 25630122666240.0,
      "grad_norm": 1.7252018513363157,
      "language_loss": 0.82070076,
      "learning_rate": 4.807828030805207e-07,
      "loss": 0.84146088,
      "num_input_tokens_seen": 140050590,
      "step": 6498,
      "time_per_iteration": 2.643465757369995
    },
    {
      "auxiliary_loss_clip": 0.01074708,
      "auxiliary_loss_mlp": 0.01025375,
      "balance_loss_clip": 1.03683007,
      "balance_loss_mlp": 1.01995671,
      "epoch": 0.7814585462634521,
      "flos": 20488037587200.0,
      "grad_norm": 2.470347001141842,
      "language_loss": 0.67720121,
      "learning_rate": 4.802762903664495e-07,
      "loss": 0.69820201,
      "num_input_tokens_seen": 140069770,
      "step": 6499,
      "time_per_iteration": 3.3343398571014404
    },
    {
      "auxiliary_loss_clip": 0.01070745,
      "auxiliary_loss_mlp": 0.01023382,
      "balance_loss_clip": 1.03639913,
      "balance_loss_mlp": 1.01800823,
      "epoch": 0.7815787891540913,
      "flos": 22306181230080.0,
      "grad_norm": 2.4856196227679543,
      "language_loss": 0.74028337,
      "learning_rate": 4.797700081932565e-07,
      "loss": 0.76122463,
      "num_input_tokens_seen": 140087635,
      "step": 6500,
      "time_per_iteration": 2.579390287399292
    },
    {
      "auxiliary_loss_clip": 0.01033418,
      "auxiliary_loss_mlp": 0.01021442,
      "balance_loss_clip": 1.03331161,
      "balance_loss_mlp": 1.0161705,
      "epoch": 0.7816990320447303,
      "flos": 22602818943360.0,
      "grad_norm": 2.884275762958468,
      "language_loss": 0.81624413,
      "learning_rate": 4.792639566377442e-07,
      "loss": 0.83679271,
      "num_input_tokens_seen": 140105045,
      "step": 6501,
      "time_per_iteration": 2.642218828201294
    },
    {
      "auxiliary_loss_clip": 0.01082571,
      "auxiliary_loss_mlp": 0.01018079,
      "balance_loss_clip": 1.03644621,
      "balance_loss_mlp": 1.01284885,
      "epoch": 0.7818192749353694,
      "flos": 24938267996160.0,
      "grad_norm": 1.9400594260927686,
      "language_loss": 0.77529919,
      "learning_rate": 4.78758135776681e-07,
      "loss": 0.79630566,
      "num_input_tokens_seen": 140124900,
      "step": 6502,
      "time_per_iteration": 3.3415331840515137
    },
    {
      "auxiliary_loss_clip": 0.0106848,
      "auxiliary_loss_mlp": 0.01021218,
      "balance_loss_clip": 1.03593516,
      "balance_loss_mlp": 1.01619637,
      "epoch": 0.7819395178260086,
      "flos": 23735326481280.0,
      "grad_norm": 2.602356957699151,
      "language_loss": 0.78813368,
      "learning_rate": 4.782525456867989e-07,
      "loss": 0.80903065,
      "num_input_tokens_seen": 140143755,
      "step": 6503,
      "time_per_iteration": 2.5759615898132324
    },
    {
      "auxiliary_loss_clip": 0.0105131,
      "auxiliary_loss_mlp": 0.01020273,
      "balance_loss_clip": 1.03523564,
      "balance_loss_mlp": 1.01469433,
      "epoch": 0.7820597607166476,
      "flos": 23223898373760.0,
      "grad_norm": 2.072659971605042,
      "language_loss": 0.83395302,
      "learning_rate": 4.777471864447959e-07,
      "loss": 0.85466886,
      "num_input_tokens_seen": 140164495,
      "step": 6504,
      "time_per_iteration": 2.608753204345703
    },
    {
      "auxiliary_loss_clip": 0.01073425,
      "auxiliary_loss_mlp": 0.0102244,
      "balance_loss_clip": 1.03559184,
      "balance_loss_mlp": 1.01741266,
      "epoch": 0.7821800036072867,
      "flos": 22311717269760.0,
      "grad_norm": 2.168085032933568,
      "language_loss": 0.80556983,
      "learning_rate": 4.772420581273344e-07,
      "loss": 0.82652855,
      "num_input_tokens_seen": 140181980,
      "step": 6505,
      "time_per_iteration": 2.5580484867095947
    },
    {
      "auxiliary_loss_clip": 0.01073831,
      "auxiliary_loss_mlp": 0.01019369,
      "balance_loss_clip": 1.03451598,
      "balance_loss_mlp": 1.01422501,
      "epoch": 0.7823002464979258,
      "flos": 21546357258240.0,
      "grad_norm": 3.0853540966912694,
      "language_loss": 0.76413178,
      "learning_rate": 4.7673716081104134e-07,
      "loss": 0.7850638,
      "num_input_tokens_seen": 140202155,
      "step": 6506,
      "time_per_iteration": 2.5495657920837402
    },
    {
      "auxiliary_loss_clip": 0.01074058,
      "auxiliary_loss_mlp": 0.01019166,
      "balance_loss_clip": 1.03247237,
      "balance_loss_mlp": 1.01407886,
      "epoch": 0.7824204893885649,
      "flos": 24537970016640.0,
      "grad_norm": 1.9426723475610477,
      "language_loss": 0.84643614,
      "learning_rate": 4.762324945725109e-07,
      "loss": 0.86736834,
      "num_input_tokens_seen": 140221600,
      "step": 6507,
      "time_per_iteration": 2.5483994483947754
    },
    {
      "auxiliary_loss_clip": 0.01059636,
      "auxiliary_loss_mlp": 0.01020763,
      "balance_loss_clip": 1.03399014,
      "balance_loss_mlp": 1.01564908,
      "epoch": 0.782540732279204,
      "flos": 27417542613120.0,
      "grad_norm": 1.7097914983885765,
      "language_loss": 0.76135564,
      "learning_rate": 4.7572805948829844e-07,
      "loss": 0.78215969,
      "num_input_tokens_seen": 140241860,
      "step": 6508,
      "time_per_iteration": 2.599581241607666
    },
    {
      "auxiliary_loss_clip": 0.01043072,
      "auxiliary_loss_mlp": 0.01015841,
      "balance_loss_clip": 1.0316627,
      "balance_loss_mlp": 1.01092684,
      "epoch": 0.7826609751698431,
      "flos": 24355533795840.0,
      "grad_norm": 2.038339496395245,
      "language_loss": 0.71389717,
      "learning_rate": 4.7522385563492795e-07,
      "loss": 0.73448628,
      "num_input_tokens_seen": 140262160,
      "step": 6509,
      "time_per_iteration": 2.645467758178711
    },
    {
      "auxiliary_loss_clip": 0.01053087,
      "auxiliary_loss_mlp": 0.01020991,
      "balance_loss_clip": 1.03217995,
      "balance_loss_mlp": 1.01588309,
      "epoch": 0.7827812180604822,
      "flos": 23990850944640.0,
      "grad_norm": 2.344534358011366,
      "language_loss": 0.70543313,
      "learning_rate": 4.747198830888863e-07,
      "loss": 0.72617388,
      "num_input_tokens_seen": 140282030,
      "step": 6510,
      "time_per_iteration": 2.6124444007873535
    },
    {
      "auxiliary_loss_clip": 0.01068648,
      "auxiliary_loss_mlp": 0.01022054,
      "balance_loss_clip": 1.03581262,
      "balance_loss_mlp": 1.01712418,
      "epoch": 0.7829014609511212,
      "flos": 27456797877120.0,
      "grad_norm": 2.2696781804935715,
      "language_loss": 0.68717861,
      "learning_rate": 4.742161419266251e-07,
      "loss": 0.70808566,
      "num_input_tokens_seen": 140301190,
      "step": 6511,
      "time_per_iteration": 2.642131805419922
    },
    {
      "auxiliary_loss_clip": 0.01082633,
      "auxiliary_loss_mlp": 0.01021275,
      "balance_loss_clip": 1.03723168,
      "balance_loss_mlp": 1.01546919,
      "epoch": 0.7830217038417604,
      "flos": 29207048054400.0,
      "grad_norm": 3.3602746269032857,
      "language_loss": 0.65257752,
      "learning_rate": 4.7371263222456304e-07,
      "loss": 0.67361665,
      "num_input_tokens_seen": 140318510,
      "step": 6512,
      "time_per_iteration": 2.574369430541992
    },
    {
      "auxiliary_loss_clip": 0.01033387,
      "auxiliary_loss_mlp": 0.01002818,
      "balance_loss_clip": 1.01887941,
      "balance_loss_mlp": 1.00112486,
      "epoch": 0.7831419467323995,
      "flos": 60957424414080.0,
      "grad_norm": 0.8015123578854564,
      "language_loss": 0.61424029,
      "learning_rate": 4.7320935405908004e-07,
      "loss": 0.63460237,
      "num_input_tokens_seen": 140379380,
      "step": 6513,
      "time_per_iteration": 3.1116247177124023
    },
    {
      "auxiliary_loss_clip": 0.01092889,
      "auxiliary_loss_mlp": 0.01021953,
      "balance_loss_clip": 1.03664374,
      "balance_loss_mlp": 1.01621044,
      "epoch": 0.7832621896230385,
      "flos": 19684559854080.0,
      "grad_norm": 2.2598719407083707,
      "language_loss": 0.84063494,
      "learning_rate": 4.7270630750652475e-07,
      "loss": 0.86178327,
      "num_input_tokens_seen": 140395335,
      "step": 6514,
      "time_per_iteration": 2.468790054321289
    },
    {
      "auxiliary_loss_clip": 0.01076624,
      "auxiliary_loss_mlp": 0.01018738,
      "balance_loss_clip": 1.03360438,
      "balance_loss_mlp": 1.01378202,
      "epoch": 0.7833824325136777,
      "flos": 25011545829120.0,
      "grad_norm": 1.7407970729158735,
      "language_loss": 0.80416656,
      "learning_rate": 4.7220349264320746e-07,
      "loss": 0.82512021,
      "num_input_tokens_seen": 140414420,
      "step": 6515,
      "time_per_iteration": 2.5702686309814453
    },
    {
      "auxiliary_loss_clip": 0.01033295,
      "auxiliary_loss_mlp": 0.01002709,
      "balance_loss_clip": 1.01811075,
      "balance_loss_mlp": 1.0010041,
      "epoch": 0.7835026754043167,
      "flos": 68807376685440.0,
      "grad_norm": 0.7375543963170695,
      "language_loss": 0.54864955,
      "learning_rate": 4.71700909545407e-07,
      "loss": 0.5690096,
      "num_input_tokens_seen": 140477365,
      "step": 6516,
      "time_per_iteration": 3.1376793384552
    },
    {
      "auxiliary_loss_clip": 0.01084644,
      "auxiliary_loss_mlp": 0.0101772,
      "balance_loss_clip": 1.03892255,
      "balance_loss_mlp": 1.01289189,
      "epoch": 0.7836229182949558,
      "flos": 19866616894080.0,
      "grad_norm": 1.8655783911652106,
      "language_loss": 0.77078569,
      "learning_rate": 4.711985582893627e-07,
      "loss": 0.79180932,
      "num_input_tokens_seen": 140495885,
      "step": 6517,
      "time_per_iteration": 2.545644998550415
    },
    {
      "auxiliary_loss_clip": 0.01045399,
      "auxiliary_loss_mlp": 0.01017868,
      "balance_loss_clip": 1.03375196,
      "balance_loss_mlp": 1.01273906,
      "epoch": 0.783743161185595,
      "flos": 22968032647680.0,
      "grad_norm": 2.178754526051843,
      "language_loss": 0.71759427,
      "learning_rate": 4.706964389512811e-07,
      "loss": 0.73822701,
      "num_input_tokens_seen": 140515920,
      "step": 6518,
      "time_per_iteration": 2.6550679206848145
    },
    {
      "auxiliary_loss_clip": 0.01093448,
      "auxiliary_loss_mlp": 0.01016098,
      "balance_loss_clip": 1.03895605,
      "balance_loss_mlp": 1.01127946,
      "epoch": 0.783863404076234,
      "flos": 12460123428480.0,
      "grad_norm": 2.42270809031958,
      "language_loss": 0.87892425,
      "learning_rate": 4.701945516073345e-07,
      "loss": 0.90001971,
      "num_input_tokens_seen": 140533395,
      "step": 6519,
      "time_per_iteration": 2.480739116668701
    },
    {
      "auxiliary_loss_clip": 0.01048149,
      "auxiliary_loss_mlp": 0.01014619,
      "balance_loss_clip": 1.02967906,
      "balance_loss_mlp": 1.00973749,
      "epoch": 0.7839836469668731,
      "flos": 24246261653760.0,
      "grad_norm": 1.7968738787405887,
      "language_loss": 0.75533485,
      "learning_rate": 4.696928963336577e-07,
      "loss": 0.77596259,
      "num_input_tokens_seen": 140552825,
      "step": 6520,
      "time_per_iteration": 2.6155097484588623
    },
    {
      "auxiliary_loss_clip": 0.0103339,
      "auxiliary_loss_mlp": 0.01002623,
      "balance_loss_clip": 1.01892114,
      "balance_loss_mlp": 1.00081062,
      "epoch": 0.7841038898575122,
      "flos": 62128770117120.0,
      "grad_norm": 0.8502621147969318,
      "language_loss": 0.60938668,
      "learning_rate": 4.6919147320635224e-07,
      "loss": 0.62974679,
      "num_input_tokens_seen": 140615535,
      "step": 6521,
      "time_per_iteration": 3.091282844543457
    },
    {
      "auxiliary_loss_clip": 0.0108239,
      "auxiliary_loss_mlp": 0.01019002,
      "balance_loss_clip": 1.0364027,
      "balance_loss_mlp": 1.01402545,
      "epoch": 0.7842241327481513,
      "flos": 20195987961600.0,
      "grad_norm": 3.1769313145787668,
      "language_loss": 0.73146987,
      "learning_rate": 4.6869028230148286e-07,
      "loss": 0.75248379,
      "num_input_tokens_seen": 140633330,
      "step": 6522,
      "time_per_iteration": 3.30369234085083
    },
    {
      "auxiliary_loss_clip": 0.01059163,
      "auxiliary_loss_mlp": 0.01019636,
      "balance_loss_clip": 1.03451061,
      "balance_loss_mlp": 1.01412272,
      "epoch": 0.7843443756387903,
      "flos": 28077043109760.0,
      "grad_norm": 3.036058856726881,
      "language_loss": 0.59838057,
      "learning_rate": 4.6818932369507957e-07,
      "loss": 0.61916858,
      "num_input_tokens_seen": 140652830,
      "step": 6523,
      "time_per_iteration": 3.4227051734924316
    },
    {
      "auxiliary_loss_clip": 0.01080354,
      "auxiliary_loss_mlp": 0.01022384,
      "balance_loss_clip": 1.0383606,
      "balance_loss_mlp": 1.01714182,
      "epoch": 0.7844646185294295,
      "flos": 21325462053120.0,
      "grad_norm": 4.101300300624236,
      "language_loss": 0.8922112,
      "learning_rate": 4.676885974631386e-07,
      "loss": 0.91323853,
      "num_input_tokens_seen": 140671190,
      "step": 6524,
      "time_per_iteration": 2.535639762878418
    },
    {
      "auxiliary_loss_clip": 0.01079793,
      "auxiliary_loss_mlp": 0.01019751,
      "balance_loss_clip": 1.03592682,
      "balance_loss_mlp": 1.01473546,
      "epoch": 0.7845848614200686,
      "flos": 23658673939200.0,
      "grad_norm": 2.5345661799846235,
      "language_loss": 0.81207466,
      "learning_rate": 4.67188103681619e-07,
      "loss": 0.83307016,
      "num_input_tokens_seen": 140690975,
      "step": 6525,
      "time_per_iteration": 3.340376615524292
    },
    {
      "auxiliary_loss_clip": 0.01074798,
      "auxiliary_loss_mlp": 0.00756641,
      "balance_loss_clip": 1.03800809,
      "balance_loss_mlp": 1.00167859,
      "epoch": 0.7847051043107076,
      "flos": 23404324936320.0,
      "grad_norm": 2.2373244106916337,
      "language_loss": 0.69455457,
      "learning_rate": 4.666878424264453e-07,
      "loss": 0.71286893,
      "num_input_tokens_seen": 140710930,
      "step": 6526,
      "time_per_iteration": 2.5673210620880127
    },
    {
      "auxiliary_loss_clip": 0.01073038,
      "auxiliary_loss_mlp": 0.01016875,
      "balance_loss_clip": 1.03924966,
      "balance_loss_mlp": 1.01191294,
      "epoch": 0.7848253472013467,
      "flos": 19024073487360.0,
      "grad_norm": 1.8404175256044417,
      "language_loss": 0.74041426,
      "learning_rate": 4.661878137735069e-07,
      "loss": 0.76131344,
      "num_input_tokens_seen": 140729120,
      "step": 6527,
      "time_per_iteration": 2.5977747440338135
    },
    {
      "auxiliary_loss_clip": 0.01068043,
      "auxiliary_loss_mlp": 0.01019118,
      "balance_loss_clip": 1.03533387,
      "balance_loss_mlp": 1.01410842,
      "epoch": 0.7849455900919858,
      "flos": 21181333144320.0,
      "grad_norm": 2.3043670675029064,
      "language_loss": 0.75166106,
      "learning_rate": 4.656880177986571e-07,
      "loss": 0.77253264,
      "num_input_tokens_seen": 140747665,
      "step": 6528,
      "time_per_iteration": 3.338304042816162
    },
    {
      "auxiliary_loss_clip": 0.0107129,
      "auxiliary_loss_mlp": 0.0101969,
      "balance_loss_clip": 1.03583479,
      "balance_loss_mlp": 1.01439154,
      "epoch": 0.7850658329826249,
      "flos": 19538497123200.0,
      "grad_norm": 1.9897256808748969,
      "language_loss": 0.81325573,
      "learning_rate": 4.6518845457771607e-07,
      "loss": 0.83416557,
      "num_input_tokens_seen": 140766525,
      "step": 6529,
      "time_per_iteration": 2.572284460067749
    },
    {
      "auxiliary_loss_clip": 0.01084315,
      "auxiliary_loss_mlp": 0.00756484,
      "balance_loss_clip": 1.03809202,
      "balance_loss_mlp": 1.00160539,
      "epoch": 0.7851860758732639,
      "flos": 12496989853440.0,
      "grad_norm": 1.8639484264112725,
      "language_loss": 0.79159939,
      "learning_rate": 4.646891241864652e-07,
      "loss": 0.81000733,
      "num_input_tokens_seen": 140785090,
      "step": 6530,
      "time_per_iteration": 2.5005767345428467
    },
    {
      "auxiliary_loss_clip": 0.01083602,
      "auxiliary_loss_mlp": 0.01020299,
      "balance_loss_clip": 1.0362525,
      "balance_loss_mlp": 1.01485658,
      "epoch": 0.7853063187639031,
      "flos": 22962875788800.0,
      "grad_norm": 2.371179378612479,
      "language_loss": 0.73331237,
      "learning_rate": 4.6419002670065397e-07,
      "loss": 0.75435138,
      "num_input_tokens_seen": 140804670,
      "step": 6531,
      "time_per_iteration": 2.5633535385131836
    },
    {
      "auxiliary_loss_clip": 0.01056224,
      "auxiliary_loss_mlp": 0.01020351,
      "balance_loss_clip": 1.03410769,
      "balance_loss_mlp": 1.01483202,
      "epoch": 0.7854265616545422,
      "flos": 17349148719360.0,
      "grad_norm": 2.142079779493494,
      "language_loss": 0.86643744,
      "learning_rate": 4.6369116219599445e-07,
      "loss": 0.88720322,
      "num_input_tokens_seen": 140820655,
      "step": 6532,
      "time_per_iteration": 2.554939031600952
    },
    {
      "auxiliary_loss_clip": 0.01048404,
      "auxiliary_loss_mlp": 0.01017208,
      "balance_loss_clip": 1.02891147,
      "balance_loss_mlp": 1.01232922,
      "epoch": 0.7855468045451812,
      "flos": 23840351798400.0,
      "grad_norm": 1.7577599628405773,
      "language_loss": 0.78997594,
      "learning_rate": 4.631925307481637e-07,
      "loss": 0.81063211,
      "num_input_tokens_seen": 140840470,
      "step": 6533,
      "time_per_iteration": 2.6362507343292236
    },
    {
      "auxiliary_loss_clip": 0.0106737,
      "auxiliary_loss_mlp": 0.01019227,
      "balance_loss_clip": 1.03631854,
      "balance_loss_mlp": 1.01422918,
      "epoch": 0.7856670474358204,
      "flos": 25669188339840.0,
      "grad_norm": 3.9939889034944827,
      "language_loss": 0.75556576,
      "learning_rate": 4.6269413243280533e-07,
      "loss": 0.77643168,
      "num_input_tokens_seen": 140859890,
      "step": 6534,
      "time_per_iteration": 2.5981862545013428
    },
    {
      "auxiliary_loss_clip": 0.01068688,
      "auxiliary_loss_mlp": 0.01019419,
      "balance_loss_clip": 1.03983164,
      "balance_loss_mlp": 1.01370013,
      "epoch": 0.7857872903264594,
      "flos": 18146294133120.0,
      "grad_norm": 3.0375251566285963,
      "language_loss": 0.74144226,
      "learning_rate": 4.621959673255236e-07,
      "loss": 0.76232332,
      "num_input_tokens_seen": 140876190,
      "step": 6535,
      "time_per_iteration": 2.57129168510437
    },
    {
      "auxiliary_loss_clip": 0.01040324,
      "auxiliary_loss_mlp": 0.01021533,
      "balance_loss_clip": 1.03364921,
      "balance_loss_mlp": 1.01627839,
      "epoch": 0.7859075332170985,
      "flos": 14387539213440.0,
      "grad_norm": 7.012945210917664,
      "language_loss": 0.90793496,
      "learning_rate": 4.6169803550189135e-07,
      "loss": 0.92855352,
      "num_input_tokens_seen": 140891885,
      "step": 6536,
      "time_per_iteration": 2.6427013874053955
    },
    {
      "auxiliary_loss_clip": 0.01032827,
      "auxiliary_loss_mlp": 0.010217,
      "balance_loss_clip": 1.0336411,
      "balance_loss_mlp": 1.01577842,
      "epoch": 0.7860277761077377,
      "flos": 19866048122880.0,
      "grad_norm": 6.617280903360919,
      "language_loss": 0.77281713,
      "learning_rate": 4.6120033703744355e-07,
      "loss": 0.79336244,
      "num_input_tokens_seen": 140910780,
      "step": 6537,
      "time_per_iteration": 2.6273396015167236
    },
    {
      "auxiliary_loss_clip": 0.01068086,
      "auxiliary_loss_mlp": 0.01020886,
      "balance_loss_clip": 1.03585207,
      "balance_loss_mlp": 1.01571846,
      "epoch": 0.7861480189983767,
      "flos": 26398591960320.0,
      "grad_norm": 2.2978480843551568,
      "language_loss": 0.78092253,
      "learning_rate": 4.607028720076822e-07,
      "loss": 0.80181217,
      "num_input_tokens_seen": 140927460,
      "step": 6538,
      "time_per_iteration": 2.6049749851226807
    },
    {
      "auxiliary_loss_clip": 0.0108032,
      "auxiliary_loss_mlp": 0.01020355,
      "balance_loss_clip": 1.03696096,
      "balance_loss_mlp": 1.01493692,
      "epoch": 0.7862682618890158,
      "flos": 24238488447360.0,
      "grad_norm": 2.050855795743664,
      "language_loss": 0.73252195,
      "learning_rate": 4.6020564048807074e-07,
      "loss": 0.75352871,
      "num_input_tokens_seen": 140945135,
      "step": 6539,
      "time_per_iteration": 2.5489871501922607
    },
    {
      "auxiliary_loss_clip": 0.01081393,
      "auxiliary_loss_mlp": 0.01019096,
      "balance_loss_clip": 1.03659785,
      "balance_loss_mlp": 1.01372838,
      "epoch": 0.7863885047796549,
      "flos": 47554747499520.0,
      "grad_norm": 2.5566036743642404,
      "language_loss": 0.71778011,
      "learning_rate": 4.5970864255403883e-07,
      "loss": 0.73878503,
      "num_input_tokens_seen": 140966660,
      "step": 6540,
      "time_per_iteration": 2.7490248680114746
    },
    {
      "auxiliary_loss_clip": 0.01081849,
      "auxiliary_loss_mlp": 0.01020236,
      "balance_loss_clip": 1.03734303,
      "balance_loss_mlp": 1.01524079,
      "epoch": 0.786508747670294,
      "flos": 24391528104960.0,
      "grad_norm": 1.9592937312376884,
      "language_loss": 0.82281178,
      "learning_rate": 4.59211878280982e-07,
      "loss": 0.84383261,
      "num_input_tokens_seen": 140986175,
      "step": 6541,
      "time_per_iteration": 2.5657973289489746
    },
    {
      "auxiliary_loss_clip": 0.01069239,
      "auxiliary_loss_mlp": 0.01016716,
      "balance_loss_clip": 1.03612077,
      "balance_loss_mlp": 1.01172447,
      "epoch": 0.786628990560933,
      "flos": 18043202638080.0,
      "grad_norm": 2.2247692870283133,
      "language_loss": 0.70444512,
      "learning_rate": 4.587153477442578e-07,
      "loss": 0.72530472,
      "num_input_tokens_seen": 141002490,
      "step": 6542,
      "time_per_iteration": 2.5454113483428955
    },
    {
      "auxiliary_loss_clip": 0.01094769,
      "auxiliary_loss_mlp": 0.01020863,
      "balance_loss_clip": 1.03850245,
      "balance_loss_mlp": 1.01509285,
      "epoch": 0.7867492334515722,
      "flos": 25851245379840.0,
      "grad_norm": 2.809132991186544,
      "language_loss": 0.81503201,
      "learning_rate": 4.582190510191899e-07,
      "loss": 0.83618832,
      "num_input_tokens_seen": 141021150,
      "step": 6543,
      "time_per_iteration": 2.533118486404419
    },
    {
      "auxiliary_loss_clip": 0.01051702,
      "auxiliary_loss_mlp": 0.01018541,
      "balance_loss_clip": 1.0340662,
      "balance_loss_mlp": 1.01331651,
      "epoch": 0.7868694763422113,
      "flos": 16582651165440.0,
      "grad_norm": 1.9797724693534413,
      "language_loss": 0.87125462,
      "learning_rate": 4.5772298818106625e-07,
      "loss": 0.89195704,
      "num_input_tokens_seen": 141036940,
      "step": 6544,
      "time_per_iteration": 2.5658302307128906
    },
    {
      "auxiliary_loss_clip": 0.01052693,
      "auxiliary_loss_mlp": 0.01021906,
      "balance_loss_clip": 1.03826082,
      "balance_loss_mlp": 1.01650858,
      "epoch": 0.7869897192328503,
      "flos": 29388763831680.0,
      "grad_norm": 3.5511156966852426,
      "language_loss": 0.72205985,
      "learning_rate": 4.572271593051384e-07,
      "loss": 0.74280584,
      "num_input_tokens_seen": 141054295,
      "step": 6545,
      "time_per_iteration": 2.659207344055176
    },
    {
      "auxiliary_loss_clip": 0.01038158,
      "auxiliary_loss_mlp": 0.01019717,
      "balance_loss_clip": 1.03058898,
      "balance_loss_mlp": 1.01474559,
      "epoch": 0.7871099621234895,
      "flos": 17130831943680.0,
      "grad_norm": 1.8152130221387393,
      "language_loss": 0.77969718,
      "learning_rate": 4.567315644666245e-07,
      "loss": 0.80027586,
      "num_input_tokens_seen": 141073090,
      "step": 6546,
      "time_per_iteration": 2.634429454803467
    },
    {
      "auxiliary_loss_clip": 0.01052351,
      "auxiliary_loss_mlp": 0.01016331,
      "balance_loss_clip": 1.03200269,
      "balance_loss_mlp": 1.01120842,
      "epoch": 0.7872302050141285,
      "flos": 23442404739840.0,
      "grad_norm": 2.4335454007824424,
      "language_loss": 0.8456589,
      "learning_rate": 4.5623620374070507e-07,
      "loss": 0.86634576,
      "num_input_tokens_seen": 141092405,
      "step": 6547,
      "time_per_iteration": 2.596548557281494
    },
    {
      "auxiliary_loss_clip": 0.01014831,
      "auxiliary_loss_mlp": 0.01001321,
      "balance_loss_clip": 1.01993883,
      "balance_loss_mlp": 0.99960482,
      "epoch": 0.7873504479047676,
      "flos": 65967135189120.0,
      "grad_norm": 0.7599020670450175,
      "language_loss": 0.58334172,
      "learning_rate": 4.557410772025263e-07,
      "loss": 0.60350323,
      "num_input_tokens_seen": 141154355,
      "step": 6548,
      "time_per_iteration": 4.048194646835327
    },
    {
      "auxiliary_loss_clip": 0.01069459,
      "auxiliary_loss_mlp": 0.0102017,
      "balance_loss_clip": 1.03499079,
      "balance_loss_mlp": 1.01497531,
      "epoch": 0.7874706907954068,
      "flos": 23260575208320.0,
      "grad_norm": 2.091656484284783,
      "language_loss": 0.66382509,
      "learning_rate": 4.5524618492719803e-07,
      "loss": 0.68472135,
      "num_input_tokens_seen": 141173575,
      "step": 6549,
      "time_per_iteration": 3.3647096157073975
    },
    {
      "auxiliary_loss_clip": 0.01079855,
      "auxiliary_loss_mlp": 0.01018768,
      "balance_loss_clip": 1.03562951,
      "balance_loss_mlp": 1.01360655,
      "epoch": 0.7875909336860458,
      "flos": 28770338666880.0,
      "grad_norm": 1.5207176216758187,
      "language_loss": 0.79203355,
      "learning_rate": 4.54751526989795e-07,
      "loss": 0.81301981,
      "num_input_tokens_seen": 141195415,
      "step": 6550,
      "time_per_iteration": 3.400810718536377
    },
    {
      "auxiliary_loss_clip": 0.010829,
      "auxiliary_loss_mlp": 0.01018975,
      "balance_loss_clip": 1.03753257,
      "balance_loss_mlp": 1.01356924,
      "epoch": 0.7877111765766849,
      "flos": 18699252589440.0,
      "grad_norm": 2.48086558289251,
      "language_loss": 0.79304218,
      "learning_rate": 4.5425710346535775e-07,
      "loss": 0.81406099,
      "num_input_tokens_seen": 141213360,
      "step": 6551,
      "time_per_iteration": 2.5215816497802734
    },
    {
      "auxiliary_loss_clip": 0.01080697,
      "auxiliary_loss_mlp": 0.01021137,
      "balance_loss_clip": 1.03674102,
      "balance_loss_mlp": 1.01559091,
      "epoch": 0.787831419467324,
      "flos": 27595049483520.0,
      "grad_norm": 1.9880934921823128,
      "language_loss": 0.8209241,
      "learning_rate": 4.537629144288877e-07,
      "loss": 0.84194243,
      "num_input_tokens_seen": 141230815,
      "step": 6552,
      "time_per_iteration": 2.564762592315674
    },
    {
      "auxiliary_loss_clip": 0.01045508,
      "auxiliary_loss_mlp": 0.01019241,
      "balance_loss_clip": 1.03456855,
      "balance_loss_mlp": 1.01394212,
      "epoch": 0.7879516623579631,
      "flos": 18152133517440.0,
      "grad_norm": 2.9920294120872546,
      "language_loss": 0.74986398,
      "learning_rate": 4.5326895995535477e-07,
      "loss": 0.77051145,
      "num_input_tokens_seen": 141249715,
      "step": 6553,
      "time_per_iteration": 2.656747341156006
    },
    {
      "auxiliary_loss_clip": 0.01078321,
      "auxiliary_loss_mlp": 0.01020165,
      "balance_loss_clip": 1.0357151,
      "balance_loss_mlp": 1.01508641,
      "epoch": 0.7880719052486022,
      "flos": 20341254412800.0,
      "grad_norm": 3.9501821917824906,
      "language_loss": 0.84812731,
      "learning_rate": 4.527752401196907e-07,
      "loss": 0.86911225,
      "num_input_tokens_seen": 141267730,
      "step": 6554,
      "time_per_iteration": 3.2984161376953125
    },
    {
      "auxiliary_loss_clip": 0.0106524,
      "auxiliary_loss_mlp": 0.01021983,
      "balance_loss_clip": 1.03242302,
      "balance_loss_mlp": 1.01660323,
      "epoch": 0.7881921481392413,
      "flos": 21655401891840.0,
      "grad_norm": 5.996990529779371,
      "language_loss": 0.66528261,
      "learning_rate": 4.5228175499679254e-07,
      "loss": 0.68615484,
      "num_input_tokens_seen": 141287315,
      "step": 6555,
      "time_per_iteration": 2.5575170516967773
    },
    {
      "auxiliary_loss_clip": 0.01033972,
      "auxiliary_loss_mlp": 0.01002997,
      "balance_loss_clip": 1.01856816,
      "balance_loss_mlp": 1.0012331,
      "epoch": 0.7883123910298804,
      "flos": 68572224282240.0,
      "grad_norm": 0.816100364088692,
      "language_loss": 0.54486549,
      "learning_rate": 4.5178850466152174e-07,
      "loss": 0.56523514,
      "num_input_tokens_seen": 141346145,
      "step": 6556,
      "time_per_iteration": 3.1777610778808594
    },
    {
      "auxiliary_loss_clip": 0.01071731,
      "auxiliary_loss_mlp": 0.01018355,
      "balance_loss_clip": 1.03604352,
      "balance_loss_mlp": 1.01317537,
      "epoch": 0.7884326339205194,
      "flos": 19320256183680.0,
      "grad_norm": 1.8311580970185914,
      "language_loss": 0.81990254,
      "learning_rate": 4.512954891887031e-07,
      "loss": 0.84080338,
      "num_input_tokens_seen": 141364445,
      "step": 6557,
      "time_per_iteration": 2.5318400859832764
    },
    {
      "auxiliary_loss_clip": 0.01064601,
      "auxiliary_loss_mlp": 0.01022206,
      "balance_loss_clip": 1.03593338,
      "balance_loss_mlp": 1.01641488,
      "epoch": 0.7885528768111585,
      "flos": 17786806058880.0,
      "grad_norm": 2.5691986327211294,
      "language_loss": 0.83764315,
      "learning_rate": 4.5080270865312806e-07,
      "loss": 0.85851121,
      "num_input_tokens_seen": 141381640,
      "step": 6558,
      "time_per_iteration": 2.556452989578247
    },
    {
      "auxiliary_loss_clip": 0.01078279,
      "auxiliary_loss_mlp": 0.01019386,
      "balance_loss_clip": 1.03499746,
      "balance_loss_mlp": 1.01449561,
      "epoch": 0.7886731197017977,
      "flos": 18809662273920.0,
      "grad_norm": 3.316235691151824,
      "language_loss": 0.71020043,
      "learning_rate": 4.5031016312954985e-07,
      "loss": 0.73117709,
      "num_input_tokens_seen": 141399955,
      "step": 6559,
      "time_per_iteration": 2.493938684463501
    },
    {
      "auxiliary_loss_clip": 0.01085595,
      "auxiliary_loss_mlp": 0.01019558,
      "balance_loss_clip": 1.03930056,
      "balance_loss_mlp": 1.0140413,
      "epoch": 0.7887933625924367,
      "flos": 33368186448000.0,
      "grad_norm": 2.2686011387270555,
      "language_loss": 0.74334335,
      "learning_rate": 4.498178526926886e-07,
      "loss": 0.76439488,
      "num_input_tokens_seen": 141420820,
      "step": 6560,
      "time_per_iteration": 2.646456718444824
    },
    {
      "auxiliary_loss_clip": 0.01093669,
      "auxiliary_loss_mlp": 0.01021699,
      "balance_loss_clip": 1.03914464,
      "balance_loss_mlp": 1.01669502,
      "epoch": 0.7889136054830758,
      "flos": 17021256456960.0,
      "grad_norm": 3.545554952879397,
      "language_loss": 0.72730196,
      "learning_rate": 4.4932577741722635e-07,
      "loss": 0.74845564,
      "num_input_tokens_seen": 141439350,
      "step": 6561,
      "time_per_iteration": 2.470012903213501
    },
    {
      "auxiliary_loss_clip": 0.01070313,
      "auxiliary_loss_mlp": 0.01023993,
      "balance_loss_clip": 1.03608894,
      "balance_loss_mlp": 1.01854563,
      "epoch": 0.7890338483737149,
      "flos": 29427222816000.0,
      "grad_norm": 2.053738707718391,
      "language_loss": 0.74203396,
      "learning_rate": 4.4883393737780985e-07,
      "loss": 0.762977,
      "num_input_tokens_seen": 141460300,
      "step": 6562,
      "time_per_iteration": 2.65902042388916
    },
    {
      "auxiliary_loss_clip": 0.01082593,
      "auxiliary_loss_mlp": 0.01018901,
      "balance_loss_clip": 1.03688717,
      "balance_loss_mlp": 1.01383436,
      "epoch": 0.789154091264354,
      "flos": 19973462279040.0,
      "grad_norm": 2.153168465635613,
      "language_loss": 0.7828331,
      "learning_rate": 4.4834233264905254e-07,
      "loss": 0.80384797,
      "num_input_tokens_seen": 141477315,
      "step": 6563,
      "time_per_iteration": 2.498807668685913
    },
    {
      "auxiliary_loss_clip": 0.01059992,
      "auxiliary_loss_mlp": 0.01024023,
      "balance_loss_clip": 1.03688252,
      "balance_loss_mlp": 1.01857758,
      "epoch": 0.789274334154993,
      "flos": 14539555082880.0,
      "grad_norm": 2.3166306783257733,
      "language_loss": 0.71631396,
      "learning_rate": 4.478509633055294e-07,
      "loss": 0.73715401,
      "num_input_tokens_seen": 141495025,
      "step": 6564,
      "time_per_iteration": 2.5881969928741455
    },
    {
      "auxiliary_loss_clip": 0.01071985,
      "auxiliary_loss_mlp": 0.01023545,
      "balance_loss_clip": 1.03708196,
      "balance_loss_mlp": 1.01769495,
      "epoch": 0.7893945770456322,
      "flos": 21829116954240.0,
      "grad_norm": 4.707259506743178,
      "language_loss": 0.80021,
      "learning_rate": 4.473598294217813e-07,
      "loss": 0.82116532,
      "num_input_tokens_seen": 141510450,
      "step": 6565,
      "time_per_iteration": 2.543882131576538
    },
    {
      "auxiliary_loss_clip": 0.01079336,
      "auxiliary_loss_mlp": 0.01018933,
      "balance_loss_clip": 1.03601766,
      "balance_loss_mlp": 1.01385212,
      "epoch": 0.7895148199362713,
      "flos": 20742727852800.0,
      "grad_norm": 2.901088144473073,
      "language_loss": 0.71723211,
      "learning_rate": 4.468689310723124e-07,
      "loss": 0.73821479,
      "num_input_tokens_seen": 141528265,
      "step": 6566,
      "time_per_iteration": 2.5449531078338623
    },
    {
      "auxiliary_loss_clip": 0.01057828,
      "auxiliary_loss_mlp": 0.01020567,
      "balance_loss_clip": 1.03398979,
      "balance_loss_mlp": 1.01562881,
      "epoch": 0.7896350628269103,
      "flos": 16692529996800.0,
      "grad_norm": 2.0378780218143353,
      "language_loss": 0.78647768,
      "learning_rate": 4.463782683315913e-07,
      "loss": 0.80726159,
      "num_input_tokens_seen": 141547270,
      "step": 6567,
      "time_per_iteration": 2.5659708976745605
    },
    {
      "auxiliary_loss_clip": 0.0109112,
      "auxiliary_loss_mlp": 0.0101924,
      "balance_loss_clip": 1.03667784,
      "balance_loss_mlp": 1.01435256,
      "epoch": 0.7897553057175495,
      "flos": 22640595402240.0,
      "grad_norm": 1.8931756595070333,
      "language_loss": 0.73699945,
      "learning_rate": 4.458878412740523e-07,
      "loss": 0.75810307,
      "num_input_tokens_seen": 141566050,
      "step": 6568,
      "time_per_iteration": 2.5263376235961914
    },
    {
      "auxiliary_loss_clip": 0.01073952,
      "auxiliary_loss_mlp": 0.01018192,
      "balance_loss_clip": 1.03460097,
      "balance_loss_mlp": 1.01303029,
      "epoch": 0.7898755486081885,
      "flos": 14539289656320.0,
      "grad_norm": 2.5088147843417534,
      "language_loss": 0.78145283,
      "learning_rate": 4.453976499740919e-07,
      "loss": 0.80237424,
      "num_input_tokens_seen": 141583695,
      "step": 6569,
      "time_per_iteration": 2.483405113220215
    },
    {
      "auxiliary_loss_clip": 0.0107445,
      "auxiliary_loss_mlp": 0.01018983,
      "balance_loss_clip": 1.03547406,
      "balance_loss_mlp": 1.0136838,
      "epoch": 0.7899957914988276,
      "flos": 17240407430400.0,
      "grad_norm": 1.8696876551648942,
      "language_loss": 0.77869546,
      "learning_rate": 4.4490769450607215e-07,
      "loss": 0.79962981,
      "num_input_tokens_seen": 141601320,
      "step": 6570,
      "time_per_iteration": 2.5283043384552
    },
    {
      "auxiliary_loss_clip": 0.01063559,
      "auxiliary_loss_mlp": 0.01016613,
      "balance_loss_clip": 1.03646016,
      "balance_loss_mlp": 1.01155019,
      "epoch": 0.7901160343894668,
      "flos": 41282429967360.0,
      "grad_norm": 2.4519995552171174,
      "language_loss": 0.72692162,
      "learning_rate": 4.4441797494431845e-07,
      "loss": 0.74772334,
      "num_input_tokens_seen": 141623125,
      "step": 6571,
      "time_per_iteration": 2.7605552673339844
    },
    {
      "auxiliary_loss_clip": 0.01079298,
      "auxiliary_loss_mlp": 0.01019445,
      "balance_loss_clip": 1.03730965,
      "balance_loss_mlp": 1.01391661,
      "epoch": 0.7902362772801058,
      "flos": 16838896072320.0,
      "grad_norm": 2.438032023916287,
      "language_loss": 0.775491,
      "learning_rate": 4.439284913631207e-07,
      "loss": 0.79647839,
      "num_input_tokens_seen": 141640335,
      "step": 6572,
      "time_per_iteration": 2.5408976078033447
    },
    {
      "auxiliary_loss_clip": 0.010507,
      "auxiliary_loss_mlp": 0.01024053,
      "balance_loss_clip": 1.03439784,
      "balance_loss_mlp": 1.01862931,
      "epoch": 0.7903565201707449,
      "flos": 27128450597760.0,
      "grad_norm": 30.12303149484455,
      "language_loss": 0.83577746,
      "learning_rate": 4.434392438367347e-07,
      "loss": 0.85652494,
      "num_input_tokens_seen": 141659760,
      "step": 6573,
      "time_per_iteration": 2.6254804134368896
    },
    {
      "auxiliary_loss_clip": 0.01078039,
      "auxiliary_loss_mlp": 0.01016473,
      "balance_loss_clip": 1.03642654,
      "balance_loss_mlp": 1.01161194,
      "epoch": 0.790476763061384,
      "flos": 31027580536320.0,
      "grad_norm": 1.8483038465874466,
      "language_loss": 0.74009383,
      "learning_rate": 4.4295023243937677e-07,
      "loss": 0.7610389,
      "num_input_tokens_seen": 141679965,
      "step": 6574,
      "time_per_iteration": 3.3774778842926025
    },
    {
      "auxiliary_loss_clip": 0.01077403,
      "auxiliary_loss_mlp": 0.01019245,
      "balance_loss_clip": 1.03851724,
      "balance_loss_mlp": 1.01369572,
      "epoch": 0.7905970059520231,
      "flos": 22091163327360.0,
      "grad_norm": 5.644823121672115,
      "language_loss": 0.80519742,
      "learning_rate": 4.4246145724523123e-07,
      "loss": 0.82616389,
      "num_input_tokens_seen": 141697710,
      "step": 6575,
      "time_per_iteration": 3.334547281265259
    },
    {
      "auxiliary_loss_clip": 0.01050339,
      "auxiliary_loss_mlp": 0.01019562,
      "balance_loss_clip": 1.0334152,
      "balance_loss_mlp": 1.01417351,
      "epoch": 0.7907172488426621,
      "flos": 20560215795840.0,
      "grad_norm": 2.1711841962432743,
      "language_loss": 0.77499771,
      "learning_rate": 4.41972918328444e-07,
      "loss": 0.79569674,
      "num_input_tokens_seen": 141715145,
      "step": 6576,
      "time_per_iteration": 3.3511507511138916
    },
    {
      "auxiliary_loss_clip": 0.01077992,
      "auxiliary_loss_mlp": 0.01024314,
      "balance_loss_clip": 1.03652453,
      "balance_loss_mlp": 1.01889884,
      "epoch": 0.7908374917333013,
      "flos": 30084182801280.0,
      "grad_norm": 2.8724446691456724,
      "language_loss": 0.77721089,
      "learning_rate": 4.4148461576312646e-07,
      "loss": 0.79823399,
      "num_input_tokens_seen": 141734810,
      "step": 6577,
      "time_per_iteration": 2.6035406589508057
    },
    {
      "auxiliary_loss_clip": 0.0108214,
      "auxiliary_loss_mlp": 0.01016918,
      "balance_loss_clip": 1.03814244,
      "balance_loss_mlp": 1.01200974,
      "epoch": 0.7909577346239404,
      "flos": 20998479824640.0,
      "grad_norm": 1.8129410798066505,
      "language_loss": 0.7500906,
      "learning_rate": 4.4099654962335343e-07,
      "loss": 0.77108121,
      "num_input_tokens_seen": 141755260,
      "step": 6578,
      "time_per_iteration": 2.559396266937256
    },
    {
      "auxiliary_loss_clip": 0.01071826,
      "auxiliary_loss_mlp": 0.01018709,
      "balance_loss_clip": 1.03686476,
      "balance_loss_mlp": 1.01328778,
      "epoch": 0.7910779775145794,
      "flos": 26250216226560.0,
      "grad_norm": 1.9104503087725688,
      "language_loss": 0.75393307,
      "learning_rate": 4.405087199831636e-07,
      "loss": 0.77483845,
      "num_input_tokens_seen": 141775500,
      "step": 6579,
      "time_per_iteration": 2.6109254360198975
    },
    {
      "auxiliary_loss_clip": 0.01069188,
      "auxiliary_loss_mlp": 0.0075643,
      "balance_loss_clip": 1.03532529,
      "balance_loss_mlp": 1.00171852,
      "epoch": 0.7911982204052186,
      "flos": 22566597125760.0,
      "grad_norm": 2.7141357458195836,
      "language_loss": 0.67592394,
      "learning_rate": 4.400211269165619e-07,
      "loss": 0.69418019,
      "num_input_tokens_seen": 141791955,
      "step": 6580,
      "time_per_iteration": 3.359637975692749
    },
    {
      "auxiliary_loss_clip": 0.01097769,
      "auxiliary_loss_mlp": 0.01019135,
      "balance_loss_clip": 1.04216743,
      "balance_loss_mlp": 1.01443815,
      "epoch": 0.7913184632958576,
      "flos": 23114777904000.0,
      "grad_norm": 1.4363244508485775,
      "language_loss": 0.77080381,
      "learning_rate": 4.3953377049751416e-07,
      "loss": 0.79197288,
      "num_input_tokens_seen": 141812380,
      "step": 6581,
      "time_per_iteration": 2.5042779445648193
    },
    {
      "auxiliary_loss_clip": 0.01071066,
      "auxiliary_loss_mlp": 0.01021828,
      "balance_loss_clip": 1.03599465,
      "balance_loss_mlp": 1.01649284,
      "epoch": 0.7914387061864967,
      "flos": 12313340254080.0,
      "grad_norm": 2.7552210656582736,
      "language_loss": 0.78094089,
      "learning_rate": 4.390466507999537e-07,
      "loss": 0.80186975,
      "num_input_tokens_seen": 141828130,
      "step": 6582,
      "time_per_iteration": 2.5398614406585693
    },
    {
      "auxiliary_loss_clip": 0.01050097,
      "auxiliary_loss_mlp": 0.01025677,
      "balance_loss_clip": 1.03253949,
      "balance_loss_mlp": 1.02059531,
      "epoch": 0.7915589490771359,
      "flos": 17605204035840.0,
      "grad_norm": 2.2440895120209983,
      "language_loss": 0.75595444,
      "learning_rate": 4.385597678977748e-07,
      "loss": 0.77671218,
      "num_input_tokens_seen": 141846965,
      "step": 6583,
      "time_per_iteration": 2.556741952896118
    },
    {
      "auxiliary_loss_clip": 0.01065479,
      "auxiliary_loss_mlp": 0.01016354,
      "balance_loss_clip": 1.03629792,
      "balance_loss_mlp": 1.01103401,
      "epoch": 0.7916791919677749,
      "flos": 25593521667840.0,
      "grad_norm": 2.7607905666236108,
      "language_loss": 0.75776285,
      "learning_rate": 4.3807312186483726e-07,
      "loss": 0.77858114,
      "num_input_tokens_seen": 141867685,
      "step": 6584,
      "time_per_iteration": 2.6457393169403076
    },
    {
      "auxiliary_loss_clip": 0.01079548,
      "auxiliary_loss_mlp": 0.01018408,
      "balance_loss_clip": 1.03874373,
      "balance_loss_mlp": 1.01309109,
      "epoch": 0.791799434858414,
      "flos": 18846377026560.0,
      "grad_norm": 1.8738554726509293,
      "language_loss": 0.78324151,
      "learning_rate": 4.375867127749655e-07,
      "loss": 0.80422109,
      "num_input_tokens_seen": 141885960,
      "step": 6585,
      "time_per_iteration": 2.508634090423584
    },
    {
      "auxiliary_loss_clip": 0.01049517,
      "auxiliary_loss_mlp": 0.01020556,
      "balance_loss_clip": 1.03119659,
      "balance_loss_mlp": 1.01523042,
      "epoch": 0.7919196777490531,
      "flos": 25814378954880.0,
      "grad_norm": 1.8636730128390502,
      "language_loss": 0.67224866,
      "learning_rate": 4.3710054070194744e-07,
      "loss": 0.69294941,
      "num_input_tokens_seen": 141905655,
      "step": 6586,
      "time_per_iteration": 2.6354877948760986
    },
    {
      "auxiliary_loss_clip": 0.01093345,
      "auxiliary_loss_mlp": 0.00756698,
      "balance_loss_clip": 1.03692389,
      "balance_loss_mlp": 1.00178087,
      "epoch": 0.7920399206396922,
      "flos": 11949226174080.0,
      "grad_norm": 4.562894291242612,
      "language_loss": 0.66379201,
      "learning_rate": 4.3661460571953455e-07,
      "loss": 0.68229246,
      "num_input_tokens_seen": 141922390,
      "step": 6587,
      "time_per_iteration": 2.4607083797454834
    },
    {
      "auxiliary_loss_clip": 0.01081309,
      "auxiliary_loss_mlp": 0.01018061,
      "balance_loss_clip": 1.03572702,
      "balance_loss_mlp": 1.01302385,
      "epoch": 0.7921601635303313,
      "flos": 21582048222720.0,
      "grad_norm": 1.7095373076291438,
      "language_loss": 0.68613893,
      "learning_rate": 4.36128907901443e-07,
      "loss": 0.70713264,
      "num_input_tokens_seen": 141941985,
      "step": 6588,
      "time_per_iteration": 2.54007625579834
    },
    {
      "auxiliary_loss_clip": 0.01060971,
      "auxiliary_loss_mlp": 0.01018113,
      "balance_loss_clip": 1.03651142,
      "balance_loss_mlp": 1.01273084,
      "epoch": 0.7922804064209703,
      "flos": 18115949617920.0,
      "grad_norm": 2.572180759510134,
      "language_loss": 0.72687656,
      "learning_rate": 4.356434473213519e-07,
      "loss": 0.74766731,
      "num_input_tokens_seen": 141959435,
      "step": 6589,
      "time_per_iteration": 2.5678982734680176
    },
    {
      "auxiliary_loss_clip": 0.01067256,
      "auxiliary_loss_mlp": 0.01022317,
      "balance_loss_clip": 1.03534782,
      "balance_loss_mlp": 1.01739693,
      "epoch": 0.7924006493116095,
      "flos": 21654946874880.0,
      "grad_norm": 1.647393738086279,
      "language_loss": 0.79884833,
      "learning_rate": 4.351582240529068e-07,
      "loss": 0.81974411,
      "num_input_tokens_seen": 141980265,
      "step": 6590,
      "time_per_iteration": 2.581127643585205
    },
    {
      "auxiliary_loss_clip": 0.01025066,
      "auxiliary_loss_mlp": 0.01002473,
      "balance_loss_clip": 1.01874971,
      "balance_loss_mlp": 1.00081623,
      "epoch": 0.7925208922022485,
      "flos": 64249921710720.0,
      "grad_norm": 0.6792972862600021,
      "language_loss": 0.58117694,
      "learning_rate": 4.346732381697149e-07,
      "loss": 0.60145235,
      "num_input_tokens_seen": 142044395,
      "step": 6591,
      "time_per_iteration": 3.192613363265991
    },
    {
      "auxiliary_loss_clip": 0.01058829,
      "auxiliary_loss_mlp": 0.01022838,
      "balance_loss_clip": 1.03068185,
      "balance_loss_mlp": 1.0174439,
      "epoch": 0.7926411350928876,
      "flos": 16943163027840.0,
      "grad_norm": 2.018982199468499,
      "language_loss": 0.80939555,
      "learning_rate": 4.3418848974534825e-07,
      "loss": 0.83021224,
      "num_input_tokens_seen": 142061335,
      "step": 6592,
      "time_per_iteration": 2.5384039878845215
    },
    {
      "auxiliary_loss_clip": 0.01059248,
      "auxiliary_loss_mlp": 0.01017589,
      "balance_loss_clip": 1.03613114,
      "balance_loss_mlp": 1.01246929,
      "epoch": 0.7927613779835267,
      "flos": 34462879608960.0,
      "grad_norm": 1.9409265328807628,
      "language_loss": 0.687424,
      "learning_rate": 4.3370397885334276e-07,
      "loss": 0.70819235,
      "num_input_tokens_seen": 142081965,
      "step": 6593,
      "time_per_iteration": 2.6939239501953125
    },
    {
      "auxiliary_loss_clip": 0.01084674,
      "auxiliary_loss_mlp": 0.0102314,
      "balance_loss_clip": 1.03809679,
      "balance_loss_mlp": 1.0178467,
      "epoch": 0.7928816208741658,
      "flos": 18953070739200.0,
      "grad_norm": 2.026864749990692,
      "language_loss": 0.75417167,
      "learning_rate": 4.3321970556719777e-07,
      "loss": 0.77524984,
      "num_input_tokens_seen": 142100260,
      "step": 6594,
      "time_per_iteration": 2.5407915115356445
    },
    {
      "auxiliary_loss_clip": 0.01092729,
      "auxiliary_loss_mlp": 0.01022568,
      "balance_loss_clip": 1.0377382,
      "balance_loss_mlp": 1.01722741,
      "epoch": 0.7930018637648049,
      "flos": 18624913050240.0,
      "grad_norm": 2.4741675023329437,
      "language_loss": 0.72141266,
      "learning_rate": 4.3273566996037856e-07,
      "loss": 0.74256563,
      "num_input_tokens_seen": 142116955,
      "step": 6595,
      "time_per_iteration": 2.4541616439819336
    },
    {
      "auxiliary_loss_clip": 0.01066294,
      "auxiliary_loss_mlp": 0.01021314,
      "balance_loss_clip": 1.0345242,
      "balance_loss_mlp": 1.01632833,
      "epoch": 0.793122106655444,
      "flos": 24532699403520.0,
      "grad_norm": 1.9112044171693385,
      "language_loss": 0.80348277,
      "learning_rate": 4.322518721063113e-07,
      "loss": 0.82435882,
      "num_input_tokens_seen": 142135505,
      "step": 6596,
      "time_per_iteration": 2.6240875720977783
    },
    {
      "auxiliary_loss_clip": 0.01080521,
      "auxiliary_loss_mlp": 0.01021102,
      "balance_loss_clip": 1.03766406,
      "balance_loss_mlp": 1.01609778,
      "epoch": 0.7932423495460831,
      "flos": 34423965607680.0,
      "grad_norm": 1.9593943939974765,
      "language_loss": 0.7046091,
      "learning_rate": 4.3176831207838906e-07,
      "loss": 0.72562534,
      "num_input_tokens_seen": 142158915,
      "step": 6597,
      "time_per_iteration": 2.641122341156006
    },
    {
      "auxiliary_loss_clip": 0.01080621,
      "auxiliary_loss_mlp": 0.01021297,
      "balance_loss_clip": 1.03884983,
      "balance_loss_mlp": 1.01608145,
      "epoch": 0.7933625924367221,
      "flos": 26982804965760.0,
      "grad_norm": 2.01034111191246,
      "language_loss": 0.74600947,
      "learning_rate": 4.3128498994996685e-07,
      "loss": 0.76702863,
      "num_input_tokens_seen": 142178390,
      "step": 6598,
      "time_per_iteration": 2.612438201904297
    },
    {
      "auxiliary_loss_clip": 0.01082842,
      "auxiliary_loss_mlp": 0.01018387,
      "balance_loss_clip": 1.03655505,
      "balance_loss_mlp": 1.01285863,
      "epoch": 0.7934828353273613,
      "flos": 29571124216320.0,
      "grad_norm": 2.4167363015915733,
      "language_loss": 0.71284425,
      "learning_rate": 4.308019057943646e-07,
      "loss": 0.7338565,
      "num_input_tokens_seen": 142200115,
      "step": 6599,
      "time_per_iteration": 2.6094746589660645
    },
    {
      "auxiliary_loss_clip": 0.01042433,
      "auxiliary_loss_mlp": 0.01024351,
      "balance_loss_clip": 1.0336411,
      "balance_loss_mlp": 1.01932979,
      "epoch": 0.7936030782180004,
      "flos": 28617564435840.0,
      "grad_norm": 2.0286696532001613,
      "language_loss": 0.74532497,
      "learning_rate": 4.3031905968486535e-07,
      "loss": 0.76599282,
      "num_input_tokens_seen": 142220945,
      "step": 6600,
      "time_per_iteration": 3.530214548110962
    },
    {
      "auxiliary_loss_clip": 0.01039285,
      "auxiliary_loss_mlp": 0.01020601,
      "balance_loss_clip": 1.03360248,
      "balance_loss_mlp": 1.01549888,
      "epoch": 0.7937233211086394,
      "flos": 16394072215680.0,
      "grad_norm": 2.1954960521114533,
      "language_loss": 0.69013035,
      "learning_rate": 4.298364516947162e-07,
      "loss": 0.71072924,
      "num_input_tokens_seen": 142238175,
      "step": 6601,
      "time_per_iteration": 2.603421688079834
    },
    {
      "auxiliary_loss_clip": 0.01045892,
      "auxiliary_loss_mlp": 0.01017116,
      "balance_loss_clip": 1.0339067,
      "balance_loss_mlp": 1.01205254,
      "epoch": 0.7938435639992786,
      "flos": 22015344983040.0,
      "grad_norm": 2.976546244338512,
      "language_loss": 0.65887249,
      "learning_rate": 4.293540818971295e-07,
      "loss": 0.67950249,
      "num_input_tokens_seen": 142255980,
      "step": 6602,
      "time_per_iteration": 3.3333184719085693
    },
    {
      "auxiliary_loss_clip": 0.01082992,
      "auxiliary_loss_mlp": 0.01015064,
      "balance_loss_clip": 1.03709006,
      "balance_loss_mlp": 1.00978613,
      "epoch": 0.7939638068899176,
      "flos": 22199032500480.0,
      "grad_norm": 3.1301989334822364,
      "language_loss": 0.76519752,
      "learning_rate": 4.2887195036527934e-07,
      "loss": 0.78617811,
      "num_input_tokens_seen": 142274785,
      "step": 6603,
      "time_per_iteration": 2.5429646968841553
    },
    {
      "auxiliary_loss_clip": 0.01080638,
      "auxiliary_loss_mlp": 0.01017618,
      "balance_loss_clip": 1.03447223,
      "balance_loss_mlp": 1.01254237,
      "epoch": 0.7940840497805567,
      "flos": 17746906187520.0,
      "grad_norm": 2.8870297914522633,
      "language_loss": 0.7367245,
      "learning_rate": 4.28390057172306e-07,
      "loss": 0.757707,
      "num_input_tokens_seen": 142291290,
      "step": 6604,
      "time_per_iteration": 2.5134739875793457
    },
    {
      "auxiliary_loss_clip": 0.01061265,
      "auxiliary_loss_mlp": 0.01022921,
      "balance_loss_clip": 1.03407574,
      "balance_loss_mlp": 1.01750565,
      "epoch": 0.7942042926711959,
      "flos": 23807694280320.0,
      "grad_norm": 2.58374463552349,
      "language_loss": 0.71823692,
      "learning_rate": 4.279084023913111e-07,
      "loss": 0.73907876,
      "num_input_tokens_seen": 142309165,
      "step": 6605,
      "time_per_iteration": 2.6097118854522705
    },
    {
      "auxiliary_loss_clip": 0.0108072,
      "auxiliary_loss_mlp": 0.01019075,
      "balance_loss_clip": 1.03739047,
      "balance_loss_mlp": 1.01397896,
      "epoch": 0.7943245355618349,
      "flos": 19246978350720.0,
      "grad_norm": 3.0634503802501247,
      "language_loss": 0.69365537,
      "learning_rate": 4.2742698609536096e-07,
      "loss": 0.71465337,
      "num_input_tokens_seen": 142327475,
      "step": 6606,
      "time_per_iteration": 3.2549936771392822
    },
    {
      "auxiliary_loss_clip": 0.01068181,
      "auxiliary_loss_mlp": 0.01020886,
      "balance_loss_clip": 1.03486788,
      "balance_loss_mlp": 1.01572156,
      "epoch": 0.794444778452474,
      "flos": 25009839515520.0,
      "grad_norm": 5.061281970770226,
      "language_loss": 0.78540778,
      "learning_rate": 4.2694580835748706e-07,
      "loss": 0.80629843,
      "num_input_tokens_seen": 142347335,
      "step": 6607,
      "time_per_iteration": 2.5877983570098877
    },
    {
      "auxiliary_loss_clip": 0.01068115,
      "auxiliary_loss_mlp": 0.01019067,
      "balance_loss_clip": 1.03676629,
      "balance_loss_mlp": 1.01347041,
      "epoch": 0.7945650213431131,
      "flos": 23223708783360.0,
      "grad_norm": 2.072810325141569,
      "language_loss": 0.74057347,
      "learning_rate": 4.264648692506836e-07,
      "loss": 0.76144528,
      "num_input_tokens_seen": 142366125,
      "step": 6608,
      "time_per_iteration": 2.6110548973083496
    },
    {
      "auxiliary_loss_clip": 0.01069931,
      "auxiliary_loss_mlp": 0.01019544,
      "balance_loss_clip": 1.03727961,
      "balance_loss_mlp": 1.01373827,
      "epoch": 0.7946852642337522,
      "flos": 26065011985920.0,
      "grad_norm": 1.9624061403288362,
      "language_loss": 0.72102559,
      "learning_rate": 4.2598416884790824e-07,
      "loss": 0.74192023,
      "num_input_tokens_seen": 142385175,
      "step": 6609,
      "time_per_iteration": 2.5779950618743896
    },
    {
      "auxiliary_loss_clip": 0.01072061,
      "auxiliary_loss_mlp": 0.01020514,
      "balance_loss_clip": 1.03510034,
      "balance_loss_mlp": 1.01510823,
      "epoch": 0.7948055071243912,
      "flos": 23772003315840.0,
      "grad_norm": 22.812505985026295,
      "language_loss": 0.80879402,
      "learning_rate": 4.255037072220828e-07,
      "loss": 0.82971978,
      "num_input_tokens_seen": 142406545,
      "step": 6610,
      "time_per_iteration": 2.6338958740234375
    },
    {
      "auxiliary_loss_clip": 0.01090219,
      "auxiliary_loss_mlp": 0.0101806,
      "balance_loss_clip": 1.03555965,
      "balance_loss_mlp": 1.01312208,
      "epoch": 0.7949257500150304,
      "flos": 21982952891520.0,
      "grad_norm": 1.7664779358276335,
      "language_loss": 0.71707511,
      "learning_rate": 4.2502348444609293e-07,
      "loss": 0.73815787,
      "num_input_tokens_seen": 142426165,
      "step": 6611,
      "time_per_iteration": 2.501563549041748
    },
    {
      "auxiliary_loss_clip": 0.01048243,
      "auxiliary_loss_mlp": 0.01019439,
      "balance_loss_clip": 1.03433633,
      "balance_loss_mlp": 1.01478052,
      "epoch": 0.7950459929056695,
      "flos": 25776412905600.0,
      "grad_norm": 1.8816091624069091,
      "language_loss": 0.69508815,
      "learning_rate": 4.2454350059278844e-07,
      "loss": 0.715765,
      "num_input_tokens_seen": 142447225,
      "step": 6612,
      "time_per_iteration": 2.722358465194702
    },
    {
      "auxiliary_loss_clip": 0.01070275,
      "auxiliary_loss_mlp": 0.01019842,
      "balance_loss_clip": 1.03377914,
      "balance_loss_mlp": 1.01487684,
      "epoch": 0.7951662357963085,
      "flos": 22159928908800.0,
      "grad_norm": 1.8135176478351565,
      "language_loss": 0.84270072,
      "learning_rate": 4.240637557349824e-07,
      "loss": 0.86360186,
      "num_input_tokens_seen": 142464440,
      "step": 6613,
      "time_per_iteration": 2.551039695739746
    },
    {
      "auxiliary_loss_clip": 0.01064355,
      "auxiliary_loss_mlp": 0.01019659,
      "balance_loss_clip": 1.03608966,
      "balance_loss_mlp": 1.01459897,
      "epoch": 0.7952864786869477,
      "flos": 24644094958080.0,
      "grad_norm": 2.0899305820893965,
      "language_loss": 0.66643178,
      "learning_rate": 4.235842499454516e-07,
      "loss": 0.68727195,
      "num_input_tokens_seen": 142484355,
      "step": 6614,
      "time_per_iteration": 2.591161012649536
    },
    {
      "auxiliary_loss_clip": 0.01068432,
      "auxiliary_loss_mlp": 0.01020537,
      "balance_loss_clip": 1.03601885,
      "balance_loss_mlp": 1.01512814,
      "epoch": 0.7954067215775867,
      "flos": 21832832926080.0,
      "grad_norm": 1.9605435642138869,
      "language_loss": 0.8280735,
      "learning_rate": 4.2310498329693687e-07,
      "loss": 0.84896326,
      "num_input_tokens_seen": 142505255,
      "step": 6615,
      "time_per_iteration": 2.580915927886963
    },
    {
      "auxiliary_loss_clip": 0.01080801,
      "auxiliary_loss_mlp": 0.01018097,
      "balance_loss_clip": 1.03646672,
      "balance_loss_mlp": 1.01233613,
      "epoch": 0.7955269644682258,
      "flos": 24062915399040.0,
      "grad_norm": 1.8062786731613076,
      "language_loss": 0.80732679,
      "learning_rate": 4.2262595586214164e-07,
      "loss": 0.82831585,
      "num_input_tokens_seen": 142526350,
      "step": 6616,
      "time_per_iteration": 2.5688998699188232
    },
    {
      "auxiliary_loss_clip": 0.0108218,
      "auxiliary_loss_mlp": 0.01021023,
      "balance_loss_clip": 1.03662002,
      "balance_loss_mlp": 1.01569426,
      "epoch": 0.795647207358865,
      "flos": 25013138388480.0,
      "grad_norm": 1.7541522239931757,
      "language_loss": 0.76723611,
      "learning_rate": 4.221471677137358e-07,
      "loss": 0.78826809,
      "num_input_tokens_seen": 142547165,
      "step": 6617,
      "time_per_iteration": 2.5438811779022217
    },
    {
      "auxiliary_loss_clip": 0.01068476,
      "auxiliary_loss_mlp": 0.01017182,
      "balance_loss_clip": 1.03615141,
      "balance_loss_mlp": 1.0126071,
      "epoch": 0.795767450249504,
      "flos": 14650154357760.0,
      "grad_norm": 1.5760467371345603,
      "language_loss": 0.70404708,
      "learning_rate": 4.216686189243492e-07,
      "loss": 0.72490364,
      "num_input_tokens_seen": 142565955,
      "step": 6618,
      "time_per_iteration": 2.5945940017700195
    },
    {
      "auxiliary_loss_clip": 0.0104791,
      "auxiliary_loss_mlp": 0.01019099,
      "balance_loss_clip": 1.0298562,
      "balance_loss_mlp": 1.01365459,
      "epoch": 0.7958876931401431,
      "flos": 18549663477120.0,
      "grad_norm": 1.778387702121147,
      "language_loss": 0.72703046,
      "learning_rate": 4.211903095665785e-07,
      "loss": 0.74770057,
      "num_input_tokens_seen": 142585340,
      "step": 6619,
      "time_per_iteration": 2.561650276184082
    },
    {
      "auxiliary_loss_clip": 0.01075931,
      "auxiliary_loss_mlp": 0.01022609,
      "balance_loss_clip": 1.03454995,
      "balance_loss_mlp": 1.01756942,
      "epoch": 0.7960079360307821,
      "flos": 21546129749760.0,
      "grad_norm": 1.7497288514671936,
      "language_loss": 0.75269079,
      "learning_rate": 4.2071223971298277e-07,
      "loss": 0.77367628,
      "num_input_tokens_seen": 142602525,
      "step": 6620,
      "time_per_iteration": 2.5585665702819824
    },
    {
      "auxiliary_loss_clip": 0.01084304,
      "auxiliary_loss_mlp": 0.01017824,
      "balance_loss_clip": 1.03792667,
      "balance_loss_mlp": 1.01209283,
      "epoch": 0.7961281789214213,
      "flos": 25483984099200.0,
      "grad_norm": 7.908560555242454,
      "language_loss": 0.61028928,
      "learning_rate": 4.2023440943608433e-07,
      "loss": 0.63131058,
      "num_input_tokens_seen": 142622490,
      "step": 6621,
      "time_per_iteration": 2.539391279220581
    },
    {
      "auxiliary_loss_clip": 0.010798,
      "auxiliary_loss_mlp": 0.01016064,
      "balance_loss_clip": 1.03513491,
      "balance_loss_mlp": 1.01117969,
      "epoch": 0.7962484218120603,
      "flos": 21946579401600.0,
      "grad_norm": 1.9762782671615793,
      "language_loss": 0.78255945,
      "learning_rate": 4.1975681880837023e-07,
      "loss": 0.80351812,
      "num_input_tokens_seen": 142642495,
      "step": 6622,
      "time_per_iteration": 2.548295021057129
    },
    {
      "auxiliary_loss_clip": 0.01059167,
      "auxiliary_loss_mlp": 0.01018964,
      "balance_loss_clip": 1.03506327,
      "balance_loss_mlp": 1.01391244,
      "epoch": 0.7963686647026994,
      "flos": 18878048674560.0,
      "grad_norm": 1.7396957674652878,
      "language_loss": 0.82440138,
      "learning_rate": 4.192794679022895e-07,
      "loss": 0.84518272,
      "num_input_tokens_seen": 142660820,
      "step": 6623,
      "time_per_iteration": 2.565014123916626
    },
    {
      "auxiliary_loss_clip": 0.01082433,
      "auxiliary_loss_mlp": 0.01021351,
      "balance_loss_clip": 1.03654933,
      "balance_loss_mlp": 1.01648986,
      "epoch": 0.7964889075933386,
      "flos": 29719196605440.0,
      "grad_norm": 2.114397980170968,
      "language_loss": 0.71975017,
      "learning_rate": 4.1880235679025743e-07,
      "loss": 0.74078798,
      "num_input_tokens_seen": 142680915,
      "step": 6624,
      "time_per_iteration": 2.6055908203125
    },
    {
      "auxiliary_loss_clip": 0.01037993,
      "auxiliary_loss_mlp": 0.01027869,
      "balance_loss_clip": 1.03421724,
      "balance_loss_mlp": 1.0225935,
      "epoch": 0.7966091504839776,
      "flos": 29493713312640.0,
      "grad_norm": 2.1278091775058825,
      "language_loss": 0.6357035,
      "learning_rate": 4.1832548554464986e-07,
      "loss": 0.65636212,
      "num_input_tokens_seen": 142699210,
      "step": 6625,
      "time_per_iteration": 2.706106662750244
    },
    {
      "auxiliary_loss_clip": 0.01033993,
      "auxiliary_loss_mlp": 0.01001692,
      "balance_loss_clip": 1.02003527,
      "balance_loss_mlp": 1.00001132,
      "epoch": 0.7967293933746167,
      "flos": 67294981146240.0,
      "grad_norm": 0.7386072843083938,
      "language_loss": 0.58749634,
      "learning_rate": 4.178488542378098e-07,
      "loss": 0.60785317,
      "num_input_tokens_seen": 142756790,
      "step": 6626,
      "time_per_iteration": 3.7703206539154053
    },
    {
      "auxiliary_loss_clip": 0.01094941,
      "auxiliary_loss_mlp": 0.01019968,
      "balance_loss_clip": 1.0381031,
      "balance_loss_mlp": 1.01464558,
      "epoch": 0.7968496362652558,
      "flos": 25556920669440.0,
      "grad_norm": 1.7150116176729433,
      "language_loss": 0.89299035,
      "learning_rate": 4.173724629420401e-07,
      "loss": 0.91413945,
      "num_input_tokens_seen": 142778150,
      "step": 6627,
      "time_per_iteration": 3.3411731719970703
    },
    {
      "auxiliary_loss_clip": 0.01070542,
      "auxiliary_loss_mlp": 0.01022768,
      "balance_loss_clip": 1.03583431,
      "balance_loss_mlp": 1.01712334,
      "epoch": 0.7969698791558949,
      "flos": 14502802412160.0,
      "grad_norm": 2.4816802701729603,
      "language_loss": 0.68612665,
      "learning_rate": 4.168963117296087e-07,
      "loss": 0.70705974,
      "num_input_tokens_seen": 142795485,
      "step": 6628,
      "time_per_iteration": 3.3290598392486572
    },
    {
      "auxiliary_loss_clip": 0.0109473,
      "auxiliary_loss_mlp": 0.01017779,
      "balance_loss_clip": 1.03927445,
      "balance_loss_mlp": 1.01292396,
      "epoch": 0.797090122046534,
      "flos": 22129736065920.0,
      "grad_norm": 4.956922498641524,
      "language_loss": 0.76114106,
      "learning_rate": 4.1642040067274876e-07,
      "loss": 0.78226614,
      "num_input_tokens_seen": 142815155,
      "step": 6629,
      "time_per_iteration": 2.503831148147583
    },
    {
      "auxiliary_loss_clip": 0.01069199,
      "auxiliary_loss_mlp": 0.01017585,
      "balance_loss_clip": 1.03507185,
      "balance_loss_mlp": 1.01263213,
      "epoch": 0.7972103649371731,
      "flos": 19899501920640.0,
      "grad_norm": 2.936519385449078,
      "language_loss": 0.72504723,
      "learning_rate": 4.1594472984365493e-07,
      "loss": 0.74591506,
      "num_input_tokens_seen": 142833840,
      "step": 6630,
      "time_per_iteration": 2.5923402309417725
    },
    {
      "auxiliary_loss_clip": 0.01074679,
      "auxiliary_loss_mlp": 0.0102007,
      "balance_loss_clip": 1.03662336,
      "balance_loss_mlp": 1.01498914,
      "epoch": 0.7973306078278122,
      "flos": 36061227671040.0,
      "grad_norm": 1.8314285394102645,
      "language_loss": 0.77965897,
      "learning_rate": 4.154692993144862e-07,
      "loss": 0.80060649,
      "num_input_tokens_seen": 142853610,
      "step": 6631,
      "time_per_iteration": 2.6753478050231934
    },
    {
      "auxiliary_loss_clip": 0.01093996,
      "auxiliary_loss_mlp": 0.00756782,
      "balance_loss_clip": 1.03849745,
      "balance_loss_mlp": 1.00172615,
      "epoch": 0.7974508507184512,
      "flos": 21362707658880.0,
      "grad_norm": 2.2895523328667005,
      "language_loss": 0.71803415,
      "learning_rate": 4.1499410915736476e-07,
      "loss": 0.73654193,
      "num_input_tokens_seen": 142872540,
      "step": 6632,
      "time_per_iteration": 3.347384452819824
    },
    {
      "auxiliary_loss_clip": 0.01035364,
      "auxiliary_loss_mlp": 0.01000781,
      "balance_loss_clip": 1.01979733,
      "balance_loss_mlp": 0.99907607,
      "epoch": 0.7975710936090904,
      "flos": 68260333449600.0,
      "grad_norm": 0.7665725246183,
      "language_loss": 0.64251673,
      "learning_rate": 4.145191594443762e-07,
      "loss": 0.66287816,
      "num_input_tokens_seen": 142936895,
      "step": 6633,
      "time_per_iteration": 3.263256072998047
    },
    {
      "auxiliary_loss_clip": 0.01055892,
      "auxiliary_loss_mlp": 0.01022535,
      "balance_loss_clip": 1.03260279,
      "balance_loss_mlp": 1.01730514,
      "epoch": 0.7976913364997295,
      "flos": 22494646425600.0,
      "grad_norm": 1.7342500972611026,
      "language_loss": 0.70659673,
      "learning_rate": 4.140444502475713e-07,
      "loss": 0.72738105,
      "num_input_tokens_seen": 142956445,
      "step": 6634,
      "time_per_iteration": 2.6330015659332275
    },
    {
      "auxiliary_loss_clip": 0.01082396,
      "auxiliary_loss_mlp": 0.01022432,
      "balance_loss_clip": 1.03516424,
      "balance_loss_mlp": 1.01725197,
      "epoch": 0.7978115793903685,
      "flos": 15264749796480.0,
      "grad_norm": 2.3486217798819755,
      "language_loss": 0.69995821,
      "learning_rate": 4.1356998163896216e-07,
      "loss": 0.72100651,
      "num_input_tokens_seen": 142973495,
      "step": 6635,
      "time_per_iteration": 2.4880130290985107
    },
    {
      "auxiliary_loss_clip": 0.0105596,
      "auxiliary_loss_mlp": 0.01019434,
      "balance_loss_clip": 1.03454733,
      "balance_loss_mlp": 1.01426315,
      "epoch": 0.7979318222810077,
      "flos": 19721274606720.0,
      "grad_norm": 2.0491216931107457,
      "language_loss": 0.7464661,
      "learning_rate": 4.130957536905255e-07,
      "loss": 0.76722002,
      "num_input_tokens_seen": 142991510,
      "step": 6636,
      "time_per_iteration": 2.5977132320404053
    },
    {
      "auxiliary_loss_clip": 0.01066642,
      "auxiliary_loss_mlp": 0.01023623,
      "balance_loss_clip": 1.03613138,
      "balance_loss_mlp": 1.01799047,
      "epoch": 0.7980520651716467,
      "flos": 15562107953280.0,
      "grad_norm": 2.510937700031186,
      "language_loss": 0.71468389,
      "learning_rate": 4.1262176647420134e-07,
      "loss": 0.73558652,
      "num_input_tokens_seen": 143009675,
      "step": 6637,
      "time_per_iteration": 2.5154969692230225
    },
    {
      "auxiliary_loss_clip": 0.0107271,
      "auxiliary_loss_mlp": 0.01021906,
      "balance_loss_clip": 1.03732979,
      "balance_loss_mlp": 1.01670253,
      "epoch": 0.7981723080622858,
      "flos": 22311603515520.0,
      "grad_norm": 1.9584208102732321,
      "language_loss": 0.79713714,
      "learning_rate": 4.121480200618923e-07,
      "loss": 0.81808329,
      "num_input_tokens_seen": 143029330,
      "step": 6638,
      "time_per_iteration": 2.594881534576416
    },
    {
      "auxiliary_loss_clip": 0.010694,
      "auxiliary_loss_mlp": 0.01016885,
      "balance_loss_clip": 1.03606105,
      "balance_loss_mlp": 1.01198292,
      "epoch": 0.798292550952925,
      "flos": 22931772912000.0,
      "grad_norm": 2.027142726152148,
      "language_loss": 0.80076134,
      "learning_rate": 4.116745145254674e-07,
      "loss": 0.82162416,
      "num_input_tokens_seen": 143048865,
      "step": 6639,
      "time_per_iteration": 2.553858995437622
    },
    {
      "auxiliary_loss_clip": 0.01021688,
      "auxiliary_loss_mlp": 0.01001371,
      "balance_loss_clip": 1.01743937,
      "balance_loss_mlp": 0.99966592,
      "epoch": 0.798412793843564,
      "flos": 64505104911360.0,
      "grad_norm": 0.7619359837501097,
      "language_loss": 0.57878995,
      "learning_rate": 4.1120124993675476e-07,
      "loss": 0.59902048,
      "num_input_tokens_seen": 143113295,
      "step": 6640,
      "time_per_iteration": 3.173882007598877
    },
    {
      "auxiliary_loss_clip": 0.01073058,
      "auxiliary_loss_mlp": 0.01017455,
      "balance_loss_clip": 1.03663826,
      "balance_loss_mlp": 1.01188469,
      "epoch": 0.7985330367342031,
      "flos": 13588459977600.0,
      "grad_norm": 1.9408845556713523,
      "language_loss": 0.6140855,
      "learning_rate": 4.107282263675498e-07,
      "loss": 0.63499063,
      "num_input_tokens_seen": 143130965,
      "step": 6641,
      "time_per_iteration": 2.576967716217041
    },
    {
      "auxiliary_loss_clip": 0.01027107,
      "auxiliary_loss_mlp": 0.00752292,
      "balance_loss_clip": 1.02723908,
      "balance_loss_mlp": 1.00089192,
      "epoch": 0.7986532796248422,
      "flos": 67705592843520.0,
      "grad_norm": 0.760917274418474,
      "language_loss": 0.5250051,
      "learning_rate": 4.1025544388960907e-07,
      "loss": 0.54279912,
      "num_input_tokens_seen": 143192005,
      "step": 6642,
      "time_per_iteration": 3.1945199966430664
    },
    {
      "auxiliary_loss_clip": 0.01081992,
      "auxiliary_loss_mlp": 0.01021473,
      "balance_loss_clip": 1.038661,
      "balance_loss_mlp": 1.01609087,
      "epoch": 0.7987735225154813,
      "flos": 22457552492160.0,
      "grad_norm": 2.6547665774399314,
      "language_loss": 0.71886027,
      "learning_rate": 4.097829025746538e-07,
      "loss": 0.73989493,
      "num_input_tokens_seen": 143213550,
      "step": 6643,
      "time_per_iteration": 2.5917670726776123
    },
    {
      "auxiliary_loss_clip": 0.01035002,
      "auxiliary_loss_mlp": 0.01001205,
      "balance_loss_clip": 1.01986361,
      "balance_loss_mlp": 0.99947685,
      "epoch": 0.7988937654061203,
      "flos": 68870833735680.0,
      "grad_norm": 0.6588037179956872,
      "language_loss": 0.61016619,
      "learning_rate": 4.0931060249436757e-07,
      "loss": 0.63052827,
      "num_input_tokens_seen": 143277390,
      "step": 6644,
      "time_per_iteration": 3.1632790565490723
    },
    {
      "auxiliary_loss_clip": 0.01081466,
      "auxiliary_loss_mlp": 0.01023567,
      "balance_loss_clip": 1.03862906,
      "balance_loss_mlp": 1.01822317,
      "epoch": 0.7990140082967595,
      "flos": 20808611660160.0,
      "grad_norm": 2.565244812323449,
      "language_loss": 0.69899595,
      "learning_rate": 4.088385437203978e-07,
      "loss": 0.72004628,
      "num_input_tokens_seen": 143294400,
      "step": 6645,
      "time_per_iteration": 2.5252559185028076
    },
    {
      "auxiliary_loss_clip": 0.01092326,
      "auxiliary_loss_mlp": 0.01020133,
      "balance_loss_clip": 1.03643858,
      "balance_loss_mlp": 1.01505446,
      "epoch": 0.7991342511873986,
      "flos": 18987055390080.0,
      "grad_norm": 2.3455515732386143,
      "language_loss": 0.77369297,
      "learning_rate": 4.083667263243564e-07,
      "loss": 0.79481757,
      "num_input_tokens_seen": 143312745,
      "step": 6646,
      "time_per_iteration": 2.476900339126587
    },
    {
      "auxiliary_loss_clip": 0.01075796,
      "auxiliary_loss_mlp": 0.01022909,
      "balance_loss_clip": 1.03866196,
      "balance_loss_mlp": 1.01754761,
      "epoch": 0.7992544940780376,
      "flos": 20819077050240.0,
      "grad_norm": 1.9876484565617893,
      "language_loss": 0.71371627,
      "learning_rate": 4.0789515037781653e-07,
      "loss": 0.7347033,
      "num_input_tokens_seen": 143333470,
      "step": 6647,
      "time_per_iteration": 2.56264591217041
    },
    {
      "auxiliary_loss_clip": 0.01080632,
      "auxiliary_loss_mlp": 0.01018155,
      "balance_loss_clip": 1.03578758,
      "balance_loss_mlp": 1.01305842,
      "epoch": 0.7993747369686768,
      "flos": 12642407976960.0,
      "grad_norm": 1.9093268701737034,
      "language_loss": 0.82442665,
      "learning_rate": 4.0742381595231755e-07,
      "loss": 0.84541458,
      "num_input_tokens_seen": 143350195,
      "step": 6648,
      "time_per_iteration": 2.518204927444458
    },
    {
      "auxiliary_loss_clip": 0.01052587,
      "auxiliary_loss_mlp": 0.01020579,
      "balance_loss_clip": 1.03528595,
      "balance_loss_mlp": 1.01578641,
      "epoch": 0.7994949798593158,
      "flos": 20080535172480.0,
      "grad_norm": 1.6749362866371782,
      "language_loss": 0.78744996,
      "learning_rate": 4.06952723119359e-07,
      "loss": 0.80818152,
      "num_input_tokens_seen": 143370070,
      "step": 6649,
      "time_per_iteration": 2.605827569961548
    },
    {
      "auxiliary_loss_clip": 0.01068464,
      "auxiliary_loss_mlp": 0.01020251,
      "balance_loss_clip": 1.03718626,
      "balance_loss_mlp": 1.01491344,
      "epoch": 0.7996152227499549,
      "flos": 38657244291840.0,
      "grad_norm": 2.1884149576389396,
      "language_loss": 0.67532694,
      "learning_rate": 4.0648187195040504e-07,
      "loss": 0.69621408,
      "num_input_tokens_seen": 143392275,
      "step": 6650,
      "time_per_iteration": 2.725390911102295
    },
    {
      "auxiliary_loss_clip": 0.01034434,
      "auxiliary_loss_mlp": 0.01000529,
      "balance_loss_clip": 1.02048409,
      "balance_loss_mlp": 0.99884778,
      "epoch": 0.799735465640594,
      "flos": 70250258332800.0,
      "grad_norm": 0.8196571525247599,
      "language_loss": 0.67548388,
      "learning_rate": 4.060112625168848e-07,
      "loss": 0.6958335,
      "num_input_tokens_seen": 143457385,
      "step": 6651,
      "time_per_iteration": 3.924159526824951
    },
    {
      "auxiliary_loss_clip": 0.01094175,
      "auxiliary_loss_mlp": 0.01019793,
      "balance_loss_clip": 1.03925025,
      "balance_loss_mlp": 1.01443458,
      "epoch": 0.7998557085312331,
      "flos": 24243152371200.0,
      "grad_norm": 2.4526551969510493,
      "language_loss": 0.74026179,
      "learning_rate": 4.055408948901886e-07,
      "loss": 0.76140153,
      "num_input_tokens_seen": 143478785,
      "step": 6652,
      "time_per_iteration": 3.3280303478240967
    },
    {
      "auxiliary_loss_clip": 0.01083206,
      "auxiliary_loss_mlp": 0.01017047,
      "balance_loss_clip": 1.03805685,
      "balance_loss_mlp": 1.01148558,
      "epoch": 0.7999759514218722,
      "flos": 27566525036160.0,
      "grad_norm": 2.037921837257273,
      "language_loss": 0.71306348,
      "learning_rate": 4.050707691416708e-07,
      "loss": 0.73406595,
      "num_input_tokens_seen": 143500095,
      "step": 6653,
      "time_per_iteration": 2.5844242572784424
    },
    {
      "auxiliary_loss_clip": 0.01034127,
      "auxiliary_loss_mlp": 0.01001303,
      "balance_loss_clip": 1.02022278,
      "balance_loss_mlp": 0.99963439,
      "epoch": 0.8000961943125112,
      "flos": 67344398455680.0,
      "grad_norm": 0.6747409041138135,
      "language_loss": 0.5976851,
      "learning_rate": 4.046008853426495e-07,
      "loss": 0.61803949,
      "num_input_tokens_seen": 143563410,
      "step": 6654,
      "time_per_iteration": 3.9446544647216797
    },
    {
      "auxiliary_loss_clip": 0.01057363,
      "auxiliary_loss_mlp": 0.01020891,
      "balance_loss_clip": 1.03538883,
      "balance_loss_mlp": 1.01555943,
      "epoch": 0.8002164372031504,
      "flos": 28736505688320.0,
      "grad_norm": 2.0073940089958966,
      "language_loss": 0.62694025,
      "learning_rate": 4.0413124356440464e-07,
      "loss": 0.64772278,
      "num_input_tokens_seen": 143587455,
      "step": 6655,
      "time_per_iteration": 2.669893503189087
    },
    {
      "auxiliary_loss_clip": 0.01039577,
      "auxiliary_loss_mlp": 0.01018576,
      "balance_loss_clip": 1.02897882,
      "balance_loss_mlp": 1.01356053,
      "epoch": 0.8003366800937894,
      "flos": 17641350017280.0,
      "grad_norm": 1.8791498059468563,
      "language_loss": 0.82314086,
      "learning_rate": 4.0366184387818223e-07,
      "loss": 0.84372234,
      "num_input_tokens_seen": 143605915,
      "step": 6656,
      "time_per_iteration": 2.60478138923645
    },
    {
      "auxiliary_loss_clip": 0.01096104,
      "auxiliary_loss_mlp": 0.01015068,
      "balance_loss_clip": 1.03827715,
      "balance_loss_mlp": 1.00957274,
      "epoch": 0.8004569229844285,
      "flos": 25997725209600.0,
      "grad_norm": 1.852334312129128,
      "language_loss": 0.85451651,
      "learning_rate": 4.0319268635518797e-07,
      "loss": 0.87562829,
      "num_input_tokens_seen": 143626490,
      "step": 6657,
      "time_per_iteration": 2.5925967693328857
    },
    {
      "auxiliary_loss_clip": 0.01081889,
      "auxiliary_loss_mlp": 0.01017796,
      "balance_loss_clip": 1.03727198,
      "balance_loss_mlp": 1.01272607,
      "epoch": 0.8005771658750677,
      "flos": 20814375208320.0,
      "grad_norm": 1.6482557543639553,
      "language_loss": 0.75229859,
      "learning_rate": 4.027237710665943e-07,
      "loss": 0.7732954,
      "num_input_tokens_seen": 143644955,
      "step": 6658,
      "time_per_iteration": 3.301056385040283
    },
    {
      "auxiliary_loss_clip": 0.01057186,
      "auxiliary_loss_mlp": 0.01020914,
      "balance_loss_clip": 1.03411794,
      "balance_loss_mlp": 1.01527214,
      "epoch": 0.8006974087657067,
      "flos": 25815023562240.0,
      "grad_norm": 1.9977757714824382,
      "language_loss": 0.69414055,
      "learning_rate": 4.022550980835344e-07,
      "loss": 0.71492153,
      "num_input_tokens_seen": 143667200,
      "step": 6659,
      "time_per_iteration": 2.6846487522125244
    },
    {
      "auxiliary_loss_clip": 0.01054892,
      "auxiliary_loss_mlp": 0.01020199,
      "balance_loss_clip": 1.03386927,
      "balance_loss_mlp": 1.01500797,
      "epoch": 0.8008176516563458,
      "flos": 17166560826240.0,
      "grad_norm": 2.3433821853713965,
      "language_loss": 0.79599327,
      "learning_rate": 4.017866674771051e-07,
      "loss": 0.81674421,
      "num_input_tokens_seen": 143684685,
      "step": 6660,
      "time_per_iteration": 2.553070545196533
    },
    {
      "auxiliary_loss_clip": 0.01037369,
      "auxiliary_loss_mlp": 0.01022955,
      "balance_loss_clip": 1.03039944,
      "balance_loss_mlp": 1.017555,
      "epoch": 0.8009378945469849,
      "flos": 24209622737280.0,
      "grad_norm": 1.7588121021816296,
      "language_loss": 0.74551094,
      "learning_rate": 4.013184793183688e-07,
      "loss": 0.76611418,
      "num_input_tokens_seen": 143706780,
      "step": 6661,
      "time_per_iteration": 2.674659252166748
    },
    {
      "auxiliary_loss_clip": 0.01081355,
      "auxiliary_loss_mlp": 0.01022678,
      "balance_loss_clip": 1.03593242,
      "balance_loss_mlp": 1.01768279,
      "epoch": 0.801058137437624,
      "flos": 19789092236160.0,
      "grad_norm": 6.674427578497355,
      "language_loss": 0.72544885,
      "learning_rate": 4.008505336783472e-07,
      "loss": 0.74648923,
      "num_input_tokens_seen": 143724505,
      "step": 6662,
      "time_per_iteration": 2.559518575668335
    },
    {
      "auxiliary_loss_clip": 0.01082085,
      "auxiliary_loss_mlp": 0.01022002,
      "balance_loss_clip": 1.03830409,
      "balance_loss_mlp": 1.01695371,
      "epoch": 0.801178380328263,
      "flos": 18661286540160.0,
      "grad_norm": 1.9542827771008189,
      "language_loss": 0.81260669,
      "learning_rate": 4.003828306280284e-07,
      "loss": 0.83364755,
      "num_input_tokens_seen": 143742180,
      "step": 6663,
      "time_per_iteration": 2.531101703643799
    },
    {
      "auxiliary_loss_clip": 0.01077005,
      "auxiliary_loss_mlp": 0.01018001,
      "balance_loss_clip": 1.03794742,
      "balance_loss_mlp": 1.01326883,
      "epoch": 0.8012986232189022,
      "flos": 15708436110720.0,
      "grad_norm": 1.9250663949638833,
      "language_loss": 0.77927977,
      "learning_rate": 3.999153702383626e-07,
      "loss": 0.80022985,
      "num_input_tokens_seen": 143760070,
      "step": 6664,
      "time_per_iteration": 2.5154995918273926
    },
    {
      "auxiliary_loss_clip": 0.01081193,
      "auxiliary_loss_mlp": 0.01021023,
      "balance_loss_clip": 1.03629327,
      "balance_loss_mlp": 1.01582205,
      "epoch": 0.8014188661095413,
      "flos": 28586613231360.0,
      "grad_norm": 2.1363823600831084,
      "language_loss": 0.74177337,
      "learning_rate": 3.9944815258026263e-07,
      "loss": 0.76279557,
      "num_input_tokens_seen": 143781890,
      "step": 6665,
      "time_per_iteration": 2.593454599380493
    },
    {
      "auxiliary_loss_clip": 0.01082205,
      "auxiliary_loss_mlp": 0.01018719,
      "balance_loss_clip": 1.03751278,
      "balance_loss_mlp": 1.01328635,
      "epoch": 0.8015391090001803,
      "flos": 29312680060800.0,
      "grad_norm": 2.3424407226723316,
      "language_loss": 0.83049667,
      "learning_rate": 3.989811777246057e-07,
      "loss": 0.85150588,
      "num_input_tokens_seen": 143802060,
      "step": 6666,
      "time_per_iteration": 2.595240831375122
    },
    {
      "auxiliary_loss_clip": 0.01044464,
      "auxiliary_loss_mlp": 0.0100299,
      "balance_loss_clip": 1.01927161,
      "balance_loss_mlp": 1.001297,
      "epoch": 0.8016593518908195,
      "flos": 70404208024320.0,
      "grad_norm": 0.8434819871679682,
      "language_loss": 0.66297174,
      "learning_rate": 3.985144457422305e-07,
      "loss": 0.68344629,
      "num_input_tokens_seen": 143856345,
      "step": 6667,
      "time_per_iteration": 3.0507259368896484
    },
    {
      "auxiliary_loss_clip": 0.01092856,
      "auxiliary_loss_mlp": 0.01018078,
      "balance_loss_clip": 1.03694105,
      "balance_loss_mlp": 1.0129993,
      "epoch": 0.8017795947814585,
      "flos": 26028221397120.0,
      "grad_norm": 2.0970401762311006,
      "language_loss": 0.77094162,
      "learning_rate": 3.9804795670394096e-07,
      "loss": 0.79205096,
      "num_input_tokens_seen": 143876470,
      "step": 6668,
      "time_per_iteration": 2.5364670753479004
    },
    {
      "auxiliary_loss_clip": 0.01069814,
      "auxiliary_loss_mlp": 0.01018259,
      "balance_loss_clip": 1.03611982,
      "balance_loss_mlp": 1.0132252,
      "epoch": 0.8018998376720976,
      "flos": 22089153669120.0,
      "grad_norm": 1.7454576504404733,
      "language_loss": 0.70471168,
      "learning_rate": 3.975817106805022e-07,
      "loss": 0.72559249,
      "num_input_tokens_seen": 143895170,
      "step": 6669,
      "time_per_iteration": 2.5877110958099365
    },
    {
      "auxiliary_loss_clip": 0.01055005,
      "auxiliary_loss_mlp": 0.01021588,
      "balance_loss_clip": 1.03494,
      "balance_loss_mlp": 1.01614881,
      "epoch": 0.8020200805627368,
      "flos": 34571393389440.0,
      "grad_norm": 2.8704810001960572,
      "language_loss": 0.64952576,
      "learning_rate": 3.97115707742645e-07,
      "loss": 0.67029166,
      "num_input_tokens_seen": 143915845,
      "step": 6670,
      "time_per_iteration": 2.7452216148376465
    },
    {
      "auxiliary_loss_clip": 0.01070159,
      "auxiliary_loss_mlp": 0.01019471,
      "balance_loss_clip": 1.03778446,
      "balance_loss_mlp": 1.01443124,
      "epoch": 0.8021403234533758,
      "flos": 20122406784000.0,
      "grad_norm": 2.1456800376425904,
      "language_loss": 0.65281183,
      "learning_rate": 3.966499479610599e-07,
      "loss": 0.67370814,
      "num_input_tokens_seen": 143933940,
      "step": 6671,
      "time_per_iteration": 2.560159206390381
    },
    {
      "auxiliary_loss_clip": 0.0104968,
      "auxiliary_loss_mlp": 0.01019214,
      "balance_loss_clip": 1.03339827,
      "balance_loss_mlp": 1.01420975,
      "epoch": 0.8022605663440149,
      "flos": 27748695830400.0,
      "grad_norm": 1.9793340008442168,
      "language_loss": 0.64873827,
      "learning_rate": 3.9618443140640225e-07,
      "loss": 0.66942722,
      "num_input_tokens_seen": 143952850,
      "step": 6672,
      "time_per_iteration": 2.6714515686035156
    },
    {
      "auxiliary_loss_clip": 0.01001648,
      "auxiliary_loss_mlp": 0.01001972,
      "balance_loss_clip": 1.01586795,
      "balance_loss_mlp": 1.00027966,
      "epoch": 0.802380809234654,
      "flos": 60250781692800.0,
      "grad_norm": 0.6833517030498362,
      "language_loss": 0.51346743,
      "learning_rate": 3.957191581492918e-07,
      "loss": 0.53350365,
      "num_input_tokens_seen": 144013610,
      "step": 6673,
      "time_per_iteration": 3.2269437313079834
    },
    {
      "auxiliary_loss_clip": 0.01070885,
      "auxiliary_loss_mlp": 0.01020923,
      "balance_loss_clip": 1.0363673,
      "balance_loss_mlp": 1.0155499,
      "epoch": 0.8025010521252931,
      "flos": 15082237739520.0,
      "grad_norm": 3.1933683464249154,
      "language_loss": 0.70858675,
      "learning_rate": 3.952541282603097e-07,
      "loss": 0.72950482,
      "num_input_tokens_seen": 144028715,
      "step": 6674,
      "time_per_iteration": 2.592266798019409
    },
    {
      "auxiliary_loss_clip": 0.0107329,
      "auxiliary_loss_mlp": 0.01017998,
      "balance_loss_clip": 1.03206074,
      "balance_loss_mlp": 1.01283336,
      "epoch": 0.8026212950159322,
      "flos": 22165692456960.0,
      "grad_norm": 2.1213404373361735,
      "language_loss": 0.83458972,
      "learning_rate": 3.9478934181000013e-07,
      "loss": 0.85550255,
      "num_input_tokens_seen": 144048740,
      "step": 6675,
      "time_per_iteration": 2.5155906677246094
    },
    {
      "auxiliary_loss_clip": 0.01094455,
      "auxiliary_loss_mlp": 0.01018234,
      "balance_loss_clip": 1.03820753,
      "balance_loss_mlp": 1.01280093,
      "epoch": 0.8027415379065713,
      "flos": 17677913097600.0,
      "grad_norm": 3.8404896499496934,
      "language_loss": 0.84694242,
      "learning_rate": 3.943247988688714e-07,
      "loss": 0.86806935,
      "num_input_tokens_seen": 144067435,
      "step": 6676,
      "time_per_iteration": 2.5114545822143555
    },
    {
      "auxiliary_loss_clip": 0.01080928,
      "auxiliary_loss_mlp": 0.01019737,
      "balance_loss_clip": 1.03612351,
      "balance_loss_mlp": 1.01501966,
      "epoch": 0.8028617807972104,
      "flos": 21981663676800.0,
      "grad_norm": 1.9849271601910496,
      "language_loss": 0.72240078,
      "learning_rate": 3.938604995073933e-07,
      "loss": 0.74340749,
      "num_input_tokens_seen": 144085905,
      "step": 6677,
      "time_per_iteration": 3.2927985191345215
    },
    {
      "auxiliary_loss_clip": 0.01070657,
      "auxiliary_loss_mlp": 0.01020571,
      "balance_loss_clip": 1.03610337,
      "balance_loss_mlp": 1.0153439,
      "epoch": 0.8029820236878494,
      "flos": 26430642789120.0,
      "grad_norm": 1.7694622082039977,
      "language_loss": 0.65651226,
      "learning_rate": 3.9339644379600157e-07,
      "loss": 0.67742455,
      "num_input_tokens_seen": 144105735,
      "step": 6678,
      "time_per_iteration": 3.4027247428894043
    },
    {
      "auxiliary_loss_clip": 0.01080835,
      "auxiliary_loss_mlp": 0.01020406,
      "balance_loss_clip": 1.04038715,
      "balance_loss_mlp": 1.0152024,
      "epoch": 0.8031022665784886,
      "flos": 17678443950720.0,
      "grad_norm": 2.1863792430070275,
      "language_loss": 0.71166813,
      "learning_rate": 3.929326318050907e-07,
      "loss": 0.73268056,
      "num_input_tokens_seen": 144123405,
      "step": 6679,
      "time_per_iteration": 3.29388427734375
    },
    {
      "auxiliary_loss_clip": 0.0109046,
      "auxiliary_loss_mlp": 0.0102135,
      "balance_loss_clip": 1.03519726,
      "balance_loss_mlp": 1.01639652,
      "epoch": 0.8032225094691277,
      "flos": 15452077449600.0,
      "grad_norm": 1.902758474791641,
      "language_loss": 0.79009652,
      "learning_rate": 3.924690636050225e-07,
      "loss": 0.81121457,
      "num_input_tokens_seen": 144140815,
      "step": 6680,
      "time_per_iteration": 2.481099843978882
    },
    {
      "auxiliary_loss_clip": 0.01079839,
      "auxiliary_loss_mlp": 0.01024706,
      "balance_loss_clip": 1.03665006,
      "balance_loss_mlp": 1.01866484,
      "epoch": 0.8033427523597667,
      "flos": 26181716071680.0,
      "grad_norm": 2.3797203510616107,
      "language_loss": 0.72881514,
      "learning_rate": 3.9200573926611915e-07,
      "loss": 0.74986053,
      "num_input_tokens_seen": 144162230,
      "step": 6681,
      "time_per_iteration": 2.600560188293457
    },
    {
      "auxiliary_loss_clip": 0.01075524,
      "auxiliary_loss_mlp": 0.0101921,
      "balance_loss_clip": 1.03746295,
      "balance_loss_mlp": 1.01409566,
      "epoch": 0.8034629952504058,
      "flos": 21327054612480.0,
      "grad_norm": 1.8567120076020942,
      "language_loss": 0.72861969,
      "learning_rate": 3.9154265885866613e-07,
      "loss": 0.74956703,
      "num_input_tokens_seen": 144181540,
      "step": 6682,
      "time_per_iteration": 2.5314974784851074
    },
    {
      "auxiliary_loss_clip": 0.01073998,
      "auxiliary_loss_mlp": 0.01020514,
      "balance_loss_clip": 1.03480232,
      "balance_loss_mlp": 1.01495266,
      "epoch": 0.8035832381410449,
      "flos": 21653657660160.0,
      "grad_norm": 2.922643162508265,
      "language_loss": 0.74768639,
      "learning_rate": 3.9107982245291394e-07,
      "loss": 0.76863146,
      "num_input_tokens_seen": 144199665,
      "step": 6683,
      "time_per_iteration": 3.2409536838531494
    },
    {
      "auxiliary_loss_clip": 0.01049004,
      "auxiliary_loss_mlp": 0.01021639,
      "balance_loss_clip": 1.03197098,
      "balance_loss_mlp": 1.01632786,
      "epoch": 0.803703481031684,
      "flos": 20520733023360.0,
      "grad_norm": 2.6737052907517347,
      "language_loss": 0.77681899,
      "learning_rate": 3.9061723011907245e-07,
      "loss": 0.79752541,
      "num_input_tokens_seen": 144219020,
      "step": 6684,
      "time_per_iteration": 2.6326797008514404
    },
    {
      "auxiliary_loss_clip": 0.01070981,
      "auxiliary_loss_mlp": 0.0101882,
      "balance_loss_clip": 1.03599572,
      "balance_loss_mlp": 1.01353931,
      "epoch": 0.803823723922323,
      "flos": 22856902519680.0,
      "grad_norm": 2.0325441678148497,
      "language_loss": 0.7931422,
      "learning_rate": 3.901548819273179e-07,
      "loss": 0.8140403,
      "num_input_tokens_seen": 144239035,
      "step": 6685,
      "time_per_iteration": 2.610973596572876
    },
    {
      "auxiliary_loss_clip": 0.01081017,
      "auxiliary_loss_mlp": 0.0102192,
      "balance_loss_clip": 1.03736877,
      "balance_loss_mlp": 1.01653492,
      "epoch": 0.8039439668129622,
      "flos": 21364338136320.0,
      "grad_norm": 2.39365295415955,
      "language_loss": 0.69087017,
      "learning_rate": 3.896927779477881e-07,
      "loss": 0.71189958,
      "num_input_tokens_seen": 144258295,
      "step": 6686,
      "time_per_iteration": 2.548417806625366
    },
    {
      "auxiliary_loss_clip": 0.01057905,
      "auxiliary_loss_mlp": 0.01016949,
      "balance_loss_clip": 1.03507423,
      "balance_loss_mlp": 1.0115962,
      "epoch": 0.8040642097036013,
      "flos": 23804471243520.0,
      "grad_norm": 2.270758246877906,
      "language_loss": 0.67081296,
      "learning_rate": 3.892309182505833e-07,
      "loss": 0.69156146,
      "num_input_tokens_seen": 144276110,
      "step": 6687,
      "time_per_iteration": 2.629525899887085
    },
    {
      "auxiliary_loss_clip": 0.01091844,
      "auxiliary_loss_mlp": 0.01019089,
      "balance_loss_clip": 1.03616405,
      "balance_loss_mlp": 1.01404059,
      "epoch": 0.8041844525942403,
      "flos": 25924447376640.0,
      "grad_norm": 2.3550630356879725,
      "language_loss": 0.86412048,
      "learning_rate": 3.887693029057675e-07,
      "loss": 0.88522977,
      "num_input_tokens_seen": 144295620,
      "step": 6688,
      "time_per_iteration": 2.582947015762329
    },
    {
      "auxiliary_loss_clip": 0.01066378,
      "auxiliary_loss_mlp": 0.01022244,
      "balance_loss_clip": 1.03353512,
      "balance_loss_mlp": 1.0171659,
      "epoch": 0.8043046954848795,
      "flos": 25193413278720.0,
      "grad_norm": 1.8262569119455878,
      "language_loss": 0.81399012,
      "learning_rate": 3.8830793198336684e-07,
      "loss": 0.83487642,
      "num_input_tokens_seen": 144315210,
      "step": 6689,
      "time_per_iteration": 2.610196828842163
    },
    {
      "auxiliary_loss_clip": 0.0107815,
      "auxiliary_loss_mlp": 0.01021816,
      "balance_loss_clip": 1.0368799,
      "balance_loss_mlp": 1.01673436,
      "epoch": 0.8044249383755185,
      "flos": 41722400309760.0,
      "grad_norm": 1.81547903675117,
      "language_loss": 0.70497155,
      "learning_rate": 3.878468055533721e-07,
      "loss": 0.72597122,
      "num_input_tokens_seen": 144337750,
      "step": 6690,
      "time_per_iteration": 2.746407985687256
    },
    {
      "auxiliary_loss_clip": 0.01056102,
      "auxiliary_loss_mlp": 0.01023099,
      "balance_loss_clip": 1.03461289,
      "balance_loss_mlp": 1.01724291,
      "epoch": 0.8045451812661576,
      "flos": 20633531546880.0,
      "grad_norm": 3.9403230876322675,
      "language_loss": 0.847395,
      "learning_rate": 3.8738592368573464e-07,
      "loss": 0.86818701,
      "num_input_tokens_seen": 144355305,
      "step": 6691,
      "time_per_iteration": 2.5937347412109375
    },
    {
      "auxiliary_loss_clip": 0.01052923,
      "auxiliary_loss_mlp": 0.01021136,
      "balance_loss_clip": 1.03460765,
      "balance_loss_mlp": 1.01607275,
      "epoch": 0.8046654241567968,
      "flos": 29714153500800.0,
      "grad_norm": 2.0001636555932323,
      "language_loss": 0.88018465,
      "learning_rate": 3.8692528645037137e-07,
      "loss": 0.90092528,
      "num_input_tokens_seen": 144374485,
      "step": 6692,
      "time_per_iteration": 2.6683754920959473
    },
    {
      "auxiliary_loss_clip": 0.0109361,
      "auxiliary_loss_mlp": 0.01023566,
      "balance_loss_clip": 1.03784108,
      "balance_loss_mlp": 1.01837444,
      "epoch": 0.8047856670474358,
      "flos": 17673059583360.0,
      "grad_norm": 2.195613389975228,
      "language_loss": 0.77590674,
      "learning_rate": 3.8646489391715907e-07,
      "loss": 0.79707855,
      "num_input_tokens_seen": 144388780,
      "step": 6693,
      "time_per_iteration": 2.4328954219818115
    },
    {
      "auxiliary_loss_clip": 0.01062642,
      "auxiliary_loss_mlp": 0.01020831,
      "balance_loss_clip": 1.03421497,
      "balance_loss_mlp": 1.01557696,
      "epoch": 0.8049059099380749,
      "flos": 17122148703360.0,
      "grad_norm": 3.19261329946202,
      "language_loss": 0.88261223,
      "learning_rate": 3.8600474615593903e-07,
      "loss": 0.90344703,
      "num_input_tokens_seen": 144403395,
      "step": 6694,
      "time_per_iteration": 2.5155985355377197
    },
    {
      "auxiliary_loss_clip": 0.01017229,
      "auxiliary_loss_mlp": 0.01002823,
      "balance_loss_clip": 1.02137995,
      "balance_loss_mlp": 1.00120211,
      "epoch": 0.805026152828714,
      "flos": 62218666120320.0,
      "grad_norm": 0.7791882501339997,
      "language_loss": 0.59615982,
      "learning_rate": 3.8554484323651605e-07,
      "loss": 0.61636031,
      "num_input_tokens_seen": 144465265,
      "step": 6695,
      "time_per_iteration": 3.222774028778076
    },
    {
      "auxiliary_loss_clip": 0.01080705,
      "auxiliary_loss_mlp": 0.00756528,
      "balance_loss_clip": 1.03738511,
      "balance_loss_mlp": 1.00171375,
      "epoch": 0.8051463957193531,
      "flos": 21690713675520.0,
      "grad_norm": 1.6444183888048087,
      "language_loss": 0.7910167,
      "learning_rate": 3.85085185228657e-07,
      "loss": 0.80938905,
      "num_input_tokens_seen": 144484235,
      "step": 6696,
      "time_per_iteration": 2.5522098541259766
    },
    {
      "auxiliary_loss_clip": 0.01071313,
      "auxiliary_loss_mlp": 0.0102237,
      "balance_loss_clip": 1.0366925,
      "balance_loss_mlp": 1.01721084,
      "epoch": 0.8052666386099921,
      "flos": 32054190641280.0,
      "grad_norm": 1.914064796907257,
      "language_loss": 0.73661667,
      "learning_rate": 3.8462577220209114e-07,
      "loss": 0.75755352,
      "num_input_tokens_seen": 144504610,
      "step": 6697,
      "time_per_iteration": 2.6246414184570312
    },
    {
      "auxiliary_loss_clip": 0.01044648,
      "auxiliary_loss_mlp": 0.01002421,
      "balance_loss_clip": 1.01939702,
      "balance_loss_mlp": 1.0006808,
      "epoch": 0.8053868815006313,
      "flos": 67164995681280.0,
      "grad_norm": 0.7142584340697029,
      "language_loss": 0.58894438,
      "learning_rate": 3.8416660422651127e-07,
      "loss": 0.60941505,
      "num_input_tokens_seen": 144574260,
      "step": 6698,
      "time_per_iteration": 3.1909987926483154
    },
    {
      "auxiliary_loss_clip": 0.01056756,
      "auxiliary_loss_mlp": 0.01021999,
      "balance_loss_clip": 1.03341055,
      "balance_loss_mlp": 1.01625061,
      "epoch": 0.8055071243912704,
      "flos": 23838986747520.0,
      "grad_norm": 5.276863329019003,
      "language_loss": 0.68421328,
      "learning_rate": 3.837076813715723e-07,
      "loss": 0.70500076,
      "num_input_tokens_seen": 144594145,
      "step": 6699,
      "time_per_iteration": 2.6894099712371826
    },
    {
      "auxiliary_loss_clip": 0.01065018,
      "auxiliary_loss_mlp": 0.01018475,
      "balance_loss_clip": 1.03744936,
      "balance_loss_mlp": 1.01298821,
      "epoch": 0.8056273672819094,
      "flos": 21326637513600.0,
      "grad_norm": 2.663085491802182,
      "language_loss": 0.7526378,
      "learning_rate": 3.832490037068941e-07,
      "loss": 0.77347279,
      "num_input_tokens_seen": 144612935,
      "step": 6700,
      "time_per_iteration": 2.5950374603271484
    },
    {
      "auxiliary_loss_clip": 0.01024516,
      "auxiliary_loss_mlp": 0.01019244,
      "balance_loss_clip": 1.02860379,
      "balance_loss_mlp": 1.01412129,
      "epoch": 0.8057476101725486,
      "flos": 25770346012800.0,
      "grad_norm": 2.216647982931168,
      "language_loss": 0.7610265,
      "learning_rate": 3.827905713020554e-07,
      "loss": 0.7814641,
      "num_input_tokens_seen": 144630580,
      "step": 6701,
      "time_per_iteration": 2.8235554695129395
    },
    {
      "auxiliary_loss_clip": 0.01065576,
      "auxiliary_loss_mlp": 0.01023429,
      "balance_loss_clip": 1.03723621,
      "balance_loss_mlp": 1.01776993,
      "epoch": 0.8058678530631876,
      "flos": 24537590835840.0,
      "grad_norm": 1.9492539349813431,
      "language_loss": 0.68442184,
      "learning_rate": 3.823323842266017e-07,
      "loss": 0.70531189,
      "num_input_tokens_seen": 144649975,
      "step": 6702,
      "time_per_iteration": 3.541055679321289
    },
    {
      "auxiliary_loss_clip": 0.01081311,
      "auxiliary_loss_mlp": 0.01018914,
      "balance_loss_clip": 1.03555918,
      "balance_loss_mlp": 1.01362133,
      "epoch": 0.8059880959538267,
      "flos": 24756021365760.0,
      "grad_norm": 2.8178922654059098,
      "language_loss": 0.72866017,
      "learning_rate": 3.818744425500393e-07,
      "loss": 0.7496624,
      "num_input_tokens_seen": 144667990,
      "step": 6703,
      "time_per_iteration": 2.573777437210083
    },
    {
      "auxiliary_loss_clip": 0.01058341,
      "auxiliary_loss_mlp": 0.01024201,
      "balance_loss_clip": 1.03375077,
      "balance_loss_mlp": 1.01858926,
      "epoch": 0.8061083388444659,
      "flos": 22198312056960.0,
      "grad_norm": 5.585614298022282,
      "language_loss": 0.80346274,
      "learning_rate": 3.8141674634183675e-07,
      "loss": 0.82428819,
      "num_input_tokens_seen": 144687020,
      "step": 6704,
      "time_per_iteration": 4.1707093715667725
    },
    {
      "auxiliary_loss_clip": 0.01040496,
      "auxiliary_loss_mlp": 0.01019742,
      "balance_loss_clip": 1.0329293,
      "balance_loss_mlp": 1.01480639,
      "epoch": 0.8062285817351049,
      "flos": 30046785523200.0,
      "grad_norm": 2.0827922926670985,
      "language_loss": 0.66335344,
      "learning_rate": 3.809592956714278e-07,
      "loss": 0.68395579,
      "num_input_tokens_seen": 144710255,
      "step": 6705,
      "time_per_iteration": 2.6867947578430176
    },
    {
      "auxiliary_loss_clip": 0.01085256,
      "auxiliary_loss_mlp": 0.01023643,
      "balance_loss_clip": 1.03936923,
      "balance_loss_mlp": 1.01844263,
      "epoch": 0.806348824625744,
      "flos": 22784724311040.0,
      "grad_norm": 1.9374466253895337,
      "language_loss": 0.74430043,
      "learning_rate": 3.805020906082057e-07,
      "loss": 0.76538944,
      "num_input_tokens_seen": 144728830,
      "step": 6706,
      "time_per_iteration": 2.5600268840789795
    },
    {
      "auxiliary_loss_clip": 0.01068658,
      "auxiliary_loss_mlp": 0.01019668,
      "balance_loss_clip": 1.03572714,
      "balance_loss_mlp": 1.01416934,
      "epoch": 0.8064690675163831,
      "flos": 23406865447680.0,
      "grad_norm": 2.1362320935874717,
      "language_loss": 0.81383705,
      "learning_rate": 3.8004513122152917e-07,
      "loss": 0.83472025,
      "num_input_tokens_seen": 144747140,
      "step": 6707,
      "time_per_iteration": 2.560337543487549
    },
    {
      "auxiliary_loss_clip": 0.01065885,
      "auxiliary_loss_mlp": 0.01024804,
      "balance_loss_clip": 1.03854561,
      "balance_loss_mlp": 1.01974344,
      "epoch": 0.8065893104070222,
      "flos": 24063180825600.0,
      "grad_norm": 2.3433494112320896,
      "language_loss": 0.67492884,
      "learning_rate": 3.79588417580718e-07,
      "loss": 0.69583571,
      "num_input_tokens_seen": 144765250,
      "step": 6708,
      "time_per_iteration": 2.592495918273926
    },
    {
      "auxiliary_loss_clip": 0.01081895,
      "auxiliary_loss_mlp": 0.01018168,
      "balance_loss_clip": 1.03798997,
      "balance_loss_mlp": 1.01302981,
      "epoch": 0.8067095532976613,
      "flos": 22307356690560.0,
      "grad_norm": 2.247383956869046,
      "language_loss": 0.76468694,
      "learning_rate": 3.791319497550558e-07,
      "loss": 0.78568763,
      "num_input_tokens_seen": 144783080,
      "step": 6709,
      "time_per_iteration": 3.2783875465393066
    },
    {
      "auxiliary_loss_clip": 0.01054261,
      "auxiliary_loss_mlp": 0.00756404,
      "balance_loss_clip": 1.03594732,
      "balance_loss_mlp": 1.00167537,
      "epoch": 0.8068297961883004,
      "flos": 17131438632960.0,
      "grad_norm": 2.1996903920741415,
      "language_loss": 0.70900756,
      "learning_rate": 3.78675727813788e-07,
      "loss": 0.7271142,
      "num_input_tokens_seen": 144800645,
      "step": 6710,
      "time_per_iteration": 2.5819849967956543
    },
    {
      "auxiliary_loss_clip": 0.0106578,
      "auxiliary_loss_mlp": 0.01016927,
      "balance_loss_clip": 1.03503013,
      "balance_loss_mlp": 1.01166677,
      "epoch": 0.8069500390789395,
      "flos": 22021070613120.0,
      "grad_norm": 1.7938649543265748,
      "language_loss": 0.73399556,
      "learning_rate": 3.782197518261225e-07,
      "loss": 0.75482261,
      "num_input_tokens_seen": 144820085,
      "step": 6711,
      "time_per_iteration": 2.569091558456421
    },
    {
      "auxiliary_loss_clip": 0.01072573,
      "auxiliary_loss_mlp": 0.01020894,
      "balance_loss_clip": 1.03824413,
      "balance_loss_mlp": 1.01555109,
      "epoch": 0.8070702819695785,
      "flos": 19246219989120.0,
      "grad_norm": 2.410568505642401,
      "language_loss": 0.95746678,
      "learning_rate": 3.777640218612319e-07,
      "loss": 0.97840142,
      "num_input_tokens_seen": 144838070,
      "step": 6712,
      "time_per_iteration": 2.54118275642395
    },
    {
      "auxiliary_loss_clip": 0.01072801,
      "auxiliary_loss_mlp": 0.01021783,
      "balance_loss_clip": 1.03500259,
      "balance_loss_mlp": 1.01642179,
      "epoch": 0.8071905248602176,
      "flos": 21546508930560.0,
      "grad_norm": 2.253358641006841,
      "language_loss": 0.72536886,
      "learning_rate": 3.773085379882488e-07,
      "loss": 0.74631464,
      "num_input_tokens_seen": 144857125,
      "step": 6713,
      "time_per_iteration": 2.510348081588745
    },
    {
      "auxiliary_loss_clip": 0.01082264,
      "auxiliary_loss_mlp": 0.00756631,
      "balance_loss_clip": 1.03626239,
      "balance_loss_mlp": 1.00173867,
      "epoch": 0.8073107677508568,
      "flos": 37271297784960.0,
      "grad_norm": 1.8301699631455561,
      "language_loss": 0.75969326,
      "learning_rate": 3.768533002762715e-07,
      "loss": 0.77808225,
      "num_input_tokens_seen": 144880660,
      "step": 6714,
      "time_per_iteration": 2.664257526397705
    },
    {
      "auxiliary_loss_clip": 0.01069337,
      "auxiliary_loss_mlp": 0.01017681,
      "balance_loss_clip": 1.03398609,
      "balance_loss_mlp": 1.01295686,
      "epoch": 0.8074310106414958,
      "flos": 28368789390720.0,
      "grad_norm": 1.6804604325835824,
      "language_loss": 0.76850963,
      "learning_rate": 3.763983087943572e-07,
      "loss": 0.78937978,
      "num_input_tokens_seen": 144900050,
      "step": 6715,
      "time_per_iteration": 2.6345763206481934
    },
    {
      "auxiliary_loss_clip": 0.01081747,
      "auxiliary_loss_mlp": 0.00756829,
      "balance_loss_clip": 1.03559935,
      "balance_loss_mlp": 1.00182581,
      "epoch": 0.8075512535321349,
      "flos": 24284038112640.0,
      "grad_norm": 1.866863136549614,
      "language_loss": 0.81264639,
      "learning_rate": 3.759435636115282e-07,
      "loss": 0.83103216,
      "num_input_tokens_seen": 144920835,
      "step": 6716,
      "time_per_iteration": 2.5449090003967285
    },
    {
      "auxiliary_loss_clip": 0.01022173,
      "auxiliary_loss_mlp": 0.00756372,
      "balance_loss_clip": 1.03008342,
      "balance_loss_mlp": 1.00168443,
      "epoch": 0.807671496422774,
      "flos": 26033226583680.0,
      "grad_norm": 2.008792592151652,
      "language_loss": 0.73015732,
      "learning_rate": 3.7548906479676967e-07,
      "loss": 0.74794275,
      "num_input_tokens_seen": 144940430,
      "step": 6717,
      "time_per_iteration": 2.7093353271484375
    },
    {
      "auxiliary_loss_clip": 0.01081939,
      "auxiliary_loss_mlp": 0.01017621,
      "balance_loss_clip": 1.03629708,
      "balance_loss_mlp": 1.01237619,
      "epoch": 0.8077917393134131,
      "flos": 23732899724160.0,
      "grad_norm": 2.023681825774788,
      "language_loss": 0.71388471,
      "learning_rate": 3.7503481241902855e-07,
      "loss": 0.73488033,
      "num_input_tokens_seen": 144960405,
      "step": 6718,
      "time_per_iteration": 2.5411086082458496
    },
    {
      "auxiliary_loss_clip": 0.01068522,
      "auxiliary_loss_mlp": 0.00756606,
      "balance_loss_clip": 1.0356102,
      "balance_loss_mlp": 1.00165319,
      "epoch": 0.8079119822040521,
      "flos": 18403790336640.0,
      "grad_norm": 1.9382837397298507,
      "language_loss": 0.80341619,
      "learning_rate": 3.745808065472145e-07,
      "loss": 0.82166749,
      "num_input_tokens_seen": 144977700,
      "step": 6719,
      "time_per_iteration": 2.5414788722991943
    },
    {
      "auxiliary_loss_clip": 0.01077977,
      "auxiliary_loss_mlp": 0.01023054,
      "balance_loss_clip": 1.04147387,
      "balance_loss_mlp": 1.01817513,
      "epoch": 0.8080322250946913,
      "flos": 23623968844800.0,
      "grad_norm": 1.8018031432327248,
      "language_loss": 0.76349777,
      "learning_rate": 3.741270472501994e-07,
      "loss": 0.78450799,
      "num_input_tokens_seen": 144998340,
      "step": 6720,
      "time_per_iteration": 2.546217203140259
    },
    {
      "auxiliary_loss_clip": 0.0106714,
      "auxiliary_loss_mlp": 0.01018388,
      "balance_loss_clip": 1.03545487,
      "balance_loss_mlp": 1.01359904,
      "epoch": 0.8081524679853304,
      "flos": 22822917868800.0,
      "grad_norm": 1.978478487279751,
      "language_loss": 0.73063421,
      "learning_rate": 3.736735345968183e-07,
      "loss": 0.75148952,
      "num_input_tokens_seen": 145017950,
      "step": 6721,
      "time_per_iteration": 2.5867040157318115
    },
    {
      "auxiliary_loss_clip": 0.01081316,
      "auxiliary_loss_mlp": 0.01018907,
      "balance_loss_clip": 1.03696489,
      "balance_loss_mlp": 1.01414752,
      "epoch": 0.8082727108759694,
      "flos": 17641956706560.0,
      "grad_norm": 2.095125874948464,
      "language_loss": 0.78867722,
      "learning_rate": 3.7322026865586986e-07,
      "loss": 0.80967945,
      "num_input_tokens_seen": 145036985,
      "step": 6722,
      "time_per_iteration": 2.5345511436462402
    },
    {
      "auxiliary_loss_clip": 0.0108718,
      "auxiliary_loss_mlp": 0.01019825,
      "balance_loss_clip": 1.04020572,
      "balance_loss_mlp": 1.0146606,
      "epoch": 0.8083929537666086,
      "flos": 25960555440000.0,
      "grad_norm": 2.010254875537374,
      "language_loss": 0.73318648,
      "learning_rate": 3.7276724949611206e-07,
      "loss": 0.75425655,
      "num_input_tokens_seen": 145057095,
      "step": 6723,
      "time_per_iteration": 2.5806145668029785
    },
    {
      "auxiliary_loss_clip": 0.01070099,
      "auxiliary_loss_mlp": 0.01020389,
      "balance_loss_clip": 1.03693974,
      "balance_loss_mlp": 1.01466703,
      "epoch": 0.8085131966572476,
      "flos": 27091622090880.0,
      "grad_norm": 1.8969538937889068,
      "language_loss": 0.75116789,
      "learning_rate": 3.723144771862694e-07,
      "loss": 0.77207279,
      "num_input_tokens_seen": 145077735,
      "step": 6724,
      "time_per_iteration": 2.589765787124634
    },
    {
      "auxiliary_loss_clip": 0.0105643,
      "auxiliary_loss_mlp": 0.01018352,
      "balance_loss_clip": 1.03307366,
      "balance_loss_mlp": 1.01298141,
      "epoch": 0.8086334395478867,
      "flos": 23990850944640.0,
      "grad_norm": 1.7845957965691945,
      "language_loss": 0.76817662,
      "learning_rate": 3.718619517950263e-07,
      "loss": 0.78892446,
      "num_input_tokens_seen": 145098330,
      "step": 6725,
      "time_per_iteration": 2.634706735610962
    },
    {
      "auxiliary_loss_clip": 0.01094702,
      "auxiliary_loss_mlp": 0.01024405,
      "balance_loss_clip": 1.03941751,
      "balance_loss_mlp": 1.01923394,
      "epoch": 0.8087536824385259,
      "flos": 20407593237120.0,
      "grad_norm": 1.9075680372240844,
      "language_loss": 0.76583594,
      "learning_rate": 3.714096733910301e-07,
      "loss": 0.787027,
      "num_input_tokens_seen": 145115855,
      "step": 6726,
      "time_per_iteration": 2.462111711502075
    },
    {
      "auxiliary_loss_clip": 0.01080044,
      "auxiliary_loss_mlp": 0.01019434,
      "balance_loss_clip": 1.03804827,
      "balance_loss_mlp": 1.0140487,
      "epoch": 0.8088739253291649,
      "flos": 25921906865280.0,
      "grad_norm": 2.242856627642134,
      "language_loss": 0.70431614,
      "learning_rate": 3.709576420428926e-07,
      "loss": 0.72531086,
      "num_input_tokens_seen": 145136655,
      "step": 6727,
      "time_per_iteration": 2.56772780418396
    },
    {
      "auxiliary_loss_clip": 0.01071194,
      "auxiliary_loss_mlp": 0.01019634,
      "balance_loss_clip": 1.0351603,
      "balance_loss_mlp": 1.01459706,
      "epoch": 0.808994168219804,
      "flos": 28404556191360.0,
      "grad_norm": 2.11314977574248,
      "language_loss": 0.74024868,
      "learning_rate": 3.7050585781918463e-07,
      "loss": 0.76115692,
      "num_input_tokens_seen": 145156955,
      "step": 6728,
      "time_per_iteration": 3.505707263946533
    },
    {
      "auxiliary_loss_clip": 0.01082911,
      "auxiliary_loss_mlp": 0.01021457,
      "balance_loss_clip": 1.03722274,
      "balance_loss_mlp": 1.01561236,
      "epoch": 0.8091144111104431,
      "flos": 17422995323520.0,
      "grad_norm": 3.497514353432415,
      "language_loss": 0.68772733,
      "learning_rate": 3.700543207884428e-07,
      "loss": 0.70877099,
      "num_input_tokens_seen": 145173865,
      "step": 6729,
      "time_per_iteration": 3.3229928016662598
    },
    {
      "auxiliary_loss_clip": 0.0107993,
      "auxiliary_loss_mlp": 0.01019747,
      "balance_loss_clip": 1.03611422,
      "balance_loss_mlp": 1.01480889,
      "epoch": 0.8092346540010822,
      "flos": 32156144593920.0,
      "grad_norm": 1.7852925720480446,
      "language_loss": 0.70990044,
      "learning_rate": 3.6960303101916466e-07,
      "loss": 0.73089719,
      "num_input_tokens_seen": 145193780,
      "step": 6730,
      "time_per_iteration": 3.358017921447754
    },
    {
      "auxiliary_loss_clip": 0.01045349,
      "auxiliary_loss_mlp": 0.0075222,
      "balance_loss_clip": 1.02004433,
      "balance_loss_mlp": 1.00096929,
      "epoch": 0.8093548968917212,
      "flos": 58041630000000.0,
      "grad_norm": 0.7383912238151364,
      "language_loss": 0.55491388,
      "learning_rate": 3.6915198857981047e-07,
      "loss": 0.57288957,
      "num_input_tokens_seen": 145258980,
      "step": 6731,
      "time_per_iteration": 3.166229724884033
    },
    {
      "auxiliary_loss_clip": 0.01056204,
      "auxiliary_loss_mlp": 0.01019817,
      "balance_loss_clip": 1.037058,
      "balance_loss_mlp": 1.01415467,
      "epoch": 0.8094751397823604,
      "flos": 27384088815360.0,
      "grad_norm": 15.26985034592762,
      "language_loss": 0.68322313,
      "learning_rate": 3.687011935388027e-07,
      "loss": 0.70398331,
      "num_input_tokens_seen": 145281875,
      "step": 6732,
      "time_per_iteration": 2.772268295288086
    },
    {
      "auxiliary_loss_clip": 0.01079765,
      "auxiliary_loss_mlp": 0.01017558,
      "balance_loss_clip": 1.03666842,
      "balance_loss_mlp": 1.01255703,
      "epoch": 0.8095953826729995,
      "flos": 24063370416000.0,
      "grad_norm": 1.7852139449848066,
      "language_loss": 0.72524726,
      "learning_rate": 3.6825064596452646e-07,
      "loss": 0.74622053,
      "num_input_tokens_seen": 145302220,
      "step": 6733,
      "time_per_iteration": 2.540999412536621
    },
    {
      "auxiliary_loss_clip": 0.01080105,
      "auxiliary_loss_mlp": 0.01017836,
      "balance_loss_clip": 1.0357846,
      "balance_loss_mlp": 1.0127902,
      "epoch": 0.8097156255636385,
      "flos": 23953681175040.0,
      "grad_norm": 1.7026723140221096,
      "language_loss": 0.7079103,
      "learning_rate": 3.678003459253305e-07,
      "loss": 0.7288897,
      "num_input_tokens_seen": 145323070,
      "step": 6734,
      "time_per_iteration": 2.572113037109375
    },
    {
      "auxiliary_loss_clip": 0.01050304,
      "auxiliary_loss_mlp": 0.01017193,
      "balance_loss_clip": 1.03036284,
      "balance_loss_mlp": 1.01187611,
      "epoch": 0.8098358684542777,
      "flos": 21801312950400.0,
      "grad_norm": 1.990286903828685,
      "language_loss": 0.74300051,
      "learning_rate": 3.673502934895236e-07,
      "loss": 0.76367545,
      "num_input_tokens_seen": 145342575,
      "step": 6735,
      "time_per_iteration": 3.371788263320923
    },
    {
      "auxiliary_loss_clip": 0.01044284,
      "auxiliary_loss_mlp": 0.01001731,
      "balance_loss_clip": 1.0190841,
      "balance_loss_mlp": 1.00011015,
      "epoch": 0.8099561113449167,
      "flos": 68817273304320.0,
      "grad_norm": 0.6897251334855825,
      "language_loss": 0.5784722,
      "learning_rate": 3.669004887253802e-07,
      "loss": 0.59893239,
      "num_input_tokens_seen": 145408865,
      "step": 6736,
      "time_per_iteration": 3.226719617843628
    },
    {
      "auxiliary_loss_clip": 0.01071923,
      "auxiliary_loss_mlp": 0.01020205,
      "balance_loss_clip": 1.03705347,
      "balance_loss_mlp": 1.01503694,
      "epoch": 0.8100763542355558,
      "flos": 23588277880320.0,
      "grad_norm": 1.721818120626179,
      "language_loss": 0.79043895,
      "learning_rate": 3.664509317011335e-07,
      "loss": 0.81136024,
      "num_input_tokens_seen": 145429200,
      "step": 6737,
      "time_per_iteration": 2.602851152420044
    },
    {
      "auxiliary_loss_clip": 0.01075297,
      "auxiliary_loss_mlp": 0.01022918,
      "balance_loss_clip": 1.03405881,
      "balance_loss_mlp": 1.01739001,
      "epoch": 0.810196597126195,
      "flos": 31653134300160.0,
      "grad_norm": 1.778621379216593,
      "language_loss": 0.73839408,
      "learning_rate": 3.6600162248498134e-07,
      "loss": 0.75937617,
      "num_input_tokens_seen": 145452830,
      "step": 6738,
      "time_per_iteration": 2.5926380157470703
    },
    {
      "auxiliary_loss_clip": 0.01025027,
      "auxiliary_loss_mlp": 0.01018574,
      "balance_loss_clip": 1.02781796,
      "balance_loss_mlp": 1.01373374,
      "epoch": 0.810316840016834,
      "flos": 24902804540160.0,
      "grad_norm": 1.8066344836178403,
      "language_loss": 0.76056206,
      "learning_rate": 3.6555256114508426e-07,
      "loss": 0.78099805,
      "num_input_tokens_seen": 145472625,
      "step": 6739,
      "time_per_iteration": 2.6842124462127686
    },
    {
      "auxiliary_loss_clip": 0.01072449,
      "auxiliary_loss_mlp": 0.01020565,
      "balance_loss_clip": 1.03628004,
      "balance_loss_mlp": 1.01521885,
      "epoch": 0.8104370829074731,
      "flos": 27967505541120.0,
      "grad_norm": 2.601622195592309,
      "language_loss": 0.73108029,
      "learning_rate": 3.651037477495642e-07,
      "loss": 0.75201046,
      "num_input_tokens_seen": 145494075,
      "step": 6740,
      "time_per_iteration": 2.615217447280884
    },
    {
      "auxiliary_loss_clip": 0.01091692,
      "auxiliary_loss_mlp": 0.010177,
      "balance_loss_clip": 1.0363555,
      "balance_loss_mlp": 1.01241624,
      "epoch": 0.8105573257981122,
      "flos": 24642843661440.0,
      "grad_norm": 2.202511258635437,
      "language_loss": 0.68379593,
      "learning_rate": 3.6465518236650584e-07,
      "loss": 0.70488989,
      "num_input_tokens_seen": 145514220,
      "step": 6741,
      "time_per_iteration": 2.523080825805664
    },
    {
      "auxiliary_loss_clip": 0.01056263,
      "auxiliary_loss_mlp": 0.01024417,
      "balance_loss_clip": 1.03374505,
      "balance_loss_mlp": 1.01939583,
      "epoch": 0.8106775686887513,
      "flos": 26361308436480.0,
      "grad_norm": 2.41917267488743,
      "language_loss": 0.78335333,
      "learning_rate": 3.642068650639558e-07,
      "loss": 0.80416012,
      "num_input_tokens_seen": 145533965,
      "step": 6742,
      "time_per_iteration": 2.61918568611145
    },
    {
      "auxiliary_loss_clip": 0.01070547,
      "auxiliary_loss_mlp": 0.0102214,
      "balance_loss_clip": 1.03442526,
      "balance_loss_mlp": 1.01726687,
      "epoch": 0.8107978115793903,
      "flos": 27274361656320.0,
      "grad_norm": 2.1531753428476055,
      "language_loss": 0.64612257,
      "learning_rate": 3.6375879590992334e-07,
      "loss": 0.66704941,
      "num_input_tokens_seen": 145554310,
      "step": 6743,
      "time_per_iteration": 2.5993244647979736
    },
    {
      "auxiliary_loss_clip": 0.01071561,
      "auxiliary_loss_mlp": 0.01020159,
      "balance_loss_clip": 1.03632379,
      "balance_loss_mlp": 1.01479483,
      "epoch": 0.8109180544700295,
      "flos": 24936523764480.0,
      "grad_norm": 4.971980085138547,
      "language_loss": 0.81215012,
      "learning_rate": 3.6331097497238173e-07,
      "loss": 0.8330673,
      "num_input_tokens_seen": 145573755,
      "step": 6744,
      "time_per_iteration": 2.584771156311035
    },
    {
      "auxiliary_loss_clip": 0.01051426,
      "auxiliary_loss_mlp": 0.01015488,
      "balance_loss_clip": 1.03213096,
      "balance_loss_mlp": 1.01045716,
      "epoch": 0.8110382973606686,
      "flos": 21107486540160.0,
      "grad_norm": 2.267503377248522,
      "language_loss": 0.80049205,
      "learning_rate": 3.628634023192627e-07,
      "loss": 0.82116121,
      "num_input_tokens_seen": 145594000,
      "step": 6745,
      "time_per_iteration": 2.6030938625335693
    },
    {
      "auxiliary_loss_clip": 0.01081278,
      "auxiliary_loss_mlp": 0.0101979,
      "balance_loss_clip": 1.03733015,
      "balance_loss_mlp": 1.01408315,
      "epoch": 0.8111585402513076,
      "flos": 15415893550080.0,
      "grad_norm": 2.280012634818961,
      "language_loss": 0.75201529,
      "learning_rate": 3.624160780184644e-07,
      "loss": 0.77302599,
      "num_input_tokens_seen": 145611215,
      "step": 6746,
      "time_per_iteration": 2.4829862117767334
    },
    {
      "auxiliary_loss_clip": 0.0106911,
      "auxiliary_loss_mlp": 0.01020886,
      "balance_loss_clip": 1.03547311,
      "balance_loss_mlp": 1.01556635,
      "epoch": 0.8112787831419467,
      "flos": 24097923838080.0,
      "grad_norm": 2.2076050168582606,
      "language_loss": 0.74269748,
      "learning_rate": 3.6196900213784496e-07,
      "loss": 0.76359743,
      "num_input_tokens_seen": 145630530,
      "step": 6747,
      "time_per_iteration": 2.5847952365875244
    },
    {
      "auxiliary_loss_clip": 0.01078868,
      "auxiliary_loss_mlp": 0.0101948,
      "balance_loss_clip": 1.03512895,
      "balance_loss_mlp": 1.01455402,
      "epoch": 0.8113990260325858,
      "flos": 20485345403520.0,
      "grad_norm": 2.1491017024078665,
      "language_loss": 0.86761379,
      "learning_rate": 3.6152217474522527e-07,
      "loss": 0.88859731,
      "num_input_tokens_seen": 145647345,
      "step": 6748,
      "time_per_iteration": 2.516373872756958
    },
    {
      "auxiliary_loss_clip": 0.01080292,
      "auxiliary_loss_mlp": 0.01022451,
      "balance_loss_clip": 1.03760672,
      "balance_loss_mlp": 1.01755476,
      "epoch": 0.8115192689232249,
      "flos": 24903524983680.0,
      "grad_norm": 1.8420003232619604,
      "language_loss": 0.72840929,
      "learning_rate": 3.6107559590838975e-07,
      "loss": 0.74943674,
      "num_input_tokens_seen": 145666330,
      "step": 6749,
      "time_per_iteration": 2.5694479942321777
    },
    {
      "auxiliary_loss_clip": 0.01029698,
      "auxiliary_loss_mlp": 0.01019475,
      "balance_loss_clip": 1.03285444,
      "balance_loss_mlp": 1.01423883,
      "epoch": 0.811639511813864,
      "flos": 24059275263360.0,
      "grad_norm": 2.4056881442919504,
      "language_loss": 0.6617918,
      "learning_rate": 3.606292656950822e-07,
      "loss": 0.68228352,
      "num_input_tokens_seen": 145684740,
      "step": 6750,
      "time_per_iteration": 2.675410747528076
    },
    {
      "auxiliary_loss_clip": 0.01069372,
      "auxiliary_loss_mlp": 0.01017688,
      "balance_loss_clip": 1.03493834,
      "balance_loss_mlp": 1.01243639,
      "epoch": 0.8117597547045031,
      "flos": 23187373211520.0,
      "grad_norm": 2.4759165755041157,
      "language_loss": 0.86988753,
      "learning_rate": 3.601831841730121e-07,
      "loss": 0.89075816,
      "num_input_tokens_seen": 145702660,
      "step": 6751,
      "time_per_iteration": 2.560872793197632
    },
    {
      "auxiliary_loss_clip": 0.010792,
      "auxiliary_loss_mlp": 0.01018412,
      "balance_loss_clip": 1.03626037,
      "balance_loss_mlp": 1.01330638,
      "epoch": 0.8118799975951422,
      "flos": 23042523859200.0,
      "grad_norm": 1.704242994575796,
      "language_loss": 0.72634333,
      "learning_rate": 3.5973735140984916e-07,
      "loss": 0.74731946,
      "num_input_tokens_seen": 145722830,
      "step": 6752,
      "time_per_iteration": 2.567453384399414
    },
    {
      "auxiliary_loss_clip": 0.01037379,
      "auxiliary_loss_mlp": 0.00756351,
      "balance_loss_clip": 1.03188515,
      "balance_loss_mlp": 1.00173497,
      "epoch": 0.8120002404857812,
      "flos": 24642009463680.0,
      "grad_norm": 2.5856269138140657,
      "language_loss": 0.79554474,
      "learning_rate": 3.5929176747322607e-07,
      "loss": 0.81348205,
      "num_input_tokens_seen": 145741935,
      "step": 6753,
      "time_per_iteration": 2.652916431427002
    },
    {
      "auxiliary_loss_clip": 0.01024961,
      "auxiliary_loss_mlp": 0.0100341,
      "balance_loss_clip": 1.01850522,
      "balance_loss_mlp": 1.00162148,
      "epoch": 0.8121204833764204,
      "flos": 57422294801280.0,
      "grad_norm": 0.8122804625334619,
      "language_loss": 0.56163812,
      "learning_rate": 3.588464324307372e-07,
      "loss": 0.58192182,
      "num_input_tokens_seen": 145805560,
      "step": 6754,
      "time_per_iteration": 3.95550274848938
    },
    {
      "auxiliary_loss_clip": 0.01081729,
      "auxiliary_loss_mlp": 0.01020028,
      "balance_loss_clip": 1.03646564,
      "balance_loss_mlp": 1.01462817,
      "epoch": 0.8122407262670595,
      "flos": 19466660177280.0,
      "grad_norm": 1.966731811590529,
      "language_loss": 0.75347173,
      "learning_rate": 3.584013463499391e-07,
      "loss": 0.77448928,
      "num_input_tokens_seen": 145824180,
      "step": 6755,
      "time_per_iteration": 3.6159799098968506
    },
    {
      "auxiliary_loss_clip": 0.01025456,
      "auxiliary_loss_mlp": 0.01001749,
      "balance_loss_clip": 1.0199666,
      "balance_loss_mlp": 0.99993718,
      "epoch": 0.8123609691576985,
      "flos": 56431527333120.0,
      "grad_norm": 0.7336302838603879,
      "language_loss": 0.64402354,
      "learning_rate": 3.579565092983521e-07,
      "loss": 0.66429567,
      "num_input_tokens_seen": 145885300,
      "step": 6756,
      "time_per_iteration": 3.8447329998016357
    },
    {
      "auxiliary_loss_clip": 0.01093028,
      "auxiliary_loss_mlp": 0.01029882,
      "balance_loss_clip": 1.03767705,
      "balance_loss_mlp": 1.02455091,
      "epoch": 0.8124812120483377,
      "flos": 20634100318080.0,
      "grad_norm": 2.108037469943355,
      "language_loss": 0.83939135,
      "learning_rate": 3.575119213434565e-07,
      "loss": 0.8606205,
      "num_input_tokens_seen": 145903815,
      "step": 6757,
      "time_per_iteration": 2.537222385406494
    },
    {
      "auxiliary_loss_clip": 0.01078798,
      "auxiliary_loss_mlp": 0.01017693,
      "balance_loss_clip": 1.03630161,
      "balance_loss_mlp": 1.0127908,
      "epoch": 0.8126014549389767,
      "flos": 22494608507520.0,
      "grad_norm": 2.393928165801719,
      "language_loss": 0.81695974,
      "learning_rate": 3.5706758255269765e-07,
      "loss": 0.83792466,
      "num_input_tokens_seen": 145922270,
      "step": 6758,
      "time_per_iteration": 2.5609548091888428
    },
    {
      "auxiliary_loss_clip": 0.01068668,
      "auxiliary_loss_mlp": 0.01022127,
      "balance_loss_clip": 1.03535306,
      "balance_loss_mlp": 1.01672351,
      "epoch": 0.8127216978296158,
      "flos": 23289820099200.0,
      "grad_norm": 1.6261941175121448,
      "language_loss": 0.69631547,
      "learning_rate": 3.566234929934795e-07,
      "loss": 0.71722341,
      "num_input_tokens_seen": 145941470,
      "step": 6759,
      "time_per_iteration": 2.5821285247802734
    },
    {
      "auxiliary_loss_clip": 0.01076312,
      "auxiliary_loss_mlp": 0.01021941,
      "balance_loss_clip": 1.03806257,
      "balance_loss_mlp": 1.01680589,
      "epoch": 0.812841940720255,
      "flos": 25157305215360.0,
      "grad_norm": 1.4799944937902925,
      "language_loss": 0.71675742,
      "learning_rate": 3.561796527331706e-07,
      "loss": 0.73773992,
      "num_input_tokens_seen": 145963145,
      "step": 6760,
      "time_per_iteration": 2.611790657043457
    },
    {
      "auxiliary_loss_clip": 0.01057793,
      "auxiliary_loss_mlp": 0.01017004,
      "balance_loss_clip": 1.03494978,
      "balance_loss_mlp": 1.01183915,
      "epoch": 0.812962183610894,
      "flos": 26650703796480.0,
      "grad_norm": 2.0622613454651626,
      "language_loss": 0.77739465,
      "learning_rate": 3.5573606183910163e-07,
      "loss": 0.79814261,
      "num_input_tokens_seen": 145983150,
      "step": 6761,
      "time_per_iteration": 3.389333724975586
    },
    {
      "auxiliary_loss_clip": 0.01083234,
      "auxiliary_loss_mlp": 0.01020088,
      "balance_loss_clip": 1.03617704,
      "balance_loss_mlp": 1.01499212,
      "epoch": 0.8130824265015331,
      "flos": 24968953774080.0,
      "grad_norm": 1.7525688656908207,
      "language_loss": 0.78506041,
      "learning_rate": 3.5529272037856493e-07,
      "loss": 0.80609357,
      "num_input_tokens_seen": 146001365,
      "step": 6762,
      "time_per_iteration": 2.578252077102661
    },
    {
      "auxiliary_loss_clip": 0.00996437,
      "auxiliary_loss_mlp": 0.01004437,
      "balance_loss_clip": 1.01880217,
      "balance_loss_mlp": 1.00263739,
      "epoch": 0.8132026693921722,
      "flos": 67629546990720.0,
      "grad_norm": 0.7082002938672147,
      "language_loss": 0.53806841,
      "learning_rate": 3.548496284188149e-07,
      "loss": 0.55807716,
      "num_input_tokens_seen": 146061570,
      "step": 6763,
      "time_per_iteration": 3.3894877433776855
    },
    {
      "auxiliary_loss_clip": 0.0103624,
      "auxiliary_loss_mlp": 0.01017999,
      "balance_loss_clip": 1.03337193,
      "balance_loss_mlp": 1.01290321,
      "epoch": 0.8133229122828113,
      "flos": 19496890938240.0,
      "grad_norm": 1.7740744215573028,
      "language_loss": 0.79322326,
      "learning_rate": 3.544067860270681e-07,
      "loss": 0.81376565,
      "num_input_tokens_seen": 146079145,
      "step": 6764,
      "time_per_iteration": 2.9129693508148193
    },
    {
      "auxiliary_loss_clip": 0.01050458,
      "auxiliary_loss_mlp": 0.01018323,
      "balance_loss_clip": 1.0319531,
      "balance_loss_mlp": 1.01312232,
      "epoch": 0.8134431551734503,
      "flos": 20670246299520.0,
      "grad_norm": 3.918546071352489,
      "language_loss": 0.71272326,
      "learning_rate": 3.539641932705029e-07,
      "loss": 0.73341101,
      "num_input_tokens_seen": 146097625,
      "step": 6765,
      "time_per_iteration": 2.6063480377197266
    },
    {
      "auxiliary_loss_clip": 0.01094748,
      "auxiliary_loss_mlp": 0.01018686,
      "balance_loss_clip": 1.03820467,
      "balance_loss_mlp": 1.01319063,
      "epoch": 0.8135633980640895,
      "flos": 21509490833280.0,
      "grad_norm": 2.3602927372955445,
      "language_loss": 0.77202922,
      "learning_rate": 3.53521850216262e-07,
      "loss": 0.79316354,
      "num_input_tokens_seen": 146117195,
      "step": 6766,
      "time_per_iteration": 2.5459961891174316
    },
    {
      "auxiliary_loss_clip": 0.01094994,
      "auxiliary_loss_mlp": 0.01022308,
      "balance_loss_clip": 1.03917122,
      "balance_loss_mlp": 1.01675558,
      "epoch": 0.8136836409547286,
      "flos": 20556310233600.0,
      "grad_norm": 1.927466399702415,
      "language_loss": 0.76898324,
      "learning_rate": 3.530797569314461e-07,
      "loss": 0.79015625,
      "num_input_tokens_seen": 146136220,
      "step": 6767,
      "time_per_iteration": 2.515324831008911
    },
    {
      "auxiliary_loss_clip": 0.01093999,
      "auxiliary_loss_mlp": 0.01015345,
      "balance_loss_clip": 1.03902221,
      "balance_loss_mlp": 1.01003993,
      "epoch": 0.8138038838453676,
      "flos": 20300899524480.0,
      "grad_norm": 2.059077460791887,
      "language_loss": 0.77925837,
      "learning_rate": 3.5263791348312235e-07,
      "loss": 0.80035186,
      "num_input_tokens_seen": 146155415,
      "step": 6768,
      "time_per_iteration": 2.5230932235717773
    },
    {
      "auxiliary_loss_clip": 0.01061757,
      "auxiliary_loss_mlp": 0.01017542,
      "balance_loss_clip": 1.03293407,
      "balance_loss_mlp": 1.01222241,
      "epoch": 0.8139241267360068,
      "flos": 29792474438400.0,
      "grad_norm": 2.1325634724983606,
      "language_loss": 0.70830202,
      "learning_rate": 3.521963199383171e-07,
      "loss": 0.7290951,
      "num_input_tokens_seen": 146178370,
      "step": 6769,
      "time_per_iteration": 2.6278843879699707
    },
    {
      "auxiliary_loss_clip": 0.01045367,
      "auxiliary_loss_mlp": 0.0101892,
      "balance_loss_clip": 1.03399098,
      "balance_loss_mlp": 1.0131948,
      "epoch": 0.8140443696266458,
      "flos": 19714980205440.0,
      "grad_norm": 2.386444566584577,
      "language_loss": 0.76554263,
      "learning_rate": 3.517549763640197e-07,
      "loss": 0.7861855,
      "num_input_tokens_seen": 146196010,
      "step": 6770,
      "time_per_iteration": 2.907947301864624
    },
    {
      "auxiliary_loss_clip": 0.01079988,
      "auxiliary_loss_mlp": 0.00756654,
      "balance_loss_clip": 1.03845215,
      "balance_loss_mlp": 1.00168717,
      "epoch": 0.8141646125172849,
      "flos": 27162928183680.0,
      "grad_norm": 1.9750383153464908,
      "language_loss": 0.71524835,
      "learning_rate": 3.513138828271829e-07,
      "loss": 0.7336148,
      "num_input_tokens_seen": 146215880,
      "step": 6771,
      "time_per_iteration": 2.6380295753479004
    },
    {
      "auxiliary_loss_clip": 0.01050863,
      "auxiliary_loss_mlp": 0.0102285,
      "balance_loss_clip": 1.03585434,
      "balance_loss_mlp": 1.01753891,
      "epoch": 0.8142848554079241,
      "flos": 39676043272320.0,
      "grad_norm": 1.7601107716897413,
      "language_loss": 0.69901359,
      "learning_rate": 3.508730393947179e-07,
      "loss": 0.71975082,
      "num_input_tokens_seen": 146239135,
      "step": 6772,
      "time_per_iteration": 2.794200897216797
    },
    {
      "auxiliary_loss_clip": 0.01057321,
      "auxiliary_loss_mlp": 0.01020602,
      "balance_loss_clip": 1.03547382,
      "balance_loss_mlp": 1.0151391,
      "epoch": 0.8144050982985631,
      "flos": 22239501143040.0,
      "grad_norm": 2.013153443931948,
      "language_loss": 0.71576774,
      "learning_rate": 3.504324461335024e-07,
      "loss": 0.73654693,
      "num_input_tokens_seen": 146259245,
      "step": 6773,
      "time_per_iteration": 2.6322288513183594
    },
    {
      "auxiliary_loss_clip": 0.01045407,
      "auxiliary_loss_mlp": 0.01024511,
      "balance_loss_clip": 1.03567123,
      "balance_loss_mlp": 1.01872885,
      "epoch": 0.8145253411892022,
      "flos": 23040400446720.0,
      "grad_norm": 1.6190207245593846,
      "language_loss": 0.88438952,
      "learning_rate": 3.499921031103732e-07,
      "loss": 0.90508872,
      "num_input_tokens_seen": 146280015,
      "step": 6774,
      "time_per_iteration": 2.6874349117279053
    },
    {
      "auxiliary_loss_clip": 0.01058971,
      "auxiliary_loss_mlp": 0.01018825,
      "balance_loss_clip": 1.03579092,
      "balance_loss_mlp": 1.01355314,
      "epoch": 0.8146455840798413,
      "flos": 24830019642240.0,
      "grad_norm": 1.7451150241339286,
      "language_loss": 0.78313816,
      "learning_rate": 3.4955201039212987e-07,
      "loss": 0.8039161,
      "num_input_tokens_seen": 146300935,
      "step": 6775,
      "time_per_iteration": 2.6338417530059814
    },
    {
      "auxiliary_loss_clip": 0.01078291,
      "auxiliary_loss_mlp": 0.01020113,
      "balance_loss_clip": 1.03753424,
      "balance_loss_mlp": 1.01515961,
      "epoch": 0.8147658269704804,
      "flos": 19976571561600.0,
      "grad_norm": 6.165766455651934,
      "language_loss": 0.653566,
      "learning_rate": 3.4911216804553465e-07,
      "loss": 0.67455006,
      "num_input_tokens_seen": 146319835,
      "step": 6776,
      "time_per_iteration": 2.565640449523926
    },
    {
      "auxiliary_loss_clip": 0.01071209,
      "auxiliary_loss_mlp": 0.01022477,
      "balance_loss_clip": 1.03680444,
      "balance_loss_mlp": 1.01666284,
      "epoch": 0.8148860698611194,
      "flos": 21180119765760.0,
      "grad_norm": 2.084541920533863,
      "language_loss": 0.7035054,
      "learning_rate": 3.4867257613731017e-07,
      "loss": 0.7244423,
      "num_input_tokens_seen": 146339030,
      "step": 6777,
      "time_per_iteration": 2.5631215572357178
    },
    {
      "auxiliary_loss_clip": 0.01068767,
      "auxiliary_loss_mlp": 0.01023672,
      "balance_loss_clip": 1.03541827,
      "balance_loss_mlp": 1.01861191,
      "epoch": 0.8150063127517585,
      "flos": 19608779427840.0,
      "grad_norm": 1.7635370168717162,
      "language_loss": 0.85412192,
      "learning_rate": 3.4823323473414343e-07,
      "loss": 0.87504631,
      "num_input_tokens_seen": 146358550,
      "step": 6778,
      "time_per_iteration": 2.558224678039551
    },
    {
      "auxiliary_loss_clip": 0.0105028,
      "auxiliary_loss_mlp": 0.01022306,
      "balance_loss_clip": 1.03441298,
      "balance_loss_mlp": 1.0163722,
      "epoch": 0.8151265556423977,
      "flos": 22640595402240.0,
      "grad_norm": 2.075228871393394,
      "language_loss": 0.75995231,
      "learning_rate": 3.477941439026812e-07,
      "loss": 0.78067815,
      "num_input_tokens_seen": 146376770,
      "step": 6779,
      "time_per_iteration": 2.6095540523529053
    },
    {
      "auxiliary_loss_clip": 0.01065363,
      "auxiliary_loss_mlp": 0.01018682,
      "balance_loss_clip": 1.03786647,
      "balance_loss_mlp": 1.01360404,
      "epoch": 0.8152467985330367,
      "flos": 17970000641280.0,
      "grad_norm": 1.9756054008451123,
      "language_loss": 0.73171592,
      "learning_rate": 3.473553037095349e-07,
      "loss": 0.75255632,
      "num_input_tokens_seen": 146395795,
      "step": 6780,
      "time_per_iteration": 4.0117106437683105
    },
    {
      "auxiliary_loss_clip": 0.0107218,
      "auxiliary_loss_mlp": 0.01017789,
      "balance_loss_clip": 1.03713393,
      "balance_loss_mlp": 1.01277065,
      "epoch": 0.8153670414236758,
      "flos": 24971115104640.0,
      "grad_norm": 2.0870363011174127,
      "language_loss": 0.8327474,
      "learning_rate": 3.469167142212743e-07,
      "loss": 0.85364705,
      "num_input_tokens_seen": 146417640,
      "step": 6781,
      "time_per_iteration": 2.592466354370117
    },
    {
      "auxiliary_loss_clip": 0.01078422,
      "auxiliary_loss_mlp": 0.01018805,
      "balance_loss_clip": 1.03584051,
      "balance_loss_mlp": 1.01305938,
      "epoch": 0.8154872843143149,
      "flos": 31068731704320.0,
      "grad_norm": 3.19252266913992,
      "language_loss": 0.63183439,
      "learning_rate": 3.4647837550443337e-07,
      "loss": 0.65280676,
      "num_input_tokens_seen": 146436205,
      "step": 6782,
      "time_per_iteration": 3.367954730987549
    },
    {
      "auxiliary_loss_clip": 0.01054776,
      "auxiliary_loss_mlp": 0.01021792,
      "balance_loss_clip": 1.03382814,
      "balance_loss_mlp": 1.01655602,
      "epoch": 0.815607527204954,
      "flos": 19393723607040.0,
      "grad_norm": 1.7716460298416026,
      "language_loss": 0.74910033,
      "learning_rate": 3.460402876255086e-07,
      "loss": 0.76986599,
      "num_input_tokens_seen": 146453595,
      "step": 6783,
      "time_per_iteration": 2.573995590209961
    },
    {
      "auxiliary_loss_clip": 0.0108155,
      "auxiliary_loss_mlp": 0.01018603,
      "balance_loss_clip": 1.03634942,
      "balance_loss_mlp": 1.01327097,
      "epoch": 0.815727770095593,
      "flos": 26142802070400.0,
      "grad_norm": 2.1959563380185516,
      "language_loss": 0.71175319,
      "learning_rate": 3.456024506509574e-07,
      "loss": 0.73275471,
      "num_input_tokens_seen": 146474515,
      "step": 6784,
      "time_per_iteration": 2.59713077545166
    },
    {
      "auxiliary_loss_clip": 0.01080437,
      "auxiliary_loss_mlp": 0.00756752,
      "balance_loss_clip": 1.03783774,
      "balance_loss_mlp": 1.00156283,
      "epoch": 0.8158480129862322,
      "flos": 25339855190400.0,
      "grad_norm": 1.6171554937090908,
      "language_loss": 0.7420013,
      "learning_rate": 3.4516486464719873e-07,
      "loss": 0.76037318,
      "num_input_tokens_seen": 146493905,
      "step": 6785,
      "time_per_iteration": 2.5722219944000244
    },
    {
      "auxiliary_loss_clip": 0.01039628,
      "auxiliary_loss_mlp": 0.01021378,
      "balance_loss_clip": 1.02965379,
      "balance_loss_mlp": 1.0160495,
      "epoch": 0.8159682558768713,
      "flos": 34426544037120.0,
      "grad_norm": 1.783141540776023,
      "language_loss": 0.61717296,
      "learning_rate": 3.4472752968061445e-07,
      "loss": 0.63778305,
      "num_input_tokens_seen": 146518335,
      "step": 6786,
      "time_per_iteration": 2.7550554275512695
    },
    {
      "auxiliary_loss_clip": 0.01079392,
      "auxiliary_loss_mlp": 0.01021052,
      "balance_loss_clip": 1.0347712,
      "balance_loss_mlp": 1.01601839,
      "epoch": 0.8160884987675103,
      "flos": 18654764630400.0,
      "grad_norm": 2.2106917222556084,
      "language_loss": 0.73822659,
      "learning_rate": 3.442904458175475e-07,
      "loss": 0.75923103,
      "num_input_tokens_seen": 146535655,
      "step": 6787,
      "time_per_iteration": 3.2276599407196045
    },
    {
      "auxiliary_loss_clip": 0.01082964,
      "auxiliary_loss_mlp": 0.01018776,
      "balance_loss_clip": 1.03657627,
      "balance_loss_mlp": 1.0137279,
      "epoch": 0.8162087416581495,
      "flos": 31433187047040.0,
      "grad_norm": 1.5172133602339424,
      "language_loss": 0.7591778,
      "learning_rate": 3.438536131243044e-07,
      "loss": 0.78019518,
      "num_input_tokens_seen": 146556815,
      "step": 6788,
      "time_per_iteration": 2.6395163536071777
    },
    {
      "auxiliary_loss_clip": 0.01068486,
      "auxiliary_loss_mlp": 0.01019653,
      "balance_loss_clip": 1.03523839,
      "balance_loss_mlp": 1.01415205,
      "epoch": 0.8163289845487885,
      "flos": 37596763290240.0,
      "grad_norm": 2.4449090593032694,
      "language_loss": 0.61544353,
      "learning_rate": 3.434170316671503e-07,
      "loss": 0.63632488,
      "num_input_tokens_seen": 146581845,
      "step": 6789,
      "time_per_iteration": 2.7204315662384033
    },
    {
      "auxiliary_loss_clip": 0.01046958,
      "auxiliary_loss_mlp": 0.01020138,
      "balance_loss_clip": 1.03136802,
      "balance_loss_mlp": 1.0149194,
      "epoch": 0.8164492274394276,
      "flos": 13955683340160.0,
      "grad_norm": 3.622058408159988,
      "language_loss": 0.89993107,
      "learning_rate": 3.4298070151231583e-07,
      "loss": 0.92060208,
      "num_input_tokens_seen": 146597245,
      "step": 6790,
      "time_per_iteration": 2.536808729171753
    },
    {
      "auxiliary_loss_clip": 0.01068207,
      "auxiliary_loss_mlp": 0.01018874,
      "balance_loss_clip": 1.03474927,
      "balance_loss_mlp": 1.01372433,
      "epoch": 0.8165694703300668,
      "flos": 28989110459520.0,
      "grad_norm": 1.9064613063702953,
      "language_loss": 0.59657156,
      "learning_rate": 3.425446227259916e-07,
      "loss": 0.61744243,
      "num_input_tokens_seen": 146618210,
      "step": 6791,
      "time_per_iteration": 2.6185641288757324
    },
    {
      "auxiliary_loss_clip": 0.01068049,
      "auxiliary_loss_mlp": 0.01017765,
      "balance_loss_clip": 1.03504169,
      "balance_loss_mlp": 1.01294017,
      "epoch": 0.8166897132207058,
      "flos": 25120666298880.0,
      "grad_norm": 2.529755962108476,
      "language_loss": 0.82144928,
      "learning_rate": 3.421087953743296e-07,
      "loss": 0.84230745,
      "num_input_tokens_seen": 146637975,
      "step": 6792,
      "time_per_iteration": 2.5713090896606445
    },
    {
      "auxiliary_loss_clip": 0.01082423,
      "auxiliary_loss_mlp": 0.0101829,
      "balance_loss_clip": 1.0364356,
      "balance_loss_mlp": 1.01289272,
      "epoch": 0.8168099561113449,
      "flos": 23150810131200.0,
      "grad_norm": 3.7128864537946926,
      "language_loss": 0.79967737,
      "learning_rate": 3.416732195234464e-07,
      "loss": 0.82068455,
      "num_input_tokens_seen": 146658030,
      "step": 6793,
      "time_per_iteration": 2.5389750003814697
    },
    {
      "auxiliary_loss_clip": 0.01082891,
      "auxiliary_loss_mlp": 0.01016673,
      "balance_loss_clip": 1.03670728,
      "balance_loss_mlp": 1.01187181,
      "epoch": 0.816930199001984,
      "flos": 18409743475200.0,
      "grad_norm": 1.5360231566288491,
      "language_loss": 0.79421484,
      "learning_rate": 3.4123789523941613e-07,
      "loss": 0.81521058,
      "num_input_tokens_seen": 146677855,
      "step": 6794,
      "time_per_iteration": 2.518766403198242
    },
    {
      "auxiliary_loss_clip": 0.01081677,
      "auxiliary_loss_mlp": 0.01016632,
      "balance_loss_clip": 1.03575385,
      "balance_loss_mlp": 1.01124334,
      "epoch": 0.8170504418926231,
      "flos": 21253435516800.0,
      "grad_norm": 1.703309010822645,
      "language_loss": 0.63534486,
      "learning_rate": 3.4080282258827884e-07,
      "loss": 0.65632796,
      "num_input_tokens_seen": 146696230,
      "step": 6795,
      "time_per_iteration": 2.524108648300171
    },
    {
      "auxiliary_loss_clip": 0.01082819,
      "auxiliary_loss_mlp": 0.0102137,
      "balance_loss_clip": 1.03692174,
      "balance_loss_mlp": 1.01604438,
      "epoch": 0.8171706847832622,
      "flos": 19101256882560.0,
      "grad_norm": 2.3888382454283126,
      "language_loss": 0.72093636,
      "learning_rate": 3.403680016360342e-07,
      "loss": 0.74197829,
      "num_input_tokens_seen": 146714835,
      "step": 6796,
      "time_per_iteration": 2.504382848739624
    },
    {
      "auxiliary_loss_clip": 0.01084619,
      "auxiliary_loss_mlp": 0.01024077,
      "balance_loss_clip": 1.03890872,
      "balance_loss_mlp": 1.0181706,
      "epoch": 0.8172909276739013,
      "flos": 21472245227520.0,
      "grad_norm": 1.4746297675343283,
      "language_loss": 0.67983997,
      "learning_rate": 3.3993343244864403e-07,
      "loss": 0.70092696,
      "num_input_tokens_seen": 146734425,
      "step": 6797,
      "time_per_iteration": 2.5458147525787354
    },
    {
      "auxiliary_loss_clip": 0.01079994,
      "auxiliary_loss_mlp": 0.01018711,
      "balance_loss_clip": 1.03705764,
      "balance_loss_mlp": 1.013677,
      "epoch": 0.8174111705645404,
      "flos": 27602253918720.0,
      "grad_norm": 4.053209829588917,
      "language_loss": 0.72955567,
      "learning_rate": 3.394991150920323e-07,
      "loss": 0.7505427,
      "num_input_tokens_seen": 146757545,
      "step": 6798,
      "time_per_iteration": 2.5728681087493896
    },
    {
      "auxiliary_loss_clip": 0.01048373,
      "auxiliary_loss_mlp": 0.0075721,
      "balance_loss_clip": 1.03475904,
      "balance_loss_mlp": 1.00168371,
      "epoch": 0.8175314134551794,
      "flos": 14066358451200.0,
      "grad_norm": 2.0661644406598962,
      "language_loss": 0.74533892,
      "learning_rate": 3.3906504963208396e-07,
      "loss": 0.76339471,
      "num_input_tokens_seen": 146774240,
      "step": 6799,
      "time_per_iteration": 2.5953242778778076
    },
    {
      "auxiliary_loss_clip": 0.01032954,
      "auxiliary_loss_mlp": 0.01016384,
      "balance_loss_clip": 1.02839494,
      "balance_loss_mlp": 1.01107895,
      "epoch": 0.8176516563458186,
      "flos": 22710119345280.0,
      "grad_norm": 1.87331454408888,
      "language_loss": 0.66560495,
      "learning_rate": 3.3863123613464774e-07,
      "loss": 0.68609834,
      "num_input_tokens_seen": 146793140,
      "step": 6800,
      "time_per_iteration": 2.616168975830078
    },
    {
      "auxiliary_loss_clip": 0.01070675,
      "auxiliary_loss_mlp": 0.01022465,
      "balance_loss_clip": 1.03385985,
      "balance_loss_mlp": 1.01747286,
      "epoch": 0.8177718992364577,
      "flos": 21947603189760.0,
      "grad_norm": 2.244769422775667,
      "language_loss": 0.75161493,
      "learning_rate": 3.381976746655317e-07,
      "loss": 0.77254641,
      "num_input_tokens_seen": 146812895,
      "step": 6801,
      "time_per_iteration": 2.5718886852264404
    },
    {
      "auxiliary_loss_clip": 0.01027584,
      "auxiliary_loss_mlp": 0.01022357,
      "balance_loss_clip": 1.02775097,
      "balance_loss_mlp": 1.01702583,
      "epoch": 0.8178921421270967,
      "flos": 22019591808000.0,
      "grad_norm": 2.8551910325156187,
      "language_loss": 0.67661065,
      "learning_rate": 3.3776436529050756e-07,
      "loss": 0.69711006,
      "num_input_tokens_seen": 146832445,
      "step": 6802,
      "time_per_iteration": 2.6255240440368652
    },
    {
      "auxiliary_loss_clip": 0.01090826,
      "auxiliary_loss_mlp": 0.01019739,
      "balance_loss_clip": 1.03602982,
      "balance_loss_mlp": 1.01424611,
      "epoch": 0.8180123850177359,
      "flos": 33185939817600.0,
      "grad_norm": 1.6934260034790243,
      "language_loss": 0.72626197,
      "learning_rate": 3.373313080753073e-07,
      "loss": 0.74736756,
      "num_input_tokens_seen": 146856505,
      "step": 6803,
      "time_per_iteration": 2.6261487007141113
    },
    {
      "auxiliary_loss_clip": 0.01082527,
      "auxiliary_loss_mlp": 0.01020665,
      "balance_loss_clip": 1.03636742,
      "balance_loss_mlp": 1.0153966,
      "epoch": 0.8181326279083749,
      "flos": 22093362576000.0,
      "grad_norm": 2.197894807295839,
      "language_loss": 0.77498341,
      "learning_rate": 3.3689850308562527e-07,
      "loss": 0.79601526,
      "num_input_tokens_seen": 146876950,
      "step": 6804,
      "time_per_iteration": 2.559760093688965
    },
    {
      "auxiliary_loss_clip": 0.01039928,
      "auxiliary_loss_mlp": 0.01021485,
      "balance_loss_clip": 1.03522372,
      "balance_loss_mlp": 1.01637959,
      "epoch": 0.818252870799014,
      "flos": 15707563994880.0,
      "grad_norm": 1.846866679326178,
      "language_loss": 0.77444625,
      "learning_rate": 3.364659503871183e-07,
      "loss": 0.7950604,
      "num_input_tokens_seen": 146894885,
      "step": 6805,
      "time_per_iteration": 2.6225266456604004
    },
    {
      "auxiliary_loss_clip": 0.01057178,
      "auxiliary_loss_mlp": 0.01018017,
      "balance_loss_clip": 1.03281975,
      "balance_loss_mlp": 1.01336527,
      "epoch": 0.8183731136896532,
      "flos": 18772682094720.0,
      "grad_norm": 3.867816067314629,
      "language_loss": 0.83890116,
      "learning_rate": 3.3603365004540417e-07,
      "loss": 0.85965312,
      "num_input_tokens_seen": 146913180,
      "step": 6806,
      "time_per_iteration": 3.469087839126587
    },
    {
      "auxiliary_loss_clip": 0.01095315,
      "auxiliary_loss_mlp": 0.01022411,
      "balance_loss_clip": 1.04057741,
      "balance_loss_mlp": 1.01702547,
      "epoch": 0.8184933565802922,
      "flos": 26544199674240.0,
      "grad_norm": 2.0434788399418156,
      "language_loss": 0.77350187,
      "learning_rate": 3.356016021260624e-07,
      "loss": 0.79467916,
      "num_input_tokens_seen": 146933510,
      "step": 6807,
      "time_per_iteration": 3.335577964782715
    },
    {
      "auxiliary_loss_clip": 0.01081437,
      "auxiliary_loss_mlp": 0.01019237,
      "balance_loss_clip": 1.03701138,
      "balance_loss_mlp": 1.013852,
      "epoch": 0.8186135994709313,
      "flos": 17532039957120.0,
      "grad_norm": 2.8529388228685404,
      "language_loss": 0.65817523,
      "learning_rate": 3.35169806694634e-07,
      "loss": 0.67918199,
      "num_input_tokens_seen": 146951760,
      "step": 6808,
      "time_per_iteration": 2.530601978302002
    },
    {
      "auxiliary_loss_clip": 0.01016595,
      "auxiliary_loss_mlp": 0.01002195,
      "balance_loss_clip": 1.02616942,
      "balance_loss_mlp": 1.00054955,
      "epoch": 0.8187338423615703,
      "flos": 63487633063680.0,
      "grad_norm": 0.7111980493608391,
      "language_loss": 0.60589421,
      "learning_rate": 3.3473826381662186e-07,
      "loss": 0.62608206,
      "num_input_tokens_seen": 147022900,
      "step": 6809,
      "time_per_iteration": 3.297433614730835
    },
    {
      "auxiliary_loss_clip": 0.01073446,
      "auxiliary_loss_mlp": 0.01019263,
      "balance_loss_clip": 1.0355432,
      "balance_loss_mlp": 1.01418138,
      "epoch": 0.8188540852522095,
      "flos": 17531888284800.0,
      "grad_norm": 1.880439498787822,
      "language_loss": 0.82064158,
      "learning_rate": 3.3430697355749216e-07,
      "loss": 0.84156871,
      "num_input_tokens_seen": 147040590,
      "step": 6810,
      "time_per_iteration": 2.5175747871398926
    },
    {
      "auxiliary_loss_clip": 0.01046167,
      "auxiliary_loss_mlp": 0.01018288,
      "balance_loss_clip": 1.03458309,
      "balance_loss_mlp": 1.01241088,
      "epoch": 0.8189743281428485,
      "flos": 14394288631680.0,
      "grad_norm": 2.617961085532246,
      "language_loss": 0.75358331,
      "learning_rate": 3.3387593598266907e-07,
      "loss": 0.77422786,
      "num_input_tokens_seen": 147057200,
      "step": 6811,
      "time_per_iteration": 2.570734739303589
    },
    {
      "auxiliary_loss_clip": 0.01061698,
      "auxiliary_loss_mlp": 0.01018844,
      "balance_loss_clip": 1.03657269,
      "balance_loss_mlp": 1.0137955,
      "epoch": 0.8190945710334876,
      "flos": 25082700249600.0,
      "grad_norm": 1.9444976209993556,
      "language_loss": 0.78301215,
      "learning_rate": 3.3344515115754225e-07,
      "loss": 0.80381757,
      "num_input_tokens_seen": 147076180,
      "step": 6812,
      "time_per_iteration": 2.618136405944824
    },
    {
      "auxiliary_loss_clip": 0.01055197,
      "auxiliary_loss_mlp": 0.01016836,
      "balance_loss_clip": 1.03510201,
      "balance_loss_mlp": 1.01169837,
      "epoch": 0.8192148139241268,
      "flos": 21509301242880.0,
      "grad_norm": 2.527891925523833,
      "language_loss": 0.80167472,
      "learning_rate": 3.33014619147461e-07,
      "loss": 0.82239509,
      "num_input_tokens_seen": 147094205,
      "step": 6813,
      "time_per_iteration": 3.379044771194458
    },
    {
      "auxiliary_loss_clip": 0.01067466,
      "auxiliary_loss_mlp": 0.01021434,
      "balance_loss_clip": 1.03609681,
      "balance_loss_mlp": 1.01613867,
      "epoch": 0.8193350568147658,
      "flos": 23954477454720.0,
      "grad_norm": 1.9746165743150355,
      "language_loss": 0.71796775,
      "learning_rate": 3.325843400177362e-07,
      "loss": 0.73885679,
      "num_input_tokens_seen": 147115545,
      "step": 6814,
      "time_per_iteration": 2.569272994995117
    },
    {
      "auxiliary_loss_clip": 0.01085312,
      "auxiliary_loss_mlp": 0.00756775,
      "balance_loss_clip": 1.0385648,
      "balance_loss_mlp": 1.0017159,
      "epoch": 0.8194552997054049,
      "flos": 20561618764800.0,
      "grad_norm": 1.9479194108346634,
      "language_loss": 0.73632109,
      "learning_rate": 3.32154313833642e-07,
      "loss": 0.75474203,
      "num_input_tokens_seen": 147135700,
      "step": 6815,
      "time_per_iteration": 2.543138265609741
    },
    {
      "auxiliary_loss_clip": 0.01092848,
      "auxiliary_loss_mlp": 0.01018959,
      "balance_loss_clip": 1.03711641,
      "balance_loss_mlp": 1.01363969,
      "epoch": 0.819575542596044,
      "flos": 26034174535680.0,
      "grad_norm": 2.510354697468548,
      "language_loss": 0.59801006,
      "learning_rate": 3.3172454066041164e-07,
      "loss": 0.61912811,
      "num_input_tokens_seen": 147155205,
      "step": 6816,
      "time_per_iteration": 2.5234251022338867
    },
    {
      "auxiliary_loss_clip": 0.01025902,
      "auxiliary_loss_mlp": 0.00756682,
      "balance_loss_clip": 1.0336566,
      "balance_loss_mlp": 1.00168252,
      "epoch": 0.8196957854866831,
      "flos": 29099558062080.0,
      "grad_norm": 1.831020776197292,
      "language_loss": 0.76401758,
      "learning_rate": 3.3129502056324234e-07,
      "loss": 0.78184342,
      "num_input_tokens_seen": 147176570,
      "step": 6817,
      "time_per_iteration": 2.747791290283203
    },
    {
      "auxiliary_loss_clip": 0.00987254,
      "auxiliary_loss_mlp": 0.01002904,
      "balance_loss_clip": 1.0199666,
      "balance_loss_mlp": 1.00102091,
      "epoch": 0.8198160283773221,
      "flos": 69039657365760.0,
      "grad_norm": 0.7923514211731733,
      "language_loss": 0.59741282,
      "learning_rate": 3.3086575360729165e-07,
      "loss": 0.6173144,
      "num_input_tokens_seen": 147234105,
      "step": 6818,
      "time_per_iteration": 3.3366174697875977
    },
    {
      "auxiliary_loss_clip": 0.01063594,
      "auxiliary_loss_mlp": 0.01019658,
      "balance_loss_clip": 1.0323894,
      "balance_loss_mlp": 1.01432633,
      "epoch": 0.8199362712679613,
      "flos": 16619934689280.0,
      "grad_norm": 2.7953863586360654,
      "language_loss": 0.71918064,
      "learning_rate": 3.3043673985767906e-07,
      "loss": 0.74001312,
      "num_input_tokens_seen": 147253170,
      "step": 6819,
      "time_per_iteration": 2.7651917934417725
    },
    {
      "auxiliary_loss_clip": 0.01058702,
      "auxiliary_loss_mlp": 0.01021164,
      "balance_loss_clip": 1.0340662,
      "balance_loss_mlp": 1.01582909,
      "epoch": 0.8200565141586004,
      "flos": 21759555093120.0,
      "grad_norm": 3.7966086342865726,
      "language_loss": 0.77579039,
      "learning_rate": 3.3000797937948564e-07,
      "loss": 0.79658908,
      "num_input_tokens_seen": 147271465,
      "step": 6820,
      "time_per_iteration": 2.5870203971862793
    },
    {
      "auxiliary_loss_clip": 0.01009769,
      "auxiliary_loss_mlp": 0.01001521,
      "balance_loss_clip": 1.01940608,
      "balance_loss_mlp": 0.99978077,
      "epoch": 0.8201767570492394,
      "flos": 69813586863360.0,
      "grad_norm": 0.9221280940896227,
      "language_loss": 0.65014398,
      "learning_rate": 3.295794722377534e-07,
      "loss": 0.67025685,
      "num_input_tokens_seen": 147335070,
      "step": 6821,
      "time_per_iteration": 3.2127270698547363
    },
    {
      "auxiliary_loss_clip": 0.0109043,
      "auxiliary_loss_mlp": 0.01018048,
      "balance_loss_clip": 1.03569388,
      "balance_loss_mlp": 1.01309764,
      "epoch": 0.8202969999398786,
      "flos": 23114095378560.0,
      "grad_norm": 1.7573822302009148,
      "language_loss": 0.80176866,
      "learning_rate": 3.291512184974876e-07,
      "loss": 0.82285345,
      "num_input_tokens_seen": 147355460,
      "step": 6822,
      "time_per_iteration": 2.516794443130493
    },
    {
      "auxiliary_loss_clip": 0.01071783,
      "auxiliary_loss_mlp": 0.01017978,
      "balance_loss_clip": 1.03506315,
      "balance_loss_mlp": 1.01268172,
      "epoch": 0.8204172428305176,
      "flos": 28223143758720.0,
      "grad_norm": 1.9011972345721972,
      "language_loss": 0.66640389,
      "learning_rate": 3.2872321822365346e-07,
      "loss": 0.68730152,
      "num_input_tokens_seen": 147375675,
      "step": 6823,
      "time_per_iteration": 2.618711233139038
    },
    {
      "auxiliary_loss_clip": 0.01079467,
      "auxiliary_loss_mlp": 0.01020781,
      "balance_loss_clip": 1.03680086,
      "balance_loss_mlp": 1.01548827,
      "epoch": 0.8205374857211567,
      "flos": 20889131846400.0,
      "grad_norm": 1.7668119802403721,
      "language_loss": 0.73289394,
      "learning_rate": 3.282954714811783e-07,
      "loss": 0.75389647,
      "num_input_tokens_seen": 147394580,
      "step": 6824,
      "time_per_iteration": 2.554542064666748
    },
    {
      "auxiliary_loss_clip": 0.01071704,
      "auxiliary_loss_mlp": 0.01021401,
      "balance_loss_clip": 1.03508449,
      "balance_loss_mlp": 1.01593864,
      "epoch": 0.8206577286117959,
      "flos": 13153836084480.0,
      "grad_norm": 2.3664071780589784,
      "language_loss": 0.71432281,
      "learning_rate": 3.2786797833495093e-07,
      "loss": 0.73525393,
      "num_input_tokens_seen": 147409935,
      "step": 6825,
      "time_per_iteration": 2.5120654106140137
    },
    {
      "auxiliary_loss_clip": 0.01091253,
      "auxiliary_loss_mlp": 0.01021914,
      "balance_loss_clip": 1.03638935,
      "balance_loss_mlp": 1.01696086,
      "epoch": 0.8207779715024349,
      "flos": 25268018244480.0,
      "grad_norm": 1.8062896495521872,
      "language_loss": 0.72524405,
      "learning_rate": 3.274407388498213e-07,
      "loss": 0.74637568,
      "num_input_tokens_seen": 147428065,
      "step": 6826,
      "time_per_iteration": 2.5600154399871826
    },
    {
      "auxiliary_loss_clip": 0.01060299,
      "auxiliary_loss_mlp": 0.01021775,
      "balance_loss_clip": 1.03551531,
      "balance_loss_mlp": 1.01667333,
      "epoch": 0.820898214393074,
      "flos": 19612305809280.0,
      "grad_norm": 1.7381323351358247,
      "language_loss": 0.74302417,
      "learning_rate": 3.270137530906021e-07,
      "loss": 0.76384491,
      "num_input_tokens_seen": 147447300,
      "step": 6827,
      "time_per_iteration": 2.575106143951416
    },
    {
      "auxiliary_loss_clip": 0.01032446,
      "auxiliary_loss_mlp": 0.01022728,
      "balance_loss_clip": 1.03302193,
      "balance_loss_mlp": 1.01779866,
      "epoch": 0.8210184572837131,
      "flos": 15598443525120.0,
      "grad_norm": 1.8886042439511186,
      "language_loss": 0.83500022,
      "learning_rate": 3.265870211220665e-07,
      "loss": 0.85555196,
      "num_input_tokens_seen": 147465135,
      "step": 6828,
      "time_per_iteration": 2.6064555644989014
    },
    {
      "auxiliary_loss_clip": 0.01052562,
      "auxiliary_loss_mlp": 0.01023549,
      "balance_loss_clip": 1.03469443,
      "balance_loss_mlp": 1.01825571,
      "epoch": 0.8211387001743522,
      "flos": 20816043603840.0,
      "grad_norm": 2.0160804565797785,
      "language_loss": 0.81232691,
      "learning_rate": 3.2616054300894934e-07,
      "loss": 0.83308798,
      "num_input_tokens_seen": 147484585,
      "step": 6829,
      "time_per_iteration": 2.598752975463867
    },
    {
      "auxiliary_loss_clip": 0.01064749,
      "auxiliary_loss_mlp": 0.0101788,
      "balance_loss_clip": 1.0371263,
      "balance_loss_mlp": 1.01268244,
      "epoch": 0.8212589430649913,
      "flos": 27706786300800.0,
      "grad_norm": 2.220320281459823,
      "language_loss": 0.8392961,
      "learning_rate": 3.2573431881594693e-07,
      "loss": 0.86012238,
      "num_input_tokens_seen": 147504130,
      "step": 6830,
      "time_per_iteration": 2.6153650283813477
    },
    {
      "auxiliary_loss_clip": 0.01032519,
      "auxiliary_loss_mlp": 0.01017637,
      "balance_loss_clip": 1.03089237,
      "balance_loss_mlp": 1.01251113,
      "epoch": 0.8213791859556304,
      "flos": 22457817918720.0,
      "grad_norm": 2.1500551440144227,
      "language_loss": 0.65593237,
      "learning_rate": 3.2530834860771663e-07,
      "loss": 0.67643392,
      "num_input_tokens_seen": 147523510,
      "step": 6831,
      "time_per_iteration": 3.4159255027770996
    },
    {
      "auxiliary_loss_clip": 0.01083019,
      "auxiliary_loss_mlp": 0.01020464,
      "balance_loss_clip": 1.03739572,
      "balance_loss_mlp": 1.0150491,
      "epoch": 0.8214994288462695,
      "flos": 16656346097280.0,
      "grad_norm": 1.8406984142551244,
      "language_loss": 0.74224579,
      "learning_rate": 3.248826324488794e-07,
      "loss": 0.76328063,
      "num_input_tokens_seen": 147540805,
      "step": 6832,
      "time_per_iteration": 3.455934524536133
    },
    {
      "auxiliary_loss_clip": 0.01094727,
      "auxiliary_loss_mlp": 0.01023227,
      "balance_loss_clip": 1.03965223,
      "balance_loss_mlp": 1.01795459,
      "epoch": 0.8216196717369085,
      "flos": 25223757793920.0,
      "grad_norm": 1.9331956960855594,
      "language_loss": 0.87499058,
      "learning_rate": 3.244571704040138e-07,
      "loss": 0.89617014,
      "num_input_tokens_seen": 147560965,
      "step": 6833,
      "time_per_iteration": 3.277773857116699
    },
    {
      "auxiliary_loss_clip": 0.01082008,
      "auxiliary_loss_mlp": 0.01024017,
      "balance_loss_clip": 1.03508842,
      "balance_loss_mlp": 1.01811266,
      "epoch": 0.8217399146275477,
      "flos": 25374143185920.0,
      "grad_norm": 1.9273629693934826,
      "language_loss": 0.73361516,
      "learning_rate": 3.2403196253766374e-07,
      "loss": 0.75467539,
      "num_input_tokens_seen": 147580045,
      "step": 6834,
      "time_per_iteration": 2.551898717880249
    },
    {
      "auxiliary_loss_clip": 0.01084648,
      "auxiliary_loss_mlp": 0.01019595,
      "balance_loss_clip": 1.03643441,
      "balance_loss_mlp": 1.01407576,
      "epoch": 0.8218601575181868,
      "flos": 25631980652160.0,
      "grad_norm": 5.945335630727299,
      "language_loss": 0.79403877,
      "learning_rate": 3.2360700891433254e-07,
      "loss": 0.81508124,
      "num_input_tokens_seen": 147599070,
      "step": 6835,
      "time_per_iteration": 2.55411958694458
    },
    {
      "auxiliary_loss_clip": 0.01004334,
      "auxiliary_loss_mlp": 0.01004559,
      "balance_loss_clip": 1.01830459,
      "balance_loss_mlp": 1.00290227,
      "epoch": 0.8219804004088258,
      "flos": 67666906350720.0,
      "grad_norm": 0.8326784915542237,
      "language_loss": 0.57194245,
      "learning_rate": 3.231823095984847e-07,
      "loss": 0.59203136,
      "num_input_tokens_seen": 147653710,
      "step": 6836,
      "time_per_iteration": 3.2024824619293213
    },
    {
      "auxiliary_loss_clip": 0.01068345,
      "auxiliary_loss_mlp": 0.01019672,
      "balance_loss_clip": 1.03557849,
      "balance_loss_mlp": 1.0147543,
      "epoch": 0.822100643299465,
      "flos": 19466318914560.0,
      "grad_norm": 2.0130129652968503,
      "language_loss": 0.75665778,
      "learning_rate": 3.2275786465454814e-07,
      "loss": 0.77753794,
      "num_input_tokens_seen": 147670360,
      "step": 6837,
      "time_per_iteration": 3.1906816959381104
    },
    {
      "auxiliary_loss_clip": 0.01058139,
      "auxiliary_loss_mlp": 0.01020916,
      "balance_loss_clip": 1.03488708,
      "balance_loss_mlp": 1.01588237,
      "epoch": 0.822220886190104,
      "flos": 24683691484800.0,
      "grad_norm": 1.743687336059368,
      "language_loss": 0.75966787,
      "learning_rate": 3.2233367414690917e-07,
      "loss": 0.78045839,
      "num_input_tokens_seen": 147692550,
      "step": 6838,
      "time_per_iteration": 2.664879083633423
    },
    {
      "auxiliary_loss_clip": 0.01055429,
      "auxiliary_loss_mlp": 0.01018919,
      "balance_loss_clip": 1.03328109,
      "balance_loss_mlp": 1.0138557,
      "epoch": 0.8223411290807431,
      "flos": 27821556564480.0,
      "grad_norm": 2.184903900146411,
      "language_loss": 0.84695303,
      "learning_rate": 3.219097381399183e-07,
      "loss": 0.86769658,
      "num_input_tokens_seen": 147709725,
      "step": 6839,
      "time_per_iteration": 3.397087574005127
    },
    {
      "auxiliary_loss_clip": 0.01069547,
      "auxiliary_loss_mlp": 0.0102006,
      "balance_loss_clip": 1.03480816,
      "balance_loss_mlp": 1.01502943,
      "epoch": 0.8224613719713821,
      "flos": 23220599500800.0,
      "grad_norm": 1.9981617287680267,
      "language_loss": 0.81058466,
      "learning_rate": 3.2148605669788584e-07,
      "loss": 0.83148074,
      "num_input_tokens_seen": 147729615,
      "step": 6840,
      "time_per_iteration": 2.5916848182678223
    },
    {
      "auxiliary_loss_clip": 0.01068334,
      "auxiliary_loss_mlp": 0.01023578,
      "balance_loss_clip": 1.0363512,
      "balance_loss_mlp": 1.01840091,
      "epoch": 0.8225816148620213,
      "flos": 15708094848000.0,
      "grad_norm": 2.587902026737001,
      "language_loss": 0.77446455,
      "learning_rate": 3.2106262988508405e-07,
      "loss": 0.79538363,
      "num_input_tokens_seen": 147747665,
      "step": 6841,
      "time_per_iteration": 2.5325984954833984
    },
    {
      "auxiliary_loss_clip": 0.01065871,
      "auxiliary_loss_mlp": 0.01017839,
      "balance_loss_clip": 1.03375471,
      "balance_loss_mlp": 1.01285934,
      "epoch": 0.8227018577526604,
      "flos": 18517081795200.0,
      "grad_norm": 3.496032591116792,
      "language_loss": 0.74242902,
      "learning_rate": 3.206394577657465e-07,
      "loss": 0.76326609,
      "num_input_tokens_seen": 147765445,
      "step": 6842,
      "time_per_iteration": 2.538767099380493
    },
    {
      "auxiliary_loss_clip": 0.0108109,
      "auxiliary_loss_mlp": 0.01024259,
      "balance_loss_clip": 1.03736067,
      "balance_loss_mlp": 1.01878715,
      "epoch": 0.8228221006432994,
      "flos": 22238970289920.0,
      "grad_norm": 3.655000756401052,
      "language_loss": 0.72660482,
      "learning_rate": 3.202165404040675e-07,
      "loss": 0.74765831,
      "num_input_tokens_seen": 147783365,
      "step": 6843,
      "time_per_iteration": 2.515049695968628
    },
    {
      "auxiliary_loss_clip": 0.01031103,
      "auxiliary_loss_mlp": 0.0102311,
      "balance_loss_clip": 1.03466892,
      "balance_loss_mlp": 1.01762319,
      "epoch": 0.8229423435339386,
      "flos": 24099819742080.0,
      "grad_norm": 1.945334022050845,
      "language_loss": 0.74775857,
      "learning_rate": 3.1979387786420396e-07,
      "loss": 0.76830065,
      "num_input_tokens_seen": 147803605,
      "step": 6844,
      "time_per_iteration": 2.7154204845428467
    },
    {
      "auxiliary_loss_clip": 0.01071514,
      "auxiliary_loss_mlp": 0.0101777,
      "balance_loss_clip": 1.03561115,
      "balance_loss_mlp": 1.01268601,
      "epoch": 0.8230625864245776,
      "flos": 23880820440960.0,
      "grad_norm": 3.8074730889608617,
      "language_loss": 0.82199681,
      "learning_rate": 3.1937147021027346e-07,
      "loss": 0.84288961,
      "num_input_tokens_seen": 147822060,
      "step": 6845,
      "time_per_iteration": 2.5687785148620605
    },
    {
      "auxiliary_loss_clip": 0.01078731,
      "auxiliary_loss_mlp": 0.01017385,
      "balance_loss_clip": 1.03575683,
      "balance_loss_mlp": 1.01257825,
      "epoch": 0.8231828293152167,
      "flos": 16582954510080.0,
      "grad_norm": 3.040531871481082,
      "language_loss": 0.7684232,
      "learning_rate": 3.189493175063547e-07,
      "loss": 0.78938437,
      "num_input_tokens_seen": 147839295,
      "step": 6846,
      "time_per_iteration": 2.5140068531036377
    },
    {
      "auxiliary_loss_clip": 0.01066511,
      "auxiliary_loss_mlp": 0.01019827,
      "balance_loss_clip": 1.03488839,
      "balance_loss_mlp": 1.01417994,
      "epoch": 0.8233030722058559,
      "flos": 18882067991040.0,
      "grad_norm": 2.392094428458325,
      "language_loss": 0.67548102,
      "learning_rate": 3.1852741981648776e-07,
      "loss": 0.69634438,
      "num_input_tokens_seen": 147857945,
      "step": 6847,
      "time_per_iteration": 2.534438133239746
    },
    {
      "auxiliary_loss_clip": 0.01051508,
      "auxiliary_loss_mlp": 0.01024914,
      "balance_loss_clip": 1.03547847,
      "balance_loss_mlp": 1.019472,
      "epoch": 0.8234233150964949,
      "flos": 28441536370560.0,
      "grad_norm": 3.1934118482425804,
      "language_loss": 0.70166159,
      "learning_rate": 3.1810577720467404e-07,
      "loss": 0.72242576,
      "num_input_tokens_seen": 147879675,
      "step": 6848,
      "time_per_iteration": 2.661501407623291
    },
    {
      "auxiliary_loss_clip": 0.01067876,
      "auxiliary_loss_mlp": 0.01017315,
      "balance_loss_clip": 1.03498936,
      "balance_loss_mlp": 1.01191521,
      "epoch": 0.823543557987134,
      "flos": 33768749854080.0,
      "grad_norm": 1.5920638958772877,
      "language_loss": 0.56519216,
      "learning_rate": 3.176843897348769e-07,
      "loss": 0.58604407,
      "num_input_tokens_seen": 147902870,
      "step": 6849,
      "time_per_iteration": 2.691781520843506
    },
    {
      "auxiliary_loss_clip": 0.01070344,
      "auxiliary_loss_mlp": 0.01020453,
      "balance_loss_clip": 1.03591001,
      "balance_loss_mlp": 1.01520753,
      "epoch": 0.8236638008777731,
      "flos": 17094268863360.0,
      "grad_norm": 3.2611120223424046,
      "language_loss": 0.75567788,
      "learning_rate": 3.1726325747102034e-07,
      "loss": 0.77658582,
      "num_input_tokens_seen": 147921245,
      "step": 6850,
      "time_per_iteration": 2.539452314376831
    },
    {
      "auxiliary_loss_clip": 0.01047269,
      "auxiliary_loss_mlp": 0.01018337,
      "balance_loss_clip": 1.03294837,
      "balance_loss_mlp": 1.01323783,
      "epoch": 0.8237840437684122,
      "flos": 61644283948800.0,
      "grad_norm": 1.532656262575109,
      "language_loss": 0.64529914,
      "learning_rate": 3.1684238047698974e-07,
      "loss": 0.66595525,
      "num_input_tokens_seen": 147949515,
      "step": 6851,
      "time_per_iteration": 2.980557918548584
    },
    {
      "auxiliary_loss_clip": 0.01067335,
      "auxiliary_loss_mlp": 0.01021349,
      "balance_loss_clip": 1.03407395,
      "balance_loss_mlp": 1.01613092,
      "epoch": 0.8239042866590512,
      "flos": 27311531425920.0,
      "grad_norm": 1.926315278483969,
      "language_loss": 0.53202569,
      "learning_rate": 3.1642175881663155e-07,
      "loss": 0.55291259,
      "num_input_tokens_seen": 147969245,
      "step": 6852,
      "time_per_iteration": 2.610684633255005
    },
    {
      "auxiliary_loss_clip": 0.01091697,
      "auxiliary_loss_mlp": 0.01019773,
      "balance_loss_clip": 1.03644705,
      "balance_loss_mlp": 1.01489115,
      "epoch": 0.8240245295496904,
      "flos": 21728528052480.0,
      "grad_norm": 7.5713044170099755,
      "language_loss": 0.8420434,
      "learning_rate": 3.160013925537537e-07,
      "loss": 0.86315811,
      "num_input_tokens_seen": 147990080,
      "step": 6853,
      "time_per_iteration": 2.514841079711914
    },
    {
      "auxiliary_loss_clip": 0.01051735,
      "auxiliary_loss_mlp": 0.01018036,
      "balance_loss_clip": 1.03515685,
      "balance_loss_mlp": 1.01259065,
      "epoch": 0.8241447724403295,
      "flos": 20011276656000.0,
      "grad_norm": 2.0212254537012275,
      "language_loss": 0.7563976,
      "learning_rate": 3.155812817521266e-07,
      "loss": 0.77709532,
      "num_input_tokens_seen": 148010455,
      "step": 6854,
      "time_per_iteration": 2.597435235977173
    },
    {
      "auxiliary_loss_clip": 0.01067827,
      "auxiliary_loss_mlp": 0.01022832,
      "balance_loss_clip": 1.03557062,
      "balance_loss_mlp": 1.01782227,
      "epoch": 0.8242650153309685,
      "flos": 22275154189440.0,
      "grad_norm": 2.023648007259482,
      "language_loss": 0.78012693,
      "learning_rate": 3.151614264754787e-07,
      "loss": 0.8010335,
      "num_input_tokens_seen": 148028400,
      "step": 6855,
      "time_per_iteration": 2.5730769634246826
    },
    {
      "auxiliary_loss_clip": 0.01091604,
      "auxiliary_loss_mlp": 0.01018165,
      "balance_loss_clip": 1.03554034,
      "balance_loss_mlp": 1.01289296,
      "epoch": 0.8243852582216077,
      "flos": 22312172286720.0,
      "grad_norm": 2.0248020592433322,
      "language_loss": 0.79417217,
      "learning_rate": 3.147418267875035e-07,
      "loss": 0.81526989,
      "num_input_tokens_seen": 148046530,
      "step": 6856,
      "time_per_iteration": 2.479881763458252
    },
    {
      "auxiliary_loss_clip": 0.01034454,
      "auxiliary_loss_mlp": 0.00756719,
      "balance_loss_clip": 1.03216445,
      "balance_loss_mlp": 1.0017072,
      "epoch": 0.8245055011122467,
      "flos": 24647773011840.0,
      "grad_norm": 4.1262520154283795,
      "language_loss": 0.65513039,
      "learning_rate": 3.1432248275185315e-07,
      "loss": 0.67304212,
      "num_input_tokens_seen": 148067040,
      "step": 6857,
      "time_per_iteration": 3.6165497303009033
    },
    {
      "auxiliary_loss_clip": 0.01073368,
      "auxiliary_loss_mlp": 0.01018721,
      "balance_loss_clip": 1.03203261,
      "balance_loss_mlp": 1.01332951,
      "epoch": 0.8246257440028858,
      "flos": 17488841212800.0,
      "grad_norm": 2.35755925034901,
      "language_loss": 0.77108002,
      "learning_rate": 3.139033944321412e-07,
      "loss": 0.79200083,
      "num_input_tokens_seen": 148084400,
      "step": 6858,
      "time_per_iteration": 3.948000192642212
    },
    {
      "auxiliary_loss_clip": 0.0107994,
      "auxiliary_loss_mlp": 0.01018033,
      "balance_loss_clip": 1.03551507,
      "balance_loss_mlp": 1.01307666,
      "epoch": 0.824745986893525,
      "flos": 25012493781120.0,
      "grad_norm": 1.7595850721672155,
      "language_loss": 0.79032433,
      "learning_rate": 3.1348456189194507e-07,
      "loss": 0.81130409,
      "num_input_tokens_seen": 148104860,
      "step": 6859,
      "time_per_iteration": 2.5496747493743896
    },
    {
      "auxiliary_loss_clip": 0.01061259,
      "auxiliary_loss_mlp": 0.01018991,
      "balance_loss_clip": 1.03546464,
      "balance_loss_mlp": 1.01358509,
      "epoch": 0.824866229784164,
      "flos": 18774805507200.0,
      "grad_norm": 1.5905350854695712,
      "language_loss": 0.83015668,
      "learning_rate": 3.1306598519479876e-07,
      "loss": 0.85095912,
      "num_input_tokens_seen": 148124680,
      "step": 6860,
      "time_per_iteration": 2.6086959838867188
    },
    {
      "auxiliary_loss_clip": 0.0106263,
      "auxiliary_loss_mlp": 0.01018857,
      "balance_loss_clip": 1.03469121,
      "balance_loss_mlp": 1.01376987,
      "epoch": 0.8249864726748031,
      "flos": 23844446951040.0,
      "grad_norm": 2.0075189442364034,
      "language_loss": 0.78183329,
      "learning_rate": 3.1264766440420177e-07,
      "loss": 0.80264819,
      "num_input_tokens_seen": 148147150,
      "step": 6861,
      "time_per_iteration": 2.586731433868408
    },
    {
      "auxiliary_loss_clip": 0.01077792,
      "auxiliary_loss_mlp": 0.01019396,
      "balance_loss_clip": 1.03587151,
      "balance_loss_mlp": 1.01420164,
      "epoch": 0.8251067155654422,
      "flos": 20305184267520.0,
      "grad_norm": 2.3473565696100955,
      "language_loss": 0.69130963,
      "learning_rate": 3.122295995836124e-07,
      "loss": 0.71228158,
      "num_input_tokens_seen": 148167020,
      "step": 6862,
      "time_per_iteration": 2.5239970684051514
    },
    {
      "auxiliary_loss_clip": 0.01081411,
      "auxiliary_loss_mlp": 0.0101919,
      "balance_loss_clip": 1.03513122,
      "balance_loss_mlp": 1.01364064,
      "epoch": 0.8252269584560813,
      "flos": 25012038764160.0,
      "grad_norm": 2.0040221067142885,
      "language_loss": 0.77428633,
      "learning_rate": 3.118117907964508e-07,
      "loss": 0.79529232,
      "num_input_tokens_seen": 148188965,
      "step": 6863,
      "time_per_iteration": 2.580566883087158
    },
    {
      "auxiliary_loss_clip": 0.01058666,
      "auxiliary_loss_mlp": 0.0102178,
      "balance_loss_clip": 1.03418493,
      "balance_loss_mlp": 1.01673162,
      "epoch": 0.8253472013467203,
      "flos": 17130452762880.0,
      "grad_norm": 2.183190915683302,
      "language_loss": 0.8028909,
      "learning_rate": 3.1139423810609856e-07,
      "loss": 0.82369542,
      "num_input_tokens_seen": 148205660,
      "step": 6864,
      "time_per_iteration": 2.59346079826355
    },
    {
      "auxiliary_loss_clip": 0.01090803,
      "auxiliary_loss_mlp": 0.01021389,
      "balance_loss_clip": 1.03507614,
      "balance_loss_mlp": 1.01585209,
      "epoch": 0.8254674442373595,
      "flos": 22416742586880.0,
      "grad_norm": 2.5320156146384005,
      "language_loss": 0.75339895,
      "learning_rate": 3.1097694157589714e-07,
      "loss": 0.77452087,
      "num_input_tokens_seen": 148225545,
      "step": 6865,
      "time_per_iteration": 3.286341428756714
    },
    {
      "auxiliary_loss_clip": 0.01077768,
      "auxiliary_loss_mlp": 0.01024665,
      "balance_loss_clip": 1.03621817,
      "balance_loss_mlp": 1.01936293,
      "epoch": 0.8255876871279986,
      "flos": 24788868474240.0,
      "grad_norm": 5.318916082157228,
      "language_loss": 0.75875109,
      "learning_rate": 3.105599012691511e-07,
      "loss": 0.77977544,
      "num_input_tokens_seen": 148243975,
      "step": 6866,
      "time_per_iteration": 2.5691637992858887
    },
    {
      "auxiliary_loss_clip": 0.01078223,
      "auxiliary_loss_mlp": 0.01020454,
      "balance_loss_clip": 1.03496146,
      "balance_loss_mlp": 1.01553679,
      "epoch": 0.8257079300186376,
      "flos": 27457973337600.0,
      "grad_norm": 1.7309933416830772,
      "language_loss": 0.82331288,
      "learning_rate": 3.101431172491249e-07,
      "loss": 0.84429961,
      "num_input_tokens_seen": 148265520,
      "step": 6867,
      "time_per_iteration": 2.576211929321289
    },
    {
      "auxiliary_loss_clip": 0.01058724,
      "auxiliary_loss_mlp": 0.00756697,
      "balance_loss_clip": 1.03433704,
      "balance_loss_mlp": 1.0016737,
      "epoch": 0.8258281729092768,
      "flos": 16473720286080.0,
      "grad_norm": 2.290446989408956,
      "language_loss": 0.72105461,
      "learning_rate": 3.097265895790444e-07,
      "loss": 0.73920882,
      "num_input_tokens_seen": 148283730,
      "step": 6868,
      "time_per_iteration": 2.5878419876098633
    },
    {
      "auxiliary_loss_clip": 0.01061949,
      "auxiliary_loss_mlp": 0.01016878,
      "balance_loss_clip": 1.03681135,
      "balance_loss_mlp": 1.0118655,
      "epoch": 0.8259484157999158,
      "flos": 21435947573760.0,
      "grad_norm": 2.355669017673583,
      "language_loss": 0.83088112,
      "learning_rate": 3.093103183220962e-07,
      "loss": 0.85166943,
      "num_input_tokens_seen": 148303775,
      "step": 6869,
      "time_per_iteration": 2.5809593200683594
    },
    {
      "auxiliary_loss_clip": 0.0103212,
      "auxiliary_loss_mlp": 0.01002411,
      "balance_loss_clip": 1.0169239,
      "balance_loss_mlp": 1.00061059,
      "epoch": 0.8260686586905549,
      "flos": 58328636520960.0,
      "grad_norm": 0.8183445468452221,
      "language_loss": 0.59328932,
      "learning_rate": 3.0889430354142796e-07,
      "loss": 0.61363465,
      "num_input_tokens_seen": 148365285,
      "step": 6870,
      "time_per_iteration": 3.0919573307037354
    },
    {
      "auxiliary_loss_clip": 0.01055696,
      "auxiliary_loss_mlp": 0.01019332,
      "balance_loss_clip": 1.03318834,
      "balance_loss_mlp": 1.01390827,
      "epoch": 0.826188901581194,
      "flos": 27529772365440.0,
      "grad_norm": 2.0445852885501643,
      "language_loss": 0.70552266,
      "learning_rate": 3.084785453001497e-07,
      "loss": 0.72627294,
      "num_input_tokens_seen": 148386200,
      "step": 6871,
      "time_per_iteration": 2.666491985321045
    },
    {
      "auxiliary_loss_clip": 0.01061307,
      "auxiliary_loss_mlp": 0.00756711,
      "balance_loss_clip": 1.03180492,
      "balance_loss_mlp": 1.00163794,
      "epoch": 0.8263091444718331,
      "flos": 23698308384000.0,
      "grad_norm": 3.3947925210697676,
      "language_loss": 0.82144356,
      "learning_rate": 3.080630436613314e-07,
      "loss": 0.83962375,
      "num_input_tokens_seen": 148403970,
      "step": 6872,
      "time_per_iteration": 2.5774877071380615
    },
    {
      "auxiliary_loss_clip": 0.01082374,
      "auxiliary_loss_mlp": 0.01023592,
      "balance_loss_clip": 1.0364058,
      "balance_loss_mlp": 1.01828992,
      "epoch": 0.8264293873624722,
      "flos": 17167053761280.0,
      "grad_norm": 2.0117705839982074,
      "language_loss": 0.86121213,
      "learning_rate": 3.076477986880039e-07,
      "loss": 0.88227171,
      "num_input_tokens_seen": 148421765,
      "step": 6873,
      "time_per_iteration": 2.5059711933135986
    },
    {
      "auxiliary_loss_clip": 0.01066361,
      "auxiliary_loss_mlp": 0.01019527,
      "balance_loss_clip": 1.03550637,
      "balance_loss_mlp": 1.01436257,
      "epoch": 0.8265496302531112,
      "flos": 24100995202560.0,
      "grad_norm": 3.364326479454642,
      "language_loss": 0.69593537,
      "learning_rate": 3.0723281044315986e-07,
      "loss": 0.71679425,
      "num_input_tokens_seen": 148443720,
      "step": 6874,
      "time_per_iteration": 2.574782371520996
    },
    {
      "auxiliary_loss_clip": 0.01089719,
      "auxiliary_loss_mlp": 0.01020017,
      "balance_loss_clip": 1.03489661,
      "balance_loss_mlp": 1.01517463,
      "epoch": 0.8266698731437504,
      "flos": 14101594398720.0,
      "grad_norm": 2.2782866790485854,
      "language_loss": 0.7641449,
      "learning_rate": 3.068180789897521e-07,
      "loss": 0.78524232,
      "num_input_tokens_seen": 148462130,
      "step": 6875,
      "time_per_iteration": 2.4887237548828125
    },
    {
      "auxiliary_loss_clip": 0.01082118,
      "auxiliary_loss_mlp": 0.01019709,
      "balance_loss_clip": 1.03629458,
      "balance_loss_mlp": 1.01435995,
      "epoch": 0.8267901160343895,
      "flos": 30780398050560.0,
      "grad_norm": 1.4708717753928648,
      "language_loss": 0.81412196,
      "learning_rate": 3.064036043906966e-07,
      "loss": 0.83514023,
      "num_input_tokens_seen": 148485570,
      "step": 6876,
      "time_per_iteration": 2.6058151721954346
    },
    {
      "auxiliary_loss_clip": 0.01059255,
      "auxiliary_loss_mlp": 0.01020961,
      "balance_loss_clip": 1.03493738,
      "balance_loss_mlp": 1.01538467,
      "epoch": 0.8269103589250285,
      "flos": 40628086329600.0,
      "grad_norm": 2.262018936103683,
      "language_loss": 0.68154943,
      "learning_rate": 3.059893867088668e-07,
      "loss": 0.70235157,
      "num_input_tokens_seen": 148509715,
      "step": 6877,
      "time_per_iteration": 2.777045726776123
    },
    {
      "auxiliary_loss_clip": 0.01077647,
      "auxiliary_loss_mlp": 0.01019614,
      "balance_loss_clip": 1.0349555,
      "balance_loss_mlp": 1.01480055,
      "epoch": 0.8270306018156677,
      "flos": 30266277759360.0,
      "grad_norm": 2.3056482871012665,
      "language_loss": 0.66662574,
      "learning_rate": 3.055754260071004e-07,
      "loss": 0.68759829,
      "num_input_tokens_seen": 148532010,
      "step": 6878,
      "time_per_iteration": 2.5848071575164795
    },
    {
      "auxiliary_loss_clip": 0.01080117,
      "auxiliary_loss_mlp": 0.01021648,
      "balance_loss_clip": 1.03667212,
      "balance_loss_mlp": 1.01674271,
      "epoch": 0.8271508447063067,
      "flos": 25228838816640.0,
      "grad_norm": 2.2591582442602403,
      "language_loss": 0.73820889,
      "learning_rate": 3.051617223481948e-07,
      "loss": 0.7592265,
      "num_input_tokens_seen": 148553330,
      "step": 6879,
      "time_per_iteration": 2.560908794403076
    },
    {
      "auxiliary_loss_clip": 0.01059531,
      "auxiliary_loss_mlp": 0.01024329,
      "balance_loss_clip": 1.03721535,
      "balance_loss_mlp": 1.01878881,
      "epoch": 0.8272710875969458,
      "flos": 17568527201280.0,
      "grad_norm": 1.8850801552873726,
      "language_loss": 0.75633198,
      "learning_rate": 3.047482757949078e-07,
      "loss": 0.7771706,
      "num_input_tokens_seen": 148570960,
      "step": 6880,
      "time_per_iteration": 2.549402952194214
    },
    {
      "auxiliary_loss_clip": 0.01053172,
      "auxiliary_loss_mlp": 0.00756495,
      "balance_loss_clip": 1.03337336,
      "balance_loss_mlp": 1.00168657,
      "epoch": 0.827391330487585,
      "flos": 19757496424320.0,
      "grad_norm": 1.8556084241596247,
      "language_loss": 0.85746205,
      "learning_rate": 3.043350864099605e-07,
      "loss": 0.87555873,
      "num_input_tokens_seen": 148589520,
      "step": 6881,
      "time_per_iteration": 2.5925345420837402
    },
    {
      "auxiliary_loss_clip": 0.0108146,
      "auxiliary_loss_mlp": 0.01017419,
      "balance_loss_clip": 1.03545928,
      "balance_loss_mlp": 1.01243031,
      "epoch": 0.827511573378224,
      "flos": 16836962250240.0,
      "grad_norm": 2.5040684232440937,
      "language_loss": 0.81260139,
      "learning_rate": 3.039221542560315e-07,
      "loss": 0.83359015,
      "num_input_tokens_seen": 148606085,
      "step": 6882,
      "time_per_iteration": 3.23264217376709
    },
    {
      "auxiliary_loss_clip": 0.01080182,
      "auxiliary_loss_mlp": 0.01016574,
      "balance_loss_clip": 1.03730857,
      "balance_loss_mlp": 1.01125133,
      "epoch": 0.8276318162688631,
      "flos": 18371208654720.0,
      "grad_norm": 1.8942935993074603,
      "language_loss": 0.73846358,
      "learning_rate": 3.0350947939576356e-07,
      "loss": 0.75943112,
      "num_input_tokens_seen": 148625240,
      "step": 6883,
      "time_per_iteration": 2.509143829345703
    },
    {
      "auxiliary_loss_clip": 0.01085155,
      "auxiliary_loss_mlp": 0.01020683,
      "balance_loss_clip": 1.03851473,
      "balance_loss_mlp": 1.01528239,
      "epoch": 0.8277520591595022,
      "flos": 19354620015360.0,
      "grad_norm": 1.7323168131676534,
      "language_loss": 0.72221327,
      "learning_rate": 3.0309706189175876e-07,
      "loss": 0.74327159,
      "num_input_tokens_seen": 148645075,
      "step": 6884,
      "time_per_iteration": 3.3653669357299805
    },
    {
      "auxiliary_loss_clip": 0.01021806,
      "auxiliary_loss_mlp": 0.01001291,
      "balance_loss_clip": 1.01621079,
      "balance_loss_mlp": 0.99966985,
      "epoch": 0.8278723020501413,
      "flos": 67925729687040.0,
      "grad_norm": 0.7670457743134302,
      "language_loss": 0.57300889,
      "learning_rate": 3.0268490180658045e-07,
      "loss": 0.5932399,
      "num_input_tokens_seen": 148707855,
      "step": 6885,
      "time_per_iteration": 3.163337230682373
    },
    {
      "auxiliary_loss_clip": 0.01094389,
      "auxiliary_loss_mlp": 0.01017656,
      "balance_loss_clip": 1.03806067,
      "balance_loss_mlp": 1.01243472,
      "epoch": 0.8279925449407803,
      "flos": 18187634891520.0,
      "grad_norm": 2.448309225647732,
      "language_loss": 0.79246491,
      "learning_rate": 3.0227299920275305e-07,
      "loss": 0.8135854,
      "num_input_tokens_seen": 148724170,
      "step": 6886,
      "time_per_iteration": 2.483023166656494
    },
    {
      "auxiliary_loss_clip": 0.01055181,
      "auxiliary_loss_mlp": 0.01022017,
      "balance_loss_clip": 1.0352639,
      "balance_loss_mlp": 1.01624465,
      "epoch": 0.8281127878314195,
      "flos": 20633531546880.0,
      "grad_norm": 2.4286112972008214,
      "language_loss": 0.85755068,
      "learning_rate": 3.018613541427613e-07,
      "loss": 0.87832272,
      "num_input_tokens_seen": 148743690,
      "step": 6887,
      "time_per_iteration": 2.5751941204071045
    },
    {
      "auxiliary_loss_clip": 0.01091425,
      "auxiliary_loss_mlp": 0.01021255,
      "balance_loss_clip": 1.03596914,
      "balance_loss_mlp": 1.01601827,
      "epoch": 0.8282330307220586,
      "flos": 18006222458880.0,
      "grad_norm": 1.7600812025970691,
      "language_loss": 0.73556042,
      "learning_rate": 3.0144996668905243e-07,
      "loss": 0.75668716,
      "num_input_tokens_seen": 148761070,
      "step": 6888,
      "time_per_iteration": 2.4824392795562744
    },
    {
      "auxiliary_loss_clip": 0.01037782,
      "auxiliary_loss_mlp": 0.00756624,
      "balance_loss_clip": 1.03191662,
      "balance_loss_mlp": 1.00173998,
      "epoch": 0.8283532736126976,
      "flos": 20086184966400.0,
      "grad_norm": 2.2358042916513785,
      "language_loss": 0.82440227,
      "learning_rate": 3.010388369040331e-07,
      "loss": 0.84234631,
      "num_input_tokens_seen": 148779730,
      "step": 6889,
      "time_per_iteration": 2.807084321975708
    },
    {
      "auxiliary_loss_clip": 0.01079413,
      "auxiliary_loss_mlp": 0.01017394,
      "balance_loss_clip": 1.03573501,
      "balance_loss_mlp": 1.01237249,
      "epoch": 0.8284735165033368,
      "flos": 31871109813120.0,
      "grad_norm": 1.8241310941960462,
      "language_loss": 0.8263436,
      "learning_rate": 3.0062796485007156e-07,
      "loss": 0.84731162,
      "num_input_tokens_seen": 148800670,
      "step": 6890,
      "time_per_iteration": 3.7169320583343506
    },
    {
      "auxiliary_loss_clip": 0.01092325,
      "auxiliary_loss_mlp": 0.00756615,
      "balance_loss_clip": 1.03600478,
      "balance_loss_mlp": 1.00163817,
      "epoch": 0.8285937593939758,
      "flos": 26653737242880.0,
      "grad_norm": 2.3299909377674277,
      "language_loss": 0.65577149,
      "learning_rate": 3.002173505894965e-07,
      "loss": 0.67426085,
      "num_input_tokens_seen": 148819820,
      "step": 6891,
      "time_per_iteration": 2.534230947494507
    },
    {
      "auxiliary_loss_clip": 0.01083191,
      "auxiliary_loss_mlp": 0.0102045,
      "balance_loss_clip": 1.03583026,
      "balance_loss_mlp": 1.01495123,
      "epoch": 0.8287140022846149,
      "flos": 20195760453120.0,
      "grad_norm": 3.1611582394073046,
      "language_loss": 0.62407106,
      "learning_rate": 2.998069941845973e-07,
      "loss": 0.64510751,
      "num_input_tokens_seen": 148838890,
      "step": 6892,
      "time_per_iteration": 2.5265839099884033
    },
    {
      "auxiliary_loss_clip": 0.01042145,
      "auxiliary_loss_mlp": 0.01003582,
      "balance_loss_clip": 1.01701093,
      "balance_loss_mlp": 1.00192535,
      "epoch": 0.8288342451752541,
      "flos": 70762520638080.0,
      "grad_norm": 0.7093973084334545,
      "language_loss": 0.57440305,
      "learning_rate": 2.993968956976258e-07,
      "loss": 0.59486032,
      "num_input_tokens_seen": 148906635,
      "step": 6893,
      "time_per_iteration": 3.200542688369751
    },
    {
      "auxiliary_loss_clip": 0.01094384,
      "auxiliary_loss_mlp": 0.01019266,
      "balance_loss_clip": 1.03741837,
      "balance_loss_mlp": 1.01342118,
      "epoch": 0.8289544880658931,
      "flos": 24574571015040.0,
      "grad_norm": 2.349870551792315,
      "language_loss": 0.70011646,
      "learning_rate": 2.9898705519079313e-07,
      "loss": 0.72125298,
      "num_input_tokens_seen": 148925740,
      "step": 6894,
      "time_per_iteration": 2.5240397453308105
    },
    {
      "auxiliary_loss_clip": 0.01068993,
      "auxiliary_loss_mlp": 0.01016909,
      "balance_loss_clip": 1.03539002,
      "balance_loss_mlp": 1.01178288,
      "epoch": 0.8290747309565322,
      "flos": 22275571288320.0,
      "grad_norm": 1.9472320471619942,
      "language_loss": 0.74744821,
      "learning_rate": 2.985774727262715e-07,
      "loss": 0.76830721,
      "num_input_tokens_seen": 148944585,
      "step": 6895,
      "time_per_iteration": 2.5743019580841064
    },
    {
      "auxiliary_loss_clip": 0.0109271,
      "auxiliary_loss_mlp": 0.01017913,
      "balance_loss_clip": 1.03718638,
      "balance_loss_mlp": 1.01314199,
      "epoch": 0.8291949738471713,
      "flos": 23257655516160.0,
      "grad_norm": 1.8285411759723516,
      "language_loss": 0.81476033,
      "learning_rate": 2.981681483661949e-07,
      "loss": 0.83586657,
      "num_input_tokens_seen": 148964170,
      "step": 6896,
      "time_per_iteration": 2.509850263595581
    },
    {
      "auxiliary_loss_clip": 0.01080242,
      "auxiliary_loss_mlp": 0.01026848,
      "balance_loss_clip": 1.03759086,
      "balance_loss_mlp": 1.02186239,
      "epoch": 0.8293152167378104,
      "flos": 52559604760320.0,
      "grad_norm": 1.5906510969355234,
      "language_loss": 0.71231091,
      "learning_rate": 2.9775908217265633e-07,
      "loss": 0.73338181,
      "num_input_tokens_seen": 148989405,
      "step": 6897,
      "time_per_iteration": 2.813105344772339
    },
    {
      "auxiliary_loss_clip": 0.00989735,
      "auxiliary_loss_mlp": 0.01001116,
      "balance_loss_clip": 1.0147438,
      "balance_loss_mlp": 0.99948263,
      "epoch": 0.8294354596284494,
      "flos": 63362662836480.0,
      "grad_norm": 0.8343669524143562,
      "language_loss": 0.50305557,
      "learning_rate": 2.9735027420771253e-07,
      "loss": 0.522964,
      "num_input_tokens_seen": 149049740,
      "step": 6898,
      "time_per_iteration": 3.1908538341522217
    },
    {
      "auxiliary_loss_clip": 0.01059434,
      "auxiliary_loss_mlp": 0.01023571,
      "balance_loss_clip": 1.03268909,
      "balance_loss_mlp": 1.01849592,
      "epoch": 0.8295557025190886,
      "flos": 24829337116800.0,
      "grad_norm": 1.8744766884869488,
      "language_loss": 0.71514904,
      "learning_rate": 2.969417245333774e-07,
      "loss": 0.73597908,
      "num_input_tokens_seen": 149069120,
      "step": 6899,
      "time_per_iteration": 2.6095707416534424
    },
    {
      "auxiliary_loss_clip": 0.01048107,
      "auxiliary_loss_mlp": 0.01018359,
      "balance_loss_clip": 1.03019571,
      "balance_loss_mlp": 1.01324809,
      "epoch": 0.8296759454097277,
      "flos": 25120893807360.0,
      "grad_norm": 1.965719950241476,
      "language_loss": 0.77576447,
      "learning_rate": 2.9653343321162915e-07,
      "loss": 0.79642916,
      "num_input_tokens_seen": 149088630,
      "step": 6900,
      "time_per_iteration": 2.597348213195801
    },
    {
      "auxiliary_loss_clip": 0.01049625,
      "auxiliary_loss_mlp": 0.0101749,
      "balance_loss_clip": 1.03205609,
      "balance_loss_mlp": 1.01180065,
      "epoch": 0.8297961883003667,
      "flos": 24134790263040.0,
      "grad_norm": 1.939747359589187,
      "language_loss": 0.65185273,
      "learning_rate": 2.9612540030440446e-07,
      "loss": 0.67252386,
      "num_input_tokens_seen": 149109175,
      "step": 6901,
      "time_per_iteration": 2.607532262802124
    },
    {
      "auxiliary_loss_clip": 0.01019688,
      "auxiliary_loss_mlp": 0.01000672,
      "balance_loss_clip": 1.01404595,
      "balance_loss_mlp": 0.99907464,
      "epoch": 0.8299164311910058,
      "flos": 67453518925440.0,
      "grad_norm": 0.855320043531362,
      "language_loss": 0.64044988,
      "learning_rate": 2.9571762587360206e-07,
      "loss": 0.66065347,
      "num_input_tokens_seen": 149165560,
      "step": 6902,
      "time_per_iteration": 3.0903663635253906
    },
    {
      "auxiliary_loss_clip": 0.01047735,
      "auxiliary_loss_mlp": 0.01020215,
      "balance_loss_clip": 1.03179121,
      "balance_loss_mlp": 1.01520801,
      "epoch": 0.8300366740816449,
      "flos": 25231038065280.0,
      "grad_norm": 1.668654130052544,
      "language_loss": 0.73830283,
      "learning_rate": 2.953101099810806e-07,
      "loss": 0.75898242,
      "num_input_tokens_seen": 149185165,
      "step": 6903,
      "time_per_iteration": 2.665224075317383
    },
    {
      "auxiliary_loss_clip": 0.01074029,
      "auxiliary_loss_mlp": 0.01021147,
      "balance_loss_clip": 1.03607738,
      "balance_loss_mlp": 1.01577687,
      "epoch": 0.830156916972284,
      "flos": 18042975129600.0,
      "grad_norm": 2.3508577301606945,
      "language_loss": 0.82561463,
      "learning_rate": 2.9490285268865965e-07,
      "loss": 0.84656638,
      "num_input_tokens_seen": 149202655,
      "step": 6904,
      "time_per_iteration": 2.53023099899292
    },
    {
      "auxiliary_loss_clip": 0.01081763,
      "auxiliary_loss_mlp": 0.01016992,
      "balance_loss_clip": 1.03805232,
      "balance_loss_mlp": 1.01163054,
      "epoch": 0.830277159862923,
      "flos": 26324859110400.0,
      "grad_norm": 2.6284827405304796,
      "language_loss": 0.79805899,
      "learning_rate": 2.9449585405812085e-07,
      "loss": 0.81904662,
      "num_input_tokens_seen": 149220035,
      "step": 6905,
      "time_per_iteration": 2.555629014968872
    },
    {
      "auxiliary_loss_clip": 0.01051334,
      "auxiliary_loss_mlp": 0.01017167,
      "balance_loss_clip": 1.03390551,
      "balance_loss_mlp": 1.0121932,
      "epoch": 0.8303974027535622,
      "flos": 19940956433280.0,
      "grad_norm": 2.045593045874254,
      "language_loss": 0.73825949,
      "learning_rate": 2.940891141512043e-07,
      "loss": 0.75894451,
      "num_input_tokens_seen": 149238055,
      "step": 6906,
      "time_per_iteration": 2.5915963649749756
    },
    {
      "auxiliary_loss_clip": 0.01072854,
      "auxiliary_loss_mlp": 0.01021656,
      "balance_loss_clip": 1.03695512,
      "balance_loss_mlp": 1.01607132,
      "epoch": 0.8305176456442013,
      "flos": 17167470860160.0,
      "grad_norm": 7.255791646869938,
      "language_loss": 0.72028279,
      "learning_rate": 2.9368263302961385e-07,
      "loss": 0.74122792,
      "num_input_tokens_seen": 149256755,
      "step": 6907,
      "time_per_iteration": 2.5356807708740234
    },
    {
      "auxiliary_loss_clip": 0.01032659,
      "auxiliary_loss_mlp": 0.01016122,
      "balance_loss_clip": 1.03247333,
      "balance_loss_mlp": 1.01094794,
      "epoch": 0.8306378885348403,
      "flos": 25629857239680.0,
      "grad_norm": 1.9961316772521234,
      "language_loss": 0.79638827,
      "learning_rate": 2.9327641075501075e-07,
      "loss": 0.81687605,
      "num_input_tokens_seen": 149275745,
      "step": 6908,
      "time_per_iteration": 3.434168577194214
    },
    {
      "auxiliary_loss_clip": 0.01070992,
      "auxiliary_loss_mlp": 0.01023963,
      "balance_loss_clip": 1.03490007,
      "balance_loss_mlp": 1.01857173,
      "epoch": 0.8307581314254795,
      "flos": 33950655221760.0,
      "grad_norm": 4.224116449064736,
      "language_loss": 0.66714543,
      "learning_rate": 2.9287044738901866e-07,
      "loss": 0.68809503,
      "num_input_tokens_seen": 149293730,
      "step": 6909,
      "time_per_iteration": 3.4300482273101807
    },
    {
      "auxiliary_loss_clip": 0.01079795,
      "auxiliary_loss_mlp": 0.00756509,
      "balance_loss_clip": 1.03538716,
      "balance_loss_mlp": 1.00163066,
      "epoch": 0.8308783743161186,
      "flos": 17564432048640.0,
      "grad_norm": 2.0320743337419707,
      "language_loss": 0.91050446,
      "learning_rate": 2.9246474299322274e-07,
      "loss": 0.92886746,
      "num_input_tokens_seen": 149309290,
      "step": 6910,
      "time_per_iteration": 3.28448224067688
    },
    {
      "auxiliary_loss_clip": 0.0100629,
      "auxiliary_loss_mlp": 0.01001368,
      "balance_loss_clip": 1.01754618,
      "balance_loss_mlp": 0.99972326,
      "epoch": 0.8309986172067576,
      "flos": 69419734957440.0,
      "grad_norm": 0.8858975252393229,
      "language_loss": 0.63074958,
      "learning_rate": 2.920592976291678e-07,
      "loss": 0.65082622,
      "num_input_tokens_seen": 149366620,
      "step": 6911,
      "time_per_iteration": 3.1121115684509277
    },
    {
      "auxiliary_loss_clip": 0.01082303,
      "auxiliary_loss_mlp": 0.0102222,
      "balance_loss_clip": 1.03667831,
      "balance_loss_mlp": 1.01716232,
      "epoch": 0.8311188600973968,
      "flos": 22311944778240.0,
      "grad_norm": 1.897716220934542,
      "language_loss": 0.80633521,
      "learning_rate": 2.916541113583595e-07,
      "loss": 0.82738048,
      "num_input_tokens_seen": 149385120,
      "step": 6912,
      "time_per_iteration": 2.523432970046997
    },
    {
      "auxiliary_loss_clip": 0.01054876,
      "auxiliary_loss_mlp": 0.01020529,
      "balance_loss_clip": 1.03909874,
      "balance_loss_mlp": 1.01497412,
      "epoch": 0.8312391029880358,
      "flos": 18772037487360.0,
      "grad_norm": 2.4803840885838198,
      "language_loss": 0.66659629,
      "learning_rate": 2.912491842422642e-07,
      "loss": 0.68735039,
      "num_input_tokens_seen": 149402825,
      "step": 6913,
      "time_per_iteration": 2.5668275356292725
    },
    {
      "auxiliary_loss_clip": 0.01082656,
      "auxiliary_loss_mlp": 0.01019298,
      "balance_loss_clip": 1.03699517,
      "balance_loss_mlp": 1.01415992,
      "epoch": 0.8313593458786749,
      "flos": 20378765445120.0,
      "grad_norm": 1.8094558275988506,
      "language_loss": 0.71108603,
      "learning_rate": 2.9084451634230857e-07,
      "loss": 0.73210561,
      "num_input_tokens_seen": 149422125,
      "step": 6914,
      "time_per_iteration": 2.5517537593841553
    },
    {
      "auxiliary_loss_clip": 0.01053775,
      "auxiliary_loss_mlp": 0.0102015,
      "balance_loss_clip": 1.03266859,
      "balance_loss_mlp": 1.01484823,
      "epoch": 0.831479588769314,
      "flos": 32126785948800.0,
      "grad_norm": 2.0912244800670736,
      "language_loss": 0.71091676,
      "learning_rate": 2.9044010771988125e-07,
      "loss": 0.73165596,
      "num_input_tokens_seen": 149441940,
      "step": 6915,
      "time_per_iteration": 2.6804590225219727
    },
    {
      "auxiliary_loss_clip": 0.01068829,
      "auxiliary_loss_mlp": 0.01019154,
      "balance_loss_clip": 1.03515947,
      "balance_loss_mlp": 1.01391745,
      "epoch": 0.8315998316599531,
      "flos": 45189371030400.0,
      "grad_norm": 1.9478430125594333,
      "language_loss": 0.72012615,
      "learning_rate": 2.900359584363303e-07,
      "loss": 0.74100602,
      "num_input_tokens_seen": 149465045,
      "step": 6916,
      "time_per_iteration": 3.532184600830078
    },
    {
      "auxiliary_loss_clip": 0.01036056,
      "auxiliary_loss_mlp": 0.01026086,
      "balance_loss_clip": 1.0307647,
      "balance_loss_mlp": 1.02053428,
      "epoch": 0.8317200745505922,
      "flos": 18365407188480.0,
      "grad_norm": 4.200637686357619,
      "language_loss": 0.84563112,
      "learning_rate": 2.8963206855296494e-07,
      "loss": 0.8662526,
      "num_input_tokens_seen": 149481285,
      "step": 6917,
      "time_per_iteration": 2.5635173320770264
    },
    {
      "auxiliary_loss_clip": 0.01079912,
      "auxiliary_loss_mlp": 0.01024205,
      "balance_loss_clip": 1.03578579,
      "balance_loss_mlp": 1.01901603,
      "epoch": 0.8318403174412313,
      "flos": 24208826457600.0,
      "grad_norm": 1.778551388636632,
      "language_loss": 0.77136129,
      "learning_rate": 2.892284381310548e-07,
      "loss": 0.79240239,
      "num_input_tokens_seen": 149502700,
      "step": 6918,
      "time_per_iteration": 2.5681071281433105
    },
    {
      "auxiliary_loss_clip": 0.01059039,
      "auxiliary_loss_mlp": 0.01019276,
      "balance_loss_clip": 1.03221607,
      "balance_loss_mlp": 1.01374447,
      "epoch": 0.8319605603318704,
      "flos": 22420951493760.0,
      "grad_norm": 3.5651795673854916,
      "language_loss": 0.72487789,
      "learning_rate": 2.888250672318302e-07,
      "loss": 0.74566102,
      "num_input_tokens_seen": 149520100,
      "step": 6919,
      "time_per_iteration": 2.5354220867156982
    },
    {
      "auxiliary_loss_clip": 0.01095407,
      "auxiliary_loss_mlp": 0.01023816,
      "balance_loss_clip": 1.03911495,
      "balance_loss_mlp": 1.01854956,
      "epoch": 0.8320808032225094,
      "flos": 37417512188160.0,
      "grad_norm": 2.316844888492103,
      "language_loss": 0.68846452,
      "learning_rate": 2.884219559164831e-07,
      "loss": 0.70965683,
      "num_input_tokens_seen": 149543245,
      "step": 6920,
      "time_per_iteration": 2.648871898651123
    },
    {
      "auxiliary_loss_clip": 0.01079045,
      "auxiliary_loss_mlp": 0.01017736,
      "balance_loss_clip": 1.03669977,
      "balance_loss_mlp": 1.01252675,
      "epoch": 0.8322010461131486,
      "flos": 12789077397120.0,
      "grad_norm": 2.2070047009882168,
      "language_loss": 0.81434798,
      "learning_rate": 2.880191042461635e-07,
      "loss": 0.83531582,
      "num_input_tokens_seen": 149559185,
      "step": 6921,
      "time_per_iteration": 2.468986749649048
    },
    {
      "auxiliary_loss_clip": 0.01046464,
      "auxiliary_loss_mlp": 0.01019683,
      "balance_loss_clip": 1.03328753,
      "balance_loss_mlp": 1.01486993,
      "epoch": 0.8323212890037877,
      "flos": 15817291153920.0,
      "grad_norm": 1.7440975082940586,
      "language_loss": 0.80182654,
      "learning_rate": 2.876165122819849e-07,
      "loss": 0.82248795,
      "num_input_tokens_seen": 149577165,
      "step": 6922,
      "time_per_iteration": 2.617569923400879
    },
    {
      "auxiliary_loss_clip": 0.0109064,
      "auxiliary_loss_mlp": 0.01016281,
      "balance_loss_clip": 1.03610873,
      "balance_loss_mlp": 1.01112556,
      "epoch": 0.8324415318944267,
      "flos": 21721058190720.0,
      "grad_norm": 1.6202486365897772,
      "language_loss": 0.79574913,
      "learning_rate": 2.872141800850201e-07,
      "loss": 0.81681836,
      "num_input_tokens_seen": 149594340,
      "step": 6923,
      "time_per_iteration": 2.4688022136688232
    },
    {
      "auxiliary_loss_clip": 0.01090991,
      "auxiliary_loss_mlp": 0.01020887,
      "balance_loss_clip": 1.03600264,
      "balance_loss_mlp": 1.01614833,
      "epoch": 0.8325617747850659,
      "flos": 34201250334720.0,
      "grad_norm": 1.8362821819259856,
      "language_loss": 0.73376721,
      "learning_rate": 2.868121077163024e-07,
      "loss": 0.75488597,
      "num_input_tokens_seen": 149613895,
      "step": 6924,
      "time_per_iteration": 2.59942889213562
    },
    {
      "auxiliary_loss_clip": 0.01083038,
      "auxiliary_loss_mlp": 0.01022653,
      "balance_loss_clip": 1.03699946,
      "balance_loss_mlp": 1.01754177,
      "epoch": 0.8326820176757049,
      "flos": 18371436163200.0,
      "grad_norm": 2.485795430775953,
      "language_loss": 0.72320127,
      "learning_rate": 2.864102952368257e-07,
      "loss": 0.74425817,
      "num_input_tokens_seen": 149631820,
      "step": 6925,
      "time_per_iteration": 2.483898401260376
    },
    {
      "auxiliary_loss_clip": 0.01046756,
      "auxiliary_loss_mlp": 0.0101982,
      "balance_loss_clip": 1.03330469,
      "balance_loss_mlp": 1.01418471,
      "epoch": 0.832802260566344,
      "flos": 35994244239360.0,
      "grad_norm": 1.5544667603787397,
      "language_loss": 0.59431219,
      "learning_rate": 2.860087427075444e-07,
      "loss": 0.61497796,
      "num_input_tokens_seen": 149656070,
      "step": 6926,
      "time_per_iteration": 2.7529799938201904
    },
    {
      "auxiliary_loss_clip": 0.01070717,
      "auxiliary_loss_mlp": 0.01023532,
      "balance_loss_clip": 1.03543246,
      "balance_loss_mlp": 1.01836133,
      "epoch": 0.8329225034569832,
      "flos": 14246064570240.0,
      "grad_norm": 2.5917723449738115,
      "language_loss": 0.86270076,
      "learning_rate": 2.856074501893744e-07,
      "loss": 0.88364327,
      "num_input_tokens_seen": 149671270,
      "step": 6927,
      "time_per_iteration": 2.5025525093078613
    },
    {
      "auxiliary_loss_clip": 0.01081816,
      "auxiliary_loss_mlp": 0.01019123,
      "balance_loss_clip": 1.03755927,
      "balance_loss_mlp": 1.01411629,
      "epoch": 0.8330427463476222,
      "flos": 18079424455680.0,
      "grad_norm": 1.6391291824026344,
      "language_loss": 0.8168807,
      "learning_rate": 2.8520641774319054e-07,
      "loss": 0.83789015,
      "num_input_tokens_seen": 149689360,
      "step": 6928,
      "time_per_iteration": 2.5022075176239014
    },
    {
      "auxiliary_loss_clip": 0.01069677,
      "auxiliary_loss_mlp": 0.01020907,
      "balance_loss_clip": 1.03354549,
      "balance_loss_mlp": 1.01566768,
      "epoch": 0.8331629892382613,
      "flos": 18042785539200.0,
      "grad_norm": 6.071298348249688,
      "language_loss": 0.76127619,
      "learning_rate": 2.848056454298309e-07,
      "loss": 0.78218204,
      "num_input_tokens_seen": 149706685,
      "step": 6929,
      "time_per_iteration": 2.5234811305999756
    },
    {
      "auxiliary_loss_clip": 0.01064907,
      "auxiliary_loss_mlp": 0.01018688,
      "balance_loss_clip": 1.03516603,
      "balance_loss_mlp": 1.01315629,
      "epoch": 0.8332832321289004,
      "flos": 17459330895360.0,
      "grad_norm": 2.229929002117048,
      "language_loss": 0.6525296,
      "learning_rate": 2.844051333100905e-07,
      "loss": 0.67336559,
      "num_input_tokens_seen": 149724230,
      "step": 6930,
      "time_per_iteration": 2.5168590545654297
    },
    {
      "auxiliary_loss_clip": 0.01069846,
      "auxiliary_loss_mlp": 0.01017335,
      "balance_loss_clip": 1.03723407,
      "balance_loss_mlp": 1.01280856,
      "epoch": 0.8334034750195395,
      "flos": 15086598318720.0,
      "grad_norm": 2.0791402061015942,
      "language_loss": 0.83706295,
      "learning_rate": 2.840048814447269e-07,
      "loss": 0.85793471,
      "num_input_tokens_seen": 149742395,
      "step": 6931,
      "time_per_iteration": 2.5170178413391113
    },
    {
      "auxiliary_loss_clip": 0.01074125,
      "auxiliary_loss_mlp": 0.01018338,
      "balance_loss_clip": 1.03699362,
      "balance_loss_mlp": 1.01325381,
      "epoch": 0.8335237179101785,
      "flos": 19429187063040.0,
      "grad_norm": 2.4897627351903147,
      "language_loss": 0.74123549,
      "learning_rate": 2.836048898944587e-07,
      "loss": 0.76216018,
      "num_input_tokens_seen": 149760820,
      "step": 6932,
      "time_per_iteration": 2.5399582386016846
    },
    {
      "auxiliary_loss_clip": 0.01068307,
      "auxiliary_loss_mlp": 0.01017982,
      "balance_loss_clip": 1.03459096,
      "balance_loss_mlp": 1.01324606,
      "epoch": 0.8336439608008177,
      "flos": 21764181098880.0,
      "grad_norm": 2.544436844401618,
      "language_loss": 0.72676808,
      "learning_rate": 2.832051587199642e-07,
      "loss": 0.74763095,
      "num_input_tokens_seen": 149778075,
      "step": 6933,
      "time_per_iteration": 2.540320634841919
    },
    {
      "auxiliary_loss_clip": 0.01032637,
      "auxiliary_loss_mlp": 0.01001867,
      "balance_loss_clip": 1.01714778,
      "balance_loss_mlp": 1.00029397,
      "epoch": 0.8337642036914568,
      "flos": 59708819479680.0,
      "grad_norm": 0.8479883363115467,
      "language_loss": 0.5769462,
      "learning_rate": 2.828056879818821e-07,
      "loss": 0.59729123,
      "num_input_tokens_seen": 149837150,
      "step": 6934,
      "time_per_iteration": 3.7407844066619873
    },
    {
      "auxiliary_loss_clip": 0.01060148,
      "auxiliary_loss_mlp": 0.01018841,
      "balance_loss_clip": 1.03471756,
      "balance_loss_mlp": 1.01408184,
      "epoch": 0.8338844465820958,
      "flos": 27164634497280.0,
      "grad_norm": 1.971741476543038,
      "language_loss": 0.83316201,
      "learning_rate": 2.824064777408117e-07,
      "loss": 0.85395193,
      "num_input_tokens_seen": 149856940,
      "step": 6935,
      "time_per_iteration": 3.419555187225342
    },
    {
      "auxiliary_loss_clip": 0.01073985,
      "auxiliary_loss_mlp": 0.01021692,
      "balance_loss_clip": 1.03260684,
      "balance_loss_mlp": 1.01650023,
      "epoch": 0.8340046894727349,
      "flos": 30483836173440.0,
      "grad_norm": 2.3350195399232407,
      "language_loss": 0.75722218,
      "learning_rate": 2.8200752805731263e-07,
      "loss": 0.77817893,
      "num_input_tokens_seen": 149879930,
      "step": 6936,
      "time_per_iteration": 3.336116313934326
    },
    {
      "auxiliary_loss_clip": 0.01079779,
      "auxiliary_loss_mlp": 0.01017847,
      "balance_loss_clip": 1.03759956,
      "balance_loss_mlp": 1.01270616,
      "epoch": 0.834124932363374,
      "flos": 27128640188160.0,
      "grad_norm": 1.6376623814657854,
      "language_loss": 0.81183434,
      "learning_rate": 2.8160883899190625e-07,
      "loss": 0.83281064,
      "num_input_tokens_seen": 149903200,
      "step": 6937,
      "time_per_iteration": 2.584702730178833
    },
    {
      "auxiliary_loss_clip": 0.0105195,
      "auxiliary_loss_mlp": 0.01020784,
      "balance_loss_clip": 1.03217471,
      "balance_loss_mlp": 1.01581275,
      "epoch": 0.8342451752540131,
      "flos": 24572068421760.0,
      "grad_norm": 2.2754832017256277,
      "language_loss": 0.73149192,
      "learning_rate": 2.8121041060507234e-07,
      "loss": 0.7522192,
      "num_input_tokens_seen": 149922230,
      "step": 6938,
      "time_per_iteration": 2.5865721702575684
    },
    {
      "auxiliary_loss_clip": 0.01082776,
      "auxiliary_loss_mlp": 0.01018389,
      "balance_loss_clip": 1.03676724,
      "balance_loss_mlp": 1.01312256,
      "epoch": 0.8343654181446521,
      "flos": 26617515425280.0,
      "grad_norm": 2.6830613809778083,
      "language_loss": 0.71748495,
      "learning_rate": 2.808122429572528e-07,
      "loss": 0.73849666,
      "num_input_tokens_seen": 149942435,
      "step": 6939,
      "time_per_iteration": 2.5884363651275635
    },
    {
      "auxiliary_loss_clip": 0.0105739,
      "auxiliary_loss_mlp": 0.01019236,
      "balance_loss_clip": 1.0332334,
      "balance_loss_mlp": 1.01411283,
      "epoch": 0.8344856610352913,
      "flos": 20779366769280.0,
      "grad_norm": 2.650174021867481,
      "language_loss": 0.76304573,
      "learning_rate": 2.804143361088489e-07,
      "loss": 0.78381205,
      "num_input_tokens_seen": 149961615,
      "step": 6940,
      "time_per_iteration": 2.569707155227661
    },
    {
      "auxiliary_loss_clip": 0.01068099,
      "auxiliary_loss_mlp": 0.01021187,
      "balance_loss_clip": 1.03496778,
      "balance_loss_mlp": 1.01582861,
      "epoch": 0.8346059039259304,
      "flos": 26097897012480.0,
      "grad_norm": 4.8164261818837675,
      "language_loss": 0.78148019,
      "learning_rate": 2.8001669012022277e-07,
      "loss": 0.80237299,
      "num_input_tokens_seen": 149979585,
      "step": 6941,
      "time_per_iteration": 2.579291820526123
    },
    {
      "auxiliary_loss_clip": 0.01079487,
      "auxiliary_loss_mlp": 0.01019956,
      "balance_loss_clip": 1.03754795,
      "balance_loss_mlp": 1.01439166,
      "epoch": 0.8347261468165694,
      "flos": 29030527054080.0,
      "grad_norm": 1.6717400354598244,
      "language_loss": 0.69331992,
      "learning_rate": 2.7961930505169795e-07,
      "loss": 0.71431434,
      "num_input_tokens_seen": 150003830,
      "step": 6942,
      "time_per_iteration": 3.424344539642334
    },
    {
      "auxiliary_loss_clip": 0.01080142,
      "auxiliary_loss_mlp": 0.00756619,
      "balance_loss_clip": 1.0361135,
      "balance_loss_mlp": 1.00167525,
      "epoch": 0.8348463897072086,
      "flos": 26398895304960.0,
      "grad_norm": 1.8343138020878005,
      "language_loss": 0.7622686,
      "learning_rate": 2.792221809635558e-07,
      "loss": 0.78063619,
      "num_input_tokens_seen": 150024460,
      "step": 6943,
      "time_per_iteration": 2.5600926876068115
    },
    {
      "auxiliary_loss_clip": 0.01011005,
      "auxiliary_loss_mlp": 0.01018808,
      "balance_loss_clip": 1.02712393,
      "balance_loss_mlp": 1.01341987,
      "epoch": 0.8349666325978476,
      "flos": 23369961104640.0,
      "grad_norm": 2.210140083004544,
      "language_loss": 0.7507478,
      "learning_rate": 2.788253179160411e-07,
      "loss": 0.77104592,
      "num_input_tokens_seen": 150045620,
      "step": 6944,
      "time_per_iteration": 2.7897744178771973
    },
    {
      "auxiliary_loss_clip": 0.01068588,
      "auxiliary_loss_mlp": 0.01022096,
      "balance_loss_clip": 1.03544545,
      "balance_loss_mlp": 1.01733017,
      "epoch": 0.8350868754884867,
      "flos": 12898197866880.0,
      "grad_norm": 2.5077098613337356,
      "language_loss": 0.65080535,
      "learning_rate": 2.7842871596935725e-07,
      "loss": 0.67171216,
      "num_input_tokens_seen": 150064135,
      "step": 6945,
      "time_per_iteration": 2.770982503890991
    },
    {
      "auxiliary_loss_clip": 0.01077734,
      "auxiliary_loss_mlp": 0.01014949,
      "balance_loss_clip": 1.03564978,
      "balance_loss_mlp": 1.00976658,
      "epoch": 0.8352071183791259,
      "flos": 26507939938560.0,
      "grad_norm": 2.140824486830963,
      "language_loss": 0.69114482,
      "learning_rate": 2.780323751836682e-07,
      "loss": 0.71207166,
      "num_input_tokens_seen": 150085350,
      "step": 6946,
      "time_per_iteration": 2.5552759170532227
    },
    {
      "auxiliary_loss_clip": 0.01071457,
      "auxiliary_loss_mlp": 0.00756223,
      "balance_loss_clip": 1.03540611,
      "balance_loss_mlp": 1.00167251,
      "epoch": 0.8353273612697649,
      "flos": 20670170463360.0,
      "grad_norm": 2.12146812697873,
      "language_loss": 0.78887409,
      "learning_rate": 2.7763629561909876e-07,
      "loss": 0.80715084,
      "num_input_tokens_seen": 150106180,
      "step": 6947,
      "time_per_iteration": 2.5667028427124023
    },
    {
      "auxiliary_loss_clip": 0.01090565,
      "auxiliary_loss_mlp": 0.01018611,
      "balance_loss_clip": 1.0354917,
      "balance_loss_mlp": 1.01339221,
      "epoch": 0.835447604160404,
      "flos": 19756093455360.0,
      "grad_norm": 2.1774682598489816,
      "language_loss": 0.76753724,
      "learning_rate": 2.772404773357335e-07,
      "loss": 0.78862894,
      "num_input_tokens_seen": 150125585,
      "step": 6948,
      "time_per_iteration": 2.476365566253662
    },
    {
      "auxiliary_loss_clip": 0.01055893,
      "auxiliary_loss_mlp": 0.01020037,
      "balance_loss_clip": 1.03282261,
      "balance_loss_mlp": 1.01480365,
      "epoch": 0.8355678470510431,
      "flos": 23437816652160.0,
      "grad_norm": 1.8593160331552214,
      "language_loss": 0.78116155,
      "learning_rate": 2.7684492039361853e-07,
      "loss": 0.80192077,
      "num_input_tokens_seen": 150144810,
      "step": 6949,
      "time_per_iteration": 2.5775644779205322
    },
    {
      "auxiliary_loss_clip": 0.01092561,
      "auxiliary_loss_mlp": 0.01018824,
      "balance_loss_clip": 1.03749394,
      "balance_loss_mlp": 1.01370704,
      "epoch": 0.8356880899416822,
      "flos": 21216682846080.0,
      "grad_norm": 1.7881201742360024,
      "language_loss": 0.83619499,
      "learning_rate": 2.764496248527586e-07,
      "loss": 0.85730886,
      "num_input_tokens_seen": 150163785,
      "step": 6950,
      "time_per_iteration": 2.4736580848693848
    },
    {
      "auxiliary_loss_clip": 0.0105558,
      "auxiliary_loss_mlp": 0.01020072,
      "balance_loss_clip": 1.03530788,
      "balance_loss_mlp": 1.01499701,
      "epoch": 0.8358083328323213,
      "flos": 28040025012480.0,
      "grad_norm": 2.623176924266872,
      "language_loss": 0.78395659,
      "learning_rate": 2.760545907731211e-07,
      "loss": 0.80471313,
      "num_input_tokens_seen": 150184360,
      "step": 6951,
      "time_per_iteration": 2.616114377975464
    },
    {
      "auxiliary_loss_clip": 0.01083941,
      "auxiliary_loss_mlp": 0.01016766,
      "balance_loss_clip": 1.03731918,
      "balance_loss_mlp": 1.0112083,
      "epoch": 0.8359285757229604,
      "flos": 27786206862720.0,
      "grad_norm": 1.9300545850301487,
      "language_loss": 0.67963403,
      "learning_rate": 2.75659818214631e-07,
      "loss": 0.70064116,
      "num_input_tokens_seen": 150205465,
      "step": 6952,
      "time_per_iteration": 2.582821846008301
    },
    {
      "auxiliary_loss_clip": 0.01066922,
      "auxiliary_loss_mlp": 0.01017787,
      "balance_loss_clip": 1.03392017,
      "balance_loss_mlp": 1.01249158,
      "epoch": 0.8360488186135995,
      "flos": 21437312624640.0,
      "grad_norm": 2.3376994738169965,
      "language_loss": 0.78126657,
      "learning_rate": 2.752653072371749e-07,
      "loss": 0.80211365,
      "num_input_tokens_seen": 150224900,
      "step": 6953,
      "time_per_iteration": 2.5393691062927246
    },
    {
      "auxiliary_loss_clip": 0.01051771,
      "auxiliary_loss_mlp": 0.01021601,
      "balance_loss_clip": 1.03333032,
      "balance_loss_mlp": 1.01673388,
      "epoch": 0.8361690615042385,
      "flos": 27634570174080.0,
      "grad_norm": 1.975270923666697,
      "language_loss": 0.74789464,
      "learning_rate": 2.7487105790060105e-07,
      "loss": 0.76862836,
      "num_input_tokens_seen": 150244310,
      "step": 6954,
      "time_per_iteration": 2.633711338043213
    },
    {
      "auxiliary_loss_clip": 0.0108071,
      "auxiliary_loss_mlp": 0.01019918,
      "balance_loss_clip": 1.03522801,
      "balance_loss_mlp": 1.01519167,
      "epoch": 0.8362893043948777,
      "flos": 39205652578560.0,
      "grad_norm": 1.8495785335094281,
      "language_loss": 0.69269061,
      "learning_rate": 2.7447707026471587e-07,
      "loss": 0.7136969,
      "num_input_tokens_seen": 150267285,
      "step": 6955,
      "time_per_iteration": 2.6740007400512695
    },
    {
      "auxiliary_loss_clip": 0.01057245,
      "auxiliary_loss_mlp": 0.01017516,
      "balance_loss_clip": 1.03482723,
      "balance_loss_mlp": 1.01263404,
      "epoch": 0.8364095472855168,
      "flos": 24787351751040.0,
      "grad_norm": 1.9778213769515969,
      "language_loss": 0.79883456,
      "learning_rate": 2.740833443892874e-07,
      "loss": 0.81958222,
      "num_input_tokens_seen": 150285455,
      "step": 6956,
      "time_per_iteration": 2.624497890472412
    },
    {
      "auxiliary_loss_clip": 0.01067297,
      "auxiliary_loss_mlp": 0.01020089,
      "balance_loss_clip": 1.03467667,
      "balance_loss_mlp": 1.01487994,
      "epoch": 0.8365297901761558,
      "flos": 22745393210880.0,
      "grad_norm": 1.7727909289970905,
      "language_loss": 0.7981379,
      "learning_rate": 2.7368988033404327e-07,
      "loss": 0.81901175,
      "num_input_tokens_seen": 150302970,
      "step": 6957,
      "time_per_iteration": 2.5592262744903564
    },
    {
      "auxiliary_loss_clip": 0.01055849,
      "auxiliary_loss_mlp": 0.01019002,
      "balance_loss_clip": 1.03394198,
      "balance_loss_mlp": 1.01428461,
      "epoch": 0.836650033066795,
      "flos": 28398148035840.0,
      "grad_norm": 2.188971165353845,
      "language_loss": 0.84832406,
      "learning_rate": 2.732966781586712e-07,
      "loss": 0.86907262,
      "num_input_tokens_seen": 150322715,
      "step": 6958,
      "time_per_iteration": 2.648015260696411
    },
    {
      "auxiliary_loss_clip": 0.01081479,
      "auxiliary_loss_mlp": 0.01015621,
      "balance_loss_clip": 1.03656757,
      "balance_loss_mlp": 1.01064396,
      "epoch": 0.836770275957434,
      "flos": 22239046126080.0,
      "grad_norm": 1.646915992961556,
      "language_loss": 0.66472828,
      "learning_rate": 2.729037379228205e-07,
      "loss": 0.68569934,
      "num_input_tokens_seen": 150342900,
      "step": 6959,
      "time_per_iteration": 2.532066583633423
    },
    {
      "auxiliary_loss_clip": 0.010654,
      "auxiliary_loss_mlp": 0.01022794,
      "balance_loss_clip": 1.03464258,
      "balance_loss_mlp": 1.017766,
      "epoch": 0.8368905188480731,
      "flos": 22494115572480.0,
      "grad_norm": 1.5251553404307885,
      "language_loss": 0.80265462,
      "learning_rate": 2.725110596860998e-07,
      "loss": 0.82353652,
      "num_input_tokens_seen": 150363580,
      "step": 6960,
      "time_per_iteration": 3.4338440895080566
    },
    {
      "auxiliary_loss_clip": 0.01045218,
      "auxiliary_loss_mlp": 0.0101706,
      "balance_loss_clip": 1.03508234,
      "balance_loss_mlp": 1.01209164,
      "epoch": 0.8370107617387123,
      "flos": 13372077024000.0,
      "grad_norm": 2.1456657426481307,
      "language_loss": 0.6974023,
      "learning_rate": 2.7211864350807776e-07,
      "loss": 0.71802509,
      "num_input_tokens_seen": 150381780,
      "step": 6961,
      "time_per_iteration": 3.4142568111419678
    },
    {
      "auxiliary_loss_clip": 0.01092519,
      "auxiliary_loss_mlp": 0.01021392,
      "balance_loss_clip": 1.03736687,
      "balance_loss_mlp": 1.01605392,
      "epoch": 0.8371310046293513,
      "flos": 25263430156800.0,
      "grad_norm": 1.9098998806041734,
      "language_loss": 0.73801899,
      "learning_rate": 2.717264894482836e-07,
      "loss": 0.75915813,
      "num_input_tokens_seen": 150402120,
      "step": 6962,
      "time_per_iteration": 3.34810209274292
    },
    {
      "auxiliary_loss_clip": 0.01081515,
      "auxiliary_loss_mlp": 0.01018611,
      "balance_loss_clip": 1.03782976,
      "balance_loss_mlp": 1.01293373,
      "epoch": 0.8372512475199904,
      "flos": 19794779948160.0,
      "grad_norm": 2.334837518158683,
      "language_loss": 0.81114435,
      "learning_rate": 2.7133459756620646e-07,
      "loss": 0.83214557,
      "num_input_tokens_seen": 150419315,
      "step": 6963,
      "time_per_iteration": 2.540248155593872
    },
    {
      "auxiliary_loss_clip": 0.01081708,
      "auxiliary_loss_mlp": 0.01021586,
      "balance_loss_clip": 1.03690338,
      "balance_loss_mlp": 1.01621294,
      "epoch": 0.8373714904106295,
      "flos": 19393268590080.0,
      "grad_norm": 2.160987836708549,
      "language_loss": 0.73601031,
      "learning_rate": 2.7094296792129733e-07,
      "loss": 0.75704324,
      "num_input_tokens_seen": 150438915,
      "step": 6964,
      "time_per_iteration": 2.5068116188049316
    },
    {
      "auxiliary_loss_clip": 0.01079057,
      "auxiliary_loss_mlp": 0.0101836,
      "balance_loss_clip": 1.03544927,
      "balance_loss_mlp": 1.01331115,
      "epoch": 0.8374917333012686,
      "flos": 14977705357440.0,
      "grad_norm": 1.9857625202376907,
      "language_loss": 0.75474566,
      "learning_rate": 2.7055160057296424e-07,
      "loss": 0.77571976,
      "num_input_tokens_seen": 150456155,
      "step": 6965,
      "time_per_iteration": 2.5146751403808594
    },
    {
      "auxiliary_loss_clip": 0.0105552,
      "auxiliary_loss_mlp": 0.01021625,
      "balance_loss_clip": 1.03374314,
      "balance_loss_mlp": 1.01652241,
      "epoch": 0.8376119761919076,
      "flos": 30334209143040.0,
      "grad_norm": 1.5699470940479987,
      "language_loss": 0.72241843,
      "learning_rate": 2.7016049558057896e-07,
      "loss": 0.74318993,
      "num_input_tokens_seen": 150478115,
      "step": 6966,
      "time_per_iteration": 2.6446592807769775
    },
    {
      "auxiliary_loss_clip": 0.01079663,
      "auxiliary_loss_mlp": 0.01022028,
      "balance_loss_clip": 1.0370338,
      "balance_loss_mlp": 1.01670563,
      "epoch": 0.8377322190825467,
      "flos": 29425857765120.0,
      "grad_norm": 1.8561212300262242,
      "language_loss": 0.70348561,
      "learning_rate": 2.6976965300347074e-07,
      "loss": 0.72450256,
      "num_input_tokens_seen": 150500725,
      "step": 6967,
      "time_per_iteration": 2.613781452178955
    },
    {
      "auxiliary_loss_clip": 0.01066897,
      "auxiliary_loss_mlp": 0.01017578,
      "balance_loss_clip": 1.0337553,
      "balance_loss_mlp": 1.01235366,
      "epoch": 0.8378524619731859,
      "flos": 26689466125440.0,
      "grad_norm": 4.105734110791932,
      "language_loss": 0.69156432,
      "learning_rate": 2.693790729009309e-07,
      "loss": 0.71240914,
      "num_input_tokens_seen": 150522335,
      "step": 6968,
      "time_per_iteration": 3.3689260482788086
    },
    {
      "auxiliary_loss_clip": 0.0106552,
      "auxiliary_loss_mlp": 0.01019096,
      "balance_loss_clip": 1.03393912,
      "balance_loss_mlp": 1.01397562,
      "epoch": 0.8379727048638249,
      "flos": 20705937264000.0,
      "grad_norm": 2.0792721856656904,
      "language_loss": 0.88567257,
      "learning_rate": 2.6898875533220946e-07,
      "loss": 0.90651876,
      "num_input_tokens_seen": 150541640,
      "step": 6969,
      "time_per_iteration": 2.5417768955230713
    },
    {
      "auxiliary_loss_clip": 0.0109151,
      "auxiliary_loss_mlp": 0.01017121,
      "balance_loss_clip": 1.03736377,
      "balance_loss_mlp": 1.01250458,
      "epoch": 0.838092947754464,
      "flos": 20086147048320.0,
      "grad_norm": 1.7865330034177176,
      "language_loss": 0.81670308,
      "learning_rate": 2.685987003565171e-07,
      "loss": 0.83778942,
      "num_input_tokens_seen": 150559680,
      "step": 6970,
      "time_per_iteration": 2.5012731552124023
    },
    {
      "auxiliary_loss_clip": 0.01041189,
      "auxiliary_loss_mlp": 0.01021368,
      "balance_loss_clip": 1.03036594,
      "balance_loss_mlp": 1.01600647,
      "epoch": 0.8382131906451031,
      "flos": 18115191256320.0,
      "grad_norm": 2.3389181660132308,
      "language_loss": 0.75287116,
      "learning_rate": 2.6820890803302566e-07,
      "loss": 0.77349675,
      "num_input_tokens_seen": 150575205,
      "step": 6971,
      "time_per_iteration": 2.5308852195739746
    },
    {
      "auxiliary_loss_clip": 0.01059643,
      "auxiliary_loss_mlp": 0.01017191,
      "balance_loss_clip": 1.03871155,
      "balance_loss_mlp": 1.0121069,
      "epoch": 0.8383334335357422,
      "flos": 17094572208000.0,
      "grad_norm": 2.296144092765313,
      "language_loss": 0.8179031,
      "learning_rate": 2.6781937842086557e-07,
      "loss": 0.83867145,
      "num_input_tokens_seen": 150593995,
      "step": 6972,
      "time_per_iteration": 2.5441718101501465
    },
    {
      "auxiliary_loss_clip": 0.010793,
      "auxiliary_loss_mlp": 0.01020065,
      "balance_loss_clip": 1.03475022,
      "balance_loss_mlp": 1.01493883,
      "epoch": 0.8384536764263812,
      "flos": 20706847297920.0,
      "grad_norm": 3.3467806256493886,
      "language_loss": 0.67207575,
      "learning_rate": 2.6743011157912933e-07,
      "loss": 0.6930694,
      "num_input_tokens_seen": 150613715,
      "step": 6973,
      "time_per_iteration": 2.499819755554199
    },
    {
      "auxiliary_loss_clip": 0.01048696,
      "auxiliary_loss_mlp": 0.01019629,
      "balance_loss_clip": 1.03478861,
      "balance_loss_mlp": 1.01422894,
      "epoch": 0.8385739193170204,
      "flos": 28989413804160.0,
      "grad_norm": 1.7430303536424046,
      "language_loss": 0.65195817,
      "learning_rate": 2.6704110756686725e-07,
      "loss": 0.6726414,
      "num_input_tokens_seen": 150634540,
      "step": 6974,
      "time_per_iteration": 2.693897247314453
    },
    {
      "auxiliary_loss_clip": 0.01072812,
      "auxiliary_loss_mlp": 0.00756558,
      "balance_loss_clip": 1.03598261,
      "balance_loss_mlp": 1.00155842,
      "epoch": 0.8386941622076595,
      "flos": 23440167573120.0,
      "grad_norm": 1.7603622204069242,
      "language_loss": 0.8365621,
      "learning_rate": 2.6665236644309085e-07,
      "loss": 0.85485578,
      "num_input_tokens_seen": 150654850,
      "step": 6975,
      "time_per_iteration": 2.5837740898132324
    },
    {
      "auxiliary_loss_clip": 0.01080694,
      "auxiliary_loss_mlp": 0.0101687,
      "balance_loss_clip": 1.035604,
      "balance_loss_mlp": 1.01209235,
      "epoch": 0.8388144050982985,
      "flos": 23004936990720.0,
      "grad_norm": 2.0672775797579397,
      "language_loss": 0.79700834,
      "learning_rate": 2.662638882667727e-07,
      "loss": 0.81798398,
      "num_input_tokens_seen": 150673790,
      "step": 6976,
      "time_per_iteration": 2.5352120399475098
    },
    {
      "auxiliary_loss_clip": 0.0109263,
      "auxiliary_loss_mlp": 0.0102043,
      "balance_loss_clip": 1.03614712,
      "balance_loss_mlp": 1.01505995,
      "epoch": 0.8389346479889377,
      "flos": 24282673061760.0,
      "grad_norm": 2.0300107103277236,
      "language_loss": 0.73040068,
      "learning_rate": 2.658756730968443e-07,
      "loss": 0.7515313,
      "num_input_tokens_seen": 150692255,
      "step": 6977,
      "time_per_iteration": 2.4980924129486084
    },
    {
      "auxiliary_loss_clip": 0.01067616,
      "auxiliary_loss_mlp": 0.01019222,
      "balance_loss_clip": 1.03578496,
      "balance_loss_mlp": 1.01390851,
      "epoch": 0.8390548908795767,
      "flos": 21217137863040.0,
      "grad_norm": 1.97586911792545,
      "language_loss": 0.88189232,
      "learning_rate": 2.654877209921975e-07,
      "loss": 0.90276068,
      "num_input_tokens_seen": 150709790,
      "step": 6978,
      "time_per_iteration": 2.5693788528442383
    },
    {
      "auxiliary_loss_clip": 0.01051266,
      "auxiliary_loss_mlp": 0.01022785,
      "balance_loss_clip": 1.03365612,
      "balance_loss_mlp": 1.01698518,
      "epoch": 0.8391751337702158,
      "flos": 35630243913600.0,
      "grad_norm": 2.429636797001022,
      "language_loss": 0.63032019,
      "learning_rate": 2.651000320116843e-07,
      "loss": 0.65106064,
      "num_input_tokens_seen": 150730675,
      "step": 6979,
      "time_per_iteration": 2.729619264602661
    },
    {
      "auxiliary_loss_clip": 0.01056858,
      "auxiliary_loss_mlp": 0.00756698,
      "balance_loss_clip": 1.03427911,
      "balance_loss_mlp": 1.00165248,
      "epoch": 0.839295376660855,
      "flos": 21327395875200.0,
      "grad_norm": 1.8042509915484148,
      "language_loss": 0.76396465,
      "learning_rate": 2.647126062141163e-07,
      "loss": 0.7821002,
      "num_input_tokens_seen": 150749750,
      "step": 6980,
      "time_per_iteration": 2.6030561923980713
    },
    {
      "auxiliary_loss_clip": 0.01070746,
      "auxiliary_loss_mlp": 0.01019451,
      "balance_loss_clip": 1.03516197,
      "balance_loss_mlp": 1.01423526,
      "epoch": 0.839415619551494,
      "flos": 18444524405760.0,
      "grad_norm": 2.0297856768131077,
      "language_loss": 0.83724773,
      "learning_rate": 2.643254436582669e-07,
      "loss": 0.85814965,
      "num_input_tokens_seen": 150769240,
      "step": 6981,
      "time_per_iteration": 2.578835964202881
    },
    {
      "auxiliary_loss_clip": 0.01037768,
      "auxiliary_loss_mlp": 0.01018642,
      "balance_loss_clip": 1.03192306,
      "balance_loss_mlp": 1.01340616,
      "epoch": 0.8395358624421331,
      "flos": 23224201718400.0,
      "grad_norm": 2.0835601745823342,
      "language_loss": 0.82380933,
      "learning_rate": 2.6393854440286743e-07,
      "loss": 0.84437346,
      "num_input_tokens_seen": 150788410,
      "step": 6982,
      "time_per_iteration": 2.6677567958831787
    },
    {
      "auxiliary_loss_clip": 0.01094063,
      "auxiliary_loss_mlp": 0.01021619,
      "balance_loss_clip": 1.03907251,
      "balance_loss_mlp": 1.01621842,
      "epoch": 0.8396561053327722,
      "flos": 24383527390080.0,
      "grad_norm": 1.9400175468120777,
      "language_loss": 0.70900381,
      "learning_rate": 2.6355190850661045e-07,
      "loss": 0.73016059,
      "num_input_tokens_seen": 150805245,
      "step": 6983,
      "time_per_iteration": 2.497520923614502
    },
    {
      "auxiliary_loss_clip": 0.01065322,
      "auxiliary_loss_mlp": 0.01019636,
      "balance_loss_clip": 1.03370452,
      "balance_loss_mlp": 1.01441169,
      "epoch": 0.8397763482234113,
      "flos": 22239994078080.0,
      "grad_norm": 1.6877258696281479,
      "language_loss": 0.86585552,
      "learning_rate": 2.631655360281486e-07,
      "loss": 0.8867051,
      "num_input_tokens_seen": 150824920,
      "step": 6984,
      "time_per_iteration": 2.573775053024292
    },
    {
      "auxiliary_loss_clip": 0.01077184,
      "auxiliary_loss_mlp": 0.00756717,
      "balance_loss_clip": 1.03624988,
      "balance_loss_mlp": 1.00168741,
      "epoch": 0.8398965911140504,
      "flos": 22165919965440.0,
      "grad_norm": 2.6309781807038903,
      "language_loss": 0.65822804,
      "learning_rate": 2.6277942702609323e-07,
      "loss": 0.67656702,
      "num_input_tokens_seen": 150844400,
      "step": 6985,
      "time_per_iteration": 3.2966134548187256
    },
    {
      "auxiliary_loss_clip": 0.01056634,
      "auxiliary_loss_mlp": 0.01022347,
      "balance_loss_clip": 1.03558242,
      "balance_loss_mlp": 1.01709318,
      "epoch": 0.8400168340046895,
      "flos": 21544878453120.0,
      "grad_norm": 2.5238500536047046,
      "language_loss": 0.8757171,
      "learning_rate": 2.623935815590186e-07,
      "loss": 0.89650691,
      "num_input_tokens_seen": 150862780,
      "step": 6986,
      "time_per_iteration": 2.5947422981262207
    },
    {
      "auxiliary_loss_clip": 0.0106274,
      "auxiliary_loss_mlp": 0.01019515,
      "balance_loss_clip": 1.03191078,
      "balance_loss_mlp": 1.01434159,
      "epoch": 0.8401370768953286,
      "flos": 22494153490560.0,
      "grad_norm": 1.6597443882743255,
      "language_loss": 0.81046826,
      "learning_rate": 2.6200799968545516e-07,
      "loss": 0.83129078,
      "num_input_tokens_seen": 150883075,
      "step": 6987,
      "time_per_iteration": 3.37762713432312
    },
    {
      "auxiliary_loss_clip": 0.01024405,
      "auxiliary_loss_mlp": 0.01002861,
      "balance_loss_clip": 1.02481496,
      "balance_loss_mlp": 1.00132358,
      "epoch": 0.8402573197859676,
      "flos": 59245481548800.0,
      "grad_norm": 0.8022732412876968,
      "language_loss": 0.56447357,
      "learning_rate": 2.616226814638969e-07,
      "loss": 0.58474624,
      "num_input_tokens_seen": 150948180,
      "step": 6988,
      "time_per_iteration": 3.9619271755218506
    },
    {
      "auxiliary_loss_clip": 0.01063519,
      "auxiliary_loss_mlp": 0.01019028,
      "balance_loss_clip": 1.03642905,
      "balance_loss_mlp": 1.01384878,
      "epoch": 0.8403775626766068,
      "flos": 22676817219840.0,
      "grad_norm": 1.9611113707401933,
      "language_loss": 0.7754364,
      "learning_rate": 2.612376269527954e-07,
      "loss": 0.79626191,
      "num_input_tokens_seen": 150967885,
      "step": 6989,
      "time_per_iteration": 2.560955762863159
    },
    {
      "auxiliary_loss_clip": 0.01063789,
      "auxiliary_loss_mlp": 0.01024083,
      "balance_loss_clip": 1.0345099,
      "balance_loss_mlp": 1.01911175,
      "epoch": 0.8404978055672458,
      "flos": 19611737038080.0,
      "grad_norm": 3.868837932456433,
      "language_loss": 0.67838764,
      "learning_rate": 2.608528362105635e-07,
      "loss": 0.69926631,
      "num_input_tokens_seen": 150987255,
      "step": 6990,
      "time_per_iteration": 2.559234619140625
    },
    {
      "auxiliary_loss_clip": 0.01057927,
      "auxiliary_loss_mlp": 0.01018326,
      "balance_loss_clip": 1.03394198,
      "balance_loss_mlp": 1.0134716,
      "epoch": 0.8406180484578849,
      "flos": 27529393184640.0,
      "grad_norm": 2.1329971106649475,
      "language_loss": 0.73717588,
      "learning_rate": 2.6046830929557374e-07,
      "loss": 0.75793844,
      "num_input_tokens_seen": 151006905,
      "step": 6991,
      "time_per_iteration": 2.619361162185669
    },
    {
      "auxiliary_loss_clip": 0.0105839,
      "auxiliary_loss_mlp": 0.0101853,
      "balance_loss_clip": 1.03482413,
      "balance_loss_mlp": 1.0134573,
      "epoch": 0.8407382913485241,
      "flos": 22129660229760.0,
      "grad_norm": 2.059652990385539,
      "language_loss": 0.84997803,
      "learning_rate": 2.6008404626615776e-07,
      "loss": 0.87074721,
      "num_input_tokens_seen": 151025405,
      "step": 6992,
      "time_per_iteration": 2.614445924758911
    },
    {
      "auxiliary_loss_clip": 0.01086006,
      "auxiliary_loss_mlp": 0.01019971,
      "balance_loss_clip": 1.04072213,
      "balance_loss_mlp": 1.01493979,
      "epoch": 0.8408585342391631,
      "flos": 13920219884160.0,
      "grad_norm": 2.703170354458474,
      "language_loss": 0.73871773,
      "learning_rate": 2.597000471806092e-07,
      "loss": 0.75977749,
      "num_input_tokens_seen": 151041970,
      "step": 6993,
      "time_per_iteration": 2.5079660415649414
    },
    {
      "auxiliary_loss_clip": 0.01057077,
      "auxiliary_loss_mlp": 0.01019835,
      "balance_loss_clip": 1.03231633,
      "balance_loss_mlp": 1.01399088,
      "epoch": 0.8409787771298022,
      "flos": 20189617724160.0,
      "grad_norm": 2.136326011951621,
      "language_loss": 0.73016369,
      "learning_rate": 2.593163120971793e-07,
      "loss": 0.75093281,
      "num_input_tokens_seen": 151060835,
      "step": 6994,
      "time_per_iteration": 3.31653094291687
    },
    {
      "auxiliary_loss_clip": 0.0104225,
      "auxiliary_loss_mlp": 0.0102024,
      "balance_loss_clip": 1.03017926,
      "balance_loss_mlp": 1.01512909,
      "epoch": 0.8410990200204413,
      "flos": 23144401975680.0,
      "grad_norm": 1.9455360709121712,
      "language_loss": 0.68899482,
      "learning_rate": 2.5893284107408165e-07,
      "loss": 0.7096197,
      "num_input_tokens_seen": 151078205,
      "step": 6995,
      "time_per_iteration": 2.6084837913513184
    },
    {
      "auxiliary_loss_clip": 0.01040869,
      "auxiliary_loss_mlp": 0.01022369,
      "balance_loss_clip": 1.03486764,
      "balance_loss_mlp": 1.01702833,
      "epoch": 0.8412192629110804,
      "flos": 24029651191680.0,
      "grad_norm": 1.7947324105667342,
      "language_loss": 0.77932501,
      "learning_rate": 2.5854963416948726e-07,
      "loss": 0.79995739,
      "num_input_tokens_seen": 151100470,
      "step": 6996,
      "time_per_iteration": 2.6972343921661377
    },
    {
      "auxiliary_loss_clip": 0.01044656,
      "auxiliary_loss_mlp": 0.01019108,
      "balance_loss_clip": 1.0337708,
      "balance_loss_mlp": 1.01421452,
      "epoch": 0.8413395058017195,
      "flos": 25593976684800.0,
      "grad_norm": 1.8859773253605314,
      "language_loss": 0.69286275,
      "learning_rate": 2.5816669144152816e-07,
      "loss": 0.71350044,
      "num_input_tokens_seen": 151121650,
      "step": 6997,
      "time_per_iteration": 2.6408157348632812
    },
    {
      "auxiliary_loss_clip": 0.01041351,
      "auxiliary_loss_mlp": 0.01001799,
      "balance_loss_clip": 1.01628876,
      "balance_loss_mlp": 1.0002135,
      "epoch": 0.8414597486923585,
      "flos": 63641213625600.0,
      "grad_norm": 0.8798815318966698,
      "language_loss": 0.66334307,
      "learning_rate": 2.5778401294829777e-07,
      "loss": 0.68377459,
      "num_input_tokens_seen": 151180390,
      "step": 6998,
      "time_per_iteration": 3.1498916149139404
    },
    {
      "auxiliary_loss_clip": 0.01077065,
      "auxiliary_loss_mlp": 0.00756603,
      "balance_loss_clip": 1.03439593,
      "balance_loss_mlp": 1.00168502,
      "epoch": 0.8415799915829977,
      "flos": 19100726029440.0,
      "grad_norm": 2.2242778497745492,
      "language_loss": 0.64905441,
      "learning_rate": 2.574015987478473e-07,
      "loss": 0.66739106,
      "num_input_tokens_seen": 151198520,
      "step": 6999,
      "time_per_iteration": 2.533470630645752
    },
    {
      "auxiliary_loss_clip": 0.01068722,
      "auxiliary_loss_mlp": 0.01019283,
      "balance_loss_clip": 1.03482866,
      "balance_loss_mlp": 1.01395154,
      "epoch": 0.8417002344736367,
      "flos": 19823266477440.0,
      "grad_norm": 2.0662341909258624,
      "language_loss": 0.86679578,
      "learning_rate": 2.570194488981887e-07,
      "loss": 0.88767576,
      "num_input_tokens_seen": 151215065,
      "step": 7000,
      "time_per_iteration": 2.5093259811401367
    },
    {
      "auxiliary_loss_clip": 0.01041436,
      "auxiliary_loss_mlp": 0.01001791,
      "balance_loss_clip": 1.01639593,
      "balance_loss_mlp": 1.00015819,
      "epoch": 0.8418204773642758,
      "flos": 62168480398080.0,
      "grad_norm": 0.8414996454789508,
      "language_loss": 0.60336226,
      "learning_rate": 2.566375634572939e-07,
      "loss": 0.62379456,
      "num_input_tokens_seen": 151275705,
      "step": 7001,
      "time_per_iteration": 3.0553689002990723
    },
    {
      "auxiliary_loss_clip": 0.0105722,
      "auxiliary_loss_mlp": 0.0102228,
      "balance_loss_clip": 1.03358674,
      "balance_loss_mlp": 1.0173862,
      "epoch": 0.841940720254915,
      "flos": 17094837634560.0,
      "grad_norm": 2.62382997839831,
      "language_loss": 0.76504481,
      "learning_rate": 2.562559424830943e-07,
      "loss": 0.78583986,
      "num_input_tokens_seen": 151293665,
      "step": 7002,
      "time_per_iteration": 2.549386978149414
    },
    {
      "auxiliary_loss_clip": 0.01073572,
      "auxiliary_loss_mlp": 0.01019407,
      "balance_loss_clip": 1.037498,
      "balance_loss_mlp": 1.01392651,
      "epoch": 0.842060963145554,
      "flos": 16285103418240.0,
      "grad_norm": 2.9198077275066816,
      "language_loss": 0.70223469,
      "learning_rate": 2.5587458603348256e-07,
      "loss": 0.72316444,
      "num_input_tokens_seen": 151310955,
      "step": 7003,
      "time_per_iteration": 2.5382280349731445
    },
    {
      "auxiliary_loss_clip": 0.01051145,
      "auxiliary_loss_mlp": 0.01021943,
      "balance_loss_clip": 1.03282344,
      "balance_loss_mlp": 1.0166918,
      "epoch": 0.8421812060361931,
      "flos": 21910395502080.0,
      "grad_norm": 1.896582208901916,
      "language_loss": 0.83966887,
      "learning_rate": 2.554934941663085e-07,
      "loss": 0.86039972,
      "num_input_tokens_seen": 151328490,
      "step": 7004,
      "time_per_iteration": 2.5730366706848145
    },
    {
      "auxiliary_loss_clip": 0.01051252,
      "auxiliary_loss_mlp": 0.01020118,
      "balance_loss_clip": 1.03336883,
      "balance_loss_mlp": 1.01425278,
      "epoch": 0.8423014489268322,
      "flos": 27779912461440.0,
      "grad_norm": 2.277017547225638,
      "language_loss": 0.73333347,
      "learning_rate": 2.5511266693938484e-07,
      "loss": 0.75404721,
      "num_input_tokens_seen": 151346950,
      "step": 7005,
      "time_per_iteration": 2.6505377292633057
    },
    {
      "auxiliary_loss_clip": 0.01060856,
      "auxiliary_loss_mlp": 0.01019214,
      "balance_loss_clip": 1.03421557,
      "balance_loss_mlp": 1.01379311,
      "epoch": 0.8424216918174713,
      "flos": 25119870019200.0,
      "grad_norm": 1.685438357997263,
      "language_loss": 0.78166032,
      "learning_rate": 2.547321044104822e-07,
      "loss": 0.80246103,
      "num_input_tokens_seen": 151368445,
      "step": 7006,
      "time_per_iteration": 2.57572865486145
    },
    {
      "auxiliary_loss_clip": 0.01094737,
      "auxiliary_loss_mlp": 0.01018582,
      "balance_loss_clip": 1.03825641,
      "balance_loss_mlp": 1.0133338,
      "epoch": 0.8425419347081103,
      "flos": 24750447408000.0,
      "grad_norm": 6.909163952506016,
      "language_loss": 0.76625311,
      "learning_rate": 2.5435180663733113e-07,
      "loss": 0.7873863,
      "num_input_tokens_seen": 151388745,
      "step": 7007,
      "time_per_iteration": 2.54953670501709
    },
    {
      "auxiliary_loss_clip": 0.01048929,
      "auxiliary_loss_mlp": 0.01020984,
      "balance_loss_clip": 1.03705692,
      "balance_loss_mlp": 1.01557791,
      "epoch": 0.8426621775987495,
      "flos": 24822891043200.0,
      "grad_norm": 2.335549100298084,
      "language_loss": 0.72197127,
      "learning_rate": 2.539717736776241e-07,
      "loss": 0.74267042,
      "num_input_tokens_seen": 151404970,
      "step": 7008,
      "time_per_iteration": 2.6129770278930664
    },
    {
      "auxiliary_loss_clip": 0.01074533,
      "auxiliary_loss_mlp": 0.01016045,
      "balance_loss_clip": 1.03601539,
      "balance_loss_mlp": 1.01111841,
      "epoch": 0.8427824204893886,
      "flos": 23552321489280.0,
      "grad_norm": 2.1359142324510856,
      "language_loss": 0.7628994,
      "learning_rate": 2.535920055890097e-07,
      "loss": 0.78380519,
      "num_input_tokens_seen": 151426265,
      "step": 7009,
      "time_per_iteration": 2.5540552139282227
    },
    {
      "auxiliary_loss_clip": 0.01044102,
      "auxiliary_loss_mlp": 0.01019083,
      "balance_loss_clip": 1.03081179,
      "balance_loss_mlp": 1.0136503,
      "epoch": 0.8429026633800276,
      "flos": 16145714269440.0,
      "grad_norm": 2.0074909886619325,
      "language_loss": 0.64449906,
      "learning_rate": 2.5321250242910006e-07,
      "loss": 0.66513091,
      "num_input_tokens_seen": 151444180,
      "step": 7010,
      "time_per_iteration": 2.568983793258667
    },
    {
      "auxiliary_loss_clip": 0.01094105,
      "auxiliary_loss_mlp": 0.01017464,
      "balance_loss_clip": 1.03882945,
      "balance_loss_mlp": 1.01239479,
      "epoch": 0.8430229062706668,
      "flos": 22200625059840.0,
      "grad_norm": 2.6545293653492363,
      "language_loss": 0.8665747,
      "learning_rate": 2.5283326425546493e-07,
      "loss": 0.88769042,
      "num_input_tokens_seen": 151463290,
      "step": 7011,
      "time_per_iteration": 3.2635905742645264
    },
    {
      "auxiliary_loss_clip": 0.01046708,
      "auxiliary_loss_mlp": 0.01017418,
      "balance_loss_clip": 1.03046024,
      "balance_loss_mlp": 1.01254559,
      "epoch": 0.8431431491613058,
      "flos": 35332961592960.0,
      "grad_norm": 2.2745975114622308,
      "language_loss": 0.69870597,
      "learning_rate": 2.5245429112563443e-07,
      "loss": 0.71934724,
      "num_input_tokens_seen": 151483965,
      "step": 7012,
      "time_per_iteration": 3.4763545989990234
    },
    {
      "auxiliary_loss_clip": 0.01080932,
      "auxiliary_loss_mlp": 0.0102017,
      "balance_loss_clip": 1.0378294,
      "balance_loss_mlp": 1.01496089,
      "epoch": 0.8432633920519449,
      "flos": 25814758135680.0,
      "grad_norm": 2.42467193864019,
      "language_loss": 0.81928033,
      "learning_rate": 2.5207558309709865e-07,
      "loss": 0.84029138,
      "num_input_tokens_seen": 151503700,
      "step": 7013,
      "time_per_iteration": 3.282249689102173
    },
    {
      "auxiliary_loss_clip": 0.01013093,
      "auxiliary_loss_mlp": 0.00752318,
      "balance_loss_clip": 1.01608515,
      "balance_loss_mlp": 1.00089931,
      "epoch": 0.8433836349425841,
      "flos": 64966016085120.0,
      "grad_norm": 0.7970892108419216,
      "language_loss": 0.56190449,
      "learning_rate": 2.516971402273065e-07,
      "loss": 0.57955861,
      "num_input_tokens_seen": 151569765,
      "step": 7014,
      "time_per_iteration": 3.1627211570739746
    },
    {
      "auxiliary_loss_clip": 0.0106787,
      "auxiliary_loss_mlp": 0.01018246,
      "balance_loss_clip": 1.03345466,
      "balance_loss_mlp": 1.01295602,
      "epoch": 0.8435038778332231,
      "flos": 20232058106880.0,
      "grad_norm": 2.8033479355210416,
      "language_loss": 0.67928064,
      "learning_rate": 2.513189625736687e-07,
      "loss": 0.70014179,
      "num_input_tokens_seen": 151586660,
      "step": 7015,
      "time_per_iteration": 2.5406699180603027
    },
    {
      "auxiliary_loss_clip": 0.01056688,
      "auxiliary_loss_mlp": 0.01022967,
      "balance_loss_clip": 1.0349884,
      "balance_loss_mlp": 1.01745391,
      "epoch": 0.8436241207238622,
      "flos": 20994119245440.0,
      "grad_norm": 2.206004201980216,
      "language_loss": 0.71520162,
      "learning_rate": 2.509410501935534e-07,
      "loss": 0.73599815,
      "num_input_tokens_seen": 151602295,
      "step": 7016,
      "time_per_iteration": 2.5816876888275146
    },
    {
      "auxiliary_loss_clip": 0.01069888,
      "auxiliary_loss_mlp": 0.01019596,
      "balance_loss_clip": 1.03679633,
      "balance_loss_mlp": 1.01394582,
      "epoch": 0.8437443636145013,
      "flos": 14683911500160.0,
      "grad_norm": 2.5837620489947186,
      "language_loss": 0.75547242,
      "learning_rate": 2.5056340314429116e-07,
      "loss": 0.77636725,
      "num_input_tokens_seen": 151619760,
      "step": 7017,
      "time_per_iteration": 2.5140299797058105
    },
    {
      "auxiliary_loss_clip": 0.01050316,
      "auxiliary_loss_mlp": 0.01022287,
      "balance_loss_clip": 1.03496432,
      "balance_loss_mlp": 1.01686287,
      "epoch": 0.8438646065051404,
      "flos": 21610534752000.0,
      "grad_norm": 2.1717609480756113,
      "language_loss": 0.80458313,
      "learning_rate": 2.5018602148316904e-07,
      "loss": 0.82530916,
      "num_input_tokens_seen": 151635795,
      "step": 7018,
      "time_per_iteration": 2.6076877117156982
    },
    {
      "auxiliary_loss_clip": 0.01091976,
      "auxiliary_loss_mlp": 0.01020334,
      "balance_loss_clip": 1.0380497,
      "balance_loss_mlp": 1.01562226,
      "epoch": 0.8439848493957794,
      "flos": 23291905593600.0,
      "grad_norm": 1.8401278748582872,
      "language_loss": 0.80474675,
      "learning_rate": 2.498089052674359e-07,
      "loss": 0.8258698,
      "num_input_tokens_seen": 151653770,
      "step": 7019,
      "time_per_iteration": 2.4851105213165283
    },
    {
      "auxiliary_loss_clip": 0.01079494,
      "auxiliary_loss_mlp": 0.01027485,
      "balance_loss_clip": 1.03693223,
      "balance_loss_mlp": 1.02215075,
      "epoch": 0.8441050922864186,
      "flos": 19721388360960.0,
      "grad_norm": 2.505793514903614,
      "language_loss": 0.75175059,
      "learning_rate": 2.494320545543007e-07,
      "loss": 0.77282035,
      "num_input_tokens_seen": 151673340,
      "step": 7020,
      "time_per_iteration": 3.2577340602874756
    },
    {
      "auxiliary_loss_clip": 0.01094785,
      "auxiliary_loss_mlp": 0.0102094,
      "balance_loss_clip": 1.03790426,
      "balance_loss_mlp": 1.01520038,
      "epoch": 0.8442253351770577,
      "flos": 21837421013760.0,
      "grad_norm": 1.7146320627298492,
      "language_loss": 0.66716969,
      "learning_rate": 2.490554694009308e-07,
      "loss": 0.68832695,
      "num_input_tokens_seen": 151694205,
      "step": 7021,
      "time_per_iteration": 2.5096075534820557
    },
    {
      "auxiliary_loss_clip": 0.01083167,
      "auxiliary_loss_mlp": 0.01024389,
      "balance_loss_clip": 1.03646398,
      "balance_loss_mlp": 1.0193429,
      "epoch": 0.8443455780676967,
      "flos": 34349019379200.0,
      "grad_norm": 1.617281104474996,
      "language_loss": 0.78753966,
      "learning_rate": 2.4867914986445426e-07,
      "loss": 0.80861521,
      "num_input_tokens_seen": 151716595,
      "step": 7022,
      "time_per_iteration": 2.6164982318878174
    },
    {
      "auxiliary_loss_clip": 0.01072104,
      "auxiliary_loss_mlp": 0.01020579,
      "balance_loss_clip": 1.03639102,
      "balance_loss_mlp": 1.01551855,
      "epoch": 0.8444658209583359,
      "flos": 48218229394560.0,
      "grad_norm": 2.3754643419324033,
      "language_loss": 0.71369219,
      "learning_rate": 2.483030960019581e-07,
      "loss": 0.73461908,
      "num_input_tokens_seen": 151740525,
      "step": 7023,
      "time_per_iteration": 2.7917802333831787
    },
    {
      "auxiliary_loss_clip": 0.0100374,
      "auxiliary_loss_mlp": 0.01002998,
      "balance_loss_clip": 1.01818156,
      "balance_loss_mlp": 1.00125742,
      "epoch": 0.8445860638489749,
      "flos": 68490680307840.0,
      "grad_norm": 0.7336785277107907,
      "language_loss": 0.55379295,
      "learning_rate": 2.479273078704891e-07,
      "loss": 0.57386035,
      "num_input_tokens_seen": 151793890,
      "step": 7024,
      "time_per_iteration": 3.037475347518921
    },
    {
      "auxiliary_loss_clip": 0.0100235,
      "auxiliary_loss_mlp": 0.01002584,
      "balance_loss_clip": 1.02395654,
      "balance_loss_mlp": 1.0010705,
      "epoch": 0.844706306739614,
      "flos": 62839138861440.0,
      "grad_norm": 0.8786196472929176,
      "language_loss": 0.64696175,
      "learning_rate": 2.475517855270552e-07,
      "loss": 0.66701108,
      "num_input_tokens_seen": 151853970,
      "step": 7025,
      "time_per_iteration": 3.1724371910095215
    },
    {
      "auxiliary_loss_clip": 0.01092165,
      "auxiliary_loss_mlp": 0.01020584,
      "balance_loss_clip": 1.03721666,
      "balance_loss_mlp": 1.01566982,
      "epoch": 0.8448265496302532,
      "flos": 14977894947840.0,
      "grad_norm": 1.8837414347041204,
      "language_loss": 0.72501445,
      "learning_rate": 2.4717652902862143e-07,
      "loss": 0.74614191,
      "num_input_tokens_seen": 151872945,
      "step": 7026,
      "time_per_iteration": 2.462820291519165
    },
    {
      "auxiliary_loss_clip": 0.01063901,
      "auxiliary_loss_mlp": 0.01018471,
      "balance_loss_clip": 1.03610492,
      "balance_loss_mlp": 1.01343155,
      "epoch": 0.8449467925208922,
      "flos": 23443542282240.0,
      "grad_norm": 2.2109401596815625,
      "language_loss": 0.81774247,
      "learning_rate": 2.4680153843211495e-07,
      "loss": 0.83856618,
      "num_input_tokens_seen": 151892875,
      "step": 7027,
      "time_per_iteration": 2.562957763671875
    },
    {
      "auxiliary_loss_clip": 0.01066344,
      "auxiliary_loss_mlp": 0.01021442,
      "balance_loss_clip": 1.03529453,
      "balance_loss_mlp": 1.01602936,
      "epoch": 0.8450670354115313,
      "flos": 22750284643200.0,
      "grad_norm": 1.6107472758191508,
      "language_loss": 0.7234354,
      "learning_rate": 2.464268137944212e-07,
      "loss": 0.7443133,
      "num_input_tokens_seen": 151914170,
      "step": 7028,
      "time_per_iteration": 2.597669839859009
    },
    {
      "auxiliary_loss_clip": 0.01042956,
      "auxiliary_loss_mlp": 0.01020037,
      "balance_loss_clip": 1.03461587,
      "balance_loss_mlp": 1.01434159,
      "epoch": 0.8451872783021703,
      "flos": 29828165402880.0,
      "grad_norm": 1.9027246221794465,
      "language_loss": 0.78371465,
      "learning_rate": 2.46052355172385e-07,
      "loss": 0.80434459,
      "num_input_tokens_seen": 151932210,
      "step": 7029,
      "time_per_iteration": 2.714822292327881
    },
    {
      "auxiliary_loss_clip": 0.01091507,
      "auxiliary_loss_mlp": 0.0102056,
      "balance_loss_clip": 1.03603697,
      "balance_loss_mlp": 1.01507068,
      "epoch": 0.8453075211928095,
      "flos": 21872088190080.0,
      "grad_norm": 1.8397874486517731,
      "language_loss": 0.74836946,
      "learning_rate": 2.456781626228128e-07,
      "loss": 0.76949012,
      "num_input_tokens_seen": 151951715,
      "step": 7030,
      "time_per_iteration": 2.5115339756011963
    },
    {
      "auxiliary_loss_clip": 0.00999696,
      "auxiliary_loss_mlp": 0.00752626,
      "balance_loss_clip": 1.01333809,
      "balance_loss_mlp": 1.00099313,
      "epoch": 0.8454277640834486,
      "flos": 58757724374400.0,
      "grad_norm": 0.9112167264439373,
      "language_loss": 0.66275501,
      "learning_rate": 2.453042362024675e-07,
      "loss": 0.6802783,
      "num_input_tokens_seen": 152004960,
      "step": 7031,
      "time_per_iteration": 3.2125067710876465
    },
    {
      "auxiliary_loss_clip": 0.01091516,
      "auxiliary_loss_mlp": 0.01021716,
      "balance_loss_clip": 1.03646731,
      "balance_loss_mlp": 1.01683998,
      "epoch": 0.8455480069740876,
      "flos": 27092570042880.0,
      "grad_norm": 1.498467967098841,
      "language_loss": 0.73017681,
      "learning_rate": 2.449305759680751e-07,
      "loss": 0.75130916,
      "num_input_tokens_seen": 152026285,
      "step": 7032,
      "time_per_iteration": 2.554765462875366
    },
    {
      "auxiliary_loss_clip": 0.01055219,
      "auxiliary_loss_mlp": 0.01021376,
      "balance_loss_clip": 1.0346508,
      "balance_loss_mlp": 1.01630616,
      "epoch": 0.8456682498647268,
      "flos": 27201121741440.0,
      "grad_norm": 1.4050759206759456,
      "language_loss": 0.75199807,
      "learning_rate": 2.445571819763188e-07,
      "loss": 0.77276403,
      "num_input_tokens_seen": 152048585,
      "step": 7033,
      "time_per_iteration": 2.621328115463257
    },
    {
      "auxiliary_loss_clip": 0.01092209,
      "auxiliary_loss_mlp": 0.01022077,
      "balance_loss_clip": 1.03795278,
      "balance_loss_mlp": 1.01648295,
      "epoch": 0.8457884927553658,
      "flos": 20634024481920.0,
      "grad_norm": 2.0347829397207815,
      "language_loss": 0.58821774,
      "learning_rate": 2.4418405428384227e-07,
      "loss": 0.60936064,
      "num_input_tokens_seen": 152068795,
      "step": 7034,
      "time_per_iteration": 2.490323066711426
    },
    {
      "auxiliary_loss_clip": 0.0109143,
      "auxiliary_loss_mlp": 0.00756699,
      "balance_loss_clip": 1.03697872,
      "balance_loss_mlp": 1.00177121,
      "epoch": 0.8459087356460049,
      "flos": 15300516597120.0,
      "grad_norm": 2.3153690740938337,
      "language_loss": 0.7184844,
      "learning_rate": 2.4381119294724864e-07,
      "loss": 0.73696566,
      "num_input_tokens_seen": 152086240,
      "step": 7035,
      "time_per_iteration": 2.4697470664978027
    },
    {
      "auxiliary_loss_clip": 0.0109245,
      "auxiliary_loss_mlp": 0.01017296,
      "balance_loss_clip": 1.03741729,
      "balance_loss_mlp": 1.01231623,
      "epoch": 0.846028978536644,
      "flos": 18845125729920.0,
      "grad_norm": 2.0190549219220713,
      "language_loss": 0.53816164,
      "learning_rate": 2.434385980231004e-07,
      "loss": 0.55925906,
      "num_input_tokens_seen": 152105080,
      "step": 7036,
      "time_per_iteration": 3.218329668045044
    },
    {
      "auxiliary_loss_clip": 0.01078227,
      "auxiliary_loss_mlp": 0.0102295,
      "balance_loss_clip": 1.03554225,
      "balance_loss_mlp": 1.01791334,
      "epoch": 0.8461492214272831,
      "flos": 52665388439040.0,
      "grad_norm": 1.5444643948891377,
      "language_loss": 0.65696597,
      "learning_rate": 2.4306626956792043e-07,
      "loss": 0.6779778,
      "num_input_tokens_seen": 152130025,
      "step": 7037,
      "time_per_iteration": 2.7859866619110107
    },
    {
      "auxiliary_loss_clip": 0.01076529,
      "auxiliary_loss_mlp": 0.01019787,
      "balance_loss_clip": 1.03324938,
      "balance_loss_mlp": 1.014709,
      "epoch": 0.8462694643179222,
      "flos": 18590397546240.0,
      "grad_norm": 1.6577832530269407,
      "language_loss": 0.75661206,
      "learning_rate": 2.4269420763819017e-07,
      "loss": 0.77757525,
      "num_input_tokens_seen": 152148070,
      "step": 7038,
      "time_per_iteration": 2.5184147357940674
    },
    {
      "auxiliary_loss_clip": 0.01077556,
      "auxiliary_loss_mlp": 0.0102081,
      "balance_loss_clip": 1.03571165,
      "balance_loss_mlp": 1.0158422,
      "epoch": 0.8463897072085613,
      "flos": 24389253020160.0,
      "grad_norm": 2.464368155650775,
      "language_loss": 0.84289932,
      "learning_rate": 2.4232241229035223e-07,
      "loss": 0.86388296,
      "num_input_tokens_seen": 152165825,
      "step": 7039,
      "time_per_iteration": 4.045468807220459
    },
    {
      "auxiliary_loss_clip": 0.01032397,
      "auxiliary_loss_mlp": 0.01000724,
      "balance_loss_clip": 1.01682162,
      "balance_loss_mlp": 0.99921036,
      "epoch": 0.8465099500992004,
      "flos": 68707973295360.0,
      "grad_norm": 0.7480257621320737,
      "language_loss": 0.56676483,
      "learning_rate": 2.419508835808064e-07,
      "loss": 0.58709604,
      "num_input_tokens_seen": 152222380,
      "step": 7040,
      "time_per_iteration": 3.124894857406616
    },
    {
      "auxiliary_loss_clip": 0.01063542,
      "auxiliary_loss_mlp": 0.01015901,
      "balance_loss_clip": 1.03364778,
      "balance_loss_mlp": 1.01063192,
      "epoch": 0.8466301929898394,
      "flos": 13737442400640.0,
      "grad_norm": 2.792477366750073,
      "language_loss": 0.63067007,
      "learning_rate": 2.415796215659134e-07,
      "loss": 0.65146452,
      "num_input_tokens_seen": 152239085,
      "step": 7041,
      "time_per_iteration": 2.5505361557006836
    },
    {
      "auxiliary_loss_clip": 0.01062737,
      "auxiliary_loss_mlp": 0.01025535,
      "balance_loss_clip": 1.03594279,
      "balance_loss_mlp": 1.02046883,
      "epoch": 0.8467504358804786,
      "flos": 19243072788480.0,
      "grad_norm": 2.206732761723573,
      "language_loss": 0.77393925,
      "learning_rate": 2.412086263019939e-07,
      "loss": 0.79482198,
      "num_input_tokens_seen": 152257110,
      "step": 7042,
      "time_per_iteration": 2.5886597633361816
    },
    {
      "auxiliary_loss_clip": 0.01091172,
      "auxiliary_loss_mlp": 0.01019303,
      "balance_loss_clip": 1.03768897,
      "balance_loss_mlp": 1.01434064,
      "epoch": 0.8468706787711177,
      "flos": 21326220414720.0,
      "grad_norm": 1.6296028839859753,
      "language_loss": 0.8007971,
      "learning_rate": 2.408378978453276e-07,
      "loss": 0.8219018,
      "num_input_tokens_seen": 152277230,
      "step": 7043,
      "time_per_iteration": 2.5063652992248535
    },
    {
      "auxiliary_loss_clip": 0.01031914,
      "auxiliary_loss_mlp": 0.01001216,
      "balance_loss_clip": 1.01651788,
      "balance_loss_mlp": 0.99955934,
      "epoch": 0.8469909216617567,
      "flos": 64883410404480.0,
      "grad_norm": 1.0011494184154863,
      "language_loss": 0.63969266,
      "learning_rate": 2.404674362521533e-07,
      "loss": 0.66002393,
      "num_input_tokens_seen": 152335725,
      "step": 7044,
      "time_per_iteration": 3.0343618392944336
    },
    {
      "auxiliary_loss_clip": 0.01079894,
      "auxiliary_loss_mlp": 0.01019284,
      "balance_loss_clip": 1.03714478,
      "balance_loss_mlp": 1.01450682,
      "epoch": 0.8471111645523959,
      "flos": 19282555560960.0,
      "grad_norm": 2.2945873202245526,
      "language_loss": 0.74377775,
      "learning_rate": 2.4009724157866997e-07,
      "loss": 0.76476943,
      "num_input_tokens_seen": 152352785,
      "step": 7045,
      "time_per_iteration": 2.5165770053863525
    },
    {
      "auxiliary_loss_clip": 0.01092756,
      "auxiliary_loss_mlp": 0.01016614,
      "balance_loss_clip": 1.03766942,
      "balance_loss_mlp": 1.01196504,
      "epoch": 0.8472314074430349,
      "flos": 22017885494400.0,
      "grad_norm": 2.2413043824748273,
      "language_loss": 0.7656467,
      "learning_rate": 2.3972731388103564e-07,
      "loss": 0.78674042,
      "num_input_tokens_seen": 152371265,
      "step": 7046,
      "time_per_iteration": 3.2662065029144287
    },
    {
      "auxiliary_loss_clip": 0.00986688,
      "auxiliary_loss_mlp": 0.01001699,
      "balance_loss_clip": 1.01212192,
      "balance_loss_mlp": 1.00006628,
      "epoch": 0.847351650333674,
      "flos": 57888742014720.0,
      "grad_norm": 0.7996568685812498,
      "language_loss": 0.62346387,
      "learning_rate": 2.393576532153687e-07,
      "loss": 0.64334774,
      "num_input_tokens_seen": 152435050,
      "step": 7047,
      "time_per_iteration": 3.4140231609344482
    },
    {
      "auxiliary_loss_clip": 0.01032998,
      "auxiliary_loss_mlp": 0.01003272,
      "balance_loss_clip": 1.0183388,
      "balance_loss_mlp": 1.00157917,
      "epoch": 0.8474718932243132,
      "flos": 41289624351360.0,
      "grad_norm": 1.1020287956995938,
      "language_loss": 0.57800174,
      "learning_rate": 2.389882596377453e-07,
      "loss": 0.59836447,
      "num_input_tokens_seen": 152489315,
      "step": 7048,
      "time_per_iteration": 3.837291955947876
    },
    {
      "auxiliary_loss_clip": 0.01090314,
      "auxiliary_loss_mlp": 0.01020253,
      "balance_loss_clip": 1.03560424,
      "balance_loss_mlp": 1.01521039,
      "epoch": 0.8475921361149522,
      "flos": 38183971824000.0,
      "grad_norm": 1.7414112209429096,
      "language_loss": 0.76863581,
      "learning_rate": 2.386191332042031e-07,
      "loss": 0.78974152,
      "num_input_tokens_seen": 152511210,
      "step": 7049,
      "time_per_iteration": 2.6869399547576904
    },
    {
      "auxiliary_loss_clip": 0.0109478,
      "auxiliary_loss_mlp": 0.01022909,
      "balance_loss_clip": 1.03871322,
      "balance_loss_mlp": 1.01768494,
      "epoch": 0.8477123790055913,
      "flos": 25377442058880.0,
      "grad_norm": 2.278338667135742,
      "language_loss": 0.72881722,
      "learning_rate": 2.3825027397073794e-07,
      "loss": 0.7499941,
      "num_input_tokens_seen": 152531685,
      "step": 7050,
      "time_per_iteration": 2.5274429321289062
    },
    {
      "auxiliary_loss_clip": 0.01072465,
      "auxiliary_loss_mlp": 0.01019502,
      "balance_loss_clip": 1.03217137,
      "balance_loss_mlp": 1.01442957,
      "epoch": 0.8478326218962304,
      "flos": 30227705020800.0,
      "grad_norm": 2.276300965883914,
      "language_loss": 0.66843843,
      "learning_rate": 2.3788168199330515e-07,
      "loss": 0.68935806,
      "num_input_tokens_seen": 152553245,
      "step": 7051,
      "time_per_iteration": 2.597378969192505
    },
    {
      "auxiliary_loss_clip": 0.01069244,
      "auxiliary_loss_mlp": 0.01019656,
      "balance_loss_clip": 1.03344572,
      "balance_loss_mlp": 1.01440513,
      "epoch": 0.8479528647868695,
      "flos": 38216667260160.0,
      "grad_norm": 1.767949883610775,
      "language_loss": 0.72902536,
      "learning_rate": 2.3751335732782074e-07,
      "loss": 0.74991441,
      "num_input_tokens_seen": 152574505,
      "step": 7052,
      "time_per_iteration": 2.695073127746582
    },
    {
      "auxiliary_loss_clip": 0.01074669,
      "auxiliary_loss_mlp": 0.01018667,
      "balance_loss_clip": 1.03346801,
      "balance_loss_mlp": 1.01372576,
      "epoch": 0.8480731076775085,
      "flos": 20959793331840.0,
      "grad_norm": 3.6211532464934257,
      "language_loss": 0.79529184,
      "learning_rate": 2.371453000301582e-07,
      "loss": 0.81622517,
      "num_input_tokens_seen": 152593190,
      "step": 7053,
      "time_per_iteration": 2.528174638748169
    },
    {
      "auxiliary_loss_clip": 0.01044336,
      "auxiliary_loss_mlp": 0.01016254,
      "balance_loss_clip": 1.02740765,
      "balance_loss_mlp": 1.01114309,
      "epoch": 0.8481933505681477,
      "flos": 32599148382720.0,
      "grad_norm": 1.810365771562734,
      "language_loss": 0.74063647,
      "learning_rate": 2.3677751015615222e-07,
      "loss": 0.76124233,
      "num_input_tokens_seen": 152615265,
      "step": 7054,
      "time_per_iteration": 2.6657168865203857
    },
    {
      "auxiliary_loss_clip": 0.01073753,
      "auxiliary_loss_mlp": 0.01025826,
      "balance_loss_clip": 1.0371933,
      "balance_loss_mlp": 1.02053297,
      "epoch": 0.8483135934587868,
      "flos": 20743296624000.0,
      "grad_norm": 1.8525222482380523,
      "language_loss": 0.85518992,
      "learning_rate": 2.3640998776159593e-07,
      "loss": 0.87618566,
      "num_input_tokens_seen": 152632770,
      "step": 7055,
      "time_per_iteration": 2.5604379177093506
    },
    {
      "auxiliary_loss_clip": 0.01067023,
      "auxiliary_loss_mlp": 0.0102084,
      "balance_loss_clip": 1.03474438,
      "balance_loss_mlp": 1.01630735,
      "epoch": 0.8484338363494258,
      "flos": 21655212301440.0,
      "grad_norm": 2.0929247404629763,
      "language_loss": 0.81134176,
      "learning_rate": 2.3604273290224253e-07,
      "loss": 0.83222038,
      "num_input_tokens_seen": 152653485,
      "step": 7056,
      "time_per_iteration": 2.5740468502044678
    },
    {
      "auxiliary_loss_clip": 0.01067391,
      "auxiliary_loss_mlp": 0.01021834,
      "balance_loss_clip": 1.03582358,
      "balance_loss_mlp": 1.01617408,
      "epoch": 0.848554079240065,
      "flos": 15015823079040.0,
      "grad_norm": 2.2864190429486015,
      "language_loss": 0.74759704,
      "learning_rate": 2.356757456338039e-07,
      "loss": 0.76848936,
      "num_input_tokens_seen": 152670970,
      "step": 7057,
      "time_per_iteration": 2.545513391494751
    },
    {
      "auxiliary_loss_clip": 0.0102454,
      "auxiliary_loss_mlp": 0.01001716,
      "balance_loss_clip": 1.01990843,
      "balance_loss_mlp": 0.99997598,
      "epoch": 0.848674322130704,
      "flos": 68067090576000.0,
      "grad_norm": 0.7520356527613195,
      "language_loss": 0.58916855,
      "learning_rate": 2.3530902601195147e-07,
      "loss": 0.60943115,
      "num_input_tokens_seen": 152739460,
      "step": 7058,
      "time_per_iteration": 3.265856981277466
    },
    {
      "auxiliary_loss_clip": 0.01072798,
      "auxiliary_loss_mlp": 0.01019129,
      "balance_loss_clip": 1.03437471,
      "balance_loss_mlp": 1.0137583,
      "epoch": 0.8487945650213431,
      "flos": 18477599022720.0,
      "grad_norm": 2.980381656666745,
      "language_loss": 0.78698909,
      "learning_rate": 2.34942574092317e-07,
      "loss": 0.8079083,
      "num_input_tokens_seen": 152754710,
      "step": 7059,
      "time_per_iteration": 2.48911452293396
    },
    {
      "auxiliary_loss_clip": 0.0108096,
      "auxiliary_loss_mlp": 0.0102207,
      "balance_loss_clip": 1.03551888,
      "balance_loss_mlp": 1.01674414,
      "epoch": 0.8489148079119821,
      "flos": 23475213930240.0,
      "grad_norm": 2.1409681367503044,
      "language_loss": 0.76689583,
      "learning_rate": 2.3457638993049045e-07,
      "loss": 0.78792614,
      "num_input_tokens_seen": 152772700,
      "step": 7060,
      "time_per_iteration": 2.5487918853759766
    },
    {
      "auxiliary_loss_clip": 0.01028683,
      "auxiliary_loss_mlp": 0.01019243,
      "balance_loss_clip": 1.03231168,
      "balance_loss_mlp": 1.01371801,
      "epoch": 0.8490350508026213,
      "flos": 19939629300480.0,
      "grad_norm": 2.1346145466049298,
      "language_loss": 0.64202327,
      "learning_rate": 2.3421047358202252e-07,
      "loss": 0.66250253,
      "num_input_tokens_seen": 152791550,
      "step": 7061,
      "time_per_iteration": 2.642563581466675
    },
    {
      "auxiliary_loss_clip": 0.0108109,
      "auxiliary_loss_mlp": 0.01021127,
      "balance_loss_clip": 1.03713489,
      "balance_loss_mlp": 1.01584935,
      "epoch": 0.8491552936932604,
      "flos": 24282255962880.0,
      "grad_norm": 2.4274194835488605,
      "language_loss": 0.83314055,
      "learning_rate": 2.3384482510242144e-07,
      "loss": 0.85416275,
      "num_input_tokens_seen": 152809410,
      "step": 7062,
      "time_per_iteration": 2.544125556945801
    },
    {
      "auxiliary_loss_clip": 0.01092251,
      "auxiliary_loss_mlp": 0.01021688,
      "balance_loss_clip": 1.03603864,
      "balance_loss_mlp": 1.01661849,
      "epoch": 0.8492755365838994,
      "flos": 22524384251520.0,
      "grad_norm": 2.2564428481954044,
      "language_loss": 0.77346486,
      "learning_rate": 2.3347944454715575e-07,
      "loss": 0.79460418,
      "num_input_tokens_seen": 152825800,
      "step": 7063,
      "time_per_iteration": 3.2340939044952393
    },
    {
      "auxiliary_loss_clip": 0.01092567,
      "auxiliary_loss_mlp": 0.01021256,
      "balance_loss_clip": 1.03730309,
      "balance_loss_mlp": 1.01580787,
      "epoch": 0.8493957794745386,
      "flos": 26982918720000.0,
      "grad_norm": 2.3899151284977953,
      "language_loss": 0.67087984,
      "learning_rate": 2.331143319716542e-07,
      "loss": 0.69201803,
      "num_input_tokens_seen": 152845330,
      "step": 7064,
      "time_per_iteration": 4.085512638092041
    },
    {
      "auxiliary_loss_clip": 0.01046831,
      "auxiliary_loss_mlp": 0.01020165,
      "balance_loss_clip": 1.03335047,
      "balance_loss_mlp": 1.01496434,
      "epoch": 0.8495160223651776,
      "flos": 29864576810880.0,
      "grad_norm": 1.9140342422212482,
      "language_loss": 0.65869868,
      "learning_rate": 2.3274948743130363e-07,
      "loss": 0.67936862,
      "num_input_tokens_seen": 152865165,
      "step": 7065,
      "time_per_iteration": 2.629471778869629
    },
    {
      "auxiliary_loss_clip": 0.01091787,
      "auxiliary_loss_mlp": 0.01017872,
      "balance_loss_clip": 1.03607893,
      "balance_loss_mlp": 1.01273394,
      "epoch": 0.8496362652558167,
      "flos": 23077646052480.0,
      "grad_norm": 16.61374362048947,
      "language_loss": 0.79273319,
      "learning_rate": 2.3238491098145085e-07,
      "loss": 0.81382978,
      "num_input_tokens_seen": 152884695,
      "step": 7066,
      "time_per_iteration": 2.5121090412139893
    },
    {
      "auxiliary_loss_clip": 0.01078222,
      "auxiliary_loss_mlp": 0.01017266,
      "balance_loss_clip": 1.03540075,
      "balance_loss_mlp": 1.01208043,
      "epoch": 0.8497565081464559,
      "flos": 14610747421440.0,
      "grad_norm": 2.2835970751109462,
      "language_loss": 0.72993678,
      "learning_rate": 2.3202060267740141e-07,
      "loss": 0.75089163,
      "num_input_tokens_seen": 152902220,
      "step": 7067,
      "time_per_iteration": 2.4712846279144287
    },
    {
      "auxiliary_loss_clip": 0.01039254,
      "auxiliary_loss_mlp": 0.01015322,
      "balance_loss_clip": 1.03057909,
      "balance_loss_mlp": 1.01016593,
      "epoch": 0.8498767510370949,
      "flos": 21138248154240.0,
      "grad_norm": 2.1400144554056935,
      "language_loss": 0.77371848,
      "learning_rate": 2.3165656257442044e-07,
      "loss": 0.79426426,
      "num_input_tokens_seen": 152920740,
      "step": 7068,
      "time_per_iteration": 2.605402708053589
    },
    {
      "auxiliary_loss_clip": 0.01077281,
      "auxiliary_loss_mlp": 0.01014929,
      "balance_loss_clip": 1.03501904,
      "balance_loss_mlp": 1.0103364,
      "epoch": 0.849996993927734,
      "flos": 23656512608640.0,
      "grad_norm": 1.9222365237759964,
      "language_loss": 0.90588784,
      "learning_rate": 2.31292790727734e-07,
      "loss": 0.92680991,
      "num_input_tokens_seen": 152938305,
      "step": 7069,
      "time_per_iteration": 2.523254871368408
    },
    {
      "auxiliary_loss_clip": 0.01089128,
      "auxiliary_loss_mlp": 0.01019776,
      "balance_loss_clip": 1.03486192,
      "balance_loss_mlp": 1.01497757,
      "epoch": 0.8501172368183731,
      "flos": 20560139959680.0,
      "grad_norm": 2.9094975374139787,
      "language_loss": 0.80284035,
      "learning_rate": 2.3092928719252392e-07,
      "loss": 0.82392937,
      "num_input_tokens_seen": 152956705,
      "step": 7070,
      "time_per_iteration": 2.5032379627227783
    },
    {
      "auxiliary_loss_clip": 0.01083403,
      "auxiliary_loss_mlp": 0.0101797,
      "balance_loss_clip": 1.03801608,
      "balance_loss_mlp": 1.01269794,
      "epoch": 0.8502374797090122,
      "flos": 22274775008640.0,
      "grad_norm": 2.3293000564181603,
      "language_loss": 0.77977085,
      "learning_rate": 2.3056605202393475e-07,
      "loss": 0.80078459,
      "num_input_tokens_seen": 152974265,
      "step": 7071,
      "time_per_iteration": 2.5146727561950684
    },
    {
      "auxiliary_loss_clip": 0.0108046,
      "auxiliary_loss_mlp": 0.00756886,
      "balance_loss_clip": 1.03416681,
      "balance_loss_mlp": 1.00172579,
      "epoch": 0.8503577225996513,
      "flos": 23662086566400.0,
      "grad_norm": 3.841596787583458,
      "language_loss": 0.67579067,
      "learning_rate": 2.3020308527706888e-07,
      "loss": 0.6941641,
      "num_input_tokens_seen": 152993680,
      "step": 7072,
      "time_per_iteration": 3.38051700592041
    },
    {
      "auxiliary_loss_clip": 0.01070385,
      "auxiliary_loss_mlp": 0.01022063,
      "balance_loss_clip": 1.03499269,
      "balance_loss_mlp": 1.01675856,
      "epoch": 0.8504779654902904,
      "flos": 26760810136320.0,
      "grad_norm": 1.7290531915424607,
      "language_loss": 0.88978481,
      "learning_rate": 2.2984038700698715e-07,
      "loss": 0.91070926,
      "num_input_tokens_seen": 153012990,
      "step": 7073,
      "time_per_iteration": 2.6365315914154053
    },
    {
      "auxiliary_loss_clip": 0.01077113,
      "auxiliary_loss_mlp": 0.0102092,
      "balance_loss_clip": 1.036237,
      "balance_loss_mlp": 1.01547527,
      "epoch": 0.8505982083809295,
      "flos": 26470618496640.0,
      "grad_norm": 1.5965714350813807,
      "language_loss": 0.7903496,
      "learning_rate": 2.2947795726871222e-07,
      "loss": 0.81132996,
      "num_input_tokens_seen": 153034015,
      "step": 7074,
      "time_per_iteration": 2.5545549392700195
    },
    {
      "auxiliary_loss_clip": 0.01076138,
      "auxiliary_loss_mlp": 0.00756861,
      "balance_loss_clip": 1.03867698,
      "balance_loss_mlp": 1.00176239,
      "epoch": 0.8507184512715685,
      "flos": 20305487612160.0,
      "grad_norm": 2.4117462859534173,
      "language_loss": 0.85644418,
      "learning_rate": 2.2911579611722253e-07,
      "loss": 0.87477422,
      "num_input_tokens_seen": 153053160,
      "step": 7075,
      "time_per_iteration": 2.532198905944824
    },
    {
      "auxiliary_loss_clip": 0.0106704,
      "auxiliary_loss_mlp": 0.01023651,
      "balance_loss_clip": 1.03752279,
      "balance_loss_mlp": 1.01843286,
      "epoch": 0.8508386941622077,
      "flos": 19027144851840.0,
      "grad_norm": 3.434675954808455,
      "language_loss": 0.87212288,
      "learning_rate": 2.2875390360745905e-07,
      "loss": 0.89302981,
      "num_input_tokens_seen": 153072565,
      "step": 7076,
      "time_per_iteration": 2.5240044593811035
    },
    {
      "auxiliary_loss_clip": 0.0105105,
      "auxiliary_loss_mlp": 0.01021365,
      "balance_loss_clip": 1.0309422,
      "balance_loss_mlp": 1.0161531,
      "epoch": 0.8509589370528468,
      "flos": 16435147547520.0,
      "grad_norm": 1.667115833895268,
      "language_loss": 0.77813017,
      "learning_rate": 2.2839227979432008e-07,
      "loss": 0.79885423,
      "num_input_tokens_seen": 153090215,
      "step": 7077,
      "time_per_iteration": 2.5726065635681152
    },
    {
      "auxiliary_loss_clip": 0.01068417,
      "auxiliary_loss_mlp": 0.01022202,
      "balance_loss_clip": 1.03555155,
      "balance_loss_mlp": 1.016927,
      "epoch": 0.8510791799434858,
      "flos": 18261671086080.0,
      "grad_norm": 1.9127351935073775,
      "language_loss": 0.85293889,
      "learning_rate": 2.2803092473266373e-07,
      "loss": 0.8738451,
      "num_input_tokens_seen": 153107740,
      "step": 7078,
      "time_per_iteration": 2.513850688934326
    },
    {
      "auxiliary_loss_clip": 0.01093504,
      "auxiliary_loss_mlp": 0.01022808,
      "balance_loss_clip": 1.03760791,
      "balance_loss_mlp": 1.01781654,
      "epoch": 0.851199422834125,
      "flos": 23443656036480.0,
      "grad_norm": 2.3912021111156108,
      "language_loss": 0.86798412,
      "learning_rate": 2.2766983847730724e-07,
      "loss": 0.88914722,
      "num_input_tokens_seen": 153127410,
      "step": 7079,
      "time_per_iteration": 2.5313708782196045
    },
    {
      "auxiliary_loss_clip": 0.01058721,
      "auxiliary_loss_mlp": 0.01022674,
      "balance_loss_clip": 1.03318071,
      "balance_loss_mlp": 1.01737201,
      "epoch": 0.851319665724764,
      "flos": 16291246147200.0,
      "grad_norm": 2.32605829224696,
      "language_loss": 0.66253102,
      "learning_rate": 2.2730902108302663e-07,
      "loss": 0.68334496,
      "num_input_tokens_seen": 153144325,
      "step": 7080,
      "time_per_iteration": 2.5748534202575684
    },
    {
      "auxiliary_loss_clip": 0.010718,
      "auxiliary_loss_mlp": 0.01021289,
      "balance_loss_clip": 1.03580916,
      "balance_loss_mlp": 1.01598132,
      "epoch": 0.8514399086154031,
      "flos": 18991340133120.0,
      "grad_norm": 1.767068820162198,
      "language_loss": 0.68732071,
      "learning_rate": 2.269484726045583e-07,
      "loss": 0.7082516,
      "num_input_tokens_seen": 153163240,
      "step": 7081,
      "time_per_iteration": 2.576612710952759
    },
    {
      "auxiliary_loss_clip": 0.01056653,
      "auxiliary_loss_mlp": 0.01025112,
      "balance_loss_clip": 1.03515649,
      "balance_loss_mlp": 1.01972687,
      "epoch": 0.8515601515060423,
      "flos": 24573471390720.0,
      "grad_norm": 1.6443571093993319,
      "language_loss": 0.79281652,
      "learning_rate": 2.2658819309659672e-07,
      "loss": 0.81363416,
      "num_input_tokens_seen": 153183440,
      "step": 7082,
      "time_per_iteration": 2.608536720275879
    },
    {
      "auxiliary_loss_clip": 0.01061504,
      "auxiliary_loss_mlp": 0.01016472,
      "balance_loss_clip": 1.03207779,
      "balance_loss_mlp": 1.01176929,
      "epoch": 0.8516803943966813,
      "flos": 19531065179520.0,
      "grad_norm": 2.1405924091205515,
      "language_loss": 0.84655678,
      "learning_rate": 2.2622818261379706e-07,
      "loss": 0.86733663,
      "num_input_tokens_seen": 153200460,
      "step": 7083,
      "time_per_iteration": 2.54975962638855
    },
    {
      "auxiliary_loss_clip": 0.01073706,
      "auxiliary_loss_mlp": 0.01019426,
      "balance_loss_clip": 1.03716409,
      "balance_loss_mlp": 1.01412082,
      "epoch": 0.8518006372873204,
      "flos": 20267824907520.0,
      "grad_norm": 1.738264450839863,
      "language_loss": 0.74956131,
      "learning_rate": 2.2586844121077142e-07,
      "loss": 0.77049267,
      "num_input_tokens_seen": 153218970,
      "step": 7084,
      "time_per_iteration": 2.539801836013794
    },
    {
      "auxiliary_loss_clip": 0.01043568,
      "auxiliary_loss_mlp": 0.01024731,
      "balance_loss_clip": 1.03391075,
      "balance_loss_mlp": 1.01924443,
      "epoch": 0.8519208801779595,
      "flos": 24135472788480.0,
      "grad_norm": 1.7978262075533726,
      "language_loss": 0.71781063,
      "learning_rate": 2.2550896894209215e-07,
      "loss": 0.73849356,
      "num_input_tokens_seen": 153238485,
      "step": 7085,
      "time_per_iteration": 2.6466352939605713
    },
    {
      "auxiliary_loss_clip": 0.00991257,
      "auxiliary_loss_mlp": 0.0100246,
      "balance_loss_clip": 1.01540613,
      "balance_loss_mlp": 1.0008868,
      "epoch": 0.8520411230685986,
      "flos": 63042126681600.0,
      "grad_norm": 0.6888622638876137,
      "language_loss": 0.56597424,
      "learning_rate": 2.2514976586229184e-07,
      "loss": 0.58591139,
      "num_input_tokens_seen": 153306430,
      "step": 7086,
      "time_per_iteration": 3.4000654220581055
    },
    {
      "auxiliary_loss_clip": 0.01031874,
      "auxiliary_loss_mlp": 0.01001096,
      "balance_loss_clip": 1.01664972,
      "balance_loss_mlp": 0.99949855,
      "epoch": 0.8521613659592376,
      "flos": 65843492094720.0,
      "grad_norm": 0.7502440658135431,
      "language_loss": 0.5458464,
      "learning_rate": 2.247908320258609e-07,
      "loss": 0.56617612,
      "num_input_tokens_seen": 153366520,
      "step": 7087,
      "time_per_iteration": 3.6975653171539307
    },
    {
      "auxiliary_loss_clip": 0.01031961,
      "auxiliary_loss_mlp": 0.01018934,
      "balance_loss_clip": 1.0305146,
      "balance_loss_mlp": 1.01361156,
      "epoch": 0.8522816088498768,
      "flos": 23114550395520.0,
      "grad_norm": 2.0692022641748995,
      "language_loss": 0.79571158,
      "learning_rate": 2.2443216748724914e-07,
      "loss": 0.81622052,
      "num_input_tokens_seen": 153387230,
      "step": 7088,
      "time_per_iteration": 3.3867266178131104
    },
    {
      "auxiliary_loss_clip": 0.01080398,
      "auxiliary_loss_mlp": 0.00756802,
      "balance_loss_clip": 1.03670692,
      "balance_loss_mlp": 1.00157237,
      "epoch": 0.8524018517405159,
      "flos": 31760775964800.0,
      "grad_norm": 2.50958923744999,
      "language_loss": 0.74493247,
      "learning_rate": 2.2407377230086588e-07,
      "loss": 0.76330447,
      "num_input_tokens_seen": 153409585,
      "step": 7089,
      "time_per_iteration": 2.6071650981903076
    },
    {
      "auxiliary_loss_clip": 0.01052136,
      "auxiliary_loss_mlp": 0.01017793,
      "balance_loss_clip": 1.03545487,
      "balance_loss_mlp": 1.01282239,
      "epoch": 0.8525220946311549,
      "flos": 18691896481920.0,
      "grad_norm": 2.2004431733816006,
      "language_loss": 0.83730298,
      "learning_rate": 2.23715646521079e-07,
      "loss": 0.85800225,
      "num_input_tokens_seen": 153427105,
      "step": 7090,
      "time_per_iteration": 4.173020124435425
    },
    {
      "auxiliary_loss_clip": 0.01080245,
      "auxiliary_loss_mlp": 0.00756724,
      "balance_loss_clip": 1.03534579,
      "balance_loss_mlp": 1.00168562,
      "epoch": 0.852642337521794,
      "flos": 21795056467200.0,
      "grad_norm": 1.884218986114784,
      "language_loss": 0.84295762,
      "learning_rate": 2.2335779020221724e-07,
      "loss": 0.86132735,
      "num_input_tokens_seen": 153443725,
      "step": 7091,
      "time_per_iteration": 2.588634967803955
    },
    {
      "auxiliary_loss_clip": 0.01039567,
      "auxiliary_loss_mlp": 0.01004286,
      "balance_loss_clip": 1.03410125,
      "balance_loss_mlp": 1.00237834,
      "epoch": 0.8527625804124331,
      "flos": 69046520538240.0,
      "grad_norm": 0.8017605827907767,
      "language_loss": 0.56392598,
      "learning_rate": 2.2300020339856497e-07,
      "loss": 0.58436453,
      "num_input_tokens_seen": 153506410,
      "step": 7092,
      "time_per_iteration": 3.1664915084838867
    },
    {
      "auxiliary_loss_clip": 0.01063939,
      "auxiliary_loss_mlp": 0.01017873,
      "balance_loss_clip": 1.03363991,
      "balance_loss_mlp": 1.01278019,
      "epoch": 0.8528828233030722,
      "flos": 26981819095680.0,
      "grad_norm": 2.5490366432581557,
      "language_loss": 0.78226161,
      "learning_rate": 2.2264288616436966e-07,
      "loss": 0.80307972,
      "num_input_tokens_seen": 153526665,
      "step": 7093,
      "time_per_iteration": 2.6028482913970947
    },
    {
      "auxiliary_loss_clip": 0.01059163,
      "auxiliary_loss_mlp": 0.01020908,
      "balance_loss_clip": 1.03304124,
      "balance_loss_mlp": 1.01574612,
      "epoch": 0.8530030661937112,
      "flos": 17489182475520.0,
      "grad_norm": 3.0542524001815288,
      "language_loss": 0.72900903,
      "learning_rate": 2.222858385538351e-07,
      "loss": 0.74980974,
      "num_input_tokens_seen": 153543465,
      "step": 7094,
      "time_per_iteration": 2.5055272579193115
    },
    {
      "auxiliary_loss_clip": 0.01082015,
      "auxiliary_loss_mlp": 0.01022743,
      "balance_loss_clip": 1.03587246,
      "balance_loss_mlp": 1.01750422,
      "epoch": 0.8531233090843504,
      "flos": 22162810682880.0,
      "grad_norm": 2.0642744024821957,
      "language_loss": 0.68330693,
      "learning_rate": 2.2192906062112527e-07,
      "loss": 0.70435452,
      "num_input_tokens_seen": 153563340,
      "step": 7095,
      "time_per_iteration": 2.5305209159851074
    },
    {
      "auxiliary_loss_clip": 0.01091105,
      "auxiliary_loss_mlp": 0.01019124,
      "balance_loss_clip": 1.03570461,
      "balance_loss_mlp": 1.01406372,
      "epoch": 0.8532435519749895,
      "flos": 37638521147520.0,
      "grad_norm": 1.680097725022334,
      "language_loss": 0.70452213,
      "learning_rate": 2.2157255242036377e-07,
      "loss": 0.72562438,
      "num_input_tokens_seen": 153587005,
      "step": 7096,
      "time_per_iteration": 2.6317827701568604
    },
    {
      "auxiliary_loss_clip": 0.01054219,
      "auxiliary_loss_mlp": 0.01021568,
      "balance_loss_clip": 1.03446221,
      "balance_loss_mlp": 1.01658511,
      "epoch": 0.8533637948656285,
      "flos": 21400332445440.0,
      "grad_norm": 1.6502459274327017,
      "language_loss": 0.74734825,
      "learning_rate": 2.2121631400563135e-07,
      "loss": 0.76810616,
      "num_input_tokens_seen": 153606835,
      "step": 7097,
      "time_per_iteration": 3.3752782344818115
    },
    {
      "auxiliary_loss_clip": 0.01033964,
      "auxiliary_loss_mlp": 0.01001832,
      "balance_loss_clip": 1.01920259,
      "balance_loss_mlp": 1.0001272,
      "epoch": 0.8534840377562677,
      "flos": 53350294049280.0,
      "grad_norm": 0.768064251914951,
      "language_loss": 0.5288223,
      "learning_rate": 2.208603454309701e-07,
      "loss": 0.54918027,
      "num_input_tokens_seen": 153664925,
      "step": 7098,
      "time_per_iteration": 3.112586498260498
    },
    {
      "auxiliary_loss_clip": 0.01042714,
      "auxiliary_loss_mlp": 0.01019298,
      "balance_loss_clip": 1.03323054,
      "balance_loss_mlp": 1.01366544,
      "epoch": 0.8536042806469067,
      "flos": 20816271112320.0,
      "grad_norm": 2.2918085127060595,
      "language_loss": 0.70919025,
      "learning_rate": 2.2050464675037994e-07,
      "loss": 0.72981036,
      "num_input_tokens_seen": 153683550,
      "step": 7099,
      "time_per_iteration": 2.625431776046753
    },
    {
      "auxiliary_loss_clip": 0.01065005,
      "auxiliary_loss_mlp": 0.01019506,
      "balance_loss_clip": 1.03395271,
      "balance_loss_mlp": 1.01432896,
      "epoch": 0.8537245235375458,
      "flos": 24683691484800.0,
      "grad_norm": 2.260921291223702,
      "language_loss": 0.72855836,
      "learning_rate": 2.2014921801782016e-07,
      "loss": 0.74940348,
      "num_input_tokens_seen": 153703040,
      "step": 7100,
      "time_per_iteration": 2.591078042984009
    },
    {
      "auxiliary_loss_clip": 0.01070349,
      "auxiliary_loss_mlp": 0.01018161,
      "balance_loss_clip": 1.0342648,
      "balance_loss_mlp": 1.01317203,
      "epoch": 0.853844766428185,
      "flos": 24386864181120.0,
      "grad_norm": 1.7553477583684889,
      "language_loss": 0.73894751,
      "learning_rate": 2.1979405928720872e-07,
      "loss": 0.75983268,
      "num_input_tokens_seen": 153722695,
      "step": 7101,
      "time_per_iteration": 2.5633015632629395
    },
    {
      "auxiliary_loss_clip": 0.0107276,
      "auxiliary_loss_mlp": 0.01017125,
      "balance_loss_clip": 1.03709877,
      "balance_loss_mlp": 1.01221669,
      "epoch": 0.853965009318824,
      "flos": 20957594083200.0,
      "grad_norm": 1.493779820511386,
      "language_loss": 0.79368216,
      "learning_rate": 2.1943917061242257e-07,
      "loss": 0.81458104,
      "num_input_tokens_seen": 153742550,
      "step": 7102,
      "time_per_iteration": 2.572075128555298
    },
    {
      "auxiliary_loss_clip": 0.01085078,
      "auxiliary_loss_mlp": 0.00756588,
      "balance_loss_clip": 1.03783822,
      "balance_loss_mlp": 1.00160897,
      "epoch": 0.8540852522094631,
      "flos": 24203821271040.0,
      "grad_norm": 1.7113298824694652,
      "language_loss": 0.66289854,
      "learning_rate": 2.1908455204729903e-07,
      "loss": 0.68131518,
      "num_input_tokens_seen": 153761700,
      "step": 7103,
      "time_per_iteration": 2.583501100540161
    },
    {
      "auxiliary_loss_clip": 0.01072691,
      "auxiliary_loss_mlp": 0.01019236,
      "balance_loss_clip": 1.03610587,
      "balance_loss_mlp": 1.01402664,
      "epoch": 0.8542054951001022,
      "flos": 25085278679040.0,
      "grad_norm": 2.1341204991988194,
      "language_loss": 0.78615266,
      "learning_rate": 2.1873020364563265e-07,
      "loss": 0.80707192,
      "num_input_tokens_seen": 153780765,
      "step": 7104,
      "time_per_iteration": 2.5883662700653076
    },
    {
      "auxiliary_loss_clip": 0.01073765,
      "auxiliary_loss_mlp": 0.01019739,
      "balance_loss_clip": 1.03473651,
      "balance_loss_mlp": 1.01477647,
      "epoch": 0.8543257379907413,
      "flos": 24318856961280.0,
      "grad_norm": 2.8562204938336717,
      "language_loss": 0.76215541,
      "learning_rate": 2.183761254611789e-07,
      "loss": 0.78309047,
      "num_input_tokens_seen": 153801090,
      "step": 7105,
      "time_per_iteration": 2.526597499847412
    },
    {
      "auxiliary_loss_clip": 0.01079643,
      "auxiliary_loss_mlp": 0.01019686,
      "balance_loss_clip": 1.03710318,
      "balance_loss_mlp": 1.01468801,
      "epoch": 0.8544459808813804,
      "flos": 55290308688000.0,
      "grad_norm": 2.174306786091218,
      "language_loss": 0.70447898,
      "learning_rate": 2.1802231754764987e-07,
      "loss": 0.72547227,
      "num_input_tokens_seen": 153826530,
      "step": 7106,
      "time_per_iteration": 2.816803455352783
    },
    {
      "auxiliary_loss_clip": 0.01067582,
      "auxiliary_loss_mlp": 0.01020241,
      "balance_loss_clip": 1.03364134,
      "balance_loss_mlp": 1.01476669,
      "epoch": 0.8545662237720195,
      "flos": 25778650072320.0,
      "grad_norm": 2.2660838714371603,
      "language_loss": 0.76537013,
      "learning_rate": 2.17668779958718e-07,
      "loss": 0.78624833,
      "num_input_tokens_seen": 153849110,
      "step": 7107,
      "time_per_iteration": 2.6092584133148193
    },
    {
      "auxiliary_loss_clip": 0.01091858,
      "auxiliary_loss_mlp": 0.01019809,
      "balance_loss_clip": 1.03715956,
      "balance_loss_mlp": 1.01449847,
      "epoch": 0.8546864666626586,
      "flos": 11109867886080.0,
      "grad_norm": 2.4225998213659046,
      "language_loss": 0.80804801,
      "learning_rate": 2.1731551274801553e-07,
      "loss": 0.82916468,
      "num_input_tokens_seen": 153865550,
      "step": 7108,
      "time_per_iteration": 2.4856278896331787
    },
    {
      "auxiliary_loss_clip": 0.01065024,
      "auxiliary_loss_mlp": 0.01018803,
      "balance_loss_clip": 1.03598976,
      "balance_loss_mlp": 1.01362908,
      "epoch": 0.8548067095532976,
      "flos": 25522518919680.0,
      "grad_norm": 3.3800954675915,
      "language_loss": 0.62180543,
      "learning_rate": 2.169625159691324e-07,
      "loss": 0.64264369,
      "num_input_tokens_seen": 153885425,
      "step": 7109,
      "time_per_iteration": 2.5925631523132324
    },
    {
      "auxiliary_loss_clip": 0.01047219,
      "auxiliary_loss_mlp": 0.01017724,
      "balance_loss_clip": 1.03332782,
      "balance_loss_mlp": 1.01256526,
      "epoch": 0.8549269524439368,
      "flos": 24720178728960.0,
      "grad_norm": 2.6350905583643147,
      "language_loss": 0.74496305,
      "learning_rate": 2.1660978967561784e-07,
      "loss": 0.76561248,
      "num_input_tokens_seen": 153904760,
      "step": 7110,
      "time_per_iteration": 2.6630334854125977
    },
    {
      "auxiliary_loss_clip": 0.0109151,
      "auxiliary_loss_mlp": 0.01016487,
      "balance_loss_clip": 1.03598344,
      "balance_loss_mlp": 1.01153088,
      "epoch": 0.8550471953345758,
      "flos": 19827475384320.0,
      "grad_norm": 2.908445373880314,
      "language_loss": 0.79029328,
      "learning_rate": 2.1625733392098035e-07,
      "loss": 0.81137323,
      "num_input_tokens_seen": 153920370,
      "step": 7111,
      "time_per_iteration": 2.493037223815918
    },
    {
      "auxiliary_loss_clip": 0.01091475,
      "auxiliary_loss_mlp": 0.01018057,
      "balance_loss_clip": 1.03583968,
      "balance_loss_mlp": 1.01297832,
      "epoch": 0.8551674382252149,
      "flos": 22822652442240.0,
      "grad_norm": 1.7330001701601248,
      "language_loss": 0.79730558,
      "learning_rate": 2.159051487586867e-07,
      "loss": 0.81840086,
      "num_input_tokens_seen": 153940500,
      "step": 7112,
      "time_per_iteration": 2.4816462993621826
    },
    {
      "auxiliary_loss_clip": 0.01068983,
      "auxiliary_loss_mlp": 0.01025049,
      "balance_loss_clip": 1.03643215,
      "balance_loss_mlp": 1.01943767,
      "epoch": 0.8552876811158541,
      "flos": 20633341956480.0,
      "grad_norm": 2.2980134822061604,
      "language_loss": 0.72543418,
      "learning_rate": 2.155532342421642e-07,
      "loss": 0.74637455,
      "num_input_tokens_seen": 153958500,
      "step": 7113,
      "time_per_iteration": 2.567286491394043
    },
    {
      "auxiliary_loss_clip": 0.01082954,
      "auxiliary_loss_mlp": 0.01024419,
      "balance_loss_clip": 1.03774285,
      "balance_loss_mlp": 1.01877153,
      "epoch": 0.8554079240064931,
      "flos": 23114588313600.0,
      "grad_norm": 1.7960271054312,
      "language_loss": 0.78364587,
      "learning_rate": 2.1520159042479636e-07,
      "loss": 0.80471957,
      "num_input_tokens_seen": 153976790,
      "step": 7114,
      "time_per_iteration": 3.288770914077759
    },
    {
      "auxiliary_loss_clip": 0.01079227,
      "auxiliary_loss_mlp": 0.01020078,
      "balance_loss_clip": 1.03657579,
      "balance_loss_mlp": 1.01487172,
      "epoch": 0.8555281668971322,
      "flos": 22130266919040.0,
      "grad_norm": 2.270497653331269,
      "language_loss": 0.70930898,
      "learning_rate": 2.148502173599287e-07,
      "loss": 0.73030204,
      "num_input_tokens_seen": 153994930,
      "step": 7115,
      "time_per_iteration": 4.067514657974243
    },
    {
      "auxiliary_loss_clip": 0.0106468,
      "auxiliary_loss_mlp": 0.01017688,
      "balance_loss_clip": 1.03588462,
      "balance_loss_mlp": 1.01213896,
      "epoch": 0.8556484097877713,
      "flos": 31141706192640.0,
      "grad_norm": 2.318446348868521,
      "language_loss": 0.65892625,
      "learning_rate": 2.1449911510086372e-07,
      "loss": 0.67974997,
      "num_input_tokens_seen": 154014400,
      "step": 7116,
      "time_per_iteration": 2.6416585445404053
    },
    {
      "auxiliary_loss_clip": 0.01076234,
      "auxiliary_loss_mlp": 0.01020301,
      "balance_loss_clip": 1.03425324,
      "balance_loss_mlp": 1.01538634,
      "epoch": 0.8557686526784104,
      "flos": 24318856961280.0,
      "grad_norm": 2.3813133566891787,
      "language_loss": 0.77173626,
      "learning_rate": 2.141482837008628e-07,
      "loss": 0.7927016,
      "num_input_tokens_seen": 154034940,
      "step": 7117,
      "time_per_iteration": 2.522639274597168
    },
    {
      "auxiliary_loss_clip": 0.0108154,
      "auxiliary_loss_mlp": 0.01022311,
      "balance_loss_clip": 1.03606796,
      "balance_loss_mlp": 1.01710773,
      "epoch": 0.8558888955690495,
      "flos": 17714665768320.0,
      "grad_norm": 2.109941892200342,
      "language_loss": 0.72230262,
      "learning_rate": 2.1379772321314826e-07,
      "loss": 0.74334109,
      "num_input_tokens_seen": 154052985,
      "step": 7118,
      "time_per_iteration": 2.5190012454986572
    },
    {
      "auxiliary_loss_clip": 0.01028281,
      "auxiliary_loss_mlp": 0.01021008,
      "balance_loss_clip": 1.03477955,
      "balance_loss_mlp": 1.01558375,
      "epoch": 0.8560091384596886,
      "flos": 19173700517760.0,
      "grad_norm": 1.9654327143473713,
      "language_loss": 0.8170808,
      "learning_rate": 2.1344743369089802e-07,
      "loss": 0.83757371,
      "num_input_tokens_seen": 154068765,
      "step": 7119,
      "time_per_iteration": 2.6379482746124268
    },
    {
      "auxiliary_loss_clip": 0.01064285,
      "auxiliary_loss_mlp": 0.01018363,
      "balance_loss_clip": 1.03713346,
      "balance_loss_mlp": 1.0132637,
      "epoch": 0.8561293813503277,
      "flos": 23917118094720.0,
      "grad_norm": 2.3969271316053407,
      "language_loss": 0.81913763,
      "learning_rate": 2.130974151872522e-07,
      "loss": 0.83996415,
      "num_input_tokens_seen": 154089100,
      "step": 7120,
      "time_per_iteration": 2.5857040882110596
    },
    {
      "auxiliary_loss_clip": 0.01047194,
      "auxiliary_loss_mlp": 0.01019731,
      "balance_loss_clip": 1.03554916,
      "balance_loss_mlp": 1.01455426,
      "epoch": 0.8562496242409667,
      "flos": 22531437014400.0,
      "grad_norm": 2.0140860747781293,
      "language_loss": 0.78622991,
      "learning_rate": 2.1274766775530773e-07,
      "loss": 0.80689919,
      "num_input_tokens_seen": 154108965,
      "step": 7121,
      "time_per_iteration": 2.5882339477539062
    },
    {
      "auxiliary_loss_clip": 0.01093204,
      "auxiliary_loss_mlp": 0.01019548,
      "balance_loss_clip": 1.03610659,
      "balance_loss_mlp": 1.01409709,
      "epoch": 0.8563698671316058,
      "flos": 14714066424960.0,
      "grad_norm": 2.7571054545124687,
      "language_loss": 0.79822636,
      "learning_rate": 2.1239819144812077e-07,
      "loss": 0.81935394,
      "num_input_tokens_seen": 154123425,
      "step": 7122,
      "time_per_iteration": 2.4578161239624023
    },
    {
      "auxiliary_loss_clip": 0.01059256,
      "auxiliary_loss_mlp": 0.01019272,
      "balance_loss_clip": 1.03470588,
      "balance_loss_mlp": 1.01411963,
      "epoch": 0.856490110022245,
      "flos": 39170985402240.0,
      "grad_norm": 1.749343772812029,
      "language_loss": 0.69694412,
      "learning_rate": 2.1204898631870716e-07,
      "loss": 0.71772945,
      "num_input_tokens_seen": 154148315,
      "step": 7123,
      "time_per_iteration": 3.5057199001312256
    },
    {
      "auxiliary_loss_clip": 0.01068589,
      "auxiliary_loss_mlp": 0.01019142,
      "balance_loss_clip": 1.0369972,
      "balance_loss_mlp": 1.01395941,
      "epoch": 0.856610352912884,
      "flos": 29061895357440.0,
      "grad_norm": 1.9705349761061286,
      "language_loss": 0.75930059,
      "learning_rate": 2.1170005242004006e-07,
      "loss": 0.78017789,
      "num_input_tokens_seen": 154169665,
      "step": 7124,
      "time_per_iteration": 2.619624376296997
    },
    {
      "auxiliary_loss_clip": 0.01066036,
      "auxiliary_loss_mlp": 0.010179,
      "balance_loss_clip": 1.0358634,
      "balance_loss_mlp": 1.01284802,
      "epoch": 0.8567305958035231,
      "flos": 23880592932480.0,
      "grad_norm": 3.805706144814846,
      "language_loss": 0.78058505,
      "learning_rate": 2.1135138980505384e-07,
      "loss": 0.80142438,
      "num_input_tokens_seen": 154190335,
      "step": 7125,
      "time_per_iteration": 2.5545105934143066
    },
    {
      "auxiliary_loss_clip": 0.01060207,
      "auxiliary_loss_mlp": 0.01017343,
      "balance_loss_clip": 1.03082967,
      "balance_loss_mlp": 1.01228821,
      "epoch": 0.8568508386941622,
      "flos": 22202293455360.0,
      "grad_norm": 2.3040823064220364,
      "language_loss": 0.72455037,
      "learning_rate": 2.110029985266395e-07,
      "loss": 0.74532586,
      "num_input_tokens_seen": 154210040,
      "step": 7126,
      "time_per_iteration": 2.561861276626587
    },
    {
      "auxiliary_loss_clip": 0.01067794,
      "auxiliary_loss_mlp": 0.01018859,
      "balance_loss_clip": 1.03641868,
      "balance_loss_mlp": 1.01372957,
      "epoch": 0.8569710815848013,
      "flos": 17309210929920.0,
      "grad_norm": 1.772099501378817,
      "language_loss": 0.73676109,
      "learning_rate": 2.1065487863764787e-07,
      "loss": 0.75762761,
      "num_input_tokens_seen": 154228385,
      "step": 7127,
      "time_per_iteration": 2.5435984134674072
    },
    {
      "auxiliary_loss_clip": 0.010399,
      "auxiliary_loss_mlp": 0.01018868,
      "balance_loss_clip": 1.03056562,
      "balance_loss_mlp": 1.01334548,
      "epoch": 0.8570913244754403,
      "flos": 23734530201600.0,
      "grad_norm": 1.6083676123745392,
      "language_loss": 0.85817134,
      "learning_rate": 2.1030703019088846e-07,
      "loss": 0.87875903,
      "num_input_tokens_seen": 154249015,
      "step": 7128,
      "time_per_iteration": 2.641617774963379
    },
    {
      "auxiliary_loss_clip": 0.01076209,
      "auxiliary_loss_mlp": 0.01017479,
      "balance_loss_clip": 1.03462529,
      "balance_loss_mlp": 1.01239777,
      "epoch": 0.8572115673660795,
      "flos": 20050873182720.0,
      "grad_norm": 1.8861526275618914,
      "language_loss": 0.70982361,
      "learning_rate": 2.099594532391291e-07,
      "loss": 0.73076046,
      "num_input_tokens_seen": 154267700,
      "step": 7129,
      "time_per_iteration": 2.5021862983703613
    },
    {
      "auxiliary_loss_clip": 0.01082114,
      "auxiliary_loss_mlp": 0.01022058,
      "balance_loss_clip": 1.03735638,
      "balance_loss_mlp": 1.01699185,
      "epoch": 0.8573318102567186,
      "flos": 27162738593280.0,
      "grad_norm": 1.5845430609769116,
      "language_loss": 0.79114467,
      "learning_rate": 2.0961214783509806e-07,
      "loss": 0.81218636,
      "num_input_tokens_seen": 154290580,
      "step": 7130,
      "time_per_iteration": 2.5837414264678955
    },
    {
      "auxiliary_loss_clip": 0.01070484,
      "auxiliary_loss_mlp": 0.01018577,
      "balance_loss_clip": 1.0353173,
      "balance_loss_mlp": 1.01320362,
      "epoch": 0.8574520531473576,
      "flos": 24938912603520.0,
      "grad_norm": 2.0100896907250747,
      "language_loss": 0.7493751,
      "learning_rate": 2.0926511403148051e-07,
      "loss": 0.7702657,
      "num_input_tokens_seen": 154309545,
      "step": 7131,
      "time_per_iteration": 2.5708389282226562
    },
    {
      "auxiliary_loss_clip": 0.01054243,
      "auxiliary_loss_mlp": 0.01021866,
      "balance_loss_clip": 1.03594518,
      "balance_loss_mlp": 1.01685596,
      "epoch": 0.8575722960379968,
      "flos": 18773175029760.0,
      "grad_norm": 2.203798420843534,
      "language_loss": 0.76005244,
      "learning_rate": 2.0891835188092143e-07,
      "loss": 0.78081352,
      "num_input_tokens_seen": 154326545,
      "step": 7132,
      "time_per_iteration": 2.5895802974700928
    },
    {
      "auxiliary_loss_clip": 0.01054387,
      "auxiliary_loss_mlp": 0.01019999,
      "balance_loss_clip": 1.03510022,
      "balance_loss_mlp": 1.0148015,
      "epoch": 0.8576925389286358,
      "flos": 22202483045760.0,
      "grad_norm": 2.528805759526468,
      "language_loss": 0.81202936,
      "learning_rate": 2.0857186143602434e-07,
      "loss": 0.83277321,
      "num_input_tokens_seen": 154345190,
      "step": 7133,
      "time_per_iteration": 2.5756421089172363
    },
    {
      "auxiliary_loss_clip": 0.01058049,
      "auxiliary_loss_mlp": 0.01023001,
      "balance_loss_clip": 1.03394198,
      "balance_loss_mlp": 1.01765144,
      "epoch": 0.8578127818192749,
      "flos": 22896612800640.0,
      "grad_norm": 2.085133044843674,
      "language_loss": 0.67811596,
      "learning_rate": 2.0822564274935094e-07,
      "loss": 0.69892645,
      "num_input_tokens_seen": 154364615,
      "step": 7134,
      "time_per_iteration": 2.592447519302368
    },
    {
      "auxiliary_loss_clip": 0.01062991,
      "auxiliary_loss_mlp": 0.01019549,
      "balance_loss_clip": 1.03682518,
      "balance_loss_mlp": 1.01409507,
      "epoch": 0.8579330247099141,
      "flos": 34827752050560.0,
      "grad_norm": 1.7208183980384515,
      "language_loss": 0.67221832,
      "learning_rate": 2.078796958734239e-07,
      "loss": 0.69304371,
      "num_input_tokens_seen": 154387335,
      "step": 7135,
      "time_per_iteration": 2.7301225662231445
    },
    {
      "auxiliary_loss_clip": 0.01078358,
      "auxiliary_loss_mlp": 0.01018624,
      "balance_loss_clip": 1.03619075,
      "balance_loss_mlp": 1.01358449,
      "epoch": 0.8580532676005531,
      "flos": 19757723932800.0,
      "grad_norm": 2.7880026833550478,
      "language_loss": 0.75184286,
      "learning_rate": 2.0753402086072124e-07,
      "loss": 0.77281266,
      "num_input_tokens_seen": 154405965,
      "step": 7136,
      "time_per_iteration": 2.5102362632751465
    },
    {
      "auxiliary_loss_clip": 0.0101689,
      "auxiliary_loss_mlp": 0.01023716,
      "balance_loss_clip": 1.03214169,
      "balance_loss_mlp": 1.01846802,
      "epoch": 0.8581735104911922,
      "flos": 22741070549760.0,
      "grad_norm": 2.168259120312239,
      "language_loss": 0.75493097,
      "learning_rate": 2.071886177636828e-07,
      "loss": 0.77533704,
      "num_input_tokens_seen": 154422750,
      "step": 7137,
      "time_per_iteration": 2.67730975151062
    },
    {
      "auxiliary_loss_clip": 0.01078637,
      "auxiliary_loss_mlp": 0.01019093,
      "balance_loss_clip": 1.03703535,
      "balance_loss_mlp": 1.01390171,
      "epoch": 0.8582937533818313,
      "flos": 23151378902400.0,
      "grad_norm": 3.5423606482275853,
      "language_loss": 0.83107018,
      "learning_rate": 2.0684348663470575e-07,
      "loss": 0.85204744,
      "num_input_tokens_seen": 154442930,
      "step": 7138,
      "time_per_iteration": 2.5285935401916504
    },
    {
      "auxiliary_loss_clip": 0.01071846,
      "auxiliary_loss_mlp": 0.01023173,
      "balance_loss_clip": 1.03556812,
      "balance_loss_mlp": 1.01789784,
      "epoch": 0.8584139962724704,
      "flos": 19500606910080.0,
      "grad_norm": 2.020354766899403,
      "language_loss": 0.61778796,
      "learning_rate": 2.0649862752614555e-07,
      "loss": 0.63873816,
      "num_input_tokens_seen": 154461640,
      "step": 7139,
      "time_per_iteration": 2.6476364135742188
    },
    {
      "auxiliary_loss_clip": 0.01020805,
      "auxiliary_loss_mlp": 0.01002532,
      "balance_loss_clip": 1.01517725,
      "balance_loss_mlp": 1.00085151,
      "epoch": 0.8585342391631094,
      "flos": 71283693692160.0,
      "grad_norm": 0.7506570091552246,
      "language_loss": 0.56998855,
      "learning_rate": 2.0615404049031838e-07,
      "loss": 0.59022188,
      "num_input_tokens_seen": 154518610,
      "step": 7140,
      "time_per_iteration": 3.8783304691314697
    },
    {
      "auxiliary_loss_clip": 0.01079226,
      "auxiliary_loss_mlp": 0.01019456,
      "balance_loss_clip": 1.03619456,
      "balance_loss_mlp": 1.01383853,
      "epoch": 0.8586544820537486,
      "flos": 10816908226560.0,
      "grad_norm": 2.303787196638841,
      "language_loss": 0.78148377,
      "learning_rate": 2.0580972557949616e-07,
      "loss": 0.80247056,
      "num_input_tokens_seen": 154533700,
      "step": 7141,
      "time_per_iteration": 3.2869322299957275
    },
    {
      "auxiliary_loss_clip": 0.01031794,
      "auxiliary_loss_mlp": 0.01006411,
      "balance_loss_clip": 1.01607919,
      "balance_loss_mlp": 1.00467038,
      "epoch": 0.8587747249443877,
      "flos": 64817526597120.0,
      "grad_norm": 0.7954501921193734,
      "language_loss": 0.54184699,
      "learning_rate": 2.054656828459125e-07,
      "loss": 0.56222904,
      "num_input_tokens_seen": 154597810,
      "step": 7142,
      "time_per_iteration": 3.9293227195739746
    },
    {
      "auxiliary_loss_clip": 0.01039168,
      "auxiliary_loss_mlp": 0.01020049,
      "balance_loss_clip": 1.03001761,
      "balance_loss_mlp": 1.01463664,
      "epoch": 0.8588949678350267,
      "flos": 26837083497600.0,
      "grad_norm": 1.9929851421439881,
      "language_loss": 0.77647597,
      "learning_rate": 2.051219123417578e-07,
      "loss": 0.79706812,
      "num_input_tokens_seen": 154617870,
      "step": 7143,
      "time_per_iteration": 2.667642593383789
    },
    {
      "auxiliary_loss_clip": 0.01093154,
      "auxiliary_loss_mlp": 0.01018724,
      "balance_loss_clip": 1.03753734,
      "balance_loss_mlp": 1.01331234,
      "epoch": 0.8590152107256659,
      "flos": 26106656088960.0,
      "grad_norm": 31.04573743876325,
      "language_loss": 0.60173708,
      "learning_rate": 2.0477841411918196e-07,
      "loss": 0.62285584,
      "num_input_tokens_seen": 154637395,
      "step": 7144,
      "time_per_iteration": 2.525033950805664
    },
    {
      "auxiliary_loss_clip": 0.0107592,
      "auxiliary_loss_mlp": 0.01017909,
      "balance_loss_clip": 1.03525758,
      "balance_loss_mlp": 1.0127058,
      "epoch": 0.859135453616305,
      "flos": 26143295005440.0,
      "grad_norm": 2.385597463684412,
      "language_loss": 0.745579,
      "learning_rate": 2.0443518823029326e-07,
      "loss": 0.76651728,
      "num_input_tokens_seen": 154657935,
      "step": 7145,
      "time_per_iteration": 2.5488662719726562
    },
    {
      "auxiliary_loss_clip": 0.01055951,
      "auxiliary_loss_mlp": 0.01021773,
      "balance_loss_clip": 1.03375959,
      "balance_loss_mlp": 1.01641142,
      "epoch": 0.859255696506944,
      "flos": 12970982764800.0,
      "grad_norm": 1.9609906027879564,
      "language_loss": 0.76476181,
      "learning_rate": 2.0409223472715854e-07,
      "loss": 0.78553909,
      "num_input_tokens_seen": 154675080,
      "step": 7146,
      "time_per_iteration": 2.5560033321380615
    },
    {
      "auxiliary_loss_clip": 0.01053739,
      "auxiliary_loss_mlp": 0.00756552,
      "balance_loss_clip": 1.03260779,
      "balance_loss_mlp": 1.00175071,
      "epoch": 0.8593759393975832,
      "flos": 18477561104640.0,
      "grad_norm": 2.9747350557695014,
      "language_loss": 0.74758393,
      "learning_rate": 2.0374955366180434e-07,
      "loss": 0.76568687,
      "num_input_tokens_seen": 154692720,
      "step": 7147,
      "time_per_iteration": 2.5632266998291016
    },
    {
      "auxiliary_loss_clip": 0.010577,
      "auxiliary_loss_mlp": 0.01017115,
      "balance_loss_clip": 1.03389263,
      "balance_loss_mlp": 1.0119915,
      "epoch": 0.8594961822882222,
      "flos": 22202331373440.0,
      "grad_norm": 1.9723071357233424,
      "language_loss": 0.72568011,
      "learning_rate": 2.034071450862147e-07,
      "loss": 0.74642831,
      "num_input_tokens_seen": 154710190,
      "step": 7148,
      "time_per_iteration": 2.592857599258423
    },
    {
      "auxiliary_loss_clip": 0.01072873,
      "auxiliary_loss_mlp": 0.0101909,
      "balance_loss_clip": 1.0359329,
      "balance_loss_mlp": 1.01351452,
      "epoch": 0.8596164251788613,
      "flos": 23296986616320.0,
      "grad_norm": 1.7406890045032306,
      "language_loss": 0.7720052,
      "learning_rate": 2.030650090523327e-07,
      "loss": 0.79292482,
      "num_input_tokens_seen": 154729380,
      "step": 7149,
      "time_per_iteration": 3.3570716381073
    },
    {
      "auxiliary_loss_clip": 0.01059299,
      "auxiliary_loss_mlp": 0.01019317,
      "balance_loss_clip": 1.03561521,
      "balance_loss_mlp": 1.01402116,
      "epoch": 0.8597366680695004,
      "flos": 31652603447040.0,
      "grad_norm": 2.038430218873721,
      "language_loss": 0.5949474,
      "learning_rate": 2.0272314561205995e-07,
      "loss": 0.61573356,
      "num_input_tokens_seen": 154749775,
      "step": 7150,
      "time_per_iteration": 2.6779985427856445
    },
    {
      "auxiliary_loss_clip": 0.01057824,
      "auxiliary_loss_mlp": 0.01017106,
      "balance_loss_clip": 1.03337693,
      "balance_loss_mlp": 1.01210499,
      "epoch": 0.8598569109601395,
      "flos": 21289846924800.0,
      "grad_norm": 1.7067481059423055,
      "language_loss": 0.72959191,
      "learning_rate": 2.023815548172567e-07,
      "loss": 0.75034124,
      "num_input_tokens_seen": 154769845,
      "step": 7151,
      "time_per_iteration": 2.611929416656494
    },
    {
      "auxiliary_loss_clip": 0.01082941,
      "auxiliary_loss_mlp": 0.01020745,
      "balance_loss_clip": 1.03716969,
      "balance_loss_mlp": 1.0154258,
      "epoch": 0.8599771538507786,
      "flos": 25450189038720.0,
      "grad_norm": 1.543747499198679,
      "language_loss": 0.66024399,
      "learning_rate": 2.0204023671974267e-07,
      "loss": 0.68128085,
      "num_input_tokens_seen": 154789230,
      "step": 7152,
      "time_per_iteration": 2.586466073989868
    },
    {
      "auxiliary_loss_clip": 0.01069958,
      "auxiliary_loss_mlp": 0.01021219,
      "balance_loss_clip": 1.0317266,
      "balance_loss_mlp": 1.01584291,
      "epoch": 0.8600973967414177,
      "flos": 16725642531840.0,
      "grad_norm": 2.18027663625914,
      "language_loss": 0.8097434,
      "learning_rate": 2.0169919137129532e-07,
      "loss": 0.83065516,
      "num_input_tokens_seen": 154807670,
      "step": 7153,
      "time_per_iteration": 2.4939229488372803
    },
    {
      "auxiliary_loss_clip": 0.01080043,
      "auxiliary_loss_mlp": 0.01020621,
      "balance_loss_clip": 1.03747344,
      "balance_loss_mlp": 1.01505423,
      "epoch": 0.8602176396320568,
      "flos": 25230241785600.0,
      "grad_norm": 3.0528089097534856,
      "language_loss": 0.70472074,
      "learning_rate": 2.013584188236508e-07,
      "loss": 0.72572744,
      "num_input_tokens_seen": 154825575,
      "step": 7154,
      "time_per_iteration": 2.549363136291504
    },
    {
      "auxiliary_loss_clip": 0.01093445,
      "auxiliary_loss_mlp": 0.01018751,
      "balance_loss_clip": 1.03756905,
      "balance_loss_mlp": 1.01333928,
      "epoch": 0.8603378825226958,
      "flos": 20414304737280.0,
      "grad_norm": 4.012670539643491,
      "language_loss": 0.79408044,
      "learning_rate": 2.0101791912850396e-07,
      "loss": 0.81520236,
      "num_input_tokens_seen": 154845115,
      "step": 7155,
      "time_per_iteration": 2.4859609603881836
    },
    {
      "auxiliary_loss_clip": 0.0106763,
      "auxiliary_loss_mlp": 0.01015932,
      "balance_loss_clip": 1.03650999,
      "balance_loss_mlp": 1.01057935,
      "epoch": 0.8604581254133349,
      "flos": 34932891121920.0,
      "grad_norm": 2.218865580947697,
      "language_loss": 0.64437705,
      "learning_rate": 2.006776923375082e-07,
      "loss": 0.66521269,
      "num_input_tokens_seen": 154866770,
      "step": 7156,
      "time_per_iteration": 2.68347430229187
    },
    {
      "auxiliary_loss_clip": 0.01092423,
      "auxiliary_loss_mlp": 0.01016801,
      "balance_loss_clip": 1.03673506,
      "balance_loss_mlp": 1.01172841,
      "epoch": 0.860578368303974,
      "flos": 22598458364160.0,
      "grad_norm": 1.5408273641370827,
      "language_loss": 0.71249616,
      "learning_rate": 2.003377385022764e-07,
      "loss": 0.73358846,
      "num_input_tokens_seen": 154885595,
      "step": 7157,
      "time_per_iteration": 2.5051801204681396
    },
    {
      "auxiliary_loss_clip": 0.0106827,
      "auxiliary_loss_mlp": 0.01022087,
      "balance_loss_clip": 1.03412795,
      "balance_loss_mlp": 1.01717901,
      "epoch": 0.8606986111946131,
      "flos": 21326447923200.0,
      "grad_norm": 1.9186410830870735,
      "language_loss": 0.77458984,
      "learning_rate": 1.9999805767437826e-07,
      "loss": 0.79549342,
      "num_input_tokens_seen": 154904485,
      "step": 7158,
      "time_per_iteration": 2.5443708896636963
    },
    {
      "auxiliary_loss_clip": 0.01067203,
      "auxiliary_loss_mlp": 0.01018532,
      "balance_loss_clip": 1.03395629,
      "balance_loss_mlp": 1.01355469,
      "epoch": 0.8608188540852522,
      "flos": 28879762481280.0,
      "grad_norm": 2.0021253421081577,
      "language_loss": 0.71695608,
      "learning_rate": 1.9965864990534386e-07,
      "loss": 0.73781341,
      "num_input_tokens_seen": 154925010,
      "step": 7159,
      "time_per_iteration": 2.625906229019165
    },
    {
      "auxiliary_loss_clip": 0.01056312,
      "auxiliary_loss_mlp": 0.01016915,
      "balance_loss_clip": 1.0326153,
      "balance_loss_mlp": 1.0120368,
      "epoch": 0.8609390969758913,
      "flos": 29718779506560.0,
      "grad_norm": 1.9953728612325736,
      "language_loss": 0.77568007,
      "learning_rate": 1.9931951524666092e-07,
      "loss": 0.79641235,
      "num_input_tokens_seen": 154946100,
      "step": 7160,
      "time_per_iteration": 2.645911693572998
    },
    {
      "auxiliary_loss_clip": 0.01081881,
      "auxiliary_loss_mlp": 0.00756603,
      "balance_loss_clip": 1.03708839,
      "balance_loss_mlp": 1.00173426,
      "epoch": 0.8610593398665304,
      "flos": 21251350022400.0,
      "grad_norm": 2.0497844117522837,
      "language_loss": 0.81179333,
      "learning_rate": 1.9898065374977534e-07,
      "loss": 0.83017814,
      "num_input_tokens_seen": 154966305,
      "step": 7161,
      "time_per_iteration": 2.5607032775878906
    },
    {
      "auxiliary_loss_clip": 0.01043853,
      "auxiliary_loss_mlp": 0.01015444,
      "balance_loss_clip": 1.03121376,
      "balance_loss_mlp": 1.01086307,
      "epoch": 0.8611795827571694,
      "flos": 14831870135040.0,
      "grad_norm": 1.8913240790029258,
      "language_loss": 0.7314775,
      "learning_rate": 1.9864206546609342e-07,
      "loss": 0.75207043,
      "num_input_tokens_seen": 154985145,
      "step": 7162,
      "time_per_iteration": 2.576507329940796
    },
    {
      "auxiliary_loss_clip": 0.01090498,
      "auxiliary_loss_mlp": 0.01017006,
      "balance_loss_clip": 1.03536677,
      "balance_loss_mlp": 1.01191008,
      "epoch": 0.8612998256478086,
      "flos": 24245541210240.0,
      "grad_norm": 3.143550518536401,
      "language_loss": 0.84390694,
      "learning_rate": 1.983037504469771e-07,
      "loss": 0.86498195,
      "num_input_tokens_seen": 155003855,
      "step": 7163,
      "time_per_iteration": 2.541407823562622
    },
    {
      "auxiliary_loss_clip": 0.01079787,
      "auxiliary_loss_mlp": 0.01020803,
      "balance_loss_clip": 1.03621936,
      "balance_loss_mlp": 1.01563561,
      "epoch": 0.8614200685384477,
      "flos": 21254838485760.0,
      "grad_norm": 1.675911865370429,
      "language_loss": 0.66511422,
      "learning_rate": 1.9796570874374984e-07,
      "loss": 0.68612015,
      "num_input_tokens_seen": 155023960,
      "step": 7164,
      "time_per_iteration": 2.5187323093414307
    },
    {
      "auxiliary_loss_clip": 0.01069012,
      "auxiliary_loss_mlp": 0.01015303,
      "balance_loss_clip": 1.03567648,
      "balance_loss_mlp": 1.01023972,
      "epoch": 0.8615403114290867,
      "flos": 20009608260480.0,
      "grad_norm": 1.7013176909865362,
      "language_loss": 0.77697498,
      "learning_rate": 1.976279404076917e-07,
      "loss": 0.79781812,
      "num_input_tokens_seen": 155043360,
      "step": 7165,
      "time_per_iteration": 2.5996406078338623
    },
    {
      "auxiliary_loss_clip": 0.01053313,
      "auxiliary_loss_mlp": 0.01019628,
      "balance_loss_clip": 1.03416705,
      "balance_loss_mlp": 1.01442158,
      "epoch": 0.8616605543197259,
      "flos": 29791981503360.0,
      "grad_norm": 1.840866736448327,
      "language_loss": 0.76078051,
      "learning_rate": 1.9729044549004193e-07,
      "loss": 0.78150988,
      "num_input_tokens_seen": 155064745,
      "step": 7166,
      "time_per_iteration": 3.4369008541107178
    },
    {
      "auxiliary_loss_clip": 0.01079091,
      "auxiliary_loss_mlp": 0.01018912,
      "balance_loss_clip": 1.03619969,
      "balance_loss_mlp": 1.01372612,
      "epoch": 0.8617807972103649,
      "flos": 28914050476800.0,
      "grad_norm": 2.194041615888568,
      "language_loss": 0.70532215,
      "learning_rate": 1.9695322404199822e-07,
      "loss": 0.72630221,
      "num_input_tokens_seen": 155086790,
      "step": 7167,
      "time_per_iteration": 4.1312055587768555
    },
    {
      "auxiliary_loss_clip": 0.0106375,
      "auxiliary_loss_mlp": 0.01020592,
      "balance_loss_clip": 1.03686655,
      "balance_loss_mlp": 1.01528108,
      "epoch": 0.861901040101004,
      "flos": 27676328031360.0,
      "grad_norm": 2.0754771186646703,
      "language_loss": 0.82333267,
      "learning_rate": 1.9661627611471654e-07,
      "loss": 0.84417611,
      "num_input_tokens_seen": 155106585,
      "step": 7168,
      "time_per_iteration": 2.609837532043457
    },
    {
      "auxiliary_loss_clip": 0.01064598,
      "auxiliary_loss_mlp": 0.01018663,
      "balance_loss_clip": 1.03447247,
      "balance_loss_mlp": 1.01326036,
      "epoch": 0.8620212829916432,
      "flos": 49751831191680.0,
      "grad_norm": 2.6975410061506144,
      "language_loss": 0.70469165,
      "learning_rate": 1.9627960175931246e-07,
      "loss": 0.72552425,
      "num_input_tokens_seen": 155131285,
      "step": 7169,
      "time_per_iteration": 2.8000283241271973
    },
    {
      "auxiliary_loss_clip": 0.01078581,
      "auxiliary_loss_mlp": 0.01021095,
      "balance_loss_clip": 1.03684282,
      "balance_loss_mlp": 1.01601696,
      "epoch": 0.8621415258822822,
      "flos": 21140599075200.0,
      "grad_norm": 1.6294380503211972,
      "language_loss": 0.74059868,
      "learning_rate": 1.9594320102685847e-07,
      "loss": 0.76159537,
      "num_input_tokens_seen": 155150555,
      "step": 7170,
      "time_per_iteration": 2.533864736557007
    },
    {
      "auxiliary_loss_clip": 0.01065056,
      "auxiliary_loss_mlp": 0.00756503,
      "balance_loss_clip": 1.03404617,
      "balance_loss_mlp": 1.00161743,
      "epoch": 0.8622617687729213,
      "flos": 21691168692480.0,
      "grad_norm": 2.2562240765611863,
      "language_loss": 0.64481902,
      "learning_rate": 1.956070739683864e-07,
      "loss": 0.66303456,
      "num_input_tokens_seen": 155169890,
      "step": 7171,
      "time_per_iteration": 2.5495550632476807
    },
    {
      "auxiliary_loss_clip": 0.0105673,
      "auxiliary_loss_mlp": 0.0101699,
      "balance_loss_clip": 1.03312159,
      "balance_loss_mlp": 1.01192117,
      "epoch": 0.8623820116635604,
      "flos": 26253022164480.0,
      "grad_norm": 1.5000337910197912,
      "language_loss": 0.74097049,
      "learning_rate": 1.9527122063488678e-07,
      "loss": 0.76170772,
      "num_input_tokens_seen": 155191005,
      "step": 7172,
      "time_per_iteration": 2.63203501701355
    },
    {
      "auxiliary_loss_clip": 0.01069579,
      "auxiliary_loss_mlp": 0.01016253,
      "balance_loss_clip": 1.03421414,
      "balance_loss_mlp": 1.01135111,
      "epoch": 0.8625022545541995,
      "flos": 19649665169280.0,
      "grad_norm": 1.587281113708824,
      "language_loss": 0.80285549,
      "learning_rate": 1.9493564107730755e-07,
      "loss": 0.82371378,
      "num_input_tokens_seen": 155211005,
      "step": 7173,
      "time_per_iteration": 2.5801258087158203
    },
    {
      "auxiliary_loss_clip": 0.01070044,
      "auxiliary_loss_mlp": 0.01019066,
      "balance_loss_clip": 1.03537393,
      "balance_loss_mlp": 1.01419365,
      "epoch": 0.8626224974448385,
      "flos": 21910547174400.0,
      "grad_norm": 2.045070850979381,
      "language_loss": 0.61397982,
      "learning_rate": 1.9460033534655684e-07,
      "loss": 0.63487089,
      "num_input_tokens_seen": 155230365,
      "step": 7174,
      "time_per_iteration": 3.348038911819458
    },
    {
      "auxiliary_loss_clip": 0.01068376,
      "auxiliary_loss_mlp": 0.01018762,
      "balance_loss_clip": 1.03287888,
      "balance_loss_mlp": 1.0137912,
      "epoch": 0.8627427403354777,
      "flos": 23333435942400.0,
      "grad_norm": 1.9685397168976824,
      "language_loss": 0.84201825,
      "learning_rate": 1.9426530349349978e-07,
      "loss": 0.86288965,
      "num_input_tokens_seen": 155250815,
      "step": 7175,
      "time_per_iteration": 2.5952646732330322
    },
    {
      "auxiliary_loss_clip": 0.01079653,
      "auxiliary_loss_mlp": 0.0075657,
      "balance_loss_clip": 1.03600132,
      "balance_loss_mlp": 1.00169766,
      "epoch": 0.8628629832261168,
      "flos": 16364751488640.0,
      "grad_norm": 1.8777618075691214,
      "language_loss": 0.64970738,
      "learning_rate": 1.9393054556896038e-07,
      "loss": 0.6680696,
      "num_input_tokens_seen": 155268515,
      "step": 7176,
      "time_per_iteration": 2.5027828216552734
    },
    {
      "auxiliary_loss_clip": 0.01053276,
      "auxiliary_loss_mlp": 0.01017184,
      "balance_loss_clip": 1.03395009,
      "balance_loss_mlp": 1.01141107,
      "epoch": 0.8629832261167558,
      "flos": 28106060492160.0,
      "grad_norm": 2.725465586912323,
      "language_loss": 0.69029307,
      "learning_rate": 1.9359606162372133e-07,
      "loss": 0.71099764,
      "num_input_tokens_seen": 155290120,
      "step": 7177,
      "time_per_iteration": 2.6527016162872314
    },
    {
      "auxiliary_loss_clip": 0.01092021,
      "auxiliary_loss_mlp": 0.01020764,
      "balance_loss_clip": 1.03752816,
      "balance_loss_mlp": 1.01568568,
      "epoch": 0.863103469007395,
      "flos": 20232133943040.0,
      "grad_norm": 1.7293856955908895,
      "language_loss": 0.70442164,
      "learning_rate": 1.9326185170852293e-07,
      "loss": 0.72554946,
      "num_input_tokens_seen": 155309085,
      "step": 7178,
      "time_per_iteration": 2.4787001609802246
    },
    {
      "auxiliary_loss_clip": 0.01082157,
      "auxiliary_loss_mlp": 0.0102021,
      "balance_loss_clip": 1.03710032,
      "balance_loss_mlp": 1.01514912,
      "epoch": 0.863223711898034,
      "flos": 24500838165120.0,
      "grad_norm": 2.2364227185888614,
      "language_loss": 0.72308952,
      "learning_rate": 1.9292791587406598e-07,
      "loss": 0.74411321,
      "num_input_tokens_seen": 155327945,
      "step": 7179,
      "time_per_iteration": 2.5437257289886475
    },
    {
      "auxiliary_loss_clip": 0.01082009,
      "auxiliary_loss_mlp": 0.00756757,
      "balance_loss_clip": 1.03598046,
      "balance_loss_mlp": 1.00167096,
      "epoch": 0.8633439547886731,
      "flos": 17677268490240.0,
      "grad_norm": 2.0406858236292105,
      "language_loss": 0.87137961,
      "learning_rate": 1.9259425417100661e-07,
      "loss": 0.88976729,
      "num_input_tokens_seen": 155344060,
      "step": 7180,
      "time_per_iteration": 2.4834952354431152
    },
    {
      "auxiliary_loss_clip": 0.01039869,
      "auxiliary_loss_mlp": 0.01020449,
      "balance_loss_clip": 1.03307056,
      "balance_loss_mlp": 1.01504588,
      "epoch": 0.8634641976793123,
      "flos": 12896643225600.0,
      "grad_norm": 1.9888851300731234,
      "language_loss": 0.74781162,
      "learning_rate": 1.9226086664996234e-07,
      "loss": 0.76841474,
      "num_input_tokens_seen": 155362305,
      "step": 7181,
      "time_per_iteration": 2.6513490676879883
    },
    {
      "auxiliary_loss_clip": 0.0106425,
      "auxiliary_loss_mlp": 0.01023671,
      "balance_loss_clip": 1.03678393,
      "balance_loss_mlp": 1.01872396,
      "epoch": 0.8635844405699513,
      "flos": 23881275457920.0,
      "grad_norm": 2.537245857516474,
      "language_loss": 0.7408756,
      "learning_rate": 1.9192775336150712e-07,
      "loss": 0.76175475,
      "num_input_tokens_seen": 155382605,
      "step": 7182,
      "time_per_iteration": 2.5686590671539307
    },
    {
      "auxiliary_loss_clip": 0.01029803,
      "auxiliary_loss_mlp": 0.01001642,
      "balance_loss_clip": 1.01562953,
      "balance_loss_mlp": 0.9999488,
      "epoch": 0.8637046834605904,
      "flos": 60458595160320.0,
      "grad_norm": 0.7603534977692453,
      "language_loss": 0.56234396,
      "learning_rate": 1.915949143561739e-07,
      "loss": 0.58265841,
      "num_input_tokens_seen": 155437280,
      "step": 7183,
      "time_per_iteration": 3.1738500595092773
    },
    {
      "auxiliary_loss_clip": 0.01077947,
      "auxiliary_loss_mlp": 0.01021773,
      "balance_loss_clip": 1.03667426,
      "balance_loss_mlp": 1.01655793,
      "epoch": 0.8638249263512295,
      "flos": 20560860403200.0,
      "grad_norm": 1.6939931916947832,
      "language_loss": 0.78234315,
      "learning_rate": 1.9126234968445498e-07,
      "loss": 0.80334032,
      "num_input_tokens_seen": 155456970,
      "step": 7184,
      "time_per_iteration": 2.5110621452331543
    },
    {
      "auxiliary_loss_clip": 0.01093222,
      "auxiliary_loss_mlp": 0.0102288,
      "balance_loss_clip": 1.0378499,
      "balance_loss_mlp": 1.01759052,
      "epoch": 0.8639451692418686,
      "flos": 26618235868800.0,
      "grad_norm": 1.4638661179226704,
      "language_loss": 0.6775763,
      "learning_rate": 1.9093005939679884e-07,
      "loss": 0.69873738,
      "num_input_tokens_seen": 155478925,
      "step": 7185,
      "time_per_iteration": 2.551892042160034
    },
    {
      "auxiliary_loss_clip": 0.0107854,
      "auxiliary_loss_mlp": 0.01024576,
      "balance_loss_clip": 1.03544021,
      "balance_loss_mlp": 1.01928937,
      "epoch": 0.8640654121325076,
      "flos": 15124261023360.0,
      "grad_norm": 3.6346091757126073,
      "language_loss": 0.76667386,
      "learning_rate": 1.9059804354361452e-07,
      "loss": 0.787705,
      "num_input_tokens_seen": 155496700,
      "step": 7186,
      "time_per_iteration": 2.4841251373291016
    },
    {
      "auxiliary_loss_clip": 0.01070528,
      "auxiliary_loss_mlp": 0.01017138,
      "balance_loss_clip": 1.03407311,
      "balance_loss_mlp": 1.01185107,
      "epoch": 0.8641856550231467,
      "flos": 31871792338560.0,
      "grad_norm": 1.6747433909086031,
      "language_loss": 0.70516682,
      "learning_rate": 1.902663021752684e-07,
      "loss": 0.72604346,
      "num_input_tokens_seen": 155518130,
      "step": 7187,
      "time_per_iteration": 2.645378589630127
    },
    {
      "auxiliary_loss_clip": 0.01092334,
      "auxiliary_loss_mlp": 0.01016262,
      "balance_loss_clip": 1.0371027,
      "balance_loss_mlp": 1.0112493,
      "epoch": 0.8643058979137859,
      "flos": 14978349964800.0,
      "grad_norm": 2.1655334682897056,
      "language_loss": 0.82458436,
      "learning_rate": 1.8993483534208556e-07,
      "loss": 0.84567034,
      "num_input_tokens_seen": 155537040,
      "step": 7188,
      "time_per_iteration": 2.4479596614837646
    },
    {
      "auxiliary_loss_clip": 0.01065524,
      "auxiliary_loss_mlp": 0.01018216,
      "balance_loss_clip": 1.0366292,
      "balance_loss_mlp": 1.0128988,
      "epoch": 0.8644261408044249,
      "flos": 13117424676480.0,
      "grad_norm": 3.6187053717635203,
      "language_loss": 0.75181925,
      "learning_rate": 1.8960364309434884e-07,
      "loss": 0.77265668,
      "num_input_tokens_seen": 155554535,
      "step": 7189,
      "time_per_iteration": 2.533449649810791
    },
    {
      "auxiliary_loss_clip": 0.01030306,
      "auxiliary_loss_mlp": 0.00756405,
      "balance_loss_clip": 1.03025055,
      "balance_loss_mlp": 1.00168753,
      "epoch": 0.864546383695064,
      "flos": 20853061701120.0,
      "grad_norm": 2.1064780456695624,
      "language_loss": 0.78395295,
      "learning_rate": 1.8927272548229967e-07,
      "loss": 0.80182004,
      "num_input_tokens_seen": 155574225,
      "step": 7190,
      "time_per_iteration": 2.6476848125457764
    },
    {
      "auxiliary_loss_clip": 0.0104494,
      "auxiliary_loss_mlp": 0.01019699,
      "balance_loss_clip": 1.03306079,
      "balance_loss_mlp": 1.01434052,
      "epoch": 0.8646666265857031,
      "flos": 21326713349760.0,
      "grad_norm": 2.375927320910808,
      "language_loss": 0.83264261,
      "learning_rate": 1.8894208255613876e-07,
      "loss": 0.85328895,
      "num_input_tokens_seen": 155593540,
      "step": 7191,
      "time_per_iteration": 2.612534999847412
    },
    {
      "auxiliary_loss_clip": 0.01092634,
      "auxiliary_loss_mlp": 0.0101906,
      "balance_loss_clip": 1.03695655,
      "balance_loss_mlp": 1.01393151,
      "epoch": 0.8647868694763422,
      "flos": 19752604992000.0,
      "grad_norm": 2.1082458996136997,
      "language_loss": 0.7781415,
      "learning_rate": 1.8861171436602397e-07,
      "loss": 0.79925847,
      "num_input_tokens_seen": 155610655,
      "step": 7192,
      "time_per_iteration": 3.3317203521728516
    },
    {
      "auxiliary_loss_clip": 0.01080382,
      "auxiliary_loss_mlp": 0.01023516,
      "balance_loss_clip": 1.03675771,
      "balance_loss_mlp": 1.01807737,
      "epoch": 0.8649071123669813,
      "flos": 26179137642240.0,
      "grad_norm": 2.764752807811257,
      "language_loss": 0.80099869,
      "learning_rate": 1.882816209620719e-07,
      "loss": 0.8220377,
      "num_input_tokens_seen": 155627365,
      "step": 7193,
      "time_per_iteration": 3.3746490478515625
    },
    {
      "auxiliary_loss_clip": 0.01066887,
      "auxiliary_loss_mlp": 0.01022962,
      "balance_loss_clip": 1.03849936,
      "balance_loss_mlp": 1.01759803,
      "epoch": 0.8650273552576204,
      "flos": 20304956759040.0,
      "grad_norm": 1.9635894974953376,
      "language_loss": 0.76751554,
      "learning_rate": 1.8795180239435738e-07,
      "loss": 0.78841412,
      "num_input_tokens_seen": 155646220,
      "step": 7194,
      "time_per_iteration": 2.643662214279175
    },
    {
      "auxiliary_loss_clip": 0.01068278,
      "auxiliary_loss_mlp": 0.01019817,
      "balance_loss_clip": 1.03452551,
      "balance_loss_mlp": 1.01428008,
      "epoch": 0.8651475981482595,
      "flos": 23953339912320.0,
      "grad_norm": 3.4718924008686605,
      "language_loss": 0.75877529,
      "learning_rate": 1.8762225871291348e-07,
      "loss": 0.77965629,
      "num_input_tokens_seen": 155662095,
      "step": 7195,
      "time_per_iteration": 2.553591728210449
    },
    {
      "auxiliary_loss_clip": 0.01091346,
      "auxiliary_loss_mlp": 0.00756716,
      "balance_loss_clip": 1.03652644,
      "balance_loss_mlp": 1.00174868,
      "epoch": 0.8652678410388985,
      "flos": 21686504768640.0,
      "grad_norm": 2.0266166859476367,
      "language_loss": 0.80885625,
      "learning_rate": 1.8729298996773201e-07,
      "loss": 0.82733685,
      "num_input_tokens_seen": 155680845,
      "step": 7196,
      "time_per_iteration": 2.493765354156494
    },
    {
      "auxiliary_loss_clip": 0.01030642,
      "auxiliary_loss_mlp": 0.01001778,
      "balance_loss_clip": 1.0168134,
      "balance_loss_mlp": 1.00018048,
      "epoch": 0.8653880839295377,
      "flos": 65231702593920.0,
      "grad_norm": 0.831737380048574,
      "language_loss": 0.60899967,
      "learning_rate": 1.8696399620876301e-07,
      "loss": 0.6293239,
      "num_input_tokens_seen": 155737875,
      "step": 7197,
      "time_per_iteration": 3.0782783031463623
    },
    {
      "auxiliary_loss_clip": 0.01063028,
      "auxiliary_loss_mlp": 0.01017218,
      "balance_loss_clip": 1.0357542,
      "balance_loss_mlp": 1.01176381,
      "epoch": 0.8655083268201768,
      "flos": 17751115094400.0,
      "grad_norm": 3.319605198335488,
      "language_loss": 0.79209739,
      "learning_rate": 1.866352774859141e-07,
      "loss": 0.81289983,
      "num_input_tokens_seen": 155753100,
      "step": 7198,
      "time_per_iteration": 2.5746309757232666
    },
    {
      "auxiliary_loss_clip": 0.01058239,
      "auxiliary_loss_mlp": 0.01019656,
      "balance_loss_clip": 1.03379869,
      "balance_loss_mlp": 1.01481044,
      "epoch": 0.8656285697108158,
      "flos": 20706051018240.0,
      "grad_norm": 2.2935228319681285,
      "language_loss": 0.69059253,
      "learning_rate": 1.8630683384905188e-07,
      "loss": 0.71137148,
      "num_input_tokens_seen": 155772430,
      "step": 7199,
      "time_per_iteration": 2.5911664962768555
    },
    {
      "auxiliary_loss_clip": 0.01093386,
      "auxiliary_loss_mlp": 0.00756617,
      "balance_loss_clip": 1.0381422,
      "balance_loss_mlp": 1.00177526,
      "epoch": 0.865748812601455,
      "flos": 18655409237760.0,
      "grad_norm": 1.958131882273524,
      "language_loss": 0.88663232,
      "learning_rate": 1.8597866534800045e-07,
      "loss": 0.90513235,
      "num_input_tokens_seen": 155787545,
      "step": 7200,
      "time_per_iteration": 3.2526943683624268
    },
    {
      "auxiliary_loss_clip": 0.01081682,
      "auxiliary_loss_mlp": 0.00756872,
      "balance_loss_clip": 1.03717256,
      "balance_loss_mlp": 1.00173783,
      "epoch": 0.865869055492094,
      "flos": 70657391617920.0,
      "grad_norm": 4.607984808494909,
      "language_loss": 0.74510622,
      "learning_rate": 1.8565077203254398e-07,
      "loss": 0.76349181,
      "num_input_tokens_seen": 155813005,
      "step": 7201,
      "time_per_iteration": 2.9354681968688965
    },
    {
      "auxiliary_loss_clip": 0.01049704,
      "auxiliary_loss_mlp": 0.01022445,
      "balance_loss_clip": 1.03235483,
      "balance_loss_mlp": 1.01726222,
      "epoch": 0.8659892983827331,
      "flos": 17385863472000.0,
      "grad_norm": 3.1205866091935976,
      "language_loss": 0.72860134,
      "learning_rate": 1.8532315395242203e-07,
      "loss": 0.74932277,
      "num_input_tokens_seen": 155829455,
      "step": 7202,
      "time_per_iteration": 2.5443618297576904
    },
    {
      "auxiliary_loss_clip": 0.01053942,
      "auxiliary_loss_mlp": 0.01020563,
      "balance_loss_clip": 1.03290677,
      "balance_loss_mlp": 1.01543093,
      "epoch": 0.8661095412733723,
      "flos": 17897177825280.0,
      "grad_norm": 2.6903896204669513,
      "language_loss": 0.72368717,
      "learning_rate": 1.849958111573353e-07,
      "loss": 0.74443221,
      "num_input_tokens_seen": 155848060,
      "step": 7203,
      "time_per_iteration": 2.589491367340088
    },
    {
      "auxiliary_loss_clip": 0.01091737,
      "auxiliary_loss_mlp": 0.0101885,
      "balance_loss_clip": 1.03726828,
      "balance_loss_mlp": 1.01397395,
      "epoch": 0.8662297841640113,
      "flos": 18226169712000.0,
      "grad_norm": 2.368457385836978,
      "language_loss": 0.63684034,
      "learning_rate": 1.8466874369694074e-07,
      "loss": 0.65794617,
      "num_input_tokens_seen": 155865755,
      "step": 7204,
      "time_per_iteration": 2.4676425457000732
    },
    {
      "auxiliary_loss_clip": 0.01061247,
      "auxiliary_loss_mlp": 0.01020003,
      "balance_loss_clip": 1.03527832,
      "balance_loss_mlp": 1.01485658,
      "epoch": 0.8663500270546504,
      "flos": 16363993127040.0,
      "grad_norm": 3.1183753774819483,
      "language_loss": 0.6982941,
      "learning_rate": 1.843419516208542e-07,
      "loss": 0.71910667,
      "num_input_tokens_seen": 155882680,
      "step": 7205,
      "time_per_iteration": 2.5738019943237305
    },
    {
      "auxiliary_loss_clip": 0.01075631,
      "auxiliary_loss_mlp": 0.0102102,
      "balance_loss_clip": 1.033041,
      "balance_loss_mlp": 1.01525044,
      "epoch": 0.8664702699452895,
      "flos": 17896343627520.0,
      "grad_norm": 2.1899722184338897,
      "language_loss": 0.79740387,
      "learning_rate": 1.8401543497865047e-07,
      "loss": 0.81837034,
      "num_input_tokens_seen": 155900680,
      "step": 7206,
      "time_per_iteration": 2.481123924255371
    },
    {
      "auxiliary_loss_clip": 0.01079277,
      "auxiliary_loss_mlp": 0.0075657,
      "balance_loss_clip": 1.03463948,
      "balance_loss_mlp": 1.00163412,
      "epoch": 0.8665905128359286,
      "flos": 30738943537920.0,
      "grad_norm": 2.2540331988208115,
      "language_loss": 0.64221454,
      "learning_rate": 1.836891938198608e-07,
      "loss": 0.66057301,
      "num_input_tokens_seen": 155921105,
      "step": 7207,
      "time_per_iteration": 2.6267900466918945
    },
    {
      "auxiliary_loss_clip": 0.01068945,
      "auxiliary_loss_mlp": 0.01021173,
      "balance_loss_clip": 1.03702354,
      "balance_loss_mlp": 1.01602304,
      "epoch": 0.8667107557265676,
      "flos": 18658139339520.0,
      "grad_norm": 3.714679213758256,
      "language_loss": 0.71335304,
      "learning_rate": 1.8336322819397677e-07,
      "loss": 0.73425418,
      "num_input_tokens_seen": 155938640,
      "step": 7208,
      "time_per_iteration": 2.516896963119507
    },
    {
      "auxiliary_loss_clip": 0.01059712,
      "auxiliary_loss_mlp": 0.01020868,
      "balance_loss_clip": 1.03330362,
      "balance_loss_mlp": 1.0154798,
      "epoch": 0.8668309986172068,
      "flos": 20085767867520.0,
      "grad_norm": 1.9765588749519005,
      "language_loss": 0.62803257,
      "learning_rate": 1.8303753815044654e-07,
      "loss": 0.6488384,
      "num_input_tokens_seen": 155957945,
      "step": 7209,
      "time_per_iteration": 2.5881576538085938
    },
    {
      "auxiliary_loss_clip": 0.01072269,
      "auxiliary_loss_mlp": 0.01018166,
      "balance_loss_clip": 1.03519535,
      "balance_loss_mlp": 1.01248229,
      "epoch": 0.8669512415078459,
      "flos": 21617170416000.0,
      "grad_norm": 3.3744690226436242,
      "language_loss": 0.70698714,
      "learning_rate": 1.827121237386773e-07,
      "loss": 0.72789145,
      "num_input_tokens_seen": 155975390,
      "step": 7210,
      "time_per_iteration": 2.538239002227783
    },
    {
      "auxiliary_loss_clip": 0.01067203,
      "auxiliary_loss_mlp": 0.01023461,
      "balance_loss_clip": 1.03442669,
      "balance_loss_mlp": 1.01797485,
      "epoch": 0.8670714843984849,
      "flos": 17705034576000.0,
      "grad_norm": 2.4469491628564617,
      "language_loss": 0.75543272,
      "learning_rate": 1.8238698500803374e-07,
      "loss": 0.77633941,
      "num_input_tokens_seen": 155988155,
      "step": 7211,
      "time_per_iteration": 2.530999183654785
    },
    {
      "auxiliary_loss_clip": 0.01032772,
      "auxiliary_loss_mlp": 0.01003683,
      "balance_loss_clip": 1.01715219,
      "balance_loss_mlp": 1.00210977,
      "epoch": 0.8671917272891241,
      "flos": 60712554931200.0,
      "grad_norm": 0.7141096946502149,
      "language_loss": 0.56205404,
      "learning_rate": 1.820621220078391e-07,
      "loss": 0.58241856,
      "num_input_tokens_seen": 156052065,
      "step": 7212,
      "time_per_iteration": 3.181257486343384
    },
    {
      "auxiliary_loss_clip": 0.01091936,
      "auxiliary_loss_mlp": 0.01017213,
      "balance_loss_clip": 1.03704572,
      "balance_loss_mlp": 1.01198912,
      "epoch": 0.8673119701797631,
      "flos": 20454128772480.0,
      "grad_norm": 2.1037282063299405,
      "language_loss": 0.67756182,
      "learning_rate": 1.8173753478737553e-07,
      "loss": 0.69865334,
      "num_input_tokens_seen": 156072500,
      "step": 7213,
      "time_per_iteration": 2.5194051265716553
    },
    {
      "auxiliary_loss_clip": 0.01092489,
      "auxiliary_loss_mlp": 0.01020616,
      "balance_loss_clip": 1.03739297,
      "balance_loss_mlp": 1.01535344,
      "epoch": 0.8674322130704022,
      "flos": 19649513496960.0,
      "grad_norm": 4.695321919746343,
      "language_loss": 0.80080056,
      "learning_rate": 1.8141322339588205e-07,
      "loss": 0.8219316,
      "num_input_tokens_seen": 156089840,
      "step": 7214,
      "time_per_iteration": 2.4758358001708984
    },
    {
      "auxiliary_loss_clip": 0.01092003,
      "auxiliary_loss_mlp": 0.0102309,
      "balance_loss_clip": 1.03725207,
      "balance_loss_mlp": 1.01833963,
      "epoch": 0.8675524559610414,
      "flos": 26027045936640.0,
      "grad_norm": 2.051763587946727,
      "language_loss": 0.70347393,
      "learning_rate": 1.810891878825569e-07,
      "loss": 0.72462487,
      "num_input_tokens_seen": 156109815,
      "step": 7215,
      "time_per_iteration": 2.5445337295532227
    },
    {
      "auxiliary_loss_clip": 0.01066392,
      "auxiliary_loss_mlp": 0.01018442,
      "balance_loss_clip": 1.03331029,
      "balance_loss_mlp": 1.01320016,
      "epoch": 0.8676726988516804,
      "flos": 15051248616960.0,
      "grad_norm": 1.9248669874677715,
      "language_loss": 0.71838379,
      "learning_rate": 1.8076542829655561e-07,
      "loss": 0.73923212,
      "num_input_tokens_seen": 156128620,
      "step": 7216,
      "time_per_iteration": 2.534487724304199
    },
    {
      "auxiliary_loss_clip": 0.01062156,
      "auxiliary_loss_mlp": 0.01020872,
      "balance_loss_clip": 1.03586578,
      "balance_loss_mlp": 1.01501584,
      "epoch": 0.8677929417423195,
      "flos": 16289881096320.0,
      "grad_norm": 2.150656691666201,
      "language_loss": 0.79291463,
      "learning_rate": 1.8044194468699203e-07,
      "loss": 0.81374496,
      "num_input_tokens_seen": 156145930,
      "step": 7217,
      "time_per_iteration": 2.5331904888153076
    },
    {
      "auxiliary_loss_clip": 0.01060766,
      "auxiliary_loss_mlp": 0.0101968,
      "balance_loss_clip": 1.03176141,
      "balance_loss_mlp": 1.014575,
      "epoch": 0.8679131846329585,
      "flos": 18846187436160.0,
      "grad_norm": 3.608485783824359,
      "language_loss": 0.76074654,
      "learning_rate": 1.8011873710293912e-07,
      "loss": 0.781551,
      "num_input_tokens_seen": 156164435,
      "step": 7218,
      "time_per_iteration": 3.3004088401794434
    },
    {
      "auxiliary_loss_clip": 0.01072999,
      "auxiliary_loss_mlp": 0.0102093,
      "balance_loss_clip": 1.03427994,
      "balance_loss_mlp": 1.01574123,
      "epoch": 0.8680334275235977,
      "flos": 33623559239040.0,
      "grad_norm": 2.338486935681628,
      "language_loss": 0.69705796,
      "learning_rate": 1.7979580559342677e-07,
      "loss": 0.71799731,
      "num_input_tokens_seen": 156185165,
      "step": 7219,
      "time_per_iteration": 4.1089653968811035
    },
    {
      "auxiliary_loss_clip": 0.01062927,
      "auxiliary_loss_mlp": 0.01023354,
      "balance_loss_clip": 1.0319922,
      "balance_loss_mlp": 1.0183171,
      "epoch": 0.8681536704142367,
      "flos": 24683463976320.0,
      "grad_norm": 1.5861929064227647,
      "language_loss": 0.66706133,
      "learning_rate": 1.7947315020744358e-07,
      "loss": 0.68792415,
      "num_input_tokens_seen": 156206260,
      "step": 7220,
      "time_per_iteration": 2.58552622795105
    },
    {
      "auxiliary_loss_clip": 0.01066654,
      "auxiliary_loss_mlp": 0.01018209,
      "balance_loss_clip": 1.03470051,
      "balance_loss_mlp": 1.01321387,
      "epoch": 0.8682739133048758,
      "flos": 20013096723840.0,
      "grad_norm": 1.7981848066172086,
      "language_loss": 0.80323029,
      "learning_rate": 1.7915077099393594e-07,
      "loss": 0.82407892,
      "num_input_tokens_seen": 156222860,
      "step": 7221,
      "time_per_iteration": 2.549408435821533
    },
    {
      "auxiliary_loss_clip": 0.010827,
      "auxiliary_loss_mlp": 0.01022546,
      "balance_loss_clip": 1.03688192,
      "balance_loss_mlp": 1.01717889,
      "epoch": 0.868394156195515,
      "flos": 16656649441920.0,
      "grad_norm": 1.8392642015153786,
      "language_loss": 0.7310859,
      "learning_rate": 1.788286680018083e-07,
      "loss": 0.75213844,
      "num_input_tokens_seen": 156241570,
      "step": 7222,
      "time_per_iteration": 2.5169296264648438
    },
    {
      "auxiliary_loss_clip": 0.01069915,
      "auxiliary_loss_mlp": 0.01020383,
      "balance_loss_clip": 1.03630936,
      "balance_loss_mlp": 1.01539135,
      "epoch": 0.868514399086154,
      "flos": 28003879031040.0,
      "grad_norm": 1.6219720623688794,
      "language_loss": 0.72681755,
      "learning_rate": 1.7850684127992443e-07,
      "loss": 0.74772048,
      "num_input_tokens_seen": 156261315,
      "step": 7223,
      "time_per_iteration": 2.6361148357391357
    },
    {
      "auxiliary_loss_clip": 0.01056107,
      "auxiliary_loss_mlp": 0.01020405,
      "balance_loss_clip": 1.03561652,
      "balance_loss_mlp": 1.01508868,
      "epoch": 0.8686346419767931,
      "flos": 20086677901440.0,
      "grad_norm": 1.898579011814021,
      "language_loss": 0.70293927,
      "learning_rate": 1.7818529087710378e-07,
      "loss": 0.7237044,
      "num_input_tokens_seen": 156281670,
      "step": 7224,
      "time_per_iteration": 2.5979998111724854
    },
    {
      "auxiliary_loss_clip": 0.01076357,
      "auxiliary_loss_mlp": 0.00756753,
      "balance_loss_clip": 1.03344417,
      "balance_loss_mlp": 1.0017823,
      "epoch": 0.8687548848674322,
      "flos": 18225487186560.0,
      "grad_norm": 1.8568752945626168,
      "language_loss": 0.83960932,
      "learning_rate": 1.7786401684212637e-07,
      "loss": 0.85794044,
      "num_input_tokens_seen": 156300500,
      "step": 7225,
      "time_per_iteration": 3.305452346801758
    },
    {
      "auxiliary_loss_clip": 0.01006291,
      "auxiliary_loss_mlp": 0.01003127,
      "balance_loss_clip": 1.02244544,
      "balance_loss_mlp": 1.0015887,
      "epoch": 0.8688751277580713,
      "flos": 70464062856960.0,
      "grad_norm": 0.7363726767631396,
      "language_loss": 0.55910426,
      "learning_rate": 1.7754301922372883e-07,
      "loss": 0.57919848,
      "num_input_tokens_seen": 156350145,
      "step": 7226,
      "time_per_iteration": 3.05256986618042
    },
    {
      "auxiliary_loss_clip": 0.01030975,
      "auxiliary_loss_mlp": 0.01020179,
      "balance_loss_clip": 1.03375244,
      "balance_loss_mlp": 1.01487684,
      "epoch": 0.8689953706487104,
      "flos": 26909223788160.0,
      "grad_norm": 1.9637799360759716,
      "language_loss": 0.8097418,
      "learning_rate": 1.7722229807060617e-07,
      "loss": 0.83025336,
      "num_input_tokens_seen": 156368725,
      "step": 7227,
      "time_per_iteration": 2.708075523376465
    },
    {
      "auxiliary_loss_clip": 0.01052332,
      "auxiliary_loss_mlp": 0.01017651,
      "balance_loss_clip": 1.03033328,
      "balance_loss_mlp": 1.01266181,
      "epoch": 0.8691156135393495,
      "flos": 34640007298560.0,
      "grad_norm": 2.1723624319884163,
      "language_loss": 0.81779391,
      "learning_rate": 1.7690185343141172e-07,
      "loss": 0.8384937,
      "num_input_tokens_seen": 156388640,
      "step": 7228,
      "time_per_iteration": 2.671860933303833
    },
    {
      "auxiliary_loss_clip": 0.01069504,
      "auxiliary_loss_mlp": 0.01018436,
      "balance_loss_clip": 1.03514671,
      "balance_loss_mlp": 1.013695,
      "epoch": 0.8692358564299886,
      "flos": 18991833068160.0,
      "grad_norm": 2.6076010325353236,
      "language_loss": 0.69931936,
      "learning_rate": 1.7658168535475615e-07,
      "loss": 0.72019875,
      "num_input_tokens_seen": 156406425,
      "step": 7229,
      "time_per_iteration": 2.545687437057495
    },
    {
      "auxiliary_loss_clip": 0.01068644,
      "auxiliary_loss_mlp": 0.01021738,
      "balance_loss_clip": 1.03564501,
      "balance_loss_mlp": 1.01651692,
      "epoch": 0.8693560993206276,
      "flos": 30373350652800.0,
      "grad_norm": 1.4980672306916523,
      "language_loss": 0.64410961,
      "learning_rate": 1.7626179388920948e-07,
      "loss": 0.66501343,
      "num_input_tokens_seen": 156427705,
      "step": 7230,
      "time_per_iteration": 2.6142849922180176
    },
    {
      "auxiliary_loss_clip": 0.01065335,
      "auxiliary_loss_mlp": 0.00756618,
      "balance_loss_clip": 1.03555059,
      "balance_loss_mlp": 1.00187016,
      "epoch": 0.8694763422112668,
      "flos": 27202979727360.0,
      "grad_norm": 1.7087444624882981,
      "language_loss": 0.80736291,
      "learning_rate": 1.7594217908329866e-07,
      "loss": 0.82558244,
      "num_input_tokens_seen": 156449890,
      "step": 7231,
      "time_per_iteration": 2.6723811626434326
    },
    {
      "auxiliary_loss_clip": 0.01070207,
      "auxiliary_loss_mlp": 0.01017982,
      "balance_loss_clip": 1.03579855,
      "balance_loss_mlp": 1.01298392,
      "epoch": 0.8695965851019059,
      "flos": 26141474937600.0,
      "grad_norm": 3.190802340772249,
      "language_loss": 0.74354446,
      "learning_rate": 1.7562284098550895e-07,
      "loss": 0.76442635,
      "num_input_tokens_seen": 156469600,
      "step": 7232,
      "time_per_iteration": 2.6020894050598145
    },
    {
      "auxiliary_loss_clip": 0.01023286,
      "auxiliary_loss_mlp": 0.01000672,
      "balance_loss_clip": 1.01904535,
      "balance_loss_mlp": 0.99903888,
      "epoch": 0.8697168279925449,
      "flos": 67339317432960.0,
      "grad_norm": 2.521873210767267,
      "language_loss": 0.62213278,
      "learning_rate": 1.753037796442838e-07,
      "loss": 0.64237237,
      "num_input_tokens_seen": 156529040,
      "step": 7233,
      "time_per_iteration": 3.1344473361968994
    },
    {
      "auxiliary_loss_clip": 0.01091318,
      "auxiliary_loss_mlp": 0.0101728,
      "balance_loss_clip": 1.0360477,
      "balance_loss_mlp": 1.01191247,
      "epoch": 0.8698370708831841,
      "flos": 19720705835520.0,
      "grad_norm": 2.091192896127516,
      "language_loss": 0.75312662,
      "learning_rate": 1.74984995108024e-07,
      "loss": 0.7742126,
      "num_input_tokens_seen": 156546970,
      "step": 7234,
      "time_per_iteration": 2.496011734008789
    },
    {
      "auxiliary_loss_clip": 0.01080083,
      "auxiliary_loss_mlp": 0.01018248,
      "balance_loss_clip": 1.03619671,
      "balance_loss_mlp": 1.01327705,
      "epoch": 0.8699573137738231,
      "flos": 12861634786560.0,
      "grad_norm": 2.1824421157618876,
      "language_loss": 0.83343899,
      "learning_rate": 1.7466648742508981e-07,
      "loss": 0.85442233,
      "num_input_tokens_seen": 156563155,
      "step": 7235,
      "time_per_iteration": 2.473306894302368
    },
    {
      "auxiliary_loss_clip": 0.01066832,
      "auxiliary_loss_mlp": 0.01022689,
      "balance_loss_clip": 1.03547704,
      "balance_loss_mlp": 1.01722968,
      "epoch": 0.8700775566644622,
      "flos": 17422654060800.0,
      "grad_norm": 1.8087805423544996,
      "language_loss": 0.84483296,
      "learning_rate": 1.7434825664379837e-07,
      "loss": 0.86572814,
      "num_input_tokens_seen": 156581660,
      "step": 7236,
      "time_per_iteration": 2.5391452312469482
    },
    {
      "auxiliary_loss_clip": 0.01080678,
      "auxiliary_loss_mlp": 0.01017427,
      "balance_loss_clip": 1.03638029,
      "balance_loss_mlp": 1.01194668,
      "epoch": 0.8701977995551013,
      "flos": 13736911547520.0,
      "grad_norm": 2.5815494674393693,
      "language_loss": 0.86374402,
      "learning_rate": 1.740303028124246e-07,
      "loss": 0.88472509,
      "num_input_tokens_seen": 156597720,
      "step": 7237,
      "time_per_iteration": 2.477130174636841
    },
    {
      "auxiliary_loss_clip": 0.01030212,
      "auxiliary_loss_mlp": 0.01017703,
      "balance_loss_clip": 1.03311956,
      "balance_loss_mlp": 1.01261008,
      "epoch": 0.8703180424457404,
      "flos": 30558365303040.0,
      "grad_norm": 1.709472195031257,
      "language_loss": 0.75357962,
      "learning_rate": 1.7371262597920212e-07,
      "loss": 0.7740587,
      "num_input_tokens_seen": 156619780,
      "step": 7238,
      "time_per_iteration": 2.7300479412078857
    },
    {
      "auxiliary_loss_clip": 0.01036671,
      "auxiliary_loss_mlp": 0.01025413,
      "balance_loss_clip": 1.02965379,
      "balance_loss_mlp": 1.02030206,
      "epoch": 0.8704382853363795,
      "flos": 19610978676480.0,
      "grad_norm": 1.5335342431059693,
      "language_loss": 0.76574981,
      "learning_rate": 1.7339522619232195e-07,
      "loss": 0.78637064,
      "num_input_tokens_seen": 156638160,
      "step": 7239,
      "time_per_iteration": 2.5928807258605957
    },
    {
      "auxiliary_loss_clip": 0.01072724,
      "auxiliary_loss_mlp": 0.01020928,
      "balance_loss_clip": 1.03591895,
      "balance_loss_mlp": 1.01525354,
      "epoch": 0.8705585282270186,
      "flos": 26616264128640.0,
      "grad_norm": 2.9446472923622515,
      "language_loss": 0.75490892,
      "learning_rate": 1.730781034999338e-07,
      "loss": 0.77584553,
      "num_input_tokens_seen": 156659740,
      "step": 7240,
      "time_per_iteration": 2.6234962940216064
    },
    {
      "auxiliary_loss_clip": 0.01090978,
      "auxiliary_loss_mlp": 0.01022335,
      "balance_loss_clip": 1.03797746,
      "balance_loss_mlp": 1.0173316,
      "epoch": 0.8706787711176577,
      "flos": 34093077816960.0,
      "grad_norm": 1.8136219452577274,
      "language_loss": 0.73188114,
      "learning_rate": 1.7276125795014497e-07,
      "loss": 0.75301427,
      "num_input_tokens_seen": 156678190,
      "step": 7241,
      "time_per_iteration": 2.602077007293701
    },
    {
      "auxiliary_loss_clip": 0.01073399,
      "auxiliary_loss_mlp": 0.01021652,
      "balance_loss_clip": 1.03641117,
      "balance_loss_mlp": 1.01618075,
      "epoch": 0.8707990140082967,
      "flos": 14613287932800.0,
      "grad_norm": 2.058056225612435,
      "language_loss": 0.66989636,
      "learning_rate": 1.7244468959102054e-07,
      "loss": 0.69084692,
      "num_input_tokens_seen": 156695245,
      "step": 7242,
      "time_per_iteration": 2.546665906906128
    },
    {
      "auxiliary_loss_clip": 0.01080223,
      "auxiliary_loss_mlp": 0.01016791,
      "balance_loss_clip": 1.03704953,
      "balance_loss_mlp": 1.01143265,
      "epoch": 0.8709192568989359,
      "flos": 20086222884480.0,
      "grad_norm": 2.443012240026661,
      "language_loss": 0.85053933,
      "learning_rate": 1.7212839847058348e-07,
      "loss": 0.87150943,
      "num_input_tokens_seen": 156710375,
      "step": 7243,
      "time_per_iteration": 2.517540693283081
    },
    {
      "auxiliary_loss_clip": 0.0102398,
      "auxiliary_loss_mlp": 0.01017608,
      "balance_loss_clip": 1.02948093,
      "balance_loss_mlp": 1.0126456,
      "epoch": 0.871039499789575,
      "flos": 16728941404800.0,
      "grad_norm": 2.019248088094039,
      "language_loss": 0.74065769,
      "learning_rate": 1.718123846368147e-07,
      "loss": 0.76107359,
      "num_input_tokens_seen": 156729420,
      "step": 7244,
      "time_per_iteration": 4.10811448097229
    },
    {
      "auxiliary_loss_clip": 0.01066616,
      "auxiliary_loss_mlp": 0.00756681,
      "balance_loss_clip": 1.03548002,
      "balance_loss_mlp": 1.00171101,
      "epoch": 0.871159742680214,
      "flos": 21070885541760.0,
      "grad_norm": 2.246681439498804,
      "language_loss": 0.71630645,
      "learning_rate": 1.714966481376543e-07,
      "loss": 0.73453945,
      "num_input_tokens_seen": 156746100,
      "step": 7245,
      "time_per_iteration": 3.3664841651916504
    },
    {
      "auxiliary_loss_clip": 0.01077112,
      "auxiliary_loss_mlp": 0.01019528,
      "balance_loss_clip": 1.03387046,
      "balance_loss_mlp": 1.01463127,
      "epoch": 0.8712799855708532,
      "flos": 28259024313600.0,
      "grad_norm": 2.0244379627924993,
      "language_loss": 0.83013117,
      "learning_rate": 1.7118118902099797e-07,
      "loss": 0.85109758,
      "num_input_tokens_seen": 156764185,
      "step": 7246,
      "time_per_iteration": 2.58392596244812
    },
    {
      "auxiliary_loss_clip": 0.0107858,
      "auxiliary_loss_mlp": 0.01024234,
      "balance_loss_clip": 1.03499174,
      "balance_loss_mlp": 1.01911688,
      "epoch": 0.8714002284614922,
      "flos": 22238856535680.0,
      "grad_norm": 1.6709701373615367,
      "language_loss": 0.807513,
      "learning_rate": 1.7086600733470146e-07,
      "loss": 0.82854116,
      "num_input_tokens_seen": 156784855,
      "step": 7247,
      "time_per_iteration": 2.5466561317443848
    },
    {
      "auxiliary_loss_clip": 0.01077289,
      "auxiliary_loss_mlp": 0.01022931,
      "balance_loss_clip": 1.03517389,
      "balance_loss_mlp": 1.01803493,
      "epoch": 0.8715204713521313,
      "flos": 21433937915520.0,
      "grad_norm": 1.981763508672604,
      "language_loss": 0.77166498,
      "learning_rate": 1.7055110312657738e-07,
      "loss": 0.79266721,
      "num_input_tokens_seen": 156804350,
      "step": 7248,
      "time_per_iteration": 2.527113199234009
    },
    {
      "auxiliary_loss_clip": 0.01070082,
      "auxiliary_loss_mlp": 0.01020188,
      "balance_loss_clip": 1.03578913,
      "balance_loss_mlp": 1.01470482,
      "epoch": 0.8716407142427703,
      "flos": 23442670166400.0,
      "grad_norm": 2.7194304453636278,
      "language_loss": 0.7373538,
      "learning_rate": 1.702364764443962e-07,
      "loss": 0.75825649,
      "num_input_tokens_seen": 156823425,
      "step": 7249,
      "time_per_iteration": 2.607060194015503
    },
    {
      "auxiliary_loss_clip": 0.01033958,
      "auxiliary_loss_mlp": 0.01017868,
      "balance_loss_clip": 1.03306723,
      "balance_loss_mlp": 1.01245546,
      "epoch": 0.8717609571334095,
      "flos": 27960831959040.0,
      "grad_norm": 2.175716673236929,
      "language_loss": 0.72330612,
      "learning_rate": 1.6992212733588685e-07,
      "loss": 0.74382436,
      "num_input_tokens_seen": 156843090,
      "step": 7250,
      "time_per_iteration": 2.706956386566162
    },
    {
      "auxiliary_loss_clip": 0.01072695,
      "auxiliary_loss_mlp": 0.01018557,
      "balance_loss_clip": 1.03763652,
      "balance_loss_mlp": 1.01319814,
      "epoch": 0.8718812000240486,
      "flos": 25481595260160.0,
      "grad_norm": 1.9900908922992324,
      "language_loss": 0.74788785,
      "learning_rate": 1.6960805584873538e-07,
      "loss": 0.76880044,
      "num_input_tokens_seen": 156861090,
      "step": 7251,
      "time_per_iteration": 3.3849740028381348
    },
    {
      "auxiliary_loss_clip": 0.01043274,
      "auxiliary_loss_mlp": 0.01019777,
      "balance_loss_clip": 1.03183162,
      "balance_loss_mlp": 1.01478839,
      "epoch": 0.8720014429146876,
      "flos": 23405234970240.0,
      "grad_norm": 2.520199459162624,
      "language_loss": 0.78347528,
      "learning_rate": 1.6929426203058684e-07,
      "loss": 0.80410576,
      "num_input_tokens_seen": 156881515,
      "step": 7252,
      "time_per_iteration": 2.651259660720825
    },
    {
      "auxiliary_loss_clip": 0.01092669,
      "auxiliary_loss_mlp": 0.00756869,
      "balance_loss_clip": 1.03650498,
      "balance_loss_mlp": 1.00173473,
      "epoch": 0.8721216858053268,
      "flos": 24355116696960.0,
      "grad_norm": 2.018165622620737,
      "language_loss": 0.79861248,
      "learning_rate": 1.689807459290431e-07,
      "loss": 0.8171078,
      "num_input_tokens_seen": 156900170,
      "step": 7253,
      "time_per_iteration": 2.527240753173828
    },
    {
      "auxiliary_loss_clip": 0.01062457,
      "auxiliary_loss_mlp": 0.01021893,
      "balance_loss_clip": 1.03418505,
      "balance_loss_mlp": 1.01703537,
      "epoch": 0.8722419286959658,
      "flos": 33872182611840.0,
      "grad_norm": 2.58964731818261,
      "language_loss": 0.70919192,
      "learning_rate": 1.6866750759166437e-07,
      "loss": 0.73003548,
      "num_input_tokens_seen": 156920150,
      "step": 7254,
      "time_per_iteration": 2.6847355365753174
    },
    {
      "auxiliary_loss_clip": 0.01058347,
      "auxiliary_loss_mlp": 0.01017307,
      "balance_loss_clip": 1.03251624,
      "balance_loss_mlp": 1.0120765,
      "epoch": 0.8723621715866049,
      "flos": 18371360327040.0,
      "grad_norm": 3.165628404562989,
      "language_loss": 0.77450413,
      "learning_rate": 1.6835454706596865e-07,
      "loss": 0.79526067,
      "num_input_tokens_seen": 156937980,
      "step": 7255,
      "time_per_iteration": 2.5699949264526367
    },
    {
      "auxiliary_loss_clip": 0.01092713,
      "auxiliary_loss_mlp": 0.01021724,
      "balance_loss_clip": 1.03796983,
      "balance_loss_mlp": 1.01633835,
      "epoch": 0.8724824144772441,
      "flos": 22015269146880.0,
      "grad_norm": 2.458841812316283,
      "language_loss": 0.73504376,
      "learning_rate": 1.680418643994317e-07,
      "loss": 0.75618809,
      "num_input_tokens_seen": 156956550,
      "step": 7256,
      "time_per_iteration": 2.524681329727173
    },
    {
      "auxiliary_loss_clip": 0.01041367,
      "auxiliary_loss_mlp": 0.01002622,
      "balance_loss_clip": 1.01627898,
      "balance_loss_mlp": 1.00100124,
      "epoch": 0.8726026573678831,
      "flos": 66704625411840.0,
      "grad_norm": 0.8972217236812621,
      "language_loss": 0.64451098,
      "learning_rate": 1.6772945963948738e-07,
      "loss": 0.66495085,
      "num_input_tokens_seen": 157014715,
      "step": 7257,
      "time_per_iteration": 3.1080527305603027
    },
    {
      "auxiliary_loss_clip": 0.01058852,
      "auxiliary_loss_mlp": 0.01020354,
      "balance_loss_clip": 1.032233,
      "balance_loss_mlp": 1.01518631,
      "epoch": 0.8727229002585222,
      "flos": 13372607877120.0,
      "grad_norm": 2.4057513494727902,
      "language_loss": 0.77790117,
      "learning_rate": 1.6741733283352733e-07,
      "loss": 0.79869318,
      "num_input_tokens_seen": 157032320,
      "step": 7258,
      "time_per_iteration": 2.5608291625976562
    },
    {
      "auxiliary_loss_clip": 0.01037998,
      "auxiliary_loss_mlp": 0.01018394,
      "balance_loss_clip": 1.03276372,
      "balance_loss_mlp": 1.01323867,
      "epoch": 0.8728431431491613,
      "flos": 21799037865600.0,
      "grad_norm": 1.5830758976610957,
      "language_loss": 0.83933753,
      "learning_rate": 1.6710548402890102e-07,
      "loss": 0.85990143,
      "num_input_tokens_seen": 157052845,
      "step": 7259,
      "time_per_iteration": 2.5934133529663086
    },
    {
      "auxiliary_loss_clip": 0.01093015,
      "auxiliary_loss_mlp": 0.01017881,
      "balance_loss_clip": 1.03637791,
      "balance_loss_mlp": 1.01247215,
      "epoch": 0.8729633860398004,
      "flos": 36176756296320.0,
      "grad_norm": 1.8054892848828117,
      "language_loss": 0.66972303,
      "learning_rate": 1.6679391327291527e-07,
      "loss": 0.69083202,
      "num_input_tokens_seen": 157074050,
      "step": 7260,
      "time_per_iteration": 2.645106554031372
    },
    {
      "auxiliary_loss_clip": 0.01072139,
      "auxiliary_loss_mlp": 0.01021468,
      "balance_loss_clip": 1.03598475,
      "balance_loss_mlp": 1.01643181,
      "epoch": 0.8730836289304394,
      "flos": 16361376779520.0,
      "grad_norm": 2.8476188530106374,
      "language_loss": 0.67949128,
      "learning_rate": 1.6648262061283492e-07,
      "loss": 0.70042735,
      "num_input_tokens_seen": 157089350,
      "step": 7261,
      "time_per_iteration": 2.501488208770752
    },
    {
      "auxiliary_loss_clip": 0.01056495,
      "auxiliary_loss_mlp": 0.0101801,
      "balance_loss_clip": 1.03225088,
      "balance_loss_mlp": 1.01292515,
      "epoch": 0.8732038718210786,
      "flos": 21217251617280.0,
      "grad_norm": 5.053249165156412,
      "language_loss": 0.73638809,
      "learning_rate": 1.6617160609588353e-07,
      "loss": 0.75713313,
      "num_input_tokens_seen": 157108525,
      "step": 7262,
      "time_per_iteration": 2.613175392150879
    },
    {
      "auxiliary_loss_clip": 0.0106425,
      "auxiliary_loss_mlp": 0.01021319,
      "balance_loss_clip": 1.03537774,
      "balance_loss_mlp": 1.01610327,
      "epoch": 0.8733241147117177,
      "flos": 16612161482880.0,
      "grad_norm": 2.49821123733116,
      "language_loss": 0.72127086,
      "learning_rate": 1.6586086976924163e-07,
      "loss": 0.74212658,
      "num_input_tokens_seen": 157124025,
      "step": 7263,
      "time_per_iteration": 2.495579481124878
    },
    {
      "auxiliary_loss_clip": 0.01081035,
      "auxiliary_loss_mlp": 0.01018371,
      "balance_loss_clip": 1.0360347,
      "balance_loss_mlp": 1.01348901,
      "epoch": 0.8734443576023567,
      "flos": 20196025879680.0,
      "grad_norm": 1.9156053568151123,
      "language_loss": 0.78409982,
      "learning_rate": 1.6555041168004747e-07,
      "loss": 0.80509388,
      "num_input_tokens_seen": 157143345,
      "step": 7264,
      "time_per_iteration": 2.554751396179199
    },
    {
      "auxiliary_loss_clip": 0.01065245,
      "auxiliary_loss_mlp": 0.01017744,
      "balance_loss_clip": 1.0347079,
      "balance_loss_mlp": 1.01269221,
      "epoch": 0.8735646004929959,
      "flos": 18043126801920.0,
      "grad_norm": 2.2574428776552935,
      "language_loss": 0.68836421,
      "learning_rate": 1.6524023187539715e-07,
      "loss": 0.70919406,
      "num_input_tokens_seen": 157161630,
      "step": 7265,
      "time_per_iteration": 2.534902811050415
    },
    {
      "auxiliary_loss_clip": 0.0106986,
      "auxiliary_loss_mlp": 0.01020243,
      "balance_loss_clip": 1.03566289,
      "balance_loss_mlp": 1.01501274,
      "epoch": 0.873684843383635,
      "flos": 20264184771840.0,
      "grad_norm": 2.9984480114487115,
      "language_loss": 0.74986255,
      "learning_rate": 1.649303304023446e-07,
      "loss": 0.77076364,
      "num_input_tokens_seen": 157181385,
      "step": 7266,
      "time_per_iteration": 2.550321102142334
    },
    {
      "auxiliary_loss_clip": 0.01050572,
      "auxiliary_loss_mlp": 0.01020107,
      "balance_loss_clip": 1.03316283,
      "balance_loss_mlp": 1.01509738,
      "epoch": 0.873805086274274,
      "flos": 16949229920640.0,
      "grad_norm": 1.7277236668750324,
      "language_loss": 0.78661668,
      "learning_rate": 1.6462070730790246e-07,
      "loss": 0.80732346,
      "num_input_tokens_seen": 157200545,
      "step": 7267,
      "time_per_iteration": 2.564500331878662
    },
    {
      "auxiliary_loss_clip": 0.0107077,
      "auxiliary_loss_mlp": 0.01021892,
      "balance_loss_clip": 1.03514957,
      "balance_loss_mlp": 1.01646757,
      "epoch": 0.8739253291649132,
      "flos": 18043240556160.0,
      "grad_norm": 3.5720846840310507,
      "language_loss": 0.78257161,
      "learning_rate": 1.6431136263903912e-07,
      "loss": 0.80349821,
      "num_input_tokens_seen": 157219545,
      "step": 7268,
      "time_per_iteration": 2.5371997356414795
    },
    {
      "auxiliary_loss_clip": 0.01081066,
      "auxiliary_loss_mlp": 0.00756661,
      "balance_loss_clip": 1.03533387,
      "balance_loss_mlp": 1.00167632,
      "epoch": 0.8740455720555522,
      "flos": 21327244202880.0,
      "grad_norm": 1.802810790128634,
      "language_loss": 0.7342236,
      "learning_rate": 1.6400229644268282e-07,
      "loss": 0.75260091,
      "num_input_tokens_seen": 157237900,
      "step": 7269,
      "time_per_iteration": 3.217858076095581
    },
    {
      "auxiliary_loss_clip": 0.0104203,
      "auxiliary_loss_mlp": 0.01021628,
      "balance_loss_clip": 1.03311777,
      "balance_loss_mlp": 1.01626647,
      "epoch": 0.8741658149461913,
      "flos": 15160482840960.0,
      "grad_norm": 2.3419059323370632,
      "language_loss": 0.81125325,
      "learning_rate": 1.6369350876571852e-07,
      "loss": 0.83188987,
      "num_input_tokens_seen": 157256055,
      "step": 7270,
      "time_per_iteration": 3.355285406112671
    },
    {
      "auxiliary_loss_clip": 0.01038674,
      "auxiliary_loss_mlp": 0.01019517,
      "balance_loss_clip": 1.02852225,
      "balance_loss_mlp": 1.01426339,
      "epoch": 0.8742860578368304,
      "flos": 23042106760320.0,
      "grad_norm": 2.3193215965059037,
      "language_loss": 0.82010925,
      "learning_rate": 1.6338499965498874e-07,
      "loss": 0.84069109,
      "num_input_tokens_seen": 157274785,
      "step": 7271,
      "time_per_iteration": 3.408935070037842
    },
    {
      "auxiliary_loss_clip": 0.01053972,
      "auxiliary_loss_mlp": 0.01022141,
      "balance_loss_clip": 1.03422713,
      "balance_loss_mlp": 1.01665759,
      "epoch": 0.8744063007274695,
      "flos": 28147742513280.0,
      "grad_norm": 1.5698582149572031,
      "language_loss": 0.7743746,
      "learning_rate": 1.630767691572943e-07,
      "loss": 0.79513574,
      "num_input_tokens_seen": 157294805,
      "step": 7272,
      "time_per_iteration": 2.6566824913024902
    },
    {
      "auxiliary_loss_clip": 0.01021492,
      "auxiliary_loss_mlp": 0.0100206,
      "balance_loss_clip": 1.01574361,
      "balance_loss_mlp": 1.00036764,
      "epoch": 0.8745265436181086,
      "flos": 64039767373440.0,
      "grad_norm": 0.7419384590015072,
      "language_loss": 0.53473639,
      "learning_rate": 1.6276881731939306e-07,
      "loss": 0.55497199,
      "num_input_tokens_seen": 157356695,
      "step": 7273,
      "time_per_iteration": 3.2025198936462402
    },
    {
      "auxiliary_loss_clip": 0.01077314,
      "auxiliary_loss_mlp": 0.0102006,
      "balance_loss_clip": 1.03561425,
      "balance_loss_mlp": 1.0148294,
      "epoch": 0.8746467865087477,
      "flos": 28661180279040.0,
      "grad_norm": 1.8747815782550077,
      "language_loss": 0.75731897,
      "learning_rate": 1.6246114418800193e-07,
      "loss": 0.77829272,
      "num_input_tokens_seen": 157376975,
      "step": 7274,
      "time_per_iteration": 2.595775604248047
    },
    {
      "auxiliary_loss_clip": 0.01083823,
      "auxiliary_loss_mlp": 0.01020861,
      "balance_loss_clip": 1.03711629,
      "balance_loss_mlp": 1.01546073,
      "epoch": 0.8747670293993868,
      "flos": 23988007088640.0,
      "grad_norm": 1.8013033678695405,
      "language_loss": 0.76298606,
      "learning_rate": 1.6215374980979423e-07,
      "loss": 0.78403294,
      "num_input_tokens_seen": 157397385,
      "step": 7275,
      "time_per_iteration": 2.533390522003174
    },
    {
      "auxiliary_loss_clip": 0.01072663,
      "auxiliary_loss_mlp": 0.01021255,
      "balance_loss_clip": 1.0350517,
      "balance_loss_mlp": 1.01631701,
      "epoch": 0.8748872722900258,
      "flos": 45225024076800.0,
      "grad_norm": 1.9081696061071445,
      "language_loss": 0.68494594,
      "learning_rate": 1.6184663423140133e-07,
      "loss": 0.70588505,
      "num_input_tokens_seen": 157417685,
      "step": 7276,
      "time_per_iteration": 2.7341434955596924
    },
    {
      "auxiliary_loss_clip": 0.01040811,
      "auxiliary_loss_mlp": 0.01022816,
      "balance_loss_clip": 1.03024721,
      "balance_loss_mlp": 1.01730227,
      "epoch": 0.875007515180665,
      "flos": 19756245127680.0,
      "grad_norm": 2.3503167708280484,
      "language_loss": 0.64375925,
      "learning_rate": 1.615397974994126e-07,
      "loss": 0.66439551,
      "num_input_tokens_seen": 157435490,
      "step": 7277,
      "time_per_iteration": 3.4247677326202393
    },
    {
      "auxiliary_loss_clip": 0.01091276,
      "auxiliary_loss_mlp": 0.01018051,
      "balance_loss_clip": 1.03669786,
      "balance_loss_mlp": 1.01313984,
      "epoch": 0.875127758071304,
      "flos": 22712925283200.0,
      "grad_norm": 1.503167310749191,
      "language_loss": 0.80551541,
      "learning_rate": 1.6123323966037438e-07,
      "loss": 0.82660872,
      "num_input_tokens_seen": 157454010,
      "step": 7278,
      "time_per_iteration": 2.52077054977417
    },
    {
      "auxiliary_loss_clip": 0.01094346,
      "auxiliary_loss_mlp": 0.01024091,
      "balance_loss_clip": 1.03923583,
      "balance_loss_mlp": 1.01892042,
      "epoch": 0.8752480009619431,
      "flos": 23406069168000.0,
      "grad_norm": 2.2149756401342007,
      "language_loss": 0.78448308,
      "learning_rate": 1.6092696076079216e-07,
      "loss": 0.80566746,
      "num_input_tokens_seen": 157472385,
      "step": 7279,
      "time_per_iteration": 2.5150649547576904
    },
    {
      "auxiliary_loss_clip": 0.01054445,
      "auxiliary_loss_mlp": 0.01019684,
      "balance_loss_clip": 1.03368604,
      "balance_loss_mlp": 1.01468587,
      "epoch": 0.8753682438525822,
      "flos": 26215473214080.0,
      "grad_norm": 2.0109002981415065,
      "language_loss": 0.74108839,
      "learning_rate": 1.6062096084712785e-07,
      "loss": 0.76182973,
      "num_input_tokens_seen": 157493735,
      "step": 7280,
      "time_per_iteration": 2.638942003250122
    },
    {
      "auxiliary_loss_clip": 0.01072787,
      "auxiliary_loss_mlp": 0.0075641,
      "balance_loss_clip": 1.03618836,
      "balance_loss_mlp": 1.00161278,
      "epoch": 0.8754884867432213,
      "flos": 23328734100480.0,
      "grad_norm": 2.2520073534903444,
      "language_loss": 0.70284629,
      "learning_rate": 1.6031523996580098e-07,
      "loss": 0.72113824,
      "num_input_tokens_seen": 157511295,
      "step": 7281,
      "time_per_iteration": 2.556320905685425
    },
    {
      "auxiliary_loss_clip": 0.01058375,
      "auxiliary_loss_mlp": 0.01021262,
      "balance_loss_clip": 1.03359258,
      "balance_loss_mlp": 1.01593649,
      "epoch": 0.8756087296338604,
      "flos": 12496876099200.0,
      "grad_norm": 2.027236578761489,
      "language_loss": 0.66222113,
      "learning_rate": 1.6000979816318981e-07,
      "loss": 0.68301755,
      "num_input_tokens_seen": 157529760,
      "step": 7282,
      "time_per_iteration": 2.5975966453552246
    },
    {
      "auxiliary_loss_clip": 0.01073044,
      "auxiliary_loss_mlp": 0.01019839,
      "balance_loss_clip": 1.03488243,
      "balance_loss_mlp": 1.01452255,
      "epoch": 0.8757289725244994,
      "flos": 18954890807040.0,
      "grad_norm": 2.3829355924810676,
      "language_loss": 0.7496751,
      "learning_rate": 1.5970463548562886e-07,
      "loss": 0.77060395,
      "num_input_tokens_seen": 157548915,
      "step": 7283,
      "time_per_iteration": 2.4868013858795166
    },
    {
      "auxiliary_loss_clip": 0.01064052,
      "auxiliary_loss_mlp": 0.01017857,
      "balance_loss_clip": 1.03361642,
      "balance_loss_mlp": 1.01283276,
      "epoch": 0.8758492154151386,
      "flos": 25268359507200.0,
      "grad_norm": 1.8465412889786912,
      "language_loss": 0.71253514,
      "learning_rate": 1.5939975197941192e-07,
      "loss": 0.73335421,
      "num_input_tokens_seen": 157570570,
      "step": 7284,
      "time_per_iteration": 2.5785973072052
    },
    {
      "auxiliary_loss_clip": 0.01021489,
      "auxiliary_loss_mlp": 0.01002488,
      "balance_loss_clip": 1.01568794,
      "balance_loss_mlp": 1.00073588,
      "epoch": 0.8759694583057777,
      "flos": 65577729749760.0,
      "grad_norm": 0.8186510977677681,
      "language_loss": 0.53300303,
      "learning_rate": 1.5909514769078892e-07,
      "loss": 0.5532428,
      "num_input_tokens_seen": 157635675,
      "step": 7285,
      "time_per_iteration": 3.202078342437744
    },
    {
      "auxiliary_loss_clip": 0.01052837,
      "auxiliary_loss_mlp": 0.01021649,
      "balance_loss_clip": 1.03779149,
      "balance_loss_mlp": 1.01680863,
      "epoch": 0.8760897011964167,
      "flos": 25448482725120.0,
      "grad_norm": 1.5551823182012299,
      "language_loss": 0.77485567,
      "learning_rate": 1.5879082266596867e-07,
      "loss": 0.79560053,
      "num_input_tokens_seen": 157657015,
      "step": 7286,
      "time_per_iteration": 2.624176025390625
    },
    {
      "auxiliary_loss_clip": 0.01067786,
      "auxiliary_loss_mlp": 0.01017191,
      "balance_loss_clip": 1.03336644,
      "balance_loss_mlp": 1.01211822,
      "epoch": 0.8762099440870559,
      "flos": 28987290391680.0,
      "grad_norm": 1.7057704679042045,
      "language_loss": 0.71572745,
      "learning_rate": 1.5848677695111645e-07,
      "loss": 0.73657715,
      "num_input_tokens_seen": 157678615,
      "step": 7287,
      "time_per_iteration": 2.6086690425872803
    },
    {
      "auxiliary_loss_clip": 0.01057899,
      "auxiliary_loss_mlp": 0.01019777,
      "balance_loss_clip": 1.03495729,
      "balance_loss_mlp": 1.01431751,
      "epoch": 0.8763301869776949,
      "flos": 21611217277440.0,
      "grad_norm": 2.542486180588907,
      "language_loss": 0.69730502,
      "learning_rate": 1.5818301059235562e-07,
      "loss": 0.71808177,
      "num_input_tokens_seen": 157693790,
      "step": 7288,
      "time_per_iteration": 2.555988311767578
    },
    {
      "auxiliary_loss_clip": 0.01065267,
      "auxiliary_loss_mlp": 0.01018614,
      "balance_loss_clip": 1.03427219,
      "balance_loss_mlp": 1.01341057,
      "epoch": 0.876450429868334,
      "flos": 24646711305600.0,
      "grad_norm": 1.7462149343923037,
      "language_loss": 0.81288934,
      "learning_rate": 1.578795236357684e-07,
      "loss": 0.83372813,
      "num_input_tokens_seen": 157715255,
      "step": 7289,
      "time_per_iteration": 2.602491855621338
    },
    {
      "auxiliary_loss_clip": 0.01066004,
      "auxiliary_loss_mlp": 0.01019035,
      "balance_loss_clip": 1.03511047,
      "balance_loss_mlp": 1.01382577,
      "epoch": 0.8765706727589732,
      "flos": 20261758014720.0,
      "grad_norm": 3.4383068078571584,
      "language_loss": 0.85514057,
      "learning_rate": 1.5757631612739218e-07,
      "loss": 0.87599093,
      "num_input_tokens_seen": 157728800,
      "step": 7290,
      "time_per_iteration": 2.5162577629089355
    },
    {
      "auxiliary_loss_clip": 0.01041397,
      "auxiliary_loss_mlp": 0.01002885,
      "balance_loss_clip": 1.01637876,
      "balance_loss_mlp": 1.00121617,
      "epoch": 0.8766909156496122,
      "flos": 71377457339520.0,
      "grad_norm": 0.7780951442078197,
      "language_loss": 0.61411333,
      "learning_rate": 1.572733881132242e-07,
      "loss": 0.63455611,
      "num_input_tokens_seen": 157789445,
      "step": 7291,
      "time_per_iteration": 3.1436004638671875
    },
    {
      "auxiliary_loss_clip": 0.01011827,
      "auxiliary_loss_mlp": 0.01001327,
      "balance_loss_clip": 1.01708293,
      "balance_loss_mlp": 0.99961054,
      "epoch": 0.8768111585402513,
      "flos": 69530410068480.0,
      "grad_norm": 0.7823304843505295,
      "language_loss": 0.58499992,
      "learning_rate": 1.5697073963921814e-07,
      "loss": 0.60513151,
      "num_input_tokens_seen": 157848685,
      "step": 7292,
      "time_per_iteration": 3.097172737121582
    },
    {
      "auxiliary_loss_clip": 0.01078529,
      "auxiliary_loss_mlp": 0.01016816,
      "balance_loss_clip": 1.03660154,
      "balance_loss_mlp": 1.01141918,
      "epoch": 0.8769314014308904,
      "flos": 18840272215680.0,
      "grad_norm": 2.3872801690945087,
      "language_loss": 0.85133672,
      "learning_rate": 1.566683707512857e-07,
      "loss": 0.87229013,
      "num_input_tokens_seen": 157866360,
      "step": 7293,
      "time_per_iteration": 2.5102949142456055
    },
    {
      "auxiliary_loss_clip": 0.010707,
      "auxiliary_loss_mlp": 0.01022418,
      "balance_loss_clip": 1.03655791,
      "balance_loss_mlp": 1.01713991,
      "epoch": 0.8770516443215295,
      "flos": 14978198292480.0,
      "grad_norm": 1.8373520840240545,
      "language_loss": 0.79896134,
      "learning_rate": 1.5636628149529553e-07,
      "loss": 0.81989253,
      "num_input_tokens_seen": 157884150,
      "step": 7294,
      "time_per_iteration": 2.5134027004241943
    },
    {
      "auxiliary_loss_clip": 0.01060762,
      "auxiliary_loss_mlp": 0.01019643,
      "balance_loss_clip": 1.03162551,
      "balance_loss_mlp": 1.01488304,
      "epoch": 0.8771718872121685,
      "flos": 31652338020480.0,
      "grad_norm": 2.135181414700729,
      "language_loss": 0.79807979,
      "learning_rate": 1.560644719170743e-07,
      "loss": 0.81888378,
      "num_input_tokens_seen": 157905020,
      "step": 7295,
      "time_per_iteration": 3.3574631214141846
    },
    {
      "auxiliary_loss_clip": 0.01057196,
      "auxiliary_loss_mlp": 0.01020681,
      "balance_loss_clip": 1.0324651,
      "balance_loss_mlp": 1.01521277,
      "epoch": 0.8772921301028077,
      "flos": 36098094096000.0,
      "grad_norm": 1.7914977749986662,
      "language_loss": 0.71915859,
      "learning_rate": 1.5576294206240692e-07,
      "loss": 0.73993737,
      "num_input_tokens_seen": 157924545,
      "step": 7296,
      "time_per_iteration": 3.505037307739258
    },
    {
      "auxiliary_loss_clip": 0.01063994,
      "auxiliary_loss_mlp": 0.01018936,
      "balance_loss_clip": 1.03618002,
      "balance_loss_mlp": 1.01396477,
      "epoch": 0.8774123729934468,
      "flos": 57121079051520.0,
      "grad_norm": 1.7552468270303152,
      "language_loss": 0.67604148,
      "learning_rate": 1.5546169197703507e-07,
      "loss": 0.69687074,
      "num_input_tokens_seen": 157950820,
      "step": 7297,
      "time_per_iteration": 3.6475017070770264
    },
    {
      "auxiliary_loss_clip": 0.01070851,
      "auxiliary_loss_mlp": 0.0102329,
      "balance_loss_clip": 1.03447449,
      "balance_loss_mlp": 1.01825297,
      "epoch": 0.8775326158840858,
      "flos": 23916738913920.0,
      "grad_norm": 2.4915307367863457,
      "language_loss": 0.77483106,
      "learning_rate": 1.5516072170665774e-07,
      "loss": 0.79577243,
      "num_input_tokens_seen": 157968790,
      "step": 7298,
      "time_per_iteration": 2.5929782390594482
    },
    {
      "auxiliary_loss_clip": 0.01082055,
      "auxiliary_loss_mlp": 0.01017425,
      "balance_loss_clip": 1.03750646,
      "balance_loss_mlp": 1.01240969,
      "epoch": 0.877652858774725,
      "flos": 17124878805120.0,
      "grad_norm": 2.7594165111748334,
      "language_loss": 0.86630476,
      "learning_rate": 1.5486003129693214e-07,
      "loss": 0.88729948,
      "num_input_tokens_seen": 157986155,
      "step": 7299,
      "time_per_iteration": 2.5198893547058105
    },
    {
      "auxiliary_loss_clip": 0.01079575,
      "auxiliary_loss_mlp": 0.01018246,
      "balance_loss_clip": 1.03577852,
      "balance_loss_mlp": 1.01305401,
      "epoch": 0.877773101665364,
      "flos": 16510852137600.0,
      "grad_norm": 2.0929960368674956,
      "language_loss": 0.77792549,
      "learning_rate": 1.545596207934725e-07,
      "loss": 0.79890376,
      "num_input_tokens_seen": 158004640,
      "step": 7300,
      "time_per_iteration": 2.51798677444458
    },
    {
      "auxiliary_loss_clip": 0.01068187,
      "auxiliary_loss_mlp": 0.01018486,
      "balance_loss_clip": 1.03378057,
      "balance_loss_mlp": 1.01351237,
      "epoch": 0.8778933445560031,
      "flos": 22055320690560.0,
      "grad_norm": 1.8068790500528666,
      "language_loss": 0.77815843,
      "learning_rate": 1.5425949024185147e-07,
      "loss": 0.79902518,
      "num_input_tokens_seen": 158024665,
      "step": 7301,
      "time_per_iteration": 2.5716733932495117
    },
    {
      "auxiliary_loss_clip": 0.0107127,
      "auxiliary_loss_mlp": 0.0101902,
      "balance_loss_clip": 1.03578663,
      "balance_loss_mlp": 1.01386762,
      "epoch": 0.8780135874466423,
      "flos": 22566938388480.0,
      "grad_norm": 1.898836717911737,
      "language_loss": 0.6774925,
      "learning_rate": 1.5395963968759818e-07,
      "loss": 0.69839543,
      "num_input_tokens_seen": 158044940,
      "step": 7302,
      "time_per_iteration": 2.5695652961730957
    },
    {
      "auxiliary_loss_clip": 0.01068493,
      "auxiliary_loss_mlp": 0.01017214,
      "balance_loss_clip": 1.03471935,
      "balance_loss_mlp": 1.01219535,
      "epoch": 0.8781338303372813,
      "flos": 61536376857600.0,
      "grad_norm": 1.6201919850735238,
      "language_loss": 0.64499485,
      "learning_rate": 1.536600691761998e-07,
      "loss": 0.66585195,
      "num_input_tokens_seen": 158070770,
      "step": 7303,
      "time_per_iteration": 3.706117630004883
    },
    {
      "auxiliary_loss_clip": 0.01055501,
      "auxiliary_loss_mlp": 0.01021345,
      "balance_loss_clip": 1.03504193,
      "balance_loss_mlp": 1.01646328,
      "epoch": 0.8782540732279204,
      "flos": 22676968892160.0,
      "grad_norm": 1.7933414624306427,
      "language_loss": 0.71463239,
      "learning_rate": 1.5336077875310084e-07,
      "loss": 0.73540092,
      "num_input_tokens_seen": 158089995,
      "step": 7304,
      "time_per_iteration": 2.6266727447509766
    },
    {
      "auxiliary_loss_clip": 0.01043195,
      "auxiliary_loss_mlp": 0.01017685,
      "balance_loss_clip": 1.03224039,
      "balance_loss_mlp": 1.0125351,
      "epoch": 0.8783743161185595,
      "flos": 16072171009920.0,
      "grad_norm": 2.3725842133716784,
      "language_loss": 0.7396884,
      "learning_rate": 1.5306176846370321e-07,
      "loss": 0.76029718,
      "num_input_tokens_seen": 158108140,
      "step": 7305,
      "time_per_iteration": 2.6686489582061768
    },
    {
      "auxiliary_loss_clip": 0.01070513,
      "auxiliary_loss_mlp": 0.01025343,
      "balance_loss_clip": 1.03472614,
      "balance_loss_mlp": 1.02002001,
      "epoch": 0.8784945590091986,
      "flos": 26070282599040.0,
      "grad_norm": 3.2300493773302525,
      "language_loss": 0.74460542,
      "learning_rate": 1.5276303835336712e-07,
      "loss": 0.76556396,
      "num_input_tokens_seen": 158128680,
      "step": 7306,
      "time_per_iteration": 2.6152284145355225
    },
    {
      "auxiliary_loss_clip": 0.01031627,
      "auxiliary_loss_mlp": 0.01001856,
      "balance_loss_clip": 1.01587319,
      "balance_loss_mlp": 1.00021064,
      "epoch": 0.8786148018998376,
      "flos": 62726264501760.0,
      "grad_norm": 0.7567736737191059,
      "language_loss": 0.53464007,
      "learning_rate": 1.524645884674094e-07,
      "loss": 0.55497479,
      "num_input_tokens_seen": 158185610,
      "step": 7307,
      "time_per_iteration": 3.132188320159912
    },
    {
      "auxiliary_loss_clip": 0.01091273,
      "auxiliary_loss_mlp": 0.00756945,
      "balance_loss_clip": 1.03625059,
      "balance_loss_mlp": 1.00164104,
      "epoch": 0.8787350447904768,
      "flos": 21654871038720.0,
      "grad_norm": 2.0994979668972307,
      "language_loss": 0.79433346,
      "learning_rate": 1.521664188511047e-07,
      "loss": 0.81281555,
      "num_input_tokens_seen": 158205635,
      "step": 7308,
      "time_per_iteration": 2.506920099258423
    },
    {
      "auxiliary_loss_clip": 0.0106257,
      "auxiliary_loss_mlp": 0.00756655,
      "balance_loss_clip": 1.03657746,
      "balance_loss_mlp": 1.00177622,
      "epoch": 0.8788552876811159,
      "flos": 25480533553920.0,
      "grad_norm": 1.8408953346788954,
      "language_loss": 0.80203879,
      "learning_rate": 1.518685295496851e-07,
      "loss": 0.82023102,
      "num_input_tokens_seen": 158223495,
      "step": 7309,
      "time_per_iteration": 2.612600564956665
    },
    {
      "auxiliary_loss_clip": 0.01080778,
      "auxiliary_loss_mlp": 0.01018514,
      "balance_loss_clip": 1.03567588,
      "balance_loss_mlp": 1.01352513,
      "epoch": 0.8789755305717549,
      "flos": 22312437713280.0,
      "grad_norm": 1.8491996386692537,
      "language_loss": 0.85682619,
      "learning_rate": 1.5157092060833975e-07,
      "loss": 0.87781906,
      "num_input_tokens_seen": 158243145,
      "step": 7310,
      "time_per_iteration": 2.543247938156128
    },
    {
      "auxiliary_loss_clip": 0.01066193,
      "auxiliary_loss_mlp": 0.01013925,
      "balance_loss_clip": 1.03622484,
      "balance_loss_mlp": 1.00877547,
      "epoch": 0.879095773462394,
      "flos": 29313324668160.0,
      "grad_norm": 1.6435215303482256,
      "language_loss": 0.65937096,
      "learning_rate": 1.5127359207221658e-07,
      "loss": 0.68017215,
      "num_input_tokens_seen": 158262625,
      "step": 7311,
      "time_per_iteration": 2.6206867694854736
    },
    {
      "auxiliary_loss_clip": 0.01037505,
      "auxiliary_loss_mlp": 0.01018795,
      "balance_loss_clip": 1.03239179,
      "balance_loss_mlp": 1.01352274,
      "epoch": 0.8792160163530331,
      "flos": 16691847471360.0,
      "grad_norm": 1.950493437269677,
      "language_loss": 0.7328676,
      "learning_rate": 1.5097654398641923e-07,
      "loss": 0.75343055,
      "num_input_tokens_seen": 158280530,
      "step": 7312,
      "time_per_iteration": 2.6515796184539795
    },
    {
      "auxiliary_loss_clip": 0.01078011,
      "auxiliary_loss_mlp": 0.0102141,
      "balance_loss_clip": 1.03689945,
      "balance_loss_mlp": 1.01640284,
      "epoch": 0.8793362592436722,
      "flos": 24501634444800.0,
      "grad_norm": 1.405021466593984,
      "language_loss": 0.73271573,
      "learning_rate": 1.5067977639601014e-07,
      "loss": 0.75370991,
      "num_input_tokens_seen": 158303290,
      "step": 7313,
      "time_per_iteration": 2.566631555557251
    },
    {
      "auxiliary_loss_clip": 0.01057986,
      "auxiliary_loss_mlp": 0.01020574,
      "balance_loss_clip": 1.03184247,
      "balance_loss_mlp": 1.0153172,
      "epoch": 0.8794565021343113,
      "flos": 14540161772160.0,
      "grad_norm": 2.319866167444025,
      "language_loss": 0.71185201,
      "learning_rate": 1.5038328934600864e-07,
      "loss": 0.73263764,
      "num_input_tokens_seen": 158319925,
      "step": 7314,
      "time_per_iteration": 2.537907123565674
    },
    {
      "auxiliary_loss_clip": 0.01065767,
      "auxiliary_loss_mlp": 0.01021554,
      "balance_loss_clip": 1.03524566,
      "balance_loss_mlp": 1.01652634,
      "epoch": 0.8795767450249504,
      "flos": 39533393168640.0,
      "grad_norm": 1.9674275039594817,
      "language_loss": 0.69681406,
      "learning_rate": 1.5008708288139161e-07,
      "loss": 0.71768725,
      "num_input_tokens_seen": 158342285,
      "step": 7315,
      "time_per_iteration": 2.7040674686431885
    },
    {
      "auxiliary_loss_clip": 0.01074721,
      "auxiliary_loss_mlp": 0.01018891,
      "balance_loss_clip": 1.03649855,
      "balance_loss_mlp": 1.01353216,
      "epoch": 0.8796969879155895,
      "flos": 22962572444160.0,
      "grad_norm": 2.167155576413322,
      "language_loss": 0.73165369,
      "learning_rate": 1.497911570470931e-07,
      "loss": 0.75258982,
      "num_input_tokens_seen": 158362290,
      "step": 7316,
      "time_per_iteration": 2.559260606765747
    },
    {
      "auxiliary_loss_clip": 0.01053537,
      "auxiliary_loss_mlp": 0.0102342,
      "balance_loss_clip": 1.03351974,
      "balance_loss_mlp": 1.01821661,
      "epoch": 0.8798172308062285,
      "flos": 28364732156160.0,
      "grad_norm": 1.7058430914383915,
      "language_loss": 0.85599363,
      "learning_rate": 1.494955118880048e-07,
      "loss": 0.87676322,
      "num_input_tokens_seen": 158383275,
      "step": 7317,
      "time_per_iteration": 2.640627145767212
    },
    {
      "auxiliary_loss_clip": 0.01079337,
      "auxiliary_loss_mlp": 0.01019067,
      "balance_loss_clip": 1.03519773,
      "balance_loss_mlp": 1.0138036,
      "epoch": 0.8799374736968677,
      "flos": 23991305961600.0,
      "grad_norm": 2.856824750771837,
      "language_loss": 0.72953236,
      "learning_rate": 1.4920014744897634e-07,
      "loss": 0.75051641,
      "num_input_tokens_seen": 158402690,
      "step": 7318,
      "time_per_iteration": 2.569502592086792
    },
    {
      "auxiliary_loss_clip": 0.01061416,
      "auxiliary_loss_mlp": 0.01017813,
      "balance_loss_clip": 1.03332186,
      "balance_loss_mlp": 1.0126965,
      "epoch": 0.8800577165875068,
      "flos": 25632663177600.0,
      "grad_norm": 2.4778286454668454,
      "language_loss": 0.86270893,
      "learning_rate": 1.4890506377481392e-07,
      "loss": 0.88350123,
      "num_input_tokens_seen": 158421780,
      "step": 7319,
      "time_per_iteration": 2.6022698879241943
    },
    {
      "auxiliary_loss_clip": 0.01023521,
      "auxiliary_loss_mlp": 0.01024754,
      "balance_loss_clip": 1.0337429,
      "balance_loss_mlp": 1.01983976,
      "epoch": 0.8801779594781458,
      "flos": 23442556412160.0,
      "grad_norm": 1.5451735992142221,
      "language_loss": 0.64048606,
      "learning_rate": 1.486102609102815e-07,
      "loss": 0.66096878,
      "num_input_tokens_seen": 158442330,
      "step": 7320,
      "time_per_iteration": 2.6732497215270996
    },
    {
      "auxiliary_loss_clip": 0.01056257,
      "auxiliary_loss_mlp": 0.01016562,
      "balance_loss_clip": 1.03033423,
      "balance_loss_mlp": 1.01153111,
      "epoch": 0.880298202368785,
      "flos": 11510090029440.0,
      "grad_norm": 3.9755754086190165,
      "language_loss": 0.85567808,
      "learning_rate": 1.483157389001004e-07,
      "loss": 0.87640631,
      "num_input_tokens_seen": 158459890,
      "step": 7321,
      "time_per_iteration": 3.2612760066986084
    },
    {
      "auxiliary_loss_clip": 0.01073168,
      "auxiliary_loss_mlp": 0.01018826,
      "balance_loss_clip": 1.03581524,
      "balance_loss_mlp": 1.01332796,
      "epoch": 0.880418445259424,
      "flos": 22673480428800.0,
      "grad_norm": 2.4649843674695293,
      "language_loss": 0.7887795,
      "learning_rate": 1.4802149778894933e-07,
      "loss": 0.80969954,
      "num_input_tokens_seen": 158478680,
      "step": 7322,
      "time_per_iteration": 3.343471050262451
    },
    {
      "auxiliary_loss_clip": 0.0107923,
      "auxiliary_loss_mlp": 0.01017345,
      "balance_loss_clip": 1.03453231,
      "balance_loss_mlp": 1.01244843,
      "epoch": 0.8805386881500631,
      "flos": 20524259404800.0,
      "grad_norm": 1.7819674392124176,
      "language_loss": 0.87509692,
      "learning_rate": 1.4772753762146484e-07,
      "loss": 0.89606261,
      "num_input_tokens_seen": 158497935,
      "step": 7323,
      "time_per_iteration": 3.294234037399292
    },
    {
      "auxiliary_loss_clip": 0.01082049,
      "auxiliary_loss_mlp": 0.01017612,
      "balance_loss_clip": 1.03563154,
      "balance_loss_mlp": 1.01243842,
      "epoch": 0.8806589310407023,
      "flos": 36541856246400.0,
      "grad_norm": 1.6239211053916378,
      "language_loss": 0.70621848,
      "learning_rate": 1.474338584422401e-07,
      "loss": 0.72721505,
      "num_input_tokens_seen": 158523145,
      "step": 7324,
      "time_per_iteration": 2.6483755111694336
    },
    {
      "auxiliary_loss_clip": 0.01076849,
      "auxiliary_loss_mlp": 0.01016784,
      "balance_loss_clip": 1.03583634,
      "balance_loss_mlp": 1.01160467,
      "epoch": 0.8807791739313413,
      "flos": 23442404739840.0,
      "grad_norm": 1.7567363439309667,
      "language_loss": 0.75724846,
      "learning_rate": 1.4714046029582595e-07,
      "loss": 0.77818477,
      "num_input_tokens_seen": 158542210,
      "step": 7325,
      "time_per_iteration": 2.57981014251709
    },
    {
      "auxiliary_loss_clip": 0.01056789,
      "auxiliary_loss_mlp": 0.01017766,
      "balance_loss_clip": 1.03428531,
      "balance_loss_mlp": 1.01268816,
      "epoch": 0.8808994168219804,
      "flos": 25959152471040.0,
      "grad_norm": 2.828402594076057,
      "language_loss": 0.7564975,
      "learning_rate": 1.46847343226731e-07,
      "loss": 0.77724314,
      "num_input_tokens_seen": 158563250,
      "step": 7326,
      "time_per_iteration": 2.6519792079925537
    },
    {
      "auxiliary_loss_clip": 0.01079788,
      "auxiliary_loss_mlp": 0.01019542,
      "balance_loss_clip": 1.03482461,
      "balance_loss_mlp": 1.01441312,
      "epoch": 0.8810196597126195,
      "flos": 17093965518720.0,
      "grad_norm": 2.2401718802059074,
      "language_loss": 0.69463372,
      "learning_rate": 1.465545072794203e-07,
      "loss": 0.71562696,
      "num_input_tokens_seen": 158581125,
      "step": 7327,
      "time_per_iteration": 2.5497822761535645
    },
    {
      "auxiliary_loss_clip": 0.01025109,
      "auxiliary_loss_mlp": 0.01018885,
      "balance_loss_clip": 1.02898872,
      "balance_loss_mlp": 1.01377082,
      "epoch": 0.8811399026032586,
      "flos": 23005050744960.0,
      "grad_norm": 1.909985852852459,
      "language_loss": 0.75849056,
      "learning_rate": 1.4626195249831774e-07,
      "loss": 0.77893049,
      "num_input_tokens_seen": 158602025,
      "step": 7328,
      "time_per_iteration": 2.6816306114196777
    },
    {
      "auxiliary_loss_clip": 0.01082051,
      "auxiliary_loss_mlp": 0.01017641,
      "balance_loss_clip": 1.03629136,
      "balance_loss_mlp": 1.01258349,
      "epoch": 0.8812601454938976,
      "flos": 14465480970240.0,
      "grad_norm": 1.9585215068420179,
      "language_loss": 0.71769255,
      "learning_rate": 1.4596967892780244e-07,
      "loss": 0.73868948,
      "num_input_tokens_seen": 158618355,
      "step": 7329,
      "time_per_iteration": 3.327674627304077
    },
    {
      "auxiliary_loss_clip": 0.01091975,
      "auxiliary_loss_mlp": 0.01020049,
      "balance_loss_clip": 1.03758836,
      "balance_loss_mlp": 1.01497364,
      "epoch": 0.8813803883845368,
      "flos": 22495480623360.0,
      "grad_norm": 1.968821256129941,
      "language_loss": 0.7466352,
      "learning_rate": 1.4567768661221314e-07,
      "loss": 0.76775545,
      "num_input_tokens_seen": 158638925,
      "step": 7330,
      "time_per_iteration": 2.5141408443450928
    },
    {
      "auxiliary_loss_clip": 0.01079986,
      "auxiliary_loss_mlp": 0.00756672,
      "balance_loss_clip": 1.03564596,
      "balance_loss_mlp": 1.00168502,
      "epoch": 0.8815006312751759,
      "flos": 21509035816320.0,
      "grad_norm": 2.289069189320997,
      "language_loss": 0.74774003,
      "learning_rate": 1.4538597559584442e-07,
      "loss": 0.76610661,
      "num_input_tokens_seen": 158656715,
      "step": 7331,
      "time_per_iteration": 2.561891794204712
    },
    {
      "auxiliary_loss_clip": 0.01069291,
      "auxiliary_loss_mlp": 0.01020062,
      "balance_loss_clip": 1.03446937,
      "balance_loss_mlp": 1.01463485,
      "epoch": 0.8816208741658149,
      "flos": 22786809805440.0,
      "grad_norm": 2.5190934030505754,
      "language_loss": 0.79076773,
      "learning_rate": 1.4509454592294823e-07,
      "loss": 0.81166124,
      "num_input_tokens_seen": 158677200,
      "step": 7332,
      "time_per_iteration": 2.5714690685272217
    },
    {
      "auxiliary_loss_clip": 0.01051075,
      "auxiliary_loss_mlp": 0.00756611,
      "balance_loss_clip": 1.03520429,
      "balance_loss_mlp": 1.00170588,
      "epoch": 0.8817411170564541,
      "flos": 17781004592640.0,
      "grad_norm": 2.4781028111702756,
      "language_loss": 0.78611481,
      "learning_rate": 1.448033976377354e-07,
      "loss": 0.80419159,
      "num_input_tokens_seen": 158692185,
      "step": 7333,
      "time_per_iteration": 2.5707573890686035
    },
    {
      "auxiliary_loss_clip": 0.01079222,
      "auxiliary_loss_mlp": 0.01016606,
      "balance_loss_clip": 1.03409672,
      "balance_loss_mlp": 1.01187968,
      "epoch": 0.8818613599470931,
      "flos": 18553796547840.0,
      "grad_norm": 1.95201866301877,
      "language_loss": 0.74041855,
      "learning_rate": 1.445125307843713e-07,
      "loss": 0.76137686,
      "num_input_tokens_seen": 158710410,
      "step": 7334,
      "time_per_iteration": 2.5354442596435547
    },
    {
      "auxiliary_loss_clip": 0.01078697,
      "auxiliary_loss_mlp": 0.01017315,
      "balance_loss_clip": 1.03657949,
      "balance_loss_mlp": 1.01250839,
      "epoch": 0.8819816028377322,
      "flos": 27602253918720.0,
      "grad_norm": 1.6486033675080527,
      "language_loss": 0.75670528,
      "learning_rate": 1.442219454069813e-07,
      "loss": 0.77766538,
      "num_input_tokens_seen": 158731435,
      "step": 7335,
      "time_per_iteration": 2.6082639694213867
    },
    {
      "auxiliary_loss_clip": 0.01038131,
      "auxiliary_loss_mlp": 0.01021599,
      "balance_loss_clip": 1.03099895,
      "balance_loss_mlp": 1.01654148,
      "epoch": 0.8821018457283714,
      "flos": 23406865447680.0,
      "grad_norm": 1.8852722054485689,
      "language_loss": 0.66793698,
      "learning_rate": 1.4393164154964676e-07,
      "loss": 0.68853426,
      "num_input_tokens_seen": 158750965,
      "step": 7336,
      "time_per_iteration": 2.6443192958831787
    },
    {
      "auxiliary_loss_clip": 0.01075015,
      "auxiliary_loss_mlp": 0.01018723,
      "balance_loss_clip": 1.03664589,
      "balance_loss_mlp": 1.013937,
      "epoch": 0.8822220886190104,
      "flos": 29135021518080.0,
      "grad_norm": 1.7047534295421567,
      "language_loss": 0.9392966,
      "learning_rate": 1.4364161925640649e-07,
      "loss": 0.96023393,
      "num_input_tokens_seen": 158772365,
      "step": 7337,
      "time_per_iteration": 2.5940306186676025
    },
    {
      "auxiliary_loss_clip": 0.01090936,
      "auxiliary_loss_mlp": 0.01018225,
      "balance_loss_clip": 1.03624129,
      "balance_loss_mlp": 1.0134536,
      "epoch": 0.8823423315096495,
      "flos": 20487506734080.0,
      "grad_norm": 2.027513122194876,
      "language_loss": 0.84709609,
      "learning_rate": 1.4335187857125663e-07,
      "loss": 0.86818767,
      "num_input_tokens_seen": 158791065,
      "step": 7338,
      "time_per_iteration": 2.5081138610839844
    },
    {
      "auxiliary_loss_clip": 0.01082698,
      "auxiliary_loss_mlp": 0.01017697,
      "balance_loss_clip": 1.03727567,
      "balance_loss_mlp": 1.01277041,
      "epoch": 0.8824625744002886,
      "flos": 24208636867200.0,
      "grad_norm": 1.7252952522686016,
      "language_loss": 0.75522232,
      "learning_rate": 1.4306241953815023e-07,
      "loss": 0.77622628,
      "num_input_tokens_seen": 158812125,
      "step": 7339,
      "time_per_iteration": 2.569892168045044
    },
    {
      "auxiliary_loss_clip": 0.01079056,
      "auxiliary_loss_mlp": 0.01018324,
      "balance_loss_clip": 1.03543031,
      "balance_loss_mlp": 1.01332891,
      "epoch": 0.8825828172909277,
      "flos": 24681719744640.0,
      "grad_norm": 2.0136402673101843,
      "language_loss": 0.7115674,
      "learning_rate": 1.4277324220099862e-07,
      "loss": 0.73254114,
      "num_input_tokens_seen": 158834035,
      "step": 7340,
      "time_per_iteration": 2.584744453430176
    },
    {
      "auxiliary_loss_clip": 0.01050409,
      "auxiliary_loss_mlp": 0.01019074,
      "balance_loss_clip": 1.03235674,
      "balance_loss_mlp": 1.01409698,
      "epoch": 0.8827030601815667,
      "flos": 22458386689920.0,
      "grad_norm": 1.725843125875232,
      "language_loss": 0.74118394,
      "learning_rate": 1.4248434660366938e-07,
      "loss": 0.76187873,
      "num_input_tokens_seen": 158853510,
      "step": 7341,
      "time_per_iteration": 2.5849759578704834
    },
    {
      "auxiliary_loss_clip": 0.0106559,
      "auxiliary_loss_mlp": 0.01019357,
      "balance_loss_clip": 1.03529394,
      "balance_loss_mlp": 1.01446366,
      "epoch": 0.8828233030722058,
      "flos": 19867716518400.0,
      "grad_norm": 1.6689977304845407,
      "language_loss": 0.7059207,
      "learning_rate": 1.4219573278998808e-07,
      "loss": 0.72677016,
      "num_input_tokens_seen": 158871970,
      "step": 7342,
      "time_per_iteration": 2.5622875690460205
    },
    {
      "auxiliary_loss_clip": 0.01070304,
      "auxiliary_loss_mlp": 0.01018583,
      "balance_loss_clip": 1.03489304,
      "balance_loss_mlp": 1.01310563,
      "epoch": 0.882943545962845,
      "flos": 39350274422400.0,
      "grad_norm": 2.0517521831009273,
      "language_loss": 0.65048432,
      "learning_rate": 1.4190740080373685e-07,
      "loss": 0.67137319,
      "num_input_tokens_seen": 158892250,
      "step": 7343,
      "time_per_iteration": 2.6890065670013428
    },
    {
      "auxiliary_loss_clip": 0.01046122,
      "auxiliary_loss_mlp": 0.01017488,
      "balance_loss_clip": 1.03512931,
      "balance_loss_mlp": 1.01172686,
      "epoch": 0.883063788853484,
      "flos": 19056086398080.0,
      "grad_norm": 1.8699222246583767,
      "language_loss": 0.84068978,
      "learning_rate": 1.4161935068865538e-07,
      "loss": 0.86132586,
      "num_input_tokens_seen": 158907395,
      "step": 7344,
      "time_per_iteration": 2.593825101852417
    },
    {
      "auxiliary_loss_clip": 0.0109133,
      "auxiliary_loss_mlp": 0.01016895,
      "balance_loss_clip": 1.03625131,
      "balance_loss_mlp": 1.01163483,
      "epoch": 0.8831840317441231,
      "flos": 18735133144320.0,
      "grad_norm": 1.9428192197245426,
      "language_loss": 0.75505257,
      "learning_rate": 1.4133158248844113e-07,
      "loss": 0.77613485,
      "num_input_tokens_seen": 158926300,
      "step": 7345,
      "time_per_iteration": 2.456789255142212
    },
    {
      "auxiliary_loss_clip": 0.01049481,
      "auxiliary_loss_mlp": 0.01020304,
      "balance_loss_clip": 1.03291786,
      "balance_loss_mlp": 1.01461792,
      "epoch": 0.8833042746347622,
      "flos": 26829803226240.0,
      "grad_norm": 2.8293041157663166,
      "language_loss": 0.73228699,
      "learning_rate": 1.4104409624674785e-07,
      "loss": 0.75298482,
      "num_input_tokens_seen": 158946085,
      "step": 7346,
      "time_per_iteration": 2.631509780883789
    },
    {
      "auxiliary_loss_clip": 0.01080298,
      "auxiliary_loss_mlp": 0.01017831,
      "balance_loss_clip": 1.03782916,
      "balance_loss_mlp": 1.01272631,
      "epoch": 0.8834245175254013,
      "flos": 26106466498560.0,
      "grad_norm": 1.9574569475719463,
      "language_loss": 0.78686529,
      "learning_rate": 1.407568920071873e-07,
      "loss": 0.80784655,
      "num_input_tokens_seen": 158964950,
      "step": 7347,
      "time_per_iteration": 3.3004066944122314
    },
    {
      "auxiliary_loss_clip": 0.01093646,
      "auxiliary_loss_mlp": 0.01020402,
      "balance_loss_clip": 1.03712642,
      "balance_loss_mlp": 1.01487327,
      "epoch": 0.8835447604160404,
      "flos": 30631718972160.0,
      "grad_norm": 1.9373775062506005,
      "language_loss": 0.68553603,
      "learning_rate": 1.4046996981332782e-07,
      "loss": 0.70667648,
      "num_input_tokens_seen": 158984835,
      "step": 7348,
      "time_per_iteration": 3.3501899242401123
    },
    {
      "auxiliary_loss_clip": 0.01043864,
      "auxiliary_loss_mlp": 0.010184,
      "balance_loss_clip": 1.02879739,
      "balance_loss_mlp": 1.01286888,
      "epoch": 0.8836650033066795,
      "flos": 24720709582080.0,
      "grad_norm": 2.1918592121308276,
      "language_loss": 0.78172565,
      "learning_rate": 1.4018332970869516e-07,
      "loss": 0.80234826,
      "num_input_tokens_seen": 159002775,
      "step": 7349,
      "time_per_iteration": 3.3930389881134033
    },
    {
      "auxiliary_loss_clip": 0.01064443,
      "auxiliary_loss_mlp": 0.01018793,
      "balance_loss_clip": 1.03682888,
      "balance_loss_mlp": 1.013381,
      "epoch": 0.8837852461973186,
      "flos": 25415863125120.0,
      "grad_norm": 2.3168475680210556,
      "language_loss": 0.85386479,
      "learning_rate": 1.398969717367733e-07,
      "loss": 0.87469709,
      "num_input_tokens_seen": 159024100,
      "step": 7350,
      "time_per_iteration": 2.600527048110962
    },
    {
      "auxiliary_loss_clip": 0.01036105,
      "auxiliary_loss_mlp": 0.01021139,
      "balance_loss_clip": 1.03420079,
      "balance_loss_mlp": 1.01606047,
      "epoch": 0.8839054890879576,
      "flos": 17824544599680.0,
      "grad_norm": 1.7701396272769598,
      "language_loss": 0.76044494,
      "learning_rate": 1.396108959410014e-07,
      "loss": 0.78101736,
      "num_input_tokens_seen": 159043315,
      "step": 7351,
      "time_per_iteration": 2.603130578994751
    },
    {
      "auxiliary_loss_clip": 0.01074374,
      "auxiliary_loss_mlp": 0.0075657,
      "balance_loss_clip": 1.03340673,
      "balance_loss_mlp": 1.00158596,
      "epoch": 0.8840257319785968,
      "flos": 23771282872320.0,
      "grad_norm": 1.618723841204248,
      "language_loss": 0.81142503,
      "learning_rate": 1.3932510236477745e-07,
      "loss": 0.8297345,
      "num_input_tokens_seen": 159063985,
      "step": 7352,
      "time_per_iteration": 2.5405895709991455
    },
    {
      "auxiliary_loss_clip": 0.01081924,
      "auxiliary_loss_mlp": 0.01018614,
      "balance_loss_clip": 1.03576028,
      "balance_loss_mlp": 1.01332366,
      "epoch": 0.8841459748692359,
      "flos": 29062350374400.0,
      "grad_norm": 2.0850448505978583,
      "language_loss": 0.56285942,
      "learning_rate": 1.3903959105145636e-07,
      "loss": 0.58386481,
      "num_input_tokens_seen": 159084475,
      "step": 7353,
      "time_per_iteration": 2.5885818004608154
    },
    {
      "auxiliary_loss_clip": 0.01090916,
      "auxiliary_loss_mlp": 0.01016984,
      "balance_loss_clip": 1.03588605,
      "balance_loss_mlp": 1.01188207,
      "epoch": 0.8842662177598749,
      "flos": 24313548430080.0,
      "grad_norm": 1.8769998677535094,
      "language_loss": 0.82788551,
      "learning_rate": 1.387543620443492e-07,
      "loss": 0.84896445,
      "num_input_tokens_seen": 159101320,
      "step": 7354,
      "time_per_iteration": 2.492692708969116
    },
    {
      "auxiliary_loss_clip": 0.01091589,
      "auxiliary_loss_mlp": 0.0101922,
      "balance_loss_clip": 1.03695929,
      "balance_loss_mlp": 1.01430845,
      "epoch": 0.8843864606505141,
      "flos": 25010104942080.0,
      "grad_norm": 2.7989985876500922,
      "language_loss": 0.84213752,
      "learning_rate": 1.3846941538672606e-07,
      "loss": 0.86324555,
      "num_input_tokens_seen": 159120025,
      "step": 7355,
      "time_per_iteration": 3.2928199768066406
    },
    {
      "auxiliary_loss_clip": 0.01036777,
      "auxiliary_loss_mlp": 0.01018161,
      "balance_loss_clip": 1.02832985,
      "balance_loss_mlp": 1.012972,
      "epoch": 0.8845067035411531,
      "flos": 28186429006080.0,
      "grad_norm": 2.188772610093794,
      "language_loss": 0.81068611,
      "learning_rate": 1.3818475112181193e-07,
      "loss": 0.83123541,
      "num_input_tokens_seen": 159138820,
      "step": 7356,
      "time_per_iteration": 2.7213380336761475
    },
    {
      "auxiliary_loss_clip": 0.01061602,
      "auxiliary_loss_mlp": 0.01018568,
      "balance_loss_clip": 1.03486133,
      "balance_loss_mlp": 1.01374626,
      "epoch": 0.8846269464317922,
      "flos": 12854506187520.0,
      "grad_norm": 1.975478775468923,
      "language_loss": 0.7960434,
      "learning_rate": 1.3790036929279091e-07,
      "loss": 0.81684506,
      "num_input_tokens_seen": 159155975,
      "step": 7357,
      "time_per_iteration": 2.5072624683380127
    },
    {
      "auxiliary_loss_clip": 0.01079483,
      "auxiliary_loss_mlp": 0.00756783,
      "balance_loss_clip": 1.03565204,
      "balance_loss_mlp": 1.00170541,
      "epoch": 0.8847471893224313,
      "flos": 18626316019200.0,
      "grad_norm": 2.466245639803511,
      "language_loss": 0.58765054,
      "learning_rate": 1.3761626994280363e-07,
      "loss": 0.60601324,
      "num_input_tokens_seen": 159173445,
      "step": 7358,
      "time_per_iteration": 2.499361515045166
    },
    {
      "auxiliary_loss_clip": 0.0105149,
      "auxiliary_loss_mlp": 0.01019366,
      "balance_loss_clip": 1.02915311,
      "balance_loss_mlp": 1.01423132,
      "epoch": 0.8848674322130704,
      "flos": 35772173573760.0,
      "grad_norm": 1.8045154026501682,
      "language_loss": 0.73615688,
      "learning_rate": 1.3733245311494735e-07,
      "loss": 0.75686544,
      "num_input_tokens_seen": 159196100,
      "step": 7359,
      "time_per_iteration": 2.70776629447937
    },
    {
      "auxiliary_loss_clip": 0.01079349,
      "auxiliary_loss_mlp": 0.01021485,
      "balance_loss_clip": 1.03699934,
      "balance_loss_mlp": 1.01629663,
      "epoch": 0.8849876751037095,
      "flos": 24246072063360.0,
      "grad_norm": 7.326699091939926,
      "language_loss": 0.70485866,
      "learning_rate": 1.3704891885227676e-07,
      "loss": 0.72586703,
      "num_input_tokens_seen": 159216145,
      "step": 7360,
      "time_per_iteration": 2.5595505237579346
    },
    {
      "auxiliary_loss_clip": 0.01060851,
      "auxiliary_loss_mlp": 0.01025589,
      "balance_loss_clip": 1.0341146,
      "balance_loss_mlp": 1.02004921,
      "epoch": 0.8851079179943486,
      "flos": 21502362234240.0,
      "grad_norm": 2.2098111570452947,
      "language_loss": 0.77881622,
      "learning_rate": 1.367656671978037e-07,
      "loss": 0.79968071,
      "num_input_tokens_seen": 159233610,
      "step": 7361,
      "time_per_iteration": 2.573939800262451
    },
    {
      "auxiliary_loss_clip": 0.01070684,
      "auxiliary_loss_mlp": 0.01021435,
      "balance_loss_clip": 1.03476477,
      "balance_loss_mlp": 1.01642227,
      "epoch": 0.8852281608849877,
      "flos": 15302298746880.0,
      "grad_norm": 1.8940282310769279,
      "language_loss": 0.73447317,
      "learning_rate": 1.36482698194498e-07,
      "loss": 0.75539434,
      "num_input_tokens_seen": 159250155,
      "step": 7362,
      "time_per_iteration": 2.5370359420776367
    },
    {
      "auxiliary_loss_clip": 0.01069878,
      "auxiliary_loss_mlp": 0.01021766,
      "balance_loss_clip": 1.03479505,
      "balance_loss_mlp": 1.01636887,
      "epoch": 0.8853484037756267,
      "flos": 23298010404480.0,
      "grad_norm": 2.183331967567568,
      "language_loss": 0.71792632,
      "learning_rate": 1.3620001188528506e-07,
      "loss": 0.73884279,
      "num_input_tokens_seen": 159270875,
      "step": 7363,
      "time_per_iteration": 2.5631234645843506
    },
    {
      "auxiliary_loss_clip": 0.01079344,
      "auxiliary_loss_mlp": 0.01021944,
      "balance_loss_clip": 1.03499734,
      "balance_loss_mlp": 1.01638043,
      "epoch": 0.8854686466662659,
      "flos": 25116874490880.0,
      "grad_norm": 3.497723531164085,
      "language_loss": 0.74107289,
      "learning_rate": 1.3591760831304865e-07,
      "loss": 0.7620858,
      "num_input_tokens_seen": 159288565,
      "step": 7364,
      "time_per_iteration": 2.5640130043029785
    },
    {
      "auxiliary_loss_clip": 0.0109137,
      "auxiliary_loss_mlp": 0.01018692,
      "balance_loss_clip": 1.03681922,
      "balance_loss_mlp": 1.01337552,
      "epoch": 0.885588889556905,
      "flos": 21392635075200.0,
      "grad_norm": 1.8934701893425483,
      "language_loss": 0.79434717,
      "learning_rate": 1.356354875206287e-07,
      "loss": 0.81544781,
      "num_input_tokens_seen": 159306400,
      "step": 7365,
      "time_per_iteration": 2.4740512371063232
    },
    {
      "auxiliary_loss_clip": 0.01051588,
      "auxiliary_loss_mlp": 0.01020438,
      "balance_loss_clip": 1.03318286,
      "balance_loss_mlp": 1.01552069,
      "epoch": 0.885709132447544,
      "flos": 26909185870080.0,
      "grad_norm": 2.2263935519210163,
      "language_loss": 0.70050037,
      "learning_rate": 1.3535364955082296e-07,
      "loss": 0.72122061,
      "num_input_tokens_seen": 159326250,
      "step": 7366,
      "time_per_iteration": 2.621128797531128
    },
    {
      "auxiliary_loss_clip": 0.01091957,
      "auxiliary_loss_mlp": 0.010187,
      "balance_loss_clip": 1.03749919,
      "balance_loss_mlp": 1.01364279,
      "epoch": 0.8858293753381832,
      "flos": 26105746055040.0,
      "grad_norm": 3.6556224888514737,
      "language_loss": 0.64292109,
      "learning_rate": 1.3507209444638613e-07,
      "loss": 0.66402769,
      "num_input_tokens_seen": 159348250,
      "step": 7367,
      "time_per_iteration": 2.5236282348632812
    },
    {
      "auxiliary_loss_clip": 0.01079333,
      "auxiliary_loss_mlp": 0.01020254,
      "balance_loss_clip": 1.03617823,
      "balance_loss_mlp": 1.01516044,
      "epoch": 0.8859496182288222,
      "flos": 23294939040000.0,
      "grad_norm": 1.8998582909216883,
      "language_loss": 0.73885524,
      "learning_rate": 1.347908222500298e-07,
      "loss": 0.75985104,
      "num_input_tokens_seen": 159368325,
      "step": 7368,
      "time_per_iteration": 2.5705907344818115
    },
    {
      "auxiliary_loss_clip": 0.01042344,
      "auxiliary_loss_mlp": 0.01019768,
      "balance_loss_clip": 1.02970171,
      "balance_loss_mlp": 1.01488328,
      "epoch": 0.8860698611194613,
      "flos": 16874776627200.0,
      "grad_norm": 2.1564556307974594,
      "language_loss": 0.69583559,
      "learning_rate": 1.3450983300442276e-07,
      "loss": 0.71645665,
      "num_input_tokens_seen": 159387555,
      "step": 7369,
      "time_per_iteration": 2.5602784156799316
    },
    {
      "auxiliary_loss_clip": 0.01079832,
      "auxiliary_loss_mlp": 0.01019809,
      "balance_loss_clip": 1.03600311,
      "balance_loss_mlp": 1.01500535,
      "epoch": 0.8861901040101005,
      "flos": 24683729402880.0,
      "grad_norm": 2.3672778329404665,
      "language_loss": 0.73636353,
      "learning_rate": 1.3422912675219068e-07,
      "loss": 0.75735998,
      "num_input_tokens_seen": 159407310,
      "step": 7370,
      "time_per_iteration": 2.559903860092163
    },
    {
      "auxiliary_loss_clip": 0.01092709,
      "auxiliary_loss_mlp": 0.01017033,
      "balance_loss_clip": 1.03838706,
      "balance_loss_mlp": 1.01219308,
      "epoch": 0.8863103469007395,
      "flos": 24425171493120.0,
      "grad_norm": 1.709289654954625,
      "language_loss": 0.79254031,
      "learning_rate": 1.339487035359166e-07,
      "loss": 0.81363767,
      "num_input_tokens_seen": 159427680,
      "step": 7371,
      "time_per_iteration": 2.5163662433624268
    },
    {
      "auxiliary_loss_clip": 0.01066613,
      "auxiliary_loss_mlp": 0.00756587,
      "balance_loss_clip": 1.03542852,
      "balance_loss_mlp": 1.00171709,
      "epoch": 0.8864305897913786,
      "flos": 22056116970240.0,
      "grad_norm": 1.974567565379835,
      "language_loss": 0.85072517,
      "learning_rate": 1.336685633981409e-07,
      "loss": 0.86895716,
      "num_input_tokens_seen": 159448765,
      "step": 7372,
      "time_per_iteration": 2.595632314682007
    },
    {
      "auxiliary_loss_clip": 0.01081532,
      "auxiliary_loss_mlp": 0.01019507,
      "balance_loss_clip": 1.03690779,
      "balance_loss_mlp": 1.01411605,
      "epoch": 0.8865508326820177,
      "flos": 19101484391040.0,
      "grad_norm": 1.9509223995169562,
      "language_loss": 0.75372005,
      "learning_rate": 1.333887063813597e-07,
      "loss": 0.77473044,
      "num_input_tokens_seen": 159466870,
      "step": 7373,
      "time_per_iteration": 3.2513511180877686
    },
    {
      "auxiliary_loss_clip": 0.01068401,
      "auxiliary_loss_mlp": 0.01016696,
      "balance_loss_clip": 1.03448069,
      "balance_loss_mlp": 1.01176071,
      "epoch": 0.8866710755726568,
      "flos": 15416007304320.0,
      "grad_norm": 1.6857101717377998,
      "language_loss": 0.66208875,
      "learning_rate": 1.331091325280278e-07,
      "loss": 0.68293977,
      "num_input_tokens_seen": 159485840,
      "step": 7374,
      "time_per_iteration": 3.3379383087158203
    },
    {
      "auxiliary_loss_clip": 0.01039673,
      "auxiliary_loss_mlp": 0.01018243,
      "balance_loss_clip": 1.03529572,
      "balance_loss_mlp": 1.0129087,
      "epoch": 0.8867913184632958,
      "flos": 20085729949440.0,
      "grad_norm": 2.382189069509588,
      "language_loss": 0.78570336,
      "learning_rate": 1.3282984188055625e-07,
      "loss": 0.80628252,
      "num_input_tokens_seen": 159505630,
      "step": 7375,
      "time_per_iteration": 3.424851894378662
    },
    {
      "auxiliary_loss_clip": 0.01091328,
      "auxiliary_loss_mlp": 0.01024972,
      "balance_loss_clip": 1.03637969,
      "balance_loss_mlp": 1.02010846,
      "epoch": 0.8869115613539349,
      "flos": 23367989364480.0,
      "grad_norm": 2.8436051446610477,
      "language_loss": 0.79493403,
      "learning_rate": 1.3255083448131288e-07,
      "loss": 0.81609708,
      "num_input_tokens_seen": 159524675,
      "step": 7376,
      "time_per_iteration": 2.4932706356048584
    },
    {
      "auxiliary_loss_clip": 0.01079871,
      "auxiliary_loss_mlp": 0.01020252,
      "balance_loss_clip": 1.0345695,
      "balance_loss_mlp": 1.01511097,
      "epoch": 0.8870318042445741,
      "flos": 21288898972800.0,
      "grad_norm": 2.027247538687298,
      "language_loss": 0.78955191,
      "learning_rate": 1.3227211037262365e-07,
      "loss": 0.81055313,
      "num_input_tokens_seen": 159541915,
      "step": 7377,
      "time_per_iteration": 2.528088092803955
    },
    {
      "auxiliary_loss_clip": 0.01040748,
      "auxiliary_loss_mlp": 0.01023053,
      "balance_loss_clip": 1.03231728,
      "balance_loss_mlp": 1.01754808,
      "epoch": 0.8871520471352131,
      "flos": 20012907133440.0,
      "grad_norm": 5.409178795314828,
      "language_loss": 0.85329384,
      "learning_rate": 1.319936695967696e-07,
      "loss": 0.87393183,
      "num_input_tokens_seen": 159559740,
      "step": 7378,
      "time_per_iteration": 2.5911781787872314
    },
    {
      "auxiliary_loss_clip": 0.01093829,
      "auxiliary_loss_mlp": 0.01019132,
      "balance_loss_clip": 1.03649902,
      "balance_loss_mlp": 1.01335907,
      "epoch": 0.8872722900258522,
      "flos": 22603615223040.0,
      "grad_norm": 3.278766121264736,
      "language_loss": 0.82392162,
      "learning_rate": 1.3171551219599097e-07,
      "loss": 0.84505123,
      "num_input_tokens_seen": 159578265,
      "step": 7379,
      "time_per_iteration": 2.519184112548828
    },
    {
      "auxiliary_loss_clip": 0.0109243,
      "auxiliary_loss_mlp": 0.0101969,
      "balance_loss_clip": 1.03883529,
      "balance_loss_mlp": 1.01429868,
      "epoch": 0.8873925329164913,
      "flos": 22165427030400.0,
      "grad_norm": 3.014378375993825,
      "language_loss": 0.7827189,
      "learning_rate": 1.3143763821248377e-07,
      "loss": 0.8038401,
      "num_input_tokens_seen": 159595350,
      "step": 7380,
      "time_per_iteration": 2.478044033050537
    },
    {
      "auxiliary_loss_clip": 0.01092126,
      "auxiliary_loss_mlp": 0.0102114,
      "balance_loss_clip": 1.03737748,
      "balance_loss_mlp": 1.01628232,
      "epoch": 0.8875127758071304,
      "flos": 19210225680000.0,
      "grad_norm": 1.7998929486012467,
      "language_loss": 0.72322112,
      "learning_rate": 1.3116004768840118e-07,
      "loss": 0.74435377,
      "num_input_tokens_seen": 159613725,
      "step": 7381,
      "time_per_iteration": 3.2254531383514404
    },
    {
      "auxiliary_loss_clip": 0.01091292,
      "auxiliary_loss_mlp": 0.01022528,
      "balance_loss_clip": 1.03616834,
      "balance_loss_mlp": 1.01732743,
      "epoch": 0.8876330186977694,
      "flos": 18112688663040.0,
      "grad_norm": 1.9845147987430436,
      "language_loss": 0.74191415,
      "learning_rate": 1.3088274066585348e-07,
      "loss": 0.76305234,
      "num_input_tokens_seen": 159631335,
      "step": 7382,
      "time_per_iteration": 2.463894844055176
    },
    {
      "auxiliary_loss_clip": 0.01057704,
      "auxiliary_loss_mlp": 0.01016978,
      "balance_loss_clip": 1.03312314,
      "balance_loss_mlp": 1.0120126,
      "epoch": 0.8877532615884086,
      "flos": 22011136076160.0,
      "grad_norm": 2.038980279826558,
      "language_loss": 0.9023757,
      "learning_rate": 1.3060571718690749e-07,
      "loss": 0.92312247,
      "num_input_tokens_seen": 159648830,
      "step": 7383,
      "time_per_iteration": 2.609417676925659
    },
    {
      "auxiliary_loss_clip": 0.01013193,
      "auxiliary_loss_mlp": 0.00752563,
      "balance_loss_clip": 1.01764274,
      "balance_loss_mlp": 1.00091648,
      "epoch": 0.8878735044790477,
      "flos": 72143234449920.0,
      "grad_norm": 0.7615004228424989,
      "language_loss": 0.56870383,
      "learning_rate": 1.3032897729358805e-07,
      "loss": 0.58636141,
      "num_input_tokens_seen": 159709785,
      "step": 7384,
      "time_per_iteration": 3.200808048248291
    },
    {
      "auxiliary_loss_clip": 0.01036435,
      "auxiliary_loss_mlp": 0.00756643,
      "balance_loss_clip": 1.03267407,
      "balance_loss_mlp": 1.00175905,
      "epoch": 0.8879937473696867,
      "flos": 27528786495360.0,
      "grad_norm": 2.055937736902262,
      "language_loss": 0.80273026,
      "learning_rate": 1.3005252102787645e-07,
      "loss": 0.82066107,
      "num_input_tokens_seen": 159728725,
      "step": 7385,
      "time_per_iteration": 2.6889495849609375
    },
    {
      "auxiliary_loss_clip": 0.01079677,
      "auxiliary_loss_mlp": 0.01020079,
      "balance_loss_clip": 1.03520262,
      "balance_loss_mlp": 1.01485491,
      "epoch": 0.8881139902603259,
      "flos": 22236126433920.0,
      "grad_norm": 1.6648770215181277,
      "language_loss": 0.73345172,
      "learning_rate": 1.297763484317105e-07,
      "loss": 0.75444931,
      "num_input_tokens_seen": 159747020,
      "step": 7386,
      "time_per_iteration": 2.5468854904174805
    },
    {
      "auxiliary_loss_clip": 0.01043292,
      "auxiliary_loss_mlp": 0.00756767,
      "balance_loss_clip": 1.03337717,
      "balance_loss_mlp": 1.00170481,
      "epoch": 0.888234233150965,
      "flos": 20301430377600.0,
      "grad_norm": 2.3761864532332337,
      "language_loss": 0.7021392,
      "learning_rate": 1.2950045954698551e-07,
      "loss": 0.72013974,
      "num_input_tokens_seen": 159764855,
      "step": 7387,
      "time_per_iteration": 2.5905797481536865
    },
    {
      "auxiliary_loss_clip": 0.01049138,
      "auxiliary_loss_mlp": 0.01018225,
      "balance_loss_clip": 1.02970362,
      "balance_loss_mlp": 1.01322436,
      "epoch": 0.888354476041604,
      "flos": 18149820514560.0,
      "grad_norm": 1.7311685811632647,
      "language_loss": 0.75753599,
      "learning_rate": 1.2922485441555343e-07,
      "loss": 0.77820969,
      "num_input_tokens_seen": 159783935,
      "step": 7388,
      "time_per_iteration": 2.568448066711426
    },
    {
      "auxiliary_loss_clip": 0.01091489,
      "auxiliary_loss_mlp": 0.01019133,
      "balance_loss_clip": 1.03617501,
      "balance_loss_mlp": 1.01409984,
      "epoch": 0.8884747189322432,
      "flos": 22016255016960.0,
      "grad_norm": 2.350984304561351,
      "language_loss": 0.81975138,
      "learning_rate": 1.2894953307922363e-07,
      "loss": 0.84085757,
      "num_input_tokens_seen": 159802895,
      "step": 7389,
      "time_per_iteration": 2.4866020679473877
    },
    {
      "auxiliary_loss_clip": 0.01055576,
      "auxiliary_loss_mlp": 0.01021291,
      "balance_loss_clip": 1.03451788,
      "balance_loss_mlp": 1.01637912,
      "epoch": 0.8885949618228822,
      "flos": 19788523464960.0,
      "grad_norm": 1.9446324117401208,
      "language_loss": 0.84367383,
      "learning_rate": 1.2867449557976208e-07,
      "loss": 0.86444241,
      "num_input_tokens_seen": 159820995,
      "step": 7390,
      "time_per_iteration": 2.5790488719940186
    },
    {
      "auxiliary_loss_clip": 0.0107352,
      "auxiliary_loss_mlp": 0.01017247,
      "balance_loss_clip": 1.03190017,
      "balance_loss_mlp": 1.0123359,
      "epoch": 0.8887152047135213,
      "flos": 20049659804160.0,
      "grad_norm": 1.7896975585370618,
      "language_loss": 0.75673336,
      "learning_rate": 1.283997419588916e-07,
      "loss": 0.77764106,
      "num_input_tokens_seen": 159840465,
      "step": 7391,
      "time_per_iteration": 2.493659734725952
    },
    {
      "auxiliary_loss_clip": 0.01081053,
      "auxiliary_loss_mlp": 0.01018348,
      "balance_loss_clip": 1.03554714,
      "balance_loss_mlp": 1.01337695,
      "epoch": 0.8888354476041604,
      "flos": 18590094201600.0,
      "grad_norm": 2.1196648279699444,
      "language_loss": 0.61898983,
      "learning_rate": 1.2812527225829216e-07,
      "loss": 0.63998383,
      "num_input_tokens_seen": 159858690,
      "step": 7392,
      "time_per_iteration": 2.513716459274292
    },
    {
      "auxiliary_loss_clip": 0.01081653,
      "auxiliary_loss_mlp": 0.01018046,
      "balance_loss_clip": 1.03652179,
      "balance_loss_mlp": 1.01228213,
      "epoch": 0.8889556904947995,
      "flos": 21691964972160.0,
      "grad_norm": 2.6676497757572313,
      "language_loss": 0.76454103,
      "learning_rate": 1.2785108651960052e-07,
      "loss": 0.78553808,
      "num_input_tokens_seen": 159880325,
      "step": 7393,
      "time_per_iteration": 2.538613796234131
    },
    {
      "auxiliary_loss_clip": 0.01082559,
      "auxiliary_loss_mlp": 0.01017366,
      "balance_loss_clip": 1.03711879,
      "balance_loss_mlp": 1.01216531,
      "epoch": 0.8890759333854386,
      "flos": 27383671716480.0,
      "grad_norm": 1.940755095191105,
      "language_loss": 0.80847621,
      "learning_rate": 1.2757718478441094e-07,
      "loss": 0.8294754,
      "num_input_tokens_seen": 159901070,
      "step": 7394,
      "time_per_iteration": 2.6044273376464844
    },
    {
      "auxiliary_loss_clip": 0.01067192,
      "auxiliary_loss_mlp": 0.01017563,
      "balance_loss_clip": 1.03363872,
      "balance_loss_mlp": 1.01253843,
      "epoch": 0.8891961762760777,
      "flos": 24501141509760.0,
      "grad_norm": 2.0748834500756885,
      "language_loss": 0.77530015,
      "learning_rate": 1.2730356709427302e-07,
      "loss": 0.7961477,
      "num_input_tokens_seen": 159919750,
      "step": 7395,
      "time_per_iteration": 2.566737651824951
    },
    {
      "auxiliary_loss_clip": 0.01073955,
      "auxiliary_loss_mlp": 0.01024708,
      "balance_loss_clip": 1.03632522,
      "balance_loss_mlp": 1.0193882,
      "epoch": 0.8893164191667168,
      "flos": 41502945991680.0,
      "grad_norm": 1.6880624097710746,
      "language_loss": 0.60030675,
      "learning_rate": 1.2703023349069542e-07,
      "loss": 0.62129337,
      "num_input_tokens_seen": 159944600,
      "step": 7396,
      "time_per_iteration": 2.7089619636535645
    },
    {
      "auxiliary_loss_clip": 0.01070743,
      "auxiliary_loss_mlp": 0.01017209,
      "balance_loss_clip": 1.0304879,
      "balance_loss_mlp": 1.01224995,
      "epoch": 0.8894366620573558,
      "flos": 33586427387520.0,
      "grad_norm": 1.8101840236940792,
      "language_loss": 0.61833906,
      "learning_rate": 1.2675718401514223e-07,
      "loss": 0.63921863,
      "num_input_tokens_seen": 159968780,
      "step": 7397,
      "time_per_iteration": 2.6152029037475586
    },
    {
      "auxiliary_loss_clip": 0.01067055,
      "auxiliary_loss_mlp": 0.01019477,
      "balance_loss_clip": 1.03492904,
      "balance_loss_mlp": 1.01415694,
      "epoch": 0.889556904947995,
      "flos": 16911718888320.0,
      "grad_norm": 2.0572624758990163,
      "language_loss": 0.74455804,
      "learning_rate": 1.264844187090346e-07,
      "loss": 0.7654233,
      "num_input_tokens_seen": 159985905,
      "step": 7398,
      "time_per_iteration": 3.2850253582000732
    },
    {
      "auxiliary_loss_clip": 0.01070497,
      "auxiliary_loss_mlp": 0.01017583,
      "balance_loss_clip": 1.03537548,
      "balance_loss_mlp": 1.01250434,
      "epoch": 0.889677147838634,
      "flos": 26033226583680.0,
      "grad_norm": 1.6545511106879236,
      "language_loss": 0.75414896,
      "learning_rate": 1.262119376137516e-07,
      "loss": 0.77502978,
      "num_input_tokens_seen": 160006965,
      "step": 7399,
      "time_per_iteration": 2.5918381214141846
    },
    {
      "auxiliary_loss_clip": 0.01079794,
      "auxiliary_loss_mlp": 0.01018863,
      "balance_loss_clip": 1.0352298,
      "balance_loss_mlp": 1.01395488,
      "epoch": 0.8897973907292731,
      "flos": 26470656414720.0,
      "grad_norm": 1.6026087571743761,
      "language_loss": 0.85050577,
      "learning_rate": 1.2593974077062707e-07,
      "loss": 0.87149239,
      "num_input_tokens_seen": 160028585,
      "step": 7400,
      "time_per_iteration": 3.410637855529785
    },
    {
      "auxiliary_loss_clip": 0.0104827,
      "auxiliary_loss_mlp": 0.01021469,
      "balance_loss_clip": 1.03139782,
      "balance_loss_mlp": 1.01650119,
      "epoch": 0.8899176336199123,
      "flos": 26252074212480.0,
      "grad_norm": 1.9109983822458314,
      "language_loss": 0.63783514,
      "learning_rate": 1.2566782822095423e-07,
      "loss": 0.6585325,
      "num_input_tokens_seen": 160048840,
      "step": 7401,
      "time_per_iteration": 2.63388991355896
    },
    {
      "auxiliary_loss_clip": 0.01057689,
      "auxiliary_loss_mlp": 0.01021334,
      "balance_loss_clip": 1.03473806,
      "balance_loss_mlp": 1.01601398,
      "epoch": 0.8900378765105513,
      "flos": 20813730600960.0,
      "grad_norm": 1.7036508668636916,
      "language_loss": 0.7105608,
      "learning_rate": 1.2539620000598162e-07,
      "loss": 0.73135102,
      "num_input_tokens_seen": 160068175,
      "step": 7402,
      "time_per_iteration": 2.584796905517578
    },
    {
      "auxiliary_loss_clip": 0.01091863,
      "auxiliary_loss_mlp": 0.01019784,
      "balance_loss_clip": 1.03734493,
      "balance_loss_mlp": 1.0144459,
      "epoch": 0.8901581194011904,
      "flos": 16474213221120.0,
      "grad_norm": 1.7287065648731315,
      "language_loss": 0.79808843,
      "learning_rate": 1.2512485616691492e-07,
      "loss": 0.81920481,
      "num_input_tokens_seen": 160085230,
      "step": 7403,
      "time_per_iteration": 2.466214418411255
    },
    {
      "auxiliary_loss_clip": 0.01054659,
      "auxiliary_loss_mlp": 0.01024535,
      "balance_loss_clip": 1.03068078,
      "balance_loss_mlp": 1.01921809,
      "epoch": 0.8902783622918296,
      "flos": 35158298578560.0,
      "grad_norm": 1.6567065986203056,
      "language_loss": 0.80842936,
      "learning_rate": 1.2485379674491681e-07,
      "loss": 0.82922131,
      "num_input_tokens_seen": 160111425,
      "step": 7404,
      "time_per_iteration": 2.7000253200531006
    },
    {
      "auxiliary_loss_clip": 0.01064304,
      "auxiliary_loss_mlp": 0.01022815,
      "balance_loss_clip": 1.03423822,
      "balance_loss_mlp": 1.01751924,
      "epoch": 0.8903986051824686,
      "flos": 17202934316160.0,
      "grad_norm": 2.5438707772826894,
      "language_loss": 0.79581726,
      "learning_rate": 1.2458302178110657e-07,
      "loss": 0.81668842,
      "num_input_tokens_seen": 160129790,
      "step": 7405,
      "time_per_iteration": 2.5300865173339844
    },
    {
      "auxiliary_loss_clip": 0.01053497,
      "auxiliary_loss_mlp": 0.01016278,
      "balance_loss_clip": 1.03390002,
      "balance_loss_mlp": 1.0114857,
      "epoch": 0.8905188480731077,
      "flos": 25486221265920.0,
      "grad_norm": 1.940345323466637,
      "language_loss": 0.8231523,
      "learning_rate": 1.2431253131656118e-07,
      "loss": 0.84385002,
      "num_input_tokens_seen": 160149265,
      "step": 7406,
      "time_per_iteration": 2.6036489009857178
    },
    {
      "auxiliary_loss_clip": 0.0105294,
      "auxiliary_loss_mlp": 0.01020322,
      "balance_loss_clip": 1.02817774,
      "balance_loss_mlp": 1.01523495,
      "epoch": 0.8906390909637467,
      "flos": 23368027282560.0,
      "grad_norm": 2.119132035436722,
      "language_loss": 0.76790273,
      "learning_rate": 1.240423253923133e-07,
      "loss": 0.78863537,
      "num_input_tokens_seen": 160168870,
      "step": 7407,
      "time_per_iteration": 3.357048749923706
    },
    {
      "auxiliary_loss_clip": 0.01085405,
      "auxiliary_loss_mlp": 0.01018841,
      "balance_loss_clip": 1.0383774,
      "balance_loss_mlp": 1.01327133,
      "epoch": 0.8907593338543859,
      "flos": 21070885541760.0,
      "grad_norm": 1.7370554942008747,
      "language_loss": 0.6965611,
      "learning_rate": 1.237724040493533e-07,
      "loss": 0.71760356,
      "num_input_tokens_seen": 160187495,
      "step": 7408,
      "time_per_iteration": 2.509392023086548
    },
    {
      "auxiliary_loss_clip": 0.01095423,
      "auxiliary_loss_mlp": 0.01022253,
      "balance_loss_clip": 1.03973937,
      "balance_loss_mlp": 1.01672423,
      "epoch": 0.8908795767450249,
      "flos": 21871595255040.0,
      "grad_norm": 3.044572723063941,
      "language_loss": 0.72940254,
      "learning_rate": 1.2350276732862773e-07,
      "loss": 0.75057936,
      "num_input_tokens_seen": 160208520,
      "step": 7409,
      "time_per_iteration": 2.5098180770874023
    },
    {
      "auxiliary_loss_clip": 0.01030913,
      "auxiliary_loss_mlp": 0.01003001,
      "balance_loss_clip": 1.01534081,
      "balance_loss_mlp": 1.00145173,
      "epoch": 0.890999819635664,
      "flos": 66314337805440.0,
      "grad_norm": 0.8259840306743431,
      "language_loss": 0.56625754,
      "learning_rate": 1.2323341527103993e-07,
      "loss": 0.58659673,
      "num_input_tokens_seen": 160263720,
      "step": 7410,
      "time_per_iteration": 3.03493332862854
    },
    {
      "auxiliary_loss_clip": 0.01091159,
      "auxiliary_loss_mlp": 0.01019064,
      "balance_loss_clip": 1.03653061,
      "balance_loss_mlp": 1.0140214,
      "epoch": 0.8911200625263032,
      "flos": 26872319445120.0,
      "grad_norm": 2.419943471465777,
      "language_loss": 0.8546344,
      "learning_rate": 1.2296434791745135e-07,
      "loss": 0.87573659,
      "num_input_tokens_seen": 160282170,
      "step": 7411,
      "time_per_iteration": 2.5202059745788574
    },
    {
      "auxiliary_loss_clip": 0.01079885,
      "auxiliary_loss_mlp": 0.01019724,
      "balance_loss_clip": 1.0357697,
      "balance_loss_mlp": 1.01444888,
      "epoch": 0.8912403054169422,
      "flos": 20887880549760.0,
      "grad_norm": 1.9474150735846338,
      "language_loss": 0.7667377,
      "learning_rate": 1.2269556530867875e-07,
      "loss": 0.78773379,
      "num_input_tokens_seen": 160300725,
      "step": 7412,
      "time_per_iteration": 2.516202211380005
    },
    {
      "auxiliary_loss_clip": 0.01094624,
      "auxiliary_loss_mlp": 0.01020236,
      "balance_loss_clip": 1.03828597,
      "balance_loss_mlp": 1.01446629,
      "epoch": 0.8913605483075813,
      "flos": 27019026783360.0,
      "grad_norm": 2.0908319482073856,
      "language_loss": 0.81790888,
      "learning_rate": 1.2242706748549614e-07,
      "loss": 0.83905745,
      "num_input_tokens_seen": 160318720,
      "step": 7413,
      "time_per_iteration": 2.526440382003784
    },
    {
      "auxiliary_loss_clip": 0.01070225,
      "auxiliary_loss_mlp": 0.0101673,
      "balance_loss_clip": 1.03395939,
      "balance_loss_mlp": 1.01165211,
      "epoch": 0.8914807911982204,
      "flos": 23623665500160.0,
      "grad_norm": 2.3629811158148777,
      "language_loss": 0.82121783,
      "learning_rate": 1.2215885448863473e-07,
      "loss": 0.84208739,
      "num_input_tokens_seen": 160339595,
      "step": 7414,
      "time_per_iteration": 2.609362840652466
    },
    {
      "auxiliary_loss_clip": 0.0106447,
      "auxiliary_loss_mlp": 0.01022427,
      "balance_loss_clip": 1.03388977,
      "balance_loss_mlp": 1.01758146,
      "epoch": 0.8916010340888595,
      "flos": 24464578429440.0,
      "grad_norm": 2.2503324721236844,
      "language_loss": 0.80692744,
      "learning_rate": 1.2189092635878152e-07,
      "loss": 0.8277964,
      "num_input_tokens_seen": 160361045,
      "step": 7415,
      "time_per_iteration": 2.564509153366089
    },
    {
      "auxiliary_loss_clip": 0.01048628,
      "auxiliary_loss_mlp": 0.01016989,
      "balance_loss_clip": 1.03275108,
      "balance_loss_mlp": 1.01166928,
      "epoch": 0.8917212769794985,
      "flos": 21217934142720.0,
      "grad_norm": 1.8372097575280362,
      "language_loss": 0.77409422,
      "learning_rate": 1.216232831365822e-07,
      "loss": 0.79475033,
      "num_input_tokens_seen": 160379990,
      "step": 7416,
      "time_per_iteration": 2.611205577850342
    },
    {
      "auxiliary_loss_clip": 0.01069164,
      "auxiliary_loss_mlp": 0.01021606,
      "balance_loss_clip": 1.0349139,
      "balance_loss_mlp": 1.01610196,
      "epoch": 0.8918415198701377,
      "flos": 25515997009920.0,
      "grad_norm": 2.466508764904065,
      "language_loss": 0.80879521,
      "learning_rate": 1.2135592486263678e-07,
      "loss": 0.82970297,
      "num_input_tokens_seen": 160399240,
      "step": 7417,
      "time_per_iteration": 2.5873560905456543
    },
    {
      "auxiliary_loss_clip": 0.01065768,
      "auxiliary_loss_mlp": 0.01018517,
      "balance_loss_clip": 1.03285718,
      "balance_loss_mlp": 1.0134294,
      "epoch": 0.8919617627607768,
      "flos": 37856079561600.0,
      "grad_norm": 3.898740492999222,
      "language_loss": 0.61603755,
      "learning_rate": 1.2108885157750415e-07,
      "loss": 0.6368804,
      "num_input_tokens_seen": 160421600,
      "step": 7418,
      "time_per_iteration": 2.7122156620025635
    },
    {
      "auxiliary_loss_clip": 0.01052509,
      "auxiliary_loss_mlp": 0.00756507,
      "balance_loss_clip": 1.03431678,
      "balance_loss_mlp": 1.00162983,
      "epoch": 0.8920820056514158,
      "flos": 26216079903360.0,
      "grad_norm": 1.7440487028849025,
      "language_loss": 0.80258346,
      "learning_rate": 1.2082206332169897e-07,
      "loss": 0.82067364,
      "num_input_tokens_seen": 160441695,
      "step": 7419,
      "time_per_iteration": 2.612372875213623
    },
    {
      "auxiliary_loss_clip": 0.01058455,
      "auxiliary_loss_mlp": 0.01021142,
      "balance_loss_clip": 1.03045583,
      "balance_loss_mlp": 1.01573014,
      "epoch": 0.892202248542055,
      "flos": 17384991356160.0,
      "grad_norm": 24.798383718428305,
      "language_loss": 0.73635828,
      "learning_rate": 1.2055556013569225e-07,
      "loss": 0.75715429,
      "num_input_tokens_seen": 160457205,
      "step": 7420,
      "time_per_iteration": 2.5277719497680664
    },
    {
      "auxiliary_loss_clip": 0.01062061,
      "auxiliary_loss_mlp": 0.01018699,
      "balance_loss_clip": 1.03429794,
      "balance_loss_mlp": 1.01364148,
      "epoch": 0.892322491432694,
      "flos": 21326334168960.0,
      "grad_norm": 1.978600134768673,
      "language_loss": 0.82034659,
      "learning_rate": 1.2028934205991315e-07,
      "loss": 0.84115422,
      "num_input_tokens_seen": 160476525,
      "step": 7421,
      "time_per_iteration": 2.539400815963745
    },
    {
      "auxiliary_loss_clip": 0.01079515,
      "auxiliary_loss_mlp": 0.01017011,
      "balance_loss_clip": 1.03525519,
      "balance_loss_mlp": 1.01181614,
      "epoch": 0.8924427343233331,
      "flos": 24031926276480.0,
      "grad_norm": 1.390089962645568,
      "language_loss": 0.76724815,
      "learning_rate": 1.2002340913474607e-07,
      "loss": 0.78821337,
      "num_input_tokens_seen": 160500160,
      "step": 7422,
      "time_per_iteration": 2.6393415927886963
    },
    {
      "auxiliary_loss_clip": 0.01091616,
      "auxiliary_loss_mlp": 0.01023185,
      "balance_loss_clip": 1.03636742,
      "balance_loss_mlp": 1.0175494,
      "epoch": 0.8925629772139723,
      "flos": 30010677459840.0,
      "grad_norm": 2.256403488264136,
      "language_loss": 0.73841321,
      "learning_rate": 1.1975776140053317e-07,
      "loss": 0.75956118,
      "num_input_tokens_seen": 160520130,
      "step": 7423,
      "time_per_iteration": 2.5425188541412354
    },
    {
      "auxiliary_loss_clip": 0.01041856,
      "auxiliary_loss_mlp": 0.01020191,
      "balance_loss_clip": 1.03074253,
      "balance_loss_mlp": 1.01472855,
      "epoch": 0.8926832201046113,
      "flos": 22603918567680.0,
      "grad_norm": 2.2081704276103946,
      "language_loss": 0.73516899,
      "learning_rate": 1.194923988975729e-07,
      "loss": 0.75578946,
      "num_input_tokens_seen": 160539730,
      "step": 7424,
      "time_per_iteration": 3.3939449787139893
    },
    {
      "auxiliary_loss_clip": 0.0104498,
      "auxiliary_loss_mlp": 0.01018115,
      "balance_loss_clip": 1.02872324,
      "balance_loss_mlp": 1.01233649,
      "epoch": 0.8928034629952504,
      "flos": 13299405880320.0,
      "grad_norm": 2.6683889260799702,
      "language_loss": 0.73392451,
      "learning_rate": 1.192273216661206e-07,
      "loss": 0.75455546,
      "num_input_tokens_seen": 160557820,
      "step": 7425,
      "time_per_iteration": 2.522087812423706
    },
    {
      "auxiliary_loss_clip": 0.00992696,
      "auxiliary_loss_mlp": 0.01002043,
      "balance_loss_clip": 1.01626229,
      "balance_loss_mlp": 1.00014806,
      "epoch": 0.8929237058858895,
      "flos": 54860566176000.0,
      "grad_norm": 0.8071112213880183,
      "language_loss": 0.57475817,
      "learning_rate": 1.189625297463881e-07,
      "loss": 0.59470558,
      "num_input_tokens_seen": 160619510,
      "step": 7426,
      "time_per_iteration": 4.686802864074707
    },
    {
      "auxiliary_loss_clip": 0.01026423,
      "auxiliary_loss_mlp": 0.01021594,
      "balance_loss_clip": 1.03055978,
      "balance_loss_mlp": 1.01670682,
      "epoch": 0.8930439487765286,
      "flos": 28886777326080.0,
      "grad_norm": 1.997523836433334,
      "language_loss": 0.79678565,
      "learning_rate": 1.1869802317854394e-07,
      "loss": 0.81726587,
      "num_input_tokens_seen": 160643295,
      "step": 7427,
      "time_per_iteration": 2.79699969291687
    },
    {
      "auxiliary_loss_clip": 0.01042437,
      "auxiliary_loss_mlp": 0.01020775,
      "balance_loss_clip": 1.03168476,
      "balance_loss_mlp": 1.01561344,
      "epoch": 0.8931641916671677,
      "flos": 22421482346880.0,
      "grad_norm": 1.6838926652727164,
      "language_loss": 0.71986067,
      "learning_rate": 1.1843380200271425e-07,
      "loss": 0.74049282,
      "num_input_tokens_seen": 160662495,
      "step": 7428,
      "time_per_iteration": 2.6307358741760254
    },
    {
      "auxiliary_loss_clip": 0.01052656,
      "auxiliary_loss_mlp": 0.01014525,
      "balance_loss_clip": 1.03549242,
      "balance_loss_mlp": 1.00916684,
      "epoch": 0.8932844345578068,
      "flos": 25845216405120.0,
      "grad_norm": 1.7861611787609175,
      "language_loss": 0.804263,
      "learning_rate": 1.181698662589805e-07,
      "loss": 0.82493484,
      "num_input_tokens_seen": 160682080,
      "step": 7429,
      "time_per_iteration": 2.623918294906616
    },
    {
      "auxiliary_loss_clip": 0.01077862,
      "auxiliary_loss_mlp": 0.01021566,
      "balance_loss_clip": 1.03439236,
      "balance_loss_mlp": 1.01629686,
      "epoch": 0.8934046774484459,
      "flos": 22927791513600.0,
      "grad_norm": 1.9052909626128691,
      "language_loss": 0.76137286,
      "learning_rate": 1.1790621598738249e-07,
      "loss": 0.78236711,
      "num_input_tokens_seen": 160700395,
      "step": 7430,
      "time_per_iteration": 2.5314767360687256
    },
    {
      "auxiliary_loss_clip": 0.01092535,
      "auxiliary_loss_mlp": 0.01021333,
      "balance_loss_clip": 1.03854012,
      "balance_loss_mlp": 1.01651955,
      "epoch": 0.8935249203390849,
      "flos": 24464388839040.0,
      "grad_norm": 2.3489425352971818,
      "language_loss": 0.74979687,
      "learning_rate": 1.1764285122791461e-07,
      "loss": 0.77093548,
      "num_input_tokens_seen": 160721115,
      "step": 7431,
      "time_per_iteration": 2.536923885345459
    },
    {
      "auxiliary_loss_clip": 0.01079421,
      "auxiliary_loss_mlp": 0.01019144,
      "balance_loss_clip": 1.03466725,
      "balance_loss_mlp": 1.01398194,
      "epoch": 0.8936451632297241,
      "flos": 15744582092160.0,
      "grad_norm": 19.19355302134612,
      "language_loss": 0.77018356,
      "learning_rate": 1.173797720205294e-07,
      "loss": 0.79116923,
      "num_input_tokens_seen": 160739150,
      "step": 7432,
      "time_per_iteration": 2.5121572017669678
    },
    {
      "auxiliary_loss_clip": 0.0107849,
      "auxiliary_loss_mlp": 0.0102203,
      "balance_loss_clip": 1.03588784,
      "balance_loss_mlp": 1.01629639,
      "epoch": 0.8937654061203631,
      "flos": 35118360789120.0,
      "grad_norm": 2.5538926375518005,
      "language_loss": 0.71852481,
      "learning_rate": 1.1711697840513602e-07,
      "loss": 0.73953009,
      "num_input_tokens_seen": 160758585,
      "step": 7433,
      "time_per_iteration": 2.6373090744018555
    },
    {
      "auxiliary_loss_clip": 0.01079137,
      "auxiliary_loss_mlp": 0.01020019,
      "balance_loss_clip": 1.03443718,
      "balance_loss_mlp": 1.01466346,
      "epoch": 0.8938856490110022,
      "flos": 16109302861440.0,
      "grad_norm": 2.117405776931598,
      "language_loss": 0.70803583,
      "learning_rate": 1.1685447042160012e-07,
      "loss": 0.72902739,
      "num_input_tokens_seen": 160776620,
      "step": 7434,
      "time_per_iteration": 3.2712860107421875
    },
    {
      "auxiliary_loss_clip": 0.01092654,
      "auxiliary_loss_mlp": 0.01021256,
      "balance_loss_clip": 1.03682637,
      "balance_loss_mlp": 1.01597786,
      "epoch": 0.8940058919016414,
      "flos": 20706278526720.0,
      "grad_norm": 2.250522561290995,
      "language_loss": 0.71676397,
      "learning_rate": 1.1659224810974367e-07,
      "loss": 0.73790306,
      "num_input_tokens_seen": 160796580,
      "step": 7435,
      "time_per_iteration": 2.4696009159088135
    },
    {
      "auxiliary_loss_clip": 0.01060577,
      "auxiliary_loss_mlp": 0.01020592,
      "balance_loss_clip": 1.03058171,
      "balance_loss_mlp": 1.01561177,
      "epoch": 0.8941261347922804,
      "flos": 25231417246080.0,
      "grad_norm": 1.4093196438224656,
      "language_loss": 0.68349981,
      "learning_rate": 1.1633031150934591e-07,
      "loss": 0.70431155,
      "num_input_tokens_seen": 160819610,
      "step": 7436,
      "time_per_iteration": 2.642179012298584
    },
    {
      "auxiliary_loss_clip": 0.01080964,
      "auxiliary_loss_mlp": 0.01023588,
      "balance_loss_clip": 1.03731251,
      "balance_loss_mlp": 1.01837301,
      "epoch": 0.8942463776829195,
      "flos": 19539293402880.0,
      "grad_norm": 2.0082933908345426,
      "language_loss": 0.79836541,
      "learning_rate": 1.1606866066014176e-07,
      "loss": 0.81941092,
      "num_input_tokens_seen": 160838660,
      "step": 7437,
      "time_per_iteration": 2.4926304817199707
    },
    {
      "auxiliary_loss_clip": 0.01052088,
      "auxiliary_loss_mlp": 0.01019658,
      "balance_loss_clip": 1.03348911,
      "balance_loss_mlp": 1.01426947,
      "epoch": 0.8943666205735585,
      "flos": 22303299456000.0,
      "grad_norm": 2.604436640526359,
      "language_loss": 0.75258923,
      "learning_rate": 1.1580729560182434e-07,
      "loss": 0.77330667,
      "num_input_tokens_seen": 160854515,
      "step": 7438,
      "time_per_iteration": 2.600987434387207
    },
    {
      "auxiliary_loss_clip": 0.01090622,
      "auxiliary_loss_mlp": 0.00756795,
      "balance_loss_clip": 1.03636146,
      "balance_loss_mlp": 1.00165439,
      "epoch": 0.8944868634641977,
      "flos": 18914687591040.0,
      "grad_norm": 1.7470208369326377,
      "language_loss": 0.71088016,
      "learning_rate": 1.1554621637404171e-07,
      "loss": 0.72935432,
      "num_input_tokens_seen": 160872605,
      "step": 7439,
      "time_per_iteration": 2.4644038677215576
    },
    {
      "auxiliary_loss_clip": 0.01080204,
      "auxiliary_loss_mlp": 0.01016837,
      "balance_loss_clip": 1.03557277,
      "balance_loss_mlp": 1.0116992,
      "epoch": 0.8946071063548368,
      "flos": 14462409605760.0,
      "grad_norm": 3.617823184473182,
      "language_loss": 0.61547512,
      "learning_rate": 1.1528542301639999e-07,
      "loss": 0.63644552,
      "num_input_tokens_seen": 160889395,
      "step": 7440,
      "time_per_iteration": 2.507617235183716
    },
    {
      "auxiliary_loss_clip": 0.01054228,
      "auxiliary_loss_mlp": 0.01016725,
      "balance_loss_clip": 1.03217065,
      "balance_loss_mlp": 1.01162016,
      "epoch": 0.8947273492454758,
      "flos": 20086147048320.0,
      "grad_norm": 2.255898466773844,
      "language_loss": 0.82634425,
      "learning_rate": 1.1502491556846105e-07,
      "loss": 0.84705377,
      "num_input_tokens_seen": 160907890,
      "step": 7441,
      "time_per_iteration": 2.551548719406128
    },
    {
      "auxiliary_loss_clip": 0.01065205,
      "auxiliary_loss_mlp": 0.01018494,
      "balance_loss_clip": 1.03438878,
      "balance_loss_mlp": 1.01325464,
      "epoch": 0.894847592136115,
      "flos": 18552469415040.0,
      "grad_norm": 2.335788622406607,
      "language_loss": 0.81426197,
      "learning_rate": 1.1476469406974331e-07,
      "loss": 0.83509898,
      "num_input_tokens_seen": 160923490,
      "step": 7442,
      "time_per_iteration": 2.547646999359131
    },
    {
      "auxiliary_loss_clip": 0.01091799,
      "auxiliary_loss_mlp": 0.01021648,
      "balance_loss_clip": 1.03785634,
      "balance_loss_mlp": 1.01668,
      "epoch": 0.894967835026754,
      "flos": 23480787888000.0,
      "grad_norm": 1.5508687861205228,
      "language_loss": 0.77073002,
      "learning_rate": 1.1450475855972341e-07,
      "loss": 0.79186445,
      "num_input_tokens_seen": 160944280,
      "step": 7443,
      "time_per_iteration": 2.509136915206909
    },
    {
      "auxiliary_loss_clip": 0.01066777,
      "auxiliary_loss_mlp": 0.00756705,
      "balance_loss_clip": 1.03400862,
      "balance_loss_mlp": 1.00173497,
      "epoch": 0.8950880779173931,
      "flos": 15189727731840.0,
      "grad_norm": 2.3149902502192616,
      "language_loss": 0.71077877,
      "learning_rate": 1.1424510907783158e-07,
      "loss": 0.72901356,
      "num_input_tokens_seen": 160961560,
      "step": 7444,
      "time_per_iteration": 2.556893825531006
    },
    {
      "auxiliary_loss_clip": 0.01069387,
      "auxiliary_loss_mlp": 0.01020243,
      "balance_loss_clip": 1.03368199,
      "balance_loss_mlp": 1.0152781,
      "epoch": 0.8952083208080323,
      "flos": 22094196773760.0,
      "grad_norm": 1.6630112161992687,
      "language_loss": 0.82670695,
      "learning_rate": 1.1398574566345787e-07,
      "loss": 0.84760326,
      "num_input_tokens_seen": 160982195,
      "step": 7445,
      "time_per_iteration": 2.5447442531585693
    },
    {
      "auxiliary_loss_clip": 0.01068944,
      "auxiliary_loss_mlp": 0.01019674,
      "balance_loss_clip": 1.03403854,
      "balance_loss_mlp": 1.01417828,
      "epoch": 0.8953285636986713,
      "flos": 23256025038720.0,
      "grad_norm": 2.323309813393117,
      "language_loss": 0.82597792,
      "learning_rate": 1.1372666835594702e-07,
      "loss": 0.8468641,
      "num_input_tokens_seen": 161000520,
      "step": 7446,
      "time_per_iteration": 2.5943169593811035
    },
    {
      "auxiliary_loss_clip": 0.0106459,
      "auxiliary_loss_mlp": 0.01017794,
      "balance_loss_clip": 1.03362489,
      "balance_loss_mlp": 1.01284051,
      "epoch": 0.8954488065893104,
      "flos": 16364523980160.0,
      "grad_norm": 11.189322118267922,
      "language_loss": 0.71573246,
      "learning_rate": 1.1346787719460071e-07,
      "loss": 0.73655635,
      "num_input_tokens_seen": 161019405,
      "step": 7447,
      "time_per_iteration": 2.50539231300354
    },
    {
      "auxiliary_loss_clip": 0.01065251,
      "auxiliary_loss_mlp": 0.01022321,
      "balance_loss_clip": 1.03379321,
      "balance_loss_mlp": 1.01692045,
      "epoch": 0.8955690494799495,
      "flos": 18259737264000.0,
      "grad_norm": 1.8704950738508104,
      "language_loss": 0.72482616,
      "learning_rate": 1.1320937221867732e-07,
      "loss": 0.74570191,
      "num_input_tokens_seen": 161036985,
      "step": 7448,
      "time_per_iteration": 2.5729098320007324
    },
    {
      "auxiliary_loss_clip": 0.01067987,
      "auxiliary_loss_mlp": 0.01018827,
      "balance_loss_clip": 1.03447509,
      "balance_loss_mlp": 1.01411211,
      "epoch": 0.8956892923705886,
      "flos": 25449847776000.0,
      "grad_norm": 9.00380348010982,
      "language_loss": 0.79609233,
      "learning_rate": 1.1295115346739192e-07,
      "loss": 0.81696045,
      "num_input_tokens_seen": 161056985,
      "step": 7449,
      "time_per_iteration": 2.5756356716156006
    },
    {
      "auxiliary_loss_clip": 0.01067119,
      "auxiliary_loss_mlp": 0.01022246,
      "balance_loss_clip": 1.03456759,
      "balance_loss_mlp": 1.01676869,
      "epoch": 0.8958095352612276,
      "flos": 52665540111360.0,
      "grad_norm": 3.663606551517288,
      "language_loss": 0.73037922,
      "learning_rate": 1.1269322097991629e-07,
      "loss": 0.75127286,
      "num_input_tokens_seen": 161080270,
      "step": 7450,
      "time_per_iteration": 3.570343255996704
    },
    {
      "auxiliary_loss_clip": 0.01080229,
      "auxiliary_loss_mlp": 0.01020974,
      "balance_loss_clip": 1.03658032,
      "balance_loss_mlp": 1.01546669,
      "epoch": 0.8959297781518668,
      "flos": 23188624508160.0,
      "grad_norm": 2.563463445925538,
      "language_loss": 0.67667079,
      "learning_rate": 1.1243557479537846e-07,
      "loss": 0.69768286,
      "num_input_tokens_seen": 161100160,
      "step": 7451,
      "time_per_iteration": 3.328120231628418
    },
    {
      "auxiliary_loss_clip": 0.01090098,
      "auxiliary_loss_mlp": 0.01015683,
      "balance_loss_clip": 1.0353446,
      "balance_loss_mlp": 1.01045275,
      "epoch": 0.8960500210425059,
      "flos": 20336097553920.0,
      "grad_norm": 2.005238429281023,
      "language_loss": 0.68523085,
      "learning_rate": 1.121782149528634e-07,
      "loss": 0.70628864,
      "num_input_tokens_seen": 161117260,
      "step": 7452,
      "time_per_iteration": 3.2520782947540283
    },
    {
      "auxiliary_loss_clip": 0.01060866,
      "auxiliary_loss_mlp": 0.01016566,
      "balance_loss_clip": 1.0365603,
      "balance_loss_mlp": 1.01156771,
      "epoch": 0.8961702639331449,
      "flos": 19903748745600.0,
      "grad_norm": 32.31898254876026,
      "language_loss": 0.78296173,
      "learning_rate": 1.1192114149141208e-07,
      "loss": 0.80373603,
      "num_input_tokens_seen": 161136895,
      "step": 7453,
      "time_per_iteration": 2.5672805309295654
    },
    {
      "auxiliary_loss_clip": 0.01070217,
      "auxiliary_loss_mlp": 0.01023965,
      "balance_loss_clip": 1.03473783,
      "balance_loss_mlp": 1.01830578,
      "epoch": 0.8962905068237841,
      "flos": 12898008276480.0,
      "grad_norm": 2.2453984174778485,
      "language_loss": 0.65229553,
      "learning_rate": 1.1166435445002197e-07,
      "loss": 0.67323738,
      "num_input_tokens_seen": 161154565,
      "step": 7454,
      "time_per_iteration": 2.5754168033599854
    },
    {
      "auxiliary_loss_clip": 0.01080751,
      "auxiliary_loss_mlp": 0.01022144,
      "balance_loss_clip": 1.03589022,
      "balance_loss_mlp": 1.01645803,
      "epoch": 0.8964107497144231,
      "flos": 23442556412160.0,
      "grad_norm": 1.9988556957890218,
      "language_loss": 0.68588668,
      "learning_rate": 1.1140785386764818e-07,
      "loss": 0.70691562,
      "num_input_tokens_seen": 161173265,
      "step": 7455,
      "time_per_iteration": 2.580697774887085
    },
    {
      "auxiliary_loss_clip": 0.01080718,
      "auxiliary_loss_mlp": 0.01021443,
      "balance_loss_clip": 1.03603315,
      "balance_loss_mlp": 1.01610255,
      "epoch": 0.8965309926050622,
      "flos": 19502199469440.0,
      "grad_norm": 2.5821955162264913,
      "language_loss": 0.69382429,
      "learning_rate": 1.1115163978320153e-07,
      "loss": 0.7148459,
      "num_input_tokens_seen": 161191995,
      "step": 7456,
      "time_per_iteration": 2.5198566913604736
    },
    {
      "auxiliary_loss_clip": 0.01081929,
      "auxiliary_loss_mlp": 0.00756708,
      "balance_loss_clip": 1.0367341,
      "balance_loss_mlp": 1.00166178,
      "epoch": 0.8966512354957014,
      "flos": 28660535671680.0,
      "grad_norm": 2.011278495534175,
      "language_loss": 0.82807779,
      "learning_rate": 1.1089571223554917e-07,
      "loss": 0.84646416,
      "num_input_tokens_seen": 161212880,
      "step": 7457,
      "time_per_iteration": 2.578411340713501
    },
    {
      "auxiliary_loss_clip": 0.01080825,
      "auxiliary_loss_mlp": 0.01020114,
      "balance_loss_clip": 1.03565454,
      "balance_loss_mlp": 1.01494598,
      "epoch": 0.8967714783863404,
      "flos": 23373335813760.0,
      "grad_norm": 2.6043173321045106,
      "language_loss": 0.85577619,
      "learning_rate": 1.1064007126351537e-07,
      "loss": 0.87678558,
      "num_input_tokens_seen": 161233595,
      "step": 7458,
      "time_per_iteration": 2.5619394779205322
    },
    {
      "auxiliary_loss_clip": 0.01064089,
      "auxiliary_loss_mlp": 0.01017885,
      "balance_loss_clip": 1.03534627,
      "balance_loss_mlp": 1.01268792,
      "epoch": 0.8968917212769795,
      "flos": 24537477081600.0,
      "grad_norm": 2.262391875268069,
      "language_loss": 0.76066363,
      "learning_rate": 1.1038471690588003e-07,
      "loss": 0.78148329,
      "num_input_tokens_seen": 161252740,
      "step": 7459,
      "time_per_iteration": 3.268444061279297
    },
    {
      "auxiliary_loss_clip": 0.01037803,
      "auxiliary_loss_mlp": 0.0102016,
      "balance_loss_clip": 1.03471518,
      "balance_loss_mlp": 1.01506948,
      "epoch": 0.8970119641676186,
      "flos": 23477564851200.0,
      "grad_norm": 4.069955123540129,
      "language_loss": 0.80028737,
      "learning_rate": 1.1012964920138145e-07,
      "loss": 0.82086694,
      "num_input_tokens_seen": 161272325,
      "step": 7460,
      "time_per_iteration": 2.6672422885894775
    },
    {
      "auxiliary_loss_clip": 0.01071025,
      "auxiliary_loss_mlp": 0.01019484,
      "balance_loss_clip": 1.03504729,
      "balance_loss_mlp": 1.01454866,
      "epoch": 0.8971322070582577,
      "flos": 24540662200320.0,
      "grad_norm": 1.8623553484631281,
      "language_loss": 0.75754404,
      "learning_rate": 1.0987486818871205e-07,
      "loss": 0.77844918,
      "num_input_tokens_seen": 161295915,
      "step": 7461,
      "time_per_iteration": 2.595958948135376
    },
    {
      "auxiliary_loss_clip": 0.01079229,
      "auxiliary_loss_mlp": 0.00756509,
      "balance_loss_clip": 1.03632569,
      "balance_loss_mlp": 1.00170422,
      "epoch": 0.8972524499488967,
      "flos": 21799530800640.0,
      "grad_norm": 2.4464879218313147,
      "language_loss": 0.73166925,
      "learning_rate": 1.0962037390652245e-07,
      "loss": 0.75002658,
      "num_input_tokens_seen": 161314935,
      "step": 7462,
      "time_per_iteration": 2.5584723949432373
    },
    {
      "auxiliary_loss_clip": 0.01063571,
      "auxiliary_loss_mlp": 0.01020867,
      "balance_loss_clip": 1.03555369,
      "balance_loss_mlp": 1.01543689,
      "epoch": 0.8973726928395359,
      "flos": 21728414298240.0,
      "grad_norm": 2.0162377505108515,
      "language_loss": 0.72214335,
      "learning_rate": 1.0936616639341911e-07,
      "loss": 0.74298769,
      "num_input_tokens_seen": 161335225,
      "step": 7463,
      "time_per_iteration": 2.5530338287353516
    },
    {
      "auxiliary_loss_clip": 0.01030297,
      "auxiliary_loss_mlp": 0.0100373,
      "balance_loss_clip": 1.02145505,
      "balance_loss_mlp": 1.0022397,
      "epoch": 0.897492935730175,
      "flos": 53843283918720.0,
      "grad_norm": 0.7406557533642839,
      "language_loss": 0.54674351,
      "learning_rate": 1.0911224568796473e-07,
      "loss": 0.56708372,
      "num_input_tokens_seen": 161393420,
      "step": 7464,
      "time_per_iteration": 3.1698434352874756
    },
    {
      "auxiliary_loss_clip": 0.0108022,
      "auxiliary_loss_mlp": 0.01024728,
      "balance_loss_clip": 1.03785992,
      "balance_loss_mlp": 1.01967025,
      "epoch": 0.897613178620814,
      "flos": 18291977683200.0,
      "grad_norm": 1.8625861823318093,
      "language_loss": 0.71011031,
      "learning_rate": 1.0885861182867984e-07,
      "loss": 0.73115981,
      "num_input_tokens_seen": 161411525,
      "step": 7465,
      "time_per_iteration": 2.5010945796966553
    },
    {
      "auxiliary_loss_clip": 0.01068853,
      "auxiliary_loss_mlp": 0.01019556,
      "balance_loss_clip": 1.03469598,
      "balance_loss_mlp": 1.0143795,
      "epoch": 0.8977334215114532,
      "flos": 32996147489280.0,
      "grad_norm": 2.089780834654727,
      "language_loss": 0.70882183,
      "learning_rate": 1.0860526485403942e-07,
      "loss": 0.72970593,
      "num_input_tokens_seen": 161432800,
      "step": 7466,
      "time_per_iteration": 2.6930861473083496
    },
    {
      "auxiliary_loss_clip": 0.01092132,
      "auxiliary_loss_mlp": 0.01017828,
      "balance_loss_clip": 1.03728807,
      "balance_loss_mlp": 1.01281273,
      "epoch": 0.8978536644020922,
      "flos": 15197463020160.0,
      "grad_norm": 1.8453552432634752,
      "language_loss": 0.77229875,
      "learning_rate": 1.0835220480247675e-07,
      "loss": 0.79339832,
      "num_input_tokens_seen": 161451295,
      "step": 7467,
      "time_per_iteration": 2.456407308578491
    },
    {
      "auxiliary_loss_clip": 0.0105892,
      "auxiliary_loss_mlp": 0.01020016,
      "balance_loss_clip": 1.03249156,
      "balance_loss_mlp": 1.01453257,
      "epoch": 0.8979739072927313,
      "flos": 18006336213120.0,
      "grad_norm": 2.3668831928059584,
      "language_loss": 0.83995521,
      "learning_rate": 1.0809943171238067e-07,
      "loss": 0.8607446,
      "num_input_tokens_seen": 161469220,
      "step": 7468,
      "time_per_iteration": 2.5589845180511475
    },
    {
      "auxiliary_loss_clip": 0.0106786,
      "auxiliary_loss_mlp": 0.0102295,
      "balance_loss_clip": 1.03449178,
      "balance_loss_mlp": 1.01717114,
      "epoch": 0.8980941501833704,
      "flos": 22273637466240.0,
      "grad_norm": 3.5235582810383095,
      "language_loss": 0.62823874,
      "learning_rate": 1.078469456220965e-07,
      "loss": 0.64914685,
      "num_input_tokens_seen": 161489375,
      "step": 7469,
      "time_per_iteration": 2.5388691425323486
    },
    {
      "auxiliary_loss_clip": 0.01076003,
      "auxiliary_loss_mlp": 0.0101978,
      "balance_loss_clip": 1.03674603,
      "balance_loss_mlp": 1.01452839,
      "epoch": 0.8982143930740095,
      "flos": 37563764509440.0,
      "grad_norm": 1.7219032764963051,
      "language_loss": 0.69638109,
      "learning_rate": 1.0759474656992606e-07,
      "loss": 0.71733892,
      "num_input_tokens_seen": 161512145,
      "step": 7470,
      "time_per_iteration": 2.6747233867645264
    },
    {
      "auxiliary_loss_clip": 0.01070666,
      "auxiliary_loss_mlp": 0.01022284,
      "balance_loss_clip": 1.0353756,
      "balance_loss_mlp": 1.0169313,
      "epoch": 0.8983346359646486,
      "flos": 18078817766400.0,
      "grad_norm": 2.144304010199255,
      "language_loss": 0.77986932,
      "learning_rate": 1.0734283459412785e-07,
      "loss": 0.80079877,
      "num_input_tokens_seen": 161528995,
      "step": 7471,
      "time_per_iteration": 2.5035910606384277
    },
    {
      "auxiliary_loss_clip": 0.01046039,
      "auxiliary_loss_mlp": 0.0102136,
      "balance_loss_clip": 1.034881,
      "balance_loss_mlp": 1.01570678,
      "epoch": 0.8984548788552876,
      "flos": 20561012075520.0,
      "grad_norm": 3.6446321626627665,
      "language_loss": 0.80371463,
      "learning_rate": 1.0709120973291707e-07,
      "loss": 0.82438862,
      "num_input_tokens_seen": 161548775,
      "step": 7472,
      "time_per_iteration": 2.639677047729492
    },
    {
      "auxiliary_loss_clip": 0.01093859,
      "auxiliary_loss_mlp": 0.01021763,
      "balance_loss_clip": 1.03907967,
      "balance_loss_mlp": 1.01618159,
      "epoch": 0.8985751217459268,
      "flos": 17787374830080.0,
      "grad_norm": 2.164169217511985,
      "language_loss": 0.77574122,
      "learning_rate": 1.0683987202446475e-07,
      "loss": 0.79689747,
      "num_input_tokens_seen": 161566960,
      "step": 7473,
      "time_per_iteration": 2.466918706893921
    },
    {
      "auxiliary_loss_clip": 0.01081471,
      "auxiliary_loss_mlp": 0.01018442,
      "balance_loss_clip": 1.03578031,
      "balance_loss_mlp": 1.01338768,
      "epoch": 0.8986953646365659,
      "flos": 21619180074240.0,
      "grad_norm": 2.1043277908378637,
      "language_loss": 0.70360887,
      "learning_rate": 1.0658882150689862e-07,
      "loss": 0.724608,
      "num_input_tokens_seen": 161585820,
      "step": 7474,
      "time_per_iteration": 2.5295307636260986
    },
    {
      "auxiliary_loss_clip": 0.0105706,
      "auxiliary_loss_mlp": 0.01017833,
      "balance_loss_clip": 1.03470922,
      "balance_loss_mlp": 1.0124923,
      "epoch": 0.8988156075272049,
      "flos": 14029074927360.0,
      "grad_norm": 2.438521131628103,
      "language_loss": 0.78295636,
      "learning_rate": 1.0633805821830288e-07,
      "loss": 0.80370528,
      "num_input_tokens_seen": 161602505,
      "step": 7475,
      "time_per_iteration": 2.5399553775787354
    },
    {
      "auxiliary_loss_clip": 0.01062854,
      "auxiliary_loss_mlp": 0.01019012,
      "balance_loss_clip": 1.03168416,
      "balance_loss_mlp": 1.01370168,
      "epoch": 0.8989358504178441,
      "flos": 29061743685120.0,
      "grad_norm": 2.4700352800254985,
      "language_loss": 0.83022213,
      "learning_rate": 1.0608758219671753e-07,
      "loss": 0.85104078,
      "num_input_tokens_seen": 161621545,
      "step": 7476,
      "time_per_iteration": 3.394275426864624
    },
    {
      "auxiliary_loss_clip": 0.0106887,
      "auxiliary_loss_mlp": 0.01017973,
      "balance_loss_clip": 1.03420711,
      "balance_loss_mlp": 1.01262617,
      "epoch": 0.8990560933084831,
      "flos": 20232513123840.0,
      "grad_norm": 1.7607479738038287,
      "language_loss": 0.70362365,
      "learning_rate": 1.0583739348014065e-07,
      "loss": 0.72449207,
      "num_input_tokens_seen": 161642630,
      "step": 7477,
      "time_per_iteration": 3.424302577972412
    },
    {
      "auxiliary_loss_clip": 0.01094574,
      "auxiliary_loss_mlp": 0.01019441,
      "balance_loss_clip": 1.03950095,
      "balance_loss_mlp": 1.01449704,
      "epoch": 0.8991763361991222,
      "flos": 25523049772800.0,
      "grad_norm": 2.0522213211921128,
      "language_loss": 0.84478629,
      "learning_rate": 1.0558749210652518e-07,
      "loss": 0.86592644,
      "num_input_tokens_seen": 161662560,
      "step": 7478,
      "time_per_iteration": 3.292628765106201
    },
    {
      "auxiliary_loss_clip": 0.01056431,
      "auxiliary_loss_mlp": 0.01019934,
      "balance_loss_clip": 1.03338957,
      "balance_loss_mlp": 1.01501083,
      "epoch": 0.8992965790897613,
      "flos": 25121538414720.0,
      "grad_norm": 1.7267052193864358,
      "language_loss": 0.85822487,
      "learning_rate": 1.053378781137808e-07,
      "loss": 0.8789885,
      "num_input_tokens_seen": 161683480,
      "step": 7479,
      "time_per_iteration": 2.615804672241211
    },
    {
      "auxiliary_loss_clip": 0.01063399,
      "auxiliary_loss_mlp": 0.01021565,
      "balance_loss_clip": 1.03483319,
      "balance_loss_mlp": 1.01623988,
      "epoch": 0.8994168219804004,
      "flos": 16072663944960.0,
      "grad_norm": 2.0107341030751713,
      "language_loss": 0.78132915,
      "learning_rate": 1.0508855153977392e-07,
      "loss": 0.80217886,
      "num_input_tokens_seen": 161699945,
      "step": 7480,
      "time_per_iteration": 2.517936944961548
    },
    {
      "auxiliary_loss_clip": 0.01079206,
      "auxiliary_loss_mlp": 0.01022442,
      "balance_loss_clip": 1.03466725,
      "balance_loss_mlp": 1.01707768,
      "epoch": 0.8995370648710395,
      "flos": 24828009984000.0,
      "grad_norm": 2.4890271879489387,
      "language_loss": 0.66792023,
      "learning_rate": 1.0483951242232669e-07,
      "loss": 0.68893671,
      "num_input_tokens_seen": 161720420,
      "step": 7481,
      "time_per_iteration": 2.5458288192749023
    },
    {
      "auxiliary_loss_clip": 0.01040584,
      "auxiliary_loss_mlp": 0.0100162,
      "balance_loss_clip": 1.01567554,
      "balance_loss_mlp": 0.99995118,
      "epoch": 0.8996573077616786,
      "flos": 63123594819840.0,
      "grad_norm": 0.9681636696757703,
      "language_loss": 0.57693005,
      "learning_rate": 1.0459076079921936e-07,
      "loss": 0.59735215,
      "num_input_tokens_seen": 161773080,
      "step": 7482,
      "time_per_iteration": 3.157010078430176
    },
    {
      "auxiliary_loss_clip": 0.01069221,
      "auxiliary_loss_mlp": 0.01021784,
      "balance_loss_clip": 1.0369215,
      "balance_loss_mlp": 1.01627362,
      "epoch": 0.8997775506523177,
      "flos": 18221429952000.0,
      "grad_norm": 2.210411062551477,
      "language_loss": 0.85186565,
      "learning_rate": 1.0434229670818618e-07,
      "loss": 0.87277567,
      "num_input_tokens_seen": 161789755,
      "step": 7483,
      "time_per_iteration": 2.5094382762908936
    },
    {
      "auxiliary_loss_clip": 0.01061004,
      "auxiliary_loss_mlp": 0.0101881,
      "balance_loss_clip": 1.0305953,
      "balance_loss_mlp": 1.01373506,
      "epoch": 0.8998977935429567,
      "flos": 24168850750080.0,
      "grad_norm": 1.692818543809986,
      "language_loss": 0.8000052,
      "learning_rate": 1.0409412018691944e-07,
      "loss": 0.8208034,
      "num_input_tokens_seen": 161810220,
      "step": 7484,
      "time_per_iteration": 2.581542730331421
    },
    {
      "auxiliary_loss_clip": 0.01068667,
      "auxiliary_loss_mlp": 0.01021238,
      "balance_loss_clip": 1.03566957,
      "balance_loss_mlp": 1.01583457,
      "epoch": 0.9000180364335959,
      "flos": 20774892435840.0,
      "grad_norm": 1.9107121621234078,
      "language_loss": 0.7487998,
      "learning_rate": 1.0384623127306724e-07,
      "loss": 0.76969886,
      "num_input_tokens_seen": 161827565,
      "step": 7485,
      "time_per_iteration": 2.5220184326171875
    },
    {
      "auxiliary_loss_clip": 0.01058966,
      "auxiliary_loss_mlp": 0.01019857,
      "balance_loss_clip": 1.03542781,
      "balance_loss_mlp": 1.01498759,
      "epoch": 0.900138279324235,
      "flos": 19207609332480.0,
      "grad_norm": 1.9496090216889652,
      "language_loss": 0.79567331,
      "learning_rate": 1.0359863000423397e-07,
      "loss": 0.81646156,
      "num_input_tokens_seen": 161845700,
      "step": 7486,
      "time_per_iteration": 3.357893943786621
    },
    {
      "auxiliary_loss_clip": 0.01092621,
      "auxiliary_loss_mlp": 0.01020874,
      "balance_loss_clip": 1.03685713,
      "balance_loss_mlp": 1.01597703,
      "epoch": 0.900258522214874,
      "flos": 28733699750400.0,
      "grad_norm": 1.7223890920751752,
      "language_loss": 0.71770769,
      "learning_rate": 1.0335131641798112e-07,
      "loss": 0.73884261,
      "num_input_tokens_seen": 161867660,
      "step": 7487,
      "time_per_iteration": 2.530590057373047
    },
    {
      "auxiliary_loss_clip": 0.01018561,
      "auxiliary_loss_mlp": 0.01002736,
      "balance_loss_clip": 1.01327682,
      "balance_loss_mlp": 1.00112665,
      "epoch": 0.9003787651055132,
      "flos": 58286689073280.0,
      "grad_norm": 0.8031257390396531,
      "language_loss": 0.55588055,
      "learning_rate": 1.0310429055182512e-07,
      "loss": 0.57609349,
      "num_input_tokens_seen": 161921980,
      "step": 7488,
      "time_per_iteration": 3.004802942276001
    },
    {
      "auxiliary_loss_clip": 0.01057328,
      "auxiliary_loss_mlp": 0.01020787,
      "balance_loss_clip": 1.03467572,
      "balance_loss_mlp": 1.01548243,
      "epoch": 0.9004990079961522,
      "flos": 25558816573440.0,
      "grad_norm": 2.1160480335454066,
      "language_loss": 0.73870826,
      "learning_rate": 1.0285755244324024e-07,
      "loss": 0.75948936,
      "num_input_tokens_seen": 161942725,
      "step": 7489,
      "time_per_iteration": 2.6071248054504395
    },
    {
      "auxiliary_loss_clip": 0.01067251,
      "auxiliary_loss_mlp": 0.00756479,
      "balance_loss_clip": 1.03289342,
      "balance_loss_mlp": 1.00167799,
      "epoch": 0.9006192508867913,
      "flos": 23337644849280.0,
      "grad_norm": 1.914281881820112,
      "language_loss": 0.68636745,
      "learning_rate": 1.0261110212965629e-07,
      "loss": 0.70460474,
      "num_input_tokens_seen": 161964520,
      "step": 7490,
      "time_per_iteration": 2.613717794418335
    },
    {
      "auxiliary_loss_clip": 0.01068937,
      "auxiliary_loss_mlp": 0.01020703,
      "balance_loss_clip": 1.03546667,
      "balance_loss_mlp": 1.01554394,
      "epoch": 0.9007394937774305,
      "flos": 18042216768000.0,
      "grad_norm": 2.2336833150744404,
      "language_loss": 0.7934019,
      "learning_rate": 1.023649396484596e-07,
      "loss": 0.81429827,
      "num_input_tokens_seen": 161983575,
      "step": 7491,
      "time_per_iteration": 2.5124619007110596
    },
    {
      "auxiliary_loss_clip": 0.01091889,
      "auxiliary_loss_mlp": 0.01019871,
      "balance_loss_clip": 1.03649998,
      "balance_loss_mlp": 1.01481342,
      "epoch": 0.9008597366680695,
      "flos": 43071707900160.0,
      "grad_norm": 2.0104263496901043,
      "language_loss": 0.67535329,
      "learning_rate": 1.0211906503699275e-07,
      "loss": 0.69647092,
      "num_input_tokens_seen": 162006550,
      "step": 7492,
      "time_per_iteration": 2.686296224594116
    },
    {
      "auxiliary_loss_clip": 0.01081709,
      "auxiliary_loss_mlp": 0.01020251,
      "balance_loss_clip": 1.03758621,
      "balance_loss_mlp": 1.01448441,
      "epoch": 0.9009799795587086,
      "flos": 14940801014400.0,
      "grad_norm": 2.3805607379556815,
      "language_loss": 0.82312578,
      "learning_rate": 1.0187347833255455e-07,
      "loss": 0.84414536,
      "num_input_tokens_seen": 162022455,
      "step": 7493,
      "time_per_iteration": 2.4729959964752197
    },
    {
      "auxiliary_loss_clip": 0.01091914,
      "auxiliary_loss_mlp": 0.01021956,
      "balance_loss_clip": 1.03829467,
      "balance_loss_mlp": 1.01664853,
      "epoch": 0.9011002224493477,
      "flos": 21581706960000.0,
      "grad_norm": 1.9596246776371513,
      "language_loss": 0.79185539,
      "learning_rate": 1.0162817957240056e-07,
      "loss": 0.81299406,
      "num_input_tokens_seen": 162042350,
      "step": 7494,
      "time_per_iteration": 2.523258686065674
    },
    {
      "auxiliary_loss_clip": 0.01030419,
      "auxiliary_loss_mlp": 0.010018,
      "balance_loss_clip": 1.0153929,
      "balance_loss_mlp": 1.00010681,
      "epoch": 0.9012204653399868,
      "flos": 71173435680000.0,
      "grad_norm": 0.8760017554772012,
      "language_loss": 0.62992948,
      "learning_rate": 1.0138316879374253e-07,
      "loss": 0.65025169,
      "num_input_tokens_seen": 162111640,
      "step": 7495,
      "time_per_iteration": 3.2538628578186035
    },
    {
      "auxiliary_loss_clip": 0.01068029,
      "auxiliary_loss_mlp": 0.01017976,
      "balance_loss_clip": 1.03649151,
      "balance_loss_mlp": 1.01283205,
      "epoch": 0.9013407082306258,
      "flos": 15596699293440.0,
      "grad_norm": 3.293384053332385,
      "language_loss": 0.74574471,
      "learning_rate": 1.0113844603374833e-07,
      "loss": 0.76660472,
      "num_input_tokens_seen": 162128165,
      "step": 7496,
      "time_per_iteration": 2.522327184677124
    },
    {
      "auxiliary_loss_clip": 0.01068335,
      "auxiliary_loss_mlp": 0.010198,
      "balance_loss_clip": 1.03357255,
      "balance_loss_mlp": 1.01408339,
      "epoch": 0.901460951121265,
      "flos": 15050945272320.0,
      "grad_norm": 2.144345707337549,
      "language_loss": 0.71828049,
      "learning_rate": 1.0089401132954178e-07,
      "loss": 0.73916185,
      "num_input_tokens_seen": 162146145,
      "step": 7497,
      "time_per_iteration": 2.521592378616333
    },
    {
      "auxiliary_loss_clip": 0.01062089,
      "auxiliary_loss_mlp": 0.01021149,
      "balance_loss_clip": 1.0310216,
      "balance_loss_mlp": 1.01621962,
      "epoch": 0.9015811940119041,
      "flos": 22239046126080.0,
      "grad_norm": 3.3927168063820314,
      "language_loss": 0.72578204,
      "learning_rate": 1.006498647182037e-07,
      "loss": 0.7466144,
      "num_input_tokens_seen": 162164800,
      "step": 7498,
      "time_per_iteration": 2.5545835494995117
    },
    {
      "auxiliary_loss_clip": 0.01037004,
      "auxiliary_loss_mlp": 0.01026314,
      "balance_loss_clip": 1.03309965,
      "balance_loss_mlp": 1.02116156,
      "epoch": 0.9017014369025431,
      "flos": 24976196127360.0,
      "grad_norm": 2.6638047460539185,
      "language_loss": 0.71866751,
      "learning_rate": 1.004060062367713e-07,
      "loss": 0.73930067,
      "num_input_tokens_seen": 162185895,
      "step": 7499,
      "time_per_iteration": 2.6869759559631348
    },
    {
      "auxiliary_loss_clip": 0.01079133,
      "auxiliary_loss_mlp": 0.01019712,
      "balance_loss_clip": 1.0355196,
      "balance_loss_mlp": 1.01431763,
      "epoch": 0.9018216797931822,
      "flos": 18116139208320.0,
      "grad_norm": 1.7062245740986335,
      "language_loss": 0.69536126,
      "learning_rate": 1.0016243592223728e-07,
      "loss": 0.71634972,
      "num_input_tokens_seen": 162206295,
      "step": 7500,
      "time_per_iteration": 2.534085273742676
    },
    {
      "auxiliary_loss_clip": 0.01032078,
      "auxiliary_loss_mlp": 0.01019428,
      "balance_loss_clip": 1.03190565,
      "balance_loss_mlp": 1.01402211,
      "epoch": 0.9019419226838213,
      "flos": 37271449457280.0,
      "grad_norm": 1.7815417399163802,
      "language_loss": 0.65665948,
      "learning_rate": 9.991915381155114e-08,
      "loss": 0.67717457,
      "num_input_tokens_seen": 162229275,
      "step": 7501,
      "time_per_iteration": 2.7862651348114014
    },
    {
      "auxiliary_loss_clip": 0.01082822,
      "auxiliary_loss_mlp": 0.01020033,
      "balance_loss_clip": 1.03684568,
      "balance_loss_mlp": 1.01492476,
      "epoch": 0.9020621655744604,
      "flos": 23443390609920.0,
      "grad_norm": 2.2867232382725473,
      "language_loss": 0.74899459,
      "learning_rate": 9.967615994161871e-08,
      "loss": 0.77002317,
      "num_input_tokens_seen": 162248935,
      "step": 7502,
      "time_per_iteration": 2.5443427562713623
    },
    {
      "auxiliary_loss_clip": 0.0109074,
      "auxiliary_loss_mlp": 0.01016366,
      "balance_loss_clip": 1.03613472,
      "balance_loss_mlp": 1.01140141,
      "epoch": 0.9021824084650995,
      "flos": 22859708457600.0,
      "grad_norm": 1.8591412327637609,
      "language_loss": 0.78175437,
      "learning_rate": 9.943345434930161e-08,
      "loss": 0.80282545,
      "num_input_tokens_seen": 162269185,
      "step": 7503,
      "time_per_iteration": 4.30106782913208
    },
    {
      "auxiliary_loss_clip": 0.01053648,
      "auxiliary_loss_mlp": 0.01019053,
      "balance_loss_clip": 1.03415918,
      "balance_loss_mlp": 1.01387906,
      "epoch": 0.9023026513557386,
      "flos": 22129773984000.0,
      "grad_norm": 2.3055197702890347,
      "language_loss": 0.6918354,
      "learning_rate": 9.919103707141885e-08,
      "loss": 0.71256244,
      "num_input_tokens_seen": 162288065,
      "step": 7504,
      "time_per_iteration": 2.615391492843628
    },
    {
      "auxiliary_loss_clip": 0.01073359,
      "auxiliary_loss_mlp": 0.01019676,
      "balance_loss_clip": 1.03392029,
      "balance_loss_mlp": 1.01419282,
      "epoch": 0.9024228942463777,
      "flos": 24200939496960.0,
      "grad_norm": 2.647363823552011,
      "language_loss": 0.76100892,
      "learning_rate": 9.89489081447441e-08,
      "loss": 0.78193927,
      "num_input_tokens_seen": 162305265,
      "step": 7505,
      "time_per_iteration": 2.4999382495880127
    },
    {
      "auxiliary_loss_clip": 0.01069649,
      "auxiliary_loss_mlp": 0.01018947,
      "balance_loss_clip": 1.03512669,
      "balance_loss_mlp": 1.01359773,
      "epoch": 0.9025431371370167,
      "flos": 25010522040960.0,
      "grad_norm": 1.76135642138495,
      "language_loss": 0.83332735,
      "learning_rate": 9.870706760600844e-08,
      "loss": 0.85421324,
      "num_input_tokens_seen": 162325215,
      "step": 7506,
      "time_per_iteration": 2.610125780105591
    },
    {
      "auxiliary_loss_clip": 0.01041004,
      "auxiliary_loss_mlp": 0.01024002,
      "balance_loss_clip": 1.03581917,
      "balance_loss_mlp": 1.01852417,
      "epoch": 0.9026633800276559,
      "flos": 18954852888960.0,
      "grad_norm": 3.9624827506191727,
      "language_loss": 0.72607553,
      "learning_rate": 9.846551549189918e-08,
      "loss": 0.74672568,
      "num_input_tokens_seen": 162344820,
      "step": 7507,
      "time_per_iteration": 2.5631000995635986
    },
    {
      "auxiliary_loss_clip": 0.01064005,
      "auxiliary_loss_mlp": 0.01020421,
      "balance_loss_clip": 1.03434372,
      "balance_loss_mlp": 1.01518798,
      "epoch": 0.902783622918295,
      "flos": 32418797656320.0,
      "grad_norm": 2.268974634799834,
      "language_loss": 0.68719876,
      "learning_rate": 9.822425183905902e-08,
      "loss": 0.70804298,
      "num_input_tokens_seen": 162365345,
      "step": 7508,
      "time_per_iteration": 2.6604673862457275
    },
    {
      "auxiliary_loss_clip": 0.01008671,
      "auxiliary_loss_mlp": 0.01004202,
      "balance_loss_clip": 1.01320767,
      "balance_loss_mlp": 1.00260448,
      "epoch": 0.902903865808934,
      "flos": 63723781388160.0,
      "grad_norm": 0.9133813216821635,
      "language_loss": 0.75119925,
      "learning_rate": 9.798327668408823e-08,
      "loss": 0.77132797,
      "num_input_tokens_seen": 162426980,
      "step": 7509,
      "time_per_iteration": 3.276432991027832
    },
    {
      "auxiliary_loss_clip": 0.01093943,
      "auxiliary_loss_mlp": 0.01021024,
      "balance_loss_clip": 1.03781569,
      "balance_loss_mlp": 1.01589775,
      "epoch": 0.9030241086995732,
      "flos": 23806215475200.0,
      "grad_norm": 2.2481787860830797,
      "language_loss": 0.69007814,
      "learning_rate": 9.774259006354158e-08,
      "loss": 0.71122783,
      "num_input_tokens_seen": 162447050,
      "step": 7510,
      "time_per_iteration": 2.5431902408599854
    },
    {
      "auxiliary_loss_clip": 0.01069208,
      "auxiliary_loss_mlp": 0.01021328,
      "balance_loss_clip": 1.034482,
      "balance_loss_mlp": 1.01613331,
      "epoch": 0.9031443515902122,
      "flos": 26398288615680.0,
      "grad_norm": 1.9698654496422998,
      "language_loss": 0.76386112,
      "learning_rate": 9.750219201393184e-08,
      "loss": 0.78476655,
      "num_input_tokens_seen": 162467015,
      "step": 7511,
      "time_per_iteration": 2.588066816329956
    },
    {
      "auxiliary_loss_clip": 0.01077149,
      "auxiliary_loss_mlp": 0.01016055,
      "balance_loss_clip": 1.03398716,
      "balance_loss_mlp": 1.01070273,
      "epoch": 0.9032645944808513,
      "flos": 24941832295680.0,
      "grad_norm": 1.929861527387801,
      "language_loss": 0.77791649,
      "learning_rate": 9.726208257172697e-08,
      "loss": 0.79884857,
      "num_input_tokens_seen": 162488710,
      "step": 7512,
      "time_per_iteration": 3.3166658878326416
    },
    {
      "auxiliary_loss_clip": 0.01091396,
      "auxiliary_loss_mlp": 0.01018072,
      "balance_loss_clip": 1.03657103,
      "balance_loss_mlp": 1.01279426,
      "epoch": 0.9033848373714904,
      "flos": 21180953963520.0,
      "grad_norm": 2.5743853698951145,
      "language_loss": 0.74659598,
      "learning_rate": 9.702226177335115e-08,
      "loss": 0.76769066,
      "num_input_tokens_seen": 162507205,
      "step": 7513,
      "time_per_iteration": 2.5027825832366943
    },
    {
      "auxiliary_loss_clip": 0.01060344,
      "auxiliary_loss_mlp": 0.01025867,
      "balance_loss_clip": 1.0329423,
      "balance_loss_mlp": 1.02007651,
      "epoch": 0.9035050802621295,
      "flos": 26288751047040.0,
      "grad_norm": 6.38472579726512,
      "language_loss": 0.72528213,
      "learning_rate": 9.67827296551853e-08,
      "loss": 0.74614429,
      "num_input_tokens_seen": 162528490,
      "step": 7514,
      "time_per_iteration": 2.611849784851074
    },
    {
      "auxiliary_loss_clip": 0.01072025,
      "auxiliary_loss_mlp": 0.00756433,
      "balance_loss_clip": 1.0364728,
      "balance_loss_mlp": 1.00168002,
      "epoch": 0.9036253231527686,
      "flos": 24206703045120.0,
      "grad_norm": 2.4121355911777154,
      "language_loss": 0.68126166,
      "learning_rate": 9.65434862535659e-08,
      "loss": 0.69954622,
      "num_input_tokens_seen": 162547860,
      "step": 7515,
      "time_per_iteration": 2.5839107036590576
    },
    {
      "auxiliary_loss_clip": 0.01066126,
      "auxiliary_loss_mlp": 0.01022535,
      "balance_loss_clip": 1.03267384,
      "balance_loss_mlp": 1.01710534,
      "epoch": 0.9037455660434077,
      "flos": 18074343432960.0,
      "grad_norm": 3.7862924233903303,
      "language_loss": 0.65617287,
      "learning_rate": 9.630453160478635e-08,
      "loss": 0.67705947,
      "num_input_tokens_seen": 162563215,
      "step": 7516,
      "time_per_iteration": 2.527486801147461
    },
    {
      "auxiliary_loss_clip": 0.01045879,
      "auxiliary_loss_mlp": 0.01019296,
      "balance_loss_clip": 1.0333786,
      "balance_loss_mlp": 1.0140537,
      "epoch": 0.9038658089340468,
      "flos": 24063067071360.0,
      "grad_norm": 2.5022077236645064,
      "language_loss": 0.8259517,
      "learning_rate": 9.60658657450959e-08,
      "loss": 0.84660339,
      "num_input_tokens_seen": 162583515,
      "step": 7517,
      "time_per_iteration": 2.6432204246520996
    },
    {
      "auxiliary_loss_clip": 0.01059214,
      "auxiliary_loss_mlp": 0.01019908,
      "balance_loss_clip": 1.03089738,
      "balance_loss_mlp": 1.01491594,
      "epoch": 0.9039860518246858,
      "flos": 21836397225600.0,
      "grad_norm": 1.7255419224506663,
      "language_loss": 0.79197299,
      "learning_rate": 9.582748871069979e-08,
      "loss": 0.81276417,
      "num_input_tokens_seen": 162602955,
      "step": 7518,
      "time_per_iteration": 2.5763466358184814
    },
    {
      "auxiliary_loss_clip": 0.01068952,
      "auxiliary_loss_mlp": 0.00756378,
      "balance_loss_clip": 1.03541017,
      "balance_loss_mlp": 1.00168133,
      "epoch": 0.904106294715325,
      "flos": 26617287916800.0,
      "grad_norm": 2.285677562829901,
      "language_loss": 0.83078623,
      "learning_rate": 9.558940053775954e-08,
      "loss": 0.84903955,
      "num_input_tokens_seen": 162621595,
      "step": 7519,
      "time_per_iteration": 2.6121699810028076
    },
    {
      "auxiliary_loss_clip": 0.01077974,
      "auxiliary_loss_mlp": 0.01021585,
      "balance_loss_clip": 1.03603041,
      "balance_loss_mlp": 1.01627707,
      "epoch": 0.904226537605964,
      "flos": 17787640256640.0,
      "grad_norm": 2.715230896833121,
      "language_loss": 0.67853892,
      "learning_rate": 9.535160126239294e-08,
      "loss": 0.69953454,
      "num_input_tokens_seen": 162638220,
      "step": 7520,
      "time_per_iteration": 2.5485124588012695
    },
    {
      "auxiliary_loss_clip": 0.01078364,
      "auxiliary_loss_mlp": 0.01022092,
      "balance_loss_clip": 1.03631127,
      "balance_loss_mlp": 1.01688242,
      "epoch": 0.9043467804966031,
      "flos": 24792736118400.0,
      "grad_norm": 1.5186880756801717,
      "language_loss": 0.70873773,
      "learning_rate": 9.511409092067424e-08,
      "loss": 0.72974229,
      "num_input_tokens_seen": 162658575,
      "step": 7521,
      "time_per_iteration": 2.5739686489105225
    },
    {
      "auxiliary_loss_clip": 0.01067525,
      "auxiliary_loss_mlp": 0.01018559,
      "balance_loss_clip": 1.03528595,
      "balance_loss_mlp": 1.01328397,
      "epoch": 0.9044670233872423,
      "flos": 22633997656320.0,
      "grad_norm": 2.894403580197935,
      "language_loss": 0.67520237,
      "learning_rate": 9.487686954863327e-08,
      "loss": 0.69606322,
      "num_input_tokens_seen": 162678295,
      "step": 7522,
      "time_per_iteration": 2.5647103786468506
    },
    {
      "auxiliary_loss_clip": 0.01079127,
      "auxiliary_loss_mlp": 0.0101992,
      "balance_loss_clip": 1.03553534,
      "balance_loss_mlp": 1.01499653,
      "epoch": 0.9045872662778813,
      "flos": 23773709629440.0,
      "grad_norm": 2.660481510811762,
      "language_loss": 0.77221739,
      "learning_rate": 9.46399371822566e-08,
      "loss": 0.79320782,
      "num_input_tokens_seen": 162698070,
      "step": 7523,
      "time_per_iteration": 2.5635602474212646
    },
    {
      "auxiliary_loss_clip": 0.01093305,
      "auxiliary_loss_mlp": 0.01018428,
      "balance_loss_clip": 1.03818595,
      "balance_loss_mlp": 1.01314378,
      "epoch": 0.9047075091685204,
      "flos": 15192609505920.0,
      "grad_norm": 2.076433778254195,
      "language_loss": 0.72822428,
      "learning_rate": 9.440329385748657e-08,
      "loss": 0.74934155,
      "num_input_tokens_seen": 162715140,
      "step": 7524,
      "time_per_iteration": 2.4691381454467773
    },
    {
      "auxiliary_loss_clip": 0.01057472,
      "auxiliary_loss_mlp": 0.0101579,
      "balance_loss_clip": 1.03507864,
      "balance_loss_mlp": 1.01095283,
      "epoch": 0.9048277520591596,
      "flos": 18005615769600.0,
      "grad_norm": 1.7637106399581377,
      "language_loss": 0.71041471,
      "learning_rate": 9.416693961022137e-08,
      "loss": 0.73114735,
      "num_input_tokens_seen": 162733390,
      "step": 7525,
      "time_per_iteration": 2.5577898025512695
    },
    {
      "auxiliary_loss_clip": 0.01027064,
      "auxiliary_loss_mlp": 0.0101977,
      "balance_loss_clip": 1.02832031,
      "balance_loss_mlp": 1.01454866,
      "epoch": 0.9049479949497986,
      "flos": 21874666619520.0,
      "grad_norm": 2.363204454066774,
      "language_loss": 0.76858306,
      "learning_rate": 9.393087447631654e-08,
      "loss": 0.78905141,
      "num_input_tokens_seen": 162751670,
      "step": 7526,
      "time_per_iteration": 2.636791944503784
    },
    {
      "auxiliary_loss_clip": 0.01062639,
      "auxiliary_loss_mlp": 0.01016308,
      "balance_loss_clip": 1.03447318,
      "balance_loss_mlp": 1.01160192,
      "epoch": 0.9050682378404377,
      "flos": 20775840387840.0,
      "grad_norm": 2.4588480845413287,
      "language_loss": 0.73034585,
      "learning_rate": 9.36950984915823e-08,
      "loss": 0.75113529,
      "num_input_tokens_seen": 162770025,
      "step": 7527,
      "time_per_iteration": 2.565415143966675
    },
    {
      "auxiliary_loss_clip": 0.01092665,
      "auxiliary_loss_mlp": 0.01018249,
      "balance_loss_clip": 1.03791654,
      "balance_loss_mlp": 1.01296473,
      "epoch": 0.9051884807310768,
      "flos": 21582161976960.0,
      "grad_norm": 1.7896766274577427,
      "language_loss": 0.69291234,
      "learning_rate": 9.345961169178607e-08,
      "loss": 0.71402156,
      "num_input_tokens_seen": 162789710,
      "step": 7528,
      "time_per_iteration": 2.5077030658721924
    },
    {
      "auxiliary_loss_clip": 0.01045591,
      "auxiliary_loss_mlp": 0.0102025,
      "balance_loss_clip": 1.03421903,
      "balance_loss_mlp": 1.01523161,
      "epoch": 0.9053087236217159,
      "flos": 21910205911680.0,
      "grad_norm": 1.6077299382079633,
      "language_loss": 0.72938931,
      "learning_rate": 9.322441411265081e-08,
      "loss": 0.75004768,
      "num_input_tokens_seen": 162810695,
      "step": 7529,
      "time_per_iteration": 4.99780011177063
    },
    {
      "auxiliary_loss_clip": 0.01069666,
      "auxiliary_loss_mlp": 0.01020752,
      "balance_loss_clip": 1.03708732,
      "balance_loss_mlp": 1.01574826,
      "epoch": 0.9054289665123549,
      "flos": 17057705783040.0,
      "grad_norm": 2.5577087161804197,
      "language_loss": 0.73287177,
      "learning_rate": 9.298950578985554e-08,
      "loss": 0.75377595,
      "num_input_tokens_seen": 162827770,
      "step": 7530,
      "time_per_iteration": 2.5552425384521484
    },
    {
      "auxiliary_loss_clip": 0.01071761,
      "auxiliary_loss_mlp": 0.00756802,
      "balance_loss_clip": 1.03475392,
      "balance_loss_mlp": 1.00153804,
      "epoch": 0.905549209402994,
      "flos": 20779366769280.0,
      "grad_norm": 1.6268614433323665,
      "language_loss": 0.7093603,
      "learning_rate": 9.275488675903665e-08,
      "loss": 0.72764587,
      "num_input_tokens_seen": 162846715,
      "step": 7531,
      "time_per_iteration": 2.511352300643921
    },
    {
      "auxiliary_loss_clip": 0.01039068,
      "auxiliary_loss_mlp": 0.01016776,
      "balance_loss_clip": 1.03474092,
      "balance_loss_mlp": 1.01142085,
      "epoch": 0.9056694522936332,
      "flos": 21688817771520.0,
      "grad_norm": 2.0409278374857815,
      "language_loss": 0.73698485,
      "learning_rate": 9.252055705578454e-08,
      "loss": 0.75754333,
      "num_input_tokens_seen": 162866215,
      "step": 7532,
      "time_per_iteration": 2.6719913482666016
    },
    {
      "auxiliary_loss_clip": 0.01079516,
      "auxiliary_loss_mlp": 0.01021309,
      "balance_loss_clip": 1.03536606,
      "balance_loss_mlp": 1.01643312,
      "epoch": 0.9057896951842722,
      "flos": 29571655069440.0,
      "grad_norm": 1.6274353594033573,
      "language_loss": 0.72421527,
      "learning_rate": 9.228651671564747e-08,
      "loss": 0.74522346,
      "num_input_tokens_seen": 162888245,
      "step": 7533,
      "time_per_iteration": 2.557356119155884
    },
    {
      "auxiliary_loss_clip": 0.01035967,
      "auxiliary_loss_mlp": 0.01020021,
      "balance_loss_clip": 1.03273654,
      "balance_loss_mlp": 1.01479983,
      "epoch": 0.9059099380749113,
      "flos": 27894758561280.0,
      "grad_norm": 1.4501562081195298,
      "language_loss": 0.77956253,
      "learning_rate": 9.205276577412901e-08,
      "loss": 0.8001225,
      "num_input_tokens_seen": 162911025,
      "step": 7534,
      "time_per_iteration": 2.6924314498901367
    },
    {
      "auxiliary_loss_clip": 0.01070844,
      "auxiliary_loss_mlp": 0.00756467,
      "balance_loss_clip": 1.0351063,
      "balance_loss_mlp": 1.00163519,
      "epoch": 0.9060301809655504,
      "flos": 17750925504000.0,
      "grad_norm": 2.777426927295496,
      "language_loss": 0.76716769,
      "learning_rate": 9.181930426668905e-08,
      "loss": 0.7854408,
      "num_input_tokens_seen": 162927820,
      "step": 7535,
      "time_per_iteration": 2.524400234222412
    },
    {
      "auxiliary_loss_clip": 0.01040164,
      "auxiliary_loss_mlp": 0.01021204,
      "balance_loss_clip": 1.03714085,
      "balance_loss_mlp": 1.0163548,
      "epoch": 0.9061504238561895,
      "flos": 31762141015680.0,
      "grad_norm": 1.8426860939056986,
      "language_loss": 0.67830586,
      "learning_rate": 9.158613222874346e-08,
      "loss": 0.69891953,
      "num_input_tokens_seen": 162949445,
      "step": 7536,
      "time_per_iteration": 2.7057366371154785
    },
    {
      "auxiliary_loss_clip": 0.01065694,
      "auxiliary_loss_mlp": 0.01015857,
      "balance_loss_clip": 1.03405368,
      "balance_loss_mlp": 1.01078153,
      "epoch": 0.9062706667468285,
      "flos": 20050152739200.0,
      "grad_norm": 1.6006571209616363,
      "language_loss": 0.82009077,
      "learning_rate": 9.135324969566394e-08,
      "loss": 0.84090626,
      "num_input_tokens_seen": 162968945,
      "step": 7537,
      "time_per_iteration": 2.5364973545074463
    },
    {
      "auxiliary_loss_clip": 0.01082746,
      "auxiliary_loss_mlp": 0.01020672,
      "balance_loss_clip": 1.03696585,
      "balance_loss_mlp": 1.01544487,
      "epoch": 0.9063909096374677,
      "flos": 18438988366080.0,
      "grad_norm": 3.7595529210565335,
      "language_loss": 0.75837922,
      "learning_rate": 9.112065670277913e-08,
      "loss": 0.7794134,
      "num_input_tokens_seen": 162985310,
      "step": 7538,
      "time_per_iteration": 3.1957015991210938
    },
    {
      "auxiliary_loss_clip": 0.01067895,
      "auxiliary_loss_mlp": 0.01019505,
      "balance_loss_clip": 1.03438663,
      "balance_loss_mlp": 1.01460898,
      "epoch": 0.9065111525281068,
      "flos": 33550167651840.0,
      "grad_norm": 2.241730456150714,
      "language_loss": 0.73328096,
      "learning_rate": 9.088835328537303e-08,
      "loss": 0.75415504,
      "num_input_tokens_seen": 163006900,
      "step": 7539,
      "time_per_iteration": 2.696105480194092
    },
    {
      "auxiliary_loss_clip": 0.01069951,
      "auxiliary_loss_mlp": 0.01017199,
      "balance_loss_clip": 1.03604126,
      "balance_loss_mlp": 1.01181412,
      "epoch": 0.9066313954187458,
      "flos": 23370112776960.0,
      "grad_norm": 4.112009556179753,
      "language_loss": 0.7121346,
      "learning_rate": 9.065633947868568e-08,
      "loss": 0.73300612,
      "num_input_tokens_seen": 163026505,
      "step": 7540,
      "time_per_iteration": 2.575265884399414
    },
    {
      "auxiliary_loss_clip": 0.01052965,
      "auxiliary_loss_mlp": 0.00756661,
      "balance_loss_clip": 1.03397572,
      "balance_loss_mlp": 1.00158215,
      "epoch": 0.906751638309385,
      "flos": 26251998376320.0,
      "grad_norm": 2.450792100623219,
      "language_loss": 0.80163682,
      "learning_rate": 9.042461531791379e-08,
      "loss": 0.81973308,
      "num_input_tokens_seen": 163044925,
      "step": 7541,
      "time_per_iteration": 2.6182875633239746
    },
    {
      "auxiliary_loss_clip": 0.01089126,
      "auxiliary_loss_mlp": 0.0102043,
      "balance_loss_clip": 1.03539181,
      "balance_loss_mlp": 1.01551509,
      "epoch": 0.906871881200024,
      "flos": 16546315593600.0,
      "grad_norm": 1.7675694267964785,
      "language_loss": 0.78154159,
      "learning_rate": 9.019318083820903e-08,
      "loss": 0.8026371,
      "num_input_tokens_seen": 163063505,
      "step": 7542,
      "time_per_iteration": 2.4645535945892334
    },
    {
      "auxiliary_loss_clip": 0.01078123,
      "auxiliary_loss_mlp": 0.01023277,
      "balance_loss_clip": 1.03644872,
      "balance_loss_mlp": 1.01803446,
      "epoch": 0.9069921240906631,
      "flos": 24607266451200.0,
      "grad_norm": 1.8062395306944947,
      "language_loss": 0.85557318,
      "learning_rate": 8.996203607468045e-08,
      "loss": 0.87658721,
      "num_input_tokens_seen": 163082505,
      "step": 7543,
      "time_per_iteration": 2.582021474838257
    },
    {
      "auxiliary_loss_clip": 0.01082373,
      "auxiliary_loss_mlp": 0.01021738,
      "balance_loss_clip": 1.03550172,
      "balance_loss_mlp": 1.01663017,
      "epoch": 0.9071123669813023,
      "flos": 25377100796160.0,
      "grad_norm": 1.6587423498223344,
      "language_loss": 0.75635409,
      "learning_rate": 8.973118106239241e-08,
      "loss": 0.77739525,
      "num_input_tokens_seen": 163105110,
      "step": 7544,
      "time_per_iteration": 2.6075220108032227
    },
    {
      "auxiliary_loss_clip": 0.01033963,
      "auxiliary_loss_mlp": 0.0102139,
      "balance_loss_clip": 1.03073239,
      "balance_loss_mlp": 1.01598072,
      "epoch": 0.9072326098719413,
      "flos": 26728304290560.0,
      "grad_norm": 1.9481738113210803,
      "language_loss": 0.94863701,
      "learning_rate": 8.95006158363656e-08,
      "loss": 0.96919054,
      "num_input_tokens_seen": 163125295,
      "step": 7545,
      "time_per_iteration": 2.7051312923431396
    },
    {
      "auxiliary_loss_clip": 0.01075274,
      "auxiliary_loss_mlp": 0.010229,
      "balance_loss_clip": 1.03702617,
      "balance_loss_mlp": 1.01741672,
      "epoch": 0.9073528527625804,
      "flos": 23881085867520.0,
      "grad_norm": 2.077668835762957,
      "language_loss": 0.77047801,
      "learning_rate": 8.9270340431576e-08,
      "loss": 0.79145968,
      "num_input_tokens_seen": 163144385,
      "step": 7546,
      "time_per_iteration": 2.5401039123535156
    },
    {
      "auxiliary_loss_clip": 0.01078834,
      "auxiliary_loss_mlp": 0.0102068,
      "balance_loss_clip": 1.0341773,
      "balance_loss_mlp": 1.0154469,
      "epoch": 0.9074730956532195,
      "flos": 37855169527680.0,
      "grad_norm": 2.1057014071131723,
      "language_loss": 0.73671615,
      "learning_rate": 8.904035488295658e-08,
      "loss": 0.75771129,
      "num_input_tokens_seen": 163163885,
      "step": 7547,
      "time_per_iteration": 2.6534929275512695
    },
    {
      "auxiliary_loss_clip": 0.01030322,
      "auxiliary_loss_mlp": 0.00752462,
      "balance_loss_clip": 1.01525831,
      "balance_loss_mlp": 1.00090647,
      "epoch": 0.9075933385438586,
      "flos": 65179517264640.0,
      "grad_norm": 0.6651741260814271,
      "language_loss": 0.53245032,
      "learning_rate": 8.881065922539632e-08,
      "loss": 0.55027819,
      "num_input_tokens_seen": 163224325,
      "step": 7548,
      "time_per_iteration": 3.0582308769226074
    },
    {
      "auxiliary_loss_clip": 0.01045209,
      "auxiliary_loss_mlp": 0.01017523,
      "balance_loss_clip": 1.02965498,
      "balance_loss_mlp": 1.01276028,
      "epoch": 0.9077135814344977,
      "flos": 19933259063040.0,
      "grad_norm": 1.7228899741615182,
      "language_loss": 0.72971386,
      "learning_rate": 8.85812534937389e-08,
      "loss": 0.75034118,
      "num_input_tokens_seen": 163242425,
      "step": 7549,
      "time_per_iteration": 2.56819486618042
    },
    {
      "auxiliary_loss_clip": 0.01077625,
      "auxiliary_loss_mlp": 0.01021605,
      "balance_loss_clip": 1.03677309,
      "balance_loss_mlp": 1.01601124,
      "epoch": 0.9078338243251368,
      "flos": 17531547022080.0,
      "grad_norm": 2.8433985974477576,
      "language_loss": 0.68261176,
      "learning_rate": 8.835213772278583e-08,
      "loss": 0.7036041,
      "num_input_tokens_seen": 163259280,
      "step": 7550,
      "time_per_iteration": 2.4949910640716553
    },
    {
      "auxiliary_loss_clip": 0.01044752,
      "auxiliary_loss_mlp": 0.01016379,
      "balance_loss_clip": 1.03311658,
      "balance_loss_mlp": 1.01122308,
      "epoch": 0.9079540672157759,
      "flos": 28805915877120.0,
      "grad_norm": 1.6672024399018337,
      "language_loss": 0.79051048,
      "learning_rate": 8.812331194729373e-08,
      "loss": 0.81112176,
      "num_input_tokens_seen": 163278925,
      "step": 7551,
      "time_per_iteration": 2.6367135047912598
    },
    {
      "auxiliary_loss_clip": 0.01095298,
      "auxiliary_loss_mlp": 0.01022028,
      "balance_loss_clip": 1.04013705,
      "balance_loss_mlp": 1.01662159,
      "epoch": 0.9080743101064149,
      "flos": 23516099671680.0,
      "grad_norm": 5.908622959024367,
      "language_loss": 0.722736,
      "learning_rate": 8.789477620197461e-08,
      "loss": 0.74390924,
      "num_input_tokens_seen": 163298450,
      "step": 7552,
      "time_per_iteration": 2.5157957077026367
    },
    {
      "auxiliary_loss_clip": 0.01068904,
      "auxiliary_loss_mlp": 0.01020591,
      "balance_loss_clip": 1.03576195,
      "balance_loss_mlp": 1.01539385,
      "epoch": 0.9081945529970541,
      "flos": 22779984551040.0,
      "grad_norm": 3.5593259319956174,
      "language_loss": 0.78883874,
      "learning_rate": 8.766653052149831e-08,
      "loss": 0.80973363,
      "num_input_tokens_seen": 163313635,
      "step": 7553,
      "time_per_iteration": 2.528064489364624
    },
    {
      "auxiliary_loss_clip": 0.01064675,
      "auxiliary_loss_mlp": 0.01020648,
      "balance_loss_clip": 1.03410745,
      "balance_loss_mlp": 1.01516151,
      "epoch": 0.9083147958876931,
      "flos": 18875356490880.0,
      "grad_norm": 2.542482167945167,
      "language_loss": 0.74480814,
      "learning_rate": 8.743857494048823e-08,
      "loss": 0.76566136,
      "num_input_tokens_seen": 163330450,
      "step": 7554,
      "time_per_iteration": 3.308764934539795
    },
    {
      "auxiliary_loss_clip": 0.01051037,
      "auxiliary_loss_mlp": 0.01019393,
      "balance_loss_clip": 1.03111243,
      "balance_loss_mlp": 1.01413834,
      "epoch": 0.9084350387783322,
      "flos": 18910971619200.0,
      "grad_norm": 2.425555693294321,
      "language_loss": 0.62679905,
      "learning_rate": 8.721090949352605e-08,
      "loss": 0.64750338,
      "num_input_tokens_seen": 163346690,
      "step": 7555,
      "time_per_iteration": 4.091597318649292
    },
    {
      "auxiliary_loss_clip": 0.01079538,
      "auxiliary_loss_mlp": 0.01021363,
      "balance_loss_clip": 1.03721893,
      "balance_loss_mlp": 1.01592124,
      "epoch": 0.9085552816689714,
      "flos": 20597613073920.0,
      "grad_norm": 2.036223466207237,
      "language_loss": 0.72904193,
      "learning_rate": 8.698353421514793e-08,
      "loss": 0.7500509,
      "num_input_tokens_seen": 163365065,
      "step": 7556,
      "time_per_iteration": 2.536851406097412
    },
    {
      "auxiliary_loss_clip": 0.0107848,
      "auxiliary_loss_mlp": 0.01021521,
      "balance_loss_clip": 1.03510427,
      "balance_loss_mlp": 1.01669574,
      "epoch": 0.9086755245596104,
      "flos": 18115077502080.0,
      "grad_norm": 2.9809907962863864,
      "language_loss": 0.8072902,
      "learning_rate": 8.67564491398467e-08,
      "loss": 0.82829022,
      "num_input_tokens_seen": 163382070,
      "step": 7557,
      "time_per_iteration": 2.4662678241729736
    },
    {
      "auxiliary_loss_clip": 0.01080457,
      "auxiliary_loss_mlp": 0.01020901,
      "balance_loss_clip": 1.03559589,
      "balance_loss_mlp": 1.01537824,
      "epoch": 0.9087957674502495,
      "flos": 19131487643520.0,
      "grad_norm": 1.808915229197957,
      "language_loss": 0.73835254,
      "learning_rate": 8.652965430207104e-08,
      "loss": 0.75936615,
      "num_input_tokens_seen": 163399975,
      "step": 7558,
      "time_per_iteration": 2.522987127304077
    },
    {
      "auxiliary_loss_clip": 0.01079757,
      "auxiliary_loss_mlp": 0.01021318,
      "balance_loss_clip": 1.03517544,
      "balance_loss_mlp": 1.01610541,
      "epoch": 0.9089160103408886,
      "flos": 18111664874880.0,
      "grad_norm": 3.430331227645915,
      "language_loss": 0.6555869,
      "learning_rate": 8.630314973622521e-08,
      "loss": 0.6765976,
      "num_input_tokens_seen": 163417520,
      "step": 7559,
      "time_per_iteration": 2.475321054458618
    },
    {
      "auxiliary_loss_clip": 0.01076887,
      "auxiliary_loss_mlp": 0.01019759,
      "balance_loss_clip": 1.03602922,
      "balance_loss_mlp": 1.01484489,
      "epoch": 0.9090362532315277,
      "flos": 33367655594880.0,
      "grad_norm": 3.5734854723128913,
      "language_loss": 0.70953202,
      "learning_rate": 8.607693547666995e-08,
      "loss": 0.73049849,
      "num_input_tokens_seen": 163440060,
      "step": 7560,
      "time_per_iteration": 2.637920379638672
    },
    {
      "auxiliary_loss_clip": 0.01010415,
      "auxiliary_loss_mlp": 0.0100292,
      "balance_loss_clip": 1.01438093,
      "balance_loss_mlp": 1.00113201,
      "epoch": 0.9091564961221668,
      "flos": 71486881153920.0,
      "grad_norm": 0.8826093108489673,
      "language_loss": 0.57867372,
      "learning_rate": 8.585101155772201e-08,
      "loss": 0.5988071,
      "num_input_tokens_seen": 163502180,
      "step": 7561,
      "time_per_iteration": 3.27158260345459
    },
    {
      "auxiliary_loss_clip": 0.01071926,
      "auxiliary_loss_mlp": 0.01020039,
      "balance_loss_clip": 1.03535259,
      "balance_loss_mlp": 1.01502347,
      "epoch": 0.9092767390128058,
      "flos": 24714604771200.0,
      "grad_norm": 1.9150831754311104,
      "language_loss": 0.68278688,
      "learning_rate": 8.562537801365377e-08,
      "loss": 0.70370656,
      "num_input_tokens_seen": 163521915,
      "step": 7562,
      "time_per_iteration": 2.591949224472046
    },
    {
      "auxiliary_loss_clip": 0.01091817,
      "auxiliary_loss_mlp": 0.01023253,
      "balance_loss_clip": 1.03686452,
      "balance_loss_mlp": 1.01809692,
      "epoch": 0.909396981903445,
      "flos": 23588732897280.0,
      "grad_norm": 1.7692769100300925,
      "language_loss": 0.70083523,
      "learning_rate": 8.540003487869362e-08,
      "loss": 0.721986,
      "num_input_tokens_seen": 163543585,
      "step": 7563,
      "time_per_iteration": 2.550233840942383
    },
    {
      "auxiliary_loss_clip": 0.01048421,
      "auxiliary_loss_mlp": 0.01020717,
      "balance_loss_clip": 1.03203273,
      "balance_loss_mlp": 1.01531959,
      "epoch": 0.909517224794084,
      "flos": 23406410430720.0,
      "grad_norm": 3.57947959838252,
      "language_loss": 0.79926074,
      "learning_rate": 8.517498218702557e-08,
      "loss": 0.81995213,
      "num_input_tokens_seen": 163561515,
      "step": 7564,
      "time_per_iteration": 3.319340229034424
    },
    {
      "auxiliary_loss_clip": 0.01058043,
      "auxiliary_loss_mlp": 0.01015342,
      "balance_loss_clip": 1.03421664,
      "balance_loss_mlp": 1.01030588,
      "epoch": 0.9096374676847231,
      "flos": 19210642778880.0,
      "grad_norm": 1.6716368331673845,
      "language_loss": 0.69732845,
      "learning_rate": 8.49502199727905e-08,
      "loss": 0.71806234,
      "num_input_tokens_seen": 163579540,
      "step": 7565,
      "time_per_iteration": 2.6323156356811523
    },
    {
      "auxiliary_loss_clip": 0.01081236,
      "auxiliary_loss_mlp": 0.01019995,
      "balance_loss_clip": 1.03494716,
      "balance_loss_mlp": 1.01454759,
      "epoch": 0.9097577105753623,
      "flos": 33295325713920.0,
      "grad_norm": 2.2719002390190526,
      "language_loss": 0.65874201,
      "learning_rate": 8.472574827008428e-08,
      "loss": 0.67975432,
      "num_input_tokens_seen": 163600425,
      "step": 7566,
      "time_per_iteration": 2.6290841102600098
    },
    {
      "auxiliary_loss_clip": 0.01077073,
      "auxiliary_loss_mlp": 0.01019651,
      "balance_loss_clip": 1.03388178,
      "balance_loss_mlp": 1.01458502,
      "epoch": 0.9098779534660013,
      "flos": 21908499598080.0,
      "grad_norm": 2.143628636154475,
      "language_loss": 0.83934569,
      "learning_rate": 8.450156711295942e-08,
      "loss": 0.86031294,
      "num_input_tokens_seen": 163620595,
      "step": 7567,
      "time_per_iteration": 2.538928985595703
    },
    {
      "auxiliary_loss_clip": 0.01067714,
      "auxiliary_loss_mlp": 0.01021736,
      "balance_loss_clip": 1.03764641,
      "balance_loss_mlp": 1.01656795,
      "epoch": 0.9099981963566404,
      "flos": 25732228291200.0,
      "grad_norm": 2.0763809510586464,
      "language_loss": 0.86467671,
      "learning_rate": 8.427767653542383e-08,
      "loss": 0.88557124,
      "num_input_tokens_seen": 163635765,
      "step": 7568,
      "time_per_iteration": 2.5950307846069336
    },
    {
      "auxiliary_loss_clip": 0.01042342,
      "auxiliary_loss_mlp": 0.01020871,
      "balance_loss_clip": 1.03290844,
      "balance_loss_mlp": 1.01600409,
      "epoch": 0.9101184392472795,
      "flos": 21071568067200.0,
      "grad_norm": 4.386762102299091,
      "language_loss": 0.70257753,
      "learning_rate": 8.405407657144125e-08,
      "loss": 0.72320968,
      "num_input_tokens_seen": 163654925,
      "step": 7569,
      "time_per_iteration": 2.632193088531494
    },
    {
      "auxiliary_loss_clip": 0.01068647,
      "auxiliary_loss_mlp": 0.01019161,
      "balance_loss_clip": 1.03476429,
      "balance_loss_mlp": 1.01411808,
      "epoch": 0.9102386821379186,
      "flos": 24754845905280.0,
      "grad_norm": 2.1177811994167546,
      "language_loss": 0.72700787,
      "learning_rate": 8.383076725493232e-08,
      "loss": 0.74788594,
      "num_input_tokens_seen": 163672245,
      "step": 7570,
      "time_per_iteration": 2.573939323425293
    },
    {
      "auxiliary_loss_clip": 0.0107884,
      "auxiliary_loss_mlp": 0.01015479,
      "balance_loss_clip": 1.03532898,
      "balance_loss_mlp": 1.01042438,
      "epoch": 0.9103589250285576,
      "flos": 22564890812160.0,
      "grad_norm": 2.679370305912091,
      "language_loss": 0.68467546,
      "learning_rate": 8.360774861977216e-08,
      "loss": 0.70561862,
      "num_input_tokens_seen": 163691365,
      "step": 7571,
      "time_per_iteration": 2.5186543464660645
    },
    {
      "auxiliary_loss_clip": 0.0107072,
      "auxiliary_loss_mlp": 0.01017212,
      "balance_loss_clip": 1.03470182,
      "balance_loss_mlp": 1.01227093,
      "epoch": 0.9104791679191968,
      "flos": 25375773663360.0,
      "grad_norm": 1.689204316490507,
      "language_loss": 0.74853337,
      "learning_rate": 8.338502069979281e-08,
      "loss": 0.76941264,
      "num_input_tokens_seen": 163711675,
      "step": 7572,
      "time_per_iteration": 2.5967490673065186
    },
    {
      "auxiliary_loss_clip": 0.01081134,
      "auxiliary_loss_mlp": 0.01022278,
      "balance_loss_clip": 1.0352807,
      "balance_loss_mlp": 1.0169611,
      "epoch": 0.9105994108098359,
      "flos": 14428311200640.0,
      "grad_norm": 2.9525995129323377,
      "language_loss": 0.79811078,
      "learning_rate": 8.316258352878214e-08,
      "loss": 0.81914485,
      "num_input_tokens_seen": 163728095,
      "step": 7573,
      "time_per_iteration": 2.4932992458343506
    },
    {
      "auxiliary_loss_clip": 0.0108067,
      "auxiliary_loss_mlp": 0.01019398,
      "balance_loss_clip": 1.03499675,
      "balance_loss_mlp": 1.01411974,
      "epoch": 0.9107196537004749,
      "flos": 26720379411840.0,
      "grad_norm": 2.0059242022885604,
      "language_loss": 0.71494961,
      "learning_rate": 8.294043714048338e-08,
      "loss": 0.73595035,
      "num_input_tokens_seen": 163747175,
      "step": 7574,
      "time_per_iteration": 2.5939981937408447
    },
    {
      "auxiliary_loss_clip": 0.01021201,
      "auxiliary_loss_mlp": 0.01001847,
      "balance_loss_clip": 1.01550055,
      "balance_loss_mlp": 1.00018966,
      "epoch": 0.9108398965911141,
      "flos": 66539441917440.0,
      "grad_norm": 0.7517334101492117,
      "language_loss": 0.60470784,
      "learning_rate": 8.271858156859624e-08,
      "loss": 0.62493831,
      "num_input_tokens_seen": 163812545,
      "step": 7575,
      "time_per_iteration": 3.2149322032928467
    },
    {
      "auxiliary_loss_clip": 0.0109138,
      "auxiliary_loss_mlp": 0.01016645,
      "balance_loss_clip": 1.03710628,
      "balance_loss_mlp": 1.01150131,
      "epoch": 0.9109601394817531,
      "flos": 25413436368000.0,
      "grad_norm": 1.756889690971273,
      "language_loss": 0.73947692,
      "learning_rate": 8.249701684677557e-08,
      "loss": 0.76055717,
      "num_input_tokens_seen": 163833870,
      "step": 7576,
      "time_per_iteration": 2.5527849197387695
    },
    {
      "auxiliary_loss_clip": 0.01080209,
      "auxiliary_loss_mlp": 0.01017483,
      "balance_loss_clip": 1.03742707,
      "balance_loss_mlp": 1.01255703,
      "epoch": 0.9110803823723922,
      "flos": 22750019216640.0,
      "grad_norm": 2.0004271192435614,
      "language_loss": 0.81153822,
      "learning_rate": 8.227574300863294e-08,
      "loss": 0.83251512,
      "num_input_tokens_seen": 163854040,
      "step": 7577,
      "time_per_iteration": 2.5194573402404785
    },
    {
      "auxiliary_loss_clip": 0.0106769,
      "auxiliary_loss_mlp": 0.01018395,
      "balance_loss_clip": 1.03558695,
      "balance_loss_mlp": 1.01306939,
      "epoch": 0.9112006252630314,
      "flos": 48473564267520.0,
      "grad_norm": 2.134339353599202,
      "language_loss": 0.69490767,
      "learning_rate": 8.205476008773548e-08,
      "loss": 0.71576858,
      "num_input_tokens_seen": 163878040,
      "step": 7578,
      "time_per_iteration": 2.8070621490478516
    },
    {
      "auxiliary_loss_clip": 0.0104297,
      "auxiliary_loss_mlp": 0.01021228,
      "balance_loss_clip": 1.02826405,
      "balance_loss_mlp": 1.01605177,
      "epoch": 0.9113208681536704,
      "flos": 30012345855360.0,
      "grad_norm": 2.2699799144511053,
      "language_loss": 0.82350147,
      "learning_rate": 8.183406811760596e-08,
      "loss": 0.84414339,
      "num_input_tokens_seen": 163897770,
      "step": 7579,
      "time_per_iteration": 2.6317408084869385
    },
    {
      "auxiliary_loss_clip": 0.01051974,
      "auxiliary_loss_mlp": 0.01017687,
      "balance_loss_clip": 1.03026378,
      "balance_loss_mlp": 1.01261759,
      "epoch": 0.9114411110443095,
      "flos": 25597427230080.0,
      "grad_norm": 1.95550199379757,
      "language_loss": 0.74218476,
      "learning_rate": 8.161366713172313e-08,
      "loss": 0.76288128,
      "num_input_tokens_seen": 163920160,
      "step": 7580,
      "time_per_iteration": 4.135521650314331
    },
    {
      "auxiliary_loss_clip": 0.01062089,
      "auxiliary_loss_mlp": 0.01021993,
      "balance_loss_clip": 1.03569198,
      "balance_loss_mlp": 1.01674223,
      "epoch": 0.9115613539349486,
      "flos": 18401363579520.0,
      "grad_norm": 3.348376155239278,
      "language_loss": 0.84730136,
      "learning_rate": 8.139355716352137e-08,
      "loss": 0.86814225,
      "num_input_tokens_seen": 163935000,
      "step": 7581,
      "time_per_iteration": 3.3082187175750732
    },
    {
      "auxiliary_loss_clip": 0.01066288,
      "auxiliary_loss_mlp": 0.0102139,
      "balance_loss_clip": 1.03535354,
      "balance_loss_mlp": 1.01581669,
      "epoch": 0.9116815968255877,
      "flos": 21728338462080.0,
      "grad_norm": 1.6114973443006098,
      "language_loss": 0.69950509,
      "learning_rate": 8.117373824639196e-08,
      "loss": 0.72038186,
      "num_input_tokens_seen": 163955265,
      "step": 7582,
      "time_per_iteration": 2.5493528842926025
    },
    {
      "auxiliary_loss_clip": 0.01041001,
      "auxiliary_loss_mlp": 0.01002982,
      "balance_loss_clip": 1.01605678,
      "balance_loss_mlp": 1.00133646,
      "epoch": 0.9118018397162267,
      "flos": 65370181708800.0,
      "grad_norm": 0.7202086616258662,
      "language_loss": 0.59227407,
      "learning_rate": 8.095421041368067e-08,
      "loss": 0.61271381,
      "num_input_tokens_seen": 164014680,
      "step": 7583,
      "time_per_iteration": 3.018584966659546
    },
    {
      "auxiliary_loss_clip": 0.0106453,
      "auxiliary_loss_mlp": 0.00756696,
      "balance_loss_clip": 1.0341084,
      "balance_loss_mlp": 1.0017457,
      "epoch": 0.9119220826068659,
      "flos": 20924974483200.0,
      "grad_norm": 1.738516200329877,
      "language_loss": 0.70756161,
      "learning_rate": 8.073497369868999e-08,
      "loss": 0.72577393,
      "num_input_tokens_seen": 164033140,
      "step": 7584,
      "time_per_iteration": 2.562640905380249
    },
    {
      "auxiliary_loss_clip": 0.01070659,
      "auxiliary_loss_mlp": 0.0101926,
      "balance_loss_clip": 1.03593397,
      "balance_loss_mlp": 1.01390183,
      "epoch": 0.912042325497505,
      "flos": 28368978981120.0,
      "grad_norm": 1.6600438093169727,
      "language_loss": 0.75570911,
      "learning_rate": 8.051602813467772e-08,
      "loss": 0.77660835,
      "num_input_tokens_seen": 164054995,
      "step": 7585,
      "time_per_iteration": 2.634577512741089
    },
    {
      "auxiliary_loss_clip": 0.01082784,
      "auxiliary_loss_mlp": 0.01018354,
      "balance_loss_clip": 1.0377624,
      "balance_loss_mlp": 1.01334763,
      "epoch": 0.912162568388144,
      "flos": 17568716791680.0,
      "grad_norm": 1.731643806427859,
      "language_loss": 0.71925616,
      "learning_rate": 8.029737375485756e-08,
      "loss": 0.74026752,
      "num_input_tokens_seen": 164074225,
      "step": 7586,
      "time_per_iteration": 2.526510238647461
    },
    {
      "auxiliary_loss_clip": 0.0109153,
      "auxiliary_loss_mlp": 0.01019927,
      "balance_loss_clip": 1.03627443,
      "balance_loss_mlp": 1.01500344,
      "epoch": 0.9122828112787832,
      "flos": 19829902141440.0,
      "grad_norm": 2.077713922739753,
      "language_loss": 0.72203457,
      "learning_rate": 8.007901059239986e-08,
      "loss": 0.74314916,
      "num_input_tokens_seen": 164093505,
      "step": 7587,
      "time_per_iteration": 2.474614381790161
    },
    {
      "auxiliary_loss_clip": 0.01067004,
      "auxiliary_loss_mlp": 0.0101629,
      "balance_loss_clip": 1.03328967,
      "balance_loss_mlp": 1.01114953,
      "epoch": 0.9124030541694222,
      "flos": 20815891931520.0,
      "grad_norm": 1.7464798237683115,
      "language_loss": 0.80273402,
      "learning_rate": 7.986093868042964e-08,
      "loss": 0.82356691,
      "num_input_tokens_seen": 164113750,
      "step": 7588,
      "time_per_iteration": 2.558420181274414
    },
    {
      "auxiliary_loss_clip": 0.01077805,
      "auxiliary_loss_mlp": 0.01024,
      "balance_loss_clip": 1.03493798,
      "balance_loss_mlp": 1.01893663,
      "epoch": 0.9125232970600613,
      "flos": 25194664575360.0,
      "grad_norm": 1.9110283142187419,
      "language_loss": 0.67836237,
      "learning_rate": 7.964315805202826e-08,
      "loss": 0.69938046,
      "num_input_tokens_seen": 164134330,
      "step": 7589,
      "time_per_iteration": 2.5556936264038086
    },
    {
      "auxiliary_loss_clip": 0.01064092,
      "auxiliary_loss_mlp": 0.01018635,
      "balance_loss_clip": 1.03566551,
      "balance_loss_mlp": 1.01319647,
      "epoch": 0.9126435399507005,
      "flos": 19721653787520.0,
      "grad_norm": 1.727664538365726,
      "language_loss": 0.7337544,
      "learning_rate": 7.942566874023304e-08,
      "loss": 0.75458163,
      "num_input_tokens_seen": 164153515,
      "step": 7590,
      "time_per_iteration": 3.264655113220215
    },
    {
      "auxiliary_loss_clip": 0.01066012,
      "auxiliary_loss_mlp": 0.01021655,
      "balance_loss_clip": 1.0351311,
      "balance_loss_mlp": 1.01655841,
      "epoch": 0.9127637828413395,
      "flos": 19575666892800.0,
      "grad_norm": 2.1818712044927713,
      "language_loss": 0.69582856,
      "learning_rate": 7.920847077803649e-08,
      "loss": 0.7167052,
      "num_input_tokens_seen": 164171305,
      "step": 7591,
      "time_per_iteration": 2.518404006958008
    },
    {
      "auxiliary_loss_clip": 0.01048661,
      "auxiliary_loss_mlp": 0.01021952,
      "balance_loss_clip": 1.03269768,
      "balance_loss_mlp": 1.01687336,
      "epoch": 0.9128840257319786,
      "flos": 20232740632320.0,
      "grad_norm": 1.8973744618711075,
      "language_loss": 0.82461971,
      "learning_rate": 7.899156419838826e-08,
      "loss": 0.84532589,
      "num_input_tokens_seen": 164190275,
      "step": 7592,
      "time_per_iteration": 2.650374174118042
    },
    {
      "auxiliary_loss_clip": 0.010583,
      "auxiliary_loss_mlp": 0.01017196,
      "balance_loss_clip": 1.03564847,
      "balance_loss_mlp": 1.01219535,
      "epoch": 0.9130042686226177,
      "flos": 24860705420160.0,
      "grad_norm": 2.861877376787028,
      "language_loss": 0.65580821,
      "learning_rate": 7.87749490341918e-08,
      "loss": 0.67656314,
      "num_input_tokens_seen": 164210550,
      "step": 7593,
      "time_per_iteration": 2.6105904579162598
    },
    {
      "auxiliary_loss_clip": 0.01091223,
      "auxiliary_loss_mlp": 0.01019649,
      "balance_loss_clip": 1.03612685,
      "balance_loss_mlp": 1.0141418,
      "epoch": 0.9131245115132568,
      "flos": 23583727710720.0,
      "grad_norm": 2.151613006061665,
      "language_loss": 0.83790815,
      "learning_rate": 7.855862531830836e-08,
      "loss": 0.8590169,
      "num_input_tokens_seen": 164226660,
      "step": 7594,
      "time_per_iteration": 2.5242669582366943
    },
    {
      "auxiliary_loss_clip": 0.01082947,
      "auxiliary_loss_mlp": 0.01018731,
      "balance_loss_clip": 1.03737688,
      "balance_loss_mlp": 1.01370597,
      "epoch": 0.9132447544038959,
      "flos": 19933296981120.0,
      "grad_norm": 1.6798745540369506,
      "language_loss": 0.72588027,
      "learning_rate": 7.834259308355373e-08,
      "loss": 0.74689698,
      "num_input_tokens_seen": 164245425,
      "step": 7595,
      "time_per_iteration": 2.5100817680358887
    },
    {
      "auxiliary_loss_clip": 0.01024959,
      "auxiliary_loss_mlp": 0.01019005,
      "balance_loss_clip": 1.02791691,
      "balance_loss_mlp": 1.01386714,
      "epoch": 0.9133649972945349,
      "flos": 21983938761600.0,
      "grad_norm": 2.373696108959577,
      "language_loss": 0.75016236,
      "learning_rate": 7.812685236269989e-08,
      "loss": 0.77060199,
      "num_input_tokens_seen": 164264085,
      "step": 7596,
      "time_per_iteration": 2.680344343185425
    },
    {
      "auxiliary_loss_clip": 0.0101007,
      "auxiliary_loss_mlp": 0.01005227,
      "balance_loss_clip": 1.02033639,
      "balance_loss_mlp": 1.00376642,
      "epoch": 0.9134852401851741,
      "flos": 71247661464960.0,
      "grad_norm": 0.7977031200962168,
      "language_loss": 0.58604336,
      "learning_rate": 7.791140318847445e-08,
      "loss": 0.60619628,
      "num_input_tokens_seen": 164322220,
      "step": 7597,
      "time_per_iteration": 3.2026665210723877
    },
    {
      "auxiliary_loss_clip": 0.01061457,
      "auxiliary_loss_mlp": 0.01016429,
      "balance_loss_clip": 1.0363574,
      "balance_loss_mlp": 1.01157129,
      "epoch": 0.9136054830758131,
      "flos": 23629391130240.0,
      "grad_norm": 2.768507310875326,
      "language_loss": 0.80470401,
      "learning_rate": 7.769624559356081e-08,
      "loss": 0.82548285,
      "num_input_tokens_seen": 164345615,
      "step": 7598,
      "time_per_iteration": 2.6857287883758545
    },
    {
      "auxiliary_loss_clip": 0.01076536,
      "auxiliary_loss_mlp": 0.01017758,
      "balance_loss_clip": 1.03345406,
      "balance_loss_mlp": 1.01206529,
      "epoch": 0.9137257259664522,
      "flos": 23441001770880.0,
      "grad_norm": 2.8294812923208514,
      "language_loss": 0.75424731,
      "learning_rate": 7.748137961059842e-08,
      "loss": 0.77519023,
      "num_input_tokens_seen": 164359595,
      "step": 7599,
      "time_per_iteration": 2.5102312564849854
    },
    {
      "auxiliary_loss_clip": 0.01091328,
      "auxiliary_loss_mlp": 0.01020661,
      "balance_loss_clip": 1.03776646,
      "balance_loss_mlp": 1.0155977,
      "epoch": 0.9138459688570914,
      "flos": 19129440067200.0,
      "grad_norm": 2.4859822658382633,
      "language_loss": 0.66308236,
      "learning_rate": 7.726680527218211e-08,
      "loss": 0.68420225,
      "num_input_tokens_seen": 164376635,
      "step": 7600,
      "time_per_iteration": 2.5075950622558594
    },
    {
      "auxiliary_loss_clip": 0.01090552,
      "auxiliary_loss_mlp": 0.0101939,
      "balance_loss_clip": 1.03475726,
      "balance_loss_mlp": 1.0141685,
      "epoch": 0.9139662117477304,
      "flos": 46284784634880.0,
      "grad_norm": 3.2170776086138666,
      "language_loss": 0.75726569,
      "learning_rate": 7.70525226108627e-08,
      "loss": 0.77836514,
      "num_input_tokens_seen": 164400305,
      "step": 7601,
      "time_per_iteration": 2.68542742729187
    },
    {
      "auxiliary_loss_clip": 0.01080536,
      "auxiliary_loss_mlp": 0.0101935,
      "balance_loss_clip": 1.0368669,
      "balance_loss_mlp": 1.01420045,
      "epoch": 0.9140864546383695,
      "flos": 22275381697920.0,
      "grad_norm": 1.8330490321345219,
      "language_loss": 0.79723382,
      "learning_rate": 7.683853165914666e-08,
      "loss": 0.81823266,
      "num_input_tokens_seen": 164418075,
      "step": 7602,
      "time_per_iteration": 2.573173761367798
    },
    {
      "auxiliary_loss_clip": 0.01037798,
      "auxiliary_loss_mlp": 0.01020825,
      "balance_loss_clip": 1.02954721,
      "balance_loss_mlp": 1.01593995,
      "epoch": 0.9142066975290086,
      "flos": 17531926202880.0,
      "grad_norm": 1.8003042663607323,
      "language_loss": 0.77024943,
      "learning_rate": 7.662483244949602e-08,
      "loss": 0.79083568,
      "num_input_tokens_seen": 164435335,
      "step": 7603,
      "time_per_iteration": 2.5795490741729736
    },
    {
      "auxiliary_loss_clip": 0.01045103,
      "auxiliary_loss_mlp": 0.01016235,
      "balance_loss_clip": 1.03066087,
      "balance_loss_mlp": 1.01110291,
      "epoch": 0.9143269404196477,
      "flos": 17714059079040.0,
      "grad_norm": 2.5549680990564996,
      "language_loss": 0.80539203,
      "learning_rate": 7.641142501432951e-08,
      "loss": 0.82600534,
      "num_input_tokens_seen": 164451530,
      "step": 7604,
      "time_per_iteration": 2.569974422454834
    },
    {
      "auxiliary_loss_clip": 0.01067843,
      "auxiliary_loss_mlp": 0.01018686,
      "balance_loss_clip": 1.03394985,
      "balance_loss_mlp": 1.01363707,
      "epoch": 0.9144471833102867,
      "flos": 33325935655680.0,
      "grad_norm": 1.8925506504407663,
      "language_loss": 0.7392025,
      "learning_rate": 7.619830938602013e-08,
      "loss": 0.76006782,
      "num_input_tokens_seen": 164472755,
      "step": 7605,
      "time_per_iteration": 2.6264994144439697
    },
    {
      "auxiliary_loss_clip": 0.01084776,
      "auxiliary_loss_mlp": 0.0101749,
      "balance_loss_clip": 1.038203,
      "balance_loss_mlp": 1.01241517,
      "epoch": 0.9145674262009259,
      "flos": 21071075132160.0,
      "grad_norm": 2.013632932243239,
      "language_loss": 0.82801259,
      "learning_rate": 7.598548559689777e-08,
      "loss": 0.84903526,
      "num_input_tokens_seen": 164491155,
      "step": 7606,
      "time_per_iteration": 3.976872682571411
    },
    {
      "auxiliary_loss_clip": 0.01056636,
      "auxiliary_loss_mlp": 0.01018705,
      "balance_loss_clip": 1.03312922,
      "balance_loss_mlp": 1.01353395,
      "epoch": 0.914687669091565,
      "flos": 16802143401600.0,
      "grad_norm": 2.53423470481668,
      "language_loss": 0.81247008,
      "learning_rate": 7.577295367924751e-08,
      "loss": 0.83322346,
      "num_input_tokens_seen": 164507555,
      "step": 7607,
      "time_per_iteration": 3.326554298400879
    },
    {
      "auxiliary_loss_clip": 0.01068247,
      "auxiliary_loss_mlp": 0.01017463,
      "balance_loss_clip": 1.03470743,
      "balance_loss_mlp": 1.01218498,
      "epoch": 0.914807911982204,
      "flos": 25775882052480.0,
      "grad_norm": 1.6380989733808715,
      "language_loss": 0.82235146,
      "learning_rate": 7.556071366531002e-08,
      "loss": 0.84320855,
      "num_input_tokens_seen": 164528525,
      "step": 7608,
      "time_per_iteration": 2.5951859951019287
    },
    {
      "auxiliary_loss_clip": 0.01079588,
      "auxiliary_loss_mlp": 0.01020866,
      "balance_loss_clip": 1.03735685,
      "balance_loss_mlp": 1.01538515,
      "epoch": 0.9149281548728432,
      "flos": 19210036089600.0,
      "grad_norm": 2.5685870832550015,
      "language_loss": 0.79219651,
      "learning_rate": 7.53487655872822e-08,
      "loss": 0.81320107,
      "num_input_tokens_seen": 164547695,
      "step": 7609,
      "time_per_iteration": 2.5310707092285156
    },
    {
      "auxiliary_loss_clip": 0.0104322,
      "auxiliary_loss_mlp": 0.01017765,
      "balance_loss_clip": 1.03129506,
      "balance_loss_mlp": 1.01245701,
      "epoch": 0.9150483977634822,
      "flos": 26873001970560.0,
      "grad_norm": 1.7622785331362263,
      "language_loss": 0.74349093,
      "learning_rate": 7.513710947731656e-08,
      "loss": 0.76410073,
      "num_input_tokens_seen": 164568905,
      "step": 7610,
      "time_per_iteration": 2.6688904762268066
    },
    {
      "auxiliary_loss_clip": 0.01062234,
      "auxiliary_loss_mlp": 0.01022082,
      "balance_loss_clip": 1.03323245,
      "balance_loss_mlp": 1.0170331,
      "epoch": 0.9151686406541213,
      "flos": 21911153863680.0,
      "grad_norm": 2.2039800556211486,
      "language_loss": 0.85125542,
      "learning_rate": 7.492574536752095e-08,
      "loss": 0.87209857,
      "num_input_tokens_seen": 164588895,
      "step": 7611,
      "time_per_iteration": 2.550743341445923
    },
    {
      "auxiliary_loss_clip": 0.01077815,
      "auxiliary_loss_mlp": 0.01022284,
      "balance_loss_clip": 1.03627396,
      "balance_loss_mlp": 1.01734543,
      "epoch": 0.9152888835447605,
      "flos": 27311038490880.0,
      "grad_norm": 2.7204483211426322,
      "language_loss": 0.78167188,
      "learning_rate": 7.471467328995907e-08,
      "loss": 0.80267286,
      "num_input_tokens_seen": 164607705,
      "step": 7612,
      "time_per_iteration": 2.5644381046295166
    },
    {
      "auxiliary_loss_clip": 0.01005631,
      "auxiliary_loss_mlp": 0.01017433,
      "balance_loss_clip": 1.03187919,
      "balance_loss_mlp": 1.01201558,
      "epoch": 0.9154091264353995,
      "flos": 13372418286720.0,
      "grad_norm": 2.5297418689625335,
      "language_loss": 0.60531151,
      "learning_rate": 7.450389327665018e-08,
      "loss": 0.62554216,
      "num_input_tokens_seen": 164625540,
      "step": 7613,
      "time_per_iteration": 2.7701640129089355
    },
    {
      "auxiliary_loss_clip": 0.01050515,
      "auxiliary_loss_mlp": 0.01022283,
      "balance_loss_clip": 1.03696263,
      "balance_loss_mlp": 1.01681089,
      "epoch": 0.9155293693260386,
      "flos": 20195077927680.0,
      "grad_norm": 4.418616829793044,
      "language_loss": 0.67650646,
      "learning_rate": 7.429340535957029e-08,
      "loss": 0.69723445,
      "num_input_tokens_seen": 164640735,
      "step": 7614,
      "time_per_iteration": 2.8462138175964355
    },
    {
      "auxiliary_loss_clip": 0.01069417,
      "auxiliary_loss_mlp": 0.01021367,
      "balance_loss_clip": 1.03511941,
      "balance_loss_mlp": 1.01630616,
      "epoch": 0.9156496122166777,
      "flos": 19357046772480.0,
      "grad_norm": 2.4577157041822932,
      "language_loss": 0.70568067,
      "learning_rate": 7.40832095706494e-08,
      "loss": 0.72658849,
      "num_input_tokens_seen": 164657430,
      "step": 7615,
      "time_per_iteration": 3.1884665489196777
    },
    {
      "auxiliary_loss_clip": 0.01057235,
      "auxiliary_loss_mlp": 0.01024013,
      "balance_loss_clip": 1.03469527,
      "balance_loss_mlp": 1.01928926,
      "epoch": 0.9157698551073168,
      "flos": 21109496198400.0,
      "grad_norm": 2.802741195668991,
      "language_loss": 0.80161422,
      "learning_rate": 7.387330594177443e-08,
      "loss": 0.82242668,
      "num_input_tokens_seen": 164679505,
      "step": 7616,
      "time_per_iteration": 2.670421600341797
    },
    {
      "auxiliary_loss_clip": 0.01049338,
      "auxiliary_loss_mlp": 0.01020722,
      "balance_loss_clip": 1.02990687,
      "balance_loss_mlp": 1.01579595,
      "epoch": 0.9158900979979558,
      "flos": 25195574609280.0,
      "grad_norm": 2.229054249932138,
      "language_loss": 0.79438841,
      "learning_rate": 7.366369450478749e-08,
      "loss": 0.81508899,
      "num_input_tokens_seen": 164700615,
      "step": 7617,
      "time_per_iteration": 2.597736358642578
    },
    {
      "auxiliary_loss_clip": 0.01055467,
      "auxiliary_loss_mlp": 0.01020814,
      "balance_loss_clip": 1.03391695,
      "balance_loss_mlp": 1.01546168,
      "epoch": 0.916010340888595,
      "flos": 30148853230080.0,
      "grad_norm": 1.8003004944019154,
      "language_loss": 0.6640501,
      "learning_rate": 7.345437529148646e-08,
      "loss": 0.68481296,
      "num_input_tokens_seen": 164719625,
      "step": 7618,
      "time_per_iteration": 2.6608428955078125
    },
    {
      "auxiliary_loss_clip": 0.0105085,
      "auxiliary_loss_mlp": 0.01022541,
      "balance_loss_clip": 1.03297126,
      "balance_loss_mlp": 1.01736712,
      "epoch": 0.9161305837792341,
      "flos": 17093700092160.0,
      "grad_norm": 2.560413743872791,
      "language_loss": 0.72751987,
      "learning_rate": 7.324534833362483e-08,
      "loss": 0.74825382,
      "num_input_tokens_seen": 164737200,
      "step": 7619,
      "time_per_iteration": 2.5531351566314697
    },
    {
      "auxiliary_loss_clip": 0.01067085,
      "auxiliary_loss_mlp": 0.01018984,
      "balance_loss_clip": 1.03521001,
      "balance_loss_mlp": 1.01404023,
      "epoch": 0.9162508266698731,
      "flos": 22895930275200.0,
      "grad_norm": 1.97880669626279,
      "language_loss": 0.68363822,
      "learning_rate": 7.303661366291192e-08,
      "loss": 0.70449889,
      "num_input_tokens_seen": 164757870,
      "step": 7620,
      "time_per_iteration": 2.6181740760803223
    },
    {
      "auxiliary_loss_clip": 0.0104872,
      "auxiliary_loss_mlp": 0.01017917,
      "balance_loss_clip": 1.03483796,
      "balance_loss_mlp": 1.01288939,
      "epoch": 0.9163710695605123,
      "flos": 19976874906240.0,
      "grad_norm": 1.7464535269365915,
      "language_loss": 0.81574392,
      "learning_rate": 7.28281713110126e-08,
      "loss": 0.83641034,
      "num_input_tokens_seen": 164775945,
      "step": 7621,
      "time_per_iteration": 2.5963847637176514
    },
    {
      "auxiliary_loss_clip": 0.01063815,
      "auxiliary_loss_mlp": 0.01019201,
      "balance_loss_clip": 1.03658104,
      "balance_loss_mlp": 1.01403356,
      "epoch": 0.9164913124511513,
      "flos": 22786013525760.0,
      "grad_norm": 2.2523701176076014,
      "language_loss": 0.77417105,
      "learning_rate": 7.262002130954759e-08,
      "loss": 0.79500127,
      "num_input_tokens_seen": 164794400,
      "step": 7622,
      "time_per_iteration": 2.5828213691711426
    },
    {
      "auxiliary_loss_clip": 0.0104855,
      "auxiliary_loss_mlp": 0.01022443,
      "balance_loss_clip": 1.03490376,
      "balance_loss_mlp": 1.01692104,
      "epoch": 0.9166115553417904,
      "flos": 24903221639040.0,
      "grad_norm": 1.9121840587773322,
      "language_loss": 0.78883564,
      "learning_rate": 7.241216369009296e-08,
      "loss": 0.80954558,
      "num_input_tokens_seen": 164814585,
      "step": 7623,
      "time_per_iteration": 2.6372294425964355
    },
    {
      "auxiliary_loss_clip": 0.01091027,
      "auxiliary_loss_mlp": 0.010162,
      "balance_loss_clip": 1.03479862,
      "balance_loss_mlp": 1.01125598,
      "epoch": 0.9167317982324296,
      "flos": 25705296403200.0,
      "grad_norm": 1.9463866614283516,
      "language_loss": 0.66261226,
      "learning_rate": 7.220459848418037e-08,
      "loss": 0.68368453,
      "num_input_tokens_seen": 164834660,
      "step": 7624,
      "time_per_iteration": 2.535759210586548
    },
    {
      "auxiliary_loss_clip": 0.01092693,
      "auxiliary_loss_mlp": 0.01017345,
      "balance_loss_clip": 1.0375644,
      "balance_loss_mlp": 1.01235294,
      "epoch": 0.9168520411230686,
      "flos": 15634627424640.0,
      "grad_norm": 3.6520152104881585,
      "language_loss": 0.79650056,
      "learning_rate": 7.199732572329708e-08,
      "loss": 0.81760097,
      "num_input_tokens_seen": 164852560,
      "step": 7625,
      "time_per_iteration": 2.4446802139282227
    },
    {
      "auxiliary_loss_clip": 0.01056133,
      "auxiliary_loss_mlp": 0.01021571,
      "balance_loss_clip": 1.03546166,
      "balance_loss_mlp": 1.01637077,
      "epoch": 0.9169722840137077,
      "flos": 30260476293120.0,
      "grad_norm": 2.298029326947185,
      "language_loss": 0.76311326,
      "learning_rate": 7.179034543888684e-08,
      "loss": 0.78389031,
      "num_input_tokens_seen": 164872065,
      "step": 7626,
      "time_per_iteration": 2.650211811065674
    },
    {
      "auxiliary_loss_clip": 0.01080587,
      "auxiliary_loss_mlp": 0.01022054,
      "balance_loss_clip": 1.03566909,
      "balance_loss_mlp": 1.01687407,
      "epoch": 0.9170925269043467,
      "flos": 22493812227840.0,
      "grad_norm": 2.062189052571247,
      "language_loss": 0.7755816,
      "learning_rate": 7.158365766234808e-08,
      "loss": 0.79660797,
      "num_input_tokens_seen": 164890915,
      "step": 7627,
      "time_per_iteration": 2.504864454269409
    },
    {
      "auxiliary_loss_clip": 0.01057368,
      "auxiliary_loss_mlp": 0.01019548,
      "balance_loss_clip": 1.0333786,
      "balance_loss_mlp": 1.01402259,
      "epoch": 0.9172127697949859,
      "flos": 22896157783680.0,
      "grad_norm": 2.7490039379100795,
      "language_loss": 0.73050427,
      "learning_rate": 7.137726242503527e-08,
      "loss": 0.75127351,
      "num_input_tokens_seen": 164909835,
      "step": 7628,
      "time_per_iteration": 2.6140990257263184
    },
    {
      "auxiliary_loss_clip": 0.01079298,
      "auxiliary_loss_mlp": 0.00756733,
      "balance_loss_clip": 1.03626037,
      "balance_loss_mlp": 1.00176239,
      "epoch": 0.917333012685625,
      "flos": 17453491511040.0,
      "grad_norm": 2.8886808763147744,
      "language_loss": 0.78367925,
      "learning_rate": 7.11711597582585e-08,
      "loss": 0.8020395,
      "num_input_tokens_seen": 164927195,
      "step": 7629,
      "time_per_iteration": 2.4736328125
    },
    {
      "auxiliary_loss_clip": 0.01059072,
      "auxiliary_loss_mlp": 0.01016681,
      "balance_loss_clip": 1.03390884,
      "balance_loss_mlp": 1.01193976,
      "epoch": 0.917453255576264,
      "flos": 14320669536000.0,
      "grad_norm": 1.763798611911428,
      "language_loss": 0.79852402,
      "learning_rate": 7.096534969328271e-08,
      "loss": 0.81928158,
      "num_input_tokens_seen": 164944640,
      "step": 7630,
      "time_per_iteration": 2.579983711242676
    },
    {
      "auxiliary_loss_clip": 0.01068866,
      "auxiliary_loss_mlp": 0.01019717,
      "balance_loss_clip": 1.03343415,
      "balance_loss_mlp": 1.01478148,
      "epoch": 0.9175734984669032,
      "flos": 20743296624000.0,
      "grad_norm": 2.080467355744435,
      "language_loss": 0.83819783,
      "learning_rate": 7.075983226132987e-08,
      "loss": 0.85908365,
      "num_input_tokens_seen": 164963570,
      "step": 7631,
      "time_per_iteration": 2.5574190616607666
    },
    {
      "auxiliary_loss_clip": 0.01066499,
      "auxiliary_loss_mlp": 0.00756865,
      "balance_loss_clip": 1.03308332,
      "balance_loss_mlp": 1.00166869,
      "epoch": 0.9176937413575422,
      "flos": 14832287233920.0,
      "grad_norm": 3.0569945536515895,
      "language_loss": 0.79331839,
      "learning_rate": 7.055460749357656e-08,
      "loss": 0.81155211,
      "num_input_tokens_seen": 164979850,
      "step": 7632,
      "time_per_iteration": 4.113576173782349
    },
    {
      "auxiliary_loss_clip": 0.01066746,
      "auxiliary_loss_mlp": 0.01021153,
      "balance_loss_clip": 1.03488779,
      "balance_loss_mlp": 1.01599097,
      "epoch": 0.9178139842481813,
      "flos": 18476347726080.0,
      "grad_norm": 1.9824288001999875,
      "language_loss": 0.70282996,
      "learning_rate": 7.034967542115521e-08,
      "loss": 0.72370899,
      "num_input_tokens_seen": 164998115,
      "step": 7633,
      "time_per_iteration": 3.3005173206329346
    },
    {
      "auxiliary_loss_clip": 0.01080954,
      "auxiliary_loss_mlp": 0.00756532,
      "balance_loss_clip": 1.03658426,
      "balance_loss_mlp": 1.00169945,
      "epoch": 0.9179342271388204,
      "flos": 20049508131840.0,
      "grad_norm": 1.9696705438389397,
      "language_loss": 0.75201005,
      "learning_rate": 7.014503607515388e-08,
      "loss": 0.77038491,
      "num_input_tokens_seen": 165017420,
      "step": 7634,
      "time_per_iteration": 2.532238245010376
    },
    {
      "auxiliary_loss_clip": 0.01066273,
      "auxiliary_loss_mlp": 0.01021981,
      "balance_loss_clip": 1.03684199,
      "balance_loss_mlp": 1.01685524,
      "epoch": 0.9180544700294595,
      "flos": 24678269199360.0,
      "grad_norm": 2.4567849416277916,
      "language_loss": 0.68326044,
      "learning_rate": 6.994068948661592e-08,
      "loss": 0.70414305,
      "num_input_tokens_seen": 165035575,
      "step": 7635,
      "time_per_iteration": 2.5822956562042236
    },
    {
      "auxiliary_loss_clip": 0.01077688,
      "auxiliary_loss_mlp": 0.0102269,
      "balance_loss_clip": 1.03545833,
      "balance_loss_mlp": 1.01690853,
      "epoch": 0.9181747129200986,
      "flos": 16729358503680.0,
      "grad_norm": 2.4135618929114906,
      "language_loss": 0.7683655,
      "learning_rate": 6.973663568654142e-08,
      "loss": 0.78936923,
      "num_input_tokens_seen": 165053280,
      "step": 7636,
      "time_per_iteration": 2.514467477798462
    },
    {
      "auxiliary_loss_clip": 0.01090404,
      "auxiliary_loss_mlp": 0.0102139,
      "balance_loss_clip": 1.03600025,
      "balance_loss_mlp": 1.01620173,
      "epoch": 0.9182949558107377,
      "flos": 24273458968320.0,
      "grad_norm": 1.9846054796621844,
      "language_loss": 0.65503025,
      "learning_rate": 6.953287470588386e-08,
      "loss": 0.67614818,
      "num_input_tokens_seen": 165071235,
      "step": 7637,
      "time_per_iteration": 2.511996030807495
    },
    {
      "auxiliary_loss_clip": 0.01081538,
      "auxiliary_loss_mlp": 0.0101871,
      "balance_loss_clip": 1.03605831,
      "balance_loss_mlp": 1.01361918,
      "epoch": 0.9184151987013768,
      "flos": 22083807219840.0,
      "grad_norm": 2.4709427945741775,
      "language_loss": 0.85893488,
      "learning_rate": 6.932940657555452e-08,
      "loss": 0.87993741,
      "num_input_tokens_seen": 165087365,
      "step": 7638,
      "time_per_iteration": 2.5239651203155518
    },
    {
      "auxiliary_loss_clip": 0.01089156,
      "auxiliary_loss_mlp": 0.01017034,
      "balance_loss_clip": 1.03533816,
      "balance_loss_mlp": 1.01237297,
      "epoch": 0.9185354415920158,
      "flos": 32169795102720.0,
      "grad_norm": 1.9441850660071902,
      "language_loss": 0.7616322,
      "learning_rate": 6.912623132641938e-08,
      "loss": 0.7826941,
      "num_input_tokens_seen": 165112455,
      "step": 7639,
      "time_per_iteration": 2.6223230361938477
    },
    {
      "auxiliary_loss_clip": 0.01063069,
      "auxiliary_loss_mlp": 0.01023474,
      "balance_loss_clip": 1.03387177,
      "balance_loss_mlp": 1.0180707,
      "epoch": 0.918655684482655,
      "flos": 21000034465920.0,
      "grad_norm": 1.9429935256066724,
      "language_loss": 0.76836503,
      "learning_rate": 6.892334898929952e-08,
      "loss": 0.78923047,
      "num_input_tokens_seen": 165132700,
      "step": 7640,
      "time_per_iteration": 2.5821316242218018
    },
    {
      "auxiliary_loss_clip": 0.0108174,
      "auxiliary_loss_mlp": 0.01018077,
      "balance_loss_clip": 1.03682494,
      "balance_loss_mlp": 1.01309705,
      "epoch": 0.918775927373294,
      "flos": 15562562970240.0,
      "grad_norm": 2.4378607905334007,
      "language_loss": 0.85014665,
      "learning_rate": 6.872075959497236e-08,
      "loss": 0.87114477,
      "num_input_tokens_seen": 165151475,
      "step": 7641,
      "time_per_iteration": 2.4933009147644043
    },
    {
      "auxiliary_loss_clip": 0.01075591,
      "auxiliary_loss_mlp": 0.0101688,
      "balance_loss_clip": 1.03563583,
      "balance_loss_mlp": 1.01184952,
      "epoch": 0.9188961702639331,
      "flos": 29936603347200.0,
      "grad_norm": 1.6965521284910041,
      "language_loss": 0.83193648,
      "learning_rate": 6.85184631741702e-08,
      "loss": 0.85286129,
      "num_input_tokens_seen": 165172040,
      "step": 7642,
      "time_per_iteration": 3.2461397647857666
    },
    {
      "auxiliary_loss_clip": 0.01076866,
      "auxiliary_loss_mlp": 0.01017525,
      "balance_loss_clip": 1.03375256,
      "balance_loss_mlp": 1.01219082,
      "epoch": 0.9190164131545723,
      "flos": 20703169244160.0,
      "grad_norm": 1.8920384808806088,
      "language_loss": 0.77648783,
      "learning_rate": 6.831645975758161e-08,
      "loss": 0.79743177,
      "num_input_tokens_seen": 165189980,
      "step": 7643,
      "time_per_iteration": 2.4977331161499023
    },
    {
      "auxiliary_loss_clip": 0.01064291,
      "auxiliary_loss_mlp": 0.01019729,
      "balance_loss_clip": 1.03178191,
      "balance_loss_mlp": 1.01470733,
      "epoch": 0.9191366560452113,
      "flos": 25632283996800.0,
      "grad_norm": 2.153627131852855,
      "language_loss": 0.6759125,
      "learning_rate": 6.811474937585026e-08,
      "loss": 0.69675273,
      "num_input_tokens_seen": 165209770,
      "step": 7644,
      "time_per_iteration": 2.603907823562622
    },
    {
      "auxiliary_loss_clip": 0.0105574,
      "auxiliary_loss_mlp": 0.01018889,
      "balance_loss_clip": 1.03435969,
      "balance_loss_mlp": 1.01377201,
      "epoch": 0.9192568989358504,
      "flos": 21436478426880.0,
      "grad_norm": 1.684069273058723,
      "language_loss": 0.79276705,
      "learning_rate": 6.79133320595755e-08,
      "loss": 0.8135134,
      "num_input_tokens_seen": 165229690,
      "step": 7645,
      "time_per_iteration": 2.5714526176452637
    },
    {
      "auxiliary_loss_clip": 0.01067678,
      "auxiliary_loss_mlp": 0.01020624,
      "balance_loss_clip": 1.03597963,
      "balance_loss_mlp": 1.01566148,
      "epoch": 0.9193771418264896,
      "flos": 23187297375360.0,
      "grad_norm": 1.9270936475908425,
      "language_loss": 0.75520998,
      "learning_rate": 6.771220783931198e-08,
      "loss": 0.77609301,
      "num_input_tokens_seen": 165249850,
      "step": 7646,
      "time_per_iteration": 2.590683937072754
    },
    {
      "auxiliary_loss_clip": 0.00971461,
      "auxiliary_loss_mlp": 0.00751986,
      "balance_loss_clip": 1.02912855,
      "balance_loss_mlp": 1.00091708,
      "epoch": 0.9194973847171286,
      "flos": 70590018954240.0,
      "grad_norm": 0.8381410143073561,
      "language_loss": 0.64592874,
      "learning_rate": 6.751137674556994e-08,
      "loss": 0.66316319,
      "num_input_tokens_seen": 165310235,
      "step": 7647,
      "time_per_iteration": 3.8592793941497803
    },
    {
      "auxiliary_loss_clip": 0.0107967,
      "auxiliary_loss_mlp": 0.01017573,
      "balance_loss_clip": 1.0339725,
      "balance_loss_mlp": 1.01248598,
      "epoch": 0.9196176276077677,
      "flos": 14722446320640.0,
      "grad_norm": 2.1358742749104773,
      "language_loss": 0.77895021,
      "learning_rate": 6.731083880881572e-08,
      "loss": 0.79992265,
      "num_input_tokens_seen": 165326455,
      "step": 7648,
      "time_per_iteration": 3.614943504333496
    },
    {
      "auxiliary_loss_clip": 0.0106547,
      "auxiliary_loss_mlp": 0.01017799,
      "balance_loss_clip": 1.03341293,
      "balance_loss_mlp": 1.01299191,
      "epoch": 0.9197378704984068,
      "flos": 23297138288640.0,
      "grad_norm": 2.0303837327127874,
      "language_loss": 0.80972743,
      "learning_rate": 6.711059405947072e-08,
      "loss": 0.83056009,
      "num_input_tokens_seen": 165344645,
      "step": 7649,
      "time_per_iteration": 2.593973159790039
    },
    {
      "auxiliary_loss_clip": 0.01050988,
      "auxiliary_loss_mlp": 0.0101673,
      "balance_loss_clip": 1.03299046,
      "balance_loss_mlp": 1.01165807,
      "epoch": 0.9198581133890459,
      "flos": 20304615496320.0,
      "grad_norm": 1.8322834967907966,
      "language_loss": 0.7721442,
      "learning_rate": 6.691064252791156e-08,
      "loss": 0.79282141,
      "num_input_tokens_seen": 165364120,
      "step": 7650,
      "time_per_iteration": 2.58160662651062
    },
    {
      "auxiliary_loss_clip": 0.01027329,
      "auxiliary_loss_mlp": 0.01018861,
      "balance_loss_clip": 1.02645648,
      "balance_loss_mlp": 1.01386654,
      "epoch": 0.9199783562796849,
      "flos": 17677571834880.0,
      "grad_norm": 1.4937894959760836,
      "language_loss": 0.78221828,
      "learning_rate": 6.67109842444713e-08,
      "loss": 0.80268019,
      "num_input_tokens_seen": 165383050,
      "step": 7651,
      "time_per_iteration": 2.6277809143066406
    },
    {
      "auxiliary_loss_clip": 0.01075976,
      "auxiliary_loss_mlp": 0.00756999,
      "balance_loss_clip": 1.03775501,
      "balance_loss_mlp": 1.00181675,
      "epoch": 0.9200985991703241,
      "flos": 17677951015680.0,
      "grad_norm": 1.8096484156980948,
      "language_loss": 0.76938289,
      "learning_rate": 6.651161923943704e-08,
      "loss": 0.78771269,
      "num_input_tokens_seen": 165400955,
      "step": 7652,
      "time_per_iteration": 2.496464729309082
    },
    {
      "auxiliary_loss_clip": 0.01082436,
      "auxiliary_loss_mlp": 0.01022782,
      "balance_loss_clip": 1.03562737,
      "balance_loss_mlp": 1.01730478,
      "epoch": 0.9202188420609632,
      "flos": 20998707333120.0,
      "grad_norm": 2.583870128908866,
      "language_loss": 0.77067482,
      "learning_rate": 6.631254754305326e-08,
      "loss": 0.79172701,
      "num_input_tokens_seen": 165420415,
      "step": 7653,
      "time_per_iteration": 2.5473995208740234
    },
    {
      "auxiliary_loss_clip": 0.01093161,
      "auxiliary_loss_mlp": 0.01019513,
      "balance_loss_clip": 1.0374167,
      "balance_loss_mlp": 1.01425576,
      "epoch": 0.9203390849516022,
      "flos": 13919954457600.0,
      "grad_norm": 2.0313516499832276,
      "language_loss": 0.78608084,
      "learning_rate": 6.611376918551848e-08,
      "loss": 0.80720764,
      "num_input_tokens_seen": 165439200,
      "step": 7654,
      "time_per_iteration": 2.4608869552612305
    },
    {
      "auxiliary_loss_clip": 0.01047948,
      "auxiliary_loss_mlp": 0.00756724,
      "balance_loss_clip": 1.03015816,
      "balance_loss_mlp": 1.00159478,
      "epoch": 0.9204593278422414,
      "flos": 21177882599040.0,
      "grad_norm": 2.337619642178065,
      "language_loss": 0.79757744,
      "learning_rate": 6.591528419698744e-08,
      "loss": 0.81562412,
      "num_input_tokens_seen": 165458985,
      "step": 7655,
      "time_per_iteration": 2.5929038524627686
    },
    {
      "auxiliary_loss_clip": 0.01070523,
      "auxiliary_loss_mlp": 0.01021076,
      "balance_loss_clip": 1.03438294,
      "balance_loss_mlp": 1.01626027,
      "epoch": 0.9205795707328804,
      "flos": 14503105756800.0,
      "grad_norm": 5.144660862500042,
      "language_loss": 0.83633918,
      "learning_rate": 6.571709260756986e-08,
      "loss": 0.85725516,
      "num_input_tokens_seen": 165475630,
      "step": 7656,
      "time_per_iteration": 2.536105155944824
    },
    {
      "auxiliary_loss_clip": 0.01083001,
      "auxiliary_loss_mlp": 0.01023484,
      "balance_loss_clip": 1.03989828,
      "balance_loss_mlp": 1.01800656,
      "epoch": 0.9206998136235195,
      "flos": 22419662279040.0,
      "grad_norm": 2.239080821459263,
      "language_loss": 0.76787013,
      "learning_rate": 6.551919444733122e-08,
      "loss": 0.78893495,
      "num_input_tokens_seen": 165493445,
      "step": 7657,
      "time_per_iteration": 2.537533760070801
    },
    {
      "auxiliary_loss_clip": 0.01059089,
      "auxiliary_loss_mlp": 0.01022934,
      "balance_loss_clip": 1.03008604,
      "balance_loss_mlp": 1.01759624,
      "epoch": 0.9208200565141585,
      "flos": 53362286213760.0,
      "grad_norm": 3.184800900766873,
      "language_loss": 0.65897238,
      "learning_rate": 6.53215897462931e-08,
      "loss": 0.67979264,
      "num_input_tokens_seen": 165517200,
      "step": 7658,
      "time_per_iteration": 4.330234050750732
    },
    {
      "auxiliary_loss_clip": 0.01082034,
      "auxiliary_loss_mlp": 0.01021276,
      "balance_loss_clip": 1.03640747,
      "balance_loss_mlp": 1.01603723,
      "epoch": 0.9209402994047977,
      "flos": 30591629510400.0,
      "grad_norm": 4.209513102067977,
      "language_loss": 0.74637234,
      "learning_rate": 6.512427853443103e-08,
      "loss": 0.76740545,
      "num_input_tokens_seen": 165539280,
      "step": 7659,
      "time_per_iteration": 3.3324787616729736
    },
    {
      "auxiliary_loss_clip": 0.01080353,
      "auxiliary_loss_mlp": 0.01016511,
      "balance_loss_clip": 1.03559589,
      "balance_loss_mlp": 1.01132798,
      "epoch": 0.9210605422954368,
      "flos": 29135286944640.0,
      "grad_norm": 1.850305055830079,
      "language_loss": 0.75648844,
      "learning_rate": 6.492726084167799e-08,
      "loss": 0.77745712,
      "num_input_tokens_seen": 165561395,
      "step": 7660,
      "time_per_iteration": 2.577528238296509
    },
    {
      "auxiliary_loss_clip": 0.01040547,
      "auxiliary_loss_mlp": 0.01001664,
      "balance_loss_clip": 1.0155524,
      "balance_loss_mlp": 0.99999523,
      "epoch": 0.9211807851860758,
      "flos": 54859807814400.0,
      "grad_norm": 1.1907787004047206,
      "language_loss": 0.57483727,
      "learning_rate": 6.473053669792072e-08,
      "loss": 0.59525937,
      "num_input_tokens_seen": 165616085,
      "step": 7661,
      "time_per_iteration": 2.958285093307495
    },
    {
      "auxiliary_loss_clip": 0.01079504,
      "auxiliary_loss_mlp": 0.01020756,
      "balance_loss_clip": 1.03492475,
      "balance_loss_mlp": 1.0153116,
      "epoch": 0.921301028076715,
      "flos": 19203627934080.0,
      "grad_norm": 2.52914383200887,
      "language_loss": 0.73169684,
      "learning_rate": 6.453410613300248e-08,
      "loss": 0.75269943,
      "num_input_tokens_seen": 165634015,
      "step": 7662,
      "time_per_iteration": 2.4934134483337402
    },
    {
      "auxiliary_loss_clip": 0.010259,
      "auxiliary_loss_mlp": 0.01022972,
      "balance_loss_clip": 1.02802527,
      "balance_loss_mlp": 1.01774192,
      "epoch": 0.921421270967354,
      "flos": 27529355266560.0,
      "grad_norm": 1.719196505667433,
      "language_loss": 0.58474135,
      "learning_rate": 6.43379691767214e-08,
      "loss": 0.60523003,
      "num_input_tokens_seen": 165653220,
      "step": 7663,
      "time_per_iteration": 2.679569959640503
    },
    {
      "auxiliary_loss_clip": 0.01002665,
      "auxiliary_loss_mlp": 0.01001312,
      "balance_loss_clip": 1.01648748,
      "balance_loss_mlp": 0.99970227,
      "epoch": 0.9215415138579931,
      "flos": 70215856583040.0,
      "grad_norm": 0.7584481669497487,
      "language_loss": 0.5506835,
      "learning_rate": 6.414212585883105e-08,
      "loss": 0.5707233,
      "num_input_tokens_seen": 165715850,
      "step": 7664,
      "time_per_iteration": 3.30285382270813
    },
    {
      "auxiliary_loss_clip": 0.01069975,
      "auxiliary_loss_mlp": 0.01019182,
      "balance_loss_clip": 1.03599977,
      "balance_loss_mlp": 1.01354933,
      "epoch": 0.9216617567486323,
      "flos": 35555980210560.0,
      "grad_norm": 1.9071139358218878,
      "language_loss": 0.69962692,
      "learning_rate": 6.394657620904143e-08,
      "loss": 0.72051847,
      "num_input_tokens_seen": 165738960,
      "step": 7665,
      "time_per_iteration": 2.6771223545074463
    },
    {
      "auxiliary_loss_clip": 0.01093355,
      "auxiliary_loss_mlp": 0.01019502,
      "balance_loss_clip": 1.03753877,
      "balance_loss_mlp": 1.01414061,
      "epoch": 0.9217819996392713,
      "flos": 29535888268800.0,
      "grad_norm": 1.716949946956197,
      "language_loss": 0.71452588,
      "learning_rate": 6.375132025701657e-08,
      "loss": 0.73565447,
      "num_input_tokens_seen": 165761260,
      "step": 7666,
      "time_per_iteration": 2.5370261669158936
    },
    {
      "auxiliary_loss_clip": 0.01092655,
      "auxiliary_loss_mlp": 0.01021115,
      "balance_loss_clip": 1.03772497,
      "balance_loss_mlp": 1.01578665,
      "epoch": 0.9219022425299104,
      "flos": 14576421507840.0,
      "grad_norm": 2.788555761988528,
      "language_loss": 0.69352686,
      "learning_rate": 6.355635803237724e-08,
      "loss": 0.71466452,
      "num_input_tokens_seen": 165776960,
      "step": 7667,
      "time_per_iteration": 3.15162992477417
    },
    {
      "auxiliary_loss_clip": 0.01083196,
      "auxiliary_loss_mlp": 0.01018968,
      "balance_loss_clip": 1.03778279,
      "balance_loss_mlp": 1.01358318,
      "epoch": 0.9220224854205495,
      "flos": 18079462373760.0,
      "grad_norm": 25.822602525648097,
      "language_loss": 0.79323959,
      "learning_rate": 6.336168956469867e-08,
      "loss": 0.81426126,
      "num_input_tokens_seen": 165795435,
      "step": 7668,
      "time_per_iteration": 2.4785995483398438
    },
    {
      "auxiliary_loss_clip": 0.01068999,
      "auxiliary_loss_mlp": 0.0102143,
      "balance_loss_clip": 1.03645027,
      "balance_loss_mlp": 1.01641989,
      "epoch": 0.9221427283111886,
      "flos": 24792774036480.0,
      "grad_norm": 1.648574865875529,
      "language_loss": 0.72052735,
      "learning_rate": 6.316731488351168e-08,
      "loss": 0.74143159,
      "num_input_tokens_seen": 165816625,
      "step": 7669,
      "time_per_iteration": 2.595024585723877
    },
    {
      "auxiliary_loss_clip": 0.01080176,
      "auxiliary_loss_mlp": 0.01019219,
      "balance_loss_clip": 1.03702617,
      "balance_loss_mlp": 1.01425099,
      "epoch": 0.9222629712018277,
      "flos": 13846752460800.0,
      "grad_norm": 3.5348368565994406,
      "language_loss": 0.63605046,
      "learning_rate": 6.297323401830334e-08,
      "loss": 0.65704441,
      "num_input_tokens_seen": 165835410,
      "step": 7670,
      "time_per_iteration": 2.49035906791687
    },
    {
      "auxiliary_loss_clip": 0.01079283,
      "auxiliary_loss_mlp": 0.0101906,
      "balance_loss_clip": 1.03429937,
      "balance_loss_mlp": 1.01398754,
      "epoch": 0.9223832140924668,
      "flos": 21618307958400.0,
      "grad_norm": 2.856546462983612,
      "language_loss": 0.68944871,
      "learning_rate": 6.277944699851523e-08,
      "loss": 0.71043217,
      "num_input_tokens_seen": 165854930,
      "step": 7671,
      "time_per_iteration": 2.5418951511383057
    },
    {
      "auxiliary_loss_clip": 0.01090146,
      "auxiliary_loss_mlp": 0.01020545,
      "balance_loss_clip": 1.03579116,
      "balance_loss_mlp": 1.01545215,
      "epoch": 0.9225034569831059,
      "flos": 21144201292800.0,
      "grad_norm": 4.015370750639872,
      "language_loss": 0.7345823,
      "learning_rate": 6.25859538535447e-08,
      "loss": 0.75568926,
      "num_input_tokens_seen": 165875725,
      "step": 7672,
      "time_per_iteration": 2.475918769836426
    },
    {
      "auxiliary_loss_clip": 0.01066533,
      "auxiliary_loss_mlp": 0.01019014,
      "balance_loss_clip": 1.03524017,
      "balance_loss_mlp": 1.01374531,
      "epoch": 0.9226236998737449,
      "flos": 12496686508800.0,
      "grad_norm": 2.6129244098490005,
      "language_loss": 0.77479744,
      "learning_rate": 6.239275461274474e-08,
      "loss": 0.79565293,
      "num_input_tokens_seen": 165892100,
      "step": 7673,
      "time_per_iteration": 2.5328996181488037
    },
    {
      "auxiliary_loss_clip": 0.01078929,
      "auxiliary_loss_mlp": 0.01021735,
      "balance_loss_clip": 1.03577447,
      "balance_loss_mlp": 1.01662993,
      "epoch": 0.9227439427643841,
      "flos": 26216497002240.0,
      "grad_norm": 3.2586434444719656,
      "language_loss": 0.85705054,
      "learning_rate": 6.219984930542299e-08,
      "loss": 0.87805712,
      "num_input_tokens_seen": 165912840,
      "step": 7674,
      "time_per_iteration": 2.5508768558502197
    },
    {
      "auxiliary_loss_clip": 0.01082634,
      "auxiliary_loss_mlp": 0.01024808,
      "balance_loss_clip": 1.03680682,
      "balance_loss_mlp": 1.01981044,
      "epoch": 0.9228641856550232,
      "flos": 17969507706240.0,
      "grad_norm": 2.2652730426857888,
      "language_loss": 0.76075029,
      "learning_rate": 6.200723796084383e-08,
      "loss": 0.78182471,
      "num_input_tokens_seen": 165930935,
      "step": 7675,
      "time_per_iteration": 2.5116825103759766
    },
    {
      "auxiliary_loss_clip": 0.01011929,
      "auxiliary_loss_mlp": 0.01001435,
      "balance_loss_clip": 1.01526833,
      "balance_loss_mlp": 0.99974203,
      "epoch": 0.9229844285456622,
      "flos": 70426741415040.0,
      "grad_norm": 0.7668606099709097,
      "language_loss": 0.63038135,
      "learning_rate": 6.181492060822546e-08,
      "loss": 0.65051502,
      "num_input_tokens_seen": 165991110,
      "step": 7676,
      "time_per_iteration": 3.0936973094940186
    },
    {
      "auxiliary_loss_clip": 0.01047264,
      "auxiliary_loss_mlp": 0.0101777,
      "balance_loss_clip": 1.03383374,
      "balance_loss_mlp": 1.01248646,
      "epoch": 0.9231046714363014,
      "flos": 17969773132800.0,
      "grad_norm": 2.318066086365012,
      "language_loss": 0.81599778,
      "learning_rate": 6.162289727674274e-08,
      "loss": 0.83664811,
      "num_input_tokens_seen": 166008790,
      "step": 7677,
      "time_per_iteration": 2.5810611248016357
    },
    {
      "auxiliary_loss_clip": 0.01054104,
      "auxiliary_loss_mlp": 0.01017411,
      "balance_loss_clip": 1.03238678,
      "balance_loss_mlp": 1.0126009,
      "epoch": 0.9232249143269404,
      "flos": 17860159728000.0,
      "grad_norm": 2.229133967538202,
      "language_loss": 0.8749333,
      "learning_rate": 6.143116799552527e-08,
      "loss": 0.89564848,
      "num_input_tokens_seen": 166025035,
      "step": 7678,
      "time_per_iteration": 2.565244674682617
    },
    {
      "auxiliary_loss_clip": 0.01079283,
      "auxiliary_loss_mlp": 0.0101771,
      "balance_loss_clip": 1.03613424,
      "balance_loss_mlp": 1.01273346,
      "epoch": 0.9233451572175795,
      "flos": 23406637939200.0,
      "grad_norm": 2.3460014173446884,
      "language_loss": 0.5629909,
      "learning_rate": 6.123973279365802e-08,
      "loss": 0.58396083,
      "num_input_tokens_seen": 166044010,
      "step": 7679,
      "time_per_iteration": 2.5391013622283936
    },
    {
      "auxiliary_loss_clip": 0.01081662,
      "auxiliary_loss_mlp": 0.01018642,
      "balance_loss_clip": 1.03755093,
      "balance_loss_mlp": 1.01358438,
      "epoch": 0.9234654001082186,
      "flos": 18000989763840.0,
      "grad_norm": 2.141235735960366,
      "language_loss": 0.7763893,
      "learning_rate": 6.10485917001824e-08,
      "loss": 0.79739231,
      "num_input_tokens_seen": 166061865,
      "step": 7680,
      "time_per_iteration": 2.519442558288574
    },
    {
      "auxiliary_loss_clip": 0.01066141,
      "auxiliary_loss_mlp": 0.01018148,
      "balance_loss_clip": 1.03627849,
      "balance_loss_mlp": 1.01335275,
      "epoch": 0.9235856429988577,
      "flos": 24752874165120.0,
      "grad_norm": 1.9186305095869802,
      "language_loss": 0.80893302,
      "learning_rate": 6.085774474409322e-08,
      "loss": 0.82977587,
      "num_input_tokens_seen": 166082425,
      "step": 7681,
      "time_per_iteration": 2.579118490219116
    },
    {
      "auxiliary_loss_clip": 0.01067365,
      "auxiliary_loss_mlp": 0.01021994,
      "balance_loss_clip": 1.03580594,
      "balance_loss_mlp": 1.0169214,
      "epoch": 0.9237058858894968,
      "flos": 14101594398720.0,
      "grad_norm": 2.078275043053277,
      "language_loss": 0.69749844,
      "learning_rate": 6.066719195434267e-08,
      "loss": 0.71839201,
      "num_input_tokens_seen": 166100225,
      "step": 7682,
      "time_per_iteration": 2.533837080001831
    },
    {
      "auxiliary_loss_clip": 0.01079637,
      "auxiliary_loss_mlp": 0.01020675,
      "balance_loss_clip": 1.03620148,
      "balance_loss_mlp": 1.01534009,
      "epoch": 0.9238261287801359,
      "flos": 28697060833920.0,
      "grad_norm": 2.0483011867738856,
      "language_loss": 0.66416562,
      "learning_rate": 6.047693335983717e-08,
      "loss": 0.68516868,
      "num_input_tokens_seen": 166122570,
      "step": 7683,
      "time_per_iteration": 2.576542377471924
    },
    {
      "auxiliary_loss_clip": 0.01078966,
      "auxiliary_loss_mlp": 0.01019895,
      "balance_loss_clip": 1.03439856,
      "balance_loss_mlp": 1.01467073,
      "epoch": 0.923946371670775,
      "flos": 23114057460480.0,
      "grad_norm": 2.6461272416773993,
      "language_loss": 0.82344174,
      "learning_rate": 6.028696898943853e-08,
      "loss": 0.84443039,
      "num_input_tokens_seen": 166141630,
      "step": 7684,
      "time_per_iteration": 3.2973058223724365
    },
    {
      "auxiliary_loss_clip": 0.01070032,
      "auxiliary_loss_mlp": 0.00756909,
      "balance_loss_clip": 1.03490222,
      "balance_loss_mlp": 1.0017252,
      "epoch": 0.924066614561414,
      "flos": 21869016825600.0,
      "grad_norm": 1.8533019017906138,
      "language_loss": 0.70607793,
      "learning_rate": 6.00972988719648e-08,
      "loss": 0.72434741,
      "num_input_tokens_seen": 166159865,
      "step": 7685,
      "time_per_iteration": 3.4007537364959717
    },
    {
      "auxiliary_loss_clip": 0.01049763,
      "auxiliary_loss_mlp": 0.00756759,
      "balance_loss_clip": 1.02945089,
      "balance_loss_mlp": 1.0015713,
      "epoch": 0.9241868574520532,
      "flos": 28514397104640.0,
      "grad_norm": 3.345291202182215,
      "language_loss": 0.70614505,
      "learning_rate": 5.990792303618807e-08,
      "loss": 0.72421026,
      "num_input_tokens_seen": 166179445,
      "step": 7686,
      "time_per_iteration": 2.61653995513916
    },
    {
      "auxiliary_loss_clip": 0.01048551,
      "auxiliary_loss_mlp": 0.01015365,
      "balance_loss_clip": 1.03401566,
      "balance_loss_mlp": 1.01043558,
      "epoch": 0.9243071003426923,
      "flos": 30520930106880.0,
      "grad_norm": 1.6810667079104649,
      "language_loss": 0.69708538,
      "learning_rate": 5.971884151083695e-08,
      "loss": 0.71772462,
      "num_input_tokens_seen": 166201855,
      "step": 7687,
      "time_per_iteration": 2.649918794631958
    },
    {
      "auxiliary_loss_clip": 0.01070975,
      "auxiliary_loss_mlp": 0.010202,
      "balance_loss_clip": 1.03743196,
      "balance_loss_mlp": 1.01508904,
      "epoch": 0.9244273432333313,
      "flos": 28660876934400.0,
      "grad_norm": 12.282620253968883,
      "language_loss": 0.74786842,
      "learning_rate": 5.9530054324595124e-08,
      "loss": 0.76878017,
      "num_input_tokens_seen": 166221970,
      "step": 7688,
      "time_per_iteration": 2.613694667816162
    },
    {
      "auxiliary_loss_clip": 0.01029842,
      "auxiliary_loss_mlp": 0.00752301,
      "balance_loss_clip": 1.01614702,
      "balance_loss_mlp": 1.00094056,
      "epoch": 0.9245475861239704,
      "flos": 66236813147520.0,
      "grad_norm": 0.7189267977836792,
      "language_loss": 0.5747571,
      "learning_rate": 5.934156150610103e-08,
      "loss": 0.59257853,
      "num_input_tokens_seen": 166279335,
      "step": 7689,
      "time_per_iteration": 3.1768317222595215
    },
    {
      "auxiliary_loss_clip": 0.01067874,
      "auxiliary_loss_mlp": 0.01020134,
      "balance_loss_clip": 1.03447139,
      "balance_loss_mlp": 1.01509142,
      "epoch": 0.9246678290146095,
      "flos": 24242014828800.0,
      "grad_norm": 3.2991105065134074,
      "language_loss": 0.79360569,
      "learning_rate": 5.915336308394914e-08,
      "loss": 0.81448579,
      "num_input_tokens_seen": 166298170,
      "step": 7690,
      "time_per_iteration": 2.5602073669433594
    },
    {
      "auxiliary_loss_clip": 0.01076034,
      "auxiliary_loss_mlp": 0.01017892,
      "balance_loss_clip": 1.03476477,
      "balance_loss_mlp": 1.01321876,
      "epoch": 0.9247880719052486,
      "flos": 18990771361920.0,
      "grad_norm": 2.015075592693176,
      "language_loss": 0.76905775,
      "learning_rate": 5.89654590866886e-08,
      "loss": 0.78999704,
      "num_input_tokens_seen": 166317670,
      "step": 7691,
      "time_per_iteration": 2.533978223800659
    },
    {
      "auxiliary_loss_clip": 0.01027186,
      "auxiliary_loss_mlp": 0.01018407,
      "balance_loss_clip": 1.03307152,
      "balance_loss_mlp": 1.01298952,
      "epoch": 0.9249083147958876,
      "flos": 24026352318720.0,
      "grad_norm": 2.2939659833801667,
      "language_loss": 0.88109177,
      "learning_rate": 5.877784954282483e-08,
      "loss": 0.90154767,
      "num_input_tokens_seen": 166337010,
      "step": 7692,
      "time_per_iteration": 2.6648948192596436
    },
    {
      "auxiliary_loss_clip": 0.01080747,
      "auxiliary_loss_mlp": 0.01019646,
      "balance_loss_clip": 1.03593755,
      "balance_loss_mlp": 1.01407599,
      "epoch": 0.9250285576865268,
      "flos": 30776606242560.0,
      "grad_norm": 1.8207584895525124,
      "language_loss": 0.72518837,
      "learning_rate": 5.8590534480817963e-08,
      "loss": 0.74619234,
      "num_input_tokens_seen": 166358735,
      "step": 7693,
      "time_per_iteration": 3.3357808589935303
    },
    {
      "auxiliary_loss_clip": 0.01093653,
      "auxiliary_loss_mlp": 0.01020983,
      "balance_loss_clip": 1.03886294,
      "balance_loss_mlp": 1.01588082,
      "epoch": 0.9251488005771659,
      "flos": 10635078695040.0,
      "grad_norm": 2.5743131051154333,
      "language_loss": 0.72182882,
      "learning_rate": 5.840351392908349e-08,
      "loss": 0.74297518,
      "num_input_tokens_seen": 166374455,
      "step": 7694,
      "time_per_iteration": 2.4483227729797363
    },
    {
      "auxiliary_loss_clip": 0.01072401,
      "auxiliary_loss_mlp": 0.00756747,
      "balance_loss_clip": 1.03615916,
      "balance_loss_mlp": 1.00164056,
      "epoch": 0.9252690434678049,
      "flos": 23588657061120.0,
      "grad_norm": 12.672300047107582,
      "language_loss": 0.70396727,
      "learning_rate": 5.821678791599205e-08,
      "loss": 0.72225869,
      "num_input_tokens_seen": 166393900,
      "step": 7695,
      "time_per_iteration": 2.5879969596862793
    },
    {
      "auxiliary_loss_clip": 0.01066685,
      "auxiliary_loss_mlp": 0.01021747,
      "balance_loss_clip": 1.03631318,
      "balance_loss_mlp": 1.0166595,
      "epoch": 0.9253892863584441,
      "flos": 21471221439360.0,
      "grad_norm": 3.4465826099961725,
      "language_loss": 0.8110373,
      "learning_rate": 5.803035646986965e-08,
      "loss": 0.83192164,
      "num_input_tokens_seen": 166413235,
      "step": 7696,
      "time_per_iteration": 2.5453901290893555
    },
    {
      "auxiliary_loss_clip": 0.01092671,
      "auxiliary_loss_mlp": 0.01020669,
      "balance_loss_clip": 1.03668916,
      "balance_loss_mlp": 1.01520658,
      "epoch": 0.9255095292490831,
      "flos": 17458572533760.0,
      "grad_norm": 2.4513054653813326,
      "language_loss": 0.6760363,
      "learning_rate": 5.7844219618998766e-08,
      "loss": 0.69716966,
      "num_input_tokens_seen": 166427560,
      "step": 7697,
      "time_per_iteration": 2.4646475315093994
    },
    {
      "auxiliary_loss_clip": 0.01055498,
      "auxiliary_loss_mlp": 0.010184,
      "balance_loss_clip": 1.03212655,
      "balance_loss_mlp": 1.01315236,
      "epoch": 0.9256297721397222,
      "flos": 24752798328960.0,
      "grad_norm": 1.7568173771310993,
      "language_loss": 0.71604198,
      "learning_rate": 5.765837739161505e-08,
      "loss": 0.736781,
      "num_input_tokens_seen": 166446680,
      "step": 7698,
      "time_per_iteration": 2.6081905364990234
    },
    {
      "auxiliary_loss_clip": 0.01054424,
      "auxiliary_loss_mlp": 0.01015117,
      "balance_loss_clip": 1.03357327,
      "balance_loss_mlp": 1.01000285,
      "epoch": 0.9257500150303614,
      "flos": 23114436641280.0,
      "grad_norm": 3.984680941105847,
      "language_loss": 0.74451327,
      "learning_rate": 5.7472829815911504e-08,
      "loss": 0.76520866,
      "num_input_tokens_seen": 166465505,
      "step": 7699,
      "time_per_iteration": 2.594674587249756
    },
    {
      "auxiliary_loss_clip": 0.0106872,
      "auxiliary_loss_mlp": 0.01024899,
      "balance_loss_clip": 1.03565347,
      "balance_loss_mlp": 1.01944542,
      "epoch": 0.9258702579210004,
      "flos": 22566862552320.0,
      "grad_norm": 2.262751318414386,
      "language_loss": 0.82043236,
      "learning_rate": 5.7287576920035164e-08,
      "loss": 0.84136856,
      "num_input_tokens_seen": 166484520,
      "step": 7700,
      "time_per_iteration": 2.5536704063415527
    },
    {
      "auxiliary_loss_clip": 0.01050141,
      "auxiliary_loss_mlp": 0.01019355,
      "balance_loss_clip": 1.03202415,
      "balance_loss_mlp": 1.01448536,
      "epoch": 0.9259905008116395,
      "flos": 30006696061440.0,
      "grad_norm": 2.311490827778038,
      "language_loss": 0.76815546,
      "learning_rate": 5.7102618732088435e-08,
      "loss": 0.78885043,
      "num_input_tokens_seen": 166503850,
      "step": 7701,
      "time_per_iteration": 2.6419363021850586
    },
    {
      "auxiliary_loss_clip": 0.01067853,
      "auxiliary_loss_mlp": 0.01022271,
      "balance_loss_clip": 1.03736508,
      "balance_loss_mlp": 1.01734209,
      "epoch": 0.9261107437022786,
      "flos": 24574457260800.0,
      "grad_norm": 1.57638023738633,
      "language_loss": 0.74517572,
      "learning_rate": 5.6917955280130216e-08,
      "loss": 0.76607698,
      "num_input_tokens_seen": 166525330,
      "step": 7702,
      "time_per_iteration": 2.5973780155181885
    },
    {
      "auxiliary_loss_clip": 0.01072225,
      "auxiliary_loss_mlp": 0.01021758,
      "balance_loss_clip": 1.03173113,
      "balance_loss_mlp": 1.01679039,
      "epoch": 0.9262309865929177,
      "flos": 22020653514240.0,
      "grad_norm": 4.3040782569677045,
      "language_loss": 0.72176671,
      "learning_rate": 5.6733586592172755e-08,
      "loss": 0.74270654,
      "num_input_tokens_seen": 166544825,
      "step": 7703,
      "time_per_iteration": 2.519073963165283
    },
    {
      "auxiliary_loss_clip": 0.01064045,
      "auxiliary_loss_mlp": 0.00756433,
      "balance_loss_clip": 1.03341305,
      "balance_loss_mlp": 1.00161231,
      "epoch": 0.9263512294835567,
      "flos": 20341557757440.0,
      "grad_norm": 1.9348022080899512,
      "language_loss": 0.79808098,
      "learning_rate": 5.6549512696185244e-08,
      "loss": 0.81628573,
      "num_input_tokens_seen": 166563325,
      "step": 7704,
      "time_per_iteration": 2.5645806789398193
    },
    {
      "auxiliary_loss_clip": 0.0109073,
      "auxiliary_loss_mlp": 0.01018521,
      "balance_loss_clip": 1.03688216,
      "balance_loss_mlp": 1.01339483,
      "epoch": 0.9264714723741959,
      "flos": 21217517043840.0,
      "grad_norm": 1.9971567245103108,
      "language_loss": 0.68180674,
      "learning_rate": 5.636573362009156e-08,
      "loss": 0.70289928,
      "num_input_tokens_seen": 166583385,
      "step": 7705,
      "time_per_iteration": 2.5108728408813477
    },
    {
      "auxiliary_loss_clip": 0.01093509,
      "auxiliary_loss_mlp": 0.01022563,
      "balance_loss_clip": 1.03780603,
      "balance_loss_mlp": 1.01737118,
      "epoch": 0.926591715264835,
      "flos": 18006942902400.0,
      "grad_norm": 3.5976436325245236,
      "language_loss": 0.7704581,
      "learning_rate": 5.618224939177074e-08,
      "loss": 0.79161882,
      "num_input_tokens_seen": 166601290,
      "step": 7706,
      "time_per_iteration": 2.457369327545166
    },
    {
      "auxiliary_loss_clip": 0.0106545,
      "auxiliary_loss_mlp": 0.01019595,
      "balance_loss_clip": 1.03373075,
      "balance_loss_mlp": 1.01423991,
      "epoch": 0.926711958155474,
      "flos": 36170575649280.0,
      "grad_norm": 2.6207709272701916,
      "language_loss": 0.70293701,
      "learning_rate": 5.599906003905719e-08,
      "loss": 0.72378749,
      "num_input_tokens_seen": 166623835,
      "step": 7707,
      "time_per_iteration": 2.673107385635376
    },
    {
      "auxiliary_loss_clip": 0.01074902,
      "auxiliary_loss_mlp": 0.01019943,
      "balance_loss_clip": 1.03860521,
      "balance_loss_mlp": 1.01444745,
      "epoch": 0.9268322010461132,
      "flos": 21034853314560.0,
      "grad_norm": 2.2822121090232868,
      "language_loss": 0.81793392,
      "learning_rate": 5.581616558974023e-08,
      "loss": 0.83888233,
      "num_input_tokens_seen": 166642400,
      "step": 7708,
      "time_per_iteration": 2.529731273651123
    },
    {
      "auxiliary_loss_clip": 0.01083927,
      "auxiliary_loss_mlp": 0.00756634,
      "balance_loss_clip": 1.03808212,
      "balance_loss_mlp": 1.00156307,
      "epoch": 0.9269524439367522,
      "flos": 22966970941440.0,
      "grad_norm": 2.0802200134129136,
      "language_loss": 0.7881254,
      "learning_rate": 5.5633566071565444e-08,
      "loss": 0.80653095,
      "num_input_tokens_seen": 166661640,
      "step": 7709,
      "time_per_iteration": 3.3516287803649902
    },
    {
      "auxiliary_loss_clip": 0.01031634,
      "auxiliary_loss_mlp": 0.01018556,
      "balance_loss_clip": 1.03223956,
      "balance_loss_mlp": 1.01377904,
      "epoch": 0.9270726868273913,
      "flos": 41978834807040.0,
      "grad_norm": 1.9354385657116342,
      "language_loss": 0.70963216,
      "learning_rate": 5.5451261512232896e-08,
      "loss": 0.73013401,
      "num_input_tokens_seen": 166684320,
      "step": 7710,
      "time_per_iteration": 4.380958318710327
    },
    {
      "auxiliary_loss_clip": 0.010807,
      "auxiliary_loss_mlp": 0.01019209,
      "balance_loss_clip": 1.03405452,
      "balance_loss_mlp": 1.01401186,
      "epoch": 0.9271929297180305,
      "flos": 19793794078080.0,
      "grad_norm": 2.081256203041799,
      "language_loss": 0.62709755,
      "learning_rate": 5.5269251939397576e-08,
      "loss": 0.64809668,
      "num_input_tokens_seen": 166703835,
      "step": 7711,
      "time_per_iteration": 2.517441987991333
    },
    {
      "auxiliary_loss_clip": 0.01051565,
      "auxiliary_loss_mlp": 0.01017503,
      "balance_loss_clip": 1.03200948,
      "balance_loss_mlp": 1.01250505,
      "epoch": 0.9273131726086695,
      "flos": 19970049651840.0,
      "grad_norm": 2.1393964630952502,
      "language_loss": 0.77158546,
      "learning_rate": 5.508753738067073e-08,
      "loss": 0.79227614,
      "num_input_tokens_seen": 166723375,
      "step": 7712,
      "time_per_iteration": 2.6025280952453613
    },
    {
      "auxiliary_loss_clip": 0.01081096,
      "auxiliary_loss_mlp": 0.01018686,
      "balance_loss_clip": 1.03549802,
      "balance_loss_mlp": 1.01338434,
      "epoch": 0.9274334154993086,
      "flos": 23260840634880.0,
      "grad_norm": 5.611550891553095,
      "language_loss": 0.78889048,
      "learning_rate": 5.4906117863617875e-08,
      "loss": 0.80988824,
      "num_input_tokens_seen": 166742760,
      "step": 7713,
      "time_per_iteration": 2.5505666732788086
    },
    {
      "auxiliary_loss_clip": 0.01058496,
      "auxiliary_loss_mlp": 0.01016865,
      "balance_loss_clip": 1.0334909,
      "balance_loss_mlp": 1.01187623,
      "epoch": 0.9275536583899477,
      "flos": 31798021570560.0,
      "grad_norm": 1.9078860853876998,
      "language_loss": 0.7806896,
      "learning_rate": 5.4724993415760533e-08,
      "loss": 0.80144316,
      "num_input_tokens_seen": 166761115,
      "step": 7714,
      "time_per_iteration": 2.652468681335449
    },
    {
      "auxiliary_loss_clip": 0.01059989,
      "auxiliary_loss_mlp": 0.0075674,
      "balance_loss_clip": 1.03487897,
      "balance_loss_mlp": 1.00169158,
      "epoch": 0.9276739012805868,
      "flos": 18698949244800.0,
      "grad_norm": 2.293320221608097,
      "language_loss": 0.74943507,
      "learning_rate": 5.454416406457496e-08,
      "loss": 0.76760232,
      "num_input_tokens_seen": 166780210,
      "step": 7715,
      "time_per_iteration": 2.5734310150146484
    },
    {
      "auxiliary_loss_clip": 0.01079987,
      "auxiliary_loss_mlp": 0.01020441,
      "balance_loss_clip": 1.03588426,
      "balance_loss_mlp": 1.01573539,
      "epoch": 0.9277941441712259,
      "flos": 13880661275520.0,
      "grad_norm": 2.4651217386210273,
      "language_loss": 0.74135751,
      "learning_rate": 5.436362983749299e-08,
      "loss": 0.76236176,
      "num_input_tokens_seen": 166795380,
      "step": 7716,
      "time_per_iteration": 2.4869983196258545
    },
    {
      "auxiliary_loss_clip": 0.01045001,
      "auxiliary_loss_mlp": 0.01020968,
      "balance_loss_clip": 1.02941263,
      "balance_loss_mlp": 1.01620221,
      "epoch": 0.927914387061865,
      "flos": 23260916471040.0,
      "grad_norm": 2.2437304820135777,
      "language_loss": 0.64431202,
      "learning_rate": 5.418339076190137e-08,
      "loss": 0.66497171,
      "num_input_tokens_seen": 166814890,
      "step": 7717,
      "time_per_iteration": 2.5987703800201416
    },
    {
      "auxiliary_loss_clip": 0.01068434,
      "auxiliary_loss_mlp": 0.01017485,
      "balance_loss_clip": 1.03549302,
      "balance_loss_mlp": 1.01231742,
      "epoch": 0.9280346299525041,
      "flos": 18075480975360.0,
      "grad_norm": 2.179912183252322,
      "language_loss": 0.88287866,
      "learning_rate": 5.400344686514202e-08,
      "loss": 0.90373784,
      "num_input_tokens_seen": 166832475,
      "step": 7718,
      "time_per_iteration": 2.5256032943725586
    },
    {
      "auxiliary_loss_clip": 0.01078424,
      "auxiliary_loss_mlp": 0.01016222,
      "balance_loss_clip": 1.03619421,
      "balance_loss_mlp": 1.0111351,
      "epoch": 0.9281548728431431,
      "flos": 22344905640960.0,
      "grad_norm": 1.7339217548170736,
      "language_loss": 0.66594112,
      "learning_rate": 5.38237981745131e-08,
      "loss": 0.68688762,
      "num_input_tokens_seen": 166850590,
      "step": 7719,
      "time_per_iteration": 3.2060813903808594
    },
    {
      "auxiliary_loss_clip": 0.01082902,
      "auxiliary_loss_mlp": 0.00756732,
      "balance_loss_clip": 1.03770232,
      "balance_loss_mlp": 1.00164008,
      "epoch": 0.9282751157337822,
      "flos": 18845770337280.0,
      "grad_norm": 1.8315514418875878,
      "language_loss": 0.81333667,
      "learning_rate": 5.364444471726592e-08,
      "loss": 0.83173299,
      "num_input_tokens_seen": 166869795,
      "step": 7720,
      "time_per_iteration": 2.5053012371063232
    },
    {
      "auxiliary_loss_clip": 0.01076641,
      "auxiliary_loss_mlp": 0.01017059,
      "balance_loss_clip": 1.03447247,
      "balance_loss_mlp": 1.01182556,
      "epoch": 0.9283953586244214,
      "flos": 25559195754240.0,
      "grad_norm": 2.0222742704146897,
      "language_loss": 0.79894507,
      "learning_rate": 5.346538652060939e-08,
      "loss": 0.81988204,
      "num_input_tokens_seen": 166891150,
      "step": 7721,
      "time_per_iteration": 2.569779396057129
    },
    {
      "auxiliary_loss_clip": 0.01062188,
      "auxiliary_loss_mlp": 0.01017381,
      "balance_loss_clip": 1.03235102,
      "balance_loss_mlp": 1.01247001,
      "epoch": 0.9285156015150604,
      "flos": 18225449268480.0,
      "grad_norm": 1.8234042681528342,
      "language_loss": 0.70207429,
      "learning_rate": 5.3286623611705994e-08,
      "loss": 0.72286999,
      "num_input_tokens_seen": 166909195,
      "step": 7722,
      "time_per_iteration": 2.4974801540374756
    },
    {
      "auxiliary_loss_clip": 0.01040307,
      "auxiliary_loss_mlp": 0.01002514,
      "balance_loss_clip": 1.01538825,
      "balance_loss_mlp": 1.00085723,
      "epoch": 0.9286358444056995,
      "flos": 66407560548480.0,
      "grad_norm": 0.8368873823803274,
      "language_loss": 0.60559881,
      "learning_rate": 5.3108156017673824e-08,
      "loss": 0.62602711,
      "num_input_tokens_seen": 166970955,
      "step": 7723,
      "time_per_iteration": 3.156240940093994
    },
    {
      "auxiliary_loss_clip": 0.01065147,
      "auxiliary_loss_mlp": 0.01019726,
      "balance_loss_clip": 1.03496313,
      "balance_loss_mlp": 1.01407576,
      "epoch": 0.9287560872963386,
      "flos": 22347787415040.0,
      "grad_norm": 3.0289032178434354,
      "language_loss": 0.71790302,
      "learning_rate": 5.2929983765586775e-08,
      "loss": 0.73875177,
      "num_input_tokens_seen": 166989735,
      "step": 7724,
      "time_per_iteration": 2.55883526802063
    },
    {
      "auxiliary_loss_clip": 0.01092935,
      "auxiliary_loss_mlp": 0.01020513,
      "balance_loss_clip": 1.03825653,
      "balance_loss_mlp": 1.01561344,
      "epoch": 0.9288763301869777,
      "flos": 25702452547200.0,
      "grad_norm": 1.5903075163019151,
      "language_loss": 0.62706143,
      "learning_rate": 5.275210688247278e-08,
      "loss": 0.64819592,
      "num_input_tokens_seen": 167010060,
      "step": 7725,
      "time_per_iteration": 2.5247533321380615
    },
    {
      "auxiliary_loss_clip": 0.01039215,
      "auxiliary_loss_mlp": 0.01019335,
      "balance_loss_clip": 1.0339632,
      "balance_loss_mlp": 1.01417565,
      "epoch": 0.9289965730776167,
      "flos": 12313643598720.0,
      "grad_norm": 2.067578588059547,
      "language_loss": 0.85051399,
      "learning_rate": 5.257452539531604e-08,
      "loss": 0.87109947,
      "num_input_tokens_seen": 167027130,
      "step": 7726,
      "time_per_iteration": 2.5718140602111816
    },
    {
      "auxiliary_loss_clip": 0.01080321,
      "auxiliary_loss_mlp": 0.01021405,
      "balance_loss_clip": 1.03582633,
      "balance_loss_mlp": 1.01604664,
      "epoch": 0.9291168159682559,
      "flos": 26688290664960.0,
      "grad_norm": 1.6770954969339598,
      "language_loss": 0.68369853,
      "learning_rate": 5.2397239331055445e-08,
      "loss": 0.70471579,
      "num_input_tokens_seen": 167049130,
      "step": 7727,
      "time_per_iteration": 2.567542552947998
    },
    {
      "auxiliary_loss_clip": 0.01064689,
      "auxiliary_loss_mlp": 0.01017682,
      "balance_loss_clip": 1.03488994,
      "balance_loss_mlp": 1.01237977,
      "epoch": 0.929237058858895,
      "flos": 14540010099840.0,
      "grad_norm": 4.224439573547512,
      "language_loss": 0.80957687,
      "learning_rate": 5.2220248716585036e-08,
      "loss": 0.83040059,
      "num_input_tokens_seen": 167066810,
      "step": 7728,
      "time_per_iteration": 2.5171806812286377
    },
    {
      "auxiliary_loss_clip": 0.01080051,
      "auxiliary_loss_mlp": 0.0102249,
      "balance_loss_clip": 1.03475308,
      "balance_loss_mlp": 1.01742625,
      "epoch": 0.929357301749534,
      "flos": 23837356270080.0,
      "grad_norm": 2.381030508162074,
      "language_loss": 0.75777173,
      "learning_rate": 5.204355357875445e-08,
      "loss": 0.77879715,
      "num_input_tokens_seen": 167085155,
      "step": 7729,
      "time_per_iteration": 2.5347235202789307
    },
    {
      "auxiliary_loss_clip": 0.01073055,
      "auxiliary_loss_mlp": 0.01017943,
      "balance_loss_clip": 1.03675807,
      "balance_loss_mlp": 1.01247144,
      "epoch": 0.9294775446401732,
      "flos": 12970982764800.0,
      "grad_norm": 2.7348612204874736,
      "language_loss": 0.70384699,
      "learning_rate": 5.1867153944367584e-08,
      "loss": 0.72475696,
      "num_input_tokens_seen": 167101545,
      "step": 7730,
      "time_per_iteration": 2.516303300857544
    },
    {
      "auxiliary_loss_clip": 0.01057187,
      "auxiliary_loss_mlp": 0.01024316,
      "balance_loss_clip": 1.03425002,
      "balance_loss_mlp": 1.01928878,
      "epoch": 0.9295977875308122,
      "flos": 26214108163200.0,
      "grad_norm": 2.0604803892518744,
      "language_loss": 0.73647857,
      "learning_rate": 5.16910498401848e-08,
      "loss": 0.75729358,
      "num_input_tokens_seen": 167120995,
      "step": 7731,
      "time_per_iteration": 2.628246307373047
    },
    {
      "auxiliary_loss_clip": 0.01091999,
      "auxiliary_loss_mlp": 0.01021462,
      "balance_loss_clip": 1.03762364,
      "balance_loss_mlp": 1.01654112,
      "epoch": 0.9297180304214513,
      "flos": 16474175303040.0,
      "grad_norm": 2.36922013789769,
      "language_loss": 0.83500093,
      "learning_rate": 5.151524129292073e-08,
      "loss": 0.85613555,
      "num_input_tokens_seen": 167138890,
      "step": 7732,
      "time_per_iteration": 2.465510606765747
    },
    {
      "auxiliary_loss_clip": 0.01076057,
      "auxiliary_loss_mlp": 0.01023087,
      "balance_loss_clip": 1.03450966,
      "balance_loss_mlp": 1.01793098,
      "epoch": 0.9298382733120905,
      "flos": 24062687890560.0,
      "grad_norm": 2.593294510092704,
      "language_loss": 0.6684283,
      "learning_rate": 5.1339728329245155e-08,
      "loss": 0.68941975,
      "num_input_tokens_seen": 167159455,
      "step": 7733,
      "time_per_iteration": 2.5411064624786377
    },
    {
      "auxiliary_loss_clip": 0.01093515,
      "auxiliary_loss_mlp": 0.01021128,
      "balance_loss_clip": 1.03705323,
      "balance_loss_mlp": 1.01546299,
      "epoch": 0.9299585162027295,
      "flos": 22129849820160.0,
      "grad_norm": 2.064442688545129,
      "language_loss": 0.79450369,
      "learning_rate": 5.116451097578367e-08,
      "loss": 0.81565022,
      "num_input_tokens_seen": 167178495,
      "step": 7734,
      "time_per_iteration": 2.4958930015563965
    },
    {
      "auxiliary_loss_clip": 0.01058715,
      "auxiliary_loss_mlp": 0.01022559,
      "balance_loss_clip": 1.03549957,
      "balance_loss_mlp": 1.01738524,
      "epoch": 0.9300787590933686,
      "flos": 21473989459200.0,
      "grad_norm": 1.7009449739807363,
      "language_loss": 0.74202669,
      "learning_rate": 5.0989589259115895e-08,
      "loss": 0.76283944,
      "num_input_tokens_seen": 167199380,
      "step": 7735,
      "time_per_iteration": 3.376082181930542
    },
    {
      "auxiliary_loss_clip": 0.01081105,
      "auxiliary_loss_mlp": 0.01020543,
      "balance_loss_clip": 1.03501654,
      "balance_loss_mlp": 1.01484179,
      "epoch": 0.9301990019840077,
      "flos": 17781194183040.0,
      "grad_norm": 1.9080410135155086,
      "language_loss": 0.71631646,
      "learning_rate": 5.081496320577816e-08,
      "loss": 0.73733294,
      "num_input_tokens_seen": 167216500,
      "step": 7736,
      "time_per_iteration": 3.276482343673706
    },
    {
      "auxiliary_loss_clip": 0.01027613,
      "auxiliary_loss_mlp": 0.01004106,
      "balance_loss_clip": 1.03200197,
      "balance_loss_mlp": 1.00234151,
      "epoch": 0.9303192448746468,
      "flos": 58901891201280.0,
      "grad_norm": 0.9182000804996628,
      "language_loss": 0.6113019,
      "learning_rate": 5.0640632842260835e-08,
      "loss": 0.6316191,
      "num_input_tokens_seen": 167276760,
      "step": 7737,
      "time_per_iteration": 3.9170849323272705
    },
    {
      "auxiliary_loss_clip": 0.01046409,
      "auxiliary_loss_mlp": 0.0075679,
      "balance_loss_clip": 1.03118587,
      "balance_loss_mlp": 1.00169587,
      "epoch": 0.9304394877652858,
      "flos": 57667629352320.0,
      "grad_norm": 1.5029784013469178,
      "language_loss": 0.72762328,
      "learning_rate": 5.0466598195009426e-08,
      "loss": 0.74565524,
      "num_input_tokens_seen": 167303630,
      "step": 7738,
      "time_per_iteration": 2.9136240482330322
    },
    {
      "auxiliary_loss_clip": 0.01045735,
      "auxiliary_loss_mlp": 0.01022891,
      "balance_loss_clip": 1.03301001,
      "balance_loss_mlp": 1.01757407,
      "epoch": 0.930559730655925,
      "flos": 20998252316160.0,
      "grad_norm": 4.468217600965997,
      "language_loss": 0.70152611,
      "learning_rate": 5.0292859290425036e-08,
      "loss": 0.72221231,
      "num_input_tokens_seen": 167321500,
      "step": 7739,
      "time_per_iteration": 2.5862128734588623
    },
    {
      "auxiliary_loss_clip": 0.01091732,
      "auxiliary_loss_mlp": 0.0101742,
      "balance_loss_clip": 1.03706002,
      "balance_loss_mlp": 1.01251149,
      "epoch": 0.9306799735465641,
      "flos": 23260499372160.0,
      "grad_norm": 2.9115921360552663,
      "language_loss": 0.7796737,
      "learning_rate": 5.011941615486348e-08,
      "loss": 0.80076522,
      "num_input_tokens_seen": 167340615,
      "step": 7740,
      "time_per_iteration": 2.4844157695770264
    },
    {
      "auxiliary_loss_clip": 0.01091125,
      "auxiliary_loss_mlp": 0.01019611,
      "balance_loss_clip": 1.03579545,
      "balance_loss_mlp": 1.01458597,
      "epoch": 0.9308002164372031,
      "flos": 15233343575040.0,
      "grad_norm": 1.9833027848350682,
      "language_loss": 0.84738207,
      "learning_rate": 4.994626881463659e-08,
      "loss": 0.86848944,
      "num_input_tokens_seen": 167356870,
      "step": 7741,
      "time_per_iteration": 2.4629132747650146
    },
    {
      "auxiliary_loss_clip": 0.01043534,
      "auxiliary_loss_mlp": 0.01020598,
      "balance_loss_clip": 1.03324413,
      "balance_loss_mlp": 1.01528168,
      "epoch": 0.9309204593278423,
      "flos": 30850149502080.0,
      "grad_norm": 1.679893246528005,
      "language_loss": 0.71129394,
      "learning_rate": 4.9773417296009814e-08,
      "loss": 0.73193526,
      "num_input_tokens_seen": 167378390,
      "step": 7742,
      "time_per_iteration": 2.6572000980377197
    },
    {
      "auxiliary_loss_clip": 0.01083861,
      "auxiliary_loss_mlp": 0.01021305,
      "balance_loss_clip": 1.03829789,
      "balance_loss_mlp": 1.0161674,
      "epoch": 0.9310407022184813,
      "flos": 23039376658560.0,
      "grad_norm": 2.123484922456161,
      "language_loss": 0.65767688,
      "learning_rate": 4.960086162520527e-08,
      "loss": 0.67872858,
      "num_input_tokens_seen": 167398480,
      "step": 7743,
      "time_per_iteration": 2.561602830886841
    },
    {
      "auxiliary_loss_clip": 0.01033792,
      "auxiliary_loss_mlp": 0.01020245,
      "balance_loss_clip": 1.02795935,
      "balance_loss_mlp": 1.01532471,
      "epoch": 0.9311609451091204,
      "flos": 22130191082880.0,
      "grad_norm": 2.0315308178373552,
      "language_loss": 0.82482183,
      "learning_rate": 4.942860182839936e-08,
      "loss": 0.84536231,
      "num_input_tokens_seen": 167416825,
      "step": 7744,
      "time_per_iteration": 2.5852034091949463
    },
    {
      "auxiliary_loss_clip": 0.01068409,
      "auxiliary_loss_mlp": 0.01019122,
      "balance_loss_clip": 1.03512669,
      "balance_loss_mlp": 1.01395082,
      "epoch": 0.9312811879997596,
      "flos": 21100964630400.0,
      "grad_norm": 1.7705120413902253,
      "language_loss": 0.7975179,
      "learning_rate": 4.925663793172341e-08,
      "loss": 0.81839317,
      "num_input_tokens_seen": 167434785,
      "step": 7745,
      "time_per_iteration": 3.22597074508667
    },
    {
      "auxiliary_loss_clip": 0.01019704,
      "auxiliary_loss_mlp": 0.00752436,
      "balance_loss_clip": 1.01604128,
      "balance_loss_mlp": 1.00094974,
      "epoch": 0.9314014308903986,
      "flos": 67154757799680.0,
      "grad_norm": 0.7840691900975558,
      "language_loss": 0.56462938,
      "learning_rate": 4.908496996126477e-08,
      "loss": 0.58235079,
      "num_input_tokens_seen": 167498245,
      "step": 7746,
      "time_per_iteration": 3.1760828495025635
    },
    {
      "auxiliary_loss_clip": 0.01076897,
      "auxiliary_loss_mlp": 0.01020076,
      "balance_loss_clip": 1.03886354,
      "balance_loss_mlp": 1.01474452,
      "epoch": 0.9315216737810377,
      "flos": 22567810504320.0,
      "grad_norm": 1.7848011648480653,
      "language_loss": 0.76409721,
      "learning_rate": 4.89135979430646e-08,
      "loss": 0.78506696,
      "num_input_tokens_seen": 167518290,
      "step": 7747,
      "time_per_iteration": 2.5133447647094727
    },
    {
      "auxiliary_loss_clip": 0.01093522,
      "auxiliary_loss_mlp": 0.01019774,
      "balance_loss_clip": 1.03928995,
      "balance_loss_mlp": 1.0143857,
      "epoch": 0.9316419166716768,
      "flos": 23986111184640.0,
      "grad_norm": 1.7797440592790357,
      "language_loss": 0.85450059,
      "learning_rate": 4.874252190312078e-08,
      "loss": 0.87563354,
      "num_input_tokens_seen": 167538675,
      "step": 7748,
      "time_per_iteration": 2.5261504650115967
    },
    {
      "auxiliary_loss_clip": 0.01076436,
      "auxiliary_loss_mlp": 0.01019827,
      "balance_loss_clip": 1.03709185,
      "balance_loss_mlp": 1.01466203,
      "epoch": 0.9317621595623159,
      "flos": 30233278978560.0,
      "grad_norm": 1.782795194414726,
      "language_loss": 0.65009022,
      "learning_rate": 4.857174186738477e-08,
      "loss": 0.67105287,
      "num_input_tokens_seen": 167562025,
      "step": 7749,
      "time_per_iteration": 2.59444522857666
    },
    {
      "auxiliary_loss_clip": 0.01093943,
      "auxiliary_loss_mlp": 0.01020401,
      "balance_loss_clip": 1.03911519,
      "balance_loss_mlp": 1.01529932,
      "epoch": 0.931882402452955,
      "flos": 15744582092160.0,
      "grad_norm": 2.8460691057606615,
      "language_loss": 0.73062003,
      "learning_rate": 4.840125786176408e-08,
      "loss": 0.75176346,
      "num_input_tokens_seen": 167578230,
      "step": 7750,
      "time_per_iteration": 2.473533868789673
    },
    {
      "auxiliary_loss_clip": 0.01071788,
      "auxiliary_loss_mlp": 0.01019669,
      "balance_loss_clip": 1.03796887,
      "balance_loss_mlp": 1.01446533,
      "epoch": 0.932002645343594,
      "flos": 28369054817280.0,
      "grad_norm": 1.9532294177945484,
      "language_loss": 0.77416259,
      "learning_rate": 4.823106991212067e-08,
      "loss": 0.7950772,
      "num_input_tokens_seen": 167597470,
      "step": 7751,
      "time_per_iteration": 2.5895535945892334
    },
    {
      "auxiliary_loss_clip": 0.01080391,
      "auxiliary_loss_mlp": 0.01017232,
      "balance_loss_clip": 1.03515708,
      "balance_loss_mlp": 1.01226401,
      "epoch": 0.9321228882342332,
      "flos": 15342956979840.0,
      "grad_norm": 2.056723836528353,
      "language_loss": 0.83360159,
      "learning_rate": 4.806117804427212e-08,
      "loss": 0.85457778,
      "num_input_tokens_seen": 167615405,
      "step": 7752,
      "time_per_iteration": 2.4994685649871826
    },
    {
      "auxiliary_loss_clip": 0.01081446,
      "auxiliary_loss_mlp": 0.01021459,
      "balance_loss_clip": 1.03621435,
      "balance_loss_mlp": 1.01619017,
      "epoch": 0.9322431311248722,
      "flos": 17897329497600.0,
      "grad_norm": 2.1377436679057396,
      "language_loss": 0.64122057,
      "learning_rate": 4.7891582283990926e-08,
      "loss": 0.66224962,
      "num_input_tokens_seen": 167634130,
      "step": 7753,
      "time_per_iteration": 2.4871981143951416
    },
    {
      "auxiliary_loss_clip": 0.01052898,
      "auxiliary_loss_mlp": 0.01016376,
      "balance_loss_clip": 1.03518796,
      "balance_loss_mlp": 1.01136351,
      "epoch": 0.9323633740155113,
      "flos": 24171960032640.0,
      "grad_norm": 1.8014964348182563,
      "language_loss": 0.72671711,
      "learning_rate": 4.772228265700473e-08,
      "loss": 0.74740982,
      "num_input_tokens_seen": 167654990,
      "step": 7754,
      "time_per_iteration": 2.6111130714416504
    },
    {
      "auxiliary_loss_clip": 0.01081879,
      "auxiliary_loss_mlp": 0.01020163,
      "balance_loss_clip": 1.03683197,
      "balance_loss_mlp": 1.01507878,
      "epoch": 0.9324836169061504,
      "flos": 15044954215680.0,
      "grad_norm": 3.1523672394435267,
      "language_loss": 0.7609489,
      "learning_rate": 4.75532791889961e-08,
      "loss": 0.78196931,
      "num_input_tokens_seen": 167671690,
      "step": 7755,
      "time_per_iteration": 2.466977834701538
    },
    {
      "auxiliary_loss_clip": 0.01082015,
      "auxiliary_loss_mlp": 0.01018883,
      "balance_loss_clip": 1.03590345,
      "balance_loss_mlp": 1.01356077,
      "epoch": 0.9326038597967895,
      "flos": 18626884790400.0,
      "grad_norm": 2.0820162414594328,
      "language_loss": 0.65836823,
      "learning_rate": 4.738457190560252e-08,
      "loss": 0.6793772,
      "num_input_tokens_seen": 167690800,
      "step": 7756,
      "time_per_iteration": 2.499073028564453
    },
    {
      "auxiliary_loss_clip": 0.01039558,
      "auxiliary_loss_mlp": 0.01019193,
      "balance_loss_clip": 1.03237545,
      "balance_loss_mlp": 1.01396608,
      "epoch": 0.9327241026874286,
      "flos": 18954625380480.0,
      "grad_norm": 1.9433166572854912,
      "language_loss": 0.7883805,
      "learning_rate": 4.721616083241664e-08,
      "loss": 0.80896795,
      "num_input_tokens_seen": 167709055,
      "step": 7757,
      "time_per_iteration": 2.5920770168304443
    },
    {
      "auxiliary_loss_clip": 0.01082426,
      "auxiliary_loss_mlp": 0.01020937,
      "balance_loss_clip": 1.03730202,
      "balance_loss_mlp": 1.01583433,
      "epoch": 0.9328443455780677,
      "flos": 29572868448000.0,
      "grad_norm": 2.2718582439716584,
      "language_loss": 0.77821088,
      "learning_rate": 4.7048045994986684e-08,
      "loss": 0.79924452,
      "num_input_tokens_seen": 167729915,
      "step": 7758,
      "time_per_iteration": 2.5895566940307617
    },
    {
      "auxiliary_loss_clip": 0.01077524,
      "auxiliary_loss_mlp": 0.01018472,
      "balance_loss_clip": 1.03733456,
      "balance_loss_mlp": 1.01323271,
      "epoch": 0.9329645884687068,
      "flos": 30084372391680.0,
      "grad_norm": 1.9188870906193685,
      "language_loss": 0.91241729,
      "learning_rate": 4.688022741881559e-08,
      "loss": 0.93337727,
      "num_input_tokens_seen": 167750440,
      "step": 7759,
      "time_per_iteration": 2.5725624561309814
    },
    {
      "auxiliary_loss_clip": 0.01077677,
      "auxiliary_loss_mlp": 0.01022045,
      "balance_loss_clip": 1.03509331,
      "balance_loss_mlp": 1.01746726,
      "epoch": 0.9330848313593458,
      "flos": 21869926859520.0,
      "grad_norm": 2.851125815940477,
      "language_loss": 0.75298631,
      "learning_rate": 4.671270512936076e-08,
      "loss": 0.77398354,
      "num_input_tokens_seen": 167769600,
      "step": 7760,
      "time_per_iteration": 2.528787851333618
    },
    {
      "auxiliary_loss_clip": 0.01055583,
      "auxiliary_loss_mlp": 0.01019069,
      "balance_loss_clip": 1.03283799,
      "balance_loss_mlp": 1.01412749,
      "epoch": 0.933205074249985,
      "flos": 22129394803200.0,
      "grad_norm": 1.7755918953029364,
      "language_loss": 0.82964003,
      "learning_rate": 4.6545479152035884e-08,
      "loss": 0.85038662,
      "num_input_tokens_seen": 167788770,
      "step": 7761,
      "time_per_iteration": 2.5661559104919434
    },
    {
      "auxiliary_loss_clip": 0.01080213,
      "auxiliary_loss_mlp": 0.01016423,
      "balance_loss_clip": 1.03646624,
      "balance_loss_mlp": 1.01150608,
      "epoch": 0.9333253171406241,
      "flos": 15343070734080.0,
      "grad_norm": 2.0422823701696626,
      "language_loss": 0.76442683,
      "learning_rate": 4.637854951220821e-08,
      "loss": 0.78539318,
      "num_input_tokens_seen": 167805555,
      "step": 7762,
      "time_per_iteration": 4.315954685211182
    },
    {
      "auxiliary_loss_clip": 0.0104861,
      "auxiliary_loss_mlp": 0.01018141,
      "balance_loss_clip": 1.02903092,
      "balance_loss_mlp": 1.01300645,
      "epoch": 0.9334455600312631,
      "flos": 15707981093760.0,
      "grad_norm": 2.0899007064242285,
      "language_loss": 0.75257599,
      "learning_rate": 4.621191623520171e-08,
      "loss": 0.77324355,
      "num_input_tokens_seen": 167823985,
      "step": 7763,
      "time_per_iteration": 2.5730786323547363
    },
    {
      "auxiliary_loss_clip": 0.01030746,
      "auxiliary_loss_mlp": 0.01019937,
      "balance_loss_clip": 1.03351474,
      "balance_loss_mlp": 1.01466775,
      "epoch": 0.9335658029219023,
      "flos": 22165730375040.0,
      "grad_norm": 3.0251351359568304,
      "language_loss": 0.84796685,
      "learning_rate": 4.604557934629372e-08,
      "loss": 0.86847365,
      "num_input_tokens_seen": 167843060,
      "step": 7764,
      "time_per_iteration": 2.6274828910827637
    },
    {
      "auxiliary_loss_clip": 0.01063223,
      "auxiliary_loss_mlp": 0.01017841,
      "balance_loss_clip": 1.03364134,
      "balance_loss_mlp": 1.01277161,
      "epoch": 0.9336860458125413,
      "flos": 20268924531840.0,
      "grad_norm": 1.859124131920484,
      "language_loss": 0.80337852,
      "learning_rate": 4.587953887071805e-08,
      "loss": 0.82418919,
      "num_input_tokens_seen": 167862880,
      "step": 7765,
      "time_per_iteration": 2.550762414932251
    },
    {
      "auxiliary_loss_clip": 0.01067937,
      "auxiliary_loss_mlp": 0.01021541,
      "balance_loss_clip": 1.03441834,
      "balance_loss_mlp": 1.01641202,
      "epoch": 0.9338062887031804,
      "flos": 20921599774080.0,
      "grad_norm": 1.7948727898628511,
      "language_loss": 0.85782492,
      "learning_rate": 4.5713794833662554e-08,
      "loss": 0.87871969,
      "num_input_tokens_seen": 167882095,
      "step": 7766,
      "time_per_iteration": 2.548253059387207
    },
    {
      "auxiliary_loss_clip": 0.01092123,
      "auxiliary_loss_mlp": 0.01021898,
      "balance_loss_clip": 1.03766966,
      "balance_loss_mlp": 1.01660264,
      "epoch": 0.9339265315938196,
      "flos": 23223860455680.0,
      "grad_norm": 1.8038624371280767,
      "language_loss": 0.62944376,
      "learning_rate": 4.5548347260270236e-08,
      "loss": 0.65058404,
      "num_input_tokens_seen": 167901385,
      "step": 7767,
      "time_per_iteration": 2.51015043258667
    },
    {
      "auxiliary_loss_clip": 0.01049024,
      "auxiliary_loss_mlp": 0.01018596,
      "balance_loss_clip": 1.02987719,
      "balance_loss_mlp": 1.01389575,
      "epoch": 0.9340467744844586,
      "flos": 22822462851840.0,
      "grad_norm": 1.598324719409574,
      "language_loss": 0.69541019,
      "learning_rate": 4.538319617564012e-08,
      "loss": 0.71608645,
      "num_input_tokens_seen": 167920405,
      "step": 7768,
      "time_per_iteration": 2.5729074478149414
    },
    {
      "auxiliary_loss_clip": 0.01068024,
      "auxiliary_loss_mlp": 0.01018034,
      "balance_loss_clip": 1.03422213,
      "balance_loss_mlp": 1.01293731,
      "epoch": 0.9341670173750977,
      "flos": 23662731173760.0,
      "grad_norm": 1.9528459574559622,
      "language_loss": 0.74243903,
      "learning_rate": 4.521834160482485e-08,
      "loss": 0.76329964,
      "num_input_tokens_seen": 167939145,
      "step": 7769,
      "time_per_iteration": 2.564908742904663
    },
    {
      "auxiliary_loss_clip": 0.01080089,
      "auxiliary_loss_mlp": 0.01022391,
      "balance_loss_clip": 1.03519368,
      "balance_loss_mlp": 1.01694608,
      "epoch": 0.9342872602657368,
      "flos": 24826417424640.0,
      "grad_norm": 1.665924674932468,
      "language_loss": 0.82268715,
      "learning_rate": 4.5053783572832846e-08,
      "loss": 0.84371197,
      "num_input_tokens_seen": 167959325,
      "step": 7770,
      "time_per_iteration": 2.5339443683624268
    },
    {
      "auxiliary_loss_clip": 0.01079632,
      "auxiliary_loss_mlp": 0.01023053,
      "balance_loss_clip": 1.03581369,
      "balance_loss_mlp": 1.0179987,
      "epoch": 0.9344075031563759,
      "flos": 25773986148480.0,
      "grad_norm": 1.891459810518693,
      "language_loss": 0.76549649,
      "learning_rate": 4.488952210462771e-08,
      "loss": 0.78652334,
      "num_input_tokens_seen": 167979530,
      "step": 7771,
      "time_per_iteration": 3.2496867179870605
    },
    {
      "auxiliary_loss_clip": 0.01090333,
      "auxiliary_loss_mlp": 0.01019185,
      "balance_loss_clip": 1.03650606,
      "balance_loss_mlp": 1.01405931,
      "epoch": 0.9345277460470149,
      "flos": 25553356369920.0,
      "grad_norm": 1.977130319811637,
      "language_loss": 0.86079836,
      "learning_rate": 4.4725557225127495e-08,
      "loss": 0.88189352,
      "num_input_tokens_seen": 167997870,
      "step": 7772,
      "time_per_iteration": 2.5021791458129883
    },
    {
      "auxiliary_loss_clip": 0.0108179,
      "auxiliary_loss_mlp": 0.0102188,
      "balance_loss_clip": 1.03724611,
      "balance_loss_mlp": 1.01712918,
      "epoch": 0.9346479889376541,
      "flos": 34315944762240.0,
      "grad_norm": 1.524524812584479,
      "language_loss": 0.7919811,
      "learning_rate": 4.456188895920565e-08,
      "loss": 0.81301773,
      "num_input_tokens_seen": 168019625,
      "step": 7773,
      "time_per_iteration": 2.6327567100524902
    },
    {
      "auxiliary_loss_clip": 0.01092808,
      "auxiliary_loss_mlp": 0.01019896,
      "balance_loss_clip": 1.03809738,
      "balance_loss_mlp": 1.01427221,
      "epoch": 0.9347682318282932,
      "flos": 19095455416320.0,
      "grad_norm": 2.0416651236085404,
      "language_loss": 0.85378957,
      "learning_rate": 4.439851733169031e-08,
      "loss": 0.87491661,
      "num_input_tokens_seen": 168037415,
      "step": 7774,
      "time_per_iteration": 2.4469165802001953
    },
    {
      "auxiliary_loss_clip": 0.0105517,
      "auxiliary_loss_mlp": 0.01020938,
      "balance_loss_clip": 1.03355598,
      "balance_loss_mlp": 1.01609182,
      "epoch": 0.9348884747189322,
      "flos": 26251960458240.0,
      "grad_norm": 2.4758928788641135,
      "language_loss": 0.69985384,
      "learning_rate": 4.4235442367365204e-08,
      "loss": 0.72061491,
      "num_input_tokens_seen": 168057725,
      "step": 7775,
      "time_per_iteration": 2.615941047668457
    },
    {
      "auxiliary_loss_clip": 0.01071249,
      "auxiliary_loss_mlp": 0.01020448,
      "balance_loss_clip": 1.03423095,
      "balance_loss_mlp": 1.0151825,
      "epoch": 0.9350087176095714,
      "flos": 18335062673280.0,
      "grad_norm": 2.374346180971951,
      "language_loss": 0.79464829,
      "learning_rate": 4.4072664090968545e-08,
      "loss": 0.81556529,
      "num_input_tokens_seen": 168076110,
      "step": 7776,
      "time_per_iteration": 2.527069330215454
    },
    {
      "auxiliary_loss_clip": 0.01070585,
      "auxiliary_loss_mlp": 0.01020656,
      "balance_loss_clip": 1.03456473,
      "balance_loss_mlp": 1.01555681,
      "epoch": 0.9351289605002104,
      "flos": 19320294101760.0,
      "grad_norm": 1.812496729100828,
      "language_loss": 0.84750843,
      "learning_rate": 4.391018252719347e-08,
      "loss": 0.86842084,
      "num_input_tokens_seen": 168095905,
      "step": 7777,
      "time_per_iteration": 2.5770175457000732
    },
    {
      "auxiliary_loss_clip": 0.01072676,
      "auxiliary_loss_mlp": 0.01024065,
      "balance_loss_clip": 1.03657353,
      "balance_loss_mlp": 1.01870906,
      "epoch": 0.9352492033908495,
      "flos": 18801585722880.0,
      "grad_norm": 1.7275854670766817,
      "language_loss": 0.69207406,
      "learning_rate": 4.374799770068849e-08,
      "loss": 0.71304142,
      "num_input_tokens_seen": 168112580,
      "step": 7778,
      "time_per_iteration": 2.5113117694854736
    },
    {
      "auxiliary_loss_clip": 0.01077624,
      "auxiliary_loss_mlp": 0.01017812,
      "balance_loss_clip": 1.03571892,
      "balance_loss_mlp": 1.01284122,
      "epoch": 0.9353694462814887,
      "flos": 29532513559680.0,
      "grad_norm": 2.253234631341049,
      "language_loss": 0.74981511,
      "learning_rate": 4.358610963605658e-08,
      "loss": 0.77076942,
      "num_input_tokens_seen": 168133030,
      "step": 7779,
      "time_per_iteration": 2.5643954277038574
    },
    {
      "auxiliary_loss_clip": 0.01092995,
      "auxiliary_loss_mlp": 0.0102853,
      "balance_loss_clip": 1.03779483,
      "balance_loss_mlp": 1.02330017,
      "epoch": 0.9354896891721277,
      "flos": 30668130380160.0,
      "grad_norm": 2.5036205541185113,
      "language_loss": 0.68649423,
      "learning_rate": 4.342451835785677e-08,
      "loss": 0.70770949,
      "num_input_tokens_seen": 168153940,
      "step": 7780,
      "time_per_iteration": 2.5503551959991455
    },
    {
      "auxiliary_loss_clip": 0.0106943,
      "auxiliary_loss_mlp": 0.0101771,
      "balance_loss_clip": 1.03588903,
      "balance_loss_mlp": 1.01291513,
      "epoch": 0.9356099320627668,
      "flos": 19465939733760.0,
      "grad_norm": 1.4747399149776867,
      "language_loss": 0.7526719,
      "learning_rate": 4.3263223890601665e-08,
      "loss": 0.7735433,
      "num_input_tokens_seen": 168172650,
      "step": 7781,
      "time_per_iteration": 2.544264554977417
    },
    {
      "auxiliary_loss_clip": 0.01072209,
      "auxiliary_loss_mlp": 0.00756532,
      "balance_loss_clip": 1.03497314,
      "balance_loss_mlp": 1.00169086,
      "epoch": 0.9357301749534058,
      "flos": 19100119340160.0,
      "grad_norm": 1.7806504832136714,
      "language_loss": 0.79551512,
      "learning_rate": 4.31022262587597e-08,
      "loss": 0.81380254,
      "num_input_tokens_seen": 168191325,
      "step": 7782,
      "time_per_iteration": 2.509340286254883
    },
    {
      "auxiliary_loss_clip": 0.01078216,
      "auxiliary_loss_mlp": 0.01022013,
      "balance_loss_clip": 1.03571701,
      "balance_loss_mlp": 1.01632071,
      "epoch": 0.935850417844045,
      "flos": 23552624833920.0,
      "grad_norm": 1.5690307256099536,
      "language_loss": 0.65896767,
      "learning_rate": 4.2941525486754225e-08,
      "loss": 0.67996997,
      "num_input_tokens_seen": 168211645,
      "step": 7783,
      "time_per_iteration": 2.5384981632232666
    },
    {
      "auxiliary_loss_clip": 0.01047795,
      "auxiliary_loss_mlp": 0.01020208,
      "balance_loss_clip": 1.03267717,
      "balance_loss_mlp": 1.01550245,
      "epoch": 0.935970660734684,
      "flos": 18590321710080.0,
      "grad_norm": 1.9081439774692142,
      "language_loss": 0.79258293,
      "learning_rate": 4.278112159896286e-08,
      "loss": 0.81326294,
      "num_input_tokens_seen": 168229485,
      "step": 7784,
      "time_per_iteration": 2.5593903064727783
    },
    {
      "auxiliary_loss_clip": 0.01070543,
      "auxiliary_loss_mlp": 0.01015697,
      "balance_loss_clip": 1.03577244,
      "balance_loss_mlp": 1.01089895,
      "epoch": 0.9360909036253231,
      "flos": 20633341956480.0,
      "grad_norm": 1.6656278829052582,
      "language_loss": 0.67768866,
      "learning_rate": 4.2621014619719896e-08,
      "loss": 0.69855106,
      "num_input_tokens_seen": 168247250,
      "step": 7785,
      "time_per_iteration": 2.5941436290740967
    },
    {
      "auxiliary_loss_clip": 0.0101931,
      "auxiliary_loss_mlp": 0.01001578,
      "balance_loss_clip": 1.0146476,
      "balance_loss_mlp": 0.99984998,
      "epoch": 0.9362111465159623,
      "flos": 61798071916800.0,
      "grad_norm": 0.718800728320896,
      "language_loss": 0.58565593,
      "learning_rate": 4.246120457331215e-08,
      "loss": 0.60586476,
      "num_input_tokens_seen": 168309425,
      "step": 7786,
      "time_per_iteration": 3.191864252090454
    },
    {
      "auxiliary_loss_clip": 0.01063531,
      "auxiliary_loss_mlp": 0.01020717,
      "balance_loss_clip": 1.0328362,
      "balance_loss_mlp": 1.01533723,
      "epoch": 0.9363313894066013,
      "flos": 24172680476160.0,
      "grad_norm": 2.326955356203323,
      "language_loss": 0.72249699,
      "learning_rate": 4.2301691483983325e-08,
      "loss": 0.74333942,
      "num_input_tokens_seen": 168329545,
      "step": 7787,
      "time_per_iteration": 2.5501441955566406
    },
    {
      "auxiliary_loss_clip": 0.01080174,
      "auxiliary_loss_mlp": 0.01015501,
      "balance_loss_clip": 1.03540611,
      "balance_loss_mlp": 1.01048493,
      "epoch": 0.9364516322972404,
      "flos": 20122406784000.0,
      "grad_norm": 1.6990385035398303,
      "language_loss": 0.75640678,
      "learning_rate": 4.214247537593163e-08,
      "loss": 0.7773636,
      "num_input_tokens_seen": 168348795,
      "step": 7788,
      "time_per_iteration": 4.114426374435425
    },
    {
      "auxiliary_loss_clip": 0.01071299,
      "auxiliary_loss_mlp": 0.01023669,
      "balance_loss_clip": 1.03595281,
      "balance_loss_mlp": 1.01860213,
      "epoch": 0.9365718751878795,
      "flos": 20705823509760.0,
      "grad_norm": 2.0325640688594495,
      "language_loss": 0.81021279,
      "learning_rate": 4.1983556273309293e-08,
      "loss": 0.83116239,
      "num_input_tokens_seen": 168367545,
      "step": 7789,
      "time_per_iteration": 2.5344738960266113
    },
    {
      "auxiliary_loss_clip": 0.01091909,
      "auxiliary_loss_mlp": 0.01023265,
      "balance_loss_clip": 1.03669286,
      "balance_loss_mlp": 1.01783776,
      "epoch": 0.9366921180785186,
      "flos": 18656925960960.0,
      "grad_norm": 3.3432837454876267,
      "language_loss": 0.68949789,
      "learning_rate": 4.182493420022526e-08,
      "loss": 0.71064961,
      "num_input_tokens_seen": 168383215,
      "step": 7790,
      "time_per_iteration": 2.4407896995544434
    },
    {
      "auxiliary_loss_clip": 0.01048726,
      "auxiliary_loss_mlp": 0.01018168,
      "balance_loss_clip": 1.0365901,
      "balance_loss_mlp": 1.01350403,
      "epoch": 0.9368123609691577,
      "flos": 25777285021440.0,
      "grad_norm": 1.9932123337534309,
      "language_loss": 0.78426564,
      "learning_rate": 4.166660918074139e-08,
      "loss": 0.80493462,
      "num_input_tokens_seen": 168403120,
      "step": 7791,
      "time_per_iteration": 2.611327648162842
    },
    {
      "auxiliary_loss_clip": 0.01056027,
      "auxiliary_loss_mlp": 0.01019255,
      "balance_loss_clip": 1.03368831,
      "balance_loss_mlp": 1.01403928,
      "epoch": 0.9369326038597968,
      "flos": 25555555618560.0,
      "grad_norm": 1.8881657206096003,
      "language_loss": 0.73783052,
      "learning_rate": 4.15085812388758e-08,
      "loss": 0.75858343,
      "num_input_tokens_seen": 168425340,
      "step": 7792,
      "time_per_iteration": 2.6205382347106934
    },
    {
      "auxiliary_loss_clip": 0.0106812,
      "auxiliary_loss_mlp": 0.01020327,
      "balance_loss_clip": 1.03672981,
      "balance_loss_mlp": 1.0149771,
      "epoch": 0.9370528467504359,
      "flos": 23222154142080.0,
      "grad_norm": 1.9180017409702061,
      "language_loss": 0.7855494,
      "learning_rate": 4.135085039860153e-08,
      "loss": 0.80643392,
      "num_input_tokens_seen": 168444740,
      "step": 7793,
      "time_per_iteration": 2.5515193939208984
    },
    {
      "auxiliary_loss_clip": 0.01060723,
      "auxiliary_loss_mlp": 0.01016972,
      "balance_loss_clip": 1.03153431,
      "balance_loss_mlp": 1.01181662,
      "epoch": 0.9371730896410749,
      "flos": 24969484627200.0,
      "grad_norm": 2.272792877378078,
      "language_loss": 0.78432554,
      "learning_rate": 4.1193416683845906e-08,
      "loss": 0.80510253,
      "num_input_tokens_seen": 168463670,
      "step": 7794,
      "time_per_iteration": 2.581176519393921
    },
    {
      "auxiliary_loss_clip": 0.01056631,
      "auxiliary_loss_mlp": 0.01020797,
      "balance_loss_clip": 1.0352931,
      "balance_loss_mlp": 1.01608849,
      "epoch": 0.9372933325317141,
      "flos": 15554524337280.0,
      "grad_norm": 2.414702483394854,
      "language_loss": 0.83849907,
      "learning_rate": 4.103628011849136e-08,
      "loss": 0.85927331,
      "num_input_tokens_seen": 168479030,
      "step": 7795,
      "time_per_iteration": 2.550851345062256
    },
    {
      "auxiliary_loss_clip": 0.01061269,
      "auxiliary_loss_mlp": 0.01021151,
      "balance_loss_clip": 1.03070092,
      "balance_loss_mlp": 1.0157392,
      "epoch": 0.9374135754223532,
      "flos": 21874022012160.0,
      "grad_norm": 1.827802323120524,
      "language_loss": 0.75901109,
      "learning_rate": 4.0879440726375506e-08,
      "loss": 0.77983528,
      "num_input_tokens_seen": 168496815,
      "step": 7796,
      "time_per_iteration": 2.539719343185425
    },
    {
      "auxiliary_loss_clip": 0.01070744,
      "auxiliary_loss_mlp": 0.01018264,
      "balance_loss_clip": 1.03454554,
      "balance_loss_mlp": 1.01308703,
      "epoch": 0.9375338183129922,
      "flos": 22632860113920.0,
      "grad_norm": 2.674774038766176,
      "language_loss": 0.56317347,
      "learning_rate": 4.0722898531291074e-08,
      "loss": 0.58406353,
      "num_input_tokens_seen": 168514055,
      "step": 7797,
      "time_per_iteration": 3.334218740463257
    },
    {
      "auxiliary_loss_clip": 0.01068046,
      "auxiliary_loss_mlp": 0.01018845,
      "balance_loss_clip": 1.03412867,
      "balance_loss_mlp": 1.01358795,
      "epoch": 0.9376540612036314,
      "flos": 26106694007040.0,
      "grad_norm": 1.792901010271306,
      "language_loss": 0.7658205,
      "learning_rate": 4.0566653556985295e-08,
      "loss": 0.7866894,
      "num_input_tokens_seen": 168534600,
      "step": 7798,
      "time_per_iteration": 2.6138594150543213
    },
    {
      "auxiliary_loss_clip": 0.01017192,
      "auxiliary_loss_mlp": 0.01023641,
      "balance_loss_clip": 1.03033864,
      "balance_loss_mlp": 1.01780581,
      "epoch": 0.9377743040942704,
      "flos": 19719530375040.0,
      "grad_norm": 2.0994473372838103,
      "language_loss": 0.81762469,
      "learning_rate": 4.0410705827159886e-08,
      "loss": 0.83803296,
      "num_input_tokens_seen": 168551895,
      "step": 7799,
      "time_per_iteration": 2.7350618839263916
    },
    {
      "auxiliary_loss_clip": 0.01070182,
      "auxiliary_loss_mlp": 0.01018955,
      "balance_loss_clip": 1.03343964,
      "balance_loss_mlp": 1.01370645,
      "epoch": 0.9378945469849095,
      "flos": 15269299966080.0,
      "grad_norm": 2.8535685324400664,
      "language_loss": 0.71301126,
      "learning_rate": 4.0255055365472356e-08,
      "loss": 0.73390269,
      "num_input_tokens_seen": 168569990,
      "step": 7800,
      "time_per_iteration": 2.7394979000091553
    },
    {
      "auxiliary_loss_clip": 0.01036255,
      "auxiliary_loss_mlp": 0.01020622,
      "balance_loss_clip": 1.03072882,
      "balance_loss_mlp": 1.01563299,
      "epoch": 0.9380147898755486,
      "flos": 20593290412800.0,
      "grad_norm": 2.860378536993802,
      "language_loss": 0.7528981,
      "learning_rate": 4.009970219553471e-08,
      "loss": 0.77346689,
      "num_input_tokens_seen": 168586940,
      "step": 7801,
      "time_per_iteration": 2.6486918926239014
    },
    {
      "auxiliary_loss_clip": 0.01078482,
      "auxiliary_loss_mlp": 0.01018663,
      "balance_loss_clip": 1.03448057,
      "balance_loss_mlp": 1.01323354,
      "epoch": 0.9381350327661877,
      "flos": 26283215007360.0,
      "grad_norm": 2.930915857645892,
      "language_loss": 0.76835817,
      "learning_rate": 3.99446463409141e-08,
      "loss": 0.78932959,
      "num_input_tokens_seen": 168604795,
      "step": 7802,
      "time_per_iteration": 2.5979440212249756
    },
    {
      "auxiliary_loss_clip": 0.01081525,
      "auxiliary_loss_mlp": 0.01018329,
      "balance_loss_clip": 1.03526437,
      "balance_loss_mlp": 1.01290774,
      "epoch": 0.9382552756568268,
      "flos": 23588581224960.0,
      "grad_norm": 2.3529931617267144,
      "language_loss": 0.69244593,
      "learning_rate": 3.978988782513215e-08,
      "loss": 0.71344441,
      "num_input_tokens_seen": 168622290,
      "step": 7803,
      "time_per_iteration": 2.54238224029541
    },
    {
      "auxiliary_loss_clip": 0.01079296,
      "auxiliary_loss_mlp": 0.0101651,
      "balance_loss_clip": 1.03494418,
      "balance_loss_mlp": 1.01154184,
      "epoch": 0.9383755185474659,
      "flos": 28441308862080.0,
      "grad_norm": 3.8053116623984358,
      "language_loss": 0.76684678,
      "learning_rate": 3.963542667166586e-08,
      "loss": 0.78780484,
      "num_input_tokens_seen": 168642395,
      "step": 7804,
      "time_per_iteration": 2.5770270824432373
    },
    {
      "auxiliary_loss_clip": 0.01045222,
      "auxiliary_loss_mlp": 0.01021858,
      "balance_loss_clip": 1.03146839,
      "balance_loss_mlp": 1.016976,
      "epoch": 0.938495761438105,
      "flos": 20451702015360.0,
      "grad_norm": 2.1100993880227303,
      "language_loss": 0.68579757,
      "learning_rate": 3.9481262903946486e-08,
      "loss": 0.70646834,
      "num_input_tokens_seen": 168661840,
      "step": 7805,
      "time_per_iteration": 2.5706119537353516
    },
    {
      "auxiliary_loss_clip": 0.01002487,
      "auxiliary_loss_mlp": 0.0100181,
      "balance_loss_clip": 1.0161624,
      "balance_loss_mlp": 1.00002146,
      "epoch": 0.938616004328744,
      "flos": 69309514863360.0,
      "grad_norm": 0.7856300651823167,
      "language_loss": 0.5450201,
      "learning_rate": 3.932739654536066e-08,
      "loss": 0.565063,
      "num_input_tokens_seen": 168724540,
      "step": 7806,
      "time_per_iteration": 3.2211196422576904
    },
    {
      "auxiliary_loss_clip": 0.01077897,
      "auxiliary_loss_mlp": 0.01020708,
      "balance_loss_clip": 1.03532732,
      "balance_loss_mlp": 1.01608884,
      "epoch": 0.9387362472193832,
      "flos": 18913360458240.0,
      "grad_norm": 2.120993212464825,
      "language_loss": 0.74328446,
      "learning_rate": 3.917382761925014e-08,
      "loss": 0.76427054,
      "num_input_tokens_seen": 168740375,
      "step": 7807,
      "time_per_iteration": 2.4850006103515625
    },
    {
      "auxiliary_loss_clip": 0.01078216,
      "auxiliary_loss_mlp": 0.01022203,
      "balance_loss_clip": 1.03599072,
      "balance_loss_mlp": 1.01715457,
      "epoch": 0.9388564901100223,
      "flos": 26504186048640.0,
      "grad_norm": 1.8404944017807254,
      "language_loss": 0.79422617,
      "learning_rate": 3.9020556148910754e-08,
      "loss": 0.81523031,
      "num_input_tokens_seen": 168759730,
      "step": 7808,
      "time_per_iteration": 2.584751844406128
    },
    {
      "auxiliary_loss_clip": 0.01020766,
      "auxiliary_loss_mlp": 0.01001401,
      "balance_loss_clip": 1.01484966,
      "balance_loss_mlp": 0.99981576,
      "epoch": 0.9389767330006613,
      "flos": 58947327112320.0,
      "grad_norm": 0.7183555648268503,
      "language_loss": 0.56686103,
      "learning_rate": 3.8867582157593895e-08,
      "loss": 0.58708268,
      "num_input_tokens_seen": 168813935,
      "step": 7809,
      "time_per_iteration": 2.9777746200561523
    },
    {
      "auxiliary_loss_clip": 0.01079103,
      "auxiliary_loss_mlp": 0.01018857,
      "balance_loss_clip": 1.03700829,
      "balance_loss_mlp": 1.01351309,
      "epoch": 0.9390969758913005,
      "flos": 31105218948480.0,
      "grad_norm": 1.925742747018908,
      "language_loss": 0.76666701,
      "learning_rate": 3.871490566850544e-08,
      "loss": 0.78764653,
      "num_input_tokens_seen": 168838145,
      "step": 7810,
      "time_per_iteration": 2.6313066482543945
    },
    {
      "auxiliary_loss_clip": 0.01069744,
      "auxiliary_loss_mlp": 0.01018509,
      "balance_loss_clip": 1.03574729,
      "balance_loss_mlp": 1.01339507,
      "epoch": 0.9392172187819395,
      "flos": 22421596101120.0,
      "grad_norm": 1.7636243069581332,
      "language_loss": 0.70828879,
      "learning_rate": 3.856252670480642e-08,
      "loss": 0.7291714,
      "num_input_tokens_seen": 168856805,
      "step": 7811,
      "time_per_iteration": 2.5353057384490967
    },
    {
      "auxiliary_loss_clip": 0.01069692,
      "auxiliary_loss_mlp": 0.01021396,
      "balance_loss_clip": 1.03402519,
      "balance_loss_mlp": 1.01641583,
      "epoch": 0.9393374616725786,
      "flos": 19721540033280.0,
      "grad_norm": 1.8715275353333982,
      "language_loss": 0.81632048,
      "learning_rate": 3.841044528961279e-08,
      "loss": 0.83723134,
      "num_input_tokens_seen": 168874600,
      "step": 7812,
      "time_per_iteration": 2.5629420280456543
    },
    {
      "auxiliary_loss_clip": 0.01090562,
      "auxiliary_loss_mlp": 0.01017942,
      "balance_loss_clip": 1.03430164,
      "balance_loss_mlp": 1.01264596,
      "epoch": 0.9394577045632178,
      "flos": 24172490885760.0,
      "grad_norm": 2.9172306598995745,
      "language_loss": 0.79153454,
      "learning_rate": 3.825866144599477e-08,
      "loss": 0.81261957,
      "num_input_tokens_seen": 168893655,
      "step": 7813,
      "time_per_iteration": 3.4323298931121826
    },
    {
      "auxiliary_loss_clip": 0.01067233,
      "auxiliary_loss_mlp": 0.01017094,
      "balance_loss_clip": 1.03383017,
      "balance_loss_mlp": 1.01165223,
      "epoch": 0.9395779474538568,
      "flos": 19025817719040.0,
      "grad_norm": 2.160016854522752,
      "language_loss": 0.75454676,
      "learning_rate": 3.8107175196978145e-08,
      "loss": 0.77538997,
      "num_input_tokens_seen": 168909960,
      "step": 7814,
      "time_per_iteration": 4.092123508453369
    },
    {
      "auxiliary_loss_clip": 0.01055493,
      "auxiliary_loss_mlp": 0.0102173,
      "balance_loss_clip": 1.03708863,
      "balance_loss_mlp": 1.01683593,
      "epoch": 0.9396981903444959,
      "flos": 14320859126400.0,
      "grad_norm": 2.2195683920893234,
      "language_loss": 0.76665074,
      "learning_rate": 3.7955986565542996e-08,
      "loss": 0.78742301,
      "num_input_tokens_seen": 168928040,
      "step": 7815,
      "time_per_iteration": 2.5820372104644775
    },
    {
      "auxiliary_loss_clip": 0.01055696,
      "auxiliary_loss_mlp": 0.01023288,
      "balance_loss_clip": 1.03323019,
      "balance_loss_mlp": 1.01805496,
      "epoch": 0.9398184332351349,
      "flos": 34790430608640.0,
      "grad_norm": 1.9729513547340156,
      "language_loss": 0.68312657,
      "learning_rate": 3.780509557462497e-08,
      "loss": 0.70391637,
      "num_input_tokens_seen": 168948240,
      "step": 7816,
      "time_per_iteration": 2.7001473903656006
    },
    {
      "auxiliary_loss_clip": 0.01061155,
      "auxiliary_loss_mlp": 0.01017342,
      "balance_loss_clip": 1.03258216,
      "balance_loss_mlp": 1.01187885,
      "epoch": 0.9399386761257741,
      "flos": 25374484448640.0,
      "grad_norm": 1.7003783237128638,
      "language_loss": 0.75437289,
      "learning_rate": 3.765450224711375e-08,
      "loss": 0.77515787,
      "num_input_tokens_seen": 168968745,
      "step": 7817,
      "time_per_iteration": 2.598891496658325
    },
    {
      "auxiliary_loss_clip": 0.01060689,
      "auxiliary_loss_mlp": 0.01019718,
      "balance_loss_clip": 1.03589392,
      "balance_loss_mlp": 1.01447582,
      "epoch": 0.9400589190164131,
      "flos": 27307246682880.0,
      "grad_norm": 1.5960183066220386,
      "language_loss": 0.79746079,
      "learning_rate": 3.750420660585396e-08,
      "loss": 0.81826484,
      "num_input_tokens_seen": 168990685,
      "step": 7818,
      "time_per_iteration": 2.6122400760650635
    },
    {
      "auxiliary_loss_clip": 0.01091876,
      "auxiliary_loss_mlp": 0.01018708,
      "balance_loss_clip": 1.03749299,
      "balance_loss_mlp": 1.01365376,
      "epoch": 0.9401791619070522,
      "flos": 23401860261120.0,
      "grad_norm": 2.8447301169988517,
      "language_loss": 0.80033362,
      "learning_rate": 3.735420867364603e-08,
      "loss": 0.82143945,
      "num_input_tokens_seen": 169011665,
      "step": 7819,
      "time_per_iteration": 2.507223129272461
    },
    {
      "auxiliary_loss_clip": 0.0102407,
      "auxiliary_loss_mlp": 0.01015757,
      "balance_loss_clip": 1.02580857,
      "balance_loss_mlp": 1.01111722,
      "epoch": 0.9402994047976914,
      "flos": 35884289571840.0,
      "grad_norm": 1.5873227605261693,
      "language_loss": 0.62082517,
      "learning_rate": 3.7204508473244186e-08,
      "loss": 0.64122343,
      "num_input_tokens_seen": 169035290,
      "step": 7820,
      "time_per_iteration": 2.7676758766174316
    },
    {
      "auxiliary_loss_clip": 0.01008249,
      "auxiliary_loss_mlp": 0.01017801,
      "balance_loss_clip": 1.02923048,
      "balance_loss_mlp": 1.01297641,
      "epoch": 0.9404196476883304,
      "flos": 22239008208000.0,
      "grad_norm": 1.8825824684157666,
      "language_loss": 0.69112742,
      "learning_rate": 3.7055106027357395e-08,
      "loss": 0.71138799,
      "num_input_tokens_seen": 169055155,
      "step": 7821,
      "time_per_iteration": 2.8035266399383545
    },
    {
      "auxiliary_loss_clip": 0.01071907,
      "auxiliary_loss_mlp": 0.01017788,
      "balance_loss_clip": 1.03146112,
      "balance_loss_mlp": 1.01244712,
      "epoch": 0.9405398905789695,
      "flos": 18917758955520.0,
      "grad_norm": 2.141217262340741,
      "language_loss": 0.7227658,
      "learning_rate": 3.690600135865063e-08,
      "loss": 0.74366271,
      "num_input_tokens_seen": 169072080,
      "step": 7822,
      "time_per_iteration": 2.8503127098083496
    },
    {
      "auxiliary_loss_clip": 0.00993535,
      "auxiliary_loss_mlp": 0.01001164,
      "balance_loss_clip": 1.0132947,
      "balance_loss_mlp": 0.99939996,
      "epoch": 0.9406601334696086,
      "flos": 70280223667200.0,
      "grad_norm": 4.301310567271897,
      "language_loss": 0.58039081,
      "learning_rate": 3.675719448974246e-08,
      "loss": 0.60033786,
      "num_input_tokens_seen": 169137170,
      "step": 7823,
      "time_per_iteration": 4.063063621520996
    },
    {
      "auxiliary_loss_clip": 0.01039136,
      "auxiliary_loss_mlp": 0.00756564,
      "balance_loss_clip": 1.0324769,
      "balance_loss_mlp": 1.00172138,
      "epoch": 0.9407803763602477,
      "flos": 22167322934400.0,
      "grad_norm": 2.394091168675917,
      "language_loss": 0.6042946,
      "learning_rate": 3.6608685443207054e-08,
      "loss": 0.62225157,
      "num_input_tokens_seen": 169156320,
      "step": 7824,
      "time_per_iteration": 2.6660401821136475
    },
    {
      "auxiliary_loss_clip": 0.0105133,
      "auxiliary_loss_mlp": 0.01019193,
      "balance_loss_clip": 1.0304749,
      "balance_loss_mlp": 1.01425505,
      "epoch": 0.9409006192508867,
      "flos": 18881461301760.0,
      "grad_norm": 2.213734743825159,
      "language_loss": 0.66910803,
      "learning_rate": 3.646047424157306e-08,
      "loss": 0.68981326,
      "num_input_tokens_seen": 169173295,
      "step": 7825,
      "time_per_iteration": 2.539769172668457
    },
    {
      "auxiliary_loss_clip": 0.01060861,
      "auxiliary_loss_mlp": 0.01019544,
      "balance_loss_clip": 1.03304517,
      "balance_loss_mlp": 1.01417649,
      "epoch": 0.9410208621415259,
      "flos": 23370529875840.0,
      "grad_norm": 2.3674553549007165,
      "language_loss": 0.68649149,
      "learning_rate": 3.631256090732382e-08,
      "loss": 0.70729554,
      "num_input_tokens_seen": 169193755,
      "step": 7826,
      "time_per_iteration": 2.5840017795562744
    },
    {
      "auxiliary_loss_clip": 0.01049558,
      "auxiliary_loss_mlp": 0.01019377,
      "balance_loss_clip": 1.02993798,
      "balance_loss_mlp": 1.01447487,
      "epoch": 0.941141105032165,
      "flos": 22744141914240.0,
      "grad_norm": 1.7367923949874147,
      "language_loss": 0.82568145,
      "learning_rate": 3.6164945462897833e-08,
      "loss": 0.84637082,
      "num_input_tokens_seen": 169213045,
      "step": 7827,
      "time_per_iteration": 2.5882322788238525
    },
    {
      "auxiliary_loss_clip": 0.01080546,
      "auxiliary_loss_mlp": 0.00756524,
      "balance_loss_clip": 1.03727007,
      "balance_loss_mlp": 1.00165224,
      "epoch": 0.941261347922804,
      "flos": 20707036888320.0,
      "grad_norm": 2.7453183510345114,
      "language_loss": 0.75652659,
      "learning_rate": 3.6017627930687856e-08,
      "loss": 0.77489734,
      "num_input_tokens_seen": 169232870,
      "step": 7828,
      "time_per_iteration": 2.554861307144165
    },
    {
      "auxiliary_loss_clip": 0.01043472,
      "auxiliary_loss_mlp": 0.01018465,
      "balance_loss_clip": 1.03206062,
      "balance_loss_mlp": 1.0134877,
      "epoch": 0.9413815908134432,
      "flos": 19423726859520.0,
      "grad_norm": 7.607477246093568,
      "language_loss": 0.77131253,
      "learning_rate": 3.587060833304267e-08,
      "loss": 0.79193193,
      "num_input_tokens_seen": 169251060,
      "step": 7829,
      "time_per_iteration": 2.5791568756103516
    },
    {
      "auxiliary_loss_clip": 0.01081129,
      "auxiliary_loss_mlp": 0.01022593,
      "balance_loss_clip": 1.03673577,
      "balance_loss_mlp": 1.0171783,
      "epoch": 0.9415018337040822,
      "flos": 17495363122560.0,
      "grad_norm": 2.1339629501008286,
      "language_loss": 0.63789922,
      "learning_rate": 3.5723886692264225e-08,
      "loss": 0.65893644,
      "num_input_tokens_seen": 169268600,
      "step": 7830,
      "time_per_iteration": 2.517923355102539
    },
    {
      "auxiliary_loss_clip": 0.01065286,
      "auxiliary_loss_mlp": 0.01022752,
      "balance_loss_clip": 1.03338051,
      "balance_loss_mlp": 1.01796579,
      "epoch": 0.9416220765947213,
      "flos": 31834281306240.0,
      "grad_norm": 3.0763766157296715,
      "language_loss": 0.61907774,
      "learning_rate": 3.557746303061071e-08,
      "loss": 0.63995814,
      "num_input_tokens_seen": 169290355,
      "step": 7831,
      "time_per_iteration": 2.6178810596466064
    },
    {
      "auxiliary_loss_clip": 0.01066992,
      "auxiliary_loss_mlp": 0.01019029,
      "balance_loss_clip": 1.03446651,
      "balance_loss_mlp": 1.01393294,
      "epoch": 0.9417423194853605,
      "flos": 23514127931520.0,
      "grad_norm": 1.7134989658811295,
      "language_loss": 0.72257245,
      "learning_rate": 3.543133737029391e-08,
      "loss": 0.74343264,
      "num_input_tokens_seen": 169310865,
      "step": 7832,
      "time_per_iteration": 2.6358413696289062
    },
    {
      "auxiliary_loss_clip": 0.01082341,
      "auxiliary_loss_mlp": 0.01022583,
      "balance_loss_clip": 1.03671658,
      "balance_loss_mlp": 1.01725769,
      "epoch": 0.9418625623759995,
      "flos": 23917383521280.0,
      "grad_norm": 1.862925287793487,
      "language_loss": 0.68946832,
      "learning_rate": 3.5285509733481214e-08,
      "loss": 0.71051759,
      "num_input_tokens_seen": 169330590,
      "step": 7833,
      "time_per_iteration": 2.5455713272094727
    },
    {
      "auxiliary_loss_clip": 0.01081497,
      "auxiliary_loss_mlp": 0.0102104,
      "balance_loss_clip": 1.03570044,
      "balance_loss_mlp": 1.0155772,
      "epoch": 0.9419828052666386,
      "flos": 18078893602560.0,
      "grad_norm": 1.8463485913446378,
      "language_loss": 0.76420838,
      "learning_rate": 3.513998014229469e-08,
      "loss": 0.78523374,
      "num_input_tokens_seen": 169349540,
      "step": 7834,
      "time_per_iteration": 2.52069091796875
    },
    {
      "auxiliary_loss_clip": 0.01063386,
      "auxiliary_loss_mlp": 0.01018896,
      "balance_loss_clip": 1.03608751,
      "balance_loss_mlp": 1.01406193,
      "epoch": 0.9421030481572777,
      "flos": 17714248669440.0,
      "grad_norm": 2.3593167003639786,
      "language_loss": 0.8634299,
      "learning_rate": 3.499474861881069e-08,
      "loss": 0.88425267,
      "num_input_tokens_seen": 169366765,
      "step": 7835,
      "time_per_iteration": 2.5023534297943115
    },
    {
      "auxiliary_loss_clip": 0.01031104,
      "auxiliary_loss_mlp": 0.01017767,
      "balance_loss_clip": 1.03261864,
      "balance_loss_mlp": 1.01271808,
      "epoch": 0.9422232910479168,
      "flos": 20196215470080.0,
      "grad_norm": 3.0876348523947375,
      "language_loss": 0.67955315,
      "learning_rate": 3.4849815185061136e-08,
      "loss": 0.70004189,
      "num_input_tokens_seen": 169386655,
      "step": 7836,
      "time_per_iteration": 2.6838746070861816
    },
    {
      "auxiliary_loss_clip": 0.01078277,
      "auxiliary_loss_mlp": 0.01019518,
      "balance_loss_clip": 1.0337522,
      "balance_loss_mlp": 1.01470828,
      "epoch": 0.9423435339385559,
      "flos": 18444562323840.0,
      "grad_norm": 2.2252414050356792,
      "language_loss": 0.76182842,
      "learning_rate": 3.470517986303223e-08,
      "loss": 0.7828064,
      "num_input_tokens_seen": 169405640,
      "step": 7837,
      "time_per_iteration": 2.5034971237182617
    },
    {
      "auxiliary_loss_clip": 0.01054368,
      "auxiliary_loss_mlp": 0.01025666,
      "balance_loss_clip": 1.03486729,
      "balance_loss_mlp": 1.0205673,
      "epoch": 0.942463776829195,
      "flos": 20082506912640.0,
      "grad_norm": 1.7951392625819032,
      "language_loss": 0.79134136,
      "learning_rate": 3.4560842674664856e-08,
      "loss": 0.81214172,
      "num_input_tokens_seen": 169424155,
      "step": 7838,
      "time_per_iteration": 2.6069891452789307
    },
    {
      "auxiliary_loss_clip": 0.01080541,
      "auxiliary_loss_mlp": 0.01018077,
      "balance_loss_clip": 1.03533292,
      "balance_loss_mlp": 1.01284349,
      "epoch": 0.9425840197198341,
      "flos": 22638358235520.0,
      "grad_norm": 1.8819553351522726,
      "language_loss": 0.75336659,
      "learning_rate": 3.441680364185506e-08,
      "loss": 0.77435279,
      "num_input_tokens_seen": 169444025,
      "step": 7839,
      "time_per_iteration": 3.3503873348236084
    },
    {
      "auxiliary_loss_clip": 0.01060868,
      "auxiliary_loss_mlp": 0.01020426,
      "balance_loss_clip": 1.03130817,
      "balance_loss_mlp": 1.01526117,
      "epoch": 0.9427042626104731,
      "flos": 19939932645120.0,
      "grad_norm": 2.2953092004268334,
      "language_loss": 0.74876976,
      "learning_rate": 3.427306278645314e-08,
      "loss": 0.76958275,
      "num_input_tokens_seen": 169462480,
      "step": 7840,
      "time_per_iteration": 4.096207857131958
    },
    {
      "auxiliary_loss_clip": 0.01039125,
      "auxiliary_loss_mlp": 0.01020542,
      "balance_loss_clip": 1.03208876,
      "balance_loss_mlp": 1.01546371,
      "epoch": 0.9428245055011123,
      "flos": 22859215522560.0,
      "grad_norm": 13.281629427129701,
      "language_loss": 0.72846538,
      "learning_rate": 3.4129620130264767e-08,
      "loss": 0.74906206,
      "num_input_tokens_seen": 169480840,
      "step": 7841,
      "time_per_iteration": 2.5873863697052
    },
    {
      "auxiliary_loss_clip": 0.01069023,
      "auxiliary_loss_mlp": 0.0075657,
      "balance_loss_clip": 1.03607559,
      "balance_loss_mlp": 1.00173783,
      "epoch": 0.9429447483917514,
      "flos": 20953423094400.0,
      "grad_norm": 2.151648080045181,
      "language_loss": 0.77970207,
      "learning_rate": 3.398647569505009e-08,
      "loss": 0.79795802,
      "num_input_tokens_seen": 169498265,
      "step": 7842,
      "time_per_iteration": 2.5679728984832764
    },
    {
      "auxiliary_loss_clip": 0.01053257,
      "auxiliary_loss_mlp": 0.01020222,
      "balance_loss_clip": 1.0322392,
      "balance_loss_mlp": 1.01496506,
      "epoch": 0.9430649912823904,
      "flos": 18845656583040.0,
      "grad_norm": 2.4014962475953854,
      "language_loss": 0.74630296,
      "learning_rate": 3.384362950252373e-08,
      "loss": 0.76703769,
      "num_input_tokens_seen": 169515235,
      "step": 7843,
      "time_per_iteration": 2.530663251876831
    },
    {
      "auxiliary_loss_clip": 0.0106567,
      "auxiliary_loss_mlp": 0.01018075,
      "balance_loss_clip": 1.03327775,
      "balance_loss_mlp": 1.01294613,
      "epoch": 0.9431852341730296,
      "flos": 32558452231680.0,
      "grad_norm": 1.7706803020302877,
      "language_loss": 0.57170916,
      "learning_rate": 3.3701081574355473e-08,
      "loss": 0.59254658,
      "num_input_tokens_seen": 169537195,
      "step": 7844,
      "time_per_iteration": 2.673370361328125
    },
    {
      "auxiliary_loss_clip": 0.01015342,
      "auxiliary_loss_mlp": 0.01000299,
      "balance_loss_clip": 1.01521683,
      "balance_loss_mlp": 0.99874955,
      "epoch": 0.9433054770636686,
      "flos": 66911708384640.0,
      "grad_norm": 0.6368066950680947,
      "language_loss": 0.51657039,
      "learning_rate": 3.3558831932169796e-08,
      "loss": 0.53672677,
      "num_input_tokens_seen": 169605865,
      "step": 7845,
      "time_per_iteration": 3.1968908309936523
    },
    {
      "auxiliary_loss_clip": 0.01077015,
      "auxiliary_loss_mlp": 0.01018038,
      "balance_loss_clip": 1.03512669,
      "balance_loss_mlp": 1.01295948,
      "epoch": 0.9434257199543077,
      "flos": 26142726234240.0,
      "grad_norm": 1.8874449702139664,
      "language_loss": 0.88573372,
      "learning_rate": 3.341688059754588e-08,
      "loss": 0.90668428,
      "num_input_tokens_seen": 169621520,
      "step": 7846,
      "time_per_iteration": 2.5808115005493164
    },
    {
      "auxiliary_loss_clip": 0.01060767,
      "auxiliary_loss_mlp": 0.00756402,
      "balance_loss_clip": 1.03542256,
      "balance_loss_mlp": 1.00172138,
      "epoch": 0.9435459628449467,
      "flos": 25005478936320.0,
      "grad_norm": 2.3653377597576957,
      "language_loss": 0.77529472,
      "learning_rate": 3.327522759201762e-08,
      "loss": 0.79346639,
      "num_input_tokens_seen": 169641390,
      "step": 7847,
      "time_per_iteration": 2.60581374168396
    },
    {
      "auxiliary_loss_clip": 0.01050241,
      "auxiliary_loss_mlp": 0.01021427,
      "balance_loss_clip": 1.03449297,
      "balance_loss_mlp": 1.01607478,
      "epoch": 0.9436662057355859,
      "flos": 22165389112320.0,
      "grad_norm": 2.2707248298184988,
      "language_loss": 0.67297888,
      "learning_rate": 3.313387293707359e-08,
      "loss": 0.6936956,
      "num_input_tokens_seen": 169660095,
      "step": 7848,
      "time_per_iteration": 2.617504119873047
    },
    {
      "auxiliary_loss_clip": 0.0105265,
      "auxiliary_loss_mlp": 0.01021037,
      "balance_loss_clip": 1.03518367,
      "balance_loss_mlp": 1.01549971,
      "epoch": 0.943786448626225,
      "flos": 20120472961920.0,
      "grad_norm": 2.052896574797712,
      "language_loss": 0.68492717,
      "learning_rate": 3.29928166541571e-08,
      "loss": 0.70566404,
      "num_input_tokens_seen": 169679050,
      "step": 7849,
      "time_per_iteration": 3.2408699989318848
    },
    {
      "auxiliary_loss_clip": 0.01061402,
      "auxiliary_loss_mlp": 0.01017464,
      "balance_loss_clip": 1.03294921,
      "balance_loss_mlp": 1.01222742,
      "epoch": 0.943906691516864,
      "flos": 22092983395200.0,
      "grad_norm": 2.0015083706773042,
      "language_loss": 0.80682427,
      "learning_rate": 3.2852058764666346e-08,
      "loss": 0.827613,
      "num_input_tokens_seen": 169698150,
      "step": 7850,
      "time_per_iteration": 2.595994710922241
    },
    {
      "auxiliary_loss_clip": 0.01039402,
      "auxiliary_loss_mlp": 0.01021764,
      "balance_loss_clip": 1.02983975,
      "balance_loss_mlp": 1.01675105,
      "epoch": 0.9440269344075032,
      "flos": 35301403699200.0,
      "grad_norm": 1.8941135363318833,
      "language_loss": 0.68382204,
      "learning_rate": 3.2711599289954264e-08,
      "loss": 0.70443368,
      "num_input_tokens_seen": 169722185,
      "step": 7851,
      "time_per_iteration": 2.695265769958496
    },
    {
      "auxiliary_loss_clip": 0.01030418,
      "auxiliary_loss_mlp": 0.0102275,
      "balance_loss_clip": 1.03217614,
      "balance_loss_mlp": 1.01774883,
      "epoch": 0.9441471772981422,
      "flos": 19239773915520.0,
      "grad_norm": 1.9128751494201026,
      "language_loss": 0.77611625,
      "learning_rate": 3.257143825132847e-08,
      "loss": 0.79664791,
      "num_input_tokens_seen": 169740355,
      "step": 7852,
      "time_per_iteration": 2.655954360961914
    },
    {
      "auxiliary_loss_clip": 0.01066606,
      "auxiliary_loss_mlp": 0.01015467,
      "balance_loss_clip": 1.0343945,
      "balance_loss_mlp": 1.0104636,
      "epoch": 0.9442674201887813,
      "flos": 25742200746240.0,
      "grad_norm": 1.8292878002782789,
      "language_loss": 0.75711274,
      "learning_rate": 3.243157567005106e-08,
      "loss": 0.77793348,
      "num_input_tokens_seen": 169758535,
      "step": 7853,
      "time_per_iteration": 2.5876548290252686
    },
    {
      "auxiliary_loss_clip": 0.01095425,
      "auxiliary_loss_mlp": 0.01019462,
      "balance_loss_clip": 1.04047608,
      "balance_loss_mlp": 1.01417542,
      "epoch": 0.9443876630794205,
      "flos": 15525127774080.0,
      "grad_norm": 2.0685756545371223,
      "language_loss": 0.63978589,
      "learning_rate": 3.2292011567339296e-08,
      "loss": 0.66093481,
      "num_input_tokens_seen": 169776340,
      "step": 7854,
      "time_per_iteration": 2.499086856842041
    },
    {
      "auxiliary_loss_clip": 0.01081043,
      "auxiliary_loss_mlp": 0.00756531,
      "balance_loss_clip": 1.03529549,
      "balance_loss_mlp": 1.00172734,
      "epoch": 0.9445079059700595,
      "flos": 13402156112640.0,
      "grad_norm": 2.1275568088778827,
      "language_loss": 0.56124133,
      "learning_rate": 3.21527459643649e-08,
      "loss": 0.57961702,
      "num_input_tokens_seen": 169793225,
      "step": 7855,
      "time_per_iteration": 2.5089311599731445
    },
    {
      "auxiliary_loss_clip": 0.01080536,
      "auxiliary_loss_mlp": 0.01020969,
      "balance_loss_clip": 1.03690696,
      "balance_loss_mlp": 1.01569653,
      "epoch": 0.9446281488606986,
      "flos": 23661479877120.0,
      "grad_norm": 2.7109079221982126,
      "language_loss": 0.74299467,
      "learning_rate": 3.2013778882254536e-08,
      "loss": 0.76400971,
      "num_input_tokens_seen": 169812020,
      "step": 7856,
      "time_per_iteration": 2.5634262561798096
    },
    {
      "auxiliary_loss_clip": 0.01080942,
      "auxiliary_loss_mlp": 0.01024091,
      "balance_loss_clip": 1.03571355,
      "balance_loss_mlp": 1.01913786,
      "epoch": 0.9447483917513377,
      "flos": 25559726607360.0,
      "grad_norm": 1.8868443734707758,
      "language_loss": 0.75731182,
      "learning_rate": 3.1875110342088676e-08,
      "loss": 0.77836215,
      "num_input_tokens_seen": 169833470,
      "step": 7857,
      "time_per_iteration": 2.5754053592681885
    },
    {
      "auxiliary_loss_clip": 0.01057323,
      "auxiliary_loss_mlp": 0.01018306,
      "balance_loss_clip": 1.02960896,
      "balance_loss_mlp": 1.01324892,
      "epoch": 0.9448686346419768,
      "flos": 24537780426240.0,
      "grad_norm": 1.8229899679704167,
      "language_loss": 0.65495372,
      "learning_rate": 3.1736740364904035e-08,
      "loss": 0.67571002,
      "num_input_tokens_seen": 169854000,
      "step": 7858,
      "time_per_iteration": 2.596957206726074
    },
    {
      "auxiliary_loss_clip": 0.01045859,
      "auxiliary_loss_mlp": 0.00756686,
      "balance_loss_clip": 1.03420734,
      "balance_loss_mlp": 1.00162029,
      "epoch": 0.9449888775326158,
      "flos": 14723053009920.0,
      "grad_norm": 2.214032969561306,
      "language_loss": 0.77190435,
      "learning_rate": 3.159866897169094e-08,
      "loss": 0.78992975,
      "num_input_tokens_seen": 169872200,
      "step": 7859,
      "time_per_iteration": 2.6132218837738037
    },
    {
      "auxiliary_loss_clip": 0.0105173,
      "auxiliary_loss_mlp": 0.01019716,
      "balance_loss_clip": 1.03468513,
      "balance_loss_mlp": 1.01462555,
      "epoch": 0.945109120423255,
      "flos": 15449536938240.0,
      "grad_norm": 2.142386972219222,
      "language_loss": 0.7534011,
      "learning_rate": 3.146089618339487e-08,
      "loss": 0.77411556,
      "num_input_tokens_seen": 169889055,
      "step": 7860,
      "time_per_iteration": 2.5481574535369873
    },
    {
      "auxiliary_loss_clip": 0.01057632,
      "auxiliary_loss_mlp": 0.01017291,
      "balance_loss_clip": 1.03444147,
      "balance_loss_mlp": 1.01216173,
      "epoch": 0.9452293633138941,
      "flos": 25450492383360.0,
      "grad_norm": 1.7634451991724556,
      "language_loss": 0.67629081,
      "learning_rate": 3.132342202091554e-08,
      "loss": 0.69704002,
      "num_input_tokens_seen": 169909280,
      "step": 7861,
      "time_per_iteration": 2.6234962940216064
    },
    {
      "auxiliary_loss_clip": 0.01091265,
      "auxiliary_loss_mlp": 0.01019918,
      "balance_loss_clip": 1.03538108,
      "balance_loss_mlp": 1.01478338,
      "epoch": 0.9453496062045331,
      "flos": 21217479125760.0,
      "grad_norm": 2.391199606179484,
      "language_loss": 0.68072355,
      "learning_rate": 3.1186246505107595e-08,
      "loss": 0.70183539,
      "num_input_tokens_seen": 169928420,
      "step": 7862,
      "time_per_iteration": 2.4969727993011475
    },
    {
      "auxiliary_loss_clip": 0.0107996,
      "auxiliary_loss_mlp": 0.01020821,
      "balance_loss_clip": 1.03700972,
      "balance_loss_mlp": 1.01558495,
      "epoch": 0.9454698490951723,
      "flos": 20012945051520.0,
      "grad_norm": 2.0827520849370202,
      "language_loss": 0.83509004,
      "learning_rate": 3.104936965678084e-08,
      "loss": 0.85609782,
      "num_input_tokens_seen": 169946750,
      "step": 7863,
      "time_per_iteration": 2.507096290588379
    },
    {
      "auxiliary_loss_clip": 0.01076914,
      "auxiliary_loss_mlp": 0.01017447,
      "balance_loss_clip": 1.03351748,
      "balance_loss_mlp": 1.01208544,
      "epoch": 0.9455900919858113,
      "flos": 21071795575680.0,
      "grad_norm": 2.018063140733981,
      "language_loss": 0.82024568,
      "learning_rate": 3.091279149669956e-08,
      "loss": 0.84118927,
      "num_input_tokens_seen": 169965540,
      "step": 7864,
      "time_per_iteration": 3.294811248779297
    },
    {
      "auxiliary_loss_clip": 0.01078391,
      "auxiliary_loss_mlp": 0.00756374,
      "balance_loss_clip": 1.03581524,
      "balance_loss_mlp": 1.00164473,
      "epoch": 0.9457103348764504,
      "flos": 20742955361280.0,
      "grad_norm": 1.7262669110251627,
      "language_loss": 0.73653102,
      "learning_rate": 3.0776512045581624e-08,
      "loss": 0.75487864,
      "num_input_tokens_seen": 169984330,
      "step": 7865,
      "time_per_iteration": 2.510375738143921
    },
    {
      "auxiliary_loss_clip": 0.01062635,
      "auxiliary_loss_mlp": 0.01021673,
      "balance_loss_clip": 1.03134465,
      "balance_loss_mlp": 1.01624262,
      "epoch": 0.9458305777670896,
      "flos": 21430184025600.0,
      "grad_norm": 2.7456396991867438,
      "language_loss": 0.7769779,
      "learning_rate": 3.0640531324101384e-08,
      "loss": 0.79782104,
      "num_input_tokens_seen": 170002095,
      "step": 7866,
      "time_per_iteration": 3.3622400760650635
    },
    {
      "auxiliary_loss_clip": 0.01081539,
      "auxiliary_loss_mlp": 0.01018633,
      "balance_loss_clip": 1.03793931,
      "balance_loss_mlp": 1.013111,
      "epoch": 0.9459508206577286,
      "flos": 20013248396160.0,
      "grad_norm": 1.9546049018913716,
      "language_loss": 0.76113582,
      "learning_rate": 3.0504849352886554e-08,
      "loss": 0.78213757,
      "num_input_tokens_seen": 170020240,
      "step": 7867,
      "time_per_iteration": 2.5070862770080566
    },
    {
      "auxiliary_loss_clip": 0.01073135,
      "auxiliary_loss_mlp": 0.01020524,
      "balance_loss_clip": 1.03112435,
      "balance_loss_mlp": 1.01556158,
      "epoch": 0.9460710635483677,
      "flos": 12168035884800.0,
      "grad_norm": 2.6328487655547765,
      "language_loss": 0.71411574,
      "learning_rate": 3.036946615252023e-08,
      "loss": 0.73505235,
      "num_input_tokens_seen": 170035770,
      "step": 7868,
      "time_per_iteration": 2.4582228660583496
    },
    {
      "auxiliary_loss_clip": 0.01063611,
      "auxiliary_loss_mlp": 0.01018512,
      "balance_loss_clip": 1.0345099,
      "balance_loss_mlp": 1.0134877,
      "epoch": 0.9461913064390068,
      "flos": 34279002501120.0,
      "grad_norm": 2.3999346857223847,
      "language_loss": 0.67075825,
      "learning_rate": 3.0234381743539984e-08,
      "loss": 0.6915794,
      "num_input_tokens_seen": 170053385,
      "step": 7869,
      "time_per_iteration": 2.6303343772888184
    },
    {
      "auxiliary_loss_clip": 0.01072369,
      "auxiliary_loss_mlp": 0.01019766,
      "balance_loss_clip": 1.03606081,
      "balance_loss_mlp": 1.01462853,
      "epoch": 0.9463115493296459,
      "flos": 19465788061440.0,
      "grad_norm": 2.0925705319648435,
      "language_loss": 0.79928946,
      "learning_rate": 3.0099596146437863e-08,
      "loss": 0.82021081,
      "num_input_tokens_seen": 170070490,
      "step": 7870,
      "time_per_iteration": 2.5550224781036377
    },
    {
      "auxiliary_loss_clip": 0.01039858,
      "auxiliary_loss_mlp": 0.01000928,
      "balance_loss_clip": 1.01493311,
      "balance_loss_mlp": 0.99935418,
      "epoch": 0.946431792220285,
      "flos": 70577202643200.0,
      "grad_norm": 0.7709051383343748,
      "language_loss": 0.60011029,
      "learning_rate": 2.996510938166086e-08,
      "loss": 0.62051809,
      "num_input_tokens_seen": 170133465,
      "step": 7871,
      "time_per_iteration": 3.155393123626709
    },
    {
      "auxiliary_loss_clip": 0.01079558,
      "auxiliary_loss_mlp": 0.01019997,
      "balance_loss_clip": 1.03753686,
      "balance_loss_mlp": 1.0150435,
      "epoch": 0.9465520351109241,
      "flos": 18949620193920.0,
      "grad_norm": 4.500607885991111,
      "language_loss": 0.73613989,
      "learning_rate": 2.983092146960997e-08,
      "loss": 0.75713539,
      "num_input_tokens_seen": 170150810,
      "step": 7872,
      "time_per_iteration": 2.499272108078003
    },
    {
      "auxiliary_loss_clip": 0.01072146,
      "auxiliary_loss_mlp": 0.01022662,
      "balance_loss_clip": 1.03546321,
      "balance_loss_mlp": 1.01682639,
      "epoch": 0.9466722780015632,
      "flos": 19137668290560.0,
      "grad_norm": 2.5574285116209228,
      "language_loss": 0.80269051,
      "learning_rate": 2.9697032430642256e-08,
      "loss": 0.82363856,
      "num_input_tokens_seen": 170169025,
      "step": 7873,
      "time_per_iteration": 2.530938148498535
    },
    {
      "auxiliary_loss_clip": 0.0109023,
      "auxiliary_loss_mlp": 0.01015295,
      "balance_loss_clip": 1.03649545,
      "balance_loss_mlp": 1.01059866,
      "epoch": 0.9467925208922022,
      "flos": 17239800741120.0,
      "grad_norm": 2.4986635542912294,
      "language_loss": 0.73292822,
      "learning_rate": 2.9563442285067906e-08,
      "loss": 0.7539835,
      "num_input_tokens_seen": 170186070,
      "step": 7874,
      "time_per_iteration": 2.453780174255371
    },
    {
      "auxiliary_loss_clip": 0.01079954,
      "auxiliary_loss_mlp": 0.01019783,
      "balance_loss_clip": 1.0362103,
      "balance_loss_mlp": 1.01452339,
      "epoch": 0.9469127637828414,
      "flos": 29171584598400.0,
      "grad_norm": 1.9146598066528262,
      "language_loss": 0.79999596,
      "learning_rate": 2.943015105315294e-08,
      "loss": 0.8209933,
      "num_input_tokens_seen": 170206265,
      "step": 7875,
      "time_per_iteration": 3.342554807662964
    },
    {
      "auxiliary_loss_clip": 0.01036539,
      "auxiliary_loss_mlp": 0.01018519,
      "balance_loss_clip": 1.0300014,
      "balance_loss_mlp": 1.01299644,
      "epoch": 0.9470330066734804,
      "flos": 26032809484800.0,
      "grad_norm": 2.989979409182043,
      "language_loss": 0.66361851,
      "learning_rate": 2.929715875511718e-08,
      "loss": 0.68416905,
      "num_input_tokens_seen": 170225300,
      "step": 7876,
      "time_per_iteration": 2.647212505340576
    },
    {
      "auxiliary_loss_clip": 0.01079817,
      "auxiliary_loss_mlp": 0.01018603,
      "balance_loss_clip": 1.03390622,
      "balance_loss_mlp": 1.01339078,
      "epoch": 0.9471532495641195,
      "flos": 23443163101440.0,
      "grad_norm": 1.8777858812421553,
      "language_loss": 0.70138049,
      "learning_rate": 2.9164465411135375e-08,
      "loss": 0.72236466,
      "num_input_tokens_seen": 170245070,
      "step": 7877,
      "time_per_iteration": 2.5944125652313232
    },
    {
      "auxiliary_loss_clip": 0.01081516,
      "auxiliary_loss_mlp": 0.01018261,
      "balance_loss_clip": 1.03763199,
      "balance_loss_mlp": 1.01318598,
      "epoch": 0.9472734924547586,
      "flos": 15817708252800.0,
      "grad_norm": 2.6484312502669503,
      "language_loss": 0.80839616,
      "learning_rate": 2.9032071041337426e-08,
      "loss": 0.82939398,
      "num_input_tokens_seen": 170263305,
      "step": 7878,
      "time_per_iteration": 2.512869119644165
    },
    {
      "auxiliary_loss_clip": 0.01063639,
      "auxiliary_loss_mlp": 0.01019858,
      "balance_loss_clip": 1.03228927,
      "balance_loss_mlp": 1.01506293,
      "epoch": 0.9473937353453977,
      "flos": 11183373227520.0,
      "grad_norm": 1.6625604935615075,
      "language_loss": 0.73012459,
      "learning_rate": 2.889997566580704e-08,
      "loss": 0.75095963,
      "num_input_tokens_seen": 170281460,
      "step": 7879,
      "time_per_iteration": 2.504610061645508
    },
    {
      "auxiliary_loss_clip": 0.01092731,
      "auxiliary_loss_mlp": 0.01021969,
      "balance_loss_clip": 1.03708112,
      "balance_loss_mlp": 1.01666689,
      "epoch": 0.9475139782360368,
      "flos": 25777891710720.0,
      "grad_norm": 1.838960737320172,
      "language_loss": 0.70475781,
      "learning_rate": 2.8768179304583086e-08,
      "loss": 0.72590482,
      "num_input_tokens_seen": 170303515,
      "step": 7880,
      "time_per_iteration": 2.5168259143829346
    },
    {
      "auxiliary_loss_clip": 0.01050618,
      "auxiliary_loss_mlp": 0.01023864,
      "balance_loss_clip": 1.03136134,
      "balance_loss_mlp": 1.01883018,
      "epoch": 0.9476342211266758,
      "flos": 22822235343360.0,
      "grad_norm": 1.7792388989001513,
      "language_loss": 0.73491555,
      "learning_rate": 2.8636681977659117e-08,
      "loss": 0.75566041,
      "num_input_tokens_seen": 170323165,
      "step": 7881,
      "time_per_iteration": 2.600482225418091
    },
    {
      "auxiliary_loss_clip": 0.01045346,
      "auxiliary_loss_mlp": 0.01020521,
      "balance_loss_clip": 1.03491855,
      "balance_loss_mlp": 1.01525509,
      "epoch": 0.947754464017315,
      "flos": 20195684616960.0,
      "grad_norm": 1.985017965216361,
      "language_loss": 0.7795136,
      "learning_rate": 2.850548370498318e-08,
      "loss": 0.80017221,
      "num_input_tokens_seen": 170341005,
      "step": 7882,
      "time_per_iteration": 2.610677480697632
    },
    {
      "auxiliary_loss_clip": 0.01079029,
      "auxiliary_loss_mlp": 0.01017467,
      "balance_loss_clip": 1.03473306,
      "balance_loss_mlp": 1.01263058,
      "epoch": 0.9478747069079541,
      "flos": 24720254565120.0,
      "grad_norm": 1.5778993432138777,
      "language_loss": 0.7152611,
      "learning_rate": 2.8374584506457798e-08,
      "loss": 0.73622608,
      "num_input_tokens_seen": 170362280,
      "step": 7883,
      "time_per_iteration": 2.5438501834869385
    },
    {
      "auxiliary_loss_clip": 0.01064361,
      "auxiliary_loss_mlp": 0.01017186,
      "balance_loss_clip": 1.03395438,
      "balance_loss_mlp": 1.01197052,
      "epoch": 0.9479949497985931,
      "flos": 21363503938560.0,
      "grad_norm": 3.7125804325167326,
      "language_loss": 0.67114967,
      "learning_rate": 2.824398440193998e-08,
      "loss": 0.6919651,
      "num_input_tokens_seen": 170381080,
      "step": 7884,
      "time_per_iteration": 2.540117025375366
    },
    {
      "auxiliary_loss_clip": 0.01043377,
      "auxiliary_loss_mlp": 0.01017372,
      "balance_loss_clip": 1.03465164,
      "balance_loss_mlp": 1.01197803,
      "epoch": 0.9481151926892323,
      "flos": 18150465121920.0,
      "grad_norm": 1.9367876768452774,
      "language_loss": 0.716079,
      "learning_rate": 2.811368341124232e-08,
      "loss": 0.73668653,
      "num_input_tokens_seen": 170400150,
      "step": 7885,
      "time_per_iteration": 2.592477798461914
    },
    {
      "auxiliary_loss_clip": 0.01071999,
      "auxiliary_loss_mlp": 0.01021782,
      "balance_loss_clip": 1.03599286,
      "balance_loss_mlp": 1.01673007,
      "epoch": 0.9482354355798713,
      "flos": 22130229000960.0,
      "grad_norm": 2.2277794998131157,
      "language_loss": 0.67952478,
      "learning_rate": 2.7983681554131222e-08,
      "loss": 0.70046264,
      "num_input_tokens_seen": 170420410,
      "step": 7886,
      "time_per_iteration": 2.586216449737549
    },
    {
      "auxiliary_loss_clip": 0.01073401,
      "auxiliary_loss_mlp": 0.01020321,
      "balance_loss_clip": 1.03640628,
      "balance_loss_mlp": 1.01484942,
      "epoch": 0.9483556784705104,
      "flos": 19065110901120.0,
      "grad_norm": 10.376037630539345,
      "language_loss": 0.70912838,
      "learning_rate": 2.7853978850327365e-08,
      "loss": 0.73006558,
      "num_input_tokens_seen": 170439580,
      "step": 7887,
      "time_per_iteration": 2.5513646602630615
    },
    {
      "auxiliary_loss_clip": 0.01054748,
      "auxiliary_loss_mlp": 0.01019781,
      "balance_loss_clip": 1.03664494,
      "balance_loss_mlp": 1.01464939,
      "epoch": 0.9484759213611496,
      "flos": 25779560106240.0,
      "grad_norm": 1.7715860250973277,
      "language_loss": 0.87457895,
      "learning_rate": 2.7724575319507225e-08,
      "loss": 0.89532423,
      "num_input_tokens_seen": 170459290,
      "step": 7888,
      "time_per_iteration": 2.6434996128082275
    },
    {
      "auxiliary_loss_clip": 0.01079816,
      "auxiliary_loss_mlp": 0.0101812,
      "balance_loss_clip": 1.0346235,
      "balance_loss_mlp": 1.01330352,
      "epoch": 0.9485961642517886,
      "flos": 20669829200640.0,
      "grad_norm": 1.9164373975086058,
      "language_loss": 0.77166903,
      "learning_rate": 2.759547098130044e-08,
      "loss": 0.79264838,
      "num_input_tokens_seen": 170478020,
      "step": 7889,
      "time_per_iteration": 2.541489839553833
    },
    {
      "auxiliary_loss_clip": 0.01090004,
      "auxiliary_loss_mlp": 0.0101911,
      "balance_loss_clip": 1.03569472,
      "balance_loss_mlp": 1.01407337,
      "epoch": 0.9487164071424277,
      "flos": 22676248448640.0,
      "grad_norm": 1.757883363317618,
      "language_loss": 0.76624203,
      "learning_rate": 2.746666585529267e-08,
      "loss": 0.78733313,
      "num_input_tokens_seen": 170498295,
      "step": 7890,
      "time_per_iteration": 3.299020767211914
    },
    {
      "auxiliary_loss_clip": 0.01081115,
      "auxiliary_loss_mlp": 0.01022382,
      "balance_loss_clip": 1.03591442,
      "balance_loss_mlp": 1.01705682,
      "epoch": 0.9488366500330668,
      "flos": 38729460418560.0,
      "grad_norm": 2.150688295116002,
      "language_loss": 0.74130952,
      "learning_rate": 2.73381599610234e-08,
      "loss": 0.76234454,
      "num_input_tokens_seen": 170518695,
      "step": 7891,
      "time_per_iteration": 2.6873362064361572
    },
    {
      "auxiliary_loss_clip": 0.01080473,
      "auxiliary_loss_mlp": 0.01019323,
      "balance_loss_clip": 1.03484118,
      "balance_loss_mlp": 1.01367259,
      "epoch": 0.9489568929237059,
      "flos": 27893355592320.0,
      "grad_norm": 2.075577148806035,
      "language_loss": 0.71295929,
      "learning_rate": 2.7209953317987033e-08,
      "loss": 0.73395729,
      "num_input_tokens_seen": 170539735,
      "step": 7892,
      "time_per_iteration": 4.063358783721924
    },
    {
      "auxiliary_loss_clip": 0.01078788,
      "auxiliary_loss_mlp": 0.01017768,
      "balance_loss_clip": 1.03571558,
      "balance_loss_mlp": 1.01254356,
      "epoch": 0.9490771358143449,
      "flos": 33583280186880.0,
      "grad_norm": 2.319073292650154,
      "language_loss": 0.77869666,
      "learning_rate": 2.7082045945631793e-08,
      "loss": 0.79966217,
      "num_input_tokens_seen": 170561950,
      "step": 7893,
      "time_per_iteration": 2.649873971939087
    },
    {
      "auxiliary_loss_clip": 0.01055388,
      "auxiliary_loss_mlp": 0.01019544,
      "balance_loss_clip": 1.03464246,
      "balance_loss_mlp": 1.01423573,
      "epoch": 0.9491973787049841,
      "flos": 14795572481280.0,
      "grad_norm": 4.522598661919438,
      "language_loss": 0.69428271,
      "learning_rate": 2.6954437863361712e-08,
      "loss": 0.71503204,
      "num_input_tokens_seen": 170579865,
      "step": 7894,
      "time_per_iteration": 2.6004226207733154
    },
    {
      "auxiliary_loss_clip": 0.01028791,
      "auxiliary_loss_mlp": 0.01017912,
      "balance_loss_clip": 1.03095829,
      "balance_loss_mlp": 1.01295042,
      "epoch": 0.9493176215956232,
      "flos": 25334584577280.0,
      "grad_norm": 3.2793034401762635,
      "language_loss": 0.70608163,
      "learning_rate": 2.6827129090534862e-08,
      "loss": 0.72654867,
      "num_input_tokens_seen": 170600165,
      "step": 7895,
      "time_per_iteration": 2.7014658451080322
    },
    {
      "auxiliary_loss_clip": 0.01060353,
      "auxiliary_loss_mlp": 0.01018415,
      "balance_loss_clip": 1.03468943,
      "balance_loss_mlp": 1.01331878,
      "epoch": 0.9494378644862622,
      "flos": 21031933622400.0,
      "grad_norm": 7.107924182740968,
      "language_loss": 0.7807951,
      "learning_rate": 2.670011964646335e-08,
      "loss": 0.80158269,
      "num_input_tokens_seen": 170618845,
      "step": 7896,
      "time_per_iteration": 2.575101613998413
    },
    {
      "auxiliary_loss_clip": 0.01026017,
      "auxiliary_loss_mlp": 0.0101914,
      "balance_loss_clip": 1.03016293,
      "balance_loss_mlp": 1.01357317,
      "epoch": 0.9495581073769014,
      "flos": 15196932167040.0,
      "grad_norm": 1.8358323502446616,
      "language_loss": 0.68096548,
      "learning_rate": 2.657340955041487e-08,
      "loss": 0.70141709,
      "num_input_tokens_seen": 170637620,
      "step": 7897,
      "time_per_iteration": 2.9188053607940674
    },
    {
      "auxiliary_loss_clip": 0.01063634,
      "auxiliary_loss_mlp": 0.01020728,
      "balance_loss_clip": 1.03663421,
      "balance_loss_mlp": 1.01521158,
      "epoch": 0.9496783502675404,
      "flos": 28618815732480.0,
      "grad_norm": 1.7759059438013312,
      "language_loss": 0.71654856,
      "learning_rate": 2.6446998821611167e-08,
      "loss": 0.73739225,
      "num_input_tokens_seen": 170657815,
      "step": 7898,
      "time_per_iteration": 3.2134037017822266
    },
    {
      "auxiliary_loss_clip": 0.01039337,
      "auxiliary_loss_mlp": 0.01021179,
      "balance_loss_clip": 1.03182375,
      "balance_loss_mlp": 1.01584744,
      "epoch": 0.9497985931581795,
      "flos": 14868660723840.0,
      "grad_norm": 2.8028274960341495,
      "language_loss": 0.72054774,
      "learning_rate": 2.6320887479228228e-08,
      "loss": 0.74115288,
      "num_input_tokens_seen": 170674415,
      "step": 7899,
      "time_per_iteration": 2.621187686920166
    },
    {
      "auxiliary_loss_clip": 0.01067646,
      "auxiliary_loss_mlp": 0.01020545,
      "balance_loss_clip": 1.03267217,
      "balance_loss_mlp": 1.01552653,
      "epoch": 0.9499188360488187,
      "flos": 27195471947520.0,
      "grad_norm": 2.8589755874464915,
      "language_loss": 0.7224853,
      "learning_rate": 2.619507554239786e-08,
      "loss": 0.74336725,
      "num_input_tokens_seen": 170692975,
      "step": 7900,
      "time_per_iteration": 2.6208858489990234
    },
    {
      "auxiliary_loss_clip": 0.01062759,
      "auxiliary_loss_mlp": 0.010212,
      "balance_loss_clip": 1.03531361,
      "balance_loss_mlp": 1.01553154,
      "epoch": 0.9500390789394577,
      "flos": 24318781125120.0,
      "grad_norm": 1.7231559916124841,
      "language_loss": 0.70076615,
      "learning_rate": 2.606956303020502e-08,
      "loss": 0.72160572,
      "num_input_tokens_seen": 170713780,
      "step": 7901,
      "time_per_iteration": 3.373058557510376
    },
    {
      "auxiliary_loss_clip": 0.01078422,
      "auxiliary_loss_mlp": 0.01019113,
      "balance_loss_clip": 1.0359962,
      "balance_loss_mlp": 1.01395702,
      "epoch": 0.9501593218300968,
      "flos": 14356436336640.0,
      "grad_norm": 5.9603416294155265,
      "language_loss": 0.84167689,
      "learning_rate": 2.5944349961690036e-08,
      "loss": 0.86265224,
      "num_input_tokens_seen": 170730800,
      "step": 7902,
      "time_per_iteration": 2.479823112487793
    },
    {
      "auxiliary_loss_clip": 0.01051003,
      "auxiliary_loss_mlp": 0.0101826,
      "balance_loss_clip": 1.03183115,
      "balance_loss_mlp": 1.01299405,
      "epoch": 0.9502795647207359,
      "flos": 38731204650240.0,
      "grad_norm": 1.6800374416786628,
      "language_loss": 0.73104286,
      "learning_rate": 2.581943635584749e-08,
      "loss": 0.75173557,
      "num_input_tokens_seen": 170753630,
      "step": 7903,
      "time_per_iteration": 2.7387845516204834
    },
    {
      "auxiliary_loss_clip": 0.01069458,
      "auxiliary_loss_mlp": 0.01018103,
      "balance_loss_clip": 1.03566813,
      "balance_loss_mlp": 1.01331663,
      "epoch": 0.950399807611375,
      "flos": 40811242993920.0,
      "grad_norm": 2.0367506387788934,
      "language_loss": 0.65267599,
      "learning_rate": 2.569482223162689e-08,
      "loss": 0.67355156,
      "num_input_tokens_seen": 170777605,
      "step": 7904,
      "time_per_iteration": 2.7338476181030273
    },
    {
      "auxiliary_loss_clip": 0.01077177,
      "auxiliary_loss_mlp": 0.01018566,
      "balance_loss_clip": 1.032758,
      "balance_loss_mlp": 1.01346946,
      "epoch": 0.950520050502014,
      "flos": 23442632248320.0,
      "grad_norm": 2.199877992867973,
      "language_loss": 0.72345269,
      "learning_rate": 2.5570507607932e-08,
      "loss": 0.7444101,
      "num_input_tokens_seen": 170797520,
      "step": 7905,
      "time_per_iteration": 2.565040349960327
    },
    {
      "auxiliary_loss_clip": 0.01081681,
      "auxiliary_loss_mlp": 0.01020372,
      "balance_loss_clip": 1.03595638,
      "balance_loss_mlp": 1.01502872,
      "epoch": 0.9506402933926532,
      "flos": 17785554762240.0,
      "grad_norm": 2.9640694651396227,
      "language_loss": 0.63930643,
      "learning_rate": 2.54464925036213e-08,
      "loss": 0.66032696,
      "num_input_tokens_seen": 170814810,
      "step": 7906,
      "time_per_iteration": 2.499251127243042
    },
    {
      "auxiliary_loss_clip": 0.01079389,
      "auxiliary_loss_mlp": 0.01017872,
      "balance_loss_clip": 1.03622246,
      "balance_loss_mlp": 1.01253438,
      "epoch": 0.9507605362832923,
      "flos": 32564670796800.0,
      "grad_norm": 1.9387254231459399,
      "language_loss": 0.60820997,
      "learning_rate": 2.532277693750773e-08,
      "loss": 0.62918258,
      "num_input_tokens_seen": 170835735,
      "step": 7907,
      "time_per_iteration": 2.640108346939087
    },
    {
      "auxiliary_loss_clip": 0.01034211,
      "auxiliary_loss_mlp": 0.01019159,
      "balance_loss_clip": 1.03032184,
      "balance_loss_mlp": 1.01388144,
      "epoch": 0.9508807791739313,
      "flos": 19603660487040.0,
      "grad_norm": 2.498105638152928,
      "language_loss": 0.75882375,
      "learning_rate": 2.5199360928358948e-08,
      "loss": 0.77935743,
      "num_input_tokens_seen": 170852970,
      "step": 7908,
      "time_per_iteration": 2.5821545124053955
    },
    {
      "auxiliary_loss_clip": 0.01077536,
      "auxiliary_loss_mlp": 0.00756465,
      "balance_loss_clip": 1.03456461,
      "balance_loss_mlp": 1.00166368,
      "epoch": 0.9510010220645704,
      "flos": 21474065295360.0,
      "grad_norm": 1.8561317948128713,
      "language_loss": 0.87055385,
      "learning_rate": 2.507624449489665e-08,
      "loss": 0.88889384,
      "num_input_tokens_seen": 170871600,
      "step": 7909,
      "time_per_iteration": 2.5538361072540283
    },
    {
      "auxiliary_loss_clip": 0.01066458,
      "auxiliary_loss_mlp": 0.01022536,
      "balance_loss_clip": 1.03538465,
      "balance_loss_mlp": 1.01695991,
      "epoch": 0.9511212649552095,
      "flos": 18881992154880.0,
      "grad_norm": 1.9716560451185317,
      "language_loss": 0.65336812,
      "learning_rate": 2.495342765579811e-08,
      "loss": 0.67425799,
      "num_input_tokens_seen": 170890260,
      "step": 7910,
      "time_per_iteration": 2.5282974243164062
    },
    {
      "auxiliary_loss_clip": 0.01035246,
      "auxiliary_loss_mlp": 0.01018019,
      "balance_loss_clip": 1.03318667,
      "balance_loss_mlp": 1.01319098,
      "epoch": 0.9512415078458486,
      "flos": 20812441386240.0,
      "grad_norm": 1.5710886550850616,
      "language_loss": 0.71001583,
      "learning_rate": 2.4830910429693984e-08,
      "loss": 0.73054844,
      "num_input_tokens_seen": 170910220,
      "step": 7911,
      "time_per_iteration": 2.6632280349731445
    },
    {
      "auxiliary_loss_clip": 0.01090059,
      "auxiliary_loss_mlp": 0.01021207,
      "balance_loss_clip": 1.03554177,
      "balance_loss_mlp": 1.01594961,
      "epoch": 0.9513617507364877,
      "flos": 18371549917440.0,
      "grad_norm": 2.0555524827900427,
      "language_loss": 0.79911399,
      "learning_rate": 2.470869283517052e-08,
      "loss": 0.82022667,
      "num_input_tokens_seen": 170928255,
      "step": 7912,
      "time_per_iteration": 2.4719090461730957
    },
    {
      "auxiliary_loss_clip": 0.01079902,
      "auxiliary_loss_mlp": 0.01020148,
      "balance_loss_clip": 1.03541303,
      "balance_loss_mlp": 1.01519811,
      "epoch": 0.9514819936271268,
      "flos": 25012531699200.0,
      "grad_norm": 1.6709877077774153,
      "language_loss": 0.77269506,
      "learning_rate": 2.458677489076777e-08,
      "loss": 0.79369563,
      "num_input_tokens_seen": 170949265,
      "step": 7913,
      "time_per_iteration": 2.5659682750701904
    },
    {
      "auxiliary_loss_clip": 0.01081181,
      "auxiliary_loss_mlp": 0.01019187,
      "balance_loss_clip": 1.03618729,
      "balance_loss_mlp": 1.01422811,
      "epoch": 0.9516022365177659,
      "flos": 18664168314240.0,
      "grad_norm": 2.5504755117352165,
      "language_loss": 0.82883406,
      "learning_rate": 2.446515661498072e-08,
      "loss": 0.84983772,
      "num_input_tokens_seen": 170968595,
      "step": 7914,
      "time_per_iteration": 2.503757953643799
    },
    {
      "auxiliary_loss_clip": 0.01025729,
      "auxiliary_loss_mlp": 0.01022758,
      "balance_loss_clip": 1.03268242,
      "balance_loss_mlp": 1.01785254,
      "epoch": 0.9517224794084049,
      "flos": 25374332776320.0,
      "grad_norm": 2.1148748286812724,
      "language_loss": 0.74432719,
      "learning_rate": 2.434383802625861e-08,
      "loss": 0.76481199,
      "num_input_tokens_seen": 170987550,
      "step": 7915,
      "time_per_iteration": 2.690082311630249
    },
    {
      "auxiliary_loss_clip": 0.01056711,
      "auxiliary_loss_mlp": 0.01017998,
      "balance_loss_clip": 1.03284919,
      "balance_loss_mlp": 1.01297331,
      "epoch": 0.9518427222990441,
      "flos": 21473079425280.0,
      "grad_norm": 6.604773614201862,
      "language_loss": 0.73860598,
      "learning_rate": 2.4222819143005168e-08,
      "loss": 0.7593531,
      "num_input_tokens_seen": 171007145,
      "step": 7916,
      "time_per_iteration": 3.389624834060669
    },
    {
      "auxiliary_loss_clip": 0.01091702,
      "auxiliary_loss_mlp": 0.01017724,
      "balance_loss_clip": 1.03760195,
      "balance_loss_mlp": 1.01263988,
      "epoch": 0.9519629651896832,
      "flos": 21035801266560.0,
      "grad_norm": 1.7780419637567015,
      "language_loss": 0.80671084,
      "learning_rate": 2.4102099983579706e-08,
      "loss": 0.8278051,
      "num_input_tokens_seen": 171026295,
      "step": 7917,
      "time_per_iteration": 3.1556708812713623
    },
    {
      "auxiliary_loss_clip": 0.01082522,
      "auxiliary_loss_mlp": 0.01019997,
      "balance_loss_clip": 1.03714633,
      "balance_loss_mlp": 1.01436162,
      "epoch": 0.9520832080803222,
      "flos": 21691358282880.0,
      "grad_norm": 2.142934006586889,
      "language_loss": 0.77406722,
      "learning_rate": 2.3981680566294236e-08,
      "loss": 0.7950924,
      "num_input_tokens_seen": 171045895,
      "step": 7918,
      "time_per_iteration": 3.3099708557128906
    },
    {
      "auxiliary_loss_clip": 0.01090059,
      "auxiliary_loss_mlp": 0.01017963,
      "balance_loss_clip": 1.03630638,
      "balance_loss_mlp": 1.01308453,
      "epoch": 0.9522034509709614,
      "flos": 23147321667840.0,
      "grad_norm": 1.9504337730862331,
      "language_loss": 0.7366538,
      "learning_rate": 2.3861560909416822e-08,
      "loss": 0.757734,
      "num_input_tokens_seen": 171065445,
      "step": 7919,
      "time_per_iteration": 2.4994518756866455
    },
    {
      "auxiliary_loss_clip": 0.01040459,
      "auxiliary_loss_mlp": 0.01022962,
      "balance_loss_clip": 1.03436637,
      "balance_loss_mlp": 1.0179019,
      "epoch": 0.9523236938616004,
      "flos": 24681643908480.0,
      "grad_norm": 2.074454313814947,
      "language_loss": 0.82726061,
      "learning_rate": 2.3741741031169325e-08,
      "loss": 0.84789485,
      "num_input_tokens_seen": 171085015,
      "step": 7920,
      "time_per_iteration": 2.6663320064544678
    },
    {
      "auxiliary_loss_clip": 0.01041676,
      "auxiliary_loss_mlp": 0.01021477,
      "balance_loss_clip": 1.03123605,
      "balance_loss_mlp": 1.01662493,
      "epoch": 0.9524439367522395,
      "flos": 22674390462720.0,
      "grad_norm": 1.8449153180670563,
      "language_loss": 0.7158637,
      "learning_rate": 2.3622220949728544e-08,
      "loss": 0.73649526,
      "num_input_tokens_seen": 171103900,
      "step": 7921,
      "time_per_iteration": 2.6153130531311035
    },
    {
      "auxiliary_loss_clip": 0.01081568,
      "auxiliary_loss_mlp": 0.0101882,
      "balance_loss_clip": 1.03624654,
      "balance_loss_mlp": 1.01323748,
      "epoch": 0.9525641796428787,
      "flos": 34058221050240.0,
      "grad_norm": 3.219694499175498,
      "language_loss": 0.61140192,
      "learning_rate": 2.3503000683225526e-08,
      "loss": 0.63240576,
      "num_input_tokens_seen": 171121615,
      "step": 7922,
      "time_per_iteration": 2.5968432426452637
    },
    {
      "auxiliary_loss_clip": 0.0109119,
      "auxiliary_loss_mlp": 0.01020159,
      "balance_loss_clip": 1.03587461,
      "balance_loss_mlp": 1.01477349,
      "epoch": 0.9526844225335177,
      "flos": 16728941404800.0,
      "grad_norm": 2.41553006751695,
      "language_loss": 0.84310699,
      "learning_rate": 2.3384080249745585e-08,
      "loss": 0.86422044,
      "num_input_tokens_seen": 171139505,
      "step": 7923,
      "time_per_iteration": 2.462714195251465
    },
    {
      "auxiliary_loss_clip": 0.01045886,
      "auxiliary_loss_mlp": 0.01018628,
      "balance_loss_clip": 1.03288627,
      "balance_loss_mlp": 1.01391053,
      "epoch": 0.9528046654241568,
      "flos": 36942305898240.0,
      "grad_norm": 3.3123242270793996,
      "language_loss": 0.82699794,
      "learning_rate": 2.3265459667329178e-08,
      "loss": 0.84764314,
      "num_input_tokens_seen": 171158995,
      "step": 7924,
      "time_per_iteration": 2.746727466583252
    },
    {
      "auxiliary_loss_clip": 0.01066125,
      "auxiliary_loss_mlp": 0.01018004,
      "balance_loss_clip": 1.03413558,
      "balance_loss_mlp": 1.01260686,
      "epoch": 0.9529249083147959,
      "flos": 18256703817600.0,
      "grad_norm": 2.171086886615972,
      "language_loss": 0.86351889,
      "learning_rate": 2.31471389539708e-08,
      "loss": 0.88436019,
      "num_input_tokens_seen": 171176120,
      "step": 7925,
      "time_per_iteration": 2.550708532333374
    },
    {
      "auxiliary_loss_clip": 0.01080461,
      "auxiliary_loss_mlp": 0.00756282,
      "balance_loss_clip": 1.0371803,
      "balance_loss_mlp": 1.00162077,
      "epoch": 0.953045151205435,
      "flos": 28660990688640.0,
      "grad_norm": 2.1214517805497106,
      "language_loss": 0.72935373,
      "learning_rate": 2.3029118127619872e-08,
      "loss": 0.7477212,
      "num_input_tokens_seen": 171195835,
      "step": 7926,
      "time_per_iteration": 2.5962696075439453
    },
    {
      "auxiliary_loss_clip": 0.01068214,
      "auxiliary_loss_mlp": 0.01017775,
      "balance_loss_clip": 1.03442693,
      "balance_loss_mlp": 1.01240432,
      "epoch": 0.953165394096074,
      "flos": 21837383095680.0,
      "grad_norm": 3.3154419786891074,
      "language_loss": 0.87378418,
      "learning_rate": 2.2911397206179628e-08,
      "loss": 0.89464402,
      "num_input_tokens_seen": 171212585,
      "step": 7927,
      "time_per_iteration": 3.3476409912109375
    },
    {
      "auxiliary_loss_clip": 0.01090256,
      "auxiliary_loss_mlp": 0.01020151,
      "balance_loss_clip": 1.03653765,
      "balance_loss_mlp": 1.01514983,
      "epoch": 0.9532856369867132,
      "flos": 19977140332800.0,
      "grad_norm": 2.2181621766778776,
      "language_loss": 0.62905395,
      "learning_rate": 2.279397620750845e-08,
      "loss": 0.65015799,
      "num_input_tokens_seen": 171231630,
      "step": 7928,
      "time_per_iteration": 2.5000176429748535
    },
    {
      "auxiliary_loss_clip": 0.01068968,
      "auxiliary_loss_mlp": 0.0102047,
      "balance_loss_clip": 1.03633118,
      "balance_loss_mlp": 1.01559436,
      "epoch": 0.9534058798773523,
      "flos": 15051400289280.0,
      "grad_norm": 2.289823541564551,
      "language_loss": 0.78349924,
      "learning_rate": 2.2676855149419195e-08,
      "loss": 0.80439359,
      "num_input_tokens_seen": 171248800,
      "step": 7929,
      "time_per_iteration": 2.5610597133636475
    },
    {
      "auxiliary_loss_clip": 0.01062582,
      "auxiliary_loss_mlp": 0.01020359,
      "balance_loss_clip": 1.03845513,
      "balance_loss_mlp": 1.01502156,
      "epoch": 0.9535261227679913,
      "flos": 17604711100800.0,
      "grad_norm": 8.965566732315999,
      "language_loss": 0.75208187,
      "learning_rate": 2.2560034049678988e-08,
      "loss": 0.77291119,
      "num_input_tokens_seen": 171263150,
      "step": 7930,
      "time_per_iteration": 2.517836093902588
    },
    {
      "auxiliary_loss_clip": 0.01094449,
      "auxiliary_loss_mlp": 0.01021925,
      "balance_loss_clip": 1.03886163,
      "balance_loss_mlp": 1.01661444,
      "epoch": 0.9536463656586305,
      "flos": 23144856992640.0,
      "grad_norm": 2.224107614434872,
      "language_loss": 0.75574309,
      "learning_rate": 2.2443512926008988e-08,
      "loss": 0.77690685,
      "num_input_tokens_seen": 171282480,
      "step": 7931,
      "time_per_iteration": 2.5401968955993652
    },
    {
      "auxiliary_loss_clip": 0.01051734,
      "auxiliary_loss_mlp": 0.01021261,
      "balance_loss_clip": 1.03186893,
      "balance_loss_mlp": 1.01631999,
      "epoch": 0.9537666085492695,
      "flos": 18627036462720.0,
      "grad_norm": 3.9561263461172143,
      "language_loss": 0.70113266,
      "learning_rate": 2.2327291796085946e-08,
      "loss": 0.72186255,
      "num_input_tokens_seen": 171300840,
      "step": 7932,
      "time_per_iteration": 2.5681049823760986
    },
    {
      "auxiliary_loss_clip": 0.01091608,
      "auxiliary_loss_mlp": 0.01021037,
      "balance_loss_clip": 1.03678083,
      "balance_loss_mlp": 1.01546741,
      "epoch": 0.9538868514399086,
      "flos": 18991340133120.0,
      "grad_norm": 3.1382691495759185,
      "language_loss": 0.77525353,
      "learning_rate": 2.2211370677540197e-08,
      "loss": 0.79637998,
      "num_input_tokens_seen": 171317365,
      "step": 7933,
      "time_per_iteration": 2.4987854957580566
    },
    {
      "auxiliary_loss_clip": 0.0109206,
      "auxiliary_loss_mlp": 0.01022141,
      "balance_loss_clip": 1.03678119,
      "balance_loss_mlp": 1.01697922,
      "epoch": 0.9540070943305478,
      "flos": 16802446746240.0,
      "grad_norm": 2.70341085333682,
      "language_loss": 0.78607631,
      "learning_rate": 2.2095749587957012e-08,
      "loss": 0.80721831,
      "num_input_tokens_seen": 171335270,
      "step": 7934,
      "time_per_iteration": 2.4472715854644775
    },
    {
      "auxiliary_loss_clip": 0.01072251,
      "auxiliary_loss_mlp": 0.01019849,
      "balance_loss_clip": 1.03615725,
      "balance_loss_mlp": 1.01449382,
      "epoch": 0.9541273372211868,
      "flos": 20158969864320.0,
      "grad_norm": 2.2289163952156743,
      "language_loss": 0.6959722,
      "learning_rate": 2.1980428544876138e-08,
      "loss": 0.71689326,
      "num_input_tokens_seen": 171353910,
      "step": 7935,
      "time_per_iteration": 2.563840866088867
    },
    {
      "auxiliary_loss_clip": 0.01049232,
      "auxiliary_loss_mlp": 0.01018404,
      "balance_loss_clip": 1.03193223,
      "balance_loss_mlp": 1.01326895,
      "epoch": 0.9542475801118259,
      "flos": 26728000945920.0,
      "grad_norm": 1.7362082349243335,
      "language_loss": 0.74125946,
      "learning_rate": 2.1865407565791584e-08,
      "loss": 0.76193583,
      "num_input_tokens_seen": 171375480,
      "step": 7936,
      "time_per_iteration": 2.6538760662078857
    },
    {
      "auxiliary_loss_clip": 0.01066876,
      "auxiliary_loss_mlp": 0.01017254,
      "balance_loss_clip": 1.03399444,
      "balance_loss_mlp": 1.01180601,
      "epoch": 0.954367823002465,
      "flos": 23333132597760.0,
      "grad_norm": 2.431405743684877,
      "language_loss": 0.77338839,
      "learning_rate": 2.175068666815183e-08,
      "loss": 0.79422963,
      "num_input_tokens_seen": 171396320,
      "step": 7937,
      "time_per_iteration": 2.592583179473877
    },
    {
      "auxiliary_loss_clip": 0.01060346,
      "auxiliary_loss_mlp": 0.01023979,
      "balance_loss_clip": 1.03583539,
      "balance_loss_mlp": 1.01854563,
      "epoch": 0.9544880658931041,
      "flos": 14904465442560.0,
      "grad_norm": 2.14367562938941,
      "language_loss": 0.79189503,
      "learning_rate": 2.163626586935985e-08,
      "loss": 0.8127383,
      "num_input_tokens_seen": 171412860,
      "step": 7938,
      "time_per_iteration": 2.551454782485962
    },
    {
      "auxiliary_loss_clip": 0.01082069,
      "auxiliary_loss_mlp": 0.0102358,
      "balance_loss_clip": 1.03603196,
      "balance_loss_mlp": 1.01821256,
      "epoch": 0.9546083087837431,
      "flos": 29098458437760.0,
      "grad_norm": 2.126698895514868,
      "language_loss": 0.62872756,
      "learning_rate": 2.1522145186773755e-08,
      "loss": 0.64978397,
      "num_input_tokens_seen": 171431780,
      "step": 7939,
      "time_per_iteration": 2.633212089538574
    },
    {
      "auxiliary_loss_clip": 0.01066847,
      "auxiliary_loss_mlp": 0.01020334,
      "balance_loss_clip": 1.03557146,
      "balance_loss_mlp": 1.01534772,
      "epoch": 0.9547285516743822,
      "flos": 21144466719360.0,
      "grad_norm": 1.7253487602409558,
      "language_loss": 0.85473573,
      "learning_rate": 2.140832463770481e-08,
      "loss": 0.87560755,
      "num_input_tokens_seen": 171450975,
      "step": 7940,
      "time_per_iteration": 2.5791823863983154
    },
    {
      "auxiliary_loss_clip": 0.0107044,
      "auxiliary_loss_mlp": 0.01017407,
      "balance_loss_clip": 1.03550851,
      "balance_loss_mlp": 1.01219428,
      "epoch": 0.9548487945650214,
      "flos": 27492602595840.0,
      "grad_norm": 2.4211311914437768,
      "language_loss": 0.75938249,
      "learning_rate": 2.129480423941987e-08,
      "loss": 0.78026092,
      "num_input_tokens_seen": 171467645,
      "step": 7941,
      "time_per_iteration": 2.6399707794189453
    },
    {
      "auxiliary_loss_clip": 0.01065266,
      "auxiliary_loss_mlp": 0.01018369,
      "balance_loss_clip": 1.03691602,
      "balance_loss_mlp": 1.01334739,
      "epoch": 0.9549690374556604,
      "flos": 22275381697920.0,
      "grad_norm": 1.711267190023975,
      "language_loss": 0.80231434,
      "learning_rate": 2.1181584009140052e-08,
      "loss": 0.82315063,
      "num_input_tokens_seen": 171487185,
      "step": 7942,
      "time_per_iteration": 3.326245069503784
    },
    {
      "auxiliary_loss_clip": 0.01059209,
      "auxiliary_loss_mlp": 0.01019436,
      "balance_loss_clip": 1.03452086,
      "balance_loss_mlp": 1.01464081,
      "epoch": 0.9550892803462995,
      "flos": 17596786222080.0,
      "grad_norm": 2.898236672939283,
      "language_loss": 0.83859915,
      "learning_rate": 2.10686639640405e-08,
      "loss": 0.85938561,
      "num_input_tokens_seen": 171501275,
      "step": 7943,
      "time_per_iteration": 3.3208460807800293
    },
    {
      "auxiliary_loss_clip": 0.01075299,
      "auxiliary_loss_mlp": 0.01019138,
      "balance_loss_clip": 1.03526258,
      "balance_loss_mlp": 1.01388383,
      "epoch": 0.9552095232369386,
      "flos": 24355457959680.0,
      "grad_norm": 1.7530027565380302,
      "language_loss": 0.81461978,
      "learning_rate": 2.0956044121251294e-08,
      "loss": 0.8355642,
      "num_input_tokens_seen": 171520060,
      "step": 7944,
      "time_per_iteration": 3.3665921688079834
    },
    {
      "auxiliary_loss_clip": 0.01048915,
      "auxiliary_loss_mlp": 0.01021204,
      "balance_loss_clip": 1.03473711,
      "balance_loss_mlp": 1.01572061,
      "epoch": 0.9553297661275777,
      "flos": 22749033346560.0,
      "grad_norm": 1.617524560486756,
      "language_loss": 0.81251121,
      "learning_rate": 2.084372449785654e-08,
      "loss": 0.83321238,
      "num_input_tokens_seen": 171539895,
      "step": 7945,
      "time_per_iteration": 2.5861239433288574
    },
    {
      "auxiliary_loss_clip": 0.01071946,
      "auxiliary_loss_mlp": 0.01022239,
      "balance_loss_clip": 1.03677368,
      "balance_loss_mlp": 1.01702356,
      "epoch": 0.9554500090182168,
      "flos": 15415666041600.0,
      "grad_norm": 1.7739179461242953,
      "language_loss": 0.68679029,
      "learning_rate": 2.0731705110895282e-08,
      "loss": 0.70773208,
      "num_input_tokens_seen": 171557385,
      "step": 7946,
      "time_per_iteration": 2.5644259452819824
    },
    {
      "auxiliary_loss_clip": 0.01079699,
      "auxiliary_loss_mlp": 0.01021312,
      "balance_loss_clip": 1.03643847,
      "balance_loss_mlp": 1.01595044,
      "epoch": 0.9555702519088559,
      "flos": 23515758408960.0,
      "grad_norm": 1.7782491561552116,
      "language_loss": 0.86768013,
      "learning_rate": 2.0619985977360587e-08,
      "loss": 0.88869017,
      "num_input_tokens_seen": 171575705,
      "step": 7947,
      "time_per_iteration": 2.568040370941162
    },
    {
      "auxiliary_loss_clip": 0.01040741,
      "auxiliary_loss_mlp": 0.01021134,
      "balance_loss_clip": 1.03143227,
      "balance_loss_mlp": 1.01598382,
      "epoch": 0.955690494799495,
      "flos": 22964051249280.0,
      "grad_norm": 1.9858080700770708,
      "language_loss": 0.76926625,
      "learning_rate": 2.0508567114200237e-08,
      "loss": 0.78988492,
      "num_input_tokens_seen": 171595620,
      "step": 7948,
      "time_per_iteration": 2.6368563175201416
    },
    {
      "auxiliary_loss_clip": 0.01068453,
      "auxiliary_loss_mlp": 0.01019035,
      "balance_loss_clip": 1.03538513,
      "balance_loss_mlp": 1.01412642,
      "epoch": 0.955810737690134,
      "flos": 26033643682560.0,
      "grad_norm": 3.9983672299579958,
      "language_loss": 0.79072982,
      "learning_rate": 2.0397448538316485e-08,
      "loss": 0.81160474,
      "num_input_tokens_seen": 171616660,
      "step": 7949,
      "time_per_iteration": 2.624143123626709
    },
    {
      "auxiliary_loss_clip": 0.01057217,
      "auxiliary_loss_mlp": 0.01019737,
      "balance_loss_clip": 1.03395545,
      "balance_loss_mlp": 1.01502573,
      "epoch": 0.9559309805807732,
      "flos": 20852037912960.0,
      "grad_norm": 2.2126451105048064,
      "language_loss": 0.66941571,
      "learning_rate": 2.028663026656563e-08,
      "loss": 0.69018519,
      "num_input_tokens_seen": 171635515,
      "step": 7950,
      "time_per_iteration": 2.6030752658843994
    },
    {
      "auxiliary_loss_clip": 0.01089916,
      "auxiliary_loss_mlp": 0.00756829,
      "balance_loss_clip": 1.03621435,
      "balance_loss_mlp": 1.00167668,
      "epoch": 0.9560512234714122,
      "flos": 21580266072960.0,
      "grad_norm": 2.093831787446287,
      "language_loss": 0.71577287,
      "learning_rate": 2.0176112315758885e-08,
      "loss": 0.73424041,
      "num_input_tokens_seen": 171653305,
      "step": 7951,
      "time_per_iteration": 2.4905049800872803
    },
    {
      "auxiliary_loss_clip": 0.01045691,
      "auxiliary_loss_mlp": 0.01024181,
      "balance_loss_clip": 1.03388047,
      "balance_loss_mlp": 1.01900482,
      "epoch": 0.9561714663620513,
      "flos": 17451671443200.0,
      "grad_norm": 2.3577017893287935,
      "language_loss": 0.69488728,
      "learning_rate": 2.0065894702661957e-08,
      "loss": 0.71558601,
      "num_input_tokens_seen": 171669980,
      "step": 7952,
      "time_per_iteration": 2.6134305000305176
    },
    {
      "auxiliary_loss_clip": 0.01051498,
      "auxiliary_loss_mlp": 0.00756631,
      "balance_loss_clip": 1.02984929,
      "balance_loss_mlp": 1.00167084,
      "epoch": 0.9562917092526905,
      "flos": 26100589196160.0,
      "grad_norm": 1.639700477934206,
      "language_loss": 0.77953637,
      "learning_rate": 1.9955977443994577e-08,
      "loss": 0.79761767,
      "num_input_tokens_seen": 171689970,
      "step": 7953,
      "time_per_iteration": 3.4527995586395264
    },
    {
      "auxiliary_loss_clip": 0.01070557,
      "auxiliary_loss_mlp": 0.01024307,
      "balance_loss_clip": 1.03606796,
      "balance_loss_mlp": 1.01871634,
      "epoch": 0.9564119521433295,
      "flos": 24098985544320.0,
      "grad_norm": 3.914673961400751,
      "language_loss": 0.62336648,
      "learning_rate": 1.9846360556430965e-08,
      "loss": 0.64431506,
      "num_input_tokens_seen": 171708270,
      "step": 7954,
      "time_per_iteration": 2.5469725131988525
    },
    {
      "auxiliary_loss_clip": 0.01090777,
      "auxiliary_loss_mlp": 0.01019083,
      "balance_loss_clip": 1.03649044,
      "balance_loss_mlp": 1.01411223,
      "epoch": 0.9565321950339686,
      "flos": 32011295241600.0,
      "grad_norm": 2.5152605909224044,
      "language_loss": 0.61676806,
      "learning_rate": 1.973704405660004e-08,
      "loss": 0.63786662,
      "num_input_tokens_seen": 171729385,
      "step": 7955,
      "time_per_iteration": 2.594513177871704
    },
    {
      "auxiliary_loss_clip": 0.01020812,
      "auxiliary_loss_mlp": 0.01020977,
      "balance_loss_clip": 1.02855504,
      "balance_loss_mlp": 1.01608086,
      "epoch": 0.9566524379246077,
      "flos": 23591007982080.0,
      "grad_norm": 1.7165717527765296,
      "language_loss": 0.78072631,
      "learning_rate": 1.9628027961085203e-08,
      "loss": 0.80114412,
      "num_input_tokens_seen": 171752615,
      "step": 7956,
      "time_per_iteration": 2.6884195804595947
    },
    {
      "auxiliary_loss_clip": 0.01055019,
      "auxiliary_loss_mlp": 0.0101698,
      "balance_loss_clip": 1.03176069,
      "balance_loss_mlp": 1.01208043,
      "epoch": 0.9567726808152468,
      "flos": 38070566611200.0,
      "grad_norm": 1.761745883485898,
      "language_loss": 0.84149039,
      "learning_rate": 1.9519312286423894e-08,
      "loss": 0.86221039,
      "num_input_tokens_seen": 171775810,
      "step": 7957,
      "time_per_iteration": 2.7464511394500732
    },
    {
      "auxiliary_loss_clip": 0.01078139,
      "auxiliary_loss_mlp": 0.0101762,
      "balance_loss_clip": 1.03680587,
      "balance_loss_mlp": 1.01240194,
      "epoch": 0.9568929237058859,
      "flos": 22746075736320.0,
      "grad_norm": 1.7630872136462468,
      "language_loss": 0.77550948,
      "learning_rate": 1.9410897049108255e-08,
      "loss": 0.79646707,
      "num_input_tokens_seen": 171795090,
      "step": 7958,
      "time_per_iteration": 2.523726463317871
    },
    {
      "auxiliary_loss_clip": 0.01097437,
      "auxiliary_loss_mlp": 0.01019097,
      "balance_loss_clip": 1.04068995,
      "balance_loss_mlp": 1.01344371,
      "epoch": 0.957013166596525,
      "flos": 23843878179840.0,
      "grad_norm": 33.17147396523453,
      "language_loss": 0.91221321,
      "learning_rate": 1.9302782265584905e-08,
      "loss": 0.93337858,
      "num_input_tokens_seen": 171815755,
      "step": 7959,
      "time_per_iteration": 2.5304453372955322
    },
    {
      "auxiliary_loss_clip": 0.01037933,
      "auxiliary_loss_mlp": 0.01018387,
      "balance_loss_clip": 1.03420615,
      "balance_loss_mlp": 1.01327014,
      "epoch": 0.9571334094871641,
      "flos": 17641198344960.0,
      "grad_norm": 2.409486704755867,
      "language_loss": 0.87018955,
      "learning_rate": 1.9194967952254282e-08,
      "loss": 0.89075273,
      "num_input_tokens_seen": 171834330,
      "step": 7960,
      "time_per_iteration": 2.5811808109283447
    },
    {
      "auxiliary_loss_clip": 0.01079647,
      "auxiliary_loss_mlp": 0.01020172,
      "balance_loss_clip": 1.03744841,
      "balance_loss_mlp": 1.01460481,
      "epoch": 0.9572536523778031,
      "flos": 15370988492160.0,
      "grad_norm": 3.067131715914973,
      "language_loss": 0.80721915,
      "learning_rate": 1.9087454125472635e-08,
      "loss": 0.82821733,
      "num_input_tokens_seen": 171848805,
      "step": 7961,
      "time_per_iteration": 2.51952862739563
    },
    {
      "auxiliary_loss_clip": 0.01092193,
      "auxiliary_loss_mlp": 0.01017728,
      "balance_loss_clip": 1.03748894,
      "balance_loss_mlp": 1.01235485,
      "epoch": 0.9573738952684423,
      "flos": 24971987220480.0,
      "grad_norm": 2.7571656119563324,
      "language_loss": 0.78524119,
      "learning_rate": 1.8980240801548696e-08,
      "loss": 0.8063404,
      "num_input_tokens_seen": 171867995,
      "step": 7962,
      "time_per_iteration": 2.5139553546905518
    },
    {
      "auxiliary_loss_clip": 0.01066146,
      "auxiliary_loss_mlp": 0.01017755,
      "balance_loss_clip": 1.03593421,
      "balance_loss_mlp": 1.0127871,
      "epoch": 0.9574941381590814,
      "flos": 25771483555200.0,
      "grad_norm": 1.7615083645889704,
      "language_loss": 0.74314797,
      "learning_rate": 1.8873327996747458e-08,
      "loss": 0.76398695,
      "num_input_tokens_seen": 171886495,
      "step": 7963,
      "time_per_iteration": 2.6047046184539795
    },
    {
      "auxiliary_loss_clip": 0.01080707,
      "auxiliary_loss_mlp": 0.01017363,
      "balance_loss_clip": 1.03507996,
      "balance_loss_mlp": 1.01230264,
      "epoch": 0.9576143810497204,
      "flos": 32309942613120.0,
      "grad_norm": 1.9759921270625795,
      "language_loss": 0.66166651,
      "learning_rate": 1.8766715727287053e-08,
      "loss": 0.68264723,
      "num_input_tokens_seen": 171908200,
      "step": 7964,
      "time_per_iteration": 2.599189281463623
    },
    {
      "auxiliary_loss_clip": 0.01080292,
      "auxiliary_loss_mlp": 0.0075662,
      "balance_loss_clip": 1.03527021,
      "balance_loss_mlp": 1.0017066,
      "epoch": 0.9577346239403596,
      "flos": 27748202895360.0,
      "grad_norm": 3.409013846745726,
      "language_loss": 0.79289222,
      "learning_rate": 1.8660404009340546e-08,
      "loss": 0.81126136,
      "num_input_tokens_seen": 171928650,
      "step": 7965,
      "time_per_iteration": 2.5673418045043945
    },
    {
      "auxiliary_loss_clip": 0.01029658,
      "auxiliary_loss_mlp": 0.010006,
      "balance_loss_clip": 1.01405144,
      "balance_loss_mlp": 0.99901497,
      "epoch": 0.9578548668309986,
      "flos": 57473731820160.0,
      "grad_norm": 0.8669386169373007,
      "language_loss": 0.59430283,
      "learning_rate": 1.8554392859035485e-08,
      "loss": 0.61460543,
      "num_input_tokens_seen": 171986400,
      "step": 7966,
      "time_per_iteration": 3.1101198196411133
    },
    {
      "auxiliary_loss_clip": 0.01011281,
      "auxiliary_loss_mlp": 0.01018799,
      "balance_loss_clip": 1.02737617,
      "balance_loss_mlp": 1.01342249,
      "epoch": 0.9579751097216377,
      "flos": 19758103113600.0,
      "grad_norm": 1.723267902364557,
      "language_loss": 0.78920019,
      "learning_rate": 1.8448682292453444e-08,
      "loss": 0.80950093,
      "num_input_tokens_seen": 172005475,
      "step": 7967,
      "time_per_iteration": 2.7330849170684814
    },
    {
      "auxiliary_loss_clip": 0.01093236,
      "auxiliary_loss_mlp": 0.01019175,
      "balance_loss_clip": 1.03807878,
      "balance_loss_mlp": 1.0140903,
      "epoch": 0.9580953526122769,
      "flos": 18043240556160.0,
      "grad_norm": 1.800363054824054,
      "language_loss": 0.65833575,
      "learning_rate": 1.8343272325631154e-08,
      "loss": 0.67945981,
      "num_input_tokens_seen": 172024420,
      "step": 7968,
      "time_per_iteration": 3.5431573390960693
    },
    {
      "auxiliary_loss_clip": 0.01015383,
      "auxiliary_loss_mlp": 0.00756702,
      "balance_loss_clip": 1.03121758,
      "balance_loss_mlp": 1.00168061,
      "epoch": 0.9582155955029159,
      "flos": 24271904327040.0,
      "grad_norm": 3.763114084731233,
      "language_loss": 0.77948862,
      "learning_rate": 1.8238162974558492e-08,
      "loss": 0.7972095,
      "num_input_tokens_seen": 172038350,
      "step": 7969,
      "time_per_iteration": 3.4463589191436768
    },
    {
      "auxiliary_loss_clip": 0.01059067,
      "auxiliary_loss_mlp": 0.01023399,
      "balance_loss_clip": 1.03002441,
      "balance_loss_mlp": 1.0183475,
      "epoch": 0.958335838393555,
      "flos": 22785482672640.0,
      "grad_norm": 3.4716623631822694,
      "language_loss": 0.74690986,
      "learning_rate": 1.8133354255181144e-08,
      "loss": 0.76773453,
      "num_input_tokens_seen": 172058665,
      "step": 7970,
      "time_per_iteration": 3.3211681842803955
    },
    {
      "auxiliary_loss_clip": 0.01080526,
      "auxiliary_loss_mlp": 0.01021304,
      "balance_loss_clip": 1.03466821,
      "balance_loss_mlp": 1.01612449,
      "epoch": 0.958456081284194,
      "flos": 16913463120000.0,
      "grad_norm": 1.868670412125747,
      "language_loss": 0.74756515,
      "learning_rate": 1.802884618339795e-08,
      "loss": 0.76858348,
      "num_input_tokens_seen": 172077470,
      "step": 7971,
      "time_per_iteration": 2.529791831970215
    },
    {
      "auxiliary_loss_clip": 0.01079537,
      "auxiliary_loss_mlp": 0.01016857,
      "balance_loss_clip": 1.03667688,
      "balance_loss_mlp": 1.01149583,
      "epoch": 0.9585763241748332,
      "flos": 19977026578560.0,
      "grad_norm": 2.5498798857716456,
      "language_loss": 0.81005698,
      "learning_rate": 1.7924638775062894e-08,
      "loss": 0.83102095,
      "num_input_tokens_seen": 172096590,
      "step": 7972,
      "time_per_iteration": 2.494623899459839
    },
    {
      "auxiliary_loss_clip": 0.0104485,
      "auxiliary_loss_mlp": 0.01023999,
      "balance_loss_clip": 1.02865911,
      "balance_loss_mlp": 1.01906383,
      "epoch": 0.9586965670654722,
      "flos": 21397678179840.0,
      "grad_norm": 1.9390356951129142,
      "language_loss": 0.81682777,
      "learning_rate": 1.7820732045984444e-08,
      "loss": 0.83751619,
      "num_input_tokens_seen": 172116735,
      "step": 7973,
      "time_per_iteration": 2.663717031478882
    },
    {
      "auxiliary_loss_clip": 0.01082386,
      "auxiliary_loss_mlp": 0.01021721,
      "balance_loss_clip": 1.03627872,
      "balance_loss_mlp": 1.01618052,
      "epoch": 0.9588168099561113,
      "flos": 21437312624640.0,
      "grad_norm": 1.805014541455968,
      "language_loss": 0.74175614,
      "learning_rate": 1.7717126011924655e-08,
      "loss": 0.76279724,
      "num_input_tokens_seen": 172138320,
      "step": 7974,
      "time_per_iteration": 2.5879101753234863
    },
    {
      "auxiliary_loss_clip": 0.01040281,
      "auxiliary_loss_mlp": 0.01017046,
      "balance_loss_clip": 1.02845502,
      "balance_loss_mlp": 1.01203942,
      "epoch": 0.9589370528467505,
      "flos": 11765273230080.0,
      "grad_norm": 2.4331438603014277,
      "language_loss": 0.76664555,
      "learning_rate": 1.7613820688600957e-08,
      "loss": 0.78721881,
      "num_input_tokens_seen": 172154225,
      "step": 7975,
      "time_per_iteration": 2.6132824420928955
    },
    {
      "auxiliary_loss_clip": 0.01066606,
      "auxiliary_loss_mlp": 0.01022702,
      "balance_loss_clip": 1.03592753,
      "balance_loss_mlp": 1.01784074,
      "epoch": 0.9590572957373895,
      "flos": 23443807708800.0,
      "grad_norm": 2.016181959260823,
      "language_loss": 0.78868556,
      "learning_rate": 1.7510816091684588e-08,
      "loss": 0.80957866,
      "num_input_tokens_seen": 172174150,
      "step": 7976,
      "time_per_iteration": 2.5953726768493652
    },
    {
      "auxiliary_loss_clip": 0.01065968,
      "auxiliary_loss_mlp": 0.01022074,
      "balance_loss_clip": 1.03496301,
      "balance_loss_mlp": 1.0167191,
      "epoch": 0.9591775386280286,
      "flos": 22530451144320.0,
      "grad_norm": 3.4249732960401027,
      "language_loss": 0.78983504,
      "learning_rate": 1.740811223680083e-08,
      "loss": 0.81071544,
      "num_input_tokens_seen": 172191005,
      "step": 7977,
      "time_per_iteration": 2.62528657913208
    },
    {
      "auxiliary_loss_clip": 0.01090563,
      "auxiliary_loss_mlp": 0.01021907,
      "balance_loss_clip": 1.03618336,
      "balance_loss_mlp": 1.01658416,
      "epoch": 0.9592977815186677,
      "flos": 18188924106240.0,
      "grad_norm": 2.3000885193327067,
      "language_loss": 0.74454612,
      "learning_rate": 1.7305709139530334e-08,
      "loss": 0.76567078,
      "num_input_tokens_seen": 172209785,
      "step": 7978,
      "time_per_iteration": 2.4670848846435547
    },
    {
      "auxiliary_loss_clip": 0.01081154,
      "auxiliary_loss_mlp": 0.01018823,
      "balance_loss_clip": 1.03503084,
      "balance_loss_mlp": 1.01381874,
      "epoch": 0.9594180244093068,
      "flos": 16539262830720.0,
      "grad_norm": 3.5670213959433443,
      "language_loss": 0.74601102,
      "learning_rate": 1.7203606815407334e-08,
      "loss": 0.76701081,
      "num_input_tokens_seen": 172224380,
      "step": 7979,
      "time_per_iteration": 3.2704577445983887
    },
    {
      "auxiliary_loss_clip": 0.01071275,
      "auxiliary_loss_mlp": 0.01020811,
      "balance_loss_clip": 1.03760123,
      "balance_loss_mlp": 1.0157392,
      "epoch": 0.9595382672999458,
      "flos": 20556196479360.0,
      "grad_norm": 1.8710163937169553,
      "language_loss": 0.79535913,
      "learning_rate": 1.7101805279920557e-08,
      "loss": 0.81628001,
      "num_input_tokens_seen": 172242540,
      "step": 7980,
      "time_per_iteration": 2.547407627105713
    },
    {
      "auxiliary_loss_clip": 0.01093038,
      "auxiliary_loss_mlp": 0.01019573,
      "balance_loss_clip": 1.03859401,
      "balance_loss_mlp": 1.01408088,
      "epoch": 0.959658510190585,
      "flos": 22640481648000.0,
      "grad_norm": 2.933565946790629,
      "language_loss": 0.81197828,
      "learning_rate": 1.7000304548513643e-08,
      "loss": 0.83310437,
      "num_input_tokens_seen": 172262645,
      "step": 7981,
      "time_per_iteration": 2.4895620346069336
    },
    {
      "auxiliary_loss_clip": 0.01054324,
      "auxiliary_loss_mlp": 0.01022889,
      "balance_loss_clip": 1.03174329,
      "balance_loss_mlp": 1.01756024,
      "epoch": 0.9597787530812241,
      "flos": 19137251191680.0,
      "grad_norm": 2.3533106731005127,
      "language_loss": 0.8281759,
      "learning_rate": 1.6899104636583394e-08,
      "loss": 0.84894806,
      "num_input_tokens_seen": 172280695,
      "step": 7982,
      "time_per_iteration": 2.5620906352996826
    },
    {
      "auxiliary_loss_clip": 0.01030068,
      "auxiliary_loss_mlp": 0.01001317,
      "balance_loss_clip": 1.01452935,
      "balance_loss_mlp": 0.99965972,
      "epoch": 0.9598989959718631,
      "flos": 60103846846080.0,
      "grad_norm": 0.7410408230642987,
      "language_loss": 0.61859071,
      "learning_rate": 1.6798205559482638e-08,
      "loss": 0.63890457,
      "num_input_tokens_seen": 172343075,
      "step": 7983,
      "time_per_iteration": 3.2738094329833984
    },
    {
      "auxiliary_loss_clip": 0.01051121,
      "auxiliary_loss_mlp": 0.01020795,
      "balance_loss_clip": 1.03436136,
      "balance_loss_mlp": 1.01552606,
      "epoch": 0.9600192388625023,
      "flos": 20888904337920.0,
      "grad_norm": 2.204244209564083,
      "language_loss": 0.76723737,
      "learning_rate": 1.669760733251713e-08,
      "loss": 0.78795648,
      "num_input_tokens_seen": 172361950,
      "step": 7984,
      "time_per_iteration": 2.6050827503204346
    },
    {
      "auxiliary_loss_clip": 0.01030052,
      "auxiliary_loss_mlp": 0.01018928,
      "balance_loss_clip": 1.03297031,
      "balance_loss_mlp": 1.01402879,
      "epoch": 0.9601394817531413,
      "flos": 20447644780800.0,
      "grad_norm": 1.6196159629685039,
      "language_loss": 0.8248117,
      "learning_rate": 1.659730997094755e-08,
      "loss": 0.84530151,
      "num_input_tokens_seen": 172380440,
      "step": 7985,
      "time_per_iteration": 2.6418490409851074
    },
    {
      "auxiliary_loss_clip": 0.01081474,
      "auxiliary_loss_mlp": 0.01018983,
      "balance_loss_clip": 1.03724718,
      "balance_loss_mlp": 1.01404774,
      "epoch": 0.9602597246437804,
      "flos": 21509301242880.0,
      "grad_norm": 2.99376490670127,
      "language_loss": 0.62348509,
      "learning_rate": 1.6497313489989283e-08,
      "loss": 0.64448959,
      "num_input_tokens_seen": 172400265,
      "step": 7986,
      "time_per_iteration": 2.5398757457733154
    },
    {
      "auxiliary_loss_clip": 0.01049593,
      "auxiliary_loss_mlp": 0.01022402,
      "balance_loss_clip": 1.03221273,
      "balance_loss_mlp": 1.01706743,
      "epoch": 0.9603799675344196,
      "flos": 29937702971520.0,
      "grad_norm": 2.0620075778373934,
      "language_loss": 0.69772017,
      "learning_rate": 1.639761790481131e-08,
      "loss": 0.71844018,
      "num_input_tokens_seen": 172421145,
      "step": 7987,
      "time_per_iteration": 2.6637580394744873
    },
    {
      "auxiliary_loss_clip": 0.0107598,
      "auxiliary_loss_mlp": 0.01017713,
      "balance_loss_clip": 1.03705108,
      "balance_loss_mlp": 1.01261425,
      "epoch": 0.9605002104250586,
      "flos": 28004030703360.0,
      "grad_norm": 1.9071627017496258,
      "language_loss": 0.79672343,
      "learning_rate": 1.6298223230537754e-08,
      "loss": 0.81766039,
      "num_input_tokens_seen": 172438945,
      "step": 7988,
      "time_per_iteration": 2.572099208831787
    },
    {
      "auxiliary_loss_clip": 0.01059187,
      "auxiliary_loss_mlp": 0.0075664,
      "balance_loss_clip": 1.03218722,
      "balance_loss_mlp": 1.00162446,
      "epoch": 0.9606204533156977,
      "flos": 35593415406720.0,
      "grad_norm": 2.133827114197243,
      "language_loss": 0.6988126,
      "learning_rate": 1.619912948224611e-08,
      "loss": 0.71697092,
      "num_input_tokens_seen": 172460150,
      "step": 7989,
      "time_per_iteration": 2.6640584468841553
    },
    {
      "auxiliary_loss_clip": 0.0105299,
      "auxiliary_loss_mlp": 0.01023198,
      "balance_loss_clip": 1.031106,
      "balance_loss_mlp": 1.01769972,
      "epoch": 0.9607406962063368,
      "flos": 26576819274240.0,
      "grad_norm": 2.3072103733647356,
      "language_loss": 0.612414,
      "learning_rate": 1.6100336674969682e-08,
      "loss": 0.63317591,
      "num_input_tokens_seen": 172478990,
      "step": 7990,
      "time_per_iteration": 2.647660732269287
    },
    {
      "auxiliary_loss_clip": 0.01041909,
      "auxiliary_loss_mlp": 0.01024796,
      "balance_loss_clip": 1.03320086,
      "balance_loss_mlp": 1.01941073,
      "epoch": 0.9608609390969759,
      "flos": 25333788297600.0,
      "grad_norm": 1.8651000587369546,
      "language_loss": 0.76854503,
      "learning_rate": 1.600184482369449e-08,
      "loss": 0.78921211,
      "num_input_tokens_seen": 172498905,
      "step": 7991,
      "time_per_iteration": 2.6374332904815674
    },
    {
      "auxiliary_loss_clip": 0.01058335,
      "auxiliary_loss_mlp": 0.01018102,
      "balance_loss_clip": 1.03342342,
      "balance_loss_mlp": 1.01255882,
      "epoch": 0.960981181987615,
      "flos": 21071226804480.0,
      "grad_norm": 2.2208690455349718,
      "language_loss": 0.89039397,
      "learning_rate": 1.5903653943362126e-08,
      "loss": 0.91115832,
      "num_input_tokens_seen": 172517900,
      "step": 7992,
      "time_per_iteration": 2.611903667449951
    },
    {
      "auxiliary_loss_clip": 0.0106713,
      "auxiliary_loss_mlp": 0.01017463,
      "balance_loss_clip": 1.03510237,
      "balance_loss_mlp": 1.01257253,
      "epoch": 0.9611014248782541,
      "flos": 17825265043200.0,
      "grad_norm": 1.7624442635649877,
      "language_loss": 0.77111667,
      "learning_rate": 1.580576404886802e-08,
      "loss": 0.79196262,
      "num_input_tokens_seen": 172536430,
      "step": 7993,
      "time_per_iteration": 2.5502655506134033
    },
    {
      "auxiliary_loss_clip": 0.01080247,
      "auxiliary_loss_mlp": 0.01018918,
      "balance_loss_clip": 1.0365994,
      "balance_loss_mlp": 1.01412845,
      "epoch": 0.9612216677688932,
      "flos": 19356667591680.0,
      "grad_norm": 2.9335440818160294,
      "language_loss": 0.80158532,
      "learning_rate": 1.570817515506162e-08,
      "loss": 0.822577,
      "num_input_tokens_seen": 172555120,
      "step": 7994,
      "time_per_iteration": 3.325706958770752
    },
    {
      "auxiliary_loss_clip": 0.01090957,
      "auxiliary_loss_mlp": 0.01022155,
      "balance_loss_clip": 1.03733587,
      "balance_loss_mlp": 1.01724672,
      "epoch": 0.9613419106595322,
      "flos": 15810200472960.0,
      "grad_norm": 3.1711756596870764,
      "language_loss": 0.81393659,
      "learning_rate": 1.561088727674753e-08,
      "loss": 0.83506775,
      "num_input_tokens_seen": 172569330,
      "step": 7995,
      "time_per_iteration": 3.2543411254882812
    },
    {
      "auxiliary_loss_clip": 0.01046623,
      "auxiliary_loss_mlp": 0.0102381,
      "balance_loss_clip": 1.03289056,
      "balance_loss_mlp": 1.01814413,
      "epoch": 0.9614621535501714,
      "flos": 25704841386240.0,
      "grad_norm": 2.373415440868178,
      "language_loss": 0.71578771,
      "learning_rate": 1.551390042868417e-08,
      "loss": 0.73649204,
      "num_input_tokens_seen": 172591100,
      "step": 7996,
      "time_per_iteration": 3.4545717239379883
    },
    {
      "auxiliary_loss_clip": 0.01078673,
      "auxiliary_loss_mlp": 0.01018208,
      "balance_loss_clip": 1.0353961,
      "balance_loss_mlp": 1.01298356,
      "epoch": 0.9615823964408104,
      "flos": 17820828627840.0,
      "grad_norm": 3.2085088907386377,
      "language_loss": 0.70827264,
      "learning_rate": 1.5417214625584207e-08,
      "loss": 0.72924143,
      "num_input_tokens_seen": 172608755,
      "step": 7997,
      "time_per_iteration": 2.5404884815216064
    },
    {
      "auxiliary_loss_clip": 0.01080167,
      "auxiliary_loss_mlp": 0.01018344,
      "balance_loss_clip": 1.03494859,
      "balance_loss_mlp": 1.01284826,
      "epoch": 0.9617026393314495,
      "flos": 20191892808960.0,
      "grad_norm": 4.819604940836898,
      "language_loss": 0.85585219,
      "learning_rate": 1.5320829882114806e-08,
      "loss": 0.87683731,
      "num_input_tokens_seen": 172626830,
      "step": 7998,
      "time_per_iteration": 2.531852960586548
    },
    {
      "auxiliary_loss_clip": 0.01089454,
      "auxiliary_loss_mlp": 0.01019483,
      "balance_loss_clip": 1.0346806,
      "balance_loss_mlp": 1.01451743,
      "epoch": 0.9618228822220887,
      "flos": 20269114122240.0,
      "grad_norm": 4.803110580943977,
      "language_loss": 0.79234552,
      "learning_rate": 1.5224746212897378e-08,
      "loss": 0.81343484,
      "num_input_tokens_seen": 172646125,
      "step": 7999,
      "time_per_iteration": 2.5319533348083496
    },
    {
      "auxiliary_loss_clip": 0.0109032,
      "auxiliary_loss_mlp": 0.01018485,
      "balance_loss_clip": 1.03773332,
      "balance_loss_mlp": 1.01341534,
      "epoch": 0.9619431251127277,
      "flos": 21033336591360.0,
      "grad_norm": 1.7952166314313185,
      "language_loss": 0.77225912,
      "learning_rate": 1.512896363250804e-08,
      "loss": 0.79334718,
      "num_input_tokens_seen": 172666235,
      "step": 8000,
      "time_per_iteration": 2.489795684814453
    },
    {
      "auxiliary_loss_clip": 0.0108045,
      "auxiliary_loss_mlp": 0.01022546,
      "balance_loss_clip": 1.03524637,
      "balance_loss_mlp": 1.01742005,
      "epoch": 0.9620633680033668,
      "flos": 22384843430400.0,
      "grad_norm": 1.8500592011484338,
      "language_loss": 0.75814855,
      "learning_rate": 1.503348215547673e-08,
      "loss": 0.77917856,
      "num_input_tokens_seen": 172687325,
      "step": 8001,
      "time_per_iteration": 2.557781934738159
    },
    {
      "auxiliary_loss_clip": 0.01063823,
      "auxiliary_loss_mlp": 0.01019359,
      "balance_loss_clip": 1.03416824,
      "balance_loss_mlp": 1.01440918,
      "epoch": 0.962183610894006,
      "flos": 18473314279680.0,
      "grad_norm": 1.981162249576429,
      "language_loss": 0.80928075,
      "learning_rate": 1.4938301796288078e-08,
      "loss": 0.83011264,
      "num_input_tokens_seen": 172703895,
      "step": 8002,
      "time_per_iteration": 2.5138723850250244
    },
    {
      "auxiliary_loss_clip": 0.01091698,
      "auxiliary_loss_mlp": 0.01018162,
      "balance_loss_clip": 1.03718305,
      "balance_loss_mlp": 1.01275539,
      "epoch": 0.962303853784645,
      "flos": 18436827035520.0,
      "grad_norm": 2.438743029947681,
      "language_loss": 0.81789422,
      "learning_rate": 1.4843422569380537e-08,
      "loss": 0.83899277,
      "num_input_tokens_seen": 172720650,
      "step": 8003,
      "time_per_iteration": 2.4861931800842285
    },
    {
      "auxiliary_loss_clip": 0.01032604,
      "auxiliary_loss_mlp": 0.0101605,
      "balance_loss_clip": 1.0310812,
      "balance_loss_mlp": 1.01085305,
      "epoch": 0.9624240966752841,
      "flos": 26393207592960.0,
      "grad_norm": 3.4737601566763647,
      "language_loss": 0.8290692,
      "learning_rate": 1.4748844489147483e-08,
      "loss": 0.84955573,
      "num_input_tokens_seen": 172737640,
      "step": 8004,
      "time_per_iteration": 3.3352200984954834
    },
    {
      "auxiliary_loss_clip": 0.0106628,
      "auxiliary_loss_mlp": 0.01018622,
      "balance_loss_clip": 1.03312039,
      "balance_loss_mlp": 1.01388669,
      "epoch": 0.9625443395659231,
      "flos": 14649433914240.0,
      "grad_norm": 1.9575856234081217,
      "language_loss": 0.71171135,
      "learning_rate": 1.4654567569936326e-08,
      "loss": 0.7325604,
      "num_input_tokens_seen": 172755215,
      "step": 8005,
      "time_per_iteration": 2.5559158325195312
    },
    {
      "auxiliary_loss_clip": 0.01044097,
      "auxiliary_loss_mlp": 0.01019966,
      "balance_loss_clip": 1.03315532,
      "balance_loss_mlp": 1.01494706,
      "epoch": 0.9626645824565623,
      "flos": 18369502341120.0,
      "grad_norm": 1.9109825672594838,
      "language_loss": 0.83230162,
      "learning_rate": 1.456059182604874e-08,
      "loss": 0.85294235,
      "num_input_tokens_seen": 172774020,
      "step": 8006,
      "time_per_iteration": 2.644160032272339
    },
    {
      "auxiliary_loss_clip": 0.01092309,
      "auxiliary_loss_mlp": 0.01021517,
      "balance_loss_clip": 1.03760338,
      "balance_loss_mlp": 1.01600063,
      "epoch": 0.9627848253472013,
      "flos": 16582234066560.0,
      "grad_norm": 1.8216101547802672,
      "language_loss": 0.76628208,
      "learning_rate": 1.4466917271740653e-08,
      "loss": 0.78742027,
      "num_input_tokens_seen": 172792220,
      "step": 8007,
      "time_per_iteration": 2.458726167678833
    },
    {
      "auxiliary_loss_clip": 0.01070473,
      "auxiliary_loss_mlp": 0.01020362,
      "balance_loss_clip": 1.03629649,
      "balance_loss_mlp": 1.01488733,
      "epoch": 0.9629050682378404,
      "flos": 20888980174080.0,
      "grad_norm": 2.1317014885376007,
      "language_loss": 0.67834914,
      "learning_rate": 1.4373543921222697e-08,
      "loss": 0.69925749,
      "num_input_tokens_seen": 172811805,
      "step": 8008,
      "time_per_iteration": 2.6034460067749023
    },
    {
      "auxiliary_loss_clip": 0.01058879,
      "auxiliary_loss_mlp": 0.01021215,
      "balance_loss_clip": 1.03244293,
      "balance_loss_mlp": 1.0159725,
      "epoch": 0.9630253111284796,
      "flos": 17021142702720.0,
      "grad_norm": 2.2050809547487384,
      "language_loss": 0.78079879,
      "learning_rate": 1.428047178865932e-08,
      "loss": 0.80159974,
      "num_input_tokens_seen": 172828595,
      "step": 8009,
      "time_per_iteration": 2.5459725856781006
    },
    {
      "auxiliary_loss_clip": 0.01070988,
      "auxiliary_loss_mlp": 0.01019464,
      "balance_loss_clip": 1.0350492,
      "balance_loss_mlp": 1.01417756,
      "epoch": 0.9631455540191186,
      "flos": 20340988986240.0,
      "grad_norm": 1.9819620050786955,
      "language_loss": 0.74663901,
      "learning_rate": 1.4187700888169451e-08,
      "loss": 0.76754355,
      "num_input_tokens_seen": 172847770,
      "step": 8010,
      "time_per_iteration": 2.5825493335723877
    },
    {
      "auxiliary_loss_clip": 0.01030581,
      "auxiliary_loss_mlp": 0.01002177,
      "balance_loss_clip": 1.01577806,
      "balance_loss_mlp": 1.00060356,
      "epoch": 0.9632657969097577,
      "flos": 65963912152320.0,
      "grad_norm": 0.752230060039801,
      "language_loss": 0.56945121,
      "learning_rate": 1.40952312338265e-08,
      "loss": 0.58977878,
      "num_input_tokens_seen": 172912415,
      "step": 8011,
      "time_per_iteration": 3.1672537326812744
    },
    {
      "auxiliary_loss_clip": 0.01055462,
      "auxiliary_loss_mlp": 0.01020125,
      "balance_loss_clip": 1.03373945,
      "balance_loss_mlp": 1.0148263,
      "epoch": 0.9633860398003968,
      "flos": 44422911394560.0,
      "grad_norm": 1.8394062381032705,
      "language_loss": 0.68540055,
      "learning_rate": 1.4003062839657909e-08,
      "loss": 0.70615649,
      "num_input_tokens_seen": 172934895,
      "step": 8012,
      "time_per_iteration": 2.7969837188720703
    },
    {
      "auxiliary_loss_clip": 0.01048684,
      "auxiliary_loss_mlp": 0.01015979,
      "balance_loss_clip": 1.03240001,
      "balance_loss_mlp": 1.01098442,
      "epoch": 0.9635062826910359,
      "flos": 24830057560320.0,
      "grad_norm": 1.6804159384359514,
      "language_loss": 0.79806119,
      "learning_rate": 1.391119571964583e-08,
      "loss": 0.81870782,
      "num_input_tokens_seen": 172955835,
      "step": 8013,
      "time_per_iteration": 2.604334831237793
    },
    {
      "auxiliary_loss_clip": 0.01079069,
      "auxiliary_loss_mlp": 0.01019289,
      "balance_loss_clip": 1.03607488,
      "balance_loss_mlp": 1.01382589,
      "epoch": 0.9636265255816749,
      "flos": 15963202212480.0,
      "grad_norm": 2.2042362970325833,
      "language_loss": 0.72759771,
      "learning_rate": 1.3819629887726225e-08,
      "loss": 0.74858129,
      "num_input_tokens_seen": 172973925,
      "step": 8014,
      "time_per_iteration": 2.515085220336914
    },
    {
      "auxiliary_loss_clip": 0.01067811,
      "auxiliary_loss_mlp": 0.01020953,
      "balance_loss_clip": 1.03455663,
      "balance_loss_mlp": 1.01575232,
      "epoch": 0.9637467684723141,
      "flos": 22603994403840.0,
      "grad_norm": 1.9014088252156922,
      "language_loss": 0.76291895,
      "learning_rate": 1.3728365357789317e-08,
      "loss": 0.78380656,
      "num_input_tokens_seen": 172993290,
      "step": 8015,
      "time_per_iteration": 2.5533292293548584
    },
    {
      "auxiliary_loss_clip": 0.01031266,
      "auxiliary_loss_mlp": 0.01019428,
      "balance_loss_clip": 1.0334903,
      "balance_loss_mlp": 1.01339889,
      "epoch": 0.9638670113629532,
      "flos": 17567693003520.0,
      "grad_norm": 2.5321046879092917,
      "language_loss": 0.7681511,
      "learning_rate": 1.3637402143680254e-08,
      "loss": 0.78865808,
      "num_input_tokens_seen": 173008190,
      "step": 8016,
      "time_per_iteration": 2.625091075897217
    },
    {
      "auxiliary_loss_clip": 0.01005108,
      "auxiliary_loss_mlp": 0.01004011,
      "balance_loss_clip": 1.02219212,
      "balance_loss_mlp": 1.00241363,
      "epoch": 0.9639872542535922,
      "flos": 55078086672000.0,
      "grad_norm": 0.7252520082268917,
      "language_loss": 0.54988176,
      "learning_rate": 1.3546740259197998e-08,
      "loss": 0.56997293,
      "num_input_tokens_seen": 173061000,
      "step": 8017,
      "time_per_iteration": 3.1285998821258545
    },
    {
      "auxiliary_loss_clip": 0.01063535,
      "auxiliary_loss_mlp": 0.01022513,
      "balance_loss_clip": 1.03437459,
      "balance_loss_mlp": 1.01701796,
      "epoch": 0.9641074971442314,
      "flos": 24136799921280.0,
      "grad_norm": 1.982788992047344,
      "language_loss": 0.70224655,
      "learning_rate": 1.3456379718095989e-08,
      "loss": 0.72310704,
      "num_input_tokens_seen": 173081415,
      "step": 8018,
      "time_per_iteration": 2.5899312496185303
    },
    {
      "auxiliary_loss_clip": 0.01019706,
      "auxiliary_loss_mlp": 0.01001276,
      "balance_loss_clip": 1.01537633,
      "balance_loss_mlp": 0.99947566,
      "epoch": 0.9642277400348704,
      "flos": 66754004803200.0,
      "grad_norm": 0.8494030304443522,
      "language_loss": 0.61940116,
      "learning_rate": 1.3366320534081487e-08,
      "loss": 0.63961095,
      "num_input_tokens_seen": 173144095,
      "step": 8019,
      "time_per_iteration": 3.195540428161621
    },
    {
      "auxiliary_loss_clip": 0.01083214,
      "auxiliary_loss_mlp": 0.0101652,
      "balance_loss_clip": 1.03800297,
      "balance_loss_mlp": 1.01138508,
      "epoch": 0.9643479829255095,
      "flos": 30922934400000.0,
      "grad_norm": 7.672905136684403,
      "language_loss": 0.7613529,
      "learning_rate": 1.3276562720816675e-08,
      "loss": 0.78235024,
      "num_input_tokens_seen": 173165605,
      "step": 8020,
      "time_per_iteration": 3.372506856918335
    },
    {
      "auxiliary_loss_clip": 0.01091845,
      "auxiliary_loss_mlp": 0.0102145,
      "balance_loss_clip": 1.03669584,
      "balance_loss_mlp": 1.01614559,
      "epoch": 0.9644682258161487,
      "flos": 20050342329600.0,
      "grad_norm": 4.150481745698464,
      "language_loss": 0.82390344,
      "learning_rate": 1.3187106291917549e-08,
      "loss": 0.84503639,
      "num_input_tokens_seen": 173182595,
      "step": 8021,
      "time_per_iteration": 3.2613365650177
    },
    {
      "auxiliary_loss_clip": 0.01070765,
      "auxiliary_loss_mlp": 0.01017943,
      "balance_loss_clip": 1.03064167,
      "balance_loss_mlp": 1.01321948,
      "epoch": 0.9645884687067877,
      "flos": 21180840209280.0,
      "grad_norm": 2.3144654881973987,
      "language_loss": 0.70377374,
      "learning_rate": 1.309795126095503e-08,
      "loss": 0.72466087,
      "num_input_tokens_seen": 173200895,
      "step": 8022,
      "time_per_iteration": 3.3320469856262207
    },
    {
      "auxiliary_loss_clip": 0.01013605,
      "auxiliary_loss_mlp": 0.01023029,
      "balance_loss_clip": 1.03139019,
      "balance_loss_mlp": 1.01765239,
      "epoch": 0.9647087115974268,
      "flos": 18947572617600.0,
      "grad_norm": 2.1750461526587626,
      "language_loss": 0.80751044,
      "learning_rate": 1.3009097641453192e-08,
      "loss": 0.82787681,
      "num_input_tokens_seen": 173218745,
      "step": 8023,
      "time_per_iteration": 2.726139545440674
    },
    {
      "auxiliary_loss_clip": 0.01061914,
      "auxiliary_loss_mlp": 0.01015756,
      "balance_loss_clip": 1.03473878,
      "balance_loss_mlp": 1.01081204,
      "epoch": 0.9648289544880659,
      "flos": 16546960200960.0,
      "grad_norm": 1.7654381998159006,
      "language_loss": 0.75928259,
      "learning_rate": 1.2920545446891474e-08,
      "loss": 0.78005928,
      "num_input_tokens_seen": 173235465,
      "step": 8024,
      "time_per_iteration": 3.0580356121063232
    },
    {
      "auxiliary_loss_clip": 0.01065599,
      "auxiliary_loss_mlp": 0.01025165,
      "balance_loss_clip": 1.03516471,
      "balance_loss_mlp": 1.01950884,
      "epoch": 0.964949197378705,
      "flos": 24059616526080.0,
      "grad_norm": 2.402217959559776,
      "language_loss": 0.70898247,
      "learning_rate": 1.2832294690703127e-08,
      "loss": 0.72989011,
      "num_input_tokens_seen": 173254440,
      "step": 8025,
      "time_per_iteration": 2.5784623622894287
    },
    {
      "auxiliary_loss_clip": 0.01072829,
      "auxiliary_loss_mlp": 0.01021515,
      "balance_loss_clip": 1.03127754,
      "balance_loss_mlp": 1.01620162,
      "epoch": 0.965069440269344,
      "flos": 23367686019840.0,
      "grad_norm": 2.1585123261302392,
      "language_loss": 0.7725203,
      "learning_rate": 1.2744345386275668e-08,
      "loss": 0.79346371,
      "num_input_tokens_seen": 173273980,
      "step": 8026,
      "time_per_iteration": 2.55865478515625
    },
    {
      "auxiliary_loss_clip": 0.01063947,
      "auxiliary_loss_mlp": 0.01021142,
      "balance_loss_clip": 1.03663445,
      "balance_loss_mlp": 1.01579583,
      "epoch": 0.9651896831599832,
      "flos": 25377252468480.0,
      "grad_norm": 1.7234944442229374,
      "language_loss": 0.78713143,
      "learning_rate": 1.265669754695109e-08,
      "loss": 0.80798239,
      "num_input_tokens_seen": 173293550,
      "step": 8027,
      "time_per_iteration": 2.5815865993499756
    },
    {
      "auxiliary_loss_clip": 0.01029426,
      "auxiliary_loss_mlp": 0.01024127,
      "balance_loss_clip": 1.03303266,
      "balance_loss_mlp": 1.01873016,
      "epoch": 0.9653099260506223,
      "flos": 22275040435200.0,
      "grad_norm": 2.1404068368164517,
      "language_loss": 0.82155389,
      "learning_rate": 1.2569351186025201e-08,
      "loss": 0.84208941,
      "num_input_tokens_seen": 173312005,
      "step": 8028,
      "time_per_iteration": 2.698012590408325
    },
    {
      "auxiliary_loss_clip": 0.01050603,
      "auxiliary_loss_mlp": 0.01017641,
      "balance_loss_clip": 1.03163123,
      "balance_loss_mlp": 1.01279557,
      "epoch": 0.9654301689412613,
      "flos": 26763274811520.0,
      "grad_norm": 1.496082073821253,
      "language_loss": 0.75358343,
      "learning_rate": 1.2482306316748737e-08,
      "loss": 0.77426594,
      "num_input_tokens_seen": 173332450,
      "step": 8029,
      "time_per_iteration": 2.6333632469177246
    },
    {
      "auxiliary_loss_clip": 0.01081189,
      "auxiliary_loss_mlp": 0.01016677,
      "balance_loss_clip": 1.03476763,
      "balance_loss_mlp": 1.01186728,
      "epoch": 0.9655504118319005,
      "flos": 17414160410880.0,
      "grad_norm": 2.88960069253945,
      "language_loss": 0.78597307,
      "learning_rate": 1.2395562952326021e-08,
      "loss": 0.80695164,
      "num_input_tokens_seen": 173349610,
      "step": 8030,
      "time_per_iteration": 3.2962372303009033
    },
    {
      "auxiliary_loss_clip": 0.01072382,
      "auxiliary_loss_mlp": 0.01026912,
      "balance_loss_clip": 1.03677964,
      "balance_loss_mlp": 1.02099299,
      "epoch": 0.9656706547225395,
      "flos": 22129129376640.0,
      "grad_norm": 2.2806552235324045,
      "language_loss": 0.81041759,
      "learning_rate": 1.2309121105916309e-08,
      "loss": 0.83141053,
      "num_input_tokens_seen": 173367900,
      "step": 8031,
      "time_per_iteration": 2.58730149269104
    },
    {
      "auxiliary_loss_clip": 0.01079498,
      "auxiliary_loss_mlp": 0.01018784,
      "balance_loss_clip": 1.03536963,
      "balance_loss_mlp": 1.01365459,
      "epoch": 0.9657908976131786,
      "flos": 37052260565760.0,
      "grad_norm": 1.7771133987774965,
      "language_loss": 0.69342285,
      "learning_rate": 1.222298079063222e-08,
      "loss": 0.71440566,
      "num_input_tokens_seen": 173389040,
      "step": 8032,
      "time_per_iteration": 2.643730878829956
    },
    {
      "auxiliary_loss_clip": 0.01078661,
      "auxiliary_loss_mlp": 0.01020054,
      "balance_loss_clip": 1.03565168,
      "balance_loss_mlp": 1.01507068,
      "epoch": 0.9659111405038178,
      "flos": 24392134794240.0,
      "grad_norm": 2.1938759872215092,
      "language_loss": 0.72863227,
      "learning_rate": 1.2137142019541524e-08,
      "loss": 0.74961936,
      "num_input_tokens_seen": 173407595,
      "step": 8033,
      "time_per_iteration": 2.5767619609832764
    },
    {
      "auxiliary_loss_clip": 0.01067546,
      "auxiliary_loss_mlp": 0.01020524,
      "balance_loss_clip": 1.03705096,
      "balance_loss_mlp": 1.01546633,
      "epoch": 0.9660313833944568,
      "flos": 25011735419520.0,
      "grad_norm": 2.902985175532624,
      "language_loss": 0.73418105,
      "learning_rate": 1.2051604805666027e-08,
      "loss": 0.75506175,
      "num_input_tokens_seen": 173424720,
      "step": 8034,
      "time_per_iteration": 2.578270673751831
    },
    {
      "auxiliary_loss_clip": 0.01091874,
      "auxiliary_loss_mlp": 0.00756387,
      "balance_loss_clip": 1.03749275,
      "balance_loss_mlp": 1.00164664,
      "epoch": 0.9661516262850959,
      "flos": 11803163443200.0,
      "grad_norm": 3.092676145295703,
      "language_loss": 0.78623807,
      "learning_rate": 1.196636916198135e-08,
      "loss": 0.8047207,
      "num_input_tokens_seen": 173442260,
      "step": 8035,
      "time_per_iteration": 2.484684944152832
    },
    {
      "auxiliary_loss_clip": 0.0109177,
      "auxiliary_loss_mlp": 0.01017492,
      "balance_loss_clip": 1.03635967,
      "balance_loss_mlp": 1.01236022,
      "epoch": 0.9662718691757349,
      "flos": 20049849394560.0,
      "grad_norm": 2.829463766134337,
      "language_loss": 0.7652241,
      "learning_rate": 1.1881435101418036e-08,
      "loss": 0.78631669,
      "num_input_tokens_seen": 173461675,
      "step": 8036,
      "time_per_iteration": 2.4850170612335205
    },
    {
      "auxiliary_loss_clip": 0.0102156,
      "auxiliary_loss_mlp": 0.01001806,
      "balance_loss_clip": 1.01671791,
      "balance_loss_mlp": 1.00017297,
      "epoch": 0.9663921120663741,
      "flos": 68034546812160.0,
      "grad_norm": 0.7216501517314791,
      "language_loss": 0.65542001,
      "learning_rate": 1.1796802636860003e-08,
      "loss": 0.6756537,
      "num_input_tokens_seen": 173530205,
      "step": 8037,
      "time_per_iteration": 3.1945130825042725
    },
    {
      "auxiliary_loss_clip": 0.01091724,
      "auxiliary_loss_mlp": 0.01020845,
      "balance_loss_clip": 1.03633988,
      "balance_loss_mlp": 1.01556671,
      "epoch": 0.9665123549570132,
      "flos": 26325314127360.0,
      "grad_norm": 2.099358356762034,
      "language_loss": 0.73617435,
      "learning_rate": 1.1712471781146316e-08,
      "loss": 0.75730002,
      "num_input_tokens_seen": 173549540,
      "step": 8038,
      "time_per_iteration": 2.5294368267059326
    },
    {
      "auxiliary_loss_clip": 0.0108853,
      "auxiliary_loss_mlp": 0.01020071,
      "balance_loss_clip": 1.03408444,
      "balance_loss_mlp": 1.01473308,
      "epoch": 0.9666325978476522,
      "flos": 43944254559360.0,
      "grad_norm": 2.0002014570013866,
      "language_loss": 0.66570675,
      "learning_rate": 1.1628442547069628e-08,
      "loss": 0.68679273,
      "num_input_tokens_seen": 173571740,
      "step": 8039,
      "time_per_iteration": 2.706360340118408
    },
    {
      "auxiliary_loss_clip": 0.01079139,
      "auxiliary_loss_mlp": 0.00756647,
      "balance_loss_clip": 1.03453898,
      "balance_loss_mlp": 1.00168574,
      "epoch": 0.9667528407382914,
      "flos": 21545560978560.0,
      "grad_norm": 2.3387220991796736,
      "language_loss": 0.77197611,
      "learning_rate": 1.1544714947377521e-08,
      "loss": 0.79033399,
      "num_input_tokens_seen": 173589425,
      "step": 8040,
      "time_per_iteration": 2.524858236312866
    },
    {
      "auxiliary_loss_clip": 0.01094202,
      "auxiliary_loss_mlp": 0.01019285,
      "balance_loss_clip": 1.03933287,
      "balance_loss_mlp": 1.01359606,
      "epoch": 0.9668730836289304,
      "flos": 23880858359040.0,
      "grad_norm": 1.9194184445112337,
      "language_loss": 0.70164108,
      "learning_rate": 1.1461288994770945e-08,
      "loss": 0.72277594,
      "num_input_tokens_seen": 173608500,
      "step": 8041,
      "time_per_iteration": 2.557203531265259
    },
    {
      "auxiliary_loss_clip": 0.01092584,
      "auxiliary_loss_mlp": 0.01020501,
      "balance_loss_clip": 1.03681886,
      "balance_loss_mlp": 1.01523185,
      "epoch": 0.9669933265195695,
      "flos": 28295511557760.0,
      "grad_norm": 1.7327330276663804,
      "language_loss": 0.76892,
      "learning_rate": 1.1378164701906002e-08,
      "loss": 0.79005086,
      "num_input_tokens_seen": 173630265,
      "step": 8042,
      "time_per_iteration": 2.555370569229126
    },
    {
      "auxiliary_loss_clip": 0.01094035,
      "auxiliary_loss_mlp": 0.01019547,
      "balance_loss_clip": 1.03847229,
      "balance_loss_mlp": 1.01429617,
      "epoch": 0.9671135694102087,
      "flos": 22456907884800.0,
      "grad_norm": 1.8593713227311162,
      "language_loss": 0.67289889,
      "learning_rate": 1.1295342081392156e-08,
      "loss": 0.6940347,
      "num_input_tokens_seen": 173649625,
      "step": 8043,
      "time_per_iteration": 2.549150228500366
    },
    {
      "auxiliary_loss_clip": 0.0106189,
      "auxiliary_loss_mlp": 0.01017676,
      "balance_loss_clip": 1.03419077,
      "balance_loss_mlp": 1.01264286,
      "epoch": 0.9672338123008477,
      "flos": 20157946076160.0,
      "grad_norm": 2.7157577003046556,
      "language_loss": 0.6935097,
      "learning_rate": 1.1212821145793804e-08,
      "loss": 0.71430534,
      "num_input_tokens_seen": 173669240,
      "step": 8044,
      "time_per_iteration": 2.5398004055023193
    },
    {
      "auxiliary_loss_clip": 0.01068563,
      "auxiliary_loss_mlp": 0.01021477,
      "balance_loss_clip": 1.03487635,
      "balance_loss_mlp": 1.01641393,
      "epoch": 0.9673540551914868,
      "flos": 16979081500800.0,
      "grad_norm": 1.9011117519081906,
      "language_loss": 0.78708357,
      "learning_rate": 1.1130601907629156e-08,
      "loss": 0.80798399,
      "num_input_tokens_seen": 173686970,
      "step": 8045,
      "time_per_iteration": 2.54746150970459
    },
    {
      "auxiliary_loss_clip": 0.010301,
      "auxiliary_loss_mlp": 0.01005057,
      "balance_loss_clip": 1.0145874,
      "balance_loss_mlp": 1.0033282,
      "epoch": 0.9674742980821259,
      "flos": 61899115835520.0,
      "grad_norm": 0.808859395270993,
      "language_loss": 0.64734244,
      "learning_rate": 1.1048684379370899e-08,
      "loss": 0.66769403,
      "num_input_tokens_seen": 173747655,
      "step": 8046,
      "time_per_iteration": 3.852379083633423
    },
    {
      "auxiliary_loss_clip": 0.01069562,
      "auxiliary_loss_mlp": 0.01017863,
      "balance_loss_clip": 1.03680468,
      "balance_loss_mlp": 1.01315773,
      "epoch": 0.967594540972765,
      "flos": 18699821360640.0,
      "grad_norm": 2.3509661178815304,
      "language_loss": 0.74817586,
      "learning_rate": 1.0967068573445759e-08,
      "loss": 0.76905012,
      "num_input_tokens_seen": 173765140,
      "step": 8047,
      "time_per_iteration": 3.2912392616271973
    },
    {
      "auxiliary_loss_clip": 0.01066918,
      "auxiliary_loss_mlp": 0.01021777,
      "balance_loss_clip": 1.0348103,
      "balance_loss_mlp": 1.01668406,
      "epoch": 0.967714783863404,
      "flos": 20779518441600.0,
      "grad_norm": 2.322912309571495,
      "language_loss": 0.65199262,
      "learning_rate": 1.0885754502234945e-08,
      "loss": 0.67287958,
      "num_input_tokens_seen": 173784800,
      "step": 8048,
      "time_per_iteration": 3.3577582836151123
    },
    {
      "auxiliary_loss_clip": 0.01043483,
      "auxiliary_loss_mlp": 0.0101882,
      "balance_loss_clip": 1.03156304,
      "balance_loss_mlp": 1.01375377,
      "epoch": 0.9678350267540432,
      "flos": 23187714474240.0,
      "grad_norm": 1.7040690244667727,
      "language_loss": 0.77747279,
      "learning_rate": 1.08047421780737e-08,
      "loss": 0.79809588,
      "num_input_tokens_seen": 173803990,
      "step": 8049,
      "time_per_iteration": 2.5953946113586426
    },
    {
      "auxiliary_loss_clip": 0.01069428,
      "auxiliary_loss_mlp": 0.00756511,
      "balance_loss_clip": 1.03430927,
      "balance_loss_mlp": 1.00167704,
      "epoch": 0.9679552696446823,
      "flos": 21728224707840.0,
      "grad_norm": 1.9776383142678113,
      "language_loss": 0.73612928,
      "learning_rate": 1.0724031613251305e-08,
      "loss": 0.75438863,
      "num_input_tokens_seen": 173821890,
      "step": 8050,
      "time_per_iteration": 2.5924174785614014
    },
    {
      "auxiliary_loss_clip": 0.01081514,
      "auxiliary_loss_mlp": 0.01020971,
      "balance_loss_clip": 1.0360322,
      "balance_loss_mlp": 1.01542473,
      "epoch": 0.9680755125353213,
      "flos": 26871409411200.0,
      "grad_norm": 2.2372154964447537,
      "language_loss": 0.66565388,
      "learning_rate": 1.0643622820011744e-08,
      "loss": 0.68667877,
      "num_input_tokens_seen": 173842945,
      "step": 8051,
      "time_per_iteration": 2.583649158477783
    },
    {
      "auxiliary_loss_clip": 0.01092607,
      "auxiliary_loss_mlp": 0.01020645,
      "balance_loss_clip": 1.03600287,
      "balance_loss_mlp": 1.01532853,
      "epoch": 0.9681957554259605,
      "flos": 28327259041920.0,
      "grad_norm": 2.645396204659319,
      "language_loss": 0.6803757,
      "learning_rate": 1.0563515810552814e-08,
      "loss": 0.70150822,
      "num_input_tokens_seen": 173859915,
      "step": 8052,
      "time_per_iteration": 2.5644288063049316
    },
    {
      "auxiliary_loss_clip": 0.010943,
      "auxiliary_loss_mlp": 0.01022319,
      "balance_loss_clip": 1.03896844,
      "balance_loss_mlp": 1.01733649,
      "epoch": 0.9683159983165995,
      "flos": 20559722860800.0,
      "grad_norm": 1.6555658764853538,
      "language_loss": 0.73455691,
      "learning_rate": 1.0483710597026795e-08,
      "loss": 0.75572312,
      "num_input_tokens_seen": 173879775,
      "step": 8053,
      "time_per_iteration": 2.5080041885375977
    },
    {
      "auxiliary_loss_clip": 0.01054761,
      "auxiliary_loss_mlp": 0.01021842,
      "balance_loss_clip": 1.03418672,
      "balance_loss_mlp": 1.01657283,
      "epoch": 0.9684362412072386,
      "flos": 24210305262720.0,
      "grad_norm": 2.3387994053743912,
      "language_loss": 0.73823857,
      "learning_rate": 1.0404207191540227e-08,
      "loss": 0.75900459,
      "num_input_tokens_seen": 173900230,
      "step": 8054,
      "time_per_iteration": 2.63250994682312
    },
    {
      "auxiliary_loss_clip": 0.01091524,
      "auxiliary_loss_mlp": 0.01018461,
      "balance_loss_clip": 1.03662062,
      "balance_loss_mlp": 1.0135231,
      "epoch": 0.9685564840978778,
      "flos": 22348432022400.0,
      "grad_norm": 1.8973091004242708,
      "language_loss": 0.74760509,
      "learning_rate": 1.0325005606153236e-08,
      "loss": 0.76870495,
      "num_input_tokens_seen": 173919690,
      "step": 8055,
      "time_per_iteration": 2.5174500942230225
    },
    {
      "auxiliary_loss_clip": 0.01043825,
      "auxiliary_loss_mlp": 0.01018686,
      "balance_loss_clip": 1.03507185,
      "balance_loss_mlp": 1.01377201,
      "epoch": 0.9686767269885168,
      "flos": 14387804640000.0,
      "grad_norm": 3.000219232090504,
      "language_loss": 0.79557884,
      "learning_rate": 1.0246105852881104e-08,
      "loss": 0.81620401,
      "num_input_tokens_seen": 173934790,
      "step": 8056,
      "time_per_iteration": 2.5766422748565674
    },
    {
      "auxiliary_loss_clip": 0.01091609,
      "auxiliary_loss_mlp": 0.01016269,
      "balance_loss_clip": 1.03623879,
      "balance_loss_mlp": 1.01111937,
      "epoch": 0.9687969698791559,
      "flos": 21289733170560.0,
      "grad_norm": 2.74248156892426,
      "language_loss": 0.78378856,
      "learning_rate": 1.0167507943692476e-08,
      "loss": 0.80486739,
      "num_input_tokens_seen": 173953875,
      "step": 8057,
      "time_per_iteration": 3.311018228530884
    },
    {
      "auxiliary_loss_clip": 0.01073585,
      "auxiliary_loss_mlp": 0.01026912,
      "balance_loss_clip": 1.03513074,
      "balance_loss_mlp": 1.02124357,
      "epoch": 0.968917212769795,
      "flos": 19830357158400.0,
      "grad_norm": 3.275274990836973,
      "language_loss": 0.7134099,
      "learning_rate": 1.008921189051093e-08,
      "loss": 0.73441488,
      "num_input_tokens_seen": 173971220,
      "step": 8058,
      "time_per_iteration": 2.5561442375183105
    },
    {
      "auxiliary_loss_clip": 0.01093311,
      "auxiliary_loss_mlp": 0.01019638,
      "balance_loss_clip": 1.03843296,
      "balance_loss_mlp": 1.01423764,
      "epoch": 0.9690374556604341,
      "flos": 21683471322240.0,
      "grad_norm": 4.99598572319276,
      "language_loss": 0.77509999,
      "learning_rate": 1.0011217705213848e-08,
      "loss": 0.79622948,
      "num_input_tokens_seen": 173989095,
      "step": 8059,
      "time_per_iteration": 2.519317388534546
    },
    {
      "auxiliary_loss_clip": 0.01078955,
      "auxiliary_loss_mlp": 0.01019897,
      "balance_loss_clip": 1.03613758,
      "balance_loss_mlp": 1.01520622,
      "epoch": 0.9691576985510731,
      "flos": 32638214056320.0,
      "grad_norm": 2.6175265016293756,
      "language_loss": 0.74277842,
      "learning_rate": 9.933525399632658e-09,
      "loss": 0.763767,
      "num_input_tokens_seen": 174007330,
      "step": 8060,
      "time_per_iteration": 2.6008517742156982
    },
    {
      "auxiliary_loss_clip": 0.01059175,
      "auxiliary_loss_mlp": 0.01016882,
      "balance_loss_clip": 1.03336525,
      "balance_loss_mlp": 1.01137745,
      "epoch": 0.9692779414417123,
      "flos": 35666086550400.0,
      "grad_norm": 8.77252233828046,
      "language_loss": 0.65071219,
      "learning_rate": 9.856134985553488e-09,
      "loss": 0.67147279,
      "num_input_tokens_seen": 174027055,
      "step": 8061,
      "time_per_iteration": 2.708397388458252
    },
    {
      "auxiliary_loss_clip": 0.01090548,
      "auxiliary_loss_mlp": 0.01018593,
      "balance_loss_clip": 1.03604186,
      "balance_loss_mlp": 1.01323795,
      "epoch": 0.9693981843323514,
      "flos": 28369509834240.0,
      "grad_norm": 1.7228497063593033,
      "language_loss": 0.73736775,
      "learning_rate": 9.77904647471628e-09,
      "loss": 0.75845909,
      "num_input_tokens_seen": 174050235,
      "step": 8062,
      "time_per_iteration": 2.5475902557373047
    },
    {
      "auxiliary_loss_clip": 0.01042451,
      "auxiliary_loss_mlp": 0.0101841,
      "balance_loss_clip": 1.03229332,
      "balance_loss_mlp": 1.01325738,
      "epoch": 0.9695184272229904,
      "flos": 23625106387200.0,
      "grad_norm": 1.656830452794867,
      "language_loss": 0.74052966,
      "learning_rate": 9.702259878815454e-09,
      "loss": 0.76113826,
      "num_input_tokens_seen": 174070560,
      "step": 8063,
      "time_per_iteration": 2.6650445461273193
    },
    {
      "auxiliary_loss_clip": 0.01080676,
      "auxiliary_loss_mlp": 0.01022265,
      "balance_loss_clip": 1.03744924,
      "balance_loss_mlp": 1.01676941,
      "epoch": 0.9696386701136296,
      "flos": 23296910780160.0,
      "grad_norm": 2.1681065240993216,
      "language_loss": 0.74563712,
      "learning_rate": 9.625775209499254e-09,
      "loss": 0.76666653,
      "num_input_tokens_seen": 174090565,
      "step": 8064,
      "time_per_iteration": 2.5302321910858154
    },
    {
      "auxiliary_loss_clip": 0.01058808,
      "auxiliary_loss_mlp": 0.01021931,
      "balance_loss_clip": 1.03511047,
      "balance_loss_mlp": 1.01673007,
      "epoch": 0.9697589130042686,
      "flos": 15123654334080.0,
      "grad_norm": 2.6110667825042158,
      "language_loss": 0.74002075,
      "learning_rate": 9.549592478370172e-09,
      "loss": 0.76082814,
      "num_input_tokens_seen": 174108745,
      "step": 8065,
      "time_per_iteration": 2.5859484672546387
    },
    {
      "auxiliary_loss_clip": 0.01078918,
      "auxiliary_loss_mlp": 0.01017656,
      "balance_loss_clip": 1.03419673,
      "balance_loss_mlp": 1.01267588,
      "epoch": 0.9698791558949077,
      "flos": 18881499219840.0,
      "grad_norm": 1.7576652833828286,
      "language_loss": 0.79374099,
      "learning_rate": 9.473711696985632e-09,
      "loss": 0.81470668,
      "num_input_tokens_seen": 174128075,
      "step": 8066,
      "time_per_iteration": 2.512266159057617
    },
    {
      "auxiliary_loss_clip": 0.01055673,
      "auxiliary_loss_mlp": 0.01022291,
      "balance_loss_clip": 1.0330435,
      "balance_loss_mlp": 1.01687574,
      "epoch": 0.9699993987855468,
      "flos": 17933399642880.0,
      "grad_norm": 2.002432173742481,
      "language_loss": 0.75799668,
      "learning_rate": 9.398132876856201e-09,
      "loss": 0.77877635,
      "num_input_tokens_seen": 174147040,
      "step": 8067,
      "time_per_iteration": 2.554783821105957
    },
    {
      "auxiliary_loss_clip": 0.00998455,
      "auxiliary_loss_mlp": 0.01001984,
      "balance_loss_clip": 1.01282215,
      "balance_loss_mlp": 1.00023139,
      "epoch": 0.9701196416761859,
      "flos": 67188628696320.0,
      "grad_norm": 0.771786838120905,
      "language_loss": 0.60756654,
      "learning_rate": 9.322856029447379e-09,
      "loss": 0.62757093,
      "num_input_tokens_seen": 174208225,
      "step": 8068,
      "time_per_iteration": 3.130030632019043
    },
    {
      "auxiliary_loss_clip": 0.0108943,
      "auxiliary_loss_mlp": 0.01023239,
      "balance_loss_clip": 1.03558493,
      "balance_loss_mlp": 1.01811349,
      "epoch": 0.970239884566825,
      "flos": 24279980878080.0,
      "grad_norm": 8.720911461457977,
      "language_loss": 0.80435312,
      "learning_rate": 9.247881166178695e-09,
      "loss": 0.82547975,
      "num_input_tokens_seen": 174226935,
      "step": 8069,
      "time_per_iteration": 2.5219810009002686
    },
    {
      "auxiliary_loss_clip": 0.01057937,
      "auxiliary_loss_mlp": 0.01021381,
      "balance_loss_clip": 1.03449607,
      "balance_loss_mlp": 1.01629663,
      "epoch": 0.970360127457464,
      "flos": 25304050471680.0,
      "grad_norm": 2.424416738608088,
      "language_loss": 0.76656097,
      "learning_rate": 9.173208298423274e-09,
      "loss": 0.78735417,
      "num_input_tokens_seen": 174248140,
      "step": 8070,
      "time_per_iteration": 2.6586313247680664
    },
    {
      "auxiliary_loss_clip": 0.0103482,
      "auxiliary_loss_mlp": 0.00756834,
      "balance_loss_clip": 1.0352366,
      "balance_loss_mlp": 1.00170267,
      "epoch": 0.9704803703481032,
      "flos": 29575181450880.0,
      "grad_norm": 1.616291218036234,
      "language_loss": 0.76031619,
      "learning_rate": 9.09883743750961e-09,
      "loss": 0.77823275,
      "num_input_tokens_seen": 174271030,
      "step": 8071,
      "time_per_iteration": 3.4843850135803223
    },
    {
      "auxiliary_loss_clip": 0.01067859,
      "auxiliary_loss_mlp": 0.0101803,
      "balance_loss_clip": 1.03593457,
      "balance_loss_mlp": 1.01296675,
      "epoch": 0.9706006132387422,
      "flos": 17381730401280.0,
      "grad_norm": 3.236719662758433,
      "language_loss": 0.83767235,
      "learning_rate": 9.024768594719124e-09,
      "loss": 0.8585313,
      "num_input_tokens_seen": 174289410,
      "step": 8072,
      "time_per_iteration": 2.6078357696533203
    },
    {
      "auxiliary_loss_clip": 0.01049813,
      "auxiliary_loss_mlp": 0.01015797,
      "balance_loss_clip": 1.03395152,
      "balance_loss_mlp": 1.01058471,
      "epoch": 0.9707208561293813,
      "flos": 18188355335040.0,
      "grad_norm": 2.0468222700316194,
      "language_loss": 0.72660166,
      "learning_rate": 8.95100178128816e-09,
      "loss": 0.74725783,
      "num_input_tokens_seen": 174308550,
      "step": 8073,
      "time_per_iteration": 3.3708953857421875
    },
    {
      "auxiliary_loss_clip": 0.01070081,
      "auxiliary_loss_mlp": 0.01021002,
      "balance_loss_clip": 1.03561521,
      "balance_loss_mlp": 1.01530099,
      "epoch": 0.9708410990200205,
      "flos": 31251054170880.0,
      "grad_norm": 2.464326563977056,
      "language_loss": 0.69962716,
      "learning_rate": 8.877537008407321e-09,
      "loss": 0.72053802,
      "num_input_tokens_seen": 174328600,
      "step": 8074,
      "time_per_iteration": 3.420403480529785
    },
    {
      "auxiliary_loss_clip": 0.0106686,
      "auxiliary_loss_mlp": 0.01018192,
      "balance_loss_clip": 1.03354907,
      "balance_loss_mlp": 1.01322699,
      "epoch": 0.9709613419106595,
      "flos": 30557038170240.0,
      "grad_norm": 1.8790219626040825,
      "language_loss": 0.68632174,
      "learning_rate": 8.804374287221028e-09,
      "loss": 0.70717221,
      "num_input_tokens_seen": 174349835,
      "step": 8075,
      "time_per_iteration": 2.6375417709350586
    },
    {
      "auxiliary_loss_clip": 0.01059215,
      "auxiliary_loss_mlp": 0.01020775,
      "balance_loss_clip": 1.03384757,
      "balance_loss_mlp": 1.01524091,
      "epoch": 0.9710815848012986,
      "flos": 23732293034880.0,
      "grad_norm": 2.480479328124512,
      "language_loss": 0.84780926,
      "learning_rate": 8.731513628827958e-09,
      "loss": 0.86860913,
      "num_input_tokens_seen": 174369200,
      "step": 8076,
      "time_per_iteration": 2.618833303451538
    },
    {
      "auxiliary_loss_clip": 0.01079577,
      "auxiliary_loss_mlp": 0.01019624,
      "balance_loss_clip": 1.03565288,
      "balance_loss_mlp": 1.0143882,
      "epoch": 0.9712018276919377,
      "flos": 23763737174400.0,
      "grad_norm": 1.996642180403061,
      "language_loss": 0.82531452,
      "learning_rate": 8.658955044280825e-09,
      "loss": 0.84630656,
      "num_input_tokens_seen": 174388125,
      "step": 8077,
      "time_per_iteration": 2.5620384216308594
    },
    {
      "auxiliary_loss_clip": 0.01074551,
      "auxiliary_loss_mlp": 0.01017862,
      "balance_loss_clip": 1.03607702,
      "balance_loss_mlp": 1.01279533,
      "epoch": 0.9713220705825768,
      "flos": 23333208433920.0,
      "grad_norm": 1.5586433940214606,
      "language_loss": 0.77553433,
      "learning_rate": 8.586698544587268e-09,
      "loss": 0.79645848,
      "num_input_tokens_seen": 174409735,
      "step": 8078,
      "time_per_iteration": 2.541879177093506
    },
    {
      "auxiliary_loss_clip": 0.01072787,
      "auxiliary_loss_mlp": 0.01020271,
      "balance_loss_clip": 1.03660059,
      "balance_loss_mlp": 1.01501131,
      "epoch": 0.9714423134732159,
      "flos": 22203165571200.0,
      "grad_norm": 2.4609244323029493,
      "language_loss": 0.74261129,
      "learning_rate": 8.514744140707853e-09,
      "loss": 0.76354182,
      "num_input_tokens_seen": 174428875,
      "step": 8079,
      "time_per_iteration": 2.562072277069092
    },
    {
      "auxiliary_loss_clip": 0.01090213,
      "auxiliary_loss_mlp": 0.01017383,
      "balance_loss_clip": 1.03592324,
      "balance_loss_mlp": 1.01257586,
      "epoch": 0.971562556363855,
      "flos": 20231982270720.0,
      "grad_norm": 1.583268697194038,
      "language_loss": 0.76144457,
      "learning_rate": 8.443091843558515e-09,
      "loss": 0.78252059,
      "num_input_tokens_seen": 174447960,
      "step": 8080,
      "time_per_iteration": 2.4722514152526855
    },
    {
      "auxiliary_loss_clip": 0.01068568,
      "auxiliary_loss_mlp": 0.01017672,
      "balance_loss_clip": 1.03559625,
      "balance_loss_mlp": 1.01251888,
      "epoch": 0.9716827992544941,
      "flos": 24972366401280.0,
      "grad_norm": 2.2791139761847123,
      "language_loss": 0.64835894,
      "learning_rate": 8.37174166400878e-09,
      "loss": 0.6692214,
      "num_input_tokens_seen": 174463535,
      "step": 8081,
      "time_per_iteration": 2.5906484127044678
    },
    {
      "auxiliary_loss_clip": 0.01091818,
      "auxiliary_loss_mlp": 0.01020307,
      "balance_loss_clip": 1.03753078,
      "balance_loss_mlp": 1.01526773,
      "epoch": 0.9718030421451331,
      "flos": 24683805239040.0,
      "grad_norm": 2.1639983769017586,
      "language_loss": 0.85089654,
      "learning_rate": 8.300693612881992e-09,
      "loss": 0.8720178,
      "num_input_tokens_seen": 174483600,
      "step": 8082,
      "time_per_iteration": 3.34073805809021
    },
    {
      "auxiliary_loss_clip": 0.01077461,
      "auxiliary_loss_mlp": 0.00756534,
      "balance_loss_clip": 1.0355736,
      "balance_loss_mlp": 1.00168228,
      "epoch": 0.9719232850357723,
      "flos": 22092869640960.0,
      "grad_norm": 2.8752488377794374,
      "language_loss": 0.81404138,
      "learning_rate": 8.22994770095664e-09,
      "loss": 0.83238137,
      "num_input_tokens_seen": 174502175,
      "step": 8083,
      "time_per_iteration": 2.5349769592285156
    },
    {
      "auxiliary_loss_clip": 0.01064126,
      "auxiliary_loss_mlp": 0.0102206,
      "balance_loss_clip": 1.03843975,
      "balance_loss_mlp": 1.01664793,
      "epoch": 0.9720435279264114,
      "flos": 23659015201920.0,
      "grad_norm": 2.545011192616333,
      "language_loss": 0.75542009,
      "learning_rate": 8.159503938964585e-09,
      "loss": 0.77628195,
      "num_input_tokens_seen": 174519495,
      "step": 8084,
      "time_per_iteration": 2.554568290710449
    },
    {
      "auxiliary_loss_clip": 0.01055279,
      "auxiliary_loss_mlp": 0.01014552,
      "balance_loss_clip": 1.03452396,
      "balance_loss_mlp": 1.00954211,
      "epoch": 0.9721637708170504,
      "flos": 28368410209920.0,
      "grad_norm": 1.9034501354082214,
      "language_loss": 0.70264637,
      "learning_rate": 8.089362337592164e-09,
      "loss": 0.72334468,
      "num_input_tokens_seen": 174543120,
      "step": 8085,
      "time_per_iteration": 2.649590253829956
    },
    {
      "auxiliary_loss_clip": 0.01063253,
      "auxiliary_loss_mlp": 0.01020786,
      "balance_loss_clip": 1.03318167,
      "balance_loss_mlp": 1.01584196,
      "epoch": 0.9722840137076896,
      "flos": 29133277286400.0,
      "grad_norm": 1.61484829575475,
      "language_loss": 0.72246855,
      "learning_rate": 8.019522907479536e-09,
      "loss": 0.7433089,
      "num_input_tokens_seen": 174563480,
      "step": 8086,
      "time_per_iteration": 2.6077516078948975
    },
    {
      "auxiliary_loss_clip": 0.0108377,
      "auxiliary_loss_mlp": 0.01021861,
      "balance_loss_clip": 1.03861833,
      "balance_loss_mlp": 1.01634431,
      "epoch": 0.9724042565983286,
      "flos": 19245916644480.0,
      "grad_norm": 2.696291505543948,
      "language_loss": 0.77993095,
      "learning_rate": 7.949985659221558e-09,
      "loss": 0.80098724,
      "num_input_tokens_seen": 174580745,
      "step": 8087,
      "time_per_iteration": 2.5205001831054688
    },
    {
      "auxiliary_loss_clip": 0.01066926,
      "auxiliary_loss_mlp": 0.01022459,
      "balance_loss_clip": 1.03374743,
      "balance_loss_mlp": 1.01755357,
      "epoch": 0.9725244994889677,
      "flos": 23041917169920.0,
      "grad_norm": 1.901172348268609,
      "language_loss": 0.78898942,
      "learning_rate": 7.880750603366904e-09,
      "loss": 0.80988324,
      "num_input_tokens_seen": 174599615,
      "step": 8088,
      "time_per_iteration": 2.5490880012512207
    },
    {
      "auxiliary_loss_clip": 0.01057144,
      "auxiliary_loss_mlp": 0.01020728,
      "balance_loss_clip": 1.03275716,
      "balance_loss_mlp": 1.01535225,
      "epoch": 0.9726447423796069,
      "flos": 23369695678080.0,
      "grad_norm": 1.9420375123779487,
      "language_loss": 0.79845762,
      "learning_rate": 7.811817750418282e-09,
      "loss": 0.81923628,
      "num_input_tokens_seen": 174618375,
      "step": 8089,
      "time_per_iteration": 2.609802007675171
    },
    {
      "auxiliary_loss_clip": 0.01046657,
      "auxiliary_loss_mlp": 0.01020877,
      "balance_loss_clip": 1.03253794,
      "balance_loss_mlp": 1.01541674,
      "epoch": 0.9727649852702459,
      "flos": 26544048001920.0,
      "grad_norm": 1.723863509499449,
      "language_loss": 0.80136639,
      "learning_rate": 7.743187110833105e-09,
      "loss": 0.82204175,
      "num_input_tokens_seen": 174641135,
      "step": 8090,
      "time_per_iteration": 2.6673195362091064
    },
    {
      "auxiliary_loss_clip": 0.01066344,
      "auxiliary_loss_mlp": 0.01018289,
      "balance_loss_clip": 1.03301084,
      "balance_loss_mlp": 1.0133301,
      "epoch": 0.972885228160885,
      "flos": 20524448995200.0,
      "grad_norm": 1.6873698421235601,
      "language_loss": 0.80600703,
      "learning_rate": 7.674858695022602e-09,
      "loss": 0.82685339,
      "num_input_tokens_seen": 174659490,
      "step": 8091,
      "time_per_iteration": 2.554051399230957
    },
    {
      "auxiliary_loss_clip": 0.01092723,
      "auxiliary_loss_mlp": 0.01020899,
      "balance_loss_clip": 1.03723788,
      "balance_loss_mlp": 1.01552844,
      "epoch": 0.9730054710515241,
      "flos": 17567958430080.0,
      "grad_norm": 2.964597503587503,
      "language_loss": 0.76017511,
      "learning_rate": 7.606832513351591e-09,
      "loss": 0.78131127,
      "num_input_tokens_seen": 174677440,
      "step": 8092,
      "time_per_iteration": 2.483177423477173
    },
    {
      "auxiliary_loss_clip": 0.01039799,
      "auxiliary_loss_mlp": 0.00752356,
      "balance_loss_clip": 1.01482749,
      "balance_loss_mlp": 1.0011301,
      "epoch": 0.9731257139421632,
      "flos": 68978664990720.0,
      "grad_norm": 0.8370078132066885,
      "language_loss": 0.63871157,
      "learning_rate": 7.539108576140264e-09,
      "loss": 0.65663314,
      "num_input_tokens_seen": 174741550,
      "step": 8093,
      "time_per_iteration": 3.161604166030884
    },
    {
      "auxiliary_loss_clip": 0.01040435,
      "auxiliary_loss_mlp": 0.01017508,
      "balance_loss_clip": 1.03198361,
      "balance_loss_mlp": 1.01285291,
      "epoch": 0.9732459568328022,
      "flos": 18480822059520.0,
      "grad_norm": 1.9249886417819249,
      "language_loss": 0.70484924,
      "learning_rate": 7.471686893661732e-09,
      "loss": 0.72542864,
      "num_input_tokens_seen": 174759845,
      "step": 8094,
      "time_per_iteration": 2.632368564605713
    },
    {
      "auxiliary_loss_clip": 0.01064607,
      "auxiliary_loss_mlp": 0.0101977,
      "balance_loss_clip": 1.03417873,
      "balance_loss_mlp": 1.01474202,
      "epoch": 0.9733661997234414,
      "flos": 20885832973440.0,
      "grad_norm": 2.2542478224936233,
      "language_loss": 0.64406192,
      "learning_rate": 7.4045674761442636e-09,
      "loss": 0.66490573,
      "num_input_tokens_seen": 174777175,
      "step": 8095,
      "time_per_iteration": 2.557905912399292
    },
    {
      "auxiliary_loss_clip": 0.01091138,
      "auxiliary_loss_mlp": 0.00756459,
      "balance_loss_clip": 1.03704035,
      "balance_loss_mlp": 1.00155318,
      "epoch": 0.9734864426140805,
      "flos": 23768931951360.0,
      "grad_norm": 2.0563676901347194,
      "language_loss": 0.74293011,
      "learning_rate": 7.337750333769488e-09,
      "loss": 0.76140606,
      "num_input_tokens_seen": 174796980,
      "step": 8096,
      "time_per_iteration": 2.5319857597351074
    },
    {
      "auxiliary_loss_clip": 0.01070989,
      "auxiliary_loss_mlp": 0.01018577,
      "balance_loss_clip": 1.03361893,
      "balance_loss_mlp": 1.01309013,
      "epoch": 0.9736066855047195,
      "flos": 35045272546560.0,
      "grad_norm": 1.9353632149929945,
      "language_loss": 0.72824925,
      "learning_rate": 7.2712354766737425e-09,
      "loss": 0.74914491,
      "num_input_tokens_seen": 174817310,
      "step": 8097,
      "time_per_iteration": 2.668410539627075
    },
    {
      "auxiliary_loss_clip": 0.01053243,
      "auxiliary_loss_mlp": 0.01019404,
      "balance_loss_clip": 1.03745246,
      "balance_loss_mlp": 1.01387596,
      "epoch": 0.9737269283953586,
      "flos": 20412598423680.0,
      "grad_norm": 1.8202098260559536,
      "language_loss": 0.80818844,
      "learning_rate": 7.2050229149469565e-09,
      "loss": 0.82891488,
      "num_input_tokens_seen": 174837320,
      "step": 8098,
      "time_per_iteration": 3.3676388263702393
    },
    {
      "auxiliary_loss_clip": 0.01058929,
      "auxiliary_loss_mlp": 0.01019136,
      "balance_loss_clip": 1.03389239,
      "balance_loss_mlp": 1.0138756,
      "epoch": 0.9738471712859977,
      "flos": 28914126312960.0,
      "grad_norm": 2.847727758021082,
      "language_loss": 0.63778585,
      "learning_rate": 7.139112658633984e-09,
      "loss": 0.65856653,
      "num_input_tokens_seen": 174857470,
      "step": 8099,
      "time_per_iteration": 4.131015062332153
    },
    {
      "auxiliary_loss_clip": 0.010466,
      "auxiliary_loss_mlp": 0.01018507,
      "balance_loss_clip": 1.02866006,
      "balance_loss_mlp": 1.01347625,
      "epoch": 0.9739674141766368,
      "flos": 27784803893760.0,
      "grad_norm": 2.2014617650490145,
      "language_loss": 0.70109367,
      "learning_rate": 7.073504717733048e-09,
      "loss": 0.72174478,
      "num_input_tokens_seen": 174877035,
      "step": 8100,
      "time_per_iteration": 2.638958215713501
    },
    {
      "auxiliary_loss_clip": 0.00995065,
      "auxiliary_loss_mlp": 0.01001851,
      "balance_loss_clip": 1.02143312,
      "balance_loss_mlp": 1.00027776,
      "epoch": 0.9740876570672758,
      "flos": 68869734111360.0,
      "grad_norm": 0.7437268348734051,
      "language_loss": 0.57186389,
      "learning_rate": 7.008199102196855e-09,
      "loss": 0.591833,
      "num_input_tokens_seen": 174938460,
      "step": 8101,
      "time_per_iteration": 3.1895246505737305
    },
    {
      "auxiliary_loss_clip": 0.01018803,
      "auxiliary_loss_mlp": 0.01001464,
      "balance_loss_clip": 1.01466823,
      "balance_loss_mlp": 0.99972361,
      "epoch": 0.974207899957915,
      "flos": 58242201114240.0,
      "grad_norm": 0.7997027394923254,
      "language_loss": 0.58933616,
      "learning_rate": 6.9431958219321464e-09,
      "loss": 0.60953879,
      "num_input_tokens_seen": 174994625,
      "step": 8102,
      "time_per_iteration": 3.1248559951782227
    },
    {
      "auxiliary_loss_clip": 0.01069875,
      "auxiliary_loss_mlp": 0.01020396,
      "balance_loss_clip": 1.0357728,
      "balance_loss_mlp": 1.01513839,
      "epoch": 0.9743281428485541,
      "flos": 22602174336000.0,
      "grad_norm": 1.814963896319679,
      "language_loss": 0.77602088,
      "learning_rate": 6.878494886800146e-09,
      "loss": 0.79692358,
      "num_input_tokens_seen": 175015400,
      "step": 8103,
      "time_per_iteration": 2.5772669315338135
    },
    {
      "auxiliary_loss_clip": 0.01057129,
      "auxiliary_loss_mlp": 0.01017294,
      "balance_loss_clip": 1.03373361,
      "balance_loss_mlp": 1.01195979,
      "epoch": 0.9744483857391931,
      "flos": 20010745802880.0,
      "grad_norm": 2.167162748869336,
      "language_loss": 0.76377058,
      "learning_rate": 6.814096306615669e-09,
      "loss": 0.78451484,
      "num_input_tokens_seen": 175033540,
      "step": 8104,
      "time_per_iteration": 2.55564546585083
    },
    {
      "auxiliary_loss_clip": 0.01068661,
      "auxiliary_loss_mlp": 0.01021397,
      "balance_loss_clip": 1.03378248,
      "balance_loss_mlp": 1.01596725,
      "epoch": 0.9745686286298323,
      "flos": 17677154736000.0,
      "grad_norm": 2.8939482175358076,
      "language_loss": 0.65306485,
      "learning_rate": 6.750000091148011e-09,
      "loss": 0.67396545,
      "num_input_tokens_seen": 175050835,
      "step": 8105,
      "time_per_iteration": 2.5254404544830322
    },
    {
      "auxiliary_loss_clip": 0.01094207,
      "auxiliary_loss_mlp": 0.0102221,
      "balance_loss_clip": 1.03934848,
      "balance_loss_mlp": 1.01669049,
      "epoch": 0.9746888715204713,
      "flos": 29462800026240.0,
      "grad_norm": 1.8972083638721267,
      "language_loss": 0.72724766,
      "learning_rate": 6.686206250120729e-09,
      "loss": 0.74841183,
      "num_input_tokens_seen": 175072330,
      "step": 8106,
      "time_per_iteration": 2.5925045013427734
    },
    {
      "auxiliary_loss_clip": 0.01056938,
      "auxiliary_loss_mlp": 0.0101761,
      "balance_loss_clip": 1.0322392,
      "balance_loss_mlp": 1.01254988,
      "epoch": 0.9748091144111104,
      "flos": 18481314994560.0,
      "grad_norm": 2.182981949964182,
      "language_loss": 0.74724609,
      "learning_rate": 6.622714793210749e-09,
      "loss": 0.76799154,
      "num_input_tokens_seen": 175091250,
      "step": 8107,
      "time_per_iteration": 2.563723564147949
    },
    {
      "auxiliary_loss_clip": 0.01092202,
      "auxiliary_loss_mlp": 0.01017932,
      "balance_loss_clip": 1.03675616,
      "balance_loss_mlp": 1.0128212,
      "epoch": 0.9749293573017496,
      "flos": 20667099098880.0,
      "grad_norm": 2.409047541900129,
      "language_loss": 0.78908575,
      "learning_rate": 6.559525730050364e-09,
      "loss": 0.8101871,
      "num_input_tokens_seen": 175111350,
      "step": 8108,
      "time_per_iteration": 2.5122909545898438
    },
    {
      "auxiliary_loss_clip": 0.01054932,
      "auxiliary_loss_mlp": 0.01019355,
      "balance_loss_clip": 1.03339005,
      "balance_loss_mlp": 1.01441658,
      "epoch": 0.9750496001923886,
      "flos": 18480556632960.0,
      "grad_norm": 1.9542363650236623,
      "language_loss": 0.75561011,
      "learning_rate": 6.496639070224574e-09,
      "loss": 0.77635294,
      "num_input_tokens_seen": 175129835,
      "step": 8109,
      "time_per_iteration": 3.2471210956573486
    },
    {
      "auxiliary_loss_clip": 0.01081357,
      "auxiliary_loss_mlp": 0.01017179,
      "balance_loss_clip": 1.03621459,
      "balance_loss_mlp": 1.01247013,
      "epoch": 0.9751698430830277,
      "flos": 19574984367360.0,
      "grad_norm": 2.5060763727082933,
      "language_loss": 0.83639747,
      "learning_rate": 6.4340548232739714e-09,
      "loss": 0.85738277,
      "num_input_tokens_seen": 175146035,
      "step": 8110,
      "time_per_iteration": 2.5197832584381104
    },
    {
      "auxiliary_loss_clip": 0.01061099,
      "auxiliary_loss_mlp": 0.01019437,
      "balance_loss_clip": 1.03613269,
      "balance_loss_mlp": 1.01434112,
      "epoch": 0.9752900859736668,
      "flos": 23552586915840.0,
      "grad_norm": 2.0531700480902644,
      "language_loss": 0.79118466,
      "learning_rate": 6.371772998692071e-09,
      "loss": 0.81199002,
      "num_input_tokens_seen": 175165290,
      "step": 8111,
      "time_per_iteration": 2.6142632961273193
    },
    {
      "auxiliary_loss_clip": 0.01057825,
      "auxiliary_loss_mlp": 0.01015957,
      "balance_loss_clip": 1.03401804,
      "balance_loss_mlp": 1.01089656,
      "epoch": 0.9754103288643059,
      "flos": 20305298021760.0,
      "grad_norm": 2.9590234092642613,
      "language_loss": 0.65229976,
      "learning_rate": 6.309793605927094e-09,
      "loss": 0.67303759,
      "num_input_tokens_seen": 175183610,
      "step": 8112,
      "time_per_iteration": 2.6036221981048584
    },
    {
      "auxiliary_loss_clip": 0.01067119,
      "auxiliary_loss_mlp": 0.01019267,
      "balance_loss_clip": 1.03653026,
      "balance_loss_mlp": 1.01379192,
      "epoch": 0.975530571754945,
      "flos": 19352496602880.0,
      "grad_norm": 1.776727457579168,
      "language_loss": 0.80269217,
      "learning_rate": 6.248116654381297e-09,
      "loss": 0.82355607,
      "num_input_tokens_seen": 175202080,
      "step": 8113,
      "time_per_iteration": 2.5389626026153564
    },
    {
      "auxiliary_loss_clip": 0.01069049,
      "auxiliary_loss_mlp": 0.01020982,
      "balance_loss_clip": 1.03403449,
      "balance_loss_mlp": 1.01588607,
      "epoch": 0.9756508146455841,
      "flos": 23585471942400.0,
      "grad_norm": 2.055572967790018,
      "language_loss": 0.72860885,
      "learning_rate": 6.186742153410751e-09,
      "loss": 0.74950922,
      "num_input_tokens_seen": 175221575,
      "step": 8114,
      "time_per_iteration": 2.587244987487793
    },
    {
      "auxiliary_loss_clip": 0.01065481,
      "auxiliary_loss_mlp": 0.01023754,
      "balance_loss_clip": 1.03333354,
      "balance_loss_mlp": 1.01793957,
      "epoch": 0.9757710575362232,
      "flos": 22969170190080.0,
      "grad_norm": 2.2129360299031213,
      "language_loss": 0.87895536,
      "learning_rate": 6.125670112326453e-09,
      "loss": 0.89984775,
      "num_input_tokens_seen": 175240835,
      "step": 8115,
      "time_per_iteration": 2.5653321743011475
    },
    {
      "auxiliary_loss_clip": 0.01079657,
      "auxiliary_loss_mlp": 0.01018404,
      "balance_loss_clip": 1.03520083,
      "balance_loss_mlp": 1.01317382,
      "epoch": 0.9758913004268622,
      "flos": 27968567247360.0,
      "grad_norm": 1.6324265861566114,
      "language_loss": 0.70344257,
      "learning_rate": 6.064900540392548e-09,
      "loss": 0.72442323,
      "num_input_tokens_seen": 175262930,
      "step": 8116,
      "time_per_iteration": 2.5884225368499756
    },
    {
      "auxiliary_loss_clip": 0.01064231,
      "auxiliary_loss_mlp": 0.01016966,
      "balance_loss_clip": 1.03437078,
      "balance_loss_mlp": 1.01195359,
      "epoch": 0.9760115433175014,
      "flos": 22202331373440.0,
      "grad_norm": 2.056418445860356,
      "language_loss": 0.78767353,
      "learning_rate": 6.0044334468278835e-09,
      "loss": 0.80848551,
      "num_input_tokens_seen": 175282275,
      "step": 8117,
      "time_per_iteration": 2.5574238300323486
    },
    {
      "auxiliary_loss_clip": 0.01042173,
      "auxiliary_loss_mlp": 0.01022303,
      "balance_loss_clip": 1.03203356,
      "balance_loss_mlp": 1.01702166,
      "epoch": 0.9761317862081405,
      "flos": 26253173836800.0,
      "grad_norm": 2.004882217135417,
      "language_loss": 0.71670222,
      "learning_rate": 5.944268840805345e-09,
      "loss": 0.73734689,
      "num_input_tokens_seen": 175303020,
      "step": 8118,
      "time_per_iteration": 2.677814483642578
    },
    {
      "auxiliary_loss_clip": 0.01048588,
      "auxiliary_loss_mlp": 0.01017068,
      "balance_loss_clip": 1.03122187,
      "balance_loss_mlp": 1.01229095,
      "epoch": 0.9762520290987795,
      "flos": 26577691390080.0,
      "grad_norm": 1.9524754790022407,
      "language_loss": 0.64310145,
      "learning_rate": 5.88440673145163e-09,
      "loss": 0.66375804,
      "num_input_tokens_seen": 175324070,
      "step": 8119,
      "time_per_iteration": 2.6430885791778564
    },
    {
      "auxiliary_loss_clip": 0.01079255,
      "auxiliary_loss_mlp": 0.01021202,
      "balance_loss_clip": 1.03703439,
      "balance_loss_mlp": 1.01608515,
      "epoch": 0.9763722719894187,
      "flos": 18007018738560.0,
      "grad_norm": 2.1496062138575702,
      "language_loss": 0.82449472,
      "learning_rate": 5.824847127848142e-09,
      "loss": 0.84549928,
      "num_input_tokens_seen": 175342595,
      "step": 8120,
      "time_per_iteration": 2.5329396724700928
    },
    {
      "auxiliary_loss_clip": 0.0104205,
      "auxiliary_loss_mlp": 0.0101865,
      "balance_loss_clip": 1.03340125,
      "balance_loss_mlp": 1.01361096,
      "epoch": 0.9764925148800577,
      "flos": 22457855836800.0,
      "grad_norm": 1.7743330646858635,
      "language_loss": 0.79096252,
      "learning_rate": 5.765590039029433e-09,
      "loss": 0.81156957,
      "num_input_tokens_seen": 175361915,
      "step": 8121,
      "time_per_iteration": 2.6495072841644287
    },
    {
      "auxiliary_loss_clip": 0.0109069,
      "auxiliary_loss_mlp": 0.01019178,
      "balance_loss_clip": 1.0363636,
      "balance_loss_mlp": 1.0141176,
      "epoch": 0.9766127577706968,
      "flos": 36760021349760.0,
      "grad_norm": 7.515938501803678,
      "language_loss": 0.71033049,
      "learning_rate": 5.706635473985422e-09,
      "loss": 0.73142916,
      "num_input_tokens_seen": 175385785,
      "step": 8122,
      "time_per_iteration": 2.6546578407287598
    },
    {
      "auxiliary_loss_clip": 0.01076638,
      "auxiliary_loss_mlp": 0.01020372,
      "balance_loss_clip": 1.03434014,
      "balance_loss_mlp": 1.01524842,
      "epoch": 0.976733000661336,
      "flos": 22312172286720.0,
      "grad_norm": 2.057879630049529,
      "language_loss": 0.85222644,
      "learning_rate": 5.6479834416591764e-09,
      "loss": 0.87319648,
      "num_input_tokens_seen": 175405145,
      "step": 8123,
      "time_per_iteration": 3.2872073650360107
    },
    {
      "auxiliary_loss_clip": 0.01072376,
      "auxiliary_loss_mlp": 0.00756908,
      "balance_loss_clip": 1.03162932,
      "balance_loss_mlp": 1.00169456,
      "epoch": 0.976853243551975,
      "flos": 25813241412480.0,
      "grad_norm": 1.9039401585414337,
      "language_loss": 0.68283349,
      "learning_rate": 5.589633950947803e-09,
      "loss": 0.70112634,
      "num_input_tokens_seen": 175422645,
      "step": 8124,
      "time_per_iteration": 2.549947738647461
    },
    {
      "auxiliary_loss_clip": 0.01070719,
      "auxiliary_loss_mlp": 0.01022813,
      "balance_loss_clip": 1.03651214,
      "balance_loss_mlp": 1.01739168,
      "epoch": 0.9769734864426141,
      "flos": 21399574083840.0,
      "grad_norm": 2.0445529360736385,
      "language_loss": 0.69809294,
      "learning_rate": 5.5315870107035535e-09,
      "loss": 0.71902823,
      "num_input_tokens_seen": 175440695,
      "step": 8125,
      "time_per_iteration": 4.130728721618652
    },
    {
      "auxiliary_loss_clip": 0.01060979,
      "auxiliary_loss_mlp": 0.01019601,
      "balance_loss_clip": 1.03567433,
      "balance_loss_mlp": 1.01442695,
      "epoch": 0.9770937293332532,
      "flos": 13992701437440.0,
      "grad_norm": 2.0427145053834974,
      "language_loss": 0.78526604,
      "learning_rate": 5.473842629731607e-09,
      "loss": 0.80607188,
      "num_input_tokens_seen": 175459195,
      "step": 8126,
      "time_per_iteration": 2.5498921871185303
    },
    {
      "auxiliary_loss_clip": 0.01071071,
      "auxiliary_loss_mlp": 0.0075658,
      "balance_loss_clip": 1.03504908,
      "balance_loss_mlp": 1.0017544,
      "epoch": 0.9772139722238923,
      "flos": 17933968414080.0,
      "grad_norm": 2.2845855844901894,
      "language_loss": 0.78165907,
      "learning_rate": 5.416400816792066e-09,
      "loss": 0.79993558,
      "num_input_tokens_seen": 175476710,
      "step": 8127,
      "time_per_iteration": 2.5425801277160645
    },
    {
      "auxiliary_loss_clip": 0.01090917,
      "auxiliary_loss_mlp": 0.01017662,
      "balance_loss_clip": 1.03650737,
      "balance_loss_mlp": 1.01241422,
      "epoch": 0.9773342151145313,
      "flos": 20448099797760.0,
      "grad_norm": 2.4495783464931615,
      "language_loss": 0.77920818,
      "learning_rate": 5.359261580598407e-09,
      "loss": 0.80029404,
      "num_input_tokens_seen": 175492550,
      "step": 8128,
      "time_per_iteration": 2.4965384006500244
    },
    {
      "auxiliary_loss_clip": 0.01079569,
      "auxiliary_loss_mlp": 0.01019951,
      "balance_loss_clip": 1.03610599,
      "balance_loss_mlp": 1.01425862,
      "epoch": 0.9774544580051704,
      "flos": 11838854407680.0,
      "grad_norm": 4.023648681267626,
      "language_loss": 0.78479838,
      "learning_rate": 5.302424929819027e-09,
      "loss": 0.80579352,
      "num_input_tokens_seen": 175506560,
      "step": 8129,
      "time_per_iteration": 2.4842522144317627
    },
    {
      "auxiliary_loss_clip": 0.01081639,
      "auxiliary_loss_mlp": 0.01021672,
      "balance_loss_clip": 1.03502119,
      "balance_loss_mlp": 1.0165993,
      "epoch": 0.9775747008958096,
      "flos": 13481614592640.0,
      "grad_norm": 2.4600119260076334,
      "language_loss": 0.73044938,
      "learning_rate": 5.24589087307592e-09,
      "loss": 0.75148249,
      "num_input_tokens_seen": 175524180,
      "step": 8130,
      "time_per_iteration": 2.5229735374450684
    },
    {
      "auxiliary_loss_clip": 0.01092539,
      "auxiliary_loss_mlp": 0.01022361,
      "balance_loss_clip": 1.03647423,
      "balance_loss_mlp": 1.01733041,
      "epoch": 0.9776949437864486,
      "flos": 59536972454400.0,
      "grad_norm": 1.5001454977984165,
      "language_loss": 0.65118301,
      "learning_rate": 5.189659418944891e-09,
      "loss": 0.67233205,
      "num_input_tokens_seen": 175554355,
      "step": 8131,
      "time_per_iteration": 2.8982558250427246
    },
    {
      "auxiliary_loss_clip": 0.01092692,
      "auxiliary_loss_mlp": 0.01021109,
      "balance_loss_clip": 1.03788233,
      "balance_loss_mlp": 1.01595628,
      "epoch": 0.9778151866770877,
      "flos": 21180726455040.0,
      "grad_norm": 2.527751398152708,
      "language_loss": 0.78704423,
      "learning_rate": 5.133730575956674e-09,
      "loss": 0.80818224,
      "num_input_tokens_seen": 175574025,
      "step": 8132,
      "time_per_iteration": 2.5004537105560303
    },
    {
      "auxiliary_loss_clip": 0.01068756,
      "auxiliary_loss_mlp": 0.01016275,
      "balance_loss_clip": 1.03442883,
      "balance_loss_mlp": 1.01093102,
      "epoch": 0.9779354295677268,
      "flos": 20888904337920.0,
      "grad_norm": 1.9690266239474679,
      "language_loss": 0.71937156,
      "learning_rate": 5.0781043525953696e-09,
      "loss": 0.74022186,
      "num_input_tokens_seen": 175592090,
      "step": 8133,
      "time_per_iteration": 2.549217939376831
    },
    {
      "auxiliary_loss_clip": 0.01058345,
      "auxiliary_loss_mlp": 0.01021454,
      "balance_loss_clip": 1.03067613,
      "balance_loss_mlp": 1.01629269,
      "epoch": 0.9780556724583659,
      "flos": 23442859756800.0,
      "grad_norm": 1.6273612073033963,
      "language_loss": 0.73839283,
      "learning_rate": 5.0227807572995605e-09,
      "loss": 0.7591908,
      "num_input_tokens_seen": 175614065,
      "step": 8134,
      "time_per_iteration": 3.297689437866211
    },
    {
      "auxiliary_loss_clip": 0.01067892,
      "auxiliary_loss_mlp": 0.01017791,
      "balance_loss_clip": 1.03381991,
      "balance_loss_mlp": 1.01287985,
      "epoch": 0.9781759153490049,
      "flos": 20925353664000.0,
      "grad_norm": 2.390799211484342,
      "language_loss": 0.67455548,
      "learning_rate": 4.967759798461646e-09,
      "loss": 0.69541228,
      "num_input_tokens_seen": 175632410,
      "step": 8135,
      "time_per_iteration": 2.546461820602417
    },
    {
      "auxiliary_loss_clip": 0.01092248,
      "auxiliary_loss_mlp": 0.01020831,
      "balance_loss_clip": 1.03809071,
      "balance_loss_mlp": 1.01587486,
      "epoch": 0.9782961582396441,
      "flos": 28295701148160.0,
      "grad_norm": 2.855026127590707,
      "language_loss": 0.74931276,
      "learning_rate": 4.913041484428282e-09,
      "loss": 0.77044362,
      "num_input_tokens_seen": 175652885,
      "step": 8136,
      "time_per_iteration": 2.577834367752075
    },
    {
      "auxiliary_loss_clip": 0.01080478,
      "auxiliary_loss_mlp": 0.01016941,
      "balance_loss_clip": 1.0359633,
      "balance_loss_mlp": 1.01194286,
      "epoch": 0.9784164011302832,
      "flos": 25555100601600.0,
      "grad_norm": 2.225040461815771,
      "language_loss": 0.73988187,
      "learning_rate": 4.858625823500384e-09,
      "loss": 0.76085603,
      "num_input_tokens_seen": 175670585,
      "step": 8137,
      "time_per_iteration": 2.540832996368408
    },
    {
      "auxiliary_loss_clip": 0.0108109,
      "auxiliary_loss_mlp": 0.01020572,
      "balance_loss_clip": 1.03590083,
      "balance_loss_mlp": 1.01529956,
      "epoch": 0.9785366440209222,
      "flos": 29968237077120.0,
      "grad_norm": 5.51280922866181,
      "language_loss": 0.73518139,
      "learning_rate": 4.80451282393246e-09,
      "loss": 0.75619805,
      "num_input_tokens_seen": 175690570,
      "step": 8138,
      "time_per_iteration": 2.6211719512939453
    },
    {
      "auxiliary_loss_clip": 0.01056993,
      "auxiliary_loss_mlp": 0.01016031,
      "balance_loss_clip": 1.03328872,
      "balance_loss_mlp": 1.01098514,
      "epoch": 0.9786568869115614,
      "flos": 32346354021120.0,
      "grad_norm": 3.9319208506207715,
      "language_loss": 0.67622828,
      "learning_rate": 4.750702493933722e-09,
      "loss": 0.69695848,
      "num_input_tokens_seen": 175710455,
      "step": 8139,
      "time_per_iteration": 2.632449150085449
    },
    {
      "auxiliary_loss_clip": 0.01064267,
      "auxiliary_loss_mlp": 0.00756785,
      "balance_loss_clip": 1.0372963,
      "balance_loss_mlp": 1.00166917,
      "epoch": 0.9787771298022004,
      "flos": 23333663450880.0,
      "grad_norm": 1.9242544553388967,
      "language_loss": 0.85293519,
      "learning_rate": 4.697194841666974e-09,
      "loss": 0.87114573,
      "num_input_tokens_seen": 175729380,
      "step": 8140,
      "time_per_iteration": 2.5916788578033447
    },
    {
      "auxiliary_loss_clip": 0.01080015,
      "auxiliary_loss_mlp": 0.01021915,
      "balance_loss_clip": 1.03500342,
      "balance_loss_mlp": 1.01621413,
      "epoch": 0.9788973726928395,
      "flos": 21470576832000.0,
      "grad_norm": 3.1363231844642505,
      "language_loss": 0.8180958,
      "learning_rate": 4.6439898752492764e-09,
      "loss": 0.83911514,
      "num_input_tokens_seen": 175749520,
      "step": 8141,
      "time_per_iteration": 2.533580780029297
    },
    {
      "auxiliary_loss_clip": 0.010302,
      "auxiliary_loss_mlp": 0.00752329,
      "balance_loss_clip": 1.01489305,
      "balance_loss_mlp": 1.00095117,
      "epoch": 0.9790176155834787,
      "flos": 68904022106880.0,
      "grad_norm": 0.8500675884865811,
      "language_loss": 0.6360389,
      "learning_rate": 4.591087602751731e-09,
      "loss": 0.6538642,
      "num_input_tokens_seen": 175811380,
      "step": 8142,
      "time_per_iteration": 3.2056493759155273
    },
    {
      "auxiliary_loss_clip": 0.01078278,
      "auxiliary_loss_mlp": 0.01018824,
      "balance_loss_clip": 1.03485465,
      "balance_loss_mlp": 1.01377511,
      "epoch": 0.9791378584741177,
      "flos": 21432838291200.0,
      "grad_norm": 1.5987492769129894,
      "language_loss": 0.71713066,
      "learning_rate": 4.538488032199916e-09,
      "loss": 0.7381016,
      "num_input_tokens_seen": 175829480,
      "step": 8143,
      "time_per_iteration": 2.546537160873413
    },
    {
      "auxiliary_loss_clip": 0.01080464,
      "auxiliary_loss_mlp": 0.01019949,
      "balance_loss_clip": 1.03430653,
      "balance_loss_mlp": 1.01489735,
      "epoch": 0.9792581013647568,
      "flos": 20154874711680.0,
      "grad_norm": 2.2484409825853446,
      "language_loss": 0.68771064,
      "learning_rate": 4.486191171572784e-09,
      "loss": 0.70871478,
      "num_input_tokens_seen": 175846750,
      "step": 8144,
      "time_per_iteration": 2.497999668121338
    },
    {
      "auxiliary_loss_clip": 0.01081995,
      "auxiliary_loss_mlp": 0.01015939,
      "balance_loss_clip": 1.03748798,
      "balance_loss_mlp": 1.01102173,
      "epoch": 0.9793783442553959,
      "flos": 23730207540480.0,
      "grad_norm": 1.8123810133938525,
      "language_loss": 0.77579284,
      "learning_rate": 4.434197028803766e-09,
      "loss": 0.79677224,
      "num_input_tokens_seen": 175865975,
      "step": 8145,
      "time_per_iteration": 2.5671608448028564
    },
    {
      "auxiliary_loss_clip": 0.01056735,
      "auxiliary_loss_mlp": 0.01021314,
      "balance_loss_clip": 1.03292584,
      "balance_loss_mlp": 1.01573193,
      "epoch": 0.979498587146035,
      "flos": 23040931299840.0,
      "grad_norm": 2.114552612146851,
      "language_loss": 0.8184855,
      "learning_rate": 4.3825056117805514e-09,
      "loss": 0.83926594,
      "num_input_tokens_seen": 175881860,
      "step": 8146,
      "time_per_iteration": 2.599790573120117
    },
    {
      "auxiliary_loss_clip": 0.0109175,
      "auxiliary_loss_mlp": 0.01013958,
      "balance_loss_clip": 1.0361619,
      "balance_loss_mlp": 1.00857842,
      "epoch": 0.979618830036674,
      "flos": 14320555781760.0,
      "grad_norm": 2.6792162556490378,
      "language_loss": 0.79271686,
      "learning_rate": 4.331116928344425e-09,
      "loss": 0.81377387,
      "num_input_tokens_seen": 175898175,
      "step": 8147,
      "time_per_iteration": 2.483044385910034
    },
    {
      "auxiliary_loss_clip": 0.01069986,
      "auxiliary_loss_mlp": 0.00756468,
      "balance_loss_clip": 1.03535414,
      "balance_loss_mlp": 1.001598,
      "epoch": 0.9797390729273132,
      "flos": 16729396421760.0,
      "grad_norm": 1.8557803167769917,
      "language_loss": 0.62781,
      "learning_rate": 4.28003098629115e-09,
      "loss": 0.64607453,
      "num_input_tokens_seen": 175914310,
      "step": 8148,
      "time_per_iteration": 2.526893138885498
    },
    {
      "auxiliary_loss_clip": 0.01057948,
      "auxiliary_loss_mlp": 0.01015726,
      "balance_loss_clip": 1.03259873,
      "balance_loss_mlp": 1.01036501,
      "epoch": 0.9798593158179523,
      "flos": 24534822816000.0,
      "grad_norm": 4.1657320803749744,
      "language_loss": 0.78882247,
      "learning_rate": 4.229247793370305e-09,
      "loss": 0.80955923,
      "num_input_tokens_seen": 175933435,
      "step": 8149,
      "time_per_iteration": 3.377297878265381
    },
    {
      "auxiliary_loss_clip": 0.01094689,
      "auxiliary_loss_mlp": 0.01019298,
      "balance_loss_clip": 1.03837776,
      "balance_loss_mlp": 1.01400208,
      "epoch": 0.9799795587085913,
      "flos": 27311303917440.0,
      "grad_norm": 2.1353538577315936,
      "language_loss": 0.70423573,
      "learning_rate": 4.178767357285951e-09,
      "loss": 0.72537553,
      "num_input_tokens_seen": 175955065,
      "step": 8150,
      "time_per_iteration": 2.53692889213562
    },
    {
      "auxiliary_loss_clip": 0.01080052,
      "auxiliary_loss_mlp": 0.00756597,
      "balance_loss_clip": 1.03733063,
      "balance_loss_mlp": 1.00167155,
      "epoch": 0.9800998015992305,
      "flos": 26288978555520.0,
      "grad_norm": 2.1199045279384863,
      "language_loss": 0.71711558,
      "learning_rate": 4.128589685695516e-09,
      "loss": 0.73548204,
      "num_input_tokens_seen": 175975490,
      "step": 8151,
      "time_per_iteration": 4.1474387645721436
    },
    {
      "auxiliary_loss_clip": 0.01092846,
      "auxiliary_loss_mlp": 0.01019348,
      "balance_loss_clip": 1.03741837,
      "balance_loss_mlp": 1.01450527,
      "epoch": 0.9802200444898695,
      "flos": 16725301269120.0,
      "grad_norm": 2.3111557233757813,
      "language_loss": 0.84450233,
      "learning_rate": 4.078714786211135e-09,
      "loss": 0.86562431,
      "num_input_tokens_seen": 175991340,
      "step": 8152,
      "time_per_iteration": 2.451861619949341
    },
    {
      "auxiliary_loss_clip": 0.01077202,
      "auxiliary_loss_mlp": 0.0101616,
      "balance_loss_clip": 1.03482628,
      "balance_loss_mlp": 1.01119471,
      "epoch": 0.9803402873805086,
      "flos": 24902804540160.0,
      "grad_norm": 2.8384892267408093,
      "language_loss": 0.77036369,
      "learning_rate": 4.029142666398977e-09,
      "loss": 0.79129726,
      "num_input_tokens_seen": 176011505,
      "step": 8153,
      "time_per_iteration": 2.542099952697754
    },
    {
      "auxiliary_loss_clip": 0.010913,
      "auxiliary_loss_mlp": 0.01019609,
      "balance_loss_clip": 1.03719032,
      "balance_loss_mlp": 1.01484966,
      "epoch": 0.9804605302711478,
      "flos": 22567127978880.0,
      "grad_norm": 1.9949501198796333,
      "language_loss": 0.799236,
      "learning_rate": 3.979873333778805e-09,
      "loss": 0.82034504,
      "num_input_tokens_seen": 176029680,
      "step": 8154,
      "time_per_iteration": 2.502744436264038
    },
    {
      "auxiliary_loss_clip": 0.01068155,
      "auxiliary_loss_mlp": 0.01022066,
      "balance_loss_clip": 1.0348891,
      "balance_loss_mlp": 1.01677322,
      "epoch": 0.9805807731617868,
      "flos": 38908180667520.0,
      "grad_norm": 1.7992546607135504,
      "language_loss": 0.73949993,
      "learning_rate": 3.930906795824862e-09,
      "loss": 0.76040208,
      "num_input_tokens_seen": 176050355,
      "step": 8155,
      "time_per_iteration": 2.68792986869812
    },
    {
      "auxiliary_loss_clip": 0.01076725,
      "auxiliary_loss_mlp": 0.01017861,
      "balance_loss_clip": 1.03432238,
      "balance_loss_mlp": 1.0129168,
      "epoch": 0.9807010160524259,
      "flos": 17823937910400.0,
      "grad_norm": 2.9414106319155016,
      "language_loss": 0.77032024,
      "learning_rate": 3.882243059965207e-09,
      "loss": 0.79126608,
      "num_input_tokens_seen": 176068070,
      "step": 8156,
      "time_per_iteration": 2.5065436363220215
    },
    {
      "auxiliary_loss_clip": 0.0108137,
      "auxiliary_loss_mlp": 0.01017856,
      "balance_loss_clip": 1.03547049,
      "balance_loss_mlp": 1.01276016,
      "epoch": 0.980821258943065,
      "flos": 13554664917120.0,
      "grad_norm": 5.751143411134498,
      "language_loss": 0.65564114,
      "learning_rate": 3.833882133582156e-09,
      "loss": 0.67663342,
      "num_input_tokens_seen": 176083730,
      "step": 8157,
      "time_per_iteration": 2.4839401245117188
    },
    {
      "auxiliary_loss_clip": 0.010822,
      "auxiliary_loss_mlp": 0.01019662,
      "balance_loss_clip": 1.03653073,
      "balance_loss_mlp": 1.01470935,
      "epoch": 0.9809415018337041,
      "flos": 21691964972160.0,
      "grad_norm": 1.6164844500059143,
      "language_loss": 0.78357881,
      "learning_rate": 3.785824024012285e-09,
      "loss": 0.80459744,
      "num_input_tokens_seen": 176102730,
      "step": 8158,
      "time_per_iteration": 2.538649559020996
    },
    {
      "auxiliary_loss_clip": 0.01057438,
      "auxiliary_loss_mlp": 0.01021737,
      "balance_loss_clip": 1.03297043,
      "balance_loss_mlp": 1.01662016,
      "epoch": 0.9810617447243432,
      "flos": 23297100370560.0,
      "grad_norm": 1.784451390177252,
      "language_loss": 0.78510213,
      "learning_rate": 3.738068738545541e-09,
      "loss": 0.8058939,
      "num_input_tokens_seen": 176121815,
      "step": 8159,
      "time_per_iteration": 2.562000274658203
    },
    {
      "auxiliary_loss_clip": 0.01083363,
      "auxiliary_loss_mlp": 0.01022511,
      "balance_loss_clip": 1.0379591,
      "balance_loss_mlp": 1.01727474,
      "epoch": 0.9811819876149822,
      "flos": 18333963048960.0,
      "grad_norm": 2.669126712447411,
      "language_loss": 0.78423524,
      "learning_rate": 3.6906162844265733e-09,
      "loss": 0.80529398,
      "num_input_tokens_seen": 176138900,
      "step": 8160,
      "time_per_iteration": 3.2492804527282715
    },
    {
      "auxiliary_loss_clip": 0.01070221,
      "auxiliary_loss_mlp": 0.0102037,
      "balance_loss_clip": 1.03638339,
      "balance_loss_mlp": 1.01494312,
      "epoch": 0.9813022305056214,
      "flos": 22604183994240.0,
      "grad_norm": 1.9335030972044709,
      "language_loss": 0.70988905,
      "learning_rate": 3.643466668853845e-09,
      "loss": 0.73079491,
      "num_input_tokens_seen": 176156925,
      "step": 8161,
      "time_per_iteration": 2.5627009868621826
    },
    {
      "auxiliary_loss_clip": 0.0107248,
      "auxiliary_loss_mlp": 0.01016808,
      "balance_loss_clip": 1.03773284,
      "balance_loss_mlp": 1.0114584,
      "epoch": 0.9814224733962604,
      "flos": 25415825207040.0,
      "grad_norm": 2.3129551608194214,
      "language_loss": 0.75130588,
      "learning_rate": 3.59661989898008e-09,
      "loss": 0.7721988,
      "num_input_tokens_seen": 176177980,
      "step": 8162,
      "time_per_iteration": 2.646364450454712
    },
    {
      "auxiliary_loss_clip": 0.01043658,
      "auxiliary_loss_mlp": 0.01018513,
      "balance_loss_clip": 1.02804422,
      "balance_loss_mlp": 1.01370001,
      "epoch": 0.9815427162868995,
      "flos": 25009384498560.0,
      "grad_norm": 1.6915373029235234,
      "language_loss": 0.76737082,
      "learning_rate": 3.5500759819115934e-09,
      "loss": 0.7879926,
      "num_input_tokens_seen": 176198345,
      "step": 8163,
      "time_per_iteration": 2.609987497329712
    },
    {
      "auxiliary_loss_clip": 0.01092041,
      "auxiliary_loss_mlp": 0.01017004,
      "balance_loss_clip": 1.03748977,
      "balance_loss_mlp": 1.01174664,
      "epoch": 0.9816629591775387,
      "flos": 20664406915200.0,
      "grad_norm": 1.7892303946432409,
      "language_loss": 0.81074178,
      "learning_rate": 3.5038349247094034e-09,
      "loss": 0.83183223,
      "num_input_tokens_seen": 176215605,
      "step": 8164,
      "time_per_iteration": 2.492319107055664
    },
    {
      "auxiliary_loss_clip": 0.01067938,
      "auxiliary_loss_mlp": 0.01016988,
      "balance_loss_clip": 1.03326976,
      "balance_loss_mlp": 1.01169538,
      "epoch": 0.9817832020681777,
      "flos": 17714134915200.0,
      "grad_norm": 2.112632316890076,
      "language_loss": 0.77757287,
      "learning_rate": 3.4578967343878994e-09,
      "loss": 0.7984221,
      "num_input_tokens_seen": 176231810,
      "step": 8165,
      "time_per_iteration": 2.5342438220977783
    },
    {
      "auxiliary_loss_clip": 0.01065696,
      "auxiliary_loss_mlp": 0.01017463,
      "balance_loss_clip": 1.03471851,
      "balance_loss_mlp": 1.01252162,
      "epoch": 0.9819034449588168,
      "flos": 22532309130240.0,
      "grad_norm": 2.0100760490793146,
      "language_loss": 0.80842006,
      "learning_rate": 3.4122614179161733e-09,
      "loss": 0.82925171,
      "num_input_tokens_seen": 176251770,
      "step": 8166,
      "time_per_iteration": 2.594879150390625
    },
    {
      "auxiliary_loss_clip": 0.01054413,
      "auxiliary_loss_mlp": 0.01017858,
      "balance_loss_clip": 1.03606164,
      "balance_loss_mlp": 1.01283038,
      "epoch": 0.9820236878494559,
      "flos": 20013286314240.0,
      "grad_norm": 2.2791759280331347,
      "language_loss": 0.78585607,
      "learning_rate": 3.36692898221691e-09,
      "loss": 0.80657876,
      "num_input_tokens_seen": 176270135,
      "step": 8167,
      "time_per_iteration": 2.5801639556884766
    },
    {
      "auxiliary_loss_clip": 0.01081028,
      "auxiliary_loss_mlp": 0.01018061,
      "balance_loss_clip": 1.0360713,
      "balance_loss_mlp": 1.01294661,
      "epoch": 0.982143930740095,
      "flos": 18809321011200.0,
      "grad_norm": 1.7380844567924745,
      "language_loss": 0.73615289,
      "learning_rate": 3.3218994341668305e-09,
      "loss": 0.7571438,
      "num_input_tokens_seen": 176289065,
      "step": 8168,
      "time_per_iteration": 2.5234017372131348
    },
    {
      "auxiliary_loss_clip": 0.01092918,
      "auxiliary_loss_mlp": 0.01017282,
      "balance_loss_clip": 1.03953254,
      "balance_loss_mlp": 1.01240635,
      "epoch": 0.982264173630734,
      "flos": 26580421491840.0,
      "grad_norm": 1.6174805501225114,
      "language_loss": 0.75305468,
      "learning_rate": 3.2771727805971373e-09,
      "loss": 0.77415669,
      "num_input_tokens_seen": 176310450,
      "step": 8169,
      "time_per_iteration": 2.5781867504119873
    },
    {
      "auxiliary_loss_clip": 0.01047082,
      "auxiliary_loss_mlp": 0.0101689,
      "balance_loss_clip": 1.03197265,
      "balance_loss_mlp": 1.01159978,
      "epoch": 0.9823844165213732,
      "flos": 22016444607360.0,
      "grad_norm": 1.8635817331402678,
      "language_loss": 0.77135253,
      "learning_rate": 3.232749028292847e-09,
      "loss": 0.79199231,
      "num_input_tokens_seen": 176327415,
      "step": 8170,
      "time_per_iteration": 2.622433662414551
    },
    {
      "auxiliary_loss_clip": 0.01091765,
      "auxiliary_loss_mlp": 0.01021705,
      "balance_loss_clip": 1.03591561,
      "balance_loss_mlp": 1.01657271,
      "epoch": 0.9825046594120123,
      "flos": 21910319665920.0,
      "grad_norm": 1.8598577749552607,
      "language_loss": 0.88417107,
      "learning_rate": 3.188628183992792e-09,
      "loss": 0.90530574,
      "num_input_tokens_seen": 176347680,
      "step": 8171,
      "time_per_iteration": 2.5162272453308105
    },
    {
      "auxiliary_loss_clip": 0.01030537,
      "auxiliary_loss_mlp": 0.01002028,
      "balance_loss_clip": 1.01496148,
      "balance_loss_mlp": 1.00043094,
      "epoch": 0.9826249023026513,
      "flos": 59501233520640.0,
      "grad_norm": 0.749725017031146,
      "language_loss": 0.62513769,
      "learning_rate": 3.1448102543902844e-09,
      "loss": 0.64546329,
      "num_input_tokens_seen": 176411595,
      "step": 8172,
      "time_per_iteration": 3.09183931350708
    },
    {
      "auxiliary_loss_clip": 0.01069789,
      "auxiliary_loss_mlp": 0.01021712,
      "balance_loss_clip": 1.03688776,
      "balance_loss_mlp": 1.01639271,
      "epoch": 0.9827451451932905,
      "flos": 16072891453440.0,
      "grad_norm": 2.2701964454313464,
      "language_loss": 0.67452633,
      "learning_rate": 3.1012952461324515e-09,
      "loss": 0.69544131,
      "num_input_tokens_seen": 176430570,
      "step": 8173,
      "time_per_iteration": 2.5563042163848877
    },
    {
      "auxiliary_loss_clip": 0.01078091,
      "auxiliary_loss_mlp": 0.01021258,
      "balance_loss_clip": 1.03691196,
      "balance_loss_mlp": 1.01587915,
      "epoch": 0.9828653880839295,
      "flos": 20264639788800.0,
      "grad_norm": 2.695768247654483,
      "language_loss": 0.73871267,
      "learning_rate": 3.0580831658204575e-09,
      "loss": 0.75970614,
      "num_input_tokens_seen": 176448150,
      "step": 8174,
      "time_per_iteration": 2.504000663757324
    },
    {
      "auxiliary_loss_clip": 0.01079256,
      "auxiliary_loss_mlp": 0.01018926,
      "balance_loss_clip": 1.03694272,
      "balance_loss_mlp": 1.01408339,
      "epoch": 0.9829856309745686,
      "flos": 21618270040320.0,
      "grad_norm": 2.495299618495674,
      "language_loss": 0.78185713,
      "learning_rate": 3.015174020009281e-09,
      "loss": 0.80283892,
      "num_input_tokens_seen": 176467475,
      "step": 8175,
      "time_per_iteration": 3.330432891845703
    },
    {
      "auxiliary_loss_clip": 0.01063121,
      "auxiliary_loss_mlp": 0.01017828,
      "balance_loss_clip": 1.03741884,
      "balance_loss_mlp": 1.01297295,
      "epoch": 0.9831058738652078,
      "flos": 23766201849600.0,
      "grad_norm": 1.7627615733915998,
      "language_loss": 0.75092369,
      "learning_rate": 2.9725678152086043e-09,
      "loss": 0.77173316,
      "num_input_tokens_seen": 176486045,
      "step": 8176,
      "time_per_iteration": 2.615889549255371
    },
    {
      "auxiliary_loss_clip": 0.01060799,
      "auxiliary_loss_mlp": 0.01018876,
      "balance_loss_clip": 1.03259766,
      "balance_loss_mlp": 1.01355016,
      "epoch": 0.9832261167558468,
      "flos": 11322117768960.0,
      "grad_norm": 3.0773094324564383,
      "language_loss": 0.82657433,
      "learning_rate": 2.930264557881257e-09,
      "loss": 0.84737104,
      "num_input_tokens_seen": 176501230,
      "step": 8177,
      "time_per_iteration": 4.117812871932983
    },
    {
      "auxiliary_loss_clip": 0.01039726,
      "auxiliary_loss_mlp": 0.01002157,
      "balance_loss_clip": 1.01478171,
      "balance_loss_mlp": 1.00059545,
      "epoch": 0.9833463596464859,
      "flos": 60006670571520.0,
      "grad_norm": 0.8240230001778572,
      "language_loss": 0.58157635,
      "learning_rate": 2.8882642544452163e-09,
      "loss": 0.60199511,
      "num_input_tokens_seen": 176565955,
      "step": 8178,
      "time_per_iteration": 3.1395184993743896
    },
    {
      "auxiliary_loss_clip": 0.01066276,
      "auxiliary_loss_mlp": 0.01019791,
      "balance_loss_clip": 1.03401995,
      "balance_loss_mlp": 1.01450098,
      "epoch": 0.983466602537125,
      "flos": 13628435685120.0,
      "grad_norm": 2.851606575655955,
      "language_loss": 0.74978739,
      "learning_rate": 2.8465669112716083e-09,
      "loss": 0.77064806,
      "num_input_tokens_seen": 176583480,
      "step": 8179,
      "time_per_iteration": 2.5401265621185303
    },
    {
      "auxiliary_loss_clip": 0.01082159,
      "auxiliary_loss_mlp": 0.00756465,
      "balance_loss_clip": 1.03623414,
      "balance_loss_mlp": 1.00159025,
      "epoch": 0.9835868454277641,
      "flos": 22928891137920.0,
      "grad_norm": 1.8064525405689793,
      "language_loss": 0.76574242,
      "learning_rate": 2.8051725346858177e-09,
      "loss": 0.78412867,
      "num_input_tokens_seen": 176603740,
      "step": 8180,
      "time_per_iteration": 2.577507972717285
    },
    {
      "auxiliary_loss_clip": 0.01092752,
      "auxiliary_loss_mlp": 0.01021277,
      "balance_loss_clip": 1.03622913,
      "balance_loss_mlp": 1.0163033,
      "epoch": 0.9837070883184031,
      "flos": 27675910932480.0,
      "grad_norm": 2.2063212304863558,
      "language_loss": 0.71383739,
      "learning_rate": 2.7640811309674883e-09,
      "loss": 0.73497772,
      "num_input_tokens_seen": 176623240,
      "step": 8181,
      "time_per_iteration": 2.5419745445251465
    },
    {
      "auxiliary_loss_clip": 0.01049876,
      "auxiliary_loss_mlp": 0.01017467,
      "balance_loss_clip": 1.03394628,
      "balance_loss_mlp": 1.0123471,
      "epoch": 0.9838273312090423,
      "flos": 29244521168640.0,
      "grad_norm": 1.8126263375261205,
      "language_loss": 0.81084102,
      "learning_rate": 2.7232927063498557e-09,
      "loss": 0.83151448,
      "num_input_tokens_seen": 176643615,
      "step": 8182,
      "time_per_iteration": 2.6643500328063965
    },
    {
      "auxiliary_loss_clip": 0.01078622,
      "auxiliary_loss_mlp": 0.01017689,
      "balance_loss_clip": 1.03523493,
      "balance_loss_mlp": 1.01269674,
      "epoch": 0.9839475740996814,
      "flos": 40113131840640.0,
      "grad_norm": 2.205204762249918,
      "language_loss": 0.69162357,
      "learning_rate": 2.682807267020859e-09,
      "loss": 0.71258664,
      "num_input_tokens_seen": 176666375,
      "step": 8183,
      "time_per_iteration": 2.680640935897827
    },
    {
      "auxiliary_loss_clip": 0.01079194,
      "auxiliary_loss_mlp": 0.0102002,
      "balance_loss_clip": 1.03655457,
      "balance_loss_mlp": 1.01470649,
      "epoch": 0.9840678169903204,
      "flos": 24171618769920.0,
      "grad_norm": 1.7532457433343431,
      "language_loss": 0.62530446,
      "learning_rate": 2.642624819121808e-09,
      "loss": 0.64629656,
      "num_input_tokens_seen": 176686525,
      "step": 8184,
      "time_per_iteration": 2.5579092502593994
    },
    {
      "auxiliary_loss_clip": 0.0106325,
      "auxiliary_loss_mlp": 0.01021036,
      "balance_loss_clip": 1.03376698,
      "balance_loss_mlp": 1.01589847,
      "epoch": 0.9841880598809596,
      "flos": 14686262421120.0,
      "grad_norm": 1.9332154607065912,
      "language_loss": 0.61963832,
      "learning_rate": 2.6027453687487154e-09,
      "loss": 0.64048111,
      "num_input_tokens_seen": 176703615,
      "step": 8185,
      "time_per_iteration": 2.530768394470215
    },
    {
      "auxiliary_loss_clip": 0.0106657,
      "auxiliary_loss_mlp": 0.01018154,
      "balance_loss_clip": 1.03477621,
      "balance_loss_mlp": 1.01297128,
      "epoch": 0.9843083027715986,
      "flos": 22346877381120.0,
      "grad_norm": 2.51354710421625,
      "language_loss": 0.53777766,
      "learning_rate": 2.5631689219509643e-09,
      "loss": 0.55862486,
      "num_input_tokens_seen": 176722295,
      "step": 8186,
      "time_per_iteration": 3.257864475250244
    },
    {
      "auxiliary_loss_clip": 0.01063761,
      "auxiliary_loss_mlp": 0.01017982,
      "balance_loss_clip": 1.03673673,
      "balance_loss_mlp": 1.01304364,
      "epoch": 0.9844285456622377,
      "flos": 21802336738560.0,
      "grad_norm": 1.6985106085473938,
      "language_loss": 0.83482796,
      "learning_rate": 2.523895484732197e-09,
      "loss": 0.85564542,
      "num_input_tokens_seen": 176741750,
      "step": 8187,
      "time_per_iteration": 2.5974745750427246
    },
    {
      "auxiliary_loss_clip": 0.01082876,
      "auxiliary_loss_mlp": 0.01018753,
      "balance_loss_clip": 1.03650129,
      "balance_loss_mlp": 1.01315284,
      "epoch": 0.9845487885528769,
      "flos": 18037021991040.0,
      "grad_norm": 2.05466599607291,
      "language_loss": 0.74464035,
      "learning_rate": 2.4849250630505357e-09,
      "loss": 0.76565671,
      "num_input_tokens_seen": 176759995,
      "step": 8188,
      "time_per_iteration": 2.5223402976989746
    },
    {
      "auxiliary_loss_clip": 0.01006503,
      "auxiliary_loss_mlp": 0.01020854,
      "balance_loss_clip": 1.02562785,
      "balance_loss_mlp": 1.01550734,
      "epoch": 0.9846690314435159,
      "flos": 25230962229120.0,
      "grad_norm": 2.4292968761448184,
      "language_loss": 0.7361961,
      "learning_rate": 2.4462576628172528e-09,
      "loss": 0.75646973,
      "num_input_tokens_seen": 176778625,
      "step": 8189,
      "time_per_iteration": 2.9036941528320312
    },
    {
      "auxiliary_loss_clip": 0.01072576,
      "auxiliary_loss_mlp": 0.01023209,
      "balance_loss_clip": 1.03155136,
      "balance_loss_mlp": 1.01770759,
      "epoch": 0.984789274334155,
      "flos": 18554175728640.0,
      "grad_norm": 1.8086604348061865,
      "language_loss": 0.73928654,
      "learning_rate": 2.407893289898766e-09,
      "loss": 0.76024437,
      "num_input_tokens_seen": 176797655,
      "step": 8190,
      "time_per_iteration": 2.6789748668670654
    },
    {
      "auxiliary_loss_clip": 0.01054979,
      "auxiliary_loss_mlp": 0.01017117,
      "balance_loss_clip": 1.03250742,
      "balance_loss_mlp": 1.01185679,
      "epoch": 0.984909517224794,
      "flos": 27347942833920.0,
      "grad_norm": 1.9769865800335211,
      "language_loss": 0.83915985,
      "learning_rate": 2.3698319501144202e-09,
      "loss": 0.85988081,
      "num_input_tokens_seen": 176818640,
      "step": 8191,
      "time_per_iteration": 2.662584066390991
    },
    {
      "auxiliary_loss_clip": 0.01077718,
      "auxiliary_loss_mlp": 0.01018841,
      "balance_loss_clip": 1.03702474,
      "balance_loss_mlp": 1.01344657,
      "epoch": 0.9850297601154332,
      "flos": 18736043178240.0,
      "grad_norm": 1.5993632331467904,
      "language_loss": 0.73322153,
      "learning_rate": 2.3320736492382644e-09,
      "loss": 0.75418717,
      "num_input_tokens_seen": 176837475,
      "step": 8192,
      "time_per_iteration": 2.50346302986145
    },
    {
      "auxiliary_loss_clip": 0.01090755,
      "auxiliary_loss_mlp": 0.01022461,
      "balance_loss_clip": 1.0369463,
      "balance_loss_mlp": 1.01750493,
      "epoch": 0.9851500030060723,
      "flos": 22310352218880.0,
      "grad_norm": 1.593219432300696,
      "language_loss": 0.67980868,
      "learning_rate": 2.29461839299816e-09,
      "loss": 0.70094079,
      "num_input_tokens_seen": 176857190,
      "step": 8193,
      "time_per_iteration": 2.5296664237976074
    },
    {
      "auxiliary_loss_clip": 0.01052437,
      "auxiliary_loss_mlp": 0.01017781,
      "balance_loss_clip": 1.0357089,
      "balance_loss_mlp": 1.0127089,
      "epoch": 0.9852702458967113,
      "flos": 26355772396800.0,
      "grad_norm": 1.608743812153962,
      "language_loss": 0.80202228,
      "learning_rate": 2.257466187076229e-09,
      "loss": 0.8227244,
      "num_input_tokens_seen": 176876395,
      "step": 8194,
      "time_per_iteration": 2.624129295349121
    },
    {
      "auxiliary_loss_clip": 0.01083872,
      "auxiliary_loss_mlp": 0.00756419,
      "balance_loss_clip": 1.03726006,
      "balance_loss_mlp": 1.00151157,
      "epoch": 0.9853904887873505,
      "flos": 20885529628800.0,
      "grad_norm": 2.004068786804187,
      "language_loss": 0.71171403,
      "learning_rate": 2.2206170371081854e-09,
      "loss": 0.7301169,
      "num_input_tokens_seen": 176894980,
      "step": 8195,
      "time_per_iteration": 2.5497279167175293
    },
    {
      "auxiliary_loss_clip": 0.01072104,
      "auxiliary_loss_mlp": 0.01021681,
      "balance_loss_clip": 1.03496039,
      "balance_loss_mlp": 1.01599455,
      "epoch": 0.9855107316779895,
      "flos": 25265705241600.0,
      "grad_norm": 1.729408319890841,
      "language_loss": 0.84716958,
      "learning_rate": 2.1840709486842247e-09,
      "loss": 0.86810744,
      "num_input_tokens_seen": 176914600,
      "step": 8196,
      "time_per_iteration": 2.574650287628174
    },
    {
      "auxiliary_loss_clip": 0.01062408,
      "auxiliary_loss_mlp": 0.01020885,
      "balance_loss_clip": 1.03289187,
      "balance_loss_mlp": 1.01574397,
      "epoch": 0.9856309745686286,
      "flos": 19064087112960.0,
      "grad_norm": 1.9739104826578953,
      "language_loss": 0.78963089,
      "learning_rate": 2.1478279273481335e-09,
      "loss": 0.81046379,
      "num_input_tokens_seen": 176933085,
      "step": 8197,
      "time_per_iteration": 2.5663156509399414
    },
    {
      "auxiliary_loss_clip": 0.01079889,
      "auxiliary_loss_mlp": 0.01021156,
      "balance_loss_clip": 1.03766966,
      "balance_loss_mlp": 1.01596785,
      "epoch": 0.9857512174592677,
      "flos": 34133584377600.0,
      "grad_norm": 2.374860510802701,
      "language_loss": 0.80190516,
      "learning_rate": 2.1118879785981815e-09,
      "loss": 0.82291561,
      "num_input_tokens_seen": 176953225,
      "step": 8198,
      "time_per_iteration": 2.635376214981079
    },
    {
      "auxiliary_loss_clip": 0.01060592,
      "auxiliary_loss_mlp": 0.01020768,
      "balance_loss_clip": 1.03199697,
      "balance_loss_mlp": 1.01577854,
      "epoch": 0.9858714603499068,
      "flos": 25997080602240.0,
      "grad_norm": 12.540255411024908,
      "language_loss": 0.79425585,
      "learning_rate": 2.0762511078862288e-09,
      "loss": 0.8150695,
      "num_input_tokens_seen": 176973570,
      "step": 8199,
      "time_per_iteration": 2.6342098712921143
    },
    {
      "auxiliary_loss_clip": 0.01064529,
      "auxiliary_loss_mlp": 0.01017648,
      "balance_loss_clip": 1.03406334,
      "balance_loss_mlp": 1.01265585,
      "epoch": 0.9859917032405459,
      "flos": 23698497974400.0,
      "grad_norm": 2.6415362772326545,
      "language_loss": 0.64997941,
      "learning_rate": 2.0409173206186183e-09,
      "loss": 0.67080116,
      "num_input_tokens_seen": 176992810,
      "step": 8200,
      "time_per_iteration": 2.568248987197876
    },
    {
      "auxiliary_loss_clip": 0.01048849,
      "auxiliary_loss_mlp": 0.01017291,
      "balance_loss_clip": 1.03409505,
      "balance_loss_mlp": 1.01234961,
      "epoch": 0.986111946131185,
      "flos": 19940349744000.0,
      "grad_norm": 2.0772444562750207,
      "language_loss": 0.87068111,
      "learning_rate": 2.0058866221550617e-09,
      "loss": 0.89134252,
      "num_input_tokens_seen": 177011050,
      "step": 8201,
      "time_per_iteration": 3.618847370147705
    },
    {
      "auxiliary_loss_clip": 0.01091126,
      "auxiliary_loss_mlp": 0.0101807,
      "balance_loss_clip": 1.0358938,
      "balance_loss_mlp": 1.01290572,
      "epoch": 0.9862321890218241,
      "flos": 19830888011520.0,
      "grad_norm": 2.4834534107865562,
      "language_loss": 0.7516799,
      "learning_rate": 1.971159017809976e-09,
      "loss": 0.77277189,
      "num_input_tokens_seen": 177029340,
      "step": 8202,
      "time_per_iteration": 2.536337375640869
    },
    {
      "auxiliary_loss_clip": 0.01077777,
      "auxiliary_loss_mlp": 0.01019815,
      "balance_loss_clip": 1.03565443,
      "balance_loss_mlp": 1.01439106,
      "epoch": 0.9863524319124631,
      "flos": 21654150595200.0,
      "grad_norm": 2.54135391664317,
      "language_loss": 0.77275431,
      "learning_rate": 1.93673451285159e-09,
      "loss": 0.7937302,
      "num_input_tokens_seen": 177048390,
      "step": 8203,
      "time_per_iteration": 4.057920455932617
    },
    {
      "auxiliary_loss_clip": 0.01020853,
      "auxiliary_loss_mlp": 0.01001424,
      "balance_loss_clip": 1.01472366,
      "balance_loss_mlp": 0.99979115,
      "epoch": 0.9864726748031023,
      "flos": 52775598481920.0,
      "grad_norm": 1.2447907283225954,
      "language_loss": 0.56485647,
      "learning_rate": 1.9026131125019495e-09,
      "loss": 0.58507925,
      "num_input_tokens_seen": 177105760,
      "step": 8204,
      "time_per_iteration": 3.091963291168213
    },
    {
      "auxiliary_loss_clip": 0.01072627,
      "auxiliary_loss_mlp": 0.01017512,
      "balance_loss_clip": 1.03502548,
      "balance_loss_mlp": 1.01255333,
      "epoch": 0.9865929176937414,
      "flos": 23366700149760.0,
      "grad_norm": 2.5520632572197277,
      "language_loss": 0.86676913,
      "learning_rate": 1.8687948219371363e-09,
      "loss": 0.88767052,
      "num_input_tokens_seen": 177124985,
      "step": 8205,
      "time_per_iteration": 2.5364251136779785
    },
    {
      "auxiliary_loss_clip": 0.01092852,
      "auxiliary_loss_mlp": 0.01022197,
      "balance_loss_clip": 1.03573751,
      "balance_loss_mlp": 1.01678514,
      "epoch": 0.9867131605843804,
      "flos": 21618838811520.0,
      "grad_norm": 3.1831534622354596,
      "language_loss": 0.88416362,
      "learning_rate": 1.835279646287491e-09,
      "loss": 0.90531409,
      "num_input_tokens_seen": 177142995,
      "step": 8206,
      "time_per_iteration": 2.51363205909729
    },
    {
      "auxiliary_loss_clip": 0.0108405,
      "auxiliary_loss_mlp": 0.01024021,
      "balance_loss_clip": 1.03727305,
      "balance_loss_mlp": 1.01872849,
      "epoch": 0.9868334034750196,
      "flos": 22273485793920.0,
      "grad_norm": 1.8657952651483183,
      "language_loss": 0.76628119,
      "learning_rate": 1.8020675906371685e-09,
      "loss": 0.78736192,
      "num_input_tokens_seen": 177162390,
      "step": 8207,
      "time_per_iteration": 2.5547921657562256
    },
    {
      "auxiliary_loss_clip": 0.01041052,
      "auxiliary_loss_mlp": 0.01022299,
      "balance_loss_clip": 1.03188455,
      "balance_loss_mlp": 1.0171138,
      "epoch": 0.9869536463656586,
      "flos": 25811800525440.0,
      "grad_norm": 2.299735160872231,
      "language_loss": 0.75396097,
      "learning_rate": 1.7691586600243612e-09,
      "loss": 0.77459449,
      "num_input_tokens_seen": 177181290,
      "step": 8208,
      "time_per_iteration": 2.6823205947875977
    },
    {
      "auxiliary_loss_clip": 0.01062173,
      "auxiliary_loss_mlp": 0.01018474,
      "balance_loss_clip": 1.03737533,
      "balance_loss_mlp": 1.01334476,
      "epoch": 0.9870738892562977,
      "flos": 16400328698880.0,
      "grad_norm": 2.805318336415481,
      "language_loss": 0.87343562,
      "learning_rate": 1.7365528594415202e-09,
      "loss": 0.89424217,
      "num_input_tokens_seen": 177195360,
      "step": 8209,
      "time_per_iteration": 2.557907819747925
    },
    {
      "auxiliary_loss_clip": 0.01079037,
      "auxiliary_loss_mlp": 0.0075675,
      "balance_loss_clip": 1.03441262,
      "balance_loss_mlp": 1.00157416,
      "epoch": 0.9871941321469369,
      "flos": 35484294936960.0,
      "grad_norm": 1.639684121200792,
      "language_loss": 0.67527211,
      "learning_rate": 1.7042501938346888e-09,
      "loss": 0.69362998,
      "num_input_tokens_seen": 177218090,
      "step": 8210,
      "time_per_iteration": 2.654707670211792
    },
    {
      "auxiliary_loss_clip": 0.01070315,
      "auxiliary_loss_mlp": 0.01019012,
      "balance_loss_clip": 1.0349313,
      "balance_loss_mlp": 1.01403534,
      "epoch": 0.9873143750375759,
      "flos": 21436364672640.0,
      "grad_norm": 2.483307015407998,
      "language_loss": 0.76645178,
      "learning_rate": 1.6722506681043913e-09,
      "loss": 0.78734505,
      "num_input_tokens_seen": 177237050,
      "step": 8211,
      "time_per_iteration": 2.57930850982666
    },
    {
      "auxiliary_loss_clip": 0.01068701,
      "auxiliary_loss_mlp": 0.01022194,
      "balance_loss_clip": 1.03533888,
      "balance_loss_mlp": 1.01714206,
      "epoch": 0.987434617928215,
      "flos": 16328377998720.0,
      "grad_norm": 2.391753838097937,
      "language_loss": 0.69274282,
      "learning_rate": 1.640554287104745e-09,
      "loss": 0.71365178,
      "num_input_tokens_seen": 177255325,
      "step": 8212,
      "time_per_iteration": 3.207489490509033
    },
    {
      "auxiliary_loss_clip": 0.01056658,
      "auxiliary_loss_mlp": 0.01017643,
      "balance_loss_clip": 1.03205132,
      "balance_loss_mlp": 1.01225758,
      "epoch": 0.9875548608188541,
      "flos": 17853561982080.0,
      "grad_norm": 2.053013296046939,
      "language_loss": 0.80254757,
      "learning_rate": 1.609161055644348e-09,
      "loss": 0.82329059,
      "num_input_tokens_seen": 177271250,
      "step": 8213,
      "time_per_iteration": 2.6024680137634277
    },
    {
      "auxiliary_loss_clip": 0.01082392,
      "auxiliary_loss_mlp": 0.01020411,
      "balance_loss_clip": 1.03511703,
      "balance_loss_mlp": 1.01523757,
      "epoch": 0.9876751037094932,
      "flos": 26134839273600.0,
      "grad_norm": 2.145124512381135,
      "language_loss": 0.68352264,
      "learning_rate": 1.5780709784849467e-09,
      "loss": 0.70455068,
      "num_input_tokens_seen": 177288270,
      "step": 8214,
      "time_per_iteration": 2.5498836040496826
    },
    {
      "auxiliary_loss_clip": 0.01029291,
      "auxiliary_loss_mlp": 0.01023125,
      "balance_loss_clip": 1.03193879,
      "balance_loss_mlp": 1.0179925,
      "epoch": 0.9877953466001322,
      "flos": 15992826284160.0,
      "grad_norm": 1.9211410793775816,
      "language_loss": 0.82494032,
      "learning_rate": 1.5472840603436565e-09,
      "loss": 0.84546441,
      "num_input_tokens_seen": 177305500,
      "step": 8215,
      "time_per_iteration": 2.7615301609039307
    },
    {
      "auxiliary_loss_clip": 0.01065372,
      "auxiliary_loss_mlp": 0.01021433,
      "balance_loss_clip": 1.036744,
      "balance_loss_mlp": 1.01641083,
      "epoch": 0.9879155894907714,
      "flos": 18808752240000.0,
      "grad_norm": 3.0272235147558764,
      "language_loss": 0.78275001,
      "learning_rate": 1.5168003058900757e-09,
      "loss": 0.80361801,
      "num_input_tokens_seen": 177323500,
      "step": 8216,
      "time_per_iteration": 2.8048698902130127
    },
    {
      "auxiliary_loss_clip": 0.0105435,
      "auxiliary_loss_mlp": 0.01023249,
      "balance_loss_clip": 1.03302348,
      "balance_loss_mlp": 1.01812291,
      "epoch": 0.9880358323814105,
      "flos": 22384198823040.0,
      "grad_norm": 2.0091455923897374,
      "language_loss": 0.9235,
      "learning_rate": 1.4866197197491715e-09,
      "loss": 0.94427598,
      "num_input_tokens_seen": 177342860,
      "step": 8217,
      "time_per_iteration": 2.651690721511841
    },
    {
      "auxiliary_loss_clip": 0.01080258,
      "auxiliary_loss_mlp": 0.00756767,
      "balance_loss_clip": 1.03644848,
      "balance_loss_mlp": 1.00157523,
      "epoch": 0.9881560752720495,
      "flos": 15670621733760.0,
      "grad_norm": 3.104719951969448,
      "language_loss": 0.78794038,
      "learning_rate": 1.4567423064988371e-09,
      "loss": 0.80631065,
      "num_input_tokens_seen": 177360210,
      "step": 8218,
      "time_per_iteration": 2.517711877822876
    },
    {
      "auxiliary_loss_clip": 0.01092021,
      "auxiliary_loss_mlp": 0.01019195,
      "balance_loss_clip": 1.03576386,
      "balance_loss_mlp": 1.01397419,
      "epoch": 0.9882763181626887,
      "flos": 21501869299200.0,
      "grad_norm": 2.7594907268839295,
      "language_loss": 0.78203499,
      "learning_rate": 1.4271680706718913e-09,
      "loss": 0.8031472,
      "num_input_tokens_seen": 177377885,
      "step": 8219,
      "time_per_iteration": 2.515869379043579
    },
    {
      "auxiliary_loss_clip": 0.01080978,
      "auxiliary_loss_mlp": 0.01021264,
      "balance_loss_clip": 1.03755057,
      "balance_loss_mlp": 1.01593566,
      "epoch": 0.9883965610533277,
      "flos": 28036915729920.0,
      "grad_norm": 1.6728148713636748,
      "language_loss": 0.8248384,
      "learning_rate": 1.3978970167543013e-09,
      "loss": 0.84586084,
      "num_input_tokens_seen": 177398065,
      "step": 8220,
      "time_per_iteration": 2.572608709335327
    },
    {
      "auxiliary_loss_clip": 0.01068698,
      "auxiliary_loss_mlp": 0.01022632,
      "balance_loss_clip": 1.03587914,
      "balance_loss_mlp": 1.01747656,
      "epoch": 0.9885168039439668,
      "flos": 14100229347840.0,
      "grad_norm": 3.3151125241055235,
      "language_loss": 0.78033519,
      "learning_rate": 1.3689291491867372e-09,
      "loss": 0.80124855,
      "num_input_tokens_seen": 177416380,
      "step": 8221,
      "time_per_iteration": 2.569396734237671
    },
    {
      "auxiliary_loss_clip": 0.01091734,
      "auxiliary_loss_mlp": 0.01024617,
      "balance_loss_clip": 1.03684425,
      "balance_loss_mlp": 1.0192349,
      "epoch": 0.988637046834606,
      "flos": 26434396679040.0,
      "grad_norm": 1.9189249624384248,
      "language_loss": 0.73747838,
      "learning_rate": 1.3402644723636836e-09,
      "loss": 0.75864184,
      "num_input_tokens_seen": 177438410,
      "step": 8222,
      "time_per_iteration": 2.5410261154174805
    },
    {
      "auxiliary_loss_clip": 0.01060156,
      "auxiliary_loss_mlp": 0.01019697,
      "balance_loss_clip": 1.03530133,
      "balance_loss_mlp": 1.01461864,
      "epoch": 0.988757289725245,
      "flos": 25231493082240.0,
      "grad_norm": 1.8938468246599578,
      "language_loss": 0.83559191,
      "learning_rate": 1.311902990633218e-09,
      "loss": 0.85639042,
      "num_input_tokens_seen": 177457375,
      "step": 8223,
      "time_per_iteration": 2.6189489364624023
    },
    {
      "auxiliary_loss_clip": 0.01070662,
      "auxiliary_loss_mlp": 0.01019648,
      "balance_loss_clip": 1.03458059,
      "balance_loss_mlp": 1.01461172,
      "epoch": 0.9888775326158841,
      "flos": 26361422190720.0,
      "grad_norm": 2.0195737486619163,
      "language_loss": 0.7147792,
      "learning_rate": 1.2838447082978987e-09,
      "loss": 0.73568237,
      "num_input_tokens_seen": 177478530,
      "step": 8224,
      "time_per_iteration": 2.627984046936035
    },
    {
      "auxiliary_loss_clip": 0.01080904,
      "auxiliary_loss_mlp": 0.0101902,
      "balance_loss_clip": 1.03572989,
      "balance_loss_mlp": 1.01364923,
      "epoch": 0.9889977755065231,
      "flos": 24318401944320.0,
      "grad_norm": 3.2953620417948226,
      "language_loss": 0.83095354,
      "learning_rate": 1.2560896296143208e-09,
      "loss": 0.85195279,
      "num_input_tokens_seen": 177496995,
      "step": 8225,
      "time_per_iteration": 2.5477194786071777
    },
    {
      "auxiliary_loss_clip": 0.0109147,
      "auxiliary_loss_mlp": 0.01019815,
      "balance_loss_clip": 1.03684497,
      "balance_loss_mlp": 1.01453662,
      "epoch": 0.9891180183971623,
      "flos": 18952956984960.0,
      "grad_norm": 3.1140961565218035,
      "language_loss": 0.8223871,
      "learning_rate": 1.2286377587926722e-09,
      "loss": 0.8434999,
      "num_input_tokens_seen": 177513785,
      "step": 8226,
      "time_per_iteration": 2.496011972427368
    },
    {
      "auxiliary_loss_clip": 0.01090745,
      "auxiliary_loss_mlp": 0.01020239,
      "balance_loss_clip": 1.03577399,
      "balance_loss_mlp": 1.0150919,
      "epoch": 0.9892382612878013,
      "flos": 26178948051840.0,
      "grad_norm": 2.5838289830202306,
      "language_loss": 0.74862087,
      "learning_rate": 1.2014890999973992e-09,
      "loss": 0.76973069,
      "num_input_tokens_seen": 177530705,
      "step": 8227,
      "time_per_iteration": 3.326861619949341
    },
    {
      "auxiliary_loss_clip": 0.010911,
      "auxiliary_loss_mlp": 0.01017873,
      "balance_loss_clip": 1.03564978,
      "balance_loss_mlp": 1.01318514,
      "epoch": 0.9893585041784404,
      "flos": 25452084942720.0,
      "grad_norm": 1.6896567261329372,
      "language_loss": 0.78534615,
      "learning_rate": 1.1746436573472073e-09,
      "loss": 0.80643588,
      "num_input_tokens_seen": 177552440,
      "step": 8228,
      "time_per_iteration": 2.5618133544921875
    },
    {
      "auxiliary_loss_clip": 0.01072147,
      "auxiliary_loss_mlp": 0.0102007,
      "balance_loss_clip": 1.03599083,
      "balance_loss_mlp": 1.01478565,
      "epoch": 0.9894787470690796,
      "flos": 20191134447360.0,
      "grad_norm": 2.1379728188073868,
      "language_loss": 0.69046366,
      "learning_rate": 1.1481014349141726e-09,
      "loss": 0.71138579,
      "num_input_tokens_seen": 177569660,
      "step": 8229,
      "time_per_iteration": 4.089017629623413
    },
    {
      "auxiliary_loss_clip": 0.01064218,
      "auxiliary_loss_mlp": 0.01020063,
      "balance_loss_clip": 1.03342986,
      "balance_loss_mlp": 1.01447463,
      "epoch": 0.9895989899597186,
      "flos": 24646597551360.0,
      "grad_norm": 2.987647917629856,
      "language_loss": 0.84737945,
      "learning_rate": 1.121862436724852e-09,
      "loss": 0.86822224,
      "num_input_tokens_seen": 177588500,
      "step": 8230,
      "time_per_iteration": 2.59757137298584
    },
    {
      "auxiliary_loss_clip": 0.01087325,
      "auxiliary_loss_mlp": 0.01022599,
      "balance_loss_clip": 1.04099166,
      "balance_loss_mlp": 1.01731801,
      "epoch": 0.9897192328503577,
      "flos": 21801199196160.0,
      "grad_norm": 1.8120477116908034,
      "language_loss": 0.70508647,
      "learning_rate": 1.0959266667598388e-09,
      "loss": 0.72618574,
      "num_input_tokens_seen": 177607315,
      "step": 8231,
      "time_per_iteration": 2.557764768600464
    },
    {
      "auxiliary_loss_clip": 0.01053482,
      "auxiliary_loss_mlp": 0.01021146,
      "balance_loss_clip": 1.03435302,
      "balance_loss_mlp": 1.01561213,
      "epoch": 0.9898394757409968,
      "flos": 21327395875200.0,
      "grad_norm": 2.200784334272819,
      "language_loss": 0.74676788,
      "learning_rate": 1.0702941289533196e-09,
      "loss": 0.76751411,
      "num_input_tokens_seen": 177625990,
      "step": 8232,
      "time_per_iteration": 2.586857318878174
    },
    {
      "auxiliary_loss_clip": 0.01053351,
      "auxiliary_loss_mlp": 0.01020421,
      "balance_loss_clip": 1.03349829,
      "balance_loss_mlp": 1.01572418,
      "epoch": 0.9899597186316359,
      "flos": 18546630030720.0,
      "grad_norm": 1.9193488421143965,
      "language_loss": 0.88450682,
      "learning_rate": 1.0449648271939615e-09,
      "loss": 0.90524459,
      "num_input_tokens_seen": 177642335,
      "step": 8233,
      "time_per_iteration": 2.5900766849517822
    },
    {
      "auxiliary_loss_clip": 0.01038826,
      "auxiliary_loss_mlp": 0.0075693,
      "balance_loss_clip": 1.0333848,
      "balance_loss_mlp": 1.00175261,
      "epoch": 0.990079961522275,
      "flos": 23768856115200.0,
      "grad_norm": 6.68128062181192,
      "language_loss": 0.72709852,
      "learning_rate": 1.0199387653240243e-09,
      "loss": 0.74505603,
      "num_input_tokens_seen": 177662025,
      "step": 8234,
      "time_per_iteration": 2.6573946475982666
    },
    {
      "auxiliary_loss_clip": 0.01068473,
      "auxiliary_loss_mlp": 0.01017319,
      "balance_loss_clip": 1.03619671,
      "balance_loss_mlp": 1.01227903,
      "epoch": 0.9902002044129141,
      "flos": 16401049142400.0,
      "grad_norm": 2.026407010072498,
      "language_loss": 0.71007311,
      "learning_rate": 9.952159471400267e-10,
      "loss": 0.73093104,
      "num_input_tokens_seen": 177679065,
      "step": 8235,
      "time_per_iteration": 2.5702731609344482
    },
    {
      "auxiliary_loss_clip": 0.01076689,
      "auxiliary_loss_mlp": 0.00756826,
      "balance_loss_clip": 1.03696454,
      "balance_loss_mlp": 1.00174582,
      "epoch": 0.9903204473035532,
      "flos": 22561554021120.0,
      "grad_norm": 1.9147494963853522,
      "language_loss": 0.84203064,
      "learning_rate": 9.707963763923022e-10,
      "loss": 0.86036575,
      "num_input_tokens_seen": 177698115,
      "step": 8236,
      "time_per_iteration": 2.5385234355926514
    },
    {
      "auxiliary_loss_clip": 0.01069139,
      "auxiliary_loss_mlp": 0.01019048,
      "balance_loss_clip": 1.03507316,
      "balance_loss_mlp": 1.01386511,
      "epoch": 0.9904406901941922,
      "flos": 16145865941760.0,
      "grad_norm": 1.8200865257360095,
      "language_loss": 0.79128081,
      "learning_rate": 9.466800567854427e-10,
      "loss": 0.81216264,
      "num_input_tokens_seen": 177716715,
      "step": 8237,
      "time_per_iteration": 2.5649185180664062
    },
    {
      "auxiliary_loss_clip": 0.01056122,
      "auxiliary_loss_mlp": 0.01017876,
      "balance_loss_clip": 1.03455365,
      "balance_loss_mlp": 1.01253211,
      "epoch": 0.9905609330848314,
      "flos": 26653926833280.0,
      "grad_norm": 2.3841274622893267,
      "language_loss": 0.6831063,
      "learning_rate": 9.228669919778553e-10,
      "loss": 0.70384628,
      "num_input_tokens_seen": 177735640,
      "step": 8238,
      "time_per_iteration": 2.6311800479888916
    },
    {
      "auxiliary_loss_clip": 0.01066161,
      "auxiliary_loss_mlp": 0.01020595,
      "balance_loss_clip": 1.03571987,
      "balance_loss_mlp": 1.01491463,
      "epoch": 0.9906811759754705,
      "flos": 23114019542400.0,
      "grad_norm": 2.393550674070194,
      "language_loss": 0.79903448,
      "learning_rate": 8.993571855817617e-10,
      "loss": 0.819902,
      "num_input_tokens_seen": 177754470,
      "step": 8239,
      "time_per_iteration": 3.4926669597625732
    },
    {
      "auxiliary_loss_clip": 0.01078202,
      "auxiliary_loss_mlp": 0.01018077,
      "balance_loss_clip": 1.03397763,
      "balance_loss_mlp": 1.01293945,
      "epoch": 0.9908014188661095,
      "flos": 22092755886720.0,
      "grad_norm": 2.1609834671783066,
      "language_loss": 0.75304562,
      "learning_rate": 8.761506411638642e-10,
      "loss": 0.77400839,
      "num_input_tokens_seen": 177773935,
      "step": 8240,
      "time_per_iteration": 2.5314366817474365
    },
    {
      "auxiliary_loss_clip": 0.01060709,
      "auxiliary_loss_mlp": 0.01023753,
      "balance_loss_clip": 1.03428042,
      "balance_loss_mlp": 1.01848054,
      "epoch": 0.9909216617567487,
      "flos": 19244854938240.0,
      "grad_norm": 1.7414306275643783,
      "language_loss": 0.73927927,
      "learning_rate": 8.53247362244236e-10,
      "loss": 0.76012391,
      "num_input_tokens_seen": 177792745,
      "step": 8241,
      "time_per_iteration": 2.5803375244140625
    },
    {
      "auxiliary_loss_clip": 0.0106646,
      "auxiliary_loss_mlp": 0.01018109,
      "balance_loss_clip": 1.03524089,
      "balance_loss_mlp": 1.01286352,
      "epoch": 0.9910419046473877,
      "flos": 23623362155520.0,
      "grad_norm": 1.9833035338839504,
      "language_loss": 0.68526834,
      "learning_rate": 8.306473522976532e-10,
      "loss": 0.70611405,
      "num_input_tokens_seen": 177812150,
      "step": 8242,
      "time_per_iteration": 2.5846803188323975
    },
    {
      "auxiliary_loss_clip": 0.01093168,
      "auxiliary_loss_mlp": 0.01017013,
      "balance_loss_clip": 1.03747892,
      "balance_loss_mlp": 1.01176214,
      "epoch": 0.9911621475380268,
      "flos": 22713607808640.0,
      "grad_norm": 1.9855990250215934,
      "language_loss": 0.71810591,
      "learning_rate": 8.083506147522623e-10,
      "loss": 0.73920768,
      "num_input_tokens_seen": 177831545,
      "step": 8243,
      "time_per_iteration": 2.5359857082366943
    },
    {
      "auxiliary_loss_clip": 0.01080706,
      "auxiliary_loss_mlp": 0.01024832,
      "balance_loss_clip": 1.03606117,
      "balance_loss_mlp": 1.01978326,
      "epoch": 0.991282390428666,
      "flos": 13518670608000.0,
      "grad_norm": 2.0633201531378083,
      "language_loss": 0.85353714,
      "learning_rate": 7.863571529906909e-10,
      "loss": 0.87459248,
      "num_input_tokens_seen": 177847130,
      "step": 8244,
      "time_per_iteration": 2.4915969371795654
    },
    {
      "auxiliary_loss_clip": 0.01030145,
      "auxiliary_loss_mlp": 0.01000557,
      "balance_loss_clip": 1.01448488,
      "balance_loss_mlp": 0.99893552,
      "epoch": 0.991402633319305,
      "flos": 61837289262720.0,
      "grad_norm": 0.7305744827609233,
      "language_loss": 0.59698367,
      "learning_rate": 7.646669703489372e-10,
      "loss": 0.61729074,
      "num_input_tokens_seen": 177911440,
      "step": 8245,
      "time_per_iteration": 3.2250912189483643
    },
    {
      "auxiliary_loss_clip": 0.00992009,
      "auxiliary_loss_mlp": 0.01018208,
      "balance_loss_clip": 1.02708495,
      "balance_loss_mlp": 1.01305211,
      "epoch": 0.9915228762099441,
      "flos": 18772113323520.0,
      "grad_norm": 1.9417359852650145,
      "language_loss": 0.57328832,
      "learning_rate": 7.432800701177023e-10,
      "loss": 0.59339046,
      "num_input_tokens_seen": 177929440,
      "step": 8246,
      "time_per_iteration": 2.9357850551605225
    },
    {
      "auxiliary_loss_clip": 0.01020377,
      "auxiliary_loss_mlp": 0.01003105,
      "balance_loss_clip": 1.01494861,
      "balance_loss_mlp": 1.00151968,
      "epoch": 0.9916431191005832,
      "flos": 65942753863680.0,
      "grad_norm": 0.785963550354486,
      "language_loss": 0.57719433,
      "learning_rate": 7.221964555415017e-10,
      "loss": 0.59742916,
      "num_input_tokens_seen": 177989100,
      "step": 8247,
      "time_per_iteration": 3.4632389545440674
    },
    {
      "auxiliary_loss_clip": 0.01061731,
      "auxiliary_loss_mlp": 0.01016856,
      "balance_loss_clip": 1.03095627,
      "balance_loss_mlp": 1.01209092,
      "epoch": 0.9917633619912223,
      "flos": 16583447445120.0,
      "grad_norm": 2.042927125432404,
      "language_loss": 0.75266552,
      "learning_rate": 7.01416129818222e-10,
      "loss": 0.77345133,
      "num_input_tokens_seen": 178006720,
      "step": 8248,
      "time_per_iteration": 2.544478416442871
    },
    {
      "auxiliary_loss_clip": 0.01055752,
      "auxiliary_loss_mlp": 0.01019811,
      "balance_loss_clip": 1.03301513,
      "balance_loss_mlp": 1.01461911,
      "epoch": 0.9918836048818613,
      "flos": 25413474286080.0,
      "grad_norm": 1.921236113618072,
      "language_loss": 0.58727705,
      "learning_rate": 6.809390961006745e-10,
      "loss": 0.6080327,
      "num_input_tokens_seen": 178026850,
      "step": 8249,
      "time_per_iteration": 2.622493028640747
    },
    {
      "auxiliary_loss_clip": 0.01059505,
      "auxiliary_loss_mlp": 0.01021777,
      "balance_loss_clip": 1.03197932,
      "balance_loss_mlp": 1.01673794,
      "epoch": 0.9920038477725005,
      "flos": 25049246451840.0,
      "grad_norm": 1.9420083827026375,
      "language_loss": 0.68670535,
      "learning_rate": 6.607653574948191e-10,
      "loss": 0.70751816,
      "num_input_tokens_seen": 178047630,
      "step": 8250,
      "time_per_iteration": 2.6015076637268066
    },
    {
      "auxiliary_loss_clip": 0.01079145,
      "auxiliary_loss_mlp": 0.01020718,
      "balance_loss_clip": 1.03477955,
      "balance_loss_mlp": 1.01584196,
      "epoch": 0.9921240906631396,
      "flos": 21831619547520.0,
      "grad_norm": 1.8389767577304286,
      "language_loss": 0.81574833,
      "learning_rate": 6.408949170613187e-10,
      "loss": 0.83674693,
      "num_input_tokens_seen": 178066895,
      "step": 8251,
      "time_per_iteration": 2.546827554702759
    },
    {
      "auxiliary_loss_clip": 0.01070658,
      "auxiliary_loss_mlp": 0.01019922,
      "balance_loss_clip": 1.03550529,
      "balance_loss_mlp": 1.0144974,
      "epoch": 0.9922443335537786,
      "flos": 24866582722560.0,
      "grad_norm": 2.03929737409059,
      "language_loss": 0.81780696,
      "learning_rate": 6.213277778144288e-10,
      "loss": 0.83871281,
      "num_input_tokens_seen": 178088540,
      "step": 8252,
      "time_per_iteration": 2.599428415298462
    },
    {
      "auxiliary_loss_clip": 0.01029936,
      "auxiliary_loss_mlp": 0.010229,
      "balance_loss_clip": 1.03236675,
      "balance_loss_mlp": 1.01760411,
      "epoch": 0.9923645764444178,
      "flos": 21615047003520.0,
      "grad_norm": 1.886028003470742,
      "language_loss": 0.6701659,
      "learning_rate": 6.020639427224416e-10,
      "loss": 0.69069421,
      "num_input_tokens_seen": 178106185,
      "step": 8253,
      "time_per_iteration": 3.8511641025543213
    },
    {
      "auxiliary_loss_clip": 0.0106537,
      "auxiliary_loss_mlp": 0.01020029,
      "balance_loss_clip": 1.03453326,
      "balance_loss_mlp": 1.01488829,
      "epoch": 0.9924848193350568,
      "flos": 25003696786560.0,
      "grad_norm": 2.1840472174177163,
      "language_loss": 0.72477126,
      "learning_rate": 5.831034147076864e-10,
      "loss": 0.74562526,
      "num_input_tokens_seen": 178123435,
      "step": 8254,
      "time_per_iteration": 3.385335683822632
    },
    {
      "auxiliary_loss_clip": 0.01031703,
      "auxiliary_loss_mlp": 0.01001891,
      "balance_loss_clip": 1.01667023,
      "balance_loss_mlp": 1.00031722,
      "epoch": 0.9926050622256959,
      "flos": 68919947700480.0,
      "grad_norm": 0.6874903536290641,
      "language_loss": 0.55634421,
      "learning_rate": 5.644461966463065e-10,
      "loss": 0.57668012,
      "num_input_tokens_seen": 178191045,
      "step": 8255,
      "time_per_iteration": 3.889613628387451
    },
    {
      "auxiliary_loss_clip": 0.01066249,
      "auxiliary_loss_mlp": 0.01017649,
      "balance_loss_clip": 1.03452039,
      "balance_loss_mlp": 1.01278853,
      "epoch": 0.9927253051163349,
      "flos": 20925808680960.0,
      "grad_norm": 2.645592166934459,
      "language_loss": 0.75709963,
      "learning_rate": 5.460922913687049e-10,
      "loss": 0.7779386,
      "num_input_tokens_seen": 178210135,
      "step": 8256,
      "time_per_iteration": 2.5903306007385254
    },
    {
      "auxiliary_loss_clip": 0.01047731,
      "auxiliary_loss_mlp": 0.00756919,
      "balance_loss_clip": 1.03228259,
      "balance_loss_mlp": 1.00173306,
      "epoch": 0.9928455480069741,
      "flos": 22310314300800.0,
      "grad_norm": 2.52382833226785,
      "language_loss": 0.75143206,
      "learning_rate": 5.280417016593208e-10,
      "loss": 0.76947856,
      "num_input_tokens_seen": 178229925,
      "step": 8257,
      "time_per_iteration": 2.6285598278045654
    },
    {
      "auxiliary_loss_clip": 0.01078091,
      "auxiliary_loss_mlp": 0.0075623,
      "balance_loss_clip": 1.03773999,
      "balance_loss_mlp": 1.00164676,
      "epoch": 0.9929657908976132,
      "flos": 17385787635840.0,
      "grad_norm": 3.092328950157753,
      "language_loss": 0.74715328,
      "learning_rate": 5.102944302559642e-10,
      "loss": 0.76549649,
      "num_input_tokens_seen": 178247420,
      "step": 8258,
      "time_per_iteration": 2.5325567722320557
    },
    {
      "auxiliary_loss_clip": 0.01030658,
      "auxiliary_loss_mlp": 0.01022282,
      "balance_loss_clip": 1.03345847,
      "balance_loss_mlp": 1.01682496,
      "epoch": 0.9930860337882522,
      "flos": 22676893056000.0,
      "grad_norm": 3.407218745993237,
      "language_loss": 0.79939139,
      "learning_rate": 4.9285047985137e-10,
      "loss": 0.81992078,
      "num_input_tokens_seen": 178266840,
      "step": 8259,
      "time_per_iteration": 2.6832871437072754
    },
    {
      "auxiliary_loss_clip": 0.01083059,
      "auxiliary_loss_mlp": 0.0102454,
      "balance_loss_clip": 1.03740525,
      "balance_loss_mlp": 1.01935744,
      "epoch": 0.9932062766788914,
      "flos": 28150320942720.0,
      "grad_norm": 4.2662738162074625,
      "language_loss": 0.74585873,
      "learning_rate": 4.757098530916436e-10,
      "loss": 0.76693475,
      "num_input_tokens_seen": 178287285,
      "step": 8260,
      "time_per_iteration": 2.624924898147583
    },
    {
      "auxiliary_loss_clip": 0.01082053,
      "auxiliary_loss_mlp": 0.01021744,
      "balance_loss_clip": 1.03777456,
      "balance_loss_mlp": 1.01648092,
      "epoch": 0.9933265195695304,
      "flos": 20158704437760.0,
      "grad_norm": 9.24359495783512,
      "language_loss": 0.77120566,
      "learning_rate": 4.5887255257670563e-10,
      "loss": 0.79224366,
      "num_input_tokens_seen": 178304325,
      "step": 8261,
      "time_per_iteration": 2.5305776596069336
    },
    {
      "auxiliary_loss_clip": 0.01089787,
      "auxiliary_loss_mlp": 0.01021483,
      "balance_loss_clip": 1.03529108,
      "balance_loss_mlp": 1.0162257,
      "epoch": 0.9934467624601695,
      "flos": 21364224382080.0,
      "grad_norm": 2.4019699526167613,
      "language_loss": 0.76638287,
      "learning_rate": 4.4233858086117906e-10,
      "loss": 0.78749561,
      "num_input_tokens_seen": 178322850,
      "step": 8262,
      "time_per_iteration": 2.5319316387176514
    },
    {
      "auxiliary_loss_clip": 0.01038641,
      "auxiliary_loss_mlp": 0.01019815,
      "balance_loss_clip": 1.03404856,
      "balance_loss_mlp": 1.01436985,
      "epoch": 0.9935670053508087,
      "flos": 19758103113600.0,
      "grad_norm": 3.1121914609300974,
      "language_loss": 0.67700887,
      "learning_rate": 4.261079404528356e-10,
      "loss": 0.69759345,
      "num_input_tokens_seen": 178342330,
      "step": 8263,
      "time_per_iteration": 2.6204795837402344
    },
    {
      "auxiliary_loss_clip": 0.01083268,
      "auxiliary_loss_mlp": 0.01019462,
      "balance_loss_clip": 1.03697324,
      "balance_loss_mlp": 1.01416016,
      "epoch": 0.9936872482414477,
      "flos": 21980867397120.0,
      "grad_norm": 2.170376875813056,
      "language_loss": 0.68906999,
      "learning_rate": 4.1018063381437205e-10,
      "loss": 0.71009719,
      "num_input_tokens_seen": 178362715,
      "step": 8264,
      "time_per_iteration": 3.3550682067871094
    },
    {
      "auxiliary_loss_clip": 0.01030513,
      "auxiliary_loss_mlp": 0.0100323,
      "balance_loss_clip": 1.02162206,
      "balance_loss_mlp": 1.00169241,
      "epoch": 0.9938074911320868,
      "flos": 69817340753280.0,
      "grad_norm": 0.8556737645481268,
      "language_loss": 0.61031359,
      "learning_rate": 3.9455666336141167e-10,
      "loss": 0.630651,
      "num_input_tokens_seen": 178426495,
      "step": 8265,
      "time_per_iteration": 3.187593936920166
    },
    {
      "auxiliary_loss_clip": 0.01091461,
      "auxiliary_loss_mlp": 0.01019309,
      "balance_loss_clip": 1.03822732,
      "balance_loss_mlp": 1.0141741,
      "epoch": 0.9939277340227259,
      "flos": 15085877875200.0,
      "grad_norm": 2.9175701231816356,
      "language_loss": 0.82881755,
      "learning_rate": 3.7923603146450267e-10,
      "loss": 0.84992522,
      "num_input_tokens_seen": 178442555,
      "step": 8266,
      "time_per_iteration": 2.4594907760620117
    },
    {
      "auxiliary_loss_clip": 0.01053961,
      "auxiliary_loss_mlp": 0.0101986,
      "balance_loss_clip": 1.03263462,
      "balance_loss_mlp": 1.01480556,
      "epoch": 0.994047976913365,
      "flos": 17714286587520.0,
      "grad_norm": 1.8712835952608935,
      "language_loss": 0.80634844,
      "learning_rate": 3.642187404473418e-10,
      "loss": 0.82708669,
      "num_input_tokens_seen": 178460715,
      "step": 8267,
      "time_per_iteration": 2.585425853729248
    },
    {
      "auxiliary_loss_clip": 0.01079798,
      "auxiliary_loss_mlp": 0.01015949,
      "balance_loss_clip": 1.0352273,
      "balance_loss_mlp": 1.01084042,
      "epoch": 0.994168219804004,
      "flos": 19173548845440.0,
      "grad_norm": 2.5757905757243176,
      "language_loss": 0.85994947,
      "learning_rate": 3.495047925885508e-10,
      "loss": 0.88090688,
      "num_input_tokens_seen": 178479050,
      "step": 8268,
      "time_per_iteration": 2.501495838165283
    },
    {
      "auxiliary_loss_clip": 0.01071987,
      "auxiliary_loss_mlp": 0.01019082,
      "balance_loss_clip": 1.03642881,
      "balance_loss_mlp": 1.01373529,
      "epoch": 0.9942884626946432,
      "flos": 17853144883200.0,
      "grad_norm": 2.113998998518195,
      "language_loss": 0.82774997,
      "learning_rate": 3.350941901199e-10,
      "loss": 0.84866071,
      "num_input_tokens_seen": 178495970,
      "step": 8269,
      "time_per_iteration": 2.555209159851074
    },
    {
      "auxiliary_loss_clip": 0.01070013,
      "auxiliary_loss_mlp": 0.01021084,
      "balance_loss_clip": 1.03581381,
      "balance_loss_mlp": 1.01589286,
      "epoch": 0.9944087055852823,
      "flos": 18797983505280.0,
      "grad_norm": 2.4433320899486057,
      "language_loss": 0.83174103,
      "learning_rate": 3.2098693522764066e-10,
      "loss": 0.85265207,
      "num_input_tokens_seen": 178509170,
      "step": 8270,
      "time_per_iteration": 2.524001359939575
    },
    {
      "auxiliary_loss_clip": 0.01069428,
      "auxiliary_loss_mlp": 0.00756676,
      "balance_loss_clip": 1.03554809,
      "balance_loss_mlp": 1.00166512,
      "epoch": 0.9945289484759213,
      "flos": 20999124432000.0,
      "grad_norm": 1.9690657212846514,
      "language_loss": 0.81099033,
      "learning_rate": 3.071830300516165e-10,
      "loss": 0.82925135,
      "num_input_tokens_seen": 178527000,
      "step": 8271,
      "time_per_iteration": 2.567126989364624
    },
    {
      "auxiliary_loss_clip": 0.01080311,
      "auxiliary_loss_mlp": 0.01025442,
      "balance_loss_clip": 1.0349313,
      "balance_loss_mlp": 1.01973522,
      "epoch": 0.9946491913665605,
      "flos": 14758706056320.0,
      "grad_norm": 3.26771604019014,
      "language_loss": 0.70703435,
      "learning_rate": 2.9368247668615234e-10,
      "loss": 0.72809196,
      "num_input_tokens_seen": 178545590,
      "step": 8272,
      "time_per_iteration": 2.4992902278900146
    },
    {
      "auxiliary_loss_clip": 0.01096375,
      "auxiliary_loss_mlp": 0.01023195,
      "balance_loss_clip": 1.04004645,
      "balance_loss_mlp": 1.01780105,
      "epoch": 0.9947694342571995,
      "flos": 12671159932800.0,
      "grad_norm": 3.0956546702390377,
      "language_loss": 0.61619544,
      "learning_rate": 2.804852771789434e-10,
      "loss": 0.63739121,
      "num_input_tokens_seen": 178558890,
      "step": 8273,
      "time_per_iteration": 2.4820079803466797
    },
    {
      "auxiliary_loss_clip": 0.01090431,
      "auxiliary_loss_mlp": 0.01020024,
      "balance_loss_clip": 1.03527832,
      "balance_loss_mlp": 1.01508296,
      "epoch": 0.9948896771478386,
      "flos": 18845429074560.0,
      "grad_norm": 1.8428184409304806,
      "language_loss": 0.5573684,
      "learning_rate": 2.675914335321661e-10,
      "loss": 0.57847291,
      "num_input_tokens_seen": 178577645,
      "step": 8274,
      "time_per_iteration": 2.478006362915039
    },
    {
      "auxiliary_loss_clip": 0.010808,
      "auxiliary_loss_mlp": 0.0102063,
      "balance_loss_clip": 1.03522611,
      "balance_loss_mlp": 1.01494658,
      "epoch": 0.9950099200384778,
      "flos": 24902539113600.0,
      "grad_norm": 2.780127875186193,
      "language_loss": 0.79085672,
      "learning_rate": 2.550009477018111e-10,
      "loss": 0.81187105,
      "num_input_tokens_seen": 178596415,
      "step": 8275,
      "time_per_iteration": 2.575714349746704
    },
    {
      "auxiliary_loss_clip": 0.01064945,
      "auxiliary_loss_mlp": 0.00757004,
      "balance_loss_clip": 1.03342426,
      "balance_loss_mlp": 1.00179338,
      "epoch": 0.9951301629291168,
      "flos": 23735933170560.0,
      "grad_norm": 2.0378560563233865,
      "language_loss": 0.63085639,
      "learning_rate": 2.4271382159790634e-10,
      "loss": 0.64907587,
      "num_input_tokens_seen": 178613845,
      "step": 8276,
      "time_per_iteration": 2.575319766998291
    },
    {
      "auxiliary_loss_clip": 0.01030695,
      "auxiliary_loss_mlp": 0.01023938,
      "balance_loss_clip": 1.03326106,
      "balance_loss_mlp": 1.01862764,
      "epoch": 0.9952504058197559,
      "flos": 22239084044160.0,
      "grad_norm": 2.128588259572884,
      "language_loss": 0.85966635,
      "learning_rate": 2.3073005708429406e-10,
      "loss": 0.88021266,
      "num_input_tokens_seen": 178633490,
      "step": 8277,
      "time_per_iteration": 2.7272372245788574
    },
    {
      "auxiliary_loss_clip": 0.01047347,
      "auxiliary_loss_mlp": 0.01017504,
      "balance_loss_clip": 1.02979231,
      "balance_loss_mlp": 1.0126462,
      "epoch": 0.995370648710395,
      "flos": 21212928956160.0,
      "grad_norm": 1.7765211127866298,
      "language_loss": 0.72029382,
      "learning_rate": 2.190496559788535e-10,
      "loss": 0.74094236,
      "num_input_tokens_seen": 178651775,
      "step": 8278,
      "time_per_iteration": 2.9872636795043945
    },
    {
      "auxiliary_loss_clip": 0.0106657,
      "auxiliary_loss_mlp": 0.01022631,
      "balance_loss_clip": 1.0350498,
      "balance_loss_mlp": 1.01765108,
      "epoch": 0.9954908916010341,
      "flos": 14868509051520.0,
      "grad_norm": 2.529481305868828,
      "language_loss": 0.76069212,
      "learning_rate": 2.0767262005372265e-10,
      "loss": 0.7815842,
      "num_input_tokens_seen": 178669290,
      "step": 8279,
      "time_per_iteration": 3.6941165924072266
    },
    {
      "auxiliary_loss_clip": 0.01054604,
      "auxiliary_loss_mlp": 0.01018678,
      "balance_loss_clip": 1.03430319,
      "balance_loss_mlp": 1.01392508,
      "epoch": 0.9956111344916732,
      "flos": 19210263598080.0,
      "grad_norm": 1.9309565343441102,
      "language_loss": 0.75036454,
      "learning_rate": 1.965989510346322e-10,
      "loss": 0.77109742,
      "num_input_tokens_seen": 178688410,
      "step": 8280,
      "time_per_iteration": 4.105014324188232
    },
    {
      "auxiliary_loss_clip": 0.01035648,
      "auxiliary_loss_mlp": 0.010202,
      "balance_loss_clip": 1.02808666,
      "balance_loss_mlp": 1.01449883,
      "epoch": 0.9957313773823123,
      "flos": 20049091032960.0,
      "grad_norm": 2.706143532227605,
      "language_loss": 0.70946938,
      "learning_rate": 1.8582865060134955e-10,
      "loss": 0.73002779,
      "num_input_tokens_seen": 178706600,
      "step": 8281,
      "time_per_iteration": 2.6260790824890137
    },
    {
      "auxiliary_loss_clip": 0.01039396,
      "auxiliary_loss_mlp": 0.01002357,
      "balance_loss_clip": 1.01451468,
      "balance_loss_mlp": 1.00079501,
      "epoch": 0.9958516202729514,
      "flos": 57489505741440.0,
      "grad_norm": 0.7764010710320673,
      "language_loss": 0.5568192,
      "learning_rate": 1.7536172038790098e-10,
      "loss": 0.57723677,
      "num_input_tokens_seen": 178766910,
      "step": 8282,
      "time_per_iteration": 3.184314012527466
    },
    {
      "auxiliary_loss_clip": 0.01068582,
      "auxiliary_loss_mlp": 0.01016781,
      "balance_loss_clip": 1.03733611,
      "balance_loss_mlp": 1.01159823,
      "epoch": 0.9959718631635904,
      "flos": 27785410583040.0,
      "grad_norm": 3.497681271133237,
      "language_loss": 0.69493693,
      "learning_rate": 1.651981619819054e-10,
      "loss": 0.71579057,
      "num_input_tokens_seen": 178784060,
      "step": 8283,
      "time_per_iteration": 2.6288511753082275
    },
    {
      "auxiliary_loss_clip": 0.01042453,
      "auxiliary_loss_mlp": 0.01018352,
      "balance_loss_clip": 1.03161609,
      "balance_loss_mlp": 1.01303208,
      "epoch": 0.9960921060542296,
      "flos": 24026352318720.0,
      "grad_norm": 2.548775363455159,
      "language_loss": 0.70886338,
      "learning_rate": 1.5533797692546257e-10,
      "loss": 0.72947145,
      "num_input_tokens_seen": 178802795,
      "step": 8284,
      "time_per_iteration": 2.657710552215576
    },
    {
      "auxiliary_loss_clip": 0.01082341,
      "auxiliary_loss_mlp": 0.01016742,
      "balance_loss_clip": 1.0362128,
      "balance_loss_mlp": 1.01135397,
      "epoch": 0.9962123489448687,
      "flos": 18699366343680.0,
      "grad_norm": 2.623770018119754,
      "language_loss": 0.84170753,
      "learning_rate": 1.4578116671404296e-10,
      "loss": 0.86269832,
      "num_input_tokens_seen": 178821075,
      "step": 8285,
      "time_per_iteration": 2.50876522064209
    },
    {
      "auxiliary_loss_clip": 0.01073053,
      "auxiliary_loss_mlp": 0.01022321,
      "balance_loss_clip": 1.03583264,
      "balance_loss_mlp": 1.0171442,
      "epoch": 0.9963325918355077,
      "flos": 20012793379200.0,
      "grad_norm": 3.4718591492318422,
      "language_loss": 0.71248931,
      "learning_rate": 1.3652773279759777e-10,
      "loss": 0.73344302,
      "num_input_tokens_seen": 178837725,
      "step": 8286,
      "time_per_iteration": 2.5041730403900146
    },
    {
      "auxiliary_loss_clip": 0.0108351,
      "auxiliary_loss_mlp": 0.01019631,
      "balance_loss_clip": 1.0378238,
      "balance_loss_mlp": 1.01448762,
      "epoch": 0.9964528347261468,
      "flos": 33111221097600.0,
      "grad_norm": 2.6539896423247744,
      "language_loss": 0.6291939,
      "learning_rate": 1.2757767657989305e-10,
      "loss": 0.6502254,
      "num_input_tokens_seen": 178861515,
      "step": 8287,
      "time_per_iteration": 2.6339166164398193
    },
    {
      "auxiliary_loss_clip": 0.01078781,
      "auxiliary_loss_mlp": 0.01017906,
      "balance_loss_clip": 1.03606629,
      "balance_loss_mlp": 1.01290822,
      "epoch": 0.9965730776167859,
      "flos": 23111403194880.0,
      "grad_norm": 2.0013189089014674,
      "language_loss": 0.87140155,
      "learning_rate": 1.1893099941850948e-10,
      "loss": 0.89236838,
      "num_input_tokens_seen": 178880410,
      "step": 8288,
      "time_per_iteration": 2.5245132446289062
    },
    {
      "auxiliary_loss_clip": 0.0106755,
      "auxiliary_loss_mlp": 0.01019569,
      "balance_loss_clip": 1.03253853,
      "balance_loss_mlp": 1.01419878,
      "epoch": 0.996693320507425,
      "flos": 22968032647680.0,
      "grad_norm": 2.327977089458954,
      "language_loss": 0.77304864,
      "learning_rate": 1.105877026252866e-10,
      "loss": 0.7939198,
      "num_input_tokens_seen": 178898740,
      "step": 8289,
      "time_per_iteration": 2.5809569358825684
    },
    {
      "auxiliary_loss_clip": 0.01090842,
      "auxiliary_loss_mlp": 0.01021635,
      "balance_loss_clip": 1.03587294,
      "balance_loss_mlp": 1.01615715,
      "epoch": 0.996813563398064,
      "flos": 13224307979520.0,
      "grad_norm": 1.9375686367730072,
      "language_loss": 0.7207067,
      "learning_rate": 1.0254778746565663e-10,
      "loss": 0.74183154,
      "num_input_tokens_seen": 178914015,
      "step": 8290,
      "time_per_iteration": 3.1053287982940674
    },
    {
      "auxiliary_loss_clip": 0.01051947,
      "auxiliary_loss_mlp": 0.01024198,
      "balance_loss_clip": 1.03352904,
      "balance_loss_mlp": 1.01897073,
      "epoch": 0.9969338062887032,
      "flos": 14649623504640.0,
      "grad_norm": 2.2078725419822156,
      "language_loss": 0.73566091,
      "learning_rate": 9.481125515953259e-11,
      "loss": 0.7564224,
      "num_input_tokens_seen": 178932075,
      "step": 8291,
      "time_per_iteration": 2.574204206466675
    },
    {
      "auxiliary_loss_clip": 0.01046987,
      "auxiliary_loss_mlp": 0.01019064,
      "balance_loss_clip": 1.0319643,
      "balance_loss_mlp": 1.01388705,
      "epoch": 0.9970540491793423,
      "flos": 25737916003200.0,
      "grad_norm": 2.3393808014656208,
      "language_loss": 0.79753458,
      "learning_rate": 8.737810688064228e-11,
      "loss": 0.8181951,
      "num_input_tokens_seen": 178951910,
      "step": 8292,
      "time_per_iteration": 2.6589596271514893
    },
    {
      "auxiliary_loss_clip": 0.01052304,
      "auxiliary_loss_mlp": 0.01023214,
      "balance_loss_clip": 1.03463268,
      "balance_loss_mlp": 1.01692021,
      "epoch": 0.9971742920699813,
      "flos": 21472358981760.0,
      "grad_norm": 2.7747738634519346,
      "language_loss": 0.79442358,
      "learning_rate": 8.024834375608414e-11,
      "loss": 0.81517869,
      "num_input_tokens_seen": 178970500,
      "step": 8293,
      "time_per_iteration": 2.6070590019226074
    },
    {
      "auxiliary_loss_clip": 0.01039661,
      "auxiliary_loss_mlp": 0.0100082,
      "balance_loss_clip": 1.01477885,
      "balance_loss_mlp": 0.9992348,
      "epoch": 0.9972945349606205,
      "flos": 72217611907200.0,
      "grad_norm": 0.8202445849834873,
      "language_loss": 0.62814707,
      "learning_rate": 7.342196686788149e-11,
      "loss": 0.64855188,
      "num_input_tokens_seen": 179023665,
      "step": 8294,
      "time_per_iteration": 2.974508047103882
    },
    {
      "auxiliary_loss_clip": 0.01055649,
      "auxiliary_loss_mlp": 0.01022375,
      "balance_loss_clip": 1.03394532,
      "balance_loss_mlp": 1.01726365,
      "epoch": 0.9974147778512595,
      "flos": 19680085520640.0,
      "grad_norm": 2.5597052709260084,
      "language_loss": 0.69213283,
      "learning_rate": 6.689897725142834e-11,
      "loss": 0.71291304,
      "num_input_tokens_seen": 179043140,
      "step": 8295,
      "time_per_iteration": 2.5639142990112305
    },
    {
      "auxiliary_loss_clip": 0.01067335,
      "auxiliary_loss_mlp": 0.01020861,
      "balance_loss_clip": 1.03432703,
      "balance_loss_mlp": 1.01556242,
      "epoch": 0.9975350207418986,
      "flos": 15962633441280.0,
      "grad_norm": 2.3664204160288707,
      "language_loss": 0.88332486,
      "learning_rate": 6.067937589615545e-11,
      "loss": 0.90420675,
      "num_input_tokens_seen": 179061215,
      "step": 8296,
      "time_per_iteration": 2.532182455062866
    },
    {
      "auxiliary_loss_clip": 0.01020937,
      "auxiliary_loss_mlp": 0.01003276,
      "balance_loss_clip": 1.01504183,
      "balance_loss_mlp": 1.00152326,
      "epoch": 0.9976552636325378,
      "flos": 59968135751040.0,
      "grad_norm": 4.645263255703136,
      "language_loss": 0.57643461,
      "learning_rate": 5.476316374575241e-11,
      "loss": 0.59667671,
      "num_input_tokens_seen": 179124700,
      "step": 8297,
      "time_per_iteration": 3.150574207305908
    },
    {
      "auxiliary_loss_clip": 0.01091614,
      "auxiliary_loss_mlp": 0.01018156,
      "balance_loss_clip": 1.03673887,
      "balance_loss_mlp": 1.01249337,
      "epoch": 0.9977755065231768,
      "flos": 22489830829440.0,
      "grad_norm": 2.4011963491315105,
      "language_loss": 0.72688133,
      "learning_rate": 4.9150341697723476e-11,
      "loss": 0.74797904,
      "num_input_tokens_seen": 179144590,
      "step": 8298,
      "time_per_iteration": 2.531435012817383
    },
    {
      "auxiliary_loss_clip": 0.010707,
      "auxiliary_loss_mlp": 0.01026063,
      "balance_loss_clip": 1.03542793,
      "balance_loss_mlp": 1.02074075,
      "epoch": 0.9978957494138159,
      "flos": 26032619894400.0,
      "grad_norm": 1.9452524013025405,
      "language_loss": 0.66661954,
      "learning_rate": 4.384091060338768e-11,
      "loss": 0.6875872,
      "num_input_tokens_seen": 179165060,
      "step": 8299,
      "time_per_iteration": 2.5985264778137207
    },
    {
      "auxiliary_loss_clip": 0.01077177,
      "auxiliary_loss_mlp": 0.01023865,
      "balance_loss_clip": 1.03451359,
      "balance_loss_mlp": 1.01856351,
      "epoch": 0.998015992304455,
      "flos": 22640026631040.0,
      "grad_norm": 2.312631488212457,
      "language_loss": 0.73731828,
      "learning_rate": 3.883487126810081e-11,
      "loss": 0.75832868,
      "num_input_tokens_seen": 179184320,
      "step": 8300,
      "time_per_iteration": 2.5418760776519775
    },
    {
      "auxiliary_loss_clip": 0.0108164,
      "auxiliary_loss_mlp": 0.01018329,
      "balance_loss_clip": 1.03596497,
      "balance_loss_mlp": 1.01322722,
      "epoch": 0.9981362351950941,
      "flos": 18225411350400.0,
      "grad_norm": 2.3723476335796487,
      "language_loss": 0.79085195,
      "learning_rate": 3.41322244516995e-11,
      "loss": 0.81185168,
      "num_input_tokens_seen": 179202265,
      "step": 8301,
      "time_per_iteration": 2.4952735900878906
    },
    {
      "auxiliary_loss_clip": 0.01029372,
      "auxiliary_loss_mlp": 0.01019616,
      "balance_loss_clip": 1.02742457,
      "balance_loss_mlp": 1.01470125,
      "epoch": 0.9982564780857331,
      "flos": 33476889818880.0,
      "grad_norm": 1.7605711859599773,
      "language_loss": 0.63075131,
      "learning_rate": 2.9732970866946925e-11,
      "loss": 0.65124118,
      "num_input_tokens_seen": 179222145,
      "step": 8302,
      "time_per_iteration": 2.7270541191101074
    },
    {
      "auxiliary_loss_clip": 0.01058562,
      "auxiliary_loss_mlp": 0.01019146,
      "balance_loss_clip": 1.03435159,
      "balance_loss_mlp": 1.01352274,
      "epoch": 0.9983767209763723,
      "flos": 15525279446400.0,
      "grad_norm": 2.698558511288488,
      "language_loss": 0.78589785,
      "learning_rate": 2.563711118175327e-11,
      "loss": 0.80667484,
      "num_input_tokens_seen": 179239030,
      "step": 8303,
      "time_per_iteration": 2.5746006965637207
    },
    {
      "auxiliary_loss_clip": 0.01057537,
      "auxiliary_loss_mlp": 0.01018702,
      "balance_loss_clip": 1.03647804,
      "balance_loss_mlp": 1.0137217,
      "epoch": 0.9984969638670114,
      "flos": 19976419889280.0,
      "grad_norm": 1.8669017260117322,
      "language_loss": 0.83721668,
      "learning_rate": 2.184464601717728e-11,
      "loss": 0.85797906,
      "num_input_tokens_seen": 179257345,
      "step": 8304,
      "time_per_iteration": 3.325157403945923
    },
    {
      "auxiliary_loss_clip": 0.01080568,
      "auxiliary_loss_mlp": 0.01020415,
      "balance_loss_clip": 1.03693438,
      "balance_loss_mlp": 1.01500869,
      "epoch": 0.9986172067576504,
      "flos": 20377817493120.0,
      "grad_norm": 2.1586125592869583,
      "language_loss": 0.77117062,
      "learning_rate": 1.8355575948758585e-11,
      "loss": 0.79218042,
      "num_input_tokens_seen": 179275330,
      "step": 8305,
      "time_per_iteration": 2.5049681663513184
    },
    {
      "auxiliary_loss_clip": 0.01071327,
      "auxiliary_loss_mlp": 0.01019957,
      "balance_loss_clip": 1.0348115,
      "balance_loss_mlp": 1.01460743,
      "epoch": 0.9987374496482896,
      "flos": 23729904195840.0,
      "grad_norm": 2.322878448158241,
      "language_loss": 0.73636442,
      "learning_rate": 1.5169901505407424e-11,
      "loss": 0.75727725,
      "num_input_tokens_seen": 179292395,
      "step": 8306,
      "time_per_iteration": 3.2935564517974854
    },
    {
      "auxiliary_loss_clip": 0.0105979,
      "auxiliary_loss_mlp": 0.01017437,
      "balance_loss_clip": 1.03296125,
      "balance_loss_mlp": 1.01240027,
      "epoch": 0.9988576925389286,
      "flos": 25046250923520.0,
      "grad_norm": 2.0235759821039085,
      "language_loss": 0.74076474,
      "learning_rate": 1.228762317073695e-11,
      "loss": 0.76153708,
      "num_input_tokens_seen": 179311225,
      "step": 8307,
      "time_per_iteration": 3.3692870140075684
    },
    {
      "auxiliary_loss_clip": 0.01063149,
      "auxiliary_loss_mlp": 0.01018473,
      "balance_loss_clip": 1.03567779,
      "balance_loss_mlp": 1.01343083,
      "epoch": 0.9989779354295677,
      "flos": 31288337694720.0,
      "grad_norm": 1.9685240899442429,
      "language_loss": 0.7915436,
      "learning_rate": 9.70874138195299e-12,
      "loss": 0.81235981,
      "num_input_tokens_seen": 179333135,
      "step": 8308,
      "time_per_iteration": 2.6384267807006836
    },
    {
      "auxiliary_loss_clip": 0.01092159,
      "auxiliary_loss_mlp": 0.01020405,
      "balance_loss_clip": 1.03661036,
      "balance_loss_mlp": 1.01521015,
      "epoch": 0.9990981783202069,
      "flos": 19575439384320.0,
      "grad_norm": 1.5958409090454504,
      "language_loss": 0.74461091,
      "learning_rate": 7.433256530076093e-12,
      "loss": 0.76573658,
      "num_input_tokens_seen": 179353090,
      "step": 8309,
      "time_per_iteration": 2.517416000366211
    },
    {
      "auxiliary_loss_clip": 0.0104667,
      "auxiliary_loss_mlp": 0.010185,
      "balance_loss_clip": 1.03260779,
      "balance_loss_mlp": 1.01371646,
      "epoch": 0.9992184212108459,
      "flos": 17201455511040.0,
      "grad_norm": 2.5069592514174883,
      "language_loss": 0.75812852,
      "learning_rate": 5.46116896038562e-12,
      "loss": 0.77878028,
      "num_input_tokens_seen": 179367500,
      "step": 8310,
      "time_per_iteration": 2.591954231262207
    },
    {
      "auxiliary_loss_clip": 0.01064194,
      "auxiliary_loss_mlp": 0.01020361,
      "balance_loss_clip": 1.03689289,
      "balance_loss_mlp": 1.01544619,
      "epoch": 0.999338664101485,
      "flos": 46501281342720.0,
      "grad_norm": 2.3067205882386035,
      "language_loss": 0.6211468,
      "learning_rate": 3.792478972197699e-12,
      "loss": 0.64199239,
      "num_input_tokens_seen": 179388085,
      "step": 8311,
      "time_per_iteration": 2.7953083515167236
    },
    {
      "auxiliary_loss_clip": 0.01090561,
      "auxiliary_loss_mlp": 0.01013282,
      "balance_loss_clip": 1.03519833,
      "balance_loss_mlp": 1.00821841,
      "epoch": 0.9994589069921241,
      "flos": 15160027824000.0,
      "grad_norm": 3.055460538378582,
      "language_loss": 0.70452327,
      "learning_rate": 2.4271868181990895e-12,
      "loss": 0.72556174,
      "num_input_tokens_seen": 179405250,
      "step": 8312,
      "time_per_iteration": 2.5586471557617188
    },
    {
      "auxiliary_loss_clip": 0.01079033,
      "auxiliary_loss_mlp": 0.01019646,
      "balance_loss_clip": 1.03499985,
      "balance_loss_mlp": 1.01426983,
      "epoch": 0.9995791498827632,
      "flos": 12533097916800.0,
      "grad_norm": 3.1541186813919335,
      "language_loss": 0.81407219,
      "learning_rate": 1.3652927060014973e-12,
      "loss": 0.83505905,
      "num_input_tokens_seen": 179420845,
      "step": 8313,
      "time_per_iteration": 2.491570472717285
    },
    {
      "auxiliary_loss_clip": 0.01050933,
      "auxiliary_loss_mlp": 0.01022262,
      "balance_loss_clip": 1.03428376,
      "balance_loss_mlp": 1.01665664,
      "epoch": 0.9996993927734023,
      "flos": 19247205859200.0,
      "grad_norm": 2.189349998368483,
      "language_loss": 0.63788795,
      "learning_rate": 6.067967965872612e-13,
      "loss": 0.65861988,
      "num_input_tokens_seen": 179440455,
      "step": 8314,
      "time_per_iteration": 2.5718367099761963
    },
    {
      "auxiliary_loss_clip": 0.01049254,
      "auxiliary_loss_mlp": 0.01021149,
      "balance_loss_clip": 1.03264976,
      "balance_loss_mlp": 1.01604676,
      "epoch": 0.9998196356640414,
      "flos": 62957142213120.0,
      "grad_norm": 1.6419597442032685,
      "language_loss": 0.77043784,
      "learning_rate": 1.5169920497548615e-13,
      "loss": 0.79114193,
      "num_input_tokens_seen": 179465075,
      "step": 8315,
      "time_per_iteration": 2.9593772888183594
    },
    {
      "auxiliary_loss_clip": 0.01056384,
      "auxiliary_loss_mlp": 0.01012316,
      "balance_loss_clip": 1.02514899,
      "balance_loss_mlp": 1.00884104,
      "epoch": 0.9999398785546805,
      "flos": 50928627047040.0,
      "grad_norm": 1.1203274740274125,
      "language_loss": 0.55032945,
      "learning_rate": 0.0,
      "loss": 0.57101643,
      "num_input_tokens_seen": 179513955,
      "step": 8316,
      "time_per_iteration": 3.757774829864502
    },
    {
      "epoch": 0.9999398785546805,
      "num_input_tokens_seen": 179513955,
      "step": 8316,
      "total_flos": 6.997468752631562e+17,
      "train_loss": 0.7888503766521461,
      "train_runtime": 24333.6087,
      "train_samples_per_second": 13.67,
      "train_steps_per_second": 0.342
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 8316,
  "num_input_tokens_seen": 179513955,
  "num_train_epochs": 1,
  "save_steps": 1664,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 6.997468752631562e+17,
  "train_batch_size": 5,
  "trial_name": null,
  "trial_params": null
}