{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.9999398785546805,
  "eval_steps": 500,
  "global_step": 8316,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "auxiliary_loss_clip": 0.06327653,
      "auxiliary_loss_mlp": 0.02584628,
      "balance_loss_clip": 2.34898901,
      "balance_loss_mlp": 2.01356792,
      "epoch": 0.00012024289063909097,
      "flos": 24932483919360.0,
      "grad_norm": 40.35633804616242,
      "language_loss": 2.58675051,
      "learning_rate": 0.0,
      "loss": 1.91809487,
      "num_input_tokens_seen": 20375,
      "step": 1,
      "time_per_iteration": 15.163987636566162
    },
    {
      "auxiliary_loss_clip": 0.04225315,
      "auxiliary_loss_mlp": 0.01751307,
      "balance_loss_clip": 1.56447935,
      "balance_loss_mlp": 1.36373353,
      "epoch": 0.00024048578127818193,
      "flos": 30664624377600.0,
      "grad_norm": 54.808264343845764,
      "language_loss": 1.889588,
      "learning_rate": 5.021476677069823e-07,
      "loss": 1.94935417,
      "num_input_tokens_seen": 39035,
      "step": 2,
      "time_per_iteration": 2.739678144454956
    },
    {
      "auxiliary_loss_clip": 0.04223638,
      "auxiliary_loss_mlp": 0.01721913,
      "balance_loss_clip": 1.56572056,
      "balance_loss_mlp": 1.32938111,
      "epoch": 0.0003607286719172729,
      "flos": 19026227969280.0,
      "grad_norm": 40.14068278040824,
      "language_loss": 1.61550045,
      "learning_rate": 7.958852231401551e-07,
      "loss": 1.67495596,
      "num_input_tokens_seen": 57600,
      "step": 3,
      "time_per_iteration": 2.5148584842681885
    },
    {
      "auxiliary_loss_clip": 0.04224495,
      "auxiliary_loss_mlp": 0.01732409,
      "balance_loss_clip": 1.57019353,
      "balance_loss_mlp": 1.35265613,
      "epoch": 0.00048097156255636386,
      "flos": 19316314206720.0,
      "grad_norm": 37.381193387239705,
      "language_loss": 1.64746928,
      "learning_rate": 1.0042953354139647e-06,
      "loss": 1.70703816,
      "num_input_tokens_seen": 76465,
      "step": 4,
      "time_per_iteration": 2.5706498622894287
    },
    {
      "auxiliary_loss_clip": 0.04228983,
      "auxiliary_loss_mlp": 0.01759097,
      "balance_loss_clip": 1.57384467,
      "balance_loss_mlp": 1.37838972,
      "epoch": 0.0006012144531954548,
      "flos": 13991264893440.0,
      "grad_norm": 55.42858987798191,
      "language_loss": 1.93853271,
      "learning_rate": 1.1659507774310057e-06,
      "loss": 1.99841332,
      "num_input_tokens_seen": 94350,
      "step": 5,
      "time_per_iteration": 2.7439916133880615
    },
    {
      "auxiliary_loss_clip": 0.04205527,
      "auxiliary_loss_mlp": 0.0179404,
      "balance_loss_clip": 1.56710565,
      "balance_loss_mlp": 1.39902806,
      "epoch": 0.0007214573438345458,
      "flos": 23148988225920.0,
      "grad_norm": 44.75501510401622,
      "language_loss": 1.61103368,
      "learning_rate": 1.2980328908471373e-06,
      "loss": 1.67102933,
      "num_input_tokens_seen": 114595,
      "step": 6,
      "time_per_iteration": 2.8700623512268066
    },
    {
      "auxiliary_loss_clip": 0.04568121,
      "auxiliary_loss_mlp": 0.01517351,
      "balance_loss_clip": 1.7597692,
      "balance_loss_mlp": 1.17708039,
      "epoch": 0.0008417002344736367,
      "flos": 67663246170240.0,
      "grad_norm": 4.617625773153047,
      "language_loss": 0.81489944,
      "learning_rate": 1.4097067265369432e-06,
      "loss": 0.87575412,
      "num_input_tokens_seen": 179590,
      "step": 7,
      "time_per_iteration": 3.1875720024108887
    },
    {
      "auxiliary_loss_clip": 0.04190993,
      "auxiliary_loss_mlp": 0.01757865,
      "balance_loss_clip": 1.56299126,
      "balance_loss_mlp": 1.37925649,
      "epoch": 0.0009619431251127277,
      "flos": 21281381504640.0,
      "grad_norm": 44.900651068035145,
      "language_loss": 1.58699012,
      "learning_rate": 1.506443003120947e-06,
      "loss": 1.64647865,
      "num_input_tokens_seen": 195090,
      "step": 8,
      "time_per_iteration": 2.789236307144165
    },
    {
      "auxiliary_loss_clip": 0.04163356,
      "auxiliary_loss_mlp": 0.01754884,
      "balance_loss_clip": 1.56596088,
      "balance_loss_mlp": 1.36807346,
      "epoch": 0.0010821860157518186,
      "flos": 23331342597120.0,
      "grad_norm": 17.751606749299842,
      "language_loss": 1.47968805,
      "learning_rate": 1.5917704462803102e-06,
      "loss": 1.53887045,
      "num_input_tokens_seen": 211635,
      "step": 9,
      "time_per_iteration": 2.837721824645996
    },
    {
      "auxiliary_loss_clip": 0.04212516,
      "auxiliary_loss_mlp": 0.01780978,
      "balance_loss_clip": 1.57443857,
      "balance_loss_mlp": 1.38196027,
      "epoch": 0.0012024289063909096,
      "flos": 17010166337280.0,
      "grad_norm": 13.325832325705905,
      "language_loss": 1.5309087,
      "learning_rate": 1.6680984451379884e-06,
      "loss": 1.59084368,
      "num_input_tokens_seen": 224705,
      "step": 10,
      "time_per_iteration": 2.811713933944702
    },
    {
      "auxiliary_loss_clip": 0.04174034,
      "auxiliary_loss_mlp": 0.01756178,
      "balance_loss_clip": 1.56333995,
      "balance_loss_mlp": 1.37165666,
      "epoch": 0.0013226717970300007,
      "flos": 21288133261440.0,
      "grad_norm": 13.611787548735434,
      "language_loss": 1.32702899,
      "learning_rate": 1.7371455188905097e-06,
      "loss": 1.38633108,
      "num_input_tokens_seen": 244635,
      "step": 11,
      "time_per_iteration": 2.799497604370117
    },
    {
      "auxiliary_loss_clip": 0.04220144,
      "auxiliary_loss_mlp": 0.0171771,
      "balance_loss_clip": 1.56738997,
      "balance_loss_mlp": 1.32460523,
      "epoch": 0.0014429146876690916,
      "flos": 27237884935680.0,
      "grad_norm": 10.676466564029605,
      "language_loss": 1.25317359,
      "learning_rate": 1.8001805585541196e-06,
      "loss": 1.31255221,
      "num_input_tokens_seen": 265765,
      "step": 12,
      "time_per_iteration": 2.8205857276916504
    },
    {
      "auxiliary_loss_clip": 0.04121652,
      "auxiliary_loss_mlp": 0.0174469,
      "balance_loss_clip": 1.56234515,
      "balance_loss_mlp": 1.38038611,
      "epoch": 0.0015631575783081825,
      "flos": 19062174504960.0,
      "grad_norm": 6.619194936567159,
      "language_loss": 1.29001498,
      "learning_rate": 1.8581671739548328e-06,
      "loss": 1.34867835,
      "num_input_tokens_seen": 283500,
      "step": 13,
      "time_per_iteration": 2.8951685428619385
    },
    {
      "auxiliary_loss_clip": 0.04152308,
      "auxiliary_loss_mlp": 0.0171935,
      "balance_loss_clip": 1.56010163,
      "balance_loss_mlp": 1.33997822,
      "epoch": 0.0016834004689472734,
      "flos": 48139473985920.0,
      "grad_norm": 7.003253854739097,
      "language_loss": 1.13514423,
      "learning_rate": 1.9118543942439254e-06,
      "loss": 1.19386077,
      "num_input_tokens_seen": 305685,
      "step": 14,
      "time_per_iteration": 4.646832227706909
    },
    {
      "auxiliary_loss_clip": 0.04102373,
      "auxiliary_loss_mlp": 0.01716498,
      "balance_loss_clip": 1.55755842,
      "balance_loss_mlp": 1.33331156,
      "epoch": 0.0018036433595863645,
      "flos": 34970026314240.0,
      "grad_norm": 6.3412835915412975,
      "language_loss": 1.12787199,
      "learning_rate": 1.961836000571161e-06,
      "loss": 1.18606079,
      "num_input_tokens_seen": 327340,
      "step": 15,
      "time_per_iteration": 3.876256227493286
    },
    {
      "auxiliary_loss_clip": 0.04362485,
      "auxiliary_loss_mlp": 0.01450465,
      "balance_loss_clip": 1.73988044,
      "balance_loss_mlp": 1.12087488,
      "epoch": 0.0019238862502254555,
      "flos": 59768284440960.0,
      "grad_norm": 3.8153529224808302,
      "language_loss": 0.64700228,
      "learning_rate": 2.0085906708279293e-06,
      "loss": 0.70513177,
      "num_input_tokens_seen": 382710,
      "step": 16,
      "time_per_iteration": 3.2896292209625244
    },
    {
      "auxiliary_loss_clip": 0.04078672,
      "auxiliary_loss_mlp": 0.01713394,
      "balance_loss_clip": 1.55915833,
      "balance_loss_mlp": 1.33001685,
      "epoch": 0.0020441291408645466,
      "flos": 20814543417600.0,
      "grad_norm": 4.4383887515823615,
      "language_loss": 1.16156483,
      "learning_rate": 2.0525099325728135e-06,
      "loss": 1.2194854,
      "num_input_tokens_seen": 400890,
      "step": 17,
      "time_per_iteration": 2.9684324264526367
    },
    {
      "auxiliary_loss_clip": 0.04278312,
      "auxiliary_loss_mlp": 0.01428301,
      "balance_loss_clip": 1.73128104,
      "balance_loss_mlp": 1.10328913,
      "epoch": 0.0021643720315036373,
      "flos": 63857001582720.0,
      "grad_norm": 3.542207026223752,
      "language_loss": 0.72127938,
      "learning_rate": 2.0939181139872922e-06,
      "loss": 0.77834558,
      "num_input_tokens_seen": 462605,
      "step": 18,
      "time_per_iteration": 3.271247148513794
    },
    {
      "auxiliary_loss_clip": 0.04063394,
      "auxiliary_loss_mlp": 0.01696547,
      "balance_loss_clip": 1.5584569,
      "balance_loss_mlp": 1.33872831,
      "epoch": 0.0022846149221427284,
      "flos": 31284981192960.0,
      "grad_norm": 5.097698649789021,
      "language_loss": 1.01701474,
      "learning_rate": 2.1330868934640175e-06,
      "loss": 1.07461405,
      "num_input_tokens_seen": 483280,
      "step": 19,
      "time_per_iteration": 2.9901154041290283
    },
    {
      "auxiliary_loss_clip": 0.04170154,
      "auxiliary_loss_mlp": 0.0140318,
      "balance_loss_clip": 1.71792519,
      "balance_loss_mlp": 1.08274555,
      "epoch": 0.002404857812781819,
      "flos": 51083648161920.0,
      "grad_norm": 3.5984623071837825,
      "language_loss": 0.76403344,
      "learning_rate": 2.170246112844971e-06,
      "loss": 0.81976676,
      "num_input_tokens_seen": 537620,
      "step": 20,
      "time_per_iteration": 3.023480176925659
    },
    {
      "auxiliary_loss_clip": 0.03999292,
      "auxiliary_loss_mlp": 0.01655352,
      "balance_loss_clip": 1.54835224,
      "balance_loss_mlp": 1.28914106,
      "epoch": 0.0025251007034209102,
      "flos": 15815347309440.0,
      "grad_norm": 4.361801454817695,
      "language_loss": 1.01681852,
      "learning_rate": 2.2055919496770983e-06,
      "loss": 1.07336497,
      "num_input_tokens_seen": 555760,
      "step": 21,
      "time_per_iteration": 2.771066188812256
    },
    {
      "auxiliary_loss_clip": 0.03940246,
      "auxiliary_loss_mlp": 0.01673184,
      "balance_loss_clip": 1.54403079,
      "balance_loss_mlp": 1.31307673,
      "epoch": 0.0026453435940600014,
      "flos": 37851857458560.0,
      "grad_norm": 3.7586805926135325,
      "language_loss": 0.89391756,
      "learning_rate": 2.2392931865974923e-06,
      "loss": 0.9500519,
      "num_input_tokens_seen": 578450,
      "step": 22,
      "time_per_iteration": 2.9267427921295166
    },
    {
      "auxiliary_loss_clip": 0.03890891,
      "auxiliary_loss_mlp": 0.01636431,
      "balance_loss_clip": 1.53974104,
      "balance_loss_mlp": 1.27937567,
      "epoch": 0.002765586484699092,
      "flos": 21141976821120.0,
      "grad_norm": 4.21824228605256,
      "language_loss": 1.0169822,
      "learning_rate": 2.271496085962064e-06,
      "loss": 1.07225549,
      "num_input_tokens_seen": 596145,
      "step": 23,
      "time_per_iteration": 2.8064727783203125
    },
    {
      "auxiliary_loss_clip": 0.03849034,
      "auxiliary_loss_mlp": 0.01602615,
      "balance_loss_clip": 1.53226936,
      "balance_loss_mlp": 1.25967312,
      "epoch": 0.002885829375338183,
      "flos": 20667381396480.0,
      "grad_norm": 2.897171536432887,
      "language_loss": 1.02660751,
      "learning_rate": 2.3023282262611022e-06,
      "loss": 1.08112395,
      "num_input_tokens_seen": 614920,
      "step": 24,
      "time_per_iteration": 2.706865072250366
    },
    {
      "auxiliary_loss_clip": 0.03804891,
      "auxiliary_loss_mlp": 0.01564011,
      "balance_loss_clip": 1.52765274,
      "balance_loss_mlp": 1.23728228,
      "epoch": 0.003006072265977274,
      "flos": 34823869873920.0,
      "grad_norm": 3.655800857669582,
      "language_loss": 0.92455775,
      "learning_rate": 2.3319015548620114e-06,
      "loss": 0.97824681,
      "num_input_tokens_seen": 636060,
      "step": 25,
      "time_per_iteration": 2.790733575820923
    },
    {
      "auxiliary_loss_clip": 0.0380693,
      "auxiliary_loss_mlp": 0.01617617,
      "balance_loss_clip": 1.52968645,
      "balance_loss_mlp": 1.27238703,
      "epoch": 0.003126315156616365,
      "flos": 24422021118720.0,
      "grad_norm": 2.2233009666355548,
      "language_loss": 0.92985904,
      "learning_rate": 2.3603148416618152e-06,
      "loss": 0.98410451,
      "num_input_tokens_seen": 655575,
      "step": 26,
      "time_per_iteration": 2.7958760261535645
    },
    {
      "auxiliary_loss_clip": 0.03732428,
      "auxiliary_loss_mlp": 0.01549884,
      "balance_loss_clip": 1.52353096,
      "balance_loss_mlp": 1.23116636,
      "epoch": 0.003246558047255456,
      "flos": 23622326674560.0,
      "grad_norm": 2.4191890861239282,
      "language_loss": 1.00891972,
      "learning_rate": 2.3876556694204647e-06,
      "loss": 1.06174278,
      "num_input_tokens_seen": 675730,
      "step": 27,
      "time_per_iteration": 2.7897467613220215
    },
    {
      "auxiliary_loss_clip": 0.03707634,
      "auxiliary_loss_mlp": 0.01604752,
      "balance_loss_clip": 1.52376628,
      "balance_loss_mlp": 1.25933146,
      "epoch": 0.003366800937894547,
      "flos": 17820275725440.0,
      "grad_norm": 2.441476543739174,
      "language_loss": 0.90526217,
      "learning_rate": 2.414002061950908e-06,
      "loss": 0.958386,
      "num_input_tokens_seen": 694605,
      "step": 28,
      "time_per_iteration": 2.751112461090088
    },
    {
      "auxiliary_loss_clip": 0.03652693,
      "auxiliary_loss_mlp": 0.01544022,
      "balance_loss_clip": 1.51335287,
      "balance_loss_mlp": 1.2193917,
      "epoch": 0.003487043828533638,
      "flos": 24426115269120.0,
      "grad_norm": 2.265578662195386,
      "language_loss": 0.99840617,
      "learning_rate": 2.4394238264681557e-06,
      "loss": 1.05037332,
      "num_input_tokens_seen": 714340,
      "step": 29,
      "time_per_iteration": 2.8123056888580322
    },
    {
      "auxiliary_loss_clip": 0.03668549,
      "auxiliary_loss_mlp": 0.01529929,
      "balance_loss_clip": 1.52200484,
      "balance_loss_mlp": 1.20243716,
      "epoch": 0.003607286719172729,
      "flos": 26140311002880.0,
      "grad_norm": 3.0342684169700895,
      "language_loss": 0.99506497,
      "learning_rate": 2.4639836682781433e-06,
      "loss": 1.04704976,
      "num_input_tokens_seen": 734470,
      "step": 30,
      "time_per_iteration": 2.794530153274536
    },
    {
      "auxiliary_loss_clip": 0.03604566,
      "auxiliary_loss_mlp": 0.01506584,
      "balance_loss_clip": 1.51636744,
      "balance_loss_mlp": 1.1710813,
      "epoch": 0.00372752960981182,
      "flos": 20593082113920.0,
      "grad_norm": 2.3648913939571137,
      "language_loss": 1.00236917,
      "learning_rate": 2.487738122623307e-06,
      "loss": 1.05348063,
      "num_input_tokens_seen": 753380,
      "step": 31,
      "time_per_iteration": 2.752211332321167
    },
    {
      "auxiliary_loss_clip": 0.03515777,
      "auxiliary_loss_mlp": 0.01478714,
      "balance_loss_clip": 1.48973131,
      "balance_loss_mlp": 1.1685791,
      "epoch": 0.003847772500450911,
      "flos": 22674608282880.0,
      "grad_norm": 2.788953926087422,
      "language_loss": 0.98856694,
      "learning_rate": 2.510738338534912e-06,
      "loss": 1.03851175,
      "num_input_tokens_seen": 772105,
      "step": 32,
      "time_per_iteration": 2.783181667327881
    },
    {
      "auxiliary_loss_clip": 0.03401892,
      "auxiliary_loss_mlp": 0.01486365,
      "balance_loss_clip": 1.47919965,
      "balance_loss_mlp": 1.17718363,
      "epoch": 0.003968015391090002,
      "flos": 17967796882560.0,
      "grad_norm": 3.2261483588630626,
      "language_loss": 1.0242846,
      "learning_rate": 2.5330307420306648e-06,
      "loss": 1.07316709,
      "num_input_tokens_seen": 788955,
      "step": 33,
      "time_per_iteration": 2.772462844848633
    },
    {
      "auxiliary_loss_clip": 0.03331032,
      "auxiliary_loss_mlp": 0.01469633,
      "balance_loss_clip": 1.46927738,
      "balance_loss_mlp": 1.17513847,
      "epoch": 0.004088258281729093,
      "flos": 27304103658240.0,
      "grad_norm": 2.491897715547326,
      "language_loss": 0.87966931,
      "learning_rate": 2.554657600279796e-06,
      "loss": 0.9276759,
      "num_input_tokens_seen": 810230,
      "step": 34,
      "time_per_iteration": 2.8779690265655518
    },
    {
      "auxiliary_loss_clip": 0.03262622,
      "auxiliary_loss_mlp": 0.01444966,
      "balance_loss_clip": 1.4643364,
      "balance_loss_mlp": 1.13158822,
      "epoch": 0.004208501172368184,
      "flos": 23258587599360.0,
      "grad_norm": 2.0634327704927413,
      "language_loss": 1.03387427,
      "learning_rate": 2.5756575039679493e-06,
      "loss": 1.08095014,
      "num_input_tokens_seen": 829780,
      "step": 35,
      "time_per_iteration": 2.807323932647705
    },
    {
      "auxiliary_loss_clip": 0.03200136,
      "auxiliary_loss_mlp": 0.01459392,
      "balance_loss_clip": 1.45218325,
      "balance_loss_mlp": 1.16642344,
      "epoch": 0.0043287440630072746,
      "flos": 17312104062720.0,
      "grad_norm": 2.028536911482517,
      "language_loss": 0.95126981,
      "learning_rate": 2.5960657816942747e-06,
      "loss": 0.99786508,
      "num_input_tokens_seen": 848695,
      "step": 36,
      "time_per_iteration": 2.8515546321868896
    },
    {
      "auxiliary_loss_clip": 0.02855565,
      "auxiliary_loss_mlp": 0.01360231,
      "balance_loss_clip": 1.51590014,
      "balance_loss_mlp": 1.11151278,
      "epoch": 0.004448986953646365,
      "flos": 53092491160320.0,
      "grad_norm": 1.3943342314970653,
      "language_loss": 0.6095835,
      "learning_rate": 2.6159148575788668e-06,
      "loss": 0.65174139,
      "num_input_tokens_seen": 906730,
      "step": 37,
      "time_per_iteration": 3.2000539302825928
    },
    {
      "auxiliary_loss_clip": 0.03099382,
      "auxiliary_loss_mlp": 0.01424118,
      "balance_loss_clip": 1.45063269,
      "balance_loss_mlp": 1.12866998,
      "epoch": 0.004569229844285457,
      "flos": 13444165866240.0,
      "grad_norm": 2.816065826662647,
      "language_loss": 0.98857743,
      "learning_rate": 2.635234561171e-06,
      "loss": 1.03381228,
      "num_input_tokens_seen": 925125,
      "step": 38,
      "time_per_iteration": 2.7694308757781982
    },
    {
      "auxiliary_loss_clip": 0.03039911,
      "auxiliary_loss_mlp": 0.0137249,
      "balance_loss_clip": 1.43923962,
      "balance_loss_mlp": 1.10069251,
      "epoch": 0.0046894727349245475,
      "flos": 16209609966720.0,
      "grad_norm": 4.825492144124989,
      "language_loss": 0.94146228,
      "learning_rate": 2.6540523970949877e-06,
      "loss": 0.98558629,
      "num_input_tokens_seen": 939970,
      "step": 39,
      "time_per_iteration": 2.7289748191833496
    },
    {
      "auxiliary_loss_clip": 0.02984385,
      "auxiliary_loss_mlp": 0.01387908,
      "balance_loss_clip": 1.42835379,
      "balance_loss_mlp": 1.11592031,
      "epoch": 0.004809715625563638,
      "flos": 23914244505600.0,
      "grad_norm": 2.577638768733752,
      "language_loss": 0.92454278,
      "learning_rate": 2.6723937805519533e-06,
      "loss": 0.96826571,
      "num_input_tokens_seen": 957470,
      "step": 40,
      "time_per_iteration": 4.407803535461426
    },
    {
      "auxiliary_loss_clip": 0.02959689,
      "auxiliary_loss_mlp": 0.01331776,
      "balance_loss_clip": 1.42515874,
      "balance_loss_mlp": 1.08496511,
      "epoch": 0.00492995851620273,
      "flos": 20773030273920.0,
      "grad_norm": 2.0932781064060424,
      "language_loss": 0.93160838,
      "learning_rate": 2.690282243737839e-06,
      "loss": 0.97452307,
      "num_input_tokens_seen": 976405,
      "step": 41,
      "time_per_iteration": 4.849478006362915
    },
    {
      "auxiliary_loss_clip": 0.02901985,
      "auxiliary_loss_mlp": 0.0135372,
      "balance_loss_clip": 1.41538572,
      "balance_loss_mlp": 1.09584641,
      "epoch": 0.0050502014068418205,
      "flos": 20338655103360.0,
      "grad_norm": 2.9868669248688553,
      "language_loss": 0.99378109,
      "learning_rate": 2.7077396173840807e-06,
      "loss": 1.03633809,
      "num_input_tokens_seen": 994690,
      "step": 42,
      "time_per_iteration": 2.8380613327026367
    },
    {
      "auxiliary_loss_clip": 0.0287969,
      "auxiliary_loss_mlp": 0.01339708,
      "balance_loss_clip": 1.41340375,
      "balance_loss_mlp": 1.08278799,
      "epoch": 0.005170444297480911,
      "flos": 25994872834560.0,
      "grad_norm": 2.2930267192467584,
      "language_loss": 0.92742646,
      "learning_rate": 2.7247861909342594e-06,
      "loss": 0.96962047,
      "num_input_tokens_seen": 1015615,
      "step": 43,
      "time_per_iteration": 2.848306179046631
    },
    {
      "auxiliary_loss_clip": 0.02793866,
      "auxiliary_loss_mlp": 0.01332687,
      "balance_loss_clip": 1.39583778,
      "balance_loss_mlp": 1.08663893,
      "epoch": 0.005290687188120003,
      "flos": 20954055841920.0,
      "grad_norm": 2.248404035500755,
      "language_loss": 0.83116043,
      "learning_rate": 2.7414408543044743e-06,
      "loss": 0.87242603,
      "num_input_tokens_seen": 1031255,
      "step": 44,
      "time_per_iteration": 2.836050033569336
    },
    {
      "auxiliary_loss_clip": 0.02776615,
      "auxiliary_loss_mlp": 0.01322807,
      "balance_loss_clip": 1.39159393,
      "balance_loss_mlp": 1.07103717,
      "epoch": 0.005410930078759093,
      "flos": 15851401585920.0,
      "grad_norm": 7.262800786390889,
      "language_loss": 0.79238707,
      "learning_rate": 2.7577212237113157e-06,
      "loss": 0.8333813,
      "num_input_tokens_seen": 1048295,
      "step": 45,
      "time_per_iteration": 2.859009265899658
    },
    {
      "auxiliary_loss_clip": 0.02738631,
      "auxiliary_loss_mlp": 0.01325206,
      "balance_loss_clip": 1.38905072,
      "balance_loss_mlp": 1.08592868,
      "epoch": 0.005531172969398184,
      "flos": 21104988791040.0,
      "grad_norm": 1.930377471968894,
      "language_loss": 1.04222369,
      "learning_rate": 2.7736437536690466e-06,
      "loss": 1.08286214,
      "num_input_tokens_seen": 1067925,
      "step": 46,
      "time_per_iteration": 2.838002920150757
    },
    {
      "auxiliary_loss_clip": 0.02685534,
      "auxiliary_loss_mlp": 0.01290453,
      "balance_loss_clip": 1.38098717,
      "balance_loss_mlp": 1.06080818,
      "epoch": 0.005651415860037276,
      "flos": 20844887431680.0,
      "grad_norm": 2.546154270366375,
      "language_loss": 1.07985413,
      "learning_rate": 2.789223836941131e-06,
      "loss": 1.11961401,
      "num_input_tokens_seen": 1088060,
      "step": 47,
      "time_per_iteration": 2.8233842849731445
    },
    {
      "auxiliary_loss_clip": 0.02649911,
      "auxiliary_loss_mlp": 0.01331832,
      "balance_loss_clip": 1.37371778,
      "balance_loss_mlp": 1.08769143,
      "epoch": 0.005771658750676366,
      "flos": 13260195383040.0,
      "grad_norm": 2.3299279541668754,
      "language_loss": 1.0866642,
      "learning_rate": 2.8044758939680847e-06,
      "loss": 1.12648177,
      "num_input_tokens_seen": 1104130,
      "step": 48,
      "time_per_iteration": 2.7916676998138428
    },
    {
      "auxiliary_loss_clip": 0.02612255,
      "auxiliary_loss_mlp": 0.01300015,
      "balance_loss_clip": 1.36717522,
      "balance_loss_mlp": 1.0634079,
      "epoch": 0.005891901641315457,
      "flos": 24425396997120.0,
      "grad_norm": 3.185881524093979,
      "language_loss": 1.01881504,
      "learning_rate": 2.8194134530738863e-06,
      "loss": 1.05793774,
      "num_input_tokens_seen": 1122900,
      "step": 49,
      "time_per_iteration": 2.855041265487671
    },
    {
      "auxiliary_loss_clip": 0.02570563,
      "auxiliary_loss_mlp": 0.01289664,
      "balance_loss_clip": 1.36290359,
      "balance_loss_mlp": 1.07928383,
      "epoch": 0.006012144531954548,
      "flos": 23076197314560.0,
      "grad_norm": 3.9625276541866525,
      "language_loss": 0.90424162,
      "learning_rate": 2.834049222568994e-06,
      "loss": 0.94284385,
      "num_input_tokens_seen": 1140250,
      "step": 50,
      "time_per_iteration": 2.8327016830444336
    },
    {
      "auxiliary_loss_clip": 0.02562035,
      "auxiliary_loss_mlp": 0.0129415,
      "balance_loss_clip": 1.3579706,
      "balance_loss_mlp": 1.07413769,
      "epoch": 0.006132387422593639,
      "flos": 22528775064960.0,
      "grad_norm": 2.07198838580577,
      "language_loss": 0.92583108,
      "learning_rate": 2.848395155712969e-06,
      "loss": 0.96439296,
      "num_input_tokens_seen": 1160470,
      "step": 51,
      "time_per_iteration": 2.8936338424682617
    },
    {
      "auxiliary_loss_clip": 0.02529815,
      "auxiliary_loss_mlp": 0.01267783,
      "balance_loss_clip": 1.35791898,
      "balance_loss_mlp": 1.05835629,
      "epoch": 0.00625263031323273,
      "flos": 27628340751360.0,
      "grad_norm": 2.204903698863324,
      "language_loss": 0.97863591,
      "learning_rate": 2.8624625093687977e-06,
      "loss": 1.01661181,
      "num_input_tokens_seen": 1177605,
      "step": 52,
      "time_per_iteration": 2.8332407474517822
    },
    {
      "auxiliary_loss_clip": 0.02512598,
      "auxiliary_loss_mlp": 0.01279482,
      "balance_loss_clip": 1.34829092,
      "balance_loss_mlp": 1.06862473,
      "epoch": 0.006372873203871821,
      "flos": 23110671392640.0,
      "grad_norm": 4.175367073826592,
      "language_loss": 0.88808686,
      "learning_rate": 2.876261897070029e-06,
      "loss": 0.92600763,
      "num_input_tokens_seen": 1197735,
      "step": 53,
      "time_per_iteration": 2.8771917819976807
    },
    {
      "auxiliary_loss_clip": 0.02495472,
      "auxiliary_loss_mlp": 0.01272184,
      "balance_loss_clip": 1.34960175,
      "balance_loss_mlp": 1.06294823,
      "epoch": 0.006493116094510912,
      "flos": 22856028900480.0,
      "grad_norm": 2.366431485523146,
      "language_loss": 0.92592454,
      "learning_rate": 2.889803337127447e-06,
      "loss": 0.96360111,
      "num_input_tokens_seen": 1216335,
      "step": 54,
      "time_per_iteration": 2.855257272720337
    },
    {
      "auxiliary_loss_clip": 0.02441417,
      "auxiliary_loss_mlp": 0.01283109,
      "balance_loss_clip": 1.33743107,
      "balance_loss_mlp": 1.07043946,
      "epoch": 0.006613358985150003,
      "flos": 23071708114560.0,
      "grad_norm": 3.016939285495152,
      "language_loss": 0.84419304,
      "learning_rate": 2.903096296321516e-06,
      "loss": 0.88143831,
      "num_input_tokens_seen": 1234480,
      "step": 55,
      "time_per_iteration": 2.8801755905151367
    },
    {
      "auxiliary_loss_clip": 0.02429721,
      "auxiliary_loss_mlp": 0.01277515,
      "balance_loss_clip": 1.33563745,
      "balance_loss_mlp": 1.06904221,
      "epoch": 0.006733601875789094,
      "flos": 26537662229760.0,
      "grad_norm": 2.134973910309071,
      "language_loss": 0.91623122,
      "learning_rate": 2.9161497296578907e-06,
      "loss": 0.95330358,
      "num_input_tokens_seen": 1253870,
      "step": 56,
      "time_per_iteration": 2.9327664375305176
    },
    {
      "auxiliary_loss_clip": 0.02401027,
      "auxiliary_loss_mlp": 0.01296231,
      "balance_loss_clip": 1.32928419,
      "balance_loss_mlp": 1.0884254,
      "epoch": 0.006853844766428185,
      "flos": 15523178083200.0,
      "grad_norm": 2.3280837562919956,
      "language_loss": 0.85878122,
      "learning_rate": 2.928972116604173e-06,
      "loss": 0.8957538,
      "num_input_tokens_seen": 1270145,
      "step": 57,
      "time_per_iteration": 2.872325897216797
    },
    {
      "auxiliary_loss_clip": 0.02365227,
      "auxiliary_loss_mlp": 0.01245072,
      "balance_loss_clip": 1.32669163,
      "balance_loss_mlp": 1.06034517,
      "epoch": 0.006974087657067276,
      "flos": 24243760897920.0,
      "grad_norm": 4.385285600587632,
      "language_loss": 1.02018857,
      "learning_rate": 2.9415714941751377e-06,
      "loss": 1.05629158,
      "num_input_tokens_seen": 1291365,
      "step": 58,
      "time_per_iteration": 2.941643238067627
    },
    {
      "auxiliary_loss_clip": 0.023742,
      "auxiliary_loss_mlp": 0.01257043,
      "balance_loss_clip": 1.32305515,
      "balance_loss_mlp": 1.06878734,
      "epoch": 0.007094330547706367,
      "flos": 25772513690880.0,
      "grad_norm": 2.138467512225382,
      "language_loss": 0.93624276,
      "learning_rate": 2.9539554871897396e-06,
      "loss": 0.97255522,
      "num_input_tokens_seen": 1311535,
      "step": 59,
      "time_per_iteration": 2.864184856414795
    },
    {
      "auxiliary_loss_clip": 0.02320443,
      "auxiliary_loss_mlp": 0.01277707,
      "balance_loss_clip": 1.31197166,
      "balance_loss_mlp": 1.08725798,
      "epoch": 0.007214573438345458,
      "flos": 21319015979520.0,
      "grad_norm": 1.9872243562631793,
      "language_loss": 0.97547144,
      "learning_rate": 2.9661313359851253e-06,
      "loss": 1.01145291,
      "num_input_tokens_seen": 1329420,
      "step": 60,
      "time_per_iteration": 2.921997547149658
    },
    {
      "auxiliary_loss_clip": 0.02284923,
      "auxiliary_loss_mlp": 0.01266116,
      "balance_loss_clip": 1.30762053,
      "balance_loss_mlp": 1.07194746,
      "epoch": 0.007334816328984549,
      "flos": 24937088192640.0,
      "grad_norm": 2.0654848379552995,
      "language_loss": 0.94118989,
      "learning_rate": 2.978105921839922e-06,
      "loss": 0.97670025,
      "num_input_tokens_seen": 1349965,
      "step": 61,
      "time_per_iteration": 2.980724334716797
    },
    {
      "auxiliary_loss_clip": 0.02239603,
      "auxiliary_loss_mlp": 0.01263469,
      "balance_loss_clip": 1.29747665,
      "balance_loss_mlp": 1.07826591,
      "epoch": 0.00745505921962364,
      "flos": 18510586277760.0,
      "grad_norm": 2.044936688298615,
      "language_loss": 0.72443068,
      "learning_rate": 2.9898857903302893e-06,
      "loss": 0.7594614,
      "num_input_tokens_seen": 1368915,
      "step": 62,
      "time_per_iteration": 2.7752277851104736
    },
    {
      "auxiliary_loss_clip": 0.02230516,
      "auxiliary_loss_mlp": 0.01263906,
      "balance_loss_clip": 1.29268479,
      "balance_loss_mlp": 1.07860732,
      "epoch": 0.007575302110262731,
      "flos": 18477656484480.0,
      "grad_norm": 3.239380818772672,
      "language_loss": 0.87908006,
      "learning_rate": 3.001477172817253e-06,
      "loss": 0.91402435,
      "num_input_tokens_seen": 1386805,
      "step": 63,
      "time_per_iteration": 2.809598684310913
    },
    {
      "auxiliary_loss_clip": 0.02216628,
      "auxiliary_loss_mlp": 0.01268339,
      "balance_loss_clip": 1.29700017,
      "balance_loss_mlp": 1.08227754,
      "epoch": 0.007695545000901822,
      "flos": 24973178382720.0,
      "grad_norm": 2.6104373005385284,
      "language_loss": 0.9625994,
      "learning_rate": 3.012886006241894e-06,
      "loss": 0.99744916,
      "num_input_tokens_seen": 1406190,
      "step": 64,
      "time_per_iteration": 2.801905393600464
    },
    {
      "auxiliary_loss_clip": 0.0218907,
      "auxiliary_loss_mlp": 0.01236551,
      "balance_loss_clip": 1.28587365,
      "balance_loss_mlp": 1.0681318,
      "epoch": 0.007815787891540913,
      "flos": 21324223451520.0,
      "grad_norm": 1.8767401806057182,
      "language_loss": 0.87922525,
      "learning_rate": 3.0241179513858383e-06,
      "loss": 0.91348147,
      "num_input_tokens_seen": 1425500,
      "step": 65,
      "time_per_iteration": 2.8919925689697266
    },
    {
      "auxiliary_loss_clip": 0.02192731,
      "auxiliary_loss_mlp": 0.01245823,
      "balance_loss_clip": 1.28438091,
      "balance_loss_mlp": 1.07959712,
      "epoch": 0.007936030782180003,
      "flos": 21575777374080.0,
      "grad_norm": 3.721058900562098,
      "language_loss": 0.87716353,
      "learning_rate": 3.035178409737647e-06,
      "loss": 0.91154909,
      "num_input_tokens_seen": 1442950,
      "step": 66,
      "time_per_iteration": 4.019544839859009
    },
    {
      "auxiliary_loss_clip": 0.02138753,
      "auxiliary_loss_mlp": 0.01237551,
      "balance_loss_clip": 1.27247024,
      "balance_loss_mlp": 1.06903625,
      "epoch": 0.008056273672819095,
      "flos": 20120785159680.0,
      "grad_norm": 2.279434204139776,
      "language_loss": 0.88692188,
      "learning_rate": 3.046072539090907e-06,
      "loss": 0.92068493,
      "num_input_tokens_seen": 1460915,
      "step": 67,
      "time_per_iteration": 5.874208450317383
    },
    {
      "auxiliary_loss_clip": 0.0210733,
      "auxiliary_loss_mlp": 0.01233269,
      "balance_loss_clip": 1.26651406,
      "balance_loss_mlp": 1.07400513,
      "epoch": 0.008176516563458186,
      "flos": 18333116156160.0,
      "grad_norm": 2.3865531904312993,
      "language_loss": 1.04976416,
      "learning_rate": 3.056805267986779e-06,
      "loss": 1.08317018,
      "num_input_tokens_seen": 1478385,
      "step": 68,
      "time_per_iteration": 2.8366878032684326
    },
    {
      "auxiliary_loss_clip": 0.02089952,
      "auxiliary_loss_mlp": 0.01230697,
      "balance_loss_clip": 1.26245177,
      "balance_loss_mlp": 1.07353139,
      "epoch": 0.008296759454097276,
      "flos": 21872076664320.0,
      "grad_norm": 2.1264706773361035,
      "language_loss": 0.95291924,
      "learning_rate": 3.0673813091022194e-06,
      "loss": 0.98612571,
      "num_input_tokens_seen": 1497605,
      "step": 69,
      "time_per_iteration": 2.923546552658081
    },
    {
      "auxiliary_loss_clip": 0.0193278,
      "auxiliary_loss_mlp": 0.01255714,
      "balance_loss_clip": 1.3584137,
      "balance_loss_mlp": 1.12448871,
      "epoch": 0.008417002344736368,
      "flos": 63408228036480.0,
      "grad_norm": 1.3223501288474093,
      "language_loss": 0.62122148,
      "learning_rate": 3.0778051716749317e-06,
      "loss": 0.65310645,
      "num_input_tokens_seen": 1561150,
      "step": 70,
      "time_per_iteration": 3.443819046020508
    },
    {
      "auxiliary_loss_clip": 0.02053943,
      "auxiliary_loss_mlp": 0.01213533,
      "balance_loss_clip": 1.25300026,
      "balance_loss_mlp": 1.06828833,
      "epoch": 0.008537245235375458,
      "flos": 22966454286720.0,
      "grad_norm": 2.044210269742783,
      "language_loss": 0.905635,
      "learning_rate": 3.0880811730470094e-06,
      "loss": 0.93830973,
      "num_input_tokens_seen": 1580605,
      "step": 71,
      "time_per_iteration": 2.848984956741333
    },
    {
      "auxiliary_loss_clip": 0.01872563,
      "auxiliary_loss_mlp": 0.01218033,
      "balance_loss_clip": 1.33765817,
      "balance_loss_mlp": 1.09596241,
      "epoch": 0.008657488126014549,
      "flos": 61984046712960.0,
      "grad_norm": 1.1729906305580498,
      "language_loss": 0.58615708,
      "learning_rate": 3.098213449401257e-06,
      "loss": 0.61706305,
      "num_input_tokens_seen": 1647535,
      "step": 72,
      "time_per_iteration": 3.2984554767608643
    },
    {
      "auxiliary_loss_clip": 0.02002352,
      "auxiliary_loss_mlp": 0.01214249,
      "balance_loss_clip": 1.24734521,
      "balance_loss_mlp": 1.06480789,
      "epoch": 0.00877773101665364,
      "flos": 30296791152000.0,
      "grad_norm": 2.0714753383629176,
      "language_loss": 0.98856646,
      "learning_rate": 3.1082059657570015e-06,
      "loss": 1.0207324,
      "num_input_tokens_seen": 1666770,
      "step": 73,
      "time_per_iteration": 2.901005983352661
    },
    {
      "auxiliary_loss_clip": 0.0198558,
      "auxiliary_loss_mlp": 0.01200464,
      "balance_loss_clip": 1.24163032,
      "balance_loss_mlp": 1.05617285,
      "epoch": 0.00889797390729273,
      "flos": 23514056104320.0,
      "grad_norm": 2.936812373875562,
      "language_loss": 0.96741104,
      "learning_rate": 3.1180625252858496e-06,
      "loss": 0.99927151,
      "num_input_tokens_seen": 1685200,
      "step": 74,
      "time_per_iteration": 2.8387975692749023
    },
    {
      "auxiliary_loss_clip": 0.0194131,
      "auxiliary_loss_mlp": 0.01192112,
      "balance_loss_clip": 1.23254263,
      "balance_loss_mlp": 1.05592704,
      "epoch": 0.009018216797931822,
      "flos": 23075838178560.0,
      "grad_norm": 3.0524839371472496,
      "language_loss": 0.80218792,
      "learning_rate": 3.1277867780021663e-06,
      "loss": 0.83352214,
      "num_input_tokens_seen": 1701835,
      "step": 75,
      "time_per_iteration": 2.8324036598205566
    },
    {
      "auxiliary_loss_clip": 0.01909033,
      "auxiliary_loss_mlp": 0.0119155,
      "balance_loss_clip": 1.22453332,
      "balance_loss_mlp": 1.05870295,
      "epoch": 0.009138459688570914,
      "flos": 15918877284480.0,
      "grad_norm": 1.9762749759987825,
      "language_loss": 0.95695639,
      "learning_rate": 3.1373822288779824e-06,
      "loss": 0.98796219,
      "num_input_tokens_seen": 1718415,
      "step": 76,
      "time_per_iteration": 2.7999274730682373
    },
    {
      "auxiliary_loss_clip": 0.01922831,
      "auxiliary_loss_mlp": 0.01230054,
      "balance_loss_clip": 1.23191774,
      "balance_loss_mlp": 1.07775223,
      "epoch": 0.009258702579210003,
      "flos": 27016531372800.0,
      "grad_norm": 1.9288566395010593,
      "language_loss": 0.79631948,
      "learning_rate": 3.1468522454274533e-06,
      "loss": 0.82784837,
      "num_input_tokens_seen": 1738770,
      "step": 77,
      "time_per_iteration": 2.989919900894165
    },
    {
      "auxiliary_loss_clip": 0.01900525,
      "auxiliary_loss_mlp": 0.01200001,
      "balance_loss_clip": 1.22158885,
      "balance_loss_mlp": 1.06419826,
      "epoch": 0.009378945469849095,
      "flos": 26903196984960.0,
      "grad_norm": 3.1908778075419804,
      "language_loss": 0.91801798,
      "learning_rate": 3.15620006480197e-06,
      "loss": 0.94902331,
      "num_input_tokens_seen": 1758040,
      "step": 78,
      "time_per_iteration": 2.9430172443389893
    },
    {
      "auxiliary_loss_clip": 0.01885858,
      "auxiliary_loss_mlp": 0.01196727,
      "balance_loss_clip": 1.22172296,
      "balance_loss_mlp": 1.06817174,
      "epoch": 0.009499188360488187,
      "flos": 35694236327040.0,
      "grad_norm": 3.1903370455753572,
      "language_loss": 0.74446493,
      "learning_rate": 3.1654288004333087e-06,
      "loss": 0.77529079,
      "num_input_tokens_seen": 1776705,
      "step": 79,
      "time_per_iteration": 3.0495476722717285
    },
    {
      "auxiliary_loss_clip": 0.01859282,
      "auxiliary_loss_mlp": 0.01192162,
      "balance_loss_clip": 1.21716118,
      "balance_loss_mlp": 1.07142675,
      "epoch": 0.009619431251127276,
      "flos": 21503201944320.0,
      "grad_norm": 2.244680695045597,
      "language_loss": 0.76263452,
      "learning_rate": 3.1745414482589353e-06,
      "loss": 0.79314893,
      "num_input_tokens_seen": 1795915,
      "step": 80,
      "time_per_iteration": 2.999197483062744
    },
    {
      "auxiliary_loss_clip": 0.01853723,
      "auxiliary_loss_mlp": 0.01191142,
      "balance_loss_clip": 1.21851707,
      "balance_loss_mlp": 1.06087041,
      "epoch": 0.009739674141766368,
      "flos": 17421056991360.0,
      "grad_norm": 2.7203264518727677,
      "language_loss": 0.86908114,
      "learning_rate": 3.1835408925606204e-06,
      "loss": 0.89952981,
      "num_input_tokens_seen": 1814055,
      "step": 81,
      "time_per_iteration": 2.79858660697937
    },
    {
      "auxiliary_loss_clip": 0.01816604,
      "auxiliary_loss_mlp": 0.01196577,
      "balance_loss_clip": 1.20720005,
      "balance_loss_mlp": 1.07641387,
      "epoch": 0.00985991703240546,
      "flos": 27527109246720.0,
      "grad_norm": 2.3016298356316924,
      "language_loss": 0.89356256,
      "learning_rate": 3.1924299114448214e-06,
      "loss": 0.92369425,
      "num_input_tokens_seen": 1834535,
      "step": 82,
      "time_per_iteration": 2.9329440593719482
    },
    {
      "auxiliary_loss_clip": 0.01825283,
      "auxiliary_loss_mlp": 0.01208626,
      "balance_loss_clip": 1.20953202,
      "balance_loss_mlp": 1.08030915,
      "epoch": 0.00998015992304455,
      "flos": 13808084509440.0,
      "grad_norm": 2.4816461287064215,
      "language_loss": 0.83374083,
      "learning_rate": 3.2012111819909055e-06,
      "loss": 0.86407995,
      "num_input_tokens_seen": 1851865,
      "step": 83,
      "time_per_iteration": 2.806931257247925
    },
    {
      "auxiliary_loss_clip": 0.01789538,
      "auxiliary_loss_mlp": 0.01195961,
      "balance_loss_clip": 1.19952452,
      "balance_loss_mlp": 1.08247411,
      "epoch": 0.010100402813683641,
      "flos": 20191385341440.0,
      "grad_norm": 2.6199385256816745,
      "language_loss": 0.94876969,
      "learning_rate": 3.2098872850910627e-06,
      "loss": 0.97862458,
      "num_input_tokens_seen": 1868540,
      "step": 84,
      "time_per_iteration": 3.07277774810791
    },
    {
      "auxiliary_loss_clip": 0.01801597,
      "auxiliary_loss_mlp": 0.01196801,
      "balance_loss_clip": 1.20689774,
      "balance_loss_mlp": 1.07749641,
      "epoch": 0.010220645704322733,
      "flos": 17201642762880.0,
      "grad_norm": 2.058184630677537,
      "language_loss": 0.89328563,
      "learning_rate": 3.2184607100038194e-06,
      "loss": 0.92326957,
      "num_input_tokens_seen": 1887180,
      "step": 85,
      "time_per_iteration": 2.8214950561523438
    },
    {
      "auxiliary_loss_clip": 0.01785938,
      "auxiliary_loss_mlp": 0.01174026,
      "balance_loss_clip": 1.20377958,
      "balance_loss_mlp": 1.06096792,
      "epoch": 0.010340888594961822,
      "flos": 21470415805440.0,
      "grad_norm": 4.511313958690876,
      "language_loss": 0.92905414,
      "learning_rate": 3.2269338586412414e-06,
      "loss": 0.95865375,
      "num_input_tokens_seen": 1904765,
      "step": 86,
      "time_per_iteration": 2.878798246383667
    },
    {
      "auxiliary_loss_clip": 0.01750922,
      "auxiliary_loss_mlp": 0.01176493,
      "balance_loss_clip": 1.19558501,
      "balance_loss_mlp": 1.07177949,
      "epoch": 0.010461131485600914,
      "flos": 23002831785600.0,
      "grad_norm": 2.3240544396112157,
      "language_loss": 0.96232867,
      "learning_rate": 3.2353090496083106e-06,
      "loss": 0.99160278,
      "num_input_tokens_seen": 1922600,
      "step": 87,
      "time_per_iteration": 2.9202065467834473
    },
    {
      "auxiliary_loss_clip": 0.01728182,
      "auxiliary_loss_mlp": 0.01180482,
      "balance_loss_clip": 1.19102716,
      "balance_loss_mlp": 1.06694698,
      "epoch": 0.010581374376240005,
      "flos": 33546850571520.0,
      "grad_norm": 2.5301962690444633,
      "language_loss": 0.81303328,
      "learning_rate": 3.2435885220114572e-06,
      "loss": 0.84211993,
      "num_input_tokens_seen": 1943950,
      "step": 88,
      "time_per_iteration": 2.9523308277130127
    },
    {
      "auxiliary_loss_clip": 0.01735892,
      "auxiliary_loss_mlp": 0.01167982,
      "balance_loss_clip": 1.19431555,
      "balance_loss_mlp": 1.06579614,
      "epoch": 0.010701617266879095,
      "flos": 21763087822080.0,
      "grad_norm": 2.2554645976555063,
      "language_loss": 0.9398905,
      "learning_rate": 3.2517744390519113e-06,
      "loss": 0.96892923,
      "num_input_tokens_seen": 1962815,
      "step": 89,
      "time_per_iteration": 2.9002435207366943
    },
    {
      "auxiliary_loss_clip": 0.01721549,
      "auxiliary_loss_mlp": 0.01157621,
      "balance_loss_clip": 1.1901741,
      "balance_loss_mlp": 1.06525755,
      "epoch": 0.010821860157518187,
      "flos": 19060199256960.0,
      "grad_norm": 3.3435745340215584,
      "language_loss": 0.7521289,
      "learning_rate": 3.259868891418298e-06,
      "loss": 0.78092051,
      "num_input_tokens_seen": 1980580,
      "step": 90,
      "time_per_iteration": 2.8030011653900146
    },
    {
      "auxiliary_loss_clip": 0.01718264,
      "auxiliary_loss_mlp": 0.01164174,
      "balance_loss_clip": 1.19291949,
      "balance_loss_mlp": 1.06804395,
      "epoch": 0.010942103048157278,
      "flos": 25447378757760.0,
      "grad_norm": 2.2754556371973873,
      "language_loss": 0.84905273,
      "learning_rate": 3.2678739004917757e-06,
      "loss": 0.87787712,
      "num_input_tokens_seen": 2000315,
      "step": 91,
      "time_per_iteration": 2.94181752204895
    },
    {
      "auxiliary_loss_clip": 0.01717604,
      "auxiliary_loss_mlp": 0.01160714,
      "balance_loss_clip": 1.19486713,
      "balance_loss_mlp": 1.06706357,
      "epoch": 0.011062345938796368,
      "flos": 27493928058240.0,
      "grad_norm": 1.6058561716071602,
      "language_loss": 0.92116606,
      "learning_rate": 3.275791421376029e-06,
      "loss": 0.94994926,
      "num_input_tokens_seen": 2023760,
      "step": 92,
      "time_per_iteration": 4.0621771812438965
    },
    {
      "auxiliary_loss_clip": 0.01693203,
      "auxiliary_loss_mlp": 0.01145205,
      "balance_loss_clip": 1.18178201,
      "balance_loss_mlp": 1.05932689,
      "epoch": 0.01118258882943546,
      "flos": 16071210864000.0,
      "grad_norm": 2.058718060033651,
      "language_loss": 0.96138358,
      "learning_rate": 3.2836233457634622e-06,
      "loss": 0.98976767,
      "num_input_tokens_seen": 2041895,
      "step": 93,
      "time_per_iteration": 2.8020355701446533
    },
    {
      "auxiliary_loss_clip": 0.01703463,
      "auxiliary_loss_mlp": 0.01179162,
      "balance_loss_clip": 1.18408847,
      "balance_loss_mlp": 1.07821536,
      "epoch": 0.011302831720074551,
      "flos": 20668602458880.0,
      "grad_norm": 2.0873172210493727,
      "language_loss": 0.85554725,
      "learning_rate": 3.2913715046481135e-06,
      "loss": 0.88437355,
      "num_input_tokens_seen": 2061640,
      "step": 94,
      "time_per_iteration": 4.747421979904175
    },
    {
      "auxiliary_loss_clip": 0.01682169,
      "auxiliary_loss_mlp": 0.0113715,
      "balance_loss_clip": 1.18014598,
      "balance_loss_mlp": 1.05689847,
      "epoch": 0.011423074610713641,
      "flos": 13072238490240.0,
      "grad_norm": 2.806862152083547,
      "language_loss": 0.89058721,
      "learning_rate": 3.299037670895023e-06,
      "loss": 0.91878033,
      "num_input_tokens_seen": 2078255,
      "step": 95,
      "time_per_iteration": 2.8056576251983643
    },
    {
      "auxiliary_loss_clip": 0.01685523,
      "auxiliary_loss_mlp": 0.01161581,
      "balance_loss_clip": 1.18560886,
      "balance_loss_mlp": 1.07355666,
      "epoch": 0.011543317501352733,
      "flos": 30335646689280.0,
      "grad_norm": 7.158101573662213,
      "language_loss": 0.80271894,
      "learning_rate": 3.3066235616750667e-06,
      "loss": 0.83118999,
      "num_input_tokens_seen": 2099490,
      "step": 96,
      "time_per_iteration": 2.917400598526001
    },
    {
      "auxiliary_loss_clip": 0.01656373,
      "auxiliary_loss_mlp": 0.01144963,
      "balance_loss_clip": 1.17886734,
      "balance_loss_mlp": 1.0602293,
      "epoch": 0.011663560391991824,
      "flos": 15522962601600.0,
      "grad_norm": 2.124111647255974,
      "language_loss": 0.92400491,
      "learning_rate": 3.3141308407736276e-06,
      "loss": 0.95201832,
      "num_input_tokens_seen": 2116125,
      "step": 97,
      "time_per_iteration": 2.9101014137268066
    },
    {
      "auxiliary_loss_clip": 0.0166402,
      "auxiliary_loss_mlp": 0.01148082,
      "balance_loss_clip": 1.17571545,
      "balance_loss_mlp": 1.06382465,
      "epoch": 0.011783803282630914,
      "flos": 19902125116800.0,
      "grad_norm": 2.2855119974188662,
      "language_loss": 0.86758566,
      "learning_rate": 3.321561120780869e-06,
      "loss": 0.89570671,
      "num_input_tokens_seen": 2134835,
      "step": 98,
      "time_per_iteration": 2.8569161891937256
    },
    {
      "auxiliary_loss_clip": 0.01649951,
      "auxiliary_loss_mlp": 0.01120985,
      "balance_loss_clip": 1.17837012,
      "balance_loss_mlp": 1.04635954,
      "epoch": 0.011904046173270006,
      "flos": 22340674517760.0,
      "grad_norm": 3.70147238111763,
      "language_loss": 1.01421857,
      "learning_rate": 3.3289159651708192e-06,
      "loss": 1.04192793,
      "num_input_tokens_seen": 2152410,
      "step": 99,
      "time_per_iteration": 2.7871429920196533
    },
    {
      "auxiliary_loss_clip": 0.01637212,
      "auxiliary_loss_mlp": 0.01134033,
      "balance_loss_clip": 1.17412424,
      "balance_loss_mlp": 1.05506921,
      "epoch": 0.012024289063909096,
      "flos": 19100060375040.0,
      "grad_norm": 3.84930785163203,
      "language_loss": 0.97730505,
      "learning_rate": 3.3361968902759768e-06,
      "loss": 1.00501752,
      "num_input_tokens_seen": 2172090,
      "step": 100,
      "time_per_iteration": 2.8382019996643066
    },
    {
      "auxiliary_loss_clip": 0.01628565,
      "auxiliary_loss_mlp": 0.01139766,
      "balance_loss_clip": 1.17652166,
      "balance_loss_mlp": 1.06247067,
      "epoch": 0.012144531954548187,
      "flos": 15012205159680.0,
      "grad_norm": 2.167018807980805,
      "language_loss": 0.93955451,
      "learning_rate": 3.343405367163663e-06,
      "loss": 0.96723783,
      "num_input_tokens_seen": 2189020,
      "step": 101,
      "time_per_iteration": 2.851999521255493
    },
    {
      "auxiliary_loss_clip": 0.0164139,
      "auxiliary_loss_mlp": 0.01136449,
      "balance_loss_clip": 1.18318427,
      "balance_loss_mlp": 1.05953538,
      "epoch": 0.012264774845187279,
      "flos": 15122020014720.0,
      "grad_norm": 2.697685204203133,
      "language_loss": 0.81445539,
      "learning_rate": 3.350542823419951e-06,
      "loss": 0.84223384,
      "num_input_tokens_seen": 2205620,
      "step": 102,
      "time_per_iteration": 2.8845109939575195
    },
    {
      "auxiliary_loss_clip": 0.01629991,
      "auxiliary_loss_mlp": 0.0112744,
      "balance_loss_clip": 1.17425144,
      "balance_loss_mlp": 1.05515158,
      "epoch": 0.012385017735826368,
      "flos": 13949248959360.0,
      "grad_norm": 3.503231435941238,
      "language_loss": 0.87629408,
      "learning_rate": 3.3576106448465615e-06,
      "loss": 0.90386844,
      "num_input_tokens_seen": 2219000,
      "step": 103,
      "time_per_iteration": 2.8890037536621094
    },
    {
      "auxiliary_loss_clip": 0.0162569,
      "auxiliary_loss_mlp": 0.01126233,
      "balance_loss_clip": 1.17205369,
      "balance_loss_mlp": 1.05289543,
      "epoch": 0.01250526062646546,
      "flos": 23623260428160.0,
      "grad_norm": 1.9997234318468644,
      "language_loss": 0.87990439,
      "learning_rate": 3.3646101770757797e-06,
      "loss": 0.90742362,
      "num_input_tokens_seen": 2237790,
      "step": 104,
      "time_per_iteration": 2.9553890228271484
    },
    {
      "auxiliary_loss_clip": 0.01614153,
      "auxiliary_loss_mlp": 0.01131389,
      "balance_loss_clip": 1.17374682,
      "balance_loss_mlp": 1.0581466,
      "epoch": 0.012625503517104552,
      "flos": 34640078958720.0,
      "grad_norm": 1.7803254897753684,
      "language_loss": 0.85576046,
      "learning_rate": 3.371542727108104e-06,
      "loss": 0.88321584,
      "num_input_tokens_seen": 2259965,
      "step": 105,
      "time_per_iteration": 2.9731500148773193
    },
    {
      "auxiliary_loss_clip": 0.01621097,
      "auxiliary_loss_mlp": 0.01149756,
      "balance_loss_clip": 1.17394495,
      "balance_loss_mlp": 1.0795176,
      "epoch": 0.012745746407743641,
      "flos": 17821891837440.0,
      "grad_norm": 2.618373373744841,
      "language_loss": 0.89953899,
      "learning_rate": 3.3784095647770114e-06,
      "loss": 0.92724752,
      "num_input_tokens_seen": 2278610,
      "step": 106,
      "time_per_iteration": 2.838513135910034
    },
    {
      "auxiliary_loss_clip": 0.01611288,
      "auxiliary_loss_mlp": 0.01124214,
      "balance_loss_clip": 1.17119122,
      "balance_loss_mlp": 1.05435777,
      "epoch": 0.012865989298382733,
      "flos": 20595057361920.0,
      "grad_norm": 2.1470987436529714,
      "language_loss": 0.88858867,
      "learning_rate": 3.3852119241449547e-06,
      "loss": 0.91594374,
      "num_input_tokens_seen": 2297730,
      "step": 107,
      "time_per_iteration": 2.7530319690704346
    },
    {
      "auxiliary_loss_clip": 0.01599097,
      "auxiliary_loss_mlp": 0.01142581,
      "balance_loss_clip": 1.16823077,
      "balance_loss_mlp": 1.06972075,
      "epoch": 0.012986232189021825,
      "flos": 23948969978880.0,
      "grad_norm": 4.2355546097648205,
      "language_loss": 0.9632498,
      "learning_rate": 3.3919510048344295e-06,
      "loss": 0.99066651,
      "num_input_tokens_seen": 2315740,
      "step": 108,
      "time_per_iteration": 2.840437412261963
    },
    {
      "auxiliary_loss_clip": 0.01580066,
      "auxiliary_loss_mlp": 0.01138628,
      "balance_loss_clip": 1.1652323,
      "balance_loss_mlp": 1.06796122,
      "epoch": 0.013106475079660914,
      "flos": 23725425686400.0,
      "grad_norm": 2.5316640971934032,
      "language_loss": 0.86752188,
      "learning_rate": 3.3986279732976907e-06,
      "loss": 0.89470875,
      "num_input_tokens_seen": 2334215,
      "step": 109,
      "time_per_iteration": 2.8113932609558105
    },
    {
      "auxiliary_loss_clip": 0.01582294,
      "auxiliary_loss_mlp": 0.01136802,
      "balance_loss_clip": 1.16485953,
      "balance_loss_mlp": 1.07133222,
      "epoch": 0.013226717970300006,
      "flos": 21102438925440.0,
      "grad_norm": 1.9973012161532493,
      "language_loss": 0.95551491,
      "learning_rate": 3.4052439640284983e-06,
      "loss": 0.98270589,
      "num_input_tokens_seen": 2353130,
      "step": 110,
      "time_per_iteration": 2.7678046226501465
    },
    {
      "auxiliary_loss_clip": 0.0158442,
      "auxiliary_loss_mlp": 0.01127451,
      "balance_loss_clip": 1.16556823,
      "balance_loss_mlp": 1.05902505,
      "epoch": 0.013346960860939098,
      "flos": 24863902231680.0,
      "grad_norm": 1.802635188972982,
      "language_loss": 0.81200969,
      "learning_rate": 3.4118000807190217e-06,
      "loss": 0.83912838,
      "num_input_tokens_seen": 2374010,
      "step": 111,
      "time_per_iteration": 2.8590283393859863
    },
    {
      "auxiliary_loss_clip": 0.01581028,
      "auxiliary_loss_mlp": 0.01141429,
      "balance_loss_clip": 1.16485572,
      "balance_loss_mlp": 1.07352722,
      "epoch": 0.013467203751578187,
      "flos": 28181940140160.0,
      "grad_norm": 1.6993390141114966,
      "language_loss": 0.76160169,
      "learning_rate": 3.4182973973648723e-06,
      "loss": 0.78882623,
      "num_input_tokens_seen": 2395220,
      "step": 112,
      "time_per_iteration": 2.9603090286254883
    },
    {
      "auxiliary_loss_clip": 0.01572329,
      "auxiliary_loss_mlp": 0.01142611,
      "balance_loss_clip": 1.16559768,
      "balance_loss_mlp": 1.08128941,
      "epoch": 0.013587446642217279,
      "flos": 18916233546240.0,
      "grad_norm": 2.396523399213634,
      "language_loss": 0.95006418,
      "learning_rate": 3.424736959321014e-06,
      "loss": 0.9772135,
      "num_input_tokens_seen": 2413025,
      "step": 113,
      "time_per_iteration": 2.7759742736816406
    },
    {
      "auxiliary_loss_clip": 0.01570692,
      "auxiliary_loss_mlp": 0.01127049,
      "balance_loss_clip": 1.16479456,
      "balance_loss_mlp": 1.05964804,
      "epoch": 0.01370768953285637,
      "flos": 23988615615360.0,
      "grad_norm": 2.1673413522971594,
      "language_loss": 0.88606238,
      "learning_rate": 3.431119784311155e-06,
      "loss": 0.9130398,
      "num_input_tokens_seen": 2432700,
      "step": 114,
      "time_per_iteration": 2.8118083477020264
    },
    {
      "auxiliary_loss_clip": 0.01563096,
      "auxiliary_loss_mlp": 0.01136553,
      "balance_loss_clip": 1.16529238,
      "balance_loss_mlp": 1.0720129,
      "epoch": 0.01382793242349546,
      "flos": 39202565512320.0,
      "grad_norm": 1.9589049175830728,
      "language_loss": 0.77676022,
      "learning_rate": 3.43744686339307e-06,
      "loss": 0.80375671,
      "num_input_tokens_seen": 2455020,
      "step": 115,
      "time_per_iteration": 2.8848142623901367
    },
    {
      "auxiliary_loss_clip": 0.01547068,
      "auxiliary_loss_mlp": 0.01102165,
      "balance_loss_clip": 1.15424371,
      "balance_loss_mlp": 1.04735255,
      "epoch": 0.013948175314134552,
      "flos": 41353506714240.0,
      "grad_norm": 2.0457552657553304,
      "language_loss": 0.90890563,
      "learning_rate": 3.44371916188212e-06,
      "loss": 0.93539792,
      "num_input_tokens_seen": 2475775,
      "step": 116,
      "time_per_iteration": 3.017091989517212
    },
    {
      "auxiliary_loss_clip": 0.01549651,
      "auxiliary_loss_mlp": 0.01108527,
      "balance_loss_clip": 1.15991497,
      "balance_loss_mlp": 1.05235529,
      "epoch": 0.014068418204773643,
      "flos": 22453542028800.0,
      "grad_norm": 6.205618856795823,
      "language_loss": 0.8632499,
      "learning_rate": 3.449937620235143e-06,
      "loss": 0.88983166,
      "num_input_tokens_seen": 2496370,
      "step": 117,
      "time_per_iteration": 2.840804100036621
    },
    {
      "auxiliary_loss_clip": 0.01549412,
      "auxiliary_loss_mlp": 0.01105097,
      "balance_loss_clip": 1.15854824,
      "balance_loss_mlp": 1.05040419,
      "epoch": 0.014188661095412733,
      "flos": 23805147922560.0,
      "grad_norm": 1.7554820251388579,
      "language_loss": 0.89465415,
      "learning_rate": 3.456103154896722e-06,
      "loss": 0.92119914,
      "num_input_tokens_seen": 2517645,
      "step": 118,
      "time_per_iteration": 4.854155778884888
    },
    {
      "auxiliary_loss_clip": 0.01533397,
      "auxiliary_loss_mlp": 0.0111767,
      "balance_loss_clip": 1.15565968,
      "balance_loss_mlp": 1.06216633,
      "epoch": 0.014308903986051825,
      "flos": 23660248458240.0,
      "grad_norm": 1.972564488551257,
      "language_loss": 0.92299223,
      "learning_rate": 3.462216659109757e-06,
      "loss": 0.94950289,
      "num_input_tokens_seen": 2537825,
      "step": 119,
      "time_per_iteration": 3.7913880348205566
    },
    {
      "auxiliary_loss_clip": 0.01547278,
      "auxiliary_loss_mlp": 0.0113266,
      "balance_loss_clip": 1.16216457,
      "balance_loss_mlp": 1.0806607,
      "epoch": 0.014429146876690916,
      "flos": 20667991927680.0,
      "grad_norm": 2.362085152962142,
      "language_loss": 0.85219991,
      "learning_rate": 3.4682790036921077e-06,
      "loss": 0.87899935,
      "num_input_tokens_seen": 2556485,
      "step": 120,
      "time_per_iteration": 3.809842109680176
    },
    {
      "auxiliary_loss_clip": 0.01524711,
      "auxiliary_loss_mlp": 0.01122766,
      "balance_loss_clip": 1.15593398,
      "balance_loss_mlp": 1.07136261,
      "epoch": 0.014549389767330006,
      "flos": 20229199384320.0,
      "grad_norm": 1.8700844025335994,
      "language_loss": 0.83075953,
      "learning_rate": 3.4742910377810193e-06,
      "loss": 0.85723424,
      "num_input_tokens_seen": 2573945,
      "step": 121,
      "time_per_iteration": 2.880338191986084
    },
    {
      "auxiliary_loss_clip": 0.0152046,
      "auxiliary_loss_mlp": 0.010951,
      "balance_loss_clip": 1.15059519,
      "balance_loss_mlp": 1.04641438,
      "epoch": 0.014669632657969098,
      "flos": 18004174381440.0,
      "grad_norm": 3.7724611300545177,
      "language_loss": 0.8881315,
      "learning_rate": 3.4802535895469042e-06,
      "loss": 0.91428709,
      "num_input_tokens_seen": 2592695,
      "step": 122,
      "time_per_iteration": 2.878744602203369
    },
    {
      "auxiliary_loss_clip": 0.01520506,
      "auxiliary_loss_mlp": 0.01106654,
      "balance_loss_clip": 1.1503638,
      "balance_loss_mlp": 1.0511502,
      "epoch": 0.01478987554860819,
      "flos": 22741796672640.0,
      "grad_norm": 2.0521188226476004,
      "language_loss": 0.89461434,
      "learning_rate": 3.4861674668779934e-06,
      "loss": 0.92088592,
      "num_input_tokens_seen": 2610925,
      "step": 123,
      "time_per_iteration": 2.902632713317871
    },
    {
      "auxiliary_loss_clip": 0.01515815,
      "auxiliary_loss_mlp": 0.01096876,
      "balance_loss_clip": 1.1495142,
      "balance_loss_mlp": 1.0443759,
      "epoch": 0.01491011843924728,
      "flos": 17198590106880.0,
      "grad_norm": 2.0412369611233094,
      "language_loss": 0.84286129,
      "learning_rate": 3.492033458037272e-06,
      "loss": 0.86898816,
      "num_input_tokens_seen": 2629495,
      "step": 124,
      "time_per_iteration": 2.7491159439086914
    },
    {
      "auxiliary_loss_clip": 0.01512796,
      "auxiliary_loss_mlp": 0.01103473,
      "balance_loss_clip": 1.14656401,
      "balance_loss_mlp": 1.05388165,
      "epoch": 0.01503036132988637,
      "flos": 17673867889920.0,
      "grad_norm": 2.3337170163589733,
      "language_loss": 0.86889046,
      "learning_rate": 3.497852332293018e-06,
      "loss": 0.89505315,
      "num_input_tokens_seen": 2645070,
      "step": 125,
      "time_per_iteration": 2.8692092895507812
    },
    {
      "auxiliary_loss_clip": 0.01510304,
      "auxiliary_loss_mlp": 0.01098777,
      "balance_loss_clip": 1.14982021,
      "balance_loss_mlp": 1.05297709,
      "epoch": 0.015150604220525462,
      "flos": 18878239935360.0,
      "grad_norm": 2.1382839870283656,
      "language_loss": 0.9650948,
      "learning_rate": 3.5036248405242356e-06,
      "loss": 0.99118555,
      "num_input_tokens_seen": 2663825,
      "step": 126,
      "time_per_iteration": 2.83005690574646
    },
    {
      "auxiliary_loss_clip": 0.01504486,
      "auxiliary_loss_mlp": 0.01106835,
      "balance_loss_clip": 1.14758158,
      "balance_loss_mlp": 1.05731571,
      "epoch": 0.015270847111164552,
      "flos": 39420184060800.0,
      "grad_norm": 2.002239829264999,
      "language_loss": 0.82873195,
      "learning_rate": 3.509351715802146e-06,
      "loss": 0.85484517,
      "num_input_tokens_seen": 2684710,
      "step": 127,
      "time_per_iteration": 3.021838426589966
    },
    {
      "auxiliary_loss_clip": 0.01512205,
      "auxiliary_loss_mlp": 0.01117658,
      "balance_loss_clip": 1.1506505,
      "balance_loss_mlp": 1.06203496,
      "epoch": 0.015391090001803644,
      "flos": 43762466286720.0,
      "grad_norm": 2.5190858280309136,
      "language_loss": 0.78556138,
      "learning_rate": 3.5150336739488763e-06,
      "loss": 0.81186002,
      "num_input_tokens_seen": 2706995,
      "step": 128,
      "time_per_iteration": 2.973323106765747
    },
    {
      "auxiliary_loss_clip": 0.01491603,
      "auxiliary_loss_mlp": 0.0108424,
      "balance_loss_clip": 1.14386988,
      "balance_loss_mlp": 1.04285073,
      "epoch": 0.015511332892442733,
      "flos": 18916341287040.0,
      "grad_norm": 2.173332154746394,
      "language_loss": 0.83906519,
      "learning_rate": 3.5206714140744143e-06,
      "loss": 0.86482358,
      "num_input_tokens_seen": 2727050,
      "step": 129,
      "time_per_iteration": 2.7499473094940186
    },
    {
      "auxiliary_loss_clip": 0.01504529,
      "auxiliary_loss_mlp": 0.01112489,
      "balance_loss_clip": 1.15038216,
      "balance_loss_mlp": 1.06487679,
      "epoch": 0.015631575783081827,
      "flos": 24535283679360.0,
      "grad_norm": 3.383247186897196,
      "language_loss": 0.87572497,
      "learning_rate": 3.5262656190928208e-06,
      "loss": 0.90189517,
      "num_input_tokens_seen": 2745350,
      "step": 130,
      "time_per_iteration": 2.7959253787994385
    },
    {
      "auxiliary_loss_clip": 0.01476455,
      "auxiliary_loss_mlp": 0.01154509,
      "balance_loss_clip": 1.22173953,
      "balance_loss_mlp": 1.12132108,
      "epoch": 0.015751818673720917,
      "flos": 62328536098560.0,
      "grad_norm": 1.2165257765160156,
      "language_loss": 0.71505231,
      "learning_rate": 3.5318169562186737e-06,
      "loss": 0.74136192,
      "num_input_tokens_seen": 2814195,
      "step": 131,
      "time_per_iteration": 3.381918430328369
    },
    {
      "auxiliary_loss_clip": 0.01487956,
      "auxiliary_loss_mlp": 0.01108068,
      "balance_loss_clip": 1.14476442,
      "balance_loss_mlp": 1.06317389,
      "epoch": 0.015872061564360006,
      "flos": 23878549365120.0,
      "grad_norm": 1.918428905484176,
      "language_loss": 0.82116997,
      "learning_rate": 3.5373260774446292e-06,
      "loss": 0.84713024,
      "num_input_tokens_seen": 2834645,
      "step": 132,
      "time_per_iteration": 2.897111654281616
    },
    {
      "auxiliary_loss_clip": 0.01477503,
      "auxiliary_loss_mlp": 0.01095685,
      "balance_loss_clip": 1.1368711,
      "balance_loss_mlp": 1.05110037,
      "epoch": 0.0159923044549991,
      "flos": 23367899664000.0,
      "grad_norm": 2.3041020191536083,
      "language_loss": 0.90094435,
      "learning_rate": 3.542793620000961e-06,
      "loss": 0.92667615,
      "num_input_tokens_seen": 2854120,
      "step": 133,
      "time_per_iteration": 2.8911478519439697
    },
    {
      "auxiliary_loss_clip": 0.0147756,
      "auxiliary_loss_mlp": 0.01116623,
      "balance_loss_clip": 1.1399895,
      "balance_loss_mlp": 1.0665791,
      "epoch": 0.01611254734563819,
      "flos": 17858305249920.0,
      "grad_norm": 2.454691797656434,
      "language_loss": 0.87105447,
      "learning_rate": 3.5482202067978894e-06,
      "loss": 0.89699626,
      "num_input_tokens_seen": 2871330,
      "step": 134,
      "time_per_iteration": 2.8896214962005615
    },
    {
      "auxiliary_loss_clip": 0.01481755,
      "auxiliary_loss_mlp": 0.01102218,
      "balance_loss_clip": 1.13810754,
      "balance_loss_mlp": 1.05780053,
      "epoch": 0.01623279023627728,
      "flos": 20954774113920.0,
      "grad_norm": 2.0426078950012863,
      "language_loss": 0.75914931,
      "learning_rate": 3.553606446851471e-06,
      "loss": 0.784989,
      "num_input_tokens_seen": 2888070,
      "step": 135,
      "time_per_iteration": 2.837867259979248
    },
    {
      "auxiliary_loss_clip": 0.01465413,
      "auxiliary_loss_mlp": 0.01089311,
      "balance_loss_clip": 1.13604808,
      "balance_loss_mlp": 1.04603803,
      "epoch": 0.016353033126916373,
      "flos": 15742412743680.0,
      "grad_norm": 2.016453325616351,
      "language_loss": 0.83301485,
      "learning_rate": 3.5589529356937613e-06,
      "loss": 0.85856211,
      "num_input_tokens_seen": 2906465,
      "step": 136,
      "time_per_iteration": 2.886378288269043
    },
    {
      "auxiliary_loss_clip": 0.01474747,
      "auxiliary_loss_mlp": 0.01097821,
      "balance_loss_clip": 1.13795543,
      "balance_loss_mlp": 1.05495334,
      "epoch": 0.016473276017555463,
      "flos": 18807280617600.0,
      "grad_norm": 1.9242441994848518,
      "language_loss": 0.77118886,
      "learning_rate": 3.5642602557679627e-06,
      "loss": 0.79691458,
      "num_input_tokens_seen": 2924915,
      "step": 137,
      "time_per_iteration": 2.819972276687622
    },
    {
      "auxiliary_loss_clip": 0.0147319,
      "auxiliary_loss_mlp": 0.01098754,
      "balance_loss_clip": 1.14484096,
      "balance_loss_mlp": 1.06079817,
      "epoch": 0.016593518908194552,
      "flos": 24352641999360.0,
      "grad_norm": 2.157660024687997,
      "language_loss": 0.8413592,
      "learning_rate": 3.569528976809202e-06,
      "loss": 0.86707866,
      "num_input_tokens_seen": 2942130,
      "step": 138,
      "time_per_iteration": 2.866697072982788
    },
    {
      "auxiliary_loss_clip": 0.0146392,
      "auxiliary_loss_mlp": 0.01097473,
      "balance_loss_clip": 1.13346791,
      "balance_loss_mlp": 1.05446243,
      "epoch": 0.016713761798833646,
      "flos": 22346133384960.0,
      "grad_norm": 1.8645668127354267,
      "language_loss": 0.89841211,
      "learning_rate": 3.5747596562115522e-06,
      "loss": 0.92402601,
      "num_input_tokens_seen": 2962745,
      "step": 139,
      "time_per_iteration": 2.8551132678985596
    },
    {
      "auxiliary_loss_clip": 0.01471875,
      "auxiliary_loss_mlp": 0.01096472,
      "balance_loss_clip": 1.13733864,
      "balance_loss_mlp": 1.05188775,
      "epoch": 0.016834004689472735,
      "flos": 17821820010240.0,
      "grad_norm": 2.469466685128228,
      "language_loss": 0.91197419,
      "learning_rate": 3.5799528393819138e-06,
      "loss": 0.93765759,
      "num_input_tokens_seen": 2981825,
      "step": 140,
      "time_per_iteration": 2.7788872718811035
    },
    {
      "auxiliary_loss_clip": 0.01454392,
      "auxiliary_loss_mlp": 0.01089348,
      "balance_loss_clip": 1.13185632,
      "balance_loss_mlp": 1.04862595,
      "epoch": 0.016954247580111825,
      "flos": 20519501103360.0,
      "grad_norm": 2.03950145826193,
      "language_loss": 0.8797878,
      "learning_rate": 3.585109060081286e-06,
      "loss": 0.90522522,
      "num_input_tokens_seen": 3001625,
      "step": 141,
      "time_per_iteration": 2.8053972721099854
    },
    {
      "auxiliary_loss_clip": 0.01460086,
      "auxiliary_loss_mlp": 0.01106804,
      "balance_loss_clip": 1.13202906,
      "balance_loss_mlp": 1.06503356,
      "epoch": 0.017074490470750915,
      "flos": 22088869200000.0,
      "grad_norm": 1.9598570110161664,
      "language_loss": 0.78518367,
      "learning_rate": 3.590228840753992e-06,
      "loss": 0.81085265,
      "num_input_tokens_seen": 3022055,
      "step": 142,
      "time_per_iteration": 2.950960159301758
    },
    {
      "auxiliary_loss_clip": 0.01447278,
      "auxiliary_loss_mlp": 0.01099317,
      "balance_loss_clip": 1.13013852,
      "balance_loss_mlp": 1.06164658,
      "epoch": 0.01719473336139001,
      "flos": 15997270717440.0,
      "grad_norm": 4.927784152753674,
      "language_loss": 0.8732394,
      "learning_rate": 3.5953126928453423e-06,
      "loss": 0.89870536,
      "num_input_tokens_seen": 3039605,
      "step": 143,
      "time_per_iteration": 2.803274631500244
    },
    {
      "auxiliary_loss_clip": 0.01455208,
      "auxiliary_loss_mlp": 0.01094648,
      "balance_loss_clip": 1.13231111,
      "balance_loss_mlp": 1.05175638,
      "epoch": 0.017314976252029098,
      "flos": 22492038430080.0,
      "grad_norm": 1.8091688008529354,
      "language_loss": 0.80425668,
      "learning_rate": 3.600361117108239e-06,
      "loss": 0.82975531,
      "num_input_tokens_seen": 3059405,
      "step": 144,
      "time_per_iteration": 3.917839765548706
    },
    {
      "auxiliary_loss_clip": 0.01448466,
      "auxiliary_loss_mlp": 0.011058,
      "balance_loss_clip": 1.12847686,
      "balance_loss_mlp": 1.06650853,
      "epoch": 0.017435219142668188,
      "flos": 22018053536640.0,
      "grad_norm": 2.032094869304527,
      "language_loss": 0.97348791,
      "learning_rate": 3.6053746038991616e-06,
      "loss": 0.99903059,
      "num_input_tokens_seen": 3078490,
      "step": 145,
      "time_per_iteration": 4.781860589981079
    },
    {
      "auxiliary_loss_clip": 0.01407976,
      "auxiliary_loss_mlp": 0.0105792,
      "balance_loss_clip": 1.17909408,
      "balance_loss_mlp": 1.0302639,
      "epoch": 0.01755546203330728,
      "flos": 72240526149120.0,
      "grad_norm": 1.1415942565751709,
      "language_loss": 0.5849961,
      "learning_rate": 3.6103536334639843e-06,
      "loss": 0.60965508,
      "num_input_tokens_seen": 3131755,
      "step": 146,
      "time_per_iteration": 3.374969005584717
    },
    {
      "auxiliary_loss_clip": 0.01436612,
      "auxiliary_loss_mlp": 0.01095651,
      "balance_loss_clip": 1.12368059,
      "balance_loss_mlp": 1.05714655,
      "epoch": 0.01767570492394637,
      "flos": 25337061112320.0,
      "grad_norm": 1.982208453036172,
      "language_loss": 0.85466576,
      "learning_rate": 3.615298676214041e-06,
      "loss": 0.87998843,
      "num_input_tokens_seen": 3152035,
      "step": 147,
      "time_per_iteration": 4.280486822128296
    },
    {
      "auxiliary_loss_clip": 0.01440247,
      "auxiliary_loss_mlp": 0.01094116,
      "balance_loss_clip": 1.12515152,
      "balance_loss_mlp": 1.05487227,
      "epoch": 0.01779594781458546,
      "flos": 20449188230400.0,
      "grad_norm": 2.0715191498770174,
      "language_loss": 0.88921356,
      "learning_rate": 3.6202101929928317e-06,
      "loss": 0.91455722,
      "num_input_tokens_seen": 3170625,
      "step": 148,
      "time_per_iteration": 2.8929829597473145
    },
    {
      "auxiliary_loss_clip": 0.01433111,
      "auxiliary_loss_mlp": 0.01091192,
      "balance_loss_clip": 1.12316895,
      "balance_loss_mlp": 1.05187654,
      "epoch": 0.017916190705224554,
      "flos": 16253601148800.0,
      "grad_norm": 2.5793692303328766,
      "language_loss": 0.8834604,
      "learning_rate": 3.6250886353337413e-06,
      "loss": 0.90870345,
      "num_input_tokens_seen": 3188155,
      "step": 149,
      "time_per_iteration": 2.8912320137023926
    },
    {
      "auxiliary_loss_clip": 0.01439453,
      "auxiliary_loss_mlp": 0.01092925,
      "balance_loss_clip": 1.12717915,
      "balance_loss_mlp": 1.05525517,
      "epoch": 0.018036433595863644,
      "flos": 23330588411520.0,
      "grad_norm": 1.9721642246420428,
      "language_loss": 0.8658756,
      "learning_rate": 3.6299344457091488e-06,
      "loss": 0.89119935,
      "num_input_tokens_seen": 3209015,
      "step": 150,
      "time_per_iteration": 2.7935729026794434
    },
    {
      "auxiliary_loss_clip": 0.0143516,
      "auxiliary_loss_mlp": 0.01087122,
      "balance_loss_clip": 1.12378693,
      "balance_loss_mlp": 1.05011988,
      "epoch": 0.018156676486502734,
      "flos": 18588010043520.0,
      "grad_norm": 5.5925715238388864,
      "language_loss": 0.93941116,
      "learning_rate": 3.634748057771256e-06,
      "loss": 0.964634,
      "num_input_tokens_seen": 3224955,
      "step": 151,
      "time_per_iteration": 2.845824718475342
    },
    {
      "auxiliary_loss_clip": 0.01430414,
      "auxiliary_loss_mlp": 0.01087041,
      "balance_loss_clip": 1.12350249,
      "balance_loss_mlp": 1.05204105,
      "epoch": 0.018276919377141827,
      "flos": 25448707560960.0,
      "grad_norm": 1.7649256976682195,
      "language_loss": 0.8539018,
      "learning_rate": 3.639529896584965e-06,
      "loss": 0.87907636,
      "num_input_tokens_seen": 3246330,
      "step": 152,
      "time_per_iteration": 2.90211820602417
    },
    {
      "auxiliary_loss_clip": 0.01434395,
      "auxiliary_loss_mlp": 0.01092859,
      "balance_loss_clip": 1.12414408,
      "balance_loss_mlp": 1.05473566,
      "epoch": 0.018397162267780917,
      "flos": 20047311889920.0,
      "grad_norm": 6.574794166757533,
      "language_loss": 0.88612682,
      "learning_rate": 3.6442803788531233e-06,
      "loss": 0.91139936,
      "num_input_tokens_seen": 3264290,
      "step": 153,
      "time_per_iteration": 2.8877062797546387
    },
    {
      "auxiliary_loss_clip": 0.01434644,
      "auxiliary_loss_mlp": 0.01086316,
      "balance_loss_clip": 1.12139606,
      "balance_loss_mlp": 1.04897928,
      "epoch": 0.018517405158420007,
      "flos": 27565282425600.0,
      "grad_norm": 2.096927084701438,
      "language_loss": 0.96285641,
      "learning_rate": 3.6489999131344357e-06,
      "loss": 0.98806602,
      "num_input_tokens_seen": 3287065,
      "step": 154,
      "time_per_iteration": 2.9450724124908447
    },
    {
      "auxiliary_loss_clip": 0.01420714,
      "auxiliary_loss_mlp": 0.01079188,
      "balance_loss_clip": 1.11980391,
      "balance_loss_mlp": 1.0477649,
      "epoch": 0.0186376480490591,
      "flos": 19354056422400.0,
      "grad_norm": 1.8639018018799172,
      "language_loss": 0.90575099,
      "learning_rate": 3.653688900054313e-06,
      "loss": 0.93075001,
      "num_input_tokens_seen": 3305595,
      "step": 155,
      "time_per_iteration": 2.8327629566192627
    },
    {
      "auxiliary_loss_clip": 0.01427949,
      "auxiliary_loss_mlp": 0.01090018,
      "balance_loss_clip": 1.11687851,
      "balance_loss_mlp": 1.05308676,
      "epoch": 0.01875789093969819,
      "flos": 26687840993280.0,
      "grad_norm": 2.818588175867866,
      "language_loss": 0.75982356,
      "learning_rate": 3.6583477325089526e-06,
      "loss": 0.78500319,
      "num_input_tokens_seen": 3326135,
      "step": 156,
      "time_per_iteration": 3.0710818767547607
    },
    {
      "auxiliary_loss_clip": 0.01422358,
      "auxiliary_loss_mlp": 0.01096236,
      "balance_loss_clip": 1.12047637,
      "balance_loss_mlp": 1.05816078,
      "epoch": 0.01887813383033728,
      "flos": 24353001135360.0,
      "grad_norm": 2.2485485082329233,
      "language_loss": 1.04405248,
      "learning_rate": 3.6629767958628916e-06,
      "loss": 1.06923842,
      "num_input_tokens_seen": 3343510,
      "step": 157,
      "time_per_iteration": 2.832935094833374
    },
    {
      "auxiliary_loss_clip": 0.0142447,
      "auxiliary_loss_mlp": 0.01092917,
      "balance_loss_clip": 1.12242508,
      "balance_loss_mlp": 1.05767894,
      "epoch": 0.018998376720976373,
      "flos": 14647532330880.0,
      "grad_norm": 2.5045714423103815,
      "language_loss": 0.85569155,
      "learning_rate": 3.667576468140291e-06,
      "loss": 0.88086545,
      "num_input_tokens_seen": 3361325,
      "step": 158,
      "time_per_iteration": 2.826939344406128
    },
    {
      "auxiliary_loss_clip": 0.0140947,
      "auxiliary_loss_mlp": 0.01093741,
      "balance_loss_clip": 1.11356843,
      "balance_loss_mlp": 1.06024325,
      "epoch": 0.019118619611615463,
      "flos": 29305261146240.0,
      "grad_norm": 2.467218235692429,
      "language_loss": 0.89138538,
      "learning_rate": 3.672147120210184e-06,
      "loss": 0.91641754,
      "num_input_tokens_seen": 3377925,
      "step": 159,
      "time_per_iteration": 2.9831511974334717
    },
    {
      "auxiliary_loss_clip": 0.01419463,
      "auxiliary_loss_mlp": 0.0109508,
      "balance_loss_clip": 1.12320197,
      "balance_loss_mlp": 1.06103408,
      "epoch": 0.019238862502254553,
      "flos": 20886723797760.0,
      "grad_norm": 2.0492414640313226,
      "language_loss": 0.865183,
      "learning_rate": 3.6766891159659177e-06,
      "loss": 0.89032841,
      "num_input_tokens_seen": 3396335,
      "step": 160,
      "time_per_iteration": 2.759472370147705
    },
    {
      "auxiliary_loss_clip": 0.0141438,
      "auxiliary_loss_mlp": 0.01082335,
      "balance_loss_clip": 1.11812186,
      "balance_loss_mlp": 1.04714453,
      "epoch": 0.019359105392893646,
      "flos": 21360672777600.0,
      "grad_norm": 2.5874960161079112,
      "language_loss": 0.87636447,
      "learning_rate": 3.6812028124990075e-06,
      "loss": 0.9013316,
      "num_input_tokens_seen": 3413605,
      "step": 161,
      "time_per_iteration": 2.8997461795806885
    },
    {
      "auxiliary_loss_clip": 0.01414741,
      "auxiliary_loss_mlp": 0.01101877,
      "balance_loss_clip": 1.11823678,
      "balance_loss_mlp": 1.06687665,
      "epoch": 0.019479348283532736,
      "flos": 16283729681280.0,
      "grad_norm": 3.987243185309106,
      "language_loss": 0.81539154,
      "learning_rate": 3.6856885602676016e-06,
      "loss": 0.84055769,
      "num_input_tokens_seen": 3429640,
      "step": 162,
      "time_per_iteration": 2.7952935695648193
    },
    {
      "auxiliary_loss_clip": 0.0141145,
      "auxiliary_loss_mlp": 0.01083188,
      "balance_loss_clip": 1.11383581,
      "balance_loss_mlp": 1.04825974,
      "epoch": 0.019599591174171826,
      "flos": 22091239497600.0,
      "grad_norm": 2.4020224611744774,
      "language_loss": 0.94297296,
      "learning_rate": 3.6901467032597733e-06,
      "loss": 0.96791923,
      "num_input_tokens_seen": 3448125,
      "step": 163,
      "time_per_iteration": 2.8052120208740234
    },
    {
      "auxiliary_loss_clip": 0.01413862,
      "auxiliary_loss_mlp": 0.01082503,
      "balance_loss_clip": 1.11567378,
      "balance_loss_mlp": 1.04857576,
      "epoch": 0.01971983406481092,
      "flos": 19609668581760.0,
      "grad_norm": 2.837067873261032,
      "language_loss": 0.87454981,
      "learning_rate": 3.694577579151804e-06,
      "loss": 0.89951342,
      "num_input_tokens_seen": 3466535,
      "step": 164,
      "time_per_iteration": 2.8135430812835693
    },
    {
      "auxiliary_loss_clip": 0.01415518,
      "auxiliary_loss_mlp": 0.01110989,
      "balance_loss_clip": 1.11778021,
      "balance_loss_mlp": 1.07482076,
      "epoch": 0.01984007695545001,
      "flos": 19099342103040.0,
      "grad_norm": 2.9191760669853513,
      "language_loss": 0.74201047,
      "learning_rate": 3.6989815194616703e-06,
      "loss": 0.76727557,
      "num_input_tokens_seen": 3483730,
      "step": 165,
      "time_per_iteration": 2.7745938301086426
    },
    {
      "auxiliary_loss_clip": 0.01417908,
      "auxiliary_loss_mlp": 0.01101909,
      "balance_loss_clip": 1.11394751,
      "balance_loss_mlp": 1.0660032,
      "epoch": 0.0199603198460891,
      "flos": 20848406964480.0,
      "grad_norm": 2.1983537262901187,
      "language_loss": 0.79916263,
      "learning_rate": 3.703358849697888e-06,
      "loss": 0.82436085,
      "num_input_tokens_seen": 3503640,
      "step": 166,
      "time_per_iteration": 2.9307689666748047
    },
    {
      "auxiliary_loss_clip": 0.01410568,
      "auxiliary_loss_mlp": 0.01101855,
      "balance_loss_clip": 1.11718225,
      "balance_loss_mlp": 1.06869102,
      "epoch": 0.020080562736728192,
      "flos": 21870747861120.0,
      "grad_norm": 1.7450863872729334,
      "language_loss": 0.82703918,
      "learning_rate": 3.7077098895038803e-06,
      "loss": 0.85216343,
      "num_input_tokens_seen": 3523010,
      "step": 167,
      "time_per_iteration": 2.707716464996338
    },
    {
      "auxiliary_loss_clip": 0.01418199,
      "auxiliary_loss_mlp": 0.01086328,
      "balance_loss_clip": 1.11783981,
      "balance_loss_mlp": 1.0504458,
      "epoch": 0.020200805627367282,
      "flos": 21688788539520.0,
      "grad_norm": 2.1023830315372596,
      "language_loss": 0.9728545,
      "learning_rate": 3.712034952798045e-06,
      "loss": 0.99789977,
      "num_input_tokens_seen": 3541125,
      "step": 168,
      "time_per_iteration": 2.9935567378997803
    },
    {
      "auxiliary_loss_clip": 0.01409652,
      "auxiliary_loss_mlp": 0.01081207,
      "balance_loss_clip": 1.11336088,
      "balance_loss_mlp": 1.04449058,
      "epoch": 0.02032104851800637,
      "flos": 33543043729920.0,
      "grad_norm": 2.413107286281656,
      "language_loss": 0.84603083,
      "learning_rate": 3.7163343479096656e-06,
      "loss": 0.87093937,
      "num_input_tokens_seen": 3562700,
      "step": 169,
      "time_per_iteration": 2.857295513153076
    },
    {
      "auxiliary_loss_clip": 0.01403242,
      "auxiliary_loss_mlp": 0.01086974,
      "balance_loss_clip": 1.11696529,
      "balance_loss_mlp": 1.05528808,
      "epoch": 0.020441291408645465,
      "flos": 31686965274240.0,
      "grad_norm": 2.404661374959429,
      "language_loss": 0.83133197,
      "learning_rate": 3.720608377710802e-06,
      "loss": 0.85623407,
      "num_input_tokens_seen": 3582790,
      "step": 170,
      "time_per_iteration": 2.8198137283325195
    },
    {
      "auxiliary_loss_clip": 0.01406242,
      "auxiliary_loss_mlp": 0.01085558,
      "balance_loss_clip": 1.11468148,
      "balance_loss_mlp": 1.04967618,
      "epoch": 0.020561534299284555,
      "flos": 20886687884160.0,
      "grad_norm": 2.545016560378333,
      "language_loss": 0.86564398,
      "learning_rate": 3.7248573397443277e-06,
      "loss": 0.89056194,
      "num_input_tokens_seen": 3601715,
      "step": 171,
      "time_per_iteration": 3.6759305000305176
    },
    {
      "auxiliary_loss_clip": 0.01403369,
      "auxiliary_loss_mlp": 0.01085465,
      "balance_loss_clip": 1.11415744,
      "balance_loss_mlp": 1.05091786,
      "epoch": 0.020681777189923645,
      "flos": 20996610480000.0,
      "grad_norm": 3.8451386475759413,
      "language_loss": 0.97439241,
      "learning_rate": 3.729081526348224e-06,
      "loss": 0.99928069,
      "num_input_tokens_seen": 3620245,
      "step": 172,
      "time_per_iteration": 4.614741802215576
    },
    {
      "auxiliary_loss_clip": 0.01402729,
      "auxiliary_loss_mlp": 0.01087603,
      "balance_loss_clip": 1.1136179,
      "balance_loss_mlp": 1.05472529,
      "epoch": 0.020802020080562738,
      "flos": 28257532312320.0,
      "grad_norm": 3.3766137906721565,
      "language_loss": 0.849262,
      "learning_rate": 3.7332812247762777e-06,
      "loss": 0.8741653,
      "num_input_tokens_seen": 3641545,
      "step": 173,
      "time_per_iteration": 3.758741617202759
    },
    {
      "auxiliary_loss_clip": 0.01405926,
      "auxiliary_loss_mlp": 0.01093777,
      "balance_loss_clip": 1.11679959,
      "balance_loss_mlp": 1.05999327,
      "epoch": 0.020922262971201828,
      "flos": 19681274344320.0,
      "grad_norm": 2.3716324364500876,
      "language_loss": 0.95454448,
      "learning_rate": 3.737456717315293e-06,
      "loss": 0.97954148,
      "num_input_tokens_seen": 3660510,
      "step": 174,
      "time_per_iteration": 2.781390905380249
    },
    {
      "auxiliary_loss_clip": 0.01400704,
      "auxiliary_loss_mlp": 0.01093085,
      "balance_loss_clip": 1.11427343,
      "balance_loss_mlp": 1.06127954,
      "epoch": 0.021042505861840918,
      "flos": 15666353694720.0,
      "grad_norm": 1.7910633478059594,
      "language_loss": 0.9071824,
      "learning_rate": 3.7416082813989552e-06,
      "loss": 0.9321202,
      "num_input_tokens_seen": 3677505,
      "step": 175,
      "time_per_iteration": 2.711459159851074
    },
    {
      "auxiliary_loss_clip": 0.01404016,
      "auxiliary_loss_mlp": 0.01095658,
      "balance_loss_clip": 1.11385536,
      "balance_loss_mlp": 1.06182671,
      "epoch": 0.02116274875248001,
      "flos": 21142012734720.0,
      "grad_norm": 2.877691617451257,
      "language_loss": 0.89567828,
      "learning_rate": 3.745736189718439e-06,
      "loss": 0.92067504,
      "num_input_tokens_seen": 3696760,
      "step": 176,
      "time_per_iteration": 2.8576319217681885
    },
    {
      "auxiliary_loss_clip": 0.01390133,
      "auxiliary_loss_mlp": 0.01068739,
      "balance_loss_clip": 1.11042023,
      "balance_loss_mlp": 1.03800654,
      "epoch": 0.0212829916431191,
      "flos": 24715770543360.0,
      "grad_norm": 2.6070380749318818,
      "language_loss": 0.72938859,
      "learning_rate": 3.749840710329894e-06,
      "loss": 0.7539773,
      "num_input_tokens_seen": 3717465,
      "step": 177,
      "time_per_iteration": 2.7009286880493164
    },
    {
      "auxiliary_loss_clip": 0.0140587,
      "auxiliary_loss_mlp": 0.01098576,
      "balance_loss_clip": 1.11386967,
      "balance_loss_mlp": 1.06319499,
      "epoch": 0.02140323453375819,
      "flos": 16645493508480.0,
      "grad_norm": 3.2900772001029366,
      "language_loss": 0.9821043,
      "learning_rate": 3.7539221067588938e-06,
      "loss": 1.00714874,
      "num_input_tokens_seen": 3731440,
      "step": 178,
      "time_per_iteration": 2.6852893829345703
    },
    {
      "auxiliary_loss_clip": 0.0139944,
      "auxiliary_loss_mlp": 0.01081201,
      "balance_loss_clip": 1.11104465,
      "balance_loss_mlp": 1.04627264,
      "epoch": 0.021523477424397284,
      "flos": 20299332689280.0,
      "grad_norm": 4.043023345045716,
      "language_loss": 0.93635166,
      "learning_rate": 3.757980638101964e-06,
      "loss": 0.96115804,
      "num_input_tokens_seen": 3744935,
      "step": 179,
      "time_per_iteration": 2.6620399951934814
    },
    {
      "auxiliary_loss_clip": 0.01406794,
      "auxiliary_loss_mlp": 0.01087237,
      "balance_loss_clip": 1.11445999,
      "balance_loss_mlp": 1.05378735,
      "epoch": 0.021643720315036374,
      "flos": 26104005331200.0,
      "grad_norm": 2.4103798183827814,
      "language_loss": 0.89338243,
      "learning_rate": 3.7620165591252806e-06,
      "loss": 0.91832274,
      "num_input_tokens_seen": 3763035,
      "step": 180,
      "time_per_iteration": 2.6861674785614014
    },
    {
      "auxiliary_loss_clip": 0.01390801,
      "auxiliary_loss_mlp": 0.01090859,
      "balance_loss_clip": 1.10928297,
      "balance_loss_mlp": 1.05812466,
      "epoch": 0.021763963205675464,
      "flos": 24787663614720.0,
      "grad_norm": 1.8451537099655237,
      "language_loss": 0.94436514,
      "learning_rate": 3.766030120360636e-06,
      "loss": 0.96918184,
      "num_input_tokens_seen": 3782665,
      "step": 181,
      "time_per_iteration": 2.6437253952026367
    },
    {
      "auxiliary_loss_clip": 0.0139449,
      "auxiliary_loss_mlp": 0.01079259,
      "balance_loss_clip": 1.10872734,
      "balance_loss_mlp": 1.04809713,
      "epoch": 0.021884206096314557,
      "flos": 25813559957760.0,
      "grad_norm": 2.408072495255761,
      "language_loss": 0.90279365,
      "learning_rate": 3.7700215681987578e-06,
      "loss": 0.92753112,
      "num_input_tokens_seen": 3802435,
      "step": 182,
      "time_per_iteration": 2.8429105281829834
    },
    {
      "auxiliary_loss_clip": 0.01397252,
      "auxiliary_loss_mlp": 0.01080789,
      "balance_loss_clip": 1.11205614,
      "balance_loss_mlp": 1.04614699,
      "epoch": 0.022004448986953647,
      "flos": 20082719721600.0,
      "grad_norm": 1.7303128919234665,
      "language_loss": 0.81986868,
      "learning_rate": 3.7739911449800767e-06,
      "loss": 0.84464908,
      "num_input_tokens_seen": 3822490,
      "step": 183,
      "time_per_iteration": 2.6579222679138184
    },
    {
      "auxiliary_loss_clip": 0.01394887,
      "auxiliary_loss_mlp": 0.0109479,
      "balance_loss_clip": 1.11045337,
      "balance_loss_mlp": 1.06226945,
      "epoch": 0.022124691877592736,
      "flos": 20480609652480.0,
      "grad_norm": 2.9128184740153924,
      "language_loss": 0.80787313,
      "learning_rate": 3.7779390890830114e-06,
      "loss": 0.83276987,
      "num_input_tokens_seen": 3841140,
      "step": 184,
      "time_per_iteration": 2.657762050628662
    },
    {
      "auxiliary_loss_clip": 0.01394013,
      "auxiliary_loss_mlp": 0.01073837,
      "balance_loss_clip": 1.10620224,
      "balance_loss_mlp": 1.04026794,
      "epoch": 0.02224493476823183,
      "flos": 23586847015680.0,
      "grad_norm": 1.8488618136226476,
      "language_loss": 0.85934418,
      "learning_rate": 3.7818656350098723e-06,
      "loss": 0.88402271,
      "num_input_tokens_seen": 3862090,
      "step": 185,
      "time_per_iteration": 2.8145525455474854
    },
    {
      "auxiliary_loss_clip": 0.01393805,
      "auxiliary_loss_mlp": 0.01069041,
      "balance_loss_clip": 1.11015296,
      "balance_loss_mlp": 1.0367353,
      "epoch": 0.02236517765887092,
      "flos": 16909940413440.0,
      "grad_norm": 2.4403082316774363,
      "language_loss": 0.77149898,
      "learning_rate": 3.7857710134704447e-06,
      "loss": 0.79612744,
      "num_input_tokens_seen": 3881025,
      "step": 186,
      "time_per_iteration": 2.775435209274292
    },
    {
      "auxiliary_loss_clip": 0.01384215,
      "auxiliary_loss_mlp": 0.01071505,
      "balance_loss_clip": 1.10841596,
      "balance_loss_mlp": 1.04041529,
      "epoch": 0.02248542054951001,
      "flos": 43508182930560.0,
      "grad_norm": 2.5704661616817166,
      "language_loss": 0.79270077,
      "learning_rate": 3.7896554514633234e-06,
      "loss": 0.81725794,
      "num_input_tokens_seen": 3905310,
      "step": 187,
      "time_per_iteration": 2.9003679752349854
    },
    {
      "auxiliary_loss_clip": 0.01381537,
      "auxiliary_loss_mlp": 0.01076078,
      "balance_loss_clip": 1.10660076,
      "balance_loss_mlp": 1.04253221,
      "epoch": 0.022605663440149103,
      "flos": 23367648268800.0,
      "grad_norm": 2.473974200377956,
      "language_loss": 0.84123969,
      "learning_rate": 3.7935191723550955e-06,
      "loss": 0.86581588,
      "num_input_tokens_seen": 3924265,
      "step": 188,
      "time_per_iteration": 2.684802770614624
    },
    {
      "auxiliary_loss_clip": 0.01383163,
      "auxiliary_loss_mlp": 0.0107556,
      "balance_loss_clip": 1.1087575,
      "balance_loss_mlp": 1.04246771,
      "epoch": 0.022725906330788193,
      "flos": 29019915504000.0,
      "grad_norm": 5.803048181884513,
      "language_loss": 0.88579917,
      "learning_rate": 3.797362395957408e-06,
      "loss": 0.91038644,
      "num_input_tokens_seen": 3944830,
      "step": 189,
      "time_per_iteration": 2.826767921447754
    },
    {
      "auxiliary_loss_clip": 0.01394294,
      "auxiliary_loss_mlp": 0.01075598,
      "balance_loss_clip": 1.11511636,
      "balance_loss_mlp": 1.04288733,
      "epoch": 0.022846149221427282,
      "flos": 24496176746880.0,
      "grad_norm": 2.30391791586416,
      "language_loss": 0.78376842,
      "learning_rate": 3.8011853386020055e-06,
      "loss": 0.80846739,
      "num_input_tokens_seen": 3965735,
      "step": 190,
      "time_per_iteration": 2.7492711544036865
    },
    {
      "auxiliary_loss_clip": 0.01386941,
      "auxiliary_loss_mlp": 0.01092534,
      "balance_loss_clip": 1.10839403,
      "balance_loss_mlp": 1.05901277,
      "epoch": 0.022966392112066376,
      "flos": 15523537219200.0,
      "grad_norm": 2.6886935141788366,
      "language_loss": 0.89556593,
      "learning_rate": 3.804988213213804e-06,
      "loss": 0.92036068,
      "num_input_tokens_seen": 3983975,
      "step": 191,
      "time_per_iteration": 2.698688507080078
    },
    {
      "auxiliary_loss_clip": 0.01351873,
      "auxiliary_loss_mlp": 0.01022521,
      "balance_loss_clip": 1.15319085,
      "balance_loss_mlp": 1.00087297,
      "epoch": 0.023086635002705466,
      "flos": 55650408433920.0,
      "grad_norm": 1.0186943335095062,
      "language_loss": 0.63237464,
      "learning_rate": 3.808771229382049e-06,
      "loss": 0.65611863,
      "num_input_tokens_seen": 4043440,
      "step": 192,
      "time_per_iteration": 3.222196578979492
    },
    {
      "auxiliary_loss_clip": 0.01382546,
      "auxiliary_loss_mlp": 0.01078102,
      "balance_loss_clip": 1.10585546,
      "balance_loss_mlp": 1.04627347,
      "epoch": 0.023206877893344555,
      "flos": 19313441118720.0,
      "grad_norm": 2.626968199742051,
      "language_loss": 0.84833288,
      "learning_rate": 3.8125345934296324e-06,
      "loss": 0.87293935,
      "num_input_tokens_seen": 4061750,
      "step": 193,
      "time_per_iteration": 2.6987295150756836
    },
    {
      "auxiliary_loss_clip": 0.01382661,
      "auxiliary_loss_mlp": 0.01084543,
      "balance_loss_clip": 1.10461974,
      "balance_loss_mlp": 1.0506165,
      "epoch": 0.02332712078398365,
      "flos": 23072965090560.0,
      "grad_norm": 1.9264069522170848,
      "language_loss": 0.88119972,
      "learning_rate": 3.81627850848061e-06,
      "loss": 0.90587175,
      "num_input_tokens_seen": 4082345,
      "step": 194,
      "time_per_iteration": 2.8326828479766846
    },
    {
      "auxiliary_loss_clip": 0.01379136,
      "auxiliary_loss_mlp": 0.01079929,
      "balance_loss_clip": 1.10617733,
      "balance_loss_mlp": 1.04848099,
      "epoch": 0.02344736367462274,
      "flos": 24425971614720.0,
      "grad_norm": 2.216021919022438,
      "language_loss": 0.86370075,
      "learning_rate": 3.820003174525994e-06,
      "loss": 0.88829136,
      "num_input_tokens_seen": 4101770,
      "step": 195,
      "time_per_iteration": 2.774726629257202
    },
    {
      "auxiliary_loss_clip": 0.01381456,
      "auxiliary_loss_mlp": 0.01084115,
      "balance_loss_clip": 1.10748172,
      "balance_loss_mlp": 1.05261993,
      "epoch": 0.02356760656526183,
      "flos": 21579799697280.0,
      "grad_norm": 2.7301377883098086,
      "language_loss": 0.82750463,
      "learning_rate": 3.823708788487851e-06,
      "loss": 0.85216033,
      "num_input_tokens_seen": 4118770,
      "step": 196,
      "time_per_iteration": 2.8177921772003174
    },
    {
      "auxiliary_loss_clip": 0.01379193,
      "auxiliary_loss_mlp": 0.01068014,
      "balance_loss_clip": 1.10986829,
      "balance_loss_mlp": 1.03842664,
      "epoch": 0.02368784945590092,
      "flos": 25193598192000.0,
      "grad_norm": 2.835800052344123,
      "language_loss": 0.8431384,
      "learning_rate": 3.827395544281781e-06,
      "loss": 0.86761045,
      "num_input_tokens_seen": 4141110,
      "step": 197,
      "time_per_iteration": 3.6937806606292725
    },
    {
      "auxiliary_loss_clip": 0.01376195,
      "auxiliary_loss_mlp": 0.0107651,
      "balance_loss_clip": 1.10670257,
      "balance_loss_mlp": 1.04635,
      "epoch": 0.02380809234654001,
      "flos": 27562481164800.0,
      "grad_norm": 1.9547702522862243,
      "language_loss": 0.79192078,
      "learning_rate": 3.831063632877802e-06,
      "loss": 0.81644785,
      "num_input_tokens_seen": 4161430,
      "step": 198,
      "time_per_iteration": 3.734706401824951
    },
    {
      "auxiliary_loss_clip": 0.01377639,
      "auxiliary_loss_mlp": 0.01075312,
      "balance_loss_clip": 1.11317801,
      "balance_loss_mlp": 1.04367423,
      "epoch": 0.0239283352371791,
      "flos": 18259786540800.0,
      "grad_norm": 2.313605942046433,
      "language_loss": 0.75885952,
      "learning_rate": 3.834713242359712e-06,
      "loss": 0.78338903,
      "num_input_tokens_seen": 4179260,
      "step": 199,
      "time_per_iteration": 3.762610912322998
    },
    {
      "auxiliary_loss_clip": 0.01374784,
      "auxiliary_loss_mlp": 0.01083021,
      "balance_loss_clip": 1.1019578,
      "balance_loss_mlp": 1.05081105,
      "epoch": 0.02404857812781819,
      "flos": 21395110942080.0,
      "grad_norm": 1.8789047546061668,
      "language_loss": 0.87278509,
      "learning_rate": 3.838344557982959e-06,
      "loss": 0.89736319,
      "num_input_tokens_seen": 4200640,
      "step": 200,
      "time_per_iteration": 3.702263116836548
    },
    {
      "auxiliary_loss_clip": 0.01367545,
      "auxiliary_loss_mlp": 0.01070023,
      "balance_loss_clip": 1.10132158,
      "balance_loss_mlp": 1.0402683,
      "epoch": 0.024168821018457284,
      "flos": 16654256426880.0,
      "grad_norm": 3.043635760248704,
      "language_loss": 0.84816706,
      "learning_rate": 3.841957762231063e-06,
      "loss": 0.87254274,
      "num_input_tokens_seen": 4218170,
      "step": 201,
      "time_per_iteration": 2.7953813076019287
    },
    {
      "auxiliary_loss_clip": 0.01369703,
      "auxiliary_loss_mlp": 0.01059915,
      "balance_loss_clip": 1.10105371,
      "balance_loss_mlp": 1.03030372,
      "epoch": 0.024289063909096374,
      "flos": 22820872464000.0,
      "grad_norm": 2.029291268162114,
      "language_loss": 0.87864,
      "learning_rate": 3.8455530348706454e-06,
      "loss": 0.90293622,
      "num_input_tokens_seen": 4237770,
      "step": 202,
      "time_per_iteration": 2.693615436553955
    },
    {
      "auxiliary_loss_clip": 0.01368509,
      "auxiliary_loss_mlp": 0.01081867,
      "balance_loss_clip": 1.1032207,
      "balance_loss_mlp": 1.05149221,
      "epoch": 0.024409306799735464,
      "flos": 17748598135680.0,
      "grad_norm": 2.195342944298382,
      "language_loss": 0.77356321,
      "learning_rate": 3.849130553005099e-06,
      "loss": 0.79806697,
      "num_input_tokens_seen": 4255985,
      "step": 203,
      "time_per_iteration": 2.6389052867889404
    },
    {
      "auxiliary_loss_clip": 0.01369821,
      "auxiliary_loss_mlp": 0.01061898,
      "balance_loss_clip": 1.10318017,
      "balance_loss_mlp": 1.03238153,
      "epoch": 0.024529549690374557,
      "flos": 21616213109760.0,
      "grad_norm": 1.8433527352780477,
      "language_loss": 0.83621025,
      "learning_rate": 3.852690491126933e-06,
      "loss": 0.86052746,
      "num_input_tokens_seen": 4276035,
      "step": 204,
      "time_per_iteration": 2.7464921474456787
    },
    {
      "auxiliary_loss_clip": 0.01369679,
      "auxiliary_loss_mlp": 0.01062292,
      "balance_loss_clip": 1.10211122,
      "balance_loss_mlp": 1.03265643,
      "epoch": 0.024649792581013647,
      "flos": 25551662918400.0,
      "grad_norm": 3.0413012863174878,
      "language_loss": 0.91314614,
      "learning_rate": 3.856233021168845e-06,
      "loss": 0.93746591,
      "num_input_tokens_seen": 4295730,
      "step": 205,
      "time_per_iteration": 2.7194695472717285
    },
    {
      "auxiliary_loss_clip": 0.0136096,
      "auxiliary_loss_mlp": 0.01065004,
      "balance_loss_clip": 1.10021055,
      "balance_loss_mlp": 1.03725195,
      "epoch": 0.024770035471652737,
      "flos": 34495574544000.0,
      "grad_norm": 2.529240311727329,
      "language_loss": 0.91337729,
      "learning_rate": 3.859758312553544e-06,
      "loss": 0.93763691,
      "num_input_tokens_seen": 4317950,
      "step": 206,
      "time_per_iteration": 2.866734504699707
    },
    {
      "auxiliary_loss_clip": 0.01370857,
      "auxiliary_loss_mlp": 0.01071488,
      "balance_loss_clip": 1.10439897,
      "balance_loss_mlp": 1.04080319,
      "epoch": 0.02489027836229183,
      "flos": 21505428587520.0,
      "grad_norm": 1.8949139644081878,
      "language_loss": 0.9189564,
      "learning_rate": 3.8632665322423735e-06,
      "loss": 0.94337988,
      "num_input_tokens_seen": 4337605,
      "step": 207,
      "time_per_iteration": 2.77038311958313
    },
    {
      "auxiliary_loss_clip": 0.01361547,
      "auxiliary_loss_mlp": 0.01075977,
      "balance_loss_clip": 1.10148823,
      "balance_loss_mlp": 1.04820108,
      "epoch": 0.02501052125293092,
      "flos": 23219013790080.0,
      "grad_norm": 1.807313730967557,
      "language_loss": 0.85738558,
      "learning_rate": 3.866757844782762e-06,
      "loss": 0.88176084,
      "num_input_tokens_seen": 4358110,
      "step": 208,
      "time_per_iteration": 2.7549660205841064
    },
    {
      "auxiliary_loss_clip": 0.01368804,
      "auxiliary_loss_mlp": 0.01073969,
      "balance_loss_clip": 1.10267591,
      "balance_loss_mlp": 1.04278338,
      "epoch": 0.02513076414357001,
      "flos": 26388920010240.0,
      "grad_norm": 2.9010051833326487,
      "language_loss": 0.91008574,
      "learning_rate": 3.870232412354527e-06,
      "loss": 0.93451345,
      "num_input_tokens_seen": 4374955,
      "step": 209,
      "time_per_iteration": 2.7669315338134766
    },
    {
      "auxiliary_loss_clip": 0.0136062,
      "auxiliary_loss_mlp": 0.01061185,
      "balance_loss_clip": 1.09608948,
      "balance_loss_mlp": 1.03114462,
      "epoch": 0.025251007034209103,
      "flos": 13590430047360.0,
      "grad_norm": 2.188429201684175,
      "language_loss": 0.92421114,
      "learning_rate": 3.873690394815086e-06,
      "loss": 0.94842917,
      "num_input_tokens_seen": 4391535,
      "step": 210,
      "time_per_iteration": 2.7174932956695557
    },
    {
      "auxiliary_loss_clip": 0.01358262,
      "auxiliary_loss_mlp": 0.01075021,
      "balance_loss_clip": 1.09676766,
      "balance_loss_mlp": 1.04645848,
      "epoch": 0.025371249924848193,
      "flos": 15049229103360.0,
      "grad_norm": 3.0613170368746174,
      "language_loss": 0.91556251,
      "learning_rate": 3.877131949743587e-06,
      "loss": 0.93989539,
      "num_input_tokens_seen": 4408400,
      "step": 211,
      "time_per_iteration": 2.7689402103424072
    },
    {
      "auxiliary_loss_clip": 0.0136144,
      "auxiliary_loss_mlp": 0.01068785,
      "balance_loss_clip": 1.09881961,
      "balance_loss_mlp": 1.03886318,
      "epoch": 0.025491492815487283,
      "flos": 25553853648000.0,
      "grad_norm": 2.080451879818074,
      "language_loss": 0.78002369,
      "learning_rate": 3.880557232483993e-06,
      "loss": 0.80432594,
      "num_input_tokens_seen": 4427840,
      "step": 212,
      "time_per_iteration": 2.736501932144165
    },
    {
      "auxiliary_loss_clip": 0.01355307,
      "auxiliary_loss_mlp": 0.01080441,
      "balance_loss_clip": 1.09326053,
      "balance_loss_mlp": 1.05097246,
      "epoch": 0.025611735706126376,
      "flos": 20630752502400.0,
      "grad_norm": 2.1122364353302916,
      "language_loss": 0.87185252,
      "learning_rate": 3.883966396187164e-06,
      "loss": 0.89621001,
      "num_input_tokens_seen": 4447110,
      "step": 213,
      "time_per_iteration": 2.7382984161376953
    },
    {
      "auxiliary_loss_clip": 0.0135687,
      "auxiliary_loss_mlp": 0.01076737,
      "balance_loss_clip": 1.09883213,
      "balance_loss_mlp": 1.04819858,
      "epoch": 0.025731978596765466,
      "flos": 19062282245760.0,
      "grad_norm": 2.3359284801104727,
      "language_loss": 0.89824063,
      "learning_rate": 3.887359591851937e-06,
      "loss": 0.92257673,
      "num_input_tokens_seen": 4464715,
      "step": 214,
      "time_per_iteration": 2.732410430908203
    },
    {
      "auxiliary_loss_clip": 0.01359295,
      "auxiliary_loss_mlp": 0.01067767,
      "balance_loss_clip": 1.09980011,
      "balance_loss_mlp": 1.04051554,
      "epoch": 0.025852221487404556,
      "flos": 22163814927360.0,
      "grad_norm": 2.0738711553869784,
      "language_loss": 0.92193568,
      "learning_rate": 3.890736968365265e-06,
      "loss": 0.94620621,
      "num_input_tokens_seen": 4485030,
      "step": 215,
      "time_per_iteration": 2.7290399074554443
    },
    {
      "auxiliary_loss_clip": 0.01355756,
      "auxiliary_loss_mlp": 0.01077462,
      "balance_loss_clip": 1.09721637,
      "balance_loss_mlp": 1.04827988,
      "epoch": 0.02597246437804365,
      "flos": 26541971861760.0,
      "grad_norm": 1.8118976791159604,
      "language_loss": 0.85299492,
      "learning_rate": 3.894098672541412e-06,
      "loss": 0.87732714,
      "num_input_tokens_seen": 4505935,
      "step": 216,
      "time_per_iteration": 2.776249885559082
    },
    {
      "auxiliary_loss_clip": 0.01356249,
      "auxiliary_loss_mlp": 0.01079993,
      "balance_loss_clip": 1.09612775,
      "balance_loss_mlp": 1.04780626,
      "epoch": 0.02609270726868274,
      "flos": 32671671696000.0,
      "grad_norm": 1.9729186112800052,
      "language_loss": 0.75413203,
      "learning_rate": 3.89744484916025e-06,
      "loss": 0.77849448,
      "num_input_tokens_seen": 4527045,
      "step": 217,
      "time_per_iteration": 2.8606979846954346
    },
    {
      "auxiliary_loss_clip": 0.0136182,
      "auxiliary_loss_mlp": 0.01073155,
      "balance_loss_clip": 1.09539866,
      "balance_loss_mlp": 1.04342413,
      "epoch": 0.02621295015932183,
      "flos": 26243553669120.0,
      "grad_norm": 2.311996208473308,
      "language_loss": 0.87286341,
      "learning_rate": 3.900775641004673e-06,
      "loss": 0.8972131,
      "num_input_tokens_seen": 4546360,
      "step": 218,
      "time_per_iteration": 2.7414419651031494
    },
    {
      "auxiliary_loss_clip": 0.01367861,
      "auxiliary_loss_mlp": 0.0107337,
      "balance_loss_clip": 1.10075545,
      "balance_loss_mlp": 1.04177928,
      "epoch": 0.026333193049960922,
      "flos": 42921402353280.0,
      "grad_norm": 3.185381965373216,
      "language_loss": 0.73812222,
      "learning_rate": 3.904091188897156e-06,
      "loss": 0.76253456,
      "num_input_tokens_seen": 4565495,
      "step": 219,
      "time_per_iteration": 2.8631958961486816
    },
    {
      "auxiliary_loss_clip": 0.01358132,
      "auxiliary_loss_mlp": 0.01074344,
      "balance_loss_clip": 1.09630239,
      "balance_loss_mlp": 1.04444671,
      "epoch": 0.026453435940600012,
      "flos": 17963846386560.0,
      "grad_norm": 2.1310976004303988,
      "language_loss": 0.81885785,
      "learning_rate": 3.90739163173548e-06,
      "loss": 0.84318262,
      "num_input_tokens_seen": 4583330,
      "step": 220,
      "time_per_iteration": 2.688850164413452
    },
    {
      "auxiliary_loss_clip": 0.01351434,
      "auxiliary_loss_mlp": 0.01072837,
      "balance_loss_clip": 1.09469271,
      "balance_loss_mlp": 1.04478717,
      "epoch": 0.026573678831239102,
      "flos": 18984319776000.0,
      "grad_norm": 2.409830606480603,
      "language_loss": 0.88398397,
      "learning_rate": 3.910677106527646e-06,
      "loss": 0.90822667,
      "num_input_tokens_seen": 4600520,
      "step": 221,
      "time_per_iteration": 2.669304609298706
    },
    {
      "auxiliary_loss_clip": 0.01352285,
      "auxiliary_loss_mlp": 0.01067429,
      "balance_loss_clip": 1.09581959,
      "balance_loss_mlp": 1.03834224,
      "epoch": 0.026693921721878195,
      "flos": 29241448634880.0,
      "grad_norm": 3.418635636852915,
      "language_loss": 0.84114403,
      "learning_rate": 3.913947748426004e-06,
      "loss": 0.86534119,
      "num_input_tokens_seen": 4617340,
      "step": 222,
      "time_per_iteration": 2.7824418544769287
    },
    {
      "auxiliary_loss_clip": 0.01355711,
      "auxiliary_loss_mlp": 0.01070224,
      "balance_loss_clip": 1.09723091,
      "balance_loss_mlp": 1.03989697,
      "epoch": 0.026814164612517285,
      "flos": 14128083797760.0,
      "grad_norm": 2.807527481971244,
      "language_loss": 0.76295251,
      "learning_rate": 3.9172036907606136e-06,
      "loss": 0.78721178,
      "num_input_tokens_seen": 4630820,
      "step": 223,
      "time_per_iteration": 3.556975841522217
    },
    {
      "auxiliary_loss_clip": 0.01352412,
      "auxiliary_loss_mlp": 0.01073152,
      "balance_loss_clip": 1.09354997,
      "balance_loss_mlp": 1.04342151,
      "epoch": 0.026934407503156375,
      "flos": 23511973115520.0,
      "grad_norm": 2.0029754004471716,
      "language_loss": 0.9513433,
      "learning_rate": 3.920445065071855e-06,
      "loss": 0.97559887,
      "num_input_tokens_seen": 4651985,
      "step": 224,
      "time_per_iteration": 2.7100839614868164
    },
    {
      "auxiliary_loss_clip": 0.0135327,
      "auxiliary_loss_mlp": 0.01076268,
      "balance_loss_clip": 1.09534669,
      "balance_loss_mlp": 1.04764581,
      "epoch": 0.027054650393795468,
      "flos": 28950356816640.0,
      "grad_norm": 3.301623054181508,
      "language_loss": 0.80100673,
      "learning_rate": 3.923672001142322e-06,
      "loss": 0.82530212,
      "num_input_tokens_seen": 4672295,
      "step": 225,
      "time_per_iteration": 3.7154831886291504
    },
    {
      "auxiliary_loss_clip": 0.01349177,
      "auxiliary_loss_mlp": 0.01068602,
      "balance_loss_clip": 1.09260738,
      "balance_loss_mlp": 1.03909791,
      "epoch": 0.027174893284434558,
      "flos": 31431568596480.0,
      "grad_norm": 2.744158481799327,
      "language_loss": 0.8421849,
      "learning_rate": 3.926884627027996e-06,
      "loss": 0.86636269,
      "num_input_tokens_seen": 4696065,
      "step": 226,
      "time_per_iteration": 4.337239027023315
    },
    {
      "auxiliary_loss_clip": 0.01348758,
      "auxiliary_loss_mlp": 0.01065222,
      "balance_loss_clip": 1.0917275,
      "balance_loss_mlp": 1.03762472,
      "epoch": 0.027295136175073648,
      "flos": 22054466949120.0,
      "grad_norm": 1.981513486042159,
      "language_loss": 0.77362335,
      "learning_rate": 3.930083069088744e-06,
      "loss": 0.79776317,
      "num_input_tokens_seen": 4716065,
      "step": 227,
      "time_per_iteration": 2.71325421333313
    },
    {
      "auxiliary_loss_clip": 0.01309876,
      "auxiliary_loss_mlp": 0.01019569,
      "balance_loss_clip": 1.1257813,
      "balance_loss_mlp": 0.99916011,
      "epoch": 0.02741537906571274,
      "flos": 60800752972800.0,
      "grad_norm": 0.9836484712667082,
      "language_loss": 0.59367973,
      "learning_rate": 3.933267452018137e-06,
      "loss": 0.61697417,
      "num_input_tokens_seen": 4775860,
      "step": 228,
      "time_per_iteration": 3.3155171871185303
    },
    {
      "auxiliary_loss_clip": 0.0135099,
      "auxiliary_loss_mlp": 0.01072955,
      "balance_loss_clip": 1.09735417,
      "balance_loss_mlp": 1.04470277,
      "epoch": 0.02753562195635183,
      "flos": 24606278910720.0,
      "grad_norm": 2.072158043896001,
      "language_loss": 0.8439424,
      "learning_rate": 3.936437898872622e-06,
      "loss": 0.86818182,
      "num_input_tokens_seen": 4795835,
      "step": 229,
      "time_per_iteration": 2.733614444732666
    },
    {
      "auxiliary_loss_clip": 0.01347045,
      "auxiliary_loss_mlp": 0.0106969,
      "balance_loss_clip": 1.09270418,
      "balance_loss_mlp": 1.03893423,
      "epoch": 0.02765586484699092,
      "flos": 34094236907520.0,
      "grad_norm": 2.3399317199454854,
      "language_loss": 0.7964828,
      "learning_rate": 3.9395945311000525e-06,
      "loss": 0.8206501,
      "num_input_tokens_seen": 4817460,
      "step": 230,
      "time_per_iteration": 2.8443479537963867
    },
    {
      "auxiliary_loss_clip": 0.01351542,
      "auxiliary_loss_mlp": 0.01078821,
      "balance_loss_clip": 1.09472239,
      "balance_loss_mlp": 1.05044913,
      "epoch": 0.027776107737630014,
      "flos": 14829922615680.0,
      "grad_norm": 2.27581891237192,
      "language_loss": 0.90662146,
      "learning_rate": 3.942737468567608e-06,
      "loss": 0.93092501,
      "num_input_tokens_seen": 4835475,
      "step": 231,
      "time_per_iteration": 2.8051555156707764
    },
    {
      "auxiliary_loss_clip": 0.01347755,
      "auxiliary_loss_mlp": 0.01083117,
      "balance_loss_clip": 1.09300733,
      "balance_loss_mlp": 1.05302823,
      "epoch": 0.027896350628269104,
      "flos": 47920347066240.0,
      "grad_norm": 2.000778334273397,
      "language_loss": 0.86016983,
      "learning_rate": 3.9458668295891026e-06,
      "loss": 0.88447857,
      "num_input_tokens_seen": 4857760,
      "step": 232,
      "time_per_iteration": 2.9909815788269043
    },
    {
      "auxiliary_loss_clip": 0.01347813,
      "auxiliary_loss_mlp": 0.01080015,
      "balance_loss_clip": 1.08931375,
      "balance_loss_mlp": 1.0514282,
      "epoch": 0.028016593518908194,
      "flos": 21684550734720.0,
      "grad_norm": 2.4584389337144223,
      "language_loss": 0.86789656,
      "learning_rate": 3.948982730951712e-06,
      "loss": 0.89217478,
      "num_input_tokens_seen": 4875855,
      "step": 233,
      "time_per_iteration": 2.7344624996185303
    },
    {
      "auxiliary_loss_clip": 0.01352062,
      "auxiliary_loss_mlp": 0.01084253,
      "balance_loss_clip": 1.09322333,
      "balance_loss_mlp": 1.05644131,
      "epoch": 0.028136836409547287,
      "flos": 18439483305600.0,
      "grad_norm": 2.1508445805426186,
      "language_loss": 0.82007641,
      "learning_rate": 3.9520852879421254e-06,
      "loss": 0.84443957,
      "num_input_tokens_seen": 4893200,
      "step": 234,
      "time_per_iteration": 2.7961225509643555
    },
    {
      "auxiliary_loss_clip": 0.01342526,
      "auxiliary_loss_mlp": 0.01056377,
      "balance_loss_clip": 1.09101081,
      "balance_loss_mlp": 1.02852941,
      "epoch": 0.028257079300186377,
      "flos": 31576934937600.0,
      "grad_norm": 2.3516745445844727,
      "language_loss": 0.81746435,
      "learning_rate": 3.955174614372137e-06,
      "loss": 0.84145331,
      "num_input_tokens_seen": 4912965,
      "step": 235,
      "time_per_iteration": 2.847465991973877
    },
    {
      "auxiliary_loss_clip": 0.01344715,
      "auxiliary_loss_mlp": 0.01072406,
      "balance_loss_clip": 1.09252894,
      "balance_loss_mlp": 1.04329538,
      "epoch": 0.028377322190825467,
      "flos": 23513337832320.0,
      "grad_norm": 2.146513644180416,
      "language_loss": 0.8440513,
      "learning_rate": 3.9582508226037045e-06,
      "loss": 0.86822253,
      "num_input_tokens_seen": 4933105,
      "step": 236,
      "time_per_iteration": 2.809724807739258
    },
    {
      "auxiliary_loss_clip": 0.0135409,
      "auxiliary_loss_mlp": 0.01070999,
      "balance_loss_clip": 1.09382164,
      "balance_loss_mlp": 1.04024339,
      "epoch": 0.02849756508146456,
      "flos": 20479604071680.0,
      "grad_norm": 2.811812240669917,
      "language_loss": 0.93871284,
      "learning_rate": 3.9613140235734636e-06,
      "loss": 0.9629637,
      "num_input_tokens_seen": 4950085,
      "step": 237,
      "time_per_iteration": 2.7825701236724854
    },
    {
      "auxiliary_loss_clip": 0.01348281,
      "auxiliary_loss_mlp": 0.01073092,
      "balance_loss_clip": 1.09442306,
      "balance_loss_mlp": 1.04487538,
      "epoch": 0.02861780797210365,
      "flos": 14283362292480.0,
      "grad_norm": 2.3985037482743583,
      "language_loss": 0.81065458,
      "learning_rate": 3.96436432681674e-06,
      "loss": 0.83486831,
      "num_input_tokens_seen": 4968075,
      "step": 238,
      "time_per_iteration": 2.7853283882141113
    },
    {
      "auxiliary_loss_clip": 0.01345197,
      "auxiliary_loss_mlp": 0.01072814,
      "balance_loss_clip": 1.09131479,
      "balance_loss_mlp": 1.04534829,
      "epoch": 0.02873805086274274,
      "flos": 25808532053760.0,
      "grad_norm": 3.457843190600408,
      "language_loss": 0.8945539,
      "learning_rate": 3.967401840491044e-06,
      "loss": 0.91873401,
      "num_input_tokens_seen": 4987355,
      "step": 239,
      "time_per_iteration": 2.9037280082702637
    },
    {
      "auxiliary_loss_clip": 0.01342904,
      "auxiliary_loss_mlp": 0.01073814,
      "balance_loss_clip": 1.09201431,
      "balance_loss_mlp": 1.04519153,
      "epoch": 0.028858293753381833,
      "flos": 17304238984320.0,
      "grad_norm": 2.0754927080922614,
      "language_loss": 0.87518901,
      "learning_rate": 3.97042667139909e-06,
      "loss": 0.89935619,
      "num_input_tokens_seen": 5004680,
      "step": 240,
      "time_per_iteration": 2.734773635864258
    },
    {
      "auxiliary_loss_clip": 0.01341982,
      "auxiliary_loss_mlp": 0.01067999,
      "balance_loss_clip": 1.0901767,
      "balance_loss_mlp": 1.0386852,
      "epoch": 0.028978536644020923,
      "flos": 23038347358080.0,
      "grad_norm": 2.186999089797687,
      "language_loss": 0.87477362,
      "learning_rate": 3.973438925011327e-06,
      "loss": 0.89887345,
      "num_input_tokens_seen": 5022965,
      "step": 241,
      "time_per_iteration": 2.750755548477173
    },
    {
      "auxiliary_loss_clip": 0.01343434,
      "auxiliary_loss_mlp": 0.01077875,
      "balance_loss_clip": 1.08785677,
      "balance_loss_mlp": 1.04854965,
      "epoch": 0.029098779534660012,
      "flos": 28329712692480.0,
      "grad_norm": 2.4146663725199895,
      "language_loss": 0.91221261,
      "learning_rate": 3.976438705488002e-06,
      "loss": 0.93642569,
      "num_input_tokens_seen": 5042625,
      "step": 242,
      "time_per_iteration": 2.804582357406616
    },
    {
      "auxiliary_loss_clip": 0.01341046,
      "auxiliary_loss_mlp": 0.01061839,
      "balance_loss_clip": 1.09384942,
      "balance_loss_mlp": 1.0335387,
      "epoch": 0.029219022425299106,
      "flos": 13881665520000.0,
      "grad_norm": 2.900178460619419,
      "language_loss": 0.93092078,
      "learning_rate": 3.9794261157007744e-06,
      "loss": 0.95494962,
      "num_input_tokens_seen": 5060380,
      "step": 243,
      "time_per_iteration": 2.6590633392333984
    },
    {
      "auxiliary_loss_clip": 0.01350474,
      "auxiliary_loss_mlp": 0.01068644,
      "balance_loss_clip": 1.09314752,
      "balance_loss_mlp": 1.03960478,
      "epoch": 0.029339265315938196,
      "flos": 19422501788160.0,
      "grad_norm": 2.7462482462240283,
      "language_loss": 0.84630132,
      "learning_rate": 3.982401257253887e-06,
      "loss": 0.87049258,
      "num_input_tokens_seen": 5078720,
      "step": 244,
      "time_per_iteration": 2.7084951400756836
    },
    {
      "auxiliary_loss_clip": 0.01341206,
      "auxiliary_loss_mlp": 0.01072767,
      "balance_loss_clip": 1.08849239,
      "balance_loss_mlp": 1.04629087,
      "epoch": 0.029459508206577285,
      "flos": 15669550005120.0,
      "grad_norm": 2.108907658279739,
      "language_loss": 0.89871395,
      "learning_rate": 3.985364230504893e-06,
      "loss": 0.92285365,
      "num_input_tokens_seen": 5096605,
      "step": 245,
      "time_per_iteration": 2.6260862350463867
    },
    {
      "auxiliary_loss_clip": 0.01342338,
      "auxiliary_loss_mlp": 0.01071693,
      "balance_loss_clip": 1.09193623,
      "balance_loss_mlp": 1.04514539,
      "epoch": 0.02957975109721638,
      "flos": 28220975245440.0,
      "grad_norm": 2.287990337258012,
      "language_loss": 0.84239638,
      "learning_rate": 3.988315134584976e-06,
      "loss": 0.86653668,
      "num_input_tokens_seen": 5116285,
      "step": 246,
      "time_per_iteration": 2.6821646690368652
    },
    {
      "auxiliary_loss_clip": 0.01345643,
      "auxiliary_loss_mlp": 0.0106961,
      "balance_loss_clip": 1.09229708,
      "balance_loss_mlp": 1.03980756,
      "epoch": 0.02969999398785547,
      "flos": 24315869450880.0,
      "grad_norm": 1.853168627577532,
      "language_loss": 0.80472052,
      "learning_rate": 3.991254067418851e-06,
      "loss": 0.82887304,
      "num_input_tokens_seen": 5136825,
      "step": 247,
      "time_per_iteration": 2.7353100776672363
    },
    {
      "auxiliary_loss_clip": 0.01339657,
      "auxiliary_loss_mlp": 0.01064424,
      "balance_loss_clip": 1.09255958,
      "balance_loss_mlp": 1.03785276,
      "epoch": 0.02982023687849456,
      "flos": 35078584193280.0,
      "grad_norm": 2.836054503966303,
      "language_loss": 0.83084112,
      "learning_rate": 3.994181125744254e-06,
      "loss": 0.85488194,
      "num_input_tokens_seen": 5158630,
      "step": 248,
      "time_per_iteration": 2.7738261222839355
    },
    {
      "auxiliary_loss_clip": 0.01338274,
      "auxiliary_loss_mlp": 0.01065188,
      "balance_loss_clip": 1.08894348,
      "balance_loss_mlp": 1.03745961,
      "epoch": 0.02994047976913365,
      "flos": 26177155378560.0,
      "grad_norm": 1.91248942886447,
      "language_loss": 0.73988497,
      "learning_rate": 3.99709640513106e-06,
      "loss": 0.76391959,
      "num_input_tokens_seen": 5179510,
      "step": 249,
      "time_per_iteration": 3.6127490997314453
    },
    {
      "auxiliary_loss_clip": 0.01344488,
      "auxiliary_loss_mlp": 0.01068955,
      "balance_loss_clip": 1.09231424,
      "balance_loss_mlp": 1.04084575,
      "epoch": 0.03006072265977274,
      "flos": 25625028447360.0,
      "grad_norm": 1.9330320207939153,
      "language_loss": 0.85627335,
      "learning_rate": 4e-06,
      "loss": 0.88040787,
      "num_input_tokens_seen": 5199345,
      "step": 250,
      "time_per_iteration": 2.714240550994873
    },
    {
      "auxiliary_loss_clip": 0.01336372,
      "auxiliary_loss_mlp": 0.01063689,
      "balance_loss_clip": 1.08951461,
      "balance_loss_mlp": 1.03710568,
      "epoch": 0.03018096555041183,
      "flos": 22127078292480.0,
      "grad_norm": 2.734374049874245,
      "language_loss": 0.88378108,
      "learning_rate": 3.999999848300794e-06,
      "loss": 0.90778172,
      "num_input_tokens_seen": 5218330,
      "step": 251,
      "time_per_iteration": 2.821624755859375
    },
    {
      "auxiliary_loss_clip": 0.01329486,
      "auxiliary_loss_mlp": 0.01075531,
      "balance_loss_clip": 1.08459258,
      "balance_loss_mlp": 1.04960334,
      "epoch": 0.030301208441050925,
      "flos": 30188197359360.0,
      "grad_norm": 1.9772924559358798,
      "language_loss": 0.8917315,
      "learning_rate": 3.999999393203203e-06,
      "loss": 0.91578162,
      "num_input_tokens_seen": 5240740,
      "step": 252,
      "time_per_iteration": 3.9485185146331787
    },
    {
      "auxiliary_loss_clip": 0.01334179,
      "auxiliary_loss_mlp": 0.01062982,
      "balance_loss_clip": 1.08651268,
      "balance_loss_mlp": 1.03680348,
      "epoch": 0.030421451331690014,
      "flos": 23621392920960.0,
      "grad_norm": 1.8806433339737332,
      "language_loss": 0.85117674,
      "learning_rate": 3.999998634707293e-06,
      "loss": 0.8751483,
      "num_input_tokens_seen": 5260290,
      "step": 253,
      "time_per_iteration": 3.771728277206421
    },
    {
      "auxiliary_loss_clip": 0.01342954,
      "auxiliary_loss_mlp": 0.01068863,
      "balance_loss_clip": 1.0918746,
      "balance_loss_mlp": 1.04130185,
      "epoch": 0.030541694222329104,
      "flos": 27928446883200.0,
      "grad_norm": 2.671391273732725,
      "language_loss": 0.96481407,
      "learning_rate": 3.999997572813182e-06,
      "loss": 0.98893219,
      "num_input_tokens_seen": 5278100,
      "step": 254,
      "time_per_iteration": 2.8347268104553223
    },
    {
      "auxiliary_loss_clip": 0.01338588,
      "auxiliary_loss_mlp": 0.01066913,
      "balance_loss_clip": 1.09155953,
      "balance_loss_mlp": 1.03975666,
      "epoch": 0.030661937112968194,
      "flos": 18588441006720.0,
      "grad_norm": 1.9061962577086045,
      "language_loss": 0.87688726,
      "learning_rate": 3.999996207521028e-06,
      "loss": 0.90094221,
      "num_input_tokens_seen": 5296810,
      "step": 255,
      "time_per_iteration": 2.8249576091766357
    },
    {
      "auxiliary_loss_clip": 0.01338037,
      "auxiliary_loss_mlp": 0.01067118,
      "balance_loss_clip": 1.08636189,
      "balance_loss_mlp": 1.04104662,
      "epoch": 0.030782180003607287,
      "flos": 12969139478400.0,
      "grad_norm": 2.408941554482331,
      "language_loss": 0.82207733,
      "learning_rate": 3.999994538831039e-06,
      "loss": 0.84612882,
      "num_input_tokens_seen": 5313395,
      "step": 256,
      "time_per_iteration": 2.67334246635437
    },
    {
      "auxiliary_loss_clip": 0.01336823,
      "auxiliary_loss_mlp": 0.01069801,
      "balance_loss_clip": 1.08740354,
      "balance_loss_mlp": 1.0431335,
      "epoch": 0.030902422894246377,
      "flos": 23335364920320.0,
      "grad_norm": 2.7061344458352043,
      "language_loss": 0.85956985,
      "learning_rate": 3.99999256674347e-06,
      "loss": 0.88363606,
      "num_input_tokens_seen": 5333545,
      "step": 257,
      "time_per_iteration": 2.8208038806915283
    },
    {
      "auxiliary_loss_clip": 0.01282944,
      "auxiliary_loss_mlp": 0.01030691,
      "balance_loss_clip": 1.10917723,
      "balance_loss_mlp": 1.01180863,
      "epoch": 0.031022665784885467,
      "flos": 55094151438720.0,
      "grad_norm": 1.0095313823355638,
      "language_loss": 0.53508103,
      "learning_rate": 3.999990291258618e-06,
      "loss": 0.55821729,
      "num_input_tokens_seen": 5392235,
      "step": 258,
      "time_per_iteration": 3.226665735244751
    },
    {
      "auxiliary_loss_clip": 0.01339253,
      "auxiliary_loss_mlp": 0.01068432,
      "balance_loss_clip": 1.09123385,
      "balance_loss_mlp": 1.04115701,
      "epoch": 0.03114290867552456,
      "flos": 19317786664320.0,
      "grad_norm": 3.022779737026142,
      "language_loss": 0.86504638,
      "learning_rate": 3.999987712376829e-06,
      "loss": 0.8891232,
      "num_input_tokens_seen": 5410555,
      "step": 259,
      "time_per_iteration": 2.7717294692993164
    },
    {
      "auxiliary_loss_clip": 0.0133598,
      "auxiliary_loss_mlp": 0.01071361,
      "balance_loss_clip": 1.09275198,
      "balance_loss_mlp": 1.04480076,
      "epoch": 0.031263151566163654,
      "flos": 20959442881920.0,
      "grad_norm": 2.2532659536070447,
      "language_loss": 0.82188445,
      "learning_rate": 3.999984830098494e-06,
      "loss": 0.84595788,
      "num_input_tokens_seen": 5430135,
      "step": 260,
      "time_per_iteration": 2.678410768508911
    },
    {
      "auxiliary_loss_clip": 0.01338389,
      "auxiliary_loss_mlp": 0.01071967,
      "balance_loss_clip": 1.08965778,
      "balance_loss_mlp": 1.04566956,
      "epoch": 0.03138339445680274,
      "flos": 14793006412800.0,
      "grad_norm": 2.6193689652191012,
      "language_loss": 0.98223042,
      "learning_rate": 3.999981644424051e-06,
      "loss": 1.00633395,
      "num_input_tokens_seen": 5444935,
      "step": 261,
      "time_per_iteration": 2.7247955799102783
    },
    {
      "auxiliary_loss_clip": 0.01334529,
      "auxiliary_loss_mlp": 0.01059219,
      "balance_loss_clip": 1.09012818,
      "balance_loss_mlp": 1.0335418,
      "epoch": 0.03150363734744183,
      "flos": 11655599022720.0,
      "grad_norm": 2.584254332939142,
      "language_loss": 0.85989738,
      "learning_rate": 3.999978155353982e-06,
      "loss": 0.8838349,
      "num_input_tokens_seen": 5462080,
      "step": 262,
      "time_per_iteration": 2.653933525085449
    },
    {
      "auxiliary_loss_clip": 0.01332008,
      "auxiliary_loss_mlp": 0.0106694,
      "balance_loss_clip": 1.08470273,
      "balance_loss_mlp": 1.03971219,
      "epoch": 0.03162388023808092,
      "flos": 33727732485120.0,
      "grad_norm": 2.3780154409395897,
      "language_loss": 0.80511343,
      "learning_rate": 3.9999743628888186e-06,
      "loss": 0.82910287,
      "num_input_tokens_seen": 5483870,
      "step": 263,
      "time_per_iteration": 2.750488758087158
    },
    {
      "auxiliary_loss_clip": 0.01332792,
      "auxiliary_loss_mlp": 0.01067002,
      "balance_loss_clip": 1.08652496,
      "balance_loss_mlp": 1.04149139,
      "epoch": 0.03174412312872001,
      "flos": 20810952057600.0,
      "grad_norm": 2.509756558678735,
      "language_loss": 0.8946088,
      "learning_rate": 3.999970267029133e-06,
      "loss": 0.91860676,
      "num_input_tokens_seen": 5502830,
      "step": 264,
      "time_per_iteration": 2.7279698848724365
    },
    {
      "auxiliary_loss_clip": 0.01329667,
      "auxiliary_loss_mlp": 0.01062118,
      "balance_loss_clip": 1.08775139,
      "balance_loss_mlp": 1.03483057,
      "epoch": 0.0318643660193591,
      "flos": 23727939638400.0,
      "grad_norm": 1.7620068086824994,
      "language_loss": 0.80099434,
      "learning_rate": 3.999965867775548e-06,
      "loss": 0.82491219,
      "num_input_tokens_seen": 5523225,
      "step": 265,
      "time_per_iteration": 2.669804096221924
    },
    {
      "auxiliary_loss_clip": 0.01329228,
      "auxiliary_loss_mlp": 0.01070567,
      "balance_loss_clip": 1.08436501,
      "balance_loss_mlp": 1.04390025,
      "epoch": 0.0319846089099982,
      "flos": 13917863450880.0,
      "grad_norm": 2.3062413214653237,
      "language_loss": 0.86505145,
      "learning_rate": 3.9999611651287315e-06,
      "loss": 0.88904941,
      "num_input_tokens_seen": 5541380,
      "step": 266,
      "time_per_iteration": 2.6104323863983154
    },
    {
      "auxiliary_loss_clip": 0.01335671,
      "auxiliary_loss_mlp": 0.01063909,
      "balance_loss_clip": 1.08635938,
      "balance_loss_mlp": 1.03742075,
      "epoch": 0.03210485180063729,
      "flos": 14753253035520.0,
      "grad_norm": 2.347770087349548,
      "language_loss": 0.7866323,
      "learning_rate": 3.999956159089396e-06,
      "loss": 0.81062812,
      "num_input_tokens_seen": 5558830,
      "step": 267,
      "time_per_iteration": 2.6345815658569336
    },
    {
      "auxiliary_loss_clip": 0.01330139,
      "auxiliary_loss_mlp": 0.01062644,
      "balance_loss_clip": 1.08743048,
      "balance_loss_mlp": 1.03821838,
      "epoch": 0.03222509469127638,
      "flos": 28913153304960.0,
      "grad_norm": 2.2245719813734697,
      "language_loss": 0.79538327,
      "learning_rate": 3.999950849658302e-06,
      "loss": 0.81931114,
      "num_input_tokens_seen": 5577750,
      "step": 268,
      "time_per_iteration": 2.750157594680786
    },
    {
      "auxiliary_loss_clip": 0.0133293,
      "auxiliary_loss_mlp": 0.01070735,
      "balance_loss_clip": 1.08760893,
      "balance_loss_mlp": 1.04442596,
      "epoch": 0.03234533758191547,
      "flos": 16946389739520.0,
      "grad_norm": 2.481366639987666,
      "language_loss": 0.84168994,
      "learning_rate": 3.999945236836254e-06,
      "loss": 0.86572659,
      "num_input_tokens_seen": 5596715,
      "step": 269,
      "time_per_iteration": 2.6822941303253174
    },
    {
      "auxiliary_loss_clip": 0.01338456,
      "auxiliary_loss_mlp": 0.0106651,
      "balance_loss_clip": 1.09217548,
      "balance_loss_mlp": 1.03961611,
      "epoch": 0.03246558047255456,
      "flos": 18989096284800.0,
      "grad_norm": 2.508904833234711,
      "language_loss": 0.94406819,
      "learning_rate": 3.999939320624103e-06,
      "loss": 0.96811783,
      "num_input_tokens_seen": 5611865,
      "step": 270,
      "time_per_iteration": 2.7429726123809814
    },
    {
      "auxiliary_loss_clip": 0.01335134,
      "auxiliary_loss_mlp": 0.01072002,
      "balance_loss_clip": 1.08949614,
      "balance_loss_mlp": 1.04582334,
      "epoch": 0.03258582336319365,
      "flos": 23728334688000.0,
      "grad_norm": 2.041823044399542,
      "language_loss": 0.89860415,
      "learning_rate": 3.999933101022749e-06,
      "loss": 0.92267543,
      "num_input_tokens_seen": 5632270,
      "step": 271,
      "time_per_iteration": 2.73502516746521
    },
    {
      "auxiliary_loss_clip": 0.01334279,
      "auxiliary_loss_mlp": 0.01064927,
      "balance_loss_clip": 1.0894413,
      "balance_loss_mlp": 1.03895116,
      "epoch": 0.032706066253832745,
      "flos": 27670823562240.0,
      "grad_norm": 2.16389334061173,
      "language_loss": 0.86956573,
      "learning_rate": 3.999926578033132e-06,
      "loss": 0.89355779,
      "num_input_tokens_seen": 5652085,
      "step": 272,
      "time_per_iteration": 2.7667829990386963
    },
    {
      "auxiliary_loss_clip": 0.01332916,
      "auxiliary_loss_mlp": 0.01064295,
      "balance_loss_clip": 1.08547866,
      "balance_loss_mlp": 1.03814077,
      "epoch": 0.032826309144471835,
      "flos": 45624685968000.0,
      "grad_norm": 1.892538093003825,
      "language_loss": 0.62850696,
      "learning_rate": 3.999919751656244e-06,
      "loss": 0.65247905,
      "num_input_tokens_seen": 5678985,
      "step": 273,
      "time_per_iteration": 2.974152088165283
    },
    {
      "auxiliary_loss_clip": 0.01330033,
      "auxiliary_loss_mlp": 0.0107412,
      "balance_loss_clip": 1.08686316,
      "balance_loss_mlp": 1.04722667,
      "epoch": 0.032946552035110925,
      "flos": 25812374808960.0,
      "grad_norm": 2.550961754949167,
      "language_loss": 0.75660181,
      "learning_rate": 3.9999126218931195e-06,
      "loss": 0.7806434,
      "num_input_tokens_seen": 5697020,
      "step": 274,
      "time_per_iteration": 2.7484490871429443
    },
    {
      "auxiliary_loss_clip": 0.01335679,
      "auxiliary_loss_mlp": 0.01060477,
      "balance_loss_clip": 1.09088445,
      "balance_loss_mlp": 1.03563416,
      "epoch": 0.033066794925750015,
      "flos": 15121984101120.0,
      "grad_norm": 2.3018137444154116,
      "language_loss": 0.89441019,
      "learning_rate": 3.99990518874484e-06,
      "loss": 0.9183718,
      "num_input_tokens_seen": 5713460,
      "step": 275,
      "time_per_iteration": 3.5502777099609375
    },
    {
      "auxiliary_loss_clip": 0.01330803,
      "auxiliary_loss_mlp": 0.0106299,
      "balance_loss_clip": 1.08943081,
      "balance_loss_mlp": 1.0358696,
      "epoch": 0.033187037816389105,
      "flos": 22776593973120.0,
      "grad_norm": 2.535985965182684,
      "language_loss": 0.92625415,
      "learning_rate": 3.999897452212534e-06,
      "loss": 0.95019209,
      "num_input_tokens_seen": 5730790,
      "step": 276,
      "time_per_iteration": 2.6701111793518066
    },
    {
      "auxiliary_loss_clip": 0.01329423,
      "auxiliary_loss_mlp": 0.01063401,
      "balance_loss_clip": 1.08606219,
      "balance_loss_mlp": 1.03734183,
      "epoch": 0.033307280707028195,
      "flos": 23331414424320.0,
      "grad_norm": 2.2998929029936686,
      "language_loss": 1.0019995,
      "learning_rate": 3.999889412297374e-06,
      "loss": 1.02592778,
      "num_input_tokens_seen": 5750215,
      "step": 277,
      "time_per_iteration": 2.700061798095703
    },
    {
      "auxiliary_loss_clip": 0.01332226,
      "auxiliary_loss_mlp": 0.01056491,
      "balance_loss_clip": 1.08627844,
      "balance_loss_mlp": 1.03090835,
      "epoch": 0.03342752359766729,
      "flos": 28840290566400.0,
      "grad_norm": 2.5428220672134874,
      "language_loss": 0.79224372,
      "learning_rate": 3.999881069000581e-06,
      "loss": 0.81613088,
      "num_input_tokens_seen": 5769945,
      "step": 278,
      "time_per_iteration": 4.726094484329224
    },
    {
      "auxiliary_loss_clip": 0.01329326,
      "auxiliary_loss_mlp": 0.01068439,
      "balance_loss_clip": 1.08677661,
      "balance_loss_mlp": 1.04224873,
      "epoch": 0.03354776648830638,
      "flos": 19384544090880.0,
      "grad_norm": 4.012863941865979,
      "language_loss": 0.86999035,
      "learning_rate": 3.99987242232342e-06,
      "loss": 0.89396799,
      "num_input_tokens_seen": 5784950,
      "step": 279,
      "time_per_iteration": 2.6338553428649902
    },
    {
      "auxiliary_loss_clip": 0.01329575,
      "auxiliary_loss_mlp": 0.01073858,
      "balance_loss_clip": 1.08885455,
      "balance_loss_mlp": 1.04896665,
      "epoch": 0.03366800937894547,
      "flos": 17858628472320.0,
      "grad_norm": 2.41946417446874,
      "language_loss": 0.79867154,
      "learning_rate": 3.9998634722672026e-06,
      "loss": 0.82270586,
      "num_input_tokens_seen": 5805005,
      "step": 280,
      "time_per_iteration": 3.627795934677124
    },
    {
      "auxiliary_loss_clip": 0.0133454,
      "auxiliary_loss_mlp": 0.01053153,
      "balance_loss_clip": 1.09042299,
      "balance_loss_mlp": 1.02780914,
      "epoch": 0.03378825226958456,
      "flos": 35951033635200.0,
      "grad_norm": 3.0285755360085957,
      "language_loss": 0.78595203,
      "learning_rate": 3.999854218833286e-06,
      "loss": 0.80982894,
      "num_input_tokens_seen": 5825825,
      "step": 281,
      "time_per_iteration": 2.8592841625213623
    },
    {
      "auxiliary_loss_clip": 0.01330022,
      "auxiliary_loss_mlp": 0.01060706,
      "balance_loss_clip": 1.08892381,
      "balance_loss_mlp": 1.03444481,
      "epoch": 0.03390849516022365,
      "flos": 25702488126720.0,
      "grad_norm": 2.003395784213287,
      "language_loss": 0.81814945,
      "learning_rate": 3.999844662023075e-06,
      "loss": 0.84205675,
      "num_input_tokens_seen": 5845700,
      "step": 282,
      "time_per_iteration": 2.6754307746887207
    },
    {
      "auxiliary_loss_clip": 0.01321425,
      "auxiliary_loss_mlp": 0.01069146,
      "balance_loss_clip": 1.08303571,
      "balance_loss_mlp": 1.04418397,
      "epoch": 0.03402873805086274,
      "flos": 21284505987840.0,
      "grad_norm": 1.8967530764484521,
      "language_loss": 0.92142737,
      "learning_rate": 3.999834801838018e-06,
      "loss": 0.94533312,
      "num_input_tokens_seen": 5864680,
      "step": 283,
      "time_per_iteration": 2.6952195167541504
    },
    {
      "auxiliary_loss_clip": 0.01328014,
      "auxiliary_loss_mlp": 0.01072945,
      "balance_loss_clip": 1.08825004,
      "balance_loss_mlp": 1.04768431,
      "epoch": 0.03414898094150183,
      "flos": 22710913954560.0,
      "grad_norm": 1.7712975217062699,
      "language_loss": 0.73956072,
      "learning_rate": 3.9998246382796115e-06,
      "loss": 0.76357031,
      "num_input_tokens_seen": 5884260,
      "step": 284,
      "time_per_iteration": 2.6624972820281982
    },
    {
      "auxiliary_loss_clip": 0.01329853,
      "auxiliary_loss_mlp": 0.0106042,
      "balance_loss_clip": 1.08624244,
      "balance_loss_mlp": 1.03474271,
      "epoch": 0.03426922383214093,
      "flos": 18879927874560.0,
      "grad_norm": 2.4950838165407574,
      "language_loss": 0.90952992,
      "learning_rate": 3.999814171349399e-06,
      "loss": 0.9334327,
      "num_input_tokens_seen": 5902120,
      "step": 285,
      "time_per_iteration": 2.7046127319335938
    },
    {
      "auxiliary_loss_clip": 0.0132465,
      "auxiliary_loss_mlp": 0.01061314,
      "balance_loss_clip": 1.08603787,
      "balance_loss_mlp": 1.0357908,
      "epoch": 0.03438946672278002,
      "flos": 34752012716160.0,
      "grad_norm": 1.9807706165900414,
      "language_loss": 0.73707569,
      "learning_rate": 3.9998034010489655e-06,
      "loss": 0.76093531,
      "num_input_tokens_seen": 5925810,
      "step": 286,
      "time_per_iteration": 2.7379329204559326
    },
    {
      "auxiliary_loss_clip": 0.01326133,
      "auxiliary_loss_mlp": 0.01050556,
      "balance_loss_clip": 1.08720589,
      "balance_loss_mlp": 1.02531934,
      "epoch": 0.03450970961341911,
      "flos": 22164102236160.0,
      "grad_norm": 2.4821976284716207,
      "language_loss": 0.758515,
      "learning_rate": 3.999792327379946e-06,
      "loss": 0.78228199,
      "num_input_tokens_seen": 5945185,
      "step": 287,
      "time_per_iteration": 2.6957995891571045
    },
    {
      "auxiliary_loss_clip": 0.01326396,
      "auxiliary_loss_mlp": 0.01066399,
      "balance_loss_clip": 1.08972049,
      "balance_loss_mlp": 1.04095984,
      "epoch": 0.034629952504058197,
      "flos": 21725740656000.0,
      "grad_norm": 2.1181795211092584,
      "language_loss": 0.96223897,
      "learning_rate": 3.999780950344021e-06,
      "loss": 0.98616695,
      "num_input_tokens_seen": 5963375,
      "step": 288,
      "time_per_iteration": 2.6371941566467285
    },
    {
      "auxiliary_loss_clip": 0.01333725,
      "auxiliary_loss_mlp": 0.01076507,
      "balance_loss_clip": 1.09000826,
      "balance_loss_mlp": 1.04879141,
      "epoch": 0.034750195394697286,
      "flos": 20047994248320.0,
      "grad_norm": 1.9099915312065356,
      "language_loss": 0.8275702,
      "learning_rate": 3.999769269942916e-06,
      "loss": 0.85167253,
      "num_input_tokens_seen": 5983415,
      "step": 289,
      "time_per_iteration": 2.685689926147461
    },
    {
      "auxiliary_loss_clip": 0.01323148,
      "auxiliary_loss_mlp": 0.01064702,
      "balance_loss_clip": 1.08519554,
      "balance_loss_mlp": 1.03926265,
      "epoch": 0.034870438285336376,
      "flos": 27965865876480.0,
      "grad_norm": 2.5491504998422103,
      "language_loss": 0.8132084,
      "learning_rate": 3.999757286178402e-06,
      "loss": 0.83708692,
      "num_input_tokens_seen": 6005850,
      "step": 290,
      "time_per_iteration": 2.666391611099243
    },
    {
      "auxiliary_loss_clip": 0.01325287,
      "auxiliary_loss_mlp": 0.01066363,
      "balance_loss_clip": 1.08580661,
      "balance_loss_mlp": 1.03845632,
      "epoch": 0.03499068117597547,
      "flos": 22017514832640.0,
      "grad_norm": 1.798445031601178,
      "language_loss": 0.90597796,
      "learning_rate": 3.999744999052299e-06,
      "loss": 0.92989445,
      "num_input_tokens_seen": 6027240,
      "step": 291,
      "time_per_iteration": 2.622845411300659
    },
    {
      "auxiliary_loss_clip": 0.01250988,
      "auxiliary_loss_mlp": 0.01022653,
      "balance_loss_clip": 1.08634138,
      "balance_loss_mlp": 1.00453365,
      "epoch": 0.03511092406661456,
      "flos": 57242147725440.0,
      "grad_norm": 0.9585825464741764,
      "language_loss": 0.6121856,
      "learning_rate": 3.9997324085664675e-06,
      "loss": 0.63492203,
      "num_input_tokens_seen": 6087470,
      "step": 292,
      "time_per_iteration": 3.1872425079345703
    },
    {
      "auxiliary_loss_clip": 0.0132258,
      "auxiliary_loss_mlp": 0.01066968,
      "balance_loss_clip": 1.08340251,
      "balance_loss_mlp": 1.0420177,
      "epoch": 0.03523116695725365,
      "flos": 22928065626240.0,
      "grad_norm": 2.4335550763726475,
      "language_loss": 0.92047286,
      "learning_rate": 3.999719514722821e-06,
      "loss": 0.94436836,
      "num_input_tokens_seen": 6107600,
      "step": 293,
      "time_per_iteration": 2.6225619316101074
    },
    {
      "auxiliary_loss_clip": 0.01323277,
      "auxiliary_loss_mlp": 0.0106486,
      "balance_loss_clip": 1.08782673,
      "balance_loss_mlp": 1.03909862,
      "epoch": 0.03535140984789274,
      "flos": 36903241226880.0,
      "grad_norm": 2.2220324919137955,
      "language_loss": 0.74507213,
      "learning_rate": 3.999706317523314e-06,
      "loss": 0.76895356,
      "num_input_tokens_seen": 6126160,
      "step": 294,
      "time_per_iteration": 2.7796084880828857
    },
    {
      "auxiliary_loss_clip": 0.01321721,
      "auxiliary_loss_mlp": 0.01065248,
      "balance_loss_clip": 1.08730292,
      "balance_loss_mlp": 1.0397017,
      "epoch": 0.03547165273853183,
      "flos": 20449152316800.0,
      "grad_norm": 2.085120243647287,
      "language_loss": 0.86057937,
      "learning_rate": 3.999692816969948e-06,
      "loss": 0.88444912,
      "num_input_tokens_seen": 6145695,
      "step": 295,
      "time_per_iteration": 2.675828456878662
    },
    {
      "auxiliary_loss_clip": 0.0124529,
      "auxiliary_loss_mlp": 0.01018197,
      "balance_loss_clip": 1.08334899,
      "balance_loss_mlp": 1.00026798,
      "epoch": 0.03559189562917092,
      "flos": 69850564871040.0,
      "grad_norm": 0.9973215762472061,
      "language_loss": 0.69434762,
      "learning_rate": 3.999679013064772e-06,
      "loss": 0.71698248,
      "num_input_tokens_seen": 6212440,
      "step": 296,
      "time_per_iteration": 3.2724685668945312
    },
    {
      "auxiliary_loss_clip": 0.01317254,
      "auxiliary_loss_mlp": 0.01058473,
      "balance_loss_clip": 1.08263874,
      "balance_loss_mlp": 1.03321278,
      "epoch": 0.03571213851981002,
      "flos": 21651944163840.0,
      "grad_norm": 2.7519067191713837,
      "language_loss": 0.85573006,
      "learning_rate": 3.99966490580988e-06,
      "loss": 0.87948728,
      "num_input_tokens_seen": 6229800,
      "step": 297,
      "time_per_iteration": 2.6334431171417236
    },
    {
      "auxiliary_loss_clip": 0.01330749,
      "auxiliary_loss_mlp": 0.01066304,
      "balance_loss_clip": 1.09102917,
      "balance_loss_mlp": 1.03921962,
      "epoch": 0.03583238141044911,
      "flos": 43945610757120.0,
      "grad_norm": 2.3503695713685873,
      "language_loss": 0.65999198,
      "learning_rate": 3.999650495207411e-06,
      "loss": 0.68396258,
      "num_input_tokens_seen": 6255825,
      "step": 298,
      "time_per_iteration": 2.8235418796539307
    },
    {
      "auxiliary_loss_clip": 0.01325001,
      "auxiliary_loss_mlp": 0.01068584,
      "balance_loss_clip": 1.08546519,
      "balance_loss_mlp": 1.04092729,
      "epoch": 0.0359526243010882,
      "flos": 18910810592640.0,
      "grad_norm": 2.691848048252058,
      "language_loss": 0.90236646,
      "learning_rate": 3.999635781259553e-06,
      "loss": 0.92630231,
      "num_input_tokens_seen": 6271090,
      "step": 299,
      "time_per_iteration": 2.6110684871673584
    },
    {
      "auxiliary_loss_clip": 0.01236914,
      "auxiliary_loss_mlp": 0.01018966,
      "balance_loss_clip": 1.07822943,
      "balance_loss_mlp": 1.00141835,
      "epoch": 0.03607286719172729,
      "flos": 61668892782720.0,
      "grad_norm": 0.9231956480904806,
      "language_loss": 0.52330536,
      "learning_rate": 3.999620763968535e-06,
      "loss": 0.54586416,
      "num_input_tokens_seen": 6329965,
      "step": 300,
      "time_per_iteration": 3.068264961242676
    },
    {
      "auxiliary_loss_clip": 0.01326835,
      "auxiliary_loss_mlp": 0.01062865,
      "balance_loss_clip": 1.09105253,
      "balance_loss_mlp": 1.03840292,
      "epoch": 0.03619311008236638,
      "flos": 27819062991360.0,
      "grad_norm": 2.036044283784039,
      "language_loss": 0.8634603,
      "learning_rate": 3.999605443336638e-06,
      "loss": 0.88735729,
      "num_input_tokens_seen": 6352095,
      "step": 301,
      "time_per_iteration": 2.7350971698760986
    },
    {
      "auxiliary_loss_clip": 0.01323451,
      "auxiliary_loss_mlp": 0.01061327,
      "balance_loss_clip": 1.08445001,
      "balance_loss_mlp": 1.03512466,
      "epoch": 0.03631335297300547,
      "flos": 13621133197440.0,
      "grad_norm": 2.382188179572331,
      "language_loss": 0.89259875,
      "learning_rate": 3.999589819366185e-06,
      "loss": 0.91644657,
      "num_input_tokens_seen": 6365885,
      "step": 302,
      "time_per_iteration": 3.4955031871795654
    },
    {
      "auxiliary_loss_clip": 0.01320945,
      "auxiliary_loss_mlp": 0.01069791,
      "balance_loss_clip": 1.08364487,
      "balance_loss_mlp": 1.04332638,
      "epoch": 0.036433595863644565,
      "flos": 27631788456960.0,
      "grad_norm": 1.9721621164623537,
      "language_loss": 0.84896183,
      "learning_rate": 3.999573892059547e-06,
      "loss": 0.87286925,
      "num_input_tokens_seen": 6385015,
      "step": 303,
      "time_per_iteration": 2.7066211700439453
    },
    {
      "auxiliary_loss_clip": 0.01328981,
      "auxiliary_loss_mlp": 0.01056429,
      "balance_loss_clip": 1.0872457,
      "balance_loss_mlp": 1.03071547,
      "epoch": 0.036553838754283655,
      "flos": 24572020314240.0,
      "grad_norm": 1.9771107993789179,
      "language_loss": 0.81024289,
      "learning_rate": 3.999557661419138e-06,
      "loss": 0.83409697,
      "num_input_tokens_seen": 6405165,
      "step": 304,
      "time_per_iteration": 3.67822003364563
    },
    {
      "auxiliary_loss_clip": 0.01323453,
      "auxiliary_loss_mlp": 0.01063975,
      "balance_loss_clip": 1.08733809,
      "balance_loss_mlp": 1.03882205,
      "epoch": 0.036674081644922744,
      "flos": 23404313076480.0,
      "grad_norm": 3.4841364326394575,
      "language_loss": 0.81069016,
      "learning_rate": 3.9995411274474225e-06,
      "loss": 0.83456439,
      "num_input_tokens_seen": 6424445,
      "step": 305,
      "time_per_iteration": 2.6512134075164795
    },
    {
      "auxiliary_loss_clip": 0.01325414,
      "auxiliary_loss_mlp": 0.01066573,
      "balance_loss_clip": 1.08711815,
      "balance_loss_mlp": 1.04099059,
      "epoch": 0.036794324535561834,
      "flos": 27489690253440.0,
      "grad_norm": 1.8913051265396272,
      "language_loss": 0.81247163,
      "learning_rate": 3.999524290146908e-06,
      "loss": 0.83639151,
      "num_input_tokens_seen": 6444650,
      "step": 306,
      "time_per_iteration": 3.7663190364837646
    },
    {
      "auxiliary_loss_clip": 0.01323748,
      "auxiliary_loss_mlp": 0.01073621,
      "balance_loss_clip": 1.08701873,
      "balance_loss_mlp": 1.04880166,
      "epoch": 0.036914567426200924,
      "flos": 19463476227840.0,
      "grad_norm": 2.7057381470834954,
      "language_loss": 0.92561936,
      "learning_rate": 3.9995071495201485e-06,
      "loss": 0.94959307,
      "num_input_tokens_seen": 6461755,
      "step": 307,
      "time_per_iteration": 2.5889248847961426
    },
    {
      "auxiliary_loss_clip": 0.01321731,
      "auxiliary_loss_mlp": 0.01063343,
      "balance_loss_clip": 1.086254,
      "balance_loss_mlp": 1.03898871,
      "epoch": 0.037034810316840014,
      "flos": 22309324922880.0,
      "grad_norm": 2.9026840454278386,
      "language_loss": 0.97949982,
      "learning_rate": 3.999489705569744e-06,
      "loss": 1.0033505,
      "num_input_tokens_seen": 6479455,
      "step": 308,
      "time_per_iteration": 2.632568836212158
    },
    {
      "auxiliary_loss_clip": 0.01318403,
      "auxiliary_loss_mlp": 0.01063422,
      "balance_loss_clip": 1.08418083,
      "balance_loss_mlp": 1.03770828,
      "epoch": 0.03715505320747911,
      "flos": 18588333265920.0,
      "grad_norm": 2.133347539185453,
      "language_loss": 0.86295044,
      "learning_rate": 3.999471958298341e-06,
      "loss": 0.8867687,
      "num_input_tokens_seen": 6498365,
      "step": 309,
      "time_per_iteration": 2.6345372200012207
    },
    {
      "auxiliary_loss_clip": 0.01326303,
      "auxiliary_loss_mlp": 0.01070333,
      "balance_loss_clip": 1.08844924,
      "balance_loss_mlp": 1.04397547,
      "epoch": 0.0372752960981182,
      "flos": 35955343267200.0,
      "grad_norm": 1.9109100210741234,
      "language_loss": 0.76050276,
      "learning_rate": 3.999453907708631e-06,
      "loss": 0.78446913,
      "num_input_tokens_seen": 6520770,
      "step": 310,
      "time_per_iteration": 2.7388839721679688
    },
    {
      "auxiliary_loss_clip": 0.01321829,
      "auxiliary_loss_mlp": 0.01058286,
      "balance_loss_clip": 1.08628249,
      "balance_loss_mlp": 1.03425324,
      "epoch": 0.03739553898875729,
      "flos": 20814040627200.0,
      "grad_norm": 1.9063908915438426,
      "language_loss": 0.81258368,
      "learning_rate": 3.999435553803353e-06,
      "loss": 0.83638489,
      "num_input_tokens_seen": 6540170,
      "step": 311,
      "time_per_iteration": 2.639756441116333
    },
    {
      "auxiliary_loss_clip": 0.01318986,
      "auxiliary_loss_mlp": 0.01068648,
      "balance_loss_clip": 1.08345079,
      "balance_loss_mlp": 1.04472303,
      "epoch": 0.03751578187939638,
      "flos": 20264140339200.0,
      "grad_norm": 2.5061166929605947,
      "language_loss": 0.83221769,
      "learning_rate": 3.999416896585292e-06,
      "loss": 0.856094,
      "num_input_tokens_seen": 6557200,
      "step": 312,
      "time_per_iteration": 2.6396987438201904
    },
    {
      "auxiliary_loss_clip": 0.01324335,
      "auxiliary_loss_mlp": 0.01056746,
      "balance_loss_clip": 1.08745503,
      "balance_loss_mlp": 1.03232002,
      "epoch": 0.03763602477003547,
      "flos": 20668063754880.0,
      "grad_norm": 2.900077718576319,
      "language_loss": 0.85950387,
      "learning_rate": 3.9993979360572775e-06,
      "loss": 0.88331473,
      "num_input_tokens_seen": 6577340,
      "step": 313,
      "time_per_iteration": 2.6826109886169434
    },
    {
      "auxiliary_loss_clip": 0.01325308,
      "auxiliary_loss_mlp": 0.01053271,
      "balance_loss_clip": 1.08731318,
      "balance_loss_mlp": 1.02813017,
      "epoch": 0.03775626766067456,
      "flos": 16691352197760.0,
      "grad_norm": 3.5026563634129557,
      "language_loss": 0.82963687,
      "learning_rate": 3.999378672222185e-06,
      "loss": 0.8534227,
      "num_input_tokens_seen": 6595125,
      "step": 314,
      "time_per_iteration": 2.6027169227600098
    },
    {
      "auxiliary_loss_clip": 0.01322577,
      "auxiliary_loss_mlp": 0.01060857,
      "balance_loss_clip": 1.08730698,
      "balance_loss_mlp": 1.03541732,
      "epoch": 0.03787651055131366,
      "flos": 21141797253120.0,
      "grad_norm": 2.280648634194937,
      "language_loss": 0.83212066,
      "learning_rate": 3.9993591050829385e-06,
      "loss": 0.85595495,
      "num_input_tokens_seen": 6612990,
      "step": 315,
      "time_per_iteration": 2.6243066787719727
    },
    {
      "auxiliary_loss_clip": 0.01320309,
      "auxiliary_loss_mlp": 0.01053878,
      "balance_loss_clip": 1.08565605,
      "balance_loss_mlp": 1.02868891,
      "epoch": 0.037996753441952746,
      "flos": 22018089450240.0,
      "grad_norm": 2.141923051464906,
      "language_loss": 0.79104817,
      "learning_rate": 3.999339234642506e-06,
      "loss": 0.81479001,
      "num_input_tokens_seen": 6632740,
      "step": 316,
      "time_per_iteration": 2.6070921421051025
    },
    {
      "auxiliary_loss_clip": 0.01321888,
      "auxiliary_loss_mlp": 0.01069929,
      "balance_loss_clip": 1.08486938,
      "balance_loss_mlp": 1.04452586,
      "epoch": 0.038116996332591836,
      "flos": 27709391790720.0,
      "grad_norm": 4.221874792576975,
      "language_loss": 0.83732694,
      "learning_rate": 3.9993190609038994e-06,
      "loss": 0.86124516,
      "num_input_tokens_seen": 6651505,
      "step": 317,
      "time_per_iteration": 2.7036736011505127
    },
    {
      "auxiliary_loss_clip": 0.01319722,
      "auxiliary_loss_mlp": 0.01056097,
      "balance_loss_clip": 1.08434939,
      "balance_loss_mlp": 1.03050292,
      "epoch": 0.038237239223230926,
      "flos": 21178067011200.0,
      "grad_norm": 2.2556380012132045,
      "language_loss": 0.83134961,
      "learning_rate": 3.999298583870182e-06,
      "loss": 0.85510778,
      "num_input_tokens_seen": 6671090,
      "step": 318,
      "time_per_iteration": 2.6196694374084473
    },
    {
      "auxiliary_loss_clip": 0.01321251,
      "auxiliary_loss_mlp": 0.01065038,
      "balance_loss_clip": 1.08477688,
      "balance_loss_mlp": 1.03891933,
      "epoch": 0.038357482113870016,
      "flos": 25556618995200.0,
      "grad_norm": 3.558036195287762,
      "language_loss": 0.77559602,
      "learning_rate": 3.999277803544458e-06,
      "loss": 0.79945886,
      "num_input_tokens_seen": 6691245,
      "step": 319,
      "time_per_iteration": 2.6857690811157227
    },
    {
      "auxiliary_loss_clip": 0.01217579,
      "auxiliary_loss_mlp": 0.0101908,
      "balance_loss_clip": 1.06509733,
      "balance_loss_mlp": 1.00248575,
      "epoch": 0.038477725004509106,
      "flos": 59227578034560.0,
      "grad_norm": 0.9594035712732514,
      "language_loss": 0.62373555,
      "learning_rate": 3.999256719929882e-06,
      "loss": 0.64610219,
      "num_input_tokens_seen": 6752520,
      "step": 320,
      "time_per_iteration": 3.177828788757324
    },
    {
      "auxiliary_loss_clip": 0.01216458,
      "auxiliary_loss_mlp": 0.01017,
      "balance_loss_clip": 1.06405401,
      "balance_loss_mlp": 1.00031114,
      "epoch": 0.0385979678951482,
      "flos": 67317676398720.0,
      "grad_norm": 1.216010722854834,
      "language_loss": 0.6711247,
      "learning_rate": 3.999235333029651e-06,
      "loss": 0.69345927,
      "num_input_tokens_seen": 6806460,
      "step": 321,
      "time_per_iteration": 3.111126184463501
    },
    {
      "auxiliary_loss_clip": 0.01318351,
      "auxiliary_loss_mlp": 0.01073406,
      "balance_loss_clip": 1.08523667,
      "balance_loss_mlp": 1.04937327,
      "epoch": 0.03871821078578729,
      "flos": 22746752749440.0,
      "grad_norm": 2.3101386346874264,
      "language_loss": 0.8215636,
      "learning_rate": 3.999213642847009e-06,
      "loss": 0.84548116,
      "num_input_tokens_seen": 6827045,
      "step": 322,
      "time_per_iteration": 2.6755213737487793
    },
    {
      "auxiliary_loss_clip": 0.01314774,
      "auxiliary_loss_mlp": 0.01064134,
      "balance_loss_clip": 1.08306479,
      "balance_loss_mlp": 1.03896928,
      "epoch": 0.03883845367642638,
      "flos": 26280613526400.0,
      "grad_norm": 3.570937467568477,
      "language_loss": 0.9084897,
      "learning_rate": 3.999191649385247e-06,
      "loss": 0.93227881,
      "num_input_tokens_seen": 6848220,
      "step": 323,
      "time_per_iteration": 2.6799159049987793
    },
    {
      "auxiliary_loss_clip": 0.01210871,
      "auxiliary_loss_mlp": 0.0101657,
      "balance_loss_clip": 1.06026089,
      "balance_loss_mlp": 1.00016677,
      "epoch": 0.03895869656706547,
      "flos": 56962835568000.0,
      "grad_norm": 0.898540954882124,
      "language_loss": 0.59747124,
      "learning_rate": 3.999169352647702e-06,
      "loss": 0.61974561,
      "num_input_tokens_seen": 6909400,
      "step": 324,
      "time_per_iteration": 3.1506524085998535
    },
    {
      "auxiliary_loss_clip": 0.01330607,
      "auxiliary_loss_mlp": 0.01066379,
      "balance_loss_clip": 1.08886576,
      "balance_loss_mlp": 1.03943741,
      "epoch": 0.03907893945770456,
      "flos": 24863363527680.0,
      "grad_norm": 1.7607105341995524,
      "language_loss": 0.82987726,
      "learning_rate": 3.999146752637755e-06,
      "loss": 0.85384715,
      "num_input_tokens_seen": 6930445,
      "step": 325,
      "time_per_iteration": 2.670459508895874
    },
    {
      "auxiliary_loss_clip": 0.01317111,
      "auxiliary_loss_mlp": 0.01057396,
      "balance_loss_clip": 1.08291268,
      "balance_loss_mlp": 1.03082383,
      "epoch": 0.03919918234834365,
      "flos": 18368595815040.0,
      "grad_norm": 3.659262665601155,
      "language_loss": 0.89421427,
      "learning_rate": 3.999123849358836e-06,
      "loss": 0.91795933,
      "num_input_tokens_seen": 6948110,
      "step": 326,
      "time_per_iteration": 2.6107451915740967
    },
    {
      "auxiliary_loss_clip": 0.01319249,
      "auxiliary_loss_mlp": 0.01065643,
      "balance_loss_clip": 1.0857321,
      "balance_loss_mlp": 1.04099023,
      "epoch": 0.03931942523898275,
      "flos": 25225414663680.0,
      "grad_norm": 2.6804164370332084,
      "language_loss": 0.74823904,
      "learning_rate": 3.999100642814418e-06,
      "loss": 0.77208793,
      "num_input_tokens_seen": 6968550,
      "step": 327,
      "time_per_iteration": 2.6330080032348633
    },
    {
      "auxiliary_loss_clip": 0.01319079,
      "auxiliary_loss_mlp": 0.01065184,
      "balance_loss_clip": 1.08484709,
      "balance_loss_mlp": 1.04092455,
      "epoch": 0.03943966812962184,
      "flos": 23257905240960.0,
      "grad_norm": 2.9799849667000298,
      "language_loss": 0.88366359,
      "learning_rate": 3.999077133008022e-06,
      "loss": 0.90750623,
      "num_input_tokens_seen": 6987135,
      "step": 328,
      "time_per_iteration": 3.624770164489746
    },
    {
      "auxiliary_loss_clip": 0.01322919,
      "auxiliary_loss_mlp": 0.01065958,
      "balance_loss_clip": 1.08683991,
      "balance_loss_mlp": 1.04040003,
      "epoch": 0.03955991102026093,
      "flos": 29168837291520.0,
      "grad_norm": 1.9077644661543909,
      "language_loss": 0.90812731,
      "learning_rate": 3.9990533199432145e-06,
      "loss": 0.93201607,
      "num_input_tokens_seen": 7008630,
      "step": 329,
      "time_per_iteration": 2.684617042541504
    },
    {
      "auxiliary_loss_clip": 0.01322047,
      "auxiliary_loss_mlp": 0.01062362,
      "balance_loss_clip": 1.08750892,
      "balance_loss_mlp": 1.03774524,
      "epoch": 0.03968015391090002,
      "flos": 17602441695360.0,
      "grad_norm": 2.3736659976537426,
      "language_loss": 0.75834054,
      "learning_rate": 3.999029203623608e-06,
      "loss": 0.7821846,
      "num_input_tokens_seen": 7026350,
      "step": 330,
      "time_per_iteration": 3.6382768154144287
    },
    {
      "auxiliary_loss_clip": 0.0131724,
      "auxiliary_loss_mlp": 0.01061159,
      "balance_loss_clip": 1.08658934,
      "balance_loss_mlp": 1.03726959,
      "epoch": 0.03980039680153911,
      "flos": 21799285752960.0,
      "grad_norm": 2.135125440023193,
      "language_loss": 0.87276661,
      "learning_rate": 3.99900478405286e-06,
      "loss": 0.8965506,
      "num_input_tokens_seen": 7045660,
      "step": 331,
      "time_per_iteration": 3.6098122596740723
    },
    {
      "auxiliary_loss_clip": 0.01320624,
      "auxiliary_loss_mlp": 0.01062636,
      "balance_loss_clip": 1.08929658,
      "balance_loss_mlp": 1.0387702,
      "epoch": 0.0399206396921782,
      "flos": 15195134148480.0,
      "grad_norm": 2.89191237605651,
      "language_loss": 0.82465577,
      "learning_rate": 3.998980061234676e-06,
      "loss": 0.84848839,
      "num_input_tokens_seen": 7063575,
      "step": 332,
      "time_per_iteration": 2.6134278774261475
    },
    {
      "auxiliary_loss_clip": 0.01319084,
      "auxiliary_loss_mlp": 0.01058161,
      "balance_loss_clip": 1.08479178,
      "balance_loss_mlp": 1.0343194,
      "epoch": 0.040040882582817294,
      "flos": 14422910630400.0,
      "grad_norm": 2.9546176440125826,
      "language_loss": 0.75383389,
      "learning_rate": 3.9989550351728055e-06,
      "loss": 0.77760637,
      "num_input_tokens_seen": 7080505,
      "step": 333,
      "time_per_iteration": 3.6253793239593506
    },
    {
      "auxiliary_loss_clip": 0.01314343,
      "auxiliary_loss_mlp": 0.01062448,
      "balance_loss_clip": 1.08469605,
      "balance_loss_mlp": 1.0387373,
      "epoch": 0.040161125473456384,
      "flos": 19280906375040.0,
      "grad_norm": 2.739384341432173,
      "language_loss": 0.84576732,
      "learning_rate": 3.998929705871046e-06,
      "loss": 0.86953521,
      "num_input_tokens_seen": 7097860,
      "step": 334,
      "time_per_iteration": 2.66166615486145
    },
    {
      "auxiliary_loss_clip": 0.01319425,
      "auxiliary_loss_mlp": 0.01067399,
      "balance_loss_clip": 1.0864532,
      "balance_loss_mlp": 1.04255605,
      "epoch": 0.040281368364095474,
      "flos": 17821101738240.0,
      "grad_norm": 2.4394078850838397,
      "language_loss": 0.88926524,
      "learning_rate": 3.99890407333324e-06,
      "loss": 0.9131335,
      "num_input_tokens_seen": 7116390,
      "step": 335,
      "time_per_iteration": 2.5857653617858887
    },
    {
      "auxiliary_loss_clip": 0.01311935,
      "auxiliary_loss_mlp": 0.01062051,
      "balance_loss_clip": 1.08105111,
      "balance_loss_mlp": 1.03750575,
      "epoch": 0.040401611254734564,
      "flos": 19573757959680.0,
      "grad_norm": 1.787344890360476,
      "language_loss": 0.87067503,
      "learning_rate": 3.998878137563275e-06,
      "loss": 0.8944149,
      "num_input_tokens_seen": 7135940,
      "step": 336,
      "time_per_iteration": 2.7237699031829834
    },
    {
      "auxiliary_loss_clip": 0.01311283,
      "auxiliary_loss_mlp": 0.01068689,
      "balance_loss_clip": 1.08188593,
      "balance_loss_mlp": 1.04477549,
      "epoch": 0.040521854145373654,
      "flos": 22054466949120.0,
      "grad_norm": 2.5059583849960654,
      "language_loss": 0.85212195,
      "learning_rate": 3.998851898565085e-06,
      "loss": 0.87592173,
      "num_input_tokens_seen": 7155745,
      "step": 337,
      "time_per_iteration": 2.6277668476104736
    },
    {
      "auxiliary_loss_clip": 0.0131691,
      "auxiliary_loss_mlp": 0.01059969,
      "balance_loss_clip": 1.08431995,
      "balance_loss_mlp": 1.03586507,
      "epoch": 0.04064209703601274,
      "flos": 22674644196480.0,
      "grad_norm": 1.9983335040561439,
      "language_loss": 0.82951105,
      "learning_rate": 3.998825356342653e-06,
      "loss": 0.85327983,
      "num_input_tokens_seen": 7175920,
      "step": 338,
      "time_per_iteration": 2.672553777694702
    },
    {
      "auxiliary_loss_clip": 0.01311235,
      "auxiliary_loss_mlp": 0.01063036,
      "balance_loss_clip": 1.08206487,
      "balance_loss_mlp": 1.03970695,
      "epoch": 0.04076233992665183,
      "flos": 38582172783360.0,
      "grad_norm": 2.5055796192151707,
      "language_loss": 0.72945595,
      "learning_rate": 3.998798510900003e-06,
      "loss": 0.75319862,
      "num_input_tokens_seen": 7198720,
      "step": 339,
      "time_per_iteration": 2.779059886932373
    },
    {
      "auxiliary_loss_clip": 0.01313247,
      "auxiliary_loss_mlp": 0.01054762,
      "balance_loss_clip": 1.08200824,
      "balance_loss_mlp": 1.03181458,
      "epoch": 0.04088258281729093,
      "flos": 25885309374720.0,
      "grad_norm": 2.64222203610271,
      "language_loss": 0.8391372,
      "learning_rate": 3.998771362241207e-06,
      "loss": 0.86281729,
      "num_input_tokens_seen": 7219125,
      "step": 340,
      "time_per_iteration": 2.6424715518951416
    },
    {
      "auxiliary_loss_clip": 0.01311647,
      "auxiliary_loss_mlp": 0.01055675,
      "balance_loss_clip": 1.0840286,
      "balance_loss_mlp": 1.03319192,
      "epoch": 0.04100282570793002,
      "flos": 19789832223360.0,
      "grad_norm": 1.7219386667536345,
      "language_loss": 0.8771162,
      "learning_rate": 3.998743910370385e-06,
      "loss": 0.90078938,
      "num_input_tokens_seen": 7237985,
      "step": 341,
      "time_per_iteration": 2.6428112983703613
    },
    {
      "auxiliary_loss_clip": 0.01317203,
      "auxiliary_loss_mlp": 0.01078088,
      "balance_loss_clip": 1.08819306,
      "balance_loss_mlp": 1.05354238,
      "epoch": 0.04112306859856911,
      "flos": 22565152563840.0,
      "grad_norm": 6.471823555548262,
      "language_loss": 0.73407537,
      "learning_rate": 3.998716155291702e-06,
      "loss": 0.75802827,
      "num_input_tokens_seen": 7255825,
      "step": 342,
      "time_per_iteration": 2.6604669094085693
    },
    {
      "auxiliary_loss_clip": 0.01321328,
      "auxiliary_loss_mlp": 0.01064795,
      "balance_loss_clip": 1.08870959,
      "balance_loss_mlp": 1.03961825,
      "epoch": 0.0412433114892082,
      "flos": 25040654081280.0,
      "grad_norm": 1.9966076039655378,
      "language_loss": 0.90605116,
      "learning_rate": 3.998688097009366e-06,
      "loss": 0.92991233,
      "num_input_tokens_seen": 7276590,
      "step": 343,
      "time_per_iteration": 2.6799817085266113
    },
    {
      "auxiliary_loss_clip": 0.01316238,
      "auxiliary_loss_mlp": 0.0105955,
      "balance_loss_clip": 1.08584237,
      "balance_loss_mlp": 1.03680491,
      "epoch": 0.04136355437984729,
      "flos": 25191371548800.0,
      "grad_norm": 2.102492991103842,
      "language_loss": 0.79979789,
      "learning_rate": 3.998659735527636e-06,
      "loss": 0.82355571,
      "num_input_tokens_seen": 7295680,
      "step": 344,
      "time_per_iteration": 2.643066883087158
    },
    {
      "auxiliary_loss_clip": 0.01310089,
      "auxiliary_loss_mlp": 0.01062083,
      "balance_loss_clip": 1.08216512,
      "balance_loss_mlp": 1.03903961,
      "epoch": 0.04148379727048638,
      "flos": 22966777509120.0,
      "grad_norm": 1.8880406539762329,
      "language_loss": 0.77661335,
      "learning_rate": 3.998631070850813e-06,
      "loss": 0.80033505,
      "num_input_tokens_seen": 7316300,
      "step": 345,
      "time_per_iteration": 2.672152280807495
    },
    {
      "auxiliary_loss_clip": 0.0130871,
      "auxiliary_loss_mlp": 0.01058469,
      "balance_loss_clip": 1.08580947,
      "balance_loss_mlp": 1.03459108,
      "epoch": 0.041604040161125476,
      "flos": 14063481187200.0,
      "grad_norm": 2.365777639713262,
      "language_loss": 0.83501464,
      "learning_rate": 3.9986021029832455e-06,
      "loss": 0.85868639,
      "num_input_tokens_seen": 7333615,
      "step": 346,
      "time_per_iteration": 2.578441858291626
    },
    {
      "auxiliary_loss_clip": 0.01310565,
      "auxiliary_loss_mlp": 0.01062401,
      "balance_loss_clip": 1.08089733,
      "balance_loss_mlp": 1.03852308,
      "epoch": 0.041724283051764566,
      "flos": 12091877614080.0,
      "grad_norm": 2.7618456525780375,
      "language_loss": 0.91616583,
      "learning_rate": 3.9985728319293285e-06,
      "loss": 0.93989551,
      "num_input_tokens_seen": 7347590,
      "step": 347,
      "time_per_iteration": 2.6011765003204346
    },
    {
      "auxiliary_loss_clip": 0.013134,
      "auxiliary_loss_mlp": 0.01054766,
      "balance_loss_clip": 1.08089519,
      "balance_loss_mlp": 1.03047073,
      "epoch": 0.041844525942403656,
      "flos": 12385303816320.0,
      "grad_norm": 4.205965885308339,
      "language_loss": 0.85516965,
      "learning_rate": 3.998543257693501e-06,
      "loss": 0.87885129,
      "num_input_tokens_seen": 7364345,
      "step": 348,
      "time_per_iteration": 2.5783493518829346
    },
    {
      "auxiliary_loss_clip": 0.01314299,
      "auxiliary_loss_mlp": 0.01059736,
      "balance_loss_clip": 1.08683372,
      "balance_loss_mlp": 1.03687203,
      "epoch": 0.041964768833042745,
      "flos": 23769345041280.0,
      "grad_norm": 2.086460242085071,
      "language_loss": 0.87995112,
      "learning_rate": 3.998513380280251e-06,
      "loss": 0.90369147,
      "num_input_tokens_seen": 7384625,
      "step": 349,
      "time_per_iteration": 2.66554594039917
    },
    {
      "auxiliary_loss_clip": 0.01313927,
      "auxiliary_loss_mlp": 0.01067353,
      "balance_loss_clip": 1.08298433,
      "balance_loss_mlp": 1.04349947,
      "epoch": 0.042085011723681835,
      "flos": 11875336473600.0,
      "grad_norm": 2.6688063876365753,
      "language_loss": 0.95084292,
      "learning_rate": 3.99848319969411e-06,
      "loss": 0.97465569,
      "num_input_tokens_seen": 7402225,
      "step": 350,
      "time_per_iteration": 2.627554178237915
    },
    {
      "auxiliary_loss_clip": 0.01318073,
      "auxiliary_loss_mlp": 0.01066781,
      "balance_loss_clip": 1.08713889,
      "balance_loss_mlp": 1.042593,
      "epoch": 0.042205254614320925,
      "flos": 16873957964160.0,
      "grad_norm": 2.31796536491372,
      "language_loss": 0.79290557,
      "learning_rate": 3.9984527159396564e-06,
      "loss": 0.8167541,
      "num_input_tokens_seen": 7420865,
      "step": 351,
      "time_per_iteration": 2.6204397678375244
    },
    {
      "auxiliary_loss_clip": 0.01310593,
      "auxiliary_loss_mlp": 0.01050312,
      "balance_loss_clip": 1.08086777,
      "balance_loss_mlp": 1.02735245,
      "epoch": 0.04232549750496002,
      "flos": 25118508810240.0,
      "grad_norm": 2.306483463289071,
      "language_loss": 0.84422266,
      "learning_rate": 3.9984219290215154e-06,
      "loss": 0.86783171,
      "num_input_tokens_seen": 7441040,
      "step": 352,
      "time_per_iteration": 2.6290934085845947
    },
    {
      "auxiliary_loss_clip": 0.01306114,
      "auxiliary_loss_mlp": 0.01054014,
      "balance_loss_clip": 1.0831753,
      "balance_loss_mlp": 1.03187692,
      "epoch": 0.04244574039559911,
      "flos": 26724541714560.0,
      "grad_norm": 1.6456418952083474,
      "language_loss": 0.8930105,
      "learning_rate": 3.998390838944356e-06,
      "loss": 0.91661179,
      "num_input_tokens_seen": 7462545,
      "step": 353,
      "time_per_iteration": 2.7323873043060303
    },
    {
      "auxiliary_loss_clip": 0.01313889,
      "auxiliary_loss_mlp": 0.01058689,
      "balance_loss_clip": 1.08498645,
      "balance_loss_mlp": 1.03552651,
      "epoch": 0.0425659832862382,
      "flos": 20923244951040.0,
      "grad_norm": 2.9104021493545464,
      "language_loss": 0.90324223,
      "learning_rate": 3.998359445712895e-06,
      "loss": 0.92696798,
      "num_input_tokens_seen": 7481650,
      "step": 354,
      "time_per_iteration": 2.6150832176208496
    },
    {
      "auxiliary_loss_clip": 0.01311072,
      "auxiliary_loss_mlp": 0.01075428,
      "balance_loss_clip": 1.08135152,
      "balance_loss_mlp": 1.05286169,
      "epoch": 0.04268622617687729,
      "flos": 23331127115520.0,
      "grad_norm": 2.1566821171739,
      "language_loss": 0.80883479,
      "learning_rate": 3.9983277493318955e-06,
      "loss": 0.83269978,
      "num_input_tokens_seen": 7500945,
      "step": 355,
      "time_per_iteration": 3.5451080799102783
    },
    {
      "auxiliary_loss_clip": 0.01314278,
      "auxiliary_loss_mlp": 0.01063333,
      "balance_loss_clip": 1.08324373,
      "balance_loss_mlp": 1.04088616,
      "epoch": 0.04280646906751638,
      "flos": 25994010908160.0,
      "grad_norm": 1.9390208347913336,
      "language_loss": 0.81101936,
      "learning_rate": 3.998295749806165e-06,
      "loss": 0.83479548,
      "num_input_tokens_seen": 7522170,
      "step": 356,
      "time_per_iteration": 2.6877481937408447
    },
    {
      "auxiliary_loss_clip": 0.01311529,
      "auxiliary_loss_mlp": 0.01060986,
      "balance_loss_clip": 1.08367348,
      "balance_loss_mlp": 1.03847897,
      "epoch": 0.04292671195815547,
      "flos": 26906824258560.0,
      "grad_norm": 1.9405012901026117,
      "language_loss": 0.8322382,
      "learning_rate": 3.998263447140558e-06,
      "loss": 0.85596335,
      "num_input_tokens_seen": 7542370,
      "step": 357,
      "time_per_iteration": 3.6716926097869873
    },
    {
      "auxiliary_loss_clip": 0.01303375,
      "auxiliary_loss_mlp": 0.01050451,
      "balance_loss_clip": 1.07862401,
      "balance_loss_mlp": 1.02707434,
      "epoch": 0.04304695484879457,
      "flos": 39457315745280.0,
      "grad_norm": 1.9323805789460762,
      "language_loss": 0.8156516,
      "learning_rate": 3.998230841339976e-06,
      "loss": 0.83918989,
      "num_input_tokens_seen": 7564380,
      "step": 358,
      "time_per_iteration": 3.776751756668091
    },
    {
      "auxiliary_loss_clip": 0.01309009,
      "auxiliary_loss_mlp": 0.01073471,
      "balance_loss_clip": 1.08390069,
      "balance_loss_mlp": 1.05104804,
      "epoch": 0.04316719773943366,
      "flos": 19646297475840.0,
      "grad_norm": 2.393478827513673,
      "language_loss": 0.84882015,
      "learning_rate": 3.998197932409363e-06,
      "loss": 0.87264502,
      "num_input_tokens_seen": 7582390,
      "step": 359,
      "time_per_iteration": 3.595421075820923
    },
    {
      "auxiliary_loss_clip": 0.01307246,
      "auxiliary_loss_mlp": 0.01059471,
      "balance_loss_clip": 1.08269978,
      "balance_loss_mlp": 1.0380367,
      "epoch": 0.04328744063007275,
      "flos": 22452320966400.0,
      "grad_norm": 2.201979079598878,
      "language_loss": 0.863042,
      "learning_rate": 3.9981647203537125e-06,
      "loss": 0.88670915,
      "num_input_tokens_seen": 7599890,
      "step": 360,
      "time_per_iteration": 2.618427038192749
    },
    {
      "auxiliary_loss_clip": 0.0131335,
      "auxiliary_loss_mlp": 0.01054724,
      "balance_loss_clip": 1.08612466,
      "balance_loss_mlp": 1.03239596,
      "epoch": 0.04340768352071184,
      "flos": 21283033530240.0,
      "grad_norm": 2.064565947210776,
      "language_loss": 0.95823622,
      "learning_rate": 3.998131205178063e-06,
      "loss": 0.98191696,
      "num_input_tokens_seen": 7618360,
      "step": 361,
      "time_per_iteration": 2.6667323112487793
    },
    {
      "auxiliary_loss_clip": 0.01312292,
      "auxiliary_loss_mlp": 0.01057908,
      "balance_loss_clip": 1.08500862,
      "balance_loss_mlp": 1.03522277,
      "epoch": 0.04352792641135093,
      "flos": 11583705951360.0,
      "grad_norm": 2.9856503540182864,
      "language_loss": 0.76613569,
      "learning_rate": 3.998097386887498e-06,
      "loss": 0.78983766,
      "num_input_tokens_seen": 7635435,
      "step": 362,
      "time_per_iteration": 2.5860610008239746
    },
    {
      "auxiliary_loss_clip": 0.0130468,
      "auxiliary_loss_mlp": 0.01070981,
      "balance_loss_clip": 1.08255959,
      "balance_loss_mlp": 1.0480808,
      "epoch": 0.04364816930199002,
      "flos": 23623547736960.0,
      "grad_norm": 1.7652000441799074,
      "language_loss": 0.85119808,
      "learning_rate": 3.998063265487148e-06,
      "loss": 0.8749547,
      "num_input_tokens_seen": 7656485,
      "step": 363,
      "time_per_iteration": 2.6687896251678467
    },
    {
      "auxiliary_loss_clip": 0.01305889,
      "auxiliary_loss_mlp": 0.01062693,
      "balance_loss_clip": 1.08230948,
      "balance_loss_mlp": 1.04119992,
      "epoch": 0.043768412192629114,
      "flos": 14429734214400.0,
      "grad_norm": 2.239904692238554,
      "language_loss": 0.81152898,
      "learning_rate": 3.99802884098219e-06,
      "loss": 0.83521473,
      "num_input_tokens_seen": 7674595,
      "step": 364,
      "time_per_iteration": 2.6027960777282715
    },
    {
      "auxiliary_loss_clip": 0.01308391,
      "auxiliary_loss_mlp": 0.01055229,
      "balance_loss_clip": 1.08179283,
      "balance_loss_mlp": 1.03262711,
      "epoch": 0.043888655083268203,
      "flos": 26468893641600.0,
      "grad_norm": 11.09056295060883,
      "language_loss": 0.82416832,
      "learning_rate": 3.997994113377845e-06,
      "loss": 0.84780455,
      "num_input_tokens_seen": 7693495,
      "step": 365,
      "time_per_iteration": 2.716747283935547
    },
    {
      "auxiliary_loss_clip": 0.01312647,
      "auxiliary_loss_mlp": 0.01054688,
      "balance_loss_clip": 1.08495593,
      "balance_loss_mlp": 1.03258634,
      "epoch": 0.04400889797390729,
      "flos": 27235263242880.0,
      "grad_norm": 2.098097791233381,
      "language_loss": 0.83329034,
      "learning_rate": 3.9979590826793815e-06,
      "loss": 0.85696369,
      "num_input_tokens_seen": 7714685,
      "step": 366,
      "time_per_iteration": 2.685887575149536
    },
    {
      "auxiliary_loss_clip": 0.01307945,
      "auxiliary_loss_mlp": 0.01061781,
      "balance_loss_clip": 1.08338714,
      "balance_loss_mlp": 1.03903639,
      "epoch": 0.04412914086454638,
      "flos": 20119528183680.0,
      "grad_norm": 2.118022097354127,
      "language_loss": 0.80737174,
      "learning_rate": 3.997923748892113e-06,
      "loss": 0.83106899,
      "num_input_tokens_seen": 7734005,
      "step": 367,
      "time_per_iteration": 2.6229934692382812
    },
    {
      "auxiliary_loss_clip": 0.01305358,
      "auxiliary_loss_mlp": 0.01068383,
      "balance_loss_clip": 1.0842104,
      "balance_loss_mlp": 1.04728341,
      "epoch": 0.04424938375518547,
      "flos": 22604618632320.0,
      "grad_norm": 1.7518268300868274,
      "language_loss": 0.88565749,
      "learning_rate": 3.9978881120214015e-06,
      "loss": 0.90939492,
      "num_input_tokens_seen": 7755525,
      "step": 368,
      "time_per_iteration": 2.6822214126586914
    },
    {
      "auxiliary_loss_clip": 0.01305949,
      "auxiliary_loss_mlp": 0.01058121,
      "balance_loss_clip": 1.0798912,
      "balance_loss_mlp": 1.03455329,
      "epoch": 0.04436962664582456,
      "flos": 24132365844480.0,
      "grad_norm": 2.2889527584150904,
      "language_loss": 0.79413766,
      "learning_rate": 3.997852172072652e-06,
      "loss": 0.81777835,
      "num_input_tokens_seen": 7776740,
      "step": 369,
      "time_per_iteration": 2.654693603515625
    },
    {
      "auxiliary_loss_clip": 0.01311203,
      "auxiliary_loss_mlp": 0.01062366,
      "balance_loss_clip": 1.08350527,
      "balance_loss_mlp": 1.03933454,
      "epoch": 0.04448986953646366,
      "flos": 18222906251520.0,
      "grad_norm": 2.991487708506216,
      "language_loss": 0.89380038,
      "learning_rate": 3.9978159290513155e-06,
      "loss": 0.91753602,
      "num_input_tokens_seen": 7794820,
      "step": 370,
      "time_per_iteration": 2.65075421333313
    },
    {
      "auxiliary_loss_clip": 0.01308826,
      "auxiliary_loss_mlp": 0.01057001,
      "balance_loss_clip": 1.08265626,
      "balance_loss_mlp": 1.03359997,
      "epoch": 0.04461011242710275,
      "flos": 30117920400000.0,
      "grad_norm": 1.6590601635709008,
      "language_loss": 0.80217308,
      "learning_rate": 3.997779382962892e-06,
      "loss": 0.82583129,
      "num_input_tokens_seen": 7817705,
      "step": 371,
      "time_per_iteration": 2.703913927078247
    },
    {
      "auxiliary_loss_clip": 0.01306478,
      "auxiliary_loss_mlp": 0.01060447,
      "balance_loss_clip": 1.08099568,
      "balance_loss_mlp": 1.03768945,
      "epoch": 0.04473035531774184,
      "flos": 29752529299200.0,
      "grad_norm": 2.026877862405205,
      "language_loss": 0.74097085,
      "learning_rate": 3.997742533812924e-06,
      "loss": 0.76464009,
      "num_input_tokens_seen": 7840970,
      "step": 372,
      "time_per_iteration": 2.738063097000122
    },
    {
      "auxiliary_loss_clip": 0.01310784,
      "auxiliary_loss_mlp": 0.01059232,
      "balance_loss_clip": 1.08357787,
      "balance_loss_mlp": 1.03720236,
      "epoch": 0.04485059820838093,
      "flos": 13151565676800.0,
      "grad_norm": 2.7251635370339096,
      "language_loss": 0.92384791,
      "learning_rate": 3.997705381607001e-06,
      "loss": 0.94754803,
      "num_input_tokens_seen": 7857785,
      "step": 373,
      "time_per_iteration": 2.6591455936431885
    },
    {
      "auxiliary_loss_clip": 0.01223809,
      "auxiliary_loss_mlp": 0.01028753,
      "balance_loss_clip": 1.06904042,
      "balance_loss_mlp": 1.01311231,
      "epoch": 0.04497084109902002,
      "flos": 68094209548800.0,
      "grad_norm": 0.9768674959630166,
      "language_loss": 0.60246706,
      "learning_rate": 3.997667926350761e-06,
      "loss": 0.62499261,
      "num_input_tokens_seen": 7916115,
      "step": 374,
      "time_per_iteration": 3.1177194118499756
    },
    {
      "auxiliary_loss_clip": 0.01220351,
      "auxiliary_loss_mlp": 0.01024711,
      "balance_loss_clip": 1.06659412,
      "balance_loss_mlp": 1.009166,
      "epoch": 0.04509108398965911,
      "flos": 64342263346560.0,
      "grad_norm": 0.9054180582519108,
      "language_loss": 0.57770681,
      "learning_rate": 3.997630168049886e-06,
      "loss": 0.6001575,
      "num_input_tokens_seen": 7974480,
      "step": 375,
      "time_per_iteration": 3.2396774291992188
    },
    {
      "auxiliary_loss_clip": 0.01310795,
      "auxiliary_loss_mlp": 0.01055929,
      "balance_loss_clip": 1.08436787,
      "balance_loss_mlp": 1.03282607,
      "epoch": 0.045211326880298205,
      "flos": 22271115830400.0,
      "grad_norm": 1.9153117127472006,
      "language_loss": 0.7737183,
      "learning_rate": 3.997592106710101e-06,
      "loss": 0.79738557,
      "num_input_tokens_seen": 7993940,
      "step": 376,
      "time_per_iteration": 2.66485333442688
    },
    {
      "auxiliary_loss_clip": 0.01305672,
      "auxiliary_loss_mlp": 0.01057736,
      "balance_loss_clip": 1.08089113,
      "balance_loss_mlp": 1.03450203,
      "epoch": 0.045331569770937295,
      "flos": 32159441796480.0,
      "grad_norm": 2.929942825241096,
      "language_loss": 0.66015756,
      "learning_rate": 3.997553742337182e-06,
      "loss": 0.68379164,
      "num_input_tokens_seen": 8013365,
      "step": 377,
      "time_per_iteration": 2.7883057594299316
    },
    {
      "auxiliary_loss_clip": 0.01310501,
      "auxiliary_loss_mlp": 0.01063473,
      "balance_loss_clip": 1.08458984,
      "balance_loss_mlp": 1.03995299,
      "epoch": 0.045451812661576385,
      "flos": 22163455791360.0,
      "grad_norm": 1.7744157210585378,
      "language_loss": 0.91409749,
      "learning_rate": 3.997515074936949e-06,
      "loss": 0.93783724,
      "num_input_tokens_seen": 8034240,
      "step": 378,
      "time_per_iteration": 2.6529195308685303
    },
    {
      "auxiliary_loss_clip": 0.01306488,
      "auxiliary_loss_mlp": 0.01068277,
      "balance_loss_clip": 1.0834415,
      "balance_loss_mlp": 1.04490006,
      "epoch": 0.045572055552215475,
      "flos": 16581968305920.0,
      "grad_norm": 2.597769607422256,
      "language_loss": 0.86661595,
      "learning_rate": 3.997476104515268e-06,
      "loss": 0.89036363,
      "num_input_tokens_seen": 8052430,
      "step": 379,
      "time_per_iteration": 2.632830858230591
    },
    {
      "auxiliary_loss_clip": 0.01301848,
      "auxiliary_loss_mlp": 0.01061187,
      "balance_loss_clip": 1.08249748,
      "balance_loss_mlp": 1.03843045,
      "epoch": 0.045692298442854565,
      "flos": 17603375448960.0,
      "grad_norm": 2.204283318633485,
      "language_loss": 0.77519691,
      "learning_rate": 3.9974368310780485e-06,
      "loss": 0.79882723,
      "num_input_tokens_seen": 8069605,
      "step": 380,
      "time_per_iteration": 2.6112239360809326
    },
    {
      "auxiliary_loss_clip": 0.0131575,
      "auxiliary_loss_mlp": 0.01068735,
      "balance_loss_clip": 1.08432102,
      "balance_loss_mlp": 1.04366517,
      "epoch": 0.045812541333493655,
      "flos": 26761098781440.0,
      "grad_norm": 3.468638098941104,
      "language_loss": 0.74679828,
      "learning_rate": 3.997397254631251e-06,
      "loss": 0.77064312,
      "num_input_tokens_seen": 8090225,
      "step": 381,
      "time_per_iteration": 3.6374924182891846
    },
    {
      "auxiliary_loss_clip": 0.01205316,
      "auxiliary_loss_mlp": 0.01019741,
      "balance_loss_clip": 1.05503821,
      "balance_loss_mlp": 1.00457728,
      "epoch": 0.04593278422413275,
      "flos": 60250349894400.0,
      "grad_norm": 0.8251108826378454,
      "language_loss": 0.60028827,
      "learning_rate": 3.997357375180878e-06,
      "loss": 0.62253881,
      "num_input_tokens_seen": 8154505,
      "step": 382,
      "time_per_iteration": 3.285670757293701
    },
    {
      "auxiliary_loss_clip": 0.01304804,
      "auxiliary_loss_mlp": 0.01060478,
      "balance_loss_clip": 1.08075035,
      "balance_loss_mlp": 1.03830552,
      "epoch": 0.04605302711477184,
      "flos": 21799249839360.0,
      "grad_norm": 2.7455055320471313,
      "language_loss": 0.75102174,
      "learning_rate": 3.997317192732979e-06,
      "loss": 0.77467459,
      "num_input_tokens_seen": 8173285,
      "step": 383,
      "time_per_iteration": 2.6453559398651123
    },
    {
      "auxiliary_loss_clip": 0.01306647,
      "auxiliary_loss_mlp": 0.01063925,
      "balance_loss_clip": 1.0815872,
      "balance_loss_mlp": 1.04114461,
      "epoch": 0.04617327000541093,
      "flos": 19459705299840.0,
      "grad_norm": 1.806260138472374,
      "language_loss": 0.82572252,
      "learning_rate": 3.99727670729365e-06,
      "loss": 0.8494283,
      "num_input_tokens_seen": 8191845,
      "step": 384,
      "time_per_iteration": 4.651796579360962
    },
    {
      "auxiliary_loss_clip": 0.01307717,
      "auxiliary_loss_mlp": 0.01053394,
      "balance_loss_clip": 1.08452654,
      "balance_loss_mlp": 1.0313642,
      "epoch": 0.04629351289605002,
      "flos": 25411468135680.0,
      "grad_norm": 1.799016443552562,
      "language_loss": 0.7792455,
      "learning_rate": 3.997235918869033e-06,
      "loss": 0.80285662,
      "num_input_tokens_seen": 8212880,
      "step": 385,
      "time_per_iteration": 3.609636068344116
    },
    {
      "auxiliary_loss_clip": 0.01307639,
      "auxiliary_loss_mlp": 0.01062533,
      "balance_loss_clip": 1.08550906,
      "balance_loss_mlp": 1.04068184,
      "epoch": 0.04641375578668911,
      "flos": 20558284813440.0,
      "grad_norm": 1.7903150401234398,
      "language_loss": 0.82332313,
      "learning_rate": 3.997194827465315e-06,
      "loss": 0.8470248,
      "num_input_tokens_seen": 8231475,
      "step": 386,
      "time_per_iteration": 2.622225284576416
    },
    {
      "auxiliary_loss_clip": 0.01309246,
      "auxiliary_loss_mlp": 0.01056357,
      "balance_loss_clip": 1.08264232,
      "balance_loss_mlp": 1.03413606,
      "epoch": 0.0465339986773282,
      "flos": 13188661447680.0,
      "grad_norm": 3.1655225058121776,
      "language_loss": 0.91227818,
      "learning_rate": 3.997153433088728e-06,
      "loss": 0.93593419,
      "num_input_tokens_seen": 8248600,
      "step": 387,
      "time_per_iteration": 2.65313720703125
    },
    {
      "auxiliary_loss_clip": 0.01308273,
      "auxiliary_loss_mlp": 0.01066795,
      "balance_loss_clip": 1.08181822,
      "balance_loss_mlp": 1.04316807,
      "epoch": 0.0466542415679673,
      "flos": 25556547168000.0,
      "grad_norm": 1.6983600819083424,
      "language_loss": 0.81285256,
      "learning_rate": 3.997111735745554e-06,
      "loss": 0.83660328,
      "num_input_tokens_seen": 8271570,
      "step": 388,
      "time_per_iteration": 2.658961534500122
    },
    {
      "auxiliary_loss_clip": 0.01307422,
      "auxiliary_loss_mlp": 0.01061522,
      "balance_loss_clip": 1.08183312,
      "balance_loss_mlp": 1.03844273,
      "epoch": 0.04677448445860639,
      "flos": 22236749493120.0,
      "grad_norm": 1.9555710901330223,
      "language_loss": 0.82623267,
      "learning_rate": 3.997069735442118e-06,
      "loss": 0.84992206,
      "num_input_tokens_seen": 8291265,
      "step": 389,
      "time_per_iteration": 2.642521858215332
    },
    {
      "auxiliary_loss_clip": 0.01298103,
      "auxiliary_loss_mlp": 0.01060014,
      "balance_loss_clip": 1.07903552,
      "balance_loss_mlp": 1.03811538,
      "epoch": 0.04689472734924548,
      "flos": 28147825198080.0,
      "grad_norm": 1.5250400986907933,
      "language_loss": 0.80262113,
      "learning_rate": 3.997027432184792e-06,
      "loss": 0.82620233,
      "num_input_tokens_seen": 8315925,
      "step": 390,
      "time_per_iteration": 2.75675892829895
    },
    {
      "auxiliary_loss_clip": 0.01304374,
      "auxiliary_loss_mlp": 0.01056939,
      "balance_loss_clip": 1.08256888,
      "balance_loss_mlp": 1.03540993,
      "epoch": 0.04701497023988457,
      "flos": 23148952312320.0,
      "grad_norm": 1.8361655691070744,
      "language_loss": 0.8914395,
      "learning_rate": 3.99698482597999e-06,
      "loss": 0.91505265,
      "num_input_tokens_seen": 8333605,
      "step": 391,
      "time_per_iteration": 2.689096450805664
    },
    {
      "auxiliary_loss_clip": 0.01193709,
      "auxiliary_loss_mlp": 0.01016938,
      "balance_loss_clip": 1.04982305,
      "balance_loss_mlp": 1.00225186,
      "epoch": 0.04713521313052366,
      "flos": 64827668764800.0,
      "grad_norm": 0.8627147933713745,
      "language_loss": 0.63897836,
      "learning_rate": 3.99694191683418e-06,
      "loss": 0.66108477,
      "num_input_tokens_seen": 8394405,
      "step": 392,
      "time_per_iteration": 3.215662956237793
    },
    {
      "auxiliary_loss_clip": 0.01311249,
      "auxiliary_loss_mlp": 0.01068061,
      "balance_loss_clip": 1.08642757,
      "balance_loss_mlp": 1.04468429,
      "epoch": 0.047255456021162746,
      "flos": 18771585477120.0,
      "grad_norm": 1.9836775614703699,
      "language_loss": 0.82133991,
      "learning_rate": 3.996898704753867e-06,
      "loss": 0.84513295,
      "num_input_tokens_seen": 8412355,
      "step": 393,
      "time_per_iteration": 2.6431467533111572
    },
    {
      "auxiliary_loss_clip": 0.01302101,
      "auxiliary_loss_mlp": 0.01055831,
      "balance_loss_clip": 1.07997394,
      "balance_loss_mlp": 1.03369367,
      "epoch": 0.04737569891180184,
      "flos": 22053820504320.0,
      "grad_norm": 2.5352663261179553,
      "language_loss": 0.87862194,
      "learning_rate": 3.996855189745609e-06,
      "loss": 0.90220124,
      "num_input_tokens_seen": 8431620,
      "step": 394,
      "time_per_iteration": 2.770003080368042
    },
    {
      "auxiliary_loss_clip": 0.01296943,
      "auxiliary_loss_mlp": 0.01053494,
      "balance_loss_clip": 1.07624793,
      "balance_loss_mlp": 1.03160727,
      "epoch": 0.04749594180244093,
      "flos": 29057370410880.0,
      "grad_norm": 1.9269851100772781,
      "language_loss": 0.92892468,
      "learning_rate": 3.996811371816007e-06,
      "loss": 0.95242912,
      "num_input_tokens_seen": 8454045,
      "step": 395,
      "time_per_iteration": 2.7216813564300537
    },
    {
      "auxiliary_loss_clip": 0.01302299,
      "auxiliary_loss_mlp": 0.01053205,
      "balance_loss_clip": 1.08231461,
      "balance_loss_mlp": 1.03177094,
      "epoch": 0.04761618469308002,
      "flos": 35112268172160.0,
      "grad_norm": 2.0312039578882275,
      "language_loss": 0.77955246,
      "learning_rate": 3.996767250971707e-06,
      "loss": 0.8031075,
      "num_input_tokens_seen": 8476785,
      "step": 396,
      "time_per_iteration": 2.8064920902252197
    },
    {
      "auxiliary_loss_clip": 0.01307829,
      "auxiliary_loss_mlp": 0.01056446,
      "balance_loss_clip": 1.08479905,
      "balance_loss_mlp": 1.03629947,
      "epoch": 0.04773642758371911,
      "flos": 25630702796160.0,
      "grad_norm": 1.7369674128032462,
      "language_loss": 0.86845362,
      "learning_rate": 3.996722827219403e-06,
      "loss": 0.89209634,
      "num_input_tokens_seen": 8498400,
      "step": 397,
      "time_per_iteration": 2.755394220352173
    },
    {
      "auxiliary_loss_clip": 0.01305704,
      "auxiliary_loss_mlp": 0.01068549,
      "balance_loss_clip": 1.08294559,
      "balance_loss_mlp": 1.04694867,
      "epoch": 0.0478566704743582,
      "flos": 20631506688000.0,
      "grad_norm": 2.701890591262945,
      "language_loss": 0.8292439,
      "learning_rate": 3.996678100565833e-06,
      "loss": 0.85298645,
      "num_input_tokens_seen": 8517455,
      "step": 398,
      "time_per_iteration": 2.6884164810180664
    },
    {
      "auxiliary_loss_clip": 0.01304049,
      "auxiliary_loss_mlp": 0.0104864,
      "balance_loss_clip": 1.08194351,
      "balance_loss_mlp": 1.02688456,
      "epoch": 0.04797691336499729,
      "flos": 18835721210880.0,
      "grad_norm": 2.274462738685741,
      "language_loss": 0.88463354,
      "learning_rate": 3.996633071017783e-06,
      "loss": 0.90816045,
      "num_input_tokens_seen": 8534085,
      "step": 399,
      "time_per_iteration": 2.6472890377044678
    },
    {
      "auxiliary_loss_clip": 0.01304287,
      "auxiliary_loss_mlp": 0.01060157,
      "balance_loss_clip": 1.08469665,
      "balance_loss_mlp": 1.03747153,
      "epoch": 0.04809715625563638,
      "flos": 21099673578240.0,
      "grad_norm": 2.3139448802966385,
      "language_loss": 0.81979781,
      "learning_rate": 3.996587738582084e-06,
      "loss": 0.84344226,
      "num_input_tokens_seen": 8550885,
      "step": 400,
      "time_per_iteration": 2.656257152557373
    },
    {
      "auxiliary_loss_clip": 0.01300573,
      "auxiliary_loss_mlp": 0.01055064,
      "balance_loss_clip": 1.07940793,
      "balance_loss_mlp": 1.03337979,
      "epoch": 0.04821739914627548,
      "flos": 23805650712960.0,
      "grad_norm": 3.346777262445869,
      "language_loss": 0.86163735,
      "learning_rate": 3.9965421032656115e-06,
      "loss": 0.88519371,
      "num_input_tokens_seen": 8570815,
      "step": 401,
      "time_per_iteration": 2.7068064212799072
    },
    {
      "auxiliary_loss_clip": 0.01297314,
      "auxiliary_loss_mlp": 0.0105862,
      "balance_loss_clip": 1.07863879,
      "balance_loss_mlp": 1.03736544,
      "epoch": 0.04833764203691457,
      "flos": 22200587475840.0,
      "grad_norm": 2.570641774132452,
      "language_loss": 0.94320899,
      "learning_rate": 3.99649616507529e-06,
      "loss": 0.96676838,
      "num_input_tokens_seen": 8589910,
      "step": 402,
      "time_per_iteration": 2.6463472843170166
    },
    {
      "auxiliary_loss_clip": 0.01186329,
      "auxiliary_loss_mlp": 0.01019226,
      "balance_loss_clip": 1.04411149,
      "balance_loss_mlp": 1.00453937,
      "epoch": 0.04845788492755366,
      "flos": 65904376896000.0,
      "grad_norm": 0.8936615756278838,
      "language_loss": 0.63149071,
      "learning_rate": 3.996449924018088e-06,
      "loss": 0.65354621,
      "num_input_tokens_seen": 8650370,
      "step": 403,
      "time_per_iteration": 3.1519737243652344
    },
    {
      "auxiliary_loss_clip": 0.01294801,
      "auxiliary_loss_mlp": 0.01059654,
      "balance_loss_clip": 1.07966471,
      "balance_loss_mlp": 1.03906655,
      "epoch": 0.04857812781819275,
      "flos": 19281301424640.0,
      "grad_norm": 1.9233362146341957,
      "language_loss": 0.79331005,
      "learning_rate": 3.99640338010102e-06,
      "loss": 0.81685466,
      "num_input_tokens_seen": 8669475,
      "step": 404,
      "time_per_iteration": 2.664370059967041
    },
    {
      "auxiliary_loss_clip": 0.01296103,
      "auxiliary_loss_mlp": 0.0105828,
      "balance_loss_clip": 1.07729876,
      "balance_loss_mlp": 1.03543997,
      "epoch": 0.04869837070883184,
      "flos": 24062376193920.0,
      "grad_norm": 2.0577366372632406,
      "language_loss": 0.78954071,
      "learning_rate": 3.996356533331146e-06,
      "loss": 0.81308454,
      "num_input_tokens_seen": 8691345,
      "step": 405,
      "time_per_iteration": 2.726870059967041
    },
    {
      "auxiliary_loss_clip": 0.0130621,
      "auxiliary_loss_mlp": 0.01065192,
      "balance_loss_clip": 1.07987833,
      "balance_loss_mlp": 1.0420537,
      "epoch": 0.04881861359947093,
      "flos": 25187169657600.0,
      "grad_norm": 2.4379200111913235,
      "language_loss": 0.61786509,
      "learning_rate": 3.996309383715573e-06,
      "loss": 0.64157903,
      "num_input_tokens_seen": 8710125,
      "step": 406,
      "time_per_iteration": 2.7299880981445312
    },
    {
      "auxiliary_loss_clip": 0.01300597,
      "auxiliary_loss_mlp": 0.01060324,
      "balance_loss_clip": 1.07956338,
      "balance_loss_mlp": 1.03899693,
      "epoch": 0.048938856490110025,
      "flos": 16362913213440.0,
      "grad_norm": 3.9107364723276183,
      "language_loss": 0.73893631,
      "learning_rate": 3.996261931261454e-06,
      "loss": 0.76254559,
      "num_input_tokens_seen": 8728705,
      "step": 407,
      "time_per_iteration": 2.675083875656128
    },
    {
      "auxiliary_loss_clip": 0.01305587,
      "auxiliary_loss_mlp": 0.0105253,
      "balance_loss_clip": 1.08629048,
      "balance_loss_mlp": 1.03098905,
      "epoch": 0.049059099380749115,
      "flos": 29895094379520.0,
      "grad_norm": 1.6642689624689528,
      "language_loss": 0.86435306,
      "learning_rate": 3.996214175975987e-06,
      "loss": 0.88793433,
      "num_input_tokens_seen": 8749225,
      "step": 408,
      "time_per_iteration": 3.736332893371582
    },
    {
      "auxiliary_loss_clip": 0.01307385,
      "auxiliary_loss_mlp": 0.0104998,
      "balance_loss_clip": 1.08463621,
      "balance_loss_mlp": 1.02816463,
      "epoch": 0.049179342271388204,
      "flos": 35918858027520.0,
      "grad_norm": 3.23833847029066,
      "language_loss": 0.79361862,
      "learning_rate": 3.996166117866417e-06,
      "loss": 0.81719226,
      "num_input_tokens_seen": 8771160,
      "step": 409,
      "time_per_iteration": 2.858515501022339
    },
    {
      "auxiliary_loss_clip": 0.01294256,
      "auxiliary_loss_mlp": 0.01062507,
      "balance_loss_clip": 1.07816052,
      "balance_loss_mlp": 1.04185998,
      "epoch": 0.049299585162027294,
      "flos": 14611226659200.0,
      "grad_norm": 1.9786153951914935,
      "language_loss": 0.86576527,
      "learning_rate": 3.996117756940035e-06,
      "loss": 0.88933289,
      "num_input_tokens_seen": 8787845,
      "step": 410,
      "time_per_iteration": 2.6516947746276855
    },
    {
      "auxiliary_loss_clip": 0.01301172,
      "auxiliary_loss_mlp": 0.01049018,
      "balance_loss_clip": 1.0804671,
      "balance_loss_mlp": 1.02760768,
      "epoch": 0.049419828052666384,
      "flos": 19567939956480.0,
      "grad_norm": 2.06208958761102,
      "language_loss": 0.97753119,
      "learning_rate": 3.996069093204175e-06,
      "loss": 1.00103307,
      "num_input_tokens_seen": 8803805,
      "step": 411,
      "time_per_iteration": 4.66899847984314
    },
    {
      "auxiliary_loss_clip": 0.01302893,
      "auxiliary_loss_mlp": 0.01069587,
      "balance_loss_clip": 1.08175623,
      "balance_loss_mlp": 1.0475924,
      "epoch": 0.049540070943305474,
      "flos": 13659916907520.0,
      "grad_norm": 2.310013513811927,
      "language_loss": 0.88009691,
      "learning_rate": 3.996020126666221e-06,
      "loss": 0.90382165,
      "num_input_tokens_seen": 8820785,
      "step": 412,
      "time_per_iteration": 3.618410587310791
    },
    {
      "auxiliary_loss_clip": 0.01303967,
      "auxiliary_loss_mlp": 0.01056057,
      "balance_loss_clip": 1.08284903,
      "balance_loss_mlp": 1.03424168,
      "epoch": 0.04966031383394457,
      "flos": 21832035978240.0,
      "grad_norm": 2.044088590787741,
      "language_loss": 0.82180381,
      "learning_rate": 3.995970857333601e-06,
      "loss": 0.84540403,
      "num_input_tokens_seen": 8841195,
      "step": 413,
      "time_per_iteration": 2.6790120601654053
    },
    {
      "auxiliary_loss_clip": 0.01302649,
      "auxiliary_loss_mlp": 0.01070322,
      "balance_loss_clip": 1.08039522,
      "balance_loss_mlp": 1.0490787,
      "epoch": 0.04978055672458366,
      "flos": 28618793349120.0,
      "grad_norm": 1.835962128520906,
      "language_loss": 0.79583561,
      "learning_rate": 3.995921285213789e-06,
      "loss": 0.8195653,
      "num_input_tokens_seen": 8861455,
      "step": 414,
      "time_per_iteration": 2.686692237854004
    },
    {
      "auxiliary_loss_clip": 0.01299699,
      "auxiliary_loss_mlp": 0.01051689,
      "balance_loss_clip": 1.08203661,
      "balance_loss_mlp": 1.03148293,
      "epoch": 0.04990079961522275,
      "flos": 19828220883840.0,
      "grad_norm": 3.3588803731644585,
      "language_loss": 0.80669212,
      "learning_rate": 3.995871410314305e-06,
      "loss": 0.83020604,
      "num_input_tokens_seen": 8880015,
      "step": 415,
      "time_per_iteration": 2.6781206130981445
    },
    {
      "auxiliary_loss_clip": 0.01175565,
      "auxiliary_loss_mlp": 0.01014728,
      "balance_loss_clip": 1.04452848,
      "balance_loss_mlp": 1.00023258,
      "epoch": 0.05002104250586184,
      "flos": 62735045293440.0,
      "grad_norm": 0.9073718099980281,
      "language_loss": 0.59681082,
      "learning_rate": 3.995821232642714e-06,
      "loss": 0.61871374,
      "num_input_tokens_seen": 8938420,
      "step": 416,
      "time_per_iteration": 3.3969523906707764
    },
    {
      "auxiliary_loss_clip": 0.01286669,
      "auxiliary_loss_mlp": 0.01063482,
      "balance_loss_clip": 1.08162498,
      "balance_loss_mlp": 1.04234624,
      "epoch": 0.05014128539650093,
      "flos": 27928518710400.0,
      "grad_norm": 2.473893053520646,
      "language_loss": 0.82344848,
      "learning_rate": 3.995770752206629e-06,
      "loss": 0.84694999,
      "num_input_tokens_seen": 8959495,
      "step": 417,
      "time_per_iteration": 2.7581863403320312
    },
    {
      "auxiliary_loss_clip": 0.01299461,
      "auxiliary_loss_mlp": 0.01055106,
      "balance_loss_clip": 1.07999825,
      "balance_loss_mlp": 1.03425658,
      "epoch": 0.05026152828714002,
      "flos": 17705576620800.0,
      "grad_norm": 2.4841785347649203,
      "language_loss": 0.97208309,
      "learning_rate": 3.995719969013709e-06,
      "loss": 0.99562871,
      "num_input_tokens_seen": 8976675,
      "step": 418,
      "time_per_iteration": 2.621914863586426
    },
    {
      "auxiliary_loss_clip": 0.01271529,
      "auxiliary_loss_mlp": 0.01053613,
      "balance_loss_clip": 1.07732797,
      "balance_loss_mlp": 1.03184509,
      "epoch": 0.05038177117777912,
      "flos": 19133277477120.0,
      "grad_norm": 2.601075502169139,
      "language_loss": 0.85384142,
      "learning_rate": 3.995668883071655e-06,
      "loss": 0.87709284,
      "num_input_tokens_seen": 8992900,
      "step": 419,
      "time_per_iteration": 2.7425904273986816
    },
    {
      "auxiliary_loss_clip": 0.01301712,
      "auxiliary_loss_mlp": 0.01056749,
      "balance_loss_clip": 1.08236122,
      "balance_loss_mlp": 1.03415871,
      "epoch": 0.050502014068418206,
      "flos": 20667704618880.0,
      "grad_norm": 2.1544559300929067,
      "language_loss": 0.91204107,
      "learning_rate": 3.995617494388219e-06,
      "loss": 0.93562567,
      "num_input_tokens_seen": 9011020,
      "step": 420,
      "time_per_iteration": 2.7835657596588135
    },
    {
      "auxiliary_loss_clip": 0.01270351,
      "auxiliary_loss_mlp": 0.01058922,
      "balance_loss_clip": 1.07387257,
      "balance_loss_mlp": 1.0368681,
      "epoch": 0.050622256959057296,
      "flos": 21361103740800.0,
      "grad_norm": 2.2554046333898574,
      "language_loss": 0.80668283,
      "learning_rate": 3.995565802971196e-06,
      "loss": 0.82997555,
      "num_input_tokens_seen": 9030995,
      "step": 421,
      "time_per_iteration": 2.8115274906158447
    },
    {
      "auxiliary_loss_clip": 0.01270087,
      "auxiliary_loss_mlp": 0.01043887,
      "balance_loss_clip": 1.07279837,
      "balance_loss_mlp": 1.02344275,
      "epoch": 0.050742499849696386,
      "flos": 27673588909440.0,
      "grad_norm": 2.1030019698748013,
      "language_loss": 0.67471254,
      "learning_rate": 3.995513808828427e-06,
      "loss": 0.69785225,
      "num_input_tokens_seen": 9053790,
      "step": 422,
      "time_per_iteration": 2.842482089996338
    },
    {
      "auxiliary_loss_clip": 0.01274254,
      "auxiliary_loss_mlp": 0.0106186,
      "balance_loss_clip": 1.07594323,
      "balance_loss_mlp": 1.04061687,
      "epoch": 0.050862742740335476,
      "flos": 19865999013120.0,
      "grad_norm": 1.9651712349597024,
      "language_loss": 0.765257,
      "learning_rate": 3.9954615119678e-06,
      "loss": 0.78861815,
      "num_input_tokens_seen": 9072345,
      "step": 423,
      "time_per_iteration": 2.7683517932891846
    },
    {
      "auxiliary_loss_clip": 0.01262969,
      "auxiliary_loss_mlp": 0.01054384,
      "balance_loss_clip": 1.06991053,
      "balance_loss_mlp": 1.03295052,
      "epoch": 0.050982985630974566,
      "flos": 22085098272000.0,
      "grad_norm": 2.245271999186858,
      "language_loss": 0.80484802,
      "learning_rate": 3.995408912397248e-06,
      "loss": 0.82802153,
      "num_input_tokens_seen": 9090240,
      "step": 424,
      "time_per_iteration": 2.7113473415374756
    },
    {
      "auxiliary_loss_clip": 0.01275168,
      "auxiliary_loss_mlp": 0.01059807,
      "balance_loss_clip": 1.07641435,
      "balance_loss_mlp": 1.03808725,
      "epoch": 0.05110322852161366,
      "flos": 20740962407040.0,
      "grad_norm": 2.2440568972262454,
      "language_loss": 0.93323267,
      "learning_rate": 3.99535601012475e-06,
      "loss": 0.95658237,
      "num_input_tokens_seen": 9105570,
      "step": 425,
      "time_per_iteration": 2.7735257148742676
    },
    {
      "auxiliary_loss_clip": 0.01254755,
      "auxiliary_loss_mlp": 0.00891669,
      "balance_loss_clip": 1.0755465,
      "balance_loss_mlp": 1.00019026,
      "epoch": 0.05122347141225275,
      "flos": 28547295327360.0,
      "grad_norm": 1.9845380920203342,
      "language_loss": 0.75378585,
      "learning_rate": 3.995302805158333e-06,
      "loss": 0.77525008,
      "num_input_tokens_seen": 9128225,
      "step": 426,
      "time_per_iteration": 2.872553586959839
    },
    {
      "auxiliary_loss_clip": 0.01253346,
      "auxiliary_loss_mlp": 0.01058254,
      "balance_loss_clip": 1.06987178,
      "balance_loss_mlp": 1.03627157,
      "epoch": 0.05134371430289184,
      "flos": 19722679747200.0,
      "grad_norm": 1.8282138711837699,
      "language_loss": 0.8356185,
      "learning_rate": 3.9952492975060665e-06,
      "loss": 0.85873449,
      "num_input_tokens_seen": 9148295,
      "step": 427,
      "time_per_iteration": 2.7462406158447266
    },
    {
      "auxiliary_loss_clip": 0.01280832,
      "auxiliary_loss_mlp": 0.01045972,
      "balance_loss_clip": 1.07610822,
      "balance_loss_mlp": 1.02578962,
      "epoch": 0.05146395719353093,
      "flos": 34458945649920.0,
      "grad_norm": 2.8407426256390265,
      "language_loss": 0.85143113,
      "learning_rate": 3.995195487176067e-06,
      "loss": 0.87469912,
      "num_input_tokens_seen": 9168525,
      "step": 428,
      "time_per_iteration": 2.8477373123168945
    },
    {
      "auxiliary_loss_clip": 0.01295532,
      "auxiliary_loss_mlp": 0.01057795,
      "balance_loss_clip": 1.07824922,
      "balance_loss_mlp": 1.03726745,
      "epoch": 0.05158420008417002,
      "flos": 21760286561280.0,
      "grad_norm": 1.8426879007898445,
      "language_loss": 0.85521317,
      "learning_rate": 3.995141374176499e-06,
      "loss": 0.87874645,
      "num_input_tokens_seen": 9186920,
      "step": 429,
      "time_per_iteration": 2.7479586601257324
    },
    {
      "auxiliary_loss_clip": 0.01155209,
      "auxiliary_loss_mlp": 0.00881856,
      "balance_loss_clip": 1.04418457,
      "balance_loss_mlp": 1.00053775,
      "epoch": 0.05170444297480911,
      "flos": 72553956226560.0,
      "grad_norm": 0.8704845887812314,
      "language_loss": 0.63068783,
      "learning_rate": 3.995086958515572e-06,
      "loss": 0.6510585,
      "num_input_tokens_seen": 9244940,
      "step": 430,
      "time_per_iteration": 3.3667960166931152
    },
    {
      "auxiliary_loss_clip": 0.01183174,
      "auxiliary_loss_mlp": 0.00881871,
      "balance_loss_clip": 1.04826427,
      "balance_loss_mlp": 1.0004648,
      "epoch": 0.05182468586544821,
      "flos": 62416159326720.0,
      "grad_norm": 0.8696476211005796,
      "language_loss": 0.60013258,
      "learning_rate": 3.995032240201538e-06,
      "loss": 0.62078309,
      "num_input_tokens_seen": 9307335,
      "step": 431,
      "time_per_iteration": 3.234588861465454
    },
    {
      "auxiliary_loss_clip": 0.0116266,
      "auxiliary_loss_mlp": 0.010135,
      "balance_loss_clip": 1.04073417,
      "balance_loss_mlp": 0.99938536,
      "epoch": 0.0519449287560873,
      "flos": 41225989432320.0,
      "grad_norm": 0.9367742320734213,
      "language_loss": 0.63157487,
      "learning_rate": 3.9949772192427e-06,
      "loss": 0.65333652,
      "num_input_tokens_seen": 9353960,
      "step": 432,
      "time_per_iteration": 3.0075345039367676
    },
    {
      "auxiliary_loss_clip": 0.01272861,
      "auxiliary_loss_mlp": 0.01063158,
      "balance_loss_clip": 1.07500029,
      "balance_loss_mlp": 1.04190314,
      "epoch": 0.05206517164672639,
      "flos": 17494530261120.0,
      "grad_norm": 2.054131057827545,
      "language_loss": 0.79312283,
      "learning_rate": 3.994921895647405e-06,
      "loss": 0.81648302,
      "num_input_tokens_seen": 9372130,
      "step": 433,
      "time_per_iteration": 2.7820329666137695
    },
    {
      "auxiliary_loss_clip": 0.01177238,
      "auxiliary_loss_mlp": 0.01012296,
      "balance_loss_clip": 1.04324198,
      "balance_loss_mlp": 0.99846762,
      "epoch": 0.05218541453736548,
      "flos": 64002762973440.0,
      "grad_norm": 0.8506590131833792,
      "language_loss": 0.55351579,
      "learning_rate": 3.994866269424043e-06,
      "loss": 0.57541114,
      "num_input_tokens_seen": 9428500,
      "step": 434,
      "time_per_iteration": 4.0974280834198
    },
    {
      "auxiliary_loss_clip": 0.01229884,
      "auxiliary_loss_mlp": 0.01055267,
      "balance_loss_clip": 1.06013274,
      "balance_loss_mlp": 1.03466773,
      "epoch": 0.05230565742800457,
      "flos": 19317319787520.0,
      "grad_norm": 2.649251340718786,
      "language_loss": 0.77994746,
      "learning_rate": 3.9948103405810545e-06,
      "loss": 0.80279899,
      "num_input_tokens_seen": 9447450,
      "step": 435,
      "time_per_iteration": 3.2254819869995117
    },
    {
      "auxiliary_loss_clip": 0.01236785,
      "auxiliary_loss_mlp": 0.01060033,
      "balance_loss_clip": 1.06562901,
      "balance_loss_mlp": 1.03914714,
      "epoch": 0.05242590031864366,
      "flos": 25298636538240.0,
      "grad_norm": 1.8796751372014093,
      "language_loss": 0.8574962,
      "learning_rate": 3.994754109126923e-06,
      "loss": 0.88046438,
      "num_input_tokens_seen": 9468945,
      "step": 436,
      "time_per_iteration": 3.1859216690063477
    },
    {
      "auxiliary_loss_clip": 0.01226289,
      "auxiliary_loss_mlp": 0.01053107,
      "balance_loss_clip": 1.06715631,
      "balance_loss_mlp": 1.03279328,
      "epoch": 0.052546143209282754,
      "flos": 26211629456640.0,
      "grad_norm": 1.746169119533183,
      "language_loss": 0.93144417,
      "learning_rate": 3.994697575070181e-06,
      "loss": 0.95423806,
      "num_input_tokens_seen": 9488405,
      "step": 437,
      "time_per_iteration": 4.053788900375366
    },
    {
      "auxiliary_loss_clip": 0.01270148,
      "auxiliary_loss_mlp": 0.01052504,
      "balance_loss_clip": 1.07666659,
      "balance_loss_mlp": 1.03177404,
      "epoch": 0.052666386099921844,
      "flos": 22158140578560.0,
      "grad_norm": 1.729920508403735,
      "language_loss": 0.91399539,
      "learning_rate": 3.994640738419402e-06,
      "loss": 0.93722188,
      "num_input_tokens_seen": 9507780,
      "step": 438,
      "time_per_iteration": 4.134871244430542
    },
    {
      "auxiliary_loss_clip": 0.01283769,
      "auxiliary_loss_mlp": 0.01054104,
      "balance_loss_clip": 1.07923889,
      "balance_loss_mlp": 1.03182352,
      "epoch": 0.052786628990560934,
      "flos": 23881817502720.0,
      "grad_norm": 2.993884442811319,
      "language_loss": 0.8087666,
      "learning_rate": 3.9945835991832075e-06,
      "loss": 0.83214533,
      "num_input_tokens_seen": 9529665,
      "step": 439,
      "time_per_iteration": 2.8070921897888184
    },
    {
      "auxiliary_loss_clip": 0.0129617,
      "auxiliary_loss_mlp": 0.01064627,
      "balance_loss_clip": 1.08233881,
      "balance_loss_mlp": 1.04361069,
      "epoch": 0.052906871881200024,
      "flos": 24605021934720.0,
      "grad_norm": 2.086108585740544,
      "language_loss": 0.9284448,
      "learning_rate": 3.994526157370268e-06,
      "loss": 0.95205271,
      "num_input_tokens_seen": 9548280,
      "step": 440,
      "time_per_iteration": 2.743980884552002
    },
    {
      "auxiliary_loss_clip": 0.0115907,
      "auxiliary_loss_mlp": 0.01022604,
      "balance_loss_clip": 1.03588223,
      "balance_loss_mlp": 1.00906229,
      "epoch": 0.053027114771839114,
      "flos": 56461631143680.0,
      "grad_norm": 0.913706216512177,
      "language_loss": 0.59239137,
      "learning_rate": 3.994468412989296e-06,
      "loss": 0.61420822,
      "num_input_tokens_seen": 9609690,
      "step": 441,
      "time_per_iteration": 3.4622488021850586
    },
    {
      "auxiliary_loss_clip": 0.01239621,
      "auxiliary_loss_mlp": 0.01060495,
      "balance_loss_clip": 1.06755733,
      "balance_loss_mlp": 1.04096854,
      "epoch": 0.053147357662478203,
      "flos": 17311098481920.0,
      "grad_norm": 1.9411894923195452,
      "language_loss": 0.92438507,
      "learning_rate": 3.994410366049052e-06,
      "loss": 0.94738626,
      "num_input_tokens_seen": 9627550,
      "step": 442,
      "time_per_iteration": 2.704881429672241
    },
    {
      "auxiliary_loss_clip": 0.01276407,
      "auxiliary_loss_mlp": 0.01060716,
      "balance_loss_clip": 1.07461894,
      "balance_loss_mlp": 1.04015231,
      "epoch": 0.0532676005531173,
      "flos": 17164977955200.0,
      "grad_norm": 2.27935331016496,
      "language_loss": 0.83005625,
      "learning_rate": 3.994352016558341e-06,
      "loss": 0.85342747,
      "num_input_tokens_seen": 9644855,
      "step": 443,
      "time_per_iteration": 2.693321466445923
    },
    {
      "auxiliary_loss_clip": 0.01276059,
      "auxiliary_loss_mlp": 0.01065221,
      "balance_loss_clip": 1.076509,
      "balance_loss_mlp": 1.04515779,
      "epoch": 0.05338784344375639,
      "flos": 27819960831360.0,
      "grad_norm": 2.0203038463271543,
      "language_loss": 0.74028778,
      "learning_rate": 3.994293364526014e-06,
      "loss": 0.7637006,
      "num_input_tokens_seen": 9665740,
      "step": 444,
      "time_per_iteration": 2.7892396450042725
    },
    {
      "auxiliary_loss_clip": 0.01247789,
      "auxiliary_loss_mlp": 0.01057816,
      "balance_loss_clip": 1.07034349,
      "balance_loss_mlp": 1.03679991,
      "epoch": 0.05350808633439548,
      "flos": 21507691144320.0,
      "grad_norm": 2.1690428266450166,
      "language_loss": 0.8474642,
      "learning_rate": 3.99423440996097e-06,
      "loss": 0.87052023,
      "num_input_tokens_seen": 9685280,
      "step": 445,
      "time_per_iteration": 2.7983205318450928
    },
    {
      "auxiliary_loss_clip": 0.01272932,
      "auxiliary_loss_mlp": 0.01050112,
      "balance_loss_clip": 1.07867908,
      "balance_loss_mlp": 1.0291667,
      "epoch": 0.05362832922503457,
      "flos": 20084299920000.0,
      "grad_norm": 6.2408673581443646,
      "language_loss": 0.81657475,
      "learning_rate": 3.994175152872152e-06,
      "loss": 0.83980513,
      "num_input_tokens_seen": 9704365,
      "step": 446,
      "time_per_iteration": 2.776853322982788
    },
    {
      "auxiliary_loss_clip": 0.01283389,
      "auxiliary_loss_mlp": 0.01054193,
      "balance_loss_clip": 1.07662439,
      "balance_loss_mlp": 1.03334296,
      "epoch": 0.05374857211567366,
      "flos": 26137222433280.0,
      "grad_norm": 2.1404039569060003,
      "language_loss": 0.7862795,
      "learning_rate": 3.994115593268548e-06,
      "loss": 0.80965531,
      "num_input_tokens_seen": 9724145,
      "step": 447,
      "time_per_iteration": 2.767360210418701
    },
    {
      "auxiliary_loss_clip": 0.0129824,
      "auxiliary_loss_mlp": 0.01055472,
      "balance_loss_clip": 1.08240306,
      "balance_loss_mlp": 1.03595757,
      "epoch": 0.05386881500631275,
      "flos": 27486817165440.0,
      "grad_norm": 4.716205960406286,
      "language_loss": 0.82411021,
      "learning_rate": 3.994055731159195e-06,
      "loss": 0.84764737,
      "num_input_tokens_seen": 9741615,
      "step": 448,
      "time_per_iteration": 2.844815254211426
    },
    {
      "auxiliary_loss_clip": 0.01288119,
      "auxiliary_loss_mlp": 0.01055849,
      "balance_loss_clip": 1.08150744,
      "balance_loss_mlp": 1.03554773,
      "epoch": 0.053989057896951846,
      "flos": 23585087249280.0,
      "grad_norm": 2.2421725098326464,
      "language_loss": 0.86899185,
      "learning_rate": 3.993995566553172e-06,
      "loss": 0.8924315,
      "num_input_tokens_seen": 9760580,
      "step": 449,
      "time_per_iteration": 2.9074816703796387
    },
    {
      "auxiliary_loss_clip": 0.0125663,
      "auxiliary_loss_mlp": 0.01062914,
      "balance_loss_clip": 1.06983972,
      "balance_loss_mlp": 1.04174232,
      "epoch": 0.054109300787590936,
      "flos": 25228862369280.0,
      "grad_norm": 1.7571721633895376,
      "language_loss": 0.7722671,
      "learning_rate": 3.993935099459607e-06,
      "loss": 0.79546249,
      "num_input_tokens_seen": 9782195,
      "step": 450,
      "time_per_iteration": 2.796151876449585
    },
    {
      "auxiliary_loss_clip": 0.01283555,
      "auxiliary_loss_mlp": 0.01054333,
      "balance_loss_clip": 1.07600999,
      "balance_loss_mlp": 1.03485441,
      "epoch": 0.054229543678230026,
      "flos": 23841525421440.0,
      "grad_norm": 3.3620080862612327,
      "language_loss": 0.74181581,
      "learning_rate": 3.993874329887673e-06,
      "loss": 0.76519465,
      "num_input_tokens_seen": 9800850,
      "step": 451,
      "time_per_iteration": 2.6528053283691406
    },
    {
      "auxiliary_loss_clip": 0.01281394,
      "auxiliary_loss_mlp": 0.01048796,
      "balance_loss_clip": 1.0770123,
      "balance_loss_mlp": 1.02799368,
      "epoch": 0.054349786568869116,
      "flos": 16320933192960.0,
      "grad_norm": 2.7014749706541448,
      "language_loss": 0.8664788,
      "learning_rate": 3.993813257846589e-06,
      "loss": 0.88978076,
      "num_input_tokens_seen": 9817605,
      "step": 452,
      "time_per_iteration": 2.7649736404418945
    },
    {
      "auxiliary_loss_clip": 0.01282635,
      "auxiliary_loss_mlp": 0.01051151,
      "balance_loss_clip": 1.07782292,
      "balance_loss_mlp": 1.03115964,
      "epoch": 0.054470029459508205,
      "flos": 18660729127680.0,
      "grad_norm": 2.6027681100347406,
      "language_loss": 0.92756838,
      "learning_rate": 3.993751883345619e-06,
      "loss": 0.95090622,
      "num_input_tokens_seen": 9835965,
      "step": 453,
      "time_per_iteration": 2.682701349258423
    },
    {
      "auxiliary_loss_clip": 0.01260835,
      "auxiliary_loss_mlp": 0.01058605,
      "balance_loss_clip": 1.0742445,
      "balance_loss_mlp": 1.03807735,
      "epoch": 0.054590272350147295,
      "flos": 17785298856960.0,
      "grad_norm": 2.3641535182198377,
      "language_loss": 0.87405246,
      "learning_rate": 3.993690206394073e-06,
      "loss": 0.89724696,
      "num_input_tokens_seen": 9852265,
      "step": 454,
      "time_per_iteration": 2.700838565826416
    },
    {
      "auxiliary_loss_clip": 0.01279713,
      "auxiliary_loss_mlp": 0.01048717,
      "balance_loss_clip": 1.07732236,
      "balance_loss_mlp": 1.02892852,
      "epoch": 0.054710515240786385,
      "flos": 17785945301760.0,
      "grad_norm": 5.24745079061731,
      "language_loss": 0.8752225,
      "learning_rate": 3.993628227001307e-06,
      "loss": 0.89850688,
      "num_input_tokens_seen": 9870465,
      "step": 455,
      "time_per_iteration": 2.7356910705566406
    },
    {
      "auxiliary_loss_clip": 0.01264084,
      "auxiliary_loss_mlp": 0.01053518,
      "balance_loss_clip": 1.0722841,
      "balance_loss_mlp": 1.03338397,
      "epoch": 0.05483075813142548,
      "flos": 48210900180480.0,
      "grad_norm": 1.8575427878937738,
      "language_loss": 0.71492124,
      "learning_rate": 3.993565945176726e-06,
      "loss": 0.73809719,
      "num_input_tokens_seen": 9891490,
      "step": 456,
      "time_per_iteration": 2.9480233192443848
    },
    {
      "auxiliary_loss_clip": 0.01265554,
      "auxiliary_loss_mlp": 0.01052055,
      "balance_loss_clip": 1.07699656,
      "balance_loss_mlp": 1.03236151,
      "epoch": 0.05495100102206457,
      "flos": 19682244011520.0,
      "grad_norm": 1.9603235668910328,
      "language_loss": 0.83993608,
      "learning_rate": 3.993503360929776e-06,
      "loss": 0.86311221,
      "num_input_tokens_seen": 9910375,
      "step": 457,
      "time_per_iteration": 2.751293420791626
    },
    {
      "auxiliary_loss_clip": 0.01220365,
      "auxiliary_loss_mlp": 0.01052099,
      "balance_loss_clip": 1.06274736,
      "balance_loss_mlp": 1.03175032,
      "epoch": 0.05507124391270366,
      "flos": 26360048453760.0,
      "grad_norm": 1.6757054922648391,
      "language_loss": 0.80970383,
      "learning_rate": 3.99344047426995e-06,
      "loss": 0.83242846,
      "num_input_tokens_seen": 9931635,
      "step": 458,
      "time_per_iteration": 3.1476166248321533
    },
    {
      "auxiliary_loss_clip": 0.01248001,
      "auxiliary_loss_mlp": 0.01051314,
      "balance_loss_clip": 1.06769967,
      "balance_loss_mlp": 1.02992773,
      "epoch": 0.05519148680334275,
      "flos": 22601314581120.0,
      "grad_norm": 3.379552116022657,
      "language_loss": 0.93609703,
      "learning_rate": 3.993377285206789e-06,
      "loss": 0.95909011,
      "num_input_tokens_seen": 9951420,
      "step": 459,
      "time_per_iteration": 3.9638071060180664
    },
    {
      "auxiliary_loss_clip": 0.01228791,
      "auxiliary_loss_mlp": 0.01063914,
      "balance_loss_clip": 1.06777751,
      "balance_loss_mlp": 1.04283834,
      "epoch": 0.05531172969398184,
      "flos": 40552519380480.0,
      "grad_norm": 1.6615453910146232,
      "language_loss": 0.86480033,
      "learning_rate": 3.99331379374988e-06,
      "loss": 0.88772732,
      "num_input_tokens_seen": 9975025,
      "step": 460,
      "time_per_iteration": 2.957385301589966
    },
    {
      "auxiliary_loss_clip": 0.01268303,
      "auxiliary_loss_mlp": 0.01048955,
      "balance_loss_clip": 1.07013333,
      "balance_loss_mlp": 1.02878463,
      "epoch": 0.05543197258462093,
      "flos": 23477894087040.0,
      "grad_norm": 2.034480086994167,
      "language_loss": 0.80108392,
      "learning_rate": 3.993249999908852e-06,
      "loss": 0.82425654,
      "num_input_tokens_seen": 9995175,
      "step": 461,
      "time_per_iteration": 2.8037891387939453
    },
    {
      "auxiliary_loss_clip": 0.01291254,
      "auxiliary_loss_mlp": 0.01050558,
      "balance_loss_clip": 1.07457983,
      "balance_loss_mlp": 1.03051853,
      "epoch": 0.05555221547526003,
      "flos": 18624603024000.0,
      "grad_norm": 3.0753916032465654,
      "language_loss": 0.87074959,
      "learning_rate": 3.993185903693384e-06,
      "loss": 0.89416778,
      "num_input_tokens_seen": 10011975,
      "step": 462,
      "time_per_iteration": 2.7030327320098877
    },
    {
      "auxiliary_loss_clip": 0.01267962,
      "auxiliary_loss_mlp": 0.01052821,
      "balance_loss_clip": 1.07236338,
      "balance_loss_mlp": 1.03226972,
      "epoch": 0.05567245836589912,
      "flos": 23587098410880.0,
      "grad_norm": 2.8786715115273074,
      "language_loss": 0.82406127,
      "learning_rate": 3.9931215051131995e-06,
      "loss": 0.84726906,
      "num_input_tokens_seen": 10032620,
      "step": 463,
      "time_per_iteration": 3.825580358505249
    },
    {
      "auxiliary_loss_clip": 0.01272774,
      "auxiliary_loss_mlp": 0.01056416,
      "balance_loss_clip": 1.07124615,
      "balance_loss_mlp": 1.0364728,
      "epoch": 0.05579270125653821,
      "flos": 27746667129600.0,
      "grad_norm": 1.5746598591984833,
      "language_loss": 0.80080205,
      "learning_rate": 3.993056804178068e-06,
      "loss": 0.82409394,
      "num_input_tokens_seen": 10054165,
      "step": 464,
      "time_per_iteration": 4.655853748321533
    },
    {
      "auxiliary_loss_clip": 0.01240598,
      "auxiliary_loss_mlp": 0.01051663,
      "balance_loss_clip": 1.06845391,
      "balance_loss_mlp": 1.03102756,
      "epoch": 0.0559129441471773,
      "flos": 27014161075200.0,
      "grad_norm": 1.9784675743350477,
      "language_loss": 0.8409729,
      "learning_rate": 3.992991800897803e-06,
      "loss": 0.86389554,
      "num_input_tokens_seen": 10073970,
      "step": 465,
      "time_per_iteration": 2.8465683460235596
    },
    {
      "auxiliary_loss_clip": 0.01287488,
      "auxiliary_loss_mlp": 0.01055884,
      "balance_loss_clip": 1.0760107,
      "balance_loss_mlp": 1.03448606,
      "epoch": 0.05603318703781639,
      "flos": 15229787794560.0,
      "grad_norm": 2.181476149911284,
      "language_loss": 0.89695752,
      "learning_rate": 3.9929264952822665e-06,
      "loss": 0.92039132,
      "num_input_tokens_seen": 10091505,
      "step": 466,
      "time_per_iteration": 2.6347246170043945
    },
    {
      "auxiliary_loss_clip": 0.0128771,
      "auxiliary_loss_mlp": 0.01051843,
      "balance_loss_clip": 1.07577074,
      "balance_loss_mlp": 1.03036141,
      "epoch": 0.05615342992845548,
      "flos": 22266482976000.0,
      "grad_norm": 1.9124455017494482,
      "language_loss": 0.88399929,
      "learning_rate": 3.992860887341366e-06,
      "loss": 0.90739483,
      "num_input_tokens_seen": 10109675,
      "step": 467,
      "time_per_iteration": 2.71313214302063
    },
    {
      "auxiliary_loss_clip": 0.0124383,
      "auxiliary_loss_mlp": 0.0105972,
      "balance_loss_clip": 1.06830382,
      "balance_loss_mlp": 1.03902555,
      "epoch": 0.056273672819094574,
      "flos": 23584979508480.0,
      "grad_norm": 2.115386831396014,
      "language_loss": 0.81235093,
      "learning_rate": 3.992794977085052e-06,
      "loss": 0.83538646,
      "num_input_tokens_seen": 10127675,
      "step": 468,
      "time_per_iteration": 2.78818416595459
    },
    {
      "auxiliary_loss_clip": 0.01256233,
      "auxiliary_loss_mlp": 0.01060196,
      "balance_loss_clip": 1.07274461,
      "balance_loss_mlp": 1.03965664,
      "epoch": 0.056393915709733664,
      "flos": 19858708552320.0,
      "grad_norm": 2.1750880775149164,
      "language_loss": 0.85137469,
      "learning_rate": 3.992728764523326e-06,
      "loss": 0.87453902,
      "num_input_tokens_seen": 10146620,
      "step": 469,
      "time_per_iteration": 2.774085521697998
    },
    {
      "auxiliary_loss_clip": 0.01270811,
      "auxiliary_loss_mlp": 0.01053244,
      "balance_loss_clip": 1.07519197,
      "balance_loss_mlp": 1.03229928,
      "epoch": 0.05651415860037275,
      "flos": 22163779013760.0,
      "grad_norm": 1.7328950875336748,
      "language_loss": 0.80352068,
      "learning_rate": 3.99266224966623e-06,
      "loss": 0.82676131,
      "num_input_tokens_seen": 10167535,
      "step": 470,
      "time_per_iteration": 2.757131576538086
    },
    {
      "auxiliary_loss_clip": 0.0124887,
      "auxiliary_loss_mlp": 0.01052173,
      "balance_loss_clip": 1.06994486,
      "balance_loss_mlp": 1.03216958,
      "epoch": 0.05663440149101184,
      "flos": 19463548055040.0,
      "grad_norm": 1.8903008442717188,
      "language_loss": 0.88312244,
      "learning_rate": 3.992595432523855e-06,
      "loss": 0.90613294,
      "num_input_tokens_seen": 10184825,
      "step": 471,
      "time_per_iteration": 2.7061972618103027
    },
    {
      "auxiliary_loss_clip": 0.01243722,
      "auxiliary_loss_mlp": 0.01056872,
      "balance_loss_clip": 1.07040238,
      "balance_loss_mlp": 1.03747702,
      "epoch": 0.05675464438165093,
      "flos": 22670226823680.0,
      "grad_norm": 1.8589346017720183,
      "language_loss": 0.86042088,
      "learning_rate": 3.992528313106338e-06,
      "loss": 0.88342685,
      "num_input_tokens_seen": 10203025,
      "step": 472,
      "time_per_iteration": 2.743818998336792
    },
    {
      "auxiliary_loss_clip": 0.01297693,
      "auxiliary_loss_mlp": 0.00892064,
      "balance_loss_clip": 1.08325648,
      "balance_loss_mlp": 0.99989152,
      "epoch": 0.05687488727229002,
      "flos": 16901177495040.0,
      "grad_norm": 5.7171713056773426,
      "language_loss": 0.82366258,
      "learning_rate": 3.9924608914238595e-06,
      "loss": 0.84556019,
      "num_input_tokens_seen": 10218020,
      "step": 473,
      "time_per_iteration": 2.7114484310150146
    },
    {
      "auxiliary_loss_clip": 0.01279438,
      "auxiliary_loss_mlp": 0.01047657,
      "balance_loss_clip": 1.07512879,
      "balance_loss_mlp": 1.02671218,
      "epoch": 0.05699513016292912,
      "flos": 29168980945920.0,
      "grad_norm": 2.3966947570434765,
      "language_loss": 0.84039414,
      "learning_rate": 3.992393167486648e-06,
      "loss": 0.86366504,
      "num_input_tokens_seen": 10237170,
      "step": 474,
      "time_per_iteration": 2.727613925933838
    },
    {
      "auxiliary_loss_clip": 0.01291617,
      "auxiliary_loss_mlp": 0.01056966,
      "balance_loss_clip": 1.07756948,
      "balance_loss_mlp": 1.0365808,
      "epoch": 0.05711537305356821,
      "flos": 18916197632640.0,
      "grad_norm": 3.101564177472094,
      "language_loss": 0.80453086,
      "learning_rate": 3.992325141304977e-06,
      "loss": 0.82801676,
      "num_input_tokens_seen": 10255125,
      "step": 475,
      "time_per_iteration": 2.6430399417877197
    },
    {
      "auxiliary_loss_clip": 0.01234947,
      "auxiliary_loss_mlp": 0.01050705,
      "balance_loss_clip": 1.0677743,
      "balance_loss_mlp": 1.03079724,
      "epoch": 0.0572356159442073,
      "flos": 26758979879040.0,
      "grad_norm": 2.2948857164238827,
      "language_loss": 0.86598825,
      "learning_rate": 3.992256812889166e-06,
      "loss": 0.88884479,
      "num_input_tokens_seen": 10271230,
      "step": 476,
      "time_per_iteration": 2.749208927154541
    },
    {
      "auxiliary_loss_clip": 0.01292139,
      "auxiliary_loss_mlp": 0.01049529,
      "balance_loss_clip": 1.08033359,
      "balance_loss_mlp": 1.02865577,
      "epoch": 0.05735585883484639,
      "flos": 35116146840960.0,
      "grad_norm": 2.789763903360809,
      "language_loss": 0.76909339,
      "learning_rate": 3.992188182249582e-06,
      "loss": 0.79251003,
      "num_input_tokens_seen": 10293125,
      "step": 477,
      "time_per_iteration": 2.781377077102661
    },
    {
      "auxiliary_loss_clip": 0.0126753,
      "auxiliary_loss_mlp": 0.01049943,
      "balance_loss_clip": 1.07503176,
      "balance_loss_mlp": 1.02895021,
      "epoch": 0.05747610172548548,
      "flos": 18734381965440.0,
      "grad_norm": 2.275538695057572,
      "language_loss": 0.90694487,
      "learning_rate": 3.992119249396633e-06,
      "loss": 0.93011963,
      "num_input_tokens_seen": 10311810,
      "step": 478,
      "time_per_iteration": 2.6792492866516113
    },
    {
      "auxiliary_loss_clip": 0.01260032,
      "auxiliary_loss_mlp": 0.0089174,
      "balance_loss_clip": 1.07190621,
      "balance_loss_mlp": 0.9998793,
      "epoch": 0.05759634461612457,
      "flos": 27964752554880.0,
      "grad_norm": 2.009816465502428,
      "language_loss": 0.82213545,
      "learning_rate": 3.992050014340778e-06,
      "loss": 0.84365308,
      "num_input_tokens_seen": 10332165,
      "step": 479,
      "time_per_iteration": 2.850919485092163
    },
    {
      "auxiliary_loss_clip": 0.01153412,
      "auxiliary_loss_mlp": 0.01016904,
      "balance_loss_clip": 1.03581393,
      "balance_loss_mlp": 1.00421989,
      "epoch": 0.057716587506763666,
      "flos": 69292009405440.0,
      "grad_norm": 1.8048188258991416,
      "language_loss": 0.55022961,
      "learning_rate": 3.99198047709252e-06,
      "loss": 0.57193279,
      "num_input_tokens_seen": 10393685,
      "step": 480,
      "time_per_iteration": 3.3010447025299072
    },
    {
      "auxiliary_loss_clip": 0.01250129,
      "auxiliary_loss_mlp": 0.0105071,
      "balance_loss_clip": 1.06627607,
      "balance_loss_mlp": 1.02963352,
      "epoch": 0.057836830397402755,
      "flos": 25009196745600.0,
      "grad_norm": 15.77980754846726,
      "language_loss": 0.78657085,
      "learning_rate": 3.991910637662408e-06,
      "loss": 0.80957925,
      "num_input_tokens_seen": 10413975,
      "step": 481,
      "time_per_iteration": 2.7894444465637207
    },
    {
      "auxiliary_loss_clip": 0.01286648,
      "auxiliary_loss_mlp": 0.01055472,
      "balance_loss_clip": 1.07652307,
      "balance_loss_mlp": 1.03520679,
      "epoch": 0.057957073288041845,
      "flos": 25593894334080.0,
      "grad_norm": 1.9949470411626788,
      "language_loss": 0.80665666,
      "learning_rate": 3.9918404960610355e-06,
      "loss": 0.83007789,
      "num_input_tokens_seen": 10433005,
      "step": 482,
      "time_per_iteration": 2.664947271347046
    },
    {
      "auxiliary_loss_clip": 0.01283177,
      "auxiliary_loss_mlp": 0.01061075,
      "balance_loss_clip": 1.0758363,
      "balance_loss_mlp": 1.04023695,
      "epoch": 0.058077316178680935,
      "flos": 20777411733120.0,
      "grad_norm": 3.076259235970697,
      "language_loss": 0.77333009,
      "learning_rate": 3.991770052299043e-06,
      "loss": 0.79677266,
      "num_input_tokens_seen": 10451235,
      "step": 483,
      "time_per_iteration": 2.695934295654297
    },
    {
      "auxiliary_loss_clip": 0.01268883,
      "auxiliary_loss_mlp": 0.01056377,
      "balance_loss_clip": 1.07171321,
      "balance_loss_mlp": 1.03643358,
      "epoch": 0.058197559069320025,
      "flos": 18916484941440.0,
      "grad_norm": 2.338910208470088,
      "language_loss": 0.88042247,
      "learning_rate": 3.991699306387118e-06,
      "loss": 0.90367508,
      "num_input_tokens_seen": 10469705,
      "step": 484,
      "time_per_iteration": 2.7017245292663574
    },
    {
      "auxiliary_loss_clip": 0.01283952,
      "auxiliary_loss_mlp": 0.01053292,
      "balance_loss_clip": 1.07815385,
      "balance_loss_mlp": 1.03279948,
      "epoch": 0.058317801959959115,
      "flos": 24863327614080.0,
      "grad_norm": 1.8624352337799839,
      "language_loss": 0.78141892,
      "learning_rate": 3.991628258335991e-06,
      "loss": 0.80479133,
      "num_input_tokens_seen": 10491910,
      "step": 485,
      "time_per_iteration": 3.637662887573242
    },
    {
      "auxiliary_loss_clip": 0.01249918,
      "auxiliary_loss_mlp": 0.01049883,
      "balance_loss_clip": 1.0696764,
      "balance_loss_mlp": 1.03098845,
      "epoch": 0.05843804485059821,
      "flos": 23257977068160.0,
      "grad_norm": 3.044456230244187,
      "language_loss": 0.88138306,
      "learning_rate": 3.991556908156442e-06,
      "loss": 0.90438104,
      "num_input_tokens_seen": 10508435,
      "step": 486,
      "time_per_iteration": 2.7791266441345215
    },
    {
      "auxiliary_loss_clip": 0.0127149,
      "auxiliary_loss_mlp": 0.0106224,
      "balance_loss_clip": 1.0727706,
      "balance_loss_mlp": 1.04044867,
      "epoch": 0.0585582877412373,
      "flos": 23150532510720.0,
      "grad_norm": 2.08543781148468,
      "language_loss": 0.8779133,
      "learning_rate": 3.9914852558592914e-06,
      "loss": 0.9012506,
      "num_input_tokens_seen": 10529485,
      "step": 487,
      "time_per_iteration": 2.7378883361816406
    },
    {
      "auxiliary_loss_clip": 0.01282238,
      "auxiliary_loss_mlp": 0.01057107,
      "balance_loss_clip": 1.08009803,
      "balance_loss_mlp": 1.03696108,
      "epoch": 0.05867853063187639,
      "flos": 23506406507520.0,
      "grad_norm": 6.64984747205211,
      "language_loss": 0.80866766,
      "learning_rate": 3.991413301455413e-06,
      "loss": 0.83206111,
      "num_input_tokens_seen": 10545935,
      "step": 488,
      "time_per_iteration": 2.702221155166626
    },
    {
      "auxiliary_loss_clip": 0.01245873,
      "auxiliary_loss_mlp": 0.010499,
      "balance_loss_clip": 1.06769395,
      "balance_loss_mlp": 1.02957475,
      "epoch": 0.05879877352251548,
      "flos": 29495803818240.0,
      "grad_norm": 2.1909345291981,
      "language_loss": 0.7758646,
      "learning_rate": 3.991341044955719e-06,
      "loss": 0.79882222,
      "num_input_tokens_seen": 10565690,
      "step": 489,
      "time_per_iteration": 3.7733559608459473
    },
    {
      "auxiliary_loss_clip": 0.0127526,
      "auxiliary_loss_mlp": 0.00891986,
      "balance_loss_clip": 1.07302105,
      "balance_loss_mlp": 0.99986809,
      "epoch": 0.05891901641315457,
      "flos": 20157485880960.0,
      "grad_norm": 2.004900970445694,
      "language_loss": 0.81582034,
      "learning_rate": 3.991268486371172e-06,
      "loss": 0.8374927,
      "num_input_tokens_seen": 10584245,
      "step": 490,
      "time_per_iteration": 3.7223873138427734
    },
    {
      "auxiliary_loss_clip": 0.01269208,
      "auxiliary_loss_mlp": 0.01061873,
      "balance_loss_clip": 1.07189775,
      "balance_loss_mlp": 1.04136896,
      "epoch": 0.05903925930379366,
      "flos": 24644200694400.0,
      "grad_norm": 2.6738859700963413,
      "language_loss": 0.87520742,
      "learning_rate": 3.991195625712779e-06,
      "loss": 0.89851832,
      "num_input_tokens_seen": 10601210,
      "step": 491,
      "time_per_iteration": 2.776602268218994
    },
    {
      "auxiliary_loss_clip": 0.01289616,
      "auxiliary_loss_mlp": 0.01052239,
      "balance_loss_clip": 1.07829356,
      "balance_loss_mlp": 1.03297508,
      "epoch": 0.05915950219443276,
      "flos": 21250391045760.0,
      "grad_norm": 2.086293505368659,
      "language_loss": 0.81664425,
      "learning_rate": 3.991122462991592e-06,
      "loss": 0.84006286,
      "num_input_tokens_seen": 10620730,
      "step": 492,
      "time_per_iteration": 2.6837987899780273
    },
    {
      "auxiliary_loss_clip": 0.01293206,
      "auxiliary_loss_mlp": 0.01049245,
      "balance_loss_clip": 1.07760942,
      "balance_loss_mlp": 1.02857387,
      "epoch": 0.05927974508507185,
      "flos": 9902727319680.0,
      "grad_norm": 3.305066679026422,
      "language_loss": 0.80939156,
      "learning_rate": 3.991048998218712e-06,
      "loss": 0.83281606,
      "num_input_tokens_seen": 10634035,
      "step": 493,
      "time_per_iteration": 2.6098239421844482
    },
    {
      "auxiliary_loss_clip": 0.01276766,
      "auxiliary_loss_mlp": 0.01058379,
      "balance_loss_clip": 1.07223487,
      "balance_loss_mlp": 1.03738642,
      "epoch": 0.05939998797571094,
      "flos": 18259499232000.0,
      "grad_norm": 2.48712638111375,
      "language_loss": 0.76688957,
      "learning_rate": 3.990975231405281e-06,
      "loss": 0.790241,
      "num_input_tokens_seen": 10652485,
      "step": 494,
      "time_per_iteration": 2.680281162261963
    },
    {
      "auxiliary_loss_clip": 0.01281459,
      "auxiliary_loss_mlp": 0.01072892,
      "balance_loss_clip": 1.0771879,
      "balance_loss_mlp": 1.05292404,
      "epoch": 0.05952023086635003,
      "flos": 28256598558720.0,
      "grad_norm": 2.673988402063581,
      "language_loss": 0.78856176,
      "learning_rate": 3.990901162562491e-06,
      "loss": 0.8121053,
      "num_input_tokens_seen": 10673175,
      "step": 495,
      "time_per_iteration": 2.704529285430908
    },
    {
      "auxiliary_loss_clip": 0.01250576,
      "auxiliary_loss_mlp": 0.00892499,
      "balance_loss_clip": 1.06545639,
      "balance_loss_mlp": 0.99987257,
      "epoch": 0.05964047375698912,
      "flos": 14902498045440.0,
      "grad_norm": 1.9597390745235557,
      "language_loss": 0.90876848,
      "learning_rate": 3.9908267917015765e-06,
      "loss": 0.93019921,
      "num_input_tokens_seen": 10691235,
      "step": 496,
      "time_per_iteration": 2.8181352615356445
    },
    {
      "auxiliary_loss_clip": 0.01262216,
      "auxiliary_loss_mlp": 0.01059935,
      "balance_loss_clip": 1.07118511,
      "balance_loss_mlp": 1.03963327,
      "epoch": 0.059760716647628206,
      "flos": 23185581206400.0,
      "grad_norm": 2.0049687985019293,
      "language_loss": 0.92959058,
      "learning_rate": 3.990752118833821e-06,
      "loss": 0.95281208,
      "num_input_tokens_seen": 10708675,
      "step": 497,
      "time_per_iteration": 2.6694374084472656
    },
    {
      "auxiliary_loss_clip": 0.012912,
      "auxiliary_loss_mlp": 0.01059214,
      "balance_loss_clip": 1.08084273,
      "balance_loss_mlp": 1.03943682,
      "epoch": 0.0598809595382673,
      "flos": 22746968231040.0,
      "grad_norm": 1.8906438061970174,
      "language_loss": 0.77953148,
      "learning_rate": 3.990677143970553e-06,
      "loss": 0.80303562,
      "num_input_tokens_seen": 10729485,
      "step": 498,
      "time_per_iteration": 2.718040943145752
    },
    {
      "auxiliary_loss_clip": 0.01252471,
      "auxiliary_loss_mlp": 0.0105785,
      "balance_loss_clip": 1.07285023,
      "balance_loss_mlp": 1.03645205,
      "epoch": 0.06000120242890639,
      "flos": 22127221946880.0,
      "grad_norm": 2.8394256896265597,
      "language_loss": 0.81059992,
      "learning_rate": 3.990601867123144e-06,
      "loss": 0.83370316,
      "num_input_tokens_seen": 10749210,
      "step": 499,
      "time_per_iteration": 2.7230916023254395
    },
    {
      "auxiliary_loss_clip": 0.01246106,
      "auxiliary_loss_mlp": 0.01053198,
      "balance_loss_clip": 1.07349086,
      "balance_loss_mlp": 1.03325391,
      "epoch": 0.06012144531954548,
      "flos": 19171773878400.0,
      "grad_norm": 2.059129629010162,
      "language_loss": 0.85240197,
      "learning_rate": 3.990526288303014e-06,
      "loss": 0.87539494,
      "num_input_tokens_seen": 10768000,
      "step": 500,
      "time_per_iteration": 2.757089138031006
    },
    {
      "auxiliary_loss_clip": 0.01268023,
      "auxiliary_loss_mlp": 0.00892192,
      "balance_loss_clip": 1.07543361,
      "balance_loss_mlp": 0.99993545,
      "epoch": 0.06024168821018457,
      "flos": 22783345729920.0,
      "grad_norm": 1.663403226180043,
      "language_loss": 0.90510947,
      "learning_rate": 3.9904504075216295e-06,
      "loss": 0.92671162,
      "num_input_tokens_seen": 10788760,
      "step": 501,
      "time_per_iteration": 2.7241668701171875
    },
    {
      "auxiliary_loss_clip": 0.01254425,
      "auxiliary_loss_mlp": 0.01051957,
      "balance_loss_clip": 1.06822538,
      "balance_loss_mlp": 1.03237057,
      "epoch": 0.06036193110082366,
      "flos": 18770687637120.0,
      "grad_norm": 2.100172743188539,
      "language_loss": 0.93854797,
      "learning_rate": 3.990374224790501e-06,
      "loss": 0.96161187,
      "num_input_tokens_seen": 10806965,
      "step": 502,
      "time_per_iteration": 2.764202117919922
    },
    {
      "auxiliary_loss_clip": 0.01269665,
      "auxiliary_loss_mlp": 0.01059316,
      "balance_loss_clip": 1.07640958,
      "balance_loss_mlp": 1.03915787,
      "epoch": 0.06048217399146275,
      "flos": 17201570935680.0,
      "grad_norm": 2.3221099474005245,
      "language_loss": 0.70663559,
      "learning_rate": 3.990297740121185e-06,
      "loss": 0.72992539,
      "num_input_tokens_seen": 10824900,
      "step": 503,
      "time_per_iteration": 2.6895253658294678
    },
    {
      "auxiliary_loss_clip": 0.01280647,
      "auxiliary_loss_mlp": 0.00891686,
      "balance_loss_clip": 1.07745993,
      "balance_loss_mlp": 0.99996126,
      "epoch": 0.06060241688210185,
      "flos": 24024131187840.0,
      "grad_norm": 2.6585636386912777,
      "language_loss": 0.78063738,
      "learning_rate": 3.990220953525284e-06,
      "loss": 0.80236071,
      "num_input_tokens_seen": 10842010,
      "step": 504,
      "time_per_iteration": 2.7093236446380615
    },
    {
      "auxiliary_loss_clip": 0.01249969,
      "auxiliary_loss_mlp": 0.01053364,
      "balance_loss_clip": 1.06951344,
      "balance_loss_mlp": 1.03226376,
      "epoch": 0.06072265977274094,
      "flos": 14611190745600.0,
      "grad_norm": 2.5696574990240917,
      "language_loss": 0.74211955,
      "learning_rate": 3.9901438650144465e-06,
      "loss": 0.76515287,
      "num_input_tokens_seen": 10858260,
      "step": 505,
      "time_per_iteration": 2.7139029502868652
    },
    {
      "auxiliary_loss_clip": 0.01265538,
      "auxiliary_loss_mlp": 0.01046878,
      "balance_loss_clip": 1.07314312,
      "balance_loss_mlp": 1.02726805,
      "epoch": 0.06084290266338003,
      "flos": 20558284813440.0,
      "grad_norm": 2.603079811581872,
      "language_loss": 0.91662902,
      "learning_rate": 3.990066474600367e-06,
      "loss": 0.93975317,
      "num_input_tokens_seen": 10876230,
      "step": 506,
      "time_per_iteration": 2.6963446140289307
    },
    {
      "auxiliary_loss_clip": 0.01253501,
      "auxiliary_loss_mlp": 0.01053263,
      "balance_loss_clip": 1.06779504,
      "balance_loss_mlp": 1.03336692,
      "epoch": 0.06096314555401912,
      "flos": 22309217182080.0,
      "grad_norm": 2.0644452822256443,
      "language_loss": 0.67992562,
      "learning_rate": 3.989988782294786e-06,
      "loss": 0.70299327,
      "num_input_tokens_seen": 10896320,
      "step": 507,
      "time_per_iteration": 2.750288248062134
    },
    {
      "auxiliary_loss_clip": 0.01224842,
      "auxiliary_loss_mlp": 0.01052646,
      "balance_loss_clip": 1.06436372,
      "balance_loss_mlp": 1.03303599,
      "epoch": 0.06108338844465821,
      "flos": 19131374056320.0,
      "grad_norm": 1.7557934977895355,
      "language_loss": 0.94818586,
      "learning_rate": 3.989910788109489e-06,
      "loss": 0.97096068,
      "num_input_tokens_seen": 10912970,
      "step": 508,
      "time_per_iteration": 2.722020387649536
    },
    {
      "auxiliary_loss_clip": 0.0125245,
      "auxiliary_loss_mlp": 0.01048897,
      "balance_loss_clip": 1.0708189,
      "balance_loss_mlp": 1.02903628,
      "epoch": 0.0612036313352973,
      "flos": 33584018169600.0,
      "grad_norm": 2.273433532092231,
      "language_loss": 0.7465831,
      "learning_rate": 3.989832492056307e-06,
      "loss": 0.76959658,
      "num_input_tokens_seen": 10933995,
      "step": 509,
      "time_per_iteration": 2.873518228530884
    },
    {
      "auxiliary_loss_clip": 0.01282287,
      "auxiliary_loss_mlp": 0.01056191,
      "balance_loss_clip": 1.07876086,
      "balance_loss_mlp": 1.0352695,
      "epoch": 0.06132387422593639,
      "flos": 27490552179840.0,
      "grad_norm": 2.400092624857276,
      "language_loss": 0.81139684,
      "learning_rate": 3.989753894147119e-06,
      "loss": 0.83478159,
      "num_input_tokens_seen": 10954120,
      "step": 510,
      "time_per_iteration": 2.7040255069732666
    },
    {
      "auxiliary_loss_clip": 0.01275705,
      "auxiliary_loss_mlp": 0.01062493,
      "balance_loss_clip": 1.08174491,
      "balance_loss_mlp": 1.04197693,
      "epoch": 0.061444117116575485,
      "flos": 25885057979520.0,
      "grad_norm": 2.151988747126775,
      "language_loss": 0.80097187,
      "learning_rate": 3.989674994393846e-06,
      "loss": 0.82435381,
      "num_input_tokens_seen": 10973595,
      "step": 511,
      "time_per_iteration": 2.713083028793335
    },
    {
      "auxiliary_loss_clip": 0.01278575,
      "auxiliary_loss_mlp": 0.01050168,
      "balance_loss_clip": 1.07985449,
      "balance_loss_mlp": 1.03099942,
      "epoch": 0.061564360007214575,
      "flos": 28512031150080.0,
      "grad_norm": 3.4811145945106343,
      "language_loss": 0.93939197,
      "learning_rate": 3.98959579280846e-06,
      "loss": 0.96267933,
      "num_input_tokens_seen": 10991995,
      "step": 512,
      "time_per_iteration": 3.632668972015381
    },
    {
      "auxiliary_loss_clip": 0.0122454,
      "auxiliary_loss_mlp": 0.01062693,
      "balance_loss_clip": 1.07090056,
      "balance_loss_mlp": 1.0434531,
      "epoch": 0.061684602897853665,
      "flos": 12094355652480.0,
      "grad_norm": 2.975633197974722,
      "language_loss": 0.82773966,
      "learning_rate": 3.989516289402973e-06,
      "loss": 0.85061198,
      "num_input_tokens_seen": 11007625,
      "step": 513,
      "time_per_iteration": 2.732405662536621
    },
    {
      "auxiliary_loss_clip": 0.01201418,
      "auxiliary_loss_mlp": 0.01049731,
      "balance_loss_clip": 1.05606449,
      "balance_loss_mlp": 1.02993083,
      "epoch": 0.061804845788492754,
      "flos": 19532639865600.0,
      "grad_norm": 2.1777978490177774,
      "language_loss": 0.80635107,
      "learning_rate": 3.989436484189447e-06,
      "loss": 0.82886255,
      "num_input_tokens_seen": 11025570,
      "step": 514,
      "time_per_iteration": 2.828207015991211
    },
    {
      "auxiliary_loss_clip": 0.01279088,
      "auxiliary_loss_mlp": 0.01051694,
      "balance_loss_clip": 1.07467365,
      "balance_loss_mlp": 1.03213215,
      "epoch": 0.061925088679131844,
      "flos": 15341111020800.0,
      "grad_norm": 2.589672125750861,
      "language_loss": 0.80851525,
      "learning_rate": 3.9893563771799885e-06,
      "loss": 0.83182299,
      "num_input_tokens_seen": 11042045,
      "step": 515,
      "time_per_iteration": 3.675013780593872
    },
    {
      "auxiliary_loss_clip": 0.01290329,
      "auxiliary_loss_mlp": 0.01065296,
      "balance_loss_clip": 1.07705963,
      "balance_loss_mlp": 1.04571044,
      "epoch": 0.062045331569770934,
      "flos": 25919927107200.0,
      "grad_norm": 2.25128085451844,
      "language_loss": 0.86361414,
      "learning_rate": 3.989275968386749e-06,
      "loss": 0.88717043,
      "num_input_tokens_seen": 11059955,
      "step": 516,
      "time_per_iteration": 4.729841709136963
    },
    {
      "auxiliary_loss_clip": 0.01244823,
      "auxiliary_loss_mlp": 0.0105465,
      "balance_loss_clip": 1.06608248,
      "balance_loss_mlp": 1.03495646,
      "epoch": 0.06216557446041003,
      "flos": 28110621686400.0,
      "grad_norm": 1.9990148139058157,
      "language_loss": 0.76579165,
      "learning_rate": 3.989195257821926e-06,
      "loss": 0.78878647,
      "num_input_tokens_seen": 11078440,
      "step": 517,
      "time_per_iteration": 2.7962441444396973
    },
    {
      "auxiliary_loss_clip": 0.01263396,
      "auxiliary_loss_mlp": 0.01064612,
      "balance_loss_clip": 1.07547379,
      "balance_loss_mlp": 1.04427457,
      "epoch": 0.06228581735104912,
      "flos": 23478181395840.0,
      "grad_norm": 2.2310756026885956,
      "language_loss": 0.84659827,
      "learning_rate": 3.989114245497765e-06,
      "loss": 0.86987829,
      "num_input_tokens_seen": 11098240,
      "step": 518,
      "time_per_iteration": 2.712935447692871
    },
    {
      "auxiliary_loss_clip": 0.01273651,
      "auxiliary_loss_mlp": 0.01051531,
      "balance_loss_clip": 1.07023275,
      "balance_loss_mlp": 1.03318441,
      "epoch": 0.06240606024168821,
      "flos": 15195205975680.0,
      "grad_norm": 2.2118841620384346,
      "language_loss": 0.94373906,
      "learning_rate": 3.989032931426554e-06,
      "loss": 0.96699083,
      "num_input_tokens_seen": 11115395,
      "step": 519,
      "time_per_iteration": 2.6895248889923096
    },
    {
      "auxiliary_loss_clip": 0.01262064,
      "auxiliary_loss_mlp": 0.01052589,
      "balance_loss_clip": 1.07446361,
      "balance_loss_mlp": 1.03327727,
      "epoch": 0.06252630313232731,
      "flos": 20631829910400.0,
      "grad_norm": 2.0303320029690295,
      "language_loss": 0.86398757,
      "learning_rate": 3.9889513156206295e-06,
      "loss": 0.88713408,
      "num_input_tokens_seen": 11134835,
      "step": 520,
      "time_per_iteration": 2.742175579071045
    },
    {
      "auxiliary_loss_clip": 0.01255389,
      "auxiliary_loss_mlp": 0.01056144,
      "balance_loss_clip": 1.07106614,
      "balance_loss_mlp": 1.0368557,
      "epoch": 0.06264654602296639,
      "flos": 20778058177920.0,
      "grad_norm": 2.56516308682391,
      "language_loss": 0.73752159,
      "learning_rate": 3.988869398092371e-06,
      "loss": 0.76063693,
      "num_input_tokens_seen": 11154745,
      "step": 521,
      "time_per_iteration": 2.772322654724121
    },
    {
      "auxiliary_loss_clip": 0.01263882,
      "auxiliary_loss_mlp": 0.01054828,
      "balance_loss_clip": 1.07325971,
      "balance_loss_mlp": 1.03527784,
      "epoch": 0.06276678891360549,
      "flos": 29605798241280.0,
      "grad_norm": 2.4146478575691406,
      "language_loss": 0.78790271,
      "learning_rate": 3.988787178854206e-06,
      "loss": 0.81108981,
      "num_input_tokens_seen": 11174280,
      "step": 522,
      "time_per_iteration": 2.79571795463562
    },
    {
      "auxiliary_loss_clip": 0.01285436,
      "auxiliary_loss_mlp": 0.01057062,
      "balance_loss_clip": 1.07667971,
      "balance_loss_mlp": 1.03820264,
      "epoch": 0.06288703180424457,
      "flos": 22126288193280.0,
      "grad_norm": 2.2275634951908314,
      "language_loss": 0.87345403,
      "learning_rate": 3.988704657918608e-06,
      "loss": 0.89687902,
      "num_input_tokens_seen": 11193340,
      "step": 523,
      "time_per_iteration": 2.6641838550567627
    },
    {
      "auxiliary_loss_clip": 0.0127755,
      "auxiliary_loss_mlp": 0.01050176,
      "balance_loss_clip": 1.07946944,
      "balance_loss_mlp": 1.03104341,
      "epoch": 0.06300727469488367,
      "flos": 14976689587200.0,
      "grad_norm": 3.2720019736395582,
      "language_loss": 0.79684329,
      "learning_rate": 3.988621835298094e-06,
      "loss": 0.82012057,
      "num_input_tokens_seen": 11210555,
      "step": 524,
      "time_per_iteration": 2.729971408843994
    },
    {
      "auxiliary_loss_clip": 0.01283858,
      "auxiliary_loss_mlp": 0.01048335,
      "balance_loss_clip": 1.0779295,
      "balance_loss_mlp": 1.02973783,
      "epoch": 0.06312751758552275,
      "flos": 24535391420160.0,
      "grad_norm": 1.9941693527251716,
      "language_loss": 0.91675365,
      "learning_rate": 3.988538711005229e-06,
      "loss": 0.94007558,
      "num_input_tokens_seen": 11230010,
      "step": 525,
      "time_per_iteration": 2.660234212875366
    },
    {
      "auxiliary_loss_clip": 0.01268374,
      "auxiliary_loss_mlp": 0.01054343,
      "balance_loss_clip": 1.07526374,
      "balance_loss_mlp": 1.03560376,
      "epoch": 0.06324776047616185,
      "flos": 21507008785920.0,
      "grad_norm": 2.153675616678469,
      "language_loss": 0.88130653,
      "learning_rate": 3.988455285052622e-06,
      "loss": 0.90453374,
      "num_input_tokens_seen": 11246190,
      "step": 526,
      "time_per_iteration": 2.70913028717041
    },
    {
      "auxiliary_loss_clip": 0.01269716,
      "auxiliary_loss_mlp": 0.01058189,
      "balance_loss_clip": 1.07537949,
      "balance_loss_mlp": 1.03818607,
      "epoch": 0.06336800336680094,
      "flos": 21688034353920.0,
      "grad_norm": 2.044241222305247,
      "language_loss": 0.84148848,
      "learning_rate": 3.98837155745293e-06,
      "loss": 0.86476755,
      "num_input_tokens_seen": 11264230,
      "step": 527,
      "time_per_iteration": 2.6533448696136475
    },
    {
      "auxiliary_loss_clip": 0.01272564,
      "auxiliary_loss_mlp": 0.01054802,
      "balance_loss_clip": 1.0783124,
      "balance_loss_mlp": 1.03513288,
      "epoch": 0.06348824625744003,
      "flos": 19500895221120.0,
      "grad_norm": 2.079882546388212,
      "language_loss": 0.7594136,
      "learning_rate": 3.988287528218854e-06,
      "loss": 0.78268731,
      "num_input_tokens_seen": 11283015,
      "step": 528,
      "time_per_iteration": 2.7375874519348145
    },
    {
      "auxiliary_loss_clip": 0.01273791,
      "auxiliary_loss_mlp": 0.01054642,
      "balance_loss_clip": 1.0800972,
      "balance_loss_mlp": 1.03653395,
      "epoch": 0.06360848914807912,
      "flos": 15481233976320.0,
      "grad_norm": 2.082971157322541,
      "language_loss": 0.90308201,
      "learning_rate": 3.98820319736314e-06,
      "loss": 0.92636633,
      "num_input_tokens_seen": 11299630,
      "step": 529,
      "time_per_iteration": 2.62752366065979
    },
    {
      "auxiliary_loss_clip": 0.0124911,
      "auxiliary_loss_mlp": 0.01047987,
      "balance_loss_clip": 1.06768107,
      "balance_loss_mlp": 1.02933085,
      "epoch": 0.0637287320387182,
      "flos": 20593369422720.0,
      "grad_norm": 1.7588952584091173,
      "language_loss": 0.85403764,
      "learning_rate": 3.988118564898582e-06,
      "loss": 0.87700862,
      "num_input_tokens_seen": 11319170,
      "step": 530,
      "time_per_iteration": 2.7279839515686035
    },
    {
      "auxiliary_loss_clip": 0.01233793,
      "auxiliary_loss_mlp": 0.00892339,
      "balance_loss_clip": 1.0682205,
      "balance_loss_mlp": 0.99989378,
      "epoch": 0.0638489749293573,
      "flos": 17412222245760.0,
      "grad_norm": 2.4337754461724437,
      "language_loss": 0.8943857,
      "learning_rate": 3.988033630838019e-06,
      "loss": 0.91564703,
      "num_input_tokens_seen": 11333210,
      "step": 531,
      "time_per_iteration": 2.7216780185699463
    },
    {
      "auxiliary_loss_clip": 0.01278334,
      "auxiliary_loss_mlp": 0.01056626,
      "balance_loss_clip": 1.07942545,
      "balance_loss_mlp": 1.03622925,
      "epoch": 0.0639692178199964,
      "flos": 23807661874560.0,
      "grad_norm": 1.7038218046523415,
      "language_loss": 0.8814863,
      "learning_rate": 3.987948395194334e-06,
      "loss": 0.90483588,
      "num_input_tokens_seen": 11355590,
      "step": 532,
      "time_per_iteration": 2.754702091217041
    },
    {
      "auxiliary_loss_clip": 0.01265528,
      "auxiliary_loss_mlp": 0.01051815,
      "balance_loss_clip": 1.07152653,
      "balance_loss_mlp": 1.03226423,
      "epoch": 0.06408946071063548,
      "flos": 18477225521280.0,
      "grad_norm": 2.06770545469922,
      "language_loss": 0.76487362,
      "learning_rate": 3.987862857980458e-06,
      "loss": 0.78804708,
      "num_input_tokens_seen": 11371535,
      "step": 533,
      "time_per_iteration": 2.6583428382873535
    },
    {
      "auxiliary_loss_clip": 0.0125879,
      "auxiliary_loss_mlp": 0.01047416,
      "balance_loss_clip": 1.07624984,
      "balance_loss_mlp": 1.02748394,
      "epoch": 0.06420970360127458,
      "flos": 27162220936320.0,
      "grad_norm": 2.019287085582441,
      "language_loss": 0.76779783,
      "learning_rate": 3.987777019209368e-06,
      "loss": 0.79085994,
      "num_input_tokens_seen": 11392050,
      "step": 534,
      "time_per_iteration": 2.820051431655884
    },
    {
      "auxiliary_loss_clip": 0.01284793,
      "auxiliary_loss_mlp": 0.01068872,
      "balance_loss_clip": 1.07775044,
      "balance_loss_mlp": 1.0481298,
      "epoch": 0.06432994649191366,
      "flos": 23659673840640.0,
      "grad_norm": 1.8735297820082806,
      "language_loss": 0.81100619,
      "learning_rate": 3.987690878894084e-06,
      "loss": 0.83454287,
      "num_input_tokens_seen": 11411765,
      "step": 535,
      "time_per_iteration": 2.686418294906616
    },
    {
      "auxiliary_loss_clip": 0.01263274,
      "auxiliary_loss_mlp": 0.01054926,
      "balance_loss_clip": 1.07146573,
      "balance_loss_mlp": 1.03520846,
      "epoch": 0.06445018938255276,
      "flos": 23403953940480.0,
      "grad_norm": 2.278207933968106,
      "language_loss": 0.85111523,
      "learning_rate": 3.987604437047673e-06,
      "loss": 0.87429726,
      "num_input_tokens_seen": 11431565,
      "step": 536,
      "time_per_iteration": 2.75351619720459
    },
    {
      "auxiliary_loss_clip": 0.01268752,
      "auxiliary_loss_mlp": 0.01050091,
      "balance_loss_clip": 1.07309961,
      "balance_loss_mlp": 1.03124416,
      "epoch": 0.06457043227319184,
      "flos": 19646692525440.0,
      "grad_norm": 2.162933632556055,
      "language_loss": 0.78001237,
      "learning_rate": 3.987517693683251e-06,
      "loss": 0.80320084,
      "num_input_tokens_seen": 11450140,
      "step": 537,
      "time_per_iteration": 3.624509572982788
    },
    {
      "auxiliary_loss_clip": 0.01255471,
      "auxiliary_loss_mlp": 0.01050771,
      "balance_loss_clip": 1.07212591,
      "balance_loss_mlp": 1.03081584,
      "epoch": 0.06469067516383094,
      "flos": 16978744915200.0,
      "grad_norm": 2.700087512941064,
      "language_loss": 0.96296263,
      "learning_rate": 3.9874306488139745e-06,
      "loss": 0.98602509,
      "num_input_tokens_seen": 11465400,
      "step": 538,
      "time_per_iteration": 2.7694551944732666
    },
    {
      "auxiliary_loss_clip": 0.01249233,
      "auxiliary_loss_mlp": 0.01052121,
      "balance_loss_clip": 1.07450604,
      "balance_loss_mlp": 1.03265369,
      "epoch": 0.06481091805447003,
      "flos": 23296401642240.0,
      "grad_norm": 2.1941241961162037,
      "language_loss": 0.88173401,
      "learning_rate": 3.987343302453049e-06,
      "loss": 0.90474749,
      "num_input_tokens_seen": 11486675,
      "step": 539,
      "time_per_iteration": 2.7528269290924072
    },
    {
      "auxiliary_loss_clip": 0.01260716,
      "auxiliary_loss_mlp": 0.0105271,
      "balance_loss_clip": 1.07405913,
      "balance_loss_mlp": 1.03389847,
      "epoch": 0.06493116094510912,
      "flos": 29172356824320.0,
      "grad_norm": 1.6452283020048288,
      "language_loss": 0.82628191,
      "learning_rate": 3.987255654613724e-06,
      "loss": 0.8494162,
      "num_input_tokens_seen": 11510440,
      "step": 540,
      "time_per_iteration": 2.783190965652466
    },
    {
      "auxiliary_loss_clip": 0.01245845,
      "auxiliary_loss_mlp": 0.01061197,
      "balance_loss_clip": 1.06902003,
      "balance_loss_mlp": 1.04212403,
      "epoch": 0.06505140383574821,
      "flos": 19865065259520.0,
      "grad_norm": 1.9725026724045738,
      "language_loss": 0.70408499,
      "learning_rate": 3.987167705309296e-06,
      "loss": 0.72715533,
      "num_input_tokens_seen": 11529715,
      "step": 541,
      "time_per_iteration": 3.6160218715667725
    },
    {
      "auxiliary_loss_clip": 0.0127847,
      "auxiliary_loss_mlp": 0.00891602,
      "balance_loss_clip": 1.07814085,
      "balance_loss_mlp": 0.99986553,
      "epoch": 0.0651716467263873,
      "flos": 17924703540480.0,
      "grad_norm": 2.0731249746278184,
      "language_loss": 0.95272195,
      "learning_rate": 3.987079454553108e-06,
      "loss": 0.97442269,
      "num_input_tokens_seen": 11547665,
      "step": 542,
      "time_per_iteration": 4.563168048858643
    },
    {
      "auxiliary_loss_clip": 0.01244297,
      "auxiliary_loss_mlp": 0.01049096,
      "balance_loss_clip": 1.07404804,
      "balance_loss_mlp": 1.03024864,
      "epoch": 0.0652918896170264,
      "flos": 20842840356480.0,
      "grad_norm": 1.825208212227536,
      "language_loss": 0.91173494,
      "learning_rate": 3.986990902358546e-06,
      "loss": 0.9346689,
      "num_input_tokens_seen": 11564605,
      "step": 543,
      "time_per_iteration": 2.759075403213501
    },
    {
      "auxiliary_loss_clip": 0.01272007,
      "auxiliary_loss_mlp": 0.01043006,
      "balance_loss_clip": 1.07337689,
      "balance_loss_mlp": 1.02353895,
      "epoch": 0.06541213250766549,
      "flos": 21872507627520.0,
      "grad_norm": 2.3014433544084407,
      "language_loss": 0.93442541,
      "learning_rate": 3.986902048739045e-06,
      "loss": 0.9575755,
      "num_input_tokens_seen": 11584550,
      "step": 544,
      "time_per_iteration": 2.6561410427093506
    },
    {
      "auxiliary_loss_clip": 0.01259611,
      "auxiliary_loss_mlp": 0.01053406,
      "balance_loss_clip": 1.07136273,
      "balance_loss_mlp": 1.03409433,
      "epoch": 0.06553237539830457,
      "flos": 23110743219840.0,
      "grad_norm": 2.8999004415035663,
      "language_loss": 0.80096734,
      "learning_rate": 3.986812893708082e-06,
      "loss": 0.82409745,
      "num_input_tokens_seen": 11600740,
      "step": 545,
      "time_per_iteration": 2.6895687580108643
    },
    {
      "auxiliary_loss_clip": 0.01265675,
      "auxiliary_loss_mlp": 0.01050951,
      "balance_loss_clip": 1.07069325,
      "balance_loss_mlp": 1.03162766,
      "epoch": 0.06565261828894367,
      "flos": 17923769786880.0,
      "grad_norm": 2.029822640662961,
      "language_loss": 0.81335139,
      "learning_rate": 3.9867234372791826e-06,
      "loss": 0.83651769,
      "num_input_tokens_seen": 11618695,
      "step": 546,
      "time_per_iteration": 2.709205150604248
    },
    {
      "auxiliary_loss_clip": 0.01271912,
      "auxiliary_loss_mlp": 0.0104686,
      "balance_loss_clip": 1.07418835,
      "balance_loss_mlp": 1.0271194,
      "epoch": 0.06577286117958275,
      "flos": 22783058421120.0,
      "grad_norm": 3.0424446792894217,
      "language_loss": 0.87056154,
      "learning_rate": 3.986633679465918e-06,
      "loss": 0.8937493,
      "num_input_tokens_seen": 11638850,
      "step": 547,
      "time_per_iteration": 2.7519187927246094
    },
    {
      "auxiliary_loss_clip": 0.0123957,
      "auxiliary_loss_mlp": 0.01065211,
      "balance_loss_clip": 1.07086492,
      "balance_loss_mlp": 1.04639983,
      "epoch": 0.06589310407022185,
      "flos": 23696194993920.0,
      "grad_norm": 2.7496775511237006,
      "language_loss": 0.80535263,
      "learning_rate": 3.986543620281904e-06,
      "loss": 0.82840043,
      "num_input_tokens_seen": 11658500,
      "step": 548,
      "time_per_iteration": 2.829000234603882
    },
    {
      "auxiliary_loss_clip": 0.01243942,
      "auxiliary_loss_mlp": 0.01047727,
      "balance_loss_clip": 1.0677762,
      "balance_loss_mlp": 1.02896309,
      "epoch": 0.06601334696086093,
      "flos": 26864772410880.0,
      "grad_norm": 1.6907255065474507,
      "language_loss": 0.91116214,
      "learning_rate": 3.986453259740802e-06,
      "loss": 0.93407893,
      "num_input_tokens_seen": 11676670,
      "step": 549,
      "time_per_iteration": 2.725928783416748
    },
    {
      "auxiliary_loss_clip": 0.01264223,
      "auxiliary_loss_mlp": 0.01051221,
      "balance_loss_clip": 1.07666278,
      "balance_loss_mlp": 1.03155112,
      "epoch": 0.06613358985150003,
      "flos": 12567694101120.0,
      "grad_norm": 2.5840365974300883,
      "language_loss": 0.79643846,
      "learning_rate": 3.986362597856319e-06,
      "loss": 0.81959289,
      "num_input_tokens_seen": 11693170,
      "step": 550,
      "time_per_iteration": 2.7502009868621826
    },
    {
      "auxiliary_loss_clip": 0.01250436,
      "auxiliary_loss_mlp": 0.00891623,
      "balance_loss_clip": 1.06596959,
      "balance_loss_mlp": 0.9998467,
      "epoch": 0.06625383274213913,
      "flos": 18332505624960.0,
      "grad_norm": 2.3550791867378784,
      "language_loss": 0.81905687,
      "learning_rate": 3.986271634642211e-06,
      "loss": 0.84047747,
      "num_input_tokens_seen": 11710150,
      "step": 551,
      "time_per_iteration": 2.6869213581085205
    },
    {
      "auxiliary_loss_clip": 0.01277507,
      "auxiliary_loss_mlp": 0.01055838,
      "balance_loss_clip": 1.07512164,
      "balance_loss_mlp": 1.0370748,
      "epoch": 0.06637407563277821,
      "flos": 15375585098880.0,
      "grad_norm": 2.378494738290917,
      "language_loss": 0.81595492,
      "learning_rate": 3.986180370112274e-06,
      "loss": 0.83928835,
      "num_input_tokens_seen": 11726670,
      "step": 552,
      "time_per_iteration": 2.6245265007019043
    },
    {
      "auxiliary_loss_clip": 0.01268841,
      "auxiliary_loss_mlp": 0.00891372,
      "balance_loss_clip": 1.07401466,
      "balance_loss_mlp": 0.99986404,
      "epoch": 0.0664943185234173,
      "flos": 24025244509440.0,
      "grad_norm": 2.3744506149585116,
      "language_loss": 0.74624014,
      "learning_rate": 3.986088804280354e-06,
      "loss": 0.76784229,
      "num_input_tokens_seen": 11746400,
      "step": 553,
      "time_per_iteration": 2.6841535568237305
    },
    {
      "auxiliary_loss_clip": 0.01259347,
      "auxiliary_loss_mlp": 0.01055287,
      "balance_loss_clip": 1.07192492,
      "balance_loss_mlp": 1.03605866,
      "epoch": 0.06661456141405639,
      "flos": 20957503547520.0,
      "grad_norm": 2.593232012615146,
      "language_loss": 0.94017941,
      "learning_rate": 3.985996937160342e-06,
      "loss": 0.96332574,
      "num_input_tokens_seen": 11765590,
      "step": 554,
      "time_per_iteration": 2.7544257640838623
    },
    {
      "auxiliary_loss_clip": 0.01269372,
      "auxiliary_loss_mlp": 0.01047176,
      "balance_loss_clip": 1.07867503,
      "balance_loss_mlp": 1.02834058,
      "epoch": 0.06673480430469549,
      "flos": 52223953322880.0,
      "grad_norm": 2.7489993036834144,
      "language_loss": 0.68892467,
      "learning_rate": 3.985904768766173e-06,
      "loss": 0.71209019,
      "num_input_tokens_seen": 11788365,
      "step": 555,
      "time_per_iteration": 2.9271719455718994
    },
    {
      "auxiliary_loss_clip": 0.01253654,
      "auxiliary_loss_mlp": 0.01050641,
      "balance_loss_clip": 1.07300138,
      "balance_loss_mlp": 1.0315671,
      "epoch": 0.06685504719533458,
      "flos": 16217079995520.0,
      "grad_norm": 2.4808891035616876,
      "language_loss": 0.76220179,
      "learning_rate": 3.98581229911183e-06,
      "loss": 0.7852447,
      "num_input_tokens_seen": 11807285,
      "step": 556,
      "time_per_iteration": 2.755753517150879
    },
    {
      "auxiliary_loss_clip": 0.01267428,
      "auxiliary_loss_mlp": 0.01052806,
      "balance_loss_clip": 1.07102966,
      "balance_loss_mlp": 1.0337559,
      "epoch": 0.06697529008597367,
      "flos": 22491535639680.0,
      "grad_norm": 2.288090673016389,
      "language_loss": 0.92220527,
      "learning_rate": 3.985719528211341e-06,
      "loss": 0.94540763,
      "num_input_tokens_seen": 11826655,
      "step": 557,
      "time_per_iteration": 2.6907527446746826
    },
    {
      "auxiliary_loss_clip": 0.01151676,
      "auxiliary_loss_mlp": 0.01014613,
      "balance_loss_clip": 1.0350647,
      "balance_loss_mlp": 1.00231099,
      "epoch": 0.06709553297661276,
      "flos": 62688216936960.0,
      "grad_norm": 0.8420502671224579,
      "language_loss": 0.63050967,
      "learning_rate": 3.985626456078777e-06,
      "loss": 0.65217257,
      "num_input_tokens_seen": 11891310,
      "step": 558,
      "time_per_iteration": 3.3692829608917236
    },
    {
      "auxiliary_loss_clip": 0.01248924,
      "auxiliary_loss_mlp": 0.01052066,
      "balance_loss_clip": 1.07022011,
      "balance_loss_mlp": 1.03256297,
      "epoch": 0.06721577586725185,
      "flos": 11216590997760.0,
      "grad_norm": 2.5942661048333875,
      "language_loss": 0.86269653,
      "learning_rate": 3.985533082728259e-06,
      "loss": 0.88570642,
      "num_input_tokens_seen": 11906965,
      "step": 559,
      "time_per_iteration": 2.731163740158081
    },
    {
      "auxiliary_loss_clip": 0.01281722,
      "auxiliary_loss_mlp": 0.01039269,
      "balance_loss_clip": 1.07592142,
      "balance_loss_mlp": 1.02153039,
      "epoch": 0.06733601875789094,
      "flos": 25922189664000.0,
      "grad_norm": 3.686043484260977,
      "language_loss": 0.74867278,
      "learning_rate": 3.985439408173951e-06,
      "loss": 0.77188271,
      "num_input_tokens_seen": 11927190,
      "step": 560,
      "time_per_iteration": 2.6807949542999268
    },
    {
      "auxiliary_loss_clip": 0.01284693,
      "auxiliary_loss_mlp": 0.01051599,
      "balance_loss_clip": 1.07769823,
      "balance_loss_mlp": 1.03320467,
      "epoch": 0.06745626164853002,
      "flos": 20813645577600.0,
      "grad_norm": 2.78281655318866,
      "language_loss": 0.70774996,
      "learning_rate": 3.9853454324300634e-06,
      "loss": 0.73111284,
      "num_input_tokens_seen": 11946400,
      "step": 561,
      "time_per_iteration": 2.624990463256836
    },
    {
      "auxiliary_loss_clip": 0.0122961,
      "auxiliary_loss_mlp": 0.0105716,
      "balance_loss_clip": 1.06372237,
      "balance_loss_mlp": 1.0391829,
      "epoch": 0.06757650453916912,
      "flos": 19829262378240.0,
      "grad_norm": 1.9629972467672974,
      "language_loss": 0.77844429,
      "learning_rate": 3.985251155510852e-06,
      "loss": 0.80131197,
      "num_input_tokens_seen": 11965430,
      "step": 562,
      "time_per_iteration": 2.786924362182617
    },
    {
      "auxiliary_loss_clip": 0.01238009,
      "auxiliary_loss_mlp": 0.01049008,
      "balance_loss_clip": 1.07050812,
      "balance_loss_mlp": 1.03066146,
      "epoch": 0.06769674742980822,
      "flos": 25739224761600.0,
      "grad_norm": 2.1206869819182845,
      "language_loss": 0.80164552,
      "learning_rate": 3.98515657743062e-06,
      "loss": 0.82451558,
      "num_input_tokens_seen": 11984895,
      "step": 563,
      "time_per_iteration": 2.7886340618133545
    },
    {
      "auxiliary_loss_clip": 0.01255712,
      "auxiliary_loss_mlp": 0.01055112,
      "balance_loss_clip": 1.06735706,
      "balance_loss_mlp": 1.03565693,
      "epoch": 0.0678169903204473,
      "flos": 13074788355840.0,
      "grad_norm": 2.1070748400908403,
      "language_loss": 0.77895486,
      "learning_rate": 3.985061698203711e-06,
      "loss": 0.80206311,
      "num_input_tokens_seen": 12002010,
      "step": 564,
      "time_per_iteration": 3.66841721534729
    },
    {
      "auxiliary_loss_clip": 0.01167249,
      "auxiliary_loss_mlp": 0.01014223,
      "balance_loss_clip": 1.04053378,
      "balance_loss_mlp": 1.00211167,
      "epoch": 0.0679372332110864,
      "flos": 70865830788480.0,
      "grad_norm": 0.8794384281025004,
      "language_loss": 0.63854176,
      "learning_rate": 3.984966517844523e-06,
      "loss": 0.66035646,
      "num_input_tokens_seen": 12057255,
      "step": 565,
      "time_per_iteration": 3.170461893081665
    },
    {
      "auxiliary_loss_clip": 0.01282794,
      "auxiliary_loss_mlp": 0.01048521,
      "balance_loss_clip": 1.07530785,
      "balance_loss_mlp": 1.02891123,
      "epoch": 0.06805747610172548,
      "flos": 28256418990720.0,
      "grad_norm": 2.0475834001357405,
      "language_loss": 0.8050822,
      "learning_rate": 3.984871036367492e-06,
      "loss": 0.82839531,
      "num_input_tokens_seen": 12077280,
      "step": 566,
      "time_per_iteration": 2.696697473526001
    },
    {
      "auxiliary_loss_clip": 0.01267895,
      "auxiliary_loss_mlp": 0.00891442,
      "balance_loss_clip": 1.07543135,
      "balance_loss_mlp": 0.99988186,
      "epoch": 0.06817771899236458,
      "flos": 20120533764480.0,
      "grad_norm": 1.7244114704050368,
      "language_loss": 0.8291443,
      "learning_rate": 3.984775253787102e-06,
      "loss": 0.85073769,
      "num_input_tokens_seen": 12095570,
      "step": 567,
      "time_per_iteration": 3.7321653366088867
    },
    {
      "auxiliary_loss_clip": 0.01271005,
      "auxiliary_loss_mlp": 0.01058044,
      "balance_loss_clip": 1.07100928,
      "balance_loss_mlp": 1.03876734,
      "epoch": 0.06829796188300366,
      "flos": 17930629284480.0,
      "grad_norm": 3.457201985033428,
      "language_loss": 0.87786305,
      "learning_rate": 3.984679170117885e-06,
      "loss": 0.90115356,
      "num_input_tokens_seen": 12111775,
      "step": 568,
      "time_per_iteration": 4.661487102508545
    },
    {
      "auxiliary_loss_clip": 0.01262657,
      "auxiliary_loss_mlp": 0.01047896,
      "balance_loss_clip": 1.07022643,
      "balance_loss_mlp": 1.02999043,
      "epoch": 0.06841820477364276,
      "flos": 14501627285760.0,
      "grad_norm": 3.16214596703905,
      "language_loss": 0.78544986,
      "learning_rate": 3.984582785374415e-06,
      "loss": 0.80855536,
      "num_input_tokens_seen": 12129215,
      "step": 569,
      "time_per_iteration": 2.6273672580718994
    },
    {
      "auxiliary_loss_clip": 0.01254567,
      "auxiliary_loss_mlp": 0.00891684,
      "balance_loss_clip": 1.07268596,
      "balance_loss_mlp": 0.99983656,
      "epoch": 0.06853844766428185,
      "flos": 21938474954880.0,
      "grad_norm": 2.0292869937244875,
      "language_loss": 0.80709994,
      "learning_rate": 3.9844860995713155e-06,
      "loss": 0.8285625,
      "num_input_tokens_seen": 12148755,
      "step": 570,
      "time_per_iteration": 2.766498565673828
    },
    {
      "auxiliary_loss_clip": 0.01266727,
      "auxiliary_loss_mlp": 0.01045521,
      "balance_loss_clip": 1.07741928,
      "balance_loss_mlp": 1.02727044,
      "epoch": 0.06865869055492094,
      "flos": 16800628348800.0,
      "grad_norm": 2.9059796913744766,
      "language_loss": 0.83144021,
      "learning_rate": 3.9843891127232524e-06,
      "loss": 0.8545627,
      "num_input_tokens_seen": 12166290,
      "step": 571,
      "time_per_iteration": 2.640796184539795
    },
    {
      "auxiliary_loss_clip": 0.01213654,
      "auxiliary_loss_mlp": 0.01051727,
      "balance_loss_clip": 1.06173134,
      "balance_loss_mlp": 1.03329706,
      "epoch": 0.06877893344556003,
      "flos": 19937281553280.0,
      "grad_norm": 3.3506213689465243,
      "language_loss": 0.66734409,
      "learning_rate": 3.984291824844938e-06,
      "loss": 0.68999791,
      "num_input_tokens_seen": 12181385,
      "step": 572,
      "time_per_iteration": 2.865506410598755
    },
    {
      "auxiliary_loss_clip": 0.01279135,
      "auxiliary_loss_mlp": 0.01047585,
      "balance_loss_clip": 1.07458591,
      "balance_loss_mlp": 1.02935791,
      "epoch": 0.06889917633619912,
      "flos": 23039388852480.0,
      "grad_norm": 2.375400231868709,
      "language_loss": 0.85235584,
      "learning_rate": 3.984194235951132e-06,
      "loss": 0.87562299,
      "num_input_tokens_seen": 12197530,
      "step": 573,
      "time_per_iteration": 2.6632089614868164
    },
    {
      "auxiliary_loss_clip": 0.01281059,
      "auxiliary_loss_mlp": 0.01053927,
      "balance_loss_clip": 1.0779922,
      "balance_loss_mlp": 1.03527045,
      "epoch": 0.06901941922683821,
      "flos": 20960556203520.0,
      "grad_norm": 3.2561658630687496,
      "language_loss": 0.84514403,
      "learning_rate": 3.9840963460566375e-06,
      "loss": 0.86849391,
      "num_input_tokens_seen": 12216310,
      "step": 574,
      "time_per_iteration": 2.6810989379882812
    },
    {
      "auxiliary_loss_clip": 0.01199956,
      "auxiliary_loss_mlp": 0.01051906,
      "balance_loss_clip": 1.06187844,
      "balance_loss_mlp": 1.03301167,
      "epoch": 0.06913966211747731,
      "flos": 24821850384000.0,
      "grad_norm": 1.6551952560502374,
      "language_loss": 0.8970474,
      "learning_rate": 3.983998155176305e-06,
      "loss": 0.91956604,
      "num_input_tokens_seen": 12236670,
      "step": 575,
      "time_per_iteration": 2.962677478790283
    },
    {
      "auxiliary_loss_clip": 0.01162319,
      "auxiliary_loss_mlp": 0.01016349,
      "balance_loss_clip": 1.0383023,
      "balance_loss_mlp": 1.00442779,
      "epoch": 0.06925990500811639,
      "flos": 58367446957440.0,
      "grad_norm": 0.8205213916720918,
      "language_loss": 0.57040691,
      "learning_rate": 3.9838996633250305e-06,
      "loss": 0.5921936,
      "num_input_tokens_seen": 12297185,
      "step": 576,
      "time_per_iteration": 3.5143110752105713
    },
    {
      "auxiliary_loss_clip": 0.01266178,
      "auxiliary_loss_mlp": 0.01046355,
      "balance_loss_clip": 1.07044625,
      "balance_loss_mlp": 1.02871227,
      "epoch": 0.06938014789875549,
      "flos": 12749940731520.0,
      "grad_norm": 2.110287175826922,
      "language_loss": 0.88347542,
      "learning_rate": 3.983800870517753e-06,
      "loss": 0.90660077,
      "num_input_tokens_seen": 12313975,
      "step": 577,
      "time_per_iteration": 2.725841999053955
    },
    {
      "auxiliary_loss_clip": 0.01264265,
      "auxiliary_loss_mlp": 0.01059571,
      "balance_loss_clip": 1.07618213,
      "balance_loss_mlp": 1.04164183,
      "epoch": 0.06950039078939457,
      "flos": 22820226019200.0,
      "grad_norm": 3.0182362639317786,
      "language_loss": 0.77833647,
      "learning_rate": 3.983701776769463e-06,
      "loss": 0.80157483,
      "num_input_tokens_seen": 12331385,
      "step": 578,
      "time_per_iteration": 2.6746201515197754
    },
    {
      "auxiliary_loss_clip": 0.01253398,
      "auxiliary_loss_mlp": 0.01046282,
      "balance_loss_clip": 1.07060981,
      "balance_loss_mlp": 1.02744734,
      "epoch": 0.06962063368003367,
      "flos": 21941348042880.0,
      "grad_norm": 2.0558206800002052,
      "language_loss": 0.85530734,
      "learning_rate": 3.9836023820951885e-06,
      "loss": 0.87830412,
      "num_input_tokens_seen": 12350600,
      "step": 579,
      "time_per_iteration": 2.811042547225952
    },
    {
      "auxiliary_loss_clip": 0.01237183,
      "auxiliary_loss_mlp": 0.0104891,
      "balance_loss_clip": 1.06619215,
      "balance_loss_mlp": 1.03133845,
      "epoch": 0.06974087657067275,
      "flos": 20706021452160.0,
      "grad_norm": 2.784851033946715,
      "language_loss": 0.68545997,
      "learning_rate": 3.983502686510011e-06,
      "loss": 0.70832086,
      "num_input_tokens_seen": 12371430,
      "step": 580,
      "time_per_iteration": 2.7625293731689453
    },
    {
      "auxiliary_loss_clip": 0.01269251,
      "auxiliary_loss_mlp": 0.00891067,
      "balance_loss_clip": 1.0727706,
      "balance_loss_mlp": 0.99983227,
      "epoch": 0.06986111946131185,
      "flos": 22638230784000.0,
      "grad_norm": 2.2336297884060845,
      "language_loss": 0.73441368,
      "learning_rate": 3.9834026900290525e-06,
      "loss": 0.75601691,
      "num_input_tokens_seen": 12390825,
      "step": 581,
      "time_per_iteration": 2.7329506874084473
    },
    {
      "auxiliary_loss_clip": 0.01277231,
      "auxiliary_loss_mlp": 0.01046252,
      "balance_loss_clip": 1.07491779,
      "balance_loss_mlp": 1.02840614,
      "epoch": 0.06998136235195095,
      "flos": 26943453152640.0,
      "grad_norm": 1.7486085674041918,
      "language_loss": 1.00016975,
      "learning_rate": 3.983302392667482e-06,
      "loss": 1.0234046,
      "num_input_tokens_seen": 12411670,
      "step": 582,
      "time_per_iteration": 2.6825108528137207
    },
    {
      "auxiliary_loss_clip": 0.0126767,
      "auxiliary_loss_mlp": 0.0104819,
      "balance_loss_clip": 1.0771842,
      "balance_loss_mlp": 1.03007007,
      "epoch": 0.07010160524259003,
      "flos": 22492505306880.0,
      "grad_norm": 1.7702258225876406,
      "language_loss": 0.93775618,
      "learning_rate": 3.983201794440517e-06,
      "loss": 0.96091479,
      "num_input_tokens_seen": 12431245,
      "step": 583,
      "time_per_iteration": 2.792025089263916
    },
    {
      "auxiliary_loss_clip": 0.0124098,
      "auxiliary_loss_mlp": 0.01046172,
      "balance_loss_clip": 1.06739724,
      "balance_loss_mlp": 1.02752757,
      "epoch": 0.07022184813322913,
      "flos": 18332541538560.0,
      "grad_norm": 1.8830485578658969,
      "language_loss": 0.67421198,
      "learning_rate": 3.9831008953634165e-06,
      "loss": 0.69708347,
      "num_input_tokens_seen": 12450535,
      "step": 584,
      "time_per_iteration": 2.6786532402038574
    },
    {
      "auxiliary_loss_clip": 0.01208657,
      "auxiliary_loss_mlp": 0.01048629,
      "balance_loss_clip": 1.0622828,
      "balance_loss_mlp": 1.02987778,
      "epoch": 0.07034209102386821,
      "flos": 24675550289280.0,
      "grad_norm": 1.9617317165600536,
      "language_loss": 0.81271863,
      "learning_rate": 3.9829996954514864e-06,
      "loss": 0.8352915,
      "num_input_tokens_seen": 12469675,
      "step": 585,
      "time_per_iteration": 2.8157448768615723
    },
    {
      "auxiliary_loss_clip": 0.01248395,
      "auxiliary_loss_mlp": 0.01054848,
      "balance_loss_clip": 1.06874371,
      "balance_loss_mlp": 1.03566718,
      "epoch": 0.0704623339145073,
      "flos": 25995878415360.0,
      "grad_norm": 3.162759475855944,
      "language_loss": 0.84347272,
      "learning_rate": 3.982898194720079e-06,
      "loss": 0.86650509,
      "num_input_tokens_seen": 12490405,
      "step": 586,
      "time_per_iteration": 2.689453601837158
    },
    {
      "auxiliary_loss_clip": 0.01240347,
      "auxiliary_loss_mlp": 0.00891895,
      "balance_loss_clip": 1.06875575,
      "balance_loss_mlp": 0.99986404,
      "epoch": 0.0705825768051464,
      "flos": 25338318088320.0,
      "grad_norm": 2.2025451978303097,
      "language_loss": 0.82170594,
      "learning_rate": 3.982796393184592e-06,
      "loss": 0.84302843,
      "num_input_tokens_seen": 12509485,
      "step": 587,
      "time_per_iteration": 2.752182960510254
    },
    {
      "auxiliary_loss_clip": 0.01150499,
      "auxiliary_loss_mlp": 0.01011368,
      "balance_loss_clip": 1.03490734,
      "balance_loss_mlp": 0.99935132,
      "epoch": 0.07070281969578548,
      "flos": 66047552507520.0,
      "grad_norm": 0.7925088284133566,
      "language_loss": 0.62670255,
      "learning_rate": 3.98269429086047e-06,
      "loss": 0.64832127,
      "num_input_tokens_seen": 12567325,
      "step": 588,
      "time_per_iteration": 3.115344285964966
    },
    {
      "auxiliary_loss_clip": 0.01241139,
      "auxiliary_loss_mlp": 0.01040827,
      "balance_loss_clip": 1.06804776,
      "balance_loss_mlp": 1.02264798,
      "epoch": 0.07082306258642458,
      "flos": 23653568528640.0,
      "grad_norm": 3.5475587788112124,
      "language_loss": 0.86697423,
      "learning_rate": 3.982591887763199e-06,
      "loss": 0.88979387,
      "num_input_tokens_seen": 12584785,
      "step": 589,
      "time_per_iteration": 3.5905635356903076
    },
    {
      "auxiliary_loss_clip": 0.01209236,
      "auxiliary_loss_mlp": 0.01049568,
      "balance_loss_clip": 1.05623627,
      "balance_loss_mlp": 1.03154349,
      "epoch": 0.07094330547706366,
      "flos": 13880049408000.0,
      "grad_norm": 2.137718485849314,
      "language_loss": 0.81569362,
      "learning_rate": 3.982489183908316e-06,
      "loss": 0.83828175,
      "num_input_tokens_seen": 12601205,
      "step": 590,
      "time_per_iteration": 2.7406163215637207
    },
    {
      "auxiliary_loss_clip": 0.01194972,
      "auxiliary_loss_mlp": 0.01048007,
      "balance_loss_clip": 1.05507708,
      "balance_loss_mlp": 1.03042364,
      "epoch": 0.07106354836770276,
      "flos": 24645098534400.0,
      "grad_norm": 1.7430110621474615,
      "language_loss": 0.84362733,
      "learning_rate": 3.982386179311399e-06,
      "loss": 0.86605716,
      "num_input_tokens_seen": 12621725,
      "step": 591,
      "time_per_iteration": 2.863870859146118
    },
    {
      "auxiliary_loss_clip": 0.01271885,
      "auxiliary_loss_mlp": 0.01056558,
      "balance_loss_clip": 1.07380569,
      "balance_loss_mlp": 1.03843808,
      "epoch": 0.07118379125834184,
      "flos": 16217223649920.0,
      "grad_norm": 2.1366035945058637,
      "language_loss": 0.8783291,
      "learning_rate": 3.982282873988075e-06,
      "loss": 0.90161347,
      "num_input_tokens_seen": 12639600,
      "step": 592,
      "time_per_iteration": 2.7559659481048584
    },
    {
      "auxiliary_loss_clip": 0.01253796,
      "auxiliary_loss_mlp": 0.01043346,
      "balance_loss_clip": 1.07227206,
      "balance_loss_mlp": 1.02539301,
      "epoch": 0.07130403414898094,
      "flos": 19719986227200.0,
      "grad_norm": 1.9307936066881504,
      "language_loss": 0.87081861,
      "learning_rate": 3.982179267954016e-06,
      "loss": 0.89379001,
      "num_input_tokens_seen": 12660030,
      "step": 593,
      "time_per_iteration": 3.6794075965881348
    },
    {
      "auxiliary_loss_clip": 0.01274088,
      "auxiliary_loss_mlp": 0.01049964,
      "balance_loss_clip": 1.07317233,
      "balance_loss_mlp": 1.03090286,
      "epoch": 0.07142427703962004,
      "flos": 21871933009920.0,
      "grad_norm": 2.1227124081438125,
      "language_loss": 0.96105957,
      "learning_rate": 3.982075361224937e-06,
      "loss": 0.9843002,
      "num_input_tokens_seen": 12678395,
      "step": 594,
      "time_per_iteration": 4.650532960891724
    },
    {
      "auxiliary_loss_clip": 0.0126006,
      "auxiliary_loss_mlp": 0.00891066,
      "balance_loss_clip": 1.07565093,
      "balance_loss_mlp": 0.99981123,
      "epoch": 0.07154451993025912,
      "flos": 18296595002880.0,
      "grad_norm": 2.147116409273562,
      "language_loss": 0.8834523,
      "learning_rate": 3.981971153816602e-06,
      "loss": 0.90496355,
      "num_input_tokens_seen": 12696000,
      "step": 595,
      "time_per_iteration": 2.661715507507324
    },
    {
      "auxiliary_loss_clip": 0.01274599,
      "auxiliary_loss_mlp": 0.01056038,
      "balance_loss_clip": 1.07858825,
      "balance_loss_mlp": 1.03742898,
      "epoch": 0.07166476282089822,
      "flos": 22160690444160.0,
      "grad_norm": 1.8599579032634255,
      "language_loss": 0.96369028,
      "learning_rate": 3.981866645744819e-06,
      "loss": 0.98699665,
      "num_input_tokens_seen": 12716715,
      "step": 596,
      "time_per_iteration": 2.655729293823242
    },
    {
      "auxiliary_loss_clip": 0.01280656,
      "auxiliary_loss_mlp": 0.00891806,
      "balance_loss_clip": 1.07730114,
      "balance_loss_mlp": 0.99982506,
      "epoch": 0.0717850057115373,
      "flos": 14136343925760.0,
      "grad_norm": 2.3792885310441285,
      "language_loss": 0.81455725,
      "learning_rate": 3.9817618370254416e-06,
      "loss": 0.8362819,
      "num_input_tokens_seen": 12733370,
      "step": 597,
      "time_per_iteration": 2.5857467651367188
    },
    {
      "auxiliary_loss_clip": 0.01276072,
      "auxiliary_loss_mlp": 0.0105029,
      "balance_loss_clip": 1.07598519,
      "balance_loss_mlp": 1.03307629,
      "epoch": 0.0719052486021764,
      "flos": 30917794412160.0,
      "grad_norm": 4.118886143056402,
      "language_loss": 0.87082213,
      "learning_rate": 3.9816567276743684e-06,
      "loss": 0.89408576,
      "num_input_tokens_seen": 12753235,
      "step": 598,
      "time_per_iteration": 2.6879990100860596
    },
    {
      "auxiliary_loss_clip": 0.01250143,
      "auxiliary_loss_mlp": 0.01048981,
      "balance_loss_clip": 1.07267606,
      "balance_loss_mlp": 1.03152847,
      "epoch": 0.0720254914928155,
      "flos": 21287019939840.0,
      "grad_norm": 2.019486197741096,
      "language_loss": 0.77397764,
      "learning_rate": 3.9815513177075466e-06,
      "loss": 0.79696888,
      "num_input_tokens_seen": 12772020,
      "step": 599,
      "time_per_iteration": 2.6837852001190186
    },
    {
      "auxiliary_loss_clip": 0.01257615,
      "auxiliary_loss_mlp": 0.01062617,
      "balance_loss_clip": 1.07508707,
      "balance_loss_mlp": 1.04465199,
      "epoch": 0.07214573438345458,
      "flos": 27819170732160.0,
      "grad_norm": 2.0061211729491744,
      "language_loss": 0.69940013,
      "learning_rate": 3.9814456071409646e-06,
      "loss": 0.72260249,
      "num_input_tokens_seen": 12792555,
      "step": 600,
      "time_per_iteration": 2.740957736968994
    },
    {
      "auxiliary_loss_clip": 0.01238989,
      "auxiliary_loss_mlp": 0.01061893,
      "balance_loss_clip": 1.06768894,
      "balance_loss_mlp": 1.04317689,
      "epoch": 0.07226597727409367,
      "flos": 25483576688640.0,
      "grad_norm": 2.467269483212029,
      "language_loss": 0.8537392,
      "learning_rate": 3.981339595990659e-06,
      "loss": 0.87674797,
      "num_input_tokens_seen": 12811085,
      "step": 601,
      "time_per_iteration": 2.739333391189575
    },
    {
      "auxiliary_loss_clip": 0.01261305,
      "auxiliary_loss_mlp": 0.01050698,
      "balance_loss_clip": 1.07243919,
      "balance_loss_mlp": 1.03193462,
      "epoch": 0.07238622016473276,
      "flos": 23513840622720.0,
      "grad_norm": 2.2717151623961613,
      "language_loss": 0.81014442,
      "learning_rate": 3.981233284272713e-06,
      "loss": 0.83326447,
      "num_input_tokens_seen": 12830830,
      "step": 602,
      "time_per_iteration": 2.6916589736938477
    },
    {
      "auxiliary_loss_clip": 0.01237944,
      "auxiliary_loss_mlp": 0.01054531,
      "balance_loss_clip": 1.06635106,
      "balance_loss_mlp": 1.03724551,
      "epoch": 0.07250646305537185,
      "flos": 25453519983360.0,
      "grad_norm": 2.284669298653524,
      "language_loss": 0.90338576,
      "learning_rate": 3.981126672003253e-06,
      "loss": 0.92631048,
      "num_input_tokens_seen": 12853505,
      "step": 603,
      "time_per_iteration": 2.838691473007202
    },
    {
      "auxiliary_loss_clip": 0.01255805,
      "auxiliary_loss_mlp": 0.0104526,
      "balance_loss_clip": 1.06740284,
      "balance_loss_mlp": 1.02805853,
      "epoch": 0.07262670594601094,
      "flos": 27155038216320.0,
      "grad_norm": 2.013533165268663,
      "language_loss": 0.77761549,
      "learning_rate": 3.981019759198451e-06,
      "loss": 0.80062616,
      "num_input_tokens_seen": 12872455,
      "step": 604,
      "time_per_iteration": 2.721377372741699
    },
    {
      "auxiliary_loss_clip": 0.01254669,
      "auxiliary_loss_mlp": 0.01057351,
      "balance_loss_clip": 1.06776214,
      "balance_loss_mlp": 1.03994679,
      "epoch": 0.07274694883665003,
      "flos": 26651607148800.0,
      "grad_norm": 2.4094274395286472,
      "language_loss": 0.84312421,
      "learning_rate": 3.980912545874528e-06,
      "loss": 0.86624444,
      "num_input_tokens_seen": 12892620,
      "step": 605,
      "time_per_iteration": 2.780526638031006
    },
    {
      "auxiliary_loss_clip": 0.01250678,
      "auxiliary_loss_mlp": 0.00891465,
      "balance_loss_clip": 1.06828296,
      "balance_loss_mlp": 0.99984622,
      "epoch": 0.07286719172728913,
      "flos": 29862344154240.0,
      "grad_norm": 2.4064785204623194,
      "language_loss": 0.85699385,
      "learning_rate": 3.980805032047746e-06,
      "loss": 0.87841523,
      "num_input_tokens_seen": 12914090,
      "step": 606,
      "time_per_iteration": 2.7532434463500977
    },
    {
      "auxiliary_loss_clip": 0.01249394,
      "auxiliary_loss_mlp": 0.01044532,
      "balance_loss_clip": 1.06850088,
      "balance_loss_mlp": 1.02619791,
      "epoch": 0.07298743461792821,
      "flos": 17382057799680.0,
      "grad_norm": 1.9051745698280076,
      "language_loss": 0.81046927,
      "learning_rate": 3.980697217734415e-06,
      "loss": 0.83340847,
      "num_input_tokens_seen": 12931830,
      "step": 607,
      "time_per_iteration": 2.723012685775757
    },
    {
      "auxiliary_loss_clip": 0.01237634,
      "auxiliary_loss_mlp": 0.00891473,
      "balance_loss_clip": 1.06514311,
      "balance_loss_mlp": 0.99987638,
      "epoch": 0.07310767750856731,
      "flos": 19498201701120.0,
      "grad_norm": 2.1399429538274797,
      "language_loss": 0.91526878,
      "learning_rate": 3.980589102950891e-06,
      "loss": 0.93655986,
      "num_input_tokens_seen": 12949995,
      "step": 608,
      "time_per_iteration": 2.776249408721924
    },
    {
      "auxiliary_loss_clip": 0.01252227,
      "auxiliary_loss_mlp": 0.01053382,
      "balance_loss_clip": 1.07069957,
      "balance_loss_mlp": 1.03502345,
      "epoch": 0.07322792039920639,
      "flos": 29168693637120.0,
      "grad_norm": 3.9423229727394813,
      "language_loss": 0.75724167,
      "learning_rate": 3.9804806877135755e-06,
      "loss": 0.78029776,
      "num_input_tokens_seen": 12968040,
      "step": 609,
      "time_per_iteration": 2.7824037075042725
    },
    {
      "auxiliary_loss_clip": 0.01269166,
      "auxiliary_loss_mlp": 0.00892525,
      "balance_loss_clip": 1.07163763,
      "balance_loss_mlp": 0.99987888,
      "epoch": 0.07334816328984549,
      "flos": 23477822259840.0,
      "grad_norm": 2.4484368941136556,
      "language_loss": 0.86247164,
      "learning_rate": 3.980371972038915e-06,
      "loss": 0.88408852,
      "num_input_tokens_seen": 12988530,
      "step": 610,
      "time_per_iteration": 2.699510335922241
    },
    {
      "auxiliary_loss_clip": 0.01278551,
      "auxiliary_loss_mlp": 0.01051479,
      "balance_loss_clip": 1.07639849,
      "balance_loss_mlp": 1.03365731,
      "epoch": 0.07346840618048459,
      "flos": 22962467877120.0,
      "grad_norm": 1.9956912120141794,
      "language_loss": 0.84361565,
      "learning_rate": 3.980262955943399e-06,
      "loss": 0.86691594,
      "num_input_tokens_seen": 13008195,
      "step": 611,
      "time_per_iteration": 2.656721591949463
    },
    {
      "auxiliary_loss_clip": 0.01250152,
      "auxiliary_loss_mlp": 0.01052562,
      "balance_loss_clip": 1.07456696,
      "balance_loss_mlp": 1.03457355,
      "epoch": 0.07358864907112367,
      "flos": 17673903803520.0,
      "grad_norm": 3.609437025853138,
      "language_loss": 0.8687104,
      "learning_rate": 3.980153639443569e-06,
      "loss": 0.89173752,
      "num_input_tokens_seen": 13024180,
      "step": 612,
      "time_per_iteration": 2.672945261001587
    },
    {
      "auxiliary_loss_clip": 0.01262343,
      "auxiliary_loss_mlp": 0.01046302,
      "balance_loss_clip": 1.07224584,
      "balance_loss_mlp": 1.02919602,
      "epoch": 0.07370889196176277,
      "flos": 24097029840000.0,
      "grad_norm": 2.058153679056645,
      "language_loss": 0.7968502,
      "learning_rate": 3.980044022556005e-06,
      "loss": 0.81993669,
      "num_input_tokens_seen": 13043865,
      "step": 613,
      "time_per_iteration": 2.7542262077331543
    },
    {
      "auxiliary_loss_clip": 0.01262465,
      "auxiliary_loss_mlp": 0.01054538,
      "balance_loss_clip": 1.07234263,
      "balance_loss_mlp": 1.03626347,
      "epoch": 0.07382913485240185,
      "flos": 25885919905920.0,
      "grad_norm": 2.2254924244639054,
      "language_loss": 0.72805649,
      "learning_rate": 3.9799341052973375e-06,
      "loss": 0.75122654,
      "num_input_tokens_seen": 13063700,
      "step": 614,
      "time_per_iteration": 2.719763994216919
    },
    {
      "auxiliary_loss_clip": 0.01250744,
      "auxiliary_loss_mlp": 0.01050172,
      "balance_loss_clip": 1.07198787,
      "balance_loss_mlp": 1.03225541,
      "epoch": 0.07394937774304094,
      "flos": 16873850223360.0,
      "grad_norm": 2.3914898615068334,
      "language_loss": 0.75157166,
      "learning_rate": 3.979823887684241e-06,
      "loss": 0.77458078,
      "num_input_tokens_seen": 13082640,
      "step": 615,
      "time_per_iteration": 3.612687110900879
    },
    {
      "auxiliary_loss_clip": 0.01274923,
      "auxiliary_loss_mlp": 0.01056365,
      "balance_loss_clip": 1.07506371,
      "balance_loss_mlp": 1.03835189,
      "epoch": 0.07406962063368003,
      "flos": 20703471586560.0,
      "grad_norm": 2.3378247043130878,
      "language_loss": 0.84829223,
      "learning_rate": 3.979713369733434e-06,
      "loss": 0.87160504,
      "num_input_tokens_seen": 13100505,
      "step": 616,
      "time_per_iteration": 2.645130157470703
    },
    {
      "auxiliary_loss_clip": 0.01250935,
      "auxiliary_loss_mlp": 0.01053894,
      "balance_loss_clip": 1.06833565,
      "balance_loss_mlp": 1.03591669,
      "epoch": 0.07418986352431912,
      "flos": 21430985650560.0,
      "grad_norm": 1.9959085631859537,
      "language_loss": 0.84615946,
      "learning_rate": 3.979602551461683e-06,
      "loss": 0.86920774,
      "num_input_tokens_seen": 13121285,
      "step": 617,
      "time_per_iteration": 2.619729995727539
    },
    {
      "auxiliary_loss_clip": 0.01250686,
      "auxiliary_loss_mlp": 0.01043899,
      "balance_loss_clip": 1.07056046,
      "balance_loss_mlp": 1.02607715,
      "epoch": 0.07431010641495822,
      "flos": 12021133777920.0,
      "grad_norm": 2.2291825912082177,
      "language_loss": 0.91763663,
      "learning_rate": 3.979491432885799e-06,
      "loss": 0.94058251,
      "num_input_tokens_seen": 13137550,
      "step": 618,
      "time_per_iteration": 2.6672258377075195
    },
    {
      "auxiliary_loss_clip": 0.01218821,
      "auxiliary_loss_mlp": 0.00891368,
      "balance_loss_clip": 1.06264174,
      "balance_loss_mlp": 0.99988669,
      "epoch": 0.0744303493055973,
      "flos": 20957575374720.0,
      "grad_norm": 2.079847785742475,
      "language_loss": 0.82692695,
      "learning_rate": 3.97938001402264e-06,
      "loss": 0.84802884,
      "num_input_tokens_seen": 13156675,
      "step": 619,
      "time_per_iteration": 4.826951265335083
    },
    {
      "auxiliary_loss_clip": 0.01236509,
      "auxiliary_loss_mlp": 0.01057369,
      "balance_loss_clip": 1.06916881,
      "balance_loss_mlp": 1.04041779,
      "epoch": 0.0745505921962364,
      "flos": 16253134272000.0,
      "grad_norm": 3.795493883665954,
      "language_loss": 0.79514575,
      "learning_rate": 3.979268294889105e-06,
      "loss": 0.81808454,
      "num_input_tokens_seen": 13172225,
      "step": 620,
      "time_per_iteration": 3.7340030670166016
    },
    {
      "auxiliary_loss_clip": 0.01275907,
      "auxiliary_loss_mlp": 0.01046412,
      "balance_loss_clip": 1.07541835,
      "balance_loss_mlp": 1.02806544,
      "epoch": 0.07467083508687548,
      "flos": 50944635550080.0,
      "grad_norm": 1.9651981735074666,
      "language_loss": 0.7382586,
      "learning_rate": 3.979156275502143e-06,
      "loss": 0.76148176,
      "num_input_tokens_seen": 13195885,
      "step": 621,
      "time_per_iteration": 2.947129964828491
    },
    {
      "auxiliary_loss_clip": 0.01242324,
      "auxiliary_loss_mlp": 0.01049045,
      "balance_loss_clip": 1.0690074,
      "balance_loss_mlp": 1.03108025,
      "epoch": 0.07479107797751458,
      "flos": 17529686697600.0,
      "grad_norm": 2.688643594914901,
      "language_loss": 0.91444123,
      "learning_rate": 3.979043955878749e-06,
      "loss": 0.93735486,
      "num_input_tokens_seen": 13213730,
      "step": 622,
      "time_per_iteration": 2.7272980213165283
    },
    {
      "auxiliary_loss_clip": 0.01248949,
      "auxiliary_loss_mlp": 0.01048226,
      "balance_loss_clip": 1.06921577,
      "balance_loss_mlp": 1.03028452,
      "epoch": 0.07491132086815366,
      "flos": 23473943591040.0,
      "grad_norm": 2.456527062208223,
      "language_loss": 0.83342445,
      "learning_rate": 3.978931336035959e-06,
      "loss": 0.85639626,
      "num_input_tokens_seen": 13232540,
      "step": 623,
      "time_per_iteration": 2.7696831226348877
    },
    {
      "auxiliary_loss_clip": 0.01262778,
      "auxiliary_loss_mlp": 0.01059888,
      "balance_loss_clip": 1.07473755,
      "balance_loss_mlp": 1.04211402,
      "epoch": 0.07503156375879276,
      "flos": 20157557708160.0,
      "grad_norm": 2.3082536584957283,
      "language_loss": 0.82476658,
      "learning_rate": 3.9788184159908595e-06,
      "loss": 0.8479932,
      "num_input_tokens_seen": 13249670,
      "step": 624,
      "time_per_iteration": 2.6773743629455566
    },
    {
      "auxiliary_loss_clip": 0.01236953,
      "auxiliary_loss_mlp": 0.01057592,
      "balance_loss_clip": 1.06522501,
      "balance_loss_mlp": 1.04060519,
      "epoch": 0.07515180664943186,
      "flos": 15115519653120.0,
      "grad_norm": 3.9135815470780213,
      "language_loss": 0.82266665,
      "learning_rate": 3.97870519576058e-06,
      "loss": 0.84561211,
      "num_input_tokens_seen": 13266095,
      "step": 625,
      "time_per_iteration": 2.7152960300445557
    },
    {
      "auxiliary_loss_clip": 0.0123713,
      "auxiliary_loss_mlp": 0.0089114,
      "balance_loss_clip": 1.06595254,
      "balance_loss_mlp": 0.99988586,
      "epoch": 0.07527204954007094,
      "flos": 21287702298240.0,
      "grad_norm": 2.769430675743438,
      "language_loss": 0.81263697,
      "learning_rate": 3.978591675362295e-06,
      "loss": 0.83391976,
      "num_input_tokens_seen": 13284810,
      "step": 626,
      "time_per_iteration": 2.7732439041137695
    },
    {
      "auxiliary_loss_clip": 0.01219465,
      "auxiliary_loss_mlp": 0.01046526,
      "balance_loss_clip": 1.06675398,
      "balance_loss_mlp": 1.02941918,
      "epoch": 0.07539229243071004,
      "flos": 21324187537920.0,
      "grad_norm": 1.808541236547867,
      "language_loss": 0.8749696,
      "learning_rate": 3.978477854813226e-06,
      "loss": 0.8976295,
      "num_input_tokens_seen": 13304150,
      "step": 627,
      "time_per_iteration": 2.7367067337036133
    },
    {
      "auxiliary_loss_clip": 0.01258869,
      "auxiliary_loss_mlp": 0.01053254,
      "balance_loss_clip": 1.06839275,
      "balance_loss_mlp": 1.03600502,
      "epoch": 0.07551253532134912,
      "flos": 13042540920960.0,
      "grad_norm": 2.8745878577803476,
      "language_loss": 0.81968302,
      "learning_rate": 3.97836373413064e-06,
      "loss": 0.84280419,
      "num_input_tokens_seen": 13322205,
      "step": 628,
      "time_per_iteration": 2.694187641143799
    },
    {
      "auxiliary_loss_clip": 0.01268207,
      "auxiliary_loss_mlp": 0.01041005,
      "balance_loss_clip": 1.07060635,
      "balance_loss_mlp": 1.02348137,
      "epoch": 0.07563277821198822,
      "flos": 19208761908480.0,
      "grad_norm": 2.400020108953089,
      "language_loss": 0.74394786,
      "learning_rate": 3.978249313331848e-06,
      "loss": 0.76704001,
      "num_input_tokens_seen": 13340435,
      "step": 629,
      "time_per_iteration": 2.6358895301818848
    },
    {
      "auxiliary_loss_clip": 0.01263207,
      "auxiliary_loss_mlp": 0.00890693,
      "balance_loss_clip": 1.06714702,
      "balance_loss_mlp": 0.99988306,
      "epoch": 0.07575302110262731,
      "flos": 19537200892800.0,
      "grad_norm": 3.490182416238637,
      "language_loss": 0.62594724,
      "learning_rate": 3.978134592434208e-06,
      "loss": 0.64748621,
      "num_input_tokens_seen": 13358185,
      "step": 630,
      "time_per_iteration": 2.647634983062744
    },
    {
      "auxiliary_loss_clip": 0.01116495,
      "auxiliary_loss_mlp": 0.01010419,
      "balance_loss_clip": 1.03413916,
      "balance_loss_mlp": 0.9994995,
      "epoch": 0.0758732639932664,
      "flos": 67961808017280.0,
      "grad_norm": 1.0377689014519322,
      "language_loss": 0.5940696,
      "learning_rate": 3.978019571455123e-06,
      "loss": 0.6153388,
      "num_input_tokens_seen": 13410130,
      "step": 631,
      "time_per_iteration": 3.305746078491211
    },
    {
      "auxiliary_loss_clip": 0.01270458,
      "auxiliary_loss_mlp": 0.01039509,
      "balance_loss_clip": 1.07424188,
      "balance_loss_mlp": 1.02296317,
      "epoch": 0.07599350688390549,
      "flos": 18989204025600.0,
      "grad_norm": 2.8065733524405636,
      "language_loss": 0.83978003,
      "learning_rate": 3.977904250412042e-06,
      "loss": 0.86287963,
      "num_input_tokens_seen": 13429085,
      "step": 632,
      "time_per_iteration": 2.60998272895813
    },
    {
      "auxiliary_loss_clip": 0.01253833,
      "auxiliary_loss_mlp": 0.0105257,
      "balance_loss_clip": 1.06981707,
      "balance_loss_mlp": 1.03554726,
      "epoch": 0.07611374977454458,
      "flos": 21069006341760.0,
      "grad_norm": 3.1531831278663818,
      "language_loss": 0.85542619,
      "learning_rate": 3.97778862932246e-06,
      "loss": 0.87849021,
      "num_input_tokens_seen": 13446250,
      "step": 633,
      "time_per_iteration": 2.7673237323760986
    },
    {
      "auxiliary_loss_clip": 0.01165389,
      "auxiliary_loss_mlp": 0.01053385,
      "balance_loss_clip": 1.04655743,
      "balance_loss_mlp": 1.03586173,
      "epoch": 0.07623399266518367,
      "flos": 18514536773760.0,
      "grad_norm": 2.296229805545004,
      "language_loss": 0.94077349,
      "learning_rate": 3.9776727082039144e-06,
      "loss": 0.96296126,
      "num_input_tokens_seen": 13463220,
      "step": 634,
      "time_per_iteration": 2.901599407196045
    },
    {
      "auxiliary_loss_clip": 0.01156589,
      "auxiliary_loss_mlp": 0.0101287,
      "balance_loss_clip": 1.03702486,
      "balance_loss_mlp": 1.0022366,
      "epoch": 0.07635423555582276,
      "flos": 44663036077440.0,
      "grad_norm": 0.8003767440803949,
      "language_loss": 0.55495775,
      "learning_rate": 3.977556487073991e-06,
      "loss": 0.57665229,
      "num_input_tokens_seen": 13517775,
      "step": 635,
      "time_per_iteration": 3.333341360092163
    },
    {
      "auxiliary_loss_clip": 0.01233694,
      "auxiliary_loss_mlp": 0.01051964,
      "balance_loss_clip": 1.06136358,
      "balance_loss_mlp": 1.03492928,
      "epoch": 0.07647447844646185,
      "flos": 21761148487680.0,
      "grad_norm": 1.8628306324472514,
      "language_loss": 0.81696343,
      "learning_rate": 3.97743996595032e-06,
      "loss": 0.83982003,
      "num_input_tokens_seen": 13537815,
      "step": 636,
      "time_per_iteration": 2.7458713054656982
    },
    {
      "auxiliary_loss_clip": 0.01273043,
      "auxiliary_loss_mlp": 0.01043313,
      "balance_loss_clip": 1.07414031,
      "balance_loss_mlp": 1.02624226,
      "epoch": 0.07659472133710095,
      "flos": 23806799948160.0,
      "grad_norm": 1.6081113719238018,
      "language_loss": 0.81646454,
      "learning_rate": 3.9773231448505804e-06,
      "loss": 0.83962804,
      "num_input_tokens_seen": 13559605,
      "step": 637,
      "time_per_iteration": 2.664184093475342
    },
    {
      "auxiliary_loss_clip": 0.01249604,
      "auxiliary_loss_mlp": 0.00891173,
      "balance_loss_clip": 1.07109237,
      "balance_loss_mlp": 0.99984407,
      "epoch": 0.07671496422774003,
      "flos": 21469984842240.0,
      "grad_norm": 2.8530602037782646,
      "language_loss": 0.77977049,
      "learning_rate": 3.977206023792491e-06,
      "loss": 0.80117822,
      "num_input_tokens_seen": 13579495,
      "step": 638,
      "time_per_iteration": 2.7891557216644287
    },
    {
      "auxiliary_loss_clip": 0.01258096,
      "auxiliary_loss_mlp": 0.0105042,
      "balance_loss_clip": 1.07250774,
      "balance_loss_mlp": 1.03359938,
      "epoch": 0.07683520711837913,
      "flos": 16980971558400.0,
      "grad_norm": 2.1322036691724797,
      "language_loss": 0.81342852,
      "learning_rate": 3.97708860279382e-06,
      "loss": 0.8365137,
      "num_input_tokens_seen": 13597605,
      "step": 639,
      "time_per_iteration": 2.654161214828491
    },
    {
      "auxiliary_loss_clip": 0.01223512,
      "auxiliary_loss_mlp": 0.01054239,
      "balance_loss_clip": 1.06091821,
      "balance_loss_mlp": 1.03533196,
      "epoch": 0.07695545000901821,
      "flos": 23476744851840.0,
      "grad_norm": 1.7694669490132682,
      "language_loss": 0.78159523,
      "learning_rate": 3.97697088187238e-06,
      "loss": 0.80437279,
      "num_input_tokens_seen": 13618120,
      "step": 640,
      "time_per_iteration": 2.7650487422943115
    },
    {
      "auxiliary_loss_clip": 0.0124445,
      "auxiliary_loss_mlp": 0.01045561,
      "balance_loss_clip": 1.0710361,
      "balance_loss_mlp": 1.02854991,
      "epoch": 0.07707569289965731,
      "flos": 17634258167040.0,
      "grad_norm": 2.492858749030563,
      "language_loss": 0.91604674,
      "learning_rate": 3.976852861046029e-06,
      "loss": 0.93894684,
      "num_input_tokens_seen": 13634735,
      "step": 641,
      "time_per_iteration": 3.9037065505981445
    },
    {
      "auxiliary_loss_clip": 0.01224473,
      "auxiliary_loss_mlp": 0.0105462,
      "balance_loss_clip": 1.06653142,
      "balance_loss_mlp": 1.0378834,
      "epoch": 0.0771959357902964,
      "flos": 25775674087680.0,
      "grad_norm": 1.622655955217771,
      "language_loss": 0.80217028,
      "learning_rate": 3.97673454033267e-06,
      "loss": 0.82496125,
      "num_input_tokens_seen": 13656835,
      "step": 642,
      "time_per_iteration": 2.8337831497192383
    },
    {
      "auxiliary_loss_clip": 0.01244963,
      "auxiliary_loss_mlp": 0.01047529,
      "balance_loss_clip": 1.06605816,
      "balance_loss_mlp": 1.02987444,
      "epoch": 0.07731617868093549,
      "flos": 19828651847040.0,
      "grad_norm": 1.9857532339308939,
      "language_loss": 0.82657868,
      "learning_rate": 3.976615919750254e-06,
      "loss": 0.84950364,
      "num_input_tokens_seen": 13674535,
      "step": 643,
      "time_per_iteration": 2.7389984130859375
    },
    {
      "auxiliary_loss_clip": 0.0125868,
      "auxiliary_loss_mlp": 0.01059252,
      "balance_loss_clip": 1.07339871,
      "balance_loss_mlp": 1.04093003,
      "epoch": 0.07743642157157458,
      "flos": 21324654414720.0,
      "grad_norm": 3.536919307765949,
      "language_loss": 0.87026405,
      "learning_rate": 3.976496999316775e-06,
      "loss": 0.89344335,
      "num_input_tokens_seen": 13693290,
      "step": 644,
      "time_per_iteration": 2.6777398586273193
    },
    {
      "auxiliary_loss_clip": 0.01248042,
      "auxiliary_loss_mlp": 0.01051799,
      "balance_loss_clip": 1.07277882,
      "balance_loss_mlp": 1.03381014,
      "epoch": 0.07755666446221367,
      "flos": 19969133938560.0,
      "grad_norm": 2.042579579113525,
      "language_loss": 0.84319913,
      "learning_rate": 3.976377779050271e-06,
      "loss": 0.86619759,
      "num_input_tokens_seen": 13711420,
      "step": 645,
      "time_per_iteration": 4.707243919372559
    },
    {
      "auxiliary_loss_clip": 0.01250431,
      "auxiliary_loss_mlp": 0.01053879,
      "balance_loss_clip": 1.06797683,
      "balance_loss_mlp": 1.0354377,
      "epoch": 0.07767690735285276,
      "flos": 23623224514560.0,
      "grad_norm": 2.2644634572322033,
      "language_loss": 0.84122533,
      "learning_rate": 3.976258258968831e-06,
      "loss": 0.86426842,
      "num_input_tokens_seen": 13729965,
      "step": 646,
      "time_per_iteration": 2.7302396297454834
    },
    {
      "auxiliary_loss_clip": 0.01237885,
      "auxiliary_loss_mlp": 0.01054056,
      "balance_loss_clip": 1.0696007,
      "balance_loss_mlp": 1.03708041,
      "epoch": 0.07779715024349185,
      "flos": 22236246702720.0,
      "grad_norm": 4.0921046437068735,
      "language_loss": 0.74348581,
      "learning_rate": 3.976138439090583e-06,
      "loss": 0.76640522,
      "num_input_tokens_seen": 13748045,
      "step": 647,
      "time_per_iteration": 3.7713160514831543
    },
    {
      "auxiliary_loss_clip": 0.01240675,
      "auxiliary_loss_mlp": 0.01048536,
      "balance_loss_clip": 1.06946182,
      "balance_loss_mlp": 1.03076196,
      "epoch": 0.07791739313413094,
      "flos": 20955097336320.0,
      "grad_norm": 2.182413454742495,
      "language_loss": 0.85182959,
      "learning_rate": 3.976018319433706e-06,
      "loss": 0.87472165,
      "num_input_tokens_seen": 13765590,
      "step": 648,
      "time_per_iteration": 2.751446485519409
    },
    {
      "auxiliary_loss_clip": 0.01262296,
      "auxiliary_loss_mlp": 0.01050975,
      "balance_loss_clip": 1.07491934,
      "balance_loss_mlp": 1.03352261,
      "epoch": 0.07803763602477004,
      "flos": 19312327797120.0,
      "grad_norm": 2.6072622941509622,
      "language_loss": 0.90954435,
      "learning_rate": 3.9758979000164205e-06,
      "loss": 0.93267703,
      "num_input_tokens_seen": 13782410,
      "step": 649,
      "time_per_iteration": 2.651304006576538
    },
    {
      "auxiliary_loss_clip": 0.01241247,
      "auxiliary_loss_mlp": 0.01049626,
      "balance_loss_clip": 1.06907892,
      "balance_loss_mlp": 1.03229332,
      "epoch": 0.07815787891540912,
      "flos": 22710806213760.0,
      "grad_norm": 2.5758163385507094,
      "language_loss": 0.72157252,
      "learning_rate": 3.975777180856995e-06,
      "loss": 0.74448121,
      "num_input_tokens_seen": 13801530,
      "step": 650,
      "time_per_iteration": 2.7536027431488037
    },
    {
      "auxiliary_loss_clip": 0.01275252,
      "auxiliary_loss_mlp": 0.01047631,
      "balance_loss_clip": 1.0741303,
      "balance_loss_mlp": 1.02917743,
      "epoch": 0.07827812180604822,
      "flos": 22711129436160.0,
      "grad_norm": 9.635204053432922,
      "language_loss": 0.86066127,
      "learning_rate": 3.975656161973742e-06,
      "loss": 0.88389015,
      "num_input_tokens_seen": 13820615,
      "step": 651,
      "time_per_iteration": 2.672964572906494
    },
    {
      "auxiliary_loss_clip": 0.01271323,
      "auxiliary_loss_mlp": 0.01055337,
      "balance_loss_clip": 1.07136774,
      "balance_loss_mlp": 1.03685975,
      "epoch": 0.0783983646966873,
      "flos": 21725597001600.0,
      "grad_norm": 2.5332731778775233,
      "language_loss": 0.89107698,
      "learning_rate": 3.9755348433850194e-06,
      "loss": 0.9143436,
      "num_input_tokens_seen": 13835955,
      "step": 652,
      "time_per_iteration": 2.6045732498168945
    },
    {
      "auxiliary_loss_clip": 0.01134679,
      "auxiliary_loss_mlp": 0.01014518,
      "balance_loss_clip": 1.03166783,
      "balance_loss_mlp": 1.00407529,
      "epoch": 0.0785186075873264,
      "flos": 60640877537280.0,
      "grad_norm": 0.9703745414396696,
      "language_loss": 0.63629234,
      "learning_rate": 3.975413225109232e-06,
      "loss": 0.65778434,
      "num_input_tokens_seen": 13896505,
      "step": 653,
      "time_per_iteration": 3.305635929107666
    },
    {
      "auxiliary_loss_clip": 0.01263073,
      "auxiliary_loss_mlp": 0.01056531,
      "balance_loss_clip": 1.07314289,
      "balance_loss_mlp": 1.03773117,
      "epoch": 0.0786388504779655,
      "flos": 23877902920320.0,
      "grad_norm": 4.651479660233335,
      "language_loss": 0.93477368,
      "learning_rate": 3.975291307164829e-06,
      "loss": 0.95796967,
      "num_input_tokens_seen": 13915150,
      "step": 654,
      "time_per_iteration": 2.6814889907836914
    },
    {
      "auxiliary_loss_clip": 0.01225121,
      "auxiliary_loss_mlp": 0.01056537,
      "balance_loss_clip": 1.06446552,
      "balance_loss_mlp": 1.03869104,
      "epoch": 0.07875909336860458,
      "flos": 15158684822400.0,
      "grad_norm": 2.342160068946189,
      "language_loss": 0.84849793,
      "learning_rate": 3.975169089570306e-06,
      "loss": 0.87131453,
      "num_input_tokens_seen": 13933525,
      "step": 655,
      "time_per_iteration": 2.7743492126464844
    },
    {
      "auxiliary_loss_clip": 0.01246333,
      "auxiliary_loss_mlp": 0.01049901,
      "balance_loss_clip": 1.06887913,
      "balance_loss_mlp": 1.03247213,
      "epoch": 0.07887933625924368,
      "flos": 22236857233920.0,
      "grad_norm": 2.383401415247845,
      "language_loss": 0.91558397,
      "learning_rate": 3.975046572344202e-06,
      "loss": 0.93854636,
      "num_input_tokens_seen": 13949985,
      "step": 656,
      "time_per_iteration": 2.7196083068847656
    },
    {
      "auxiliary_loss_clip": 0.01237235,
      "auxiliary_loss_mlp": 0.0105029,
      "balance_loss_clip": 1.06481338,
      "balance_loss_mlp": 1.03312373,
      "epoch": 0.07899957914988276,
      "flos": 20777734955520.0,
      "grad_norm": 3.041861159855237,
      "language_loss": 0.71171618,
      "learning_rate": 3.974923755505103e-06,
      "loss": 0.73459142,
      "num_input_tokens_seen": 13969215,
      "step": 657,
      "time_per_iteration": 2.749238967895508
    },
    {
      "auxiliary_loss_clip": 0.01220672,
      "auxiliary_loss_mlp": 0.01052749,
      "balance_loss_clip": 1.06357837,
      "balance_loss_mlp": 1.03689396,
      "epoch": 0.07911982204052186,
      "flos": 23003047267200.0,
      "grad_norm": 1.7201161865784957,
      "language_loss": 0.91207457,
      "learning_rate": 3.974800639071641e-06,
      "loss": 0.93480885,
      "num_input_tokens_seen": 13989935,
      "step": 658,
      "time_per_iteration": 2.766655206680298
    },
    {
      "auxiliary_loss_clip": 0.01191685,
      "auxiliary_loss_mlp": 0.00892117,
      "balance_loss_clip": 1.05696464,
      "balance_loss_mlp": 0.99987006,
      "epoch": 0.07924006493116094,
      "flos": 23111389664640.0,
      "grad_norm": 2.0760842339835643,
      "language_loss": 1.00602317,
      "learning_rate": 3.974677223062492e-06,
      "loss": 1.02686131,
      "num_input_tokens_seen": 14007150,
      "step": 659,
      "time_per_iteration": 2.820584774017334
    },
    {
      "auxiliary_loss_clip": 0.01243623,
      "auxiliary_loss_mlp": 0.01047017,
      "balance_loss_clip": 1.06995749,
      "balance_loss_mlp": 1.03062558,
      "epoch": 0.07936030782180004,
      "flos": 16472153450880.0,
      "grad_norm": 4.42008835551633,
      "language_loss": 0.74566859,
      "learning_rate": 3.974553507496378e-06,
      "loss": 0.76857501,
      "num_input_tokens_seen": 14025725,
      "step": 660,
      "time_per_iteration": 2.6963915824890137
    },
    {
      "auxiliary_loss_clip": 0.01235828,
      "auxiliary_loss_mlp": 0.01050925,
      "balance_loss_clip": 1.06684315,
      "balance_loss_mlp": 1.03312707,
      "epoch": 0.07948055071243913,
      "flos": 23733290764800.0,
      "grad_norm": 2.0037991076992645,
      "language_loss": 0.89354241,
      "learning_rate": 3.974429492392068e-06,
      "loss": 0.91640997,
      "num_input_tokens_seen": 14045750,
      "step": 661,
      "time_per_iteration": 2.7188122272491455
    },
    {
      "auxiliary_loss_clip": 0.01271514,
      "auxiliary_loss_mlp": 0.00891084,
      "balance_loss_clip": 1.07613921,
      "balance_loss_mlp": 0.99987745,
      "epoch": 0.07960079360307822,
      "flos": 19573326996480.0,
      "grad_norm": 2.34304650012804,
      "language_loss": 0.91238272,
      "learning_rate": 3.974305177768373e-06,
      "loss": 0.93400872,
      "num_input_tokens_seen": 14063960,
      "step": 662,
      "time_per_iteration": 2.6542680263519287
    },
    {
      "auxiliary_loss_clip": 0.01222871,
      "auxiliary_loss_mlp": 0.01059533,
      "balance_loss_clip": 1.06801105,
      "balance_loss_mlp": 1.04142487,
      "epoch": 0.07972103649371731,
      "flos": 23513409659520.0,
      "grad_norm": 2.011204414737486,
      "language_loss": 0.86413974,
      "learning_rate": 3.974180563644152e-06,
      "loss": 0.88696373,
      "num_input_tokens_seen": 14082525,
      "step": 663,
      "time_per_iteration": 2.9243478775024414
    },
    {
      "auxiliary_loss_clip": 0.01249961,
      "auxiliary_loss_mlp": 0.01046922,
      "balance_loss_clip": 1.06952667,
      "balance_loss_mlp": 1.02931511,
      "epoch": 0.0798412793843564,
      "flos": 16726867770240.0,
      "grad_norm": 2.2117935817524583,
      "language_loss": 0.89619923,
      "learning_rate": 3.97405565003831e-06,
      "loss": 0.91916806,
      "num_input_tokens_seen": 14098610,
      "step": 664,
      "time_per_iteration": 2.6853079795837402
    },
    {
      "auxiliary_loss_clip": 0.01241533,
      "auxiliary_loss_mlp": 0.01050705,
      "balance_loss_clip": 1.06821358,
      "balance_loss_mlp": 1.03328848,
      "epoch": 0.07996152227499549,
      "flos": 18223337214720.0,
      "grad_norm": 2.046434647017703,
      "language_loss": 0.78819489,
      "learning_rate": 3.973930436969794e-06,
      "loss": 0.81111723,
      "num_input_tokens_seen": 14117065,
      "step": 665,
      "time_per_iteration": 2.7077629566192627
    },
    {
      "auxiliary_loss_clip": 0.01238515,
      "auxiliary_loss_mlp": 0.01049012,
      "balance_loss_clip": 1.06625378,
      "balance_loss_mlp": 1.03060579,
      "epoch": 0.08008176516563459,
      "flos": 20594877793920.0,
      "grad_norm": 1.7125092070228967,
      "language_loss": 0.85374415,
      "learning_rate": 3.973804924457602e-06,
      "loss": 0.8766194,
      "num_input_tokens_seen": 14135145,
      "step": 666,
      "time_per_iteration": 2.707458257675171
    },
    {
      "auxiliary_loss_clip": 0.01241576,
      "auxiliary_loss_mlp": 0.01051111,
      "balance_loss_clip": 1.06668842,
      "balance_loss_mlp": 1.03334856,
      "epoch": 0.08020200805627367,
      "flos": 31834306863360.0,
      "grad_norm": 1.762680902417501,
      "language_loss": 0.85599846,
      "learning_rate": 3.973679112520771e-06,
      "loss": 0.87892532,
      "num_input_tokens_seen": 14156860,
      "step": 667,
      "time_per_iteration": 3.7596726417541504
    },
    {
      "auxiliary_loss_clip": 0.0121716,
      "auxiliary_loss_mlp": 0.01051425,
      "balance_loss_clip": 1.05947685,
      "balance_loss_mlp": 1.03285193,
      "epoch": 0.08032225094691277,
      "flos": 17783503176960.0,
      "grad_norm": 4.131262783887358,
      "language_loss": 0.9875192,
      "learning_rate": 3.973553001178389e-06,
      "loss": 1.01020503,
      "num_input_tokens_seen": 14174365,
      "step": 668,
      "time_per_iteration": 2.710841655731201
    },
    {
      "auxiliary_loss_clip": 0.01242865,
      "auxiliary_loss_mlp": 0.01044467,
      "balance_loss_clip": 1.072155,
      "balance_loss_mlp": 1.02657413,
      "epoch": 0.08044249383755185,
      "flos": 24061693835520.0,
      "grad_norm": 2.2657248504397463,
      "language_loss": 0.75828815,
      "learning_rate": 3.973426590449585e-06,
      "loss": 0.78116143,
      "num_input_tokens_seen": 14192320,
      "step": 669,
      "time_per_iteration": 2.770948648452759
    },
    {
      "auxiliary_loss_clip": 0.01227927,
      "auxiliary_loss_mlp": 0.01062459,
      "balance_loss_clip": 1.06834292,
      "balance_loss_mlp": 1.04427981,
      "epoch": 0.08056273672819095,
      "flos": 18223624523520.0,
      "grad_norm": 1.9400794665184498,
      "language_loss": 0.75338787,
      "learning_rate": 3.9732998803535364e-06,
      "loss": 0.77629173,
      "num_input_tokens_seen": 14210380,
      "step": 670,
      "time_per_iteration": 2.750760078430176
    },
    {
      "auxiliary_loss_clip": 0.01273069,
      "auxiliary_loss_mlp": 0.01050825,
      "balance_loss_clip": 1.0752362,
      "balance_loss_mlp": 1.03221607,
      "epoch": 0.08068297961883003,
      "flos": 19676856971520.0,
      "grad_norm": 2.5402673429602163,
      "language_loss": 0.85334402,
      "learning_rate": 3.973172870909465e-06,
      "loss": 0.87658292,
      "num_input_tokens_seen": 14225145,
      "step": 671,
      "time_per_iteration": 4.525573015213013
    },
    {
      "auxiliary_loss_clip": 0.01254651,
      "auxiliary_loss_mlp": 0.01046284,
      "balance_loss_clip": 1.06866992,
      "balance_loss_mlp": 1.02789068,
      "epoch": 0.08080322250946913,
      "flos": 23148736830720.0,
      "grad_norm": 2.496136319092543,
      "language_loss": 0.8103016,
      "learning_rate": 3.973045562136638e-06,
      "loss": 0.83331096,
      "num_input_tokens_seen": 14241960,
      "step": 672,
      "time_per_iteration": 3.7817299365997314
    },
    {
      "auxiliary_loss_clip": 0.01266057,
      "auxiliary_loss_mlp": 0.01053003,
      "balance_loss_clip": 1.07300949,
      "balance_loss_mlp": 1.03553903,
      "epoch": 0.08092346540010822,
      "flos": 21763626526080.0,
      "grad_norm": 2.086028744368806,
      "language_loss": 0.91746461,
      "learning_rate": 3.972917954054368e-06,
      "loss": 0.94065523,
      "num_input_tokens_seen": 14260515,
      "step": 673,
      "time_per_iteration": 2.666045904159546
    },
    {
      "auxiliary_loss_clip": 0.01244351,
      "auxiliary_loss_mlp": 0.01067173,
      "balance_loss_clip": 1.07072234,
      "balance_loss_mlp": 1.04758692,
      "epoch": 0.08104370829074731,
      "flos": 21032485188480.0,
      "grad_norm": 2.226554921629661,
      "language_loss": 0.81995034,
      "learning_rate": 3.972790046682013e-06,
      "loss": 0.84306556,
      "num_input_tokens_seen": 14279190,
      "step": 674,
      "time_per_iteration": 2.721102237701416
    },
    {
      "auxiliary_loss_clip": 0.01241255,
      "auxiliary_loss_mlp": 0.01049957,
      "balance_loss_clip": 1.06613636,
      "balance_loss_mlp": 1.03219497,
      "epoch": 0.0811639511813864,
      "flos": 20083186598400.0,
      "grad_norm": 2.3523908943800427,
      "language_loss": 0.79206353,
      "learning_rate": 3.972661840038977e-06,
      "loss": 0.81497568,
      "num_input_tokens_seen": 14299480,
      "step": 675,
      "time_per_iteration": 2.7811357975006104
    },
    {
      "auxiliary_loss_clip": 0.0126436,
      "auxiliary_loss_mlp": 0.01056421,
      "balance_loss_clip": 1.07491112,
      "balance_loss_mlp": 1.03909957,
      "epoch": 0.08128419407202549,
      "flos": 16836718538880.0,
      "grad_norm": 2.5184255328290184,
      "language_loss": 0.83516324,
      "learning_rate": 3.972533334144707e-06,
      "loss": 0.85837102,
      "num_input_tokens_seen": 14316405,
      "step": 676,
      "time_per_iteration": 2.6264662742614746
    },
    {
      "auxiliary_loss_clip": 0.01264599,
      "auxiliary_loss_mlp": 0.01055787,
      "balance_loss_clip": 1.07055831,
      "balance_loss_mlp": 1.03786993,
      "epoch": 0.08140443696266458,
      "flos": 23769273214080.0,
      "grad_norm": 1.9386828594462413,
      "language_loss": 0.7860204,
      "learning_rate": 3.972404529018699e-06,
      "loss": 0.80922425,
      "num_input_tokens_seen": 14336265,
      "step": 677,
      "time_per_iteration": 2.813154458999634
    },
    {
      "auxiliary_loss_clip": 0.01241457,
      "auxiliary_loss_mlp": 0.0105545,
      "balance_loss_clip": 1.06430173,
      "balance_loss_mlp": 1.0376997,
      "epoch": 0.08152467985330367,
      "flos": 24390132819840.0,
      "grad_norm": 1.768346906050837,
      "language_loss": 0.85203981,
      "learning_rate": 3.972275424680493e-06,
      "loss": 0.87500882,
      "num_input_tokens_seen": 14356375,
      "step": 678,
      "time_per_iteration": 2.7259843349456787
    },
    {
      "auxiliary_loss_clip": 0.01270237,
      "auxiliary_loss_mlp": 0.01050426,
      "balance_loss_clip": 1.07207453,
      "balance_loss_mlp": 1.03271151,
      "epoch": 0.08164492274394276,
      "flos": 19317750750720.0,
      "grad_norm": 2.1340420675762783,
      "language_loss": 0.91631031,
      "learning_rate": 3.972146021149673e-06,
      "loss": 0.93951696,
      "num_input_tokens_seen": 14374650,
      "step": 679,
      "time_per_iteration": 2.65805721282959
    },
    {
      "auxiliary_loss_clip": 0.01237587,
      "auxiliary_loss_mlp": 0.01057683,
      "balance_loss_clip": 1.06693292,
      "balance_loss_mlp": 1.04099357,
      "epoch": 0.08176516563458186,
      "flos": 14830461319680.0,
      "grad_norm": 2.1929599817309073,
      "language_loss": 0.78567439,
      "learning_rate": 3.972016318445868e-06,
      "loss": 0.80862701,
      "num_input_tokens_seen": 14392650,
      "step": 680,
      "time_per_iteration": 2.7990095615386963
    },
    {
      "auxiliary_loss_clip": 0.01260639,
      "auxiliary_loss_mlp": 0.01042779,
      "balance_loss_clip": 1.07024753,
      "balance_loss_mlp": 1.02498126,
      "epoch": 0.08188540852522094,
      "flos": 22602320161920.0,
      "grad_norm": 4.549178677094285,
      "language_loss": 0.92237675,
      "learning_rate": 3.971886316588757e-06,
      "loss": 0.94541097,
      "num_input_tokens_seen": 14413155,
      "step": 681,
      "time_per_iteration": 2.6837594509124756
    },
    {
      "auxiliary_loss_clip": 0.01230023,
      "auxiliary_loss_mlp": 0.01048379,
      "balance_loss_clip": 1.06819296,
      "balance_loss_mlp": 1.02959168,
      "epoch": 0.08200565141586004,
      "flos": 19463727623040.0,
      "grad_norm": 2.2413071081440914,
      "language_loss": 0.72969854,
      "learning_rate": 3.9717560155980595e-06,
      "loss": 0.75248253,
      "num_input_tokens_seen": 14428805,
      "step": 682,
      "time_per_iteration": 2.718320846557617
    },
    {
      "auxiliary_loss_clip": 0.01259109,
      "auxiliary_loss_mlp": 0.01051257,
      "balance_loss_clip": 1.07104778,
      "balance_loss_mlp": 1.03391194,
      "epoch": 0.08212589430649912,
      "flos": 20594662312320.0,
      "grad_norm": 2.0045852960351347,
      "language_loss": 0.92297292,
      "learning_rate": 3.971625415493542e-06,
      "loss": 0.94607657,
      "num_input_tokens_seen": 14447125,
      "step": 683,
      "time_per_iteration": 2.674329996109009
    },
    {
      "auxiliary_loss_clip": 0.01238939,
      "auxiliary_loss_mlp": 0.01043514,
      "balance_loss_clip": 1.06868911,
      "balance_loss_mlp": 1.02575171,
      "epoch": 0.08224613719713822,
      "flos": 25953611086080.0,
      "grad_norm": 2.2879604346243125,
      "language_loss": 0.87502545,
      "learning_rate": 3.971494516295017e-06,
      "loss": 0.89784998,
      "num_input_tokens_seen": 14466575,
      "step": 684,
      "time_per_iteration": 2.7796449661254883
    },
    {
      "auxiliary_loss_clip": 0.01241155,
      "auxiliary_loss_mlp": 0.01052411,
      "balance_loss_clip": 1.06677914,
      "balance_loss_mlp": 1.03429091,
      "epoch": 0.08236638008777732,
      "flos": 23768734510080.0,
      "grad_norm": 2.1583102093108764,
      "language_loss": 0.85276705,
      "learning_rate": 3.971363318022341e-06,
      "loss": 0.87570274,
      "num_input_tokens_seen": 14487915,
      "step": 685,
      "time_per_iteration": 2.744067907333374
    },
    {
      "auxiliary_loss_clip": 0.0125224,
      "auxiliary_loss_mlp": 0.01050917,
      "balance_loss_clip": 1.06604338,
      "balance_loss_mlp": 1.03257108,
      "epoch": 0.0824866229784164,
      "flos": 38799144887040.0,
      "grad_norm": 1.808581880281106,
      "language_loss": 0.6848135,
      "learning_rate": 3.971231820695417e-06,
      "loss": 0.70784509,
      "num_input_tokens_seen": 14511530,
      "step": 686,
      "time_per_iteration": 2.977776050567627
    },
    {
      "auxiliary_loss_clip": 0.0125638,
      "auxiliary_loss_mlp": 0.01050053,
      "balance_loss_clip": 1.07099891,
      "balance_loss_mlp": 1.03256512,
      "epoch": 0.0826068658690555,
      "flos": 23107762391040.0,
      "grad_norm": 1.9602019619967195,
      "language_loss": 0.81475973,
      "learning_rate": 3.971100024334193e-06,
      "loss": 0.83782405,
      "num_input_tokens_seen": 14529050,
      "step": 687,
      "time_per_iteration": 2.7438395023345947
    },
    {
      "auxiliary_loss_clip": 0.01228076,
      "auxiliary_loss_mlp": 0.01052414,
      "balance_loss_clip": 1.06372881,
      "balance_loss_mlp": 1.03324497,
      "epoch": 0.08272710875969458,
      "flos": 21136374299520.0,
      "grad_norm": 2.0026603441508875,
      "language_loss": 0.86298221,
      "learning_rate": 3.970967928958663e-06,
      "loss": 0.88578713,
      "num_input_tokens_seen": 14546165,
      "step": 688,
      "time_per_iteration": 2.7727553844451904
    },
    {
      "auxiliary_loss_clip": 0.01233095,
      "auxiliary_loss_mlp": 0.01047886,
      "balance_loss_clip": 1.06611919,
      "balance_loss_mlp": 1.03148293,
      "epoch": 0.08284735165033368,
      "flos": 19063000517760.0,
      "grad_norm": 1.9283981224980271,
      "language_loss": 0.8334496,
      "learning_rate": 3.970835534588865e-06,
      "loss": 0.85625935,
      "num_input_tokens_seen": 14563660,
      "step": 689,
      "time_per_iteration": 2.808802604675293
    },
    {
      "auxiliary_loss_clip": 0.01253363,
      "auxiliary_loss_mlp": 0.01065016,
      "balance_loss_clip": 1.07417941,
      "balance_loss_mlp": 1.04748011,
      "epoch": 0.08296759454097276,
      "flos": 16727442387840.0,
      "grad_norm": 1.8505526653917515,
      "language_loss": 0.85678476,
      "learning_rate": 3.970702841244883e-06,
      "loss": 0.87996852,
      "num_input_tokens_seen": 14581980,
      "step": 690,
      "time_per_iteration": 2.7467947006225586
    },
    {
      "auxiliary_loss_clip": 0.01267297,
      "auxiliary_loss_mlp": 0.01044005,
      "balance_loss_clip": 1.07400084,
      "balance_loss_mlp": 1.02632666,
      "epoch": 0.08308783743161186,
      "flos": 18004928567040.0,
      "grad_norm": 1.8607773839703787,
      "language_loss": 0.82290614,
      "learning_rate": 3.970569848946847e-06,
      "loss": 0.84601915,
      "num_input_tokens_seen": 14601795,
      "step": 691,
      "time_per_iteration": 2.6574440002441406
    },
    {
      "auxiliary_loss_clip": 0.0124844,
      "auxiliary_loss_mlp": 0.01047029,
      "balance_loss_clip": 1.06922591,
      "balance_loss_mlp": 1.02888489,
      "epoch": 0.08320808032225095,
      "flos": 15079788599040.0,
      "grad_norm": 2.8210616929885233,
      "language_loss": 0.82753849,
      "learning_rate": 3.970436557714932e-06,
      "loss": 0.85049319,
      "num_input_tokens_seen": 14618315,
      "step": 692,
      "time_per_iteration": 2.6137259006500244
    },
    {
      "auxiliary_loss_clip": 0.0124606,
      "auxiliary_loss_mlp": 0.01054117,
      "balance_loss_clip": 1.06693649,
      "balance_loss_mlp": 1.03642631,
      "epoch": 0.08332832321289003,
      "flos": 22383085501440.0,
      "grad_norm": 3.070999615333204,
      "language_loss": 0.86912751,
      "learning_rate": 3.970302967569358e-06,
      "loss": 0.8921293,
      "num_input_tokens_seen": 14636905,
      "step": 693,
      "time_per_iteration": 3.4389262199401855
    },
    {
      "auxiliary_loss_clip": 0.01261371,
      "auxiliary_loss_mlp": 0.01051904,
      "balance_loss_clip": 1.07302213,
      "balance_loss_mlp": 1.03347397,
      "epoch": 0.08344856610352913,
      "flos": 24717386655360.0,
      "grad_norm": 2.1342164451537102,
      "language_loss": 0.68535215,
      "learning_rate": 3.9701690785303896e-06,
      "loss": 0.70848489,
      "num_input_tokens_seen": 14656100,
      "step": 694,
      "time_per_iteration": 2.5972206592559814
    },
    {
      "auxiliary_loss_clip": 0.01264905,
      "auxiliary_loss_mlp": 0.01055541,
      "balance_loss_clip": 1.07199693,
      "balance_loss_mlp": 1.03795791,
      "epoch": 0.08356880899416821,
      "flos": 25370206387200.0,
      "grad_norm": 2.115973625150206,
      "language_loss": 0.88718319,
      "learning_rate": 3.970034890618339e-06,
      "loss": 0.91038764,
      "num_input_tokens_seen": 14675790,
      "step": 695,
      "time_per_iteration": 2.6251916885375977
    },
    {
      "auxiliary_loss_clip": 0.01245522,
      "auxiliary_loss_mlp": 0.01042194,
      "balance_loss_clip": 1.06685638,
      "balance_loss_mlp": 1.02527857,
      "epoch": 0.08368905188480731,
      "flos": 24353072962560.0,
      "grad_norm": 1.9653108382461881,
      "language_loss": 0.87965816,
      "learning_rate": 3.969900403853562e-06,
      "loss": 0.90253532,
      "num_input_tokens_seen": 14694830,
      "step": 696,
      "time_per_iteration": 3.6348958015441895
    },
    {
      "auxiliary_loss_clip": 0.01273941,
      "auxiliary_loss_mlp": 0.01053446,
      "balance_loss_clip": 1.07569695,
      "balance_loss_mlp": 1.03524232,
      "epoch": 0.08380929477544641,
      "flos": 18037319656320.0,
      "grad_norm": 1.6672722706211183,
      "language_loss": 0.78234482,
      "learning_rate": 3.96976561825646e-06,
      "loss": 0.8056187,
      "num_input_tokens_seen": 14711920,
      "step": 697,
      "time_per_iteration": 3.565140962600708
    },
    {
      "auxiliary_loss_clip": 0.01235602,
      "auxiliary_loss_mlp": 0.01044724,
      "balance_loss_clip": 1.06867743,
      "balance_loss_mlp": 1.02674687,
      "epoch": 0.08392953766608549,
      "flos": 26286287875200.0,
      "grad_norm": 2.290768046112538,
      "language_loss": 0.87170935,
      "learning_rate": 3.969630533847479e-06,
      "loss": 0.89451253,
      "num_input_tokens_seen": 14730880,
      "step": 698,
      "time_per_iteration": 3.773819923400879
    },
    {
      "auxiliary_loss_clip": 0.01259606,
      "auxiliary_loss_mlp": 0.01050823,
      "balance_loss_clip": 1.07071066,
      "balance_loss_mlp": 1.03475404,
      "epoch": 0.08404978055672459,
      "flos": 22492146170880.0,
      "grad_norm": 1.9242245600918055,
      "language_loss": 0.84422994,
      "learning_rate": 3.969495150647113e-06,
      "loss": 0.86733425,
      "num_input_tokens_seen": 14749050,
      "step": 699,
      "time_per_iteration": 2.6916396617889404
    },
    {
      "auxiliary_loss_clip": 0.01238681,
      "auxiliary_loss_mlp": 0.01064388,
      "balance_loss_clip": 1.07229578,
      "balance_loss_mlp": 1.0464232,
      "epoch": 0.08417002344736367,
      "flos": 24826878288000.0,
      "grad_norm": 1.6779196022908307,
      "language_loss": 0.76526254,
      "learning_rate": 3.969359468675899e-06,
      "loss": 0.7882933,
      "num_input_tokens_seen": 14769180,
      "step": 700,
      "time_per_iteration": 2.7646541595458984
    },
    {
      "auxiliary_loss_clip": 0.01259934,
      "auxiliary_loss_mlp": 0.01044815,
      "balance_loss_clip": 1.07353497,
      "balance_loss_mlp": 1.02627754,
      "epoch": 0.08429026633800277,
      "flos": 16945922862720.0,
      "grad_norm": 2.0883528228407924,
      "language_loss": 0.89723843,
      "learning_rate": 3.969223487954418e-06,
      "loss": 0.92028594,
      "num_input_tokens_seen": 14786640,
      "step": 701,
      "time_per_iteration": 2.6406240463256836
    },
    {
      "auxiliary_loss_clip": 0.01228112,
      "auxiliary_loss_mlp": 0.01044361,
      "balance_loss_clip": 1.06949425,
      "balance_loss_mlp": 1.02734971,
      "epoch": 0.08441050922864185,
      "flos": 23841920471040.0,
      "grad_norm": 3.0542835120249343,
      "language_loss": 0.82668519,
      "learning_rate": 3.969087208503301e-06,
      "loss": 0.84940988,
      "num_input_tokens_seen": 14806720,
      "step": 702,
      "time_per_iteration": 2.796541213989258
    },
    {
      "auxiliary_loss_clip": 0.01222271,
      "auxiliary_loss_mlp": 0.01043179,
      "balance_loss_clip": 1.06614435,
      "balance_loss_mlp": 1.02523804,
      "epoch": 0.08453075211928095,
      "flos": 25520205582720.0,
      "grad_norm": 4.947034912512779,
      "language_loss": 0.84380722,
      "learning_rate": 3.968950630343219e-06,
      "loss": 0.86646175,
      "num_input_tokens_seen": 14823705,
      "step": 703,
      "time_per_iteration": 2.8142457008361816
    },
    {
      "auxiliary_loss_clip": 0.012414,
      "auxiliary_loss_mlp": 0.01049373,
      "balance_loss_clip": 1.06537473,
      "balance_loss_mlp": 1.03313708,
      "epoch": 0.08465099500992004,
      "flos": 19532496211200.0,
      "grad_norm": 2.1761169141819865,
      "language_loss": 0.93448114,
      "learning_rate": 3.968813753494892e-06,
      "loss": 0.95738888,
      "num_input_tokens_seen": 14841865,
      "step": 704,
      "time_per_iteration": 2.731497287750244
    },
    {
      "auxiliary_loss_clip": 0.01221795,
      "auxiliary_loss_mlp": 0.00892478,
      "balance_loss_clip": 1.0620842,
      "balance_loss_mlp": 1.0000267,
      "epoch": 0.08477123790055913,
      "flos": 29351299403520.0,
      "grad_norm": 2.392339272706215,
      "language_loss": 0.75721997,
      "learning_rate": 3.968676577979084e-06,
      "loss": 0.77836263,
      "num_input_tokens_seen": 14861415,
      "step": 705,
      "time_per_iteration": 2.8248655796051025
    },
    {
      "auxiliary_loss_clip": 0.01224099,
      "auxiliary_loss_mlp": 0.01063242,
      "balance_loss_clip": 1.06277561,
      "balance_loss_mlp": 1.04609942,
      "epoch": 0.08489148079119822,
      "flos": 18624495283200.0,
      "grad_norm": 2.1642470564231173,
      "language_loss": 0.78272235,
      "learning_rate": 3.968539103816605e-06,
      "loss": 0.80559576,
      "num_input_tokens_seen": 14879215,
      "step": 706,
      "time_per_iteration": 2.76529860496521
    },
    {
      "auxiliary_loss_clip": 0.01244238,
      "auxiliary_loss_mlp": 0.00891972,
      "balance_loss_clip": 1.06988335,
      "balance_loss_mlp": 1.00002861,
      "epoch": 0.0850117236818373,
      "flos": 23471393725440.0,
      "grad_norm": 2.3609046803629203,
      "language_loss": 0.89634478,
      "learning_rate": 3.9684013310283085e-06,
      "loss": 0.91770685,
      "num_input_tokens_seen": 14897900,
      "step": 707,
      "time_per_iteration": 2.7066941261291504
    },
    {
      "auxiliary_loss_clip": 0.01244002,
      "auxiliary_loss_mlp": 0.01052557,
      "balance_loss_clip": 1.07244062,
      "balance_loss_mlp": 1.0356648,
      "epoch": 0.0851319665724764,
      "flos": 40625058896640.0,
      "grad_norm": 1.904986428132205,
      "language_loss": 0.64077312,
      "learning_rate": 3.9682632596350956e-06,
      "loss": 0.66373867,
      "num_input_tokens_seen": 14919065,
      "step": 708,
      "time_per_iteration": 2.815434455871582
    },
    {
      "auxiliary_loss_clip": 0.01256624,
      "auxiliary_loss_mlp": 0.01045126,
      "balance_loss_clip": 1.07356691,
      "balance_loss_mlp": 1.02793574,
      "epoch": 0.0852522094631155,
      "flos": 15879554870400.0,
      "grad_norm": 2.254525812883668,
      "language_loss": 0.78017187,
      "learning_rate": 3.968124889657911e-06,
      "loss": 0.8031894,
      "num_input_tokens_seen": 14934165,
      "step": 709,
      "time_per_iteration": 2.6102373600006104
    },
    {
      "auxiliary_loss_clip": 0.01222857,
      "auxiliary_loss_mlp": 0.01040627,
      "balance_loss_clip": 1.06290221,
      "balance_loss_mlp": 1.02409291,
      "epoch": 0.08537245235375458,
      "flos": 14567091822720.0,
      "grad_norm": 2.537903674894307,
      "language_loss": 0.90793604,
      "learning_rate": 3.967986221117746e-06,
      "loss": 0.93057084,
      "num_input_tokens_seen": 14950105,
      "step": 710,
      "time_per_iteration": 2.733668804168701
    },
    {
      "auxiliary_loss_clip": 0.01209853,
      "auxiliary_loss_mlp": 0.01047218,
      "balance_loss_clip": 1.06224728,
      "balance_loss_mlp": 1.03032589,
      "epoch": 0.08549269524439368,
      "flos": 26468929555200.0,
      "grad_norm": 3.881189588503585,
      "language_loss": 0.8639167,
      "learning_rate": 3.967847254035635e-06,
      "loss": 0.88648736,
      "num_input_tokens_seen": 14969490,
      "step": 711,
      "time_per_iteration": 3.1082940101623535
    },
    {
      "auxiliary_loss_clip": 0.01240962,
      "auxiliary_loss_mlp": 0.0105131,
      "balance_loss_clip": 1.06890821,
      "balance_loss_mlp": 1.03340518,
      "epoch": 0.08561293813503276,
      "flos": 13590214565760.0,
      "grad_norm": 2.17892475162305,
      "language_loss": 0.86507511,
      "learning_rate": 3.967707988432661e-06,
      "loss": 0.88799775,
      "num_input_tokens_seen": 14987195,
      "step": 712,
      "time_per_iteration": 2.954885244369507
    },
    {
      "auxiliary_loss_clip": 0.01266876,
      "auxiliary_loss_mlp": 0.0104303,
      "balance_loss_clip": 1.07105732,
      "balance_loss_mlp": 1.02604234,
      "epoch": 0.08573318102567186,
      "flos": 26943524979840.0,
      "grad_norm": 2.320073124779872,
      "language_loss": 0.87897134,
      "learning_rate": 3.967568424329949e-06,
      "loss": 0.9020704,
      "num_input_tokens_seen": 15007620,
      "step": 713,
      "time_per_iteration": 2.6221723556518555
    },
    {
      "auxiliary_loss_clip": 0.01145914,
      "auxiliary_loss_mlp": 0.01015491,
      "balance_loss_clip": 1.03668952,
      "balance_loss_mlp": 1.00576353,
      "epoch": 0.08585342391631094,
      "flos": 67302739319040.0,
      "grad_norm": 0.8383469375555117,
      "language_loss": 0.55576783,
      "learning_rate": 3.967428561748671e-06,
      "loss": 0.57738191,
      "num_input_tokens_seen": 15075590,
      "step": 714,
      "time_per_iteration": 3.425440788269043
    },
    {
      "auxiliary_loss_clip": 0.01211763,
      "auxiliary_loss_mlp": 0.01050723,
      "balance_loss_clip": 1.05658674,
      "balance_loss_mlp": 1.03342545,
      "epoch": 0.08597366680695004,
      "flos": 22456594684800.0,
      "grad_norm": 2.4079736547181123,
      "language_loss": 0.87729985,
      "learning_rate": 3.967288400710045e-06,
      "loss": 0.89992476,
      "num_input_tokens_seen": 15095055,
      "step": 715,
      "time_per_iteration": 2.7258927822113037
    },
    {
      "auxiliary_loss_clip": 0.01229229,
      "auxiliary_loss_mlp": 0.01048053,
      "balance_loss_clip": 1.07060266,
      "balance_loss_mlp": 1.03153062,
      "epoch": 0.08609390969758914,
      "flos": 23550505430400.0,
      "grad_norm": 2.6048878291016866,
      "language_loss": 0.88787258,
      "learning_rate": 3.9671479412353335e-06,
      "loss": 0.91064543,
      "num_input_tokens_seen": 15113520,
      "step": 716,
      "time_per_iteration": 2.758533477783203
    },
    {
      "auxiliary_loss_clip": 0.01253394,
      "auxiliary_loss_mlp": 0.01049622,
      "balance_loss_clip": 1.07102263,
      "balance_loss_mlp": 1.03199065,
      "epoch": 0.08621415258822822,
      "flos": 25885848078720.0,
      "grad_norm": 3.3168241241099885,
      "language_loss": 0.74201238,
      "learning_rate": 3.967007183345843e-06,
      "loss": 0.76504254,
      "num_input_tokens_seen": 15133375,
      "step": 717,
      "time_per_iteration": 2.7061569690704346
    },
    {
      "auxiliary_loss_clip": 0.0125253,
      "auxiliary_loss_mlp": 0.01047236,
      "balance_loss_clip": 1.07172453,
      "balance_loss_mlp": 1.03043997,
      "epoch": 0.08633439547886732,
      "flos": 13589568120960.0,
      "grad_norm": 2.1576336654538797,
      "language_loss": 0.89486665,
      "learning_rate": 3.966866127062927e-06,
      "loss": 0.91786432,
      "num_input_tokens_seen": 15150500,
      "step": 718,
      "time_per_iteration": 2.6008143424987793
    },
    {
      "auxiliary_loss_clip": 0.01143688,
      "auxiliary_loss_mlp": 0.01009058,
      "balance_loss_clip": 1.03610682,
      "balance_loss_mlp": 0.99952173,
      "epoch": 0.0864546383695064,
      "flos": 57767342434560.0,
      "grad_norm": 0.8681577464785112,
      "language_loss": 0.62719333,
      "learning_rate": 3.966724772407982e-06,
      "loss": 0.6487208,
      "num_input_tokens_seen": 15208015,
      "step": 719,
      "time_per_iteration": 3.996755838394165
    },
    {
      "auxiliary_loss_clip": 0.01222382,
      "auxiliary_loss_mlp": 0.01057782,
      "balance_loss_clip": 1.06429946,
      "balance_loss_mlp": 1.04109287,
      "epoch": 0.0865748812601455,
      "flos": 20046952753920.0,
      "grad_norm": 2.101414379292806,
      "language_loss": 0.8867166,
      "learning_rate": 3.966583119402454e-06,
      "loss": 0.90951824,
      "num_input_tokens_seen": 15224780,
      "step": 720,
      "time_per_iteration": 2.7219042778015137
    },
    {
      "auxiliary_loss_clip": 0.01252379,
      "auxiliary_loss_mlp": 0.00890607,
      "balance_loss_clip": 1.07020199,
      "balance_loss_mlp": 1.00000215,
      "epoch": 0.08669512415078459,
      "flos": 35262446935680.0,
      "grad_norm": 1.9449857296169155,
      "language_loss": 0.8193686,
      "learning_rate": 3.9664411680678305e-06,
      "loss": 0.8407985,
      "num_input_tokens_seen": 15246535,
      "step": 721,
      "time_per_iteration": 2.7815558910369873
    },
    {
      "auxiliary_loss_clip": 0.01124382,
      "auxiliary_loss_mlp": 0.01012973,
      "balance_loss_clip": 1.03386045,
      "balance_loss_mlp": 1.00343597,
      "epoch": 0.08681536704142367,
      "flos": 65654870048640.0,
      "grad_norm": 0.8450075738525605,
      "language_loss": 0.61382186,
      "learning_rate": 3.966298918425644e-06,
      "loss": 0.63519549,
      "num_input_tokens_seen": 15304025,
      "step": 722,
      "time_per_iteration": 4.156241416931152
    },
    {
      "auxiliary_loss_clip": 0.01257993,
      "auxiliary_loss_mlp": 0.01053182,
      "balance_loss_clip": 1.06902528,
      "balance_loss_mlp": 1.03623021,
      "epoch": 0.08693560993206277,
      "flos": 34529940881280.0,
      "grad_norm": 1.9066147401383124,
      "language_loss": 0.82373589,
      "learning_rate": 3.966156370497476e-06,
      "loss": 0.84684765,
      "num_input_tokens_seen": 15327635,
      "step": 723,
      "time_per_iteration": 3.6580066680908203
    },
    {
      "auxiliary_loss_clip": 0.01257896,
      "auxiliary_loss_mlp": 0.01049014,
      "balance_loss_clip": 1.06984591,
      "balance_loss_mlp": 1.03210998,
      "epoch": 0.08705585282270185,
      "flos": 23149419189120.0,
      "grad_norm": 1.8117811839718092,
      "language_loss": 0.88562417,
      "learning_rate": 3.96601352430495e-06,
      "loss": 0.90869331,
      "num_input_tokens_seen": 15347405,
      "step": 724,
      "time_per_iteration": 3.6696817874908447
    },
    {
      "auxiliary_loss_clip": 0.01245986,
      "auxiliary_loss_mlp": 0.01043601,
      "balance_loss_clip": 1.07187545,
      "balance_loss_mlp": 1.02729285,
      "epoch": 0.08717609571334095,
      "flos": 29497599498240.0,
      "grad_norm": 4.591459097868322,
      "language_loss": 0.8308531,
      "learning_rate": 3.965870379869735e-06,
      "loss": 0.85374904,
      "num_input_tokens_seen": 15369450,
      "step": 725,
      "time_per_iteration": 2.7454402446746826
    },
    {
      "auxiliary_loss_clip": 0.01253944,
      "auxiliary_loss_mlp": 0.01039671,
      "balance_loss_clip": 1.06800914,
      "balance_loss_mlp": 1.02350581,
      "epoch": 0.08729633860398003,
      "flos": 20667489137280.0,
      "grad_norm": 2.032622824347036,
      "language_loss": 0.86672449,
      "learning_rate": 3.965726937213547e-06,
      "loss": 0.8896606,
      "num_input_tokens_seen": 15388085,
      "step": 726,
      "time_per_iteration": 2.6519312858581543
    },
    {
      "auxiliary_loss_clip": 0.01248073,
      "auxiliary_loss_mlp": 0.01049606,
      "balance_loss_clip": 1.06549478,
      "balance_loss_mlp": 1.03358436,
      "epoch": 0.08741658149461913,
      "flos": 18369493655040.0,
      "grad_norm": 2.1819866927623086,
      "language_loss": 0.80890149,
      "learning_rate": 3.965583196358144e-06,
      "loss": 0.8318783,
      "num_input_tokens_seen": 15407120,
      "step": 727,
      "time_per_iteration": 2.6730096340179443
    },
    {
      "auxiliary_loss_clip": 0.01269717,
      "auxiliary_loss_mlp": 0.01049042,
      "balance_loss_clip": 1.07290804,
      "balance_loss_mlp": 1.03243589,
      "epoch": 0.08753682438525823,
      "flos": 18729677283840.0,
      "grad_norm": 2.203766461091849,
      "language_loss": 0.74280602,
      "learning_rate": 3.965439157325335e-06,
      "loss": 0.7659936,
      "num_input_tokens_seen": 15424485,
      "step": 728,
      "time_per_iteration": 2.5836589336395264
    },
    {
      "auxiliary_loss_clip": 0.01233397,
      "auxiliary_loss_mlp": 0.01041611,
      "balance_loss_clip": 1.06388903,
      "balance_loss_mlp": 1.02434969,
      "epoch": 0.08765706727589731,
      "flos": 27776113303680.0,
      "grad_norm": 3.1155056802642735,
      "language_loss": 0.76042962,
      "learning_rate": 3.965294820136968e-06,
      "loss": 0.78317976,
      "num_input_tokens_seen": 15446285,
      "step": 729,
      "time_per_iteration": 2.785663366317749
    },
    {
      "auxiliary_loss_clip": 0.01245183,
      "auxiliary_loss_mlp": 0.01044923,
      "balance_loss_clip": 1.06935096,
      "balance_loss_mlp": 1.02850795,
      "epoch": 0.08777731016653641,
      "flos": 24389127239040.0,
      "grad_norm": 2.09014935109395,
      "language_loss": 0.86976039,
      "learning_rate": 3.965150184814938e-06,
      "loss": 0.89266145,
      "num_input_tokens_seen": 15465770,
      "step": 730,
      "time_per_iteration": 2.6870431900024414
    },
    {
      "auxiliary_loss_clip": 0.01223552,
      "auxiliary_loss_mlp": 0.01051301,
      "balance_loss_clip": 1.06346917,
      "balance_loss_mlp": 1.03470707,
      "epoch": 0.08789755305717549,
      "flos": 21981855605760.0,
      "grad_norm": 2.2156776027271694,
      "language_loss": 0.76414192,
      "learning_rate": 3.965005251381189e-06,
      "loss": 0.78689051,
      "num_input_tokens_seen": 15483705,
      "step": 731,
      "time_per_iteration": 2.7352890968322754
    },
    {
      "auxiliary_loss_clip": 0.01137351,
      "auxiliary_loss_mlp": 0.01010667,
      "balance_loss_clip": 1.02762318,
      "balance_loss_mlp": 1.00098765,
      "epoch": 0.08801779594781459,
      "flos": 58360120583040.0,
      "grad_norm": 0.9070095481065227,
      "language_loss": 0.64572823,
      "learning_rate": 3.964860019857705e-06,
      "loss": 0.66720843,
      "num_input_tokens_seen": 15548620,
      "step": 732,
      "time_per_iteration": 3.2396183013916016
    },
    {
      "auxiliary_loss_clip": 0.01264755,
      "auxiliary_loss_mlp": 0.01061037,
      "balance_loss_clip": 1.07472682,
      "balance_loss_mlp": 1.04476452,
      "epoch": 0.08813803883845367,
      "flos": 23294785530240.0,
      "grad_norm": 1.9483046616250563,
      "language_loss": 0.84340322,
      "learning_rate": 3.964714490266518e-06,
      "loss": 0.86666107,
      "num_input_tokens_seen": 15569265,
      "step": 733,
      "time_per_iteration": 2.635586738586426
    },
    {
      "auxiliary_loss_clip": 0.0113128,
      "auxiliary_loss_mlp": 0.01012308,
      "balance_loss_clip": 1.02541649,
      "balance_loss_mlp": 1.00277126,
      "epoch": 0.08825828172909277,
      "flos": 63424924882560.0,
      "grad_norm": 0.8850999371310626,
      "language_loss": 0.64541608,
      "learning_rate": 3.964568662629706e-06,
      "loss": 0.66685194,
      "num_input_tokens_seen": 15630570,
      "step": 734,
      "time_per_iteration": 3.167131185531616
    },
    {
      "auxiliary_loss_clip": 0.01254832,
      "auxiliary_loss_mlp": 0.01044796,
      "balance_loss_clip": 1.070032,
      "balance_loss_mlp": 1.02838123,
      "epoch": 0.08837852461973186,
      "flos": 26720986268160.0,
      "grad_norm": 2.5179507458745114,
      "language_loss": 0.8441183,
      "learning_rate": 3.9644225369693895e-06,
      "loss": 0.86711454,
      "num_input_tokens_seen": 15650870,
      "step": 735,
      "time_per_iteration": 2.6670923233032227
    },
    {
      "auxiliary_loss_clip": 0.01267874,
      "auxiliary_loss_mlp": 0.01042045,
      "balance_loss_clip": 1.07514155,
      "balance_loss_mlp": 1.0257616,
      "epoch": 0.08849876751037095,
      "flos": 27265427688960.0,
      "grad_norm": 1.9830782410087233,
      "language_loss": 0.86905092,
      "learning_rate": 3.964276113307735e-06,
      "loss": 0.89215016,
      "num_input_tokens_seen": 15670835,
      "step": 736,
      "time_per_iteration": 2.772742986679077
    },
    {
      "auxiliary_loss_clip": 0.01226251,
      "auxiliary_loss_mlp": 0.01044438,
      "balance_loss_clip": 1.06631839,
      "balance_loss_mlp": 1.02748609,
      "epoch": 0.08861901040101004,
      "flos": 19828759587840.0,
      "grad_norm": 2.3634540735587395,
      "language_loss": 0.80564475,
      "learning_rate": 3.9641293916669574e-06,
      "loss": 0.82835168,
      "num_input_tokens_seen": 15689795,
      "step": 737,
      "time_per_iteration": 2.7078044414520264
    },
    {
      "auxiliary_loss_clip": 0.01229133,
      "auxiliary_loss_mlp": 0.01053755,
      "balance_loss_clip": 1.065763,
      "balance_loss_mlp": 1.03655362,
      "epoch": 0.08873925329164913,
      "flos": 23658704173440.0,
      "grad_norm": 2.3898916180478444,
      "language_loss": 0.82859558,
      "learning_rate": 3.9639823720693115e-06,
      "loss": 0.85142452,
      "num_input_tokens_seen": 15711650,
      "step": 738,
      "time_per_iteration": 2.8683252334594727
    },
    {
      "auxiliary_loss_clip": 0.01120919,
      "auxiliary_loss_mlp": 0.01020249,
      "balance_loss_clip": 1.03176045,
      "balance_loss_mlp": 1.00994956,
      "epoch": 0.08885949618228822,
      "flos": 71831541893760.0,
      "grad_norm": 0.8406732709979562,
      "language_loss": 0.5999155,
      "learning_rate": 3.963835054537102e-06,
      "loss": 0.62132716,
      "num_input_tokens_seen": 15780615,
      "step": 739,
      "time_per_iteration": 3.3391640186309814
    },
    {
      "auxiliary_loss_clip": 0.01241778,
      "auxiliary_loss_mlp": 0.01044869,
      "balance_loss_clip": 1.0658884,
      "balance_loss_mlp": 1.02927649,
      "epoch": 0.08897973907292732,
      "flos": 22346169298560.0,
      "grad_norm": 3.0296859953378985,
      "language_loss": 0.60512829,
      "learning_rate": 3.963687439092676e-06,
      "loss": 0.62799472,
      "num_input_tokens_seen": 15801300,
      "step": 740,
      "time_per_iteration": 2.6878271102905273
    },
    {
      "auxiliary_loss_clip": 0.01251233,
      "auxiliary_loss_mlp": 0.0105297,
      "balance_loss_clip": 1.0713551,
      "balance_loss_mlp": 1.036924,
      "epoch": 0.0890999819635664,
      "flos": 21251827589760.0,
      "grad_norm": 1.936967999927204,
      "language_loss": 0.80237281,
      "learning_rate": 3.963539525758427e-06,
      "loss": 0.82541478,
      "num_input_tokens_seen": 15820860,
      "step": 741,
      "time_per_iteration": 2.6997604370117188
    },
    {
      "auxiliary_loss_clip": 0.01244436,
      "auxiliary_loss_mlp": 0.01048495,
      "balance_loss_clip": 1.06920123,
      "balance_loss_mlp": 1.03161466,
      "epoch": 0.0892202248542055,
      "flos": 25370888745600.0,
      "grad_norm": 1.952079849766741,
      "language_loss": 0.6756742,
      "learning_rate": 3.9633913145567925e-06,
      "loss": 0.69860351,
      "num_input_tokens_seen": 15841350,
      "step": 742,
      "time_per_iteration": 2.728732109069824
    },
    {
      "auxiliary_loss_clip": 0.0124234,
      "auxiliary_loss_mlp": 0.01047308,
      "balance_loss_clip": 1.06901824,
      "balance_loss_mlp": 1.03100038,
      "epoch": 0.08934046774484458,
      "flos": 24457895827200.0,
      "grad_norm": 1.9180298691637878,
      "language_loss": 0.81316018,
      "learning_rate": 3.9632428055102575e-06,
      "loss": 0.83605665,
      "num_input_tokens_seen": 15861360,
      "step": 743,
      "time_per_iteration": 2.714165449142456
    },
    {
      "auxiliary_loss_clip": 0.0125311,
      "auxiliary_loss_mlp": 0.01045119,
      "balance_loss_clip": 1.071491,
      "balance_loss_mlp": 1.0286324,
      "epoch": 0.08946071063548368,
      "flos": 35772773414400.0,
      "grad_norm": 1.9099493717747271,
      "language_loss": 0.67081547,
      "learning_rate": 3.9630939986413495e-06,
      "loss": 0.69379777,
      "num_input_tokens_seen": 15883160,
      "step": 744,
      "time_per_iteration": 2.7389156818389893
    },
    {
      "auxiliary_loss_clip": 0.01207874,
      "auxiliary_loss_mlp": 0.01050085,
      "balance_loss_clip": 1.06092501,
      "balance_loss_mlp": 1.03458786,
      "epoch": 0.08958095352612276,
      "flos": 14356584167040.0,
      "grad_norm": 1.9706078327528427,
      "language_loss": 0.78012669,
      "learning_rate": 3.962944893972643e-06,
      "loss": 0.80270624,
      "num_input_tokens_seen": 15901610,
      "step": 745,
      "time_per_iteration": 3.684814214706421
    },
    {
      "auxiliary_loss_clip": 0.01245684,
      "auxiliary_loss_mlp": 0.01046791,
      "balance_loss_clip": 1.07281792,
      "balance_loss_mlp": 1.02983975,
      "epoch": 0.08970119641676186,
      "flos": 17853277345920.0,
      "grad_norm": 3.1363058190111226,
      "language_loss": 0.90594864,
      "learning_rate": 3.962795491526756e-06,
      "loss": 0.92887336,
      "num_input_tokens_seen": 15918770,
      "step": 746,
      "time_per_iteration": 2.687150001525879
    },
    {
      "auxiliary_loss_clip": 0.01269547,
      "auxiliary_loss_mlp": 0.01053878,
      "balance_loss_clip": 1.07344842,
      "balance_loss_mlp": 1.03773761,
      "epoch": 0.08982143930740095,
      "flos": 20811670329600.0,
      "grad_norm": 4.274869112030754,
      "language_loss": 0.89403272,
      "learning_rate": 3.962645791326354e-06,
      "loss": 0.91726696,
      "num_input_tokens_seen": 15938025,
      "step": 747,
      "time_per_iteration": 2.615000009536743
    },
    {
      "auxiliary_loss_clip": 0.01252737,
      "auxiliary_loss_mlp": 0.01040018,
      "balance_loss_clip": 1.07296681,
      "balance_loss_mlp": 1.02421117,
      "epoch": 0.08994168219804004,
      "flos": 24097712198400.0,
      "grad_norm": 1.9316593659632264,
      "language_loss": 0.83304894,
      "learning_rate": 3.962495793394146e-06,
      "loss": 0.85597652,
      "num_input_tokens_seen": 15957215,
      "step": 748,
      "time_per_iteration": 3.6804323196411133
    },
    {
      "auxiliary_loss_clip": 0.01142061,
      "auxiliary_loss_mlp": 0.01011006,
      "balance_loss_clip": 1.02843595,
      "balance_loss_mlp": 1.00194573,
      "epoch": 0.09006192508867913,
      "flos": 57188893812480.0,
      "grad_norm": 0.743270994531932,
      "language_loss": 0.61247468,
      "learning_rate": 3.9623454977528864e-06,
      "loss": 0.63400531,
      "num_input_tokens_seen": 16015870,
      "step": 749,
      "time_per_iteration": 3.9139633178710938
    },
    {
      "auxiliary_loss_clip": 0.01235935,
      "auxiliary_loss_mlp": 0.01050547,
      "balance_loss_clip": 1.06526852,
      "balance_loss_mlp": 1.03408372,
      "epoch": 0.09018216797931822,
      "flos": 20487505063680.0,
      "grad_norm": 1.8554064104251784,
      "language_loss": 0.85005355,
      "learning_rate": 3.962194904425375e-06,
      "loss": 0.87291837,
      "num_input_tokens_seen": 16036500,
      "step": 750,
      "time_per_iteration": 3.6093389987945557
    },
    {
      "auxiliary_loss_clip": 0.01252389,
      "auxiliary_loss_mlp": 0.0105255,
      "balance_loss_clip": 1.07133842,
      "balance_loss_mlp": 1.03738678,
      "epoch": 0.09030241086995731,
      "flos": 22638123043200.0,
      "grad_norm": 2.1054097028417553,
      "language_loss": 0.68056214,
      "learning_rate": 3.9620440134344566e-06,
      "loss": 0.70361161,
      "num_input_tokens_seen": 16054655,
      "step": 751,
      "time_per_iteration": 2.657597303390503
    },
    {
      "auxiliary_loss_clip": 0.01232459,
      "auxiliary_loss_mlp": 0.0105066,
      "balance_loss_clip": 1.0679214,
      "balance_loss_mlp": 1.03335094,
      "epoch": 0.09042265376059641,
      "flos": 21871502046720.0,
      "grad_norm": 2.533678096888305,
      "language_loss": 0.82398117,
      "learning_rate": 3.9618928248030215e-06,
      "loss": 0.84681237,
      "num_input_tokens_seen": 16074165,
      "step": 752,
      "time_per_iteration": 2.7486743927001953
    },
    {
      "auxiliary_loss_clip": 0.01249726,
      "auxiliary_loss_mlp": 0.01041795,
      "balance_loss_clip": 1.07082403,
      "balance_loss_mlp": 1.02567792,
      "epoch": 0.0905428966512355,
      "flos": 24316192673280.0,
      "grad_norm": 2.0771974592767286,
      "language_loss": 0.830706,
      "learning_rate": 3.961741338554005e-06,
      "loss": 0.85362113,
      "num_input_tokens_seen": 16092505,
      "step": 753,
      "time_per_iteration": 2.6805355548858643
    },
    {
      "auxiliary_loss_clip": 0.01250431,
      "auxiliary_loss_mlp": 0.01047918,
      "balance_loss_clip": 1.07208228,
      "balance_loss_mlp": 1.03113389,
      "epoch": 0.09066313954187459,
      "flos": 35845061535360.0,
      "grad_norm": 1.993484945481967,
      "language_loss": 0.75488645,
      "learning_rate": 3.9615895547103865e-06,
      "loss": 0.77786994,
      "num_input_tokens_seen": 16116150,
      "step": 754,
      "time_per_iteration": 2.8412649631500244
    },
    {
      "auxiliary_loss_clip": 0.01243529,
      "auxiliary_loss_mlp": 0.01057512,
      "balance_loss_clip": 1.06899869,
      "balance_loss_mlp": 1.04099011,
      "epoch": 0.09078338243251367,
      "flos": 29168729550720.0,
      "grad_norm": 2.1517128848117624,
      "language_loss": 0.77782726,
      "learning_rate": 3.961437473295193e-06,
      "loss": 0.8008377,
      "num_input_tokens_seen": 16136295,
      "step": 755,
      "time_per_iteration": 2.7449662685394287
    },
    {
      "auxiliary_loss_clip": 0.01197651,
      "auxiliary_loss_mlp": 0.01046648,
      "balance_loss_clip": 1.05496109,
      "balance_loss_mlp": 1.03030419,
      "epoch": 0.09090362532315277,
      "flos": 21907699977600.0,
      "grad_norm": 2.3370587514488967,
      "language_loss": 0.72155106,
      "learning_rate": 3.961285094331495e-06,
      "loss": 0.74399406,
      "num_input_tokens_seen": 16154210,
      "step": 756,
      "time_per_iteration": 2.7674667835235596
    },
    {
      "auxiliary_loss_clip": 0.0126087,
      "auxiliary_loss_mlp": 0.01043076,
      "balance_loss_clip": 1.07090366,
      "balance_loss_mlp": 1.02785277,
      "epoch": 0.09102386821379185,
      "flos": 27344503480320.0,
      "grad_norm": 1.8291691312475489,
      "language_loss": 0.8582325,
      "learning_rate": 3.961132417842406e-06,
      "loss": 0.88127202,
      "num_input_tokens_seen": 16173995,
      "step": 757,
      "time_per_iteration": 2.7256581783294678
    },
    {
      "auxiliary_loss_clip": 0.01243667,
      "auxiliary_loss_mlp": 0.01039796,
      "balance_loss_clip": 1.06864977,
      "balance_loss_mlp": 1.0239172,
      "epoch": 0.09114411110443095,
      "flos": 20813501923200.0,
      "grad_norm": 2.7097888714067633,
      "language_loss": 0.75699759,
      "learning_rate": 3.960979443851089e-06,
      "loss": 0.77983224,
      "num_input_tokens_seen": 16191020,
      "step": 758,
      "time_per_iteration": 2.702903985977173
    },
    {
      "auxiliary_loss_clip": 0.01233434,
      "auxiliary_loss_mlp": 0.01044086,
      "balance_loss_clip": 1.0665853,
      "balance_loss_mlp": 1.02764726,
      "epoch": 0.09126435399507005,
      "flos": 26145949438080.0,
      "grad_norm": 1.760103941787469,
      "language_loss": 0.78764886,
      "learning_rate": 3.96082617238075e-06,
      "loss": 0.81042409,
      "num_input_tokens_seen": 16213645,
      "step": 759,
      "time_per_iteration": 2.7744078636169434
    },
    {
      "auxiliary_loss_clip": 0.01240144,
      "auxiliary_loss_mlp": 0.01043038,
      "balance_loss_clip": 1.06725395,
      "balance_loss_mlp": 1.02806497,
      "epoch": 0.09138459688570913,
      "flos": 24388911757440.0,
      "grad_norm": 2.552819255882518,
      "language_loss": 0.79650688,
      "learning_rate": 3.960672603454639e-06,
      "loss": 0.81933868,
      "num_input_tokens_seen": 16233625,
      "step": 760,
      "time_per_iteration": 2.742143392562866
    },
    {
      "auxiliary_loss_clip": 0.01239857,
      "auxiliary_loss_mlp": 0.01042341,
      "balance_loss_clip": 1.06617701,
      "balance_loss_mlp": 1.02635467,
      "epoch": 0.09150483977634823,
      "flos": 21032664756480.0,
      "grad_norm": 3.4905063397923684,
      "language_loss": 0.77105379,
      "learning_rate": 3.960518737096054e-06,
      "loss": 0.79387575,
      "num_input_tokens_seen": 16253255,
      "step": 761,
      "time_per_iteration": 2.6478638648986816
    },
    {
      "auxiliary_loss_clip": 0.01250799,
      "auxiliary_loss_mlp": 0.01050011,
      "balance_loss_clip": 1.06843042,
      "balance_loss_mlp": 1.03322685,
      "epoch": 0.09162508266698731,
      "flos": 22856998567680.0,
      "grad_norm": 2.268482706848095,
      "language_loss": 0.72802889,
      "learning_rate": 3.960364573328334e-06,
      "loss": 0.751037,
      "num_input_tokens_seen": 16272580,
      "step": 762,
      "time_per_iteration": 2.6701886653900146
    },
    {
      "auxiliary_loss_clip": 0.01224763,
      "auxiliary_loss_mlp": 0.01054103,
      "balance_loss_clip": 1.06104684,
      "balance_loss_mlp": 1.03777122,
      "epoch": 0.0917453255576264,
      "flos": 21724411852800.0,
      "grad_norm": 1.8559196187521585,
      "language_loss": 0.88695538,
      "learning_rate": 3.9602101121748675e-06,
      "loss": 0.90974402,
      "num_input_tokens_seen": 16293075,
      "step": 763,
      "time_per_iteration": 2.7209391593933105
    },
    {
      "auxiliary_loss_clip": 0.01237809,
      "auxiliary_loss_mlp": 0.01045209,
      "balance_loss_clip": 1.06757092,
      "balance_loss_mlp": 1.02999818,
      "epoch": 0.0918655684482655,
      "flos": 14609215497600.0,
      "grad_norm": 2.179751301211996,
      "language_loss": 0.72222412,
      "learning_rate": 3.960055353659085e-06,
      "loss": 0.74505436,
      "num_input_tokens_seen": 16310185,
      "step": 764,
      "time_per_iteration": 2.7112510204315186
    },
    {
      "auxiliary_loss_clip": 0.0122973,
      "auxiliary_loss_mlp": 0.01042453,
      "balance_loss_clip": 1.06406593,
      "balance_loss_mlp": 1.02683675,
      "epoch": 0.09198581133890459,
      "flos": 23435016226560.0,
      "grad_norm": 2.113025154314657,
      "language_loss": 0.83545196,
      "learning_rate": 3.959900297804465e-06,
      "loss": 0.85817385,
      "num_input_tokens_seen": 16330355,
      "step": 765,
      "time_per_iteration": 2.7374887466430664
    },
    {
      "auxiliary_loss_clip": 0.01220329,
      "auxiliary_loss_mlp": 0.01045074,
      "balance_loss_clip": 1.06424117,
      "balance_loss_mlp": 1.0301013,
      "epoch": 0.09210605422954368,
      "flos": 16795887753600.0,
      "grad_norm": 2.0719818334279325,
      "language_loss": 0.77229542,
      "learning_rate": 3.9597449446345276e-06,
      "loss": 0.79494941,
      "num_input_tokens_seen": 16347600,
      "step": 766,
      "time_per_iteration": 2.665809154510498
    },
    {
      "auxiliary_loss_clip": 0.0122318,
      "auxiliary_loss_mlp": 0.01045518,
      "balance_loss_clip": 1.06277037,
      "balance_loss_mlp": 1.03015208,
      "epoch": 0.09222629712018277,
      "flos": 22674249146880.0,
      "grad_norm": 2.9006842613285015,
      "language_loss": 0.83373433,
      "learning_rate": 3.95958929417284e-06,
      "loss": 0.85642129,
      "num_input_tokens_seen": 16365755,
      "step": 767,
      "time_per_iteration": 2.6915814876556396
    },
    {
      "auxiliary_loss_clip": 0.01138838,
      "auxiliary_loss_mlp": 0.01011045,
      "balance_loss_clip": 1.03030753,
      "balance_loss_mlp": 1.0021286,
      "epoch": 0.09234654001082186,
      "flos": 69976756327680.0,
      "grad_norm": 0.7319946478612371,
      "language_loss": 0.58783078,
      "learning_rate": 3.9594333464430145e-06,
      "loss": 0.60932958,
      "num_input_tokens_seen": 16435245,
      "step": 768,
      "time_per_iteration": 3.3693149089813232
    },
    {
      "auxiliary_loss_clip": 0.01181582,
      "auxiliary_loss_mlp": 0.01044895,
      "balance_loss_clip": 1.05365622,
      "balance_loss_mlp": 1.02945757,
      "epoch": 0.09246678290146094,
      "flos": 20011437181440.0,
      "grad_norm": 2.2991488891499277,
      "language_loss": 0.87939823,
      "learning_rate": 3.959277101468709e-06,
      "loss": 0.90166295,
      "num_input_tokens_seen": 16454795,
      "step": 769,
      "time_per_iteration": 2.927687883377075
    },
    {
      "auxiliary_loss_clip": 0.01226212,
      "auxiliary_loss_mlp": 0.01044766,
      "balance_loss_clip": 1.06332576,
      "balance_loss_mlp": 1.02923286,
      "epoch": 0.09258702579210004,
      "flos": 17747448900480.0,
      "grad_norm": 3.327138834242037,
      "language_loss": 0.78812277,
      "learning_rate": 3.959120559273624e-06,
      "loss": 0.8108325,
      "num_input_tokens_seen": 16472580,
      "step": 770,
      "time_per_iteration": 3.1336278915405273
    },
    {
      "auxiliary_loss_clip": 0.0122821,
      "auxiliary_loss_mlp": 0.01046263,
      "balance_loss_clip": 1.0675025,
      "balance_loss_mlp": 1.0314455,
      "epoch": 0.09270726868273914,
      "flos": 20886544229760.0,
      "grad_norm": 1.8199455245786635,
      "language_loss": 0.83670944,
      "learning_rate": 3.958963719881509e-06,
      "loss": 0.85945415,
      "num_input_tokens_seen": 16490670,
      "step": 771,
      "time_per_iteration": 3.62030029296875
    },
    {
      "auxiliary_loss_clip": 0.01248923,
      "auxiliary_loss_mlp": 0.01046243,
      "balance_loss_clip": 1.07005429,
      "balance_loss_mlp": 1.03074574,
      "epoch": 0.09282751157337822,
      "flos": 17015697031680.0,
      "grad_norm": 2.110826772717002,
      "language_loss": 0.93730235,
      "learning_rate": 3.958806583316154e-06,
      "loss": 0.96025395,
      "num_input_tokens_seen": 16508640,
      "step": 772,
      "time_per_iteration": 2.64559006690979
    },
    {
      "auxiliary_loss_clip": 0.01264664,
      "auxiliary_loss_mlp": 0.01039453,
      "balance_loss_clip": 1.07380915,
      "balance_loss_mlp": 1.02400362,
      "epoch": 0.09294775446401732,
      "flos": 32523647748480.0,
      "grad_norm": 1.9988958414021456,
      "language_loss": 0.78860658,
      "learning_rate": 3.9586491496013985e-06,
      "loss": 0.81164777,
      "num_input_tokens_seen": 16531035,
      "step": 773,
      "time_per_iteration": 2.7078540325164795
    },
    {
      "auxiliary_loss_clip": 0.01254611,
      "auxiliary_loss_mlp": 0.01048884,
      "balance_loss_clip": 1.06930566,
      "balance_loss_mlp": 1.0333389,
      "epoch": 0.0930679973546564,
      "flos": 18259750627200.0,
      "grad_norm": 3.3873615289505286,
      "language_loss": 0.83169985,
      "learning_rate": 3.958491418761124e-06,
      "loss": 0.8547349,
      "num_input_tokens_seen": 16548605,
      "step": 774,
      "time_per_iteration": 4.619768142700195
    },
    {
      "auxiliary_loss_clip": 0.01238594,
      "auxiliary_loss_mlp": 0.01047238,
      "balance_loss_clip": 1.06175709,
      "balance_loss_mlp": 1.03112042,
      "epoch": 0.0931882402452955,
      "flos": 21099745405440.0,
      "grad_norm": 2.4695024285754448,
      "language_loss": 0.73007518,
      "learning_rate": 3.958333390819258e-06,
      "loss": 0.7529335,
      "num_input_tokens_seen": 16565535,
      "step": 775,
      "time_per_iteration": 2.7077431678771973
    },
    {
      "auxiliary_loss_clip": 0.01261569,
      "auxiliary_loss_mlp": 0.01051244,
      "balance_loss_clip": 1.07193947,
      "balance_loss_mlp": 1.03499579,
      "epoch": 0.0933084831359346,
      "flos": 24207275658240.0,
      "grad_norm": 1.9331129228713582,
      "language_loss": 0.79846096,
      "learning_rate": 3.9581750657997754e-06,
      "loss": 0.82158905,
      "num_input_tokens_seen": 16584900,
      "step": 776,
      "time_per_iteration": 3.628175973892212
    },
    {
      "auxiliary_loss_clip": 0.01233376,
      "auxiliary_loss_mlp": 0.01042913,
      "balance_loss_clip": 1.06280923,
      "balance_loss_mlp": 1.02748752,
      "epoch": 0.09342872602657368,
      "flos": 25480272637440.0,
      "grad_norm": 1.6978140627212162,
      "language_loss": 0.89153862,
      "learning_rate": 3.95801644372669e-06,
      "loss": 0.91430151,
      "num_input_tokens_seen": 16604805,
      "step": 777,
      "time_per_iteration": 2.7449047565460205
    },
    {
      "auxiliary_loss_clip": 0.01246021,
      "auxiliary_loss_mlp": 0.01045638,
      "balance_loss_clip": 1.06429446,
      "balance_loss_mlp": 1.02967548,
      "epoch": 0.09354896891721277,
      "flos": 23149060053120.0,
      "grad_norm": 1.9535438459230805,
      "language_loss": 0.84642017,
      "learning_rate": 3.957857524624068e-06,
      "loss": 0.86933672,
      "num_input_tokens_seen": 16623685,
      "step": 778,
      "time_per_iteration": 2.7260875701904297
    },
    {
      "auxiliary_loss_clip": 0.01239787,
      "auxiliary_loss_mlp": 0.01042975,
      "balance_loss_clip": 1.06636631,
      "balance_loss_mlp": 1.02796674,
      "epoch": 0.09366921180785186,
      "flos": 24279563779200.0,
      "grad_norm": 1.622214872120454,
      "language_loss": 0.89511245,
      "learning_rate": 3.957698308516016e-06,
      "loss": 0.91794008,
      "num_input_tokens_seen": 16644985,
      "step": 779,
      "time_per_iteration": 2.7983202934265137
    },
    {
      "auxiliary_loss_clip": 0.01251314,
      "auxiliary_loss_mlp": 0.00890086,
      "balance_loss_clip": 1.07358313,
      "balance_loss_mlp": 1.00014186,
      "epoch": 0.09378945469849095,
      "flos": 18730036419840.0,
      "grad_norm": 1.9117700704811038,
      "language_loss": 0.82167822,
      "learning_rate": 3.957538795426688e-06,
      "loss": 0.84309226,
      "num_input_tokens_seen": 16662410,
      "step": 780,
      "time_per_iteration": 2.6487679481506348
    },
    {
      "auxiliary_loss_clip": 0.01240032,
      "auxiliary_loss_mlp": 0.01050451,
      "balance_loss_clip": 1.06509721,
      "balance_loss_mlp": 1.03415501,
      "epoch": 0.09390969758913004,
      "flos": 23218834222080.0,
      "grad_norm": 3.0254385342324666,
      "language_loss": 0.77517605,
      "learning_rate": 3.9573789853802804e-06,
      "loss": 0.7980808,
      "num_input_tokens_seen": 16680885,
      "step": 781,
      "time_per_iteration": 2.694525718688965
    },
    {
      "auxiliary_loss_clip": 0.01244039,
      "auxiliary_loss_mlp": 0.00890673,
      "balance_loss_clip": 1.07260084,
      "balance_loss_mlp": 1.00009298,
      "epoch": 0.09402994047976913,
      "flos": 19646728439040.0,
      "grad_norm": 2.1288477979520737,
      "language_loss": 0.74491411,
      "learning_rate": 3.957218878401037e-06,
      "loss": 0.76626122,
      "num_input_tokens_seen": 16699375,
      "step": 782,
      "time_per_iteration": 2.721616506576538
    },
    {
      "auxiliary_loss_clip": 0.0127056,
      "auxiliary_loss_mlp": 0.01055791,
      "balance_loss_clip": 1.07508945,
      "balance_loss_mlp": 1.03904259,
      "epoch": 0.09415018337040823,
      "flos": 29420463041280.0,
      "grad_norm": 2.669158373649302,
      "language_loss": 0.89335823,
      "learning_rate": 3.957058474513246e-06,
      "loss": 0.91662174,
      "num_input_tokens_seen": 16719230,
      "step": 783,
      "time_per_iteration": 2.694671392440796
    },
    {
      "auxiliary_loss_clip": 0.01251056,
      "auxiliary_loss_mlp": 0.01043062,
      "balance_loss_clip": 1.07243848,
      "balance_loss_mlp": 1.02789807,
      "epoch": 0.09427042626104731,
      "flos": 24572092141440.0,
      "grad_norm": 1.956323356475572,
      "language_loss": 0.78545946,
      "learning_rate": 3.956897773741241e-06,
      "loss": 0.80840063,
      "num_input_tokens_seen": 16738220,
      "step": 784,
      "time_per_iteration": 2.715123176574707
    },
    {
      "auxiliary_loss_clip": 0.01224243,
      "auxiliary_loss_mlp": 0.01038752,
      "balance_loss_clip": 1.06263781,
      "balance_loss_mlp": 1.02259874,
      "epoch": 0.09439066915168641,
      "flos": 26359581576960.0,
      "grad_norm": 2.003094880110611,
      "language_loss": 0.71677411,
      "learning_rate": 3.956736776109398e-06,
      "loss": 0.73940402,
      "num_input_tokens_seen": 16759395,
      "step": 785,
      "time_per_iteration": 2.7528116703033447
    },
    {
      "auxiliary_loss_clip": 0.01243369,
      "auxiliary_loss_mlp": 0.00890821,
      "balance_loss_clip": 1.06862712,
      "balance_loss_mlp": 1.00010514,
      "epoch": 0.09451091204232549,
      "flos": 19427278296960.0,
      "grad_norm": 2.0290738885033752,
      "language_loss": 0.83565331,
      "learning_rate": 3.956575481642143e-06,
      "loss": 0.85699511,
      "num_input_tokens_seen": 16778285,
      "step": 786,
      "time_per_iteration": 2.683889389038086
    },
    {
      "auxiliary_loss_clip": 0.01214227,
      "auxiliary_loss_mlp": 0.01046245,
      "balance_loss_clip": 1.05919027,
      "balance_loss_mlp": 1.03089058,
      "epoch": 0.09463115493296459,
      "flos": 25368051571200.0,
      "grad_norm": 2.387580605544082,
      "language_loss": 0.75046802,
      "learning_rate": 3.956413890363943e-06,
      "loss": 0.77307278,
      "num_input_tokens_seen": 16795265,
      "step": 787,
      "time_per_iteration": 2.814087152481079
    },
    {
      "auxiliary_loss_clip": 0.01253061,
      "auxiliary_loss_mlp": 0.01053842,
      "balance_loss_clip": 1.07079685,
      "balance_loss_mlp": 1.0378561,
      "epoch": 0.09475139782360369,
      "flos": 10123254869760.0,
      "grad_norm": 2.9082331124642686,
      "language_loss": 0.8144927,
      "learning_rate": 3.956252002299312e-06,
      "loss": 0.83756173,
      "num_input_tokens_seen": 16811165,
      "step": 788,
      "time_per_iteration": 2.6459414958953857
    },
    {
      "auxiliary_loss_clip": 0.01262659,
      "auxiliary_loss_mlp": 0.01047418,
      "balance_loss_clip": 1.07301533,
      "balance_loss_mlp": 1.03214681,
      "epoch": 0.09487164071424277,
      "flos": 17231088936960.0,
      "grad_norm": 2.332810382013227,
      "language_loss": 0.90988505,
      "learning_rate": 3.956089817472807e-06,
      "loss": 0.93298578,
      "num_input_tokens_seen": 16828470,
      "step": 789,
      "time_per_iteration": 2.62507963180542
    },
    {
      "auxiliary_loss_clip": 0.0124332,
      "auxiliary_loss_mlp": 0.0104332,
      "balance_loss_clip": 1.0734458,
      "balance_loss_mlp": 1.02663112,
      "epoch": 0.09499188360488187,
      "flos": 30849564528000.0,
      "grad_norm": 4.069870907828684,
      "language_loss": 0.85694754,
      "learning_rate": 3.955927335909032e-06,
      "loss": 0.87981391,
      "num_input_tokens_seen": 16851680,
      "step": 790,
      "time_per_iteration": 2.74019455909729
    },
    {
      "auxiliary_loss_clip": 0.01217589,
      "auxiliary_loss_mlp": 0.01049883,
      "balance_loss_clip": 1.06827998,
      "balance_loss_mlp": 1.03325284,
      "epoch": 0.09511212649552095,
      "flos": 29351694453120.0,
      "grad_norm": 3.7326668206754134,
      "language_loss": 0.7558915,
      "learning_rate": 3.955764557632634e-06,
      "loss": 0.77856618,
      "num_input_tokens_seen": 16871490,
      "step": 791,
      "time_per_iteration": 2.812241315841675
    },
    {
      "auxiliary_loss_clip": 0.01234766,
      "auxiliary_loss_mlp": 0.01042088,
      "balance_loss_clip": 1.06572175,
      "balance_loss_mlp": 1.02616131,
      "epoch": 0.09523236938616005,
      "flos": 10378687461120.0,
      "grad_norm": 2.3212074689987254,
      "language_loss": 0.94434023,
      "learning_rate": 3.955601482668309e-06,
      "loss": 0.96710873,
      "num_input_tokens_seen": 16889350,
      "step": 792,
      "time_per_iteration": 2.6138370037078857
    },
    {
      "auxiliary_loss_clip": 0.01208759,
      "auxiliary_loss_mlp": 0.01040006,
      "balance_loss_clip": 1.05814242,
      "balance_loss_mlp": 1.02339983,
      "epoch": 0.09535261227679913,
      "flos": 19061815368960.0,
      "grad_norm": 1.9665351311977184,
      "language_loss": 0.88818264,
      "learning_rate": 3.955438111040794e-06,
      "loss": 0.91067028,
      "num_input_tokens_seen": 16907625,
      "step": 793,
      "time_per_iteration": 2.8084557056427
    },
    {
      "auxiliary_loss_clip": 0.01214708,
      "auxiliary_loss_mlp": 0.01053619,
      "balance_loss_clip": 1.06201792,
      "balance_loss_mlp": 1.03793085,
      "epoch": 0.09547285516743823,
      "flos": 20922993555840.0,
      "grad_norm": 1.9738009916437727,
      "language_loss": 0.80010676,
      "learning_rate": 3.955274442774873e-06,
      "loss": 0.82279003,
      "num_input_tokens_seen": 16926205,
      "step": 794,
      "time_per_iteration": 2.705894708633423
    },
    {
      "auxiliary_loss_clip": 0.01251541,
      "auxiliary_loss_mlp": 0.01039263,
      "balance_loss_clip": 1.06906962,
      "balance_loss_mlp": 1.02299058,
      "epoch": 0.09559309805807732,
      "flos": 30154405639680.0,
      "grad_norm": 2.9600688701216527,
      "language_loss": 0.70642453,
      "learning_rate": 3.9551104778953725e-06,
      "loss": 0.72933257,
      "num_input_tokens_seen": 16946500,
      "step": 795,
      "time_per_iteration": 2.7454214096069336
    },
    {
      "auxiliary_loss_clip": 0.01230307,
      "auxiliary_loss_mlp": 0.01043732,
      "balance_loss_clip": 1.06539059,
      "balance_loss_mlp": 1.02772176,
      "epoch": 0.0957133409487164,
      "flos": 21066743784960.0,
      "grad_norm": 1.9922962495231809,
      "language_loss": 0.85393858,
      "learning_rate": 3.954946216427167e-06,
      "loss": 0.876679,
      "num_input_tokens_seen": 16966960,
      "step": 796,
      "time_per_iteration": 2.712599039077759
    },
    {
      "auxiliary_loss_clip": 0.0111799,
      "auxiliary_loss_mlp": 0.01012244,
      "balance_loss_clip": 1.03007054,
      "balance_loss_mlp": 1.00356603,
      "epoch": 0.0958335838393555,
      "flos": 71297979315840.0,
      "grad_norm": 0.8877495369887679,
      "language_loss": 0.61624372,
      "learning_rate": 3.954781658395176e-06,
      "loss": 0.63754606,
      "num_input_tokens_seen": 17023215,
      "step": 797,
      "time_per_iteration": 4.142726421356201
    },
    {
      "auxiliary_loss_clip": 0.01247572,
      "auxiliary_loss_mlp": 0.01048958,
      "balance_loss_clip": 1.06797647,
      "balance_loss_mlp": 1.03186321,
      "epoch": 0.09595382672999458,
      "flos": 21872974504320.0,
      "grad_norm": 2.1969998829677486,
      "language_loss": 0.92190397,
      "learning_rate": 3.95461680382436e-06,
      "loss": 0.94486928,
      "num_input_tokens_seen": 17042140,
      "step": 798,
      "time_per_iteration": 2.7543766498565674
    },
    {
      "auxiliary_loss_clip": 0.01258751,
      "auxiliary_loss_mlp": 0.01052966,
      "balance_loss_clip": 1.07440424,
      "balance_loss_mlp": 1.03569257,
      "epoch": 0.09607406962063368,
      "flos": 18695562341760.0,
      "grad_norm": 3.894782013785422,
      "language_loss": 0.86381042,
      "learning_rate": 3.9544516527397295e-06,
      "loss": 0.8869276,
      "num_input_tokens_seen": 17058490,
      "step": 799,
      "time_per_iteration": 2.6319692134857178
    },
    {
      "auxiliary_loss_clip": 0.01228761,
      "auxiliary_loss_mlp": 0.01057183,
      "balance_loss_clip": 1.06783509,
      "balance_loss_mlp": 1.04100585,
      "epoch": 0.09619431251127276,
      "flos": 22568456615040.0,
      "grad_norm": 2.049643479327722,
      "language_loss": 0.80452555,
      "learning_rate": 3.954286205166338e-06,
      "loss": 0.82738501,
      "num_input_tokens_seen": 17079655,
      "step": 800,
      "time_per_iteration": 3.734250545501709
    },
    {
      "auxiliary_loss_clip": 0.0125591,
      "auxiliary_loss_mlp": 0.01052274,
      "balance_loss_clip": 1.07427943,
      "balance_loss_mlp": 1.03533483,
      "epoch": 0.09631455540191186,
      "flos": 14246230608000.0,
      "grad_norm": 2.6303281509275545,
      "language_loss": 0.84077793,
      "learning_rate": 3.954120461129282e-06,
      "loss": 0.86385977,
      "num_input_tokens_seen": 17097065,
      "step": 801,
      "time_per_iteration": 2.6478123664855957
    },
    {
      "auxiliary_loss_clip": 0.01265777,
      "auxiliary_loss_mlp": 0.0104774,
      "balance_loss_clip": 1.07594514,
      "balance_loss_mlp": 1.03240931,
      "epoch": 0.09643479829255096,
      "flos": 20740387789440.0,
      "grad_norm": 2.090239586850322,
      "language_loss": 0.83801109,
      "learning_rate": 3.953954420653706e-06,
      "loss": 0.86114627,
      "num_input_tokens_seen": 17114090,
      "step": 802,
      "time_per_iteration": 2.636686086654663
    },
    {
      "auxiliary_loss_clip": 0.01254019,
      "auxiliary_loss_mlp": 0.01050693,
      "balance_loss_clip": 1.0724684,
      "balance_loss_mlp": 1.03550625,
      "epoch": 0.09655504118319004,
      "flos": 24420476833920.0,
      "grad_norm": 1.984694659491475,
      "language_loss": 0.87861085,
      "learning_rate": 3.953788083764798e-06,
      "loss": 0.90165794,
      "num_input_tokens_seen": 17133325,
      "step": 803,
      "time_per_iteration": 3.6233081817626953
    },
    {
      "auxiliary_loss_clip": 0.01218493,
      "auxiliary_loss_mlp": 0.0104922,
      "balance_loss_clip": 1.06466448,
      "balance_loss_mlp": 1.03372335,
      "epoch": 0.09667528407382914,
      "flos": 18441961344000.0,
      "grad_norm": 1.9636192651650084,
      "language_loss": 0.92390239,
      "learning_rate": 3.953621450487792e-06,
      "loss": 0.94657958,
      "num_input_tokens_seen": 17151945,
      "step": 804,
      "time_per_iteration": 2.7251734733581543
    },
    {
      "auxiliary_loss_clip": 0.01148174,
      "auxiliary_loss_mlp": 0.01012622,
      "balance_loss_clip": 1.03647399,
      "balance_loss_mlp": 1.0041821,
      "epoch": 0.09679552696446822,
      "flos": 70816455544320.0,
      "grad_norm": 0.8406782114997133,
      "language_loss": 0.61215985,
      "learning_rate": 3.953454520847964e-06,
      "loss": 0.63376784,
      "num_input_tokens_seen": 17216790,
      "step": 805,
      "time_per_iteration": 3.325632095336914
    },
    {
      "auxiliary_loss_clip": 0.01229681,
      "auxiliary_loss_mlp": 0.01053532,
      "balance_loss_clip": 1.0629797,
      "balance_loss_mlp": 1.03513813,
      "epoch": 0.09691576985510732,
      "flos": 21945514020480.0,
      "grad_norm": 3.7671478343271345,
      "language_loss": 0.73814267,
      "learning_rate": 3.9532872948706395e-06,
      "loss": 0.76097476,
      "num_input_tokens_seen": 17236285,
      "step": 806,
      "time_per_iteration": 2.702253580093384
    },
    {
      "auxiliary_loss_clip": 0.01241958,
      "auxiliary_loss_mlp": 0.01046778,
      "balance_loss_clip": 1.06719375,
      "balance_loss_mlp": 1.0315187,
      "epoch": 0.09703601274574641,
      "flos": 17965211103360.0,
      "grad_norm": 2.4770703372563716,
      "language_loss": 0.8311851,
      "learning_rate": 3.9531197725811845e-06,
      "loss": 0.85407245,
      "num_input_tokens_seen": 17251670,
      "step": 807,
      "time_per_iteration": 2.6851398944854736
    },
    {
      "auxiliary_loss_clip": 0.01261734,
      "auxiliary_loss_mlp": 0.01043129,
      "balance_loss_clip": 1.0756073,
      "balance_loss_mlp": 1.02755988,
      "epoch": 0.0971562556363855,
      "flos": 22162162901760.0,
      "grad_norm": 1.8205799615492362,
      "language_loss": 0.8779608,
      "learning_rate": 3.952951954005013e-06,
      "loss": 0.90100944,
      "num_input_tokens_seen": 17271355,
      "step": 808,
      "time_per_iteration": 2.6627635955810547
    },
    {
      "auxiliary_loss_clip": 0.01236093,
      "auxiliary_loss_mlp": 0.01047659,
      "balance_loss_clip": 1.06387496,
      "balance_loss_mlp": 1.0329423,
      "epoch": 0.0972764985270246,
      "flos": 25848716394240.0,
      "grad_norm": 1.779867873837069,
      "language_loss": 0.85078984,
      "learning_rate": 3.952783839167584e-06,
      "loss": 0.87362742,
      "num_input_tokens_seen": 17291400,
      "step": 809,
      "time_per_iteration": 2.7099320888519287
    },
    {
      "auxiliary_loss_clip": 0.01249648,
      "auxiliary_loss_mlp": 0.01045971,
      "balance_loss_clip": 1.07019496,
      "balance_loss_mlp": 1.03081942,
      "epoch": 0.09739674141766368,
      "flos": 20339373375360.0,
      "grad_norm": 2.724284685458442,
      "language_loss": 0.74673712,
      "learning_rate": 3.952615428094398e-06,
      "loss": 0.76969337,
      "num_input_tokens_seen": 17310920,
      "step": 810,
      "time_per_iteration": 2.6873929500579834
    },
    {
      "auxiliary_loss_clip": 0.01206035,
      "auxiliary_loss_mlp": 0.01053044,
      "balance_loss_clip": 1.05722284,
      "balance_loss_mlp": 1.0361762,
      "epoch": 0.09751698430830277,
      "flos": 15743059188480.0,
      "grad_norm": 1.9414313158859662,
      "language_loss": 0.73672414,
      "learning_rate": 3.952446720811004e-06,
      "loss": 0.75931489,
      "num_input_tokens_seen": 17329245,
      "step": 811,
      "time_per_iteration": 2.7193188667297363
    },
    {
      "auxiliary_loss_clip": 0.0111795,
      "auxiliary_loss_mlp": 0.01011169,
      "balance_loss_clip": 1.03224051,
      "balance_loss_mlp": 1.0024426,
      "epoch": 0.09763722719894186,
      "flos": 63716806800000.0,
      "grad_norm": 0.8516278288990659,
      "language_loss": 0.63634908,
      "learning_rate": 3.952277717342995e-06,
      "loss": 0.65764028,
      "num_input_tokens_seen": 17395680,
      "step": 812,
      "time_per_iteration": 3.4291603565216064
    },
    {
      "auxiliary_loss_clip": 0.01247785,
      "auxiliary_loss_mlp": 0.01050677,
      "balance_loss_clip": 1.07089496,
      "balance_loss_mlp": 1.0342623,
      "epoch": 0.09775747008958095,
      "flos": 22090916275200.0,
      "grad_norm": 1.9324805492108748,
      "language_loss": 0.85575795,
      "learning_rate": 3.952108417716009e-06,
      "loss": 0.87874258,
      "num_input_tokens_seen": 17415135,
      "step": 813,
      "time_per_iteration": 2.8372011184692383
    },
    {
      "auxiliary_loss_clip": 0.01255347,
      "auxiliary_loss_mlp": 0.01049164,
      "balance_loss_clip": 1.07363665,
      "balance_loss_mlp": 1.03260577,
      "epoch": 0.09787771298022005,
      "flos": 21286050272640.0,
      "grad_norm": 1.9045233448381964,
      "language_loss": 0.85224688,
      "learning_rate": 3.951938821955727e-06,
      "loss": 0.87529206,
      "num_input_tokens_seen": 17434535,
      "step": 814,
      "time_per_iteration": 2.73335862159729
    },
    {
      "auxiliary_loss_clip": 0.01238731,
      "auxiliary_loss_mlp": 0.01049598,
      "balance_loss_clip": 1.06973839,
      "balance_loss_mlp": 1.03423238,
      "epoch": 0.09799795587085913,
      "flos": 22054574689920.0,
      "grad_norm": 1.6564434289124461,
      "language_loss": 0.7633965,
      "learning_rate": 3.9517689300878786e-06,
      "loss": 0.78627986,
      "num_input_tokens_seen": 17454270,
      "step": 815,
      "time_per_iteration": 2.694936513900757
    },
    {
      "auxiliary_loss_clip": 0.01261829,
      "auxiliary_loss_mlp": 0.01045624,
      "balance_loss_clip": 1.07222676,
      "balance_loss_mlp": 1.0315094,
      "epoch": 0.09811819876149823,
      "flos": 22163743100160.0,
      "grad_norm": 2.928156826314883,
      "language_loss": 0.78470159,
      "learning_rate": 3.951598742138236e-06,
      "loss": 0.80777609,
      "num_input_tokens_seen": 17472995,
      "step": 816,
      "time_per_iteration": 2.644794225692749
    },
    {
      "auxiliary_loss_clip": 0.01243224,
      "auxiliary_loss_mlp": 0.01040953,
      "balance_loss_clip": 1.06509387,
      "balance_loss_mlp": 1.02569389,
      "epoch": 0.09823844165213731,
      "flos": 22231111057920.0,
      "grad_norm": 1.9371007942831444,
      "language_loss": 0.79642141,
      "learning_rate": 3.951428258132615e-06,
      "loss": 0.81926316,
      "num_input_tokens_seen": 17491115,
      "step": 817,
      "time_per_iteration": 2.727620840072632
    },
    {
      "auxiliary_loss_clip": 0.01239882,
      "auxiliary_loss_mlp": 0.01045272,
      "balance_loss_clip": 1.06950188,
      "balance_loss_mlp": 1.03047836,
      "epoch": 0.09835868454277641,
      "flos": 22487728798080.0,
      "grad_norm": 1.9252757727957124,
      "language_loss": 0.84377491,
      "learning_rate": 3.951257478096879e-06,
      "loss": 0.86662638,
      "num_input_tokens_seen": 17509480,
      "step": 818,
      "time_per_iteration": 2.6891589164733887
    },
    {
      "auxiliary_loss_clip": 0.01239848,
      "auxiliary_loss_mlp": 0.00891392,
      "balance_loss_clip": 1.06931651,
      "balance_loss_mlp": 1.00023711,
      "epoch": 0.0984789274334155,
      "flos": 16362554077440.0,
      "grad_norm": 2.689215612642082,
      "language_loss": 0.68171817,
      "learning_rate": 3.951086402056936e-06,
      "loss": 0.70303059,
      "num_input_tokens_seen": 17524080,
      "step": 819,
      "time_per_iteration": 2.68145751953125
    },
    {
      "auxiliary_loss_clip": 0.01189913,
      "auxiliary_loss_mlp": 0.00891356,
      "balance_loss_clip": 1.06370711,
      "balance_loss_mlp": 1.00026023,
      "epoch": 0.09859917032405459,
      "flos": 24243545416320.0,
      "grad_norm": 1.6662432410359418,
      "language_loss": 0.83550942,
      "learning_rate": 3.950915030038735e-06,
      "loss": 0.85632211,
      "num_input_tokens_seen": 17543875,
      "step": 820,
      "time_per_iteration": 2.949042320251465
    },
    {
      "auxiliary_loss_clip": 0.01245742,
      "auxiliary_loss_mlp": 0.01038746,
      "balance_loss_clip": 1.06879246,
      "balance_loss_mlp": 1.02405965,
      "epoch": 0.09871941321469369,
      "flos": 17420195064960.0,
      "grad_norm": 2.3572514220733938,
      "language_loss": 0.83778512,
      "learning_rate": 3.9507433620682765e-06,
      "loss": 0.86063004,
      "num_input_tokens_seen": 17560810,
      "step": 821,
      "time_per_iteration": 2.956958532333374
    },
    {
      "auxiliary_loss_clip": 0.01225404,
      "auxiliary_loss_mlp": 0.01049209,
      "balance_loss_clip": 1.06460118,
      "balance_loss_mlp": 1.03364003,
      "epoch": 0.09883965610533277,
      "flos": 28477341590400.0,
      "grad_norm": 1.7029338958634206,
      "language_loss": 0.88431907,
      "learning_rate": 3.9505713981716e-06,
      "loss": 0.90706521,
      "num_input_tokens_seen": 17583640,
      "step": 822,
      "time_per_iteration": 2.781059503555298
    },
    {
      "auxiliary_loss_clip": 0.01232022,
      "auxiliary_loss_mlp": 0.0104107,
      "balance_loss_clip": 1.06703138,
      "balance_loss_mlp": 1.02632356,
      "epoch": 0.09895989899597187,
      "flos": 23693932437120.0,
      "grad_norm": 2.0846161351120336,
      "language_loss": 0.8089124,
      "learning_rate": 3.950399138374795e-06,
      "loss": 0.83164334,
      "num_input_tokens_seen": 17602720,
      "step": 823,
      "time_per_iteration": 3.628002882003784
    },
    {
      "auxiliary_loss_clip": 0.01243562,
      "auxiliary_loss_mlp": 0.01045077,
      "balance_loss_clip": 1.06709445,
      "balance_loss_mlp": 1.02962768,
      "epoch": 0.09908014188661095,
      "flos": 24679608526080.0,
      "grad_norm": 1.623734133415721,
      "language_loss": 0.74223542,
      "learning_rate": 3.95022658270399e-06,
      "loss": 0.76512182,
      "num_input_tokens_seen": 17623085,
      "step": 824,
      "time_per_iteration": 2.6929404735565186
    },
    {
      "auxiliary_loss_clip": 0.01231395,
      "auxiliary_loss_mlp": 0.01047865,
      "balance_loss_clip": 1.06579041,
      "balance_loss_mlp": 1.03304696,
      "epoch": 0.09920038477725004,
      "flos": 14064307200000.0,
      "grad_norm": 2.0993575892049323,
      "language_loss": 0.78433627,
      "learning_rate": 3.9500537311853635e-06,
      "loss": 0.80712885,
      "num_input_tokens_seen": 17641040,
      "step": 825,
      "time_per_iteration": 2.722444772720337
    },
    {
      "auxiliary_loss_clip": 0.01248788,
      "auxiliary_loss_mlp": 0.01039913,
      "balance_loss_clip": 1.06721783,
      "balance_loss_mlp": 1.02432084,
      "epoch": 0.09932062766788914,
      "flos": 13407070095360.0,
      "grad_norm": 2.406480366242679,
      "language_loss": 0.83227003,
      "learning_rate": 3.949880583845136e-06,
      "loss": 0.85515702,
      "num_input_tokens_seen": 17659115,
      "step": 826,
      "time_per_iteration": 3.672956705093384
    },
    {
      "auxiliary_loss_clip": 0.01236183,
      "auxiliary_loss_mlp": 0.01047725,
      "balance_loss_clip": 1.06556022,
      "balance_loss_mlp": 1.03209639,
      "epoch": 0.09944087055852822,
      "flos": 19500751566720.0,
      "grad_norm": 1.8459005073904766,
      "language_loss": 0.81189352,
      "learning_rate": 3.949707140709575e-06,
      "loss": 0.83473259,
      "num_input_tokens_seen": 17678845,
      "step": 827,
      "time_per_iteration": 3.8039391040802
    },
    {
      "auxiliary_loss_clip": 0.01252601,
      "auxiliary_loss_mlp": 0.01043406,
      "balance_loss_clip": 1.06861985,
      "balance_loss_mlp": 1.0276227,
      "epoch": 0.09956111344916732,
      "flos": 17749100926080.0,
      "grad_norm": 3.8403546010276046,
      "language_loss": 0.83129454,
      "learning_rate": 3.949533401804991e-06,
      "loss": 0.85425466,
      "num_input_tokens_seen": 17695750,
      "step": 828,
      "time_per_iteration": 2.6205103397369385
    },
    {
      "auxiliary_loss_clip": 0.01247276,
      "auxiliary_loss_mlp": 0.00890857,
      "balance_loss_clip": 1.06979084,
      "balance_loss_mlp": 1.00014865,
      "epoch": 0.0996813563398064,
      "flos": 17967581400960.0,
      "grad_norm": 2.0793310019321085,
      "language_loss": 0.90719378,
      "learning_rate": 3.949359367157739e-06,
      "loss": 0.92857516,
      "num_input_tokens_seen": 17714445,
      "step": 829,
      "time_per_iteration": 3.5929923057556152
    },
    {
      "auxiliary_loss_clip": 0.01254729,
      "auxiliary_loss_mlp": 0.01040609,
      "balance_loss_clip": 1.06850362,
      "balance_loss_mlp": 1.02560043,
      "epoch": 0.0998015992304455,
      "flos": 17457039440640.0,
      "grad_norm": 1.9812883342422367,
      "language_loss": 0.75104117,
      "learning_rate": 3.949185036794222e-06,
      "loss": 0.77399457,
      "num_input_tokens_seen": 17732455,
      "step": 830,
      "time_per_iteration": 2.6209628582000732
    },
    {
      "auxiliary_loss_clip": 0.01256388,
      "auxiliary_loss_mlp": 0.01046318,
      "balance_loss_clip": 1.070822,
      "balance_loss_mlp": 1.03167915,
      "epoch": 0.0999218421210846,
      "flos": 25888757080320.0,
      "grad_norm": 1.938418105219338,
      "language_loss": 0.78654718,
      "learning_rate": 3.949010410740884e-06,
      "loss": 0.80957425,
      "num_input_tokens_seen": 17755280,
      "step": 831,
      "time_per_iteration": 2.652940511703491
    },
    {
      "auxiliary_loss_clip": 0.01222985,
      "auxiliary_loss_mlp": 0.00891184,
      "balance_loss_clip": 1.06260514,
      "balance_loss_mlp": 1.00014877,
      "epoch": 0.10004208501172368,
      "flos": 21215916967680.0,
      "grad_norm": 1.8721749295100611,
      "language_loss": 0.86595106,
      "learning_rate": 3.948835489024216e-06,
      "loss": 0.88709277,
      "num_input_tokens_seen": 17775015,
      "step": 832,
      "time_per_iteration": 2.714439630508423
    },
    {
      "auxiliary_loss_clip": 0.01249632,
      "auxiliary_loss_mlp": 0.01052817,
      "balance_loss_clip": 1.06725526,
      "balance_loss_mlp": 1.03751016,
      "epoch": 0.10016232790236278,
      "flos": 17348409734400.0,
      "grad_norm": 2.180410162958079,
      "language_loss": 0.902825,
      "learning_rate": 3.948660271670755e-06,
      "loss": 0.9258495,
      "num_input_tokens_seen": 17792165,
      "step": 833,
      "time_per_iteration": 2.5849666595458984
    },
    {
      "auxiliary_loss_clip": 0.01231936,
      "auxiliary_loss_mlp": 0.01052235,
      "balance_loss_clip": 1.06839168,
      "balance_loss_mlp": 1.03714263,
      "epoch": 0.10028257079300186,
      "flos": 25666541591040.0,
      "grad_norm": 2.1348539257131094,
      "language_loss": 0.84167969,
      "learning_rate": 3.948484758707079e-06,
      "loss": 0.86452138,
      "num_input_tokens_seen": 17811765,
      "step": 834,
      "time_per_iteration": 2.7288670539855957
    },
    {
      "auxiliary_loss_clip": 0.01210264,
      "auxiliary_loss_mlp": 0.01049454,
      "balance_loss_clip": 1.05868578,
      "balance_loss_mlp": 1.03347969,
      "epoch": 0.10040281368364096,
      "flos": 25156035544320.0,
      "grad_norm": 2.115285587176224,
      "language_loss": 0.83572632,
      "learning_rate": 3.948308950159815e-06,
      "loss": 0.85832351,
      "num_input_tokens_seen": 17830445,
      "step": 835,
      "time_per_iteration": 2.732532262802124
    },
    {
      "auxiliary_loss_clip": 0.01212339,
      "auxiliary_loss_mlp": 0.01049149,
      "balance_loss_clip": 1.05953121,
      "balance_loss_mlp": 1.03249526,
      "epoch": 0.10052305657428004,
      "flos": 17603303621760.0,
      "grad_norm": 2.3229028327364754,
      "language_loss": 0.76124161,
      "learning_rate": 3.9481328460556326e-06,
      "loss": 0.78385651,
      "num_input_tokens_seen": 17847665,
      "step": 836,
      "time_per_iteration": 2.721245527267456
    },
    {
      "auxiliary_loss_clip": 0.01227072,
      "auxiliary_loss_mlp": 0.01040035,
      "balance_loss_clip": 1.06578779,
      "balance_loss_mlp": 1.02457309,
      "epoch": 0.10064329946491914,
      "flos": 18660154510080.0,
      "grad_norm": 4.078357027699895,
      "language_loss": 0.89937264,
      "learning_rate": 3.9479564464212455e-06,
      "loss": 0.92204368,
      "num_input_tokens_seen": 17866825,
      "step": 837,
      "time_per_iteration": 2.7048404216766357
    },
    {
      "auxiliary_loss_clip": 0.01264465,
      "auxiliary_loss_mlp": 0.01048324,
      "balance_loss_clip": 1.07027531,
      "balance_loss_mlp": 1.03318429,
      "epoch": 0.10076354235555823,
      "flos": 17199056983680.0,
      "grad_norm": 2.3767019924708257,
      "language_loss": 0.76010382,
      "learning_rate": 3.947779751283414e-06,
      "loss": 0.78323174,
      "num_input_tokens_seen": 17883995,
      "step": 838,
      "time_per_iteration": 2.679661750793457
    },
    {
      "auxiliary_loss_clip": 0.01255112,
      "auxiliary_loss_mlp": 0.00891067,
      "balance_loss_clip": 1.07716024,
      "balance_loss_mlp": 1.00020051,
      "epoch": 0.10088378524619732,
      "flos": 22962252395520.0,
      "grad_norm": 2.2054233640916365,
      "language_loss": 0.75816953,
      "learning_rate": 3.947602760668944e-06,
      "loss": 0.77963126,
      "num_input_tokens_seen": 17903785,
      "step": 839,
      "time_per_iteration": 2.690927267074585
    },
    {
      "auxiliary_loss_clip": 0.01249815,
      "auxiliary_loss_mlp": 0.01047056,
      "balance_loss_clip": 1.07286191,
      "balance_loss_mlp": 1.03009284,
      "epoch": 0.10100402813683641,
      "flos": 37885828746240.0,
      "grad_norm": 1.893105832158775,
      "language_loss": 0.71790886,
      "learning_rate": 3.947425474604684e-06,
      "loss": 0.74087757,
      "num_input_tokens_seen": 17927720,
      "step": 840,
      "time_per_iteration": 2.8043363094329834
    },
    {
      "auxiliary_loss_clip": 0.0123977,
      "auxiliary_loss_mlp": 0.01041986,
      "balance_loss_clip": 1.06865239,
      "balance_loss_mlp": 1.02595234,
      "epoch": 0.1011242710274755,
      "flos": 21543458112000.0,
      "grad_norm": 2.1982395459994946,
      "language_loss": 0.92188156,
      "learning_rate": 3.947247893117528e-06,
      "loss": 0.94469911,
      "num_input_tokens_seen": 17946225,
      "step": 841,
      "time_per_iteration": 2.6984832286834717
    },
    {
      "auxiliary_loss_clip": 0.01241423,
      "auxiliary_loss_mlp": 0.01050363,
      "balance_loss_clip": 1.06677973,
      "balance_loss_mlp": 1.03318465,
      "epoch": 0.10124451391811459,
      "flos": 13621456419840.0,
      "grad_norm": 3.0281793659331795,
      "language_loss": 0.69234228,
      "learning_rate": 3.947070016234413e-06,
      "loss": 0.71526015,
      "num_input_tokens_seen": 17962015,
      "step": 842,
      "time_per_iteration": 2.6262216567993164
    },
    {
      "auxiliary_loss_clip": 0.01250127,
      "auxiliary_loss_mlp": 0.01059283,
      "balance_loss_clip": 1.0702908,
      "balance_loss_mlp": 1.04316604,
      "epoch": 0.10136475680875369,
      "flos": 16649228522880.0,
      "grad_norm": 2.3866586211187464,
      "language_loss": 0.74381256,
      "learning_rate": 3.946891843982326e-06,
      "loss": 0.76690662,
      "num_input_tokens_seen": 17979680,
      "step": 843,
      "time_per_iteration": 2.663422107696533
    },
    {
      "auxiliary_loss_clip": 0.01252703,
      "auxiliary_loss_mlp": 0.01043259,
      "balance_loss_clip": 1.07453442,
      "balance_loss_mlp": 1.02769053,
      "epoch": 0.10148499969939277,
      "flos": 19461034103040.0,
      "grad_norm": 2.07119352112521,
      "language_loss": 0.74523473,
      "learning_rate": 3.9467133763882935e-06,
      "loss": 0.76819432,
      "num_input_tokens_seen": 17998145,
      "step": 844,
      "time_per_iteration": 2.637507438659668
    },
    {
      "auxiliary_loss_clip": 0.01241636,
      "auxiliary_loss_mlp": 0.01042829,
      "balance_loss_clip": 1.06855512,
      "balance_loss_mlp": 1.02672374,
      "epoch": 0.10160524259003187,
      "flos": 21104988791040.0,
      "grad_norm": 2.2205375284940523,
      "language_loss": 0.86315882,
      "learning_rate": 3.9465346134793905e-06,
      "loss": 0.88600349,
      "num_input_tokens_seen": 18017955,
      "step": 845,
      "time_per_iteration": 2.685732126235962
    },
    {
      "auxiliary_loss_clip": 0.01225979,
      "auxiliary_loss_mlp": 0.01037316,
      "balance_loss_clip": 1.06927896,
      "balance_loss_mlp": 1.02292717,
      "epoch": 0.10172548548067095,
      "flos": 17712687513600.0,
      "grad_norm": 2.0959522032571414,
      "language_loss": 0.79881465,
      "learning_rate": 3.9463555552827335e-06,
      "loss": 0.82144761,
      "num_input_tokens_seen": 18035125,
      "step": 846,
      "time_per_iteration": 2.6753058433532715
    },
    {
      "auxiliary_loss_clip": 0.01237143,
      "auxiliary_loss_mlp": 0.01042234,
      "balance_loss_clip": 1.06713784,
      "balance_loss_mlp": 1.0268203,
      "epoch": 0.10184572837131005,
      "flos": 21104845136640.0,
      "grad_norm": 2.67110232421889,
      "language_loss": 0.86437941,
      "learning_rate": 3.946176201825487e-06,
      "loss": 0.88717318,
      "num_input_tokens_seen": 18053160,
      "step": 847,
      "time_per_iteration": 2.678011178970337
    },
    {
      "auxiliary_loss_clip": 0.01243723,
      "auxiliary_loss_mlp": 0.01042426,
      "balance_loss_clip": 1.07186198,
      "balance_loss_mlp": 1.02623773,
      "epoch": 0.10196597126194913,
      "flos": 26067591918720.0,
      "grad_norm": 1.945999528598034,
      "language_loss": 0.83909702,
      "learning_rate": 3.9459965531348575e-06,
      "loss": 0.8619585,
      "num_input_tokens_seen": 18072815,
      "step": 848,
      "time_per_iteration": 2.751713514328003
    },
    {
      "auxiliary_loss_clip": 0.01238335,
      "auxiliary_loss_mlp": 0.00890879,
      "balance_loss_clip": 1.06855559,
      "balance_loss_mlp": 1.00035095,
      "epoch": 0.10208621415258823,
      "flos": 29314634595840.0,
      "grad_norm": 2.064052832849324,
      "language_loss": 0.855142,
      "learning_rate": 3.945816609238098e-06,
      "loss": 0.87643415,
      "num_input_tokens_seen": 18092225,
      "step": 849,
      "time_per_iteration": 3.7114295959472656
    },
    {
      "auxiliary_loss_clip": 0.01211778,
      "auxiliary_loss_mlp": 0.01044943,
      "balance_loss_clip": 1.06398082,
      "balance_loss_mlp": 1.0291357,
      "epoch": 0.10220645704322733,
      "flos": 23805794367360.0,
      "grad_norm": 2.7142535376794665,
      "language_loss": 0.853356,
      "learning_rate": 3.945636370162507e-06,
      "loss": 0.87592316,
      "num_input_tokens_seen": 18112335,
      "step": 850,
      "time_per_iteration": 2.860962390899658
    },
    {
      "auxiliary_loss_clip": 0.01247834,
      "auxiliary_loss_mlp": 0.01038695,
      "balance_loss_clip": 1.07105947,
      "balance_loss_mlp": 1.02434206,
      "epoch": 0.10232669993386641,
      "flos": 23218546913280.0,
      "grad_norm": 1.8370684230424499,
      "language_loss": 0.79213285,
      "learning_rate": 3.945455835935425e-06,
      "loss": 0.81499815,
      "num_input_tokens_seen": 18131520,
      "step": 851,
      "time_per_iteration": 2.728558301925659
    },
    {
      "auxiliary_loss_clip": 0.0123744,
      "auxiliary_loss_mlp": 0.01048122,
      "balance_loss_clip": 1.06688106,
      "balance_loss_mlp": 1.03282714,
      "epoch": 0.1024469428245055,
      "flos": 22922929981440.0,
      "grad_norm": 2.126776459433335,
      "language_loss": 0.75132114,
      "learning_rate": 3.94527500658424e-06,
      "loss": 0.77417672,
      "num_input_tokens_seen": 18149185,
      "step": 852,
      "time_per_iteration": 4.664969205856323
    },
    {
      "auxiliary_loss_clip": 0.01217366,
      "auxiliary_loss_mlp": 0.01041842,
      "balance_loss_clip": 1.06663966,
      "balance_loss_mlp": 1.02543831,
      "epoch": 0.10256718571514459,
      "flos": 31359495957120.0,
      "grad_norm": 4.148316803987103,
      "language_loss": 0.81130266,
      "learning_rate": 3.945093882136382e-06,
      "loss": 0.83389473,
      "num_input_tokens_seen": 18172960,
      "step": 853,
      "time_per_iteration": 2.9251163005828857
    },
    {
      "auxiliary_loss_clip": 0.01240465,
      "auxiliary_loss_mlp": 0.00890545,
      "balance_loss_clip": 1.07204616,
      "balance_loss_mlp": 1.00035238,
      "epoch": 0.10268742860578368,
      "flos": 23474877344640.0,
      "grad_norm": 1.900296293607512,
      "language_loss": 0.84836757,
      "learning_rate": 3.944912462619329e-06,
      "loss": 0.86967766,
      "num_input_tokens_seen": 18191925,
      "step": 854,
      "time_per_iteration": 2.8003716468811035
    },
    {
      "auxiliary_loss_clip": 0.01242817,
      "auxiliary_loss_mlp": 0.01045166,
      "balance_loss_clip": 1.06904447,
      "balance_loss_mlp": 1.0292995,
      "epoch": 0.10280767149642277,
      "flos": 25520313323520.0,
      "grad_norm": 1.9476568234943186,
      "language_loss": 0.81005996,
      "learning_rate": 3.9447307480606025e-06,
      "loss": 0.8329398,
      "num_input_tokens_seen": 18212010,
      "step": 855,
      "time_per_iteration": 3.661670446395874
    },
    {
      "auxiliary_loss_clip": 0.01224529,
      "auxiliary_loss_mlp": 0.0105007,
      "balance_loss_clip": 1.06592202,
      "balance_loss_mlp": 1.03458428,
      "epoch": 0.10292791438706186,
      "flos": 17347691462400.0,
      "grad_norm": 2.832145776604668,
      "language_loss": 0.89841306,
      "learning_rate": 3.944548738487767e-06,
      "loss": 0.92115903,
      "num_input_tokens_seen": 18229525,
      "step": 856,
      "time_per_iteration": 2.737576484680176
    },
    {
      "auxiliary_loss_clip": 0.01263087,
      "auxiliary_loss_mlp": 0.01048371,
      "balance_loss_clip": 1.07473004,
      "balance_loss_mlp": 1.03271842,
      "epoch": 0.10304815727770096,
      "flos": 27052693390080.0,
      "grad_norm": 2.010375579622313,
      "language_loss": 0.90985644,
      "learning_rate": 3.944366433928434e-06,
      "loss": 0.93297094,
      "num_input_tokens_seen": 18249505,
      "step": 857,
      "time_per_iteration": 2.6480398178100586
    },
    {
      "auxiliary_loss_clip": 0.01225364,
      "auxiliary_loss_mlp": 0.01047743,
      "balance_loss_clip": 1.06457508,
      "balance_loss_mlp": 1.03340244,
      "epoch": 0.10316840016834004,
      "flos": 22782591544320.0,
      "grad_norm": 1.7129351778367516,
      "language_loss": 0.83748317,
      "learning_rate": 3.9441838344102594e-06,
      "loss": 0.86021423,
      "num_input_tokens_seen": 18269230,
      "step": 858,
      "time_per_iteration": 2.732393264770508
    },
    {
      "auxiliary_loss_clip": 0.01244788,
      "auxiliary_loss_mlp": 0.01043697,
      "balance_loss_clip": 1.07070935,
      "balance_loss_mlp": 1.02791357,
      "epoch": 0.10328864305897914,
      "flos": 20704584908160.0,
      "grad_norm": 2.4103296672871903,
      "language_loss": 0.67410028,
      "learning_rate": 3.944000939960943e-06,
      "loss": 0.69698513,
      "num_input_tokens_seen": 18287955,
      "step": 859,
      "time_per_iteration": 2.693737745285034
    },
    {
      "auxiliary_loss_clip": 0.01250779,
      "auxiliary_loss_mlp": 0.01046164,
      "balance_loss_clip": 1.06778717,
      "balance_loss_mlp": 1.03113198,
      "epoch": 0.10340888594961822,
      "flos": 28478814048000.0,
      "grad_norm": 1.5744677153139839,
      "language_loss": 0.79723072,
      "learning_rate": 3.943817750608229e-06,
      "loss": 0.82020015,
      "num_input_tokens_seen": 18310505,
      "step": 860,
      "time_per_iteration": 2.822373390197754
    },
    {
      "auxiliary_loss_clip": 0.01250328,
      "auxiliary_loss_mlp": 0.01041065,
      "balance_loss_clip": 1.0729022,
      "balance_loss_mlp": 1.0259378,
      "epoch": 0.10352912884025732,
      "flos": 13370333460480.0,
      "grad_norm": 3.0779861316792463,
      "language_loss": 0.82140112,
      "learning_rate": 3.943634266379908e-06,
      "loss": 0.84431511,
      "num_input_tokens_seen": 18327400,
      "step": 861,
      "time_per_iteration": 2.7212939262390137
    },
    {
      "auxiliary_loss_clip": 0.01253885,
      "auxiliary_loss_mlp": 0.01048553,
      "balance_loss_clip": 1.07237577,
      "balance_loss_mlp": 1.03271031,
      "epoch": 0.10364937173089642,
      "flos": 25558558329600.0,
      "grad_norm": 1.7564055493002941,
      "language_loss": 0.84944618,
      "learning_rate": 3.943450487303815e-06,
      "loss": 0.87247056,
      "num_input_tokens_seen": 18347895,
      "step": 862,
      "time_per_iteration": 2.7892906665802
    },
    {
      "auxiliary_loss_clip": 0.01248153,
      "auxiliary_loss_mlp": 0.01045381,
      "balance_loss_clip": 1.07146764,
      "balance_loss_mlp": 1.02949071,
      "epoch": 0.1037696146215355,
      "flos": 21215486004480.0,
      "grad_norm": 1.7629777343009412,
      "language_loss": 0.85223341,
      "learning_rate": 3.943266413407827e-06,
      "loss": 0.87516874,
      "num_input_tokens_seen": 18367170,
      "step": 863,
      "time_per_iteration": 2.6505703926086426
    },
    {
      "auxiliary_loss_clip": 0.01255497,
      "auxiliary_loss_mlp": 0.01044766,
      "balance_loss_clip": 1.07437897,
      "balance_loss_mlp": 1.03028226,
      "epoch": 0.1038898575121746,
      "flos": 25807382818560.0,
      "grad_norm": 1.8917234947419233,
      "language_loss": 0.85133773,
      "learning_rate": 3.94308204471987e-06,
      "loss": 0.87434042,
      "num_input_tokens_seen": 18386185,
      "step": 864,
      "time_per_iteration": 2.8060622215270996
    },
    {
      "auxiliary_loss_clip": 0.01222316,
      "auxiliary_loss_mlp": 0.01048015,
      "balance_loss_clip": 1.06361175,
      "balance_loss_mlp": 1.03310227,
      "epoch": 0.10401010040281368,
      "flos": 19062425900160.0,
      "grad_norm": 2.3028995074466643,
      "language_loss": 0.74622232,
      "learning_rate": 3.942897381267912e-06,
      "loss": 0.76892567,
      "num_input_tokens_seen": 18402550,
      "step": 865,
      "time_per_iteration": 2.7804083824157715
    },
    {
      "auxiliary_loss_clip": 0.01252512,
      "auxiliary_loss_mlp": 0.01046435,
      "balance_loss_clip": 1.07247174,
      "balance_loss_mlp": 1.03158188,
      "epoch": 0.10413034329345278,
      "flos": 16355119962240.0,
      "grad_norm": 2.3525470776815283,
      "language_loss": 0.6630491,
      "learning_rate": 3.942712423079965e-06,
      "loss": 0.68603861,
      "num_input_tokens_seen": 18418940,
      "step": 866,
      "time_per_iteration": 2.6621005535125732
    },
    {
      "auxiliary_loss_clip": 0.01208802,
      "auxiliary_loss_mlp": 0.01048824,
      "balance_loss_clip": 1.05906284,
      "balance_loss_mlp": 1.03389871,
      "epoch": 0.10425058618409186,
      "flos": 17236511890560.0,
      "grad_norm": 2.386180313797878,
      "language_loss": 0.90181768,
      "learning_rate": 3.942527170184088e-06,
      "loss": 0.92439395,
      "num_input_tokens_seen": 18435560,
      "step": 867,
      "time_per_iteration": 2.7053558826446533
    },
    {
      "auxiliary_loss_clip": 0.01261857,
      "auxiliary_loss_mlp": 0.01043463,
      "balance_loss_clip": 1.07343173,
      "balance_loss_mlp": 1.02934825,
      "epoch": 0.10437082907473096,
      "flos": 17967365919360.0,
      "grad_norm": 2.346726619763926,
      "language_loss": 0.76965702,
      "learning_rate": 3.942341622608385e-06,
      "loss": 0.79271019,
      "num_input_tokens_seen": 18452590,
      "step": 868,
      "time_per_iteration": 2.648216724395752
    },
    {
      "auxiliary_loss_clip": 0.01240217,
      "auxiliary_loss_mlp": 0.01045048,
      "balance_loss_clip": 1.07305121,
      "balance_loss_mlp": 1.03000391,
      "epoch": 0.10449107196537005,
      "flos": 36283315374720.0,
      "grad_norm": 2.255361663843571,
      "language_loss": 0.77842408,
      "learning_rate": 3.942155780381001e-06,
      "loss": 0.8012768,
      "num_input_tokens_seen": 18476325,
      "step": 869,
      "time_per_iteration": 2.849358320236206
    },
    {
      "auxiliary_loss_clip": 0.01240135,
      "auxiliary_loss_mlp": 0.01040243,
      "balance_loss_clip": 1.06825018,
      "balance_loss_mlp": 1.02542543,
      "epoch": 0.10461131485600914,
      "flos": 23802095266560.0,
      "grad_norm": 1.9043235550695625,
      "language_loss": 0.76134437,
      "learning_rate": 3.94196964353013e-06,
      "loss": 0.78414816,
      "num_input_tokens_seen": 18495775,
      "step": 870,
      "time_per_iteration": 2.7080583572387695
    },
    {
      "auxiliary_loss_clip": 0.01233931,
      "auxiliary_loss_mlp": 0.00890797,
      "balance_loss_clip": 1.0652194,
      "balance_loss_mlp": 1.00031638,
      "epoch": 0.10473155774664823,
      "flos": 18405476104320.0,
      "grad_norm": 2.0404566958146844,
      "language_loss": 0.80927062,
      "learning_rate": 3.941783212084008e-06,
      "loss": 0.83051795,
      "num_input_tokens_seen": 18513530,
      "step": 871,
      "time_per_iteration": 2.8141160011291504
    },
    {
      "auxiliary_loss_clip": 0.01221336,
      "auxiliary_loss_mlp": 0.01051267,
      "balance_loss_clip": 1.06654334,
      "balance_loss_mlp": 1.0360086,
      "epoch": 0.10485180063728732,
      "flos": 25592637358080.0,
      "grad_norm": 2.6101530305606158,
      "language_loss": 0.78952008,
      "learning_rate": 3.941596486070916e-06,
      "loss": 0.81224608,
      "num_input_tokens_seen": 18531575,
      "step": 872,
      "time_per_iteration": 2.684539794921875
    },
    {
      "auxiliary_loss_clip": 0.01213616,
      "auxiliary_loss_mlp": 0.01049747,
      "balance_loss_clip": 1.06875217,
      "balance_loss_mlp": 1.03402305,
      "epoch": 0.10497204352792641,
      "flos": 27088747666560.0,
      "grad_norm": 4.2135176199017295,
      "language_loss": 0.58915955,
      "learning_rate": 3.941409465519182e-06,
      "loss": 0.61179322,
      "num_input_tokens_seen": 18552100,
      "step": 873,
      "time_per_iteration": 2.857036828994751
    },
    {
      "auxiliary_loss_clip": 0.01231855,
      "auxiliary_loss_mlp": 0.01040754,
      "balance_loss_clip": 1.06540775,
      "balance_loss_mlp": 1.02408862,
      "epoch": 0.10509228641856551,
      "flos": 32858479353600.0,
      "grad_norm": 2.0152648084692837,
      "language_loss": 0.85303867,
      "learning_rate": 3.941222150457176e-06,
      "loss": 0.87576485,
      "num_input_tokens_seen": 18575355,
      "step": 874,
      "time_per_iteration": 2.7616474628448486
    },
    {
      "auxiliary_loss_clip": 0.01252216,
      "auxiliary_loss_mlp": 0.01041442,
      "balance_loss_clip": 1.06900787,
      "balance_loss_mlp": 1.02695823,
      "epoch": 0.10521252930920459,
      "flos": 14319165173760.0,
      "grad_norm": 3.1906842369363595,
      "language_loss": 0.71412754,
      "learning_rate": 3.941034540913311e-06,
      "loss": 0.73706406,
      "num_input_tokens_seen": 18592885,
      "step": 875,
      "time_per_iteration": 3.5286929607391357
    },
    {
      "auxiliary_loss_clip": 0.01247005,
      "auxiliary_loss_mlp": 0.00891182,
      "balance_loss_clip": 1.07083631,
      "balance_loss_mlp": 1.00031614,
      "epoch": 0.10533277219984369,
      "flos": 21687028773120.0,
      "grad_norm": 1.6030800567531793,
      "language_loss": 0.82461727,
      "learning_rate": 3.940846636916051e-06,
      "loss": 0.84599912,
      "num_input_tokens_seen": 18612920,
      "step": 876,
      "time_per_iteration": 2.716824531555176
    },
    {
      "auxiliary_loss_clip": 0.01233769,
      "auxiliary_loss_mlp": 0.01041775,
      "balance_loss_clip": 1.07222438,
      "balance_loss_mlp": 1.0272553,
      "epoch": 0.10545301509048277,
      "flos": 22269787027200.0,
      "grad_norm": 2.2747068578402523,
      "language_loss": 0.86716485,
      "learning_rate": 3.940658438493899e-06,
      "loss": 0.88992023,
      "num_input_tokens_seen": 18630765,
      "step": 877,
      "time_per_iteration": 2.679804801940918
    },
    {
      "auxiliary_loss_clip": 0.01256176,
      "auxiliary_loss_mlp": 0.01054554,
      "balance_loss_clip": 1.06796503,
      "balance_loss_mlp": 1.03869915,
      "epoch": 0.10557325798112187,
      "flos": 22199725549440.0,
      "grad_norm": 2.310316500889028,
      "language_loss": 0.76264751,
      "learning_rate": 3.940469945675405e-06,
      "loss": 0.7857548,
      "num_input_tokens_seen": 18649150,
      "step": 878,
      "time_per_iteration": 3.5355117321014404
    },
    {
      "auxiliary_loss_clip": 0.01190133,
      "auxiliary_loss_mlp": 0.01046616,
      "balance_loss_clip": 1.05982375,
      "balance_loss_mlp": 1.03192973,
      "epoch": 0.10569350087176095,
      "flos": 25775889569280.0,
      "grad_norm": 1.8827728584637446,
      "language_loss": 0.91438037,
      "learning_rate": 3.940281158489163e-06,
      "loss": 0.93674791,
      "num_input_tokens_seen": 18668380,
      "step": 879,
      "time_per_iteration": 3.7797276973724365
    },
    {
      "auxiliary_loss_clip": 0.01201079,
      "auxiliary_loss_mlp": 0.01046446,
      "balance_loss_clip": 1.05884171,
      "balance_loss_mlp": 1.03149676,
      "epoch": 0.10581374376240005,
      "flos": 17311385790720.0,
      "grad_norm": 1.7786987882249048,
      "language_loss": 0.82680303,
      "learning_rate": 3.940092076963812e-06,
      "loss": 0.84927827,
      "num_input_tokens_seen": 18685875,
      "step": 880,
      "time_per_iteration": 2.843045949935913
    },
    {
      "auxiliary_loss_clip": 0.01233605,
      "auxiliary_loss_mlp": 0.01046844,
      "balance_loss_clip": 1.06522942,
      "balance_loss_mlp": 1.03171599,
      "epoch": 0.10593398665303914,
      "flos": 34349454017280.0,
      "grad_norm": 2.1268591055891632,
      "language_loss": 0.78781599,
      "learning_rate": 3.9399027011280355e-06,
      "loss": 0.81062049,
      "num_input_tokens_seen": 18707970,
      "step": 881,
      "time_per_iteration": 4.029539585113525
    },
    {
      "auxiliary_loss_clip": 0.01237905,
      "auxiliary_loss_mlp": 0.01048096,
      "balance_loss_clip": 1.07319438,
      "balance_loss_mlp": 1.03333783,
      "epoch": 0.10605422954367823,
      "flos": 23257977068160.0,
      "grad_norm": 2.0647144460164655,
      "language_loss": 0.77455115,
      "learning_rate": 3.939713031010561e-06,
      "loss": 0.79741114,
      "num_input_tokens_seen": 18726335,
      "step": 882,
      "time_per_iteration": 2.6878185272216797
    },
    {
      "auxiliary_loss_clip": 0.01224971,
      "auxiliary_loss_mlp": 0.01040069,
      "balance_loss_clip": 1.06813455,
      "balance_loss_mlp": 1.02527547,
      "epoch": 0.10617447243431732,
      "flos": 22820118278400.0,
      "grad_norm": 2.088347941180868,
      "language_loss": 0.77437651,
      "learning_rate": 3.939523066640163e-06,
      "loss": 0.79702687,
      "num_input_tokens_seen": 18745230,
      "step": 883,
      "time_per_iteration": 2.767277956008911
    },
    {
      "auxiliary_loss_clip": 0.01249298,
      "auxiliary_loss_mlp": 0.0104446,
      "balance_loss_clip": 1.06970477,
      "balance_loss_mlp": 1.02870083,
      "epoch": 0.10629471532495641,
      "flos": 24386577373440.0,
      "grad_norm": 1.7516066916924327,
      "language_loss": 0.80861777,
      "learning_rate": 3.939332808045657e-06,
      "loss": 0.83155537,
      "num_input_tokens_seen": 18764880,
      "step": 884,
      "time_per_iteration": 2.7177436351776123
    },
    {
      "auxiliary_loss_clip": 0.01223352,
      "auxiliary_loss_mlp": 0.01055509,
      "balance_loss_clip": 1.06496978,
      "balance_loss_mlp": 1.03997588,
      "epoch": 0.1064149582155955,
      "flos": 21105491581440.0,
      "grad_norm": 1.6485759491532794,
      "language_loss": 0.84565395,
      "learning_rate": 3.939142255255906e-06,
      "loss": 0.86844254,
      "num_input_tokens_seen": 18785765,
      "step": 885,
      "time_per_iteration": 2.74977707862854
    },
    {
      "auxiliary_loss_clip": 0.01247873,
      "auxiliary_loss_mlp": 0.01048988,
      "balance_loss_clip": 1.07040477,
      "balance_loss_mlp": 1.03405094,
      "epoch": 0.1065352011062346,
      "flos": 20702035042560.0,
      "grad_norm": 1.7981581248132266,
      "language_loss": 0.86748618,
      "learning_rate": 3.938951408299817e-06,
      "loss": 0.89045477,
      "num_input_tokens_seen": 18804605,
      "step": 886,
      "time_per_iteration": 2.6587865352630615
    },
    {
      "auxiliary_loss_clip": 0.01107377,
      "auxiliary_loss_mlp": 0.0101545,
      "balance_loss_clip": 1.03350413,
      "balance_loss_mlp": 1.00767732,
      "epoch": 0.10665544399687368,
      "flos": 62659632689280.0,
      "grad_norm": 0.7934603883406806,
      "language_loss": 0.54447365,
      "learning_rate": 3.938760267206342e-06,
      "loss": 0.56570196,
      "num_input_tokens_seen": 18866425,
      "step": 887,
      "time_per_iteration": 3.1945955753326416
    },
    {
      "auxiliary_loss_clip": 0.01255488,
      "auxiliary_loss_mlp": 0.01043027,
      "balance_loss_clip": 1.0710001,
      "balance_loss_mlp": 1.02799511,
      "epoch": 0.10677568688751278,
      "flos": 26140382830080.0,
      "grad_norm": 2.3458849539081545,
      "language_loss": 0.78731382,
      "learning_rate": 3.938568832004475e-06,
      "loss": 0.81029898,
      "num_input_tokens_seen": 18885130,
      "step": 888,
      "time_per_iteration": 2.655813217163086
    },
    {
      "auxiliary_loss_clip": 0.01218735,
      "auxiliary_loss_mlp": 0.01043647,
      "balance_loss_clip": 1.06126356,
      "balance_loss_mlp": 1.02822161,
      "epoch": 0.10689592977815186,
      "flos": 12786533712000.0,
      "grad_norm": 1.9822880375064411,
      "language_loss": 0.75328499,
      "learning_rate": 3.938377102723257e-06,
      "loss": 0.77590883,
      "num_input_tokens_seen": 18902265,
      "step": 889,
      "time_per_iteration": 2.652772903442383
    },
    {
      "auxiliary_loss_clip": 0.01195692,
      "auxiliary_loss_mlp": 0.01047082,
      "balance_loss_clip": 1.05812097,
      "balance_loss_mlp": 1.03139377,
      "epoch": 0.10701617266879096,
      "flos": 22126683242880.0,
      "grad_norm": 2.331449038787493,
      "language_loss": 0.83487022,
      "learning_rate": 3.938185079391774e-06,
      "loss": 0.8572979,
      "num_input_tokens_seen": 18919310,
      "step": 890,
      "time_per_iteration": 2.755101203918457
    },
    {
      "auxiliary_loss_clip": 0.01254454,
      "auxiliary_loss_mlp": 0.01050514,
      "balance_loss_clip": 1.06833768,
      "balance_loss_mlp": 1.03517175,
      "epoch": 0.10713641555943004,
      "flos": 19745625559680.0,
      "grad_norm": 2.812825412180341,
      "language_loss": 1.06095982,
      "learning_rate": 3.937992762039157e-06,
      "loss": 1.08400953,
      "num_input_tokens_seen": 18932635,
      "step": 891,
      "time_per_iteration": 2.560553550720215
    },
    {
      "auxiliary_loss_clip": 0.01243221,
      "auxiliary_loss_mlp": 0.0104939,
      "balance_loss_clip": 1.06980026,
      "balance_loss_mlp": 1.0353651,
      "epoch": 0.10725665845006914,
      "flos": 23952992302080.0,
      "grad_norm": 1.555581258505393,
      "language_loss": 0.80562228,
      "learning_rate": 3.937800150694577e-06,
      "loss": 0.82854843,
      "num_input_tokens_seen": 18953810,
      "step": 892,
      "time_per_iteration": 2.697357177734375
    },
    {
      "auxiliary_loss_clip": 0.01214249,
      "auxiliary_loss_mlp": 0.01045148,
      "balance_loss_clip": 1.06640005,
      "balance_loss_mlp": 1.03010368,
      "epoch": 0.10737690134070824,
      "flos": 18551704371840.0,
      "grad_norm": 2.153694652627439,
      "language_loss": 0.76077634,
      "learning_rate": 3.937607245387255e-06,
      "loss": 0.78337026,
      "num_input_tokens_seen": 18973175,
      "step": 893,
      "time_per_iteration": 2.7897636890411377
    },
    {
      "auxiliary_loss_clip": 0.01239315,
      "auxiliary_loss_mlp": 0.01045259,
      "balance_loss_clip": 1.06540751,
      "balance_loss_mlp": 1.03054833,
      "epoch": 0.10749714423134732,
      "flos": 22707609903360.0,
      "grad_norm": 2.736891773607861,
      "language_loss": 0.71954477,
      "learning_rate": 3.937414046146455e-06,
      "loss": 0.74239051,
      "num_input_tokens_seen": 18991130,
      "step": 894,
      "time_per_iteration": 2.656471014022827
    },
    {
      "auxiliary_loss_clip": 0.01258908,
      "auxiliary_loss_mlp": 0.01054043,
      "balance_loss_clip": 1.07361865,
      "balance_loss_mlp": 1.0387845,
      "epoch": 0.10761738712198642,
      "flos": 21106066199040.0,
      "grad_norm": 2.184342274192761,
      "language_loss": 0.75745004,
      "learning_rate": 3.9372205530014845e-06,
      "loss": 0.78057957,
      "num_input_tokens_seen": 19009610,
      "step": 895,
      "time_per_iteration": 2.641953945159912
    },
    {
      "auxiliary_loss_clip": 0.01253937,
      "auxiliary_loss_mlp": 0.01043925,
      "balance_loss_clip": 1.06947076,
      "balance_loss_mlp": 1.02902389,
      "epoch": 0.1077376300126255,
      "flos": 23766723348480.0,
      "grad_norm": 2.227385079644966,
      "language_loss": 0.71317446,
      "learning_rate": 3.937026765981696e-06,
      "loss": 0.73615307,
      "num_input_tokens_seen": 19029680,
      "step": 896,
      "time_per_iteration": 2.64756441116333
    },
    {
      "auxiliary_loss_clip": 0.01229721,
      "auxiliary_loss_mlp": 0.01050583,
      "balance_loss_clip": 1.0686276,
      "balance_loss_mlp": 1.03615832,
      "epoch": 0.1078578729032646,
      "flos": 20919581763840.0,
      "grad_norm": 1.9025071385896253,
      "language_loss": 0.79342729,
      "learning_rate": 3.936832685116488e-06,
      "loss": 0.8162303,
      "num_input_tokens_seen": 19047775,
      "step": 897,
      "time_per_iteration": 2.717406749725342
    },
    {
      "auxiliary_loss_clip": 0.01258515,
      "auxiliary_loss_mlp": 0.01044953,
      "balance_loss_clip": 1.0715791,
      "balance_loss_mlp": 1.02974224,
      "epoch": 0.10797811579390369,
      "flos": 14829886702080.0,
      "grad_norm": 2.780064630988281,
      "language_loss": 0.89821959,
      "learning_rate": 3.936638310435301e-06,
      "loss": 0.92125434,
      "num_input_tokens_seen": 19065640,
      "step": 898,
      "time_per_iteration": 2.623143434524536
    },
    {
      "auxiliary_loss_clip": 0.01255284,
      "auxiliary_loss_mlp": 0.01042314,
      "balance_loss_clip": 1.07247174,
      "balance_loss_mlp": 1.0269953,
      "epoch": 0.10809835868454278,
      "flos": 19536985411200.0,
      "grad_norm": 1.9617971378605383,
      "language_loss": 0.81437027,
      "learning_rate": 3.936443641967623e-06,
      "loss": 0.83734626,
      "num_input_tokens_seen": 19084470,
      "step": 899,
      "time_per_iteration": 2.6421918869018555
    },
    {
      "auxiliary_loss_clip": 0.01237635,
      "auxiliary_loss_mlp": 0.01047786,
      "balance_loss_clip": 1.06930053,
      "balance_loss_mlp": 1.03224158,
      "epoch": 0.10821860157518187,
      "flos": 18442320480000.0,
      "grad_norm": 2.024773223010639,
      "language_loss": 0.83223432,
      "learning_rate": 3.936248679742983e-06,
      "loss": 0.85508847,
      "num_input_tokens_seen": 19102965,
      "step": 900,
      "time_per_iteration": 2.6658735275268555
    },
    {
      "auxiliary_loss_clip": 0.01108356,
      "auxiliary_loss_mlp": 0.01008289,
      "balance_loss_clip": 1.0278635,
      "balance_loss_mlp": 1.0005163,
      "epoch": 0.10833884446582095,
      "flos": 49359468447360.0,
      "grad_norm": 1.0673411730396136,
      "language_loss": 0.70145476,
      "learning_rate": 3.936053423790959e-06,
      "loss": 0.7226212,
      "num_input_tokens_seen": 19151285,
      "step": 901,
      "time_per_iteration": 4.298099040985107
    },
    {
      "auxiliary_loss_clip": 0.01254482,
      "auxiliary_loss_mlp": 0.01044109,
      "balance_loss_clip": 1.07185531,
      "balance_loss_mlp": 1.0288738,
      "epoch": 0.10845908735646005,
      "flos": 20411912891520.0,
      "grad_norm": 1.671927224449358,
      "language_loss": 0.76983052,
      "learning_rate": 3.935857874141168e-06,
      "loss": 0.7928164,
      "num_input_tokens_seen": 19170120,
      "step": 902,
      "time_per_iteration": 2.6103854179382324
    },
    {
      "auxiliary_loss_clip": 0.01230941,
      "auxiliary_loss_mlp": 0.01048816,
      "balance_loss_clip": 1.06798887,
      "balance_loss_mlp": 1.03313994,
      "epoch": 0.10857933024709913,
      "flos": 14027750133120.0,
      "grad_norm": 2.376057734122284,
      "language_loss": 0.83605623,
      "learning_rate": 3.935662030823279e-06,
      "loss": 0.85885382,
      "num_input_tokens_seen": 19186305,
      "step": 903,
      "time_per_iteration": 2.669036388397217
    },
    {
      "auxiliary_loss_clip": 0.01245022,
      "auxiliary_loss_mlp": 0.01043847,
      "balance_loss_clip": 1.06776905,
      "balance_loss_mlp": 1.02900517,
      "epoch": 0.10869957313773823,
      "flos": 13369004657280.0,
      "grad_norm": 3.5770004575451093,
      "language_loss": 0.72161055,
      "learning_rate": 3.935465893866998e-06,
      "loss": 0.74449927,
      "num_input_tokens_seen": 19204530,
      "step": 904,
      "time_per_iteration": 3.563405990600586
    },
    {
      "auxiliary_loss_clip": 0.01234258,
      "auxiliary_loss_mlp": 0.01045171,
      "balance_loss_clip": 1.06804347,
      "balance_loss_mlp": 1.02931631,
      "epoch": 0.10881981602837733,
      "flos": 25807095509760.0,
      "grad_norm": 1.7694810643148693,
      "language_loss": 0.79949856,
      "learning_rate": 3.935269463302079e-06,
      "loss": 0.8222928,
      "num_input_tokens_seen": 19222735,
      "step": 905,
      "time_per_iteration": 2.7936341762542725
    },
    {
      "auxiliary_loss_clip": 0.01254055,
      "auxiliary_loss_mlp": 0.01046417,
      "balance_loss_clip": 1.07044768,
      "balance_loss_mlp": 1.03097951,
      "epoch": 0.10894005891901641,
      "flos": 20777555387520.0,
      "grad_norm": 1.6889875913432313,
      "language_loss": 0.76777053,
      "learning_rate": 3.935072739158322e-06,
      "loss": 0.79077524,
      "num_input_tokens_seen": 19242445,
      "step": 906,
      "time_per_iteration": 2.679920196533203
    },
    {
      "auxiliary_loss_clip": 0.01240045,
      "auxiliary_loss_mlp": 0.01041867,
      "balance_loss_clip": 1.0699302,
      "balance_loss_mlp": 1.02625084,
      "epoch": 0.10906030180965551,
      "flos": 26649883296000.0,
      "grad_norm": 1.663047582246148,
      "language_loss": 0.7972548,
      "learning_rate": 3.934875721465569e-06,
      "loss": 0.8200739,
      "num_input_tokens_seen": 19262865,
      "step": 907,
      "time_per_iteration": 3.8518378734588623
    },
    {
      "auxiliary_loss_clip": 0.01234785,
      "auxiliary_loss_mlp": 0.01045501,
      "balance_loss_clip": 1.06622398,
      "balance_loss_mlp": 1.03031373,
      "epoch": 0.10918054470029459,
      "flos": 36534402420480.0,
      "grad_norm": 2.382574692743681,
      "language_loss": 0.72093165,
      "learning_rate": 3.9346784102537076e-06,
      "loss": 0.7437346,
      "num_input_tokens_seen": 19285000,
      "step": 908,
      "time_per_iteration": 2.83441424369812
    },
    {
      "auxiliary_loss_clip": 0.01258169,
      "auxiliary_loss_mlp": 0.01046898,
      "balance_loss_clip": 1.07274687,
      "balance_loss_mlp": 1.03205657,
      "epoch": 0.10930078759093369,
      "flos": 21762549118080.0,
      "grad_norm": 1.9261819217693417,
      "language_loss": 0.785927,
      "learning_rate": 3.934480805552669e-06,
      "loss": 0.80897766,
      "num_input_tokens_seen": 19306010,
      "step": 909,
      "time_per_iteration": 2.6850500106811523
    },
    {
      "auxiliary_loss_clip": 0.01254731,
      "auxiliary_loss_mlp": 0.00891178,
      "balance_loss_clip": 1.06990159,
      "balance_loss_mlp": 1.00015545,
      "epoch": 0.10942103048157277,
      "flos": 22601781457920.0,
      "grad_norm": 2.0836173248902146,
      "language_loss": 0.87862027,
      "learning_rate": 3.93428290739243e-06,
      "loss": 0.90007937,
      "num_input_tokens_seen": 19325380,
      "step": 910,
      "time_per_iteration": 2.656731605529785
    },
    {
      "auxiliary_loss_clip": 0.01237509,
      "auxiliary_loss_mlp": 0.01049231,
      "balance_loss_clip": 1.06896234,
      "balance_loss_mlp": 1.0339843,
      "epoch": 0.10954127337221187,
      "flos": 15045781397760.0,
      "grad_norm": 3.636091471448491,
      "language_loss": 0.7958293,
      "learning_rate": 3.9340847158030125e-06,
      "loss": 0.81869674,
      "num_input_tokens_seen": 19338960,
      "step": 911,
      "time_per_iteration": 2.7634758949279785
    },
    {
      "auxiliary_loss_clip": 0.0125139,
      "auxiliary_loss_mlp": 0.01044828,
      "balance_loss_clip": 1.07197344,
      "balance_loss_mlp": 1.02922297,
      "epoch": 0.10966151626285096,
      "flos": 21650974496640.0,
      "grad_norm": 1.8065838309874174,
      "language_loss": 0.75392193,
      "learning_rate": 3.9338862308144814e-06,
      "loss": 0.77688408,
      "num_input_tokens_seen": 19357780,
      "step": 912,
      "time_per_iteration": 2.6581878662109375
    },
    {
      "auxiliary_loss_clip": 0.01256916,
      "auxiliary_loss_mlp": 0.01045613,
      "balance_loss_clip": 1.07230306,
      "balance_loss_mlp": 1.02969825,
      "epoch": 0.10978175915349005,
      "flos": 20121359777280.0,
      "grad_norm": 1.7183863176300764,
      "language_loss": 0.84774292,
      "learning_rate": 3.933687452456946e-06,
      "loss": 0.87076819,
      "num_input_tokens_seen": 19377680,
      "step": 913,
      "time_per_iteration": 2.6562600135803223
    },
    {
      "auxiliary_loss_clip": 0.0122348,
      "auxiliary_loss_mlp": 0.01046158,
      "balance_loss_clip": 1.06206179,
      "balance_loss_mlp": 1.03068411,
      "epoch": 0.10990200204412914,
      "flos": 20412667077120.0,
      "grad_norm": 2.230783816375441,
      "language_loss": 0.8656078,
      "learning_rate": 3.933488380760562e-06,
      "loss": 0.88830417,
      "num_input_tokens_seen": 19397040,
      "step": 914,
      "time_per_iteration": 2.76629376411438
    },
    {
      "auxiliary_loss_clip": 0.01254707,
      "auxiliary_loss_mlp": 0.00891688,
      "balance_loss_clip": 1.06891632,
      "balance_loss_mlp": 1.00012386,
      "epoch": 0.11002224493476823,
      "flos": 17530117660800.0,
      "grad_norm": 2.0327971335353667,
      "language_loss": 0.87324232,
      "learning_rate": 3.9332890157555286e-06,
      "loss": 0.89470625,
      "num_input_tokens_seen": 19413975,
      "step": 915,
      "time_per_iteration": 2.5773205757141113
    },
    {
      "auxiliary_loss_clip": 0.01241964,
      "auxiliary_loss_mlp": 0.01045178,
      "balance_loss_clip": 1.06999469,
      "balance_loss_mlp": 1.02962077,
      "epoch": 0.11014248782540732,
      "flos": 12203093099520.0,
      "grad_norm": 2.009165524359454,
      "language_loss": 0.76256967,
      "learning_rate": 3.933089357472088e-06,
      "loss": 0.7854411,
      "num_input_tokens_seen": 19432005,
      "step": 916,
      "time_per_iteration": 2.7401316165924072
    },
    {
      "auxiliary_loss_clip": 0.01256834,
      "auxiliary_loss_mlp": 0.01042735,
      "balance_loss_clip": 1.07274008,
      "balance_loss_mlp": 1.02752399,
      "epoch": 0.11026273071604642,
      "flos": 22382977760640.0,
      "grad_norm": 1.9516579584726474,
      "language_loss": 0.85892987,
      "learning_rate": 3.932889405940529e-06,
      "loss": 0.88192552,
      "num_input_tokens_seen": 19450100,
      "step": 917,
      "time_per_iteration": 2.6229751110076904
    },
    {
      "auxiliary_loss_clip": 0.0124174,
      "auxiliary_loss_mlp": 0.0104966,
      "balance_loss_clip": 1.07512164,
      "balance_loss_mlp": 1.03487766,
      "epoch": 0.1103829736066855,
      "flos": 19829046896640.0,
      "grad_norm": 2.268039721106308,
      "language_loss": 0.80033797,
      "learning_rate": 3.932689161191184e-06,
      "loss": 0.82325196,
      "num_input_tokens_seen": 19467805,
      "step": 918,
      "time_per_iteration": 2.705134630203247
    },
    {
      "auxiliary_loss_clip": 0.01244711,
      "auxiliary_loss_mlp": 0.01043819,
      "balance_loss_clip": 1.06764221,
      "balance_loss_mlp": 1.02779722,
      "epoch": 0.1105032164973246,
      "flos": 22669616292480.0,
      "grad_norm": 1.9582692781942879,
      "language_loss": 0.88236892,
      "learning_rate": 3.93248862325443e-06,
      "loss": 0.90525424,
      "num_input_tokens_seen": 19486710,
      "step": 919,
      "time_per_iteration": 2.67234206199646
    },
    {
      "auxiliary_loss_clip": 0.01136537,
      "auxiliary_loss_mlp": 0.01008204,
      "balance_loss_clip": 1.03352833,
      "balance_loss_mlp": 1.00076568,
      "epoch": 0.11062345938796368,
      "flos": 66483507876480.0,
      "grad_norm": 0.9404976900285382,
      "language_loss": 0.64453095,
      "learning_rate": 3.932287792160688e-06,
      "loss": 0.66597837,
      "num_input_tokens_seen": 19545170,
      "step": 920,
      "time_per_iteration": 3.146595001220703
    },
    {
      "auxiliary_loss_clip": 0.01250552,
      "auxiliary_loss_mlp": 0.0104493,
      "balance_loss_clip": 1.06946182,
      "balance_loss_mlp": 1.02957582,
      "epoch": 0.11074370227860278,
      "flos": 21907771804800.0,
      "grad_norm": 2.7993351125799597,
      "language_loss": 0.80636561,
      "learning_rate": 3.932086667940424e-06,
      "loss": 0.82932049,
      "num_input_tokens_seen": 19561875,
      "step": 921,
      "time_per_iteration": 2.722243070602417
    },
    {
      "auxiliary_loss_clip": 0.01242183,
      "auxiliary_loss_mlp": 0.00890599,
      "balance_loss_clip": 1.06883347,
      "balance_loss_mlp": 1.00009799,
      "epoch": 0.11086394516924186,
      "flos": 28658115763200.0,
      "grad_norm": 4.607278990874398,
      "language_loss": 0.81734324,
      "learning_rate": 3.93188525062415e-06,
      "loss": 0.83867103,
      "num_input_tokens_seen": 19582340,
      "step": 922,
      "time_per_iteration": 2.7088310718536377
    },
    {
      "auxiliary_loss_clip": 0.01247015,
      "auxiliary_loss_mlp": 0.01049353,
      "balance_loss_clip": 1.06923592,
      "balance_loss_mlp": 1.03336728,
      "epoch": 0.11098418805988096,
      "flos": 24535247765760.0,
      "grad_norm": 2.9537975733752933,
      "language_loss": 0.85949636,
      "learning_rate": 3.931683540242418e-06,
      "loss": 0.88246006,
      "num_input_tokens_seen": 19603405,
      "step": 923,
      "time_per_iteration": 2.711441993713379
    },
    {
      "auxiliary_loss_clip": 0.01239361,
      "auxiliary_loss_mlp": 0.01048631,
      "balance_loss_clip": 1.06680012,
      "balance_loss_mlp": 1.03388476,
      "epoch": 0.11110443095052006,
      "flos": 22960384888320.0,
      "grad_norm": 2.386903184506872,
      "language_loss": 0.90936875,
      "learning_rate": 3.9314815368258295e-06,
      "loss": 0.93224871,
      "num_input_tokens_seen": 19619885,
      "step": 924,
      "time_per_iteration": 2.652998924255371
    },
    {
      "auxiliary_loss_clip": 0.01250602,
      "auxiliary_loss_mlp": 0.01043402,
      "balance_loss_clip": 1.07322812,
      "balance_loss_mlp": 1.02910876,
      "epoch": 0.11122467384115914,
      "flos": 18950025265920.0,
      "grad_norm": 1.746832087036252,
      "language_loss": 0.79100788,
      "learning_rate": 3.9312792404050275e-06,
      "loss": 0.81394798,
      "num_input_tokens_seen": 19637940,
      "step": 925,
      "time_per_iteration": 2.678791046142578
    },
    {
      "auxiliary_loss_clip": 0.01252812,
      "auxiliary_loss_mlp": 0.01049105,
      "balance_loss_clip": 1.07106197,
      "balance_loss_mlp": 1.03484166,
      "epoch": 0.11134491673179824,
      "flos": 25082957324160.0,
      "grad_norm": 1.8285453959318467,
      "language_loss": 0.77351165,
      "learning_rate": 3.9310766510107e-06,
      "loss": 0.79653072,
      "num_input_tokens_seen": 19657115,
      "step": 926,
      "time_per_iteration": 2.6303677558898926
    },
    {
      "auxiliary_loss_clip": 0.01229088,
      "auxiliary_loss_mlp": 0.01044247,
      "balance_loss_clip": 1.06540155,
      "balance_loss_mlp": 1.02946472,
      "epoch": 0.11146515962243732,
      "flos": 24499121662080.0,
      "grad_norm": 1.7946014270114097,
      "language_loss": 0.92388213,
      "learning_rate": 3.9308737686735806e-06,
      "loss": 0.94661552,
      "num_input_tokens_seen": 19677075,
      "step": 927,
      "time_per_iteration": 3.7144052982330322
    },
    {
      "auxiliary_loss_clip": 0.01256713,
      "auxiliary_loss_mlp": 0.01036921,
      "balance_loss_clip": 1.07266617,
      "balance_loss_mlp": 1.02216291,
      "epoch": 0.11158540251307641,
      "flos": 22343763087360.0,
      "grad_norm": 2.2539479089486862,
      "language_loss": 0.82584184,
      "learning_rate": 3.9306705934244455e-06,
      "loss": 0.84877813,
      "num_input_tokens_seen": 19697155,
      "step": 928,
      "time_per_iteration": 2.6032140254974365
    },
    {
      "auxiliary_loss_clip": 0.01217,
      "auxiliary_loss_mlp": 0.01047665,
      "balance_loss_clip": 1.06213999,
      "balance_loss_mlp": 1.03338313,
      "epoch": 0.11170564540371551,
      "flos": 19902304684800.0,
      "grad_norm": 1.6055950655004478,
      "language_loss": 0.87971377,
      "learning_rate": 3.930467125294116e-06,
      "loss": 0.90236032,
      "num_input_tokens_seen": 19716705,
      "step": 929,
      "time_per_iteration": 2.719364643096924
    },
    {
      "auxiliary_loss_clip": 0.01092931,
      "auxiliary_loss_mlp": 0.01010428,
      "balance_loss_clip": 1.02654529,
      "balance_loss_mlp": 1.00303733,
      "epoch": 0.1118258882943546,
      "flos": 64586239499520.0,
      "grad_norm": 0.9304502447396542,
      "language_loss": 0.60507143,
      "learning_rate": 3.930263364313458e-06,
      "loss": 0.62610501,
      "num_input_tokens_seen": 19767275,
      "step": 930,
      "time_per_iteration": 4.97123646736145
    },
    {
      "auxiliary_loss_clip": 0.01223383,
      "auxiliary_loss_mlp": 0.01046094,
      "balance_loss_clip": 1.06558752,
      "balance_loss_mlp": 1.03159761,
      "epoch": 0.11194613118499369,
      "flos": 17201965985280.0,
      "grad_norm": 1.9929949791284194,
      "language_loss": 0.83145154,
      "learning_rate": 3.930059310513384e-06,
      "loss": 0.85414624,
      "num_input_tokens_seen": 19786315,
      "step": 931,
      "time_per_iteration": 2.6737053394317627
    },
    {
      "auxiliary_loss_clip": 0.01210942,
      "auxiliary_loss_mlp": 0.00890663,
      "balance_loss_clip": 1.06246996,
      "balance_loss_mlp": 1.00004935,
      "epoch": 0.11206637407563277,
      "flos": 31863465728640.0,
      "grad_norm": 1.8175399196253597,
      "language_loss": 0.84257931,
      "learning_rate": 3.929854963924846e-06,
      "loss": 0.86359537,
      "num_input_tokens_seen": 19806580,
      "step": 932,
      "time_per_iteration": 2.7984654903411865
    },
    {
      "auxiliary_loss_clip": 0.01220041,
      "auxiliary_loss_mlp": 0.01046441,
      "balance_loss_clip": 1.06290686,
      "balance_loss_mlp": 1.03206491,
      "epoch": 0.11218661696627187,
      "flos": 21945621761280.0,
      "grad_norm": 2.553093743012282,
      "language_loss": 0.77400768,
      "learning_rate": 3.929650324578845e-06,
      "loss": 0.79667246,
      "num_input_tokens_seen": 19826045,
      "step": 933,
      "time_per_iteration": 3.612562894821167
    },
    {
      "auxiliary_loss_clip": 0.01236952,
      "auxiliary_loss_mlp": 0.01040174,
      "balance_loss_clip": 1.06745243,
      "balance_loss_mlp": 1.02508175,
      "epoch": 0.11230685985691095,
      "flos": 25878198481920.0,
      "grad_norm": 2.4352168905406657,
      "language_loss": 0.81649935,
      "learning_rate": 3.929445392506423e-06,
      "loss": 0.83927059,
      "num_input_tokens_seen": 19843985,
      "step": 934,
      "time_per_iteration": 2.695200204849243
    },
    {
      "auxiliary_loss_clip": 0.0124515,
      "auxiliary_loss_mlp": 0.01038202,
      "balance_loss_clip": 1.07349312,
      "balance_loss_mlp": 1.02276409,
      "epoch": 0.11242710274755005,
      "flos": 22231506107520.0,
      "grad_norm": 1.9213212551828531,
      "language_loss": 0.76035893,
      "learning_rate": 3.92924016773867e-06,
      "loss": 0.78319246,
      "num_input_tokens_seen": 19860480,
      "step": 935,
      "time_per_iteration": 2.7421953678131104
    },
    {
      "auxiliary_loss_clip": 0.01231302,
      "auxiliary_loss_mlp": 0.00890625,
      "balance_loss_clip": 1.06395686,
      "balance_loss_mlp": 1.00000095,
      "epoch": 0.11254734563818915,
      "flos": 17712184723200.0,
      "grad_norm": 2.4426713549397774,
      "language_loss": 0.73946577,
      "learning_rate": 3.9290346503067175e-06,
      "loss": 0.76068509,
      "num_input_tokens_seen": 19877145,
      "step": 936,
      "time_per_iteration": 2.6840224266052246
    },
    {
      "auxiliary_loss_clip": 0.01243318,
      "auxiliary_loss_mlp": 0.01054895,
      "balance_loss_clip": 1.06589067,
      "balance_loss_mlp": 1.03977931,
      "epoch": 0.11266758852882823,
      "flos": 54930397334400.0,
      "grad_norm": 1.7814219525172785,
      "language_loss": 0.79219836,
      "learning_rate": 3.9288288402417415e-06,
      "loss": 0.81518054,
      "num_input_tokens_seen": 19903405,
      "step": 937,
      "time_per_iteration": 2.9839019775390625
    },
    {
      "auxiliary_loss_clip": 0.0124404,
      "auxiliary_loss_mlp": 0.01042987,
      "balance_loss_clip": 1.06999254,
      "balance_loss_mlp": 1.02640498,
      "epoch": 0.11278783141946733,
      "flos": 18878132194560.0,
      "grad_norm": 2.1863961732338106,
      "language_loss": 0.70319003,
      "learning_rate": 3.928622737574964e-06,
      "loss": 0.72606027,
      "num_input_tokens_seen": 19918740,
      "step": 938,
      "time_per_iteration": 2.573678493499756
    },
    {
      "auxiliary_loss_clip": 0.01230221,
      "auxiliary_loss_mlp": 0.01051904,
      "balance_loss_clip": 1.06557918,
      "balance_loss_mlp": 1.03703809,
      "epoch": 0.11290807431010641,
      "flos": 26469252777600.0,
      "grad_norm": 1.953899450841976,
      "language_loss": 0.90763277,
      "learning_rate": 3.928416342337652e-06,
      "loss": 0.93045402,
      "num_input_tokens_seen": 19938475,
      "step": 939,
      "time_per_iteration": 2.743436813354492
    },
    {
      "auxiliary_loss_clip": 0.01233561,
      "auxiliary_loss_mlp": 0.01040806,
      "balance_loss_clip": 1.06667209,
      "balance_loss_mlp": 1.02690601,
      "epoch": 0.1130283172007455,
      "flos": 22710590732160.0,
      "grad_norm": 1.726041224556589,
      "language_loss": 0.82945645,
      "learning_rate": 3.928209654561113e-06,
      "loss": 0.85220009,
      "num_input_tokens_seen": 19959310,
      "step": 940,
      "time_per_iteration": 2.6697311401367188
    },
    {
      "auxiliary_loss_clip": 0.01225279,
      "auxiliary_loss_mlp": 0.01046504,
      "balance_loss_clip": 1.06606627,
      "balance_loss_mlp": 1.03218663,
      "epoch": 0.1131485600913846,
      "flos": 23219911630080.0,
      "grad_norm": 2.1412548370318376,
      "language_loss": 0.81252807,
      "learning_rate": 3.928002674276703e-06,
      "loss": 0.83524591,
      "num_input_tokens_seen": 19978700,
      "step": 941,
      "time_per_iteration": 2.703652858734131
    },
    {
      "auxiliary_loss_clip": 0.01184132,
      "auxiliary_loss_mlp": 0.01045313,
      "balance_loss_clip": 1.05235696,
      "balance_loss_mlp": 1.03054273,
      "epoch": 0.11326880298202369,
      "flos": 14064271286400.0,
      "grad_norm": 2.0991697373846376,
      "language_loss": 0.75273466,
      "learning_rate": 3.92779540151582e-06,
      "loss": 0.77502906,
      "num_input_tokens_seen": 19995785,
      "step": 942,
      "time_per_iteration": 2.7226858139038086
    },
    {
      "auxiliary_loss_clip": 0.0123252,
      "auxiliary_loss_mlp": 0.01050093,
      "balance_loss_clip": 1.06731153,
      "balance_loss_mlp": 1.03522801,
      "epoch": 0.11338904587266278,
      "flos": 16325386479360.0,
      "grad_norm": 1.8041459245249258,
      "language_loss": 0.85794884,
      "learning_rate": 3.927587836309907e-06,
      "loss": 0.88077497,
      "num_input_tokens_seen": 20013615,
      "step": 943,
      "time_per_iteration": 2.6319878101348877
    },
    {
      "auxiliary_loss_clip": 0.01223741,
      "auxiliary_loss_mlp": 0.01042521,
      "balance_loss_clip": 1.0638175,
      "balance_loss_mlp": 1.02758384,
      "epoch": 0.11350928876330187,
      "flos": 24426258923520.0,
      "grad_norm": 1.8709630081105906,
      "language_loss": 0.78015733,
      "learning_rate": 3.927379978690452e-06,
      "loss": 0.80281997,
      "num_input_tokens_seen": 20032880,
      "step": 944,
      "time_per_iteration": 2.721181631088257
    },
    {
      "auxiliary_loss_clip": 0.01201964,
      "auxiliary_loss_mlp": 0.01041928,
      "balance_loss_clip": 1.05332112,
      "balance_loss_mlp": 1.02719367,
      "epoch": 0.11362953165394096,
      "flos": 24497074586880.0,
      "grad_norm": 2.200350871667805,
      "language_loss": 0.87235522,
      "learning_rate": 3.927171828688987e-06,
      "loss": 0.89479411,
      "num_input_tokens_seen": 20052405,
      "step": 945,
      "time_per_iteration": 2.7708044052124023
    },
    {
      "auxiliary_loss_clip": 0.01250818,
      "auxiliary_loss_mlp": 0.01038029,
      "balance_loss_clip": 1.06939137,
      "balance_loss_mlp": 1.02310395,
      "epoch": 0.11374977454458005,
      "flos": 24060831909120.0,
      "grad_norm": 2.112184218651611,
      "language_loss": 0.82055283,
      "learning_rate": 3.926963386337088e-06,
      "loss": 0.84344131,
      "num_input_tokens_seen": 20070635,
      "step": 946,
      "time_per_iteration": 2.651944875717163
    },
    {
      "auxiliary_loss_clip": 0.01261682,
      "auxiliary_loss_mlp": 0.01041653,
      "balance_loss_clip": 1.07333374,
      "balance_loss_mlp": 1.0267396,
      "epoch": 0.11387001743521914,
      "flos": 39457638967680.0,
      "grad_norm": 2.504459820656706,
      "language_loss": 0.70132124,
      "learning_rate": 3.926754651666375e-06,
      "loss": 0.72435462,
      "num_input_tokens_seen": 20091195,
      "step": 947,
      "time_per_iteration": 2.7505383491516113
    },
    {
      "auxiliary_loss_clip": 0.01222038,
      "auxiliary_loss_mlp": 0.01044253,
      "balance_loss_clip": 1.06528914,
      "balance_loss_mlp": 1.02880359,
      "epoch": 0.11399026032585824,
      "flos": 25082454533760.0,
      "grad_norm": 2.6676960167934896,
      "language_loss": 0.78060186,
      "learning_rate": 3.926545624708513e-06,
      "loss": 0.80326486,
      "num_input_tokens_seen": 20110435,
      "step": 948,
      "time_per_iteration": 2.846428871154785
    },
    {
      "auxiliary_loss_clip": 0.01216093,
      "auxiliary_loss_mlp": 0.01043153,
      "balance_loss_clip": 1.06108594,
      "balance_loss_mlp": 1.02939665,
      "epoch": 0.11411050321649732,
      "flos": 17961835224960.0,
      "grad_norm": 2.592196788723873,
      "language_loss": 0.85823512,
      "learning_rate": 3.926336305495213e-06,
      "loss": 0.88082755,
      "num_input_tokens_seen": 20128995,
      "step": 949,
      "time_per_iteration": 2.6959450244903564
    },
    {
      "auxiliary_loss_clip": 0.01201082,
      "auxiliary_loss_mlp": 0.01041947,
      "balance_loss_clip": 1.0584693,
      "balance_loss_mlp": 1.02678335,
      "epoch": 0.11423074610713642,
      "flos": 22455409536000.0,
      "grad_norm": 4.39525845665006,
      "language_loss": 0.88945907,
      "learning_rate": 3.926126694058226e-06,
      "loss": 0.91188937,
      "num_input_tokens_seen": 20148145,
      "step": 950,
      "time_per_iteration": 2.724264621734619
    },
    {
      "auxiliary_loss_clip": 0.01208361,
      "auxiliary_loss_mlp": 0.01055468,
      "balance_loss_clip": 1.06548929,
      "balance_loss_mlp": 1.04125237,
      "epoch": 0.1143509889977755,
      "flos": 19717687756800.0,
      "grad_norm": 1.9568858962071425,
      "language_loss": 0.8202185,
      "learning_rate": 3.92591679042935e-06,
      "loss": 0.84285676,
      "num_input_tokens_seen": 20168035,
      "step": 951,
      "time_per_iteration": 2.825010299682617
    },
    {
      "auxiliary_loss_clip": 0.01238769,
      "auxiliary_loss_mlp": 0.01054863,
      "balance_loss_clip": 1.06794667,
      "balance_loss_mlp": 1.04023623,
      "epoch": 0.1144712318884146,
      "flos": 19822869757440.0,
      "grad_norm": 1.95789940076249,
      "language_loss": 0.82463425,
      "learning_rate": 3.92570659464043e-06,
      "loss": 0.84757054,
      "num_input_tokens_seen": 20186095,
      "step": 952,
      "time_per_iteration": 2.624484062194824
    },
    {
      "auxiliary_loss_clip": 0.01235387,
      "auxiliary_loss_mlp": 0.00891201,
      "balance_loss_clip": 1.06883764,
      "balance_loss_mlp": 1.00001061,
      "epoch": 0.1145914747790537,
      "flos": 14939198766720.0,
      "grad_norm": 2.172672442618961,
      "language_loss": 0.7958051,
      "learning_rate": 3.925496106723349e-06,
      "loss": 0.81707096,
      "num_input_tokens_seen": 20203535,
      "step": 953,
      "time_per_iteration": 3.5933573246002197
    },
    {
      "auxiliary_loss_clip": 0.0124485,
      "auxiliary_loss_mlp": 0.01049196,
      "balance_loss_clip": 1.06962729,
      "balance_loss_mlp": 1.03483093,
      "epoch": 0.11471171766969278,
      "flos": 19865029345920.0,
      "grad_norm": 2.2007508886960503,
      "language_loss": 0.83944929,
      "learning_rate": 3.9252853267100405e-06,
      "loss": 0.86238968,
      "num_input_tokens_seen": 20222780,
      "step": 954,
      "time_per_iteration": 2.6433656215667725
    },
    {
      "auxiliary_loss_clip": 0.01216212,
      "auxiliary_loss_mlp": 0.01053294,
      "balance_loss_clip": 1.064852,
      "balance_loss_mlp": 1.03823781,
      "epoch": 0.11483196056033187,
      "flos": 22526476594560.0,
      "grad_norm": 1.8114034058567943,
      "language_loss": 0.83914614,
      "learning_rate": 3.9250742546324786e-06,
      "loss": 0.8618412,
      "num_input_tokens_seen": 20243015,
      "step": 955,
      "time_per_iteration": 2.767815351486206
    },
    {
      "auxiliary_loss_clip": 0.01226595,
      "auxiliary_loss_mlp": 0.01049341,
      "balance_loss_clip": 1.061239,
      "balance_loss_mlp": 1.03386712,
      "epoch": 0.11495220345097096,
      "flos": 28220292887040.0,
      "grad_norm": 1.721145737189538,
      "language_loss": 0.86535323,
      "learning_rate": 3.924862890522683e-06,
      "loss": 0.88811255,
      "num_input_tokens_seen": 20263025,
      "step": 956,
      "time_per_iteration": 3.790367603302002
    },
    {
      "auxiliary_loss_clip": 0.01241287,
      "auxiliary_loss_mlp": 0.0104496,
      "balance_loss_clip": 1.06612873,
      "balance_loss_mlp": 1.03033304,
      "epoch": 0.11507244634161005,
      "flos": 17492267704320.0,
      "grad_norm": 2.0214026745437317,
      "language_loss": 0.85921407,
      "learning_rate": 3.9246512344127174e-06,
      "loss": 0.88207656,
      "num_input_tokens_seen": 20280685,
      "step": 957,
      "time_per_iteration": 3.5371618270874023
    },
    {
      "auxiliary_loss_clip": 0.0117321,
      "auxiliary_loss_mlp": 0.01050731,
      "balance_loss_clip": 1.05320859,
      "balance_loss_mlp": 1.03593719,
      "epoch": 0.11519268923224914,
      "flos": 22564937082240.0,
      "grad_norm": 18.44765823372769,
      "language_loss": 0.81827474,
      "learning_rate": 3.9244392863346895e-06,
      "loss": 0.84051412,
      "num_input_tokens_seen": 20300090,
      "step": 958,
      "time_per_iteration": 2.8173298835754395
    },
    {
      "auxiliary_loss_clip": 0.01236417,
      "auxiliary_loss_mlp": 0.01050101,
      "balance_loss_clip": 1.0704143,
      "balance_loss_mlp": 1.03533089,
      "epoch": 0.11531293212288823,
      "flos": 16982839065600.0,
      "grad_norm": 2.2565053178056926,
      "language_loss": 0.92427504,
      "learning_rate": 3.9242270463207524e-06,
      "loss": 0.94714022,
      "num_input_tokens_seen": 20318480,
      "step": 959,
      "time_per_iteration": 3.826432228088379
    },
    {
      "auxiliary_loss_clip": 0.01197394,
      "auxiliary_loss_mlp": 0.01046612,
      "balance_loss_clip": 1.06072652,
      "balance_loss_mlp": 1.03174615,
      "epoch": 0.11543317501352733,
      "flos": 12422004537600.0,
      "grad_norm": 4.467456869003633,
      "language_loss": 0.84894145,
      "learning_rate": 3.924014514403102e-06,
      "loss": 0.87138152,
      "num_input_tokens_seen": 20334635,
      "step": 960,
      "time_per_iteration": 2.6864945888519287
    },
    {
      "auxiliary_loss_clip": 0.01203184,
      "auxiliary_loss_mlp": 0.01047602,
      "balance_loss_clip": 1.06078243,
      "balance_loss_mlp": 1.03290343,
      "epoch": 0.11555341790416641,
      "flos": 19821648695040.0,
      "grad_norm": 2.6728289455919754,
      "language_loss": 0.91104257,
      "learning_rate": 3.92380169061398e-06,
      "loss": 0.93355048,
      "num_input_tokens_seen": 20352415,
      "step": 961,
      "time_per_iteration": 2.8210582733154297
    },
    {
      "auxiliary_loss_clip": 0.01209068,
      "auxiliary_loss_mlp": 0.00890361,
      "balance_loss_clip": 1.05795217,
      "balance_loss_mlp": 1.00003719,
      "epoch": 0.11567366079480551,
      "flos": 25738865625600.0,
      "grad_norm": 1.921627901361086,
      "language_loss": 0.83722627,
      "learning_rate": 3.9235885749856705e-06,
      "loss": 0.85822058,
      "num_input_tokens_seen": 20371095,
      "step": 962,
      "time_per_iteration": 2.7722392082214355
    },
    {
      "auxiliary_loss_clip": 0.012282,
      "auxiliary_loss_mlp": 0.01041514,
      "balance_loss_clip": 1.06813359,
      "balance_loss_mlp": 1.02748287,
      "epoch": 0.1157939036854446,
      "flos": 18223301301120.0,
      "grad_norm": 2.588065355659324,
      "language_loss": 0.82719767,
      "learning_rate": 3.9233751675505035e-06,
      "loss": 0.84989488,
      "num_input_tokens_seen": 20389805,
      "step": 963,
      "time_per_iteration": 2.679948329925537
    },
    {
      "auxiliary_loss_clip": 0.01223723,
      "auxiliary_loss_mlp": 0.01047772,
      "balance_loss_clip": 1.06789124,
      "balance_loss_mlp": 1.03324056,
      "epoch": 0.11591414657608369,
      "flos": 23073755189760.0,
      "grad_norm": 2.684920927314278,
      "language_loss": 0.84934777,
      "learning_rate": 3.923161468340853e-06,
      "loss": 0.87206274,
      "num_input_tokens_seen": 20409640,
      "step": 964,
      "time_per_iteration": 2.6964144706726074
    },
    {
      "auxiliary_loss_clip": 0.01194989,
      "auxiliary_loss_mlp": 0.01047375,
      "balance_loss_clip": 1.05692196,
      "balance_loss_mlp": 1.0321641,
      "epoch": 0.11603438946672277,
      "flos": 19461716461440.0,
      "grad_norm": 1.840356382698343,
      "language_loss": 0.81495023,
      "learning_rate": 3.9229474773891374e-06,
      "loss": 0.83737385,
      "num_input_tokens_seen": 20428180,
      "step": 965,
      "time_per_iteration": 2.7783255577087402
    },
    {
      "auxiliary_loss_clip": 0.01223648,
      "auxiliary_loss_mlp": 0.01046342,
      "balance_loss_clip": 1.05820334,
      "balance_loss_mlp": 1.03203666,
      "epoch": 0.11615463235736187,
      "flos": 26831986272000.0,
      "grad_norm": 2.070498623641063,
      "language_loss": 0.8384608,
      "learning_rate": 3.922733194727818e-06,
      "loss": 0.86116076,
      "num_input_tokens_seen": 20447975,
      "step": 966,
      "time_per_iteration": 2.720547914505005
    },
    {
      "auxiliary_loss_clip": 0.01246948,
      "auxiliary_loss_mlp": 0.01049336,
      "balance_loss_clip": 1.07055199,
      "balance_loss_mlp": 1.03464961,
      "epoch": 0.11627487524800097,
      "flos": 18580324533120.0,
      "grad_norm": 2.1385077020012155,
      "language_loss": 0.87226218,
      "learning_rate": 3.922518620389402e-06,
      "loss": 0.89522505,
      "num_input_tokens_seen": 20464840,
      "step": 967,
      "time_per_iteration": 2.648414134979248
    },
    {
      "auxiliary_loss_clip": 0.01158659,
      "auxiliary_loss_mlp": 0.01049233,
      "balance_loss_clip": 1.05447125,
      "balance_loss_mlp": 1.03527355,
      "epoch": 0.11639511813864005,
      "flos": 18150474476160.0,
      "grad_norm": 1.7078059805630765,
      "language_loss": 0.892461,
      "learning_rate": 3.922303754406439e-06,
      "loss": 0.91453993,
      "num_input_tokens_seen": 20482680,
      "step": 968,
      "time_per_iteration": 2.860729217529297
    },
    {
      "auxiliary_loss_clip": 0.01200096,
      "auxiliary_loss_mlp": 0.01044899,
      "balance_loss_clip": 1.05902004,
      "balance_loss_mlp": 1.02973604,
      "epoch": 0.11651536102927915,
      "flos": 20922023888640.0,
      "grad_norm": 1.9053895909875034,
      "language_loss": 0.79116857,
      "learning_rate": 3.922088596811526e-06,
      "loss": 0.81361854,
      "num_input_tokens_seen": 20501810,
      "step": 969,
      "time_per_iteration": 2.8187201023101807
    },
    {
      "auxiliary_loss_clip": 0.01231949,
      "auxiliary_loss_mlp": 0.01054797,
      "balance_loss_clip": 1.06651628,
      "balance_loss_mlp": 1.04002702,
      "epoch": 0.11663560391991823,
      "flos": 16508602776960.0,
      "grad_norm": 2.333025615052947,
      "language_loss": 0.87163669,
      "learning_rate": 3.9218731476373e-06,
      "loss": 0.89450419,
      "num_input_tokens_seen": 20517995,
      "step": 970,
      "time_per_iteration": 2.6536827087402344
    },
    {
      "auxiliary_loss_clip": 0.01246501,
      "auxiliary_loss_mlp": 0.01051857,
      "balance_loss_clip": 1.07236385,
      "balance_loss_mlp": 1.03663361,
      "epoch": 0.11675584681055733,
      "flos": 19865029345920.0,
      "grad_norm": 2.174533853802243,
      "language_loss": 0.846569,
      "learning_rate": 3.9216574069164455e-06,
      "loss": 0.86955255,
      "num_input_tokens_seen": 20536970,
      "step": 971,
      "time_per_iteration": 2.6307015419006348
    },
    {
      "auxiliary_loss_clip": 0.01247015,
      "auxiliary_loss_mlp": 0.01040271,
      "balance_loss_clip": 1.06801391,
      "balance_loss_mlp": 1.02638865,
      "epoch": 0.11687608970119642,
      "flos": 21944364785280.0,
      "grad_norm": 1.491429912383477,
      "language_loss": 0.80078703,
      "learning_rate": 3.921441374681691e-06,
      "loss": 0.8236599,
      "num_input_tokens_seen": 20557030,
      "step": 972,
      "time_per_iteration": 2.7133593559265137
    },
    {
      "auxiliary_loss_clip": 0.01224524,
      "auxiliary_loss_mlp": 0.01045033,
      "balance_loss_clip": 1.06502557,
      "balance_loss_mlp": 1.03084695,
      "epoch": 0.1169963325918355,
      "flos": 24061155131520.0,
      "grad_norm": 1.945256567507874,
      "language_loss": 0.64541209,
      "learning_rate": 3.921225050965808e-06,
      "loss": 0.66810763,
      "num_input_tokens_seen": 20576915,
      "step": 973,
      "time_per_iteration": 2.705272912979126
    },
    {
      "auxiliary_loss_clip": 0.01217665,
      "auxiliary_loss_mlp": 0.01046096,
      "balance_loss_clip": 1.06336212,
      "balance_loss_mlp": 1.03124809,
      "epoch": 0.1171165754824746,
      "flos": 23368151059200.0,
      "grad_norm": 2.8168791039536423,
      "language_loss": 0.75419283,
      "learning_rate": 3.921008435801612e-06,
      "loss": 0.77683043,
      "num_input_tokens_seen": 20596000,
      "step": 974,
      "time_per_iteration": 2.7623634338378906
    },
    {
      "auxiliary_loss_clip": 0.01230976,
      "auxiliary_loss_mlp": 0.01045323,
      "balance_loss_clip": 1.06441104,
      "balance_loss_mlp": 1.03108966,
      "epoch": 0.11723681837311369,
      "flos": 18552243075840.0,
      "grad_norm": 2.209436501483981,
      "language_loss": 0.75339854,
      "learning_rate": 3.920791529221963e-06,
      "loss": 0.77616155,
      "num_input_tokens_seen": 20614675,
      "step": 975,
      "time_per_iteration": 2.6236510276794434
    },
    {
      "auxiliary_loss_clip": 0.01233584,
      "auxiliary_loss_mlp": 0.00890946,
      "balance_loss_clip": 1.06785834,
      "balance_loss_mlp": 0.99999052,
      "epoch": 0.11735706126375278,
      "flos": 23550541344000.0,
      "grad_norm": 5.17917086547935,
      "language_loss": 0.76242256,
      "learning_rate": 3.920574331259768e-06,
      "loss": 0.78366786,
      "num_input_tokens_seen": 20635875,
      "step": 976,
      "time_per_iteration": 2.742070436477661
    },
    {
      "auxiliary_loss_clip": 0.01216443,
      "auxiliary_loss_mlp": 0.010433,
      "balance_loss_clip": 1.06264734,
      "balance_loss_mlp": 1.02812481,
      "epoch": 0.11747730415439187,
      "flos": 22381541216640.0,
      "grad_norm": 2.0740480930869536,
      "language_loss": 0.79459864,
      "learning_rate": 3.9203568419479716e-06,
      "loss": 0.81719601,
      "num_input_tokens_seen": 20656430,
      "step": 977,
      "time_per_iteration": 2.731318235397339
    },
    {
      "auxiliary_loss_clip": 0.01225766,
      "auxiliary_loss_mlp": 0.01035215,
      "balance_loss_clip": 1.06553674,
      "balance_loss_mlp": 1.02151823,
      "epoch": 0.11759754704503096,
      "flos": 22200731130240.0,
      "grad_norm": 1.7973567098472445,
      "language_loss": 0.75481379,
      "learning_rate": 3.92013906131957e-06,
      "loss": 0.77742362,
      "num_input_tokens_seen": 20675360,
      "step": 978,
      "time_per_iteration": 2.712555408477783
    },
    {
      "auxiliary_loss_clip": 0.01212325,
      "auxiliary_loss_mlp": 0.01044803,
      "balance_loss_clip": 1.06224036,
      "balance_loss_mlp": 1.03145182,
      "epoch": 0.11771778993567006,
      "flos": 22309755886080.0,
      "grad_norm": 2.45058466478909,
      "language_loss": 0.82765424,
      "learning_rate": 3.9199209894076e-06,
      "loss": 0.85022551,
      "num_input_tokens_seen": 20695675,
      "step": 979,
      "time_per_iteration": 3.7407524585723877
    },
    {
      "auxiliary_loss_clip": 0.01254653,
      "auxiliary_loss_mlp": 0.01045227,
      "balance_loss_clip": 1.06980014,
      "balance_loss_mlp": 1.03027809,
      "epoch": 0.11783803282630914,
      "flos": 21288169175040.0,
      "grad_norm": 1.9793356907119735,
      "language_loss": 0.89665008,
      "learning_rate": 3.919702626245142e-06,
      "loss": 0.91964889,
      "num_input_tokens_seen": 20715330,
      "step": 980,
      "time_per_iteration": 2.6799912452697754
    },
    {
      "auxiliary_loss_clip": 0.01215153,
      "auxiliary_loss_mlp": 0.01056655,
      "balance_loss_clip": 1.06212747,
      "balance_loss_mlp": 1.0417062,
      "epoch": 0.11795827571694824,
      "flos": 25371535190400.0,
      "grad_norm": 2.171339955216093,
      "language_loss": 0.6609925,
      "learning_rate": 3.919483971865322e-06,
      "loss": 0.68371058,
      "num_input_tokens_seen": 20735325,
      "step": 981,
      "time_per_iteration": 2.7363240718841553
    },
    {
      "auxiliary_loss_clip": 0.01224196,
      "auxiliary_loss_mlp": 0.01038337,
      "balance_loss_clip": 1.0673629,
      "balance_loss_mlp": 1.02448511,
      "epoch": 0.11807851860758732,
      "flos": 23622218933760.0,
      "grad_norm": 2.37285407696564,
      "language_loss": 0.87847853,
      "learning_rate": 3.91926502630131e-06,
      "loss": 0.90110385,
      "num_input_tokens_seen": 20755940,
      "step": 982,
      "time_per_iteration": 4.5770251750946045
    },
    {
      "auxiliary_loss_clip": 0.012457,
      "auxiliary_loss_mlp": 0.01041755,
      "balance_loss_clip": 1.07243943,
      "balance_loss_mlp": 1.02753282,
      "epoch": 0.11819876149822642,
      "flos": 24972496024320.0,
      "grad_norm": 2.2864258550291847,
      "language_loss": 0.72334719,
      "learning_rate": 3.91904578958632e-06,
      "loss": 0.74622166,
      "num_input_tokens_seen": 20775355,
      "step": 983,
      "time_per_iteration": 2.6876559257507324
    },
    {
      "auxiliary_loss_clip": 0.01250799,
      "auxiliary_loss_mlp": 0.01038262,
      "balance_loss_clip": 1.07024014,
      "balance_loss_mlp": 1.02487445,
      "epoch": 0.11831900438886551,
      "flos": 23003226835200.0,
      "grad_norm": 2.2485642804526544,
      "language_loss": 0.84254873,
      "learning_rate": 3.918826261753608e-06,
      "loss": 0.86543936,
      "num_input_tokens_seen": 20794935,
      "step": 984,
      "time_per_iteration": 2.664409637451172
    },
    {
      "auxiliary_loss_clip": 0.01226895,
      "auxiliary_loss_mlp": 0.01042464,
      "balance_loss_clip": 1.06566381,
      "balance_loss_mlp": 1.02859378,
      "epoch": 0.1184392472795046,
      "flos": 27965147604480.0,
      "grad_norm": 2.8165619758665406,
      "language_loss": 0.70773661,
      "learning_rate": 3.918606442836478e-06,
      "loss": 0.73043019,
      "num_input_tokens_seen": 20817155,
      "step": 985,
      "time_per_iteration": 3.7726688385009766
    },
    {
      "auxiliary_loss_clip": 0.01239405,
      "auxiliary_loss_mlp": 0.0104539,
      "balance_loss_clip": 1.07352853,
      "balance_loss_mlp": 1.03107321,
      "epoch": 0.1185594901701437,
      "flos": 19898497843200.0,
      "grad_norm": 7.381875335839968,
      "language_loss": 0.77508676,
      "learning_rate": 3.918386332868277e-06,
      "loss": 0.79793477,
      "num_input_tokens_seen": 20835125,
      "step": 986,
      "time_per_iteration": 2.601524591445923
    },
    {
      "auxiliary_loss_clip": 0.01233124,
      "auxiliary_loss_mlp": 0.01045987,
      "balance_loss_clip": 1.06708944,
      "balance_loss_mlp": 1.03079963,
      "epoch": 0.11867973306078278,
      "flos": 18912354877440.0,
      "grad_norm": 1.735046208040886,
      "language_loss": 0.94349396,
      "learning_rate": 3.918165931882394e-06,
      "loss": 0.96628511,
      "num_input_tokens_seen": 20853525,
      "step": 987,
      "time_per_iteration": 2.653308153152466
    },
    {
      "auxiliary_loss_clip": 0.01184607,
      "auxiliary_loss_mlp": 0.01047363,
      "balance_loss_clip": 1.05690122,
      "balance_loss_mlp": 1.03261733,
      "epoch": 0.11879997595142187,
      "flos": 16982803152000.0,
      "grad_norm": 2.286810750636156,
      "language_loss": 0.75132817,
      "learning_rate": 3.917945239912264e-06,
      "loss": 0.77364784,
      "num_input_tokens_seen": 20871000,
      "step": 988,
      "time_per_iteration": 2.7425930500030518
    },
    {
      "auxiliary_loss_clip": 0.01206887,
      "auxiliary_loss_mlp": 0.01037372,
      "balance_loss_clip": 1.06199265,
      "balance_loss_mlp": 1.02371037,
      "epoch": 0.11892021884206096,
      "flos": 17530369056000.0,
      "grad_norm": 2.2898396739906013,
      "language_loss": 0.75732565,
      "learning_rate": 3.917724256991367e-06,
      "loss": 0.77976823,
      "num_input_tokens_seen": 20889745,
      "step": 989,
      "time_per_iteration": 2.7635183334350586
    },
    {
      "auxiliary_loss_clip": 0.01223918,
      "auxiliary_loss_mlp": 0.01045994,
      "balance_loss_clip": 1.06748486,
      "balance_loss_mlp": 1.03223133,
      "epoch": 0.11904046173270005,
      "flos": 30955895763840.0,
      "grad_norm": 2.403879970650768,
      "language_loss": 0.81345952,
      "learning_rate": 3.9175029831532245e-06,
      "loss": 0.83615869,
      "num_input_tokens_seen": 20909260,
      "step": 990,
      "time_per_iteration": 2.766115665435791
    },
    {
      "auxiliary_loss_clip": 0.01224551,
      "auxiliary_loss_mlp": 0.01048918,
      "balance_loss_clip": 1.07016337,
      "balance_loss_mlp": 1.03450537,
      "epoch": 0.11916070462333915,
      "flos": 20157234485760.0,
      "grad_norm": 2.1275361135488566,
      "language_loss": 0.8885994,
      "learning_rate": 3.917281418431404e-06,
      "loss": 0.91133404,
      "num_input_tokens_seen": 20928305,
      "step": 991,
      "time_per_iteration": 2.732297658920288
    },
    {
      "auxiliary_loss_clip": 0.0123016,
      "auxiliary_loss_mlp": 0.01045351,
      "balance_loss_clip": 1.06989288,
      "balance_loss_mlp": 1.03101015,
      "epoch": 0.11928094751397823,
      "flos": 23551115961600.0,
      "grad_norm": 1.9000350785859614,
      "language_loss": 0.76842368,
      "learning_rate": 3.917059562859516e-06,
      "loss": 0.79117882,
      "num_input_tokens_seen": 20947630,
      "step": 992,
      "time_per_iteration": 2.677131175994873
    },
    {
      "auxiliary_loss_clip": 0.01215103,
      "auxiliary_loss_mlp": 0.01037922,
      "balance_loss_clip": 1.0658412,
      "balance_loss_mlp": 1.02368832,
      "epoch": 0.11940119040461733,
      "flos": 23908426502400.0,
      "grad_norm": 2.3792246879967878,
      "language_loss": 0.88687468,
      "learning_rate": 3.916837416471218e-06,
      "loss": 0.90940499,
      "num_input_tokens_seen": 20964250,
      "step": 993,
      "time_per_iteration": 2.7140309810638428
    },
    {
      "auxiliary_loss_clip": 0.01233084,
      "auxiliary_loss_mlp": 0.01045692,
      "balance_loss_clip": 1.06514716,
      "balance_loss_mlp": 1.03207827,
      "epoch": 0.11952143329525641,
      "flos": 13844533835520.0,
      "grad_norm": 2.2290265091759336,
      "language_loss": 0.72470415,
      "learning_rate": 3.916614979300207e-06,
      "loss": 0.7474919,
      "num_input_tokens_seen": 20979095,
      "step": 994,
      "time_per_iteration": 2.62428879737854
    },
    {
      "auxiliary_loss_clip": 0.01196422,
      "auxiliary_loss_mlp": 0.01041465,
      "balance_loss_clip": 1.06207275,
      "balance_loss_mlp": 1.02762437,
      "epoch": 0.11964167618589551,
      "flos": 27015525792000.0,
      "grad_norm": 1.7075060095911283,
      "language_loss": 0.78694332,
      "learning_rate": 3.9163922513802274e-06,
      "loss": 0.80932224,
      "num_input_tokens_seen": 21001430,
      "step": 995,
      "time_per_iteration": 2.7934792041778564
    },
    {
      "auxiliary_loss_clip": 0.01250836,
      "auxiliary_loss_mlp": 0.01045484,
      "balance_loss_clip": 1.06734705,
      "balance_loss_mlp": 1.03172731,
      "epoch": 0.1197619190765346,
      "flos": 12567622273920.0,
      "grad_norm": 4.652562959109937,
      "language_loss": 0.82533872,
      "learning_rate": 3.916169232745067e-06,
      "loss": 0.84830189,
      "num_input_tokens_seen": 21019105,
      "step": 996,
      "time_per_iteration": 2.5720980167388916
    },
    {
      "auxiliary_loss_clip": 0.01217132,
      "auxiliary_loss_mlp": 0.01048328,
      "balance_loss_clip": 1.06280088,
      "balance_loss_mlp": 1.03300989,
      "epoch": 0.11988216196717369,
      "flos": 16909437623040.0,
      "grad_norm": 2.529293429293836,
      "language_loss": 0.91969043,
      "learning_rate": 3.915945923428559e-06,
      "loss": 0.94234508,
      "num_input_tokens_seen": 21035630,
      "step": 997,
      "time_per_iteration": 2.636873722076416
    },
    {
      "auxiliary_loss_clip": 0.01235073,
      "auxiliary_loss_mlp": 0.01050015,
      "balance_loss_clip": 1.0661025,
      "balance_loss_mlp": 1.03535247,
      "epoch": 0.12000240485781279,
      "flos": 16216577205120.0,
      "grad_norm": 2.0564726513391682,
      "language_loss": 0.83050907,
      "learning_rate": 3.915722323464577e-06,
      "loss": 0.85335994,
      "num_input_tokens_seen": 21054235,
      "step": 998,
      "time_per_iteration": 2.6510043144226074
    },
    {
      "auxiliary_loss_clip": 0.01240833,
      "auxiliary_loss_mlp": 0.0104479,
      "balance_loss_clip": 1.0704335,
      "balance_loss_mlp": 1.03030586,
      "epoch": 0.12012264774845187,
      "flos": 49344887525760.0,
      "grad_norm": 2.2874667550574515,
      "language_loss": 0.70196283,
      "learning_rate": 3.91549843288704e-06,
      "loss": 0.72481906,
      "num_input_tokens_seen": 21077915,
      "step": 999,
      "time_per_iteration": 2.8532817363739014
    },
    {
      "auxiliary_loss_clip": 0.01215284,
      "auxiliary_loss_mlp": 0.00890417,
      "balance_loss_clip": 1.06123233,
      "balance_loss_mlp": 0.9999162,
      "epoch": 0.12024289063909097,
      "flos": 26979435601920.0,
      "grad_norm": 1.9075259434499061,
      "language_loss": 0.79535931,
      "learning_rate": 3.915274251729916e-06,
      "loss": 0.81641638,
      "num_input_tokens_seen": 21099205,
      "step": 1000,
      "time_per_iteration": 2.7832396030426025
    },
    {
      "auxiliary_loss_clip": 0.01219443,
      "auxiliary_loss_mlp": 0.01047595,
      "balance_loss_clip": 1.06701386,
      "balance_loss_mlp": 1.03351653,
      "epoch": 0.12036313352973005,
      "flos": 19537308633600.0,
      "grad_norm": 2.069612680088078,
      "language_loss": 0.90093172,
      "learning_rate": 3.91504978002721e-06,
      "loss": 0.9236021,
      "num_input_tokens_seen": 21118260,
      "step": 1001,
      "time_per_iteration": 2.672961950302124
    },
    {
      "auxiliary_loss_clip": 0.01232376,
      "auxiliary_loss_mlp": 0.00890632,
      "balance_loss_clip": 1.06379187,
      "balance_loss_mlp": 0.99995267,
      "epoch": 0.12048337642036915,
      "flos": 17268256535040.0,
      "grad_norm": 2.1117308550328064,
      "language_loss": 0.76300693,
      "learning_rate": 3.914825017812974e-06,
      "loss": 0.78423697,
      "num_input_tokens_seen": 21134910,
      "step": 1002,
      "time_per_iteration": 2.671787977218628
    },
    {
      "auxiliary_loss_clip": 0.01230655,
      "auxiliary_loss_mlp": 0.01040155,
      "balance_loss_clip": 1.0675112,
      "balance_loss_mlp": 1.02571917,
      "epoch": 0.12060361931100824,
      "flos": 22856962654080.0,
      "grad_norm": 2.838211110584406,
      "language_loss": 0.72371471,
      "learning_rate": 3.9145999651213065e-06,
      "loss": 0.74642277,
      "num_input_tokens_seen": 21154150,
      "step": 1003,
      "time_per_iteration": 2.684657335281372
    },
    {
      "auxiliary_loss_clip": 0.01241826,
      "auxiliary_loss_mlp": 0.01042898,
      "balance_loss_clip": 1.06932974,
      "balance_loss_mlp": 1.02792501,
      "epoch": 0.12072386220164733,
      "flos": 16726795943040.0,
      "grad_norm": 2.3825473002704842,
      "language_loss": 0.88200778,
      "learning_rate": 3.9143746219863465e-06,
      "loss": 0.90485501,
      "num_input_tokens_seen": 21171255,
      "step": 1004,
      "time_per_iteration": 2.656550645828247
    },
    {
      "auxiliary_loss_clip": 0.01140648,
      "auxiliary_loss_mlp": 0.01012333,
      "balance_loss_clip": 1.04317069,
      "balance_loss_mlp": 1.00513232,
      "epoch": 0.12084410509228642,
      "flos": 55144176105600.0,
      "grad_norm": 0.9484225955657064,
      "language_loss": 0.64770889,
      "learning_rate": 3.914148988442278e-06,
      "loss": 0.66923869,
      "num_input_tokens_seen": 21227045,
      "step": 1005,
      "time_per_iteration": 4.058809757232666
    },
    {
      "auxiliary_loss_clip": 0.01220312,
      "auxiliary_loss_mlp": 0.01045062,
      "balance_loss_clip": 1.06712162,
      "balance_loss_mlp": 1.0309236,
      "epoch": 0.1209643479829255,
      "flos": 26760236855040.0,
      "grad_norm": 2.4258727737680714,
      "language_loss": 0.94750035,
      "learning_rate": 3.91392306452333e-06,
      "loss": 0.97015399,
      "num_input_tokens_seen": 21244120,
      "step": 1006,
      "time_per_iteration": 2.7461495399475098
    },
    {
      "auxiliary_loss_clip": 0.01254518,
      "auxiliary_loss_mlp": 0.01041805,
      "balance_loss_clip": 1.07059979,
      "balance_loss_mlp": 1.02676129,
      "epoch": 0.1210845908735646,
      "flos": 11035026725760.0,
      "grad_norm": 2.9378344219054844,
      "language_loss": 0.66331422,
      "learning_rate": 3.913696850263774e-06,
      "loss": 0.68627751,
      "num_input_tokens_seen": 21258485,
      "step": 1007,
      "time_per_iteration": 2.598438024520874
    },
    {
      "auxiliary_loss_clip": 0.01236251,
      "auxiliary_loss_mlp": 0.01034918,
      "balance_loss_clip": 1.06764007,
      "balance_loss_mlp": 1.02055323,
      "epoch": 0.1212048337642037,
      "flos": 20484631975680.0,
      "grad_norm": 2.116379265844151,
      "language_loss": 0.79075718,
      "learning_rate": 3.913470345697929e-06,
      "loss": 0.81346881,
      "num_input_tokens_seen": 21277115,
      "step": 1008,
      "time_per_iteration": 4.723555326461792
    },
    {
      "auxiliary_loss_clip": 0.01210651,
      "auxiliary_loss_mlp": 0.01040486,
      "balance_loss_clip": 1.06440496,
      "balance_loss_mlp": 1.02535796,
      "epoch": 0.12132507665484278,
      "flos": 22346061557760.0,
      "grad_norm": 2.105770853055199,
      "language_loss": 0.85413784,
      "learning_rate": 3.913243550860153e-06,
      "loss": 0.8766492,
      "num_input_tokens_seen": 21294880,
      "step": 1009,
      "time_per_iteration": 2.7708449363708496
    },
    {
      "auxiliary_loss_clip": 0.01245142,
      "auxiliary_loss_mlp": 0.01039288,
      "balance_loss_clip": 1.07551908,
      "balance_loss_mlp": 1.02553082,
      "epoch": 0.12144531954548188,
      "flos": 29314957818240.0,
      "grad_norm": 1.8789961290224655,
      "language_loss": 0.75871271,
      "learning_rate": 3.913016465784852e-06,
      "loss": 0.78155696,
      "num_input_tokens_seen": 21315555,
      "step": 1010,
      "time_per_iteration": 3.668726682662964
    },
    {
      "auxiliary_loss_clip": 0.01208781,
      "auxiliary_loss_mlp": 0.01042808,
      "balance_loss_clip": 1.06295276,
      "balance_loss_mlp": 1.02828217,
      "epoch": 0.12156556243612096,
      "flos": 20485242506880.0,
      "grad_norm": 2.662222491982747,
      "language_loss": 0.71963125,
      "learning_rate": 3.912789090506474e-06,
      "loss": 0.74214709,
      "num_input_tokens_seen": 21334815,
      "step": 1011,
      "time_per_iteration": 2.709963083267212
    },
    {
      "auxiliary_loss_clip": 0.0122373,
      "auxiliary_loss_mlp": 0.01046167,
      "balance_loss_clip": 1.06420374,
      "balance_loss_mlp": 1.03323913,
      "epoch": 0.12168580532676006,
      "flos": 16472009796480.0,
      "grad_norm": 2.444312586617688,
      "language_loss": 0.7185837,
      "learning_rate": 3.9125614250595114e-06,
      "loss": 0.74128264,
      "num_input_tokens_seen": 21351025,
      "step": 1012,
      "time_per_iteration": 2.732710599899292
    },
    {
      "auxiliary_loss_clip": 0.0124155,
      "auxiliary_loss_mlp": 0.01049062,
      "balance_loss_clip": 1.06809187,
      "balance_loss_mlp": 1.03420818,
      "epoch": 0.12180604821739914,
      "flos": 15341290588800.0,
      "grad_norm": 2.641928543649421,
      "language_loss": 0.88670647,
      "learning_rate": 3.912333469478502e-06,
      "loss": 0.90961254,
      "num_input_tokens_seen": 21368990,
      "step": 1013,
      "time_per_iteration": 2.6659929752349854
    },
    {
      "auxiliary_loss_clip": 0.01227031,
      "auxiliary_loss_mlp": 0.01048358,
      "balance_loss_clip": 1.0646764,
      "balance_loss_mlp": 1.03445792,
      "epoch": 0.12192629110803824,
      "flos": 19318038059520.0,
      "grad_norm": 2.1182051409487763,
      "language_loss": 0.7833395,
      "learning_rate": 3.912105223798025e-06,
      "loss": 0.80609345,
      "num_input_tokens_seen": 21388410,
      "step": 1014,
      "time_per_iteration": 2.6870317459106445
    },
    {
      "auxiliary_loss_clip": 0.01123227,
      "auxiliary_loss_mlp": 0.01006919,
      "balance_loss_clip": 1.0321753,
      "balance_loss_mlp": 1.00010061,
      "epoch": 0.12204653399867733,
      "flos": 47725354085760.0,
      "grad_norm": 1.002410233741363,
      "language_loss": 0.67667454,
      "learning_rate": 3.9118766880527065e-06,
      "loss": 0.69797599,
      "num_input_tokens_seen": 21442845,
      "step": 1015,
      "time_per_iteration": 3.155890703201294
    },
    {
      "auxiliary_loss_clip": 0.01194786,
      "auxiliary_loss_mlp": 0.01040672,
      "balance_loss_clip": 1.05858254,
      "balance_loss_mlp": 1.02633703,
      "epoch": 0.12216677688931642,
      "flos": 18221936584320.0,
      "grad_norm": 2.051874776745427,
      "language_loss": 0.73747241,
      "learning_rate": 3.9116478622772145e-06,
      "loss": 0.75982708,
      "num_input_tokens_seen": 21461420,
      "step": 1016,
      "time_per_iteration": 2.744556427001953
    },
    {
      "auxiliary_loss_clip": 0.01236547,
      "auxiliary_loss_mlp": 0.01041223,
      "balance_loss_clip": 1.06835604,
      "balance_loss_mlp": 1.0262984,
      "epoch": 0.12228701977995551,
      "flos": 27525636789120.0,
      "grad_norm": 1.6691349951690737,
      "language_loss": 0.88421941,
      "learning_rate": 3.911418746506261e-06,
      "loss": 0.90699708,
      "num_input_tokens_seen": 21481550,
      "step": 1017,
      "time_per_iteration": 2.720165967941284
    },
    {
      "auxiliary_loss_clip": 0.01245764,
      "auxiliary_loss_mlp": 0.01045303,
      "balance_loss_clip": 1.07490945,
      "balance_loss_mlp": 1.03181458,
      "epoch": 0.1224072626705946,
      "flos": 21798136517760.0,
      "grad_norm": 1.7441167303631315,
      "language_loss": 0.78590477,
      "learning_rate": 3.911189340774604e-06,
      "loss": 0.80881548,
      "num_input_tokens_seen": 21501680,
      "step": 1018,
      "time_per_iteration": 2.636068820953369
    },
    {
      "auxiliary_loss_clip": 0.01237207,
      "auxiliary_loss_mlp": 0.01040527,
      "balance_loss_clip": 1.06562662,
      "balance_loss_mlp": 1.02690196,
      "epoch": 0.1225275055612337,
      "flos": 20703758895360.0,
      "grad_norm": 1.7480716356575356,
      "language_loss": 0.79612184,
      "learning_rate": 3.910959645117043e-06,
      "loss": 0.81889915,
      "num_input_tokens_seen": 21521015,
      "step": 1019,
      "time_per_iteration": 2.718792200088501
    },
    {
      "auxiliary_loss_clip": 0.01124376,
      "auxiliary_loss_mlp": 0.00879402,
      "balance_loss_clip": 1.03389931,
      "balance_loss_mlp": 0.99962372,
      "epoch": 0.12264774845187278,
      "flos": 57745294462080.0,
      "grad_norm": 0.8205345838173848,
      "language_loss": 0.56725168,
      "learning_rate": 3.910729659568423e-06,
      "loss": 0.58728945,
      "num_input_tokens_seen": 21578200,
      "step": 1020,
      "time_per_iteration": 3.2414915561676025
    },
    {
      "auxiliary_loss_clip": 0.01229724,
      "auxiliary_loss_mlp": 0.01042143,
      "balance_loss_clip": 1.06917644,
      "balance_loss_mlp": 1.02957237,
      "epoch": 0.12276799134251187,
      "flos": 26396282298240.0,
      "grad_norm": 1.7459656300927555,
      "language_loss": 0.82296616,
      "learning_rate": 3.9104993841636344e-06,
      "loss": 0.84568489,
      "num_input_tokens_seen": 21598770,
      "step": 1021,
      "time_per_iteration": 2.676549196243286
    },
    {
      "auxiliary_loss_clip": 0.01227729,
      "auxiliary_loss_mlp": 0.00890762,
      "balance_loss_clip": 1.07070231,
      "balance_loss_mlp": 0.99988437,
      "epoch": 0.12288823423315097,
      "flos": 21064193919360.0,
      "grad_norm": 1.9042272812162602,
      "language_loss": 0.81198418,
      "learning_rate": 3.910268818937608e-06,
      "loss": 0.8331691,
      "num_input_tokens_seen": 21616925,
      "step": 1022,
      "time_per_iteration": 2.723285436630249
    },
    {
      "auxiliary_loss_clip": 0.01209,
      "auxiliary_loss_mlp": 0.01039696,
      "balance_loss_clip": 1.06620967,
      "balance_loss_mlp": 1.02650571,
      "epoch": 0.12300847712379005,
      "flos": 12312441077760.0,
      "grad_norm": 2.509839407791096,
      "language_loss": 0.87228531,
      "learning_rate": 3.9100379639253196e-06,
      "loss": 0.89477229,
      "num_input_tokens_seen": 21633645,
      "step": 1023,
      "time_per_iteration": 2.7122910022735596
    },
    {
      "auxiliary_loss_clip": 0.01226944,
      "auxiliary_loss_mlp": 0.01049865,
      "balance_loss_clip": 1.06329262,
      "balance_loss_mlp": 1.035465,
      "epoch": 0.12312872001442915,
      "flos": 16762239688320.0,
      "grad_norm": 3.950730592035133,
      "language_loss": 0.86375433,
      "learning_rate": 3.909806819161791e-06,
      "loss": 0.88652247,
      "num_input_tokens_seen": 21649120,
      "step": 1024,
      "time_per_iteration": 2.685134172439575
    },
    {
      "auxiliary_loss_clip": 0.01224001,
      "auxiliary_loss_mlp": 0.01041691,
      "balance_loss_clip": 1.06552088,
      "balance_loss_mlp": 1.02777314,
      "epoch": 0.12324896290506823,
      "flos": 18404937400320.0,
      "grad_norm": 2.0501269935420696,
      "language_loss": 0.86136526,
      "learning_rate": 3.909575384682086e-06,
      "loss": 0.88402218,
      "num_input_tokens_seen": 21668000,
      "step": 1025,
      "time_per_iteration": 2.684023857116699
    },
    {
      "auxiliary_loss_clip": 0.01244095,
      "auxiliary_loss_mlp": 0.01046424,
      "balance_loss_clip": 1.06801414,
      "balance_loss_mlp": 1.03198814,
      "epoch": 0.12336920579570733,
      "flos": 18915407533440.0,
      "grad_norm": 2.280500878288277,
      "language_loss": 0.6955297,
      "learning_rate": 3.9093436605213144e-06,
      "loss": 0.71843493,
      "num_input_tokens_seen": 21688500,
      "step": 1026,
      "time_per_iteration": 2.6677677631378174
    },
    {
      "auxiliary_loss_clip": 0.01224506,
      "auxiliary_loss_mlp": 0.01045334,
      "balance_loss_clip": 1.06437731,
      "balance_loss_mlp": 1.03058791,
      "epoch": 0.12348944868634643,
      "flos": 23878369797120.0,
      "grad_norm": 1.6377177323099217,
      "language_loss": 0.79284054,
      "learning_rate": 3.909111646714627e-06,
      "loss": 0.81553888,
      "num_input_tokens_seen": 21709345,
      "step": 1027,
      "time_per_iteration": 2.698517322540283
    },
    {
      "auxiliary_loss_clip": 0.01244429,
      "auxiliary_loss_mlp": 0.01038194,
      "balance_loss_clip": 1.06630373,
      "balance_loss_mlp": 1.02401412,
      "epoch": 0.12360969157698551,
      "flos": 19026084314880.0,
      "grad_norm": 2.29380111249726,
      "language_loss": 0.72454125,
      "learning_rate": 3.9088793432972206e-06,
      "loss": 0.7473675,
      "num_input_tokens_seen": 21728165,
      "step": 1028,
      "time_per_iteration": 2.6197397708892822
    },
    {
      "auxiliary_loss_clip": 0.01206896,
      "auxiliary_loss_mlp": 0.01046853,
      "balance_loss_clip": 1.06355739,
      "balance_loss_mlp": 1.03344798,
      "epoch": 0.1237299344676246,
      "flos": 13224607983360.0,
      "grad_norm": 2.079729469187348,
      "language_loss": 0.82032531,
      "learning_rate": 3.908646750304336e-06,
      "loss": 0.84286284,
      "num_input_tokens_seen": 21745850,
      "step": 1029,
      "time_per_iteration": 2.666663646697998
    },
    {
      "auxiliary_loss_clip": 0.01236852,
      "auxiliary_loss_mlp": 0.01049593,
      "balance_loss_clip": 1.07197213,
      "balance_loss_mlp": 1.03535891,
      "epoch": 0.12385017735826369,
      "flos": 20485673470080.0,
      "grad_norm": 1.658664811978402,
      "language_loss": 0.87029022,
      "learning_rate": 3.908413867771257e-06,
      "loss": 0.89315462,
      "num_input_tokens_seen": 21764760,
      "step": 1030,
      "time_per_iteration": 2.735337257385254
    },
    {
      "auxiliary_loss_clip": 0.01240836,
      "auxiliary_loss_mlp": 0.0105265,
      "balance_loss_clip": 1.07003331,
      "balance_loss_mlp": 1.03819013,
      "epoch": 0.12397042024890279,
      "flos": 17347835116800.0,
      "grad_norm": 1.9687410913237837,
      "language_loss": 0.80674702,
      "learning_rate": 3.908180695733311e-06,
      "loss": 0.82968187,
      "num_input_tokens_seen": 21784250,
      "step": 1031,
      "time_per_iteration": 3.535653591156006
    },
    {
      "auxiliary_loss_clip": 0.01178534,
      "auxiliary_loss_mlp": 0.01040926,
      "balance_loss_clip": 1.05234182,
      "balance_loss_mlp": 1.02664459,
      "epoch": 0.12409066313954187,
      "flos": 20412343854720.0,
      "grad_norm": 1.8233574292929091,
      "language_loss": 0.82772136,
      "learning_rate": 3.907947234225871e-06,
      "loss": 0.84991598,
      "num_input_tokens_seen": 21803260,
      "step": 1032,
      "time_per_iteration": 2.779116153717041
    },
    {
      "auxiliary_loss_clip": 0.01191285,
      "auxiliary_loss_mlp": 0.01040548,
      "balance_loss_clip": 1.0601573,
      "balance_loss_mlp": 1.02640963,
      "epoch": 0.12421090603018096,
      "flos": 20736688688640.0,
      "grad_norm": 1.7658650447656656,
      "language_loss": 0.87069434,
      "learning_rate": 3.907713483284352e-06,
      "loss": 0.89301264,
      "num_input_tokens_seen": 21822735,
      "step": 1033,
      "time_per_iteration": 3.9058456420898438
    },
    {
      "auxiliary_loss_clip": 0.01169311,
      "auxiliary_loss_mlp": 0.01046077,
      "balance_loss_clip": 1.05364001,
      "balance_loss_mlp": 1.03146219,
      "epoch": 0.12433114892082006,
      "flos": 24498834353280.0,
      "grad_norm": 2.1879039644502543,
      "language_loss": 0.97424257,
      "learning_rate": 3.907479442944216e-06,
      "loss": 0.99639648,
      "num_input_tokens_seen": 21841140,
      "step": 1034,
      "time_per_iteration": 3.9294371604919434
    },
    {
      "auxiliary_loss_clip": 0.0123678,
      "auxiliary_loss_mlp": 0.01037603,
      "balance_loss_clip": 1.07072878,
      "balance_loss_mlp": 1.02336907,
      "epoch": 0.12445139181145914,
      "flos": 19682315838720.0,
      "grad_norm": 2.1702598172772163,
      "language_loss": 0.92363727,
      "learning_rate": 3.907245113240963e-06,
      "loss": 0.94638109,
      "num_input_tokens_seen": 21859260,
      "step": 1035,
      "time_per_iteration": 3.1241073608398438
    },
    {
      "auxiliary_loss_clip": 0.01214385,
      "auxiliary_loss_mlp": 0.01048289,
      "balance_loss_clip": 1.05992413,
      "balance_loss_mlp": 1.03375721,
      "epoch": 0.12457163470209824,
      "flos": 46423087522560.0,
      "grad_norm": 2.0316906218000677,
      "language_loss": 0.73641914,
      "learning_rate": 3.907010494210144e-06,
      "loss": 0.7590459,
      "num_input_tokens_seen": 21881920,
      "step": 1036,
      "time_per_iteration": 3.953059673309326
    },
    {
      "auxiliary_loss_clip": 0.01246645,
      "auxiliary_loss_mlp": 0.01046038,
      "balance_loss_clip": 1.07085574,
      "balance_loss_mlp": 1.03136349,
      "epoch": 0.12469187759273732,
      "flos": 20376289578240.0,
      "grad_norm": 2.1806471439206447,
      "language_loss": 0.91791046,
      "learning_rate": 3.9067755858873495e-06,
      "loss": 0.94083726,
      "num_input_tokens_seen": 21898720,
      "step": 1037,
      "time_per_iteration": 2.678196907043457
    },
    {
      "auxiliary_loss_clip": 0.01110036,
      "auxiliary_loss_mlp": 0.01009792,
      "balance_loss_clip": 1.02868867,
      "balance_loss_mlp": 1.00306892,
      "epoch": 0.12481212048337642,
      "flos": 69224641447680.0,
      "grad_norm": 0.8741065943043075,
      "language_loss": 0.62838089,
      "learning_rate": 3.906540388308214e-06,
      "loss": 0.64957917,
      "num_input_tokens_seen": 21958305,
      "step": 1038,
      "time_per_iteration": 3.265202283859253
    },
    {
      "auxiliary_loss_clip": 0.01192317,
      "auxiliary_loss_mlp": 0.01040464,
      "balance_loss_clip": 1.06157696,
      "balance_loss_mlp": 1.02644467,
      "epoch": 0.12493236337401552,
      "flos": 18223696350720.0,
      "grad_norm": 9.610704127740657,
      "language_loss": 0.81644297,
      "learning_rate": 3.906304901508417e-06,
      "loss": 0.83877075,
      "num_input_tokens_seen": 21977205,
      "step": 1039,
      "time_per_iteration": 2.805372476577759
    },
    {
      "auxiliary_loss_clip": 0.01239296,
      "auxiliary_loss_mlp": 0.01049547,
      "balance_loss_clip": 1.07132006,
      "balance_loss_mlp": 1.03615999,
      "epoch": 0.12505260626465461,
      "flos": 30044375303040.0,
      "grad_norm": 2.8574867539885225,
      "language_loss": 0.7560904,
      "learning_rate": 3.9060691255236835e-06,
      "loss": 0.77897882,
      "num_input_tokens_seen": 21997770,
      "step": 1040,
      "time_per_iteration": 2.7340478897094727
    },
    {
      "auxiliary_loss_clip": 0.01235613,
      "auxiliary_loss_mlp": 0.01046646,
      "balance_loss_clip": 1.06514883,
      "balance_loss_mlp": 1.03216207,
      "epoch": 0.1251728491552937,
      "flos": 24433980347520.0,
      "grad_norm": 1.6129660698438097,
      "language_loss": 0.80571371,
      "learning_rate": 3.905833060389778e-06,
      "loss": 0.82853627,
      "num_input_tokens_seen": 22021890,
      "step": 1041,
      "time_per_iteration": 2.7576744556427
    },
    {
      "auxiliary_loss_clip": 0.0125031,
      "auxiliary_loss_mlp": 0.00890463,
      "balance_loss_clip": 1.07122946,
      "balance_loss_mlp": 0.99986345,
      "epoch": 0.12529309204593278,
      "flos": 27119809952640.0,
      "grad_norm": 2.1809521208464338,
      "language_loss": 0.7857486,
      "learning_rate": 3.905596706142513e-06,
      "loss": 0.80715632,
      "num_input_tokens_seen": 22043300,
      "step": 1042,
      "time_per_iteration": 2.6841368675231934
    },
    {
      "auxiliary_loss_clip": 0.01203541,
      "auxiliary_loss_mlp": 0.01040938,
      "balance_loss_clip": 1.05708086,
      "balance_loss_mlp": 1.02672839,
      "epoch": 0.12541333493657186,
      "flos": 30774151923840.0,
      "grad_norm": 2.096589328276978,
      "language_loss": 0.86263138,
      "learning_rate": 3.9053600628177435e-06,
      "loss": 0.88507617,
      "num_input_tokens_seen": 22062910,
      "step": 1043,
      "time_per_iteration": 2.769761323928833
    },
    {
      "auxiliary_loss_clip": 0.01246958,
      "auxiliary_loss_mlp": 0.01047903,
      "balance_loss_clip": 1.06796396,
      "balance_loss_mlp": 1.03433669,
      "epoch": 0.12553357782721097,
      "flos": 23659566099840.0,
      "grad_norm": 2.033375936925519,
      "language_loss": 0.84935844,
      "learning_rate": 3.905123130451367e-06,
      "loss": 0.872307,
      "num_input_tokens_seen": 22084010,
      "step": 1044,
      "time_per_iteration": 2.680882215499878
    },
    {
      "auxiliary_loss_clip": 0.01252232,
      "auxiliary_loss_mlp": 0.01052933,
      "balance_loss_clip": 1.07178497,
      "balance_loss_mlp": 1.0375793,
      "epoch": 0.12565382071785006,
      "flos": 24863758577280.0,
      "grad_norm": 1.6825521275106456,
      "language_loss": 0.79321766,
      "learning_rate": 3.904885909079326e-06,
      "loss": 0.8162694,
      "num_input_tokens_seen": 22102795,
      "step": 1045,
      "time_per_iteration": 2.6867194175720215
    },
    {
      "auxiliary_loss_clip": 0.01239088,
      "auxiliary_loss_mlp": 0.01038789,
      "balance_loss_clip": 1.06633019,
      "balance_loss_mlp": 1.02432919,
      "epoch": 0.12577406360848914,
      "flos": 21360780518400.0,
      "grad_norm": 2.4683460759933604,
      "language_loss": 0.78097993,
      "learning_rate": 3.904648398737607e-06,
      "loss": 0.80375874,
      "num_input_tokens_seen": 22121360,
      "step": 1046,
      "time_per_iteration": 2.6622865200042725
    },
    {
      "auxiliary_loss_clip": 0.01247204,
      "auxiliary_loss_mlp": 0.01047685,
      "balance_loss_clip": 1.06834114,
      "balance_loss_mlp": 1.03394604,
      "epoch": 0.12589430649912825,
      "flos": 36138056774400.0,
      "grad_norm": 2.70999919970423,
      "language_loss": 0.77843618,
      "learning_rate": 3.9044105994622406e-06,
      "loss": 0.8013851,
      "num_input_tokens_seen": 22142505,
      "step": 1047,
      "time_per_iteration": 2.7304184436798096
    },
    {
      "auxiliary_loss_clip": 0.01232421,
      "auxiliary_loss_mlp": 0.00890534,
      "balance_loss_clip": 1.0652709,
      "balance_loss_mlp": 0.99990034,
      "epoch": 0.12601454938976733,
      "flos": 25337671643520.0,
      "grad_norm": 1.7742084106509601,
      "language_loss": 0.81591618,
      "learning_rate": 3.9041725112893005e-06,
      "loss": 0.83714569,
      "num_input_tokens_seen": 22163730,
      "step": 1048,
      "time_per_iteration": 2.7711691856384277
    },
    {
      "auxiliary_loss_clip": 0.01211517,
      "auxiliary_loss_mlp": 0.01036851,
      "balance_loss_clip": 1.06428981,
      "balance_loss_mlp": 1.0226835,
      "epoch": 0.12613479228040642,
      "flos": 15560094286080.0,
      "grad_norm": 1.676789220124751,
      "language_loss": 0.75113463,
      "learning_rate": 3.903934134254904e-06,
      "loss": 0.77361834,
      "num_input_tokens_seen": 22181520,
      "step": 1049,
      "time_per_iteration": 2.70082950592041
    },
    {
      "auxiliary_loss_clip": 0.01245251,
      "auxiliary_loss_mlp": 0.01042713,
      "balance_loss_clip": 1.06894207,
      "balance_loss_mlp": 1.02866435,
      "epoch": 0.1262550351710455,
      "flos": 21470595373440.0,
      "grad_norm": 2.295179755685184,
      "language_loss": 0.84852898,
      "learning_rate": 3.903695468395213e-06,
      "loss": 0.87140864,
      "num_input_tokens_seen": 22199390,
      "step": 1050,
      "time_per_iteration": 2.7013609409332275
    },
    {
      "auxiliary_loss_clip": 0.01233172,
      "auxiliary_loss_mlp": 0.0105179,
      "balance_loss_clip": 1.064381,
      "balance_loss_mlp": 1.03742492,
      "epoch": 0.1263752780616846,
      "flos": 31576719456000.0,
      "grad_norm": 2.1157290561178215,
      "language_loss": 0.55725336,
      "learning_rate": 3.903456513746434e-06,
      "loss": 0.58010304,
      "num_input_tokens_seen": 22220365,
      "step": 1051,
      "time_per_iteration": 2.7943203449249268
    },
    {
      "auxiliary_loss_clip": 0.01245532,
      "auxiliary_loss_mlp": 0.01039074,
      "balance_loss_clip": 1.06853139,
      "balance_loss_mlp": 1.02618706,
      "epoch": 0.1264955209523237,
      "flos": 28768217927040.0,
      "grad_norm": 2.12337080743904,
      "language_loss": 0.87373471,
      "learning_rate": 3.903217270344815e-06,
      "loss": 0.89658082,
      "num_input_tokens_seen": 22240615,
      "step": 1052,
      "time_per_iteration": 2.7101354598999023
    },
    {
      "auxiliary_loss_clip": 0.01205337,
      "auxiliary_loss_mlp": 0.01045028,
      "balance_loss_clip": 1.05960083,
      "balance_loss_mlp": 1.0308069,
      "epoch": 0.12661576384296278,
      "flos": 29241125412480.0,
      "grad_norm": 1.707685150943416,
      "language_loss": 0.82538426,
      "learning_rate": 3.902977738226648e-06,
      "loss": 0.84788793,
      "num_input_tokens_seen": 22261350,
      "step": 1053,
      "time_per_iteration": 2.862032890319824
    },
    {
      "auxiliary_loss_clip": 0.01241161,
      "auxiliary_loss_mlp": 0.01056123,
      "balance_loss_clip": 1.07088041,
      "balance_loss_mlp": 1.04178262,
      "epoch": 0.12673600673360189,
      "flos": 20850346298880.0,
      "grad_norm": 1.7932878091820719,
      "language_loss": 0.91015911,
      "learning_rate": 3.902737917428273e-06,
      "loss": 0.93313193,
      "num_input_tokens_seen": 22279515,
      "step": 1054,
      "time_per_iteration": 2.6694142818450928
    },
    {
      "auxiliary_loss_clip": 0.01247557,
      "auxiliary_loss_mlp": 0.0104739,
      "balance_loss_clip": 1.06861567,
      "balance_loss_mlp": 1.033252,
      "epoch": 0.12685624962424097,
      "flos": 25263695583360.0,
      "grad_norm": 1.87008200433455,
      "language_loss": 0.84055471,
      "learning_rate": 3.902497807986068e-06,
      "loss": 0.86350417,
      "num_input_tokens_seen": 22299535,
      "step": 1055,
      "time_per_iteration": 2.6490671634674072
    },
    {
      "auxiliary_loss_clip": 0.01215999,
      "auxiliary_loss_mlp": 0.01047007,
      "balance_loss_clip": 1.05857706,
      "balance_loss_mlp": 1.03246379,
      "epoch": 0.12697649251488005,
      "flos": 27527109246720.0,
      "grad_norm": 1.6912838227132296,
      "language_loss": 0.83915794,
      "learning_rate": 3.902257409936458e-06,
      "loss": 0.86178803,
      "num_input_tokens_seen": 22320300,
      "step": 1056,
      "time_per_iteration": 3.654097080230713
    },
    {
      "auxiliary_loss_clip": 0.01229858,
      "auxiliary_loss_mlp": 0.01038874,
      "balance_loss_clip": 1.06912172,
      "balance_loss_mlp": 1.02522421,
      "epoch": 0.12709673540551916,
      "flos": 21251863503360.0,
      "grad_norm": 2.2051886139128447,
      "language_loss": 0.84084952,
      "learning_rate": 3.902016723315912e-06,
      "loss": 0.86353683,
      "num_input_tokens_seen": 22338240,
      "step": 1057,
      "time_per_iteration": 2.838796854019165
    },
    {
      "auxiliary_loss_clip": 0.01234533,
      "auxiliary_loss_mlp": 0.01051594,
      "balance_loss_clip": 1.06401515,
      "balance_loss_mlp": 1.03887486,
      "epoch": 0.12721697829615825,
      "flos": 25337707557120.0,
      "grad_norm": 2.1731918981499216,
      "language_loss": 0.69400364,
      "learning_rate": 3.901775748160941e-06,
      "loss": 0.71686494,
      "num_input_tokens_seen": 22357420,
      "step": 1058,
      "time_per_iteration": 2.7168850898742676
    },
    {
      "auxiliary_loss_clip": 0.01111962,
      "auxiliary_loss_mlp": 0.0101784,
      "balance_loss_clip": 1.02564585,
      "balance_loss_mlp": 1.0113076,
      "epoch": 0.12733722118679733,
      "flos": 61943287754880.0,
      "grad_norm": 0.7976757198652547,
      "language_loss": 0.60860318,
      "learning_rate": 3.901534484508101e-06,
      "loss": 0.62990117,
      "num_input_tokens_seen": 22420095,
      "step": 1059,
      "time_per_iteration": 3.262051582336426
    },
    {
      "auxiliary_loss_clip": 0.01210572,
      "auxiliary_loss_mlp": 0.01038553,
      "balance_loss_clip": 1.05911839,
      "balance_loss_mlp": 1.02414048,
      "epoch": 0.1274574640774364,
      "flos": 26976742081920.0,
      "grad_norm": 1.822909804617782,
      "language_loss": 0.74718732,
      "learning_rate": 3.901292932393991e-06,
      "loss": 0.76967859,
      "num_input_tokens_seen": 22438975,
      "step": 1060,
      "time_per_iteration": 3.7914340496063232
    },
    {
      "auxiliary_loss_clip": 0.01251087,
      "auxiliary_loss_mlp": 0.01045528,
      "balance_loss_clip": 1.07052732,
      "balance_loss_mlp": 1.03102005,
      "epoch": 0.12757770696807552,
      "flos": 22236318529920.0,
      "grad_norm": 2.603531604952755,
      "language_loss": 0.84967911,
      "learning_rate": 3.9010510918552555e-06,
      "loss": 0.87264532,
      "num_input_tokens_seen": 22458050,
      "step": 1061,
      "time_per_iteration": 3.645664691925049
    },
    {
      "auxiliary_loss_clip": 0.01219936,
      "auxiliary_loss_mlp": 0.01042539,
      "balance_loss_clip": 1.06081331,
      "balance_loss_mlp": 1.02730393,
      "epoch": 0.1276979498587146,
      "flos": 28547905858560.0,
      "grad_norm": 4.286679961437034,
      "language_loss": 0.74815547,
      "learning_rate": 3.900808962928581e-06,
      "loss": 0.77078021,
      "num_input_tokens_seen": 22475665,
      "step": 1062,
      "time_per_iteration": 2.7207417488098145
    },
    {
      "auxiliary_loss_clip": 0.01248488,
      "auxiliary_loss_mlp": 0.01053207,
      "balance_loss_clip": 1.07046008,
      "balance_loss_mlp": 1.03949142,
      "epoch": 0.1278181927493537,
      "flos": 17420338719360.0,
      "grad_norm": 2.201177134017343,
      "language_loss": 0.89472115,
      "learning_rate": 3.900566545650698e-06,
      "loss": 0.91773808,
      "num_input_tokens_seen": 22493335,
      "step": 1063,
      "time_per_iteration": 3.5174167156219482
    },
    {
      "auxiliary_loss_clip": 0.01239613,
      "auxiliary_loss_mlp": 0.01049463,
      "balance_loss_clip": 1.06819534,
      "balance_loss_mlp": 1.03452611,
      "epoch": 0.1279384356399928,
      "flos": 21138636856320.0,
      "grad_norm": 2.2314562039329218,
      "language_loss": 0.81881452,
      "learning_rate": 3.900323840058381e-06,
      "loss": 0.84170532,
      "num_input_tokens_seen": 22511045,
      "step": 1064,
      "time_per_iteration": 2.6407737731933594
    },
    {
      "auxiliary_loss_clip": 0.01230065,
      "auxiliary_loss_mlp": 0.01038581,
      "balance_loss_clip": 1.06113958,
      "balance_loss_mlp": 1.02546239,
      "epoch": 0.12805867853063188,
      "flos": 26576733248640.0,
      "grad_norm": 1.7713952381402471,
      "language_loss": 0.81824666,
      "learning_rate": 3.900080846188449e-06,
      "loss": 0.84093308,
      "num_input_tokens_seen": 22529635,
      "step": 1065,
      "time_per_iteration": 2.6817610263824463
    },
    {
      "auxiliary_loss_clip": 0.01246052,
      "auxiliary_loss_mlp": 0.01047806,
      "balance_loss_clip": 1.06597126,
      "balance_loss_mlp": 1.03412127,
      "epoch": 0.12817892142127096,
      "flos": 16436206915200.0,
      "grad_norm": 1.7918809272802263,
      "language_loss": 0.81320286,
      "learning_rate": 3.8998375640777625e-06,
      "loss": 0.83614147,
      "num_input_tokens_seen": 22547505,
      "step": 1066,
      "time_per_iteration": 2.6154532432556152
    },
    {
      "auxiliary_loss_clip": 0.0111657,
      "auxiliary_loss_mlp": 0.01009732,
      "balance_loss_clip": 1.02899575,
      "balance_loss_mlp": 1.00334215,
      "epoch": 0.12829916431191005,
      "flos": 60757049099520.0,
      "grad_norm": 0.7071027886920319,
      "language_loss": 0.5268935,
      "learning_rate": 3.899593993763229e-06,
      "loss": 0.5481565,
      "num_input_tokens_seen": 22608465,
      "step": 1067,
      "time_per_iteration": 3.194667100906372
    },
    {
      "auxiliary_loss_clip": 0.012036,
      "auxiliary_loss_mlp": 0.01044661,
      "balance_loss_clip": 1.0601368,
      "balance_loss_mlp": 1.03076744,
      "epoch": 0.12841940720254916,
      "flos": 29786895636480.0,
      "grad_norm": 2.491266189534401,
      "language_loss": 0.81464601,
      "learning_rate": 3.899350135281796e-06,
      "loss": 0.83712864,
      "num_input_tokens_seen": 22629465,
      "step": 1068,
      "time_per_iteration": 2.8647518157958984
    },
    {
      "auxiliary_loss_clip": 0.01215575,
      "auxiliary_loss_mlp": 0.01047519,
      "balance_loss_clip": 1.06231809,
      "balance_loss_mlp": 1.03418505,
      "epoch": 0.12853965009318824,
      "flos": 25951851319680.0,
      "grad_norm": 1.9635562243898934,
      "language_loss": 0.79582024,
      "learning_rate": 3.8991059886704585e-06,
      "loss": 0.81845117,
      "num_input_tokens_seen": 22648970,
      "step": 1069,
      "time_per_iteration": 2.7129392623901367
    },
    {
      "auxiliary_loss_clip": 0.01205026,
      "auxiliary_loss_mlp": 0.01056924,
      "balance_loss_clip": 1.06114936,
      "balance_loss_mlp": 1.04229665,
      "epoch": 0.12865989298382732,
      "flos": 30846871008000.0,
      "grad_norm": 2.2030854506993824,
      "language_loss": 0.82942677,
      "learning_rate": 3.898861553966252e-06,
      "loss": 0.85204625,
      "num_input_tokens_seen": 22668620,
      "step": 1070,
      "time_per_iteration": 2.7730116844177246
    },
    {
      "auxiliary_loss_clip": 0.01179828,
      "auxiliary_loss_mlp": 0.01049187,
      "balance_loss_clip": 1.05223143,
      "balance_loss_mlp": 1.03556132,
      "epoch": 0.12878013587446643,
      "flos": 25885776251520.0,
      "grad_norm": 1.62996823515842,
      "language_loss": 0.8786906,
      "learning_rate": 3.898616831206257e-06,
      "loss": 0.90098071,
      "num_input_tokens_seen": 22689045,
      "step": 1071,
      "time_per_iteration": 3.0291593074798584
    },
    {
      "auxiliary_loss_clip": 0.01205983,
      "auxiliary_loss_mlp": 0.01048241,
      "balance_loss_clip": 1.05734456,
      "balance_loss_mlp": 1.03406692,
      "epoch": 0.12890037876510552,
      "flos": 23333138277120.0,
      "grad_norm": 1.875866939585762,
      "language_loss": 0.76703274,
      "learning_rate": 3.8983718204276e-06,
      "loss": 0.78957492,
      "num_input_tokens_seen": 22711265,
      "step": 1072,
      "time_per_iteration": 3.2199652194976807
    },
    {
      "auxiliary_loss_clip": 0.01225173,
      "auxiliary_loss_mlp": 0.01043721,
      "balance_loss_clip": 1.06413305,
      "balance_loss_mlp": 1.02980971,
      "epoch": 0.1290206216557446,
      "flos": 23587242065280.0,
      "grad_norm": 1.9673854578420755,
      "language_loss": 0.82427019,
      "learning_rate": 3.898126521667446e-06,
      "loss": 0.84695911,
      "num_input_tokens_seen": 22731420,
      "step": 1073,
      "time_per_iteration": 2.8787643909454346
    },
    {
      "auxiliary_loss_clip": 0.0123749,
      "auxiliary_loss_mlp": 0.01053673,
      "balance_loss_clip": 1.06568933,
      "balance_loss_mlp": 1.04005313,
      "epoch": 0.12914086454638368,
      "flos": 24170610850560.0,
      "grad_norm": 1.682477906166392,
      "language_loss": 0.83301306,
      "learning_rate": 3.897880934963007e-06,
      "loss": 0.85592473,
      "num_input_tokens_seen": 22750970,
      "step": 1074,
      "time_per_iteration": 2.679152250289917
    },
    {
      "auxiliary_loss_clip": 0.01217935,
      "auxiliary_loss_mlp": 0.01046823,
      "balance_loss_clip": 1.05974305,
      "balance_loss_mlp": 1.03196907,
      "epoch": 0.1292611074370228,
      "flos": 20267157081600.0,
      "grad_norm": 2.1667487976057136,
      "language_loss": 0.78355944,
      "learning_rate": 3.89763506035154e-06,
      "loss": 0.806207,
      "num_input_tokens_seen": 22768820,
      "step": 1075,
      "time_per_iteration": 2.6886966228485107
    },
    {
      "auxiliary_loss_clip": 0.01223628,
      "auxiliary_loss_mlp": 0.01048137,
      "balance_loss_clip": 1.06200159,
      "balance_loss_mlp": 1.03436291,
      "epoch": 0.12938135032766188,
      "flos": 27377684668800.0,
      "grad_norm": 1.706384769493516,
      "language_loss": 0.8146165,
      "learning_rate": 3.897388897870343e-06,
      "loss": 0.83733416,
      "num_input_tokens_seen": 22789460,
      "step": 1076,
      "time_per_iteration": 2.689603567123413
    },
    {
      "auxiliary_loss_clip": 0.01234039,
      "auxiliary_loss_mlp": 0.01041504,
      "balance_loss_clip": 1.06146693,
      "balance_loss_mlp": 1.02698398,
      "epoch": 0.12950159321830096,
      "flos": 29277107861760.0,
      "grad_norm": 1.7793310035490695,
      "language_loss": 0.75047326,
      "learning_rate": 3.89714244755676e-06,
      "loss": 0.77322865,
      "num_input_tokens_seen": 22810820,
      "step": 1077,
      "time_per_iteration": 2.7356560230255127
    },
    {
      "auxiliary_loss_clip": 0.01186717,
      "auxiliary_loss_mlp": 0.01049355,
      "balance_loss_clip": 1.05322611,
      "balance_loss_mlp": 1.03454971,
      "epoch": 0.12962183610894007,
      "flos": 24534888629760.0,
      "grad_norm": 2.564946414969362,
      "language_loss": 0.86375064,
      "learning_rate": 3.896895709448175e-06,
      "loss": 0.88611138,
      "num_input_tokens_seen": 22830570,
      "step": 1078,
      "time_per_iteration": 2.7596182823181152
    },
    {
      "auxiliary_loss_clip": 0.01183962,
      "auxiliary_loss_mlp": 0.01042136,
      "balance_loss_clip": 1.05257201,
      "balance_loss_mlp": 1.02846313,
      "epoch": 0.12974207899957915,
      "flos": 11215944552960.0,
      "grad_norm": 3.373577415898911,
      "language_loss": 0.77207595,
      "learning_rate": 3.896648683582019e-06,
      "loss": 0.79433692,
      "num_input_tokens_seen": 22845905,
      "step": 1079,
      "time_per_iteration": 2.782971143722534
    },
    {
      "auxiliary_loss_clip": 0.01198862,
      "auxiliary_loss_mlp": 0.01039322,
      "balance_loss_clip": 1.06121039,
      "balance_loss_mlp": 1.02560699,
      "epoch": 0.12986232189021824,
      "flos": 24717889445760.0,
      "grad_norm": 2.224058218005758,
      "language_loss": 0.81004488,
      "learning_rate": 3.896401369995766e-06,
      "loss": 0.83242667,
      "num_input_tokens_seen": 22865710,
      "step": 1080,
      "time_per_iteration": 2.7707929611206055
    },
    {
      "auxiliary_loss_clip": 0.01244492,
      "auxiliary_loss_mlp": 0.01042513,
      "balance_loss_clip": 1.06624079,
      "balance_loss_mlp": 1.02837467,
      "epoch": 0.12998256478085732,
      "flos": 23915357827200.0,
      "grad_norm": 1.9132697313449356,
      "language_loss": 0.79722774,
      "learning_rate": 3.896153768726932e-06,
      "loss": 0.82009768,
      "num_input_tokens_seen": 22886020,
      "step": 1081,
      "time_per_iteration": 2.664119243621826
    },
    {
      "auxiliary_loss_clip": 0.01236088,
      "auxiliary_loss_mlp": 0.01047846,
      "balance_loss_clip": 1.06850505,
      "balance_loss_mlp": 1.03406549,
      "epoch": 0.13010280767149643,
      "flos": 18624207974400.0,
      "grad_norm": 2.7291215734434746,
      "language_loss": 0.88004994,
      "learning_rate": 3.8959058798130806e-06,
      "loss": 0.90288931,
      "num_input_tokens_seen": 22903995,
      "step": 1082,
      "time_per_iteration": 3.8202297687530518
    },
    {
      "auxiliary_loss_clip": 0.01222136,
      "auxiliary_loss_mlp": 0.00892041,
      "balance_loss_clip": 1.06306362,
      "balance_loss_mlp": 0.99993122,
      "epoch": 0.1302230505621355,
      "flos": 22783992174720.0,
      "grad_norm": 1.7271533537668682,
      "language_loss": 0.74921519,
      "learning_rate": 3.895657703291814e-06,
      "loss": 0.77035695,
      "num_input_tokens_seen": 22924100,
      "step": 1083,
      "time_per_iteration": 2.7264890670776367
    },
    {
      "auxiliary_loss_clip": 0.0123521,
      "auxiliary_loss_mlp": 0.01047167,
      "balance_loss_clip": 1.06449842,
      "balance_loss_mlp": 1.0322777,
      "epoch": 0.1303432934527746,
      "flos": 21323612920320.0,
      "grad_norm": 2.7837978119725326,
      "language_loss": 0.79640853,
      "learning_rate": 3.895409239200781e-06,
      "loss": 0.81923234,
      "num_input_tokens_seen": 22939985,
      "step": 1084,
      "time_per_iteration": 2.7130484580993652
    },
    {
      "auxiliary_loss_clip": 0.0122336,
      "auxiliary_loss_mlp": 0.01048709,
      "balance_loss_clip": 1.06108117,
      "balance_loss_mlp": 1.03482127,
      "epoch": 0.1304635363434137,
      "flos": 20922490765440.0,
      "grad_norm": 2.451004199725189,
      "language_loss": 0.91545379,
      "learning_rate": 3.895160487577673e-06,
      "loss": 0.93817443,
      "num_input_tokens_seen": 22957555,
      "step": 1085,
      "time_per_iteration": 2.629554271697998
    },
    {
      "auxiliary_loss_clip": 0.01118738,
      "auxiliary_loss_mlp": 0.01019518,
      "balance_loss_clip": 1.02728581,
      "balance_loss_mlp": 1.01312816,
      "epoch": 0.1305837792340528,
      "flos": 63245659080960.0,
      "grad_norm": 0.7846808400577072,
      "language_loss": 0.60932255,
      "learning_rate": 3.894911448460226e-06,
      "loss": 0.63070512,
      "num_input_tokens_seen": 23016870,
      "step": 1086,
      "time_per_iteration": 4.959569692611694
    },
    {
      "auxiliary_loss_clip": 0.01156387,
      "auxiliary_loss_mlp": 0.01044009,
      "balance_loss_clip": 1.05145419,
      "balance_loss_mlp": 1.02867818,
      "epoch": 0.13070402212469187,
      "flos": 26428852955520.0,
      "grad_norm": 2.45518813572841,
      "language_loss": 0.72881293,
      "learning_rate": 3.8946621218862195e-06,
      "loss": 0.75081682,
      "num_input_tokens_seen": 23037870,
      "step": 1087,
      "time_per_iteration": 2.9707388877868652
    },
    {
      "auxiliary_loss_clip": 0.01206327,
      "auxiliary_loss_mlp": 0.010415,
      "balance_loss_clip": 1.05726492,
      "balance_loss_mlp": 1.02782106,
      "epoch": 0.13082426501533098,
      "flos": 27673409341440.0,
      "grad_norm": 2.074323942458303,
      "language_loss": 0.88998163,
      "learning_rate": 3.894412507893475e-06,
      "loss": 0.91245991,
      "num_input_tokens_seen": 23058150,
      "step": 1088,
      "time_per_iteration": 4.076447010040283
    },
    {
      "auxiliary_loss_clip": 0.01207162,
      "auxiliary_loss_mlp": 0.01043071,
      "balance_loss_clip": 1.05797172,
      "balance_loss_mlp": 1.02997637,
      "epoch": 0.13094450790597006,
      "flos": 24826770547200.0,
      "grad_norm": 2.2037750395949742,
      "language_loss": 0.72104579,
      "learning_rate": 3.894162606519859e-06,
      "loss": 0.74354815,
      "num_input_tokens_seen": 23077100,
      "step": 1089,
      "time_per_iteration": 2.756695032119751
    },
    {
      "auxiliary_loss_clip": 0.01198408,
      "auxiliary_loss_mlp": 0.01044425,
      "balance_loss_clip": 1.06035066,
      "balance_loss_mlp": 1.0310024,
      "epoch": 0.13106475079660915,
      "flos": 19062605468160.0,
      "grad_norm": 1.953572435460184,
      "language_loss": 0.77100778,
      "learning_rate": 3.893912417803282e-06,
      "loss": 0.79343611,
      "num_input_tokens_seen": 23096815,
      "step": 1090,
      "time_per_iteration": 2.7327890396118164
    },
    {
      "auxiliary_loss_clip": 0.01195839,
      "auxiliary_loss_mlp": 0.01042662,
      "balance_loss_clip": 1.05341148,
      "balance_loss_mlp": 1.02847648,
      "epoch": 0.13118499368724823,
      "flos": 28913189218560.0,
      "grad_norm": 3.1640644931654545,
      "language_loss": 0.76815087,
      "learning_rate": 3.8936619417816975e-06,
      "loss": 0.79053587,
      "num_input_tokens_seen": 23117145,
      "step": 1091,
      "time_per_iteration": 2.784623622894287
    },
    {
      "auxiliary_loss_clip": 0.01215702,
      "auxiliary_loss_mlp": 0.01043723,
      "balance_loss_clip": 1.06339681,
      "balance_loss_mlp": 1.03035975,
      "epoch": 0.13130523657788734,
      "flos": 14283398206080.0,
      "grad_norm": 1.7553826556080914,
      "language_loss": 0.71678901,
      "learning_rate": 3.8934111784931015e-06,
      "loss": 0.73938322,
      "num_input_tokens_seen": 23134595,
      "step": 1092,
      "time_per_iteration": 2.781181812286377
    },
    {
      "auxiliary_loss_clip": 0.01117025,
      "auxiliary_loss_mlp": 0.01006059,
      "balance_loss_clip": 1.02571869,
      "balance_loss_mlp": 0.99952585,
      "epoch": 0.13142547946852642,
      "flos": 70174155519360.0,
      "grad_norm": 0.9092789482454522,
      "language_loss": 0.5905441,
      "learning_rate": 3.893160127975535e-06,
      "loss": 0.61177492,
      "num_input_tokens_seen": 23195285,
      "step": 1093,
      "time_per_iteration": 3.3483035564422607
    },
    {
      "auxiliary_loss_clip": 0.01202535,
      "auxiliary_loss_mlp": 0.01042596,
      "balance_loss_clip": 1.056566,
      "balance_loss_mlp": 1.02922106,
      "epoch": 0.1315457223591655,
      "flos": 45805998844800.0,
      "grad_norm": 2.3930129417469574,
      "language_loss": 0.81167912,
      "learning_rate": 3.8929087902670826e-06,
      "loss": 0.83413041,
      "num_input_tokens_seen": 23216915,
      "step": 1094,
      "time_per_iteration": 2.9672718048095703
    },
    {
      "auxiliary_loss_clip": 0.01122687,
      "auxiliary_loss_mlp": 0.01006367,
      "balance_loss_clip": 1.02484095,
      "balance_loss_mlp": 0.99997771,
      "epoch": 0.13166596524980462,
      "flos": 62881165820160.0,
      "grad_norm": 0.9928742928429716,
      "language_loss": 0.60698014,
      "learning_rate": 3.8926571654058715e-06,
      "loss": 0.62827069,
      "num_input_tokens_seen": 23273560,
      "step": 1095,
      "time_per_iteration": 3.195115089416504
    },
    {
      "auxiliary_loss_clip": 0.01207593,
      "auxiliary_loss_mlp": 0.01044339,
      "balance_loss_clip": 1.06020308,
      "balance_loss_mlp": 1.03011739,
      "epoch": 0.1317862081404437,
      "flos": 23586523793280.0,
      "grad_norm": 2.2040393597045744,
      "language_loss": 0.77044988,
      "learning_rate": 3.892405253430074e-06,
      "loss": 0.79296923,
      "num_input_tokens_seen": 23291080,
      "step": 1096,
      "time_per_iteration": 2.7270760536193848
    },
    {
      "auxiliary_loss_clip": 0.01224562,
      "auxiliary_loss_mlp": 0.00890827,
      "balance_loss_clip": 1.06369972,
      "balance_loss_mlp": 0.99997783,
      "epoch": 0.13190645103108278,
      "flos": 20260764460800.0,
      "grad_norm": 2.01365265579947,
      "language_loss": 0.82373339,
      "learning_rate": 3.892153054377904e-06,
      "loss": 0.84488732,
      "num_input_tokens_seen": 23308485,
      "step": 1097,
      "time_per_iteration": 2.7424705028533936
    },
    {
      "auxiliary_loss_clip": 0.01085432,
      "auxiliary_loss_mlp": 0.01020243,
      "balance_loss_clip": 1.0226109,
      "balance_loss_mlp": 1.01390159,
      "epoch": 0.13202669392172187,
      "flos": 53455440136320.0,
      "grad_norm": 0.938374485465887,
      "language_loss": 0.59416974,
      "learning_rate": 3.891900568287619e-06,
      "loss": 0.61522651,
      "num_input_tokens_seen": 23360870,
      "step": 1098,
      "time_per_iteration": 3.333146572113037
    },
    {
      "auxiliary_loss_clip": 0.01215396,
      "auxiliary_loss_mlp": 0.01038569,
      "balance_loss_clip": 1.06132078,
      "balance_loss_mlp": 1.02444863,
      "epoch": 0.13214693681236098,
      "flos": 15851293845120.0,
      "grad_norm": 2.334883619091853,
      "language_loss": 0.72160268,
      "learning_rate": 3.891647795197523e-06,
      "loss": 0.74414235,
      "num_input_tokens_seen": 23376910,
      "step": 1099,
      "time_per_iteration": 2.8159677982330322
    },
    {
      "auxiliary_loss_clip": 0.01220411,
      "auxiliary_loss_mlp": 0.01042471,
      "balance_loss_clip": 1.05782771,
      "balance_loss_mlp": 1.02727199,
      "epoch": 0.13226717970300006,
      "flos": 19353840940800.0,
      "grad_norm": 2.2836050025433137,
      "language_loss": 0.6842075,
      "learning_rate": 3.8913947351459605e-06,
      "loss": 0.70683634,
      "num_input_tokens_seen": 23394450,
      "step": 1100,
      "time_per_iteration": 2.747142791748047
    },
    {
      "auxiliary_loss_clip": 0.01245815,
      "auxiliary_loss_mlp": 0.01038887,
      "balance_loss_clip": 1.06797421,
      "balance_loss_mlp": 1.02584553,
      "epoch": 0.13238742259363914,
      "flos": 20698084546560.0,
      "grad_norm": 1.8152681622471571,
      "language_loss": 0.67902058,
      "learning_rate": 3.89114138817132e-06,
      "loss": 0.70186764,
      "num_input_tokens_seen": 23411115,
      "step": 1101,
      "time_per_iteration": 2.6078097820281982
    },
    {
      "auxiliary_loss_clip": 0.01232777,
      "auxiliary_loss_mlp": 0.01043519,
      "balance_loss_clip": 1.06710184,
      "balance_loss_mlp": 1.03090692,
      "epoch": 0.13250766548427825,
      "flos": 21032449274880.0,
      "grad_norm": 1.9542414418708982,
      "language_loss": 0.8456943,
      "learning_rate": 3.890887754312035e-06,
      "loss": 0.86845726,
      "num_input_tokens_seen": 23429360,
      "step": 1102,
      "time_per_iteration": 2.6731979846954346
    },
    {
      "auxiliary_loss_clip": 0.01218276,
      "auxiliary_loss_mlp": 0.01050314,
      "balance_loss_clip": 1.06032491,
      "balance_loss_mlp": 1.03677201,
      "epoch": 0.13262790837491734,
      "flos": 22637871648000.0,
      "grad_norm": 2.2496678863728934,
      "language_loss": 0.87700653,
      "learning_rate": 3.890633833606581e-06,
      "loss": 0.89969236,
      "num_input_tokens_seen": 23449050,
      "step": 1103,
      "time_per_iteration": 2.7067532539367676
    },
    {
      "auxiliary_loss_clip": 0.01233453,
      "auxiliary_loss_mlp": 0.0103874,
      "balance_loss_clip": 1.06853926,
      "balance_loss_mlp": 1.02523375,
      "epoch": 0.13274815126555642,
      "flos": 19683141851520.0,
      "grad_norm": 1.7630418832372987,
      "language_loss": 0.6976642,
      "learning_rate": 3.890379626093477e-06,
      "loss": 0.72038609,
      "num_input_tokens_seen": 23468800,
      "step": 1104,
      "time_per_iteration": 2.7137999534606934
    },
    {
      "auxiliary_loss_clip": 0.0118795,
      "auxiliary_loss_mlp": 0.01041333,
      "balance_loss_clip": 1.05767989,
      "balance_loss_mlp": 1.02727842,
      "epoch": 0.1328683941561955,
      "flos": 21317687176320.0,
      "grad_norm": 2.2770350068458467,
      "language_loss": 0.9229517,
      "learning_rate": 3.890125131811287e-06,
      "loss": 0.94524455,
      "num_input_tokens_seen": 23486850,
      "step": 1105,
      "time_per_iteration": 2.7351558208465576
    },
    {
      "auxiliary_loss_clip": 0.01206132,
      "auxiliary_loss_mlp": 0.01041652,
      "balance_loss_clip": 1.05386209,
      "balance_loss_mlp": 1.0285269,
      "epoch": 0.1329886370468346,
      "flos": 13699131580800.0,
      "grad_norm": 2.0308232351362703,
      "language_loss": 0.75654221,
      "learning_rate": 3.889870350798618e-06,
      "loss": 0.77902001,
      "num_input_tokens_seen": 23504195,
      "step": 1106,
      "time_per_iteration": 2.693028450012207
    },
    {
      "auxiliary_loss_clip": 0.01240599,
      "auxiliary_loss_mlp": 0.01047247,
      "balance_loss_clip": 1.06254375,
      "balance_loss_mlp": 1.03314471,
      "epoch": 0.1331088799374737,
      "flos": 21032413361280.0,
      "grad_norm": 1.676093612259554,
      "language_loss": 0.7845614,
      "learning_rate": 3.889615283094119e-06,
      "loss": 0.8074398,
      "num_input_tokens_seen": 23523385,
      "step": 1107,
      "time_per_iteration": 2.641054391860962
    },
    {
      "auxiliary_loss_clip": 0.01247565,
      "auxiliary_loss_mlp": 0.01046177,
      "balance_loss_clip": 1.06594968,
      "balance_loss_mlp": 1.0319314,
      "epoch": 0.13322912282811278,
      "flos": 18260432985600.0,
      "grad_norm": 2.0680520946077725,
      "language_loss": 0.84936869,
      "learning_rate": 3.889359928736485e-06,
      "loss": 0.87230611,
      "num_input_tokens_seen": 23541330,
      "step": 1108,
      "time_per_iteration": 3.5835680961608887
    },
    {
      "auxiliary_loss_clip": 0.01215452,
      "auxiliary_loss_mlp": 0.00890366,
      "balance_loss_clip": 1.06206262,
      "balance_loss_mlp": 1.00000179,
      "epoch": 0.1333493657187519,
      "flos": 24460876656000.0,
      "grad_norm": 2.439748190822319,
      "language_loss": 0.91345924,
      "learning_rate": 3.889104287764451e-06,
      "loss": 0.93451744,
      "num_input_tokens_seen": 23561705,
      "step": 1109,
      "time_per_iteration": 2.712374687194824
    },
    {
      "auxiliary_loss_clip": 0.01222269,
      "auxiliary_loss_mlp": 0.0104689,
      "balance_loss_clip": 1.06598234,
      "balance_loss_mlp": 1.03281128,
      "epoch": 0.13346960860939097,
      "flos": 22158930677760.0,
      "grad_norm": 2.155704631280552,
      "language_loss": 0.90632045,
      "learning_rate": 3.888848360216798e-06,
      "loss": 0.92901206,
      "num_input_tokens_seen": 23579350,
      "step": 1110,
      "time_per_iteration": 2.6902618408203125
    },
    {
      "auxiliary_loss_clip": 0.01115802,
      "auxiliary_loss_mlp": 0.01021665,
      "balance_loss_clip": 1.02263927,
      "balance_loss_mlp": 1.01498938,
      "epoch": 0.13358985150003005,
      "flos": 67931212608000.0,
      "grad_norm": 0.8041361863249933,
      "language_loss": 0.56634998,
      "learning_rate": 3.888592146132351e-06,
      "loss": 0.58772469,
      "num_input_tokens_seen": 23640620,
      "step": 1111,
      "time_per_iteration": 4.2284324169158936
    },
    {
      "auxiliary_loss_clip": 0.01231486,
      "auxiliary_loss_mlp": 0.01047328,
      "balance_loss_clip": 1.06562924,
      "balance_loss_mlp": 1.03324306,
      "epoch": 0.13371009439066917,
      "flos": 26834284742400.0,
      "grad_norm": 2.435357518843724,
      "language_loss": 0.78713793,
      "learning_rate": 3.888335645549978e-06,
      "loss": 0.80992603,
      "num_input_tokens_seen": 23661040,
      "step": 1112,
      "time_per_iteration": 3.9101998805999756
    },
    {
      "auxiliary_loss_clip": 0.01246437,
      "auxiliary_loss_mlp": 0.01051005,
      "balance_loss_clip": 1.06892419,
      "balance_loss_mlp": 1.0373795,
      "epoch": 0.13383033728130825,
      "flos": 26322844942080.0,
      "grad_norm": 2.758475250728851,
      "language_loss": 0.81346709,
      "learning_rate": 3.888078858508588e-06,
      "loss": 0.83644158,
      "num_input_tokens_seen": 23680900,
      "step": 1113,
      "time_per_iteration": 2.7141988277435303
    },
    {
      "auxiliary_loss_clip": 0.01220879,
      "auxiliary_loss_mlp": 0.0104145,
      "balance_loss_clip": 1.06516755,
      "balance_loss_mlp": 1.02815223,
      "epoch": 0.13395058017194733,
      "flos": 22563931501440.0,
      "grad_norm": 3.9274917033147623,
      "language_loss": 0.84769022,
      "learning_rate": 3.8878217850471365e-06,
      "loss": 0.87031353,
      "num_input_tokens_seen": 23700815,
      "step": 1114,
      "time_per_iteration": 3.7180306911468506
    },
    {
      "auxiliary_loss_clip": 0.01251813,
      "auxiliary_loss_mlp": 0.01050796,
      "balance_loss_clip": 1.07105541,
      "balance_loss_mlp": 1.03693199,
      "epoch": 0.13407082306258641,
      "flos": 25810938264960.0,
      "grad_norm": 1.7072295906091572,
      "language_loss": 0.74090618,
      "learning_rate": 3.887564425204621e-06,
      "loss": 0.76393223,
      "num_input_tokens_seen": 23722500,
      "step": 1115,
      "time_per_iteration": 2.690797805786133
    },
    {
      "auxiliary_loss_clip": 0.0109895,
      "auxiliary_loss_mlp": 0.0100634,
      "balance_loss_clip": 1.02515197,
      "balance_loss_mlp": 0.99980754,
      "epoch": 0.13419106595322552,
      "flos": 68338365269760.0,
      "grad_norm": 0.8471295716097825,
      "language_loss": 0.54715508,
      "learning_rate": 3.887306779020083e-06,
      "loss": 0.56820798,
      "num_input_tokens_seen": 23777155,
      "step": 1116,
      "time_per_iteration": 3.1758487224578857
    },
    {
      "auxiliary_loss_clip": 0.0123521,
      "auxiliary_loss_mlp": 0.01040335,
      "balance_loss_clip": 1.06512511,
      "balance_loss_mlp": 1.02690017,
      "epoch": 0.1343113088438646,
      "flos": 20449080489600.0,
      "grad_norm": 2.254734856036107,
      "language_loss": 0.70383519,
      "learning_rate": 3.887048846532608e-06,
      "loss": 0.72659063,
      "num_input_tokens_seen": 23794130,
      "step": 1117,
      "time_per_iteration": 2.657376289367676
    },
    {
      "auxiliary_loss_clip": 0.01105891,
      "auxiliary_loss_mlp": 0.01013411,
      "balance_loss_clip": 1.02322924,
      "balance_loss_mlp": 1.00683117,
      "epoch": 0.1344315517345037,
      "flos": 67389784951680.0,
      "grad_norm": 0.756167752471758,
      "language_loss": 0.5813657,
      "learning_rate": 3.8867906277813224e-06,
      "loss": 0.60255873,
      "num_input_tokens_seen": 23852285,
      "step": 1118,
      "time_per_iteration": 3.1498000621795654
    },
    {
      "auxiliary_loss_clip": 0.01237982,
      "auxiliary_loss_mlp": 0.00889959,
      "balance_loss_clip": 1.06448412,
      "balance_loss_mlp": 1.00004983,
      "epoch": 0.1345517946251428,
      "flos": 40734442788480.0,
      "grad_norm": 2.3684036374510993,
      "language_loss": 0.73560411,
      "learning_rate": 3.886532122805399e-06,
      "loss": 0.7568835,
      "num_input_tokens_seen": 23874765,
      "step": 1119,
      "time_per_iteration": 2.8581128120422363
    },
    {
      "auxiliary_loss_clip": 0.01176965,
      "auxiliary_loss_mlp": 0.01037887,
      "balance_loss_clip": 1.05305982,
      "balance_loss_mlp": 1.02371335,
      "epoch": 0.13467203751578188,
      "flos": 22816850140800.0,
      "grad_norm": 1.9562999847235463,
      "language_loss": 0.89970708,
      "learning_rate": 3.886273331644053e-06,
      "loss": 0.92185563,
      "num_input_tokens_seen": 23893635,
      "step": 1120,
      "time_per_iteration": 2.8689699172973633
    },
    {
      "auxiliary_loss_clip": 0.01205023,
      "auxiliary_loss_mlp": 0.01045085,
      "balance_loss_clip": 1.06308377,
      "balance_loss_mlp": 1.03100681,
      "epoch": 0.13479228040642097,
      "flos": 17091576512640.0,
      "grad_norm": 2.2543858805572072,
      "language_loss": 0.8244403,
      "learning_rate": 3.886014254336542e-06,
      "loss": 0.84694141,
      "num_input_tokens_seen": 23910110,
      "step": 1121,
      "time_per_iteration": 2.8960471153259277
    },
    {
      "auxiliary_loss_clip": 0.01229625,
      "auxiliary_loss_mlp": 0.01047907,
      "balance_loss_clip": 1.0623982,
      "balance_loss_mlp": 1.03431666,
      "epoch": 0.13491252329706005,
      "flos": 23730525417600.0,
      "grad_norm": 1.9209375609068562,
      "language_loss": 0.92541987,
      "learning_rate": 3.885754890922168e-06,
      "loss": 0.94819516,
      "num_input_tokens_seen": 23930440,
      "step": 1122,
      "time_per_iteration": 2.7290728092193604
    },
    {
      "auxiliary_loss_clip": 0.01168807,
      "auxiliary_loss_mlp": 0.01050374,
      "balance_loss_clip": 1.05469978,
      "balance_loss_mlp": 1.03676009,
      "epoch": 0.13503276618769916,
      "flos": 34127058960000.0,
      "grad_norm": 2.0008554503869904,
      "language_loss": 0.7877562,
      "learning_rate": 3.885495241440277e-06,
      "loss": 0.80994797,
      "num_input_tokens_seen": 23954535,
      "step": 1123,
      "time_per_iteration": 3.0496742725372314
    },
    {
      "auxiliary_loss_clip": 0.01244443,
      "auxiliary_loss_mlp": 0.01039155,
      "balance_loss_clip": 1.06569171,
      "balance_loss_mlp": 1.02667332,
      "epoch": 0.13515300907833824,
      "flos": 17712328377600.0,
      "grad_norm": 1.8045610876719071,
      "language_loss": 0.74342906,
      "learning_rate": 3.885235305930257e-06,
      "loss": 0.76626509,
      "num_input_tokens_seen": 23972735,
      "step": 1124,
      "time_per_iteration": 3.0271918773651123
    },
    {
      "auxiliary_loss_clip": 0.01203977,
      "auxiliary_loss_mlp": 0.01043932,
      "balance_loss_clip": 1.06306279,
      "balance_loss_mlp": 1.02994895,
      "epoch": 0.13527325196897733,
      "flos": 20260872201600.0,
      "grad_norm": 2.322349870422447,
      "language_loss": 0.85405517,
      "learning_rate": 3.884975084431539e-06,
      "loss": 0.87653428,
      "num_input_tokens_seen": 23987685,
      "step": 1125,
      "time_per_iteration": 2.704571008682251
    },
    {
      "auxiliary_loss_clip": 0.01223304,
      "auxiliary_loss_mlp": 0.00891495,
      "balance_loss_clip": 1.06533968,
      "balance_loss_mlp": 1.00009191,
      "epoch": 0.13539349485961644,
      "flos": 18186492839040.0,
      "grad_norm": 2.267808928303323,
      "language_loss": 0.91110915,
      "learning_rate": 3.8847145769836e-06,
      "loss": 0.93225718,
      "num_input_tokens_seen": 24004105,
      "step": 1126,
      "time_per_iteration": 2.64695405960083
    },
    {
      "auxiliary_loss_clip": 0.01250936,
      "auxiliary_loss_mlp": 0.01041171,
      "balance_loss_clip": 1.07095146,
      "balance_loss_mlp": 1.02725339,
      "epoch": 0.13551373775025552,
      "flos": 19317463441920.0,
      "grad_norm": 3.0068021260020754,
      "language_loss": 0.6653682,
      "learning_rate": 3.884453783625959e-06,
      "loss": 0.68828928,
      "num_input_tokens_seen": 24021715,
      "step": 1127,
      "time_per_iteration": 2.6313772201538086
    },
    {
      "auxiliary_loss_clip": 0.01217097,
      "auxiliary_loss_mlp": 0.01039188,
      "balance_loss_clip": 1.06420827,
      "balance_loss_mlp": 1.02605653,
      "epoch": 0.1356339806408946,
      "flos": 20850813175680.0,
      "grad_norm": 3.8081195241689545,
      "language_loss": 0.84854436,
      "learning_rate": 3.884192704398176e-06,
      "loss": 0.87110722,
      "num_input_tokens_seen": 24038915,
      "step": 1128,
      "time_per_iteration": 2.6705892086029053
    },
    {
      "auxiliary_loss_clip": 0.01235917,
      "auxiliary_loss_mlp": 0.01056539,
      "balance_loss_clip": 1.06460476,
      "balance_loss_mlp": 1.04172182,
      "epoch": 0.13575422353153369,
      "flos": 50476037696640.0,
      "grad_norm": 1.8210310129393619,
      "language_loss": 0.74444437,
      "learning_rate": 3.883931339339858e-06,
      "loss": 0.76736891,
      "num_input_tokens_seen": 24063300,
      "step": 1129,
      "time_per_iteration": 2.9279675483703613
    },
    {
      "auxiliary_loss_clip": 0.012442,
      "auxiliary_loss_mlp": 0.01044776,
      "balance_loss_clip": 1.06930232,
      "balance_loss_mlp": 1.03030384,
      "epoch": 0.1358744664221728,
      "flos": 18150797698560.0,
      "grad_norm": 2.1044244796594094,
      "language_loss": 0.7866081,
      "learning_rate": 3.883669688490654e-06,
      "loss": 0.80949783,
      "num_input_tokens_seen": 24081070,
      "step": 1130,
      "time_per_iteration": 2.6318743228912354
    },
    {
      "auxiliary_loss_clip": 0.01209989,
      "auxiliary_loss_mlp": 0.00890574,
      "balance_loss_clip": 1.06043172,
      "balance_loss_mlp": 1.00017178,
      "epoch": 0.13599470931281188,
      "flos": 18442966924800.0,
      "grad_norm": 2.092277045128841,
      "language_loss": 0.85719419,
      "learning_rate": 3.883407751890256e-06,
      "loss": 0.87819982,
      "num_input_tokens_seen": 24099675,
      "step": 1131,
      "time_per_iteration": 2.6780474185943604
    },
    {
      "auxiliary_loss_clip": 0.01203728,
      "auxiliary_loss_mlp": 0.0104883,
      "balance_loss_clip": 1.05644917,
      "balance_loss_mlp": 1.03506112,
      "epoch": 0.13611495220345096,
      "flos": 26680766014080.0,
      "grad_norm": 2.049338806472678,
      "language_loss": 0.85648406,
      "learning_rate": 3.8831455295783994e-06,
      "loss": 0.8790096,
      "num_input_tokens_seen": 24118925,
      "step": 1132,
      "time_per_iteration": 2.7358713150024414
    },
    {
      "auxiliary_loss_clip": 0.01210751,
      "auxiliary_loss_mlp": 0.0104381,
      "balance_loss_clip": 1.05828929,
      "balance_loss_mlp": 1.03004098,
      "epoch": 0.13623519509409007,
      "flos": 21686238673920.0,
      "grad_norm": 1.8524215250911245,
      "language_loss": 0.74403119,
      "learning_rate": 3.882883021594864e-06,
      "loss": 0.76657671,
      "num_input_tokens_seen": 24137065,
      "step": 1133,
      "time_per_iteration": 2.701173782348633
    },
    {
      "auxiliary_loss_clip": 0.01200646,
      "auxiliary_loss_mlp": 0.01052523,
      "balance_loss_clip": 1.05800939,
      "balance_loss_mlp": 1.03884387,
      "epoch": 0.13635543798472916,
      "flos": 14830389492480.0,
      "grad_norm": 2.3843975597619242,
      "language_loss": 0.86725569,
      "learning_rate": 3.8826202279794705e-06,
      "loss": 0.88978744,
      "num_input_tokens_seen": 24154125,
      "step": 1134,
      "time_per_iteration": 4.069227695465088
    },
    {
      "auxiliary_loss_clip": 0.01247278,
      "auxiliary_loss_mlp": 0.01042832,
      "balance_loss_clip": 1.06967759,
      "balance_loss_mlp": 1.02884853,
      "epoch": 0.13647568087536824,
      "flos": 22890323410560.0,
      "grad_norm": 2.0777245779640214,
      "language_loss": 0.70479763,
      "learning_rate": 3.882357148772085e-06,
      "loss": 0.72769868,
      "num_input_tokens_seen": 24171550,
      "step": 1135,
      "time_per_iteration": 2.7767837047576904
    },
    {
      "auxiliary_loss_clip": 0.01194033,
      "auxiliary_loss_mlp": 0.01039774,
      "balance_loss_clip": 1.05832636,
      "balance_loss_mlp": 1.02602923,
      "epoch": 0.13659592376600732,
      "flos": 19937927998080.0,
      "grad_norm": 2.3388701307637763,
      "language_loss": 0.84420502,
      "learning_rate": 3.882093784012617e-06,
      "loss": 0.86654311,
      "num_input_tokens_seen": 24190190,
      "step": 1136,
      "time_per_iteration": 2.7116544246673584
    },
    {
      "auxiliary_loss_clip": 0.01221475,
      "auxiliary_loss_mlp": 0.0104454,
      "balance_loss_clip": 1.06377268,
      "balance_loss_mlp": 1.03020513,
      "epoch": 0.13671616665664643,
      "flos": 21428579439360.0,
      "grad_norm": 1.7309373901449276,
      "language_loss": 0.83906198,
      "learning_rate": 3.881830133741019e-06,
      "loss": 0.86172217,
      "num_input_tokens_seen": 24209055,
      "step": 1137,
      "time_per_iteration": 2.671839952468872
    },
    {
      "auxiliary_loss_clip": 0.01213184,
      "auxiliary_loss_mlp": 0.01048064,
      "balance_loss_clip": 1.06495762,
      "balance_loss_mlp": 1.03496289,
      "epoch": 0.13683640954728551,
      "flos": 22778138257920.0,
      "grad_norm": 3.5366293992053692,
      "language_loss": 0.76081049,
      "learning_rate": 3.881566197997285e-06,
      "loss": 0.78342295,
      "num_input_tokens_seen": 24225490,
      "step": 1138,
      "time_per_iteration": 3.7026829719543457
    },
    {
      "auxiliary_loss_clip": 0.01217581,
      "auxiliary_loss_mlp": 0.01041033,
      "balance_loss_clip": 1.06454706,
      "balance_loss_mlp": 1.02775955,
      "epoch": 0.1369566524379246,
      "flos": 21725884310400.0,
      "grad_norm": 3.581094469617836,
      "language_loss": 0.7468676,
      "learning_rate": 3.881301976821456e-06,
      "loss": 0.7694537,
      "num_input_tokens_seen": 24245520,
      "step": 1139,
      "time_per_iteration": 2.7151098251342773
    },
    {
      "auxiliary_loss_clip": 0.0122895,
      "auxiliary_loss_mlp": 0.01041691,
      "balance_loss_clip": 1.06572509,
      "balance_loss_mlp": 1.02911413,
      "epoch": 0.1370768953285637,
      "flos": 18624459369600.0,
      "grad_norm": 1.826097531478392,
      "language_loss": 0.90451026,
      "learning_rate": 3.881037470253612e-06,
      "loss": 0.92721671,
      "num_input_tokens_seen": 24265035,
      "step": 1140,
      "time_per_iteration": 3.6030924320220947
    },
    {
      "auxiliary_loss_clip": 0.01198793,
      "auxiliary_loss_mlp": 0.010518,
      "balance_loss_clip": 1.06142044,
      "balance_loss_mlp": 1.03742337,
      "epoch": 0.1371971382192028,
      "flos": 14939521989120.0,
      "grad_norm": 3.298682391477176,
      "language_loss": 0.79614711,
      "learning_rate": 3.88077267833388e-06,
      "loss": 0.81865299,
      "num_input_tokens_seen": 24281550,
      "step": 1141,
      "time_per_iteration": 2.825120687484741
    },
    {
      "auxiliary_loss_clip": 0.01188716,
      "auxiliary_loss_mlp": 0.01044655,
      "balance_loss_clip": 1.05604005,
      "balance_loss_mlp": 1.0310173,
      "epoch": 0.13731738110984187,
      "flos": 19023785844480.0,
      "grad_norm": 2.2610626904849864,
      "language_loss": 0.83641601,
      "learning_rate": 3.880507601102427e-06,
      "loss": 0.85874975,
      "num_input_tokens_seen": 24299485,
      "step": 1142,
      "time_per_iteration": 2.826174020767212
    },
    {
      "auxiliary_loss_clip": 0.01246316,
      "auxiliary_loss_mlp": 0.01048345,
      "balance_loss_clip": 1.07007182,
      "balance_loss_mlp": 1.03547668,
      "epoch": 0.13743762400048098,
      "flos": 18187462506240.0,
      "grad_norm": 1.8189869771146567,
      "language_loss": 0.8226676,
      "learning_rate": 3.880242238599467e-06,
      "loss": 0.84561419,
      "num_input_tokens_seen": 24316010,
      "step": 1143,
      "time_per_iteration": 2.645585298538208
    },
    {
      "auxiliary_loss_clip": 0.01242165,
      "auxiliary_loss_mlp": 0.01041198,
      "balance_loss_clip": 1.0679307,
      "balance_loss_mlp": 1.02745283,
      "epoch": 0.13755786689112007,
      "flos": 21031982398080.0,
      "grad_norm": 1.6693627925165937,
      "language_loss": 0.83308196,
      "learning_rate": 3.879976590865254e-06,
      "loss": 0.85591555,
      "num_input_tokens_seen": 24335465,
      "step": 1144,
      "time_per_iteration": 2.6405465602874756
    },
    {
      "auxiliary_loss_clip": 0.01221803,
      "auxiliary_loss_mlp": 0.01050867,
      "balance_loss_clip": 1.06524229,
      "balance_loss_mlp": 1.03714573,
      "epoch": 0.13767810978175915,
      "flos": 21360636864000.0,
      "grad_norm": 1.9023625269833835,
      "language_loss": 0.87208205,
      "learning_rate": 3.879710657940087e-06,
      "loss": 0.89480877,
      "num_input_tokens_seen": 24354415,
      "step": 1145,
      "time_per_iteration": 2.688405990600586
    },
    {
      "auxiliary_loss_clip": 0.01234117,
      "auxiliary_loss_mlp": 0.01042891,
      "balance_loss_clip": 1.06633329,
      "balance_loss_mlp": 1.02968264,
      "epoch": 0.13779835267239823,
      "flos": 30592084861440.0,
      "grad_norm": 1.9476682667059648,
      "language_loss": 0.69858587,
      "learning_rate": 3.879444439864308e-06,
      "loss": 0.72135592,
      "num_input_tokens_seen": 24373990,
      "step": 1146,
      "time_per_iteration": 2.8140101432800293
    },
    {
      "auxiliary_loss_clip": 0.0123413,
      "auxiliary_loss_mlp": 0.00890973,
      "balance_loss_clip": 1.06580901,
      "balance_loss_mlp": 1.00013709,
      "epoch": 0.13791859556303734,
      "flos": 22669867687680.0,
      "grad_norm": 2.352652595137842,
      "language_loss": 0.85574687,
      "learning_rate": 3.879177936678301e-06,
      "loss": 0.87699795,
      "num_input_tokens_seen": 24392995,
      "step": 1147,
      "time_per_iteration": 2.6950759887695312
    },
    {
      "auxiliary_loss_clip": 0.01221734,
      "auxiliary_loss_mlp": 0.01043973,
      "balance_loss_clip": 1.06190324,
      "balance_loss_mlp": 1.03009677,
      "epoch": 0.13803883845367643,
      "flos": 35224166016000.0,
      "grad_norm": 3.0125824894214994,
      "language_loss": 0.77278703,
      "learning_rate": 3.878911148422496e-06,
      "loss": 0.79544401,
      "num_input_tokens_seen": 24414470,
      "step": 1148,
      "time_per_iteration": 2.8299405574798584
    },
    {
      "auxiliary_loss_clip": 0.01233952,
      "auxiliary_loss_mlp": 0.0105526,
      "balance_loss_clip": 1.06587529,
      "balance_loss_mlp": 1.04196239,
      "epoch": 0.1381590813443155,
      "flos": 32014542332160.0,
      "grad_norm": 2.3079867529917792,
      "language_loss": 0.70166862,
      "learning_rate": 3.878644075137364e-06,
      "loss": 0.72456074,
      "num_input_tokens_seen": 24435120,
      "step": 1149,
      "time_per_iteration": 2.7165274620056152
    },
    {
      "auxiliary_loss_clip": 0.01181006,
      "auxiliary_loss_mlp": 0.01042137,
      "balance_loss_clip": 1.05143178,
      "balance_loss_mlp": 1.02838063,
      "epoch": 0.13827932423495462,
      "flos": 17821855923840.0,
      "grad_norm": 2.0549561420725957,
      "language_loss": 0.79252541,
      "learning_rate": 3.878376716863418e-06,
      "loss": 0.81475687,
      "num_input_tokens_seen": 24451420,
      "step": 1150,
      "time_per_iteration": 2.7340803146362305
    },
    {
      "auxiliary_loss_clip": 0.01220255,
      "auxiliary_loss_mlp": 0.01044009,
      "balance_loss_clip": 1.06312239,
      "balance_loss_mlp": 1.0310812,
      "epoch": 0.1383995671255937,
      "flos": 19427098728960.0,
      "grad_norm": 2.02794020697504,
      "language_loss": 0.71633303,
      "learning_rate": 3.878109073641219e-06,
      "loss": 0.7389757,
      "num_input_tokens_seen": 24470450,
      "step": 1151,
      "time_per_iteration": 2.7125518321990967
    },
    {
      "auxiliary_loss_clip": 0.01190964,
      "auxiliary_loss_mlp": 0.01041533,
      "balance_loss_clip": 1.05844331,
      "balance_loss_mlp": 1.02892673,
      "epoch": 0.13851981001623279,
      "flos": 28296603331200.0,
      "grad_norm": 1.599532651642078,
      "language_loss": 0.81202781,
      "learning_rate": 3.877841145511366e-06,
      "loss": 0.83435285,
      "num_input_tokens_seen": 24493190,
      "step": 1152,
      "time_per_iteration": 2.8459508419036865
    },
    {
      "auxiliary_loss_clip": 0.01239102,
      "auxiliary_loss_mlp": 0.01041248,
      "balance_loss_clip": 1.0671643,
      "balance_loss_mlp": 1.02720499,
      "epoch": 0.13864005290687187,
      "flos": 21213079793280.0,
      "grad_norm": 1.733903135642855,
      "language_loss": 0.82677549,
      "learning_rate": 3.8775729325145035e-06,
      "loss": 0.84957898,
      "num_input_tokens_seen": 24512425,
      "step": 1153,
      "time_per_iteration": 2.659414291381836
    },
    {
      "auxiliary_loss_clip": 0.01088525,
      "auxiliary_loss_mlp": 0.01008049,
      "balance_loss_clip": 1.02311087,
      "balance_loss_mlp": 1.00227928,
      "epoch": 0.13876029579751098,
      "flos": 71653389413760.0,
      "grad_norm": 0.8047199236222299,
      "language_loss": 0.64729685,
      "learning_rate": 3.877304434691321e-06,
      "loss": 0.6682626,
      "num_input_tokens_seen": 24579275,
      "step": 1154,
      "time_per_iteration": 3.393425464630127
    },
    {
      "auxiliary_loss_clip": 0.01213134,
      "auxiliary_loss_mlp": 0.01042849,
      "balance_loss_clip": 1.06504059,
      "balance_loss_mlp": 1.03012371,
      "epoch": 0.13888053868815006,
      "flos": 21941348042880.0,
      "grad_norm": 2.173963903263443,
      "language_loss": 0.79610193,
      "learning_rate": 3.877035652082548e-06,
      "loss": 0.81866169,
      "num_input_tokens_seen": 24598720,
      "step": 1155,
      "time_per_iteration": 2.8518271446228027
    },
    {
      "auxiliary_loss_clip": 0.01216079,
      "auxiliary_loss_mlp": 0.01047056,
      "balance_loss_clip": 1.0652318,
      "balance_loss_mlp": 1.032691,
      "epoch": 0.13900078157878915,
      "flos": 19608627087360.0,
      "grad_norm": 1.7755763253854464,
      "language_loss": 0.85866737,
      "learning_rate": 3.87676658472896e-06,
      "loss": 0.88129878,
      "num_input_tokens_seen": 24617530,
      "step": 1156,
      "time_per_iteration": 2.711181402206421
    },
    {
      "auxiliary_loss_clip": 0.01232389,
      "auxiliary_loss_mlp": 0.01052368,
      "balance_loss_clip": 1.06348205,
      "balance_loss_mlp": 1.0382421,
      "epoch": 0.13912102446942826,
      "flos": 22638051216000.0,
      "grad_norm": 1.9478691855414318,
      "language_loss": 0.8498674,
      "learning_rate": 3.876497232671372e-06,
      "loss": 0.87271494,
      "num_input_tokens_seen": 24637485,
      "step": 1157,
      "time_per_iteration": 2.7602055072784424
    },
    {
      "auxiliary_loss_clip": 0.01203125,
      "auxiliary_loss_mlp": 0.0104283,
      "balance_loss_clip": 1.05811262,
      "balance_loss_mlp": 1.02947831,
      "epoch": 0.13924126736006734,
      "flos": 29643324975360.0,
      "grad_norm": 6.544293891979839,
      "language_loss": 0.83443761,
      "learning_rate": 3.876227595950647e-06,
      "loss": 0.85689712,
      "num_input_tokens_seen": 24656915,
      "step": 1158,
      "time_per_iteration": 2.79229474067688
    },
    {
      "auxiliary_loss_clip": 0.01243991,
      "auxiliary_loss_mlp": 0.01048947,
      "balance_loss_clip": 1.06821859,
      "balance_loss_mlp": 1.03572714,
      "epoch": 0.13936151025070642,
      "flos": 27417653527680.0,
      "grad_norm": 1.6361744386111228,
      "language_loss": 0.7879104,
      "learning_rate": 3.875957674607686e-06,
      "loss": 0.81083977,
      "num_input_tokens_seen": 24679190,
      "step": 1159,
      "time_per_iteration": 3.6601879596710205
    },
    {
      "auxiliary_loss_clip": 0.01219939,
      "auxiliary_loss_mlp": 0.00891548,
      "balance_loss_clip": 1.06037545,
      "balance_loss_mlp": 1.00013876,
      "epoch": 0.1394817531413455,
      "flos": 16399326625920.0,
      "grad_norm": 1.8466209471001813,
      "language_loss": 0.8800593,
      "learning_rate": 3.8756874686834386e-06,
      "loss": 0.90117419,
      "num_input_tokens_seen": 24697405,
      "step": 1160,
      "time_per_iteration": 2.648038625717163
    },
    {
      "auxiliary_loss_clip": 0.01239271,
      "auxiliary_loss_mlp": 0.00890859,
      "balance_loss_clip": 1.06633401,
      "balance_loss_mlp": 1.00017571,
      "epoch": 0.13960199603198462,
      "flos": 30922319525760.0,
      "grad_norm": 1.6459327282403668,
      "language_loss": 0.80463666,
      "learning_rate": 3.875416978218893e-06,
      "loss": 0.82593799,
      "num_input_tokens_seen": 24720600,
      "step": 1161,
      "time_per_iteration": 2.7373852729797363
    },
    {
      "auxiliary_loss_clip": 0.01222165,
      "auxiliary_loss_mlp": 0.01045826,
      "balance_loss_clip": 1.059847,
      "balance_loss_mlp": 1.03211117,
      "epoch": 0.1397222389226237,
      "flos": 18113773754880.0,
      "grad_norm": 2.130835477290275,
      "language_loss": 0.82675844,
      "learning_rate": 3.8751462032550835e-06,
      "loss": 0.84943831,
      "num_input_tokens_seen": 24737605,
      "step": 1162,
      "time_per_iteration": 2.68046236038208
    },
    {
      "auxiliary_loss_clip": 0.01221074,
      "auxiliary_loss_mlp": 0.0105294,
      "balance_loss_clip": 1.06848824,
      "balance_loss_mlp": 1.03978539,
      "epoch": 0.13984248181326278,
      "flos": 16872772815360.0,
      "grad_norm": 2.1172115072144515,
      "language_loss": 0.82821327,
      "learning_rate": 3.874875143833085e-06,
      "loss": 0.85095346,
      "num_input_tokens_seen": 24755845,
      "step": 1163,
      "time_per_iteration": 2.6496081352233887
    },
    {
      "auxiliary_loss_clip": 0.01236732,
      "auxiliary_loss_mlp": 0.01049168,
      "balance_loss_clip": 1.06739163,
      "balance_loss_mlp": 1.03518462,
      "epoch": 0.1399627247039019,
      "flos": 54121401267840.0,
      "grad_norm": 1.768696913265876,
      "language_loss": 0.68771625,
      "learning_rate": 3.874603799994019e-06,
      "loss": 0.71057522,
      "num_input_tokens_seen": 24779380,
      "step": 1164,
      "time_per_iteration": 4.807386636734009
    },
    {
      "auxiliary_loss_clip": 0.01204287,
      "auxiliary_loss_mlp": 0.01038224,
      "balance_loss_clip": 1.06241333,
      "balance_loss_mlp": 1.02528954,
      "epoch": 0.14008296759454097,
      "flos": 11765521618560.0,
      "grad_norm": 2.487605292034535,
      "language_loss": 0.86697334,
      "learning_rate": 3.874332171779046e-06,
      "loss": 0.88939846,
      "num_input_tokens_seen": 24794260,
      "step": 1165,
      "time_per_iteration": 2.7051665782928467
    },
    {
      "auxiliary_loss_clip": 0.01207462,
      "auxiliary_loss_mlp": 0.01048161,
      "balance_loss_clip": 1.05997145,
      "balance_loss_mlp": 1.03484488,
      "epoch": 0.14020321048518006,
      "flos": 22017514832640.0,
      "grad_norm": 1.9480333991121128,
      "language_loss": 0.75483602,
      "learning_rate": 3.874060259229373e-06,
      "loss": 0.77739227,
      "num_input_tokens_seen": 24815835,
      "step": 1166,
      "time_per_iteration": 3.653130292892456
    },
    {
      "auxiliary_loss_clip": 0.01241539,
      "auxiliary_loss_mlp": 0.01051384,
      "balance_loss_clip": 1.07035422,
      "balance_loss_mlp": 1.03788924,
      "epoch": 0.14032345337581917,
      "flos": 23404313076480.0,
      "grad_norm": 2.0815082753619576,
      "language_loss": 0.93514943,
      "learning_rate": 3.873788062386249e-06,
      "loss": 0.95807856,
      "num_input_tokens_seen": 24834095,
      "step": 1167,
      "time_per_iteration": 2.6838619709014893
    },
    {
      "auxiliary_loss_clip": 0.01219992,
      "auxiliary_loss_mlp": 0.01042066,
      "balance_loss_clip": 1.06815839,
      "balance_loss_mlp": 1.02890539,
      "epoch": 0.14044369626645825,
      "flos": 29645767100160.0,
      "grad_norm": 1.8283889964808364,
      "language_loss": 0.82250565,
      "learning_rate": 3.873515581290965e-06,
      "loss": 0.84512627,
      "num_input_tokens_seen": 24858900,
      "step": 1168,
      "time_per_iteration": 2.8265700340270996
    },
    {
      "auxiliary_loss_clip": 0.01215132,
      "auxiliary_loss_mlp": 0.010447,
      "balance_loss_clip": 1.06764245,
      "balance_loss_mlp": 1.03066301,
      "epoch": 0.14056393915709733,
      "flos": 18332972501760.0,
      "grad_norm": 2.0869129937165143,
      "language_loss": 0.75869596,
      "learning_rate": 3.8732428159848575e-06,
      "loss": 0.78129435,
      "num_input_tokens_seen": 24877875,
      "step": 1169,
      "time_per_iteration": 2.6965060234069824
    },
    {
      "auxiliary_loss_clip": 0.01238217,
      "auxiliary_loss_mlp": 0.01048604,
      "balance_loss_clip": 1.07151031,
      "balance_loss_mlp": 1.03449523,
      "epoch": 0.14068418204773642,
      "flos": 26687517770880.0,
      "grad_norm": 1.7158029129484762,
      "language_loss": 0.78252709,
      "learning_rate": 3.872969766509304e-06,
      "loss": 0.80539536,
      "num_input_tokens_seen": 24898430,
      "step": 1170,
      "time_per_iteration": 2.722075939178467
    },
    {
      "auxiliary_loss_clip": 0.01097764,
      "auxiliary_loss_mlp": 0.01006383,
      "balance_loss_clip": 1.02737665,
      "balance_loss_mlp": 1.00080431,
      "epoch": 0.14080442493837553,
      "flos": 65259314501760.0,
      "grad_norm": 0.7682394018115298,
      "language_loss": 0.55619371,
      "learning_rate": 3.872696432905726e-06,
      "loss": 0.5772351,
      "num_input_tokens_seen": 24959250,
      "step": 1171,
      "time_per_iteration": 3.2653915882110596
    },
    {
      "auxiliary_loss_clip": 0.01236014,
      "auxiliary_loss_mlp": 0.0104598,
      "balance_loss_clip": 1.06475246,
      "balance_loss_mlp": 1.03188968,
      "epoch": 0.1409246678290146,
      "flos": 25776715582080.0,
      "grad_norm": 2.3849396776547223,
      "language_loss": 0.71708578,
      "learning_rate": 3.872422815215589e-06,
      "loss": 0.73990571,
      "num_input_tokens_seen": 24978330,
      "step": 1172,
      "time_per_iteration": 2.6910531520843506
    },
    {
      "auxiliary_loss_clip": 0.0122033,
      "auxiliary_loss_mlp": 0.01039479,
      "balance_loss_clip": 1.05863285,
      "balance_loss_mlp": 1.02515638,
      "epoch": 0.1410449107196537,
      "flos": 21868521217920.0,
      "grad_norm": 1.9547035452869557,
      "language_loss": 0.74526304,
      "learning_rate": 3.8721489134803994e-06,
      "loss": 0.76786113,
      "num_input_tokens_seen": 24997120,
      "step": 1173,
      "time_per_iteration": 2.674471378326416
    },
    {
      "auxiliary_loss_clip": 0.01228928,
      "auxiliary_loss_mlp": 0.01044427,
      "balance_loss_clip": 1.06423807,
      "balance_loss_mlp": 1.03066385,
      "epoch": 0.1411651536102928,
      "flos": 16684133564160.0,
      "grad_norm": 2.7093631037645465,
      "language_loss": 0.72488368,
      "learning_rate": 3.871874727741707e-06,
      "loss": 0.74761724,
      "num_input_tokens_seen": 25014350,
      "step": 1174,
      "time_per_iteration": 2.6454436779022217
    },
    {
      "auxiliary_loss_clip": 0.01230768,
      "auxiliary_loss_mlp": 0.01048051,
      "balance_loss_clip": 1.06929445,
      "balance_loss_mlp": 1.03461576,
      "epoch": 0.1412853965009319,
      "flos": 20992264934400.0,
      "grad_norm": 2.026588220641739,
      "language_loss": 0.96581793,
      "learning_rate": 3.871600258041108e-06,
      "loss": 0.9886061,
      "num_input_tokens_seen": 25033875,
      "step": 1175,
      "time_per_iteration": 2.620434522628784
    },
    {
      "auxiliary_loss_clip": 0.01214202,
      "auxiliary_loss_mlp": 0.01038803,
      "balance_loss_clip": 1.06191826,
      "balance_loss_mlp": 1.02560627,
      "epoch": 0.14140563939157097,
      "flos": 20335279224960.0,
      "grad_norm": 2.1100843491468346,
      "language_loss": 0.85315067,
      "learning_rate": 3.871325504420238e-06,
      "loss": 0.87568069,
      "num_input_tokens_seen": 25052865,
      "step": 1176,
      "time_per_iteration": 2.7336666584014893
    },
    {
      "auxiliary_loss_clip": 0.01245555,
      "auxiliary_loss_mlp": 0.01044478,
      "balance_loss_clip": 1.06921959,
      "balance_loss_mlp": 1.0311271,
      "epoch": 0.14152588228221005,
      "flos": 21068826773760.0,
      "grad_norm": 2.495017005735492,
      "language_loss": 0.81681991,
      "learning_rate": 3.871050466920776e-06,
      "loss": 0.83972025,
      "num_input_tokens_seen": 25072770,
      "step": 1177,
      "time_per_iteration": 2.636918783187866
    },
    {
      "auxiliary_loss_clip": 0.01200584,
      "auxiliary_loss_mlp": 0.01043977,
      "balance_loss_clip": 1.05809879,
      "balance_loss_mlp": 1.03041077,
      "epoch": 0.14164612517284916,
      "flos": 18223157646720.0,
      "grad_norm": 1.94480643070046,
      "language_loss": 0.80109823,
      "learning_rate": 3.870775145584447e-06,
      "loss": 0.82354385,
      "num_input_tokens_seen": 25090550,
      "step": 1178,
      "time_per_iteration": 2.683213949203491
    },
    {
      "auxiliary_loss_clip": 0.01232605,
      "auxiliary_loss_mlp": 0.01043361,
      "balance_loss_clip": 1.06770384,
      "balance_loss_mlp": 1.02900863,
      "epoch": 0.14176636806348825,
      "flos": 22744454279040.0,
      "grad_norm": 3.202826304146413,
      "language_loss": 0.65136045,
      "learning_rate": 3.8704995404530145e-06,
      "loss": 0.67412013,
      "num_input_tokens_seen": 25106175,
      "step": 1179,
      "time_per_iteration": 2.759488344192505
    },
    {
      "auxiliary_loss_clip": 0.01244673,
      "auxiliary_loss_mlp": 0.01044294,
      "balance_loss_clip": 1.07034612,
      "balance_loss_mlp": 1.03093076,
      "epoch": 0.14188661095412733,
      "flos": 22091095843200.0,
      "grad_norm": 1.692468557174893,
      "language_loss": 0.84788603,
      "learning_rate": 3.87022365156829e-06,
      "loss": 0.8707757,
      "num_input_tokens_seen": 25126890,
      "step": 1180,
      "time_per_iteration": 2.637307643890381
    },
    {
      "auxiliary_loss_clip": 0.01176889,
      "auxiliary_loss_mlp": 0.01043626,
      "balance_loss_clip": 1.05686283,
      "balance_loss_mlp": 1.03102005,
      "epoch": 0.14200685384476644,
      "flos": 24352390604160.0,
      "grad_norm": 2.0494036790790875,
      "language_loss": 0.81045604,
      "learning_rate": 3.869947478972123e-06,
      "loss": 0.83266115,
      "num_input_tokens_seen": 25147915,
      "step": 1181,
      "time_per_iteration": 2.8408169746398926
    },
    {
      "auxiliary_loss_clip": 0.01220522,
      "auxiliary_loss_mlp": 0.01036431,
      "balance_loss_clip": 1.06148982,
      "balance_loss_mlp": 1.02358627,
      "epoch": 0.14212709673540552,
      "flos": 24022048199040.0,
      "grad_norm": 1.9879608498950576,
      "language_loss": 0.82376325,
      "learning_rate": 3.869671022706412e-06,
      "loss": 0.84633279,
      "num_input_tokens_seen": 25166645,
      "step": 1182,
      "time_per_iteration": 2.6576268672943115
    },
    {
      "auxiliary_loss_clip": 0.01182368,
      "auxiliary_loss_mlp": 0.01044451,
      "balance_loss_clip": 1.05406618,
      "balance_loss_mlp": 1.03050339,
      "epoch": 0.1422473396260446,
      "flos": 26431797870720.0,
      "grad_norm": 2.179947886512645,
      "language_loss": 0.65108436,
      "learning_rate": 3.869394282813092e-06,
      "loss": 0.67335254,
      "num_input_tokens_seen": 25185845,
      "step": 1183,
      "time_per_iteration": 2.8214802742004395
    },
    {
      "auxiliary_loss_clip": 0.01218362,
      "auxiliary_loss_mlp": 0.01042251,
      "balance_loss_clip": 1.06175315,
      "balance_loss_mlp": 1.02840531,
      "epoch": 0.1423675825166837,
      "flos": 17055306754560.0,
      "grad_norm": 2.8082098134715703,
      "language_loss": 0.89273477,
      "learning_rate": 3.869117259334147e-06,
      "loss": 0.91534078,
      "num_input_tokens_seen": 25203770,
      "step": 1184,
      "time_per_iteration": 2.6541202068328857
    },
    {
      "auxiliary_loss_clip": 0.0122883,
      "auxiliary_loss_mlp": 0.01044973,
      "balance_loss_clip": 1.06627154,
      "balance_loss_mlp": 1.0316453,
      "epoch": 0.1424878254073228,
      "flos": 17929480049280.0,
      "grad_norm": 1.8152382730282017,
      "language_loss": 0.8211683,
      "learning_rate": 3.868839952311599e-06,
      "loss": 0.84390634,
      "num_input_tokens_seen": 25221725,
      "step": 1185,
      "time_per_iteration": 3.6132845878601074
    },
    {
      "auxiliary_loss_clip": 0.01217093,
      "auxiliary_loss_mlp": 0.01046738,
      "balance_loss_clip": 1.06443262,
      "balance_loss_mlp": 1.03314829,
      "epoch": 0.14260806829796188,
      "flos": 20303606407680.0,
      "grad_norm": 3.969948648661033,
      "language_loss": 0.80839682,
      "learning_rate": 3.868562361787516e-06,
      "loss": 0.83103514,
      "num_input_tokens_seen": 25240855,
      "step": 1186,
      "time_per_iteration": 2.7584762573242188
    },
    {
      "auxiliary_loss_clip": 0.01169644,
      "auxiliary_loss_mlp": 0.0103737,
      "balance_loss_clip": 1.05137861,
      "balance_loss_mlp": 1.02406025,
      "epoch": 0.14272831118860096,
      "flos": 23185724860800.0,
      "grad_norm": 2.2038659298343575,
      "language_loss": 0.69265521,
      "learning_rate": 3.868284487804009e-06,
      "loss": 0.71472538,
      "num_input_tokens_seen": 25260085,
      "step": 1187,
      "time_per_iteration": 3.0747299194335938
    },
    {
      "auxiliary_loss_clip": 0.01230342,
      "auxiliary_loss_mlp": 0.01043447,
      "balance_loss_clip": 1.06635547,
      "balance_loss_mlp": 1.02937484,
      "epoch": 0.14284855407924008,
      "flos": 27232210586880.0,
      "grad_norm": 2.262924470848264,
      "language_loss": 0.78005964,
      "learning_rate": 3.86800633040323e-06,
      "loss": 0.80279756,
      "num_input_tokens_seen": 25280675,
      "step": 1188,
      "time_per_iteration": 2.923153877258301
    },
    {
      "auxiliary_loss_clip": 0.01221332,
      "auxiliary_loss_mlp": 0.00890957,
      "balance_loss_clip": 1.06867337,
      "balance_loss_mlp": 1.00011396,
      "epoch": 0.14296879696987916,
      "flos": 28184202696960.0,
      "grad_norm": 2.899064963301063,
      "language_loss": 0.78004169,
      "learning_rate": 3.867727889627376e-06,
      "loss": 0.80116451,
      "num_input_tokens_seen": 25300290,
      "step": 1189,
      "time_per_iteration": 3.633352518081665
    },
    {
      "auxiliary_loss_clip": 0.01196051,
      "auxiliary_loss_mlp": 0.01046264,
      "balance_loss_clip": 1.06095612,
      "balance_loss_mlp": 1.03205395,
      "epoch": 0.14308903986051824,
      "flos": 19390290266880.0,
      "grad_norm": 3.7312266617022125,
      "language_loss": 0.78556788,
      "learning_rate": 3.867449165518687e-06,
      "loss": 0.80799103,
      "num_input_tokens_seen": 25316760,
      "step": 1190,
      "time_per_iteration": 3.639796018600464
    },
    {
      "auxiliary_loss_clip": 0.01244379,
      "auxiliary_loss_mlp": 0.00890981,
      "balance_loss_clip": 1.0675571,
      "balance_loss_mlp": 1.00015235,
      "epoch": 0.14320928275115732,
      "flos": 17457506317440.0,
      "grad_norm": 1.744934886073313,
      "language_loss": 0.71048099,
      "learning_rate": 3.867170158119444e-06,
      "loss": 0.73183453,
      "num_input_tokens_seen": 25335760,
      "step": 1191,
      "time_per_iteration": 2.622241497039795
    },
    {
      "auxiliary_loss_clip": 0.01246175,
      "auxiliary_loss_mlp": 0.01048798,
      "balance_loss_clip": 1.0698508,
      "balance_loss_mlp": 1.03522003,
      "epoch": 0.14332952564179643,
      "flos": 21466070259840.0,
      "grad_norm": 2.0224363427668606,
      "language_loss": 0.75403702,
      "learning_rate": 3.866890867471972e-06,
      "loss": 0.77698672,
      "num_input_tokens_seen": 25354230,
      "step": 1192,
      "time_per_iteration": 3.6278257369995117
    },
    {
      "auxiliary_loss_clip": 0.01213298,
      "auxiliary_loss_mlp": 0.01045071,
      "balance_loss_clip": 1.05831289,
      "balance_loss_mlp": 1.03134418,
      "epoch": 0.14344976853243552,
      "flos": 16396992241920.0,
      "grad_norm": 2.1835908750478032,
      "language_loss": 0.89763534,
      "learning_rate": 3.86661129361864e-06,
      "loss": 0.92021906,
      "num_input_tokens_seen": 25368720,
      "step": 1193,
      "time_per_iteration": 2.686612606048584
    },
    {
      "auxiliary_loss_clip": 0.01217171,
      "auxiliary_loss_mlp": 0.01045133,
      "balance_loss_clip": 1.06367445,
      "balance_loss_mlp": 1.03174591,
      "epoch": 0.1435700114230746,
      "flos": 18916736336640.0,
      "grad_norm": 2.0056826408443866,
      "language_loss": 0.86187142,
      "learning_rate": 3.866331436601859e-06,
      "loss": 0.88449448,
      "num_input_tokens_seen": 25386715,
      "step": 1194,
      "time_per_iteration": 2.714702844619751
    },
    {
      "auxiliary_loss_clip": 0.01244121,
      "auxiliary_loss_mlp": 0.01046713,
      "balance_loss_clip": 1.07045603,
      "balance_loss_mlp": 1.03338552,
      "epoch": 0.1436902543137137,
      "flos": 19755394058880.0,
      "grad_norm": 2.1479077401552393,
      "language_loss": 0.7381351,
      "learning_rate": 3.866051296464083e-06,
      "loss": 0.76104343,
      "num_input_tokens_seen": 25405550,
      "step": 1195,
      "time_per_iteration": 2.5914673805236816
    },
    {
      "auxiliary_loss_clip": 0.012424,
      "auxiliary_loss_mlp": 0.00890556,
      "balance_loss_clip": 1.06573021,
      "balance_loss_mlp": 1.00007915,
      "epoch": 0.1438104972043528,
      "flos": 14684807669760.0,
      "grad_norm": 3.0362266221778405,
      "language_loss": 0.84897274,
      "learning_rate": 3.86577087324781e-06,
      "loss": 0.8703022,
      "num_input_tokens_seen": 25422040,
      "step": 1196,
      "time_per_iteration": 2.6679561138153076
    },
    {
      "auxiliary_loss_clip": 0.01230796,
      "auxiliary_loss_mlp": 0.0103512,
      "balance_loss_clip": 1.06942034,
      "balance_loss_mlp": 1.02256703,
      "epoch": 0.14393074009499188,
      "flos": 17092330698240.0,
      "grad_norm": 2.395956849032979,
      "language_loss": 0.77543193,
      "learning_rate": 3.865490166995578e-06,
      "loss": 0.79809111,
      "num_input_tokens_seen": 25440270,
      "step": 1197,
      "time_per_iteration": 2.6163787841796875
    },
    {
      "auxiliary_loss_clip": 0.01231373,
      "auxiliary_loss_mlp": 0.01041525,
      "balance_loss_clip": 1.06868601,
      "balance_loss_mlp": 1.02827501,
      "epoch": 0.144050982985631,
      "flos": 30476200608000.0,
      "grad_norm": 6.932031210599713,
      "language_loss": 0.84100366,
      "learning_rate": 3.86520917774997e-06,
      "loss": 0.8637327,
      "num_input_tokens_seen": 25459705,
      "step": 1198,
      "time_per_iteration": 2.779676914215088
    },
    {
      "auxiliary_loss_clip": 0.01224789,
      "auxiliary_loss_mlp": 0.01041281,
      "balance_loss_clip": 1.06463742,
      "balance_loss_mlp": 1.02937806,
      "epoch": 0.14417122587627007,
      "flos": 17858484817920.0,
      "grad_norm": 2.1377358593731426,
      "language_loss": 0.74987769,
      "learning_rate": 3.864927905553614e-06,
      "loss": 0.77253836,
      "num_input_tokens_seen": 25477615,
      "step": 1199,
      "time_per_iteration": 2.616344451904297
    },
    {
      "auxiliary_loss_clip": 0.01201968,
      "auxiliary_loss_mlp": 0.01040664,
      "balance_loss_clip": 1.05895066,
      "balance_loss_mlp": 1.02833176,
      "epoch": 0.14429146876690915,
      "flos": 21613914639360.0,
      "grad_norm": 1.6179173341678874,
      "language_loss": 0.88678312,
      "learning_rate": 3.8646463504491765e-06,
      "loss": 0.90920949,
      "num_input_tokens_seen": 25497750,
      "step": 1200,
      "time_per_iteration": 2.7466859817504883
    },
    {
      "auxiliary_loss_clip": 0.01233486,
      "auxiliary_loss_mlp": 0.010416,
      "balance_loss_clip": 1.06933022,
      "balance_loss_mlp": 1.02817726,
      "epoch": 0.14441171165754824,
      "flos": 23258120722560.0,
      "grad_norm": 1.7273209585905562,
      "language_loss": 0.83443165,
      "learning_rate": 3.8643645124793705e-06,
      "loss": 0.8571825,
      "num_input_tokens_seen": 25516650,
      "step": 1201,
      "time_per_iteration": 2.8074116706848145
    },
    {
      "auxiliary_loss_clip": 0.01226551,
      "auxiliary_loss_mlp": 0.01041469,
      "balance_loss_clip": 1.06365597,
      "balance_loss_mlp": 1.02913046,
      "epoch": 0.14453195454818735,
      "flos": 42854213963520.0,
      "grad_norm": 1.6790841273083201,
      "language_loss": 0.75033605,
      "learning_rate": 3.8640823916869515e-06,
      "loss": 0.77301621,
      "num_input_tokens_seen": 25540960,
      "step": 1202,
      "time_per_iteration": 2.849613666534424
    },
    {
      "auxiliary_loss_clip": 0.01239531,
      "auxiliary_loss_mlp": 0.01039815,
      "balance_loss_clip": 1.06605315,
      "balance_loss_mlp": 1.02701783,
      "epoch": 0.14465219743882643,
      "flos": 27235873774080.0,
      "grad_norm": 1.503243051272904,
      "language_loss": 0.78231519,
      "learning_rate": 3.863799988114714e-06,
      "loss": 0.80510867,
      "num_input_tokens_seen": 25562990,
      "step": 1203,
      "time_per_iteration": 2.624237060546875
    },
    {
      "auxiliary_loss_clip": 0.01240003,
      "auxiliary_loss_mlp": 0.01044665,
      "balance_loss_clip": 1.06520534,
      "balance_loss_mlp": 1.03169489,
      "epoch": 0.1447724403294655,
      "flos": 16690705752960.0,
      "grad_norm": 3.5008225269344884,
      "language_loss": 0.70674586,
      "learning_rate": 3.863517301805502e-06,
      "loss": 0.72959256,
      "num_input_tokens_seen": 25581380,
      "step": 1204,
      "time_per_iteration": 2.620016574859619
    },
    {
      "auxiliary_loss_clip": 0.01210093,
      "auxiliary_loss_mlp": 0.01043656,
      "balance_loss_clip": 1.06435692,
      "balance_loss_mlp": 1.03060246,
      "epoch": 0.14489268322010462,
      "flos": 20073741321600.0,
      "grad_norm": 2.616269530275905,
      "language_loss": 0.96988606,
      "learning_rate": 3.863234332802196e-06,
      "loss": 0.99242353,
      "num_input_tokens_seen": 25593585,
      "step": 1205,
      "time_per_iteration": 2.6574718952178955
    },
    {
      "auxiliary_loss_clip": 0.01211198,
      "auxiliary_loss_mlp": 0.0103947,
      "balance_loss_clip": 1.06086063,
      "balance_loss_mlp": 1.02721548,
      "epoch": 0.1450129261107437,
      "flos": 27125627955840.0,
      "grad_norm": 2.7836621170327,
      "language_loss": 0.739766,
      "learning_rate": 3.862951081147723e-06,
      "loss": 0.7622726,
      "num_input_tokens_seen": 25613750,
      "step": 1206,
      "time_per_iteration": 2.722296953201294
    },
    {
      "auxiliary_loss_clip": 0.01235905,
      "auxiliary_loss_mlp": 0.01043248,
      "balance_loss_clip": 1.07043934,
      "balance_loss_mlp": 1.03107107,
      "epoch": 0.1451331690013828,
      "flos": 25702344472320.0,
      "grad_norm": 2.9854058258940666,
      "language_loss": 0.78426468,
      "learning_rate": 3.862667546885053e-06,
      "loss": 0.80705619,
      "num_input_tokens_seen": 25632300,
      "step": 1207,
      "time_per_iteration": 2.7395503520965576
    },
    {
      "auxiliary_loss_clip": 0.01221449,
      "auxiliary_loss_mlp": 0.01035173,
      "balance_loss_clip": 1.06043315,
      "balance_loss_mlp": 1.022686,
      "epoch": 0.14525341189202187,
      "flos": 25737393168000.0,
      "grad_norm": 2.059290772556488,
      "language_loss": 0.73420906,
      "learning_rate": 3.8623837300571965e-06,
      "loss": 0.75677526,
      "num_input_tokens_seen": 25651285,
      "step": 1208,
      "time_per_iteration": 2.7088890075683594
    },
    {
      "auxiliary_loss_clip": 0.01241387,
      "auxiliary_loss_mlp": 0.01039773,
      "balance_loss_clip": 1.0676024,
      "balance_loss_mlp": 1.02727425,
      "epoch": 0.14537365478266098,
      "flos": 23073898844160.0,
      "grad_norm": 1.7833245730170892,
      "language_loss": 0.8406471,
      "learning_rate": 3.8620996307072085e-06,
      "loss": 0.86345869,
      "num_input_tokens_seen": 25671990,
      "step": 1209,
      "time_per_iteration": 2.656141757965088
    },
    {
      "auxiliary_loss_clip": 0.01208521,
      "auxiliary_loss_mlp": 0.01046083,
      "balance_loss_clip": 1.05783582,
      "balance_loss_mlp": 1.03381062,
      "epoch": 0.14549389767330007,
      "flos": 20595021448320.0,
      "grad_norm": 2.413770623123194,
      "language_loss": 0.64619786,
      "learning_rate": 3.861815248878188e-06,
      "loss": 0.66874385,
      "num_input_tokens_seen": 25689475,
      "step": 1210,
      "time_per_iteration": 2.7519173622131348
    },
    {
      "auxiliary_loss_clip": 0.01210972,
      "auxiliary_loss_mlp": 0.01039871,
      "balance_loss_clip": 1.06272101,
      "balance_loss_mlp": 1.02777088,
      "epoch": 0.14561414056393915,
      "flos": 15121804533120.0,
      "grad_norm": 2.2527109980329048,
      "language_loss": 0.79259193,
      "learning_rate": 3.861530584613274e-06,
      "loss": 0.81510043,
      "num_input_tokens_seen": 25707475,
      "step": 1211,
      "time_per_iteration": 3.619410276412964
    },
    {
      "auxiliary_loss_clip": 0.0123109,
      "auxiliary_loss_mlp": 0.00890494,
      "balance_loss_clip": 1.06742048,
      "balance_loss_mlp": 0.99997711,
      "epoch": 0.14573438345457826,
      "flos": 19427493778560.0,
      "grad_norm": 2.1794189212354347,
      "language_loss": 0.82559288,
      "learning_rate": 3.86124563795565e-06,
      "loss": 0.84680867,
      "num_input_tokens_seen": 25726290,
      "step": 1212,
      "time_per_iteration": 2.675748825073242
    },
    {
      "auxiliary_loss_clip": 0.01237993,
      "auxiliary_loss_mlp": 0.01048215,
      "balance_loss_clip": 1.06751347,
      "balance_loss_mlp": 1.03665733,
      "epoch": 0.14585462634521734,
      "flos": 24828422572800.0,
      "grad_norm": 1.8033508219570813,
      "language_loss": 0.70221132,
      "learning_rate": 3.860960408948543e-06,
      "loss": 0.7250734,
      "num_input_tokens_seen": 25748040,
      "step": 1213,
      "time_per_iteration": 2.6603009700775146
    },
    {
      "auxiliary_loss_clip": 0.01222233,
      "auxiliary_loss_mlp": 0.01044445,
      "balance_loss_clip": 1.06658566,
      "balance_loss_mlp": 1.03246486,
      "epoch": 0.14597486923585642,
      "flos": 15448627405440.0,
      "grad_norm": 7.863345262143555,
      "language_loss": 0.90114164,
      "learning_rate": 3.860674897635222e-06,
      "loss": 0.92380846,
      "num_input_tokens_seen": 25764525,
      "step": 1214,
      "time_per_iteration": 2.6365256309509277
    },
    {
      "auxiliary_loss_clip": 0.01227351,
      "auxiliary_loss_mlp": 0.01040071,
      "balance_loss_clip": 1.06582594,
      "balance_loss_mlp": 1.02874017,
      "epoch": 0.1460951121264955,
      "flos": 16655154266880.0,
      "grad_norm": 2.208130528727292,
      "language_loss": 0.83592612,
      "learning_rate": 3.860389104058998e-06,
      "loss": 0.85860032,
      "num_input_tokens_seen": 25782755,
      "step": 1215,
      "time_per_iteration": 3.65107798576355
    },
    {
      "auxiliary_loss_clip": 0.0121642,
      "auxiliary_loss_mlp": 0.01037359,
      "balance_loss_clip": 1.0629338,
      "balance_loss_mlp": 1.02524745,
      "epoch": 0.14621535501713462,
      "flos": 24863291700480.0,
      "grad_norm": 2.2239792394238243,
      "language_loss": 0.72432518,
      "learning_rate": 3.860103028263227e-06,
      "loss": 0.74686295,
      "num_input_tokens_seen": 25805860,
      "step": 1216,
      "time_per_iteration": 3.735304117202759
    },
    {
      "auxiliary_loss_clip": 0.01188202,
      "auxiliary_loss_mlp": 0.01036916,
      "balance_loss_clip": 1.05352318,
      "balance_loss_mlp": 1.02461362,
      "epoch": 0.1463355979077737,
      "flos": 25228000442880.0,
      "grad_norm": 2.1051062487117997,
      "language_loss": 0.70061719,
      "learning_rate": 3.859816670291304e-06,
      "loss": 0.72286832,
      "num_input_tokens_seen": 25824955,
      "step": 1217,
      "time_per_iteration": 2.7774300575256348
    },
    {
      "auxiliary_loss_clip": 0.01175507,
      "auxiliary_loss_mlp": 0.01041529,
      "balance_loss_clip": 1.05803776,
      "balance_loss_mlp": 1.02854109,
      "epoch": 0.14645584079841278,
      "flos": 22054143726720.0,
      "grad_norm": 2.7674310249952745,
      "language_loss": 0.90268373,
      "learning_rate": 3.859530030186672e-06,
      "loss": 0.92485416,
      "num_input_tokens_seen": 25841965,
      "step": 1218,
      "time_per_iteration": 3.7471911907196045
    },
    {
      "auxiliary_loss_clip": 0.01224196,
      "auxiliary_loss_mlp": 0.01040279,
      "balance_loss_clip": 1.06603241,
      "balance_loss_mlp": 1.0278933,
      "epoch": 0.1465760836890519,
      "flos": 23623870959360.0,
      "grad_norm": 2.2186226284530948,
      "language_loss": 0.82931626,
      "learning_rate": 3.859243107992813e-06,
      "loss": 0.85196102,
      "num_input_tokens_seen": 25860770,
      "step": 1219,
      "time_per_iteration": 2.722501516342163
    },
    {
      "auxiliary_loss_clip": 0.01208551,
      "auxiliary_loss_mlp": 0.010479,
      "balance_loss_clip": 1.05584443,
      "balance_loss_mlp": 1.03438795,
      "epoch": 0.14669632657969098,
      "flos": 37407893356800.0,
      "grad_norm": 2.776422336581469,
      "language_loss": 0.78472263,
      "learning_rate": 3.858955903753252e-06,
      "loss": 0.80728716,
      "num_input_tokens_seen": 25879410,
      "step": 1220,
      "time_per_iteration": 2.8203437328338623
    },
    {
      "auxiliary_loss_clip": 0.01231538,
      "auxiliary_loss_mlp": 0.01039652,
      "balance_loss_clip": 1.06435573,
      "balance_loss_mlp": 1.02708745,
      "epoch": 0.14681656947033006,
      "flos": 28365910623360.0,
      "grad_norm": 1.4976282076317624,
      "language_loss": 0.83631194,
      "learning_rate": 3.858668417511559e-06,
      "loss": 0.85902381,
      "num_input_tokens_seen": 25902160,
      "step": 1221,
      "time_per_iteration": 2.7078115940093994
    },
    {
      "auxiliary_loss_clip": 0.01220835,
      "auxiliary_loss_mlp": 0.01038558,
      "balance_loss_clip": 1.06519914,
      "balance_loss_mlp": 1.02602375,
      "epoch": 0.14693681236096917,
      "flos": 18479488078080.0,
      "grad_norm": 2.0463579374331253,
      "language_loss": 0.76383674,
      "learning_rate": 3.8583806493113445e-06,
      "loss": 0.78643072,
      "num_input_tokens_seen": 25920505,
      "step": 1222,
      "time_per_iteration": 2.6698381900787354
    },
    {
      "auxiliary_loss_clip": 0.01227882,
      "auxiliary_loss_mlp": 0.01040795,
      "balance_loss_clip": 1.06590676,
      "balance_loss_mlp": 1.02851689,
      "epoch": 0.14705705525160825,
      "flos": 20777806782720.0,
      "grad_norm": 2.461671086268554,
      "language_loss": 0.81979251,
      "learning_rate": 3.858092599196263e-06,
      "loss": 0.84247923,
      "num_input_tokens_seen": 25938460,
      "step": 1223,
      "time_per_iteration": 2.6799561977386475
    },
    {
      "auxiliary_loss_clip": 0.01226145,
      "auxiliary_loss_mlp": 0.01041307,
      "balance_loss_clip": 1.0643177,
      "balance_loss_mlp": 1.02860498,
      "epoch": 0.14717729814224734,
      "flos": 29932944336000.0,
      "grad_norm": 2.65384637305108,
      "language_loss": 0.82815379,
      "learning_rate": 3.857804267210012e-06,
      "loss": 0.85082829,
      "num_input_tokens_seen": 25957760,
      "step": 1224,
      "time_per_iteration": 2.750718355178833
    },
    {
      "auxiliary_loss_clip": 0.01193835,
      "auxiliary_loss_mlp": 0.0103812,
      "balance_loss_clip": 1.0563972,
      "balance_loss_mlp": 1.02592468,
      "epoch": 0.14729754103288642,
      "flos": 20047491457920.0,
      "grad_norm": 2.049095812039925,
      "language_loss": 0.88188291,
      "learning_rate": 3.857515653396331e-06,
      "loss": 0.90420246,
      "num_input_tokens_seen": 25974970,
      "step": 1225,
      "time_per_iteration": 2.708177089691162
    },
    {
      "auxiliary_loss_clip": 0.01195717,
      "auxiliary_loss_mlp": 0.01038144,
      "balance_loss_clip": 1.05803633,
      "balance_loss_mlp": 1.02613354,
      "epoch": 0.14741778392352553,
      "flos": 19281516906240.0,
      "grad_norm": 2.4105521411343624,
      "language_loss": 0.86585248,
      "learning_rate": 3.857226757799002e-06,
      "loss": 0.8881911,
      "num_input_tokens_seen": 25992525,
      "step": 1226,
      "time_per_iteration": 2.8055384159088135
    },
    {
      "auxiliary_loss_clip": 0.01215646,
      "auxiliary_loss_mlp": 0.010438,
      "balance_loss_clip": 1.06151581,
      "balance_loss_mlp": 1.03184962,
      "epoch": 0.1475380268141646,
      "flos": 25411108999680.0,
      "grad_norm": 8.293896869087837,
      "language_loss": 0.74048913,
      "learning_rate": 3.85693758046185e-06,
      "loss": 0.76308358,
      "num_input_tokens_seen": 26010815,
      "step": 1227,
      "time_per_iteration": 2.7239136695861816
    },
    {
      "auxiliary_loss_clip": 0.0123884,
      "auxiliary_loss_mlp": 0.01044669,
      "balance_loss_clip": 1.06924045,
      "balance_loss_mlp": 1.03248596,
      "epoch": 0.1476582697048037,
      "flos": 20847652778880.0,
      "grad_norm": 1.7901103347963339,
      "language_loss": 0.83005744,
      "learning_rate": 3.8566481214287435e-06,
      "loss": 0.85289258,
      "num_input_tokens_seen": 26028935,
      "step": 1228,
      "time_per_iteration": 2.695690155029297
    },
    {
      "auxiliary_loss_clip": 0.01197444,
      "auxiliary_loss_mlp": 0.010501,
      "balance_loss_clip": 1.05565953,
      "balance_loss_mlp": 1.03798258,
      "epoch": 0.1477785125954428,
      "flos": 14028109269120.0,
      "grad_norm": 2.217422248647274,
      "language_loss": 0.90975744,
      "learning_rate": 3.8563583807435935e-06,
      "loss": 0.93223286,
      "num_input_tokens_seen": 26045080,
      "step": 1229,
      "time_per_iteration": 2.708983898162842
    },
    {
      "auxiliary_loss_clip": 0.01230171,
      "auxiliary_loss_mlp": 0.00890427,
      "balance_loss_clip": 1.06391931,
      "balance_loss_mlp": 0.99998677,
      "epoch": 0.1478987554860819,
      "flos": 20516699842560.0,
      "grad_norm": 1.9939930615587393,
      "language_loss": 0.78078163,
      "learning_rate": 3.856068358450353e-06,
      "loss": 0.80198765,
      "num_input_tokens_seen": 26065030,
      "step": 1230,
      "time_per_iteration": 2.7484657764434814
    },
    {
      "auxiliary_loss_clip": 0.01211918,
      "auxiliary_loss_mlp": 0.01038755,
      "balance_loss_clip": 1.06420255,
      "balance_loss_mlp": 1.02642894,
      "epoch": 0.14801899837672097,
      "flos": 17857012360320.0,
      "grad_norm": 1.7451825511405912,
      "language_loss": 0.85910094,
      "learning_rate": 3.8557780545930186e-06,
      "loss": 0.88160771,
      "num_input_tokens_seen": 26083445,
      "step": 1231,
      "time_per_iteration": 2.7256059646606445
    },
    {
      "auxiliary_loss_clip": 0.01213874,
      "auxiliary_loss_mlp": 0.01049421,
      "balance_loss_clip": 1.06464171,
      "balance_loss_mlp": 1.03623605,
      "epoch": 0.14813924126736006,
      "flos": 20881408584960.0,
      "grad_norm": 1.8286856713138941,
      "language_loss": 0.79338503,
      "learning_rate": 3.855487469215628e-06,
      "loss": 0.81601793,
      "num_input_tokens_seen": 26102375,
      "step": 1232,
      "time_per_iteration": 2.737032890319824
    },
    {
      "auxiliary_loss_clip": 0.01206753,
      "auxiliary_loss_mlp": 0.01040645,
      "balance_loss_clip": 1.06240249,
      "balance_loss_mlp": 1.02844357,
      "epoch": 0.14825948415799917,
      "flos": 37414070496000.0,
      "grad_norm": 3.9090768840571757,
      "language_loss": 0.72392821,
      "learning_rate": 3.855196602362264e-06,
      "loss": 0.74640214,
      "num_input_tokens_seen": 26125295,
      "step": 1233,
      "time_per_iteration": 2.8748764991760254
    },
    {
      "auxiliary_loss_clip": 0.01233067,
      "auxiliary_loss_mlp": 0.01037632,
      "balance_loss_clip": 1.06751585,
      "balance_loss_mlp": 1.02502,
      "epoch": 0.14837972704863825,
      "flos": 22014641744640.0,
      "grad_norm": 1.896297907327038,
      "language_loss": 0.94314784,
      "learning_rate": 3.854905454077051e-06,
      "loss": 0.96585476,
      "num_input_tokens_seen": 26142905,
      "step": 1234,
      "time_per_iteration": 2.6605987548828125
    },
    {
      "auxiliary_loss_clip": 0.01168939,
      "auxiliary_loss_mlp": 0.01042793,
      "balance_loss_clip": 1.05269933,
      "balance_loss_mlp": 1.03043151,
      "epoch": 0.14849996993927733,
      "flos": 20996323171200.0,
      "grad_norm": 2.0028448081140566,
      "language_loss": 0.88083434,
      "learning_rate": 3.854614024404155e-06,
      "loss": 0.90295166,
      "num_input_tokens_seen": 26161215,
      "step": 1235,
      "time_per_iteration": 2.866332769393921
    },
    {
      "auxiliary_loss_clip": 0.0120295,
      "auxiliary_loss_mlp": 0.01038619,
      "balance_loss_clip": 1.05932271,
      "balance_loss_mlp": 1.02604222,
      "epoch": 0.14862021282991644,
      "flos": 20047994248320.0,
      "grad_norm": 1.9959260840664925,
      "language_loss": 0.89084798,
      "learning_rate": 3.8543223133877865e-06,
      "loss": 0.91326368,
      "num_input_tokens_seen": 26179810,
      "step": 1236,
      "time_per_iteration": 2.6812002658843994
    },
    {
      "auxiliary_loss_clip": 0.01196611,
      "auxiliary_loss_mlp": 0.01044624,
      "balance_loss_clip": 1.05810523,
      "balance_loss_mlp": 1.0314393,
      "epoch": 0.14874045572055553,
      "flos": 22712027276160.0,
      "grad_norm": 1.6735324242805845,
      "language_loss": 0.88580132,
      "learning_rate": 3.854030321072198e-06,
      "loss": 0.90821368,
      "num_input_tokens_seen": 26199715,
      "step": 1237,
      "time_per_iteration": 3.9691216945648193
    },
    {
      "auxiliary_loss_clip": 0.01211477,
      "auxiliary_loss_mlp": 0.01038677,
      "balance_loss_clip": 1.06032455,
      "balance_loss_mlp": 1.02663088,
      "epoch": 0.1488606986111946,
      "flos": 25411288567680.0,
      "grad_norm": 2.0643326290458535,
      "language_loss": 0.73587018,
      "learning_rate": 3.853738047501682e-06,
      "loss": 0.75837171,
      "num_input_tokens_seen": 26220275,
      "step": 1238,
      "time_per_iteration": 2.888848304748535
    },
    {
      "auxiliary_loss_clip": 0.01231494,
      "auxiliary_loss_mlp": 0.01038836,
      "balance_loss_clip": 1.066679,
      "balance_loss_mlp": 1.02652752,
      "epoch": 0.1489809415018337,
      "flos": 17018749687680.0,
      "grad_norm": 1.800033660511755,
      "language_loss": 0.7788896,
      "learning_rate": 3.85344549272058e-06,
      "loss": 0.80159295,
      "num_input_tokens_seen": 26238255,
      "step": 1239,
      "time_per_iteration": 2.6755776405334473
    },
    {
      "auxiliary_loss_clip": 0.01225585,
      "auxiliary_loss_mlp": 0.0103957,
      "balance_loss_clip": 1.06334352,
      "balance_loss_mlp": 1.02745867,
      "epoch": 0.1491011843924728,
      "flos": 33659394860160.0,
      "grad_norm": 6.84108756281063,
      "language_loss": 0.82500112,
      "learning_rate": 3.853152656773269e-06,
      "loss": 0.84765267,
      "num_input_tokens_seen": 26259690,
      "step": 1240,
      "time_per_iteration": 2.831918954849243
    },
    {
      "auxiliary_loss_clip": 0.01213756,
      "auxiliary_loss_mlp": 0.01041078,
      "balance_loss_clip": 1.06329048,
      "balance_loss_mlp": 1.02843606,
      "epoch": 0.14922142728311188,
      "flos": 21179000764800.0,
      "grad_norm": 2.164499460769503,
      "language_loss": 0.85127729,
      "learning_rate": 3.852859539704174e-06,
      "loss": 0.87382561,
      "num_input_tokens_seen": 26278990,
      "step": 1241,
      "time_per_iteration": 3.6064300537109375
    },
    {
      "auxiliary_loss_clip": 0.01195412,
      "auxiliary_loss_mlp": 0.010414,
      "balance_loss_clip": 1.05582273,
      "balance_loss_mlp": 1.02812576,
      "epoch": 0.14934167017375097,
      "flos": 29860548474240.0,
      "grad_norm": 2.975577392513524,
      "language_loss": 0.76641512,
      "learning_rate": 3.85256614155776e-06,
      "loss": 0.78878319,
      "num_input_tokens_seen": 26299120,
      "step": 1242,
      "time_per_iteration": 3.8021843433380127
    },
    {
      "auxiliary_loss_clip": 0.01224473,
      "auxiliary_loss_mlp": 0.01042431,
      "balance_loss_clip": 1.06082606,
      "balance_loss_mlp": 1.03022432,
      "epoch": 0.14946191306439008,
      "flos": 17019216564480.0,
      "grad_norm": 2.482299124237356,
      "language_loss": 0.74464184,
      "learning_rate": 3.852272462378535e-06,
      "loss": 0.76731086,
      "num_input_tokens_seen": 26316995,
      "step": 1243,
      "time_per_iteration": 2.671787977218628
    },
    {
      "auxiliary_loss_clip": 0.01217366,
      "auxiliary_loss_mlp": 0.01044637,
      "balance_loss_clip": 1.06381297,
      "balance_loss_mlp": 1.03234053,
      "epoch": 0.14958215595502916,
      "flos": 15669047214720.0,
      "grad_norm": 4.065734123143548,
      "language_loss": 0.780128,
      "learning_rate": 3.85197850221105e-06,
      "loss": 0.80274808,
      "num_input_tokens_seen": 26333295,
      "step": 1244,
      "time_per_iteration": 3.5707645416259766
    },
    {
      "auxiliary_loss_clip": 0.01222966,
      "auxiliary_loss_mlp": 0.01036917,
      "balance_loss_clip": 1.06576991,
      "balance_loss_mlp": 1.02426338,
      "epoch": 0.14970239884566824,
      "flos": 33108560818560.0,
      "grad_norm": 1.8843254549280557,
      "language_loss": 0.75687593,
      "learning_rate": 3.851684261099899e-06,
      "loss": 0.77947474,
      "num_input_tokens_seen": 26355035,
      "step": 1245,
      "time_per_iteration": 2.7465920448303223
    },
    {
      "auxiliary_loss_clip": 0.01211579,
      "auxiliary_loss_mlp": 0.01049019,
      "balance_loss_clip": 1.06185257,
      "balance_loss_mlp": 1.03512549,
      "epoch": 0.14982264173630733,
      "flos": 17821245392640.0,
      "grad_norm": 2.004023777301683,
      "language_loss": 0.86951071,
      "learning_rate": 3.851389739089718e-06,
      "loss": 0.89211673,
      "num_input_tokens_seen": 26371655,
      "step": 1246,
      "time_per_iteration": 2.7377164363861084
    },
    {
      "auxiliary_loss_clip": 0.01230707,
      "auxiliary_loss_mlp": 0.01043958,
      "balance_loss_clip": 1.06706035,
      "balance_loss_mlp": 1.0298202,
      "epoch": 0.14994288462694644,
      "flos": 32409559175040.0,
      "grad_norm": 1.9370020904613516,
      "language_loss": 0.80415827,
      "learning_rate": 3.851094936225186e-06,
      "loss": 0.82690495,
      "num_input_tokens_seen": 26392540,
      "step": 1247,
      "time_per_iteration": 2.7483983039855957
    },
    {
      "auxiliary_loss_clip": 0.01212862,
      "auxiliary_loss_mlp": 0.01043461,
      "balance_loss_clip": 1.06450486,
      "balance_loss_mlp": 1.03031802,
      "epoch": 0.15006312751758552,
      "flos": 31794661226880.0,
      "grad_norm": 1.7887857506196339,
      "language_loss": 0.76861012,
      "learning_rate": 3.850799852551024e-06,
      "loss": 0.79117334,
      "num_input_tokens_seen": 26414960,
      "step": 1248,
      "time_per_iteration": 2.7902443408966064
    },
    {
      "auxiliary_loss_clip": 0.0121447,
      "auxiliary_loss_mlp": 0.01035883,
      "balance_loss_clip": 1.05891013,
      "balance_loss_mlp": 1.02327693,
      "epoch": 0.1501833704082246,
      "flos": 16618022582400.0,
      "grad_norm": 2.6554772534949307,
      "language_loss": 0.86015862,
      "learning_rate": 3.850504488111995e-06,
      "loss": 0.88266218,
      "num_input_tokens_seen": 26431635,
      "step": 1249,
      "time_per_iteration": 2.649649143218994
    },
    {
      "auxiliary_loss_clip": 0.01209377,
      "auxiliary_loss_mlp": 0.01035593,
      "balance_loss_clip": 1.06010497,
      "balance_loss_mlp": 1.02336216,
      "epoch": 0.15030361329886371,
      "flos": 23471178243840.0,
      "grad_norm": 3.9729548616821795,
      "language_loss": 0.82515895,
      "learning_rate": 3.850208842952907e-06,
      "loss": 0.84760863,
      "num_input_tokens_seen": 26450440,
      "step": 1250,
      "time_per_iteration": 2.7658491134643555
    },
    {
      "auxiliary_loss_clip": 0.0120291,
      "auxiliary_loss_mlp": 0.01041251,
      "balance_loss_clip": 1.05633855,
      "balance_loss_mlp": 1.02876365,
      "epoch": 0.1504238561895028,
      "flos": 25629409906560.0,
      "grad_norm": 1.8605748856262654,
      "language_loss": 0.79147053,
      "learning_rate": 3.849912917118608e-06,
      "loss": 0.81391215,
      "num_input_tokens_seen": 26471480,
      "step": 1251,
      "time_per_iteration": 2.775733232498169
    },
    {
      "auxiliary_loss_clip": 0.01129891,
      "auxiliary_loss_mlp": 0.01007885,
      "balance_loss_clip": 1.03602612,
      "balance_loss_mlp": 1.00247324,
      "epoch": 0.15054409908014188,
      "flos": 52095146129280.0,
      "grad_norm": 0.8829611787444226,
      "language_loss": 0.59319144,
      "learning_rate": 3.849616710653992e-06,
      "loss": 0.61456919,
      "num_input_tokens_seen": 26532950,
      "step": 1252,
      "time_per_iteration": 3.252786636352539
    },
    {
      "auxiliary_loss_clip": 0.01224138,
      "auxiliary_loss_mlp": 0.01040911,
      "balance_loss_clip": 1.0638026,
      "balance_loss_mlp": 1.02745199,
      "epoch": 0.150664341970781,
      "flos": 18880251096960.0,
      "grad_norm": 5.303549817494193,
      "language_loss": 0.74650311,
      "learning_rate": 3.84932022360399e-06,
      "loss": 0.76915359,
      "num_input_tokens_seen": 26551615,
      "step": 1253,
      "time_per_iteration": 2.6902360916137695
    },
    {
      "auxiliary_loss_clip": 0.01213599,
      "auxiliary_loss_mlp": 0.01040149,
      "balance_loss_clip": 1.06540155,
      "balance_loss_mlp": 1.02768004,
      "epoch": 0.15078458486142007,
      "flos": 22163240309760.0,
      "grad_norm": 2.7028119081622677,
      "language_loss": 0.84676421,
      "learning_rate": 3.849023456013581e-06,
      "loss": 0.86930168,
      "num_input_tokens_seen": 26569175,
      "step": 1254,
      "time_per_iteration": 2.770672082901001
    },
    {
      "auxiliary_loss_clip": 0.01234186,
      "auxiliary_loss_mlp": 0.01041806,
      "balance_loss_clip": 1.0646987,
      "balance_loss_mlp": 1.0294261,
      "epoch": 0.15090482775205916,
      "flos": 26651894457600.0,
      "grad_norm": 2.175515831022821,
      "language_loss": 0.61955351,
      "learning_rate": 3.848726407927784e-06,
      "loss": 0.64231348,
      "num_input_tokens_seen": 26589560,
      "step": 1255,
      "time_per_iteration": 2.687040328979492
    },
    {
      "auxiliary_loss_clip": 0.01223032,
      "auxiliary_loss_mlp": 0.01039251,
      "balance_loss_clip": 1.06838965,
      "balance_loss_mlp": 1.02632904,
      "epoch": 0.15102507064269824,
      "flos": 21798998444160.0,
      "grad_norm": 2.6480755645766103,
      "language_loss": 0.86306745,
      "learning_rate": 3.84842907939166e-06,
      "loss": 0.88569027,
      "num_input_tokens_seen": 26608785,
      "step": 1256,
      "time_per_iteration": 2.755981206893921
    },
    {
      "auxiliary_loss_clip": 0.01198766,
      "auxiliary_loss_mlp": 0.01043291,
      "balance_loss_clip": 1.05944943,
      "balance_loss_mlp": 1.03056574,
      "epoch": 0.15114531353333735,
      "flos": 22820908377600.0,
      "grad_norm": 2.9419997717128643,
      "language_loss": 0.71245033,
      "learning_rate": 3.8481314704503146e-06,
      "loss": 0.73487091,
      "num_input_tokens_seen": 26628615,
      "step": 1257,
      "time_per_iteration": 2.828779458999634
    },
    {
      "auxiliary_loss_clip": 0.01231589,
      "auxiliary_loss_mlp": 0.01050904,
      "balance_loss_clip": 1.07272863,
      "balance_loss_mlp": 1.0386734,
      "epoch": 0.15126555642397643,
      "flos": 19682674974720.0,
      "grad_norm": 2.667253714382886,
      "language_loss": 0.88182437,
      "learning_rate": 3.847833581148895e-06,
      "loss": 0.90464932,
      "num_input_tokens_seen": 26647525,
      "step": 1258,
      "time_per_iteration": 2.779900312423706
    },
    {
      "auxiliary_loss_clip": 0.01238252,
      "auxiliary_loss_mlp": 0.01038138,
      "balance_loss_clip": 1.06574905,
      "balance_loss_mlp": 1.02534652,
      "epoch": 0.15138579931461552,
      "flos": 28726022424960.0,
      "grad_norm": 2.49165306652879,
      "language_loss": 0.80962467,
      "learning_rate": 3.84753541153259e-06,
      "loss": 0.83238864,
      "num_input_tokens_seen": 26667095,
      "step": 1259,
      "time_per_iteration": 2.6979005336761475
    },
    {
      "auxiliary_loss_clip": 0.01224607,
      "auxiliary_loss_mlp": 0.01039505,
      "balance_loss_clip": 1.06633878,
      "balance_loss_mlp": 1.02723253,
      "epoch": 0.15150604220525463,
      "flos": 22127006465280.0,
      "grad_norm": 1.5596382471823793,
      "language_loss": 0.82961631,
      "learning_rate": 3.847236961646633e-06,
      "loss": 0.85225749,
      "num_input_tokens_seen": 26686075,
      "step": 1260,
      "time_per_iteration": 2.695786237716675
    },
    {
      "auxiliary_loss_clip": 0.0121312,
      "auxiliary_loss_mlp": 0.01041111,
      "balance_loss_clip": 1.06183159,
      "balance_loss_mlp": 1.0270561,
      "epoch": 0.1516262850958937,
      "flos": 12968708515200.0,
      "grad_norm": 2.672376336237527,
      "language_loss": 0.77521884,
      "learning_rate": 3.846938231536296e-06,
      "loss": 0.7977612,
      "num_input_tokens_seen": 26701695,
      "step": 1261,
      "time_per_iteration": 2.732469081878662
    },
    {
      "auxiliary_loss_clip": 0.01234836,
      "auxiliary_loss_mlp": 0.01047344,
      "balance_loss_clip": 1.07012415,
      "balance_loss_mlp": 1.03504205,
      "epoch": 0.1517465279865328,
      "flos": 21797130936960.0,
      "grad_norm": 1.7598317216868804,
      "language_loss": 0.80827868,
      "learning_rate": 3.8466392212468995e-06,
      "loss": 0.83110046,
      "num_input_tokens_seen": 26721885,
      "step": 1262,
      "time_per_iteration": 2.682985305786133
    },
    {
      "auxiliary_loss_clip": 0.01111889,
      "auxiliary_loss_mlp": 0.01011853,
      "balance_loss_clip": 1.02887988,
      "balance_loss_mlp": 1.00646448,
      "epoch": 0.15186677087717187,
      "flos": 58174569901440.0,
      "grad_norm": 0.8152839056342782,
      "language_loss": 0.61898285,
      "learning_rate": 3.8463399308238e-06,
      "loss": 0.64022028,
      "num_input_tokens_seen": 26780990,
      "step": 1263,
      "time_per_iteration": 4.083279609680176
    },
    {
      "auxiliary_loss_clip": 0.01225659,
      "auxiliary_loss_mlp": 0.01039586,
      "balance_loss_clip": 1.06599844,
      "balance_loss_mlp": 1.026896,
      "epoch": 0.15198701376781099,
      "flos": 32669696448000.0,
      "grad_norm": 1.978233183656726,
      "language_loss": 0.64206421,
      "learning_rate": 3.846040360312402e-06,
      "loss": 0.66471672,
      "num_input_tokens_seen": 26804250,
      "step": 1264,
      "time_per_iteration": 2.7849950790405273
    },
    {
      "auxiliary_loss_clip": 0.0123791,
      "auxiliary_loss_mlp": 0.01038964,
      "balance_loss_clip": 1.06576014,
      "balance_loss_mlp": 1.02687025,
      "epoch": 0.15210725665845007,
      "flos": 28402575431040.0,
      "grad_norm": 2.3177985073581797,
      "language_loss": 0.81573737,
      "learning_rate": 3.8457405097581485e-06,
      "loss": 0.8385061,
      "num_input_tokens_seen": 26823240,
      "step": 1265,
      "time_per_iteration": 2.6165714263916016
    },
    {
      "auxiliary_loss_clip": 0.01198861,
      "auxiliary_loss_mlp": 0.0104275,
      "balance_loss_clip": 1.05702734,
      "balance_loss_mlp": 1.03020954,
      "epoch": 0.15222749954908915,
      "flos": 19938179393280.0,
      "grad_norm": 2.1080632521370535,
      "language_loss": 0.78047061,
      "learning_rate": 3.8454403792065275e-06,
      "loss": 0.80288672,
      "num_input_tokens_seen": 26842060,
      "step": 1266,
      "time_per_iteration": 2.81042742729187
    },
    {
      "auxiliary_loss_clip": 0.01192688,
      "auxiliary_loss_mlp": 0.01038913,
      "balance_loss_clip": 1.05796301,
      "balance_loss_mlp": 1.02639616,
      "epoch": 0.15234774243972826,
      "flos": 21324223451520.0,
      "grad_norm": 3.682987435094796,
      "language_loss": 0.85053712,
      "learning_rate": 3.845139968703068e-06,
      "loss": 0.87285316,
      "num_input_tokens_seen": 26859580,
      "step": 1267,
      "time_per_iteration": 3.7061312198638916
    },
    {
      "auxiliary_loss_clip": 0.01193412,
      "auxiliary_loss_mlp": 0.01049781,
      "balance_loss_clip": 1.05721653,
      "balance_loss_mlp": 1.03675771,
      "epoch": 0.15246798533036734,
      "flos": 25957812977280.0,
      "grad_norm": 6.390817758181645,
      "language_loss": 0.83347577,
      "learning_rate": 3.844839278293342e-06,
      "loss": 0.85590768,
      "num_input_tokens_seen": 26880430,
      "step": 1268,
      "time_per_iteration": 3.736060619354248
    },
    {
      "auxiliary_loss_clip": 0.0124038,
      "auxiliary_loss_mlp": 0.01042209,
      "balance_loss_clip": 1.0684793,
      "balance_loss_mlp": 1.03019845,
      "epoch": 0.15258822822100643,
      "flos": 25811907932160.0,
      "grad_norm": 2.63247865255763,
      "language_loss": 0.76385784,
      "learning_rate": 3.8445383080229654e-06,
      "loss": 0.78668368,
      "num_input_tokens_seen": 26896445,
      "step": 1269,
      "time_per_iteration": 2.7048065662384033
    },
    {
      "auxiliary_loss_clip": 0.01206037,
      "auxiliary_loss_mlp": 0.01044299,
      "balance_loss_clip": 1.05939889,
      "balance_loss_mlp": 1.03140008,
      "epoch": 0.1527084711116455,
      "flos": 25265455349760.0,
      "grad_norm": 2.7286354093439122,
      "language_loss": 0.73609543,
      "learning_rate": 3.844237057937593e-06,
      "loss": 0.75859874,
      "num_input_tokens_seen": 26915450,
      "step": 1270,
      "time_per_iteration": 3.752955913543701
    },
    {
      "auxiliary_loss_clip": 0.01229679,
      "auxiliary_loss_mlp": 0.01036871,
      "balance_loss_clip": 1.06299114,
      "balance_loss_mlp": 1.02472925,
      "epoch": 0.15282871400228462,
      "flos": 29240227572480.0,
      "grad_norm": 3.360000942683936,
      "language_loss": 0.77784073,
      "learning_rate": 3.843935528082926e-06,
      "loss": 0.80050617,
      "num_input_tokens_seen": 26936475,
      "step": 1271,
      "time_per_iteration": 2.712873935699463
    },
    {
      "auxiliary_loss_clip": 0.01230902,
      "auxiliary_loss_mlp": 0.0104281,
      "balance_loss_clip": 1.06698263,
      "balance_loss_mlp": 1.03054309,
      "epoch": 0.1529489568929237,
      "flos": 20882952869760.0,
      "grad_norm": 11.109321486094,
      "language_loss": 0.84744823,
      "learning_rate": 3.843633718504704e-06,
      "loss": 0.87018538,
      "num_input_tokens_seen": 26954920,
      "step": 1272,
      "time_per_iteration": 2.7148940563201904
    },
    {
      "auxiliary_loss_clip": 0.01209906,
      "auxiliary_loss_mlp": 0.01046915,
      "balance_loss_clip": 1.06320238,
      "balance_loss_mlp": 1.03384376,
      "epoch": 0.1530691997835628,
      "flos": 20083833043200.0,
      "grad_norm": 3.0011432197373358,
      "language_loss": 0.90347075,
      "learning_rate": 3.843331629248715e-06,
      "loss": 0.92603892,
      "num_input_tokens_seen": 26972520,
      "step": 1273,
      "time_per_iteration": 2.699124574661255
    },
    {
      "auxiliary_loss_clip": 0.01235883,
      "auxiliary_loss_mlp": 0.01044163,
      "balance_loss_clip": 1.06838846,
      "balance_loss_mlp": 1.03271306,
      "epoch": 0.1531894426742019,
      "flos": 28759814144640.0,
      "grad_norm": 2.159116426729356,
      "language_loss": 0.76657236,
      "learning_rate": 3.843029260360782e-06,
      "loss": 0.7893728,
      "num_input_tokens_seen": 26990890,
      "step": 1274,
      "time_per_iteration": 3.059274435043335
    },
    {
      "auxiliary_loss_clip": 0.01228968,
      "auxiliary_loss_mlp": 0.01043291,
      "balance_loss_clip": 1.07023692,
      "balance_loss_mlp": 1.03147721,
      "epoch": 0.15330968556484098,
      "flos": 22236282616320.0,
      "grad_norm": 2.1936441968736715,
      "language_loss": 0.78742194,
      "learning_rate": 3.8427266118867755e-06,
      "loss": 0.81014448,
      "num_input_tokens_seen": 27010640,
      "step": 1275,
      "time_per_iteration": 2.6643571853637695
    },
    {
      "auxiliary_loss_clip": 0.01213181,
      "auxiliary_loss_mlp": 0.01036912,
      "balance_loss_clip": 1.06234765,
      "balance_loss_mlp": 1.02444828,
      "epoch": 0.15342992845548006,
      "flos": 27527504296320.0,
      "grad_norm": 2.549336003099835,
      "language_loss": 0.82858998,
      "learning_rate": 3.842423683872608e-06,
      "loss": 0.85109091,
      "num_input_tokens_seen": 27031215,
      "step": 1276,
      "time_per_iteration": 2.7642552852630615
    },
    {
      "auxiliary_loss_clip": 0.01225932,
      "auxiliary_loss_mlp": 0.01043787,
      "balance_loss_clip": 1.06387472,
      "balance_loss_mlp": 1.03155041,
      "epoch": 0.15355017134611917,
      "flos": 19609596754560.0,
      "grad_norm": 2.597452354458337,
      "language_loss": 0.77867949,
      "learning_rate": 3.842120476364232e-06,
      "loss": 0.8013767,
      "num_input_tokens_seen": 27049665,
      "step": 1277,
      "time_per_iteration": 2.8111255168914795
    },
    {
      "auxiliary_loss_clip": 0.0123287,
      "auxiliary_loss_mlp": 0.01035285,
      "balance_loss_clip": 1.06595755,
      "balance_loss_mlp": 1.02306032,
      "epoch": 0.15367041423675826,
      "flos": 18478590238080.0,
      "grad_norm": 2.158722190559431,
      "language_loss": 0.83947253,
      "learning_rate": 3.841816989407644e-06,
      "loss": 0.86215401,
      "num_input_tokens_seen": 27065155,
      "step": 1278,
      "time_per_iteration": 2.70343017578125
    },
    {
      "auxiliary_loss_clip": 0.01199549,
      "auxiliary_loss_mlp": 0.01041033,
      "balance_loss_clip": 1.05984533,
      "balance_loss_mlp": 1.02940965,
      "epoch": 0.15379065712739734,
      "flos": 41427662342400.0,
      "grad_norm": 1.9784515722165914,
      "language_loss": 0.76421624,
      "learning_rate": 3.841513223048884e-06,
      "loss": 0.78662205,
      "num_input_tokens_seen": 27085840,
      "step": 1279,
      "time_per_iteration": 2.9190008640289307
    },
    {
      "auxiliary_loss_clip": 0.0120011,
      "auxiliary_loss_mlp": 0.01042564,
      "balance_loss_clip": 1.05811501,
      "balance_loss_mlp": 1.03074479,
      "epoch": 0.15391090001803642,
      "flos": 22054215553920.0,
      "grad_norm": 2.140568665671013,
      "language_loss": 0.78021932,
      "learning_rate": 3.841209177334031e-06,
      "loss": 0.8026461,
      "num_input_tokens_seen": 27104200,
      "step": 1280,
      "time_per_iteration": 2.7358598709106445
    },
    {
      "auxiliary_loss_clip": 0.01223678,
      "auxiliary_loss_mlp": 0.01029152,
      "balance_loss_clip": 1.06524944,
      "balance_loss_mlp": 1.01776791,
      "epoch": 0.15403114290867553,
      "flos": 15450351258240.0,
      "grad_norm": 2.1446581123401307,
      "language_loss": 0.74427867,
      "learning_rate": 3.84090485230921e-06,
      "loss": 0.76680696,
      "num_input_tokens_seen": 27122440,
      "step": 1281,
      "time_per_iteration": 2.6921424865722656
    },
    {
      "auxiliary_loss_clip": 0.01235805,
      "auxiliary_loss_mlp": 0.01045738,
      "balance_loss_clip": 1.06757569,
      "balance_loss_mlp": 1.03314948,
      "epoch": 0.15415138579931462,
      "flos": 17929156826880.0,
      "grad_norm": 3.0817513679066892,
      "language_loss": 0.76647937,
      "learning_rate": 3.840600248020588e-06,
      "loss": 0.78929484,
      "num_input_tokens_seen": 27139380,
      "step": 1282,
      "time_per_iteration": 2.6918818950653076
    },
    {
      "auxiliary_loss_clip": 0.01218315,
      "auxiliary_loss_mlp": 0.01040072,
      "balance_loss_clip": 1.05972505,
      "balance_loss_mlp": 1.02793014,
      "epoch": 0.1542716286899537,
      "flos": 11429325296640.0,
      "grad_norm": 2.111305833323411,
      "language_loss": 0.79916638,
      "learning_rate": 3.840295364514371e-06,
      "loss": 0.82175028,
      "num_input_tokens_seen": 27156760,
      "step": 1283,
      "time_per_iteration": 2.8139920234680176
    },
    {
      "auxiliary_loss_clip": 0.01216942,
      "auxiliary_loss_mlp": 0.01038115,
      "balance_loss_clip": 1.06399131,
      "balance_loss_mlp": 1.02615237,
      "epoch": 0.1543918715805928,
      "flos": 17420338719360.0,
      "grad_norm": 2.4656314884856774,
      "language_loss": 0.78780246,
      "learning_rate": 3.83999020183681e-06,
      "loss": 0.81035304,
      "num_input_tokens_seen": 27175455,
      "step": 1284,
      "time_per_iteration": 2.7603824138641357
    },
    {
      "auxiliary_loss_clip": 0.01175915,
      "auxiliary_loss_mlp": 0.01045954,
      "balance_loss_clip": 1.05728102,
      "balance_loss_mlp": 1.03343678,
      "epoch": 0.1545121144712319,
      "flos": 17786376264960.0,
      "grad_norm": 2.189036911147416,
      "language_loss": 0.78760374,
      "learning_rate": 3.839684760034199e-06,
      "loss": 0.80982244,
      "num_input_tokens_seen": 27193660,
      "step": 1285,
      "time_per_iteration": 2.9132797718048096
    },
    {
      "auxiliary_loss_clip": 0.01195325,
      "auxiliary_loss_mlp": 0.01043271,
      "balance_loss_clip": 1.06087708,
      "balance_loss_mlp": 1.03170156,
      "epoch": 0.15463235736187098,
      "flos": 28220185146240.0,
      "grad_norm": 2.9040856316201276,
      "language_loss": 0.65238345,
      "learning_rate": 3.8393790391528716e-06,
      "loss": 0.6747694,
      "num_input_tokens_seen": 27214355,
      "step": 1286,
      "time_per_iteration": 2.947021245956421
    },
    {
      "auxiliary_loss_clip": 0.01211593,
      "auxiliary_loss_mlp": 0.01043258,
      "balance_loss_clip": 1.06045246,
      "balance_loss_mlp": 1.03108084,
      "epoch": 0.15475260025251006,
      "flos": 22856890826880.0,
      "grad_norm": 2.187806892863171,
      "language_loss": 0.88949496,
      "learning_rate": 3.8390730392392075e-06,
      "loss": 0.91204345,
      "num_input_tokens_seen": 27234335,
      "step": 1287,
      "time_per_iteration": 2.698868751525879
    },
    {
      "auxiliary_loss_clip": 0.01235537,
      "auxiliary_loss_mlp": 0.01043907,
      "balance_loss_clip": 1.06722045,
      "balance_loss_mlp": 1.03231359,
      "epoch": 0.15487284314314917,
      "flos": 17602872658560.0,
      "grad_norm": 2.893561606176494,
      "language_loss": 0.79666305,
      "learning_rate": 3.838766760339626e-06,
      "loss": 0.81945753,
      "num_input_tokens_seen": 27252860,
      "step": 1288,
      "time_per_iteration": 3.822165012359619
    },
    {
      "auxiliary_loss_clip": 0.01181981,
      "auxiliary_loss_mlp": 0.01038,
      "balance_loss_clip": 1.05617809,
      "balance_loss_mlp": 1.02634144,
      "epoch": 0.15499308603378825,
      "flos": 20082037363200.0,
      "grad_norm": 4.392100338638559,
      "language_loss": 0.79406977,
      "learning_rate": 3.838460202500587e-06,
      "loss": 0.81626952,
      "num_input_tokens_seen": 27268650,
      "step": 1289,
      "time_per_iteration": 2.8114378452301025
    },
    {
      "auxiliary_loss_clip": 0.01194936,
      "auxiliary_loss_mlp": 0.01041851,
      "balance_loss_clip": 1.06196022,
      "balance_loss_mlp": 1.02987599,
      "epoch": 0.15511332892442733,
      "flos": 15918051271680.0,
      "grad_norm": 2.9015082132642527,
      "language_loss": 0.74070638,
      "learning_rate": 3.838153365768599e-06,
      "loss": 0.76307428,
      "num_input_tokens_seen": 27285160,
      "step": 1290,
      "time_per_iteration": 2.790480375289917
    },
    {
      "auxiliary_loss_clip": 0.01200636,
      "auxiliary_loss_mlp": 0.01049415,
      "balance_loss_clip": 1.06691754,
      "balance_loss_mlp": 1.03761339,
      "epoch": 0.15523357181506645,
      "flos": 41282475569280.0,
      "grad_norm": 2.4300773660376036,
      "language_loss": 0.75071383,
      "learning_rate": 3.837846250190206e-06,
      "loss": 0.7732144,
      "num_input_tokens_seen": 27308025,
      "step": 1291,
      "time_per_iteration": 2.8870718479156494
    },
    {
      "auxiliary_loss_clip": 0.01188447,
      "auxiliary_loss_mlp": 0.00889497,
      "balance_loss_clip": 1.0609113,
      "balance_loss_mlp": 1.00008965,
      "epoch": 0.15535381470570553,
      "flos": 18478769806080.0,
      "grad_norm": 2.0343120887041186,
      "language_loss": 0.76989841,
      "learning_rate": 3.837538855811998e-06,
      "loss": 0.79067791,
      "num_input_tokens_seen": 27326200,
      "step": 1292,
      "time_per_iteration": 2.8319647312164307
    },
    {
      "auxiliary_loss_clip": 0.01220084,
      "auxiliary_loss_mlp": 0.01035993,
      "balance_loss_clip": 1.06568873,
      "balance_loss_mlp": 1.02435851,
      "epoch": 0.1554740575963446,
      "flos": 13918150759680.0,
      "grad_norm": 2.2983371930156182,
      "language_loss": 0.71105951,
      "learning_rate": 3.837231182680606e-06,
      "loss": 0.73362029,
      "num_input_tokens_seen": 27344165,
      "step": 1293,
      "time_per_iteration": 3.7703568935394287
    },
    {
      "auxiliary_loss_clip": 0.012273,
      "auxiliary_loss_mlp": 0.01036872,
      "balance_loss_clip": 1.06467021,
      "balance_loss_mlp": 1.02582169,
      "epoch": 0.1555943004869837,
      "flos": 20847078161280.0,
      "grad_norm": 2.9868716693327495,
      "language_loss": 0.75998986,
      "learning_rate": 3.836923230842706e-06,
      "loss": 0.78263158,
      "num_input_tokens_seen": 27363280,
      "step": 1294,
      "time_per_iteration": 3.628007650375366
    },
    {
      "auxiliary_loss_clip": 0.01191591,
      "auxiliary_loss_mlp": 0.01033214,
      "balance_loss_clip": 1.05567408,
      "balance_loss_mlp": 1.02149534,
      "epoch": 0.1557145433776228,
      "flos": 22085888371200.0,
      "grad_norm": 2.814356951629024,
      "language_loss": 0.80858886,
      "learning_rate": 3.836615000345011e-06,
      "loss": 0.83083695,
      "num_input_tokens_seen": 27381460,
      "step": 1295,
      "time_per_iteration": 2.8485631942749023
    },
    {
      "auxiliary_loss_clip": 0.01232937,
      "auxiliary_loss_mlp": 0.01033789,
      "balance_loss_clip": 1.06655478,
      "balance_loss_mlp": 1.02175474,
      "epoch": 0.1558347862682619,
      "flos": 19791987039360.0,
      "grad_norm": 13.972035959655182,
      "language_loss": 0.78301686,
      "learning_rate": 3.836306491234282e-06,
      "loss": 0.80568409,
      "num_input_tokens_seen": 27399310,
      "step": 1296,
      "time_per_iteration": 3.958660364151001
    },
    {
      "auxiliary_loss_clip": 0.01210043,
      "auxiliary_loss_mlp": 0.01033101,
      "balance_loss_clip": 1.06659341,
      "balance_loss_mlp": 1.02147198,
      "epoch": 0.15595502915890097,
      "flos": 17237086508160.0,
      "grad_norm": 2.203727534451073,
      "language_loss": 0.75439191,
      "learning_rate": 3.835997703557317e-06,
      "loss": 0.77682328,
      "num_input_tokens_seen": 27416050,
      "step": 1297,
      "time_per_iteration": 2.64270281791687
    },
    {
      "auxiliary_loss_clip": 0.01190206,
      "auxiliary_loss_mlp": 0.01040417,
      "balance_loss_clip": 1.05271733,
      "balance_loss_mlp": 1.02896702,
      "epoch": 0.15607527204954008,
      "flos": 19719519350400.0,
      "grad_norm": 4.710376223504524,
      "language_loss": 0.80160081,
      "learning_rate": 3.83568863736096e-06,
      "loss": 0.82390702,
      "num_input_tokens_seen": 27434920,
      "step": 1298,
      "time_per_iteration": 2.8012168407440186
    },
    {
      "auxiliary_loss_clip": 0.01199224,
      "auxiliary_loss_mlp": 0.0103673,
      "balance_loss_clip": 1.05518031,
      "balance_loss_mlp": 1.02558422,
      "epoch": 0.15619551494017916,
      "flos": 18515650095360.0,
      "grad_norm": 2.523823998346988,
      "language_loss": 0.89588809,
      "learning_rate": 3.8353792926920975e-06,
      "loss": 0.9182477,
      "num_input_tokens_seen": 27453570,
      "step": 1299,
      "time_per_iteration": 2.7060232162475586
    },
    {
      "auxiliary_loss_clip": 0.01230576,
      "auxiliary_loss_mlp": 0.01041855,
      "balance_loss_clip": 1.06515563,
      "balance_loss_mlp": 1.03018427,
      "epoch": 0.15631575783081825,
      "flos": 19902125116800.0,
      "grad_norm": 3.3542490742360638,
      "language_loss": 0.82002616,
      "learning_rate": 3.835069669597655e-06,
      "loss": 0.84275049,
      "num_input_tokens_seen": 27471960,
      "step": 1300,
      "time_per_iteration": 2.730144500732422
    },
    {
      "auxiliary_loss_clip": 0.01228299,
      "auxiliary_loss_mlp": 0.00890341,
      "balance_loss_clip": 1.06406569,
      "balance_loss_mlp": 1.00011694,
      "epoch": 0.15643600072145733,
      "flos": 20777663128320.0,
      "grad_norm": 7.004811688181756,
      "language_loss": 0.7976104,
      "learning_rate": 3.834759768124603e-06,
      "loss": 0.81879675,
      "num_input_tokens_seen": 27490835,
      "step": 1301,
      "time_per_iteration": 2.714322566986084
    },
    {
      "auxiliary_loss_clip": 0.01206975,
      "auxiliary_loss_mlp": 0.01044348,
      "balance_loss_clip": 1.06437147,
      "balance_loss_mlp": 1.03201032,
      "epoch": 0.15655624361209644,
      "flos": 18546389159040.0,
      "grad_norm": 2.9837187605329385,
      "language_loss": 0.76337701,
      "learning_rate": 3.834449588319953e-06,
      "loss": 0.78589028,
      "num_input_tokens_seen": 27508870,
      "step": 1302,
      "time_per_iteration": 2.680189847946167
    },
    {
      "auxiliary_loss_clip": 0.01221598,
      "auxiliary_loss_mlp": 0.01041042,
      "balance_loss_clip": 1.06704223,
      "balance_loss_mlp": 1.02946723,
      "epoch": 0.15667648650273552,
      "flos": 25229544727680.0,
      "grad_norm": 1.8932570596556355,
      "language_loss": 0.85031736,
      "learning_rate": 3.834139130230758e-06,
      "loss": 0.87294376,
      "num_input_tokens_seen": 27528175,
      "step": 1303,
      "time_per_iteration": 2.7373101711273193
    },
    {
      "auxiliary_loss_clip": 0.01212954,
      "auxiliary_loss_mlp": 0.0103959,
      "balance_loss_clip": 1.05947423,
      "balance_loss_mlp": 1.02774644,
      "epoch": 0.1567967293933746,
      "flos": 24827093769600.0,
      "grad_norm": 1.5585339828847338,
      "language_loss": 0.80953526,
      "learning_rate": 3.833828393904117e-06,
      "loss": 0.83206069,
      "num_input_tokens_seen": 27548455,
      "step": 1304,
      "time_per_iteration": 2.7159814834594727
    },
    {
      "auxiliary_loss_clip": 0.01181836,
      "auxiliary_loss_mlp": 0.01038438,
      "balance_loss_clip": 1.05375814,
      "balance_loss_mlp": 1.02714252,
      "epoch": 0.15691697228401372,
      "flos": 19164555244800.0,
      "grad_norm": 2.762597061088989,
      "language_loss": 0.77443033,
      "learning_rate": 3.833517379387165e-06,
      "loss": 0.79663301,
      "num_input_tokens_seen": 27564910,
      "step": 1305,
      "time_per_iteration": 2.708658456802368
    },
    {
      "auxiliary_loss_clip": 0.01228042,
      "auxiliary_loss_mlp": 0.0104747,
      "balance_loss_clip": 1.06451857,
      "balance_loss_mlp": 1.0360496,
      "epoch": 0.1570372151746528,
      "flos": 24790931752320.0,
      "grad_norm": 2.497764268959109,
      "language_loss": 0.88857454,
      "learning_rate": 3.833206086727085e-06,
      "loss": 0.91132963,
      "num_input_tokens_seen": 27584260,
      "step": 1306,
      "time_per_iteration": 2.705557107925415
    },
    {
      "auxiliary_loss_clip": 0.01205321,
      "auxiliary_loss_mlp": 0.01035872,
      "balance_loss_clip": 1.05893636,
      "balance_loss_mlp": 1.02440441,
      "epoch": 0.15715745806529188,
      "flos": 24863650836480.0,
      "grad_norm": 2.591292743181798,
      "language_loss": 0.70386159,
      "learning_rate": 3.8328945159710994e-06,
      "loss": 0.72627354,
      "num_input_tokens_seen": 27604440,
      "step": 1307,
      "time_per_iteration": 2.803463935852051
    },
    {
      "auxiliary_loss_clip": 0.01228414,
      "auxiliary_loss_mlp": 0.00889094,
      "balance_loss_clip": 1.0665338,
      "balance_loss_mlp": 1.00013411,
      "epoch": 0.157277700955931,
      "flos": 21872148491520.0,
      "grad_norm": 1.9818893550814143,
      "language_loss": 0.88896143,
      "learning_rate": 3.832582667166473e-06,
      "loss": 0.91013646,
      "num_input_tokens_seen": 27624250,
      "step": 1308,
      "time_per_iteration": 2.6652016639709473
    },
    {
      "auxiliary_loss_clip": 0.0120702,
      "auxiliary_loss_mlp": 0.01036719,
      "balance_loss_clip": 1.05954206,
      "balance_loss_mlp": 1.02517319,
      "epoch": 0.15739794384657008,
      "flos": 24533344344960.0,
      "grad_norm": 2.0555730074652474,
      "language_loss": 0.8151778,
      "learning_rate": 3.8322705403605125e-06,
      "loss": 0.83761513,
      "num_input_tokens_seen": 27644595,
      "step": 1309,
      "time_per_iteration": 2.7431857585906982
    },
    {
      "auxiliary_loss_clip": 0.01202853,
      "auxiliary_loss_mlp": 0.01036306,
      "balance_loss_clip": 1.06077373,
      "balance_loss_mlp": 1.02559471,
      "epoch": 0.15751818673720916,
      "flos": 17745329998080.0,
      "grad_norm": 2.119747846973901,
      "language_loss": 0.81330383,
      "learning_rate": 3.831958135600568e-06,
      "loss": 0.83569539,
      "num_input_tokens_seen": 27662145,
      "step": 1310,
      "time_per_iteration": 2.641751766204834
    },
    {
      "auxiliary_loss_clip": 0.01226803,
      "auxiliary_loss_mlp": 0.01041022,
      "balance_loss_clip": 1.0651046,
      "balance_loss_mlp": 1.02984595,
      "epoch": 0.15763842962784824,
      "flos": 17858520731520.0,
      "grad_norm": 2.128704858272981,
      "language_loss": 0.79548144,
      "learning_rate": 3.831645452934032e-06,
      "loss": 0.8181597,
      "num_input_tokens_seen": 27680575,
      "step": 1311,
      "time_per_iteration": 2.6664044857025146
    },
    {
      "auxiliary_loss_clip": 0.01239902,
      "auxiliary_loss_mlp": 0.01045397,
      "balance_loss_clip": 1.07073641,
      "balance_loss_mlp": 1.03302312,
      "epoch": 0.15775867251848735,
      "flos": 26980908059520.0,
      "grad_norm": 1.8544483346372407,
      "language_loss": 0.80088121,
      "learning_rate": 3.831332492408336e-06,
      "loss": 0.82373416,
      "num_input_tokens_seen": 27701985,
      "step": 1312,
      "time_per_iteration": 2.6930928230285645
    },
    {
      "auxiliary_loss_clip": 0.01205236,
      "auxiliary_loss_mlp": 0.01036407,
      "balance_loss_clip": 1.05736792,
      "balance_loss_mlp": 1.02545738,
      "epoch": 0.15787891540912644,
      "flos": 19240398812160.0,
      "grad_norm": 2.032785667083722,
      "language_loss": 0.69431537,
      "learning_rate": 3.831019254070957e-06,
      "loss": 0.71673179,
      "num_input_tokens_seen": 27719770,
      "step": 1313,
      "time_per_iteration": 2.7160212993621826
    },
    {
      "auxiliary_loss_clip": 0.01192735,
      "auxiliary_loss_mlp": 0.01040802,
      "balance_loss_clip": 1.0575614,
      "balance_loss_mlp": 1.02982306,
      "epoch": 0.15799915829976552,
      "flos": 27271102037760.0,
      "grad_norm": 26.913042621309085,
      "language_loss": 0.94516927,
      "learning_rate": 3.8307057379694135e-06,
      "loss": 0.96750462,
      "num_input_tokens_seen": 27739105,
      "step": 1314,
      "time_per_iteration": 3.73954176902771
    },
    {
      "auxiliary_loss_clip": 0.01235722,
      "auxiliary_loss_mlp": 0.01044951,
      "balance_loss_clip": 1.06668115,
      "balance_loss_mlp": 1.03307831,
      "epoch": 0.15811940119040463,
      "flos": 20405520270720.0,
      "grad_norm": 2.40697914572558,
      "language_loss": 0.82447171,
      "learning_rate": 3.830391944151264e-06,
      "loss": 0.84727848,
      "num_input_tokens_seen": 27754985,
      "step": 1315,
      "time_per_iteration": 2.593003988265991
    },
    {
      "auxiliary_loss_clip": 0.01216297,
      "auxiliary_loss_mlp": 0.01034198,
      "balance_loss_clip": 1.06014121,
      "balance_loss_mlp": 1.02238417,
      "epoch": 0.1582396440810437,
      "flos": 32599347661440.0,
      "grad_norm": 2.1712440926815146,
      "language_loss": 0.67377186,
      "learning_rate": 3.830077872664114e-06,
      "loss": 0.69627678,
      "num_input_tokens_seen": 27776110,
      "step": 1316,
      "time_per_iteration": 2.7798962593078613
    },
    {
      "auxiliary_loss_clip": 0.01184745,
      "auxiliary_loss_mlp": 0.01041914,
      "balance_loss_clip": 1.05442953,
      "balance_loss_mlp": 1.02990341,
      "epoch": 0.1583598869716828,
      "flos": 33800559310080.0,
      "grad_norm": 2.0100174802397515,
      "language_loss": 0.72349846,
      "learning_rate": 3.829763523555604e-06,
      "loss": 0.74576509,
      "num_input_tokens_seen": 27796510,
      "step": 1317,
      "time_per_iteration": 2.8537821769714355
    },
    {
      "auxiliary_loss_clip": 0.01219486,
      "auxiliary_loss_mlp": 0.01032502,
      "balance_loss_clip": 1.06810403,
      "balance_loss_mlp": 1.02208304,
      "epoch": 0.15848012986232188,
      "flos": 24681332378880.0,
      "grad_norm": 21.476976761254225,
      "language_loss": 0.7785114,
      "learning_rate": 3.829448896873423e-06,
      "loss": 0.80103123,
      "num_input_tokens_seen": 27815610,
      "step": 1318,
      "time_per_iteration": 2.6542153358459473
    },
    {
      "auxiliary_loss_clip": 0.01175445,
      "auxiliary_loss_mlp": 0.00889612,
      "balance_loss_clip": 1.05641341,
      "balance_loss_mlp": 1.00023127,
      "epoch": 0.158600372752961,
      "flos": 22602068766720.0,
      "grad_norm": 2.2457306464352698,
      "language_loss": 0.7907083,
      "learning_rate": 3.829133992665299e-06,
      "loss": 0.81135881,
      "num_input_tokens_seen": 27834735,
      "step": 1319,
      "time_per_iteration": 4.701111316680908
    },
    {
      "auxiliary_loss_clip": 0.0121441,
      "auxiliary_loss_mlp": 0.0103669,
      "balance_loss_clip": 1.06467342,
      "balance_loss_mlp": 1.02548456,
      "epoch": 0.15872061564360007,
      "flos": 27927944092800.0,
      "grad_norm": 2.1203560316094223,
      "language_loss": 0.88699049,
      "learning_rate": 3.828818810979002e-06,
      "loss": 0.90950149,
      "num_input_tokens_seen": 27853065,
      "step": 1320,
      "time_per_iteration": 2.700167655944824
    },
    {
      "auxiliary_loss_clip": 0.01233961,
      "auxiliary_loss_mlp": 0.01039654,
      "balance_loss_clip": 1.06820405,
      "balance_loss_mlp": 1.02850223,
      "epoch": 0.15884085853423915,
      "flos": 23696805525120.0,
      "grad_norm": 1.9705372470715097,
      "language_loss": 0.80260503,
      "learning_rate": 3.8285033518623454e-06,
      "loss": 0.82534117,
      "num_input_tokens_seen": 27873315,
      "step": 1321,
      "time_per_iteration": 3.6179168224334717
    },
    {
      "auxiliary_loss_clip": 0.01229201,
      "auxiliary_loss_mlp": 0.01043967,
      "balance_loss_clip": 1.06530988,
      "balance_loss_mlp": 1.03209364,
      "epoch": 0.15896110142487826,
      "flos": 23112359331840.0,
      "grad_norm": 2.516969178728052,
      "language_loss": 0.81697243,
      "learning_rate": 3.8281876153631845e-06,
      "loss": 0.83970404,
      "num_input_tokens_seen": 27890070,
      "step": 1322,
      "time_per_iteration": 2.785297393798828
    },
    {
      "auxiliary_loss_clip": 0.01187766,
      "auxiliary_loss_mlp": 0.01036629,
      "balance_loss_clip": 1.05725205,
      "balance_loss_mlp": 1.02470827,
      "epoch": 0.15908134431551735,
      "flos": 14685238632960.0,
      "grad_norm": 2.0849042316575574,
      "language_loss": 0.64527196,
      "learning_rate": 3.827871601529416e-06,
      "loss": 0.66751587,
      "num_input_tokens_seen": 27908590,
      "step": 1323,
      "time_per_iteration": 2.7019901275634766
    },
    {
      "auxiliary_loss_clip": 0.01199819,
      "auxiliary_loss_mlp": 0.01034084,
      "balance_loss_clip": 1.06149769,
      "balance_loss_mlp": 1.02317667,
      "epoch": 0.15920158720615643,
      "flos": 20193611984640.0,
      "grad_norm": 1.9109680858549745,
      "language_loss": 0.8051188,
      "learning_rate": 3.827555310408979e-06,
      "loss": 0.82745779,
      "num_input_tokens_seen": 27927985,
      "step": 1324,
      "time_per_iteration": 2.768885850906372
    },
    {
      "auxiliary_loss_clip": 0.01197766,
      "auxiliary_loss_mlp": 0.01041008,
      "balance_loss_clip": 1.06288409,
      "balance_loss_mlp": 1.02949798,
      "epoch": 0.1593218300967955,
      "flos": 24826626892800.0,
      "grad_norm": 2.5317859137557934,
      "language_loss": 0.82727849,
      "learning_rate": 3.827238742049854e-06,
      "loss": 0.84966624,
      "num_input_tokens_seen": 27948280,
      "step": 1325,
      "time_per_iteration": 2.76041841506958
    },
    {
      "auxiliary_loss_clip": 0.01232202,
      "auxiliary_loss_mlp": 0.01045832,
      "balance_loss_clip": 1.06563115,
      "balance_loss_mlp": 1.03441739,
      "epoch": 0.15944207298743462,
      "flos": 28328707111680.0,
      "grad_norm": 1.9448139661653667,
      "language_loss": 0.52141428,
      "learning_rate": 3.826921896500066e-06,
      "loss": 0.54419458,
      "num_input_tokens_seen": 27969565,
      "step": 1326,
      "time_per_iteration": 2.717916250228882
    },
    {
      "auxiliary_loss_clip": 0.01206912,
      "auxiliary_loss_mlp": 0.01038479,
      "balance_loss_clip": 1.06183207,
      "balance_loss_mlp": 1.02630818,
      "epoch": 0.1595623158780737,
      "flos": 22964838174720.0,
      "grad_norm": 2.1040855458850687,
      "language_loss": 0.78353667,
      "learning_rate": 3.826604773807678e-06,
      "loss": 0.8059907,
      "num_input_tokens_seen": 27987540,
      "step": 1327,
      "time_per_iteration": 2.7888169288635254
    },
    {
      "auxiliary_loss_clip": 0.01211065,
      "auxiliary_loss_mlp": 0.01037071,
      "balance_loss_clip": 1.05808651,
      "balance_loss_mlp": 1.02498937,
      "epoch": 0.1596825587687128,
      "flos": 19710540950400.0,
      "grad_norm": 2.657738313752822,
      "language_loss": 0.73316938,
      "learning_rate": 3.826287374020798e-06,
      "loss": 0.75565076,
      "num_input_tokens_seen": 28002345,
      "step": 1328,
      "time_per_iteration": 2.679292678833008
    },
    {
      "auxiliary_loss_clip": 0.01236557,
      "auxiliary_loss_mlp": 0.01042743,
      "balance_loss_clip": 1.07001853,
      "balance_loss_mlp": 1.03180003,
      "epoch": 0.1598028016593519,
      "flos": 22637727993600.0,
      "grad_norm": 2.9500726352407356,
      "language_loss": 0.82411021,
      "learning_rate": 3.825969697187575e-06,
      "loss": 0.8469032,
      "num_input_tokens_seen": 28021675,
      "step": 1329,
      "time_per_iteration": 2.6528871059417725
    },
    {
      "auxiliary_loss_clip": 0.01197024,
      "auxiliary_loss_mlp": 0.01036726,
      "balance_loss_clip": 1.05676246,
      "balance_loss_mlp": 1.02502608,
      "epoch": 0.15992304454999098,
      "flos": 20482908122880.0,
      "grad_norm": 2.058586301106564,
      "language_loss": 0.69487894,
      "learning_rate": 3.8256517433562015e-06,
      "loss": 0.71721649,
      "num_input_tokens_seen": 28039615,
      "step": 1330,
      "time_per_iteration": 2.703134059906006
    },
    {
      "auxiliary_loss_clip": 0.0123445,
      "auxiliary_loss_mlp": 0.01036814,
      "balance_loss_clip": 1.06796861,
      "balance_loss_mlp": 1.02633595,
      "epoch": 0.16004328744063007,
      "flos": 17676094533120.0,
      "grad_norm": 2.513641622731508,
      "language_loss": 0.91519403,
      "learning_rate": 3.82533351257491e-06,
      "loss": 0.93790668,
      "num_input_tokens_seen": 28057565,
      "step": 1331,
      "time_per_iteration": 2.6502232551574707
    },
    {
      "auxiliary_loss_clip": 0.01223251,
      "auxiliary_loss_mlp": 0.01036379,
      "balance_loss_clip": 1.06747639,
      "balance_loss_mlp": 1.02518535,
      "epoch": 0.16016353033126918,
      "flos": 24098717779200.0,
      "grad_norm": 1.7426454451246833,
      "language_loss": 0.88524866,
      "learning_rate": 3.825015004891975e-06,
      "loss": 0.90784502,
      "num_input_tokens_seen": 28076305,
      "step": 1332,
      "time_per_iteration": 2.6120121479034424
    },
    {
      "auxiliary_loss_clip": 0.01219276,
      "auxiliary_loss_mlp": 0.01035385,
      "balance_loss_clip": 1.0637114,
      "balance_loss_mlp": 1.02463222,
      "epoch": 0.16028377322190826,
      "flos": 27634841112960.0,
      "grad_norm": 3.0982645174139227,
      "language_loss": 0.7599439,
      "learning_rate": 3.824696220355716e-06,
      "loss": 0.78249049,
      "num_input_tokens_seen": 28097895,
      "step": 1333,
      "time_per_iteration": 2.7451975345611572
    },
    {
      "auxiliary_loss_clip": 0.01207226,
      "auxiliary_loss_mlp": 0.0103927,
      "balance_loss_clip": 1.06183887,
      "balance_loss_mlp": 1.0286361,
      "epoch": 0.16040401611254734,
      "flos": 20961202648320.0,
      "grad_norm": 1.726774145590153,
      "language_loss": 0.7904042,
      "learning_rate": 3.824377159014491e-06,
      "loss": 0.81286913,
      "num_input_tokens_seen": 28118790,
      "step": 1334,
      "time_per_iteration": 2.6910054683685303
    },
    {
      "auxiliary_loss_clip": 0.01223023,
      "auxiliary_loss_mlp": 0.01043261,
      "balance_loss_clip": 1.06623733,
      "balance_loss_mlp": 1.03171599,
      "epoch": 0.16052425900318643,
      "flos": 21247051080960.0,
      "grad_norm": 1.992616387691445,
      "language_loss": 0.85041833,
      "learning_rate": 3.824057820916702e-06,
      "loss": 0.87308121,
      "num_input_tokens_seen": 28135995,
      "step": 1335,
      "time_per_iteration": 2.6964969635009766
    },
    {
      "auxiliary_loss_clip": 0.0121195,
      "auxiliary_loss_mlp": 0.01036188,
      "balance_loss_clip": 1.06190479,
      "balance_loss_mlp": 1.02459502,
      "epoch": 0.16064450189382554,
      "flos": 15524004096000.0,
      "grad_norm": 2.8509948912796963,
      "language_loss": 0.71875775,
      "learning_rate": 3.8237382061107904e-06,
      "loss": 0.74123913,
      "num_input_tokens_seen": 28152715,
      "step": 1336,
      "time_per_iteration": 2.65427827835083
    },
    {
      "auxiliary_loss_clip": 0.01154151,
      "auxiliary_loss_mlp": 0.01039366,
      "balance_loss_clip": 1.04793036,
      "balance_loss_mlp": 1.02761841,
      "epoch": 0.16076474478446462,
      "flos": 21178497974400.0,
      "grad_norm": 1.9481128780852013,
      "language_loss": 0.7857433,
      "learning_rate": 3.823418314645243e-06,
      "loss": 0.80767846,
      "num_input_tokens_seen": 28171590,
      "step": 1337,
      "time_per_iteration": 3.0170209407806396
    },
    {
      "auxiliary_loss_clip": 0.01171346,
      "auxiliary_loss_mlp": 0.01032998,
      "balance_loss_clip": 1.05649602,
      "balance_loss_mlp": 1.02187002,
      "epoch": 0.1608849876751037,
      "flos": 18366476912640.0,
      "grad_norm": 2.0997130814613523,
      "language_loss": 0.75461537,
      "learning_rate": 3.823098146568588e-06,
      "loss": 0.77665877,
      "num_input_tokens_seen": 28191295,
      "step": 1338,
      "time_per_iteration": 2.9717724323272705
    },
    {
      "auxiliary_loss_clip": 0.01223635,
      "auxiliary_loss_mlp": 0.01032826,
      "balance_loss_clip": 1.06532824,
      "balance_loss_mlp": 1.0216862,
      "epoch": 0.1610052305657428,
      "flos": 29497024880640.0,
      "grad_norm": 2.246293618797092,
      "language_loss": 0.71418703,
      "learning_rate": 3.822777701929394e-06,
      "loss": 0.73675162,
      "num_input_tokens_seen": 28213120,
      "step": 1339,
      "time_per_iteration": 2.7489137649536133
    },
    {
      "auxiliary_loss_clip": 0.01209821,
      "auxiliary_loss_mlp": 0.01037455,
      "balance_loss_clip": 1.05880594,
      "balance_loss_mlp": 1.02542734,
      "epoch": 0.1611254734563819,
      "flos": 26797871329920.0,
      "grad_norm": 2.033807609257839,
      "language_loss": 0.73339081,
      "learning_rate": 3.8224569807762714e-06,
      "loss": 0.75586361,
      "num_input_tokens_seen": 28232440,
      "step": 1340,
      "time_per_iteration": 3.660715103149414
    },
    {
      "auxiliary_loss_clip": 0.01168217,
      "auxiliary_loss_mlp": 0.01036046,
      "balance_loss_clip": 1.05143261,
      "balance_loss_mlp": 1.02505529,
      "epoch": 0.16124571634702098,
      "flos": 22419570741120.0,
      "grad_norm": 1.7981406805345792,
      "language_loss": 0.7661618,
      "learning_rate": 3.822135983157873e-06,
      "loss": 0.78820443,
      "num_input_tokens_seen": 28251715,
      "step": 1341,
      "time_per_iteration": 2.758816719055176
    },
    {
      "auxiliary_loss_clip": 0.01230853,
      "auxiliary_loss_mlp": 0.0088867,
      "balance_loss_clip": 1.06559253,
      "balance_loss_mlp": 1.00028968,
      "epoch": 0.16136595923766006,
      "flos": 10999116103680.0,
      "grad_norm": 2.2934998121362615,
      "language_loss": 0.84158194,
      "learning_rate": 3.821814709122896e-06,
      "loss": 0.86277723,
      "num_input_tokens_seen": 28269765,
      "step": 1342,
      "time_per_iteration": 2.6026954650878906
    },
    {
      "auxiliary_loss_clip": 0.01208286,
      "auxiliary_loss_mlp": 0.01036578,
      "balance_loss_clip": 1.06164384,
      "balance_loss_mlp": 1.02581906,
      "epoch": 0.16148620212829917,
      "flos": 21214983214080.0,
      "grad_norm": 2.1338866968991668,
      "language_loss": 0.84793639,
      "learning_rate": 3.821493158720076e-06,
      "loss": 0.87038505,
      "num_input_tokens_seen": 28288870,
      "step": 1343,
      "time_per_iteration": 2.698012351989746
    },
    {
      "auxiliary_loss_clip": 0.01198921,
      "auxiliary_loss_mlp": 0.01034951,
      "balance_loss_clip": 1.05422354,
      "balance_loss_mlp": 1.02264297,
      "epoch": 0.16160644501893826,
      "flos": 16758468760320.0,
      "grad_norm": 6.408608958300943,
      "language_loss": 0.73241043,
      "learning_rate": 3.821171331998191e-06,
      "loss": 0.75474912,
      "num_input_tokens_seen": 28305400,
      "step": 1344,
      "time_per_iteration": 3.689810037612915
    },
    {
      "auxiliary_loss_clip": 0.01113732,
      "auxiliary_loss_mlp": 0.01025629,
      "balance_loss_clip": 1.03642821,
      "balance_loss_mlp": 1.02047908,
      "epoch": 0.16172668790957734,
      "flos": 64444967308800.0,
      "grad_norm": 0.7112697823359259,
      "language_loss": 0.54436296,
      "learning_rate": 3.820849229006064e-06,
      "loss": 0.56575656,
      "num_input_tokens_seen": 28373150,
      "step": 1345,
      "time_per_iteration": 4.30937647819519
    },
    {
      "auxiliary_loss_clip": 0.01235993,
      "auxiliary_loss_mlp": 0.01036369,
      "balance_loss_clip": 1.06743538,
      "balance_loss_mlp": 1.02558661,
      "epoch": 0.16184693080021645,
      "flos": 23257689759360.0,
      "grad_norm": 3.552550960441337,
      "language_loss": 0.71198708,
      "learning_rate": 3.8205268497925564e-06,
      "loss": 0.73471069,
      "num_input_tokens_seen": 28393620,
      "step": 1346,
      "time_per_iteration": 2.669743537902832
    },
    {
      "auxiliary_loss_clip": 0.0123212,
      "auxiliary_loss_mlp": 0.0103436,
      "balance_loss_clip": 1.06630754,
      "balance_loss_mlp": 1.02329183,
      "epoch": 0.16196717369085553,
      "flos": 17451113696640.0,
      "grad_norm": 2.3147073060066248,
      "language_loss": 0.78481317,
      "learning_rate": 3.8202041944065725e-06,
      "loss": 0.80747795,
      "num_input_tokens_seen": 28409440,
      "step": 1347,
      "time_per_iteration": 3.561246395111084
    },
    {
      "auxiliary_loss_clip": 0.01234374,
      "auxiliary_loss_mlp": 0.01038885,
      "balance_loss_clip": 1.06714141,
      "balance_loss_mlp": 1.02822733,
      "epoch": 0.16208741658149461,
      "flos": 23873377806720.0,
      "grad_norm": 2.2249502301785906,
      "language_loss": 0.73785686,
      "learning_rate": 3.819881262897061e-06,
      "loss": 0.76058948,
      "num_input_tokens_seen": 28427575,
      "step": 1348,
      "time_per_iteration": 2.66023325920105
    },
    {
      "auxiliary_loss_clip": 0.01202633,
      "auxiliary_loss_mlp": 0.01043346,
      "balance_loss_clip": 1.06250405,
      "balance_loss_mlp": 1.03196728,
      "epoch": 0.1622076594721337,
      "flos": 25884806584320.0,
      "grad_norm": 2.365867979536515,
      "language_loss": 0.73648173,
      "learning_rate": 3.819558055313008e-06,
      "loss": 0.75894147,
      "num_input_tokens_seen": 28448260,
      "step": 1349,
      "time_per_iteration": 2.7790348529815674
    },
    {
      "auxiliary_loss_clip": 0.01227095,
      "auxiliary_loss_mlp": 0.01036638,
      "balance_loss_clip": 1.06444383,
      "balance_loss_mlp": 1.02496171,
      "epoch": 0.1623279023627728,
      "flos": 21539759011200.0,
      "grad_norm": 2.057912205309667,
      "language_loss": 0.77374828,
      "learning_rate": 3.819234571703444e-06,
      "loss": 0.79638553,
      "num_input_tokens_seen": 28467085,
      "step": 1350,
      "time_per_iteration": 2.678652048110962
    },
    {
      "auxiliary_loss_clip": 0.01212589,
      "auxiliary_loss_mlp": 0.01041619,
      "balance_loss_clip": 1.0595367,
      "balance_loss_mlp": 1.02989507,
      "epoch": 0.1624481452534119,
      "flos": 22085421494400.0,
      "grad_norm": 1.7200954369885535,
      "language_loss": 0.85906768,
      "learning_rate": 3.8189108121174435e-06,
      "loss": 0.8816098,
      "num_input_tokens_seen": 28486850,
      "step": 1351,
      "time_per_iteration": 2.6415045261383057
    },
    {
      "auxiliary_loss_clip": 0.01194121,
      "auxiliary_loss_mlp": 0.01038293,
      "balance_loss_clip": 1.06077421,
      "balance_loss_mlp": 1.02720046,
      "epoch": 0.16256838814405097,
      "flos": 27087490690560.0,
      "grad_norm": 1.9195928945638248,
      "language_loss": 0.83359492,
      "learning_rate": 3.818586776604118e-06,
      "loss": 0.855919,
      "num_input_tokens_seen": 28507490,
      "step": 1352,
      "time_per_iteration": 2.761577606201172
    },
    {
      "auxiliary_loss_clip": 0.01203705,
      "auxiliary_loss_mlp": 0.01037632,
      "balance_loss_clip": 1.05797815,
      "balance_loss_mlp": 1.02629483,
      "epoch": 0.16268863103469008,
      "flos": 20120354196480.0,
      "grad_norm": 2.481888006252507,
      "language_loss": 0.61681694,
      "learning_rate": 3.818262465212625e-06,
      "loss": 0.63923031,
      "num_input_tokens_seen": 28527615,
      "step": 1353,
      "time_per_iteration": 2.672118663787842
    },
    {
      "auxiliary_loss_clip": 0.01211897,
      "auxiliary_loss_mlp": 0.01034533,
      "balance_loss_clip": 1.06258082,
      "balance_loss_mlp": 1.02249289,
      "epoch": 0.16280887392532917,
      "flos": 18332792933760.0,
      "grad_norm": 2.565683604734006,
      "language_loss": 0.77175832,
      "learning_rate": 3.817937877992161e-06,
      "loss": 0.79422265,
      "num_input_tokens_seen": 28544910,
      "step": 1354,
      "time_per_iteration": 2.707828998565674
    },
    {
      "auxiliary_loss_clip": 0.0119902,
      "auxiliary_loss_mlp": 0.00889713,
      "balance_loss_clip": 1.05679107,
      "balance_loss_mlp": 1.00024915,
      "epoch": 0.16292911681596825,
      "flos": 11874330892800.0,
      "grad_norm": 2.3328956271212458,
      "language_loss": 0.85827297,
      "learning_rate": 3.817613014991967e-06,
      "loss": 0.87916034,
      "num_input_tokens_seen": 28561050,
      "step": 1355,
      "time_per_iteration": 2.8144454956054688
    },
    {
      "auxiliary_loss_clip": 0.01188482,
      "auxiliary_loss_mlp": 0.01033264,
      "balance_loss_clip": 1.05527735,
      "balance_loss_mlp": 1.02108085,
      "epoch": 0.16304935970660733,
      "flos": 26103466627200.0,
      "grad_norm": 2.2514341736553476,
      "language_loss": 0.7681123,
      "learning_rate": 3.817287876261323e-06,
      "loss": 0.79032981,
      "num_input_tokens_seen": 28581385,
      "step": 1356,
      "time_per_iteration": 2.7697994709014893
    },
    {
      "auxiliary_loss_clip": 0.01207411,
      "auxiliary_loss_mlp": 0.01041665,
      "balance_loss_clip": 1.06256485,
      "balance_loss_mlp": 1.03018546,
      "epoch": 0.16316960259724644,
      "flos": 29351945848320.0,
      "grad_norm": 2.1933712398885423,
      "language_loss": 0.80366278,
      "learning_rate": 3.816962461849553e-06,
      "loss": 0.82615358,
      "num_input_tokens_seen": 28603255,
      "step": 1357,
      "time_per_iteration": 2.740248918533325
    },
    {
      "auxiliary_loss_clip": 0.01200391,
      "auxiliary_loss_mlp": 0.01037301,
      "balance_loss_clip": 1.06099129,
      "balance_loss_mlp": 1.0261246,
      "epoch": 0.16328984548788553,
      "flos": 20886759711360.0,
      "grad_norm": 1.9208319170222128,
      "language_loss": 0.84728628,
      "learning_rate": 3.8166367718060235e-06,
      "loss": 0.86966324,
      "num_input_tokens_seen": 28623145,
      "step": 1358,
      "time_per_iteration": 2.6796987056732178
    },
    {
      "auxiliary_loss_clip": 0.01213496,
      "auxiliary_loss_mlp": 0.01042044,
      "balance_loss_clip": 1.05779135,
      "balance_loss_mlp": 1.03043938,
      "epoch": 0.1634100883785246,
      "flos": 18041090584320.0,
      "grad_norm": 3.2054805730561293,
      "language_loss": 0.75946367,
      "learning_rate": 3.816310806180139e-06,
      "loss": 0.78201914,
      "num_input_tokens_seen": 28641555,
      "step": 1359,
      "time_per_iteration": 2.641213893890381
    },
    {
      "auxiliary_loss_clip": 0.0120739,
      "auxiliary_loss_mlp": 0.01038337,
      "balance_loss_clip": 1.06164479,
      "balance_loss_mlp": 1.02681577,
      "epoch": 0.16353033126916372,
      "flos": 24572128055040.0,
      "grad_norm": 1.8996404509185647,
      "language_loss": 0.80981052,
      "learning_rate": 3.81598456502135e-06,
      "loss": 0.83226788,
      "num_input_tokens_seen": 28661575,
      "step": 1360,
      "time_per_iteration": 2.662594795227051
    },
    {
      "auxiliary_loss_clip": 0.01206313,
      "auxiliary_loss_mlp": 0.01036574,
      "balance_loss_clip": 1.06268251,
      "balance_loss_mlp": 1.0257616,
      "epoch": 0.1636505741598028,
      "flos": 19892895321600.0,
      "grad_norm": 2.0064812785300483,
      "language_loss": 0.86938798,
      "learning_rate": 3.8156580483791455e-06,
      "loss": 0.89181679,
      "num_input_tokens_seen": 28676765,
      "step": 1361,
      "time_per_iteration": 2.703616142272949
    },
    {
      "auxiliary_loss_clip": 0.01230163,
      "auxiliary_loss_mlp": 0.01040708,
      "balance_loss_clip": 1.06447268,
      "balance_loss_mlp": 1.03004527,
      "epoch": 0.16377081705044189,
      "flos": 28402611344640.0,
      "grad_norm": 2.48160078508299,
      "language_loss": 0.77348936,
      "learning_rate": 3.815331256303059e-06,
      "loss": 0.79619807,
      "num_input_tokens_seen": 28696795,
      "step": 1362,
      "time_per_iteration": 2.645084857940674
    },
    {
      "auxiliary_loss_clip": 0.01194045,
      "auxiliary_loss_mlp": 0.01039224,
      "balance_loss_clip": 1.06084108,
      "balance_loss_mlp": 1.02822089,
      "epoch": 0.163891059941081,
      "flos": 21908059113600.0,
      "grad_norm": 2.150683365918019,
      "language_loss": 0.77055734,
      "learning_rate": 3.815004188842665e-06,
      "loss": 0.79289007,
      "num_input_tokens_seen": 28714835,
      "step": 1363,
      "time_per_iteration": 2.8568689823150635
    },
    {
      "auxiliary_loss_clip": 0.01201094,
      "auxiliary_loss_mlp": 0.01036142,
      "balance_loss_clip": 1.05509508,
      "balance_loss_mlp": 1.02491808,
      "epoch": 0.16401130283172008,
      "flos": 26797619934720.0,
      "grad_norm": 1.6440824361831643,
      "language_loss": 0.79450548,
      "learning_rate": 3.814676846047578e-06,
      "loss": 0.81687784,
      "num_input_tokens_seen": 28735710,
      "step": 1364,
      "time_per_iteration": 2.7337396144866943
    },
    {
      "auxiliary_loss_clip": 0.01214498,
      "auxiliary_loss_mlp": 0.01040276,
      "balance_loss_clip": 1.0591563,
      "balance_loss_mlp": 1.02873635,
      "epoch": 0.16413154572235916,
      "flos": 32997417160320.0,
      "grad_norm": 1.8894656628884232,
      "language_loss": 0.69539952,
      "learning_rate": 3.8143492279674565e-06,
      "loss": 0.71794724,
      "num_input_tokens_seen": 28758405,
      "step": 1365,
      "time_per_iteration": 3.6864473819732666
    },
    {
      "auxiliary_loss_clip": 0.01105493,
      "auxiliary_loss_mlp": 0.01005751,
      "balance_loss_clip": 1.03136039,
      "balance_loss_mlp": 1.00067222,
      "epoch": 0.16425178861299825,
      "flos": 40113622074240.0,
      "grad_norm": 0.8362962883437461,
      "language_loss": 0.58399284,
      "learning_rate": 3.8140213346519997e-06,
      "loss": 0.60510528,
      "num_input_tokens_seen": 28809000,
      "step": 1366,
      "time_per_iteration": 3.0884151458740234
    },
    {
      "auxiliary_loss_clip": 0.01190692,
      "auxiliary_loss_mlp": 0.01036177,
      "balance_loss_clip": 1.05763376,
      "balance_loss_mlp": 1.02474475,
      "epoch": 0.16437203150363736,
      "flos": 25447486498560.0,
      "grad_norm": 1.7511138723304438,
      "language_loss": 0.76631767,
      "learning_rate": 3.813693166150948e-06,
      "loss": 0.78858638,
      "num_input_tokens_seen": 28829210,
      "step": 1367,
      "time_per_iteration": 2.7795629501342773
    },
    {
      "auxiliary_loss_clip": 0.01190461,
      "auxiliary_loss_mlp": 0.01039666,
      "balance_loss_clip": 1.05799401,
      "balance_loss_mlp": 1.02758384,
      "epoch": 0.16449227439427644,
      "flos": 23476888506240.0,
      "grad_norm": 2.8214339012033625,
      "language_loss": 0.85415208,
      "learning_rate": 3.813364722514086e-06,
      "loss": 0.87645328,
      "num_input_tokens_seen": 28847545,
      "step": 1368,
      "time_per_iteration": 2.7940211296081543
    },
    {
      "auxiliary_loss_clip": 0.01215408,
      "auxiliary_loss_mlp": 0.01043391,
      "balance_loss_clip": 1.05988407,
      "balance_loss_mlp": 1.03152394,
      "epoch": 0.16461251728491552,
      "flos": 13545217802880.0,
      "grad_norm": 2.0255626264247697,
      "language_loss": 0.80040288,
      "learning_rate": 3.8130360037912368e-06,
      "loss": 0.82299089,
      "num_input_tokens_seen": 28863990,
      "step": 1369,
      "time_per_iteration": 2.626358985900879
    },
    {
      "auxiliary_loss_clip": 0.01215233,
      "auxiliary_loss_mlp": 0.01036361,
      "balance_loss_clip": 1.05921602,
      "balance_loss_mlp": 1.02475047,
      "epoch": 0.16473276017555463,
      "flos": 23003298662400.0,
      "grad_norm": 2.0145716893136227,
      "language_loss": 0.81725633,
      "learning_rate": 3.812707010032268e-06,
      "loss": 0.83977234,
      "num_input_tokens_seen": 28883045,
      "step": 1370,
      "time_per_iteration": 2.694301128387451
    },
    {
      "auxiliary_loss_clip": 0.01225796,
      "auxiliary_loss_mlp": 0.01040828,
      "balance_loss_clip": 1.06562459,
      "balance_loss_mlp": 1.02934217,
      "epoch": 0.16485300306619372,
      "flos": 24790680357120.0,
      "grad_norm": 2.15941545351733,
      "language_loss": 0.79204881,
      "learning_rate": 3.8123777412870863e-06,
      "loss": 0.81471509,
      "num_input_tokens_seen": 28902545,
      "step": 1371,
      "time_per_iteration": 4.472186803817749
    },
    {
      "auxiliary_loss_clip": 0.01212815,
      "auxiliary_loss_mlp": 0.01034978,
      "balance_loss_clip": 1.05956435,
      "balance_loss_mlp": 1.02352822,
      "epoch": 0.1649732459568328,
      "flos": 21106497162240.0,
      "grad_norm": 2.262341481110933,
      "language_loss": 0.78066456,
      "learning_rate": 3.812048197605643e-06,
      "loss": 0.80314249,
      "num_input_tokens_seen": 28921440,
      "step": 1372,
      "time_per_iteration": 3.7302393913269043
    },
    {
      "auxiliary_loss_clip": 0.01219009,
      "auxiliary_loss_mlp": 0.01038084,
      "balance_loss_clip": 1.06082332,
      "balance_loss_mlp": 1.0266217,
      "epoch": 0.16509348884747188,
      "flos": 20266726118400.0,
      "grad_norm": 2.136934068792201,
      "language_loss": 0.81273276,
      "learning_rate": 3.8117183790379277e-06,
      "loss": 0.83530366,
      "num_input_tokens_seen": 28939890,
      "step": 1373,
      "time_per_iteration": 2.6017916202545166
    },
    {
      "auxiliary_loss_clip": 0.01228977,
      "auxiliary_loss_mlp": 0.01036863,
      "balance_loss_clip": 1.06254494,
      "balance_loss_mlp": 1.02591908,
      "epoch": 0.165213731738111,
      "flos": 11035493602560.0,
      "grad_norm": 4.567789178757085,
      "language_loss": 0.94977915,
      "learning_rate": 3.811388285633976e-06,
      "loss": 0.97243762,
      "num_input_tokens_seen": 28955875,
      "step": 1374,
      "time_per_iteration": 2.533693552017212
    },
    {
      "auxiliary_loss_clip": 0.01196142,
      "auxiliary_loss_mlp": 0.01035697,
      "balance_loss_clip": 1.0590893,
      "balance_loss_mlp": 1.02479553,
      "epoch": 0.16533397462875007,
      "flos": 29972051268480.0,
      "grad_norm": 2.8078925362264506,
      "language_loss": 0.62252462,
      "learning_rate": 3.811057917443861e-06,
      "loss": 0.64484292,
      "num_input_tokens_seen": 28975140,
      "step": 1375,
      "time_per_iteration": 2.751218557357788
    },
    {
      "auxiliary_loss_clip": 0.01114828,
      "auxiliary_loss_mlp": 0.01006815,
      "balance_loss_clip": 1.03105235,
      "balance_loss_mlp": 1.00183249,
      "epoch": 0.16545421751938916,
      "flos": 65556763027200.0,
      "grad_norm": 0.8537702551915958,
      "language_loss": 0.68299919,
      "learning_rate": 3.8107272745177e-06,
      "loss": 0.70421565,
      "num_input_tokens_seen": 29047470,
      "step": 1376,
      "time_per_iteration": 3.347010850906372
    },
    {
      "auxiliary_loss_clip": 0.01197558,
      "auxiliary_loss_mlp": 0.01036953,
      "balance_loss_clip": 1.05864549,
      "balance_loss_mlp": 1.02503824,
      "epoch": 0.16557446041002827,
      "flos": 22492361652480.0,
      "grad_norm": 2.4471857185833694,
      "language_loss": 0.78684223,
      "learning_rate": 3.8103963569056513e-06,
      "loss": 0.80918729,
      "num_input_tokens_seen": 29066605,
      "step": 1377,
      "time_per_iteration": 2.6368279457092285
    },
    {
      "auxiliary_loss_clip": 0.01202233,
      "auxiliary_loss_mlp": 0.01037228,
      "balance_loss_clip": 1.05666173,
      "balance_loss_mlp": 1.02590299,
      "epoch": 0.16569470330066735,
      "flos": 24602723464320.0,
      "grad_norm": 1.6822871805374795,
      "language_loss": 0.88130879,
      "learning_rate": 3.8100651646579146e-06,
      "loss": 0.90370345,
      "num_input_tokens_seen": 29085815,
      "step": 1378,
      "time_per_iteration": 2.6237568855285645
    },
    {
      "auxiliary_loss_clip": 0.01198369,
      "auxiliary_loss_mlp": 0.01033228,
      "balance_loss_clip": 1.05545926,
      "balance_loss_mlp": 1.0221417,
      "epoch": 0.16581494619130643,
      "flos": 15006207588480.0,
      "grad_norm": 2.3471745875218266,
      "language_loss": 0.92623293,
      "learning_rate": 3.8097336978247317e-06,
      "loss": 0.94854885,
      "num_input_tokens_seen": 29102520,
      "step": 1379,
      "time_per_iteration": 2.6454713344573975
    },
    {
      "auxiliary_loss_clip": 0.01197131,
      "auxiliary_loss_mlp": 0.01041288,
      "balance_loss_clip": 1.05751967,
      "balance_loss_mlp": 1.02943206,
      "epoch": 0.16593518908194552,
      "flos": 17420338719360.0,
      "grad_norm": 2.7820418273322667,
      "language_loss": 0.89125907,
      "learning_rate": 3.8094019564563854e-06,
      "loss": 0.91364324,
      "num_input_tokens_seen": 29119450,
      "step": 1380,
      "time_per_iteration": 2.661224365234375
    },
    {
      "auxiliary_loss_clip": 0.01228777,
      "auxiliary_loss_mlp": 0.00889397,
      "balance_loss_clip": 1.06288052,
      "balance_loss_mlp": 1.00045025,
      "epoch": 0.16605543197258463,
      "flos": 20412631163520.0,
      "grad_norm": 2.1786681325664325,
      "language_loss": 0.75443935,
      "learning_rate": 3.809069940603201e-06,
      "loss": 0.77562106,
      "num_input_tokens_seen": 29137405,
      "step": 1381,
      "time_per_iteration": 2.6501624584198
    },
    {
      "auxiliary_loss_clip": 0.01197595,
      "auxiliary_loss_mlp": 0.01034285,
      "balance_loss_clip": 1.05956089,
      "balance_loss_mlp": 1.02295423,
      "epoch": 0.1661756748632237,
      "flos": 14209745368320.0,
      "grad_norm": 2.5635013280496475,
      "language_loss": 0.78401864,
      "learning_rate": 3.8087376503155452e-06,
      "loss": 0.80633748,
      "num_input_tokens_seen": 29154890,
      "step": 1382,
      "time_per_iteration": 2.6672513484954834
    },
    {
      "auxiliary_loss_clip": 0.01108617,
      "auxiliary_loss_mlp": 0.0100467,
      "balance_loss_clip": 1.02856064,
      "balance_loss_mlp": 0.99983007,
      "epoch": 0.1662959177538628,
      "flos": 66080877350400.0,
      "grad_norm": 0.9032194797336875,
      "language_loss": 0.56301039,
      "learning_rate": 3.808405085643826e-06,
      "loss": 0.58414328,
      "num_input_tokens_seen": 29219770,
      "step": 1383,
      "time_per_iteration": 3.3080050945281982
    },
    {
      "auxiliary_loss_clip": 0.01233908,
      "auxiliary_loss_mlp": 0.00889854,
      "balance_loss_clip": 1.06641567,
      "balance_loss_mlp": 1.00040424,
      "epoch": 0.1664161606445019,
      "flos": 20740567357440.0,
      "grad_norm": 2.1407491931653713,
      "language_loss": 0.88761437,
      "learning_rate": 3.8080722466384925e-06,
      "loss": 0.90885198,
      "num_input_tokens_seen": 29237620,
      "step": 1384,
      "time_per_iteration": 2.599743127822876
    },
    {
      "auxiliary_loss_clip": 0.01227773,
      "auxiliary_loss_mlp": 0.01033329,
      "balance_loss_clip": 1.06084514,
      "balance_loss_mlp": 1.0219444,
      "epoch": 0.166536403535141,
      "flos": 25260930236160.0,
      "grad_norm": 2.891785658434998,
      "language_loss": 0.70784891,
      "learning_rate": 3.8077391333500376e-06,
      "loss": 0.73045993,
      "num_input_tokens_seen": 29256760,
      "step": 1385,
      "time_per_iteration": 2.6970527172088623
    },
    {
      "auxiliary_loss_clip": 0.0121093,
      "auxiliary_loss_mlp": 0.01036515,
      "balance_loss_clip": 1.06329942,
      "balance_loss_mlp": 1.02517259,
      "epoch": 0.16665664642578007,
      "flos": 25447450584960.0,
      "grad_norm": 2.141274425740092,
      "language_loss": 0.76681453,
      "learning_rate": 3.8074057458289934e-06,
      "loss": 0.789289,
      "num_input_tokens_seen": 29277450,
      "step": 1386,
      "time_per_iteration": 2.6683969497680664
    },
    {
      "auxiliary_loss_clip": 0.01208916,
      "auxiliary_loss_mlp": 0.01039013,
      "balance_loss_clip": 1.05986178,
      "balance_loss_mlp": 1.02703226,
      "epoch": 0.16677688931641918,
      "flos": 22200767043840.0,
      "grad_norm": 19.111099921612308,
      "language_loss": 0.82333934,
      "learning_rate": 3.807072084125934e-06,
      "loss": 0.84581864,
      "num_input_tokens_seen": 29299300,
      "step": 1387,
      "time_per_iteration": 2.7226674556732178
    },
    {
      "auxiliary_loss_clip": 0.0120545,
      "auxiliary_loss_mlp": 0.0103744,
      "balance_loss_clip": 1.06102228,
      "balance_loss_mlp": 1.02652597,
      "epoch": 0.16689713220705826,
      "flos": 16945958776320.0,
      "grad_norm": 2.6124284723659548,
      "language_loss": 0.80728573,
      "learning_rate": 3.806738148291477e-06,
      "loss": 0.82971466,
      "num_input_tokens_seen": 29316125,
      "step": 1388,
      "time_per_iteration": 2.6748321056365967
    },
    {
      "auxiliary_loss_clip": 0.01180803,
      "auxiliary_loss_mlp": 0.01034965,
      "balance_loss_clip": 1.0543294,
      "balance_loss_mlp": 1.02320504,
      "epoch": 0.16701737509769735,
      "flos": 36244423923840.0,
      "grad_norm": 2.4507299353254064,
      "language_loss": 0.71537483,
      "learning_rate": 3.8064039383762793e-06,
      "loss": 0.73753262,
      "num_input_tokens_seen": 29338490,
      "step": 1389,
      "time_per_iteration": 2.887389898300171
    },
    {
      "auxiliary_loss_clip": 0.01220798,
      "auxiliary_loss_mlp": 0.01041047,
      "balance_loss_clip": 1.06450415,
      "balance_loss_mlp": 1.02952528,
      "epoch": 0.16713761798833643,
      "flos": 23258659426560.0,
      "grad_norm": 2.5534811031506357,
      "language_loss": 0.7699393,
      "learning_rate": 3.8060694544310396e-06,
      "loss": 0.79255772,
      "num_input_tokens_seen": 29357000,
      "step": 1390,
      "time_per_iteration": 2.6277220249176025
    },
    {
      "auxiliary_loss_clip": 0.01231061,
      "auxiliary_loss_mlp": 0.01041619,
      "balance_loss_clip": 1.06310689,
      "balance_loss_mlp": 1.02956724,
      "epoch": 0.16725786087897554,
      "flos": 25302515207040.0,
      "grad_norm": 2.53053403266076,
      "language_loss": 0.78972298,
      "learning_rate": 3.8057346965065006e-06,
      "loss": 0.81244981,
      "num_input_tokens_seen": 29378230,
      "step": 1391,
      "time_per_iteration": 3.5520288944244385
    },
    {
      "auxiliary_loss_clip": 0.01208018,
      "auxiliary_loss_mlp": 0.01039023,
      "balance_loss_clip": 1.06186175,
      "balance_loss_mlp": 1.02775812,
      "epoch": 0.16737810376961462,
      "flos": 31831541516160.0,
      "grad_norm": 2.0809106351679,
      "language_loss": 0.84362733,
      "learning_rate": 3.805399664653443e-06,
      "loss": 0.86609769,
      "num_input_tokens_seen": 29400370,
      "step": 1392,
      "time_per_iteration": 2.766582489013672
    },
    {
      "auxiliary_loss_clip": 0.01230633,
      "auxiliary_loss_mlp": 0.01044289,
      "balance_loss_clip": 1.06391013,
      "balance_loss_mlp": 1.03200436,
      "epoch": 0.1674983466602537,
      "flos": 27961843553280.0,
      "grad_norm": 2.668580336689692,
      "language_loss": 0.74464905,
      "learning_rate": 3.805064358922692e-06,
      "loss": 0.7673983,
      "num_input_tokens_seen": 29418660,
      "step": 1393,
      "time_per_iteration": 2.661745309829712
    },
    {
      "auxiliary_loss_clip": 0.01223876,
      "auxiliary_loss_mlp": 0.01037232,
      "balance_loss_clip": 1.06141508,
      "balance_loss_mlp": 1.02509069,
      "epoch": 0.16761858955089282,
      "flos": 21762656858880.0,
      "grad_norm": 1.8619789548531156,
      "language_loss": 0.80818498,
      "learning_rate": 3.8047287793651136e-06,
      "loss": 0.83079606,
      "num_input_tokens_seen": 29440105,
      "step": 1394,
      "time_per_iteration": 2.66961932182312
    },
    {
      "auxiliary_loss_clip": 0.01201828,
      "auxiliary_loss_mlp": 0.01032665,
      "balance_loss_clip": 1.05917311,
      "balance_loss_mlp": 1.02102995,
      "epoch": 0.1677388324415319,
      "flos": 23805507058560.0,
      "grad_norm": 13.131032184004457,
      "language_loss": 0.88429886,
      "learning_rate": 3.8043929260316137e-06,
      "loss": 0.90664375,
      "num_input_tokens_seen": 29458260,
      "step": 1395,
      "time_per_iteration": 2.6700339317321777
    },
    {
      "auxiliary_loss_clip": 0.01213704,
      "auxiliary_loss_mlp": 0.01037482,
      "balance_loss_clip": 1.06615114,
      "balance_loss_mlp": 1.02665818,
      "epoch": 0.16785907533217098,
      "flos": 20558859431040.0,
      "grad_norm": 2.228814001920824,
      "language_loss": 0.83598304,
      "learning_rate": 3.8040567989731417e-06,
      "loss": 0.85849488,
      "num_input_tokens_seen": 29476205,
      "step": 1396,
      "time_per_iteration": 2.678621292114258
    },
    {
      "auxiliary_loss_clip": 0.01214694,
      "auxiliary_loss_mlp": 0.01042972,
      "balance_loss_clip": 1.06078219,
      "balance_loss_mlp": 1.03156996,
      "epoch": 0.16797931822281006,
      "flos": 15669657745920.0,
      "grad_norm": 2.0764684871996373,
      "language_loss": 0.8000617,
      "learning_rate": 3.8037203982406876e-06,
      "loss": 0.82263839,
      "num_input_tokens_seen": 29494370,
      "step": 1397,
      "time_per_iteration": 4.947996139526367
    },
    {
      "auxiliary_loss_clip": 0.01233639,
      "auxiliary_loss_mlp": 0.01035365,
      "balance_loss_clip": 1.06671977,
      "balance_loss_mlp": 1.02356911,
      "epoch": 0.16809956111344918,
      "flos": 16541101607040.0,
      "grad_norm": 2.891657090744817,
      "language_loss": 0.73039198,
      "learning_rate": 3.8033837238852835e-06,
      "loss": 0.75308204,
      "num_input_tokens_seen": 29511070,
      "step": 1398,
      "time_per_iteration": 3.6308324337005615
    },
    {
      "auxiliary_loss_clip": 0.011966,
      "auxiliary_loss_mlp": 0.01035319,
      "balance_loss_clip": 1.05487347,
      "balance_loss_mlp": 1.02378559,
      "epoch": 0.16821980400408826,
      "flos": 23258084808960.0,
      "grad_norm": 1.9053798432087052,
      "language_loss": 0.69608426,
      "learning_rate": 3.8030467759580017e-06,
      "loss": 0.71840346,
      "num_input_tokens_seen": 29531990,
      "step": 1399,
      "time_per_iteration": 2.679307460784912
    },
    {
      "auxiliary_loss_clip": 0.01224429,
      "auxiliary_loss_mlp": 0.0103918,
      "balance_loss_clip": 1.06290078,
      "balance_loss_mlp": 1.02749109,
      "epoch": 0.16834004689472734,
      "flos": 20774754126720.0,
      "grad_norm": 8.688041034268315,
      "language_loss": 0.87150347,
      "learning_rate": 3.802709554509958e-06,
      "loss": 0.89413953,
      "num_input_tokens_seen": 29549790,
      "step": 1400,
      "time_per_iteration": 2.6657588481903076
    },
    {
      "auxiliary_loss_clip": 0.01203852,
      "auxiliary_loss_mlp": 0.01037657,
      "balance_loss_clip": 1.05680597,
      "balance_loss_mlp": 1.02627277,
      "epoch": 0.16846028978536645,
      "flos": 26687302289280.0,
      "grad_norm": 1.817284594167641,
      "language_loss": 0.79169792,
      "learning_rate": 3.8023720595923083e-06,
      "loss": 0.81411302,
      "num_input_tokens_seen": 29569045,
      "step": 1401,
      "time_per_iteration": 2.7083828449249268
    },
    {
      "auxiliary_loss_clip": 0.01183939,
      "auxiliary_loss_mlp": 0.01035221,
      "balance_loss_clip": 1.05199742,
      "balance_loss_mlp": 1.02403378,
      "epoch": 0.16858053267600553,
      "flos": 18843298980480.0,
      "grad_norm": 4.371517585644405,
      "language_loss": 0.87377131,
      "learning_rate": 3.80203429125625e-06,
      "loss": 0.89596283,
      "num_input_tokens_seen": 29587220,
      "step": 1402,
      "time_per_iteration": 2.794083833694458
    },
    {
      "auxiliary_loss_clip": 0.0116686,
      "auxiliary_loss_mlp": 0.01035637,
      "balance_loss_clip": 1.05118513,
      "balance_loss_mlp": 1.02363896,
      "epoch": 0.16870077556664462,
      "flos": 27744548227200.0,
      "grad_norm": 1.8885051550431953,
      "language_loss": 0.69751668,
      "learning_rate": 3.8016962495530225e-06,
      "loss": 0.71954167,
      "num_input_tokens_seen": 29606410,
      "step": 1403,
      "time_per_iteration": 2.7960519790649414
    },
    {
      "auxiliary_loss_clip": 0.0123084,
      "auxiliary_loss_mlp": 0.01041687,
      "balance_loss_clip": 1.06175852,
      "balance_loss_mlp": 1.03060639,
      "epoch": 0.1688210184572837,
      "flos": 13730768484480.0,
      "grad_norm": 2.48373466268815,
      "language_loss": 0.76818722,
      "learning_rate": 3.8013579345339063e-06,
      "loss": 0.79091251,
      "num_input_tokens_seen": 29621275,
      "step": 1404,
      "time_per_iteration": 2.6039071083068848
    },
    {
      "auxiliary_loss_clip": 0.01203569,
      "auxiliary_loss_mlp": 0.01036813,
      "balance_loss_clip": 1.05927181,
      "balance_loss_mlp": 1.02510107,
      "epoch": 0.1689412613479228,
      "flos": 26468785900800.0,
      "grad_norm": 1.9646559556171814,
      "language_loss": 0.6951766,
      "learning_rate": 3.801019346250224e-06,
      "loss": 0.71758044,
      "num_input_tokens_seen": 29641420,
      "step": 1405,
      "time_per_iteration": 2.7324724197387695
    },
    {
      "auxiliary_loss_clip": 0.01215819,
      "auxiliary_loss_mlp": 0.01036317,
      "balance_loss_clip": 1.05913913,
      "balance_loss_mlp": 1.02552807,
      "epoch": 0.1690615042385619,
      "flos": 21138852337920.0,
      "grad_norm": 2.371137232530556,
      "language_loss": 0.84005535,
      "learning_rate": 3.8006804847533395e-06,
      "loss": 0.86257672,
      "num_input_tokens_seen": 29660935,
      "step": 1406,
      "time_per_iteration": 2.660405397415161
    },
    {
      "auxiliary_loss_clip": 0.01226659,
      "auxiliary_loss_mlp": 0.01043075,
      "balance_loss_clip": 1.06024528,
      "balance_loss_mlp": 1.03173828,
      "epoch": 0.16918174712920098,
      "flos": 20849340718080.0,
      "grad_norm": 2.1416815374725955,
      "language_loss": 0.85413265,
      "learning_rate": 3.8003413500946556e-06,
      "loss": 0.87682998,
      "num_input_tokens_seen": 29681045,
      "step": 1407,
      "time_per_iteration": 2.642302989959717
    },
    {
      "auxiliary_loss_clip": 0.0121152,
      "auxiliary_loss_mlp": 0.01036353,
      "balance_loss_clip": 1.06137943,
      "balance_loss_mlp": 1.02480185,
      "epoch": 0.1693019900198401,
      "flos": 16983270028800.0,
      "grad_norm": 3.05322646186579,
      "language_loss": 0.83192945,
      "learning_rate": 3.8000019423256216e-06,
      "loss": 0.85440814,
      "num_input_tokens_seen": 29698810,
      "step": 1408,
      "time_per_iteration": 2.684285879135132
    },
    {
      "auxiliary_loss_clip": 0.01197024,
      "auxiliary_loss_mlp": 0.01038705,
      "balance_loss_clip": 1.05757368,
      "balance_loss_mlp": 1.02711225,
      "epoch": 0.16942223291047917,
      "flos": 26796901662720.0,
      "grad_norm": 1.7927030464919076,
      "language_loss": 0.8825531,
      "learning_rate": 3.7996622614977234e-06,
      "loss": 0.90491039,
      "num_input_tokens_seen": 29720000,
      "step": 1409,
      "time_per_iteration": 2.782815933227539
    },
    {
      "auxiliary_loss_clip": 0.01211772,
      "auxiliary_loss_mlp": 0.01033322,
      "balance_loss_clip": 1.06410778,
      "balance_loss_mlp": 1.02219975,
      "epoch": 0.16954247580111825,
      "flos": 18583700411520.0,
      "grad_norm": 1.8634692302235656,
      "language_loss": 0.78999871,
      "learning_rate": 3.799322307662492e-06,
      "loss": 0.81244969,
      "num_input_tokens_seen": 29737820,
      "step": 1410,
      "time_per_iteration": 2.699680805206299
    },
    {
      "auxiliary_loss_clip": 0.01186987,
      "auxiliary_loss_mlp": 0.01035719,
      "balance_loss_clip": 1.05264688,
      "balance_loss_mlp": 1.02415562,
      "epoch": 0.16966271869175734,
      "flos": 13983651210240.0,
      "grad_norm": 2.5023313904282567,
      "language_loss": 0.83799636,
      "learning_rate": 3.798982080871496e-06,
      "loss": 0.86022335,
      "num_input_tokens_seen": 29752960,
      "step": 1411,
      "time_per_iteration": 2.7424159049987793
    },
    {
      "auxiliary_loss_clip": 0.01229452,
      "auxiliary_loss_mlp": 0.01033574,
      "balance_loss_clip": 1.06155658,
      "balance_loss_mlp": 1.02201104,
      "epoch": 0.16978296158239645,
      "flos": 37487328284160.0,
      "grad_norm": 4.586189896342815,
      "language_loss": 0.67865145,
      "learning_rate": 3.798641581176349e-06,
      "loss": 0.70128167,
      "num_input_tokens_seen": 29775240,
      "step": 1412,
      "time_per_iteration": 2.7634122371673584
    },
    {
      "auxiliary_loss_clip": 0.01207255,
      "auxiliary_loss_mlp": 0.0103781,
      "balance_loss_clip": 1.05671453,
      "balance_loss_mlp": 1.02604997,
      "epoch": 0.16990320447303553,
      "flos": 28328958506880.0,
      "grad_norm": 3.317835318403043,
      "language_loss": 0.74608183,
      "learning_rate": 3.7983008086287044e-06,
      "loss": 0.76853245,
      "num_input_tokens_seen": 29796560,
      "step": 1413,
      "time_per_iteration": 2.753190517425537
    },
    {
      "auxiliary_loss_clip": 0.01205045,
      "auxiliary_loss_mlp": 0.01042374,
      "balance_loss_clip": 1.05812764,
      "balance_loss_mlp": 1.03026247,
      "epoch": 0.1700234473636746,
      "flos": 20188189031040.0,
      "grad_norm": 2.27109043788227,
      "language_loss": 0.78894377,
      "learning_rate": 3.797959763280257e-06,
      "loss": 0.81141794,
      "num_input_tokens_seen": 29815245,
      "step": 1414,
      "time_per_iteration": 2.674466848373413
    },
    {
      "auxiliary_loss_clip": 0.01219469,
      "auxiliary_loss_mlp": 0.01041676,
      "balance_loss_clip": 1.06096339,
      "balance_loss_mlp": 1.03020155,
      "epoch": 0.17014369025431372,
      "flos": 24858658846080.0,
      "grad_norm": 2.3263967309499214,
      "language_loss": 0.7891022,
      "learning_rate": 3.797618445182743e-06,
      "loss": 0.81171358,
      "num_input_tokens_seen": 29836640,
      "step": 1415,
      "time_per_iteration": 2.6918137073516846
    },
    {
      "auxiliary_loss_clip": 0.01181687,
      "auxiliary_loss_mlp": 0.01043901,
      "balance_loss_clip": 1.05275786,
      "balance_loss_mlp": 1.03246903,
      "epoch": 0.1702639331449528,
      "flos": 16467233287680.0,
      "grad_norm": 2.13940053171474,
      "language_loss": 0.84986901,
      "learning_rate": 3.79727685438794e-06,
      "loss": 0.87212491,
      "num_input_tokens_seen": 29850830,
      "step": 1416,
      "time_per_iteration": 2.6928598880767822
    },
    {
      "auxiliary_loss_clip": 0.01119072,
      "auxiliary_loss_mlp": 0.01006124,
      "balance_loss_clip": 1.0296309,
      "balance_loss_mlp": 1.00147533,
      "epoch": 0.1703841760355919,
      "flos": 52508870979840.0,
      "grad_norm": 0.8397477653326346,
      "language_loss": 0.61703134,
      "learning_rate": 3.796934990947667e-06,
      "loss": 0.63828337,
      "num_input_tokens_seen": 29912515,
      "step": 1417,
      "time_per_iteration": 4.408803224563599
    },
    {
      "auxiliary_loss_clip": 0.01119776,
      "auxiliary_loss_mlp": 0.01006684,
      "balance_loss_clip": 1.0307765,
      "balance_loss_mlp": 1.0019393,
      "epoch": 0.170504418926231,
      "flos": 49370637576960.0,
      "grad_norm": 0.8774166918954778,
      "language_loss": 0.62465453,
      "learning_rate": 3.7965928549137854e-06,
      "loss": 0.64591908,
      "num_input_tokens_seen": 29969330,
      "step": 1418,
      "time_per_iteration": 3.1355485916137695
    },
    {
      "auxiliary_loss_clip": 0.0120425,
      "auxiliary_loss_mlp": 0.01036541,
      "balance_loss_clip": 1.05451226,
      "balance_loss_mlp": 1.02388644,
      "epoch": 0.17062466181687008,
      "flos": 25849219184640.0,
      "grad_norm": 2.3275652602124053,
      "language_loss": 0.77425969,
      "learning_rate": 3.7962504463381953e-06,
      "loss": 0.79666758,
      "num_input_tokens_seen": 29990820,
      "step": 1419,
      "time_per_iteration": 2.732261896133423
    },
    {
      "auxiliary_loss_clip": 0.01201283,
      "auxiliary_loss_mlp": 0.00890878,
      "balance_loss_clip": 1.0605197,
      "balance_loss_mlp": 1.00029075,
      "epoch": 0.17074490470750917,
      "flos": 20960412549120.0,
      "grad_norm": 2.2545088914909055,
      "language_loss": 0.78556895,
      "learning_rate": 3.7959077652728412e-06,
      "loss": 0.80649054,
      "num_input_tokens_seen": 30009275,
      "step": 1420,
      "time_per_iteration": 2.709568977355957
    },
    {
      "auxiliary_loss_clip": 0.01212151,
      "auxiliary_loss_mlp": 0.01037918,
      "balance_loss_clip": 1.05899453,
      "balance_loss_mlp": 1.02603853,
      "epoch": 0.17086514759814825,
      "flos": 20959766104320.0,
      "grad_norm": 2.09470256210176,
      "language_loss": 0.77351379,
      "learning_rate": 3.795564811769707e-06,
      "loss": 0.79601449,
      "num_input_tokens_seen": 30027630,
      "step": 1421,
      "time_per_iteration": 2.717064142227173
    },
    {
      "auxiliary_loss_clip": 0.01211037,
      "auxiliary_loss_mlp": 0.01036859,
      "balance_loss_clip": 1.06328249,
      "balance_loss_mlp": 1.02568352,
      "epoch": 0.17098539048878736,
      "flos": 28474073452800.0,
      "grad_norm": 1.942049901429475,
      "language_loss": 0.77910155,
      "learning_rate": 3.795221585880818e-06,
      "loss": 0.80158055,
      "num_input_tokens_seen": 30048310,
      "step": 1422,
      "time_per_iteration": 3.76682186126709
    },
    {
      "auxiliary_loss_clip": 0.01204975,
      "auxiliary_loss_mlp": 0.01045954,
      "balance_loss_clip": 1.0662365,
      "balance_loss_mlp": 1.03471816,
      "epoch": 0.17110563337942644,
      "flos": 16290014561280.0,
      "grad_norm": 2.9405186524122953,
      "language_loss": 0.9127928,
      "learning_rate": 3.794878087658242e-06,
      "loss": 0.93530214,
      "num_input_tokens_seen": 30066080,
      "step": 1423,
      "time_per_iteration": 3.5629992485046387
    },
    {
      "auxiliary_loss_clip": 0.0121887,
      "auxiliary_loss_mlp": 0.01038777,
      "balance_loss_clip": 1.0598712,
      "balance_loss_mlp": 1.02706516,
      "epoch": 0.17122587627006552,
      "flos": 29674207693440.0,
      "grad_norm": 1.8991129775764581,
      "language_loss": 0.78783125,
      "learning_rate": 3.7945343171540873e-06,
      "loss": 0.8104077,
      "num_input_tokens_seen": 30086955,
      "step": 1424,
      "time_per_iteration": 2.808854103088379
    },
    {
      "auxiliary_loss_clip": 0.01232156,
      "auxiliary_loss_mlp": 0.010423,
      "balance_loss_clip": 1.06310534,
      "balance_loss_mlp": 1.03024805,
      "epoch": 0.17134611916070464,
      "flos": 25338389915520.0,
      "grad_norm": 2.8393358516389253,
      "language_loss": 0.7886771,
      "learning_rate": 3.7941902744205033e-06,
      "loss": 0.81142169,
      "num_input_tokens_seen": 30107990,
      "step": 1425,
      "time_per_iteration": 3.5223777294158936
    },
    {
      "auxiliary_loss_clip": 0.01214584,
      "auxiliary_loss_mlp": 0.01039152,
      "balance_loss_clip": 1.05972672,
      "balance_loss_mlp": 1.02738571,
      "epoch": 0.17146636205134372,
      "flos": 13953845900160.0,
      "grad_norm": 6.835735034743832,
      "language_loss": 0.83683264,
      "learning_rate": 3.7938459595096817e-06,
      "loss": 0.85936999,
      "num_input_tokens_seen": 30126535,
      "step": 1426,
      "time_per_iteration": 2.797913074493408
    },
    {
      "auxiliary_loss_clip": 0.01224908,
      "auxiliary_loss_mlp": 0.01033992,
      "balance_loss_clip": 1.06054497,
      "balance_loss_mlp": 1.02124286,
      "epoch": 0.1715866049419828,
      "flos": 23915214172800.0,
      "grad_norm": 1.8340275449219927,
      "language_loss": 0.86286342,
      "learning_rate": 3.7935013724738545e-06,
      "loss": 0.88545239,
      "num_input_tokens_seen": 30147035,
      "step": 1427,
      "time_per_iteration": 2.636683702468872
    },
    {
      "auxiliary_loss_clip": 0.01214253,
      "auxiliary_loss_mlp": 0.01038205,
      "balance_loss_clip": 1.05997968,
      "balance_loss_mlp": 1.0268023,
      "epoch": 0.17170684783262188,
      "flos": 22709369669760.0,
      "grad_norm": 1.8201650221952628,
      "language_loss": 0.78007907,
      "learning_rate": 3.7931565133652945e-06,
      "loss": 0.80260366,
      "num_input_tokens_seen": 30167110,
      "step": 1428,
      "time_per_iteration": 2.693580150604248
    },
    {
      "auxiliary_loss_clip": 0.01229592,
      "auxiliary_loss_mlp": 0.01038466,
      "balance_loss_clip": 1.06058812,
      "balance_loss_mlp": 1.02625918,
      "epoch": 0.171827090723261,
      "flos": 26613290315520.0,
      "grad_norm": 2.238227656445351,
      "language_loss": 0.67896473,
      "learning_rate": 3.792811382236317e-06,
      "loss": 0.70164531,
      "num_input_tokens_seen": 30185620,
      "step": 1429,
      "time_per_iteration": 2.629246711730957
    },
    {
      "auxiliary_loss_clip": 0.01224665,
      "auxiliary_loss_mlp": 0.0103996,
      "balance_loss_clip": 1.06160569,
      "balance_loss_mlp": 1.02778304,
      "epoch": 0.17194733361390008,
      "flos": 28148507556480.0,
      "grad_norm": 2.1586379097393054,
      "language_loss": 0.78360152,
      "learning_rate": 3.792465979139279e-06,
      "loss": 0.80624777,
      "num_input_tokens_seen": 30208225,
      "step": 1430,
      "time_per_iteration": 2.683412790298462
    },
    {
      "auxiliary_loss_clip": 0.01100664,
      "auxiliary_loss_mlp": 0.01020671,
      "balance_loss_clip": 1.02763987,
      "balance_loss_mlp": 1.01604557,
      "epoch": 0.17206757650453916,
      "flos": 65530689753600.0,
      "grad_norm": 0.9302117960451297,
      "language_loss": 0.65650547,
      "learning_rate": 3.792120304126576e-06,
      "loss": 0.67771882,
      "num_input_tokens_seen": 30271600,
      "step": 1431,
      "time_per_iteration": 3.330054998397827
    },
    {
      "auxiliary_loss_clip": 0.011754,
      "auxiliary_loss_mlp": 0.01028952,
      "balance_loss_clip": 1.05598688,
      "balance_loss_mlp": 1.01800311,
      "epoch": 0.17218781939517827,
      "flos": 22273486128000.0,
      "grad_norm": 1.8949342914618443,
      "language_loss": 0.83780968,
      "learning_rate": 3.791774357250649e-06,
      "loss": 0.85985327,
      "num_input_tokens_seen": 30290430,
      "step": 1432,
      "time_per_iteration": 2.8436758518218994
    },
    {
      "auxiliary_loss_clip": 0.0120439,
      "auxiliary_loss_mlp": 0.01035557,
      "balance_loss_clip": 1.05785656,
      "balance_loss_mlp": 1.02379668,
      "epoch": 0.17230806228581735,
      "flos": 14137313592960.0,
      "grad_norm": 2.1438149791557297,
      "language_loss": 0.7883957,
      "learning_rate": 3.7914281385639757e-06,
      "loss": 0.81079519,
      "num_input_tokens_seen": 30308305,
      "step": 1433,
      "time_per_iteration": 2.6855409145355225
    },
    {
      "auxiliary_loss_clip": 0.0121817,
      "auxiliary_loss_mlp": 0.01036407,
      "balance_loss_clip": 1.05567122,
      "balance_loss_mlp": 1.02455151,
      "epoch": 0.17242830517645644,
      "flos": 20704836303360.0,
      "grad_norm": 3.0349428399659497,
      "language_loss": 0.79626077,
      "learning_rate": 3.7910816481190784e-06,
      "loss": 0.81880653,
      "num_input_tokens_seen": 30328120,
      "step": 1434,
      "time_per_iteration": 2.6760199069976807
    },
    {
      "auxiliary_loss_clip": 0.01199033,
      "auxiliary_loss_mlp": 0.01036644,
      "balance_loss_clip": 1.05616915,
      "balance_loss_mlp": 1.02443659,
      "epoch": 0.17254854806709552,
      "flos": 30774582887040.0,
      "grad_norm": 1.9416828999231515,
      "language_loss": 0.74914473,
      "learning_rate": 3.7907348859685193e-06,
      "loss": 0.77150154,
      "num_input_tokens_seen": 30349825,
      "step": 1435,
      "time_per_iteration": 2.7845215797424316
    },
    {
      "auxiliary_loss_clip": 0.01210911,
      "auxiliary_loss_mlp": 0.01041568,
      "balance_loss_clip": 1.0591408,
      "balance_loss_mlp": 1.02955198,
      "epoch": 0.17266879095773463,
      "flos": 26614726859520.0,
      "grad_norm": 3.0662399414441697,
      "language_loss": 0.80580479,
      "learning_rate": 3.790387852164902e-06,
      "loss": 0.82832956,
      "num_input_tokens_seen": 30370555,
      "step": 1436,
      "time_per_iteration": 2.736734390258789
    },
    {
      "auxiliary_loss_clip": 0.01220068,
      "auxiliary_loss_mlp": 0.01039741,
      "balance_loss_clip": 1.06072164,
      "balance_loss_mlp": 1.02829731,
      "epoch": 0.1727890338483737,
      "flos": 20266295155200.0,
      "grad_norm": 2.3952059224227744,
      "language_loss": 0.76762283,
      "learning_rate": 3.7900405467608707e-06,
      "loss": 0.79022086,
      "num_input_tokens_seen": 30390100,
      "step": 1437,
      "time_per_iteration": 2.72655987739563
    },
    {
      "auxiliary_loss_clip": 0.01171758,
      "auxiliary_loss_mlp": 0.01041058,
      "balance_loss_clip": 1.04936409,
      "balance_loss_mlp": 1.02929258,
      "epoch": 0.1729092767390128,
      "flos": 18179812909440.0,
      "grad_norm": 2.9484992850422134,
      "language_loss": 0.79152298,
      "learning_rate": 3.7896929698091114e-06,
      "loss": 0.81365108,
      "num_input_tokens_seen": 30402915,
      "step": 1438,
      "time_per_iteration": 2.790280342102051
    },
    {
      "auxiliary_loss_clip": 0.01233921,
      "auxiliary_loss_mlp": 0.01039421,
      "balance_loss_clip": 1.06594062,
      "balance_loss_mlp": 1.02699304,
      "epoch": 0.1730295196296519,
      "flos": 26759518583040.0,
      "grad_norm": 8.51325095532643,
      "language_loss": 0.67864597,
      "learning_rate": 3.7893451213623518e-06,
      "loss": 0.70137942,
      "num_input_tokens_seen": 30420145,
      "step": 1439,
      "time_per_iteration": 2.6875271797180176
    },
    {
      "auxiliary_loss_clip": 0.01217834,
      "auxiliary_loss_mlp": 0.00889962,
      "balance_loss_clip": 1.06217289,
      "balance_loss_mlp": 1.00034583,
      "epoch": 0.173149762520291,
      "flos": 23842531002240.0,
      "grad_norm": 2.382073710153832,
      "language_loss": 0.82272297,
      "learning_rate": 3.7889970014733606e-06,
      "loss": 0.84380096,
      "num_input_tokens_seen": 30439250,
      "step": 1440,
      "time_per_iteration": 2.686692953109741
    },
    {
      "auxiliary_loss_clip": 0.01165877,
      "auxiliary_loss_mlp": 0.01037254,
      "balance_loss_clip": 1.04909813,
      "balance_loss_mlp": 1.02513671,
      "epoch": 0.17327000541093007,
      "flos": 23368186972800.0,
      "grad_norm": 2.609973613734659,
      "language_loss": 0.77951026,
      "learning_rate": 3.7886486101949463e-06,
      "loss": 0.80154157,
      "num_input_tokens_seen": 30460430,
      "step": 1441,
      "time_per_iteration": 2.7485408782958984
    },
    {
      "auxiliary_loss_clip": 0.01172693,
      "auxiliary_loss_mlp": 0.01045948,
      "balance_loss_clip": 1.04979396,
      "balance_loss_mlp": 1.03462911,
      "epoch": 0.17339024830156918,
      "flos": 18221290139520.0,
      "grad_norm": 7.06874636505556,
      "language_loss": 0.88139206,
      "learning_rate": 3.7882999475799594e-06,
      "loss": 0.90357846,
      "num_input_tokens_seen": 30478465,
      "step": 1442,
      "time_per_iteration": 2.763716697692871
    },
    {
      "auxiliary_loss_clip": 0.01162918,
      "auxiliary_loss_mlp": 0.01040702,
      "balance_loss_clip": 1.05254674,
      "balance_loss_mlp": 1.02912688,
      "epoch": 0.17351049119220827,
      "flos": 23332024955520.0,
      "grad_norm": 1.7949068081113444,
      "language_loss": 0.81679237,
      "learning_rate": 3.787951013681293e-06,
      "loss": 0.83882856,
      "num_input_tokens_seen": 30496510,
      "step": 1443,
      "time_per_iteration": 3.658162832260132
    },
    {
      "auxiliary_loss_clip": 0.01217965,
      "auxiliary_loss_mlp": 0.01031861,
      "balance_loss_clip": 1.05969667,
      "balance_loss_mlp": 1.01995218,
      "epoch": 0.17363073408284735,
      "flos": 23803495896960.0,
      "grad_norm": 4.144114727658723,
      "language_loss": 0.7752099,
      "learning_rate": 3.787601808551879e-06,
      "loss": 0.79770821,
      "num_input_tokens_seen": 30516325,
      "step": 1444,
      "time_per_iteration": 2.6541593074798584
    },
    {
      "auxiliary_loss_clip": 0.0119937,
      "auxiliary_loss_mlp": 0.01041537,
      "balance_loss_clip": 1.05698514,
      "balance_loss_mlp": 1.03006876,
      "epoch": 0.17375097697348643,
      "flos": 18515290959360.0,
      "grad_norm": 2.270959334236287,
      "language_loss": 0.84435797,
      "learning_rate": 3.7872523322446926e-06,
      "loss": 0.86676711,
      "num_input_tokens_seen": 30535210,
      "step": 1445,
      "time_per_iteration": 2.6724460124969482
    },
    {
      "auxiliary_loss_clip": 0.01192897,
      "auxiliary_loss_mlp": 0.0103668,
      "balance_loss_clip": 1.0517633,
      "balance_loss_mlp": 1.02540874,
      "epoch": 0.17387121986412554,
      "flos": 38877897456000.0,
      "grad_norm": 5.435472752061632,
      "language_loss": 0.6022048,
      "learning_rate": 3.7869025848127478e-06,
      "loss": 0.62450051,
      "num_input_tokens_seen": 30559405,
      "step": 1446,
      "time_per_iteration": 2.9049911499023438
    },
    {
      "auxiliary_loss_clip": 0.01219179,
      "auxiliary_loss_mlp": 0.01045257,
      "balance_loss_clip": 1.05869246,
      "balance_loss_mlp": 1.03411674,
      "epoch": 0.17399146275476463,
      "flos": 20375714960640.0,
      "grad_norm": 3.7767843670165004,
      "language_loss": 0.8080765,
      "learning_rate": 3.786552566309102e-06,
      "loss": 0.8307209,
      "num_input_tokens_seen": 30577615,
      "step": 1447,
      "time_per_iteration": 2.639742136001587
    },
    {
      "auxiliary_loss_clip": 0.01203629,
      "auxiliary_loss_mlp": 0.00890389,
      "balance_loss_clip": 1.0615015,
      "balance_loss_mlp": 1.00024283,
      "epoch": 0.1741117056454037,
      "flos": 19164339763200.0,
      "grad_norm": 3.6945240658401532,
      "language_loss": 0.85815775,
      "learning_rate": 3.7862022767868517e-06,
      "loss": 0.87909794,
      "num_input_tokens_seen": 30595205,
      "step": 1448,
      "time_per_iteration": 3.6646387577056885
    },
    {
      "auxiliary_loss_clip": 0.01194761,
      "auxiliary_loss_mlp": 0.01044417,
      "balance_loss_clip": 1.05988967,
      "balance_loss_mlp": 1.03247261,
      "epoch": 0.17423194853604282,
      "flos": 25374300537600.0,
      "grad_norm": 2.152982920349264,
      "language_loss": 0.84411812,
      "learning_rate": 3.7858517162991367e-06,
      "loss": 0.86650991,
      "num_input_tokens_seen": 30615280,
      "step": 1449,
      "time_per_iteration": 3.6661932468414307
    },
    {
      "auxiliary_loss_clip": 0.01194297,
      "auxiliary_loss_mlp": 0.01051895,
      "balance_loss_clip": 1.05247855,
      "balance_loss_mlp": 1.04027772,
      "epoch": 0.1743521914266819,
      "flos": 25191874339200.0,
      "grad_norm": 5.617117117300556,
      "language_loss": 0.61062586,
      "learning_rate": 3.7855008848991363e-06,
      "loss": 0.63308775,
      "num_input_tokens_seen": 30633485,
      "step": 1450,
      "time_per_iteration": 3.76261568069458
    },
    {
      "auxiliary_loss_clip": 0.01202383,
      "auxiliary_loss_mlp": 0.01041711,
      "balance_loss_clip": 1.05778289,
      "balance_loss_mlp": 1.03010607,
      "epoch": 0.17447243431732098,
      "flos": 25666577504640.0,
      "grad_norm": 2.044329515969341,
      "language_loss": 0.7791034,
      "learning_rate": 3.7851497826400714e-06,
      "loss": 0.80154437,
      "num_input_tokens_seen": 30653625,
      "step": 1451,
      "time_per_iteration": 2.73927903175354
    },
    {
      "auxiliary_loss_clip": 0.01228471,
      "auxiliary_loss_mlp": 0.0104815,
      "balance_loss_clip": 1.06165147,
      "balance_loss_mlp": 1.03726041,
      "epoch": 0.17459267720796007,
      "flos": 36281950657920.0,
      "grad_norm": 2.7061077344252835,
      "language_loss": 0.75832343,
      "learning_rate": 3.7847984095752034e-06,
      "loss": 0.7810896,
      "num_input_tokens_seen": 30677080,
      "step": 1452,
      "time_per_iteration": 2.7842559814453125
    },
    {
      "auxiliary_loss_clip": 0.0122621,
      "auxiliary_loss_mlp": 0.01036829,
      "balance_loss_clip": 1.05998397,
      "balance_loss_mlp": 1.02599311,
      "epoch": 0.17471292009859918,
      "flos": 20011113959040.0,
      "grad_norm": 2.4791302859307214,
      "language_loss": 0.80137646,
      "learning_rate": 3.784446765757836e-06,
      "loss": 0.82400692,
      "num_input_tokens_seen": 30695725,
      "step": 1453,
      "time_per_iteration": 2.6006221771240234
    },
    {
      "auxiliary_loss_clip": 0.01175912,
      "auxiliary_loss_mlp": 0.01042314,
      "balance_loss_clip": 1.05148745,
      "balance_loss_mlp": 1.0305357,
      "epoch": 0.17483316298923826,
      "flos": 27819242559360.0,
      "grad_norm": 4.172907979465664,
      "language_loss": 0.77494144,
      "learning_rate": 3.7840948512413133e-06,
      "loss": 0.79712373,
      "num_input_tokens_seen": 30713310,
      "step": 1454,
      "time_per_iteration": 2.7235302925109863
    },
    {
      "auxiliary_loss_clip": 0.01191879,
      "auxiliary_loss_mlp": 0.01044581,
      "balance_loss_clip": 1.05931902,
      "balance_loss_mlp": 1.03275537,
      "epoch": 0.17495340587987734,
      "flos": 44017934791680.0,
      "grad_norm": 2.060391879501674,
      "language_loss": 0.78848994,
      "learning_rate": 3.7837426660790196e-06,
      "loss": 0.81085455,
      "num_input_tokens_seen": 30734725,
      "step": 1455,
      "time_per_iteration": 2.8504209518432617
    },
    {
      "auxiliary_loss_clip": 0.01225106,
      "auxiliary_loss_mlp": 0.01038043,
      "balance_loss_clip": 1.06068325,
      "balance_loss_mlp": 1.02714109,
      "epoch": 0.17507364877051645,
      "flos": 20885825957760.0,
      "grad_norm": 2.602671451010013,
      "language_loss": 0.82277238,
      "learning_rate": 3.783390210324382e-06,
      "loss": 0.84540391,
      "num_input_tokens_seen": 30754450,
      "step": 1456,
      "time_per_iteration": 2.6132147312164307
    },
    {
      "auxiliary_loss_clip": 0.01196105,
      "auxiliary_loss_mlp": 0.01038162,
      "balance_loss_clip": 1.05789161,
      "balance_loss_mlp": 1.02653921,
      "epoch": 0.17519389166115554,
      "flos": 24717602136960.0,
      "grad_norm": 2.311135261163962,
      "language_loss": 0.72483969,
      "learning_rate": 3.7830374840308676e-06,
      "loss": 0.74718225,
      "num_input_tokens_seen": 30774605,
      "step": 1457,
      "time_per_iteration": 2.7685956954956055
    },
    {
      "auxiliary_loss_clip": 0.01219412,
      "auxiliary_loss_mlp": 0.01037772,
      "balance_loss_clip": 1.06201029,
      "balance_loss_mlp": 1.02589273,
      "epoch": 0.17531413455179462,
      "flos": 23798144770560.0,
      "grad_norm": 3.283733784091729,
      "language_loss": 0.82505834,
      "learning_rate": 3.7826844872519842e-06,
      "loss": 0.84763026,
      "num_input_tokens_seen": 30792460,
      "step": 1458,
      "time_per_iteration": 2.6697397232055664
    },
    {
      "auxiliary_loss_clip": 0.01203736,
      "auxiliary_loss_mlp": 0.01032346,
      "balance_loss_clip": 1.06021917,
      "balance_loss_mlp": 1.02125394,
      "epoch": 0.1754343774424337,
      "flos": 24572379450240.0,
      "grad_norm": 2.6842984271631134,
      "language_loss": 0.72594559,
      "learning_rate": 3.782331220041282e-06,
      "loss": 0.74830639,
      "num_input_tokens_seen": 30812525,
      "step": 1459,
      "time_per_iteration": 2.7767958641052246
    },
    {
      "auxiliary_loss_clip": 0.01204596,
      "auxiliary_loss_mlp": 0.01036207,
      "balance_loss_clip": 1.05647874,
      "balance_loss_mlp": 1.02506649,
      "epoch": 0.17555462033307281,
      "flos": 18114599767680.0,
      "grad_norm": 3.011431321168509,
      "language_loss": 0.83285594,
      "learning_rate": 3.7819776824523504e-06,
      "loss": 0.85526401,
      "num_input_tokens_seen": 30830390,
      "step": 1460,
      "time_per_iteration": 2.6801602840423584
    },
    {
      "auxiliary_loss_clip": 0.01213702,
      "auxiliary_loss_mlp": 0.0103785,
      "balance_loss_clip": 1.05819798,
      "balance_loss_mlp": 1.02604795,
      "epoch": 0.1756748632237119,
      "flos": 28366018364160.0,
      "grad_norm": 2.040601695857053,
      "language_loss": 0.83683431,
      "learning_rate": 3.7816238745388213e-06,
      "loss": 0.85934985,
      "num_input_tokens_seen": 30849935,
      "step": 1461,
      "time_per_iteration": 2.7632579803466797
    },
    {
      "auxiliary_loss_clip": 0.01209075,
      "auxiliary_loss_mlp": 0.01039403,
      "balance_loss_clip": 1.05480111,
      "balance_loss_mlp": 1.02849591,
      "epoch": 0.17579510611435098,
      "flos": 25732939881600.0,
      "grad_norm": 2.0532299748636476,
      "language_loss": 0.87289786,
      "learning_rate": 3.781269796354367e-06,
      "loss": 0.89538264,
      "num_input_tokens_seen": 30869555,
      "step": 1462,
      "time_per_iteration": 2.695869207382202
    },
    {
      "auxiliary_loss_clip": 0.01206311,
      "auxiliary_loss_mlp": 0.01037797,
      "balance_loss_clip": 1.05732846,
      "balance_loss_mlp": 1.02638304,
      "epoch": 0.1759153490049901,
      "flos": 18588081870720.0,
      "grad_norm": 2.0170472278288227,
      "language_loss": 0.85884714,
      "learning_rate": 3.7809154479527006e-06,
      "loss": 0.88128823,
      "num_input_tokens_seen": 30888760,
      "step": 1463,
      "time_per_iteration": 2.6931912899017334
    },
    {
      "auxiliary_loss_clip": 0.01188036,
      "auxiliary_loss_mlp": 0.01036986,
      "balance_loss_clip": 1.05655217,
      "balance_loss_mlp": 1.02522016,
      "epoch": 0.17603559189562917,
      "flos": 18619323724800.0,
      "grad_norm": 2.4442825116828213,
      "language_loss": 0.84147632,
      "learning_rate": 3.780560829387577e-06,
      "loss": 0.8637265,
      "num_input_tokens_seen": 30907260,
      "step": 1464,
      "time_per_iteration": 2.717400312423706
    },
    {
      "auxiliary_loss_clip": 0.01119244,
      "auxiliary_loss_mlp": 0.01006565,
      "balance_loss_clip": 1.03301895,
      "balance_loss_mlp": 1.00210667,
      "epoch": 0.17615583478626826,
      "flos": 60530775373440.0,
      "grad_norm": 0.8568466868878409,
      "language_loss": 0.57890934,
      "learning_rate": 3.7802059407127915e-06,
      "loss": 0.60016745,
      "num_input_tokens_seen": 30965810,
      "step": 1465,
      "time_per_iteration": 3.205597162246704
    },
    {
      "auxiliary_loss_clip": 0.01194813,
      "auxiliary_loss_mlp": 0.01038409,
      "balance_loss_clip": 1.05448639,
      "balance_loss_mlp": 1.02699447,
      "epoch": 0.17627607767690734,
      "flos": 23616221362560.0,
      "grad_norm": 2.2038300223650884,
      "language_loss": 0.86112797,
      "learning_rate": 3.7798507819821797e-06,
      "loss": 0.88346016,
      "num_input_tokens_seen": 30982935,
      "step": 1466,
      "time_per_iteration": 2.756108522415161
    },
    {
      "auxiliary_loss_clip": 0.01182518,
      "auxiliary_loss_mlp": 0.01036411,
      "balance_loss_clip": 1.05336142,
      "balance_loss_mlp": 1.02518773,
      "epoch": 0.17639632056754645,
      "flos": 17639070589440.0,
      "grad_norm": 3.714650498132954,
      "language_loss": 0.78831619,
      "learning_rate": 3.7794953532496197e-06,
      "loss": 0.81050551,
      "num_input_tokens_seen": 30998840,
      "step": 1467,
      "time_per_iteration": 2.7249109745025635
    },
    {
      "auxiliary_loss_clip": 0.01087758,
      "auxiliary_loss_mlp": 0.00878181,
      "balance_loss_clip": 1.03198886,
      "balance_loss_mlp": 0.99985468,
      "epoch": 0.17651656345818553,
      "flos": 57932604910080.0,
      "grad_norm": 0.8679714206018869,
      "language_loss": 0.57946378,
      "learning_rate": 3.7791396545690295e-06,
      "loss": 0.59912312,
      "num_input_tokens_seen": 31060075,
      "step": 1468,
      "time_per_iteration": 3.266890287399292
    },
    {
      "auxiliary_loss_clip": 0.01217148,
      "auxiliary_loss_mlp": 0.01038541,
      "balance_loss_clip": 1.06351757,
      "balance_loss_mlp": 1.02718067,
      "epoch": 0.17663680634882462,
      "flos": 22929502170240.0,
      "grad_norm": 2.088252701016894,
      "language_loss": 0.8075484,
      "learning_rate": 3.7787836859943685e-06,
      "loss": 0.8301053,
      "num_input_tokens_seen": 31078800,
      "step": 1469,
      "time_per_iteration": 3.541311025619507
    },
    {
      "auxiliary_loss_clip": 0.01215478,
      "auxiliary_loss_mlp": 0.01039219,
      "balance_loss_clip": 1.06076515,
      "balance_loss_mlp": 1.02779913,
      "epoch": 0.17675704923946373,
      "flos": 22637979388800.0,
      "grad_norm": 117.19415662501694,
      "language_loss": 0.79070091,
      "learning_rate": 3.7784274475796363e-06,
      "loss": 0.81324786,
      "num_input_tokens_seen": 31097430,
      "step": 1470,
      "time_per_iteration": 2.7101786136627197
    },
    {
      "auxiliary_loss_clip": 0.01199957,
      "auxiliary_loss_mlp": 0.01033359,
      "balance_loss_clip": 1.05610418,
      "balance_loss_mlp": 1.0216763,
      "epoch": 0.1768772921301028,
      "flos": 27126525795840.0,
      "grad_norm": 2.172306032340131,
      "language_loss": 0.75867808,
      "learning_rate": 3.7780709393788745e-06,
      "loss": 0.78101122,
      "num_input_tokens_seen": 31117905,
      "step": 1471,
      "time_per_iteration": 2.8361074924468994
    },
    {
      "auxiliary_loss_clip": 0.01227361,
      "auxiliary_loss_mlp": 0.01037099,
      "balance_loss_clip": 1.06273746,
      "balance_loss_mlp": 1.02595258,
      "epoch": 0.1769975350207419,
      "flos": 19172133014400.0,
      "grad_norm": 2.132989293259577,
      "language_loss": 0.75384575,
      "learning_rate": 3.777714161446165e-06,
      "loss": 0.77649039,
      "num_input_tokens_seen": 31137610,
      "step": 1472,
      "time_per_iteration": 2.602471113204956
    },
    {
      "auxiliary_loss_clip": 0.01215217,
      "auxiliary_loss_mlp": 0.01037444,
      "balance_loss_clip": 1.0604856,
      "balance_loss_mlp": 1.02500415,
      "epoch": 0.177117777911381,
      "flos": 36134932291200.0,
      "grad_norm": 2.114553141731518,
      "language_loss": 0.69070286,
      "learning_rate": 3.7773571138356304e-06,
      "loss": 0.71322942,
      "num_input_tokens_seen": 31157780,
      "step": 1473,
      "time_per_iteration": 2.7759323120117188
    },
    {
      "auxiliary_loss_clip": 0.01172925,
      "auxiliary_loss_mlp": 0.01037366,
      "balance_loss_clip": 1.05538881,
      "balance_loss_mlp": 1.02670884,
      "epoch": 0.17723802080202009,
      "flos": 22090593052800.0,
      "grad_norm": 2.5944228875044306,
      "language_loss": 0.88960046,
      "learning_rate": 3.776999796601435e-06,
      "loss": 0.91170335,
      "num_input_tokens_seen": 31176540,
      "step": 1474,
      "time_per_iteration": 4.763267278671265
    },
    {
      "auxiliary_loss_clip": 0.012256,
      "auxiliary_loss_mlp": 0.01042205,
      "balance_loss_clip": 1.0646621,
      "balance_loss_mlp": 1.02955079,
      "epoch": 0.17735826369265917,
      "flos": 30222671437440.0,
      "grad_norm": 2.8833458652740886,
      "language_loss": 0.72813344,
      "learning_rate": 3.776642209797783e-06,
      "loss": 0.75081146,
      "num_input_tokens_seen": 31198370,
      "step": 1475,
      "time_per_iteration": 2.7651188373565674
    },
    {
      "auxiliary_loss_clip": 0.01210308,
      "auxiliary_loss_mlp": 0.01039855,
      "balance_loss_clip": 1.05854321,
      "balance_loss_mlp": 1.02759385,
      "epoch": 0.17747850658329825,
      "flos": 21397588980480.0,
      "grad_norm": 2.8600079453485225,
      "language_loss": 0.77701616,
      "learning_rate": 3.7762843534789205e-06,
      "loss": 0.79951781,
      "num_input_tokens_seen": 31217120,
      "step": 1476,
      "time_per_iteration": 2.7642695903778076
    },
    {
      "auxiliary_loss_clip": 0.01211514,
      "auxiliary_loss_mlp": 0.01034348,
      "balance_loss_clip": 1.0573566,
      "balance_loss_mlp": 1.02231431,
      "epoch": 0.17759874947393736,
      "flos": 16983341856000.0,
      "grad_norm": 3.586544122887826,
      "language_loss": 0.88496786,
      "learning_rate": 3.7759262276991343e-06,
      "loss": 0.90742648,
      "num_input_tokens_seen": 31234730,
      "step": 1477,
      "time_per_iteration": 3.718221426010132
    },
    {
      "auxiliary_loss_clip": 0.01212586,
      "auxiliary_loss_mlp": 0.01037479,
      "balance_loss_clip": 1.06115043,
      "balance_loss_mlp": 1.02574301,
      "epoch": 0.17771899236457644,
      "flos": 11546107390080.0,
      "grad_norm": 2.9342488002601215,
      "language_loss": 0.80809736,
      "learning_rate": 3.7755678325127506e-06,
      "loss": 0.83059806,
      "num_input_tokens_seen": 31252410,
      "step": 1478,
      "time_per_iteration": 2.725539445877075
    },
    {
      "auxiliary_loss_clip": 0.01178801,
      "auxiliary_loss_mlp": 0.0104012,
      "balance_loss_clip": 1.05665898,
      "balance_loss_mlp": 1.0292244,
      "epoch": 0.17783923525521553,
      "flos": 18807747494400.0,
      "grad_norm": 2.179538912225096,
      "language_loss": 0.75784504,
      "learning_rate": 3.7752091679741393e-06,
      "loss": 0.78003424,
      "num_input_tokens_seen": 31270200,
      "step": 1479,
      "time_per_iteration": 2.750333786010742
    },
    {
      "auxiliary_loss_clip": 0.01212802,
      "auxiliary_loss_mlp": 0.01035268,
      "balance_loss_clip": 1.05844843,
      "balance_loss_mlp": 1.02346635,
      "epoch": 0.17795947814585464,
      "flos": 30408365773440.0,
      "grad_norm": 22.76509887987508,
      "language_loss": 0.77737164,
      "learning_rate": 3.774850234137708e-06,
      "loss": 0.79985237,
      "num_input_tokens_seen": 31287495,
      "step": 1480,
      "time_per_iteration": 2.740896701812744
    },
    {
      "auxiliary_loss_clip": 0.01212277,
      "auxiliary_loss_mlp": 0.01037035,
      "balance_loss_clip": 1.05782628,
      "balance_loss_mlp": 1.02603221,
      "epoch": 0.17807972103649372,
      "flos": 24389055411840.0,
      "grad_norm": 2.719721528318481,
      "language_loss": 0.82411397,
      "learning_rate": 3.7744910310579076e-06,
      "loss": 0.84660709,
      "num_input_tokens_seen": 31306420,
      "step": 1481,
      "time_per_iteration": 2.6745712757110596
    },
    {
      "auxiliary_loss_clip": 0.01226825,
      "auxiliary_loss_mlp": 0.01046063,
      "balance_loss_clip": 1.06404257,
      "balance_loss_mlp": 1.03473818,
      "epoch": 0.1781999639271328,
      "flos": 20301559332480.0,
      "grad_norm": 2.1842591559002718,
      "language_loss": 0.8504411,
      "learning_rate": 3.774131558789229e-06,
      "loss": 0.87316996,
      "num_input_tokens_seen": 31325750,
      "step": 1482,
      "time_per_iteration": 2.58017635345459
    },
    {
      "auxiliary_loss_clip": 0.01229533,
      "auxiliary_loss_mlp": 0.00889488,
      "balance_loss_clip": 1.06356573,
      "balance_loss_mlp": 1.00029683,
      "epoch": 0.1783202068177719,
      "flos": 15924479806080.0,
      "grad_norm": 2.8876848448134993,
      "language_loss": 0.69738734,
      "learning_rate": 3.773771817386203e-06,
      "loss": 0.7185775,
      "num_input_tokens_seen": 31343080,
      "step": 1483,
      "time_per_iteration": 2.623220682144165
    },
    {
      "auxiliary_loss_clip": 0.01205737,
      "auxiliary_loss_mlp": 0.01039573,
      "balance_loss_clip": 1.05932081,
      "balance_loss_mlp": 1.02831948,
      "epoch": 0.178440449708411,
      "flos": 20631758083200.0,
      "grad_norm": 2.4355341897157,
      "language_loss": 0.78872305,
      "learning_rate": 3.773411806903403e-06,
      "loss": 0.81117618,
      "num_input_tokens_seen": 31362160,
      "step": 1484,
      "time_per_iteration": 2.6628174781799316
    },
    {
      "auxiliary_loss_clip": 0.01175915,
      "auxiliary_loss_mlp": 0.01040031,
      "balance_loss_clip": 1.05246806,
      "balance_loss_mlp": 1.02875352,
      "epoch": 0.17856069259905008,
      "flos": 21686059105920.0,
      "grad_norm": 1.8511607671611794,
      "language_loss": 0.94697416,
      "learning_rate": 3.7730515273954415e-06,
      "loss": 0.96913362,
      "num_input_tokens_seen": 31380770,
      "step": 1485,
      "time_per_iteration": 3.044673204421997
    },
    {
      "auxiliary_loss_clip": 0.01227958,
      "auxiliary_loss_mlp": 0.01033434,
      "balance_loss_clip": 1.06385362,
      "balance_loss_mlp": 1.0219065,
      "epoch": 0.17868093548968916,
      "flos": 26572962320640.0,
      "grad_norm": 1.8693098489884152,
      "language_loss": 0.85375333,
      "learning_rate": 3.772690978916973e-06,
      "loss": 0.87636721,
      "num_input_tokens_seen": 31400525,
      "step": 1486,
      "time_per_iteration": 2.700407028198242
    },
    {
      "auxiliary_loss_clip": 0.01217336,
      "auxiliary_loss_mlp": 0.0103364,
      "balance_loss_clip": 1.06301129,
      "balance_loss_mlp": 1.02268445,
      "epoch": 0.17880117838032827,
      "flos": 18581006891520.0,
      "grad_norm": 2.3882448273570547,
      "language_loss": 0.86463118,
      "learning_rate": 3.772330161522693e-06,
      "loss": 0.88714093,
      "num_input_tokens_seen": 31418435,
      "step": 1487,
      "time_per_iteration": 2.6613757610321045
    },
    {
      "auxiliary_loss_clip": 0.01204237,
      "auxiliary_loss_mlp": 0.01044052,
      "balance_loss_clip": 1.06044149,
      "balance_loss_mlp": 1.03208947,
      "epoch": 0.17892142127096736,
      "flos": 26541217676160.0,
      "grad_norm": 1.9928391832034256,
      "language_loss": 0.79756713,
      "learning_rate": 3.7719690752673365e-06,
      "loss": 0.82005006,
      "num_input_tokens_seen": 31439230,
      "step": 1488,
      "time_per_iteration": 2.7211496829986572
    },
    {
      "auxiliary_loss_clip": 0.01197632,
      "auxiliary_loss_mlp": 0.01032637,
      "balance_loss_clip": 1.05855846,
      "balance_loss_mlp": 1.02112091,
      "epoch": 0.17904166416160644,
      "flos": 23872623621120.0,
      "grad_norm": 1.990581205361918,
      "language_loss": 0.78346592,
      "learning_rate": 3.7716077202056796e-06,
      "loss": 0.80576861,
      "num_input_tokens_seen": 31457705,
      "step": 1489,
      "time_per_iteration": 2.728972911834717
    },
    {
      "auxiliary_loss_clip": 0.01192725,
      "auxiliary_loss_mlp": 0.01034681,
      "balance_loss_clip": 1.05775785,
      "balance_loss_mlp": 1.02295685,
      "epoch": 0.17916190705224552,
      "flos": 19134426712320.0,
      "grad_norm": 2.4930067866269674,
      "language_loss": 0.9322176,
      "learning_rate": 3.7712460963925404e-06,
      "loss": 0.95449162,
      "num_input_tokens_seen": 31473645,
      "step": 1490,
      "time_per_iteration": 2.6439425945281982
    },
    {
      "auxiliary_loss_clip": 0.01196582,
      "auxiliary_loss_mlp": 0.0103661,
      "balance_loss_clip": 1.05419528,
      "balance_loss_mlp": 1.02547562,
      "epoch": 0.17928214994288463,
      "flos": 25152120961920.0,
      "grad_norm": 1.8769100924477984,
      "language_loss": 0.75245118,
      "learning_rate": 3.7708842038827775e-06,
      "loss": 0.77478313,
      "num_input_tokens_seen": 31492605,
      "step": 1491,
      "time_per_iteration": 2.7508738040924072
    },
    {
      "auxiliary_loss_clip": 0.01213154,
      "auxiliary_loss_mlp": 0.01037571,
      "balance_loss_clip": 1.05803633,
      "balance_loss_mlp": 1.02619815,
      "epoch": 0.17940239283352372,
      "flos": 22384629786240.0,
      "grad_norm": 1.9423833599692484,
      "language_loss": 0.85597801,
      "learning_rate": 3.770522042731288e-06,
      "loss": 0.8784852,
      "num_input_tokens_seen": 31514500,
      "step": 1492,
      "time_per_iteration": 2.7107441425323486
    },
    {
      "auxiliary_loss_clip": 0.01173216,
      "auxiliary_loss_mlp": 0.01041026,
      "balance_loss_clip": 1.05436766,
      "balance_loss_mlp": 1.02945685,
      "epoch": 0.1795226357241628,
      "flos": 23178685795200.0,
      "grad_norm": 8.630547302127802,
      "language_loss": 0.87922287,
      "learning_rate": 3.7701596129930122e-06,
      "loss": 0.90136528,
      "num_input_tokens_seen": 31533225,
      "step": 1493,
      "time_per_iteration": 2.768096446990967
    },
    {
      "auxiliary_loss_clip": 0.01206801,
      "auxiliary_loss_mlp": 0.01038769,
      "balance_loss_clip": 1.06004572,
      "balance_loss_mlp": 1.02697873,
      "epoch": 0.1796428786148019,
      "flos": 22090413484800.0,
      "grad_norm": 2.1902336899783563,
      "language_loss": 0.73694289,
      "learning_rate": 3.7697969147229315e-06,
      "loss": 0.75939858,
      "num_input_tokens_seen": 31551385,
      "step": 1494,
      "time_per_iteration": 3.66811203956604
    },
    {
      "auxiliary_loss_clip": 0.01210959,
      "auxiliary_loss_mlp": 0.01038343,
      "balance_loss_clip": 1.05833328,
      "balance_loss_mlp": 1.02668464,
      "epoch": 0.179763121505441,
      "flos": 21324618501120.0,
      "grad_norm": 2.157806211554626,
      "language_loss": 0.85217273,
      "learning_rate": 3.7694339479760647e-06,
      "loss": 0.87466574,
      "num_input_tokens_seen": 31570415,
      "step": 1495,
      "time_per_iteration": 2.6139116287231445
    },
    {
      "auxiliary_loss_clip": 0.01100967,
      "auxiliary_loss_mlp": 0.01004176,
      "balance_loss_clip": 1.02183294,
      "balance_loss_mlp": 0.99971735,
      "epoch": 0.17988336439608008,
      "flos": 68161864815360.0,
      "grad_norm": 0.8494049355978199,
      "language_loss": 0.57286447,
      "learning_rate": 3.769070712807476e-06,
      "loss": 0.59391594,
      "num_input_tokens_seen": 31632445,
      "step": 1496,
      "time_per_iteration": 3.2843806743621826
    },
    {
      "auxiliary_loss_clip": 0.01162381,
      "auxiliary_loss_mlp": 0.01035117,
      "balance_loss_clip": 1.05469763,
      "balance_loss_mlp": 1.02464461,
      "epoch": 0.18000360728671919,
      "flos": 21945047143680.0,
      "grad_norm": 1.8197253717137734,
      "language_loss": 0.78931534,
      "learning_rate": 3.768707209272266e-06,
      "loss": 0.81129038,
      "num_input_tokens_seen": 31652575,
      "step": 1497,
      "time_per_iteration": 2.8103816509246826
    },
    {
      "auxiliary_loss_clip": 0.0119866,
      "auxiliary_loss_mlp": 0.01034745,
      "balance_loss_clip": 1.0555228,
      "balance_loss_mlp": 1.02369988,
      "epoch": 0.18012385017735827,
      "flos": 18986330937600.0,
      "grad_norm": 2.498866513977451,
      "language_loss": 0.76680028,
      "learning_rate": 3.768343437425579e-06,
      "loss": 0.78913426,
      "num_input_tokens_seen": 31671145,
      "step": 1498,
      "time_per_iteration": 2.683108329772949
    },
    {
      "auxiliary_loss_clip": 0.01151573,
      "auxiliary_loss_mlp": 0.01042072,
      "balance_loss_clip": 1.04900837,
      "balance_loss_mlp": 1.03028858,
      "epoch": 0.18024409306799735,
      "flos": 19748103598080.0,
      "grad_norm": 7.754071646053735,
      "language_loss": 0.85847354,
      "learning_rate": 3.7679793973225987e-06,
      "loss": 0.88040996,
      "num_input_tokens_seen": 31686955,
      "step": 1499,
      "time_per_iteration": 2.8090269565582275
    },
    {
      "auxiliary_loss_clip": 0.01083892,
      "auxiliary_loss_mlp": 0.01003726,
      "balance_loss_clip": 1.02395153,
      "balance_loss_mlp": 0.9993391,
      "epoch": 0.18036433595863643,
      "flos": 67227183060480.0,
      "grad_norm": 0.8473519843443308,
      "language_loss": 0.61658525,
      "learning_rate": 3.767615089018549e-06,
      "loss": 0.63746142,
      "num_input_tokens_seen": 31749300,
      "step": 1500,
      "time_per_iteration": 5.239056348800659
    },
    {
      "auxiliary_loss_clip": 0.01193343,
      "auxiliary_loss_mlp": 0.0104128,
      "balance_loss_clip": 1.05527246,
      "balance_loss_mlp": 1.02867377,
      "epoch": 0.18048457884927555,
      "flos": 18181464935040.0,
      "grad_norm": 2.219458166731544,
      "language_loss": 0.86432278,
      "learning_rate": 3.7672505125686966e-06,
      "loss": 0.88666898,
      "num_input_tokens_seen": 31765665,
      "step": 1501,
      "time_per_iteration": 2.6532161235809326
    },
    {
      "auxiliary_loss_clip": 0.01180471,
      "auxiliary_loss_mlp": 0.01041093,
      "balance_loss_clip": 1.05236816,
      "balance_loss_mlp": 1.0295949,
      "epoch": 0.18060482173991463,
      "flos": 15813767111040.0,
      "grad_norm": 6.366739575506411,
      "language_loss": 0.8471787,
      "learning_rate": 3.7668856680283455e-06,
      "loss": 0.8693943,
      "num_input_tokens_seen": 31782690,
      "step": 1502,
      "time_per_iteration": 3.702349901199341
    },
    {
      "auxiliary_loss_clip": 0.01210367,
      "auxiliary_loss_mlp": 0.01031549,
      "balance_loss_clip": 1.06052387,
      "balance_loss_mlp": 1.02002168,
      "epoch": 0.1807250646305537,
      "flos": 18587399512320.0,
      "grad_norm": 2.3191197125342717,
      "language_loss": 0.82381725,
      "learning_rate": 3.7665205554528437e-06,
      "loss": 0.84623641,
      "num_input_tokens_seen": 31802045,
      "step": 1503,
      "time_per_iteration": 2.7115397453308105
    },
    {
      "auxiliary_loss_clip": 0.01205913,
      "auxiliary_loss_mlp": 0.01034917,
      "balance_loss_clip": 1.06016457,
      "balance_loss_mlp": 1.02349114,
      "epoch": 0.18084530752119282,
      "flos": 23149131880320.0,
      "grad_norm": 2.2119957630317035,
      "language_loss": 0.74340194,
      "learning_rate": 3.7661551748975782e-06,
      "loss": 0.76581025,
      "num_input_tokens_seen": 31820220,
      "step": 1504,
      "time_per_iteration": 2.7127881050109863
    },
    {
      "auxiliary_loss_clip": 0.01105923,
      "auxiliary_loss_mlp": 0.01005549,
      "balance_loss_clip": 1.02568376,
      "balance_loss_mlp": 1.00106704,
      "epoch": 0.1809655504118319,
      "flos": 59803153568640.0,
      "grad_norm": 0.8149928192858655,
      "language_loss": 0.60426259,
      "learning_rate": 3.7657895264179772e-06,
      "loss": 0.6253773,
      "num_input_tokens_seen": 31876195,
      "step": 1505,
      "time_per_iteration": 3.2526347637176514
    },
    {
      "auxiliary_loss_clip": 0.0119639,
      "auxiliary_loss_mlp": 0.01040582,
      "balance_loss_clip": 1.05437243,
      "balance_loss_mlp": 1.02872097,
      "epoch": 0.181085793302471,
      "flos": 44201941188480.0,
      "grad_norm": 1.9094570353178644,
      "language_loss": 0.74741769,
      "learning_rate": 3.765423610069509e-06,
      "loss": 0.76978743,
      "num_input_tokens_seen": 31901585,
      "step": 1506,
      "time_per_iteration": 2.895153284072876
    },
    {
      "auxiliary_loss_clip": 0.01205041,
      "auxiliary_loss_mlp": 0.01039135,
      "balance_loss_clip": 1.05958486,
      "balance_loss_mlp": 1.02808452,
      "epoch": 0.18120603619311007,
      "flos": 34898384638080.0,
      "grad_norm": 3.0789167123605954,
      "language_loss": 0.72570336,
      "learning_rate": 3.765057425907683e-06,
      "loss": 0.7481451,
      "num_input_tokens_seen": 31923045,
      "step": 1507,
      "time_per_iteration": 2.77325439453125
    },
    {
      "auxiliary_loss_clip": 0.01215786,
      "auxiliary_loss_mlp": 0.01034021,
      "balance_loss_clip": 1.05843353,
      "balance_loss_mlp": 1.02314281,
      "epoch": 0.18132627908374918,
      "flos": 21506757390720.0,
      "grad_norm": 1.9459989014243273,
      "language_loss": 0.78275168,
      "learning_rate": 3.764690973988048e-06,
      "loss": 0.80524981,
      "num_input_tokens_seen": 31943385,
      "step": 1508,
      "time_per_iteration": 2.689194917678833
    },
    {
      "auxiliary_loss_clip": 0.01200148,
      "auxiliary_loss_mlp": 0.01037222,
      "balance_loss_clip": 1.056656,
      "balance_loss_mlp": 1.02556968,
      "epoch": 0.18144652197438826,
      "flos": 29057693633280.0,
      "grad_norm": 1.9301954488366166,
      "language_loss": 0.73811746,
      "learning_rate": 3.7643242543661967e-06,
      "loss": 0.76049125,
      "num_input_tokens_seen": 31966045,
      "step": 1509,
      "time_per_iteration": 2.7770824432373047
    },
    {
      "auxiliary_loss_clip": 0.01094494,
      "auxiliary_loss_mlp": 0.01004047,
      "balance_loss_clip": 1.02235293,
      "balance_loss_mlp": 0.99992228,
      "epoch": 0.18156676486502735,
      "flos": 68675064382080.0,
      "grad_norm": 0.8126414258515383,
      "language_loss": 0.60462838,
      "learning_rate": 3.7639572670977573e-06,
      "loss": 0.62561381,
      "num_input_tokens_seen": 32021540,
      "step": 1510,
      "time_per_iteration": 3.1237456798553467
    },
    {
      "auxiliary_loss_clip": 0.01197028,
      "auxiliary_loss_mlp": 0.01035016,
      "balance_loss_clip": 1.05508065,
      "balance_loss_mlp": 1.02331591,
      "epoch": 0.18168700775566646,
      "flos": 26471515334400.0,
      "grad_norm": 1.6384342522128754,
      "language_loss": 0.76756907,
      "learning_rate": 3.7635900122384042e-06,
      "loss": 0.78988951,
      "num_input_tokens_seen": 32044535,
      "step": 1511,
      "time_per_iteration": 2.758382558822632
    },
    {
      "auxiliary_loss_clip": 0.01202188,
      "auxiliary_loss_mlp": 0.01034371,
      "balance_loss_clip": 1.05425453,
      "balance_loss_mlp": 1.02280211,
      "epoch": 0.18180725064630554,
      "flos": 15005668884480.0,
      "grad_norm": 2.2412895267236337,
      "language_loss": 0.86784542,
      "learning_rate": 3.7632224898438477e-06,
      "loss": 0.89021105,
      "num_input_tokens_seen": 32061010,
      "step": 1512,
      "time_per_iteration": 2.6734633445739746
    },
    {
      "auxiliary_loss_clip": 0.01194589,
      "auxiliary_loss_mlp": 0.01031889,
      "balance_loss_clip": 1.05407572,
      "balance_loss_mlp": 1.02123761,
      "epoch": 0.18192749353694462,
      "flos": 19682387665920.0,
      "grad_norm": 2.008109385296094,
      "language_loss": 0.79109913,
      "learning_rate": 3.762854699969842e-06,
      "loss": 0.81336391,
      "num_input_tokens_seen": 32081520,
      "step": 1513,
      "time_per_iteration": 2.705249309539795
    },
    {
      "auxiliary_loss_clip": 0.01214965,
      "auxiliary_loss_mlp": 0.01035541,
      "balance_loss_clip": 1.0617919,
      "balance_loss_mlp": 1.02462769,
      "epoch": 0.1820477364275837,
      "flos": 20702717400960.0,
      "grad_norm": 2.12913115147978,
      "language_loss": 0.72747797,
      "learning_rate": 3.762486642672179e-06,
      "loss": 0.74998301,
      "num_input_tokens_seen": 32098460,
      "step": 1514,
      "time_per_iteration": 2.703930377960205
    },
    {
      "auxiliary_loss_clip": 0.01209303,
      "auxiliary_loss_mlp": 0.01044784,
      "balance_loss_clip": 1.06249022,
      "balance_loss_mlp": 1.03351259,
      "epoch": 0.18216797931822282,
      "flos": 17128708197120.0,
      "grad_norm": 1.9406040094911896,
      "language_loss": 0.87128532,
      "learning_rate": 3.7621183180066946e-06,
      "loss": 0.89382613,
      "num_input_tokens_seen": 32116420,
      "step": 1515,
      "time_per_iteration": 2.650371789932251
    },
    {
      "auxiliary_loss_clip": 0.01199439,
      "auxiliary_loss_mlp": 0.01039874,
      "balance_loss_clip": 1.05402446,
      "balance_loss_mlp": 1.02828646,
      "epoch": 0.1822882222088619,
      "flos": 29242561956480.0,
      "grad_norm": 1.81122298788485,
      "language_loss": 0.74118322,
      "learning_rate": 3.7617497260292625e-06,
      "loss": 0.76357633,
      "num_input_tokens_seen": 32138475,
      "step": 1516,
      "time_per_iteration": 2.7460124492645264
    },
    {
      "auxiliary_loss_clip": 0.01194872,
      "auxiliary_loss_mlp": 0.01037386,
      "balance_loss_clip": 1.05796647,
      "balance_loss_mlp": 1.02626944,
      "epoch": 0.18240846509950098,
      "flos": 17702739446400.0,
      "grad_norm": 3.169226921605119,
      "language_loss": 0.78855056,
      "learning_rate": 3.7613808667957967e-06,
      "loss": 0.81087315,
      "num_input_tokens_seen": 32151165,
      "step": 1517,
      "time_per_iteration": 2.6248698234558105
    },
    {
      "auxiliary_loss_clip": 0.0120739,
      "auxiliary_loss_mlp": 0.01032715,
      "balance_loss_clip": 1.0572964,
      "balance_loss_mlp": 1.02186084,
      "epoch": 0.1825287079901401,
      "flos": 14790025584000.0,
      "grad_norm": 2.261072613867986,
      "language_loss": 0.91166192,
      "learning_rate": 3.7610117403622547e-06,
      "loss": 0.93406302,
      "num_input_tokens_seen": 32167725,
      "step": 1518,
      "time_per_iteration": 2.6520302295684814
    },
    {
      "auxiliary_loss_clip": 0.0118165,
      "auxiliary_loss_mlp": 0.01042513,
      "balance_loss_clip": 1.05055404,
      "balance_loss_mlp": 1.03175986,
      "epoch": 0.18264895088077918,
      "flos": 21946232292480.0,
      "grad_norm": 2.665766284068312,
      "language_loss": 0.90235204,
      "learning_rate": 3.7606423467846313e-06,
      "loss": 0.92459363,
      "num_input_tokens_seen": 32187330,
      "step": 1519,
      "time_per_iteration": 2.7867419719696045
    },
    {
      "auxiliary_loss_clip": 0.01196053,
      "auxiliary_loss_mlp": 0.01040046,
      "balance_loss_clip": 1.05696344,
      "balance_loss_mlp": 1.02870369,
      "epoch": 0.18276919377141826,
      "flos": 20886759711360.0,
      "grad_norm": 2.118179052057819,
      "language_loss": 0.79348052,
      "learning_rate": 3.760272686118964e-06,
      "loss": 0.81584144,
      "num_input_tokens_seen": 32205550,
      "step": 1520,
      "time_per_iteration": 2.739762306213379
    },
    {
      "auxiliary_loss_clip": 0.01203764,
      "auxiliary_loss_mlp": 0.01035613,
      "balance_loss_clip": 1.05840254,
      "balance_loss_mlp": 1.02468121,
      "epoch": 0.18288943666205737,
      "flos": 21469877101440.0,
      "grad_norm": 3.164086200261315,
      "language_loss": 0.93095875,
      "learning_rate": 3.7599027584213297e-06,
      "loss": 0.95335251,
      "num_input_tokens_seen": 32224430,
      "step": 1521,
      "time_per_iteration": 3.5830976963043213
    },
    {
      "auxiliary_loss_clip": 0.01218263,
      "auxiliary_loss_mlp": 0.01033281,
      "balance_loss_clip": 1.05917871,
      "balance_loss_mlp": 1.0216279,
      "epoch": 0.18300967955269645,
      "flos": 21539363961600.0,
      "grad_norm": 2.199637132761966,
      "language_loss": 0.78628445,
      "learning_rate": 3.7595325637478465e-06,
      "loss": 0.80879986,
      "num_input_tokens_seen": 32242455,
      "step": 1522,
      "time_per_iteration": 2.660820722579956
    },
    {
      "auxiliary_loss_clip": 0.01194842,
      "auxiliary_loss_mlp": 0.01042976,
      "balance_loss_clip": 1.05924928,
      "balance_loss_mlp": 1.03152609,
      "epoch": 0.18312992244333554,
      "flos": 28876237102080.0,
      "grad_norm": 1.996029355644987,
      "language_loss": 0.81423223,
      "learning_rate": 3.7591621021546723e-06,
      "loss": 0.83661044,
      "num_input_tokens_seen": 32264450,
      "step": 1523,
      "time_per_iteration": 2.763814926147461
    },
    {
      "auxiliary_loss_clip": 0.01205463,
      "auxiliary_loss_mlp": 0.01038545,
      "balance_loss_clip": 1.05663812,
      "balance_loss_mlp": 1.02719045,
      "epoch": 0.18325016533397462,
      "flos": 20120102801280.0,
      "grad_norm": 3.1364634005974605,
      "language_loss": 0.81346297,
      "learning_rate": 3.7587913736980062e-06,
      "loss": 0.83590305,
      "num_input_tokens_seen": 32284090,
      "step": 1524,
      "time_per_iteration": 2.6494617462158203
    },
    {
      "auxiliary_loss_clip": 0.01158601,
      "auxiliary_loss_mlp": 0.01041288,
      "balance_loss_clip": 1.04736209,
      "balance_loss_mlp": 1.03038645,
      "epoch": 0.18337040822461373,
      "flos": 23329187781120.0,
      "grad_norm": 1.9382821333106437,
      "language_loss": 0.84625685,
      "learning_rate": 3.7584203784340865e-06,
      "loss": 0.86825573,
      "num_input_tokens_seen": 32303260,
      "step": 1525,
      "time_per_iteration": 2.782470226287842
    },
    {
      "auxiliary_loss_clip": 0.01197487,
      "auxiliary_loss_mlp": 0.01032641,
      "balance_loss_clip": 1.05592465,
      "balance_loss_mlp": 1.02154207,
      "epoch": 0.1834906511152528,
      "flos": 25009555881600.0,
      "grad_norm": 1.9751037426100515,
      "language_loss": 0.8631894,
      "learning_rate": 3.7580491164191938e-06,
      "loss": 0.88549066,
      "num_input_tokens_seen": 32321570,
      "step": 1526,
      "time_per_iteration": 4.668972730636597
    },
    {
      "auxiliary_loss_clip": 0.01114668,
      "auxiliary_loss_mlp": 0.01006733,
      "balance_loss_clip": 1.02756989,
      "balance_loss_mlp": 1.00248909,
      "epoch": 0.1836108940058919,
      "flos": 67251493589760.0,
      "grad_norm": 0.746244139086753,
      "language_loss": 0.61204076,
      "learning_rate": 3.757677587709648e-06,
      "loss": 0.63325477,
      "num_input_tokens_seen": 32384835,
      "step": 1527,
      "time_per_iteration": 3.3382904529571533
    },
    {
      "auxiliary_loss_clip": 0.01187775,
      "auxiliary_loss_mlp": 0.01038254,
      "balance_loss_clip": 1.05728114,
      "balance_loss_mlp": 1.02687585,
      "epoch": 0.183731136896531,
      "flos": 25738721971200.0,
      "grad_norm": 2.0326132322498633,
      "language_loss": 0.75650465,
      "learning_rate": 3.7573057923618095e-06,
      "loss": 0.77876496,
      "num_input_tokens_seen": 32404930,
      "step": 1528,
      "time_per_iteration": 3.6910240650177
    },
    {
      "auxiliary_loss_clip": 0.01178276,
      "auxiliary_loss_mlp": 0.01034714,
      "balance_loss_clip": 1.05204844,
      "balance_loss_mlp": 1.02358544,
      "epoch": 0.1838513797871701,
      "flos": 20449403712000.0,
      "grad_norm": 10.866260207109832,
      "language_loss": 0.74335086,
      "learning_rate": 3.7569337304320793e-06,
      "loss": 0.76548076,
      "num_input_tokens_seen": 32424515,
      "step": 1529,
      "time_per_iteration": 2.757075309753418
    },
    {
      "auxiliary_loss_clip": 0.01103996,
      "auxiliary_loss_mlp": 0.01008871,
      "balance_loss_clip": 1.02622414,
      "balance_loss_mlp": 1.00484216,
      "epoch": 0.18397162267780917,
      "flos": 68565141786240.0,
      "grad_norm": 0.8355602985156239,
      "language_loss": 0.64506358,
      "learning_rate": 3.756561401976899e-06,
      "loss": 0.66619229,
      "num_input_tokens_seen": 32484220,
      "step": 1530,
      "time_per_iteration": 3.109482765197754
    },
    {
      "auxiliary_loss_clip": 0.01228609,
      "auxiliary_loss_mlp": 0.01033671,
      "balance_loss_clip": 1.06475616,
      "balance_loss_mlp": 1.02240562,
      "epoch": 0.18409186556844825,
      "flos": 31941104976000.0,
      "grad_norm": 1.9310120036997456,
      "language_loss": 0.82222724,
      "learning_rate": 3.7561888070527514e-06,
      "loss": 0.84484994,
      "num_input_tokens_seen": 32506260,
      "step": 1531,
      "time_per_iteration": 2.661273717880249
    },
    {
      "auxiliary_loss_clip": 0.01176573,
      "auxiliary_loss_mlp": 0.00890668,
      "balance_loss_clip": 1.05432844,
      "balance_loss_mlp": 1.00035346,
      "epoch": 0.18421210845908736,
      "flos": 20120533764480.0,
      "grad_norm": 3.384068349520906,
      "language_loss": 0.80258501,
      "learning_rate": 3.7558159457161577e-06,
      "loss": 0.82325745,
      "num_input_tokens_seen": 32524225,
      "step": 1532,
      "time_per_iteration": 2.688908338546753
    },
    {
      "auxiliary_loss_clip": 0.01206668,
      "auxiliary_loss_mlp": 0.00890085,
      "balance_loss_clip": 1.05935311,
      "balance_loss_mlp": 1.00045729,
      "epoch": 0.18433235134972645,
      "flos": 23110491824640.0,
      "grad_norm": 2.577389235801755,
      "language_loss": 0.78540754,
      "learning_rate": 3.755442818023681e-06,
      "loss": 0.80637503,
      "num_input_tokens_seen": 32543850,
      "step": 1533,
      "time_per_iteration": 2.7136032581329346
    },
    {
      "auxiliary_loss_clip": 0.01192326,
      "auxiliary_loss_mlp": 0.01036512,
      "balance_loss_clip": 1.05543518,
      "balance_loss_mlp": 1.02509165,
      "epoch": 0.18445259424036553,
      "flos": 18291351617280.0,
      "grad_norm": 2.2467343255511585,
      "language_loss": 0.76520348,
      "learning_rate": 3.7550694240319246e-06,
      "loss": 0.7874918,
      "num_input_tokens_seen": 32561725,
      "step": 1534,
      "time_per_iteration": 2.7090017795562744
    },
    {
      "auxiliary_loss_clip": 0.01216268,
      "auxiliary_loss_mlp": 0.01038588,
      "balance_loss_clip": 1.05798149,
      "balance_loss_mlp": 1.02744818,
      "epoch": 0.18457283713100464,
      "flos": 21324079797120.0,
      "grad_norm": 5.701541641683727,
      "language_loss": 0.76209903,
      "learning_rate": 3.7546957637975326e-06,
      "loss": 0.78464758,
      "num_input_tokens_seen": 32579135,
      "step": 1535,
      "time_per_iteration": 2.6556003093719482
    },
    {
      "auxiliary_loss_clip": 0.01159067,
      "auxiliary_loss_mlp": 0.01041904,
      "balance_loss_clip": 1.04301894,
      "balance_loss_mlp": 1.03073978,
      "epoch": 0.18469308002164372,
      "flos": 20375679047040.0,
      "grad_norm": 1.547213652082304,
      "language_loss": 0.73904669,
      "learning_rate": 3.7543218373771873e-06,
      "loss": 0.76105642,
      "num_input_tokens_seen": 32598460,
      "step": 1536,
      "time_per_iteration": 2.7776529788970947
    },
    {
      "auxiliary_loss_clip": 0.01160838,
      "auxiliary_loss_mlp": 0.00889555,
      "balance_loss_clip": 1.04900265,
      "balance_loss_mlp": 1.00037146,
      "epoch": 0.1848133229122828,
      "flos": 26435892021120.0,
      "grad_norm": 1.3883676198210873,
      "language_loss": 0.78114176,
      "learning_rate": 3.753947644827615e-06,
      "loss": 0.8016457,
      "num_input_tokens_seen": 32621920,
      "step": 1537,
      "time_per_iteration": 2.8090574741363525
    },
    {
      "auxiliary_loss_clip": 0.01104708,
      "auxiliary_loss_mlp": 0.01004024,
      "balance_loss_clip": 1.02374578,
      "balance_loss_mlp": 1.00001836,
      "epoch": 0.1849335658029219,
      "flos": 70547447612160.0,
      "grad_norm": 0.936326396254072,
      "language_loss": 0.57206559,
      "learning_rate": 3.753573186205579e-06,
      "loss": 0.59315288,
      "num_input_tokens_seen": 32690040,
      "step": 1538,
      "time_per_iteration": 3.3990297317504883
    },
    {
      "auxiliary_loss_clip": 0.01190364,
      "auxiliary_loss_mlp": 0.00889267,
      "balance_loss_clip": 1.0520215,
      "balance_loss_mlp": 1.0003891,
      "epoch": 0.185053808693561,
      "flos": 17384140788480.0,
      "grad_norm": 2.7580861658498605,
      "language_loss": 0.77731299,
      "learning_rate": 3.753198461567885e-06,
      "loss": 0.79810929,
      "num_input_tokens_seen": 32707285,
      "step": 1539,
      "time_per_iteration": 2.656306266784668
    },
    {
      "auxiliary_loss_clip": 0.01189891,
      "auxiliary_loss_mlp": 0.01036083,
      "balance_loss_clip": 1.06059599,
      "balance_loss_mlp": 1.025473,
      "epoch": 0.18517405158420008,
      "flos": 28986159697920.0,
      "grad_norm": 1.7842909309083335,
      "language_loss": 0.918181,
      "learning_rate": 3.7528234709713783e-06,
      "loss": 0.94044077,
      "num_input_tokens_seen": 32730030,
      "step": 1540,
      "time_per_iteration": 2.8243234157562256
    },
    {
      "auxiliary_loss_clip": 0.01218909,
      "auxiliary_loss_mlp": 0.01040098,
      "balance_loss_clip": 1.06152749,
      "balance_loss_mlp": 1.02982843,
      "epoch": 0.18529429447483917,
      "flos": 26794962328320.0,
      "grad_norm": 1.8636228565752253,
      "language_loss": 0.84145826,
      "learning_rate": 3.7524482144729447e-06,
      "loss": 0.86404836,
      "num_input_tokens_seen": 32749485,
      "step": 1541,
      "time_per_iteration": 2.728898048400879
    },
    {
      "auxiliary_loss_clip": 0.01183199,
      "auxiliary_loss_mlp": 0.01039837,
      "balance_loss_clip": 1.05098534,
      "balance_loss_mlp": 1.02839851,
      "epoch": 0.18541453736547828,
      "flos": 13581595301760.0,
      "grad_norm": 2.0136539225443064,
      "language_loss": 0.8307184,
      "learning_rate": 3.7520726921295106e-06,
      "loss": 0.85294878,
      "num_input_tokens_seen": 32766205,
      "step": 1542,
      "time_per_iteration": 2.683398723602295
    },
    {
      "auxiliary_loss_clip": 0.01208706,
      "auxiliary_loss_mlp": 0.01038392,
      "balance_loss_clip": 1.05688703,
      "balance_loss_mlp": 1.02784181,
      "epoch": 0.18553478025611736,
      "flos": 24025424077440.0,
      "grad_norm": 1.9376621377146401,
      "language_loss": 0.72677457,
      "learning_rate": 3.751696903998042e-06,
      "loss": 0.74924552,
      "num_input_tokens_seen": 32784840,
      "step": 1543,
      "time_per_iteration": 2.7103023529052734
    },
    {
      "auxiliary_loss_clip": 0.01214018,
      "auxiliary_loss_mlp": 0.01040006,
      "balance_loss_clip": 1.06260085,
      "balance_loss_mlp": 1.02954578,
      "epoch": 0.18565502314675644,
      "flos": 25885165720320.0,
      "grad_norm": 1.87001588640098,
      "language_loss": 0.70275259,
      "learning_rate": 3.7513208501355456e-06,
      "loss": 0.7252928,
      "num_input_tokens_seen": 32805945,
      "step": 1544,
      "time_per_iteration": 2.6912434101104736
    },
    {
      "auxiliary_loss_clip": 0.01200348,
      "auxiliary_loss_mlp": 0.01034707,
      "balance_loss_clip": 1.0571332,
      "balance_loss_mlp": 1.02379334,
      "epoch": 0.18577526603739553,
      "flos": 19610063631360.0,
      "grad_norm": 2.0058683731735485,
      "language_loss": 0.84127688,
      "learning_rate": 3.750944530599069e-06,
      "loss": 0.86362731,
      "num_input_tokens_seen": 32825515,
      "step": 1545,
      "time_per_iteration": 2.6686737537384033
    },
    {
      "auxiliary_loss_clip": 0.01222719,
      "auxiliary_loss_mlp": 0.01035549,
      "balance_loss_clip": 1.06269979,
      "balance_loss_mlp": 1.02436101,
      "epoch": 0.18589550892803464,
      "flos": 18474891137280.0,
      "grad_norm": 3.999328754838068,
      "language_loss": 0.80817765,
      "learning_rate": 3.7505679454456992e-06,
      "loss": 0.8307603,
      "num_input_tokens_seen": 32842125,
      "step": 1546,
      "time_per_iteration": 3.516531229019165
    },
    {
      "auxiliary_loss_clip": 0.01155578,
      "auxiliary_loss_mlp": 0.01038466,
      "balance_loss_clip": 1.04800379,
      "balance_loss_mlp": 1.02683163,
      "epoch": 0.18601575181867372,
      "flos": 23549966726400.0,
      "grad_norm": 3.8635568938014484,
      "language_loss": 0.70351171,
      "learning_rate": 3.750191094732564e-06,
      "loss": 0.72545213,
      "num_input_tokens_seen": 32862990,
      "step": 1547,
      "time_per_iteration": 2.9008848667144775
    },
    {
      "auxiliary_loss_clip": 0.0115438,
      "auxiliary_loss_mlp": 0.00889494,
      "balance_loss_clip": 1.04694569,
      "balance_loss_mlp": 1.00040102,
      "epoch": 0.1861359947093128,
      "flos": 26360192108160.0,
      "grad_norm": 1.7901027435730013,
      "language_loss": 0.75741524,
      "learning_rate": 3.7498139785168313e-06,
      "loss": 0.77785397,
      "num_input_tokens_seen": 32883595,
      "step": 1548,
      "time_per_iteration": 2.9018969535827637
    },
    {
      "auxiliary_loss_clip": 0.01210695,
      "auxiliary_loss_mlp": 0.01031534,
      "balance_loss_clip": 1.06035125,
      "balance_loss_mlp": 1.02058494,
      "epoch": 0.1862562375999519,
      "flos": 23331198942720.0,
      "grad_norm": 2.0417291961121307,
      "language_loss": 0.77306432,
      "learning_rate": 3.749436596855709e-06,
      "loss": 0.79548657,
      "num_input_tokens_seen": 32902895,
      "step": 1549,
      "time_per_iteration": 2.664379835128784
    },
    {
      "auxiliary_loss_clip": 0.01205268,
      "auxiliary_loss_mlp": 0.01039441,
      "balance_loss_clip": 1.05711269,
      "balance_loss_mlp": 1.02804506,
      "epoch": 0.186376480490591,
      "flos": 16648222942080.0,
      "grad_norm": 2.041036339396144,
      "language_loss": 0.9075411,
      "learning_rate": 3.749058949806446e-06,
      "loss": 0.92998821,
      "num_input_tokens_seen": 32919620,
      "step": 1550,
      "time_per_iteration": 2.6504294872283936
    },
    {
      "auxiliary_loss_clip": 0.01214262,
      "auxiliary_loss_mlp": 0.01031612,
      "balance_loss_clip": 1.05872083,
      "balance_loss_mlp": 1.01991129,
      "epoch": 0.18649672338123008,
      "flos": 21468656039040.0,
      "grad_norm": 1.6667805850090402,
      "language_loss": 0.84310228,
      "learning_rate": 3.748681037426331e-06,
      "loss": 0.86556107,
      "num_input_tokens_seen": 32938830,
      "step": 1551,
      "time_per_iteration": 2.718945026397705
    },
    {
      "auxiliary_loss_clip": 0.01223669,
      "auxiliary_loss_mlp": 0.01034593,
      "balance_loss_clip": 1.06170988,
      "balance_loss_mlp": 1.02393007,
      "epoch": 0.1866169662718692,
      "flos": 12312728386560.0,
      "grad_norm": 2.313683917809791,
      "language_loss": 0.91563189,
      "learning_rate": 3.7483028597726936e-06,
      "loss": 0.93821454,
      "num_input_tokens_seen": 32955600,
      "step": 1552,
      "time_per_iteration": 4.483723878860474
    },
    {
      "auxiliary_loss_clip": 0.01193879,
      "auxiliary_loss_mlp": 0.01039576,
      "balance_loss_clip": 1.05872238,
      "balance_loss_mlp": 1.02787519,
      "epoch": 0.18673720916250827,
      "flos": 23581280407680.0,
      "grad_norm": 2.091703556094885,
      "language_loss": 0.62513441,
      "learning_rate": 3.7479244169029017e-06,
      "loss": 0.64746898,
      "num_input_tokens_seen": 32975390,
      "step": 1553,
      "time_per_iteration": 2.763062000274658
    },
    {
      "auxiliary_loss_clip": 0.01213766,
      "auxiliary_loss_mlp": 0.01033029,
      "balance_loss_clip": 1.05629706,
      "balance_loss_mlp": 1.0220021,
      "epoch": 0.18685745205314735,
      "flos": 19718370115200.0,
      "grad_norm": 2.447387800447886,
      "language_loss": 0.7341966,
      "learning_rate": 3.7475457088743658e-06,
      "loss": 0.75666457,
      "num_input_tokens_seen": 32992640,
      "step": 1554,
      "time_per_iteration": 3.5134963989257812
    },
    {
      "auxiliary_loss_clip": 0.01192536,
      "auxiliary_loss_mlp": 0.01039641,
      "balance_loss_clip": 1.05928707,
      "balance_loss_mlp": 1.02840519,
      "epoch": 0.18697769494378644,
      "flos": 34204123589760.0,
      "grad_norm": 1.9936750187650292,
      "language_loss": 0.74695504,
      "learning_rate": 3.7471667357445348e-06,
      "loss": 0.7692768,
      "num_input_tokens_seen": 33012470,
      "step": 1555,
      "time_per_iteration": 2.7688119411468506
    },
    {
      "auxiliary_loss_clip": 0.01171263,
      "auxiliary_loss_mlp": 0.01035199,
      "balance_loss_clip": 1.05293083,
      "balance_loss_mlp": 1.02426124,
      "epoch": 0.18709793783442555,
      "flos": 34241327101440.0,
      "grad_norm": 2.287980858108566,
      "language_loss": 0.72216606,
      "learning_rate": 3.7467874975709e-06,
      "loss": 0.74423069,
      "num_input_tokens_seen": 33033275,
      "step": 1556,
      "time_per_iteration": 2.8604941368103027
    },
    {
      "auxiliary_loss_clip": 0.01219747,
      "auxiliary_loss_mlp": 0.01031095,
      "balance_loss_clip": 1.06328154,
      "balance_loss_mlp": 1.02058053,
      "epoch": 0.18721818072506463,
      "flos": 40734550529280.0,
      "grad_norm": 2.4216504547553246,
      "language_loss": 0.7841568,
      "learning_rate": 3.7464079944109904e-06,
      "loss": 0.80666524,
      "num_input_tokens_seen": 33055135,
      "step": 1557,
      "time_per_iteration": 2.84053635597229
    },
    {
      "auxiliary_loss_clip": 0.01190335,
      "auxiliary_loss_mlp": 0.01031514,
      "balance_loss_clip": 1.05217934,
      "balance_loss_mlp": 1.02094603,
      "epoch": 0.18733842361570371,
      "flos": 22157386392960.0,
      "grad_norm": 2.0459671973394444,
      "language_loss": 0.77861315,
      "learning_rate": 3.746028226322376e-06,
      "loss": 0.80083162,
      "num_input_tokens_seen": 33071015,
      "step": 1558,
      "time_per_iteration": 2.7132837772369385
    },
    {
      "auxiliary_loss_clip": 0.01198533,
      "auxiliary_loss_mlp": 0.0103777,
      "balance_loss_clip": 1.05664539,
      "balance_loss_mlp": 1.02712464,
      "epoch": 0.18745866650634282,
      "flos": 18914940656640.0,
      "grad_norm": 1.7743125325870757,
      "language_loss": 0.75883424,
      "learning_rate": 3.745648193362669e-06,
      "loss": 0.78119731,
      "num_input_tokens_seen": 33090370,
      "step": 1559,
      "time_per_iteration": 2.680774450302124
    },
    {
      "auxiliary_loss_clip": 0.01202305,
      "auxiliary_loss_mlp": 0.01042792,
      "balance_loss_clip": 1.05732226,
      "balance_loss_mlp": 1.03194451,
      "epoch": 0.1875789093969819,
      "flos": 19314626267520.0,
      "grad_norm": 2.2012417333779704,
      "language_loss": 0.72134137,
      "learning_rate": 3.745267895589518e-06,
      "loss": 0.74379236,
      "num_input_tokens_seen": 33108910,
      "step": 1560,
      "time_per_iteration": 2.6775736808776855
    },
    {
      "auxiliary_loss_clip": 0.01205566,
      "auxiliary_loss_mlp": 0.01036437,
      "balance_loss_clip": 1.06030846,
      "balance_loss_mlp": 1.0254283,
      "epoch": 0.187699152287621,
      "flos": 17018965169280.0,
      "grad_norm": 1.9615652380474518,
      "language_loss": 0.82060456,
      "learning_rate": 3.7448873330606154e-06,
      "loss": 0.84302455,
      "num_input_tokens_seen": 33126680,
      "step": 1561,
      "time_per_iteration": 2.6761598587036133
    },
    {
      "auxiliary_loss_clip": 0.01180961,
      "auxiliary_loss_mlp": 0.01039165,
      "balance_loss_clip": 1.05736768,
      "balance_loss_mlp": 1.02835321,
      "epoch": 0.18781939517826007,
      "flos": 22346384780160.0,
      "grad_norm": 2.147232486457114,
      "language_loss": 0.87048399,
      "learning_rate": 3.7445065058336914e-06,
      "loss": 0.89268529,
      "num_input_tokens_seen": 33145550,
      "step": 1562,
      "time_per_iteration": 2.7895805835723877
    },
    {
      "auxiliary_loss_clip": 0.01163778,
      "auxiliary_loss_mlp": 0.01032431,
      "balance_loss_clip": 1.04654598,
      "balance_loss_mlp": 1.02192831,
      "epoch": 0.18793963806889918,
      "flos": 14611478054400.0,
      "grad_norm": 1.9743255027128825,
      "language_loss": 0.86346292,
      "learning_rate": 3.7441254139665176e-06,
      "loss": 0.88542497,
      "num_input_tokens_seen": 33161735,
      "step": 1563,
      "time_per_iteration": 2.703092336654663
    },
    {
      "auxiliary_loss_clip": 0.01224443,
      "auxiliary_loss_mlp": 0.01035473,
      "balance_loss_clip": 1.06448364,
      "balance_loss_mlp": 1.02446973,
      "epoch": 0.18805988095953827,
      "flos": 17457075354240.0,
      "grad_norm": 1.7890445993407456,
      "language_loss": 0.82284856,
      "learning_rate": 3.743744057516905e-06,
      "loss": 0.84544772,
      "num_input_tokens_seen": 33179795,
      "step": 1564,
      "time_per_iteration": 2.630702018737793
    },
    {
      "auxiliary_loss_clip": 0.01179603,
      "auxiliary_loss_mlp": 0.01038033,
      "balance_loss_clip": 1.05425274,
      "balance_loss_mlp": 1.0271194,
      "epoch": 0.18818012385017735,
      "flos": 15043877976960.0,
      "grad_norm": 2.7983561509777393,
      "language_loss": 0.87884152,
      "learning_rate": 3.743362436542706e-06,
      "loss": 0.9010179,
      "num_input_tokens_seen": 33194485,
      "step": 1565,
      "time_per_iteration": 2.6935184001922607
    },
    {
      "auxiliary_loss_clip": 0.01221002,
      "auxiliary_loss_mlp": 0.01033526,
      "balance_loss_clip": 1.06076622,
      "balance_loss_mlp": 1.02319694,
      "epoch": 0.18830036674081646,
      "flos": 47551975136640.0,
      "grad_norm": 2.5300422249721075,
      "language_loss": 0.76457274,
      "learning_rate": 3.7429805511018115e-06,
      "loss": 0.78711802,
      "num_input_tokens_seen": 33216145,
      "step": 1566,
      "time_per_iteration": 2.841608762741089
    },
    {
      "auxiliary_loss_clip": 0.01190064,
      "auxiliary_loss_mlp": 0.00890168,
      "balance_loss_clip": 1.0598948,
      "balance_loss_mlp": 1.00038624,
      "epoch": 0.18842060963145554,
      "flos": 30044626698240.0,
      "grad_norm": 1.9189507487900832,
      "language_loss": 0.77839518,
      "learning_rate": 3.7425984012521524e-06,
      "loss": 0.79919744,
      "num_input_tokens_seen": 33236345,
      "step": 1567,
      "time_per_iteration": 2.7565040588378906
    },
    {
      "auxiliary_loss_clip": 0.01085865,
      "auxiliary_loss_mlp": 0.0087843,
      "balance_loss_clip": 1.01806712,
      "balance_loss_mlp": 1.00007427,
      "epoch": 0.18854085252209463,
      "flos": 70318372625280.0,
      "grad_norm": 0.7373326920040102,
      "language_loss": 0.60398579,
      "learning_rate": 3.7422159870517025e-06,
      "loss": 0.62362874,
      "num_input_tokens_seen": 33301600,
      "step": 1568,
      "time_per_iteration": 3.295595407485962
    },
    {
      "auxiliary_loss_clip": 0.01199283,
      "auxiliary_loss_mlp": 0.01038195,
      "balance_loss_clip": 1.05785024,
      "balance_loss_mlp": 1.02775776,
      "epoch": 0.1886610954127337,
      "flos": 21289318410240.0,
      "grad_norm": 2.6259500740304467,
      "language_loss": 0.78974181,
      "learning_rate": 3.7418333085584717e-06,
      "loss": 0.81211656,
      "num_input_tokens_seen": 33322785,
      "step": 1569,
      "time_per_iteration": 2.7419538497924805
    },
    {
      "auxiliary_loss_clip": 0.01195494,
      "auxiliary_loss_mlp": 0.01037895,
      "balance_loss_clip": 1.061167,
      "balance_loss_mlp": 1.02760768,
      "epoch": 0.18878133830337282,
      "flos": 17266819991040.0,
      "grad_norm": 2.8570748784184405,
      "language_loss": 0.91174817,
      "learning_rate": 3.7414503658305128e-06,
      "loss": 0.93408209,
      "num_input_tokens_seen": 33340020,
      "step": 1570,
      "time_per_iteration": 2.6998202800750732
    },
    {
      "auxiliary_loss_clip": 0.01186242,
      "auxiliary_loss_mlp": 0.01032529,
      "balance_loss_clip": 1.0524193,
      "balance_loss_mlp": 1.02136493,
      "epoch": 0.1889015811940119,
      "flos": 25775207210880.0,
      "grad_norm": 3.2347022772891787,
      "language_loss": 0.77483976,
      "learning_rate": 3.7410671589259185e-06,
      "loss": 0.79702753,
      "num_input_tokens_seen": 33358620,
      "step": 1571,
      "time_per_iteration": 3.678924322128296
    },
    {
      "auxiliary_loss_clip": 0.01227579,
      "auxiliary_loss_mlp": 0.01046197,
      "balance_loss_clip": 1.06603789,
      "balance_loss_mlp": 1.03518248,
      "epoch": 0.18902182408465099,
      "flos": 21032197879680.0,
      "grad_norm": 1.89098901445104,
      "language_loss": 0.7965945,
      "learning_rate": 3.7406836879028205e-06,
      "loss": 0.8193323,
      "num_input_tokens_seen": 33378845,
      "step": 1572,
      "time_per_iteration": 2.6342179775238037
    },
    {
      "auxiliary_loss_clip": 0.01210502,
      "auxiliary_loss_mlp": 0.01033578,
      "balance_loss_clip": 1.06128931,
      "balance_loss_mlp": 1.02328372,
      "epoch": 0.1891420669752901,
      "flos": 22272121411200.0,
      "grad_norm": 2.169866854881653,
      "language_loss": 0.76915699,
      "learning_rate": 3.7402999528193907e-06,
      "loss": 0.79159784,
      "num_input_tokens_seen": 33398345,
      "step": 1573,
      "time_per_iteration": 2.7471964359283447
    },
    {
      "auxiliary_loss_clip": 0.01177353,
      "auxiliary_loss_mlp": 0.00889732,
      "balance_loss_clip": 1.05573821,
      "balance_loss_mlp": 1.00053382,
      "epoch": 0.18926230986592918,
      "flos": 22017802141440.0,
      "grad_norm": 3.9383391338484515,
      "language_loss": 0.85817343,
      "learning_rate": 3.739915953733842e-06,
      "loss": 0.87884426,
      "num_input_tokens_seen": 33416390,
      "step": 1574,
      "time_per_iteration": 2.713268756866455
    },
    {
      "auxiliary_loss_clip": 0.01221734,
      "auxiliary_loss_mlp": 0.01035783,
      "balance_loss_clip": 1.06097066,
      "balance_loss_mlp": 1.02527499,
      "epoch": 0.18938255275656826,
      "flos": 24462672336000.0,
      "grad_norm": 5.269550363736561,
      "language_loss": 0.81780231,
      "learning_rate": 3.7395316907044264e-06,
      "loss": 0.84037745,
      "num_input_tokens_seen": 33437175,
      "step": 1575,
      "time_per_iteration": 2.6456503868103027
    },
    {
      "auxiliary_loss_clip": 0.01208643,
      "auxiliary_loss_mlp": 0.01040646,
      "balance_loss_clip": 1.05720317,
      "balance_loss_mlp": 1.0301193,
      "epoch": 0.18950279564720737,
      "flos": 24427049022720.0,
      "grad_norm": 2.0379809406239957,
      "language_loss": 0.79466808,
      "learning_rate": 3.7391471637894364e-06,
      "loss": 0.81716096,
      "num_input_tokens_seen": 33459440,
      "step": 1576,
      "time_per_iteration": 2.6939496994018555
    },
    {
      "auxiliary_loss_clip": 0.01191842,
      "auxiliary_loss_mlp": 0.0103467,
      "balance_loss_clip": 1.05286384,
      "balance_loss_mlp": 1.02379835,
      "epoch": 0.18962303853784646,
      "flos": 19756291898880.0,
      "grad_norm": 2.156380944111252,
      "language_loss": 0.85324472,
      "learning_rate": 3.738762373047205e-06,
      "loss": 0.87550986,
      "num_input_tokens_seen": 33479360,
      "step": 1577,
      "time_per_iteration": 3.7122628688812256
    },
    {
      "auxiliary_loss_clip": 0.01192926,
      "auxiliary_loss_mlp": 0.01028934,
      "balance_loss_clip": 1.05769229,
      "balance_loss_mlp": 1.01857519,
      "epoch": 0.18974328142848554,
      "flos": 21032054225280.0,
      "grad_norm": 1.634063349436587,
      "language_loss": 0.83689249,
      "learning_rate": 3.738377318536103e-06,
      "loss": 0.85911113,
      "num_input_tokens_seen": 33499245,
      "step": 1578,
      "time_per_iteration": 3.7389934062957764
    },
    {
      "auxiliary_loss_clip": 0.01221842,
      "auxiliary_loss_mlp": 0.0103524,
      "balance_loss_clip": 1.06464243,
      "balance_loss_mlp": 1.02574468,
      "epoch": 0.18986352431912462,
      "flos": 12966122736000.0,
      "grad_norm": 2.2233479457504495,
      "language_loss": 0.71151477,
      "learning_rate": 3.7379920003145447e-06,
      "loss": 0.73408556,
      "num_input_tokens_seen": 33513520,
      "step": 1579,
      "time_per_iteration": 2.6170437335968018
    },
    {
      "auxiliary_loss_clip": 0.01198281,
      "auxiliary_loss_mlp": 0.01042081,
      "balance_loss_clip": 1.05913341,
      "balance_loss_mlp": 1.03181148,
      "epoch": 0.18998376720976373,
      "flos": 23767908497280.0,
      "grad_norm": 1.7839438001550887,
      "language_loss": 0.83605158,
      "learning_rate": 3.7376064184409817e-06,
      "loss": 0.85845524,
      "num_input_tokens_seen": 33533100,
      "step": 1580,
      "time_per_iteration": 3.6744978427886963
    },
    {
      "auxiliary_loss_clip": 0.01201717,
      "auxiliary_loss_mlp": 0.01039624,
      "balance_loss_clip": 1.05952406,
      "balance_loss_mlp": 1.02972984,
      "epoch": 0.19010401010040281,
      "flos": 22966023323520.0,
      "grad_norm": 1.5789925666382854,
      "language_loss": 0.86958438,
      "learning_rate": 3.7372205729739063e-06,
      "loss": 0.89199781,
      "num_input_tokens_seen": 33554915,
      "step": 1581,
      "time_per_iteration": 2.7106194496154785
    },
    {
      "auxiliary_loss_clip": 0.01212875,
      "auxiliary_loss_mlp": 0.01043699,
      "balance_loss_clip": 1.05839193,
      "balance_loss_mlp": 1.03291035,
      "epoch": 0.1902242529910419,
      "flos": 19135647774720.0,
      "grad_norm": 2.4803540415224137,
      "language_loss": 0.71823764,
      "learning_rate": 3.7368344639718514e-06,
      "loss": 0.74080336,
      "num_input_tokens_seen": 33572850,
      "step": 1582,
      "time_per_iteration": 2.7473363876342773
    },
    {
      "auxiliary_loss_clip": 0.01216754,
      "auxiliary_loss_mlp": 0.01038877,
      "balance_loss_clip": 1.06154871,
      "balance_loss_mlp": 1.02883387,
      "epoch": 0.190344495881681,
      "flos": 25483935824640.0,
      "grad_norm": 1.8688593058820053,
      "language_loss": 0.80353767,
      "learning_rate": 3.7364480914933895e-06,
      "loss": 0.82609397,
      "num_input_tokens_seen": 33593090,
      "step": 1583,
      "time_per_iteration": 2.793715476989746
    },
    {
      "auxiliary_loss_clip": 0.01175349,
      "auxiliary_loss_mlp": 0.0088902,
      "balance_loss_clip": 1.05630469,
      "balance_loss_mlp": 1.00052619,
      "epoch": 0.1904647387723201,
      "flos": 26792843425920.0,
      "grad_norm": 1.9313186792653503,
      "language_loss": 0.81348866,
      "learning_rate": 3.7360614555971325e-06,
      "loss": 0.83413243,
      "num_input_tokens_seen": 33612745,
      "step": 1584,
      "time_per_iteration": 2.803335428237915
    },
    {
      "auxiliary_loss_clip": 0.01212995,
      "auxiliary_loss_mlp": 0.00888782,
      "balance_loss_clip": 1.06161404,
      "balance_loss_mlp": 1.00046182,
      "epoch": 0.19058498166295917,
      "flos": 23987753688960.0,
      "grad_norm": 1.910864307771989,
      "language_loss": 0.8467328,
      "learning_rate": 3.735674556341733e-06,
      "loss": 0.86775053,
      "num_input_tokens_seen": 33632360,
      "step": 1585,
      "time_per_iteration": 2.713050365447998
    },
    {
      "auxiliary_loss_clip": 0.01199433,
      "auxiliary_loss_mlp": 0.01035528,
      "balance_loss_clip": 1.06136036,
      "balance_loss_mlp": 1.02496576,
      "epoch": 0.19070522455359826,
      "flos": 28293299280000.0,
      "grad_norm": 2.184525667467059,
      "language_loss": 0.82803416,
      "learning_rate": 3.7352873937858835e-06,
      "loss": 0.8503837,
      "num_input_tokens_seen": 33653895,
      "step": 1586,
      "time_per_iteration": 2.770969867706299
    },
    {
      "auxiliary_loss_clip": 0.01183866,
      "auxiliary_loss_mlp": 0.00888933,
      "balance_loss_clip": 1.05455661,
      "balance_loss_mlp": 1.0004276,
      "epoch": 0.19082546744423737,
      "flos": 25660220797440.0,
      "grad_norm": 2.3918538156114386,
      "language_loss": 0.71580189,
      "learning_rate": 3.734899967988316e-06,
      "loss": 0.73652995,
      "num_input_tokens_seen": 33672075,
      "step": 1587,
      "time_per_iteration": 2.7599191665649414
    },
    {
      "auxiliary_loss_clip": 0.01181365,
      "auxiliary_loss_mlp": 0.01033784,
      "balance_loss_clip": 1.05366707,
      "balance_loss_mlp": 1.02371144,
      "epoch": 0.19094571033487645,
      "flos": 19719483436800.0,
      "grad_norm": 2.562324579308926,
      "language_loss": 0.83843005,
      "learning_rate": 3.7345122790078026e-06,
      "loss": 0.86058158,
      "num_input_tokens_seen": 33689640,
      "step": 1588,
      "time_per_iteration": 2.740077257156372
    },
    {
      "auxiliary_loss_clip": 0.0120823,
      "auxiliary_loss_mlp": 0.0103922,
      "balance_loss_clip": 1.05907214,
      "balance_loss_mlp": 1.02883077,
      "epoch": 0.19106595322551553,
      "flos": 21616320850560.0,
      "grad_norm": 4.4794919112301645,
      "language_loss": 0.92986101,
      "learning_rate": 3.7341243269031556e-06,
      "loss": 0.95233548,
      "num_input_tokens_seen": 33708630,
      "step": 1589,
      "time_per_iteration": 2.684556484222412
    },
    {
      "auxiliary_loss_clip": 0.01197208,
      "auxiliary_loss_mlp": 0.01036301,
      "balance_loss_clip": 1.0604434,
      "balance_loss_mlp": 1.02668691,
      "epoch": 0.19118619611615464,
      "flos": 29896890059520.0,
      "grad_norm": 1.6612573374629283,
      "language_loss": 0.77520955,
      "learning_rate": 3.7337361117332275e-06,
      "loss": 0.7975446,
      "num_input_tokens_seen": 33730370,
      "step": 1590,
      "time_per_iteration": 2.7414731979370117
    },
    {
      "auxiliary_loss_clip": 0.01195387,
      "auxiliary_loss_mlp": 0.01031577,
      "balance_loss_clip": 1.05670786,
      "balance_loss_mlp": 1.02154553,
      "epoch": 0.19130643900679373,
      "flos": 17273428093440.0,
      "grad_norm": 1.9035403089526344,
      "language_loss": 0.77173674,
      "learning_rate": 3.7333476335569087e-06,
      "loss": 0.79400635,
      "num_input_tokens_seen": 33748370,
      "step": 1591,
      "time_per_iteration": 2.708261013031006
    },
    {
      "auxiliary_loss_clip": 0.01200871,
      "auxiliary_loss_mlp": 0.01039725,
      "balance_loss_clip": 1.05866694,
      "balance_loss_mlp": 1.02879977,
      "epoch": 0.1914266818974328,
      "flos": 24826339584000.0,
      "grad_norm": 3.2808596296474453,
      "language_loss": 0.67349774,
      "learning_rate": 3.7329588924331325e-06,
      "loss": 0.69590366,
      "num_input_tokens_seen": 33769575,
      "step": 1592,
      "time_per_iteration": 2.7610654830932617
    },
    {
      "auxiliary_loss_clip": 0.01182089,
      "auxiliary_loss_mlp": 0.01040181,
      "balance_loss_clip": 1.0537467,
      "balance_loss_mlp": 1.03003025,
      "epoch": 0.1915469247880719,
      "flos": 18952467390720.0,
      "grad_norm": 2.640952198120566,
      "language_loss": 0.82641804,
      "learning_rate": 3.732569888420871e-06,
      "loss": 0.8486408,
      "num_input_tokens_seen": 33789110,
      "step": 1593,
      "time_per_iteration": 2.7472100257873535
    },
    {
      "auxiliary_loss_clip": 0.01220573,
      "auxiliary_loss_mlp": 0.01033168,
      "balance_loss_clip": 1.06050456,
      "balance_loss_mlp": 1.02283251,
      "epoch": 0.191667167678711,
      "flos": 21032952065280.0,
      "grad_norm": 2.217839495814964,
      "language_loss": 0.82433522,
      "learning_rate": 3.732180621579134e-06,
      "loss": 0.84687269,
      "num_input_tokens_seen": 33808325,
      "step": 1594,
      "time_per_iteration": 2.770916700363159
    },
    {
      "auxiliary_loss_clip": 0.01201725,
      "auxiliary_loss_mlp": 0.01035176,
      "balance_loss_clip": 1.06024599,
      "balance_loss_mlp": 1.02452421,
      "epoch": 0.1917874105693501,
      "flos": 34237663914240.0,
      "grad_norm": 8.937403054738937,
      "language_loss": 0.81143332,
      "learning_rate": 3.7317910919669745e-06,
      "loss": 0.83380228,
      "num_input_tokens_seen": 33829520,
      "step": 1595,
      "time_per_iteration": 2.865173101425171
    },
    {
      "auxiliary_loss_clip": 0.01211543,
      "auxiliary_loss_mlp": 0.01043179,
      "balance_loss_clip": 1.06179929,
      "balance_loss_mlp": 1.03239107,
      "epoch": 0.19190765345998917,
      "flos": 23550613171200.0,
      "grad_norm": 4.561832547499321,
      "language_loss": 0.76071,
      "learning_rate": 3.7314012996434826e-06,
      "loss": 0.78325725,
      "num_input_tokens_seen": 33848250,
      "step": 1596,
      "time_per_iteration": 2.746995449066162
    },
    {
      "auxiliary_loss_clip": 0.01205948,
      "auxiliary_loss_mlp": 0.01038026,
      "balance_loss_clip": 1.06325328,
      "balance_loss_mlp": 1.02736878,
      "epoch": 0.19202789635062828,
      "flos": 19861330245120.0,
      "grad_norm": 2.0170672144450945,
      "language_loss": 0.81132674,
      "learning_rate": 3.7310112446677907e-06,
      "loss": 0.83376652,
      "num_input_tokens_seen": 33866160,
      "step": 1597,
      "time_per_iteration": 2.686790943145752
    },
    {
      "auxiliary_loss_clip": 0.01223094,
      "auxiliary_loss_mlp": 0.0103557,
      "balance_loss_clip": 1.06340706,
      "balance_loss_mlp": 1.02491844,
      "epoch": 0.19214813924126736,
      "flos": 20922957642240.0,
      "grad_norm": 2.4500904584692624,
      "language_loss": 0.68707073,
      "learning_rate": 3.7306209270990695e-06,
      "loss": 0.70965731,
      "num_input_tokens_seen": 33884165,
      "step": 1598,
      "time_per_iteration": 3.498748779296875
    },
    {
      "auxiliary_loss_clip": 0.01203803,
      "auxiliary_loss_mlp": 0.01029664,
      "balance_loss_clip": 1.05992973,
      "balance_loss_mlp": 1.02012694,
      "epoch": 0.19226838213190645,
      "flos": 26359725231360.0,
      "grad_norm": 2.9380456568002713,
      "language_loss": 0.86586845,
      "learning_rate": 3.7302303469965292e-06,
      "loss": 0.88820314,
      "num_input_tokens_seen": 33903705,
      "step": 1599,
      "time_per_iteration": 2.7253222465515137
    },
    {
      "auxiliary_loss_clip": 0.01212879,
      "auxiliary_loss_mlp": 0.01034828,
      "balance_loss_clip": 1.06388903,
      "balance_loss_mlp": 1.02399158,
      "epoch": 0.19238862502254553,
      "flos": 20850525866880.0,
      "grad_norm": 2.6511805965130217,
      "language_loss": 0.70756757,
      "learning_rate": 3.7298395044194206e-06,
      "loss": 0.7300446,
      "num_input_tokens_seen": 33922515,
      "step": 1600,
      "time_per_iteration": 2.6842751502990723
    },
    {
      "auxiliary_loss_clip": 0.01225036,
      "auxiliary_loss_mlp": 0.01039125,
      "balance_loss_clip": 1.06663775,
      "balance_loss_mlp": 1.02867687,
      "epoch": 0.19250886791318464,
      "flos": 21726063878400.0,
      "grad_norm": 1.9052507684506044,
      "language_loss": 0.94323206,
      "learning_rate": 3.7294483994270356e-06,
      "loss": 0.9658736,
      "num_input_tokens_seen": 33940840,
      "step": 1601,
      "time_per_iteration": 2.6275317668914795
    },
    {
      "auxiliary_loss_clip": 0.01168498,
      "auxiliary_loss_mlp": 0.01042658,
      "balance_loss_clip": 1.05412781,
      "balance_loss_mlp": 1.0329901,
      "epoch": 0.19262911080382372,
      "flos": 23367827836800.0,
      "grad_norm": 2.2370329438468586,
      "language_loss": 0.77946413,
      "learning_rate": 3.7290570320787033e-06,
      "loss": 0.80157566,
      "num_input_tokens_seen": 33960420,
      "step": 1602,
      "time_per_iteration": 2.7768187522888184
    },
    {
      "auxiliary_loss_clip": 0.01209664,
      "auxiliary_loss_mlp": 0.01037534,
      "balance_loss_clip": 1.06024337,
      "balance_loss_mlp": 1.02756834,
      "epoch": 0.1927493536944628,
      "flos": 21943502858880.0,
      "grad_norm": 2.5685085478742837,
      "language_loss": 0.7145437,
      "learning_rate": 3.728665402433793e-06,
      "loss": 0.73701566,
      "num_input_tokens_seen": 33978990,
      "step": 1603,
      "time_per_iteration": 3.576793670654297
    },
    {
      "auxiliary_loss_clip": 0.01198985,
      "auxiliary_loss_mlp": 0.01034463,
      "balance_loss_clip": 1.05920184,
      "balance_loss_mlp": 1.02472937,
      "epoch": 0.19286959658510192,
      "flos": 16545590807040.0,
      "grad_norm": 2.3889071818231047,
      "language_loss": 0.8658669,
      "learning_rate": 3.7282735105517164e-06,
      "loss": 0.88820142,
      "num_input_tokens_seen": 33997115,
      "step": 1604,
      "time_per_iteration": 3.5609207153320312
    },
    {
      "auxiliary_loss_clip": 0.01190782,
      "auxiliary_loss_mlp": 0.01035547,
      "balance_loss_clip": 1.05669904,
      "balance_loss_mlp": 1.02473497,
      "epoch": 0.192989839475741,
      "flos": 21616967295360.0,
      "grad_norm": 2.0216091492480732,
      "language_loss": 0.67357516,
      "learning_rate": 3.727881356491922e-06,
      "loss": 0.69583845,
      "num_input_tokens_seen": 34015525,
      "step": 1605,
      "time_per_iteration": 3.020556926727295
    },
    {
      "auxiliary_loss_clip": 0.01223389,
      "auxiliary_loss_mlp": 0.01035025,
      "balance_loss_clip": 1.06598759,
      "balance_loss_mlp": 1.02523232,
      "epoch": 0.19311008236638008,
      "flos": 19281516906240.0,
      "grad_norm": 1.943104219364726,
      "language_loss": 0.75647461,
      "learning_rate": 3.7274889403139002e-06,
      "loss": 0.77905869,
      "num_input_tokens_seen": 34033150,
      "step": 1606,
      "time_per_iteration": 3.6319847106933594
    },
    {
      "auxiliary_loss_clip": 0.01174275,
      "auxiliary_loss_mlp": 0.01028978,
      "balance_loss_clip": 1.05807245,
      "balance_loss_mlp": 1.01906621,
      "epoch": 0.1932303252570192,
      "flos": 28652369587200.0,
      "grad_norm": 2.534101503935242,
      "language_loss": 0.78170943,
      "learning_rate": 3.727096262077179e-06,
      "loss": 0.80374193,
      "num_input_tokens_seen": 34052145,
      "step": 1607,
      "time_per_iteration": 2.803196907043457
    },
    {
      "auxiliary_loss_clip": 0.01211688,
      "auxiliary_loss_mlp": 0.01031736,
      "balance_loss_clip": 1.06125522,
      "balance_loss_mlp": 1.02167439,
      "epoch": 0.19335056814765827,
      "flos": 18368990864640.0,
      "grad_norm": 1.8440758832708624,
      "language_loss": 0.85259181,
      "learning_rate": 3.7267033218413285e-06,
      "loss": 0.87502605,
      "num_input_tokens_seen": 34069940,
      "step": 1608,
      "time_per_iteration": 2.6439614295959473
    },
    {
      "auxiliary_loss_clip": 0.01170464,
      "auxiliary_loss_mlp": 0.01033107,
      "balance_loss_clip": 1.05016398,
      "balance_loss_mlp": 1.02258706,
      "epoch": 0.19347081103829736,
      "flos": 13260877741440.0,
      "grad_norm": 2.3339714741663875,
      "language_loss": 0.80866265,
      "learning_rate": 3.726310119665957e-06,
      "loss": 0.83069837,
      "num_input_tokens_seen": 34086275,
      "step": 1609,
      "time_per_iteration": 2.7622201442718506
    },
    {
      "auxiliary_loss_clip": 0.0121298,
      "auxiliary_loss_mlp": 0.01038629,
      "balance_loss_clip": 1.06178141,
      "balance_loss_mlp": 1.02854967,
      "epoch": 0.19359105392893644,
      "flos": 20300122788480.0,
      "grad_norm": 2.2565197664697187,
      "language_loss": 0.85439038,
      "learning_rate": 3.725916655610713e-06,
      "loss": 0.87690645,
      "num_input_tokens_seen": 34105605,
      "step": 1610,
      "time_per_iteration": 2.6532785892486572
    },
    {
      "auxiliary_loss_clip": 0.01191402,
      "auxiliary_loss_mlp": 0.01037357,
      "balance_loss_clip": 1.05695605,
      "balance_loss_mlp": 1.02681327,
      "epoch": 0.19371129681957555,
      "flos": 20484596062080.0,
      "grad_norm": 4.50503473494928,
      "language_loss": 0.75331318,
      "learning_rate": 3.725522929735284e-06,
      "loss": 0.77560073,
      "num_input_tokens_seen": 34122540,
      "step": 1611,
      "time_per_iteration": 2.6795308589935303
    },
    {
      "auxiliary_loss_clip": 0.01205284,
      "auxiliary_loss_mlp": 0.01033218,
      "balance_loss_clip": 1.05686593,
      "balance_loss_mlp": 1.02321625,
      "epoch": 0.19383153971021463,
      "flos": 30445497457920.0,
      "grad_norm": 2.393686900528934,
      "language_loss": 0.74350244,
      "learning_rate": 3.725128942099399e-06,
      "loss": 0.76588738,
      "num_input_tokens_seen": 34142940,
      "step": 1612,
      "time_per_iteration": 2.730778694152832
    },
    {
      "auxiliary_loss_clip": 0.01188818,
      "auxiliary_loss_mlp": 0.01033481,
      "balance_loss_clip": 1.05266213,
      "balance_loss_mlp": 1.02328873,
      "epoch": 0.19395178260085372,
      "flos": 24569937325440.0,
      "grad_norm": 1.672094125126729,
      "language_loss": 0.79866493,
      "learning_rate": 3.7247346927628245e-06,
      "loss": 0.82088792,
      "num_input_tokens_seen": 34162875,
      "step": 1613,
      "time_per_iteration": 2.7203280925750732
    },
    {
      "auxiliary_loss_clip": 0.01199095,
      "auxiliary_loss_mlp": 0.00890041,
      "balance_loss_clip": 1.05855,
      "balance_loss_mlp": 1.0005101,
      "epoch": 0.19407202549149283,
      "flos": 28950608211840.0,
      "grad_norm": 1.670041567253985,
      "language_loss": 0.79357219,
      "learning_rate": 3.7243401817853694e-06,
      "loss": 0.81446362,
      "num_input_tokens_seen": 34183565,
      "step": 1614,
      "time_per_iteration": 2.76969838142395
    },
    {
      "auxiliary_loss_clip": 0.01200842,
      "auxiliary_loss_mlp": 0.01035139,
      "balance_loss_clip": 1.05726397,
      "balance_loss_mlp": 1.02541792,
      "epoch": 0.1941922683821319,
      "flos": 18004497603840.0,
      "grad_norm": 2.383989988361041,
      "language_loss": 0.72108185,
      "learning_rate": 3.723945409226879e-06,
      "loss": 0.7434417,
      "num_input_tokens_seen": 34202055,
      "step": 1615,
      "time_per_iteration": 2.632314682006836
    },
    {
      "auxiliary_loss_clip": 0.01208713,
      "auxiliary_loss_mlp": 0.01034949,
      "balance_loss_clip": 1.05601525,
      "balance_loss_mlp": 1.02500725,
      "epoch": 0.194312511272771,
      "flos": 9720337034880.0,
      "grad_norm": 4.478153289745339,
      "language_loss": 0.79827577,
      "learning_rate": 3.723550375147241e-06,
      "loss": 0.82071239,
      "num_input_tokens_seen": 34216830,
      "step": 1616,
      "time_per_iteration": 2.708157539367676
    },
    {
      "auxiliary_loss_clip": 0.01175803,
      "auxiliary_loss_mlp": 0.0103581,
      "balance_loss_clip": 1.05094886,
      "balance_loss_mlp": 1.02552843,
      "epoch": 0.19443275416341008,
      "flos": 27016208150400.0,
      "grad_norm": 2.081633935743962,
      "language_loss": 0.80509949,
      "learning_rate": 3.7231550796063816e-06,
      "loss": 0.82721567,
      "num_input_tokens_seen": 34236840,
      "step": 1617,
      "time_per_iteration": 2.779474973678589
    },
    {
      "auxiliary_loss_clip": 0.01208337,
      "auxiliary_loss_mlp": 0.01039052,
      "balance_loss_clip": 1.05973828,
      "balance_loss_mlp": 1.02902067,
      "epoch": 0.1945529970540492,
      "flos": 15846625077120.0,
      "grad_norm": 2.111638186533446,
      "language_loss": 0.64925766,
      "learning_rate": 3.722759522664266e-06,
      "loss": 0.67173153,
      "num_input_tokens_seen": 34254140,
      "step": 1618,
      "time_per_iteration": 2.702153205871582
    },
    {
      "auxiliary_loss_clip": 0.01178712,
      "auxiliary_loss_mlp": 0.01034917,
      "balance_loss_clip": 1.05309343,
      "balance_loss_mlp": 1.02442634,
      "epoch": 0.19467323994468827,
      "flos": 19314985403520.0,
      "grad_norm": 1.8269590908064057,
      "language_loss": 0.81867898,
      "learning_rate": 3.7223637043809016e-06,
      "loss": 0.84081525,
      "num_input_tokens_seen": 34273120,
      "step": 1619,
      "time_per_iteration": 2.7616055011749268
    },
    {
      "auxiliary_loss_clip": 0.01195275,
      "auxiliary_loss_mlp": 0.01031546,
      "balance_loss_clip": 1.05864024,
      "balance_loss_mlp": 1.0207938,
      "epoch": 0.19479348283532735,
      "flos": 24133227770880.0,
      "grad_norm": 3.8536728533721476,
      "language_loss": 0.86553967,
      "learning_rate": 3.7219676248163322e-06,
      "loss": 0.88780791,
      "num_input_tokens_seen": 34290285,
      "step": 1620,
      "time_per_iteration": 2.7421557903289795
    },
    {
      "auxiliary_loss_clip": 0.01214603,
      "auxiliary_loss_mlp": 0.01037644,
      "balance_loss_clip": 1.06076956,
      "balance_loss_mlp": 1.02747512,
      "epoch": 0.19491372572596646,
      "flos": 25775638174080.0,
      "grad_norm": 1.930091044131461,
      "language_loss": 0.93339896,
      "learning_rate": 3.721571284030643e-06,
      "loss": 0.95592141,
      "num_input_tokens_seen": 34310095,
      "step": 1621,
      "time_per_iteration": 2.6859657764434814
    },
    {
      "auxiliary_loss_clip": 0.0121149,
      "auxiliary_loss_mlp": 0.01031349,
      "balance_loss_clip": 1.05797803,
      "balance_loss_mlp": 1.02171087,
      "epoch": 0.19503396861660555,
      "flos": 19645220067840.0,
      "grad_norm": 2.345633635909642,
      "language_loss": 0.79149318,
      "learning_rate": 3.7211746820839587e-06,
      "loss": 0.81392157,
      "num_input_tokens_seen": 34327190,
      "step": 1622,
      "time_per_iteration": 2.6737682819366455
    },
    {
      "auxiliary_loss_clip": 0.01140124,
      "auxiliary_loss_mlp": 0.01034683,
      "balance_loss_clip": 1.04748952,
      "balance_loss_mlp": 1.02413321,
      "epoch": 0.19515421150724463,
      "flos": 21033023892480.0,
      "grad_norm": 1.6953328863149324,
      "language_loss": 0.80558765,
      "learning_rate": 3.7207778190364437e-06,
      "loss": 0.82733572,
      "num_input_tokens_seen": 34345615,
      "step": 1623,
      "time_per_iteration": 3.726992607116699
    },
    {
      "auxiliary_loss_clip": 0.01151459,
      "auxiliary_loss_mlp": 0.01037567,
      "balance_loss_clip": 1.05045509,
      "balance_loss_mlp": 1.02738094,
      "epoch": 0.1952744543978837,
      "flos": 32961255143040.0,
      "grad_norm": 1.744706704298856,
      "language_loss": 0.73865652,
      "learning_rate": 3.720380694948302e-06,
      "loss": 0.7605468,
      "num_input_tokens_seen": 34368500,
      "step": 1624,
      "time_per_iteration": 2.884248971939087
    },
    {
      "auxiliary_loss_clip": 0.01095867,
      "auxiliary_loss_mlp": 0.01009952,
      "balance_loss_clip": 1.02784538,
      "balance_loss_mlp": 1.00606585,
      "epoch": 0.19539469728852282,
      "flos": 64044312030720.0,
      "grad_norm": 1.0460197810632945,
      "language_loss": 0.7126869,
      "learning_rate": 3.719983309879777e-06,
      "loss": 0.7337451,
      "num_input_tokens_seen": 34428280,
      "step": 1625,
      "time_per_iteration": 3.2984910011291504
    },
    {
      "auxiliary_loss_clip": 0.01176376,
      "auxiliary_loss_mlp": 0.01031211,
      "balance_loss_clip": 1.05145025,
      "balance_loss_mlp": 1.02066696,
      "epoch": 0.1955149401791619,
      "flos": 13370908078080.0,
      "grad_norm": 1.8185340889517587,
      "language_loss": 0.77318609,
      "learning_rate": 3.719585663891151e-06,
      "loss": 0.79526198,
      "num_input_tokens_seen": 34445815,
      "step": 1626,
      "time_per_iteration": 2.731877565383911
    },
    {
      "auxiliary_loss_clip": 0.01172633,
      "auxiliary_loss_mlp": 0.01038379,
      "balance_loss_clip": 1.05373454,
      "balance_loss_mlp": 1.02770936,
      "epoch": 0.195635183069801,
      "flos": 18728887184640.0,
      "grad_norm": 2.227757931800963,
      "language_loss": 0.7898739,
      "learning_rate": 3.719187757042747e-06,
      "loss": 0.81198394,
      "num_input_tokens_seen": 34463635,
      "step": 1627,
      "time_per_iteration": 2.793135643005371
    },
    {
      "auxiliary_loss_clip": 0.01103275,
      "auxiliary_loss_mlp": 0.01005521,
      "balance_loss_clip": 1.02937818,
      "balance_loss_mlp": 1.00192118,
      "epoch": 0.1957554259604401,
      "flos": 69313952615040.0,
      "grad_norm": 0.7222540682949691,
      "language_loss": 0.54939032,
      "learning_rate": 3.7187895893949275e-06,
      "loss": 0.57047832,
      "num_input_tokens_seen": 34530105,
      "step": 1628,
      "time_per_iteration": 3.3560051918029785
    },
    {
      "auxiliary_loss_clip": 0.01163059,
      "auxiliary_loss_mlp": 0.01041398,
      "balance_loss_clip": 1.04819822,
      "balance_loss_mlp": 1.03099108,
      "epoch": 0.19587566885107918,
      "flos": 21069257736960.0,
      "grad_norm": 3.1494118002499767,
      "language_loss": 0.76601398,
      "learning_rate": 3.7183911610080937e-06,
      "loss": 0.78805852,
      "num_input_tokens_seen": 34546970,
      "step": 1629,
      "time_per_iteration": 2.7531347274780273
    },
    {
      "auxiliary_loss_clip": 0.01188883,
      "auxiliary_loss_mlp": 0.01036355,
      "balance_loss_clip": 1.05368412,
      "balance_loss_mlp": 1.02576923,
      "epoch": 0.19599591174171827,
      "flos": 22194661731840.0,
      "grad_norm": 3.510169208929483,
      "language_loss": 0.74863112,
      "learning_rate": 3.7179924719426872e-06,
      "loss": 0.77088344,
      "num_input_tokens_seen": 34564865,
      "step": 1630,
      "time_per_iteration": 4.625540733337402
    },
    {
      "auxiliary_loss_clip": 0.01214095,
      "auxiliary_loss_mlp": 0.0103962,
      "balance_loss_clip": 1.06184828,
      "balance_loss_mlp": 1.02905178,
      "epoch": 0.19611615463235738,
      "flos": 23768375374080.0,
      "grad_norm": 2.480768789251094,
      "language_loss": 0.76126623,
      "learning_rate": 3.7175935222591885e-06,
      "loss": 0.7838034,
      "num_input_tokens_seen": 34584165,
      "step": 1631,
      "time_per_iteration": 2.709197998046875
    },
    {
      "auxiliary_loss_clip": 0.01204482,
      "auxiliary_loss_mlp": 0.01038781,
      "balance_loss_clip": 1.06443739,
      "balance_loss_mlp": 1.02782011,
      "epoch": 0.19623639752299646,
      "flos": 28618218731520.0,
      "grad_norm": 2.0656579057120177,
      "language_loss": 0.74349821,
      "learning_rate": 3.717194312018118e-06,
      "loss": 0.76593089,
      "num_input_tokens_seen": 34603150,
      "step": 1632,
      "time_per_iteration": 3.755117416381836
    },
    {
      "auxiliary_loss_clip": 0.01212511,
      "auxiliary_loss_mlp": 0.0103285,
      "balance_loss_clip": 1.05952561,
      "balance_loss_mlp": 1.02195394,
      "epoch": 0.19635664041363554,
      "flos": 21032700670080.0,
      "grad_norm": 2.335130813889536,
      "language_loss": 0.76299381,
      "learning_rate": 3.716794841280036e-06,
      "loss": 0.78544736,
      "num_input_tokens_seen": 34621855,
      "step": 1633,
      "time_per_iteration": 2.6739320755004883
    },
    {
      "auxiliary_loss_clip": 0.01214924,
      "auxiliary_loss_mlp": 0.01032678,
      "balance_loss_clip": 1.05922318,
      "balance_loss_mlp": 1.02214587,
      "epoch": 0.19647688330427462,
      "flos": 18879748306560.0,
      "grad_norm": 2.665335167685468,
      "language_loss": 0.78108382,
      "learning_rate": 3.7163951101055407e-06,
      "loss": 0.8035599,
      "num_input_tokens_seen": 34639915,
      "step": 1634,
      "time_per_iteration": 2.6670608520507812
    },
    {
      "auxiliary_loss_clip": 0.01194864,
      "auxiliary_loss_mlp": 0.01043607,
      "balance_loss_clip": 1.05930281,
      "balance_loss_mlp": 1.03319407,
      "epoch": 0.19659712619491373,
      "flos": 24242503921920.0,
      "grad_norm": 1.9836889229950738,
      "language_loss": 0.78899896,
      "learning_rate": 3.715995118555273e-06,
      "loss": 0.81138366,
      "num_input_tokens_seen": 34659890,
      "step": 1635,
      "time_per_iteration": 2.7131435871124268
    },
    {
      "auxiliary_loss_clip": 0.01176543,
      "auxiliary_loss_mlp": 0.01033301,
      "balance_loss_clip": 1.05228055,
      "balance_loss_mlp": 1.02226794,
      "epoch": 0.19671736908555282,
      "flos": 24717422568960.0,
      "grad_norm": 2.188203051549527,
      "language_loss": 0.86038285,
      "learning_rate": 3.71559486668991e-06,
      "loss": 0.88248122,
      "num_input_tokens_seen": 34678750,
      "step": 1636,
      "time_per_iteration": 3.022671937942505
    },
    {
      "auxiliary_loss_clip": 0.01216083,
      "auxiliary_loss_mlp": 0.00888504,
      "balance_loss_clip": 1.06144595,
      "balance_loss_mlp": 1.00032997,
      "epoch": 0.1968376119761919,
      "flos": 23842279607040.0,
      "grad_norm": 1.5618931903549576,
      "language_loss": 0.77113664,
      "learning_rate": 3.715194354570169e-06,
      "loss": 0.79218251,
      "num_input_tokens_seen": 34698755,
      "step": 1637,
      "time_per_iteration": 3.0900139808654785
    },
    {
      "auxiliary_loss_clip": 0.01210779,
      "auxiliary_loss_mlp": 0.01036198,
      "balance_loss_clip": 1.06319451,
      "balance_loss_mlp": 1.02529669,
      "epoch": 0.196957854866831,
      "flos": 18113917409280.0,
      "grad_norm": 1.876980580383282,
      "language_loss": 0.83564913,
      "learning_rate": 3.714793582256809e-06,
      "loss": 0.85811889,
      "num_input_tokens_seen": 34715820,
      "step": 1638,
      "time_per_iteration": 2.7250332832336426
    },
    {
      "auxiliary_loss_clip": 0.01218,
      "auxiliary_loss_mlp": 0.01036619,
      "balance_loss_clip": 1.05933666,
      "balance_loss_mlp": 1.02692771,
      "epoch": 0.1970780977574701,
      "flos": 21653129312640.0,
      "grad_norm": 2.347305371968352,
      "language_loss": 0.85129809,
      "learning_rate": 3.7143925498106253e-06,
      "loss": 0.87384439,
      "num_input_tokens_seen": 34734360,
      "step": 1639,
      "time_per_iteration": 2.866797685623169
    },
    {
      "auxiliary_loss_clip": 0.01197345,
      "auxiliary_loss_mlp": 0.01038167,
      "balance_loss_clip": 1.05304599,
      "balance_loss_mlp": 1.0276351,
      "epoch": 0.19719834064810918,
      "flos": 20811813984000.0,
      "grad_norm": 1.780986665247828,
      "language_loss": 0.79372311,
      "learning_rate": 3.7139912572924558e-06,
      "loss": 0.81607825,
      "num_input_tokens_seen": 34753390,
      "step": 1640,
      "time_per_iteration": 2.708843946456909
    },
    {
      "auxiliary_loss_clip": 0.01202648,
      "auxiliary_loss_mlp": 0.01030436,
      "balance_loss_clip": 1.05408478,
      "balance_loss_mlp": 1.02003527,
      "epoch": 0.19731858353874826,
      "flos": 23434800744960.0,
      "grad_norm": 5.775829583217267,
      "language_loss": 0.80843222,
      "learning_rate": 3.7135897047631744e-06,
      "loss": 0.83076304,
      "num_input_tokens_seen": 34771275,
      "step": 1641,
      "time_per_iteration": 2.683807849884033
    },
    {
      "auxiliary_loss_clip": 0.01201286,
      "auxiliary_loss_mlp": 0.01030145,
      "balance_loss_clip": 1.05708694,
      "balance_loss_mlp": 1.02080464,
      "epoch": 0.19743882642938737,
      "flos": 23988184652160.0,
      "grad_norm": 31.0761125333034,
      "language_loss": 0.75988543,
      "learning_rate": 3.713187892283698e-06,
      "loss": 0.78219974,
      "num_input_tokens_seen": 34790885,
      "step": 1642,
      "time_per_iteration": 2.717318534851074
    },
    {
      "auxiliary_loss_clip": 0.01175167,
      "auxiliary_loss_mlp": 0.01028374,
      "balance_loss_clip": 1.04935396,
      "balance_loss_mlp": 1.01827657,
      "epoch": 0.19755906932002645,
      "flos": 15004340081280.0,
      "grad_norm": 2.177677780458988,
      "language_loss": 0.87773126,
      "learning_rate": 3.71278581991498e-06,
      "loss": 0.89976668,
      "num_input_tokens_seen": 34806745,
      "step": 1643,
      "time_per_iteration": 2.7616915702819824
    },
    {
      "auxiliary_loss_clip": 0.01191183,
      "auxiliary_loss_mlp": 0.00888868,
      "balance_loss_clip": 1.05789256,
      "balance_loss_mlp": 1.00038326,
      "epoch": 0.19767931221066554,
      "flos": 19494466686720.0,
      "grad_norm": 2.2425823415843333,
      "language_loss": 0.79362261,
      "learning_rate": 3.712383487718015e-06,
      "loss": 0.81442308,
      "num_input_tokens_seen": 34824985,
      "step": 1644,
      "time_per_iteration": 2.7057721614837646
    },
    {
      "auxiliary_loss_clip": 0.01163511,
      "auxiliary_loss_mlp": 0.01034179,
      "balance_loss_clip": 1.05229163,
      "balance_loss_mlp": 1.02316427,
      "epoch": 0.19779955510130465,
      "flos": 25737895958400.0,
      "grad_norm": 2.0001676968307724,
      "language_loss": 0.8681314,
      "learning_rate": 3.7119808957538365e-06,
      "loss": 0.89010829,
      "num_input_tokens_seen": 34843980,
      "step": 1645,
      "time_per_iteration": 2.851659059524536
    },
    {
      "auxiliary_loss_clip": 0.01189602,
      "auxiliary_loss_mlp": 0.01037169,
      "balance_loss_clip": 1.05164564,
      "balance_loss_mlp": 1.02607656,
      "epoch": 0.19791979799194373,
      "flos": 20777699041920.0,
      "grad_norm": 2.4172992621577376,
      "language_loss": 0.79822481,
      "learning_rate": 3.711578044083517e-06,
      "loss": 0.82049251,
      "num_input_tokens_seen": 34860780,
      "step": 1646,
      "time_per_iteration": 2.6680314540863037
    },
    {
      "auxiliary_loss_clip": 0.0119649,
      "auxiliary_loss_mlp": 0.0103408,
      "balance_loss_clip": 1.0564177,
      "balance_loss_mlp": 1.02349412,
      "epoch": 0.1980400408825828,
      "flos": 25589010084480.0,
      "grad_norm": 1.8244235095796286,
      "language_loss": 0.74554974,
      "learning_rate": 3.7111749327681698e-06,
      "loss": 0.76785547,
      "num_input_tokens_seen": 34880815,
      "step": 1647,
      "time_per_iteration": 2.71840763092041
    },
    {
      "auxiliary_loss_clip": 0.01212374,
      "auxiliary_loss_mlp": 0.01033948,
      "balance_loss_clip": 1.06049371,
      "balance_loss_mlp": 1.0241909,
      "epoch": 0.1981602837732219,
      "flos": 23513840622720.0,
      "grad_norm": 9.741318392460077,
      "language_loss": 0.86343479,
      "learning_rate": 3.7107715618689455e-06,
      "loss": 0.88589799,
      "num_input_tokens_seen": 34899790,
      "step": 1648,
      "time_per_iteration": 2.6540369987487793
    },
    {
      "auxiliary_loss_clip": 0.01204058,
      "auxiliary_loss_mlp": 0.0103601,
      "balance_loss_clip": 1.05826616,
      "balance_loss_mlp": 1.02565062,
      "epoch": 0.198280526663861,
      "flos": 23185365724800.0,
      "grad_norm": 1.4982572334679287,
      "language_loss": 0.83563507,
      "learning_rate": 3.710367931447035e-06,
      "loss": 0.8580358,
      "num_input_tokens_seen": 34921570,
      "step": 1649,
      "time_per_iteration": 2.686236619949341
    },
    {
      "auxiliary_loss_clip": 0.01213246,
      "auxiliary_loss_mlp": 0.01036543,
      "balance_loss_clip": 1.05916655,
      "balance_loss_mlp": 1.02678585,
      "epoch": 0.1984007695545001,
      "flos": 21689470897920.0,
      "grad_norm": 2.241002580581248,
      "language_loss": 0.86690772,
      "learning_rate": 3.70996404156367e-06,
      "loss": 0.88940567,
      "num_input_tokens_seen": 34941205,
      "step": 1650,
      "time_per_iteration": 3.6304268836975098
    },
    {
      "auxiliary_loss_clip": 0.01166648,
      "auxiliary_loss_mlp": 0.01033542,
      "balance_loss_clip": 1.04892361,
      "balance_loss_mlp": 1.02281332,
      "epoch": 0.19852101244513917,
      "flos": 36064008887040.0,
      "grad_norm": 1.7109415016147063,
      "language_loss": 0.73207814,
      "learning_rate": 3.7095598922801187e-06,
      "loss": 0.75408006,
      "num_input_tokens_seen": 34963280,
      "step": 1651,
      "time_per_iteration": 2.875948190689087
    },
    {
      "auxiliary_loss_clip": 0.01218984,
      "auxiliary_loss_mlp": 0.01036365,
      "balance_loss_clip": 1.0608561,
      "balance_loss_mlp": 1.02621436,
      "epoch": 0.19864125533577828,
      "flos": 23105894883840.0,
      "grad_norm": 2.6773000042289525,
      "language_loss": 0.76531661,
      "learning_rate": 3.7091554836576914e-06,
      "loss": 0.78787005,
      "num_input_tokens_seen": 34979955,
      "step": 1652,
      "time_per_iteration": 2.63849139213562
    },
    {
      "auxiliary_loss_clip": 0.01207354,
      "auxiliary_loss_mlp": 0.00888475,
      "balance_loss_clip": 1.06026411,
      "balance_loss_mlp": 1.0003953,
      "epoch": 0.19876149822641737,
      "flos": 24608505553920.0,
      "grad_norm": 1.770637595091171,
      "language_loss": 0.82492566,
      "learning_rate": 3.708750815757736e-06,
      "loss": 0.84588397,
      "num_input_tokens_seen": 35000725,
      "step": 1653,
      "time_per_iteration": 2.6819534301757812
    },
    {
      "auxiliary_loss_clip": 0.0121304,
      "auxiliary_loss_mlp": 0.01038751,
      "balance_loss_clip": 1.06104088,
      "balance_loss_mlp": 1.02800977,
      "epoch": 0.19888174111705645,
      "flos": 32196645308160.0,
      "grad_norm": 2.243974532314409,
      "language_loss": 0.7270804,
      "learning_rate": 3.7083458886416407e-06,
      "loss": 0.74959826,
      "num_input_tokens_seen": 35019920,
      "step": 1654,
      "time_per_iteration": 2.7483670711517334
    },
    {
      "auxiliary_loss_clip": 0.01168998,
      "auxiliary_loss_mlp": 0.01038881,
      "balance_loss_clip": 1.05455041,
      "balance_loss_mlp": 1.02923107,
      "epoch": 0.19900198400769553,
      "flos": 24608469640320.0,
      "grad_norm": 2.2891295586776215,
      "language_loss": 0.88310194,
      "learning_rate": 3.707940702370832e-06,
      "loss": 0.90518081,
      "num_input_tokens_seen": 35040765,
      "step": 1655,
      "time_per_iteration": 3.7521116733551025
    },
    {
      "auxiliary_loss_clip": 0.01110263,
      "auxiliary_loss_mlp": 0.01011918,
      "balance_loss_clip": 1.03430605,
      "balance_loss_mlp": 1.00843716,
      "epoch": 0.19912222689833464,
      "flos": 67915805673600.0,
      "grad_norm": 0.7650839258319889,
      "language_loss": 0.5827837,
      "learning_rate": 3.707535257006777e-06,
      "loss": 0.60400552,
      "num_input_tokens_seen": 35106390,
      "step": 1656,
      "time_per_iteration": 4.204099178314209
    },
    {
      "auxiliary_loss_clip": 0.01198443,
      "auxiliary_loss_mlp": 0.01032586,
      "balance_loss_clip": 1.05584168,
      "balance_loss_mlp": 1.02256608,
      "epoch": 0.19924246978897373,
      "flos": 15742340916480.0,
      "grad_norm": 3.967680068819553,
      "language_loss": 0.89007956,
      "learning_rate": 3.707129552610981e-06,
      "loss": 0.91238987,
      "num_input_tokens_seen": 35125040,
      "step": 1657,
      "time_per_iteration": 3.7015957832336426
    },
    {
      "auxiliary_loss_clip": 0.01189567,
      "auxiliary_loss_mlp": 0.01040288,
      "balance_loss_clip": 1.05687785,
      "balance_loss_mlp": 1.0296011,
      "epoch": 0.1993627126796128,
      "flos": 17566566986880.0,
      "grad_norm": 1.9340225800074278,
      "language_loss": 0.73863018,
      "learning_rate": 3.70672358924499e-06,
      "loss": 0.76092875,
      "num_input_tokens_seen": 35144280,
      "step": 1658,
      "time_per_iteration": 2.846186637878418
    },
    {
      "auxiliary_loss_clip": 0.01185028,
      "auxiliary_loss_mlp": 0.01044305,
      "balance_loss_clip": 1.05755901,
      "balance_loss_mlp": 1.03396392,
      "epoch": 0.19948295557025192,
      "flos": 40843826680320.0,
      "grad_norm": 1.9678045101805763,
      "language_loss": 0.78411859,
      "learning_rate": 3.706317366970386e-06,
      "loss": 0.80641186,
      "num_input_tokens_seen": 35165280,
      "step": 1659,
      "time_per_iteration": 2.8451223373413086
    },
    {
      "auxiliary_loss_clip": 0.01217768,
      "auxiliary_loss_mlp": 0.00889332,
      "balance_loss_clip": 1.05717063,
      "balance_loss_mlp": 1.00051403,
      "epoch": 0.199603198460891,
      "flos": 25082418620160.0,
      "grad_norm": 1.935349810423671,
      "language_loss": 0.83542603,
      "learning_rate": 3.705910885848795e-06,
      "loss": 0.85649705,
      "num_input_tokens_seen": 35183655,
      "step": 1660,
      "time_per_iteration": 2.702643632888794
    },
    {
      "auxiliary_loss_clip": 0.01207678,
      "auxiliary_loss_mlp": 0.01030804,
      "balance_loss_clip": 1.0599668,
      "balance_loss_mlp": 1.02111268,
      "epoch": 0.19972344135153008,
      "flos": 20084120352000.0,
      "grad_norm": 2.0055844953029465,
      "language_loss": 0.84492725,
      "learning_rate": 3.705504145941879e-06,
      "loss": 0.86731207,
      "num_input_tokens_seen": 35201825,
      "step": 1661,
      "time_per_iteration": 2.626025438308716
    },
    {
      "auxiliary_loss_clip": 0.01217505,
      "auxiliary_loss_mlp": 0.01038922,
      "balance_loss_clip": 1.05977201,
      "balance_loss_mlp": 1.02885437,
      "epoch": 0.1998436842421692,
      "flos": 23727472761600.0,
      "grad_norm": 2.640131328912758,
      "language_loss": 0.78771418,
      "learning_rate": 3.7050971473113403e-06,
      "loss": 0.81027842,
      "num_input_tokens_seen": 35221600,
      "step": 1662,
      "time_per_iteration": 2.650444984436035
    },
    {
      "auxiliary_loss_clip": 0.01204936,
      "auxiliary_loss_mlp": 0.00888344,
      "balance_loss_clip": 1.05659699,
      "balance_loss_mlp": 1.00039792,
      "epoch": 0.19996392713280828,
      "flos": 36102361633920.0,
      "grad_norm": 1.9480224653118776,
      "language_loss": 0.80000889,
      "learning_rate": 3.7046898900189196e-06,
      "loss": 0.82094169,
      "num_input_tokens_seen": 35245935,
      "step": 1663,
      "time_per_iteration": 2.793691873550415
    },
    {
      "auxiliary_loss_clip": 0.01193462,
      "auxiliary_loss_mlp": 0.01039406,
      "balance_loss_clip": 1.05988336,
      "balance_loss_mlp": 1.02862358,
      "epoch": 0.20008417002344736,
      "flos": 23657662679040.0,
      "grad_norm": 1.844402277025373,
      "language_loss": 0.82749903,
      "learning_rate": 3.704282374126398e-06,
      "loss": 0.84982765,
      "num_input_tokens_seen": 35265615,
      "step": 1664,
      "time_per_iteration": 2.7315585613250732
    },
    {
      "auxiliary_loss_clip": 0.01186162,
      "auxiliary_loss_mlp": 0.01041766,
      "balance_loss_clip": 1.05369365,
      "balance_loss_mlp": 1.02926111,
      "epoch": 0.20020441291408644,
      "flos": 21872076664320.0,
      "grad_norm": 1.8038674907221015,
      "language_loss": 0.87579405,
      "learning_rate": 3.7038745996955954e-06,
      "loss": 0.89807343,
      "num_input_tokens_seen": 35284960,
      "step": 1665,
      "time_per_iteration": 321.2214388847351
    },
    {
      "auxiliary_loss_clip": 0.01194616,
      "auxiliary_loss_mlp": 0.01036085,
      "balance_loss_clip": 1.05523515,
      "balance_loss_mlp": 1.02521944,
      "epoch": 0.20032465580472555,
      "flos": 23179691376000.0,
      "grad_norm": 2.965707433628335,
      "language_loss": 0.71566927,
      "learning_rate": 3.703466566788371e-06,
      "loss": 0.73797631,
      "num_input_tokens_seen": 35304090,
      "step": 1666,
      "time_per_iteration": 2.951669216156006
    },
    {
      "auxiliary_loss_clip": 0.01187207,
      "auxiliary_loss_mlp": 0.01043566,
      "balance_loss_clip": 1.05525231,
      "balance_loss_mlp": 1.0329622,
      "epoch": 0.20044489869536464,
      "flos": 23873521461120.0,
      "grad_norm": 2.7090063045786144,
      "language_loss": 0.74498713,
      "learning_rate": 3.703058275466622e-06,
      "loss": 0.76729488,
      "num_input_tokens_seen": 35323325,
      "step": 1667,
      "time_per_iteration": 2.793463706970215
    },
    {
      "auxiliary_loss_clip": 0.01199382,
      "auxiliary_loss_mlp": 0.01031295,
      "balance_loss_clip": 1.05970192,
      "balance_loss_mlp": 1.02086389,
      "epoch": 0.20056514158600372,
      "flos": 21945226711680.0,
      "grad_norm": 1.7878386077939774,
      "language_loss": 0.78119808,
      "learning_rate": 3.7026497257922877e-06,
      "loss": 0.80350488,
      "num_input_tokens_seen": 35343635,
      "step": 1668,
      "time_per_iteration": 2.7956223487854004
    },
    {
      "auxiliary_loss_clip": 0.01170466,
      "auxiliary_loss_mlp": 0.01033024,
      "balance_loss_clip": 1.05038548,
      "balance_loss_mlp": 1.02181864,
      "epoch": 0.20068538447664283,
      "flos": 23879159896320.0,
      "grad_norm": 1.8158970562605858,
      "language_loss": 0.85184646,
      "learning_rate": 3.7022409178273436e-06,
      "loss": 0.87388128,
      "num_input_tokens_seen": 35364615,
      "step": 1669,
      "time_per_iteration": 2.883298397064209
    },
    {
      "auxiliary_loss_clip": 0.01205644,
      "auxiliary_loss_mlp": 0.01035853,
      "balance_loss_clip": 1.0578413,
      "balance_loss_mlp": 1.02597642,
      "epoch": 0.2008056273672819,
      "flos": 18442823270400.0,
      "grad_norm": 2.025400244508949,
      "language_loss": 0.78589815,
      "learning_rate": 3.7018318516338054e-06,
      "loss": 0.80831307,
      "num_input_tokens_seen": 35383775,
      "step": 1670,
      "time_per_iteration": 2.772261619567871
    },
    {
      "auxiliary_loss_clip": 0.01211741,
      "auxiliary_loss_mlp": 0.01035173,
      "balance_loss_clip": 1.05864263,
      "balance_loss_mlp": 1.02485538,
      "epoch": 0.200925870257921,
      "flos": 23659530186240.0,
      "grad_norm": 4.352021654181699,
      "language_loss": 0.82246816,
      "learning_rate": 3.7014225272737284e-06,
      "loss": 0.84493726,
      "num_input_tokens_seen": 35403000,
      "step": 1671,
      "time_per_iteration": 2.739254951477051
    },
    {
      "auxiliary_loss_clip": 0.01198214,
      "auxiliary_loss_mlp": 0.01035327,
      "balance_loss_clip": 1.05527306,
      "balance_loss_mlp": 1.02471757,
      "epoch": 0.20104611314856008,
      "flos": 16217115909120.0,
      "grad_norm": 3.1199218875697166,
      "language_loss": 0.74092913,
      "learning_rate": 3.701012944809207e-06,
      "loss": 0.76326454,
      "num_input_tokens_seen": 35420115,
      "step": 1672,
      "time_per_iteration": 2.7934727668762207
    },
    {
      "auxiliary_loss_clip": 0.0119909,
      "auxiliary_loss_mlp": 0.00888774,
      "balance_loss_clip": 1.05820477,
      "balance_loss_mlp": 1.00046515,
      "epoch": 0.2011663560391992,
      "flos": 21397373498880.0,
      "grad_norm": 2.043725556153444,
      "language_loss": 0.78989553,
      "learning_rate": 3.700603104302374e-06,
      "loss": 0.81077421,
      "num_input_tokens_seen": 35439925,
      "step": 1673,
      "time_per_iteration": 2.76247239112854
    },
    {
      "auxiliary_loss_clip": 0.0108103,
      "auxiliary_loss_mlp": 0.01010685,
      "balance_loss_clip": 1.02742887,
      "balance_loss_mlp": 1.00737143,
      "epoch": 0.20128659892983827,
      "flos": 62229459409920.0,
      "grad_norm": 0.9045928964098362,
      "language_loss": 0.55960059,
      "learning_rate": 3.7001930058154027e-06,
      "loss": 0.58051777,
      "num_input_tokens_seen": 35504885,
      "step": 1674,
      "time_per_iteration": 3.3902814388275146
    },
    {
      "auxiliary_loss_clip": 0.01189935,
      "auxiliary_loss_mlp": 0.01049041,
      "balance_loss_clip": 1.05594862,
      "balance_loss_mlp": 1.03785944,
      "epoch": 0.20140684182047736,
      "flos": 28438737448320.0,
      "grad_norm": 2.649132839730229,
      "language_loss": 0.7988596,
      "learning_rate": 3.6997826494105037e-06,
      "loss": 0.82124937,
      "num_input_tokens_seen": 35525330,
      "step": 1675,
      "time_per_iteration": 3.722813606262207
    },
    {
      "auxiliary_loss_clip": 0.011975,
      "auxiliary_loss_mlp": 0.01036396,
      "balance_loss_clip": 1.05422175,
      "balance_loss_mlp": 1.02623963,
      "epoch": 0.20152708471111647,
      "flos": 28074064619520.0,
      "grad_norm": 3.2258853334973914,
      "language_loss": 0.69775945,
      "learning_rate": 3.6993720351499286e-06,
      "loss": 0.72009838,
      "num_input_tokens_seen": 35546455,
      "step": 1676,
      "time_per_iteration": 2.8500213623046875
    },
    {
      "auxiliary_loss_clip": 0.01191328,
      "auxiliary_loss_mlp": 0.0103591,
      "balance_loss_clip": 1.05914879,
      "balance_loss_mlp": 1.02594399,
      "epoch": 0.20164732760175555,
      "flos": 23549751244800.0,
      "grad_norm": 2.1070546878348373,
      "language_loss": 0.76982868,
      "learning_rate": 3.6989611630959666e-06,
      "loss": 0.79210114,
      "num_input_tokens_seen": 35565010,
      "step": 1677,
      "time_per_iteration": 2.7064554691314697
    },
    {
      "auxiliary_loss_clip": 0.01105252,
      "auxiliary_loss_mlp": 0.01005111,
      "balance_loss_clip": 1.02439606,
      "balance_loss_mlp": 1.0017966,
      "epoch": 0.20176757049239463,
      "flos": 71100616037760.0,
      "grad_norm": 0.6854610846357092,
      "language_loss": 0.58292294,
      "learning_rate": 3.6985500333109474e-06,
      "loss": 0.60402662,
      "num_input_tokens_seen": 35633340,
      "step": 1678,
      "time_per_iteration": 3.323941946029663
    },
    {
      "auxiliary_loss_clip": 0.01177527,
      "auxiliary_loss_mlp": 0.01032694,
      "balance_loss_clip": 1.05130792,
      "balance_loss_mlp": 1.02282381,
      "epoch": 0.20188781338303372,
      "flos": 21430159637760.0,
      "grad_norm": 2.790545748437815,
      "language_loss": 0.76841164,
      "learning_rate": 3.6981386458572385e-06,
      "loss": 0.79051381,
      "num_input_tokens_seen": 35651315,
      "step": 1679,
      "time_per_iteration": 2.783691883087158
    },
    {
      "auxiliary_loss_clip": 0.0118026,
      "auxiliary_loss_mlp": 0.01031635,
      "balance_loss_clip": 1.05264902,
      "balance_loss_mlp": 1.0210613,
      "epoch": 0.20200805627367283,
      "flos": 11546215130880.0,
      "grad_norm": 2.866060347402666,
      "language_loss": 0.76560301,
      "learning_rate": 3.6977270007972468e-06,
      "loss": 0.78772199,
      "num_input_tokens_seen": 35668850,
      "step": 1680,
      "time_per_iteration": 2.691542148590088
    },
    {
      "auxiliary_loss_clip": 0.01200078,
      "auxiliary_loss_mlp": 0.01038707,
      "balance_loss_clip": 1.05783796,
      "balance_loss_mlp": 1.02809715,
      "epoch": 0.2021282991643119,
      "flos": 28545391906560.0,
      "grad_norm": 6.396740527142809,
      "language_loss": 0.72448778,
      "learning_rate": 3.6973150981934196e-06,
      "loss": 0.74687564,
      "num_input_tokens_seen": 35690080,
      "step": 1681,
      "time_per_iteration": 3.791205406188965
    },
    {
      "auxiliary_loss_clip": 0.0122494,
      "auxiliary_loss_mlp": 0.01035208,
      "balance_loss_clip": 1.06117094,
      "balance_loss_mlp": 1.02467573,
      "epoch": 0.202248542054951,
      "flos": 17923446564480.0,
      "grad_norm": 2.6832925656607816,
      "language_loss": 0.84010559,
      "learning_rate": 3.6969029381082415e-06,
      "loss": 0.86270702,
      "num_input_tokens_seen": 35706075,
      "step": 1682,
      "time_per_iteration": 2.6433801651000977
    },
    {
      "auxiliary_loss_clip": 0.01196703,
      "auxiliary_loss_mlp": 0.01037097,
      "balance_loss_clip": 1.05601358,
      "balance_loss_mlp": 1.02698255,
      "epoch": 0.2023687849455901,
      "flos": 19864634296320.0,
      "grad_norm": 2.5493460582165506,
      "language_loss": 0.79605854,
      "learning_rate": 3.696490520604237e-06,
      "loss": 0.81839657,
      "num_input_tokens_seen": 35724765,
      "step": 1683,
      "time_per_iteration": 3.6788413524627686
    },
    {
      "auxiliary_loss_clip": 0.01204084,
      "auxiliary_loss_mlp": 0.01034173,
      "balance_loss_clip": 1.05800569,
      "balance_loss_mlp": 1.02437997,
      "epoch": 0.20248902783622919,
      "flos": 22564721600640.0,
      "grad_norm": 5.663839347189688,
      "language_loss": 0.80747044,
      "learning_rate": 3.696077845743968e-06,
      "loss": 0.82985306,
      "num_input_tokens_seen": 35744355,
      "step": 1684,
      "time_per_iteration": 2.732344627380371
    },
    {
      "auxiliary_loss_clip": 0.01218641,
      "auxiliary_loss_mlp": 0.01034211,
      "balance_loss_clip": 1.05660391,
      "balance_loss_mlp": 1.02317822,
      "epoch": 0.20260927072686827,
      "flos": 22709728805760.0,
      "grad_norm": 3.0861612856750154,
      "language_loss": 0.73415101,
      "learning_rate": 3.69566491359004e-06,
      "loss": 0.75667953,
      "num_input_tokens_seen": 35761000,
      "step": 1685,
      "time_per_iteration": 2.632704973220825
    },
    {
      "auxiliary_loss_clip": 0.01195397,
      "auxiliary_loss_mlp": 0.01036304,
      "balance_loss_clip": 1.05625963,
      "balance_loss_mlp": 1.02565289,
      "epoch": 0.20272951361750738,
      "flos": 51023998650240.0,
      "grad_norm": 2.3543918727064552,
      "language_loss": 0.69465315,
      "learning_rate": 3.695251724205092e-06,
      "loss": 0.71697015,
      "num_input_tokens_seen": 35785360,
      "step": 1686,
      "time_per_iteration": 2.9959805011749268
    },
    {
      "auxiliary_loss_clip": 0.01220078,
      "auxiliary_loss_mlp": 0.01034279,
      "balance_loss_clip": 1.06075776,
      "balance_loss_mlp": 1.02303135,
      "epoch": 0.20284975650814646,
      "flos": 26578133879040.0,
      "grad_norm": 1.8182779306485342,
      "language_loss": 0.86453354,
      "learning_rate": 3.6948382776518054e-06,
      "loss": 0.88707709,
      "num_input_tokens_seen": 35806065,
      "step": 1687,
      "time_per_iteration": 2.7362658977508545
    },
    {
      "auxiliary_loss_clip": 0.0119709,
      "auxiliary_loss_mlp": 0.01031617,
      "balance_loss_clip": 1.05620265,
      "balance_loss_mlp": 1.02125812,
      "epoch": 0.20296999939878554,
      "flos": 16034222833920.0,
      "grad_norm": 2.6382270480159673,
      "language_loss": 0.79897618,
      "learning_rate": 3.6944245739929e-06,
      "loss": 0.82126325,
      "num_input_tokens_seen": 35822225,
      "step": 1688,
      "time_per_iteration": 2.768958330154419
    },
    {
      "auxiliary_loss_clip": 0.01210878,
      "auxiliary_loss_mlp": 0.01043901,
      "balance_loss_clip": 1.0611465,
      "balance_loss_mlp": 1.032987,
      "epoch": 0.20309024228942463,
      "flos": 19203374868480.0,
      "grad_norm": 3.41165692258986,
      "language_loss": 0.71868902,
      "learning_rate": 3.6940106132911332e-06,
      "loss": 0.74123681,
      "num_input_tokens_seen": 35839410,
      "step": 1689,
      "time_per_iteration": 2.875558376312256
    },
    {
      "auxiliary_loss_clip": 0.01211097,
      "auxiliary_loss_mlp": 0.01035546,
      "balance_loss_clip": 1.0594275,
      "balance_loss_mlp": 1.02495408,
      "epoch": 0.20321048518006374,
      "flos": 22821087945600.0,
      "grad_norm": 2.9409734347131433,
      "language_loss": 0.89189661,
      "learning_rate": 3.6935963956093037e-06,
      "loss": 0.91436303,
      "num_input_tokens_seen": 35859495,
      "step": 1690,
      "time_per_iteration": 2.7084288597106934
    },
    {
      "auxiliary_loss_clip": 0.01198652,
      "auxiliary_loss_mlp": 0.01036408,
      "balance_loss_clip": 1.05626345,
      "balance_loss_mlp": 1.02647161,
      "epoch": 0.20333072807070282,
      "flos": 19096397187840.0,
      "grad_norm": 2.1425258570607424,
      "language_loss": 0.68972498,
      "learning_rate": 3.6931819210102474e-06,
      "loss": 0.71207559,
      "num_input_tokens_seen": 35878890,
      "step": 1691,
      "time_per_iteration": 2.794044256210327
    },
    {
      "auxiliary_loss_clip": 0.01220889,
      "auxiliary_loss_mlp": 0.01043936,
      "balance_loss_clip": 1.05946505,
      "balance_loss_mlp": 1.03302276,
      "epoch": 0.2034509709613419,
      "flos": 18180962144640.0,
      "grad_norm": 1.9571348832794864,
      "language_loss": 0.84491956,
      "learning_rate": 3.6927671895568402e-06,
      "loss": 0.86756778,
      "num_input_tokens_seen": 35897950,
      "step": 1692,
      "time_per_iteration": 2.6819775104522705
    },
    {
      "auxiliary_loss_clip": 0.01225581,
      "auxiliary_loss_mlp": 0.01036932,
      "balance_loss_clip": 1.06343138,
      "balance_loss_mlp": 1.02530289,
      "epoch": 0.20357121385198101,
      "flos": 22923899648640.0,
      "grad_norm": 2.4421311605111824,
      "language_loss": 0.86925077,
      "learning_rate": 3.692352201311996e-06,
      "loss": 0.89187592,
      "num_input_tokens_seen": 35916800,
      "step": 1693,
      "time_per_iteration": 2.7143657207489014
    },
    {
      "auxiliary_loss_clip": 0.01183869,
      "auxiliary_loss_mlp": 0.01037778,
      "balance_loss_clip": 1.05412531,
      "balance_loss_mlp": 1.02658391,
      "epoch": 0.2036914567426201,
      "flos": 20922131629440.0,
      "grad_norm": 1.8707252504871086,
      "language_loss": 0.77024209,
      "learning_rate": 3.6919369563386687e-06,
      "loss": 0.79245859,
      "num_input_tokens_seen": 35936600,
      "step": 1694,
      "time_per_iteration": 2.855647563934326
    },
    {
      "auxiliary_loss_clip": 0.01197035,
      "auxiliary_loss_mlp": 0.01033901,
      "balance_loss_clip": 1.05789411,
      "balance_loss_mlp": 1.02344644,
      "epoch": 0.20381169963325918,
      "flos": 15519155760000.0,
      "grad_norm": 2.968674655145573,
      "language_loss": 0.79411292,
      "learning_rate": 3.69152145469985e-06,
      "loss": 0.81642228,
      "num_input_tokens_seen": 35953645,
      "step": 1695,
      "time_per_iteration": 2.801637649536133
    },
    {
      "auxiliary_loss_clip": 0.01182901,
      "auxiliary_loss_mlp": 0.01034977,
      "balance_loss_clip": 1.0541532,
      "balance_loss_mlp": 1.02301991,
      "epoch": 0.20393194252389826,
      "flos": 28833143760000.0,
      "grad_norm": 2.6230974724617306,
      "language_loss": 0.82024145,
      "learning_rate": 3.691105696458572e-06,
      "loss": 0.84242022,
      "num_input_tokens_seen": 35970940,
      "step": 1696,
      "time_per_iteration": 2.8812999725341797
    },
    {
      "auxiliary_loss_clip": 0.01223613,
      "auxiliary_loss_mlp": 0.01036824,
      "balance_loss_clip": 1.06477046,
      "balance_loss_mlp": 1.0261426,
      "epoch": 0.20405218541453737,
      "flos": 22488554810880.0,
      "grad_norm": 2.5611475802013253,
      "language_loss": 0.6829536,
      "learning_rate": 3.690689681677904e-06,
      "loss": 0.70555794,
      "num_input_tokens_seen": 35989410,
      "step": 1697,
      "time_per_iteration": 2.707306385040283
    },
    {
      "auxiliary_loss_clip": 0.01200049,
      "auxiliary_loss_mlp": 0.01035168,
      "balance_loss_clip": 1.05418921,
      "balance_loss_mlp": 1.0249157,
      "epoch": 0.20417242830517646,
      "flos": 25374408278400.0,
      "grad_norm": 2.045629099797903,
      "language_loss": 0.88789308,
      "learning_rate": 3.690273410420956e-06,
      "loss": 0.9102453,
      "num_input_tokens_seen": 36009175,
      "step": 1698,
      "time_per_iteration": 2.7281177043914795
    },
    {
      "auxiliary_loss_clip": 0.01206922,
      "auxiliary_loss_mlp": 0.01034505,
      "balance_loss_clip": 1.05813575,
      "balance_loss_mlp": 1.02353752,
      "epoch": 0.20429267119581554,
      "flos": 14793078240000.0,
      "grad_norm": 2.7571257287058986,
      "language_loss": 0.76405108,
      "learning_rate": 3.689856882750875e-06,
      "loss": 0.78646529,
      "num_input_tokens_seen": 36024375,
      "step": 1699,
      "time_per_iteration": 2.7293894290924072
    },
    {
      "auxiliary_loss_clip": 0.01208617,
      "auxiliary_loss_mlp": 0.01037374,
      "balance_loss_clip": 1.06290627,
      "balance_loss_mlp": 1.02727711,
      "epoch": 0.20441291408645465,
      "flos": 17781851151360.0,
      "grad_norm": 1.893089014137376,
      "language_loss": 0.78664309,
      "learning_rate": 3.6894400987308486e-06,
      "loss": 0.80910301,
      "num_input_tokens_seen": 36041895,
      "step": 1700,
      "time_per_iteration": 2.7127623558044434
    },
    {
      "auxiliary_loss_clip": 0.01211268,
      "auxiliary_loss_mlp": 0.01032583,
      "balance_loss_clip": 1.0595572,
      "balance_loss_mlp": 1.02216434,
      "epoch": 0.20453315697709373,
      "flos": 16435668211200.0,
      "grad_norm": 2.673738604534621,
      "language_loss": 0.85174465,
      "learning_rate": 3.6890230584241024e-06,
      "loss": 0.87418312,
      "num_input_tokens_seen": 36058825,
      "step": 1701,
      "time_per_iteration": 3.679766893386841
    },
    {
      "auxiliary_loss_clip": 0.01110765,
      "auxiliary_loss_mlp": 0.01014319,
      "balance_loss_clip": 1.02484798,
      "balance_loss_mlp": 1.01100528,
      "epoch": 0.20465339986773282,
      "flos": 66713085653760.0,
      "grad_norm": 1.0534323922131108,
      "language_loss": 0.66484618,
      "learning_rate": 3.6886057618939016e-06,
      "loss": 0.68609703,
      "num_input_tokens_seen": 36121645,
      "step": 1702,
      "time_per_iteration": 3.356513738632202
    },
    {
      "auxiliary_loss_clip": 0.01180749,
      "auxiliary_loss_mlp": 0.01031409,
      "balance_loss_clip": 1.05259967,
      "balance_loss_mlp": 1.02125823,
      "epoch": 0.2047736427583719,
      "flos": 41974114924800.0,
      "grad_norm": 6.33569275217715,
      "language_loss": 0.69625425,
      "learning_rate": 3.6881882092035492e-06,
      "loss": 0.7183758,
      "num_input_tokens_seen": 36143030,
      "step": 1703,
      "time_per_iteration": 2.9732887744903564
    },
    {
      "auxiliary_loss_clip": 0.01095618,
      "auxiliary_loss_mlp": 0.00878033,
      "balance_loss_clip": 1.0242641,
      "balance_loss_mlp": 0.99990511,
      "epoch": 0.204893885649011,
      "flos": 69940878641280.0,
      "grad_norm": 0.9320442724552128,
      "language_loss": 0.61224473,
      "learning_rate": 3.6877704004163873e-06,
      "loss": 0.63198119,
      "num_input_tokens_seen": 36203435,
      "step": 1704,
      "time_per_iteration": 3.4818782806396484
    },
    {
      "auxiliary_loss_clip": 0.01223637,
      "auxiliary_loss_mlp": 0.01035315,
      "balance_loss_clip": 1.06374335,
      "balance_loss_mlp": 1.02470541,
      "epoch": 0.2050141285396501,
      "flos": 22200012858240.0,
      "grad_norm": 1.810405999050893,
      "language_loss": 0.77721345,
      "learning_rate": 3.6873523355957984e-06,
      "loss": 0.79980296,
      "num_input_tokens_seen": 36222435,
      "step": 1705,
      "time_per_iteration": 2.710653305053711
    },
    {
      "auxiliary_loss_clip": 0.01110015,
      "auxiliary_loss_mlp": 0.01003788,
      "balance_loss_clip": 1.02435827,
      "balance_loss_mlp": 1.00061727,
      "epoch": 0.20513437143028918,
      "flos": 46283721730560.0,
      "grad_norm": 0.9949024376963294,
      "language_loss": 0.64070374,
      "learning_rate": 3.686934014805201e-06,
      "loss": 0.66184175,
      "num_input_tokens_seen": 36273065,
      "step": 1706,
      "time_per_iteration": 4.057806491851807
    },
    {
      "auxiliary_loss_clip": 0.01207558,
      "auxiliary_loss_mlp": 0.01034104,
      "balance_loss_clip": 1.05864453,
      "balance_loss_mlp": 1.02336311,
      "epoch": 0.20525461432092829,
      "flos": 21904324099200.0,
      "grad_norm": 1.9468376403445384,
      "language_loss": 0.80666512,
      "learning_rate": 3.6865154381080552e-06,
      "loss": 0.82908171,
      "num_input_tokens_seen": 36293750,
      "step": 1707,
      "time_per_iteration": 3.9386544227600098
    },
    {
      "auxiliary_loss_clip": 0.0115811,
      "auxiliary_loss_mlp": 0.01035389,
      "balance_loss_clip": 1.04875815,
      "balance_loss_mlp": 1.02492881,
      "epoch": 0.20537485721156737,
      "flos": 21214264942080.0,
      "grad_norm": 2.1848979176569885,
      "language_loss": 0.82321882,
      "learning_rate": 3.6860966055678585e-06,
      "loss": 0.84515375,
      "num_input_tokens_seen": 36310105,
      "step": 1708,
      "time_per_iteration": 3.1288321018218994
    },
    {
      "auxiliary_loss_clip": 0.01211365,
      "auxiliary_loss_mlp": 0.01045264,
      "balance_loss_clip": 1.06089234,
      "balance_loss_mlp": 1.0346663,
      "epoch": 0.20549510010220645,
      "flos": 20191205773440.0,
      "grad_norm": 2.209240619969556,
      "language_loss": 0.86185795,
      "learning_rate": 3.685677517248147e-06,
      "loss": 0.88442421,
      "num_input_tokens_seen": 36328995,
      "step": 1709,
      "time_per_iteration": 3.7766284942626953
    },
    {
      "auxiliary_loss_clip": 0.01201593,
      "auxiliary_loss_mlp": 0.00889022,
      "balance_loss_clip": 1.06372976,
      "balance_loss_mlp": 1.00052929,
      "epoch": 0.20561534299284553,
      "flos": 17016702612480.0,
      "grad_norm": 3.564351273525482,
      "language_loss": 0.80119073,
      "learning_rate": 3.6852581732124967e-06,
      "loss": 0.82209688,
      "num_input_tokens_seen": 36346340,
      "step": 1710,
      "time_per_iteration": 2.729308605194092
    },
    {
      "auxiliary_loss_clip": 0.01210967,
      "auxiliary_loss_mlp": 0.01041794,
      "balance_loss_clip": 1.06002355,
      "balance_loss_mlp": 1.03063583,
      "epoch": 0.20573558588348465,
      "flos": 22890467064960.0,
      "grad_norm": 2.0944978080288426,
      "language_loss": 0.76359916,
      "learning_rate": 3.6848385735245213e-06,
      "loss": 0.78612679,
      "num_input_tokens_seen": 36365430,
      "step": 1711,
      "time_per_iteration": 2.7160580158233643
    },
    {
      "auxiliary_loss_clip": 0.01195383,
      "auxiliary_loss_mlp": 0.01040928,
      "balance_loss_clip": 1.05331874,
      "balance_loss_mlp": 1.03023505,
      "epoch": 0.20585582877412373,
      "flos": 24643123286400.0,
      "grad_norm": 2.0953597822801804,
      "language_loss": 0.86408377,
      "learning_rate": 3.6844187182478734e-06,
      "loss": 0.88644683,
      "num_input_tokens_seen": 36386285,
      "step": 1712,
      "time_per_iteration": 2.6807050704956055
    },
    {
      "auxiliary_loss_clip": 0.01188745,
      "auxiliary_loss_mlp": 0.01038812,
      "balance_loss_clip": 1.05457926,
      "balance_loss_mlp": 1.02748752,
      "epoch": 0.2059760716647628,
      "flos": 24206952435840.0,
      "grad_norm": 1.9006948638535823,
      "language_loss": 0.74978775,
      "learning_rate": 3.683998607446246e-06,
      "loss": 0.77206331,
      "num_input_tokens_seen": 36404935,
      "step": 1713,
      "time_per_iteration": 2.703348159790039
    },
    {
      "auxiliary_loss_clip": 0.0121228,
      "auxiliary_loss_mlp": 0.01036076,
      "balance_loss_clip": 1.06098354,
      "balance_loss_mlp": 1.0254184,
      "epoch": 0.20609631455540192,
      "flos": 20229522606720.0,
      "grad_norm": 2.9927681108722672,
      "language_loss": 0.75505525,
      "learning_rate": 3.6835782411833686e-06,
      "loss": 0.77753878,
      "num_input_tokens_seen": 36424455,
      "step": 1714,
      "time_per_iteration": 2.685483932495117
    },
    {
      "auxiliary_loss_clip": 0.01176556,
      "auxiliary_loss_mlp": 0.01035456,
      "balance_loss_clip": 1.05280375,
      "balance_loss_mlp": 1.02450693,
      "epoch": 0.206216557446041,
      "flos": 19864957518720.0,
      "grad_norm": 1.941969210873939,
      "language_loss": 0.74417174,
      "learning_rate": 3.68315761952301e-06,
      "loss": 0.76629186,
      "num_input_tokens_seen": 36441685,
      "step": 1715,
      "time_per_iteration": 2.7434418201446533
    },
    {
      "auxiliary_loss_clip": 0.01221608,
      "auxiliary_loss_mlp": 0.01041726,
      "balance_loss_clip": 1.06061745,
      "balance_loss_mlp": 1.03116453,
      "epoch": 0.2063368003366801,
      "flos": 24096311568000.0,
      "grad_norm": 2.6878878098910155,
      "language_loss": 0.82825327,
      "learning_rate": 3.6827367425289797e-06,
      "loss": 0.85088664,
      "num_input_tokens_seen": 36461460,
      "step": 1716,
      "time_per_iteration": 2.6175084114074707
    },
    {
      "auxiliary_loss_clip": 0.01199019,
      "auxiliary_loss_mlp": 0.01040633,
      "balance_loss_clip": 1.05789208,
      "balance_loss_mlp": 1.03080416,
      "epoch": 0.2064570432273192,
      "flos": 20340163474560.0,
      "grad_norm": 2.4246957533310938,
      "language_loss": 0.72368884,
      "learning_rate": 3.6823156102651225e-06,
      "loss": 0.74608541,
      "num_input_tokens_seen": 36479615,
      "step": 1717,
      "time_per_iteration": 2.6933343410491943
    },
    {
      "auxiliary_loss_clip": 0.01156989,
      "auxiliary_loss_mlp": 0.0103747,
      "balance_loss_clip": 1.05560446,
      "balance_loss_mlp": 1.02691412,
      "epoch": 0.20657728611795828,
      "flos": 20520363029760.0,
      "grad_norm": 2.203954051789799,
      "language_loss": 0.71296608,
      "learning_rate": 3.6818942227953257e-06,
      "loss": 0.73491061,
      "num_input_tokens_seen": 36500160,
      "step": 1718,
      "time_per_iteration": 2.8032479286193848
    },
    {
      "auxiliary_loss_clip": 0.01188098,
      "auxiliary_loss_mlp": 0.01029725,
      "balance_loss_clip": 1.05467093,
      "balance_loss_mlp": 1.02006888,
      "epoch": 0.20669752900859736,
      "flos": 21799285752960.0,
      "grad_norm": 2.430051835027474,
      "language_loss": 0.69234514,
      "learning_rate": 3.681472580183512e-06,
      "loss": 0.71452338,
      "num_input_tokens_seen": 36518810,
      "step": 1719,
      "time_per_iteration": 2.772440195083618
    },
    {
      "auxiliary_loss_clip": 0.0120117,
      "auxiliary_loss_mlp": 0.01036129,
      "balance_loss_clip": 1.05674458,
      "balance_loss_mlp": 1.02559686,
      "epoch": 0.20681777189923645,
      "flos": 15122020014720.0,
      "grad_norm": 2.0811732988230087,
      "language_loss": 0.86404413,
      "learning_rate": 3.6810506824936455e-06,
      "loss": 0.88641709,
      "num_input_tokens_seen": 36536890,
      "step": 1720,
      "time_per_iteration": 2.709265947341919
    },
    {
      "auxiliary_loss_clip": 0.0109334,
      "auxiliary_loss_mlp": 0.01006922,
      "balance_loss_clip": 1.02216125,
      "balance_loss_mlp": 1.00365567,
      "epoch": 0.20693801478987556,
      "flos": 56481021509760.0,
      "grad_norm": 1.125729155058302,
      "language_loss": 0.62519407,
      "learning_rate": 3.680628529789726e-06,
      "loss": 0.64619666,
      "num_input_tokens_seen": 36589300,
      "step": 1721,
      "time_per_iteration": 3.1546523571014404
    },
    {
      "auxiliary_loss_clip": 0.01226536,
      "auxiliary_loss_mlp": 0.01039412,
      "balance_loss_clip": 1.0620929,
      "balance_loss_mlp": 1.02845693,
      "epoch": 0.20705825768051464,
      "flos": 21614201948160.0,
      "grad_norm": 14.715250642696311,
      "language_loss": 0.85930669,
      "learning_rate": 3.680206122135796e-06,
      "loss": 0.88196617,
      "num_input_tokens_seen": 36609905,
      "step": 1722,
      "time_per_iteration": 2.721004009246826
    },
    {
      "auxiliary_loss_clip": 0.01183351,
      "auxiliary_loss_mlp": 0.01036441,
      "balance_loss_clip": 1.05562592,
      "balance_loss_mlp": 1.02601027,
      "epoch": 0.20717850057115372,
      "flos": 25848895962240.0,
      "grad_norm": 1.7369191680695557,
      "language_loss": 0.78607321,
      "learning_rate": 3.6797834595959323e-06,
      "loss": 0.80827105,
      "num_input_tokens_seen": 36629805,
      "step": 1723,
      "time_per_iteration": 2.8129496574401855
    },
    {
      "auxiliary_loss_clip": 0.01165502,
      "auxiliary_loss_mlp": 0.01039826,
      "balance_loss_clip": 1.05068517,
      "balance_loss_mlp": 1.0288769,
      "epoch": 0.20729874346179283,
      "flos": 29130807767040.0,
      "grad_norm": 2.6911136075500623,
      "language_loss": 0.77957952,
      "learning_rate": 3.679360542234254e-06,
      "loss": 0.80163276,
      "num_input_tokens_seen": 36649150,
      "step": 1724,
      "time_per_iteration": 2.805917739868164
    },
    {
      "auxiliary_loss_clip": 0.01189553,
      "auxiliary_loss_mlp": 0.00889177,
      "balance_loss_clip": 1.05155313,
      "balance_loss_mlp": 1.00067747,
      "epoch": 0.20741898635243192,
      "flos": 29023363209600.0,
      "grad_norm": 1.7908945547076238,
      "language_loss": 0.72134131,
      "learning_rate": 3.678937370114916e-06,
      "loss": 0.74212861,
      "num_input_tokens_seen": 36668955,
      "step": 1725,
      "time_per_iteration": 2.832176923751831
    },
    {
      "auxiliary_loss_clip": 0.01193074,
      "auxiliary_loss_mlp": 0.0103412,
      "balance_loss_clip": 1.05832291,
      "balance_loss_mlp": 1.02368295,
      "epoch": 0.207539229243071,
      "flos": 15559447841280.0,
      "grad_norm": 1.9243512267870684,
      "language_loss": 0.78556788,
      "learning_rate": 3.678513943302114e-06,
      "loss": 0.80783975,
      "num_input_tokens_seen": 36685730,
      "step": 1726,
      "time_per_iteration": 2.6643221378326416
    },
    {
      "auxiliary_loss_clip": 0.01220075,
      "auxiliary_loss_mlp": 0.01028194,
      "balance_loss_clip": 1.06198406,
      "balance_loss_mlp": 1.01762617,
      "epoch": 0.20765947213371008,
      "flos": 20521081301760.0,
      "grad_norm": 1.7345796892281191,
      "language_loss": 0.85195673,
      "learning_rate": 3.678090261860082e-06,
      "loss": 0.87443936,
      "num_input_tokens_seen": 36705460,
      "step": 1727,
      "time_per_iteration": 3.630711793899536
    },
    {
      "auxiliary_loss_clip": 0.01188741,
      "auxiliary_loss_mlp": 0.01035341,
      "balance_loss_clip": 1.04995537,
      "balance_loss_mlp": 1.02545905,
      "epoch": 0.2077797150243492,
      "flos": 19354415558400.0,
      "grad_norm": 2.402196587950691,
      "language_loss": 0.78177053,
      "learning_rate": 3.6776663258530906e-06,
      "loss": 0.80401134,
      "num_input_tokens_seen": 36724110,
      "step": 1728,
      "time_per_iteration": 2.716444253921509
    },
    {
      "auxiliary_loss_clip": 0.01209943,
      "auxiliary_loss_mlp": 0.01033955,
      "balance_loss_clip": 1.0575074,
      "balance_loss_mlp": 1.02399468,
      "epoch": 0.20789995791498828,
      "flos": 21829952989440.0,
      "grad_norm": 1.9989545689176647,
      "language_loss": 0.7164188,
      "learning_rate": 3.6772421353454516e-06,
      "loss": 0.73885781,
      "num_input_tokens_seen": 36742705,
      "step": 1729,
      "time_per_iteration": 2.6983063220977783
    },
    {
      "auxiliary_loss_clip": 0.01204522,
      "auxiliary_loss_mlp": 0.01028519,
      "balance_loss_clip": 1.05912292,
      "balance_loss_mlp": 1.01840961,
      "epoch": 0.20802020080562736,
      "flos": 23148844571520.0,
      "grad_norm": 2.6409896269961393,
      "language_loss": 0.88557982,
      "learning_rate": 3.6768176904015153e-06,
      "loss": 0.90791023,
      "num_input_tokens_seen": 36762510,
      "step": 1730,
      "time_per_iteration": 2.7000222206115723
    },
    {
      "auxiliary_loss_clip": 0.0120826,
      "auxiliary_loss_mlp": 0.01035952,
      "balance_loss_clip": 1.05648136,
      "balance_loss_mlp": 1.02556324,
      "epoch": 0.20814044369626647,
      "flos": 23072677781760.0,
      "grad_norm": 2.781637834593368,
      "language_loss": 0.60317504,
      "learning_rate": 3.6763929910856674e-06,
      "loss": 0.62561715,
      "num_input_tokens_seen": 36780960,
      "step": 1731,
      "time_per_iteration": 2.7154152393341064
    },
    {
      "auxiliary_loss_clip": 0.0120555,
      "auxiliary_loss_mlp": 0.01038659,
      "balance_loss_clip": 1.05894899,
      "balance_loss_mlp": 1.02874708,
      "epoch": 0.20826068658690555,
      "flos": 19608016556160.0,
      "grad_norm": 1.9350894961893748,
      "language_loss": 0.77626044,
      "learning_rate": 3.6759680374623365e-06,
      "loss": 0.79870254,
      "num_input_tokens_seen": 36798875,
      "step": 1732,
      "time_per_iteration": 3.5656673908233643
    },
    {
      "auxiliary_loss_clip": 0.01215956,
      "auxiliary_loss_mlp": 0.01035125,
      "balance_loss_clip": 1.05959284,
      "balance_loss_mlp": 1.02458131,
      "epoch": 0.20838092947754464,
      "flos": 25374049142400.0,
      "grad_norm": 2.174469531318898,
      "language_loss": 0.75300419,
      "learning_rate": 3.675542829595986e-06,
      "loss": 0.77551496,
      "num_input_tokens_seen": 36818540,
      "step": 1733,
      "time_per_iteration": 3.559255838394165
    },
    {
      "auxiliary_loss_clip": 0.01197764,
      "auxiliary_loss_mlp": 0.01035718,
      "balance_loss_clip": 1.05574441,
      "balance_loss_mlp": 1.02629447,
      "epoch": 0.20850117236818372,
      "flos": 24061729749120.0,
      "grad_norm": 1.3941063481504614,
      "language_loss": 0.79102135,
      "learning_rate": 3.6751173675511213e-06,
      "loss": 0.81335622,
      "num_input_tokens_seen": 36840585,
      "step": 1734,
      "time_per_iteration": 2.769733428955078
    },
    {
      "auxiliary_loss_clip": 0.01193747,
      "auxiliary_loss_mlp": 0.01039289,
      "balance_loss_clip": 1.05170393,
      "balance_loss_mlp": 1.02935898,
      "epoch": 0.20862141525882283,
      "flos": 20077799558400.0,
      "grad_norm": 1.9383483803230754,
      "language_loss": 0.87382853,
      "learning_rate": 3.674691651392283e-06,
      "loss": 0.89615881,
      "num_input_tokens_seen": 36858255,
      "step": 1735,
      "time_per_iteration": 3.692092180252075
    },
    {
      "auxiliary_loss_clip": 0.01203129,
      "auxiliary_loss_mlp": 0.01045752,
      "balance_loss_clip": 1.05869567,
      "balance_loss_mlp": 1.03536892,
      "epoch": 0.2087416581494619,
      "flos": 39015183237120.0,
      "grad_norm": 1.9487605572125315,
      "language_loss": 0.76143652,
      "learning_rate": 3.674265681184053e-06,
      "loss": 0.78392529,
      "num_input_tokens_seen": 36881515,
      "step": 1736,
      "time_per_iteration": 2.916447639465332
    },
    {
      "auxiliary_loss_clip": 0.01194787,
      "auxiliary_loss_mlp": 0.01034695,
      "balance_loss_clip": 1.05350256,
      "balance_loss_mlp": 1.02396059,
      "epoch": 0.208861901040101,
      "flos": 26101994169600.0,
      "grad_norm": 1.6339413852116402,
      "language_loss": 0.86387372,
      "learning_rate": 3.6738394569910504e-06,
      "loss": 0.8861686,
      "num_input_tokens_seen": 36902055,
      "step": 1737,
      "time_per_iteration": 2.750225067138672
    },
    {
      "auxiliary_loss_clip": 0.01207516,
      "auxiliary_loss_mlp": 0.01032013,
      "balance_loss_clip": 1.05917406,
      "balance_loss_mlp": 1.02182662,
      "epoch": 0.2089821439307401,
      "flos": 28398732675840.0,
      "grad_norm": 2.2274154414466256,
      "language_loss": 0.82613194,
      "learning_rate": 3.6734129788779333e-06,
      "loss": 0.84852725,
      "num_input_tokens_seen": 36921230,
      "step": 1738,
      "time_per_iteration": 2.707306385040283
    },
    {
      "auxiliary_loss_clip": 0.01187104,
      "auxiliary_loss_mlp": 0.0103498,
      "balance_loss_clip": 1.05792856,
      "balance_loss_mlp": 1.02534199,
      "epoch": 0.2091023868213792,
      "flos": 21069616872960.0,
      "grad_norm": 3.325513608608106,
      "language_loss": 0.90412444,
      "learning_rate": 3.6729862469093976e-06,
      "loss": 0.92634535,
      "num_input_tokens_seen": 36940325,
      "step": 1739,
      "time_per_iteration": 2.7272708415985107
    },
    {
      "auxiliary_loss_clip": 0.011849,
      "auxiliary_loss_mlp": 0.01027067,
      "balance_loss_clip": 1.05376506,
      "balance_loss_mlp": 1.01752996,
      "epoch": 0.20922262971201827,
      "flos": 22455481363200.0,
      "grad_norm": 2.7743373738986907,
      "language_loss": 0.83030879,
      "learning_rate": 3.6725592611501782e-06,
      "loss": 0.85242844,
      "num_input_tokens_seen": 36959000,
      "step": 1740,
      "time_per_iteration": 2.710209369659424
    },
    {
      "auxiliary_loss_clip": 0.01206196,
      "auxiliary_loss_mlp": 0.01035299,
      "balance_loss_clip": 1.05616069,
      "balance_loss_mlp": 1.02530372,
      "epoch": 0.20934287260265738,
      "flos": 27852244179840.0,
      "grad_norm": 1.9434183912265226,
      "language_loss": 0.76801211,
      "learning_rate": 3.6721320216650496e-06,
      "loss": 0.79042709,
      "num_input_tokens_seen": 36979615,
      "step": 1741,
      "time_per_iteration": 2.715477228164673
    },
    {
      "auxiliary_loss_clip": 0.01195447,
      "auxiliary_loss_mlp": 0.01038711,
      "balance_loss_clip": 1.05752504,
      "balance_loss_mlp": 1.0282923,
      "epoch": 0.20946311549329646,
      "flos": 16435309075200.0,
      "grad_norm": 1.8679681958400531,
      "language_loss": 0.83739519,
      "learning_rate": 3.6717045285188215e-06,
      "loss": 0.8597368,
      "num_input_tokens_seen": 36997310,
      "step": 1742,
      "time_per_iteration": 2.7084922790527344
    },
    {
      "auxiliary_loss_clip": 0.01161609,
      "auxiliary_loss_mlp": 0.0103151,
      "balance_loss_clip": 1.04825127,
      "balance_loss_mlp": 1.02076924,
      "epoch": 0.20958335838393555,
      "flos": 22492720788480.0,
      "grad_norm": 2.4587187636252588,
      "language_loss": 0.87046897,
      "learning_rate": 3.671276781776346e-06,
      "loss": 0.89240015,
      "num_input_tokens_seen": 37015965,
      "step": 1743,
      "time_per_iteration": 2.791752338409424
    },
    {
      "auxiliary_loss_clip": 0.01194215,
      "auxiliary_loss_mlp": 0.01036684,
      "balance_loss_clip": 1.05077422,
      "balance_loss_mlp": 1.02625346,
      "epoch": 0.20970360127457463,
      "flos": 25224768218880.0,
      "grad_norm": 2.047644477337722,
      "language_loss": 0.67332959,
      "learning_rate": 3.6708487815025128e-06,
      "loss": 0.69563866,
      "num_input_tokens_seen": 37036545,
      "step": 1744,
      "time_per_iteration": 2.8793904781341553
    },
    {
      "auxiliary_loss_clip": 0.01187228,
      "auxiliary_loss_mlp": 0.01032877,
      "balance_loss_clip": 1.05471575,
      "balance_loss_mlp": 1.02276826,
      "epoch": 0.20982384416521374,
      "flos": 18479164855680.0,
      "grad_norm": 2.1681227988773313,
      "language_loss": 0.7452991,
      "learning_rate": 3.6704205277622463e-06,
      "loss": 0.76750016,
      "num_input_tokens_seen": 37054985,
      "step": 1745,
      "time_per_iteration": 2.7228615283966064
    },
    {
      "auxiliary_loss_clip": 0.01199524,
      "auxiliary_loss_mlp": 0.01037555,
      "balance_loss_clip": 1.05334616,
      "balance_loss_mlp": 1.02789307,
      "epoch": 0.20994408705585282,
      "flos": 25373546352000.0,
      "grad_norm": 2.2415839029602926,
      "language_loss": 0.80180776,
      "learning_rate": 3.6699920206205146e-06,
      "loss": 0.82417858,
      "num_input_tokens_seen": 37075725,
      "step": 1746,
      "time_per_iteration": 2.751828193664551
    },
    {
      "auxiliary_loss_clip": 0.01209745,
      "auxiliary_loss_mlp": 0.01040667,
      "balance_loss_clip": 1.05749035,
      "balance_loss_mlp": 1.03039718,
      "epoch": 0.2100643299464919,
      "flos": 21320955313920.0,
      "grad_norm": 1.8446073910012477,
      "language_loss": 0.81946129,
      "learning_rate": 3.669563260142321e-06,
      "loss": 0.84196544,
      "num_input_tokens_seen": 37094615,
      "step": 1747,
      "time_per_iteration": 2.6692986488342285
    },
    {
      "auxiliary_loss_clip": 0.01192441,
      "auxiliary_loss_mlp": 0.01038681,
      "balance_loss_clip": 1.05765295,
      "balance_loss_mlp": 1.02801776,
      "epoch": 0.21018457283713102,
      "flos": 19354379644800.0,
      "grad_norm": 2.895553788162705,
      "language_loss": 0.84395432,
      "learning_rate": 3.6691342463927083e-06,
      "loss": 0.86626554,
      "num_input_tokens_seen": 37113610,
      "step": 1748,
      "time_per_iteration": 2.7193429470062256
    },
    {
      "auxiliary_loss_clip": 0.0119216,
      "auxiliary_loss_mlp": 0.01035027,
      "balance_loss_clip": 1.05358839,
      "balance_loss_mlp": 1.02454233,
      "epoch": 0.2103048157277701,
      "flos": 28330035914880.0,
      "grad_norm": 1.814639127230339,
      "language_loss": 0.81698954,
      "learning_rate": 3.668704979436758e-06,
      "loss": 0.83926147,
      "num_input_tokens_seen": 37133705,
      "step": 1749,
      "time_per_iteration": 2.850524425506592
    },
    {
      "auxiliary_loss_clip": 0.0118919,
      "auxiliary_loss_mlp": 0.0103469,
      "balance_loss_clip": 1.05154216,
      "balance_loss_mlp": 1.02437246,
      "epoch": 0.21042505861840918,
      "flos": 17457290835840.0,
      "grad_norm": 1.9821251980716628,
      "language_loss": 0.78789282,
      "learning_rate": 3.668275459339588e-06,
      "loss": 0.81013161,
      "num_input_tokens_seen": 37152185,
      "step": 1750,
      "time_per_iteration": 2.7218828201293945
    },
    {
      "auxiliary_loss_clip": 0.01218662,
      "auxiliary_loss_mlp": 0.0103084,
      "balance_loss_clip": 1.06108904,
      "balance_loss_mlp": 1.02063584,
      "epoch": 0.21054530150904827,
      "flos": 14209817195520.0,
      "grad_norm": 1.8337618957891537,
      "language_loss": 0.80532193,
      "learning_rate": 3.667845686166358e-06,
      "loss": 0.82781696,
      "num_input_tokens_seen": 37169110,
      "step": 1751,
      "time_per_iteration": 2.6064727306365967
    },
    {
      "auxiliary_loss_clip": 0.01167357,
      "auxiliary_loss_mlp": 0.01044082,
      "balance_loss_clip": 1.05028963,
      "balance_loss_mlp": 1.03211284,
      "epoch": 0.21066554439968738,
      "flos": 18618210403200.0,
      "grad_norm": 1.8783730343772342,
      "language_loss": 0.86056459,
      "learning_rate": 3.6674156599822634e-06,
      "loss": 0.88267899,
      "num_input_tokens_seen": 37184905,
      "step": 1752,
      "time_per_iteration": 2.745192766189575
    },
    {
      "auxiliary_loss_clip": 0.01180838,
      "auxiliary_loss_mlp": 0.01036727,
      "balance_loss_clip": 1.05212522,
      "balance_loss_mlp": 1.02603436,
      "epoch": 0.21078578729032646,
      "flos": 23658883741440.0,
      "grad_norm": 2.0644801506319355,
      "language_loss": 0.81638658,
      "learning_rate": 3.666985380852539e-06,
      "loss": 0.83856225,
      "num_input_tokens_seen": 37203910,
      "step": 1753,
      "time_per_iteration": 3.687171220779419
    },
    {
      "auxiliary_loss_clip": 0.01196052,
      "auxiliary_loss_mlp": 0.01037186,
      "balance_loss_clip": 1.05664492,
      "balance_loss_mlp": 1.0271244,
      "epoch": 0.21090603018096554,
      "flos": 29346379240320.0,
      "grad_norm": 2.6517143264866125,
      "language_loss": 0.74641883,
      "learning_rate": 3.6665548488424576e-06,
      "loss": 0.76875126,
      "num_input_tokens_seen": 37222670,
      "step": 1754,
      "time_per_iteration": 2.8552229404449463
    },
    {
      "auxiliary_loss_clip": 0.01219735,
      "auxiliary_loss_mlp": 0.01029056,
      "balance_loss_clip": 1.06012821,
      "balance_loss_mlp": 1.01848233,
      "epoch": 0.21102627307160465,
      "flos": 23261245205760.0,
      "grad_norm": 1.9201329199439985,
      "language_loss": 0.8774879,
      "learning_rate": 3.6661240640173307e-06,
      "loss": 0.8999759,
      "num_input_tokens_seen": 37244140,
      "step": 1755,
      "time_per_iteration": 2.766315221786499
    },
    {
      "auxiliary_loss_clip": 0.0109807,
      "auxiliary_loss_mlp": 0.01003697,
      "balance_loss_clip": 1.03114104,
      "balance_loss_mlp": 1.00038326,
      "epoch": 0.21114651596224374,
      "flos": 54633454577280.0,
      "grad_norm": 2.11097182144428,
      "language_loss": 0.57847595,
      "learning_rate": 3.6656930264425085e-06,
      "loss": 0.59949362,
      "num_input_tokens_seen": 37308185,
      "step": 1756,
      "time_per_iteration": 3.3318517208099365
    },
    {
      "auxiliary_loss_clip": 0.01218389,
      "auxiliary_loss_mlp": 0.01033725,
      "balance_loss_clip": 1.06030893,
      "balance_loss_mlp": 1.02346098,
      "epoch": 0.21126675885288282,
      "flos": 21543314457600.0,
      "grad_norm": 2.0040833330139884,
      "language_loss": 0.75589103,
      "learning_rate": 3.665261736183378e-06,
      "loss": 0.77841216,
      "num_input_tokens_seen": 37328220,
      "step": 1757,
      "time_per_iteration": 2.6180477142333984
    },
    {
      "auxiliary_loss_clip": 0.01188799,
      "auxiliary_loss_mlp": 0.01035057,
      "balance_loss_clip": 1.05695271,
      "balance_loss_mlp": 1.02390528,
      "epoch": 0.2113870017435219,
      "flos": 10961876678400.0,
      "grad_norm": 2.5784697239415992,
      "language_loss": 0.89162701,
      "learning_rate": 3.664830193305366e-06,
      "loss": 0.91386557,
      "num_input_tokens_seen": 37345995,
      "step": 1758,
      "time_per_iteration": 2.7117016315460205
    },
    {
      "auxiliary_loss_clip": 0.01182189,
      "auxiliary_loss_mlp": 0.01034174,
      "balance_loss_clip": 1.05459976,
      "balance_loss_mlp": 1.02279568,
      "epoch": 0.211507244634161,
      "flos": 16653825463680.0,
      "grad_norm": 2.888206850493248,
      "language_loss": 0.77160907,
      "learning_rate": 3.6643983978739373e-06,
      "loss": 0.7937727,
      "num_input_tokens_seen": 37362610,
      "step": 1759,
      "time_per_iteration": 4.735666036605835
    },
    {
      "auxiliary_loss_clip": 0.01192228,
      "auxiliary_loss_mlp": 0.01034816,
      "balance_loss_clip": 1.05872166,
      "balance_loss_mlp": 1.02464771,
      "epoch": 0.2116274875248001,
      "flos": 20954091755520.0,
      "grad_norm": 1.8095547461171526,
      "language_loss": 0.82054913,
      "learning_rate": 3.663966349954596e-06,
      "loss": 0.84281951,
      "num_input_tokens_seen": 37382790,
      "step": 1760,
      "time_per_iteration": 3.722665786743164
    },
    {
      "auxiliary_loss_clip": 0.01109742,
      "auxiliary_loss_mlp": 0.01002477,
      "balance_loss_clip": 1.02891254,
      "balance_loss_mlp": 0.99928266,
      "epoch": 0.21174773041543918,
      "flos": 68196949424640.0,
      "grad_norm": 0.795947006093697,
      "language_loss": 0.59701425,
      "learning_rate": 3.6635340496128816e-06,
      "loss": 0.61813647,
      "num_input_tokens_seen": 37439720,
      "step": 1761,
      "time_per_iteration": 3.1251707077026367
    },
    {
      "auxiliary_loss_clip": 0.01174408,
      "auxiliary_loss_mlp": 0.0103213,
      "balance_loss_clip": 1.05382359,
      "balance_loss_mlp": 1.0223372,
      "epoch": 0.2118679733060783,
      "flos": 20668315150080.0,
      "grad_norm": 2.1050073703565024,
      "language_loss": 0.92764676,
      "learning_rate": 3.6631014969143747e-06,
      "loss": 0.94971216,
      "num_input_tokens_seen": 37459410,
      "step": 1762,
      "time_per_iteration": 2.765679359436035
    },
    {
      "auxiliary_loss_clip": 0.01208232,
      "auxiliary_loss_mlp": 0.01032812,
      "balance_loss_clip": 1.06061697,
      "balance_loss_mlp": 1.02282262,
      "epoch": 0.21198821619671737,
      "flos": 23223431162880.0,
      "grad_norm": 1.7468000784516429,
      "language_loss": 0.88882077,
      "learning_rate": 3.662668691924693e-06,
      "loss": 0.91123116,
      "num_input_tokens_seen": 37480460,
      "step": 1763,
      "time_per_iteration": 2.6813127994537354
    },
    {
      "auxiliary_loss_clip": 0.01185938,
      "auxiliary_loss_mlp": 0.01036126,
      "balance_loss_clip": 1.05436659,
      "balance_loss_mlp": 1.02595782,
      "epoch": 0.21210845908735645,
      "flos": 24498547044480.0,
      "grad_norm": 3.0210482615872523,
      "language_loss": 0.71657789,
      "learning_rate": 3.6622356347094927e-06,
      "loss": 0.73879862,
      "num_input_tokens_seen": 37502025,
      "step": 1764,
      "time_per_iteration": 2.830559015274048
    },
    {
      "auxiliary_loss_clip": 0.01190089,
      "auxiliary_loss_mlp": 0.01041378,
      "balance_loss_clip": 1.05537963,
      "balance_loss_mlp": 1.03032148,
      "epoch": 0.21222870197799554,
      "flos": 27089789160960.0,
      "grad_norm": 2.3037592990315967,
      "language_loss": 0.79068851,
      "learning_rate": 3.6618023253344684e-06,
      "loss": 0.81300318,
      "num_input_tokens_seen": 37520885,
      "step": 1765,
      "time_per_iteration": 2.747405767440796
    },
    {
      "auxiliary_loss_clip": 0.01209557,
      "auxiliary_loss_mlp": 0.01035622,
      "balance_loss_clip": 1.05900025,
      "balance_loss_mlp": 1.02493477,
      "epoch": 0.21234894486863465,
      "flos": 16873850223360.0,
      "grad_norm": 1.7011811850164198,
      "language_loss": 0.83707422,
      "learning_rate": 3.6613687638653527e-06,
      "loss": 0.85952598,
      "num_input_tokens_seen": 37539055,
      "step": 1766,
      "time_per_iteration": 2.68925142288208
    },
    {
      "auxiliary_loss_clip": 0.0119735,
      "auxiliary_loss_mlp": 0.01038665,
      "balance_loss_clip": 1.0613265,
      "balance_loss_mlp": 1.02803171,
      "epoch": 0.21246918775927373,
      "flos": 23474949171840.0,
      "grad_norm": 2.126243005302741,
      "language_loss": 0.77738094,
      "learning_rate": 3.660934950367916e-06,
      "loss": 0.79974109,
      "num_input_tokens_seen": 37558300,
      "step": 1767,
      "time_per_iteration": 2.71901273727417
    },
    {
      "auxiliary_loss_clip": 0.0121136,
      "auxiliary_loss_mlp": 0.01034075,
      "balance_loss_clip": 1.05992079,
      "balance_loss_mlp": 1.02370989,
      "epoch": 0.21258943064991281,
      "flos": 22382295402240.0,
      "grad_norm": 1.7981001994754766,
      "language_loss": 0.83436471,
      "learning_rate": 3.660500884907968e-06,
      "loss": 0.85681909,
      "num_input_tokens_seen": 37579040,
      "step": 1768,
      "time_per_iteration": 2.6618549823760986
    },
    {
      "auxiliary_loss_clip": 0.01077373,
      "auxiliary_loss_mlp": 0.01003378,
      "balance_loss_clip": 1.02165341,
      "balance_loss_mlp": 1.00020754,
      "epoch": 0.21270967354055192,
      "flos": 59440168679040.0,
      "grad_norm": 0.8233499825116938,
      "language_loss": 0.60010654,
      "learning_rate": 3.660066567551356e-06,
      "loss": 0.62091404,
      "num_input_tokens_seen": 37639185,
      "step": 1769,
      "time_per_iteration": 3.1993610858917236
    },
    {
      "auxiliary_loss_clip": 0.01209719,
      "auxiliary_loss_mlp": 0.00889254,
      "balance_loss_clip": 1.05958796,
      "balance_loss_mlp": 1.00074339,
      "epoch": 0.212829916431191,
      "flos": 21544032729600.0,
      "grad_norm": 2.330393655888639,
      "language_loss": 0.84242553,
      "learning_rate": 3.6596319983639657e-06,
      "loss": 0.86341524,
      "num_input_tokens_seen": 37657765,
      "step": 1770,
      "time_per_iteration": 2.6870360374450684
    },
    {
      "auxiliary_loss_clip": 0.01189344,
      "auxiliary_loss_mlp": 0.00889833,
      "balance_loss_clip": 1.05572891,
      "balance_loss_mlp": 1.00068617,
      "epoch": 0.2129501593218301,
      "flos": 28987739896320.0,
      "grad_norm": 1.9977356553293375,
      "language_loss": 0.86275375,
      "learning_rate": 3.6591971774117214e-06,
      "loss": 0.88354552,
      "num_input_tokens_seen": 37680740,
      "step": 1771,
      "time_per_iteration": 2.7839229106903076
    },
    {
      "auxiliary_loss_clip": 0.01214647,
      "auxiliary_loss_mlp": 0.01041367,
      "balance_loss_clip": 1.06202173,
      "balance_loss_mlp": 1.03097785,
      "epoch": 0.2130704022124692,
      "flos": 18806993308800.0,
      "grad_norm": 3.6779894786787803,
      "language_loss": 0.8039971,
      "learning_rate": 3.6587621047605833e-06,
      "loss": 0.82655722,
      "num_input_tokens_seen": 37697910,
      "step": 1772,
      "time_per_iteration": 2.6568124294281006
    },
    {
      "auxiliary_loss_clip": 0.01210037,
      "auxiliary_loss_mlp": 0.01036812,
      "balance_loss_clip": 1.06082582,
      "balance_loss_mlp": 1.02595186,
      "epoch": 0.21319064510310828,
      "flos": 13918150759680.0,
      "grad_norm": 1.9829659394322858,
      "language_loss": 0.87098122,
      "learning_rate": 3.6583267804765542e-06,
      "loss": 0.89344966,
      "num_input_tokens_seen": 37712245,
      "step": 1773,
      "time_per_iteration": 2.685105800628662
    },
    {
      "auxiliary_loss_clip": 0.01210527,
      "auxiliary_loss_mlp": 0.01030679,
      "balance_loss_clip": 1.06096995,
      "balance_loss_mlp": 1.02002752,
      "epoch": 0.21331088799374737,
      "flos": 20959694277120.0,
      "grad_norm": 1.8093567109934872,
      "language_loss": 0.85684204,
      "learning_rate": 3.6578912046256702e-06,
      "loss": 0.8792541,
      "num_input_tokens_seen": 37730765,
      "step": 1774,
      "time_per_iteration": 2.673060655593872
    },
    {
      "auxiliary_loss_clip": 0.01183921,
      "auxiliary_loss_mlp": 0.01030527,
      "balance_loss_clip": 1.05401897,
      "balance_loss_mlp": 1.01963699,
      "epoch": 0.21343113088438645,
      "flos": 18624638937600.0,
      "grad_norm": 2.501754067830226,
      "language_loss": 0.76388741,
      "learning_rate": 3.6574553772740083e-06,
      "loss": 0.78603184,
      "num_input_tokens_seen": 37748695,
      "step": 1775,
      "time_per_iteration": 2.7182400226593018
    },
    {
      "auxiliary_loss_clip": 0.01107524,
      "auxiliary_loss_mlp": 0.01013855,
      "balance_loss_clip": 1.03280652,
      "balance_loss_mlp": 1.01073194,
      "epoch": 0.21355137377502556,
      "flos": 67413128791680.0,
      "grad_norm": 0.8604982555652366,
      "language_loss": 0.61908495,
      "learning_rate": 3.657019298487684e-06,
      "loss": 0.64029878,
      "num_input_tokens_seen": 37813705,
      "step": 1776,
      "time_per_iteration": 3.4158523082733154
    },
    {
      "auxiliary_loss_clip": 0.0121462,
      "auxiliary_loss_mlp": 0.00889533,
      "balance_loss_clip": 1.05885565,
      "balance_loss_mlp": 1.00070238,
      "epoch": 0.21367161666566464,
      "flos": 34532095697280.0,
      "grad_norm": 1.8311041709313338,
      "language_loss": 0.83288276,
      "learning_rate": 3.6565829683328495e-06,
      "loss": 0.85392427,
      "num_input_tokens_seen": 37836330,
      "step": 1777,
      "time_per_iteration": 2.7864675521850586
    },
    {
      "auxiliary_loss_clip": 0.01204937,
      "auxiliary_loss_mlp": 0.01044879,
      "balance_loss_clip": 1.05977035,
      "balance_loss_mlp": 1.03457308,
      "epoch": 0.21379185955630373,
      "flos": 18989347680000.0,
      "grad_norm": 2.2052488992382995,
      "language_loss": 0.85672963,
      "learning_rate": 3.6561463868756965e-06,
      "loss": 0.87922788,
      "num_input_tokens_seen": 37855030,
      "step": 1778,
      "time_per_iteration": 3.59980845451355
    },
    {
      "auxiliary_loss_clip": 0.01211365,
      "auxiliary_loss_mlp": 0.01034807,
      "balance_loss_clip": 1.06229997,
      "balance_loss_mlp": 1.02394128,
      "epoch": 0.21391210244694284,
      "flos": 28218497207040.0,
      "grad_norm": 2.497955836964776,
      "language_loss": 0.78345823,
      "learning_rate": 3.655709554182452e-06,
      "loss": 0.80592,
      "num_input_tokens_seen": 37875370,
      "step": 1779,
      "time_per_iteration": 2.7100841999053955
    },
    {
      "auxiliary_loss_clip": 0.01209581,
      "auxiliary_loss_mlp": 0.01037304,
      "balance_loss_clip": 1.05700672,
      "balance_loss_mlp": 1.02720058,
      "epoch": 0.21403234533758192,
      "flos": 17455064192640.0,
      "grad_norm": 1.8034620270834296,
      "language_loss": 0.8432703,
      "learning_rate": 3.6552724703193855e-06,
      "loss": 0.86573911,
      "num_input_tokens_seen": 37892560,
      "step": 1780,
      "time_per_iteration": 2.6596412658691406
    },
    {
      "auxiliary_loss_clip": 0.01084364,
      "auxiliary_loss_mlp": 0.0100254,
      "balance_loss_clip": 1.02466571,
      "balance_loss_mlp": 0.9995122,
      "epoch": 0.214152588228221,
      "flos": 51637606686720.0,
      "grad_norm": 0.7960603852942068,
      "language_loss": 0.55967689,
      "learning_rate": 3.654835135352801e-06,
      "loss": 0.5805459,
      "num_input_tokens_seen": 37947370,
      "step": 1781,
      "time_per_iteration": 3.1793127059936523
    },
    {
      "auxiliary_loss_clip": 0.0117566,
      "auxiliary_loss_mlp": 0.01031099,
      "balance_loss_clip": 1.04940307,
      "balance_loss_mlp": 1.02112758,
      "epoch": 0.21427283111886009,
      "flos": 19496154625920.0,
      "grad_norm": 2.5332929299900595,
      "language_loss": 0.87830168,
      "learning_rate": 3.654397549349043e-06,
      "loss": 0.90036929,
      "num_input_tokens_seen": 37964745,
      "step": 1782,
      "time_per_iteration": 2.7410645484924316
    },
    {
      "auxiliary_loss_clip": 0.01198995,
      "auxiliary_loss_mlp": 0.01034837,
      "balance_loss_clip": 1.0620172,
      "balance_loss_mlp": 1.0242815,
      "epoch": 0.2143930740094992,
      "flos": 20084802710400.0,
      "grad_norm": 2.166219754188104,
      "language_loss": 0.75284016,
      "learning_rate": 3.653959712374491e-06,
      "loss": 0.77517843,
      "num_input_tokens_seen": 37982850,
      "step": 1783,
      "time_per_iteration": 2.687147378921509
    },
    {
      "auxiliary_loss_clip": 0.01183813,
      "auxiliary_loss_mlp": 0.01033232,
      "balance_loss_clip": 1.05981553,
      "balance_loss_mlp": 1.02330756,
      "epoch": 0.21451331690013828,
      "flos": 21798603394560.0,
      "grad_norm": 1.7062025683778512,
      "language_loss": 0.82787061,
      "learning_rate": 3.6535216244955663e-06,
      "loss": 0.85004109,
      "num_input_tokens_seen": 38002745,
      "step": 1784,
      "time_per_iteration": 2.74045991897583
    },
    {
      "auxiliary_loss_clip": 0.0119636,
      "auxiliary_loss_mlp": 0.01038317,
      "balance_loss_clip": 1.05868387,
      "balance_loss_mlp": 1.02825618,
      "epoch": 0.21463355979077736,
      "flos": 32853882412800.0,
      "grad_norm": 1.87483595350475,
      "language_loss": 0.70919716,
      "learning_rate": 3.653083285778726e-06,
      "loss": 0.7315439,
      "num_input_tokens_seen": 38024115,
      "step": 1785,
      "time_per_iteration": 3.8219549655914307
    },
    {
      "auxiliary_loss_clip": 0.01212034,
      "auxiliary_loss_mlp": 0.01041166,
      "balance_loss_clip": 1.05866444,
      "balance_loss_mlp": 1.02953768,
      "epoch": 0.21475380268141647,
      "flos": 21543817248000.0,
      "grad_norm": 2.817002585291953,
      "language_loss": 0.81317818,
      "learning_rate": 3.6526446962904653e-06,
      "loss": 0.83571017,
      "num_input_tokens_seen": 38042830,
      "step": 1786,
      "time_per_iteration": 3.6513309478759766
    },
    {
      "auxiliary_loss_clip": 0.01206806,
      "auxiliary_loss_mlp": 0.01038461,
      "balance_loss_clip": 1.06266129,
      "balance_loss_mlp": 1.02748132,
      "epoch": 0.21487404557205556,
      "flos": 32159082660480.0,
      "grad_norm": 1.5957449848828975,
      "language_loss": 0.74432206,
      "learning_rate": 3.652205856097318e-06,
      "loss": 0.76677477,
      "num_input_tokens_seen": 38066015,
      "step": 1787,
      "time_per_iteration": 2.729607343673706
    },
    {
      "auxiliary_loss_clip": 0.01199525,
      "auxiliary_loss_mlp": 0.00889463,
      "balance_loss_clip": 1.05694735,
      "balance_loss_mlp": 1.00063086,
      "epoch": 0.21499428846269464,
      "flos": 12673091583360.0,
      "grad_norm": 2.032471177779094,
      "language_loss": 0.78988481,
      "learning_rate": 3.651766765265856e-06,
      "loss": 0.81077462,
      "num_input_tokens_seen": 38083025,
      "step": 1788,
      "time_per_iteration": 2.7016539573669434
    },
    {
      "auxiliary_loss_clip": 0.01195186,
      "auxiliary_loss_mlp": 0.01033896,
      "balance_loss_clip": 1.05762339,
      "balance_loss_mlp": 1.02327406,
      "epoch": 0.21511453135333372,
      "flos": 23471573293440.0,
      "grad_norm": 2.930190861826182,
      "language_loss": 0.80875772,
      "learning_rate": 3.65132742386269e-06,
      "loss": 0.83104855,
      "num_input_tokens_seen": 38098245,
      "step": 1789,
      "time_per_iteration": 2.7142157554626465
    },
    {
      "auxiliary_loss_clip": 0.01218975,
      "auxiliary_loss_mlp": 0.01031777,
      "balance_loss_clip": 1.0610435,
      "balance_loss_mlp": 1.021734,
      "epoch": 0.21523477424397283,
      "flos": 26943560893440.0,
      "grad_norm": 1.8692832251399574,
      "language_loss": 0.84373939,
      "learning_rate": 3.6508878319544656e-06,
      "loss": 0.86624694,
      "num_input_tokens_seen": 38118460,
      "step": 1790,
      "time_per_iteration": 2.714721918106079
    },
    {
      "auxiliary_loss_clip": 0.0118749,
      "auxiliary_loss_mlp": 0.01036143,
      "balance_loss_clip": 1.05571258,
      "balance_loss_mlp": 1.02558708,
      "epoch": 0.21535501713461191,
      "flos": 18916161719040.0,
      "grad_norm": 2.661213560706272,
      "language_loss": 0.80991387,
      "learning_rate": 3.65044798960787e-06,
      "loss": 0.83215022,
      "num_input_tokens_seen": 38136800,
      "step": 1791,
      "time_per_iteration": 2.679922580718994
    },
    {
      "auxiliary_loss_clip": 0.01178996,
      "auxiliary_loss_mlp": 0.01033964,
      "balance_loss_clip": 1.05465281,
      "balance_loss_mlp": 1.02349699,
      "epoch": 0.215475260025251,
      "flos": 17895113712000.0,
      "grad_norm": 1.9054104349400869,
      "language_loss": 0.78084773,
      "learning_rate": 3.650007896889627e-06,
      "loss": 0.80297732,
      "num_input_tokens_seen": 38155380,
      "step": 1792,
      "time_per_iteration": 2.7437667846679688
    },
    {
      "auxiliary_loss_clip": 0.01220481,
      "auxiliary_loss_mlp": 0.01041488,
      "balance_loss_clip": 1.06474853,
      "balance_loss_mlp": 1.03106332,
      "epoch": 0.2155955029158901,
      "flos": 16654292340480.0,
      "grad_norm": 2.2244760957599166,
      "language_loss": 0.80734086,
      "learning_rate": 3.6495675538664974e-06,
      "loss": 0.82996047,
      "num_input_tokens_seen": 38174395,
      "step": 1793,
      "time_per_iteration": 2.635079860687256
    },
    {
      "auxiliary_loss_clip": 0.01198297,
      "auxiliary_loss_mlp": 0.01033073,
      "balance_loss_clip": 1.05576062,
      "balance_loss_mlp": 1.02301717,
      "epoch": 0.2157157458065292,
      "flos": 23621213352960.0,
      "grad_norm": 1.727775645027011,
      "language_loss": 0.82706749,
      "learning_rate": 3.649126960605282e-06,
      "loss": 0.84938121,
      "num_input_tokens_seen": 38195380,
      "step": 1794,
      "time_per_iteration": 2.7438137531280518
    },
    {
      "auxiliary_loss_clip": 0.01190197,
      "auxiliary_loss_mlp": 0.0103665,
      "balance_loss_clip": 1.05363607,
      "balance_loss_mlp": 1.02588582,
      "epoch": 0.21583598869716827,
      "flos": 22127078292480.0,
      "grad_norm": 2.48721978194276,
      "language_loss": 0.83919334,
      "learning_rate": 3.6486861171728174e-06,
      "loss": 0.86146176,
      "num_input_tokens_seen": 38213775,
      "step": 1795,
      "time_per_iteration": 2.6633224487304688
    },
    {
      "auxiliary_loss_clip": 0.01189995,
      "auxiliary_loss_mlp": 0.01031153,
      "balance_loss_clip": 1.05347085,
      "balance_loss_mlp": 1.02072191,
      "epoch": 0.21595623158780738,
      "flos": 23441229279360.0,
      "grad_norm": 2.0225046678648395,
      "language_loss": 0.78329128,
      "learning_rate": 3.6482450236359803e-06,
      "loss": 0.80550271,
      "num_input_tokens_seen": 38235630,
      "step": 1796,
      "time_per_iteration": 2.8090598583221436
    },
    {
      "auxiliary_loss_clip": 0.01207513,
      "auxiliary_loss_mlp": 0.010386,
      "balance_loss_clip": 1.06085789,
      "balance_loss_mlp": 1.02811575,
      "epoch": 0.21607647447844647,
      "flos": 26906501036160.0,
      "grad_norm": 2.609923900741149,
      "language_loss": 0.78068817,
      "learning_rate": 3.647803680061683e-06,
      "loss": 0.80314928,
      "num_input_tokens_seen": 38256045,
      "step": 1797,
      "time_per_iteration": 2.743562698364258
    },
    {
      "auxiliary_loss_clip": 0.01201049,
      "auxiliary_loss_mlp": 0.01032733,
      "balance_loss_clip": 1.05933976,
      "balance_loss_mlp": 1.02206969,
      "epoch": 0.21619671736908555,
      "flos": 14495378319360.0,
      "grad_norm": 2.3678646044634974,
      "language_loss": 0.74575126,
      "learning_rate": 3.6473620865168776e-06,
      "loss": 0.76808906,
      "num_input_tokens_seen": 38272915,
      "step": 1798,
      "time_per_iteration": 2.703894853591919
    },
    {
      "auxiliary_loss_clip": 0.01198549,
      "auxiliary_loss_mlp": 0.01035698,
      "balance_loss_clip": 1.0606339,
      "balance_loss_mlp": 1.025738,
      "epoch": 0.21631696025972463,
      "flos": 17931096161280.0,
      "grad_norm": 3.494701497183521,
      "language_loss": 0.81788516,
      "learning_rate": 3.646920243068554e-06,
      "loss": 0.84022766,
      "num_input_tokens_seen": 38290810,
      "step": 1799,
      "time_per_iteration": 2.7862157821655273
    },
    {
      "auxiliary_loss_clip": 0.01188409,
      "auxiliary_loss_mlp": 0.01030302,
      "balance_loss_clip": 1.05816948,
      "balance_loss_mlp": 1.01974034,
      "epoch": 0.21643720315036374,
      "flos": 24462385027200.0,
      "grad_norm": 1.6302987049459463,
      "language_loss": 0.74628246,
      "learning_rate": 3.6464781497837384e-06,
      "loss": 0.76846957,
      "num_input_tokens_seen": 38312785,
      "step": 1800,
      "time_per_iteration": 2.7260308265686035
    },
    {
      "auxiliary_loss_clip": 0.01202954,
      "auxiliary_loss_mlp": 0.01038421,
      "balance_loss_clip": 1.05684447,
      "balance_loss_mlp": 1.02857995,
      "epoch": 0.21655744604100283,
      "flos": 28474432588800.0,
      "grad_norm": 1.7481174885095239,
      "language_loss": 0.72717917,
      "learning_rate": 3.6460358067294965e-06,
      "loss": 0.7495929,
      "num_input_tokens_seen": 38334015,
      "step": 1801,
      "time_per_iteration": 2.749847173690796
    },
    {
      "auxiliary_loss_clip": 0.01219654,
      "auxiliary_loss_mlp": 0.01034086,
      "balance_loss_clip": 1.06044674,
      "balance_loss_mlp": 1.02329803,
      "epoch": 0.2166776889316419,
      "flos": 20152960767360.0,
      "grad_norm": 4.627573808568088,
      "language_loss": 0.77994573,
      "learning_rate": 3.645593213972932e-06,
      "loss": 0.80248314,
      "num_input_tokens_seen": 38352920,
      "step": 1802,
      "time_per_iteration": 2.636997938156128
    },
    {
      "auxiliary_loss_clip": 0.01202756,
      "auxiliary_loss_mlp": 0.01039096,
      "balance_loss_clip": 1.05924284,
      "balance_loss_mlp": 1.02868867,
      "epoch": 0.21679793182228102,
      "flos": 15193482122880.0,
      "grad_norm": 3.582774513925389,
      "language_loss": 0.79677975,
      "learning_rate": 3.6451503715811852e-06,
      "loss": 0.81919825,
      "num_input_tokens_seen": 38371230,
      "step": 1803,
      "time_per_iteration": 2.6471188068389893
    },
    {
      "auxiliary_loss_clip": 0.01201192,
      "auxiliary_loss_mlp": 0.01034097,
      "balance_loss_clip": 1.06407213,
      "balance_loss_mlp": 1.02349949,
      "epoch": 0.2169181747129201,
      "flos": 17384464010880.0,
      "grad_norm": 2.0542403543966095,
      "language_loss": 0.80554771,
      "learning_rate": 3.6447072796214345e-06,
      "loss": 0.82790065,
      "num_input_tokens_seen": 38389795,
      "step": 1804,
      "time_per_iteration": 3.575995445251465
    },
    {
      "auxiliary_loss_clip": 0.01085893,
      "auxiliary_loss_mlp": 0.01004969,
      "balance_loss_clip": 1.02888203,
      "balance_loss_mlp": 1.00189304,
      "epoch": 0.21703841760355919,
      "flos": 58760955429120.0,
      "grad_norm": 0.9156424328270069,
      "language_loss": 0.63146687,
      "learning_rate": 3.644263938160898e-06,
      "loss": 0.65237558,
      "num_input_tokens_seen": 38445760,
      "step": 1805,
      "time_per_iteration": 3.1910600662231445
    },
    {
      "auxiliary_loss_clip": 0.01189712,
      "auxiliary_loss_mlp": 0.01040497,
      "balance_loss_clip": 1.05868018,
      "balance_loss_mlp": 1.0296905,
      "epoch": 0.21715866049419827,
      "flos": 22418457419520.0,
      "grad_norm": 1.8270030350577653,
      "language_loss": 0.71952319,
      "learning_rate": 3.6438203472668293e-06,
      "loss": 0.74182522,
      "num_input_tokens_seen": 38465405,
      "step": 1806,
      "time_per_iteration": 2.7461626529693604
    },
    {
      "auxiliary_loss_clip": 0.01200823,
      "auxiliary_loss_mlp": 0.01036127,
      "balance_loss_clip": 1.05784416,
      "balance_loss_mlp": 1.02579761,
      "epoch": 0.21727890338483738,
      "flos": 17237732952960.0,
      "grad_norm": 3.264999581565362,
      "language_loss": 0.81845522,
      "learning_rate": 3.6433765070065206e-06,
      "loss": 0.84082472,
      "num_input_tokens_seen": 38483195,
      "step": 1807,
      "time_per_iteration": 2.677906036376953
    },
    {
      "auxiliary_loss_clip": 0.0122121,
      "auxiliary_loss_mlp": 0.01031504,
      "balance_loss_clip": 1.06200743,
      "balance_loss_mlp": 1.02094173,
      "epoch": 0.21739914627547646,
      "flos": 13434792416640.0,
      "grad_norm": 2.5547811688897832,
      "language_loss": 0.87322688,
      "learning_rate": 3.6429324174473025e-06,
      "loss": 0.89575404,
      "num_input_tokens_seen": 38496735,
      "step": 1808,
      "time_per_iteration": 2.654431104660034
    },
    {
      "auxiliary_loss_clip": 0.01209945,
      "auxiliary_loss_mlp": 0.01029737,
      "balance_loss_clip": 1.05952907,
      "balance_loss_mlp": 1.01956844,
      "epoch": 0.21751938916611555,
      "flos": 20959514709120.0,
      "grad_norm": 5.6180960355771274,
      "language_loss": 0.84754443,
      "learning_rate": 3.6424880786565425e-06,
      "loss": 0.86994123,
      "num_input_tokens_seen": 38512880,
      "step": 1809,
      "time_per_iteration": 2.673861026763916
    },
    {
      "auxiliary_loss_clip": 0.01176529,
      "auxiliary_loss_mlp": 0.01033627,
      "balance_loss_clip": 1.05760682,
      "balance_loss_mlp": 1.02355349,
      "epoch": 0.21763963205675466,
      "flos": 27599936071680.0,
      "grad_norm": 2.8027535423813505,
      "language_loss": 0.79767323,
      "learning_rate": 3.6420434907016482e-06,
      "loss": 0.81977481,
      "num_input_tokens_seen": 38532570,
      "step": 1810,
      "time_per_iteration": 4.8046393394470215
    },
    {
      "auxiliary_loss_clip": 0.01210735,
      "auxiliary_loss_mlp": 0.0103549,
      "balance_loss_clip": 1.06455994,
      "balance_loss_mlp": 1.02572048,
      "epoch": 0.21775987494739374,
      "flos": 21430411032960.0,
      "grad_norm": 1.87473358200673,
      "language_loss": 0.81307673,
      "learning_rate": 3.6415986536500606e-06,
      "loss": 0.83553898,
      "num_input_tokens_seen": 38550900,
      "step": 1811,
      "time_per_iteration": 2.6673009395599365
    },
    {
      "auxiliary_loss_clip": 0.0117177,
      "auxiliary_loss_mlp": 0.01037164,
      "balance_loss_clip": 1.06047344,
      "balance_loss_mlp": 1.02738309,
      "epoch": 0.21788011783803282,
      "flos": 18332972501760.0,
      "grad_norm": 2.0766737328256717,
      "language_loss": 0.80681038,
      "learning_rate": 3.641153567569263e-06,
      "loss": 0.82889974,
      "num_input_tokens_seen": 38569215,
      "step": 1812,
      "time_per_iteration": 3.723771333694458
    },
    {
      "auxiliary_loss_clip": 0.01204855,
      "auxiliary_loss_mlp": 0.01030919,
      "balance_loss_clip": 1.05900168,
      "balance_loss_mlp": 1.02114952,
      "epoch": 0.2180003607286719,
      "flos": 30262748037120.0,
      "grad_norm": 2.7484357586228314,
      "language_loss": 0.95607841,
      "learning_rate": 3.640708232526774e-06,
      "loss": 0.97843611,
      "num_input_tokens_seen": 38587870,
      "step": 1813,
      "time_per_iteration": 2.683696746826172
    },
    {
      "auxiliary_loss_clip": 0.01165987,
      "auxiliary_loss_mlp": 0.01034404,
      "balance_loss_clip": 1.04853225,
      "balance_loss_mlp": 1.02370512,
      "epoch": 0.21812060361931102,
      "flos": 25480272637440.0,
      "grad_norm": 2.2213541871849083,
      "language_loss": 0.78486216,
      "learning_rate": 3.6402626485901504e-06,
      "loss": 0.80686611,
      "num_input_tokens_seen": 38606965,
      "step": 1814,
      "time_per_iteration": 2.835967779159546
    },
    {
      "auxiliary_loss_clip": 0.01206265,
      "auxiliary_loss_mlp": 0.0103931,
      "balance_loss_clip": 1.06338823,
      "balance_loss_mlp": 1.02971351,
      "epoch": 0.2182408465099501,
      "flos": 21908166854400.0,
      "grad_norm": 2.237737731391544,
      "language_loss": 0.78109968,
      "learning_rate": 3.639816815826988e-06,
      "loss": 0.80355549,
      "num_input_tokens_seen": 38626290,
      "step": 1815,
      "time_per_iteration": 2.6545917987823486
    },
    {
      "auxiliary_loss_clip": 0.01194506,
      "auxiliary_loss_mlp": 0.01038262,
      "balance_loss_clip": 1.05812454,
      "balance_loss_mlp": 1.02823615,
      "epoch": 0.21836108940058918,
      "flos": 23657339456640.0,
      "grad_norm": 3.418383077111704,
      "language_loss": 0.78746516,
      "learning_rate": 3.6393707343049176e-06,
      "loss": 0.80979282,
      "num_input_tokens_seen": 38646620,
      "step": 1816,
      "time_per_iteration": 2.7321388721466064
    },
    {
      "auxiliary_loss_clip": 0.0121011,
      "auxiliary_loss_mlp": 0.01037965,
      "balance_loss_clip": 1.05830467,
      "balance_loss_mlp": 1.02861929,
      "epoch": 0.2184813322912283,
      "flos": 24681009156480.0,
      "grad_norm": 3.6503061890130883,
      "language_loss": 0.73830521,
      "learning_rate": 3.6389244040916104e-06,
      "loss": 0.76078594,
      "num_input_tokens_seen": 38665695,
      "step": 1817,
      "time_per_iteration": 2.659221649169922
    },
    {
      "auxiliary_loss_clip": 0.0118661,
      "auxiliary_loss_mlp": 0.00889043,
      "balance_loss_clip": 1.05649924,
      "balance_loss_mlp": 1.00063014,
      "epoch": 0.21860157518186737,
      "flos": 26574650259840.0,
      "grad_norm": 2.260628449656837,
      "language_loss": 0.79301786,
      "learning_rate": 3.6384778252547747e-06,
      "loss": 0.81377447,
      "num_input_tokens_seen": 38681575,
      "step": 1818,
      "time_per_iteration": 2.7674171924591064
    },
    {
      "auxiliary_loss_clip": 0.01197735,
      "auxiliary_loss_mlp": 0.00888955,
      "balance_loss_clip": 1.0620507,
      "balance_loss_mlp": 1.00068617,
      "epoch": 0.21872181807250646,
      "flos": 20886292834560.0,
      "grad_norm": 2.699299790241411,
      "language_loss": 0.78297788,
      "learning_rate": 3.638030997862155e-06,
      "loss": 0.80384475,
      "num_input_tokens_seen": 38700510,
      "step": 1819,
      "time_per_iteration": 2.719320774078369
    },
    {
      "auxiliary_loss_clip": 0.0109097,
      "auxiliary_loss_mlp": 0.01009923,
      "balance_loss_clip": 1.02597988,
      "balance_loss_mlp": 1.00696647,
      "epoch": 0.21884206096314554,
      "flos": 61209452897280.0,
      "grad_norm": 0.7705958488641963,
      "language_loss": 0.5943898,
      "learning_rate": 3.6375839219815356e-06,
      "loss": 0.61539871,
      "num_input_tokens_seen": 38758310,
      "step": 1820,
      "time_per_iteration": 3.18782377243042
    },
    {
      "auxiliary_loss_clip": 0.01219498,
      "auxiliary_loss_mlp": 0.01038152,
      "balance_loss_clip": 1.06124425,
      "balance_loss_mlp": 1.02788258,
      "epoch": 0.21896230385378465,
      "flos": 23473835850240.0,
      "grad_norm": 2.445282488867183,
      "language_loss": 0.82817638,
      "learning_rate": 3.6371365976807375e-06,
      "loss": 0.85075283,
      "num_input_tokens_seen": 38778705,
      "step": 1821,
      "time_per_iteration": 2.660315990447998
    },
    {
      "auxiliary_loss_clip": 0.01168204,
      "auxiliary_loss_mlp": 0.0103153,
      "balance_loss_clip": 1.05342865,
      "balance_loss_mlp": 1.02168274,
      "epoch": 0.21908254674442373,
      "flos": 25081915829760.0,
      "grad_norm": 4.335541955839671,
      "language_loss": 0.83485067,
      "learning_rate": 3.6366890250276185e-06,
      "loss": 0.856848,
      "num_input_tokens_seen": 38799660,
      "step": 1822,
      "time_per_iteration": 2.756979465484619
    },
    {
      "auxiliary_loss_clip": 0.01214856,
      "auxiliary_loss_mlp": 0.01033828,
      "balance_loss_clip": 1.05929446,
      "balance_loss_mlp": 1.02392757,
      "epoch": 0.21920278963506282,
      "flos": 23513768795520.0,
      "grad_norm": 1.9710692686508635,
      "language_loss": 0.90140259,
      "learning_rate": 3.6362412040900764e-06,
      "loss": 0.9238894,
      "num_input_tokens_seen": 38819450,
      "step": 1823,
      "time_per_iteration": 2.62868332862854
    },
    {
      "auxiliary_loss_clip": 0.01209045,
      "auxiliary_loss_mlp": 0.01035495,
      "balance_loss_clip": 1.05913615,
      "balance_loss_mlp": 1.02468276,
      "epoch": 0.21932303252570193,
      "flos": 29242238734080.0,
      "grad_norm": 2.211516302279495,
      "language_loss": 0.80541408,
      "learning_rate": 3.635793134936044e-06,
      "loss": 0.82785952,
      "num_input_tokens_seen": 38840460,
      "step": 1824,
      "time_per_iteration": 2.7297658920288086
    },
    {
      "auxiliary_loss_clip": 0.01204001,
      "auxiliary_loss_mlp": 0.0103345,
      "balance_loss_clip": 1.05871058,
      "balance_loss_mlp": 1.02387142,
      "epoch": 0.219443275416341,
      "flos": 20806857907200.0,
      "grad_norm": 2.5046274506952817,
      "language_loss": 0.73063076,
      "learning_rate": 3.635344817633494e-06,
      "loss": 0.75300527,
      "num_input_tokens_seen": 38859775,
      "step": 1825,
      "time_per_iteration": 2.677806854248047
    },
    {
      "auxiliary_loss_clip": 0.0120054,
      "auxiliary_loss_mlp": 0.01035197,
      "balance_loss_clip": 1.05732751,
      "balance_loss_mlp": 1.0249331,
      "epoch": 0.2195635183069801,
      "flos": 14501555458560.0,
      "grad_norm": 2.2601676284307253,
      "language_loss": 0.75250709,
      "learning_rate": 3.634896252250436e-06,
      "loss": 0.77486449,
      "num_input_tokens_seen": 38876540,
      "step": 1826,
      "time_per_iteration": 2.6363346576690674
    },
    {
      "auxiliary_loss_clip": 0.01218224,
      "auxiliary_loss_mlp": 0.01041484,
      "balance_loss_clip": 1.06072342,
      "balance_loss_mlp": 1.03058267,
      "epoch": 0.2196837611976192,
      "flos": 24243473589120.0,
      "grad_norm": 1.9614316261152638,
      "language_loss": 0.82268405,
      "learning_rate": 3.6344474388549157e-06,
      "loss": 0.84528118,
      "num_input_tokens_seen": 38896195,
      "step": 1827,
      "time_per_iteration": 2.6729040145874023
    },
    {
      "auxiliary_loss_clip": 0.0120833,
      "auxiliary_loss_mlp": 0.01040655,
      "balance_loss_clip": 1.06127858,
      "balance_loss_mlp": 1.02999163,
      "epoch": 0.2198040040882583,
      "flos": 18074523168000.0,
      "grad_norm": 2.1149638151051673,
      "language_loss": 0.80315495,
      "learning_rate": 3.6339983775150183e-06,
      "loss": 0.82564473,
      "num_input_tokens_seen": 38912755,
      "step": 1828,
      "time_per_iteration": 2.604140520095825
    },
    {
      "auxiliary_loss_clip": 0.01207965,
      "auxiliary_loss_mlp": 0.01036102,
      "balance_loss_clip": 1.06111062,
      "balance_loss_mlp": 1.02591538,
      "epoch": 0.21992424697889737,
      "flos": 17784185535360.0,
      "grad_norm": 2.523936520246309,
      "language_loss": 0.84310657,
      "learning_rate": 3.6335490682988664e-06,
      "loss": 0.86554718,
      "num_input_tokens_seen": 38928365,
      "step": 1829,
      "time_per_iteration": 2.6755599975585938
    },
    {
      "auxiliary_loss_clip": 0.01158785,
      "auxiliary_loss_mlp": 0.01034454,
      "balance_loss_clip": 1.04849911,
      "balance_loss_mlp": 1.02378511,
      "epoch": 0.22004448986953645,
      "flos": 17638495971840.0,
      "grad_norm": 2.2645849387290893,
      "language_loss": 0.82986724,
      "learning_rate": 3.63309951127462e-06,
      "loss": 0.85179961,
      "num_input_tokens_seen": 38945275,
      "step": 1830,
      "time_per_iteration": 3.7265238761901855
    },
    {
      "auxiliary_loss_clip": 0.01186852,
      "auxiliary_loss_mlp": 0.01034546,
      "balance_loss_clip": 1.05718434,
      "balance_loss_mlp": 1.02412772,
      "epoch": 0.22016473276017556,
      "flos": 22275533203200.0,
      "grad_norm": 2.201130968603882,
      "language_loss": 0.75074238,
      "learning_rate": 3.6326497065104757e-06,
      "loss": 0.77295631,
      "num_input_tokens_seen": 38965740,
      "step": 1831,
      "time_per_iteration": 2.755429267883301
    },
    {
      "auxiliary_loss_clip": 0.01212326,
      "auxiliary_loss_mlp": 0.01035152,
      "balance_loss_clip": 1.06021452,
      "balance_loss_mlp": 1.02534139,
      "epoch": 0.22028497565081465,
      "flos": 25556259859200.0,
      "grad_norm": 2.1250143299142237,
      "language_loss": 0.77921259,
      "learning_rate": 3.6321996540746697e-06,
      "loss": 0.80168742,
      "num_input_tokens_seen": 38984815,
      "step": 1832,
      "time_per_iteration": 2.712831735610962
    },
    {
      "auxiliary_loss_clip": 0.01186383,
      "auxiliary_loss_mlp": 0.01039955,
      "balance_loss_clip": 1.05670369,
      "balance_loss_mlp": 1.03004229,
      "epoch": 0.22040521854145373,
      "flos": 36247332925440.0,
      "grad_norm": 3.1032814445617625,
      "language_loss": 0.80584574,
      "learning_rate": 3.6317493540354733e-06,
      "loss": 0.82810915,
      "num_input_tokens_seen": 39008230,
      "step": 1833,
      "time_per_iteration": 2.84263277053833
    },
    {
      "auxiliary_loss_clip": 0.01200477,
      "auxiliary_loss_mlp": 0.0103304,
      "balance_loss_clip": 1.0568552,
      "balance_loss_mlp": 1.0221858,
      "epoch": 0.22052546143209284,
      "flos": 11838420270720.0,
      "grad_norm": 2.047744333346054,
      "language_loss": 0.76988328,
      "learning_rate": 3.6312988064611976e-06,
      "loss": 0.79221851,
      "num_input_tokens_seen": 39026540,
      "step": 1834,
      "time_per_iteration": 2.6704063415527344
    },
    {
      "auxiliary_loss_clip": 0.01186601,
      "auxiliary_loss_mlp": 0.01037215,
      "balance_loss_clip": 1.05142725,
      "balance_loss_mlp": 1.02757692,
      "epoch": 0.22064570432273192,
      "flos": 24209250906240.0,
      "grad_norm": 1.6707264939277153,
      "language_loss": 0.81157446,
      "learning_rate": 3.6308480114201896e-06,
      "loss": 0.83381259,
      "num_input_tokens_seen": 39048460,
      "step": 1835,
      "time_per_iteration": 2.756772518157959
    },
    {
      "auxiliary_loss_clip": 0.01219502,
      "auxiliary_loss_mlp": 0.0102873,
      "balance_loss_clip": 1.06317449,
      "balance_loss_mlp": 1.01888895,
      "epoch": 0.220765947213371,
      "flos": 17931347556480.0,
      "grad_norm": 1.9188514815227857,
      "language_loss": 0.76832771,
      "learning_rate": 3.630396968980835e-06,
      "loss": 0.79080999,
      "num_input_tokens_seen": 39066335,
      "step": 1836,
      "time_per_iteration": 3.514202833175659
    },
    {
      "auxiliary_loss_clip": 0.0119896,
      "auxiliary_loss_mlp": 0.01036927,
      "balance_loss_clip": 1.05574751,
      "balance_loss_mlp": 1.02654374,
      "epoch": 0.2208861901040101,
      "flos": 26757040544640.0,
      "grad_norm": 3.007648151323261,
      "language_loss": 0.83421373,
      "learning_rate": 3.6299456792115575e-06,
      "loss": 0.85657263,
      "num_input_tokens_seen": 39087590,
      "step": 1837,
      "time_per_iteration": 3.934227228164673
    },
    {
      "auxiliary_loss_clip": 0.01136537,
      "auxiliary_loss_mlp": 0.01035506,
      "balance_loss_clip": 1.04427385,
      "balance_loss_mlp": 1.02517676,
      "epoch": 0.2210064329946492,
      "flos": 17817977255040.0,
      "grad_norm": 1.8975660155929235,
      "language_loss": 0.80789119,
      "learning_rate": 3.629494142180815e-06,
      "loss": 0.8296116,
      "num_input_tokens_seen": 39106335,
      "step": 1838,
      "time_per_iteration": 3.7650372982025146
    },
    {
      "auxiliary_loss_clip": 0.01217773,
      "auxiliary_loss_mlp": 0.01042806,
      "balance_loss_clip": 1.06107974,
      "balance_loss_mlp": 1.03195214,
      "epoch": 0.22112667588528828,
      "flos": 17967401832960.0,
      "grad_norm": 2.5030650422066447,
      "language_loss": 0.84967756,
      "learning_rate": 3.6290423579571075e-06,
      "loss": 0.87228334,
      "num_input_tokens_seen": 39122875,
      "step": 1839,
      "time_per_iteration": 2.643150568008423
    },
    {
      "auxiliary_loss_clip": 0.01204333,
      "auxiliary_loss_mlp": 0.01040239,
      "balance_loss_clip": 1.05966949,
      "balance_loss_mlp": 1.02942061,
      "epoch": 0.22124691877592736,
      "flos": 18369206346240.0,
      "grad_norm": 2.0334573587614058,
      "language_loss": 0.80234516,
      "learning_rate": 3.6285903266089694e-06,
      "loss": 0.82479084,
      "num_input_tokens_seen": 39142150,
      "step": 1840,
      "time_per_iteration": 2.7033870220184326
    },
    {
      "auxiliary_loss_clip": 0.01199945,
      "auxiliary_loss_mlp": 0.01029755,
      "balance_loss_clip": 1.05927682,
      "balance_loss_mlp": 1.02019477,
      "epoch": 0.22136716166656648,
      "flos": 20813286441600.0,
      "grad_norm": 2.888814602861745,
      "language_loss": 0.77238327,
      "learning_rate": 3.628138048204974e-06,
      "loss": 0.79468024,
      "num_input_tokens_seen": 39162835,
      "step": 1841,
      "time_per_iteration": 2.776083469390869
    },
    {
      "auxiliary_loss_clip": 0.0116927,
      "auxiliary_loss_mlp": 0.01040302,
      "balance_loss_clip": 1.05354667,
      "balance_loss_mlp": 1.02884614,
      "epoch": 0.22148740455720556,
      "flos": 17675699483520.0,
      "grad_norm": 1.90485919624043,
      "language_loss": 0.7651341,
      "learning_rate": 3.6276855228137304e-06,
      "loss": 0.78722984,
      "num_input_tokens_seen": 39181040,
      "step": 1842,
      "time_per_iteration": 2.8321309089660645
    },
    {
      "auxiliary_loss_clip": 0.01218081,
      "auxiliary_loss_mlp": 0.00889993,
      "balance_loss_clip": 1.06122613,
      "balance_loss_mlp": 1.00085378,
      "epoch": 0.22160764744784464,
      "flos": 21726710323200.0,
      "grad_norm": 2.967859169807653,
      "language_loss": 0.81661022,
      "learning_rate": 3.6272327505038874e-06,
      "loss": 0.83769095,
      "num_input_tokens_seen": 39197505,
      "step": 1843,
      "time_per_iteration": 2.7815651893615723
    },
    {
      "auxiliary_loss_clip": 0.01178554,
      "auxiliary_loss_mlp": 0.01032014,
      "balance_loss_clip": 1.05215955,
      "balance_loss_mlp": 1.02186322,
      "epoch": 0.22172789033848372,
      "flos": 23764712186880.0,
      "grad_norm": 1.9657266175921468,
      "language_loss": 0.78286815,
      "learning_rate": 3.626779731344131e-06,
      "loss": 0.80497384,
      "num_input_tokens_seen": 39217295,
      "step": 1844,
      "time_per_iteration": 2.906107187271118
    },
    {
      "auxiliary_loss_clip": 0.01216616,
      "auxiliary_loss_mlp": 0.01038518,
      "balance_loss_clip": 1.06075716,
      "balance_loss_mlp": 1.02815247,
      "epoch": 0.22184813322912283,
      "flos": 16982300361600.0,
      "grad_norm": 2.6140136881248983,
      "language_loss": 0.84886342,
      "learning_rate": 3.6263264654031814e-06,
      "loss": 0.87141478,
      "num_input_tokens_seen": 39234195,
      "step": 1845,
      "time_per_iteration": 2.6238856315612793
    },
    {
      "auxiliary_loss_clip": 0.01086436,
      "auxiliary_loss_mlp": 0.01004493,
      "balance_loss_clip": 1.02757621,
      "balance_loss_mlp": 1.00150049,
      "epoch": 0.22196837611976192,
      "flos": 61823740314240.0,
      "grad_norm": 0.7045160254103812,
      "language_loss": 0.59163368,
      "learning_rate": 3.6258729527498008e-06,
      "loss": 0.61254299,
      "num_input_tokens_seen": 39295040,
      "step": 1846,
      "time_per_iteration": 3.2970077991485596
    },
    {
      "auxiliary_loss_clip": 0.01202697,
      "auxiliary_loss_mlp": 0.0103353,
      "balance_loss_clip": 1.05921888,
      "balance_loss_mlp": 1.02296805,
      "epoch": 0.222088619010401,
      "flos": 25558019625600.0,
      "grad_norm": 4.124018496669643,
      "language_loss": 0.65615004,
      "learning_rate": 3.6254191934527854e-06,
      "loss": 0.67851233,
      "num_input_tokens_seen": 39314395,
      "step": 1847,
      "time_per_iteration": 2.7893247604370117
    },
    {
      "auxiliary_loss_clip": 0.01186642,
      "auxiliary_loss_mlp": 0.01037714,
      "balance_loss_clip": 1.05833042,
      "balance_loss_mlp": 1.02710438,
      "epoch": 0.2222088619010401,
      "flos": 19318612677120.0,
      "grad_norm": 2.042148469169637,
      "language_loss": 0.64761233,
      "learning_rate": 3.6249651875809715e-06,
      "loss": 0.66985589,
      "num_input_tokens_seen": 39334275,
      "step": 1848,
      "time_per_iteration": 2.8086812496185303
    },
    {
      "auxiliary_loss_clip": 0.01192655,
      "auxiliary_loss_mlp": 0.01044708,
      "balance_loss_clip": 1.06044781,
      "balance_loss_mlp": 1.03467703,
      "epoch": 0.2223291047916792,
      "flos": 19099342103040.0,
      "grad_norm": 2.1668748681114587,
      "language_loss": 0.89292061,
      "learning_rate": 3.62451093520323e-06,
      "loss": 0.91529423,
      "num_input_tokens_seen": 39352180,
      "step": 1849,
      "time_per_iteration": 2.721578359603882
    },
    {
      "auxiliary_loss_clip": 0.01167508,
      "auxiliary_loss_mlp": 0.01033581,
      "balance_loss_clip": 1.04853368,
      "balance_loss_mlp": 1.02360284,
      "epoch": 0.22244934768231828,
      "flos": 20850418126080.0,
      "grad_norm": 2.631469240920358,
      "language_loss": 0.91020668,
      "learning_rate": 3.6240564363884714e-06,
      "loss": 0.93221754,
      "num_input_tokens_seen": 39372125,
      "step": 1850,
      "time_per_iteration": 2.7491745948791504
    },
    {
      "auxiliary_loss_clip": 0.01211459,
      "auxiliary_loss_mlp": 0.01031895,
      "balance_loss_clip": 1.05738342,
      "balance_loss_mlp": 1.02129149,
      "epoch": 0.2225695905729574,
      "flos": 15632921111040.0,
      "grad_norm": 3.572715003003645,
      "language_loss": 0.70488679,
      "learning_rate": 3.623601691205643e-06,
      "loss": 0.72732037,
      "num_input_tokens_seen": 39391200,
      "step": 1851,
      "time_per_iteration": 2.718308448791504
    },
    {
      "auxiliary_loss_clip": 0.01203402,
      "auxiliary_loss_mlp": 0.010376,
      "balance_loss_clip": 1.05512238,
      "balance_loss_mlp": 1.02661455,
      "epoch": 0.22268983346359647,
      "flos": 25373582265600.0,
      "grad_norm": 2.3128489941556056,
      "language_loss": 0.81739116,
      "learning_rate": 3.623146699723729e-06,
      "loss": 0.83980119,
      "num_input_tokens_seen": 39410660,
      "step": 1852,
      "time_per_iteration": 2.6732349395751953
    },
    {
      "auxiliary_loss_clip": 0.01199912,
      "auxiliary_loss_mlp": 0.01040689,
      "balance_loss_clip": 1.06187844,
      "balance_loss_mlp": 1.03010964,
      "epoch": 0.22281007635423555,
      "flos": 13261452359040.0,
      "grad_norm": 1.725965874149879,
      "language_loss": 0.77770489,
      "learning_rate": 3.6226914620117507e-06,
      "loss": 0.80011094,
      "num_input_tokens_seen": 39429280,
      "step": 1853,
      "time_per_iteration": 2.7091405391693115
    },
    {
      "auxiliary_loss_clip": 0.01182817,
      "auxiliary_loss_mlp": 0.01036114,
      "balance_loss_clip": 1.049505,
      "balance_loss_mlp": 1.026577,
      "epoch": 0.22293031924487464,
      "flos": 15340536403200.0,
      "grad_norm": 2.7031650077627867,
      "language_loss": 0.81167269,
      "learning_rate": 3.622235978138768e-06,
      "loss": 0.83386195,
      "num_input_tokens_seen": 39446905,
      "step": 1854,
      "time_per_iteration": 2.716205596923828
    },
    {
      "auxiliary_loss_clip": 0.01207039,
      "auxiliary_loss_mlp": 0.01036884,
      "balance_loss_clip": 1.06083846,
      "balance_loss_mlp": 1.026191,
      "epoch": 0.22305056213551375,
      "flos": 22564649773440.0,
      "grad_norm": 1.8615512028766155,
      "language_loss": 0.80984199,
      "learning_rate": 3.621780248173877e-06,
      "loss": 0.83228123,
      "num_input_tokens_seen": 39465105,
      "step": 1855,
      "time_per_iteration": 2.672773838043213
    },
    {
      "auxiliary_loss_clip": 0.01108097,
      "auxiliary_loss_mlp": 0.01005854,
      "balance_loss_clip": 1.02872562,
      "balance_loss_mlp": 1.00285006,
      "epoch": 0.22317080502615283,
      "flos": 64880419887360.0,
      "grad_norm": 0.8318755441353337,
      "language_loss": 0.61081189,
      "learning_rate": 3.6213242721862125e-06,
      "loss": 0.63195139,
      "num_input_tokens_seen": 39523560,
      "step": 1856,
      "time_per_iteration": 4.172646522521973
    },
    {
      "auxiliary_loss_clip": 0.01188333,
      "auxiliary_loss_mlp": 0.01032971,
      "balance_loss_clip": 1.05678833,
      "balance_loss_mlp": 1.02288628,
      "epoch": 0.2232910479167919,
      "flos": 25775997310080.0,
      "grad_norm": 1.948657751528334,
      "language_loss": 0.75251102,
      "learning_rate": 3.620868050244945e-06,
      "loss": 0.77472413,
      "num_input_tokens_seen": 39544040,
      "step": 1857,
      "time_per_iteration": 2.7050254344940186
    },
    {
      "auxiliary_loss_clip": 0.01193608,
      "auxiliary_loss_mlp": 0.01036243,
      "balance_loss_clip": 1.05628276,
      "balance_loss_mlp": 1.02525783,
      "epoch": 0.22341129080743102,
      "flos": 23251799928960.0,
      "grad_norm": 1.8763338161298522,
      "language_loss": 0.78114402,
      "learning_rate": 3.6204115824192817e-06,
      "loss": 0.80344254,
      "num_input_tokens_seen": 39561515,
      "step": 1858,
      "time_per_iteration": 2.7107415199279785
    },
    {
      "auxiliary_loss_clip": 0.01189398,
      "auxiliary_loss_mlp": 0.0103854,
      "balance_loss_clip": 1.0551126,
      "balance_loss_mlp": 1.02701879,
      "epoch": 0.2235315336980701,
      "flos": 21214552250880.0,
      "grad_norm": 2.867643061390674,
      "language_loss": 0.76633114,
      "learning_rate": 3.619954868778471e-06,
      "loss": 0.78861058,
      "num_input_tokens_seen": 39578210,
      "step": 1859,
      "time_per_iteration": 2.7086703777313232
    },
    {
      "auxiliary_loss_clip": 0.01195134,
      "auxiliary_loss_mlp": 0.01036521,
      "balance_loss_clip": 1.05495226,
      "balance_loss_mlp": 1.02626944,
      "epoch": 0.2236517765887092,
      "flos": 19901945548800.0,
      "grad_norm": 1.9525271515861229,
      "language_loss": 0.82384515,
      "learning_rate": 3.6194979093917944e-06,
      "loss": 0.84616166,
      "num_input_tokens_seen": 39597625,
      "step": 1860,
      "time_per_iteration": 2.7164227962493896
    },
    {
      "auxiliary_loss_clip": 0.01193211,
      "auxiliary_loss_mlp": 0.01034441,
      "balance_loss_clip": 1.05770683,
      "balance_loss_mlp": 1.02408218,
      "epoch": 0.22377201947934827,
      "flos": 23214847812480.0,
      "grad_norm": 3.06083684943952,
      "language_loss": 0.87022716,
      "learning_rate": 3.6190407043285724e-06,
      "loss": 0.89250362,
      "num_input_tokens_seen": 39615360,
      "step": 1861,
      "time_per_iteration": 2.7137274742126465
    },
    {
      "auxiliary_loss_clip": 0.01219774,
      "auxiliary_loss_mlp": 0.01035526,
      "balance_loss_clip": 1.06171322,
      "balance_loss_mlp": 1.02481496,
      "epoch": 0.22389226236998738,
      "flos": 26794244056320.0,
      "grad_norm": 1.70718735451801,
      "language_loss": 0.75312197,
      "learning_rate": 3.618583253658163e-06,
      "loss": 0.77567494,
      "num_input_tokens_seen": 39635460,
      "step": 1862,
      "time_per_iteration": 5.108490705490112
    },
    {
      "auxiliary_loss_clip": 0.01177955,
      "auxiliary_loss_mlp": 0.0088997,
      "balance_loss_clip": 1.05549169,
      "balance_loss_mlp": 1.00082994,
      "epoch": 0.22401250526062647,
      "flos": 24170359455360.0,
      "grad_norm": 1.8504419510587462,
      "language_loss": 0.86160237,
      "learning_rate": 3.618125557449961e-06,
      "loss": 0.88228166,
      "num_input_tokens_seen": 39653515,
      "step": 1863,
      "time_per_iteration": 2.884500503540039
    },
    {
      "auxiliary_loss_clip": 0.01207222,
      "auxiliary_loss_mlp": 0.01035987,
      "balance_loss_clip": 1.06125188,
      "balance_loss_mlp": 1.02478111,
      "epoch": 0.22413274815126555,
      "flos": 16759761649920.0,
      "grad_norm": 2.4919661506045894,
      "language_loss": 0.83273143,
      "learning_rate": 3.6176676157733983e-06,
      "loss": 0.85516346,
      "num_input_tokens_seen": 39668525,
      "step": 1864,
      "time_per_iteration": 3.770580768585205
    },
    {
      "auxiliary_loss_clip": 0.01179765,
      "auxiliary_loss_mlp": 0.01039292,
      "balance_loss_clip": 1.05557847,
      "balance_loss_mlp": 1.0285219,
      "epoch": 0.22425299104190466,
      "flos": 21360205900800.0,
      "grad_norm": 2.2618281646834832,
      "language_loss": 0.76154172,
      "learning_rate": 3.6172094286979443e-06,
      "loss": 0.7837323,
      "num_input_tokens_seen": 39685895,
      "step": 1865,
      "time_per_iteration": 2.718052864074707
    },
    {
      "auxiliary_loss_clip": 0.01197326,
      "auxiliary_loss_mlp": 0.01035542,
      "balance_loss_clip": 1.05532956,
      "balance_loss_mlp": 1.02495027,
      "epoch": 0.22437323393254374,
      "flos": 32165547108480.0,
      "grad_norm": 2.2460547396208437,
      "language_loss": 0.80975258,
      "learning_rate": 3.6167509962931064e-06,
      "loss": 0.8320812,
      "num_input_tokens_seen": 39711595,
      "step": 1866,
      "time_per_iteration": 2.863368272781372
    },
    {
      "auxiliary_loss_clip": 0.01183308,
      "auxiliary_loss_mlp": 0.01036807,
      "balance_loss_clip": 1.0561254,
      "balance_loss_mlp": 1.02612627,
      "epoch": 0.22449347682318282,
      "flos": 18002809664640.0,
      "grad_norm": 3.2821445642914178,
      "language_loss": 0.76639456,
      "learning_rate": 3.6162923186284276e-06,
      "loss": 0.78859568,
      "num_input_tokens_seen": 39727555,
      "step": 1867,
      "time_per_iteration": 2.732280731201172
    },
    {
      "auxiliary_loss_clip": 0.01195535,
      "auxiliary_loss_mlp": 0.01038181,
      "balance_loss_clip": 1.05512238,
      "balance_loss_mlp": 1.02721977,
      "epoch": 0.2246137197138219,
      "flos": 18697286194560.0,
      "grad_norm": 2.890036007769826,
      "language_loss": 0.86238098,
      "learning_rate": 3.6158333957734888e-06,
      "loss": 0.88471812,
      "num_input_tokens_seen": 39746145,
      "step": 1868,
      "time_per_iteration": 2.730534553527832
    },
    {
      "auxiliary_loss_clip": 0.01193391,
      "auxiliary_loss_mlp": 0.01035325,
      "balance_loss_clip": 1.05653071,
      "balance_loss_mlp": 1.02484679,
      "epoch": 0.22473396260446102,
      "flos": 15590653781760.0,
      "grad_norm": 2.1246782405673135,
      "language_loss": 0.82714862,
      "learning_rate": 3.6153742277979088e-06,
      "loss": 0.84943575,
      "num_input_tokens_seen": 39763575,
      "step": 1869,
      "time_per_iteration": 2.730090618133545
    },
    {
      "auxiliary_loss_clip": 0.01199033,
      "auxiliary_loss_mlp": 0.01033121,
      "balance_loss_clip": 1.05823159,
      "balance_loss_mlp": 1.02348924,
      "epoch": 0.2248542054951001,
      "flos": 14465501182080.0,
      "grad_norm": 2.121158686103612,
      "language_loss": 0.78193343,
      "learning_rate": 3.6149148147713434e-06,
      "loss": 0.80425501,
      "num_input_tokens_seen": 39781810,
      "step": 1870,
      "time_per_iteration": 2.695697546005249
    },
    {
      "auxiliary_loss_clip": 0.01219236,
      "auxiliary_loss_mlp": 0.01038621,
      "balance_loss_clip": 1.0675869,
      "balance_loss_mlp": 1.0285244,
      "epoch": 0.22497444838573918,
      "flos": 19243882431360.0,
      "grad_norm": 1.9823221735659262,
      "language_loss": 0.86542237,
      "learning_rate": 3.614455156763484e-06,
      "loss": 0.88800097,
      "num_input_tokens_seen": 39800115,
      "step": 1871,
      "time_per_iteration": 2.689202070236206
    },
    {
      "auxiliary_loss_clip": 0.01171014,
      "auxiliary_loss_mlp": 0.01039413,
      "balance_loss_clip": 1.04960227,
      "balance_loss_mlp": 1.02866602,
      "epoch": 0.2250946912763783,
      "flos": 16910299549440.0,
      "grad_norm": 2.407308038966753,
      "language_loss": 0.71261019,
      "learning_rate": 3.613995253844061e-06,
      "loss": 0.73471445,
      "num_input_tokens_seen": 39817795,
      "step": 1872,
      "time_per_iteration": 2.8140602111816406
    },
    {
      "auxiliary_loss_clip": 0.01205123,
      "auxiliary_loss_mlp": 0.01035508,
      "balance_loss_clip": 1.05959725,
      "balance_loss_mlp": 1.02432024,
      "epoch": 0.22521493416701738,
      "flos": 24681368292480.0,
      "grad_norm": 2.02558056801376,
      "language_loss": 0.80747235,
      "learning_rate": 3.6135351060828414e-06,
      "loss": 0.82987869,
      "num_input_tokens_seen": 39838270,
      "step": 1873,
      "time_per_iteration": 2.7528226375579834
    },
    {
      "auxiliary_loss_clip": 0.01226663,
      "auxiliary_loss_mlp": 0.01037329,
      "balance_loss_clip": 1.0652436,
      "balance_loss_mlp": 1.02621889,
      "epoch": 0.22533517705765646,
      "flos": 17821963664640.0,
      "grad_norm": 8.56487678911829,
      "language_loss": 0.68879372,
      "learning_rate": 3.6130747135496285e-06,
      "loss": 0.71143365,
      "num_input_tokens_seen": 39857270,
      "step": 1874,
      "time_per_iteration": 2.661517381668091
    },
    {
      "auxiliary_loss_clip": 0.0122003,
      "auxiliary_loss_mlp": 0.01031208,
      "balance_loss_clip": 1.06262493,
      "balance_loss_mlp": 1.02058625,
      "epoch": 0.22545541994829554,
      "flos": 33691390899840.0,
      "grad_norm": 1.8906543648034744,
      "language_loss": 0.65834361,
      "learning_rate": 3.6126140763142646e-06,
      "loss": 0.68085599,
      "num_input_tokens_seen": 39882300,
      "step": 1875,
      "time_per_iteration": 2.780539035797119
    },
    {
      "auxiliary_loss_clip": 0.01222304,
      "auxiliary_loss_mlp": 0.01034084,
      "balance_loss_clip": 1.06425643,
      "balance_loss_mlp": 1.02382588,
      "epoch": 0.22557566283893465,
      "flos": 19171594310400.0,
      "grad_norm": 3.4897461508015315,
      "language_loss": 0.86505628,
      "learning_rate": 3.6121531944466275e-06,
      "loss": 0.88762015,
      "num_input_tokens_seen": 39899625,
      "step": 1876,
      "time_per_iteration": 2.6618783473968506
    },
    {
      "auxiliary_loss_clip": 0.01208181,
      "auxiliary_loss_mlp": 0.01033519,
      "balance_loss_clip": 1.06328821,
      "balance_loss_mlp": 1.02360678,
      "epoch": 0.22569590572957374,
      "flos": 20773281669120.0,
      "grad_norm": 2.265669547296921,
      "language_loss": 0.78293443,
      "learning_rate": 3.611692068016633e-06,
      "loss": 0.80535144,
      "num_input_tokens_seen": 39915955,
      "step": 1877,
      "time_per_iteration": 2.673539161682129
    },
    {
      "auxiliary_loss_clip": 0.01185561,
      "auxiliary_loss_mlp": 0.01034735,
      "balance_loss_clip": 1.05512643,
      "balance_loss_mlp": 1.022802,
      "epoch": 0.22581614862021282,
      "flos": 18442715529600.0,
      "grad_norm": 2.5067902088986753,
      "language_loss": 0.74923182,
      "learning_rate": 3.611230697094233e-06,
      "loss": 0.77143478,
      "num_input_tokens_seen": 39932655,
      "step": 1878,
      "time_per_iteration": 2.7258622646331787
    },
    {
      "auxiliary_loss_clip": 0.01203694,
      "auxiliary_loss_mlp": 0.01031654,
      "balance_loss_clip": 1.05951488,
      "balance_loss_mlp": 1.02147937,
      "epoch": 0.22593639151085193,
      "flos": 20048389297920.0,
      "grad_norm": 1.922101006052763,
      "language_loss": 0.87081492,
      "learning_rate": 3.6107690817494173e-06,
      "loss": 0.89316839,
      "num_input_tokens_seen": 39952875,
      "step": 1879,
      "time_per_iteration": 2.735136032104492
    },
    {
      "auxiliary_loss_clip": 0.01170871,
      "auxiliary_loss_mlp": 0.01039178,
      "balance_loss_clip": 1.05279398,
      "balance_loss_mlp": 1.02908111,
      "epoch": 0.226056634401491,
      "flos": 13115116350720.0,
      "grad_norm": 2.506784191825171,
      "language_loss": 0.70941043,
      "learning_rate": 3.6103072220522117e-06,
      "loss": 0.73151094,
      "num_input_tokens_seen": 39968405,
      "step": 1880,
      "time_per_iteration": 2.7537522315979004
    },
    {
      "auxiliary_loss_clip": 0.01191663,
      "auxiliary_loss_mlp": 0.01040708,
      "balance_loss_clip": 1.05596697,
      "balance_loss_mlp": 1.03033674,
      "epoch": 0.2261768772921301,
      "flos": 18988378012800.0,
      "grad_norm": 1.8307959205289173,
      "language_loss": 0.92103434,
      "learning_rate": 3.609845118072682e-06,
      "loss": 0.943358,
      "num_input_tokens_seen": 39987075,
      "step": 1881,
      "time_per_iteration": 2.7290945053100586
    },
    {
      "auxiliary_loss_clip": 0.01216652,
      "auxiliary_loss_mlp": 0.00890617,
      "balance_loss_clip": 1.0611614,
      "balance_loss_mlp": 1.00089061,
      "epoch": 0.2262971201827692,
      "flos": 19974054101760.0,
      "grad_norm": 1.9539197675378037,
      "language_loss": 0.80015862,
      "learning_rate": 3.6093827698809276e-06,
      "loss": 0.82123131,
      "num_input_tokens_seen": 40006175,
      "step": 1882,
      "time_per_iteration": 3.638793706893921
    },
    {
      "auxiliary_loss_clip": 0.01207437,
      "auxiliary_loss_mlp": 0.01041182,
      "balance_loss_clip": 1.05899858,
      "balance_loss_mlp": 1.03029263,
      "epoch": 0.2264173630734083,
      "flos": 16654543735680.0,
      "grad_norm": 2.4231833920783363,
      "language_loss": 0.84898692,
      "learning_rate": 3.6089201775470864e-06,
      "loss": 0.87147307,
      "num_input_tokens_seen": 40021630,
      "step": 1883,
      "time_per_iteration": 2.6900434494018555
    },
    {
      "auxiliary_loss_clip": 0.01174298,
      "auxiliary_loss_mlp": 0.01040012,
      "balance_loss_clip": 1.054196,
      "balance_loss_mlp": 1.02909279,
      "epoch": 0.22653760596404737,
      "flos": 24389809597440.0,
      "grad_norm": 1.6359071450419722,
      "language_loss": 0.77672493,
      "learning_rate": 3.6084573411413334e-06,
      "loss": 0.79886806,
      "num_input_tokens_seen": 40041025,
      "step": 1884,
      "time_per_iteration": 2.7718844413757324
    },
    {
      "auxiliary_loss_clip": 0.01186051,
      "auxiliary_loss_mlp": 0.01037523,
      "balance_loss_clip": 1.05595112,
      "balance_loss_mlp": 1.02574515,
      "epoch": 0.22665784885468646,
      "flos": 18332541538560.0,
      "grad_norm": 2.1762730984037737,
      "language_loss": 0.8135646,
      "learning_rate": 3.607994260733881e-06,
      "loss": 0.83580041,
      "num_input_tokens_seen": 40060265,
      "step": 1885,
      "time_per_iteration": 2.7203924655914307
    },
    {
      "auxiliary_loss_clip": 0.01198754,
      "auxiliary_loss_mlp": 0.01034818,
      "balance_loss_clip": 1.05872774,
      "balance_loss_mlp": 1.02504277,
      "epoch": 0.22677809174532557,
      "flos": 24058102475520.0,
      "grad_norm": 1.7200482223056388,
      "language_loss": 0.75030577,
      "learning_rate": 3.6075309363949776e-06,
      "loss": 0.77264154,
      "num_input_tokens_seen": 40079435,
      "step": 1886,
      "time_per_iteration": 2.682246685028076
    },
    {
      "auxiliary_loss_clip": 0.01221256,
      "auxiliary_loss_mlp": 0.01036579,
      "balance_loss_clip": 1.06321359,
      "balance_loss_mlp": 1.02591014,
      "epoch": 0.22689833463596465,
      "flos": 20374242503040.0,
      "grad_norm": 2.057289590791043,
      "language_loss": 0.81414497,
      "learning_rate": 3.6070673681949094e-06,
      "loss": 0.83672333,
      "num_input_tokens_seen": 40097800,
      "step": 1887,
      "time_per_iteration": 2.612528085708618
    },
    {
      "auxiliary_loss_clip": 0.01203126,
      "auxiliary_loss_mlp": 0.00889733,
      "balance_loss_clip": 1.05954325,
      "balance_loss_mlp": 1.00084996,
      "epoch": 0.22701857752660373,
      "flos": 30120398438400.0,
      "grad_norm": 5.885076318046393,
      "language_loss": 0.81334889,
      "learning_rate": 3.606603556203999e-06,
      "loss": 0.83427745,
      "num_input_tokens_seen": 40122745,
      "step": 1888,
      "time_per_iteration": 5.263824701309204
    },
    {
      "auxiliary_loss_clip": 0.01210952,
      "auxiliary_loss_mlp": 0.01037225,
      "balance_loss_clip": 1.06022286,
      "balance_loss_mlp": 1.02607942,
      "epoch": 0.22713882041724284,
      "flos": 22492182084480.0,
      "grad_norm": 1.83513807895845,
      "language_loss": 0.83687586,
      "learning_rate": 3.6061395004926066e-06,
      "loss": 0.8593576,
      "num_input_tokens_seen": 40141680,
      "step": 1889,
      "time_per_iteration": 2.7650182247161865
    },
    {
      "auxiliary_loss_clip": 0.01222686,
      "auxiliary_loss_mlp": 0.01031794,
      "balance_loss_clip": 1.06212258,
      "balance_loss_mlp": 1.0208807,
      "epoch": 0.22725906330788193,
      "flos": 20521548178560.0,
      "grad_norm": 2.819338242528185,
      "language_loss": 0.84820944,
      "learning_rate": 3.605675201131129e-06,
      "loss": 0.87075424,
      "num_input_tokens_seen": 40160140,
      "step": 1890,
      "time_per_iteration": 2.6738486289978027
    },
    {
      "auxiliary_loss_clip": 0.01214106,
      "auxiliary_loss_mlp": 0.01031704,
      "balance_loss_clip": 1.06051636,
      "balance_loss_mlp": 1.02138078,
      "epoch": 0.227379306198521,
      "flos": 18989922297600.0,
      "grad_norm": 3.229842591022357,
      "language_loss": 0.79525304,
      "learning_rate": 3.60521065819e-06,
      "loss": 0.81771111,
      "num_input_tokens_seen": 40177450,
      "step": 1891,
      "time_per_iteration": 3.8298566341400146
    },
    {
      "auxiliary_loss_clip": 0.01203875,
      "auxiliary_loss_mlp": 0.01038775,
      "balance_loss_clip": 1.05838692,
      "balance_loss_mlp": 1.02879107,
      "epoch": 0.2274995490891601,
      "flos": 21798351999360.0,
      "grad_norm": 1.8819020425582498,
      "language_loss": 0.87655067,
      "learning_rate": 3.60474587173969e-06,
      "loss": 0.89897722,
      "num_input_tokens_seen": 40195935,
      "step": 1892,
      "time_per_iteration": 2.7128043174743652
    },
    {
      "auxiliary_loss_clip": 0.01212313,
      "auxiliary_loss_mlp": 0.01041109,
      "balance_loss_clip": 1.06412816,
      "balance_loss_mlp": 1.02932501,
      "epoch": 0.2276197919797992,
      "flos": 19058654972160.0,
      "grad_norm": 1.957381886522452,
      "language_loss": 0.84134161,
      "learning_rate": 3.6042808418507084e-06,
      "loss": 0.86387575,
      "num_input_tokens_seen": 40213620,
      "step": 1893,
      "time_per_iteration": 2.661665439605713
    },
    {
      "auxiliary_loss_clip": 0.01214084,
      "auxiliary_loss_mlp": 0.01044336,
      "balance_loss_clip": 1.06407094,
      "balance_loss_mlp": 1.03378582,
      "epoch": 0.22774003487043828,
      "flos": 18806777827200.0,
      "grad_norm": 2.0487008119437315,
      "language_loss": 0.76816207,
      "learning_rate": 3.6038155685935976e-06,
      "loss": 0.79074621,
      "num_input_tokens_seen": 40230190,
      "step": 1894,
      "time_per_iteration": 2.703390121459961
    },
    {
      "auxiliary_loss_clip": 0.0120585,
      "auxiliary_loss_mlp": 0.0104095,
      "balance_loss_clip": 1.05806756,
      "balance_loss_mlp": 1.02982771,
      "epoch": 0.22786027776107737,
      "flos": 23002544476800.0,
      "grad_norm": 3.722966948835838,
      "language_loss": 0.7054674,
      "learning_rate": 3.6033500520389404e-06,
      "loss": 0.72793537,
      "num_input_tokens_seen": 40246860,
      "step": 1895,
      "time_per_iteration": 2.6456167697906494
    },
    {
      "auxiliary_loss_clip": 0.01083502,
      "auxiliary_loss_mlp": 0.01012512,
      "balance_loss_clip": 1.02401376,
      "balance_loss_mlp": 1.00962698,
      "epoch": 0.22798052065171648,
      "flos": 66706872600960.0,
      "grad_norm": 0.8137289155669568,
      "language_loss": 0.64769816,
      "learning_rate": 3.6028842922573553e-06,
      "loss": 0.66865826,
      "num_input_tokens_seen": 40311005,
      "step": 1896,
      "time_per_iteration": 3.4228250980377197
    },
    {
      "auxiliary_loss_clip": 0.01097531,
      "auxiliary_loss_mlp": 0.00878146,
      "balance_loss_clip": 1.02833068,
      "balance_loss_mlp": 1.00062048,
      "epoch": 0.22810076354235556,
      "flos": 62080896758400.0,
      "grad_norm": 0.8604014009258295,
      "language_loss": 0.62881613,
      "learning_rate": 3.602418289319497e-06,
      "loss": 0.64857292,
      "num_input_tokens_seen": 40369560,
      "step": 1897,
      "time_per_iteration": 3.238342046737671
    },
    {
      "auxiliary_loss_clip": 0.0117634,
      "auxiliary_loss_mlp": 0.01036357,
      "balance_loss_clip": 1.05354655,
      "balance_loss_mlp": 1.02580094,
      "epoch": 0.22822100643299464,
      "flos": 23876358635520.0,
      "grad_norm": 1.7517111760515809,
      "language_loss": 0.73341751,
      "learning_rate": 3.601952043296059e-06,
      "loss": 0.75554454,
      "num_input_tokens_seen": 40389555,
      "step": 1898,
      "time_per_iteration": 2.8272526264190674
    },
    {
      "auxiliary_loss_clip": 0.0120566,
      "auxiliary_loss_mlp": 0.01034758,
      "balance_loss_clip": 1.05704951,
      "balance_loss_mlp": 1.02451241,
      "epoch": 0.22834124932363373,
      "flos": 20991331180800.0,
      "grad_norm": 4.488830309923738,
      "language_loss": 0.8042661,
      "learning_rate": 3.6014855542577696e-06,
      "loss": 0.82667029,
      "num_input_tokens_seen": 40406765,
      "step": 1899,
      "time_per_iteration": 2.7082152366638184
    },
    {
      "auxiliary_loss_clip": 0.012007,
      "auxiliary_loss_mlp": 0.01045452,
      "balance_loss_clip": 1.05989635,
      "balance_loss_mlp": 1.0341332,
      "epoch": 0.22846149221427284,
      "flos": 24901572620160.0,
      "grad_norm": 3.884730164140074,
      "language_loss": 0.8437053,
      "learning_rate": 3.6010188222753943e-06,
      "loss": 0.86616683,
      "num_input_tokens_seen": 40427535,
      "step": 1900,
      "time_per_iteration": 2.707488536834717
    },
    {
      "auxiliary_loss_clip": 0.01095757,
      "auxiliary_loss_mlp": 0.01005551,
      "balance_loss_clip": 1.02737761,
      "balance_loss_mlp": 1.0029043,
      "epoch": 0.22858173510491192,
      "flos": 56132294319360.0,
      "grad_norm": 0.8920304733240761,
      "language_loss": 0.64120024,
      "learning_rate": 3.6005518474197372e-06,
      "loss": 0.66221339,
      "num_input_tokens_seen": 40479580,
      "step": 1901,
      "time_per_iteration": 3.1427199840545654
    },
    {
      "auxiliary_loss_clip": 0.01212714,
      "auxiliary_loss_mlp": 0.01031926,
      "balance_loss_clip": 1.06452608,
      "balance_loss_mlp": 1.02138174,
      "epoch": 0.228701977995551,
      "flos": 24170826332160.0,
      "grad_norm": 2.3811974511229663,
      "language_loss": 0.7862395,
      "learning_rate": 3.6000846297616373e-06,
      "loss": 0.8086859,
      "num_input_tokens_seen": 40497880,
      "step": 1902,
      "time_per_iteration": 2.720397710800171
    },
    {
      "auxiliary_loss_clip": 0.01231947,
      "auxiliary_loss_mlp": 0.01044012,
      "balance_loss_clip": 1.06934142,
      "balance_loss_mlp": 1.03253865,
      "epoch": 0.22882222088619011,
      "flos": 21387892308480.0,
      "grad_norm": 5.6378546796746996,
      "language_loss": 0.72407782,
      "learning_rate": 3.5996171693719717e-06,
      "loss": 0.74683738,
      "num_input_tokens_seen": 40513975,
      "step": 1903,
      "time_per_iteration": 2.767435312271118
    },
    {
      "auxiliary_loss_clip": 0.0110415,
      "auxiliary_loss_mlp": 0.01006279,
      "balance_loss_clip": 1.02535534,
      "balance_loss_mlp": 1.00340605,
      "epoch": 0.2289424637768292,
      "flos": 64589615377920.0,
      "grad_norm": 0.8351411885109177,
      "language_loss": 0.64818126,
      "learning_rate": 3.5991494663216528e-06,
      "loss": 0.6692856,
      "num_input_tokens_seen": 40576960,
      "step": 1904,
      "time_per_iteration": 3.328861951828003
    },
    {
      "auxiliary_loss_clip": 0.01222962,
      "auxiliary_loss_mlp": 0.01038866,
      "balance_loss_clip": 1.06417418,
      "balance_loss_mlp": 1.02853084,
      "epoch": 0.22906270666746828,
      "flos": 22163419877760.0,
      "grad_norm": 2.170997069471898,
      "language_loss": 0.87897539,
      "learning_rate": 3.5986815206816314e-06,
      "loss": 0.90159369,
      "num_input_tokens_seen": 40595780,
      "step": 1905,
      "time_per_iteration": 2.800501823425293
    },
    {
      "auxiliary_loss_clip": 0.01221921,
      "auxiliary_loss_mlp": 0.01034854,
      "balance_loss_clip": 1.0636909,
      "balance_loss_mlp": 1.0238924,
      "epoch": 0.2291829495581074,
      "flos": 25772334122880.0,
      "grad_norm": 1.9070174665072117,
      "language_loss": 0.74661326,
      "learning_rate": 3.598213332522895e-06,
      "loss": 0.76918101,
      "num_input_tokens_seen": 40615810,
      "step": 1906,
      "time_per_iteration": 2.725259304046631
    },
    {
      "auxiliary_loss_clip": 0.01209866,
      "auxiliary_loss_mlp": 0.01035479,
      "balance_loss_clip": 1.0586313,
      "balance_loss_mlp": 1.02451718,
      "epoch": 0.22930319244874647,
      "flos": 31172760126720.0,
      "grad_norm": 1.851416793117401,
      "language_loss": 0.7725358,
      "learning_rate": 3.597744901916466e-06,
      "loss": 0.79498923,
      "num_input_tokens_seen": 40637095,
      "step": 1907,
      "time_per_iteration": 2.7169179916381836
    },
    {
      "auxiliary_loss_clip": 0.01225544,
      "auxiliary_loss_mlp": 0.010394,
      "balance_loss_clip": 1.06241977,
      "balance_loss_mlp": 1.02780652,
      "epoch": 0.22942343533938556,
      "flos": 23254098399360.0,
      "grad_norm": 2.5050097296321763,
      "language_loss": 0.76629186,
      "learning_rate": 3.5972762289334058e-06,
      "loss": 0.78894138,
      "num_input_tokens_seen": 40656725,
      "step": 1908,
      "time_per_iteration": 3.5122485160827637
    },
    {
      "auxiliary_loss_clip": 0.01166905,
      "auxiliary_loss_mlp": 0.01043565,
      "balance_loss_clip": 1.05554962,
      "balance_loss_mlp": 1.03234148,
      "epoch": 0.22954367823002464,
      "flos": 14610903436800.0,
      "grad_norm": 1.9755590216254855,
      "language_loss": 0.85450232,
      "learning_rate": 3.5968073136448116e-06,
      "loss": 0.87660706,
      "num_input_tokens_seen": 40674745,
      "step": 1909,
      "time_per_iteration": 2.745453119277954
    },
    {
      "auxiliary_loss_clip": 0.0121619,
      "auxiliary_loss_mlp": 0.01037271,
      "balance_loss_clip": 1.06095874,
      "balance_loss_mlp": 1.02610147,
      "epoch": 0.22966392112066375,
      "flos": 16763604405120.0,
      "grad_norm": 1.8711281689904025,
      "language_loss": 0.91539395,
      "learning_rate": 3.596338156121818e-06,
      "loss": 0.93792856,
      "num_input_tokens_seen": 40693630,
      "step": 1910,
      "time_per_iteration": 2.6370925903320312
    },
    {
      "auxiliary_loss_clip": 0.01094001,
      "auxiliary_loss_mlp": 0.01006233,
      "balance_loss_clip": 1.02326643,
      "balance_loss_mlp": 1.00361085,
      "epoch": 0.22978416401130283,
      "flos": 67474247783040.0,
      "grad_norm": 0.7475609345758728,
      "language_loss": 0.59330744,
      "learning_rate": 3.595868756435595e-06,
      "loss": 0.61430985,
      "num_input_tokens_seen": 40761310,
      "step": 1911,
      "time_per_iteration": 3.3450775146484375
    },
    {
      "auxiliary_loss_clip": 0.01196952,
      "auxiliary_loss_mlp": 0.01040886,
      "balance_loss_clip": 1.06296635,
      "balance_loss_mlp": 1.02933502,
      "epoch": 0.22990440690194192,
      "flos": 19865137086720.0,
      "grad_norm": 2.0335324681864018,
      "language_loss": 0.80583054,
      "learning_rate": 3.5953991146573504e-06,
      "loss": 0.82820892,
      "num_input_tokens_seen": 40779955,
      "step": 1912,
      "time_per_iteration": 2.7012453079223633
    },
    {
      "auxiliary_loss_clip": 0.01214812,
      "auxiliary_loss_mlp": 0.01041694,
      "balance_loss_clip": 1.05930996,
      "balance_loss_mlp": 1.03074419,
      "epoch": 0.23002464979258103,
      "flos": 13289246507520.0,
      "grad_norm": 2.52536727214343,
      "language_loss": 0.83239323,
      "learning_rate": 3.5949292308583294e-06,
      "loss": 0.8549583,
      "num_input_tokens_seen": 40793200,
      "step": 1913,
      "time_per_iteration": 2.6142430305480957
    },
    {
      "auxiliary_loss_clip": 0.01222442,
      "auxiliary_loss_mlp": 0.01042643,
      "balance_loss_clip": 1.06367552,
      "balance_loss_mlp": 1.03137183,
      "epoch": 0.2301448926832201,
      "flos": 22163779013760.0,
      "grad_norm": 2.274556523096542,
      "language_loss": 0.80585498,
      "learning_rate": 3.594459105109811e-06,
      "loss": 0.82850575,
      "num_input_tokens_seen": 40812380,
      "step": 1914,
      "time_per_iteration": 4.612584114074707
    },
    {
      "auxiliary_loss_clip": 0.01212614,
      "auxiliary_loss_mlp": 0.01035562,
      "balance_loss_clip": 1.06150079,
      "balance_loss_mlp": 1.02503026,
      "epoch": 0.2302651355738592,
      "flos": 20704477167360.0,
      "grad_norm": 1.8731685215269378,
      "language_loss": 0.81716573,
      "learning_rate": 3.593988737483115e-06,
      "loss": 0.83964747,
      "num_input_tokens_seen": 40832320,
      "step": 1915,
      "time_per_iteration": 2.6701228618621826
    },
    {
      "auxiliary_loss_clip": 0.01205151,
      "auxiliary_loss_mlp": 0.01035495,
      "balance_loss_clip": 1.06201661,
      "balance_loss_mlp": 1.02480209,
      "epoch": 0.23038537846449827,
      "flos": 18588943797120.0,
      "grad_norm": 2.0860439219479523,
      "language_loss": 0.78067589,
      "learning_rate": 3.5935181280495947e-06,
      "loss": 0.80308241,
      "num_input_tokens_seen": 40850900,
      "step": 1916,
      "time_per_iteration": 2.6331520080566406
    },
    {
      "auxiliary_loss_clip": 0.01088647,
      "auxiliary_loss_mlp": 0.01002701,
      "balance_loss_clip": 1.02047825,
      "balance_loss_mlp": 1.00007844,
      "epoch": 0.23050562135513739,
      "flos": 64224260190720.0,
      "grad_norm": 0.8083781163020595,
      "language_loss": 0.54285491,
      "learning_rate": 3.5930472768806412e-06,
      "loss": 0.56376839,
      "num_input_tokens_seen": 40909570,
      "step": 1917,
      "time_per_iteration": 4.116864204406738
    },
    {
      "auxiliary_loss_clip": 0.01223575,
      "auxiliary_loss_mlp": 0.01034069,
      "balance_loss_clip": 1.06389892,
      "balance_loss_mlp": 1.02285147,
      "epoch": 0.23062586424577647,
      "flos": 17313396952320.0,
      "grad_norm": 2.11130831365593,
      "language_loss": 0.7731638,
      "learning_rate": 3.5925761840476826e-06,
      "loss": 0.79574025,
      "num_input_tokens_seen": 40928180,
      "step": 1918,
      "time_per_iteration": 2.591848850250244
    },
    {
      "auxiliary_loss_clip": 0.01195916,
      "auxiliary_loss_mlp": 0.0103714,
      "balance_loss_clip": 1.06213355,
      "balance_loss_mlp": 1.02654195,
      "epoch": 0.23074610713641555,
      "flos": 27855979194240.0,
      "grad_norm": 4.47060621886198,
      "language_loss": 0.81577432,
      "learning_rate": 3.592104849622183e-06,
      "loss": 0.83810484,
      "num_input_tokens_seen": 40950435,
      "step": 1919,
      "time_per_iteration": 2.748462677001953
    },
    {
      "auxiliary_loss_clip": 0.01169155,
      "auxiliary_loss_mlp": 0.01036546,
      "balance_loss_clip": 1.05432653,
      "balance_loss_mlp": 1.02565074,
      "epoch": 0.23086635002705466,
      "flos": 28841798937600.0,
      "grad_norm": 1.6842389750031088,
      "language_loss": 0.73516041,
      "learning_rate": 3.591633273675644e-06,
      "loss": 0.75721741,
      "num_input_tokens_seen": 40972670,
      "step": 1920,
      "time_per_iteration": 2.789262056350708
    },
    {
      "auxiliary_loss_clip": 0.01078101,
      "auxiliary_loss_mlp": 0.01006568,
      "balance_loss_clip": 1.02746475,
      "balance_loss_mlp": 1.00389755,
      "epoch": 0.23098659291769374,
      "flos": 62923681566720.0,
      "grad_norm": 0.9128346737816382,
      "language_loss": 0.58175826,
      "learning_rate": 3.591161456279602e-06,
      "loss": 0.60260493,
      "num_input_tokens_seen": 41018215,
      "step": 1921,
      "time_per_iteration": 3.0513293743133545
    },
    {
      "auxiliary_loss_clip": 0.01204024,
      "auxiliary_loss_mlp": 0.01041454,
      "balance_loss_clip": 1.05801105,
      "balance_loss_mlp": 1.0306778,
      "epoch": 0.23110683580833283,
      "flos": 23476816679040.0,
      "grad_norm": 1.6659501829539052,
      "language_loss": 0.80437833,
      "learning_rate": 3.590689397505633e-06,
      "loss": 0.82683313,
      "num_input_tokens_seen": 41039125,
      "step": 1922,
      "time_per_iteration": 2.724855899810791
    },
    {
      "auxiliary_loss_clip": 0.012188,
      "auxiliary_loss_mlp": 0.01037746,
      "balance_loss_clip": 1.06265283,
      "balance_loss_mlp": 1.02704108,
      "epoch": 0.2312270786989719,
      "flos": 27271066124160.0,
      "grad_norm": 6.027311846749853,
      "language_loss": 0.86884552,
      "learning_rate": 3.590217097425347e-06,
      "loss": 0.89141101,
      "num_input_tokens_seen": 41059025,
      "step": 1923,
      "time_per_iteration": 2.6292264461517334
    },
    {
      "auxiliary_loss_clip": 0.01221438,
      "auxiliary_loss_mlp": 0.01040607,
      "balance_loss_clip": 1.06327426,
      "balance_loss_mlp": 1.02984834,
      "epoch": 0.23134732158961102,
      "flos": 13261344618240.0,
      "grad_norm": 2.9643971828120135,
      "language_loss": 0.71187752,
      "learning_rate": 3.589744556110391e-06,
      "loss": 0.73449796,
      "num_input_tokens_seen": 41077015,
      "step": 1924,
      "time_per_iteration": 2.669950008392334
    },
    {
      "auxiliary_loss_clip": 0.0119272,
      "auxiliary_loss_mlp": 0.01037553,
      "balance_loss_clip": 1.05548787,
      "balance_loss_mlp": 1.02660978,
      "epoch": 0.2314675644802501,
      "flos": 36977648250240.0,
      "grad_norm": 2.0676338215512153,
      "language_loss": 0.84782004,
      "learning_rate": 3.58927177363245e-06,
      "loss": 0.87012279,
      "num_input_tokens_seen": 41099840,
      "step": 1925,
      "time_per_iteration": 2.820688247680664
    },
    {
      "auxiliary_loss_clip": 0.01181995,
      "auxiliary_loss_mlp": 0.01042355,
      "balance_loss_clip": 1.05318165,
      "balance_loss_mlp": 1.0311259,
      "epoch": 0.2315878073708892,
      "flos": 23842207779840.0,
      "grad_norm": 2.227503502349347,
      "language_loss": 0.73041689,
      "learning_rate": 3.5887987500632447e-06,
      "loss": 0.75266039,
      "num_input_tokens_seen": 41117845,
      "step": 1926,
      "time_per_iteration": 2.737592935562134
    },
    {
      "auxiliary_loss_clip": 0.01196978,
      "auxiliary_loss_mlp": 0.01041506,
      "balance_loss_clip": 1.05824947,
      "balance_loss_mlp": 1.03143847,
      "epoch": 0.2317080502615283,
      "flos": 23039424766080.0,
      "grad_norm": 1.7755492088832427,
      "language_loss": 0.83740932,
      "learning_rate": 3.5883254854745325e-06,
      "loss": 0.85979414,
      "num_input_tokens_seen": 41136235,
      "step": 1927,
      "time_per_iteration": 2.7606217861175537
    },
    {
      "auxiliary_loss_clip": 0.01216428,
      "auxiliary_loss_mlp": 0.0103414,
      "balance_loss_clip": 1.0606699,
      "balance_loss_mlp": 1.02384067,
      "epoch": 0.23182829315216738,
      "flos": 11254656435840.0,
      "grad_norm": 2.182026365152068,
      "language_loss": 0.75110805,
      "learning_rate": 3.587851979938107e-06,
      "loss": 0.77361369,
      "num_input_tokens_seen": 41153125,
      "step": 1928,
      "time_per_iteration": 2.596656084060669
    },
    {
      "auxiliary_loss_clip": 0.01208006,
      "auxiliary_loss_mlp": 0.01040619,
      "balance_loss_clip": 1.06014287,
      "balance_loss_mlp": 1.03010452,
      "epoch": 0.23194853604280646,
      "flos": 19828939155840.0,
      "grad_norm": 1.9334034953937178,
      "language_loss": 0.77686894,
      "learning_rate": 3.5873782335257985e-06,
      "loss": 0.79935527,
      "num_input_tokens_seen": 41171290,
      "step": 1929,
      "time_per_iteration": 2.6076297760009766
    },
    {
      "auxiliary_loss_clip": 0.01189124,
      "auxiliary_loss_mlp": 0.01041204,
      "balance_loss_clip": 1.05967247,
      "balance_loss_mlp": 1.03043318,
      "epoch": 0.23206877893344555,
      "flos": 15305020830720.0,
      "grad_norm": 2.1503457418561314,
      "language_loss": 0.78204703,
      "learning_rate": 3.5869042463094744e-06,
      "loss": 0.80435032,
      "num_input_tokens_seen": 41189005,
      "step": 1930,
      "time_per_iteration": 2.7104125022888184
    },
    {
      "auxiliary_loss_clip": 0.01159396,
      "auxiliary_loss_mlp": 0.01039236,
      "balance_loss_clip": 1.0503459,
      "balance_loss_mlp": 1.02875793,
      "epoch": 0.23218902182408466,
      "flos": 22711488572160.0,
      "grad_norm": 1.9698350929134296,
      "language_loss": 0.77396339,
      "learning_rate": 3.586430018361038e-06,
      "loss": 0.79594976,
      "num_input_tokens_seen": 41208775,
      "step": 1931,
      "time_per_iteration": 2.711095094680786
    },
    {
      "auxiliary_loss_clip": 0.01186861,
      "auxiliary_loss_mlp": 0.01040077,
      "balance_loss_clip": 1.05440664,
      "balance_loss_mlp": 1.02952683,
      "epoch": 0.23230926471472374,
      "flos": 22710734386560.0,
      "grad_norm": 2.3811733423385375,
      "language_loss": 0.76169652,
      "learning_rate": 3.5859555497524283e-06,
      "loss": 0.78396595,
      "num_input_tokens_seen": 41226010,
      "step": 1932,
      "time_per_iteration": 2.679455041885376
    },
    {
      "auxiliary_loss_clip": 0.01211936,
      "auxiliary_loss_mlp": 0.01040481,
      "balance_loss_clip": 1.06288326,
      "balance_loss_mlp": 1.02985954,
      "epoch": 0.23242950760536282,
      "flos": 20375499479040.0,
      "grad_norm": 2.3681379201979467,
      "language_loss": 0.92366332,
      "learning_rate": 3.5854808405556237e-06,
      "loss": 0.9461875,
      "num_input_tokens_seen": 41245245,
      "step": 1933,
      "time_per_iteration": 2.7092530727386475
    },
    {
      "auxiliary_loss_clip": 0.01187505,
      "auxiliary_loss_mlp": 0.0103369,
      "balance_loss_clip": 1.0551517,
      "balance_loss_mlp": 1.02353334,
      "epoch": 0.23254975049600193,
      "flos": 16908324301440.0,
      "grad_norm": 3.642242366367081,
      "language_loss": 0.75757098,
      "learning_rate": 3.5850058908426355e-06,
      "loss": 0.77978301,
      "num_input_tokens_seen": 41263795,
      "step": 1934,
      "time_per_iteration": 3.574824333190918
    },
    {
      "auxiliary_loss_clip": 0.01200269,
      "auxiliary_loss_mlp": 0.01041496,
      "balance_loss_clip": 1.05451989,
      "balance_loss_mlp": 1.03067756,
      "epoch": 0.23266999338664102,
      "flos": 23294821443840.0,
      "grad_norm": 2.745082221597158,
      "language_loss": 0.85849625,
      "learning_rate": 3.584530700685514e-06,
      "loss": 0.88091385,
      "num_input_tokens_seen": 41284055,
      "step": 1935,
      "time_per_iteration": 2.7235028743743896
    },
    {
      "auxiliary_loss_clip": 0.01195468,
      "auxiliary_loss_mlp": 0.0103841,
      "balance_loss_clip": 1.06239665,
      "balance_loss_mlp": 1.02796733,
      "epoch": 0.2327902362772801,
      "flos": 19569987031680.0,
      "grad_norm": 2.4905473159876563,
      "language_loss": 0.8929196,
      "learning_rate": 3.5840552701563448e-06,
      "loss": 0.91525841,
      "num_input_tokens_seen": 41300255,
      "step": 1936,
      "time_per_iteration": 2.6309072971343994
    },
    {
      "auxiliary_loss_clip": 0.0121834,
      "auxiliary_loss_mlp": 0.01034502,
      "balance_loss_clip": 1.06138468,
      "balance_loss_mlp": 1.02469075,
      "epoch": 0.2329104791679192,
      "flos": 16727514215040.0,
      "grad_norm": 2.8932226211741434,
      "language_loss": 0.81739414,
      "learning_rate": 3.5835795993272513e-06,
      "loss": 0.83992255,
      "num_input_tokens_seen": 41318540,
      "step": 1937,
      "time_per_iteration": 2.5953407287597656
    },
    {
      "auxiliary_loss_clip": 0.01145343,
      "auxiliary_loss_mlp": 0.01036598,
      "balance_loss_clip": 1.05009866,
      "balance_loss_mlp": 1.0259521,
      "epoch": 0.2330307220585583,
      "flos": 22163743100160.0,
      "grad_norm": 2.109952555535206,
      "language_loss": 0.7110191,
      "learning_rate": 3.583103688270391e-06,
      "loss": 0.73283851,
      "num_input_tokens_seen": 41338320,
      "step": 1938,
      "time_per_iteration": 2.9735536575317383
    },
    {
      "auxiliary_loss_clip": 0.01180997,
      "auxiliary_loss_mlp": 0.01039018,
      "balance_loss_clip": 1.05438399,
      "balance_loss_mlp": 1.02853918,
      "epoch": 0.23315096494919738,
      "flos": 19317319787520.0,
      "grad_norm": 5.468173318642501,
      "language_loss": 0.89596492,
      "learning_rate": 3.58262753705796e-06,
      "loss": 0.91816503,
      "num_input_tokens_seen": 41353210,
      "step": 1939,
      "time_per_iteration": 3.792203664779663
    },
    {
      "auxiliary_loss_clip": 0.01089646,
      "auxiliary_loss_mlp": 0.01006717,
      "balance_loss_clip": 1.02431715,
      "balance_loss_mlp": 1.00416589,
      "epoch": 0.23327120783983646,
      "flos": 53031048946560.0,
      "grad_norm": 0.7580162418934077,
      "language_loss": 0.55477667,
      "learning_rate": 3.5821511457621902e-06,
      "loss": 0.57574022,
      "num_input_tokens_seen": 41410510,
      "step": 1940,
      "time_per_iteration": 4.337568759918213
    },
    {
      "auxiliary_loss_clip": 0.01190132,
      "auxiliary_loss_mlp": 0.01042071,
      "balance_loss_clip": 1.05582297,
      "balance_loss_mlp": 1.03050125,
      "epoch": 0.23339145073047557,
      "flos": 17126984344320.0,
      "grad_norm": 2.6416600919383018,
      "language_loss": 0.81304234,
      "learning_rate": 3.5816745144553497e-06,
      "loss": 0.83536434,
      "num_input_tokens_seen": 41425830,
      "step": 1941,
      "time_per_iteration": 2.660590648651123
    },
    {
      "auxiliary_loss_clip": 0.01173538,
      "auxiliary_loss_mlp": 0.01038254,
      "balance_loss_clip": 1.05729735,
      "balance_loss_mlp": 1.02745366,
      "epoch": 0.23351169362111465,
      "flos": 13078918419840.0,
      "grad_norm": 2.4474195028411114,
      "language_loss": 0.75787175,
      "learning_rate": 3.5811976432097424e-06,
      "loss": 0.7799896,
      "num_input_tokens_seen": 41443500,
      "step": 1942,
      "time_per_iteration": 3.673792839050293
    },
    {
      "auxiliary_loss_clip": 0.0121238,
      "auxiliary_loss_mlp": 0.00890013,
      "balance_loss_clip": 1.06509519,
      "balance_loss_mlp": 1.00070214,
      "epoch": 0.23363193651175373,
      "flos": 15851257931520.0,
      "grad_norm": 2.325229401692776,
      "language_loss": 0.84588152,
      "learning_rate": 3.58072053209771e-06,
      "loss": 0.86690545,
      "num_input_tokens_seen": 41460055,
      "step": 1943,
      "time_per_iteration": 2.636685371398926
    },
    {
      "auxiliary_loss_clip": 0.01192356,
      "auxiliary_loss_mlp": 0.01032921,
      "balance_loss_clip": 1.05606318,
      "balance_loss_mlp": 1.02259183,
      "epoch": 0.23375217940239285,
      "flos": 21025769345280.0,
      "grad_norm": 2.326924528181045,
      "language_loss": 0.79315817,
      "learning_rate": 3.5802431811916296e-06,
      "loss": 0.81541097,
      "num_input_tokens_seen": 41476665,
      "step": 1944,
      "time_per_iteration": 2.6353683471679688
    },
    {
      "auxiliary_loss_clip": 0.01195706,
      "auxiliary_loss_mlp": 0.01034503,
      "balance_loss_clip": 1.05892515,
      "balance_loss_mlp": 1.02395296,
      "epoch": 0.23387242229303193,
      "flos": 20594698225920.0,
      "grad_norm": 1.802695873529328,
      "language_loss": 0.80898172,
      "learning_rate": 3.579765590563916e-06,
      "loss": 0.83128387,
      "num_input_tokens_seen": 41496065,
      "step": 1945,
      "time_per_iteration": 2.6817095279693604
    },
    {
      "auxiliary_loss_clip": 0.01199063,
      "auxiliary_loss_mlp": 0.01034844,
      "balance_loss_clip": 1.05914092,
      "balance_loss_mlp": 1.02405012,
      "epoch": 0.233992665183671,
      "flos": 24279491952000.0,
      "grad_norm": 1.7463751157729874,
      "language_loss": 0.81883729,
      "learning_rate": 3.579287760287017e-06,
      "loss": 0.84117633,
      "num_input_tokens_seen": 41516815,
      "step": 1946,
      "time_per_iteration": 2.7160580158233643
    },
    {
      "auxiliary_loss_clip": 0.01210694,
      "auxiliary_loss_mlp": 0.01033231,
      "balance_loss_clip": 1.0631392,
      "balance_loss_mlp": 1.02214456,
      "epoch": 0.2341129080743101,
      "flos": 30154621121280.0,
      "grad_norm": 2.3750834638227745,
      "language_loss": 0.73173344,
      "learning_rate": 3.578809690433421e-06,
      "loss": 0.75417268,
      "num_input_tokens_seen": 41538525,
      "step": 1947,
      "time_per_iteration": 2.7234230041503906
    },
    {
      "auxiliary_loss_clip": 0.01225062,
      "auxiliary_loss_mlp": 0.01039189,
      "balance_loss_clip": 1.06484401,
      "balance_loss_mlp": 1.02844799,
      "epoch": 0.2342331509649492,
      "flos": 22784135829120.0,
      "grad_norm": 2.443907777864842,
      "language_loss": 0.81425726,
      "learning_rate": 3.578331381075651e-06,
      "loss": 0.83689976,
      "num_input_tokens_seen": 41559025,
      "step": 1948,
      "time_per_iteration": 2.6796300411224365
    },
    {
      "auxiliary_loss_clip": 0.01210324,
      "auxiliary_loss_mlp": 0.01040564,
      "balance_loss_clip": 1.05973339,
      "balance_loss_mlp": 1.03011537,
      "epoch": 0.2343533938555883,
      "flos": 23623152687360.0,
      "grad_norm": 2.915995815927851,
      "language_loss": 0.69732124,
      "learning_rate": 3.5778528322862646e-06,
      "loss": 0.71983016,
      "num_input_tokens_seen": 41577845,
      "step": 1949,
      "time_per_iteration": 2.659116744995117
    },
    {
      "auxiliary_loss_clip": 0.01212568,
      "auxiliary_loss_mlp": 0.01040028,
      "balance_loss_clip": 1.06016922,
      "balance_loss_mlp": 1.03033042,
      "epoch": 0.23447363674622737,
      "flos": 24570332375040.0,
      "grad_norm": 1.5739719624057615,
      "language_loss": 0.86383176,
      "learning_rate": 3.5773740441378585e-06,
      "loss": 0.88635767,
      "num_input_tokens_seen": 41598600,
      "step": 1950,
      "time_per_iteration": 2.6924352645874023
    },
    {
      "auxiliary_loss_clip": 0.01208144,
      "auxiliary_loss_mlp": 0.010426,
      "balance_loss_clip": 1.06252742,
      "balance_loss_mlp": 1.03237772,
      "epoch": 0.23459387963686648,
      "flos": 53140322119680.0,
      "grad_norm": 1.6292260519911947,
      "language_loss": 0.74067509,
      "learning_rate": 3.5768950167030633e-06,
      "loss": 0.76318252,
      "num_input_tokens_seen": 41623300,
      "step": 1951,
      "time_per_iteration": 3.0602495670318604
    },
    {
      "auxiliary_loss_clip": 0.01187892,
      "auxiliary_loss_mlp": 0.01040332,
      "balance_loss_clip": 1.05529261,
      "balance_loss_mlp": 1.03050351,
      "epoch": 0.23471412252750556,
      "flos": 23951412103680.0,
      "grad_norm": 2.0737809291472167,
      "language_loss": 0.784989,
      "learning_rate": 3.576415750054548e-06,
      "loss": 0.80727124,
      "num_input_tokens_seen": 41643420,
      "step": 1952,
      "time_per_iteration": 2.692323923110962
    },
    {
      "auxiliary_loss_clip": 0.01190055,
      "auxiliary_loss_mlp": 0.01039704,
      "balance_loss_clip": 1.05852175,
      "balance_loss_mlp": 1.02953577,
      "epoch": 0.23483436541814465,
      "flos": 15706573948800.0,
      "grad_norm": 1.8186533595580112,
      "language_loss": 0.85803628,
      "learning_rate": 3.5759362442650172e-06,
      "loss": 0.8803339,
      "num_input_tokens_seen": 41660170,
      "step": 1953,
      "time_per_iteration": 2.6321334838867188
    },
    {
      "auxiliary_loss_clip": 0.01208269,
      "auxiliary_loss_mlp": 0.01033358,
      "balance_loss_clip": 1.06204915,
      "balance_loss_mlp": 1.0223906,
      "epoch": 0.23495460830878373,
      "flos": 24936262179840.0,
      "grad_norm": 2.8503535331727616,
      "language_loss": 0.8513577,
      "learning_rate": 3.5754564994072113e-06,
      "loss": 0.87377393,
      "num_input_tokens_seen": 41679010,
      "step": 1954,
      "time_per_iteration": 2.6905786991119385
    },
    {
      "auxiliary_loss_clip": 0.01193987,
      "auxiliary_loss_mlp": 0.01037435,
      "balance_loss_clip": 1.05578327,
      "balance_loss_mlp": 1.02669442,
      "epoch": 0.23507485119942284,
      "flos": 30482665056000.0,
      "grad_norm": 2.0931293690550907,
      "language_loss": 0.59731525,
      "learning_rate": 3.5749765155539067e-06,
      "loss": 0.6196295,
      "num_input_tokens_seen": 41699495,
      "step": 1955,
      "time_per_iteration": 2.713404655456543
    },
    {
      "auxiliary_loss_clip": 0.01186488,
      "auxiliary_loss_mlp": 0.01036154,
      "balance_loss_clip": 1.05658448,
      "balance_loss_mlp": 1.02550912,
      "epoch": 0.23519509409006192,
      "flos": 18329129746560.0,
      "grad_norm": 2.6918505446793963,
      "language_loss": 0.92607969,
      "learning_rate": 3.574496292777917e-06,
      "loss": 0.94830608,
      "num_input_tokens_seen": 41717705,
      "step": 1956,
      "time_per_iteration": 2.700976848602295
    },
    {
      "auxiliary_loss_clip": 0.01205519,
      "auxiliary_loss_mlp": 0.01041722,
      "balance_loss_clip": 1.05919838,
      "balance_loss_mlp": 1.02980161,
      "epoch": 0.235315336980701,
      "flos": 29643217234560.0,
      "grad_norm": 2.342620733949611,
      "language_loss": 0.71464646,
      "learning_rate": 3.574015831152092e-06,
      "loss": 0.73711884,
      "num_input_tokens_seen": 41738120,
      "step": 1957,
      "time_per_iteration": 2.739975690841675
    },
    {
      "auxiliary_loss_clip": 0.01186365,
      "auxiliary_loss_mlp": 0.01035492,
      "balance_loss_clip": 1.05725718,
      "balance_loss_mlp": 1.02525783,
      "epoch": 0.23543557987134012,
      "flos": 18551704371840.0,
      "grad_norm": 2.1131713526382905,
      "language_loss": 0.8340109,
      "learning_rate": 3.573535130749316e-06,
      "loss": 0.85622942,
      "num_input_tokens_seen": 41756070,
      "step": 1958,
      "time_per_iteration": 2.6864051818847656
    },
    {
      "auxiliary_loss_clip": 0.01192171,
      "auxiliary_loss_mlp": 0.01036924,
      "balance_loss_clip": 1.06137133,
      "balance_loss_mlp": 1.02628446,
      "epoch": 0.2355558227619792,
      "flos": 24679033908480.0,
      "grad_norm": 1.9931070915038698,
      "language_loss": 0.73840773,
      "learning_rate": 3.5730541916425127e-06,
      "loss": 0.76069868,
      "num_input_tokens_seen": 41777550,
      "step": 1959,
      "time_per_iteration": 2.7435998916625977
    },
    {
      "auxiliary_loss_clip": 0.0119364,
      "auxiliary_loss_mlp": 0.01034953,
      "balance_loss_clip": 1.05912876,
      "balance_loss_mlp": 1.02398562,
      "epoch": 0.23567606565261828,
      "flos": 21944795748480.0,
      "grad_norm": 3.726292400636841,
      "language_loss": 0.86303151,
      "learning_rate": 3.572573013904639e-06,
      "loss": 0.88531744,
      "num_input_tokens_seen": 41797460,
      "step": 1960,
      "time_per_iteration": 3.6686301231384277
    },
    {
      "auxiliary_loss_clip": 0.01221043,
      "auxiliary_loss_mlp": 0.01034329,
      "balance_loss_clip": 1.06453156,
      "balance_loss_mlp": 1.02453029,
      "epoch": 0.2357963085432574,
      "flos": 13589352639360.0,
      "grad_norm": 1.9557010512413788,
      "language_loss": 0.92044234,
      "learning_rate": 3.572091597608689e-06,
      "loss": 0.94299603,
      "num_input_tokens_seen": 41815585,
      "step": 1961,
      "time_per_iteration": 2.6063499450683594
    },
    {
      "auxiliary_loss_clip": 0.01204977,
      "auxiliary_loss_mlp": 0.01033156,
      "balance_loss_clip": 1.06289101,
      "balance_loss_mlp": 1.02200413,
      "epoch": 0.23591655143389648,
      "flos": 22088689632000.0,
      "grad_norm": 2.814699784214339,
      "language_loss": 0.73169553,
      "learning_rate": 3.571609942827694e-06,
      "loss": 0.75407684,
      "num_input_tokens_seen": 41834700,
      "step": 1962,
      "time_per_iteration": 2.7156262397766113
    },
    {
      "auxiliary_loss_clip": 0.0119543,
      "auxiliary_loss_mlp": 0.01034437,
      "balance_loss_clip": 1.05742955,
      "balance_loss_mlp": 1.02371383,
      "epoch": 0.23603679432453556,
      "flos": 17017349057280.0,
      "grad_norm": 1.733269455715582,
      "language_loss": 0.88459581,
      "learning_rate": 3.57112804963472e-06,
      "loss": 0.90689445,
      "num_input_tokens_seen": 41852915,
      "step": 1963,
      "time_per_iteration": 2.688699245452881
    },
    {
      "auxiliary_loss_clip": 0.01185831,
      "auxiliary_loss_mlp": 0.01032528,
      "balance_loss_clip": 1.06173146,
      "balance_loss_mlp": 1.02211452,
      "epoch": 0.23615703721517464,
      "flos": 19171307001600.0,
      "grad_norm": 1.8635153271311256,
      "language_loss": 0.76406497,
      "learning_rate": 3.57064591810287e-06,
      "loss": 0.78624851,
      "num_input_tokens_seen": 41870415,
      "step": 1964,
      "time_per_iteration": 2.7964706420898438
    },
    {
      "auxiliary_loss_clip": 0.01222308,
      "auxiliary_loss_mlp": 0.00888753,
      "balance_loss_clip": 1.06628656,
      "balance_loss_mlp": 1.00087738,
      "epoch": 0.23627728010581375,
      "flos": 19098803399040.0,
      "grad_norm": 4.510292818943158,
      "language_loss": 0.80601406,
      "learning_rate": 3.570163548305284e-06,
      "loss": 0.82712466,
      "num_input_tokens_seen": 41889345,
      "step": 1965,
      "time_per_iteration": 2.6273887157440186
    },
    {
      "auxiliary_loss_clip": 0.01196674,
      "auxiliary_loss_mlp": 0.01037496,
      "balance_loss_clip": 1.05926049,
      "balance_loss_mlp": 1.02623069,
      "epoch": 0.23639752299645284,
      "flos": 14282213057280.0,
      "grad_norm": 2.1384079622944983,
      "language_loss": 0.7017746,
      "learning_rate": 3.569680940315135e-06,
      "loss": 0.72411627,
      "num_input_tokens_seen": 41905745,
      "step": 1966,
      "time_per_iteration": 3.651914596557617
    },
    {
      "auxiliary_loss_clip": 0.01194573,
      "auxiliary_loss_mlp": 0.01033722,
      "balance_loss_clip": 1.05716515,
      "balance_loss_mlp": 1.02254069,
      "epoch": 0.23651776588709192,
      "flos": 22893411980160.0,
      "grad_norm": 1.9102744795436561,
      "language_loss": 0.82240725,
      "learning_rate": 3.5691980942056356e-06,
      "loss": 0.8446902,
      "num_input_tokens_seen": 41925115,
      "step": 1967,
      "time_per_iteration": 2.737651824951172
    },
    {
      "auxiliary_loss_clip": 0.01213996,
      "auxiliary_loss_mlp": 0.01036646,
      "balance_loss_clip": 1.06071699,
      "balance_loss_mlp": 1.02665079,
      "epoch": 0.23663800877773103,
      "flos": 18624531196800.0,
      "grad_norm": 1.7515822014280955,
      "language_loss": 0.79356313,
      "learning_rate": 3.5687150100500332e-06,
      "loss": 0.81606954,
      "num_input_tokens_seen": 41944815,
      "step": 1968,
      "time_per_iteration": 2.6693434715270996
    },
    {
      "auxiliary_loss_clip": 0.01212914,
      "auxiliary_loss_mlp": 0.01036157,
      "balance_loss_clip": 1.06202674,
      "balance_loss_mlp": 1.02616751,
      "epoch": 0.2367582516683701,
      "flos": 25555828896000.0,
      "grad_norm": 2.24241896108697,
      "language_loss": 0.74236226,
      "learning_rate": 3.568231687921611e-06,
      "loss": 0.76485294,
      "num_input_tokens_seen": 41964990,
      "step": 1969,
      "time_per_iteration": 3.5385475158691406
    },
    {
      "auxiliary_loss_clip": 0.01220687,
      "auxiliary_loss_mlp": 0.01039763,
      "balance_loss_clip": 1.06503451,
      "balance_loss_mlp": 1.02886736,
      "epoch": 0.2368784945590092,
      "flos": 23295072839040.0,
      "grad_norm": 1.5806618019459093,
      "language_loss": 0.80132854,
      "learning_rate": 3.5677481278936883e-06,
      "loss": 0.82393301,
      "num_input_tokens_seen": 41984570,
      "step": 1970,
      "time_per_iteration": 2.7098333835601807
    },
    {
      "auxiliary_loss_clip": 0.01093098,
      "auxiliary_loss_mlp": 0.01006236,
      "balance_loss_clip": 1.02751398,
      "balance_loss_mlp": 1.00362587,
      "epoch": 0.23699873744964828,
      "flos": 69859291875840.0,
      "grad_norm": 0.8342244765116226,
      "language_loss": 0.57869387,
      "learning_rate": 3.5672643300396214e-06,
      "loss": 0.59968716,
      "num_input_tokens_seen": 42053715,
      "step": 1971,
      "time_per_iteration": 3.3100380897521973
    },
    {
      "auxiliary_loss_clip": 0.01189743,
      "auxiliary_loss_mlp": 0.01040039,
      "balance_loss_clip": 1.05920064,
      "balance_loss_mlp": 1.02945328,
      "epoch": 0.2371189803402874,
      "flos": 21835052720640.0,
      "grad_norm": 2.4413621832028114,
      "language_loss": 0.67745441,
      "learning_rate": 3.566780294432802e-06,
      "loss": 0.69975227,
      "num_input_tokens_seen": 42070890,
      "step": 1972,
      "time_per_iteration": 2.8616111278533936
    },
    {
      "auxiliary_loss_clip": 0.01220316,
      "auxiliary_loss_mlp": 0.01034956,
      "balance_loss_clip": 1.06453502,
      "balance_loss_mlp": 1.0252341,
      "epoch": 0.23723922323092647,
      "flos": 21908490076800.0,
      "grad_norm": 2.448493111665376,
      "language_loss": 0.74724925,
      "learning_rate": 3.566296021146657e-06,
      "loss": 0.76980191,
      "num_input_tokens_seen": 42090270,
      "step": 1973,
      "time_per_iteration": 2.6861655712127686
    },
    {
      "auxiliary_loss_clip": 0.01226541,
      "auxiliary_loss_mlp": 0.01042719,
      "balance_loss_clip": 1.06649637,
      "balance_loss_mlp": 1.03218722,
      "epoch": 0.23735946612156555,
      "flos": 32708803380480.0,
      "grad_norm": 1.6544043812719025,
      "language_loss": 0.73277593,
      "learning_rate": 3.565811510254652e-06,
      "loss": 0.75546849,
      "num_input_tokens_seen": 42111150,
      "step": 1974,
      "time_per_iteration": 2.675825357437134
    },
    {
      "auxiliary_loss_clip": 0.01094572,
      "auxiliary_loss_mlp": 0.01003181,
      "balance_loss_clip": 1.02410102,
      "balance_loss_mlp": 1.00073767,
      "epoch": 0.23747970901220466,
      "flos": 70546944821760.0,
      "grad_norm": 0.8914277951700255,
      "language_loss": 0.58251226,
      "learning_rate": 3.5653267618302845e-06,
      "loss": 0.60348988,
      "num_input_tokens_seen": 42178730,
      "step": 1975,
      "time_per_iteration": 3.270310401916504
    },
    {
      "auxiliary_loss_clip": 0.01217103,
      "auxiliary_loss_mlp": 0.0103335,
      "balance_loss_clip": 1.06245637,
      "balance_loss_mlp": 1.02269268,
      "epoch": 0.23759995190284375,
      "flos": 20849807594880.0,
      "grad_norm": 2.1846785207430672,
      "language_loss": 0.856668,
      "learning_rate": 3.564841775947093e-06,
      "loss": 0.87917256,
      "num_input_tokens_seen": 42199620,
      "step": 1976,
      "time_per_iteration": 2.610644817352295
    },
    {
      "auxiliary_loss_clip": 0.0118501,
      "auxiliary_loss_mlp": 0.01042572,
      "balance_loss_clip": 1.05473256,
      "balance_loss_mlp": 1.03167629,
      "epoch": 0.23772019479348283,
      "flos": 32921645420160.0,
      "grad_norm": 5.811428367101515,
      "language_loss": 0.76073539,
      "learning_rate": 3.5643565526786475e-06,
      "loss": 0.7830112,
      "num_input_tokens_seen": 42219560,
      "step": 1977,
      "time_per_iteration": 2.7739415168762207
    },
    {
      "auxiliary_loss_clip": 0.01222551,
      "auxiliary_loss_mlp": 0.01037299,
      "balance_loss_clip": 1.06558776,
      "balance_loss_mlp": 1.0273037,
      "epoch": 0.2378404376841219,
      "flos": 32342765834880.0,
      "grad_norm": 1.6452852706546892,
      "language_loss": 0.77330136,
      "learning_rate": 3.5638710920985574e-06,
      "loss": 0.79589987,
      "num_input_tokens_seen": 42241020,
      "step": 1978,
      "time_per_iteration": 2.770958662033081
    },
    {
      "auxiliary_loss_clip": 0.01214993,
      "auxiliary_loss_mlp": 0.00889906,
      "balance_loss_clip": 1.05953968,
      "balance_loss_mlp": 1.00081182,
      "epoch": 0.23796068057476102,
      "flos": 22997624313600.0,
      "grad_norm": 2.0422725484405206,
      "language_loss": 0.81928408,
      "learning_rate": 3.5633853942804655e-06,
      "loss": 0.8403331,
      "num_input_tokens_seen": 42259345,
      "step": 1979,
      "time_per_iteration": 2.716569185256958
    },
    {
      "auxiliary_loss_clip": 0.0118514,
      "auxiliary_loss_mlp": 0.01035108,
      "balance_loss_clip": 1.05394912,
      "balance_loss_mlp": 1.02507687,
      "epoch": 0.2380809234654001,
      "flos": 13480938414720.0,
      "grad_norm": 1.9357690602782758,
      "language_loss": 0.76801419,
      "learning_rate": 3.5628994592980527e-06,
      "loss": 0.79021668,
      "num_input_tokens_seen": 42277250,
      "step": 1980,
      "time_per_iteration": 2.793891429901123
    },
    {
      "auxiliary_loss_clip": 0.01218812,
      "auxiliary_loss_mlp": 0.01033082,
      "balance_loss_clip": 1.06195974,
      "balance_loss_mlp": 1.02313995,
      "epoch": 0.2382011663560392,
      "flos": 16871803148160.0,
      "grad_norm": 5.473894705081629,
      "language_loss": 0.7026633,
      "learning_rate": 3.562413287225034e-06,
      "loss": 0.72518229,
      "num_input_tokens_seen": 42295360,
      "step": 1981,
      "time_per_iteration": 2.628232717514038
    },
    {
      "auxiliary_loss_clip": 0.01202409,
      "auxiliary_loss_mlp": 0.01039648,
      "balance_loss_clip": 1.06096876,
      "balance_loss_mlp": 1.02907991,
      "epoch": 0.2383214092466783,
      "flos": 18441135331200.0,
      "grad_norm": 2.1525805815149974,
      "language_loss": 0.89027238,
      "learning_rate": 3.5619268781351623e-06,
      "loss": 0.9126929,
      "num_input_tokens_seen": 42313430,
      "step": 1982,
      "time_per_iteration": 2.663203239440918
    },
    {
      "auxiliary_loss_clip": 0.01190519,
      "auxiliary_loss_mlp": 0.01035877,
      "balance_loss_clip": 1.05976105,
      "balance_loss_mlp": 1.02573836,
      "epoch": 0.23844165213731738,
      "flos": 19755717281280.0,
      "grad_norm": 1.824249239179008,
      "language_loss": 0.77070153,
      "learning_rate": 3.5614402321022256e-06,
      "loss": 0.79296553,
      "num_input_tokens_seen": 42331260,
      "step": 1983,
      "time_per_iteration": 2.6571805477142334
    },
    {
      "auxiliary_loss_clip": 0.0116871,
      "auxiliary_loss_mlp": 0.01037324,
      "balance_loss_clip": 1.05612516,
      "balance_loss_mlp": 1.02730441,
      "epoch": 0.23856189502795647,
      "flos": 23367360960000.0,
      "grad_norm": 2.10288895890612,
      "language_loss": 0.8752681,
      "learning_rate": 3.5609533492000463e-06,
      "loss": 0.8973285,
      "num_input_tokens_seen": 42350150,
      "step": 1984,
      "time_per_iteration": 2.7380030155181885
    },
    {
      "auxiliary_loss_clip": 0.01194092,
      "auxiliary_loss_mlp": 0.0103633,
      "balance_loss_clip": 1.06090736,
      "balance_loss_mlp": 1.0265491,
      "epoch": 0.23868213791859555,
      "flos": 23475056912640.0,
      "grad_norm": 2.1644190676504063,
      "language_loss": 0.7846601,
      "learning_rate": 3.560466229502485e-06,
      "loss": 0.80696428,
      "num_input_tokens_seen": 42369495,
      "step": 1985,
      "time_per_iteration": 2.7303669452667236
    },
    {
      "auxiliary_loss_clip": 0.01197999,
      "auxiliary_loss_mlp": 0.00889662,
      "balance_loss_clip": 1.06365061,
      "balance_loss_mlp": 1.00079894,
      "epoch": 0.23880238080923466,
      "flos": 16617340224000.0,
      "grad_norm": 2.167026757506653,
      "language_loss": 0.89626706,
      "learning_rate": 3.5599788730834384e-06,
      "loss": 0.91714358,
      "num_input_tokens_seen": 42387455,
      "step": 1986,
      "time_per_iteration": 2.6612319946289062
    },
    {
      "auxiliary_loss_clip": 0.01211917,
      "auxiliary_loss_mlp": 0.01035532,
      "balance_loss_clip": 1.06087255,
      "balance_loss_mlp": 1.02566147,
      "epoch": 0.23892262369987374,
      "flos": 17348409734400.0,
      "grad_norm": 2.4110933313087326,
      "language_loss": 0.78840357,
      "learning_rate": 3.559491280016836e-06,
      "loss": 0.8108781,
      "num_input_tokens_seen": 42405400,
      "step": 1987,
      "time_per_iteration": 3.50519061088562
    },
    {
      "auxiliary_loss_clip": 0.01194614,
      "auxiliary_loss_mlp": 0.01035514,
      "balance_loss_clip": 1.05719042,
      "balance_loss_mlp": 1.02530956,
      "epoch": 0.23904286659051283,
      "flos": 22309899540480.0,
      "grad_norm": 1.7864135496966151,
      "language_loss": 0.71241897,
      "learning_rate": 3.5590034503766465e-06,
      "loss": 0.73472023,
      "num_input_tokens_seen": 42425065,
      "step": 1988,
      "time_per_iteration": 2.597895622253418
    },
    {
      "auxiliary_loss_clip": 0.01218782,
      "auxiliary_loss_mlp": 0.01032457,
      "balance_loss_clip": 1.06318784,
      "balance_loss_mlp": 1.02217495,
      "epoch": 0.23916310948115194,
      "flos": 21178246579200.0,
      "grad_norm": 2.3041391309012007,
      "language_loss": 0.81616974,
      "learning_rate": 3.558515384236874e-06,
      "loss": 0.83868217,
      "num_input_tokens_seen": 42442495,
      "step": 1989,
      "time_per_iteration": 2.6026010513305664
    },
    {
      "auxiliary_loss_clip": 0.01175581,
      "auxiliary_loss_mlp": 0.00889656,
      "balance_loss_clip": 1.05700207,
      "balance_loss_mlp": 1.00078523,
      "epoch": 0.23928335237179102,
      "flos": 14137349506560.0,
      "grad_norm": 1.7522854870980342,
      "language_loss": 0.83653933,
      "learning_rate": 3.558027081671556e-06,
      "loss": 0.85719174,
      "num_input_tokens_seen": 42459480,
      "step": 1990,
      "time_per_iteration": 2.643148422241211
    },
    {
      "auxiliary_loss_clip": 0.01210369,
      "auxiliary_loss_mlp": 0.01035534,
      "balance_loss_clip": 1.05928683,
      "balance_loss_mlp": 1.02543092,
      "epoch": 0.2394035952624301,
      "flos": 23769596436480.0,
      "grad_norm": 1.6417699383525004,
      "language_loss": 0.68749225,
      "learning_rate": 3.557538542754769e-06,
      "loss": 0.70995128,
      "num_input_tokens_seen": 42479175,
      "step": 1991,
      "time_per_iteration": 2.678290367126465
    },
    {
      "auxiliary_loss_clip": 0.01216348,
      "auxiliary_loss_mlp": 0.01043322,
      "balance_loss_clip": 1.06104493,
      "balance_loss_mlp": 1.03292727,
      "epoch": 0.2395238381530692,
      "flos": 24206198250240.0,
      "grad_norm": 1.7877801215106108,
      "language_loss": 0.66949528,
      "learning_rate": 3.557049767560623e-06,
      "loss": 0.69209194,
      "num_input_tokens_seen": 42498090,
      "step": 1992,
      "time_per_iteration": 4.587869644165039
    },
    {
      "auxiliary_loss_clip": 0.01182157,
      "auxiliary_loss_mlp": 0.01035634,
      "balance_loss_clip": 1.05901587,
      "balance_loss_mlp": 1.02510822,
      "epoch": 0.2396440810437083,
      "flos": 25295763450240.0,
      "grad_norm": 2.1563817673418955,
      "language_loss": 0.85922384,
      "learning_rate": 3.5565607561632655e-06,
      "loss": 0.88140172,
      "num_input_tokens_seen": 42516930,
      "step": 1993,
      "time_per_iteration": 2.7544991970062256
    },
    {
      "auxiliary_loss_clip": 0.01192221,
      "auxiliary_loss_mlp": 0.01036668,
      "balance_loss_clip": 1.05839705,
      "balance_loss_mlp": 1.02649903,
      "epoch": 0.23976432393434738,
      "flos": 28543093436160.0,
      "grad_norm": 6.810682385748042,
      "language_loss": 0.79634154,
      "learning_rate": 3.5560715086368787e-06,
      "loss": 0.8186304,
      "num_input_tokens_seen": 42534800,
      "step": 1994,
      "time_per_iteration": 2.738626480102539
    },
    {
      "auxiliary_loss_clip": 0.01190304,
      "auxiliary_loss_mlp": 0.01035057,
      "balance_loss_clip": 1.06027722,
      "balance_loss_mlp": 1.02431595,
      "epoch": 0.23988456682498646,
      "flos": 19494358945920.0,
      "grad_norm": 1.87137468063536,
      "language_loss": 0.82295358,
      "learning_rate": 3.5555820250556816e-06,
      "loss": 0.84520721,
      "num_input_tokens_seen": 42552000,
      "step": 1995,
      "time_per_iteration": 3.6439244747161865
    },
    {
      "auxiliary_loss_clip": 0.012005,
      "auxiliary_loss_mlp": 0.0103861,
      "balance_loss_clip": 1.06121826,
      "balance_loss_mlp": 1.02740479,
      "epoch": 0.24000480971562557,
      "flos": 20266331068800.0,
      "grad_norm": 2.4054971008374184,
      "language_loss": 0.69175297,
      "learning_rate": 3.5550923054939278e-06,
      "loss": 0.71414405,
      "num_input_tokens_seen": 42571455,
      "step": 1996,
      "time_per_iteration": 2.7095718383789062
    },
    {
      "auxiliary_loss_clip": 0.01167683,
      "auxiliary_loss_mlp": 0.01030554,
      "balance_loss_clip": 1.05154765,
      "balance_loss_mlp": 1.02092159,
      "epoch": 0.24012505260626466,
      "flos": 25443176866560.0,
      "grad_norm": 1.9213893642216278,
      "language_loss": 0.74482197,
      "learning_rate": 3.5546023500259083e-06,
      "loss": 0.76680434,
      "num_input_tokens_seen": 42592550,
      "step": 1997,
      "time_per_iteration": 2.80397629737854
    },
    {
      "auxiliary_loss_clip": 0.0118034,
      "auxiliary_loss_mlp": 0.01040882,
      "balance_loss_clip": 1.05540347,
      "balance_loss_mlp": 1.03061795,
      "epoch": 0.24024529549690374,
      "flos": 15553342529280.0,
      "grad_norm": 2.2599768959339985,
      "language_loss": 0.81121856,
      "learning_rate": 3.5541121587259477e-06,
      "loss": 0.83343077,
      "num_input_tokens_seen": 42610385,
      "step": 1998,
      "time_per_iteration": 2.757087230682373
    },
    {
      "auxiliary_loss_clip": 0.01096045,
      "auxiliary_loss_mlp": 0.01015225,
      "balance_loss_clip": 1.02577794,
      "balance_loss_mlp": 1.0127213,
      "epoch": 0.24036553838754285,
      "flos": 57122351867520.0,
      "grad_norm": 0.8509629037665161,
      "language_loss": 0.57869399,
      "learning_rate": 3.553621731668408e-06,
      "loss": 0.59980667,
      "num_input_tokens_seen": 42673595,
      "step": 1999,
      "time_per_iteration": 3.2171506881713867
    },
    {
      "auxiliary_loss_clip": 0.01199959,
      "auxiliary_loss_mlp": 0.01039096,
      "balance_loss_clip": 1.05997133,
      "balance_loss_mlp": 1.02826595,
      "epoch": 0.24048578127818193,
      "flos": 24969946158720.0,
      "grad_norm": 1.972135406151163,
      "language_loss": 0.83252645,
      "learning_rate": 3.553131068927688e-06,
      "loss": 0.85491705,
      "num_input_tokens_seen": 42692000,
      "step": 2000,
      "time_per_iteration": 2.6594369411468506
    },
    {
      "auxiliary_loss_clip": 0.01188015,
      "auxiliary_loss_mlp": 0.01036634,
      "balance_loss_clip": 1.06065488,
      "balance_loss_mlp": 1.02716899,
      "epoch": 0.24060602416882101,
      "flos": 23330947547520.0,
      "grad_norm": 1.9403112587959757,
      "language_loss": 0.80541945,
      "learning_rate": 3.552640170578219e-06,
      "loss": 0.82766593,
      "num_input_tokens_seen": 42712250,
      "step": 2001,
      "time_per_iteration": 2.729691505432129
    },
    {
      "auxiliary_loss_clip": 0.01198946,
      "auxiliary_loss_mlp": 0.01035387,
      "balance_loss_clip": 1.06066847,
      "balance_loss_mlp": 1.02567744,
      "epoch": 0.2407262670594601,
      "flos": 14173260128640.0,
      "grad_norm": 2.140322134428337,
      "language_loss": 0.78150564,
      "learning_rate": 3.5521490366944703e-06,
      "loss": 0.80384898,
      "num_input_tokens_seen": 42729900,
      "step": 2002,
      "time_per_iteration": 2.6052353382110596
    },
    {
      "auxiliary_loss_clip": 0.0118424,
      "auxiliary_loss_mlp": 0.01039811,
      "balance_loss_clip": 1.05727792,
      "balance_loss_mlp": 1.0291959,
      "epoch": 0.2408465099500992,
      "flos": 13663113217920.0,
      "grad_norm": 2.282985757631833,
      "language_loss": 0.80035776,
      "learning_rate": 3.5516576673509474e-06,
      "loss": 0.82259822,
      "num_input_tokens_seen": 42747900,
      "step": 2003,
      "time_per_iteration": 2.6941323280334473
    },
    {
      "auxiliary_loss_clip": 0.01218265,
      "auxiliary_loss_mlp": 0.01035134,
      "balance_loss_clip": 1.06355286,
      "balance_loss_mlp": 1.02481103,
      "epoch": 0.2409667528407383,
      "flos": 31248029076480.0,
      "grad_norm": 1.9630215012286611,
      "language_loss": 0.86073267,
      "learning_rate": 3.5511660626221896e-06,
      "loss": 0.88326669,
      "num_input_tokens_seen": 42768540,
      "step": 2004,
      "time_per_iteration": 2.6989123821258545
    },
    {
      "auxiliary_loss_clip": 0.01193966,
      "auxiliary_loss_mlp": 0.00889782,
      "balance_loss_clip": 1.06041241,
      "balance_loss_mlp": 1.00072598,
      "epoch": 0.24108699573137737,
      "flos": 22199941031040.0,
      "grad_norm": 2.193480932773514,
      "language_loss": 0.89315057,
      "learning_rate": 3.5506742225827744e-06,
      "loss": 0.91398799,
      "num_input_tokens_seen": 42785395,
      "step": 2005,
      "time_per_iteration": 2.6964197158813477
    },
    {
      "auxiliary_loss_clip": 0.01186419,
      "auxiliary_loss_mlp": 0.01036374,
      "balance_loss_clip": 1.05778193,
      "balance_loss_mlp": 1.02651513,
      "epoch": 0.24120723862201648,
      "flos": 26103035664000.0,
      "grad_norm": 2.2276572957336866,
      "language_loss": 0.90451777,
      "learning_rate": 3.5501821473073116e-06,
      "loss": 0.92674565,
      "num_input_tokens_seen": 42801980,
      "step": 2006,
      "time_per_iteration": 2.7541890144348145
    },
    {
      "auxiliary_loss_clip": 0.01181039,
      "auxiliary_loss_mlp": 0.01037468,
      "balance_loss_clip": 1.05736303,
      "balance_loss_mlp": 1.02719235,
      "epoch": 0.24132748151265557,
      "flos": 18624926246400.0,
      "grad_norm": 2.756892921252804,
      "language_loss": 0.86739641,
      "learning_rate": 3.54968983687045e-06,
      "loss": 0.8895815,
      "num_input_tokens_seen": 42818850,
      "step": 2007,
      "time_per_iteration": 2.6832549571990967
    },
    {
      "auxiliary_loss_clip": 0.01198583,
      "auxiliary_loss_mlp": 0.01042777,
      "balance_loss_clip": 1.05925953,
      "balance_loss_mlp": 1.03262019,
      "epoch": 0.24144772440329465,
      "flos": 15267673664640.0,
      "grad_norm": 2.5542298001758823,
      "language_loss": 0.89552701,
      "learning_rate": 3.549197291346872e-06,
      "loss": 0.91794062,
      "num_input_tokens_seen": 42835375,
      "step": 2008,
      "time_per_iteration": 2.6916301250457764
    },
    {
      "auxiliary_loss_clip": 0.01210323,
      "auxiliary_loss_mlp": 0.01044945,
      "balance_loss_clip": 1.06095088,
      "balance_loss_mlp": 1.03386497,
      "epoch": 0.24156796729393373,
      "flos": 24024274842240.0,
      "grad_norm": 1.9187036081875914,
      "language_loss": 0.79168302,
      "learning_rate": 3.548704510811297e-06,
      "loss": 0.81423569,
      "num_input_tokens_seen": 42854570,
      "step": 2009,
      "time_per_iteration": 2.663304328918457
    },
    {
      "auxiliary_loss_clip": 0.01178434,
      "auxiliary_loss_mlp": 0.01041191,
      "balance_loss_clip": 1.05523872,
      "balance_loss_mlp": 1.02936578,
      "epoch": 0.24168821018457284,
      "flos": 26286790665600.0,
      "grad_norm": 3.0075500721527186,
      "language_loss": 0.75074315,
      "learning_rate": 3.5482114953384787e-06,
      "loss": 0.77293944,
      "num_input_tokens_seen": 42873800,
      "step": 2010,
      "time_per_iteration": 2.7950141429901123
    },
    {
      "auxiliary_loss_clip": 0.01210927,
      "auxiliary_loss_mlp": 0.01033701,
      "balance_loss_clip": 1.06123149,
      "balance_loss_mlp": 1.02343106,
      "epoch": 0.24180845307521193,
      "flos": 18223193560320.0,
      "grad_norm": 2.74242504242357,
      "language_loss": 0.84760463,
      "learning_rate": 3.5477182450032077e-06,
      "loss": 0.87005097,
      "num_input_tokens_seen": 42892400,
      "step": 2011,
      "time_per_iteration": 2.6502747535705566
    },
    {
      "auxiliary_loss_clip": 0.0120805,
      "auxiliary_loss_mlp": 0.01034828,
      "balance_loss_clip": 1.0631485,
      "balance_loss_mlp": 1.0242486,
      "epoch": 0.241928695965851,
      "flos": 20449260057600.0,
      "grad_norm": 2.066689319659556,
      "language_loss": 0.83584213,
      "learning_rate": 3.5472247598803097e-06,
      "loss": 0.85827088,
      "num_input_tokens_seen": 42911745,
      "step": 2012,
      "time_per_iteration": 3.5760915279388428
    },
    {
      "auxiliary_loss_clip": 0.01221741,
      "auxiliary_loss_mlp": 0.01042792,
      "balance_loss_clip": 1.06425142,
      "balance_loss_mlp": 1.03261137,
      "epoch": 0.24204893885649012,
      "flos": 25556475340800.0,
      "grad_norm": 2.475246021695684,
      "language_loss": 0.85727215,
      "learning_rate": 3.546731040044645e-06,
      "loss": 0.87991744,
      "num_input_tokens_seen": 42926915,
      "step": 2013,
      "time_per_iteration": 2.6313350200653076
    },
    {
      "auxiliary_loss_clip": 0.01220514,
      "auxiliary_loss_mlp": 0.01034782,
      "balance_loss_clip": 1.06659114,
      "balance_loss_mlp": 1.02467895,
      "epoch": 0.2421691817471292,
      "flos": 30660207004800.0,
      "grad_norm": 1.8619612347846026,
      "language_loss": 0.75395775,
      "learning_rate": 3.546237085571112e-06,
      "loss": 0.77651072,
      "num_input_tokens_seen": 42945350,
      "step": 2014,
      "time_per_iteration": 2.7129273414611816
    },
    {
      "auxiliary_loss_clip": 0.01210279,
      "auxiliary_loss_mlp": 0.01032153,
      "balance_loss_clip": 1.06354523,
      "balance_loss_mlp": 1.02192521,
      "epoch": 0.24228942463776829,
      "flos": 21945011230080.0,
      "grad_norm": 2.2356877327506868,
      "language_loss": 0.72333455,
      "learning_rate": 3.5457428965346425e-06,
      "loss": 0.74575889,
      "num_input_tokens_seen": 42964290,
      "step": 2015,
      "time_per_iteration": 2.6726787090301514
    },
    {
      "auxiliary_loss_clip": 0.01166088,
      "auxiliary_loss_mlp": 0.01035234,
      "balance_loss_clip": 1.05475974,
      "balance_loss_mlp": 1.02347374,
      "epoch": 0.2424096675284074,
      "flos": 33984493879680.0,
      "grad_norm": 1.6947761997150779,
      "language_loss": 0.7480194,
      "learning_rate": 3.545248473010205e-06,
      "loss": 0.77003258,
      "num_input_tokens_seen": 42987095,
      "step": 2016,
      "time_per_iteration": 2.8809735774993896
    },
    {
      "auxiliary_loss_clip": 0.01221648,
      "auxiliary_loss_mlp": 0.00889826,
      "balance_loss_clip": 1.0631454,
      "balance_loss_mlp": 1.00081623,
      "epoch": 0.24252991041904648,
      "flos": 21653416621440.0,
      "grad_norm": 2.0262837816410517,
      "language_loss": 0.87792331,
      "learning_rate": 3.544753815072802e-06,
      "loss": 0.89903802,
      "num_input_tokens_seen": 43005750,
      "step": 2017,
      "time_per_iteration": 2.6205532550811768
    },
    {
      "auxiliary_loss_clip": 0.01146882,
      "auxiliary_loss_mlp": 0.01036806,
      "balance_loss_clip": 1.04821467,
      "balance_loss_mlp": 1.02679801,
      "epoch": 0.24265015330968556,
      "flos": 21870065502720.0,
      "grad_norm": 1.8582847063103187,
      "language_loss": 0.88118714,
      "learning_rate": 3.544258922797474e-06,
      "loss": 0.90302402,
      "num_input_tokens_seen": 43023870,
      "step": 2018,
      "time_per_iteration": 4.886291742324829
    },
    {
      "auxiliary_loss_clip": 0.01218291,
      "auxiliary_loss_mlp": 0.01032345,
      "balance_loss_clip": 1.06350589,
      "balance_loss_mlp": 1.02286196,
      "epoch": 0.24277039620032465,
      "flos": 25628260671360.0,
      "grad_norm": 1.750518915545543,
      "language_loss": 0.78509438,
      "learning_rate": 3.543763796259295e-06,
      "loss": 0.80760074,
      "num_input_tokens_seen": 43043825,
      "step": 2019,
      "time_per_iteration": 3.2886054515838623
    },
    {
      "auxiliary_loss_clip": 0.01207162,
      "auxiliary_loss_mlp": 0.01028586,
      "balance_loss_clip": 1.06131029,
      "balance_loss_mlp": 1.01857245,
      "epoch": 0.24289063909096376,
      "flos": 26286575184000.0,
      "grad_norm": 2.151956221873088,
      "language_loss": 0.90609634,
      "learning_rate": 3.5432684355333754e-06,
      "loss": 0.9284538,
      "num_input_tokens_seen": 43062480,
      "step": 2020,
      "time_per_iteration": 2.7367568016052246
    },
    {
      "auxiliary_loss_clip": 0.0120707,
      "auxiliary_loss_mlp": 0.01031053,
      "balance_loss_clip": 1.05927587,
      "balance_loss_mlp": 1.02142048,
      "epoch": 0.24301088198160284,
      "flos": 25075056332160.0,
      "grad_norm": 2.0138324911063346,
      "language_loss": 0.76790857,
      "learning_rate": 3.5427728406948613e-06,
      "loss": 0.79028976,
      "num_input_tokens_seen": 43081595,
      "step": 2021,
      "time_per_iteration": 3.9188919067382812
    },
    {
      "auxiliary_loss_clip": 0.01094373,
      "auxiliary_loss_mlp": 0.0100705,
      "balance_loss_clip": 1.02715731,
      "balance_loss_mlp": 1.00443935,
      "epoch": 0.24313112487224192,
      "flos": 69900948673920.0,
      "grad_norm": 0.7506794693177868,
      "language_loss": 0.57873613,
      "learning_rate": 3.542277011818934e-06,
      "loss": 0.5997504,
      "num_input_tokens_seen": 43145430,
      "step": 2022,
      "time_per_iteration": 3.418043613433838
    },
    {
      "auxiliary_loss_clip": 0.01196607,
      "auxiliary_loss_mlp": 0.01031639,
      "balance_loss_clip": 1.0615766,
      "balance_loss_mlp": 1.02110112,
      "epoch": 0.24325136776288103,
      "flos": 40662334235520.0,
      "grad_norm": 2.101124817876739,
      "language_loss": 0.74100745,
      "learning_rate": 3.5417809489808104e-06,
      "loss": 0.76328987,
      "num_input_tokens_seen": 43167040,
      "step": 2023,
      "time_per_iteration": 2.8350753784179688
    },
    {
      "auxiliary_loss_clip": 0.01213236,
      "auxiliary_loss_mlp": 0.01038136,
      "balance_loss_clip": 1.06374848,
      "balance_loss_mlp": 1.02731204,
      "epoch": 0.24337161065352012,
      "flos": 25046400257280.0,
      "grad_norm": 1.8379406452498095,
      "language_loss": 0.72519338,
      "learning_rate": 3.5412846522557422e-06,
      "loss": 0.74770713,
      "num_input_tokens_seen": 43187930,
      "step": 2024,
      "time_per_iteration": 2.8115458488464355
    },
    {
      "auxiliary_loss_clip": 0.01220106,
      "auxiliary_loss_mlp": 0.01035024,
      "balance_loss_clip": 1.06628776,
      "balance_loss_mlp": 1.02521348,
      "epoch": 0.2434918535441592,
      "flos": 18661160090880.0,
      "grad_norm": 2.008011276546875,
      "language_loss": 0.74508584,
      "learning_rate": 3.540788121719018e-06,
      "loss": 0.76763719,
      "num_input_tokens_seen": 43206350,
      "step": 2025,
      "time_per_iteration": 2.6439459323883057
    },
    {
      "auxiliary_loss_clip": 0.01179071,
      "auxiliary_loss_mlp": 0.01031671,
      "balance_loss_clip": 1.05891168,
      "balance_loss_mlp": 1.02165127,
      "epoch": 0.24361209643479828,
      "flos": 23915142345600.0,
      "grad_norm": 1.9192900368427792,
      "language_loss": 0.82438016,
      "learning_rate": 3.5402913574459604e-06,
      "loss": 0.84648764,
      "num_input_tokens_seen": 43226255,
      "step": 2026,
      "time_per_iteration": 2.791820764541626
    },
    {
      "auxiliary_loss_clip": 0.01161579,
      "auxiliary_loss_mlp": 0.01033954,
      "balance_loss_clip": 1.05172515,
      "balance_loss_mlp": 1.02429175,
      "epoch": 0.2437323393254374,
      "flos": 28657505232000.0,
      "grad_norm": 2.194034522169318,
      "language_loss": 0.86033368,
      "learning_rate": 3.5397943595119297e-06,
      "loss": 0.88228905,
      "num_input_tokens_seen": 43247675,
      "step": 2027,
      "time_per_iteration": 2.865518093109131
    },
    {
      "auxiliary_loss_clip": 0.01192883,
      "auxiliary_loss_mlp": 0.01045488,
      "balance_loss_clip": 1.06081522,
      "balance_loss_mlp": 1.03574228,
      "epoch": 0.24385258221607647,
      "flos": 23550325862400.0,
      "grad_norm": 2.3854171464391274,
      "language_loss": 0.77475309,
      "learning_rate": 3.5392971279923177e-06,
      "loss": 0.79713678,
      "num_input_tokens_seen": 43265895,
      "step": 2028,
      "time_per_iteration": 2.733567237854004
    },
    {
      "auxiliary_loss_clip": 0.01179431,
      "auxiliary_loss_mlp": 0.01043673,
      "balance_loss_clip": 1.05484414,
      "balance_loss_mlp": 1.03367758,
      "epoch": 0.24397282510671556,
      "flos": 25336091445120.0,
      "grad_norm": 2.2846284501754655,
      "language_loss": 0.82921356,
      "learning_rate": 3.5387996629625557e-06,
      "loss": 0.8514446,
      "num_input_tokens_seen": 43283485,
      "step": 2029,
      "time_per_iteration": 2.72121000289917
    },
    {
      "auxiliary_loss_clip": 0.01106379,
      "auxiliary_loss_mlp": 0.01005135,
      "balance_loss_clip": 1.02661979,
      "balance_loss_mlp": 1.0025723,
      "epoch": 0.24409306799735467,
      "flos": 65187421430400.0,
      "grad_norm": 0.8030810269537256,
      "language_loss": 0.55034387,
      "learning_rate": 3.5383019644981083e-06,
      "loss": 0.57145905,
      "num_input_tokens_seen": 43347180,
      "step": 2030,
      "time_per_iteration": 3.2525174617767334
    },
    {
      "auxiliary_loss_clip": 0.01193037,
      "auxiliary_loss_mlp": 0.01037674,
      "balance_loss_clip": 1.05994582,
      "balance_loss_mlp": 1.02744031,
      "epoch": 0.24421331088799375,
      "flos": 19537093152000.0,
      "grad_norm": 2.538082690203656,
      "language_loss": 0.72932625,
      "learning_rate": 3.5378040326744763e-06,
      "loss": 0.75163335,
      "num_input_tokens_seen": 43366665,
      "step": 2031,
      "time_per_iteration": 2.662959575653076
    },
    {
      "auxiliary_loss_clip": 0.01190482,
      "auxiliary_loss_mlp": 0.01031108,
      "balance_loss_clip": 1.06008065,
      "balance_loss_mlp": 1.02183414,
      "epoch": 0.24433355377863283,
      "flos": 21068575378560.0,
      "grad_norm": 2.2322988708149847,
      "language_loss": 0.85890079,
      "learning_rate": 3.5373058675671946e-06,
      "loss": 0.88111675,
      "num_input_tokens_seen": 43384670,
      "step": 2032,
      "time_per_iteration": 2.7005391120910645
    },
    {
      "auxiliary_loss_clip": 0.01163729,
      "auxiliary_loss_mlp": 0.01037859,
      "balance_loss_clip": 1.05054927,
      "balance_loss_mlp": 1.02732086,
      "epoch": 0.24445379666927192,
      "flos": 22637189289600.0,
      "grad_norm": 2.12094059349626,
      "language_loss": 0.72541916,
      "learning_rate": 3.536807469251836e-06,
      "loss": 0.74743509,
      "num_input_tokens_seen": 43403825,
      "step": 2033,
      "time_per_iteration": 2.7964298725128174
    },
    {
      "auxiliary_loss_clip": 0.01189649,
      "auxiliary_loss_mlp": 0.01033413,
      "balance_loss_clip": 1.05449235,
      "balance_loss_mlp": 1.02398992,
      "epoch": 0.24457403955991103,
      "flos": 21251612108160.0,
      "grad_norm": 2.0181470512081097,
      "language_loss": 0.82583195,
      "learning_rate": 3.5363088378040055e-06,
      "loss": 0.84806257,
      "num_input_tokens_seen": 43422715,
      "step": 2034,
      "time_per_iteration": 2.8446547985076904
    },
    {
      "auxiliary_loss_clip": 0.01104993,
      "auxiliary_loss_mlp": 0.00877742,
      "balance_loss_clip": 1.02540851,
      "balance_loss_mlp": 1.00039089,
      "epoch": 0.2446942824505501,
      "flos": 66997820764800.0,
      "grad_norm": 0.7643202135682802,
      "language_loss": 0.64362288,
      "learning_rate": 3.5358099732993463e-06,
      "loss": 0.66345024,
      "num_input_tokens_seen": 43481825,
      "step": 2035,
      "time_per_iteration": 3.192986011505127
    },
    {
      "auxiliary_loss_clip": 0.01202389,
      "auxiliary_loss_mlp": 0.01033839,
      "balance_loss_clip": 1.05972695,
      "balance_loss_mlp": 1.02405763,
      "epoch": 0.2448145253411892,
      "flos": 20411122792320.0,
      "grad_norm": 1.8252544163140252,
      "language_loss": 0.89621651,
      "learning_rate": 3.535310875813535e-06,
      "loss": 0.91857886,
      "num_input_tokens_seen": 43500220,
      "step": 2036,
      "time_per_iteration": 2.748359203338623
    },
    {
      "auxiliary_loss_clip": 0.0120542,
      "auxiliary_loss_mlp": 0.01030495,
      "balance_loss_clip": 1.06007016,
      "balance_loss_mlp": 1.02125001,
      "epoch": 0.2449347682318283,
      "flos": 28804739080320.0,
      "grad_norm": 2.2237145987232063,
      "language_loss": 0.81413007,
      "learning_rate": 3.5348115454222843e-06,
      "loss": 0.8364892,
      "num_input_tokens_seen": 43522805,
      "step": 2037,
      "time_per_iteration": 2.7528176307678223
    },
    {
      "auxiliary_loss_clip": 0.01187725,
      "auxiliary_loss_mlp": 0.01037051,
      "balance_loss_clip": 1.0547024,
      "balance_loss_mlp": 1.02643561,
      "epoch": 0.2450550111224674,
      "flos": 22528990546560.0,
      "grad_norm": 2.460515912443263,
      "language_loss": 0.8599112,
      "learning_rate": 3.5343119822013425e-06,
      "loss": 0.88215894,
      "num_input_tokens_seen": 43541915,
      "step": 2038,
      "time_per_iteration": 4.0003981590271
    },
    {
      "auxiliary_loss_clip": 0.01212041,
      "auxiliary_loss_mlp": 0.01040508,
      "balance_loss_clip": 1.06037498,
      "balance_loss_mlp": 1.03027403,
      "epoch": 0.24517525401310647,
      "flos": 21759137326080.0,
      "grad_norm": 2.3743219148525956,
      "language_loss": 0.777659,
      "learning_rate": 3.533812186226493e-06,
      "loss": 0.80018449,
      "num_input_tokens_seen": 43562625,
      "step": 2039,
      "time_per_iteration": 2.677264928817749
    },
    {
      "auxiliary_loss_clip": 0.0121357,
      "auxiliary_loss_mlp": 0.01029755,
      "balance_loss_clip": 1.0605768,
      "balance_loss_mlp": 1.02055836,
      "epoch": 0.24529549690374555,
      "flos": 25043311687680.0,
      "grad_norm": 4.6880649900225775,
      "language_loss": 0.76117998,
      "learning_rate": 3.5333121575735545e-06,
      "loss": 0.78361332,
      "num_input_tokens_seen": 43582265,
      "step": 2040,
      "time_per_iteration": 2.6736886501312256
    },
    {
      "auxiliary_loss_clip": 0.01195098,
      "auxiliary_loss_mlp": 0.01041152,
      "balance_loss_clip": 1.05982637,
      "balance_loss_mlp": 1.03042912,
      "epoch": 0.24541573979438466,
      "flos": 32123638915200.0,
      "grad_norm": 2.018416786895716,
      "language_loss": 0.75853765,
      "learning_rate": 3.532811896318381e-06,
      "loss": 0.78090012,
      "num_input_tokens_seen": 43604335,
      "step": 2041,
      "time_per_iteration": 2.7690412998199463
    },
    {
      "auxiliary_loss_clip": 0.01189192,
      "auxiliary_loss_mlp": 0.01028897,
      "balance_loss_clip": 1.05675042,
      "balance_loss_mlp": 1.01862669,
      "epoch": 0.24553598268502375,
      "flos": 31357556622720.0,
      "grad_norm": 2.4239840778200157,
      "language_loss": 0.8175025,
      "learning_rate": 3.5323114025368615e-06,
      "loss": 0.83968335,
      "num_input_tokens_seen": 43619400,
      "step": 2042,
      "time_per_iteration": 2.777994394302368
    },
    {
      "auxiliary_loss_clip": 0.01196001,
      "auxiliary_loss_mlp": 0.01031882,
      "balance_loss_clip": 1.05292439,
      "balance_loss_mlp": 1.02222586,
      "epoch": 0.24565622557566283,
      "flos": 14027462824320.0,
      "grad_norm": 4.220509814335084,
      "language_loss": 0.82029355,
      "learning_rate": 3.53181067630492e-06,
      "loss": 0.84257239,
      "num_input_tokens_seen": 43636870,
      "step": 2043,
      "time_per_iteration": 2.6096925735473633
    },
    {
      "auxiliary_loss_clip": 0.01184737,
      "auxiliary_loss_mlp": 0.01035615,
      "balance_loss_clip": 1.05591035,
      "balance_loss_mlp": 1.02656066,
      "epoch": 0.24577646846630194,
      "flos": 16581465515520.0,
      "grad_norm": 1.8735045664451577,
      "language_loss": 0.76253372,
      "learning_rate": 3.5313097176985175e-06,
      "loss": 0.78473723,
      "num_input_tokens_seen": 43655180,
      "step": 2044,
      "time_per_iteration": 4.683685779571533
    },
    {
      "auxiliary_loss_clip": 0.01203779,
      "auxiliary_loss_mlp": 0.01030061,
      "balance_loss_clip": 1.06024742,
      "balance_loss_mlp": 1.02091217,
      "epoch": 0.24589671135694102,
      "flos": 18807424272000.0,
      "grad_norm": 2.105154742635447,
      "language_loss": 0.80956525,
      "learning_rate": 3.5308085267936482e-06,
      "loss": 0.83190364,
      "num_input_tokens_seen": 43672895,
      "step": 2045,
      "time_per_iteration": 2.6747210025787354
    },
    {
      "auxiliary_loss_clip": 0.01168644,
      "auxiliary_loss_mlp": 0.00888411,
      "balance_loss_clip": 1.05552387,
      "balance_loss_mlp": 1.00071287,
      "epoch": 0.2460169542475801,
      "flos": 19938538529280.0,
      "grad_norm": 1.9778455559829675,
      "language_loss": 0.89867628,
      "learning_rate": 3.530307103666342e-06,
      "loss": 0.91924679,
      "num_input_tokens_seen": 43691975,
      "step": 2046,
      "time_per_iteration": 2.843376398086548
    },
    {
      "auxiliary_loss_clip": 0.01189151,
      "auxiliary_loss_mlp": 0.01033376,
      "balance_loss_clip": 1.05650628,
      "balance_loss_mlp": 1.02335644,
      "epoch": 0.24613719713821922,
      "flos": 24171221381760.0,
      "grad_norm": 8.95171568152462,
      "language_loss": 0.80310309,
      "learning_rate": 3.5298054483926658e-06,
      "loss": 0.82532835,
      "num_input_tokens_seen": 43712670,
      "step": 2047,
      "time_per_iteration": 3.7198286056518555
    },
    {
      "auxiliary_loss_clip": 0.01213907,
      "auxiliary_loss_mlp": 0.01041259,
      "balance_loss_clip": 1.06236434,
      "balance_loss_mlp": 1.03144205,
      "epoch": 0.2462574400288583,
      "flos": 30221055325440.0,
      "grad_norm": 2.08841880284867,
      "language_loss": 0.82577127,
      "learning_rate": 3.5293035610487187e-06,
      "loss": 0.84832293,
      "num_input_tokens_seen": 43732035,
      "step": 2048,
      "time_per_iteration": 2.7729382514953613
    },
    {
      "auxiliary_loss_clip": 0.01089175,
      "auxiliary_loss_mlp": 0.01002843,
      "balance_loss_clip": 1.02414536,
      "balance_loss_mlp": 1.00044692,
      "epoch": 0.24637768291949738,
      "flos": 68943030819840.0,
      "grad_norm": 0.7329886511151049,
      "language_loss": 0.61977565,
      "learning_rate": 3.5288014417106374e-06,
      "loss": 0.64069581,
      "num_input_tokens_seen": 43798055,
      "step": 2049,
      "time_per_iteration": 3.271636724472046
    },
    {
      "auxiliary_loss_clip": 0.01181114,
      "auxiliary_loss_mlp": 0.01028896,
      "balance_loss_clip": 1.05678606,
      "balance_loss_mlp": 1.01878667,
      "epoch": 0.24649792581013646,
      "flos": 34383999922560.0,
      "grad_norm": 11.753341997482732,
      "language_loss": 0.75207382,
      "learning_rate": 3.528299090454593e-06,
      "loss": 0.77417392,
      "num_input_tokens_seen": 43818590,
      "step": 2050,
      "time_per_iteration": 2.847346782684326
    },
    {
      "auxiliary_loss_clip": 0.01207599,
      "auxiliary_loss_mlp": 0.0103866,
      "balance_loss_clip": 1.0581435,
      "balance_loss_mlp": 1.02875376,
      "epoch": 0.24661816870077558,
      "flos": 19680448331520.0,
      "grad_norm": 4.654350140068561,
      "language_loss": 0.83333004,
      "learning_rate": 3.527796507356792e-06,
      "loss": 0.85579264,
      "num_input_tokens_seen": 43832480,
      "step": 2051,
      "time_per_iteration": 2.662470579147339
    },
    {
      "auxiliary_loss_clip": 0.01209242,
      "auxiliary_loss_mlp": 0.01041465,
      "balance_loss_clip": 1.05925584,
      "balance_loss_mlp": 1.03150475,
      "epoch": 0.24673841159141466,
      "flos": 20002279213440.0,
      "grad_norm": 2.9312923299669005,
      "language_loss": 0.90882677,
      "learning_rate": 3.527293692493475e-06,
      "loss": 0.93133378,
      "num_input_tokens_seen": 43848345,
      "step": 2052,
      "time_per_iteration": 2.6345770359039307
    },
    {
      "auxiliary_loss_clip": 0.0120644,
      "auxiliary_loss_mlp": 0.01039742,
      "balance_loss_clip": 1.05736458,
      "balance_loss_mlp": 1.02913201,
      "epoch": 0.24685865448205374,
      "flos": 21646593037440.0,
      "grad_norm": 2.3432083107674107,
      "language_loss": 0.73798603,
      "learning_rate": 3.52679064594092e-06,
      "loss": 0.76044786,
      "num_input_tokens_seen": 43865685,
      "step": 2053,
      "time_per_iteration": 2.679924249649048
    },
    {
      "auxiliary_loss_clip": 0.01156521,
      "auxiliary_loss_mlp": 0.01031218,
      "balance_loss_clip": 1.04413915,
      "balance_loss_mlp": 1.02174091,
      "epoch": 0.24697889737269285,
      "flos": 17960470508160.0,
      "grad_norm": 2.2637109245649794,
      "language_loss": 0.75282311,
      "learning_rate": 3.5262873677754375e-06,
      "loss": 0.77470052,
      "num_input_tokens_seen": 43883690,
      "step": 2054,
      "time_per_iteration": 2.757503032684326
    },
    {
      "auxiliary_loss_clip": 0.0121879,
      "auxiliary_loss_mlp": 0.01034773,
      "balance_loss_clip": 1.06401706,
      "balance_loss_mlp": 1.02551675,
      "epoch": 0.24709914026333193,
      "flos": 27344611221120.0,
      "grad_norm": 1.6734538628476687,
      "language_loss": 0.80534208,
      "learning_rate": 3.5257838580733745e-06,
      "loss": 0.82787776,
      "num_input_tokens_seen": 43903295,
      "step": 2055,
      "time_per_iteration": 2.669783353805542
    },
    {
      "auxiliary_loss_clip": 0.0120906,
      "auxiliary_loss_mlp": 0.0103107,
      "balance_loss_clip": 1.05946505,
      "balance_loss_mlp": 1.02098453,
      "epoch": 0.24721938315397102,
      "flos": 19275519335040.0,
      "grad_norm": 2.1516984137457014,
      "language_loss": 0.87239254,
      "learning_rate": 3.5252801169111138e-06,
      "loss": 0.89479381,
      "num_input_tokens_seen": 43920960,
      "step": 2056,
      "time_per_iteration": 2.6425468921661377
    },
    {
      "auxiliary_loss_clip": 0.01196873,
      "auxiliary_loss_mlp": 0.01033509,
      "balance_loss_clip": 1.06127477,
      "balance_loss_mlp": 1.02378201,
      "epoch": 0.2473396260446101,
      "flos": 23185796688000.0,
      "grad_norm": 1.9892936549879505,
      "language_loss": 0.79858679,
      "learning_rate": 3.524776144365072e-06,
      "loss": 0.82089055,
      "num_input_tokens_seen": 43939415,
      "step": 2057,
      "time_per_iteration": 2.6999218463897705
    },
    {
      "auxiliary_loss_clip": 0.0118977,
      "auxiliary_loss_mlp": 0.01034507,
      "balance_loss_clip": 1.06057692,
      "balance_loss_mlp": 1.02401638,
      "epoch": 0.2474598689352492,
      "flos": 21142443697920.0,
      "grad_norm": 1.7737210673783144,
      "language_loss": 0.79234612,
      "learning_rate": 3.5242719405117016e-06,
      "loss": 0.81458879,
      "num_input_tokens_seen": 43959220,
      "step": 2058,
      "time_per_iteration": 2.7024099826812744
    },
    {
      "auxiliary_loss_clip": 0.01192861,
      "auxiliary_loss_mlp": 0.00888752,
      "balance_loss_clip": 1.05566061,
      "balance_loss_mlp": 1.00078297,
      "epoch": 0.2475801118258883,
      "flos": 21648352803840.0,
      "grad_norm": 2.590436038326796,
      "language_loss": 0.75300753,
      "learning_rate": 3.5237675054274893e-06,
      "loss": 0.77382362,
      "num_input_tokens_seen": 43978420,
      "step": 2059,
      "time_per_iteration": 2.715812921524048
    },
    {
      "auxiliary_loss_clip": 0.01206397,
      "auxiliary_loss_mlp": 0.01033327,
      "balance_loss_clip": 1.05873346,
      "balance_loss_mlp": 1.0230155,
      "epoch": 0.24770035471652738,
      "flos": 22674500542080.0,
      "grad_norm": 1.8606868535495145,
      "language_loss": 0.80267179,
      "learning_rate": 3.5232628391889584e-06,
      "loss": 0.82506907,
      "num_input_tokens_seen": 43996710,
      "step": 2060,
      "time_per_iteration": 2.6231284141540527
    },
    {
      "auxiliary_loss_clip": 0.01166852,
      "auxiliary_loss_mlp": 0.01037291,
      "balance_loss_clip": 1.05225885,
      "balance_loss_mlp": 1.0275811,
      "epoch": 0.2478205976071665,
      "flos": 22163814927360.0,
      "grad_norm": 2.3077372994815635,
      "language_loss": 0.64420623,
      "learning_rate": 3.522757941872666e-06,
      "loss": 0.66624773,
      "num_input_tokens_seen": 44014865,
      "step": 2061,
      "time_per_iteration": 2.7548816204071045
    },
    {
      "auxiliary_loss_clip": 0.01219121,
      "auxiliary_loss_mlp": 0.00889018,
      "balance_loss_clip": 1.06483078,
      "balance_loss_mlp": 1.0008378,
      "epoch": 0.24794084049780557,
      "flos": 24973106555520.0,
      "grad_norm": 1.567016258807982,
      "language_loss": 0.82311672,
      "learning_rate": 3.5222528135552042e-06,
      "loss": 0.84419811,
      "num_input_tokens_seen": 44036325,
      "step": 2062,
      "time_per_iteration": 2.6446521282196045
    },
    {
      "auxiliary_loss_clip": 0.0119997,
      "auxiliary_loss_mlp": 0.01030722,
      "balance_loss_clip": 1.05952299,
      "balance_loss_mlp": 1.02131057,
      "epoch": 0.24806108338844465,
      "flos": 18296379521280.0,
      "grad_norm": 1.7862842734967848,
      "language_loss": 0.80742335,
      "learning_rate": 3.521747454313201e-06,
      "loss": 0.82973027,
      "num_input_tokens_seen": 44055005,
      "step": 2063,
      "time_per_iteration": 2.6924586296081543
    },
    {
      "auxiliary_loss_clip": 0.01174392,
      "auxiliary_loss_mlp": 0.01037728,
      "balance_loss_clip": 1.05256236,
      "balance_loss_mlp": 1.02704656,
      "epoch": 0.24818132627908374,
      "flos": 19282163351040.0,
      "grad_norm": 2.0337479505935154,
      "language_loss": 0.66787517,
      "learning_rate": 3.521241864223319e-06,
      "loss": 0.68999636,
      "num_input_tokens_seen": 44073965,
      "step": 2064,
      "time_per_iteration": 3.604250192642212
    },
    {
      "auxiliary_loss_clip": 0.01096034,
      "auxiliary_loss_mlp": 0.01007637,
      "balance_loss_clip": 1.02592492,
      "balance_loss_mlp": 1.0050261,
      "epoch": 0.24830156916972285,
      "flos": 70285837881600.0,
      "grad_norm": 0.7976506572236617,
      "language_loss": 0.61938596,
      "learning_rate": 3.5207360433622552e-06,
      "loss": 0.64042264,
      "num_input_tokens_seen": 44135965,
      "step": 2065,
      "time_per_iteration": 3.2125298976898193
    },
    {
      "auxiliary_loss_clip": 0.01186928,
      "auxiliary_loss_mlp": 0.01037077,
      "balance_loss_clip": 1.05636513,
      "balance_loss_mlp": 1.02742672,
      "epoch": 0.24842181206036193,
      "flos": 40409128287360.0,
      "grad_norm": 1.7049346990914345,
      "language_loss": 0.7481131,
      "learning_rate": 3.5202299918067437e-06,
      "loss": 0.77035308,
      "num_input_tokens_seen": 44159560,
      "step": 2066,
      "time_per_iteration": 2.877903938293457
    },
    {
      "auxiliary_loss_clip": 0.01202896,
      "auxiliary_loss_mlp": 0.01030115,
      "balance_loss_clip": 1.05855203,
      "balance_loss_mlp": 1.02054226,
      "epoch": 0.248542054951001,
      "flos": 20082432412800.0,
      "grad_norm": 2.4070074695625645,
      "language_loss": 0.69903231,
      "learning_rate": 3.519723709633551e-06,
      "loss": 0.72136241,
      "num_input_tokens_seen": 44178320,
      "step": 2067,
      "time_per_iteration": 2.663459062576294
    },
    {
      "auxiliary_loss_clip": 0.01185585,
      "auxiliary_loss_mlp": 0.01034846,
      "balance_loss_clip": 1.05628097,
      "balance_loss_mlp": 1.02465391,
      "epoch": 0.24866229784164012,
      "flos": 23513948363520.0,
      "grad_norm": 1.8716624393086168,
      "language_loss": 0.84020185,
      "learning_rate": 3.519217196919479e-06,
      "loss": 0.86240619,
      "num_input_tokens_seen": 44197305,
      "step": 2068,
      "time_per_iteration": 2.715052843093872
    },
    {
      "auxiliary_loss_clip": 0.01202013,
      "auxiliary_loss_mlp": 0.01034889,
      "balance_loss_clip": 1.06202269,
      "balance_loss_mlp": 1.02455997,
      "epoch": 0.2487825407322792,
      "flos": 19865101173120.0,
      "grad_norm": 1.8025773778776573,
      "language_loss": 0.73474383,
      "learning_rate": 3.518710453741367e-06,
      "loss": 0.7571128,
      "num_input_tokens_seen": 44216505,
      "step": 2069,
      "time_per_iteration": 2.6831419467926025
    },
    {
      "auxiliary_loss_clip": 0.01182952,
      "auxiliary_loss_mlp": 0.00889773,
      "balance_loss_clip": 1.05444753,
      "balance_loss_mlp": 1.00083923,
      "epoch": 0.2489027836229183,
      "flos": 22017622573440.0,
      "grad_norm": 2.0760063915121654,
      "language_loss": 0.67625594,
      "learning_rate": 3.518203480176086e-06,
      "loss": 0.69698322,
      "num_input_tokens_seen": 44235435,
      "step": 2070,
      "time_per_iteration": 4.643004417419434
    },
    {
      "auxiliary_loss_clip": 0.01151799,
      "auxiliary_loss_mlp": 0.01037263,
      "balance_loss_clip": 1.04721403,
      "balance_loss_mlp": 1.02689815,
      "epoch": 0.2490230265135574,
      "flos": 23294354567040.0,
      "grad_norm": 1.7427040855370375,
      "language_loss": 0.8078084,
      "learning_rate": 3.517696276300545e-06,
      "loss": 0.82969904,
      "num_input_tokens_seen": 44256975,
      "step": 2071,
      "time_per_iteration": 2.873593330383301
    },
    {
      "auxiliary_loss_clip": 0.01208794,
      "auxiliary_loss_mlp": 0.01040547,
      "balance_loss_clip": 1.06391954,
      "balance_loss_mlp": 1.02926421,
      "epoch": 0.24914326940419648,
      "flos": 19826784339840.0,
      "grad_norm": 2.583960211555192,
      "language_loss": 0.69112265,
      "learning_rate": 3.517188842191685e-06,
      "loss": 0.71361613,
      "num_input_tokens_seen": 44275125,
      "step": 2072,
      "time_per_iteration": 2.6090574264526367
    },
    {
      "auxiliary_loss_clip": 0.01199645,
      "auxiliary_loss_mlp": 0.01043625,
      "balance_loss_clip": 1.05716479,
      "balance_loss_mlp": 1.0334866,
      "epoch": 0.24926351229483557,
      "flos": 20229271211520.0,
      "grad_norm": 14.012461647668369,
      "language_loss": 0.73645413,
      "learning_rate": 3.5166811779264837e-06,
      "loss": 0.75888681,
      "num_input_tokens_seen": 44295445,
      "step": 2073,
      "time_per_iteration": 3.5918664932250977
    },
    {
      "auxiliary_loss_clip": 0.01211992,
      "auxiliary_loss_mlp": 0.01038733,
      "balance_loss_clip": 1.0580442,
      "balance_loss_mlp": 1.02868414,
      "epoch": 0.24938375518547465,
      "flos": 23294570048640.0,
      "grad_norm": 1.9701276285336233,
      "language_loss": 0.78298151,
      "learning_rate": 3.5161732835819545e-06,
      "loss": 0.80548877,
      "num_input_tokens_seen": 44314755,
      "step": 2074,
      "time_per_iteration": 2.6421799659729004
    },
    {
      "auxiliary_loss_clip": 0.0121628,
      "auxiliary_loss_mlp": 0.01031278,
      "balance_loss_clip": 1.06293702,
      "balance_loss_mlp": 1.0211277,
      "epoch": 0.24950399807611376,
      "flos": 17311673099520.0,
      "grad_norm": 2.0899680110710035,
      "language_loss": 0.83518636,
      "learning_rate": 3.515665159235143e-06,
      "loss": 0.85766196,
      "num_input_tokens_seen": 44333640,
      "step": 2075,
      "time_per_iteration": 2.573145627975464
    },
    {
      "auxiliary_loss_clip": 0.01190352,
      "auxiliary_loss_mlp": 0.01034093,
      "balance_loss_clip": 1.05264509,
      "balance_loss_mlp": 1.02504528,
      "epoch": 0.24962424096675284,
      "flos": 19024863252480.0,
      "grad_norm": 2.071399382219794,
      "language_loss": 0.75028759,
      "learning_rate": 3.5151568049631318e-06,
      "loss": 0.77253199,
      "num_input_tokens_seen": 44352355,
      "step": 2076,
      "time_per_iteration": 2.7022182941436768
    },
    {
      "auxiliary_loss_clip": 0.01215761,
      "auxiliary_loss_mlp": 0.0103897,
      "balance_loss_clip": 1.0619514,
      "balance_loss_mlp": 1.02842593,
      "epoch": 0.24974448385739192,
      "flos": 33398790710400.0,
      "grad_norm": 1.8621990591243862,
      "language_loss": 0.80278385,
      "learning_rate": 3.5146482208430385e-06,
      "loss": 0.82533115,
      "num_input_tokens_seen": 44374185,
      "step": 2077,
      "time_per_iteration": 2.6945321559906006
    },
    {
      "auxiliary_loss_clip": 0.01146469,
      "auxiliary_loss_mlp": 0.0103512,
      "balance_loss_clip": 1.0470736,
      "balance_loss_mlp": 1.02402759,
      "epoch": 0.24986472674803104,
      "flos": 30007279532160.0,
      "grad_norm": 3.034989714173257,
      "language_loss": 0.683604,
      "learning_rate": 3.514139406952014e-06,
      "loss": 0.7054199,
      "num_input_tokens_seen": 44396210,
      "step": 2078,
      "time_per_iteration": 2.8569889068603516
    },
    {
      "auxiliary_loss_clip": 0.01201547,
      "auxiliary_loss_mlp": 0.01030485,
      "balance_loss_clip": 1.05823231,
      "balance_loss_mlp": 1.02022719,
      "epoch": 0.24998496963867012,
      "flos": 26613074833920.0,
      "grad_norm": 1.815926949183478,
      "language_loss": 0.83474374,
      "learning_rate": 3.5136303633672454e-06,
      "loss": 0.85706407,
      "num_input_tokens_seen": 44416340,
      "step": 2079,
      "time_per_iteration": 2.702683925628662
    },
    {
      "auxiliary_loss_clip": 0.01189908,
      "auxiliary_loss_mlp": 0.00889059,
      "balance_loss_clip": 1.0550375,
      "balance_loss_mlp": 1.00077319,
      "epoch": 0.25010521252930923,
      "flos": 23553989049600.0,
      "grad_norm": 1.6713968773083432,
      "language_loss": 0.74756479,
      "learning_rate": 3.5131210901659544e-06,
      "loss": 0.76835442,
      "num_input_tokens_seen": 44438095,
      "step": 2080,
      "time_per_iteration": 2.745697259902954
    },
    {
      "auxiliary_loss_clip": 0.01179578,
      "auxiliary_loss_mlp": 0.01034231,
      "balance_loss_clip": 1.0527637,
      "balance_loss_mlp": 1.02396095,
      "epoch": 0.2502254554199483,
      "flos": 23441193365760.0,
      "grad_norm": 7.116034213893797,
      "language_loss": 0.82123524,
      "learning_rate": 3.5126115874253967e-06,
      "loss": 0.8433733,
      "num_input_tokens_seen": 44457650,
      "step": 2081,
      "time_per_iteration": 2.7167577743530273
    },
    {
      "auxiliary_loss_clip": 0.01184841,
      "auxiliary_loss_mlp": 0.01037268,
      "balance_loss_clip": 1.05806053,
      "balance_loss_mlp": 1.02683759,
      "epoch": 0.2503456983105874,
      "flos": 28761681651840.0,
      "grad_norm": 1.760715402228309,
      "language_loss": 0.80897081,
      "learning_rate": 3.5121018552228644e-06,
      "loss": 0.83119196,
      "num_input_tokens_seen": 44476155,
      "step": 2082,
      "time_per_iteration": 2.7927770614624023
    },
    {
      "auxiliary_loss_clip": 0.01182174,
      "auxiliary_loss_mlp": 0.01037287,
      "balance_loss_clip": 1.05426693,
      "balance_loss_mlp": 1.0273869,
      "epoch": 0.2504659412012265,
      "flos": 18770256673920.0,
      "grad_norm": 2.0675685727470072,
      "language_loss": 0.76576698,
      "learning_rate": 3.5115918936356827e-06,
      "loss": 0.7879616,
      "num_input_tokens_seen": 44492910,
      "step": 2083,
      "time_per_iteration": 2.7542924880981445
    },
    {
      "auxiliary_loss_clip": 0.01159842,
      "auxiliary_loss_mlp": 0.0103723,
      "balance_loss_clip": 1.05023289,
      "balance_loss_mlp": 1.02749085,
      "epoch": 0.25058618409186556,
      "flos": 16873383346560.0,
      "grad_norm": 1.9875913182812874,
      "language_loss": 0.78857946,
      "learning_rate": 3.5110817027412123e-06,
      "loss": 0.81055021,
      "num_input_tokens_seen": 44512000,
      "step": 2084,
      "time_per_iteration": 2.680394411087036
    },
    {
      "auxiliary_loss_clip": 0.01174477,
      "auxiliary_loss_mlp": 0.01039059,
      "balance_loss_clip": 1.05055106,
      "balance_loss_mlp": 1.02959931,
      "epoch": 0.25070642698250467,
      "flos": 24425540651520.0,
      "grad_norm": 2.0109027730282487,
      "language_loss": 0.69128346,
      "learning_rate": 3.5105712826168493e-06,
      "loss": 0.71341884,
      "num_input_tokens_seen": 44531650,
      "step": 2085,
      "time_per_iteration": 2.7576937675476074
    },
    {
      "auxiliary_loss_clip": 0.0120174,
      "auxiliary_loss_mlp": 0.00888171,
      "balance_loss_clip": 1.05690682,
      "balance_loss_mlp": 1.00074744,
      "epoch": 0.2508266698731437,
      "flos": 20260944028800.0,
      "grad_norm": 2.118570262454672,
      "language_loss": 0.70631212,
      "learning_rate": 3.5100606333400235e-06,
      "loss": 0.72721124,
      "num_input_tokens_seen": 44548785,
      "step": 2086,
      "time_per_iteration": 2.6595253944396973
    },
    {
      "auxiliary_loss_clip": 0.01207921,
      "auxiliary_loss_mlp": 0.01034382,
      "balance_loss_clip": 1.06117678,
      "balance_loss_mlp": 1.02455902,
      "epoch": 0.25094691276378284,
      "flos": 19245318975360.0,
      "grad_norm": 2.4216838422943345,
      "language_loss": 0.77552187,
      "learning_rate": 3.5095497549882006e-06,
      "loss": 0.7979449,
      "num_input_tokens_seen": 44567230,
      "step": 2087,
      "time_per_iteration": 2.734510898590088
    },
    {
      "auxiliary_loss_clip": 0.0120704,
      "auxiliary_loss_mlp": 0.01037913,
      "balance_loss_clip": 1.06259918,
      "balance_loss_mlp": 1.02686226,
      "epoch": 0.25106715565442195,
      "flos": 26943237671040.0,
      "grad_norm": 4.287968306781413,
      "language_loss": 0.72408628,
      "learning_rate": 3.50903864763888e-06,
      "loss": 0.74653584,
      "num_input_tokens_seen": 44588020,
      "step": 2088,
      "time_per_iteration": 2.687877893447876
    },
    {
      "auxiliary_loss_clip": 0.01210028,
      "auxiliary_loss_mlp": 0.01041166,
      "balance_loss_clip": 1.06120944,
      "balance_loss_mlp": 1.03127766,
      "epoch": 0.251187398545061,
      "flos": 48359570572800.0,
      "grad_norm": 2.5336259153320135,
      "language_loss": 0.76148891,
      "learning_rate": 3.5085273113695965e-06,
      "loss": 0.78400087,
      "num_input_tokens_seen": 44612590,
      "step": 2089,
      "time_per_iteration": 2.9355409145355225
    },
    {
      "auxiliary_loss_clip": 0.01215771,
      "auxiliary_loss_mlp": 0.01034833,
      "balance_loss_clip": 1.06239772,
      "balance_loss_mlp": 1.02510536,
      "epoch": 0.2513076414357001,
      "flos": 27016100409600.0,
      "grad_norm": 2.1453128973672357,
      "language_loss": 0.78244805,
      "learning_rate": 3.508015746257919e-06,
      "loss": 0.80495405,
      "num_input_tokens_seen": 44631630,
      "step": 2090,
      "time_per_iteration": 3.612421751022339
    },
    {
      "auxiliary_loss_clip": 0.01189657,
      "auxiliary_loss_mlp": 0.01043295,
      "balance_loss_clip": 1.05670547,
      "balance_loss_mlp": 1.033252,
      "epoch": 0.2514278843263392,
      "flos": 19463619882240.0,
      "grad_norm": 2.0064179324978926,
      "language_loss": 0.83703613,
      "learning_rate": 3.5075039523814518e-06,
      "loss": 0.85936564,
      "num_input_tokens_seen": 44650820,
      "step": 2091,
      "time_per_iteration": 2.677091121673584
    },
    {
      "auxiliary_loss_clip": 0.01210342,
      "auxiliary_loss_mlp": 0.01037416,
      "balance_loss_clip": 1.05881453,
      "balance_loss_mlp": 1.02780199,
      "epoch": 0.2515481272169783,
      "flos": 16866092885760.0,
      "grad_norm": 2.3770406302479268,
      "language_loss": 0.81949776,
      "learning_rate": 3.506991929817834e-06,
      "loss": 0.84197539,
      "num_input_tokens_seen": 44667540,
      "step": 2092,
      "time_per_iteration": 2.6703765392303467
    },
    {
      "auxiliary_loss_clip": 0.01212556,
      "auxiliary_loss_mlp": 0.01036601,
      "balance_loss_clip": 1.06410158,
      "balance_loss_mlp": 1.02712357,
      "epoch": 0.2516683701076174,
      "flos": 23732464752000.0,
      "grad_norm": 1.9857941299673982,
      "language_loss": 0.82846445,
      "learning_rate": 3.506479678644738e-06,
      "loss": 0.85095602,
      "num_input_tokens_seen": 44687935,
      "step": 2093,
      "time_per_iteration": 2.634450912475586
    },
    {
      "auxiliary_loss_clip": 0.0116616,
      "auxiliary_loss_mlp": 0.01034511,
      "balance_loss_clip": 1.05413389,
      "balance_loss_mlp": 1.0249567,
      "epoch": 0.2517886129982565,
      "flos": 27635954434560.0,
      "grad_norm": 7.074267686608832,
      "language_loss": 0.73583829,
      "learning_rate": 3.505967198939873e-06,
      "loss": 0.75784498,
      "num_input_tokens_seen": 44704975,
      "step": 2094,
      "time_per_iteration": 2.810319423675537
    },
    {
      "auxiliary_loss_clip": 0.01190231,
      "auxiliary_loss_mlp": 0.01031789,
      "balance_loss_clip": 1.05447447,
      "balance_loss_mlp": 1.02195382,
      "epoch": 0.25190885588889556,
      "flos": 38104596529920.0,
      "grad_norm": 2.286737786530534,
      "language_loss": 0.78150803,
      "learning_rate": 3.5054544907809813e-06,
      "loss": 0.80372822,
      "num_input_tokens_seen": 44725475,
      "step": 2095,
      "time_per_iteration": 2.8215689659118652
    },
    {
      "auxiliary_loss_clip": 0.01190856,
      "auxiliary_loss_mlp": 0.00889344,
      "balance_loss_clip": 1.05940771,
      "balance_loss_mlp": 1.0007695,
      "epoch": 0.25202909877953467,
      "flos": 22269894768000.0,
      "grad_norm": 5.486786106706721,
      "language_loss": 0.80616492,
      "learning_rate": 3.50494155424584e-06,
      "loss": 0.82696694,
      "num_input_tokens_seen": 44744380,
      "step": 2096,
      "time_per_iteration": 4.6976447105407715
    },
    {
      "auxiliary_loss_clip": 0.01207341,
      "auxiliary_loss_mlp": 0.01034822,
      "balance_loss_clip": 1.05981755,
      "balance_loss_mlp": 1.02479661,
      "epoch": 0.2521493416701738,
      "flos": 21761759018880.0,
      "grad_norm": 1.7658448987180977,
      "language_loss": 0.83096743,
      "learning_rate": 3.504428389412262e-06,
      "loss": 0.85338908,
      "num_input_tokens_seen": 44765190,
      "step": 2097,
      "time_per_iteration": 2.6773204803466797
    },
    {
      "auxiliary_loss_clip": 0.01200907,
      "auxiliary_loss_mlp": 0.01030547,
      "balance_loss_clip": 1.05851066,
      "balance_loss_mlp": 1.02089691,
      "epoch": 0.25226958456081283,
      "flos": 27746738956800.0,
      "grad_norm": 2.0792793185482514,
      "language_loss": 0.73332644,
      "learning_rate": 3.5039149963580927e-06,
      "loss": 0.75564092,
      "num_input_tokens_seen": 44785210,
      "step": 2098,
      "time_per_iteration": 2.684727191925049
    },
    {
      "auxiliary_loss_clip": 0.01191283,
      "auxiliary_loss_mlp": 0.01027822,
      "balance_loss_clip": 1.06112552,
      "balance_loss_mlp": 1.01836276,
      "epoch": 0.25238982745145194,
      "flos": 30732171903360.0,
      "grad_norm": 2.7993468048136276,
      "language_loss": 0.7051965,
      "learning_rate": 3.503401375161215e-06,
      "loss": 0.72738761,
      "num_input_tokens_seen": 44804955,
      "step": 2099,
      "time_per_iteration": 3.5923285484313965
    },
    {
      "auxiliary_loss_clip": 0.01211956,
      "auxiliary_loss_mlp": 0.01030021,
      "balance_loss_clip": 1.060359,
      "balance_loss_mlp": 1.02001381,
      "epoch": 0.252510070342091,
      "flos": 20266331068800.0,
      "grad_norm": 1.883844878945854,
      "language_loss": 0.83704758,
      "learning_rate": 3.502887525899544e-06,
      "loss": 0.85946733,
      "num_input_tokens_seen": 44823935,
      "step": 2100,
      "time_per_iteration": 2.7100484371185303
    },
    {
      "auxiliary_loss_clip": 0.01195779,
      "auxiliary_loss_mlp": 0.01036506,
      "balance_loss_clip": 1.0588026,
      "balance_loss_mlp": 1.02674246,
      "epoch": 0.2526303132327301,
      "flos": 22747399194240.0,
      "grad_norm": 1.7402065704500658,
      "language_loss": 0.82855487,
      "learning_rate": 3.50237344865103e-06,
      "loss": 0.85087764,
      "num_input_tokens_seen": 44844935,
      "step": 2101,
      "time_per_iteration": 2.6875054836273193
    },
    {
      "auxiliary_loss_clip": 0.01217823,
      "auxiliary_loss_mlp": 0.01042954,
      "balance_loss_clip": 1.06450057,
      "balance_loss_mlp": 1.03359556,
      "epoch": 0.2527505561233692,
      "flos": 30263466309120.0,
      "grad_norm": 2.456129875657149,
      "language_loss": 0.76087868,
      "learning_rate": 3.501859143493658e-06,
      "loss": 0.78348643,
      "num_input_tokens_seen": 44865565,
      "step": 2102,
      "time_per_iteration": 2.6880991458892822
    },
    {
      "auxiliary_loss_clip": 0.01110075,
      "auxiliary_loss_mlp": 0.01005421,
      "balance_loss_clip": 1.03069496,
      "balance_loss_mlp": 1.00312066,
      "epoch": 0.2528707990140083,
      "flos": 58492917164160.0,
      "grad_norm": 0.9339699199295175,
      "language_loss": 0.60533011,
      "learning_rate": 3.5013446105054488e-06,
      "loss": 0.62648511,
      "num_input_tokens_seen": 44918485,
      "step": 2103,
      "time_per_iteration": 2.9421629905700684
    },
    {
      "auxiliary_loss_clip": 0.01169194,
      "auxiliary_loss_mlp": 0.0103277,
      "balance_loss_clip": 1.05436671,
      "balance_loss_mlp": 1.02318001,
      "epoch": 0.2529910419046474,
      "flos": 24645134448000.0,
      "grad_norm": 2.26158458602115,
      "language_loss": 0.75168914,
      "learning_rate": 3.5008298497644555e-06,
      "loss": 0.77370876,
      "num_input_tokens_seen": 44937530,
      "step": 2104,
      "time_per_iteration": 2.7505714893341064
    },
    {
      "auxiliary_loss_clip": 0.0118383,
      "auxiliary_loss_mlp": 0.01035837,
      "balance_loss_clip": 1.05704737,
      "balance_loss_mlp": 1.02647305,
      "epoch": 0.2531112847952865,
      "flos": 23842135952640.0,
      "grad_norm": 2.5550164031420444,
      "language_loss": 0.88161635,
      "learning_rate": 3.500314861348767e-06,
      "loss": 0.903813,
      "num_input_tokens_seen": 44958165,
      "step": 2105,
      "time_per_iteration": 2.724198818206787
    },
    {
      "auxiliary_loss_clip": 0.0117578,
      "auxiliary_loss_mlp": 0.01038426,
      "balance_loss_clip": 1.05697143,
      "balance_loss_mlp": 1.02790618,
      "epoch": 0.25323152768592555,
      "flos": 16143822207360.0,
      "grad_norm": 1.9466352481990354,
      "language_loss": 0.77130365,
      "learning_rate": 3.499799645336507e-06,
      "loss": 0.79344571,
      "num_input_tokens_seen": 44975060,
      "step": 2106,
      "time_per_iteration": 2.717808246612549
    },
    {
      "auxiliary_loss_clip": 0.01206702,
      "auxiliary_loss_mlp": 0.01031859,
      "balance_loss_clip": 1.06232858,
      "balance_loss_mlp": 1.02267432,
      "epoch": 0.25335177057656466,
      "flos": 28405161210240.0,
      "grad_norm": 1.4530786736221473,
      "language_loss": 0.87108529,
      "learning_rate": 3.4992842018058336e-06,
      "loss": 0.89347088,
      "num_input_tokens_seen": 44997960,
      "step": 2107,
      "time_per_iteration": 2.7363574504852295
    },
    {
      "auxiliary_loss_clip": 0.01192258,
      "auxiliary_loss_mlp": 0.01032811,
      "balance_loss_clip": 1.05788827,
      "balance_loss_mlp": 1.02301836,
      "epoch": 0.25347201346720377,
      "flos": 18799666934400.0,
      "grad_norm": 2.220397871127694,
      "language_loss": 0.88831812,
      "learning_rate": 3.4987685308349384e-06,
      "loss": 0.91056883,
      "num_input_tokens_seen": 45015690,
      "step": 2108,
      "time_per_iteration": 2.6997334957122803
    },
    {
      "auxiliary_loss_clip": 0.01179732,
      "auxiliary_loss_mlp": 0.01035105,
      "balance_loss_clip": 1.05157685,
      "balance_loss_mlp": 1.02500176,
      "epoch": 0.2535922563578428,
      "flos": 15815490963840.0,
      "grad_norm": 3.010943019493233,
      "language_loss": 0.61690527,
      "learning_rate": 3.4982526325020497e-06,
      "loss": 0.63905364,
      "num_input_tokens_seen": 45032660,
      "step": 2109,
      "time_per_iteration": 2.671236991882324
    },
    {
      "auxiliary_loss_clip": 0.0119497,
      "auxiliary_loss_mlp": 0.01029389,
      "balance_loss_clip": 1.05810809,
      "balance_loss_mlp": 1.01978064,
      "epoch": 0.25371249924848194,
      "flos": 16318922031360.0,
      "grad_norm": 2.2667441018791967,
      "language_loss": 0.82129753,
      "learning_rate": 3.4977365068854273e-06,
      "loss": 0.84354115,
      "num_input_tokens_seen": 45048280,
      "step": 2110,
      "time_per_iteration": 2.656787395477295
    },
    {
      "auxiliary_loss_clip": 0.01184284,
      "auxiliary_loss_mlp": 0.01038709,
      "balance_loss_clip": 1.05669689,
      "balance_loss_mlp": 1.02902341,
      "epoch": 0.25383274213912105,
      "flos": 21761615364480.0,
      "grad_norm": 3.239774696217648,
      "language_loss": 0.73644388,
      "learning_rate": 3.4972201540633676e-06,
      "loss": 0.75867373,
      "num_input_tokens_seen": 45067635,
      "step": 2111,
      "time_per_iteration": 2.772279739379883
    },
    {
      "auxiliary_loss_clip": 0.01187087,
      "auxiliary_loss_mlp": 0.01034041,
      "balance_loss_clip": 1.05740595,
      "balance_loss_mlp": 1.02378297,
      "epoch": 0.2539529850297601,
      "flos": 21396870708480.0,
      "grad_norm": 1.830157344645241,
      "language_loss": 0.85280418,
      "learning_rate": 3.4967035741142008e-06,
      "loss": 0.8750155,
      "num_input_tokens_seen": 45086455,
      "step": 2112,
      "time_per_iteration": 2.7660906314849854
    },
    {
      "auxiliary_loss_clip": 0.01187176,
      "auxiliary_loss_mlp": 0.01036753,
      "balance_loss_clip": 1.0614996,
      "balance_loss_mlp": 1.02762187,
      "epoch": 0.2540732279203992,
      "flos": 25228467319680.0,
      "grad_norm": 3.361730343509614,
      "language_loss": 0.82041818,
      "learning_rate": 3.4961867671162917e-06,
      "loss": 0.84265745,
      "num_input_tokens_seen": 45106385,
      "step": 2113,
      "time_per_iteration": 2.7184507846832275
    },
    {
      "auxiliary_loss_clip": 0.01217625,
      "auxiliary_loss_mlp": 0.0103156,
      "balance_loss_clip": 1.06278121,
      "balance_loss_mlp": 1.0207653,
      "epoch": 0.2541934708110383,
      "flos": 19427386037760.0,
      "grad_norm": 3.6187922068444807,
      "language_loss": 0.77824539,
      "learning_rate": 3.4956697331480402e-06,
      "loss": 0.8007372,
      "num_input_tokens_seen": 45124955,
      "step": 2114,
      "time_per_iteration": 2.587311029434204
    },
    {
      "auxiliary_loss_clip": 0.01188521,
      "auxiliary_loss_mlp": 0.01031608,
      "balance_loss_clip": 1.05608594,
      "balance_loss_mlp": 1.02221441,
      "epoch": 0.2543137137016774,
      "flos": 23949436855680.0,
      "grad_norm": 1.5038495292685978,
      "language_loss": 0.80035102,
      "learning_rate": 3.495152472287879e-06,
      "loss": 0.8225522,
      "num_input_tokens_seen": 45145665,
      "step": 2115,
      "time_per_iteration": 2.776685953140259
    },
    {
      "auxiliary_loss_clip": 0.01188712,
      "auxiliary_loss_mlp": 0.01028833,
      "balance_loss_clip": 1.05880344,
      "balance_loss_mlp": 1.01898098,
      "epoch": 0.2544339565923165,
      "flos": 25593283802880.0,
      "grad_norm": 1.8411092093653727,
      "language_loss": 0.73675144,
      "learning_rate": 3.4946349846142766e-06,
      "loss": 0.75892687,
      "num_input_tokens_seen": 45164805,
      "step": 2116,
      "time_per_iteration": 3.698843002319336
    },
    {
      "auxiliary_loss_clip": 0.01215569,
      "auxiliary_loss_mlp": 0.01031184,
      "balance_loss_clip": 1.06170893,
      "balance_loss_mlp": 1.02117038,
      "epoch": 0.25455419948295555,
      "flos": 21689470897920.0,
      "grad_norm": 1.9475822409499368,
      "language_loss": 0.75580704,
      "learning_rate": 3.4941172702057353e-06,
      "loss": 0.7782746,
      "num_input_tokens_seen": 45184865,
      "step": 2117,
      "time_per_iteration": 2.632786273956299
    },
    {
      "auxiliary_loss_clip": 0.01196985,
      "auxiliary_loss_mlp": 0.01035308,
      "balance_loss_clip": 1.06075311,
      "balance_loss_mlp": 1.02589107,
      "epoch": 0.25467444237359466,
      "flos": 26250341339520.0,
      "grad_norm": 2.244357326381104,
      "language_loss": 0.80803412,
      "learning_rate": 3.4935993291407924e-06,
      "loss": 0.83035707,
      "num_input_tokens_seen": 45203690,
      "step": 2118,
      "time_per_iteration": 2.739769697189331
    },
    {
      "auxiliary_loss_clip": 0.01187947,
      "auxiliary_loss_mlp": 0.01040197,
      "balance_loss_clip": 1.05520535,
      "balance_loss_mlp": 1.03044546,
      "epoch": 0.25479468526423377,
      "flos": 26979686997120.0,
      "grad_norm": 4.479862525968204,
      "language_loss": 0.71023798,
      "learning_rate": 3.4930811614980183e-06,
      "loss": 0.73251939,
      "num_input_tokens_seen": 45225385,
      "step": 2119,
      "time_per_iteration": 2.715670347213745
    },
    {
      "auxiliary_loss_clip": 0.01196052,
      "auxiliary_loss_mlp": 0.01035539,
      "balance_loss_clip": 1.05850637,
      "balance_loss_mlp": 1.02563322,
      "epoch": 0.2549149281548728,
      "flos": 23475811098240.0,
      "grad_norm": 2.158885495188951,
      "language_loss": 0.79512542,
      "learning_rate": 3.4925627673560198e-06,
      "loss": 0.81744134,
      "num_input_tokens_seen": 45246045,
      "step": 2120,
      "time_per_iteration": 2.694251298904419
    },
    {
      "auxiliary_loss_clip": 0.01181683,
      "auxiliary_loss_mlp": 0.01035614,
      "balance_loss_clip": 1.05367684,
      "balance_loss_mlp": 1.02601171,
      "epoch": 0.25503517104551193,
      "flos": 25812302981760.0,
      "grad_norm": 2.0576189731903787,
      "language_loss": 0.88543844,
      "learning_rate": 3.4920441467934357e-06,
      "loss": 0.90761143,
      "num_input_tokens_seen": 45266560,
      "step": 2121,
      "time_per_iteration": 2.667800188064575
    },
    {
      "auxiliary_loss_clip": 0.01173579,
      "auxiliary_loss_mlp": 0.01032082,
      "balance_loss_clip": 1.05409527,
      "balance_loss_mlp": 1.02239037,
      "epoch": 0.25515541393615104,
      "flos": 26645106787200.0,
      "grad_norm": 2.1760517825081167,
      "language_loss": 0.82654619,
      "learning_rate": 3.491525299888941e-06,
      "loss": 0.84860283,
      "num_input_tokens_seen": 45285405,
      "step": 2122,
      "time_per_iteration": 3.804262161254883
    },
    {
      "auxiliary_loss_clip": 0.01084597,
      "auxiliary_loss_mlp": 0.00878317,
      "balance_loss_clip": 1.02735543,
      "balance_loss_mlp": 1.00084722,
      "epoch": 0.2552756568267901,
      "flos": 65955945847680.0,
      "grad_norm": 0.8852141984726519,
      "language_loss": 0.62631094,
      "learning_rate": 3.491006226721244e-06,
      "loss": 0.64594007,
      "num_input_tokens_seen": 45349615,
      "step": 2123,
      "time_per_iteration": 3.4357049465179443
    },
    {
      "auxiliary_loss_clip": 0.01198612,
      "auxiliary_loss_mlp": 0.00889477,
      "balance_loss_clip": 1.06110942,
      "balance_loss_mlp": 1.00087333,
      "epoch": 0.2553958997174292,
      "flos": 17931096161280.0,
      "grad_norm": 2.5547137922666416,
      "language_loss": 0.77680939,
      "learning_rate": 3.4904869273690882e-06,
      "loss": 0.79769027,
      "num_input_tokens_seen": 45367505,
      "step": 2124,
      "time_per_iteration": 2.627354383468628
    },
    {
      "auxiliary_loss_clip": 0.01207244,
      "auxiliary_loss_mlp": 0.01027738,
      "balance_loss_clip": 1.06025982,
      "balance_loss_mlp": 1.01815987,
      "epoch": 0.2555161426080683,
      "flos": 23367791923200.0,
      "grad_norm": 1.8209752883232322,
      "language_loss": 0.88577294,
      "learning_rate": 3.489967401911251e-06,
      "loss": 0.90812272,
      "num_input_tokens_seen": 45386805,
      "step": 2125,
      "time_per_iteration": 3.552622079849243
    },
    {
      "auxiliary_loss_clip": 0.0121871,
      "auxiliary_loss_mlp": 0.0103539,
      "balance_loss_clip": 1.06278419,
      "balance_loss_mlp": 1.02490616,
      "epoch": 0.2556363854987074,
      "flos": 40625130723840.0,
      "grad_norm": 1.7002685028935132,
      "language_loss": 0.69463032,
      "learning_rate": 3.4894476504265428e-06,
      "loss": 0.71717131,
      "num_input_tokens_seen": 45411045,
      "step": 2126,
      "time_per_iteration": 2.75657320022583
    },
    {
      "auxiliary_loss_clip": 0.01095648,
      "auxiliary_loss_mlp": 0.01002576,
      "balance_loss_clip": 1.02682137,
      "balance_loss_mlp": 1.00021601,
      "epoch": 0.2557566283893465,
      "flos": 68019443389440.0,
      "grad_norm": 0.7429204575056362,
      "language_loss": 0.54422742,
      "learning_rate": 3.4889276729938104e-06,
      "loss": 0.56520963,
      "num_input_tokens_seen": 45469575,
      "step": 2127,
      "time_per_iteration": 3.137000799179077
    },
    {
      "auxiliary_loss_clip": 0.01190418,
      "auxiliary_loss_mlp": 0.01040885,
      "balance_loss_clip": 1.05766308,
      "balance_loss_mlp": 1.03084779,
      "epoch": 0.2558768712799856,
      "flos": 22635645004800.0,
      "grad_norm": 3.4623826980042023,
      "language_loss": 0.80122948,
      "learning_rate": 3.488407469691934e-06,
      "loss": 0.82354259,
      "num_input_tokens_seen": 45490270,
      "step": 2128,
      "time_per_iteration": 2.71006178855896
    },
    {
      "auxiliary_loss_clip": 0.01189801,
      "auxiliary_loss_mlp": 0.01041669,
      "balance_loss_clip": 1.05468297,
      "balance_loss_mlp": 1.03145885,
      "epoch": 0.25599711417062465,
      "flos": 26396354125440.0,
      "grad_norm": 2.218157824310695,
      "language_loss": 0.80901515,
      "learning_rate": 3.487887040599828e-06,
      "loss": 0.83132994,
      "num_input_tokens_seen": 45510070,
      "step": 2129,
      "time_per_iteration": 2.691666841506958
    },
    {
      "auxiliary_loss_clip": 0.01216802,
      "auxiliary_loss_mlp": 0.01040726,
      "balance_loss_clip": 1.06355906,
      "balance_loss_mlp": 1.03071856,
      "epoch": 0.25611735706126376,
      "flos": 22852042490880.0,
      "grad_norm": 2.863393299726648,
      "language_loss": 0.75725424,
      "learning_rate": 3.4873663857964407e-06,
      "loss": 0.77982956,
      "num_input_tokens_seen": 45527285,
      "step": 2130,
      "time_per_iteration": 2.6591081619262695
    },
    {
      "auxiliary_loss_clip": 0.01170771,
      "auxiliary_loss_mlp": 0.01038482,
      "balance_loss_clip": 1.05505335,
      "balance_loss_mlp": 1.02876008,
      "epoch": 0.2562375999519028,
      "flos": 23367863750400.0,
      "grad_norm": 1.8487479531889481,
      "language_loss": 0.66849941,
      "learning_rate": 3.4868455053607556e-06,
      "loss": 0.69059193,
      "num_input_tokens_seen": 45546900,
      "step": 2131,
      "time_per_iteration": 2.743809938430786
    },
    {
      "auxiliary_loss_clip": 0.01208168,
      "auxiliary_loss_mlp": 0.01036578,
      "balance_loss_clip": 1.05861247,
      "balance_loss_mlp": 1.02657616,
      "epoch": 0.2563578428425419,
      "flos": 22856962654080.0,
      "grad_norm": 3.688427492062361,
      "language_loss": 0.71592474,
      "learning_rate": 3.486324399371789e-06,
      "loss": 0.73837221,
      "num_input_tokens_seen": 45566200,
      "step": 2132,
      "time_per_iteration": 2.634695291519165
    },
    {
      "auxiliary_loss_clip": 0.01177265,
      "auxiliary_loss_mlp": 0.01029679,
      "balance_loss_clip": 1.05736709,
      "balance_loss_mlp": 1.01999927,
      "epoch": 0.25647808573318104,
      "flos": 21653883498240.0,
      "grad_norm": 1.9730671400968354,
      "language_loss": 0.786506,
      "learning_rate": 3.485803067908593e-06,
      "loss": 0.80857539,
      "num_input_tokens_seen": 45585710,
      "step": 2133,
      "time_per_iteration": 2.7259528636932373
    },
    {
      "auxiliary_loss_clip": 0.01137437,
      "auxiliary_loss_mlp": 0.01038748,
      "balance_loss_clip": 1.04512739,
      "balance_loss_mlp": 1.02865672,
      "epoch": 0.2565983286238201,
      "flos": 33730569659520.0,
      "grad_norm": 1.8705141778733767,
      "language_loss": 0.79650551,
      "learning_rate": 3.485281511050253e-06,
      "loss": 0.81826735,
      "num_input_tokens_seen": 45607845,
      "step": 2134,
      "time_per_iteration": 2.892625331878662
    },
    {
      "auxiliary_loss_clip": 0.01205096,
      "auxiliary_loss_mlp": 0.01028923,
      "balance_loss_clip": 1.05941391,
      "balance_loss_mlp": 1.01968992,
      "epoch": 0.2567185715144592,
      "flos": 16216002587520.0,
      "grad_norm": 2.4974563086056674,
      "language_loss": 0.90011907,
      "learning_rate": 3.484759728875889e-06,
      "loss": 0.92245924,
      "num_input_tokens_seen": 45623210,
      "step": 2135,
      "time_per_iteration": 2.6155786514282227
    },
    {
      "auxiliary_loss_clip": 0.01159736,
      "auxiliary_loss_mlp": 0.01031523,
      "balance_loss_clip": 1.05122924,
      "balance_loss_mlp": 1.02100873,
      "epoch": 0.2568388144050983,
      "flos": 17458475984640.0,
      "grad_norm": 1.7413395684295454,
      "language_loss": 0.81086832,
      "learning_rate": 3.4842377214646543e-06,
      "loss": 0.83278096,
      "num_input_tokens_seen": 45641505,
      "step": 2136,
      "time_per_iteration": 2.7457425594329834
    },
    {
      "auxiliary_loss_clip": 0.01213698,
      "auxiliary_loss_mlp": 0.01029281,
      "balance_loss_clip": 1.06244612,
      "balance_loss_mlp": 1.01961303,
      "epoch": 0.25695905729573737,
      "flos": 20887442069760.0,
      "grad_norm": 1.7375112821856182,
      "language_loss": 0.66792816,
      "learning_rate": 3.483715488895737e-06,
      "loss": 0.69035792,
      "num_input_tokens_seen": 45661835,
      "step": 2137,
      "time_per_iteration": 2.6384012699127197
    },
    {
      "auxiliary_loss_clip": 0.01168935,
      "auxiliary_loss_mlp": 0.01042047,
      "balance_loss_clip": 1.05044711,
      "balance_loss_mlp": 1.03200412,
      "epoch": 0.2570793001863765,
      "flos": 24717278914560.0,
      "grad_norm": 2.036990542108593,
      "language_loss": 0.78641927,
      "learning_rate": 3.48319303124836e-06,
      "loss": 0.80852914,
      "num_input_tokens_seen": 45682215,
      "step": 2138,
      "time_per_iteration": 2.773796796798706
    },
    {
      "auxiliary_loss_clip": 0.011862,
      "auxiliary_loss_mlp": 0.01032781,
      "balance_loss_clip": 1.0578078,
      "balance_loss_mlp": 1.02274346,
      "epoch": 0.2571995430770156,
      "flos": 26906896085760.0,
      "grad_norm": 3.4625041291997793,
      "language_loss": 0.6662842,
      "learning_rate": 3.4826703486017798e-06,
      "loss": 0.688474,
      "num_input_tokens_seen": 45701840,
      "step": 2139,
      "time_per_iteration": 2.748608112335205
    },
    {
      "auxiliary_loss_clip": 0.01200593,
      "auxiliary_loss_mlp": 0.01033024,
      "balance_loss_clip": 1.06099677,
      "balance_loss_mlp": 1.02361846,
      "epoch": 0.25731978596765465,
      "flos": 19792561656960.0,
      "grad_norm": 2.0273212345662146,
      "language_loss": 0.7685802,
      "learning_rate": 3.4821474410352867e-06,
      "loss": 0.79091638,
      "num_input_tokens_seen": 45720500,
      "step": 2140,
      "time_per_iteration": 2.6217105388641357
    },
    {
      "auxiliary_loss_clip": 0.01081725,
      "auxiliary_loss_mlp": 0.01018981,
      "balance_loss_clip": 1.02452302,
      "balance_loss_mlp": 1.01647747,
      "epoch": 0.25744002885829376,
      "flos": 70564970471040.0,
      "grad_norm": 0.9053852660474754,
      "language_loss": 0.62645459,
      "learning_rate": 3.481624308628205e-06,
      "loss": 0.64746165,
      "num_input_tokens_seen": 45781870,
      "step": 2141,
      "time_per_iteration": 3.3800199031829834
    },
    {
      "auxiliary_loss_clip": 0.01191111,
      "auxiliary_loss_mlp": 0.01040725,
      "balance_loss_clip": 1.05776787,
      "balance_loss_mlp": 1.03103364,
      "epoch": 0.25756027174893287,
      "flos": 18038181582720.0,
      "grad_norm": 3.569117385635891,
      "language_loss": 1.00190616,
      "learning_rate": 3.481100951459893e-06,
      "loss": 1.02422464,
      "num_input_tokens_seen": 45794890,
      "step": 2142,
      "time_per_iteration": 3.526644229888916
    },
    {
      "auxiliary_loss_clip": 0.01199307,
      "auxiliary_loss_mlp": 0.01032045,
      "balance_loss_clip": 1.05802774,
      "balance_loss_mlp": 1.02215672,
      "epoch": 0.2576805146395719,
      "flos": 22674069578880.0,
      "grad_norm": 2.3391249053802996,
      "language_loss": 0.78850722,
      "learning_rate": 3.4805773696097453e-06,
      "loss": 0.8108207,
      "num_input_tokens_seen": 45815780,
      "step": 2143,
      "time_per_iteration": 2.6641008853912354
    },
    {
      "auxiliary_loss_clip": 0.01186561,
      "auxiliary_loss_mlp": 0.01030471,
      "balance_loss_clip": 1.05763984,
      "balance_loss_mlp": 1.02122641,
      "epoch": 0.25780075753021103,
      "flos": 16472225278080.0,
      "grad_norm": 2.4529139685673838,
      "language_loss": 0.87356758,
      "learning_rate": 3.4800535631571874e-06,
      "loss": 0.89573789,
      "num_input_tokens_seen": 45831310,
      "step": 2144,
      "time_per_iteration": 2.6448252201080322
    },
    {
      "auxiliary_loss_clip": 0.01200229,
      "auxiliary_loss_mlp": 0.01029739,
      "balance_loss_clip": 1.0590167,
      "balance_loss_mlp": 1.0201124,
      "epoch": 0.25792100042085014,
      "flos": 22820297846400.0,
      "grad_norm": 8.278785278312206,
      "language_loss": 0.76569653,
      "learning_rate": 3.4795295321816804e-06,
      "loss": 0.78799623,
      "num_input_tokens_seen": 45850135,
      "step": 2145,
      "time_per_iteration": 2.6969425678253174
    },
    {
      "auxiliary_loss_clip": 0.01180967,
      "auxiliary_loss_mlp": 0.01029303,
      "balance_loss_clip": 1.05515134,
      "balance_loss_mlp": 1.01887846,
      "epoch": 0.2580412433114892,
      "flos": 18697286194560.0,
      "grad_norm": 2.2766644170459984,
      "language_loss": 0.90718746,
      "learning_rate": 3.47900527676272e-06,
      "loss": 0.92929018,
      "num_input_tokens_seen": 45868470,
      "step": 2146,
      "time_per_iteration": 2.6705853939056396
    },
    {
      "auxiliary_loss_clip": 0.01217749,
      "auxiliary_loss_mlp": 0.01028998,
      "balance_loss_clip": 1.06498861,
      "balance_loss_mlp": 1.01915693,
      "epoch": 0.2581614862021283,
      "flos": 14283146810880.0,
      "grad_norm": 2.1348846544129803,
      "language_loss": 0.88488126,
      "learning_rate": 3.478480796979835e-06,
      "loss": 0.90734875,
      "num_input_tokens_seen": 45886355,
      "step": 2147,
      "time_per_iteration": 2.5694520473480225
    },
    {
      "auxiliary_loss_clip": 0.01187646,
      "auxiliary_loss_mlp": 0.01037733,
      "balance_loss_clip": 1.05700469,
      "balance_loss_mlp": 1.02837503,
      "epoch": 0.25828172909276736,
      "flos": 29498281856640.0,
      "grad_norm": 1.7605156437808684,
      "language_loss": 0.77688837,
      "learning_rate": 3.4779560929125894e-06,
      "loss": 0.79914218,
      "num_input_tokens_seen": 45907900,
      "step": 2148,
      "time_per_iteration": 4.67824125289917
    },
    {
      "auxiliary_loss_clip": 0.01077305,
      "auxiliary_loss_mlp": 0.01006652,
      "balance_loss_clip": 1.02613854,
      "balance_loss_mlp": 1.00431585,
      "epoch": 0.2584019719834065,
      "flos": 67114387376640.0,
      "grad_norm": 0.7445161043612358,
      "language_loss": 0.56896478,
      "learning_rate": 3.4774311646405783e-06,
      "loss": 0.58980435,
      "num_input_tokens_seen": 45977805,
      "step": 2149,
      "time_per_iteration": 3.429013252258301
    },
    {
      "auxiliary_loss_clip": 0.01171024,
      "auxiliary_loss_mlp": 0.01033576,
      "balance_loss_clip": 1.05245161,
      "balance_loss_mlp": 1.02402115,
      "epoch": 0.2585222148740456,
      "flos": 22893555634560.0,
      "grad_norm": 2.189190078270238,
      "language_loss": 0.83965611,
      "learning_rate": 3.476906012243435e-06,
      "loss": 0.86170208,
      "num_input_tokens_seen": 45996715,
      "step": 2150,
      "time_per_iteration": 2.884453296661377
    },
    {
      "auxiliary_loss_clip": 0.01193678,
      "auxiliary_loss_mlp": 0.0103255,
      "balance_loss_clip": 1.05951166,
      "balance_loss_mlp": 1.02257764,
      "epoch": 0.25864245776468464,
      "flos": 28909202808960.0,
      "grad_norm": 1.8351454016047395,
      "language_loss": 0.81136835,
      "learning_rate": 3.476380635800824e-06,
      "loss": 0.83363068,
      "num_input_tokens_seen": 46017915,
      "step": 2151,
      "time_per_iteration": 3.6750261783599854
    },
    {
      "auxiliary_loss_clip": 0.01188575,
      "auxiliary_loss_mlp": 0.01030614,
      "balance_loss_clip": 1.05822492,
      "balance_loss_mlp": 1.02043366,
      "epoch": 0.25876270065532375,
      "flos": 14793185980800.0,
      "grad_norm": 2.3487596741033028,
      "language_loss": 0.86018145,
      "learning_rate": 3.475855035392444e-06,
      "loss": 0.88237333,
      "num_input_tokens_seen": 46033235,
      "step": 2152,
      "time_per_iteration": 2.655304431915283
    },
    {
      "auxiliary_loss_clip": 0.01154731,
      "auxiliary_loss_mlp": 0.01033349,
      "balance_loss_clip": 1.04986513,
      "balance_loss_mlp": 1.02359188,
      "epoch": 0.25888294354596286,
      "flos": 60467821810560.0,
      "grad_norm": 1.9439689194653618,
      "language_loss": 0.71570927,
      "learning_rate": 3.475329211098029e-06,
      "loss": 0.73759007,
      "num_input_tokens_seen": 46056390,
      "step": 2153,
      "time_per_iteration": 3.0844812393188477
    },
    {
      "auxiliary_loss_clip": 0.01178839,
      "auxiliary_loss_mlp": 0.01035415,
      "balance_loss_clip": 1.05702674,
      "balance_loss_mlp": 1.02504361,
      "epoch": 0.2590031864366019,
      "flos": 27851166771840.0,
      "grad_norm": 1.6875797223270912,
      "language_loss": 0.82516903,
      "learning_rate": 3.4748031629973453e-06,
      "loss": 0.8473115,
      "num_input_tokens_seen": 46077120,
      "step": 2154,
      "time_per_iteration": 2.7975380420684814
    },
    {
      "auxiliary_loss_clip": 0.01072355,
      "auxiliary_loss_mlp": 0.01009737,
      "balance_loss_clip": 1.02576256,
      "balance_loss_mlp": 1.00731695,
      "epoch": 0.25912342932724103,
      "flos": 62422444206720.0,
      "grad_norm": 0.9132934345061121,
      "language_loss": 0.56602693,
      "learning_rate": 3.4742768911701944e-06,
      "loss": 0.58684778,
      "num_input_tokens_seen": 46139815,
      "step": 2155,
      "time_per_iteration": 3.3897132873535156
    },
    {
      "auxiliary_loss_clip": 0.01210674,
      "auxiliary_loss_mlp": 0.01037292,
      "balance_loss_clip": 1.06341577,
      "balance_loss_mlp": 1.02653968,
      "epoch": 0.25924367221788014,
      "flos": 12378839368320.0,
      "grad_norm": 3.7731850357518986,
      "language_loss": 0.70761508,
      "learning_rate": 3.4737503956964113e-06,
      "loss": 0.73009479,
      "num_input_tokens_seen": 46152120,
      "step": 2156,
      "time_per_iteration": 2.6346473693847656
    },
    {
      "auxiliary_loss_clip": 0.01184011,
      "auxiliary_loss_mlp": 0.01034474,
      "balance_loss_clip": 1.05591941,
      "balance_loss_mlp": 1.0232563,
      "epoch": 0.2593639151085192,
      "flos": 14575208296320.0,
      "grad_norm": 4.181293732276967,
      "language_loss": 0.6726194,
      "learning_rate": 3.473223676655865e-06,
      "loss": 0.69480425,
      "num_input_tokens_seen": 46170120,
      "step": 2157,
      "time_per_iteration": 2.651367664337158
    },
    {
      "auxiliary_loss_clip": 0.01186125,
      "auxiliary_loss_mlp": 0.01034031,
      "balance_loss_clip": 1.05548131,
      "balance_loss_mlp": 1.02307022,
      "epoch": 0.2594841579991583,
      "flos": 15230937029760.0,
      "grad_norm": 2.5160096705439057,
      "language_loss": 0.80064815,
      "learning_rate": 3.472696734128459e-06,
      "loss": 0.82284975,
      "num_input_tokens_seen": 46187985,
      "step": 2158,
      "time_per_iteration": 2.678403854370117
    },
    {
      "auxiliary_loss_clip": 0.01206572,
      "auxiliary_loss_mlp": 0.01037324,
      "balance_loss_clip": 1.06076682,
      "balance_loss_mlp": 1.02742934,
      "epoch": 0.2596044008897974,
      "flos": 23623583650560.0,
      "grad_norm": 1.9864501419274674,
      "language_loss": 0.75904238,
      "learning_rate": 3.4721695681941286e-06,
      "loss": 0.78148144,
      "num_input_tokens_seen": 46207025,
      "step": 2159,
      "time_per_iteration": 2.6381096839904785
    },
    {
      "auxiliary_loss_clip": 0.0119117,
      "auxiliary_loss_mlp": 0.00889465,
      "balance_loss_clip": 1.05683684,
      "balance_loss_mlp": 1.00084531,
      "epoch": 0.25972464378043647,
      "flos": 13772281628160.0,
      "grad_norm": 1.9169449132734278,
      "language_loss": 0.82637048,
      "learning_rate": 3.471642178932845e-06,
      "loss": 0.84717679,
      "num_input_tokens_seen": 46225670,
      "step": 2160,
      "time_per_iteration": 2.6902804374694824
    },
    {
      "auxiliary_loss_clip": 0.01192846,
      "auxiliary_loss_mlp": 0.01039818,
      "balance_loss_clip": 1.05580497,
      "balance_loss_mlp": 1.03035855,
      "epoch": 0.2598448866710756,
      "flos": 19573578391680.0,
      "grad_norm": 2.352883975661951,
      "language_loss": 0.89555204,
      "learning_rate": 3.471114566424613e-06,
      "loss": 0.91787869,
      "num_input_tokens_seen": 46244130,
      "step": 2161,
      "time_per_iteration": 2.6871325969696045
    },
    {
      "auxiliary_loss_clip": 0.01191594,
      "auxiliary_loss_mlp": 0.01034166,
      "balance_loss_clip": 1.05907178,
      "balance_loss_mlp": 1.02422369,
      "epoch": 0.25996512956171464,
      "flos": 21653237053440.0,
      "grad_norm": 1.8615146960764026,
      "language_loss": 0.76087201,
      "learning_rate": 3.4705867307494715e-06,
      "loss": 0.78312957,
      "num_input_tokens_seen": 46263200,
      "step": 2162,
      "time_per_iteration": 2.81066632270813
    },
    {
      "auxiliary_loss_clip": 0.01207613,
      "auxiliary_loss_mlp": 0.01037793,
      "balance_loss_clip": 1.05877709,
      "balance_loss_mlp": 1.02752304,
      "epoch": 0.26008537245235375,
      "flos": 18223480869120.0,
      "grad_norm": 5.354316158160488,
      "language_loss": 0.84914106,
      "learning_rate": 3.470058671987492e-06,
      "loss": 0.87159514,
      "num_input_tokens_seen": 46281465,
      "step": 2163,
      "time_per_iteration": 2.6821465492248535
    },
    {
      "auxiliary_loss_clip": 0.01208199,
      "auxiliary_loss_mlp": 0.01040137,
      "balance_loss_clip": 1.05872154,
      "balance_loss_mlp": 1.02958727,
      "epoch": 0.26020561534299286,
      "flos": 24645385843200.0,
      "grad_norm": 2.0595271303750278,
      "language_loss": 0.8397789,
      "learning_rate": 3.4695303902187805e-06,
      "loss": 0.86226219,
      "num_input_tokens_seen": 46301020,
      "step": 2164,
      "time_per_iteration": 2.675682544708252
    },
    {
      "auxiliary_loss_clip": 0.01177192,
      "auxiliary_loss_mlp": 0.01036276,
      "balance_loss_clip": 1.05163193,
      "balance_loss_mlp": 1.02583957,
      "epoch": 0.2603258582336319,
      "flos": 25773662926080.0,
      "grad_norm": 3.1913099367409803,
      "language_loss": 0.78976405,
      "learning_rate": 3.469001885523478e-06,
      "loss": 0.81189871,
      "num_input_tokens_seen": 46321740,
      "step": 2165,
      "time_per_iteration": 2.785489082336426
    },
    {
      "auxiliary_loss_clip": 0.01211936,
      "auxiliary_loss_mlp": 0.01036531,
      "balance_loss_clip": 1.06035876,
      "balance_loss_mlp": 1.02679729,
      "epoch": 0.260446101124271,
      "flos": 28766314506240.0,
      "grad_norm": 1.897990579803936,
      "language_loss": 0.8107658,
      "learning_rate": 3.4684731579817568e-06,
      "loss": 0.83325046,
      "num_input_tokens_seen": 46342730,
      "step": 2166,
      "time_per_iteration": 2.673973560333252
    },
    {
      "auxiliary_loss_clip": 0.01153976,
      "auxiliary_loss_mlp": 0.01039892,
      "balance_loss_clip": 1.05187702,
      "balance_loss_mlp": 1.03039718,
      "epoch": 0.26056634401491013,
      "flos": 25666757072640.0,
      "grad_norm": 2.509556200564941,
      "language_loss": 0.76840782,
      "learning_rate": 3.4679442076738247e-06,
      "loss": 0.7903465,
      "num_input_tokens_seen": 46362445,
      "step": 2167,
      "time_per_iteration": 2.822477102279663
    },
    {
      "auxiliary_loss_clip": 0.01216664,
      "auxiliary_loss_mlp": 0.01038162,
      "balance_loss_clip": 1.06220913,
      "balance_loss_mlp": 1.02772498,
      "epoch": 0.2606865869055492,
      "flos": 27052765217280.0,
      "grad_norm": 1.861977874930631,
      "language_loss": 0.83474922,
      "learning_rate": 3.4674150346799245e-06,
      "loss": 0.85729748,
      "num_input_tokens_seen": 46382145,
      "step": 2168,
      "time_per_iteration": 3.6236519813537598
    },
    {
      "auxiliary_loss_clip": 0.01192562,
      "auxiliary_loss_mlp": 0.01038788,
      "balance_loss_clip": 1.05751204,
      "balance_loss_mlp": 1.0290246,
      "epoch": 0.2608068297961883,
      "flos": 17712615686400.0,
      "grad_norm": 1.9678374268152465,
      "language_loss": 0.79940772,
      "learning_rate": 3.4668856390803295e-06,
      "loss": 0.82172126,
      "num_input_tokens_seen": 46400025,
      "step": 2169,
      "time_per_iteration": 2.69547176361084
    },
    {
      "auxiliary_loss_clip": 0.01188466,
      "auxiliary_loss_mlp": 0.01033246,
      "balance_loss_clip": 1.05394697,
      "balance_loss_mlp": 1.0234946,
      "epoch": 0.2609270726868274,
      "flos": 18551632544640.0,
      "grad_norm": 2.1861114507366386,
      "language_loss": 0.89537251,
      "learning_rate": 3.4663560209553495e-06,
      "loss": 0.91758966,
      "num_input_tokens_seen": 46418090,
      "step": 2170,
      "time_per_iteration": 2.6314191818237305
    },
    {
      "auxiliary_loss_clip": 0.01183703,
      "auxiliary_loss_mlp": 0.0103616,
      "balance_loss_clip": 1.05467939,
      "balance_loss_mlp": 1.02592003,
      "epoch": 0.26104731557746647,
      "flos": 21835699165440.0,
      "grad_norm": 1.8689419612210918,
      "language_loss": 0.79064947,
      "learning_rate": 3.4658261803853267e-06,
      "loss": 0.81284815,
      "num_input_tokens_seen": 46436015,
      "step": 2171,
      "time_per_iteration": 2.682730197906494
    },
    {
      "auxiliary_loss_clip": 0.01188371,
      "auxiliary_loss_mlp": 0.01041481,
      "balance_loss_clip": 1.05998254,
      "balance_loss_mlp": 1.03118145,
      "epoch": 0.2611675584681056,
      "flos": 21689650465920.0,
      "grad_norm": 2.076537380312212,
      "language_loss": 0.80876178,
      "learning_rate": 3.4652961174506383e-06,
      "loss": 0.83106029,
      "num_input_tokens_seen": 46455885,
      "step": 2172,
      "time_per_iteration": 2.7193758487701416
    },
    {
      "auxiliary_loss_clip": 0.01089468,
      "auxiliary_loss_mlp": 0.01005568,
      "balance_loss_clip": 1.02280593,
      "balance_loss_mlp": 1.00336218,
      "epoch": 0.2612878013587447,
      "flos": 71862101389440.0,
      "grad_norm": 0.9753256797398117,
      "language_loss": 0.58111209,
      "learning_rate": 3.464765832231694e-06,
      "loss": 0.6020624,
      "num_input_tokens_seen": 46510050,
      "step": 2173,
      "time_per_iteration": 3.2142601013183594
    },
    {
      "auxiliary_loss_clip": 0.01208104,
      "auxiliary_loss_mlp": 0.01037379,
      "balance_loss_clip": 1.06276941,
      "balance_loss_mlp": 1.02720451,
      "epoch": 0.26140804424938374,
      "flos": 20227511445120.0,
      "grad_norm": 7.346015767357704,
      "language_loss": 0.70241946,
      "learning_rate": 3.4642353248089373e-06,
      "loss": 0.72487426,
      "num_input_tokens_seen": 46528810,
      "step": 2174,
      "time_per_iteration": 4.61483907699585
    },
    {
      "auxiliary_loss_clip": 0.0118513,
      "auxiliary_loss_mlp": 0.01039028,
      "balance_loss_clip": 1.05542207,
      "balance_loss_mlp": 1.02857971,
      "epoch": 0.26152828714002285,
      "flos": 25557085872000.0,
      "grad_norm": 2.1042697919705544,
      "language_loss": 0.80080152,
      "learning_rate": 3.463704595262846e-06,
      "loss": 0.82304311,
      "num_input_tokens_seen": 46549690,
      "step": 2175,
      "time_per_iteration": 2.680299997329712
    },
    {
      "auxiliary_loss_clip": 0.01179177,
      "auxiliary_loss_mlp": 0.01035477,
      "balance_loss_clip": 1.05633998,
      "balance_loss_mlp": 1.02558827,
      "epoch": 0.26164853003066196,
      "flos": 25446516831360.0,
      "grad_norm": 2.668773036654382,
      "language_loss": 0.7039426,
      "learning_rate": 3.463173643673931e-06,
      "loss": 0.72608918,
      "num_input_tokens_seen": 46572215,
      "step": 2176,
      "time_per_iteration": 2.7760417461395264
    },
    {
      "auxiliary_loss_clip": 0.0109432,
      "auxiliary_loss_mlp": 0.01006309,
      "balance_loss_clip": 1.021245,
      "balance_loss_mlp": 1.00413978,
      "epoch": 0.261768772921301,
      "flos": 53944580568960.0,
      "grad_norm": 0.9029597691019499,
      "language_loss": 0.63553154,
      "learning_rate": 3.4626424701227387e-06,
      "loss": 0.65653783,
      "num_input_tokens_seen": 46627275,
      "step": 2177,
      "time_per_iteration": 4.033735036849976
    },
    {
      "auxiliary_loss_clip": 0.0109836,
      "auxiliary_loss_mlp": 0.01005461,
      "balance_loss_clip": 1.02086782,
      "balance_loss_mlp": 1.00330341,
      "epoch": 0.26188901581194013,
      "flos": 70687606481280.0,
      "grad_norm": 0.8254179700638056,
      "language_loss": 0.55746394,
      "learning_rate": 3.4621110746898452e-06,
      "loss": 0.57850218,
      "num_input_tokens_seen": 46695135,
      "step": 2178,
      "time_per_iteration": 3.3126022815704346
    },
    {
      "auxiliary_loss_clip": 0.01203969,
      "auxiliary_loss_mlp": 0.01037587,
      "balance_loss_clip": 1.05846596,
      "balance_loss_mlp": 1.02842557,
      "epoch": 0.2620092587025792,
      "flos": 21069580959360.0,
      "grad_norm": 1.68440786979149,
      "language_loss": 0.74374735,
      "learning_rate": 3.4615794574558654e-06,
      "loss": 0.76616287,
      "num_input_tokens_seen": 46714145,
      "step": 2179,
      "time_per_iteration": 2.6859219074249268
    },
    {
      "auxiliary_loss_clip": 0.0119019,
      "auxiliary_loss_mlp": 0.01032674,
      "balance_loss_clip": 1.05641747,
      "balance_loss_mlp": 1.0230118,
      "epoch": 0.2621295015932183,
      "flos": 18369601395840.0,
      "grad_norm": 2.8925986713960437,
      "language_loss": 0.84698856,
      "learning_rate": 3.4610476185014436e-06,
      "loss": 0.86921716,
      "num_input_tokens_seen": 46731405,
      "step": 2180,
      "time_per_iteration": 2.670520782470703
    },
    {
      "auxiliary_loss_clip": 0.01213303,
      "auxiliary_loss_mlp": 0.01034321,
      "balance_loss_clip": 1.0606029,
      "balance_loss_mlp": 1.02353859,
      "epoch": 0.2622497444838574,
      "flos": 23659997063040.0,
      "grad_norm": 1.8545067548851317,
      "language_loss": 0.79374838,
      "learning_rate": 3.4605155579072597e-06,
      "loss": 0.81622463,
      "num_input_tokens_seen": 46751260,
      "step": 2181,
      "time_per_iteration": 2.606879949569702
    },
    {
      "auxiliary_loss_clip": 0.01160814,
      "auxiliary_loss_mlp": 0.01034846,
      "balance_loss_clip": 1.04909778,
      "balance_loss_mlp": 1.02464151,
      "epoch": 0.26236998737449646,
      "flos": 22123810154880.0,
      "grad_norm": 1.7493637900522803,
      "language_loss": 0.71174866,
      "learning_rate": 3.459983275754027e-06,
      "loss": 0.73370528,
      "num_input_tokens_seen": 46770155,
      "step": 2182,
      "time_per_iteration": 2.7394328117370605
    },
    {
      "auxiliary_loss_clip": 0.01211682,
      "auxiliary_loss_mlp": 0.01032961,
      "balance_loss_clip": 1.05979753,
      "balance_loss_mlp": 1.02368665,
      "epoch": 0.26249023026513557,
      "flos": 17895185539200.0,
      "grad_norm": 2.5169461749504722,
      "language_loss": 0.79476047,
      "learning_rate": 3.4594507721224918e-06,
      "loss": 0.81720692,
      "num_input_tokens_seen": 46788805,
      "step": 2183,
      "time_per_iteration": 2.604564905166626
    },
    {
      "auxiliary_loss_clip": 0.01195927,
      "auxiliary_loss_mlp": 0.01032969,
      "balance_loss_clip": 1.0569303,
      "balance_loss_mlp": 1.02358747,
      "epoch": 0.2626104731557747,
      "flos": 18332936588160.0,
      "grad_norm": 2.6916651935250515,
      "language_loss": 0.81917453,
      "learning_rate": 3.4589180470934353e-06,
      "loss": 0.84146345,
      "num_input_tokens_seen": 46808670,
      "step": 2184,
      "time_per_iteration": 2.6709775924682617
    },
    {
      "auxiliary_loss_clip": 0.01207152,
      "auxiliary_loss_mlp": 0.01034478,
      "balance_loss_clip": 1.0575943,
      "balance_loss_mlp": 1.02445889,
      "epoch": 0.26273071604641374,
      "flos": 19317714837120.0,
      "grad_norm": 1.9167364270696527,
      "language_loss": 0.76955843,
      "learning_rate": 3.4583851007476713e-06,
      "loss": 0.79197472,
      "num_input_tokens_seen": 46827140,
      "step": 2185,
      "time_per_iteration": 2.6557254791259766
    },
    {
      "auxiliary_loss_clip": 0.01180763,
      "auxiliary_loss_mlp": 0.01030069,
      "balance_loss_clip": 1.05465567,
      "balance_loss_mlp": 1.01979935,
      "epoch": 0.26285095893705285,
      "flos": 18327477720960.0,
      "grad_norm": 2.2578827351372546,
      "language_loss": 0.68725836,
      "learning_rate": 3.4578519331660464e-06,
      "loss": 0.70936668,
      "num_input_tokens_seen": 46844135,
      "step": 2186,
      "time_per_iteration": 2.6474668979644775
    },
    {
      "auxiliary_loss_clip": 0.0119771,
      "auxiliary_loss_mlp": 0.01029609,
      "balance_loss_clip": 1.06033516,
      "balance_loss_mlp": 1.02007806,
      "epoch": 0.26297120182769196,
      "flos": 20193827466240.0,
      "grad_norm": 7.277216292206469,
      "language_loss": 0.82076895,
      "learning_rate": 3.4573185444294426e-06,
      "loss": 0.84304219,
      "num_input_tokens_seen": 46862500,
      "step": 2187,
      "time_per_iteration": 2.7124433517456055
    },
    {
      "auxiliary_loss_clip": 0.01191106,
      "auxiliary_loss_mlp": 0.00889572,
      "balance_loss_clip": 1.0556525,
      "balance_loss_mlp": 1.00097883,
      "epoch": 0.263091444718331,
      "flos": 22418421505920.0,
      "grad_norm": 1.6898472874513415,
      "language_loss": 0.79095489,
      "learning_rate": 3.456784934618774e-06,
      "loss": 0.81176168,
      "num_input_tokens_seen": 46883665,
      "step": 2188,
      "time_per_iteration": 2.7569046020507812
    },
    {
      "auxiliary_loss_clip": 0.0118591,
      "auxiliary_loss_mlp": 0.01034547,
      "balance_loss_clip": 1.05383658,
      "balance_loss_mlp": 1.02499819,
      "epoch": 0.2632116876089701,
      "flos": 19024827338880.0,
      "grad_norm": 4.423483935249578,
      "language_loss": 0.79773307,
      "learning_rate": 3.4562511038149897e-06,
      "loss": 0.81993759,
      "num_input_tokens_seen": 46899160,
      "step": 2189,
      "time_per_iteration": 2.6396796703338623
    },
    {
      "auxiliary_loss_clip": 0.01062983,
      "auxiliary_loss_mlp": 0.01009318,
      "balance_loss_clip": 1.01875424,
      "balance_loss_mlp": 1.00717258,
      "epoch": 0.26333193049960923,
      "flos": 67308054531840.0,
      "grad_norm": 0.8640831419638658,
      "language_loss": 0.57711333,
      "learning_rate": 3.4557170520990705e-06,
      "loss": 0.59783638,
      "num_input_tokens_seen": 46959835,
      "step": 2190,
      "time_per_iteration": 3.320071220397949
    },
    {
      "auxiliary_loss_clip": 0.0119484,
      "auxiliary_loss_mlp": 0.01034587,
      "balance_loss_clip": 1.05679643,
      "balance_loss_mlp": 1.02521729,
      "epoch": 0.2634521733902483,
      "flos": 25048806468480.0,
      "grad_norm": 1.5643288905510102,
      "language_loss": 0.8649869,
      "learning_rate": 3.4551827795520324e-06,
      "loss": 0.88728118,
      "num_input_tokens_seen": 46982720,
      "step": 2191,
      "time_per_iteration": 2.692082643508911
    },
    {
      "auxiliary_loss_clip": 0.01200041,
      "auxiliary_loss_mlp": 0.01038126,
      "balance_loss_clip": 1.05562615,
      "balance_loss_mlp": 1.02814782,
      "epoch": 0.2635724162808874,
      "flos": 20594985534720.0,
      "grad_norm": 6.5921924391228695,
      "language_loss": 0.85034859,
      "learning_rate": 3.4546482862549226e-06,
      "loss": 0.8727302,
      "num_input_tokens_seen": 47003035,
      "step": 2192,
      "time_per_iteration": 2.678504705429077
    },
    {
      "auxiliary_loss_clip": 0.01174771,
      "auxiliary_loss_mlp": 0.01035522,
      "balance_loss_clip": 1.05341864,
      "balance_loss_mlp": 1.02547908,
      "epoch": 0.2636926591715265,
      "flos": 19244636616960.0,
      "grad_norm": 2.1114946892930497,
      "language_loss": 0.78904861,
      "learning_rate": 3.4541135722888253e-06,
      "loss": 0.81115156,
      "num_input_tokens_seen": 47019625,
      "step": 2193,
      "time_per_iteration": 2.7089462280273438
    },
    {
      "auxiliary_loss_clip": 0.01208073,
      "auxiliary_loss_mlp": 0.01032927,
      "balance_loss_clip": 1.05686855,
      "balance_loss_mlp": 1.02304459,
      "epoch": 0.26381290206216557,
      "flos": 28804882734720.0,
      "grad_norm": 1.832455064236377,
      "language_loss": 0.80040085,
      "learning_rate": 3.453578637734854e-06,
      "loss": 0.82281077,
      "num_input_tokens_seen": 47040815,
      "step": 2194,
      "time_per_iteration": 3.5525834560394287
    },
    {
      "auxiliary_loss_clip": 0.01216292,
      "auxiliary_loss_mlp": 0.01039282,
      "balance_loss_clip": 1.06435728,
      "balance_loss_mlp": 1.02979887,
      "epoch": 0.2639331449528047,
      "flos": 25008909436800.0,
      "grad_norm": 1.9112693598761754,
      "language_loss": 0.78501749,
      "learning_rate": 3.4530434826741605e-06,
      "loss": 0.8075732,
      "num_input_tokens_seen": 47061755,
      "step": 2195,
      "time_per_iteration": 2.659883975982666
    },
    {
      "auxiliary_loss_clip": 0.0118605,
      "auxiliary_loss_mlp": 0.01032494,
      "balance_loss_clip": 1.05727649,
      "balance_loss_mlp": 1.02305222,
      "epoch": 0.26405338784344373,
      "flos": 46535775465600.0,
      "grad_norm": 2.135671055229728,
      "language_loss": 0.68783498,
      "learning_rate": 3.452508107187926e-06,
      "loss": 0.71002036,
      "num_input_tokens_seen": 47085130,
      "step": 2196,
      "time_per_iteration": 2.8775506019592285
    },
    {
      "auxiliary_loss_clip": 0.01159904,
      "auxiliary_loss_mlp": 0.01032495,
      "balance_loss_clip": 1.04962432,
      "balance_loss_mlp": 1.02227879,
      "epoch": 0.26417363073408284,
      "flos": 21179467641600.0,
      "grad_norm": 2.0529752664997982,
      "language_loss": 0.77042711,
      "learning_rate": 3.451972511357366e-06,
      "loss": 0.79235107,
      "num_input_tokens_seen": 47104675,
      "step": 2197,
      "time_per_iteration": 2.7391273975372314
    },
    {
      "auxiliary_loss_clip": 0.01196534,
      "auxiliary_loss_mlp": 0.0103525,
      "balance_loss_clip": 1.05925465,
      "balance_loss_mlp": 1.02579093,
      "epoch": 0.26429387362472195,
      "flos": 22674751937280.0,
      "grad_norm": 1.8680135252025778,
      "language_loss": 0.84957922,
      "learning_rate": 3.45143669526373e-06,
      "loss": 0.87189698,
      "num_input_tokens_seen": 47124435,
      "step": 2198,
      "time_per_iteration": 2.6618399620056152
    },
    {
      "auxiliary_loss_clip": 0.0108563,
      "auxiliary_loss_mlp": 0.01003845,
      "balance_loss_clip": 1.01790535,
      "balance_loss_mlp": 1.00161541,
      "epoch": 0.264414116515361,
      "flos": 67180534272000.0,
      "grad_norm": 0.784331714666774,
      "language_loss": 0.63218844,
      "learning_rate": 3.450900658988302e-06,
      "loss": 0.65308321,
      "num_input_tokens_seen": 47185985,
      "step": 2199,
      "time_per_iteration": 3.191727638244629
    },
    {
      "auxiliary_loss_clip": 0.01182408,
      "auxiliary_loss_mlp": 0.01032014,
      "balance_loss_clip": 1.05587256,
      "balance_loss_mlp": 1.02124918,
      "epoch": 0.2645343594060001,
      "flos": 25664709997440.0,
      "grad_norm": 2.1664302941037312,
      "language_loss": 0.77359664,
      "learning_rate": 3.450364402612397e-06,
      "loss": 0.79574084,
      "num_input_tokens_seen": 47203140,
      "step": 2200,
      "time_per_iteration": 4.527123928070068
    },
    {
      "auxiliary_loss_clip": 0.0118507,
      "auxiliary_loss_mlp": 0.01037948,
      "balance_loss_clip": 1.05481648,
      "balance_loss_mlp": 1.02808297,
      "epoch": 0.26465460229663923,
      "flos": 22491822948480.0,
      "grad_norm": 1.9016223765696494,
      "language_loss": 0.83916306,
      "learning_rate": 3.449827926217366e-06,
      "loss": 0.86139321,
      "num_input_tokens_seen": 47222575,
      "step": 2201,
      "time_per_iteration": 2.7006492614746094
    },
    {
      "auxiliary_loss_clip": 0.01190164,
      "auxiliary_loss_mlp": 0.01032004,
      "balance_loss_clip": 1.05154848,
      "balance_loss_mlp": 1.02258027,
      "epoch": 0.2647748451872783,
      "flos": 29388036038400.0,
      "grad_norm": 2.593905750538763,
      "language_loss": 0.8036257,
      "learning_rate": 3.449291229884591e-06,
      "loss": 0.82584733,
      "num_input_tokens_seen": 47243815,
      "step": 2202,
      "time_per_iteration": 2.7558696269989014
    },
    {
      "auxiliary_loss_clip": 0.01181906,
      "auxiliary_loss_mlp": 0.01029913,
      "balance_loss_clip": 1.05258477,
      "balance_loss_mlp": 1.02033436,
      "epoch": 0.2648950880779174,
      "flos": 26797799502720.0,
      "grad_norm": 3.426794451948749,
      "language_loss": 0.86863166,
      "learning_rate": 3.4487543136954887e-06,
      "loss": 0.89074981,
      "num_input_tokens_seen": 47263435,
      "step": 2203,
      "time_per_iteration": 3.597857713699341
    },
    {
      "auxiliary_loss_clip": 0.01177076,
      "auxiliary_loss_mlp": 0.010334,
      "balance_loss_clip": 1.05449128,
      "balance_loss_mlp": 1.02405405,
      "epoch": 0.2650153309685565,
      "flos": 28841008838400.0,
      "grad_norm": 2.0415934219618843,
      "language_loss": 0.91246915,
      "learning_rate": 3.448217177731509e-06,
      "loss": 0.93457395,
      "num_input_tokens_seen": 47283920,
      "step": 2204,
      "time_per_iteration": 2.7369401454925537
    },
    {
      "auxiliary_loss_clip": 0.01186358,
      "auxiliary_loss_mlp": 0.01035334,
      "balance_loss_clip": 1.05894327,
      "balance_loss_mlp": 1.02623856,
      "epoch": 0.26513557385919556,
      "flos": 20303247271680.0,
      "grad_norm": 1.8509224563641635,
      "language_loss": 0.77709067,
      "learning_rate": 3.4476798220741348e-06,
      "loss": 0.79930753,
      "num_input_tokens_seen": 47302800,
      "step": 2205,
      "time_per_iteration": 2.719723701477051
    },
    {
      "auxiliary_loss_clip": 0.01210373,
      "auxiliary_loss_mlp": 0.01033885,
      "balance_loss_clip": 1.06162,
      "balance_loss_mlp": 1.0253557,
      "epoch": 0.26525581674983467,
      "flos": 17676274101120.0,
      "grad_norm": 1.9592823065253904,
      "language_loss": 0.78361326,
      "learning_rate": 3.4471422468048826e-06,
      "loss": 0.80605584,
      "num_input_tokens_seen": 47321525,
      "step": 2206,
      "time_per_iteration": 2.624232053756714
    },
    {
      "auxiliary_loss_clip": 0.01195088,
      "auxiliary_loss_mlp": 0.01035103,
      "balance_loss_clip": 1.05892551,
      "balance_loss_mlp": 1.02515507,
      "epoch": 0.2653760596404738,
      "flos": 26833746038400.0,
      "grad_norm": 4.138921588786608,
      "language_loss": 0.73582768,
      "learning_rate": 3.4466044520053022e-06,
      "loss": 0.75812954,
      "num_input_tokens_seen": 47340530,
      "step": 2207,
      "time_per_iteration": 2.6848058700561523
    },
    {
      "auxiliary_loss_clip": 0.01176227,
      "auxiliary_loss_mlp": 0.01038465,
      "balance_loss_clip": 1.05197835,
      "balance_loss_mlp": 1.02818871,
      "epoch": 0.26549630253111284,
      "flos": 22782160581120.0,
      "grad_norm": 1.717047747924239,
      "language_loss": 0.60292137,
      "learning_rate": 3.446066437756977e-06,
      "loss": 0.62506825,
      "num_input_tokens_seen": 47359735,
      "step": 2208,
      "time_per_iteration": 2.727722406387329
    },
    {
      "auxiliary_loss_clip": 0.01185679,
      "auxiliary_loss_mlp": 0.01028236,
      "balance_loss_clip": 1.05487013,
      "balance_loss_mlp": 1.01811492,
      "epoch": 0.26561654542175195,
      "flos": 23550002640000.0,
      "grad_norm": 2.2364460546580864,
      "language_loss": 0.75457478,
      "learning_rate": 3.4455282041415224e-06,
      "loss": 0.77671391,
      "num_input_tokens_seen": 47378945,
      "step": 2209,
      "time_per_iteration": 2.788461446762085
    },
    {
      "auxiliary_loss_clip": 0.01182831,
      "auxiliary_loss_mlp": 0.01032834,
      "balance_loss_clip": 1.05563331,
      "balance_loss_mlp": 1.02301157,
      "epoch": 0.265736788312391,
      "flos": 26906680604160.0,
      "grad_norm": 2.5435373646698936,
      "language_loss": 0.87272704,
      "learning_rate": 3.4449897512405894e-06,
      "loss": 0.89488375,
      "num_input_tokens_seen": 47398095,
      "step": 2210,
      "time_per_iteration": 2.7486319541931152
    },
    {
      "auxiliary_loss_clip": 0.01148661,
      "auxiliary_loss_mlp": 0.00889255,
      "balance_loss_clip": 1.04402351,
      "balance_loss_mlp": 1.00101948,
      "epoch": 0.2658570312030301,
      "flos": 23477139901440.0,
      "grad_norm": 2.917255561034263,
      "language_loss": 0.75465184,
      "learning_rate": 3.444451079135859e-06,
      "loss": 0.77503097,
      "num_input_tokens_seen": 47417605,
      "step": 2211,
      "time_per_iteration": 2.809791088104248
    },
    {
      "auxiliary_loss_clip": 0.01155127,
      "auxiliary_loss_mlp": 0.00890345,
      "balance_loss_clip": 1.04606199,
      "balance_loss_mlp": 1.00112176,
      "epoch": 0.2659772740936692,
      "flos": 21866402315520.0,
      "grad_norm": 9.319059804781354,
      "language_loss": 0.74077672,
      "learning_rate": 3.4439121879090493e-06,
      "loss": 0.76123142,
      "num_input_tokens_seen": 47435385,
      "step": 2212,
      "time_per_iteration": 2.727536916732788
    },
    {
      "auxiliary_loss_clip": 0.01193861,
      "auxiliary_loss_mlp": 0.01043987,
      "balance_loss_clip": 1.05617094,
      "balance_loss_mlp": 1.03419995,
      "epoch": 0.2660975169843083,
      "flos": 19793100360960.0,
      "grad_norm": 2.005940112223718,
      "language_loss": 0.83517408,
      "learning_rate": 3.4433730776419082e-06,
      "loss": 0.85755259,
      "num_input_tokens_seen": 47454310,
      "step": 2213,
      "time_per_iteration": 2.7212512493133545
    },
    {
      "auxiliary_loss_clip": 0.01204536,
      "auxiliary_loss_mlp": 0.00890259,
      "balance_loss_clip": 1.05719769,
      "balance_loss_mlp": 1.00114799,
      "epoch": 0.2662177598749474,
      "flos": 29018981750400.0,
      "grad_norm": 2.6034326932011758,
      "language_loss": 0.80296594,
      "learning_rate": 3.4428337484162183e-06,
      "loss": 0.82391393,
      "num_input_tokens_seen": 47475120,
      "step": 2214,
      "time_per_iteration": 2.7032523155212402
    },
    {
      "auxiliary_loss_clip": 0.01183175,
      "auxiliary_loss_mlp": 0.0103818,
      "balance_loss_clip": 1.0542767,
      "balance_loss_mlp": 1.02841115,
      "epoch": 0.2663380027655865,
      "flos": 21762549118080.0,
      "grad_norm": 2.002277881422212,
      "language_loss": 0.8438704,
      "learning_rate": 3.442294200313797e-06,
      "loss": 0.86608398,
      "num_input_tokens_seen": 47493150,
      "step": 2215,
      "time_per_iteration": 2.702643394470215
    },
    {
      "auxiliary_loss_clip": 0.01094518,
      "auxiliary_loss_mlp": 0.01011444,
      "balance_loss_clip": 1.01766431,
      "balance_loss_mlp": 1.00923908,
      "epoch": 0.26645824565622556,
      "flos": 66980333819520.0,
      "grad_norm": 0.7705478284141777,
      "language_loss": 0.52670902,
      "learning_rate": 3.4417544334164916e-06,
      "loss": 0.54776859,
      "num_input_tokens_seen": 47557295,
      "step": 2216,
      "time_per_iteration": 3.2096664905548096
    },
    {
      "auxiliary_loss_clip": 0.0117809,
      "auxiliary_loss_mlp": 0.01035994,
      "balance_loss_clip": 1.05546045,
      "balance_loss_mlp": 1.02656472,
      "epoch": 0.26657848854686467,
      "flos": 25264198373760.0,
      "grad_norm": 1.7572195727439552,
      "language_loss": 0.77569163,
      "learning_rate": 3.4412144478061854e-06,
      "loss": 0.79783249,
      "num_input_tokens_seen": 47579705,
      "step": 2217,
      "time_per_iteration": 2.7713611125946045
    },
    {
      "auxiliary_loss_clip": 0.01138775,
      "auxiliary_loss_mlp": 0.01029551,
      "balance_loss_clip": 1.04763615,
      "balance_loss_mlp": 1.01900733,
      "epoch": 0.2666987314375038,
      "flos": 23696769611520.0,
      "grad_norm": 1.8431478001524328,
      "language_loss": 0.75512421,
      "learning_rate": 3.4406742435647925e-06,
      "loss": 0.77680755,
      "num_input_tokens_seen": 47599770,
      "step": 2218,
      "time_per_iteration": 3.0835471153259277
    },
    {
      "auxiliary_loss_clip": 0.01199084,
      "auxiliary_loss_mlp": 0.01033157,
      "balance_loss_clip": 1.05997825,
      "balance_loss_mlp": 1.02304268,
      "epoch": 0.26681897432814283,
      "flos": 27048958375680.0,
      "grad_norm": 1.9650747312424535,
      "language_loss": 0.78913403,
      "learning_rate": 3.440133820774263e-06,
      "loss": 0.81145644,
      "num_input_tokens_seen": 47619580,
      "step": 2219,
      "time_per_iteration": 2.8849499225616455
    },
    {
      "auxiliary_loss_clip": 0.01195359,
      "auxiliary_loss_mlp": 0.01043346,
      "balance_loss_clip": 1.06020474,
      "balance_loss_mlp": 1.03231323,
      "epoch": 0.26693921721878194,
      "flos": 28985944216320.0,
      "grad_norm": 2.8382257382335383,
      "language_loss": 0.82169354,
      "learning_rate": 3.439593179516578e-06,
      "loss": 0.84408057,
      "num_input_tokens_seen": 47639490,
      "step": 2220,
      "time_per_iteration": 3.9193408489227295
    },
    {
      "auxiliary_loss_clip": 0.01199277,
      "auxiliary_loss_mlp": 0.01033893,
      "balance_loss_clip": 1.06034064,
      "balance_loss_mlp": 1.02392745,
      "epoch": 0.26705946010942105,
      "flos": 21507834798720.0,
      "grad_norm": 3.2136264211243777,
      "language_loss": 0.80959368,
      "learning_rate": 3.4390523198737524e-06,
      "loss": 0.83192533,
      "num_input_tokens_seen": 47658650,
      "step": 2221,
      "time_per_iteration": 2.7617034912109375
    },
    {
      "auxiliary_loss_clip": 0.0121027,
      "auxiliary_loss_mlp": 0.00889541,
      "balance_loss_clip": 1.0595578,
      "balance_loss_mlp": 1.00104094,
      "epoch": 0.2671797030000601,
      "flos": 21471277731840.0,
      "grad_norm": 1.5947752134554798,
      "language_loss": 0.7322166,
      "learning_rate": 3.4385112419278333e-06,
      "loss": 0.75321472,
      "num_input_tokens_seen": 47679875,
      "step": 2222,
      "time_per_iteration": 2.646827220916748
    },
    {
      "auxiliary_loss_clip": 0.0109137,
      "auxiliary_loss_mlp": 0.01002327,
      "balance_loss_clip": 1.01927948,
      "balance_loss_mlp": 1.00009811,
      "epoch": 0.2672999458906992,
      "flos": 64189929767040.0,
      "grad_norm": 0.7968481699326458,
      "language_loss": 0.64827627,
      "learning_rate": 3.4379699457609033e-06,
      "loss": 0.66921329,
      "num_input_tokens_seen": 47737700,
      "step": 2223,
      "time_per_iteration": 3.0817129611968994
    },
    {
      "auxiliary_loss_clip": 0.0118325,
      "auxiliary_loss_mlp": 0.01033891,
      "balance_loss_clip": 1.05420041,
      "balance_loss_mlp": 1.02433658,
      "epoch": 0.26742018878133833,
      "flos": 16909042573440.0,
      "grad_norm": 1.9284293050325014,
      "language_loss": 0.90152466,
      "learning_rate": 3.4374284314550755e-06,
      "loss": 0.92369604,
      "num_input_tokens_seen": 47756740,
      "step": 2224,
      "time_per_iteration": 2.6488733291625977
    },
    {
      "auxiliary_loss_clip": 0.01210517,
      "auxiliary_loss_mlp": 0.010346,
      "balance_loss_clip": 1.06037688,
      "balance_loss_mlp": 1.02425897,
      "epoch": 0.2675404316719774,
      "flos": 20667560964480.0,
      "grad_norm": 2.0978180169855425,
      "language_loss": 0.80978978,
      "learning_rate": 3.436886699092498e-06,
      "loss": 0.83224094,
      "num_input_tokens_seen": 47775255,
      "step": 2225,
      "time_per_iteration": 2.6609883308410645
    },
    {
      "auxiliary_loss_clip": 0.01214839,
      "auxiliary_loss_mlp": 0.0102976,
      "balance_loss_clip": 1.06077492,
      "balance_loss_mlp": 1.01984215,
      "epoch": 0.2676606745626165,
      "flos": 17485013157120.0,
      "grad_norm": 5.485858348814713,
      "language_loss": 0.72274601,
      "learning_rate": 3.4363447487553502e-06,
      "loss": 0.74519193,
      "num_input_tokens_seen": 47788570,
      "step": 2226,
      "time_per_iteration": 4.4837095737457275
    },
    {
      "auxiliary_loss_clip": 0.01188312,
      "auxiliary_loss_mlp": 0.01032663,
      "balance_loss_clip": 1.0589478,
      "balance_loss_mlp": 1.02269721,
      "epoch": 0.26778091745325555,
      "flos": 27852675143040.0,
      "grad_norm": 3.7285230268145564,
      "language_loss": 0.78128111,
      "learning_rate": 3.4358025805258455e-06,
      "loss": 0.80349088,
      "num_input_tokens_seen": 47808275,
      "step": 2227,
      "time_per_iteration": 2.717841148376465
    },
    {
      "auxiliary_loss_clip": 0.01174342,
      "auxiliary_loss_mlp": 0.01035061,
      "balance_loss_clip": 1.05158377,
      "balance_loss_mlp": 1.02527356,
      "epoch": 0.26790116034389466,
      "flos": 20955995176320.0,
      "grad_norm": 2.203468266914622,
      "language_loss": 0.83423293,
      "learning_rate": 3.435260194486232e-06,
      "loss": 0.856327,
      "num_input_tokens_seen": 47826245,
      "step": 2228,
      "time_per_iteration": 2.773233652114868
    },
    {
      "auxiliary_loss_clip": 0.01189978,
      "auxiliary_loss_mlp": 0.01034693,
      "balance_loss_clip": 1.05704701,
      "balance_loss_mlp": 1.02442288,
      "epoch": 0.2680214032345338,
      "flos": 18040659621120.0,
      "grad_norm": 2.5111630924692356,
      "language_loss": 0.82277262,
      "learning_rate": 3.4347175907187875e-06,
      "loss": 0.84501934,
      "num_input_tokens_seen": 47843235,
      "step": 2229,
      "time_per_iteration": 3.545874834060669
    },
    {
      "auxiliary_loss_clip": 0.01195144,
      "auxiliary_loss_mlp": 0.01033872,
      "balance_loss_clip": 1.0569973,
      "balance_loss_mlp": 1.02407873,
      "epoch": 0.26814164612517283,
      "flos": 22419427086720.0,
      "grad_norm": 1.9710242510964584,
      "language_loss": 0.88299304,
      "learning_rate": 3.4341747693058254e-06,
      "loss": 0.90528321,
      "num_input_tokens_seen": 47861710,
      "step": 2230,
      "time_per_iteration": 2.6647586822509766
    },
    {
      "auxiliary_loss_clip": 0.01127235,
      "auxiliary_loss_mlp": 0.01029678,
      "balance_loss_clip": 1.04523504,
      "balance_loss_mlp": 1.01976013,
      "epoch": 0.26826188901581194,
      "flos": 35627371159680.0,
      "grad_norm": 1.8337972802734195,
      "language_loss": 0.77373344,
      "learning_rate": 3.4336317303296916e-06,
      "loss": 0.79530257,
      "num_input_tokens_seen": 47882685,
      "step": 2231,
      "time_per_iteration": 3.1719729900360107
    },
    {
      "auxiliary_loss_clip": 0.01194109,
      "auxiliary_loss_mlp": 0.01028267,
      "balance_loss_clip": 1.05647707,
      "balance_loss_mlp": 1.01802051,
      "epoch": 0.26838213190645105,
      "flos": 17639788861440.0,
      "grad_norm": 2.858518081703557,
      "language_loss": 0.74863231,
      "learning_rate": 3.4330884738727635e-06,
      "loss": 0.77085608,
      "num_input_tokens_seen": 47900860,
      "step": 2232,
      "time_per_iteration": 2.843194007873535
    },
    {
      "auxiliary_loss_clip": 0.01159576,
      "auxiliary_loss_mlp": 0.0103261,
      "balance_loss_clip": 1.05141747,
      "balance_loss_mlp": 1.02223885,
      "epoch": 0.2685023747970901,
      "flos": 22674823764480.0,
      "grad_norm": 3.1853908619797293,
      "language_loss": 0.70828646,
      "learning_rate": 3.4325450000174535e-06,
      "loss": 0.73020828,
      "num_input_tokens_seen": 47917500,
      "step": 2233,
      "time_per_iteration": 2.7870519161224365
    },
    {
      "auxiliary_loss_clip": 0.01155755,
      "auxiliary_loss_mlp": 0.01033819,
      "balance_loss_clip": 1.04891229,
      "balance_loss_mlp": 1.02370977,
      "epoch": 0.2686226176877292,
      "flos": 20120533764480.0,
      "grad_norm": 2.0058824709683365,
      "language_loss": 0.74345326,
      "learning_rate": 3.4320013088462067e-06,
      "loss": 0.76534897,
      "num_input_tokens_seen": 47934860,
      "step": 2234,
      "time_per_iteration": 2.7415778636932373
    },
    {
      "auxiliary_loss_clip": 0.01181638,
      "auxiliary_loss_mlp": 0.01034146,
      "balance_loss_clip": 1.05392146,
      "balance_loss_mlp": 1.02437639,
      "epoch": 0.2687428605783683,
      "flos": 21872040750720.0,
      "grad_norm": 1.5984715561844598,
      "language_loss": 0.81732082,
      "learning_rate": 3.431457400441499e-06,
      "loss": 0.83947861,
      "num_input_tokens_seen": 47955255,
      "step": 2235,
      "time_per_iteration": 2.9039900302886963
    },
    {
      "auxiliary_loss_clip": 0.0105142,
      "auxiliary_loss_mlp": 0.01011325,
      "balance_loss_clip": 1.01580596,
      "balance_loss_mlp": 1.00917971,
      "epoch": 0.2688631034690074,
      "flos": 69943320766080.0,
      "grad_norm": 0.9521524387474051,
      "language_loss": 0.60860252,
      "learning_rate": 3.4309132748858424e-06,
      "loss": 0.6292299,
      "num_input_tokens_seen": 48016245,
      "step": 2236,
      "time_per_iteration": 3.397533416748047
    },
    {
      "auxiliary_loss_clip": 0.01194935,
      "auxiliary_loss_mlp": 0.01035003,
      "balance_loss_clip": 1.05780458,
      "balance_loss_mlp": 1.02489948,
      "epoch": 0.2689833463596465,
      "flos": 22856639431680.0,
      "grad_norm": 1.6773539055816569,
      "language_loss": 0.83696604,
      "learning_rate": 3.430368932261779e-06,
      "loss": 0.85926545,
      "num_input_tokens_seen": 48036600,
      "step": 2237,
      "time_per_iteration": 2.650928020477295
    },
    {
      "auxiliary_loss_clip": 0.01185849,
      "auxiliary_loss_mlp": 0.01033788,
      "balance_loss_clip": 1.05592513,
      "balance_loss_mlp": 1.02415586,
      "epoch": 0.2691035892502856,
      "flos": 17200242132480.0,
      "grad_norm": 2.3497961755139296,
      "language_loss": 0.74907577,
      "learning_rate": 3.429824372651886e-06,
      "loss": 0.77127212,
      "num_input_tokens_seen": 48054750,
      "step": 2238,
      "time_per_iteration": 2.65403151512146
    },
    {
      "auxiliary_loss_clip": 0.0117802,
      "auxiliary_loss_mlp": 0.01035378,
      "balance_loss_clip": 1.05408955,
      "balance_loss_mlp": 1.02559662,
      "epoch": 0.26922383214092466,
      "flos": 17747484814080.0,
      "grad_norm": 3.577989190504177,
      "language_loss": 0.83693838,
      "learning_rate": 3.4292795961387732e-06,
      "loss": 0.85907233,
      "num_input_tokens_seen": 48072650,
      "step": 2239,
      "time_per_iteration": 2.7788820266723633
    },
    {
      "auxiliary_loss_clip": 0.01211464,
      "auxiliary_loss_mlp": 0.01033503,
      "balance_loss_clip": 1.06098747,
      "balance_loss_mlp": 1.0238831,
      "epoch": 0.26934407503156377,
      "flos": 16173376122240.0,
      "grad_norm": 5.1643598530792225,
      "language_loss": 0.87647021,
      "learning_rate": 3.4287346028050818e-06,
      "loss": 0.89891988,
      "num_input_tokens_seen": 48088720,
      "step": 2240,
      "time_per_iteration": 2.659926176071167
    },
    {
      "auxiliary_loss_clip": 0.0119015,
      "auxiliary_loss_mlp": 0.01031599,
      "balance_loss_clip": 1.05843103,
      "balance_loss_mlp": 1.02269375,
      "epoch": 0.2694643179222028,
      "flos": 23732895715200.0,
      "grad_norm": 1.6205111566366093,
      "language_loss": 0.79660666,
      "learning_rate": 3.4281893927334866e-06,
      "loss": 0.81882417,
      "num_input_tokens_seen": 48108630,
      "step": 2241,
      "time_per_iteration": 2.7320942878723145
    },
    {
      "auxiliary_loss_clip": 0.01197033,
      "auxiliary_loss_mlp": 0.01030163,
      "balance_loss_clip": 1.05613136,
      "balance_loss_mlp": 1.02037621,
      "epoch": 0.26958456081284193,
      "flos": 24718140840960.0,
      "grad_norm": 2.0362457520284205,
      "language_loss": 0.7501241,
      "learning_rate": 3.4276439660066963e-06,
      "loss": 0.77239609,
      "num_input_tokens_seen": 48128330,
      "step": 2242,
      "time_per_iteration": 2.6910650730133057
    },
    {
      "auxiliary_loss_clip": 0.01207669,
      "auxiliary_loss_mlp": 0.01031443,
      "balance_loss_clip": 1.05934048,
      "balance_loss_mlp": 1.02175748,
      "epoch": 0.26970480370348104,
      "flos": 18112588606080.0,
      "grad_norm": 5.134930392204465,
      "language_loss": 0.83825362,
      "learning_rate": 3.427098322707452e-06,
      "loss": 0.86064476,
      "num_input_tokens_seen": 48144295,
      "step": 2243,
      "time_per_iteration": 2.589775323867798
    },
    {
      "auxiliary_loss_clip": 0.01201084,
      "auxiliary_loss_mlp": 0.01047277,
      "balance_loss_clip": 1.06188226,
      "balance_loss_mlp": 1.03757393,
      "epoch": 0.2698250465941201,
      "flos": 10816546250880.0,
      "grad_norm": 2.251627832844332,
      "language_loss": 0.89777207,
      "learning_rate": 3.426552462918526e-06,
      "loss": 0.92025566,
      "num_input_tokens_seen": 48162230,
      "step": 2244,
      "time_per_iteration": 2.716779947280884
    },
    {
      "auxiliary_loss_clip": 0.01208856,
      "auxiliary_loss_mlp": 0.01033684,
      "balance_loss_clip": 1.06109476,
      "balance_loss_mlp": 1.02389717,
      "epoch": 0.2699452894847592,
      "flos": 17308117653120.0,
      "grad_norm": 2.3154773400304873,
      "language_loss": 0.73120826,
      "learning_rate": 3.426006386722726e-06,
      "loss": 0.75363362,
      "num_input_tokens_seen": 48180290,
      "step": 2245,
      "time_per_iteration": 2.5972650051116943
    },
    {
      "auxiliary_loss_clip": 0.0118534,
      "auxiliary_loss_mlp": 0.01037363,
      "balance_loss_clip": 1.06055331,
      "balance_loss_mlp": 1.02780235,
      "epoch": 0.2700655323753983,
      "flos": 18078150441600.0,
      "grad_norm": 2.1141145504681274,
      "language_loss": 0.92306817,
      "learning_rate": 3.4254600942028914e-06,
      "loss": 0.94529516,
      "num_input_tokens_seen": 48198165,
      "step": 2246,
      "time_per_iteration": 3.8592371940612793
    },
    {
      "auxiliary_loss_clip": 0.01185506,
      "auxiliary_loss_mlp": 0.0103132,
      "balance_loss_clip": 1.05820811,
      "balance_loss_mlp": 1.02263558,
      "epoch": 0.2701857752660374,
      "flos": 18186636493440.0,
      "grad_norm": 2.3688434034788215,
      "language_loss": 0.82481503,
      "learning_rate": 3.424913585441893e-06,
      "loss": 0.84698331,
      "num_input_tokens_seen": 48216000,
      "step": 2247,
      "time_per_iteration": 2.6953511238098145
    },
    {
      "auxiliary_loss_clip": 0.01196251,
      "auxiliary_loss_mlp": 0.01037365,
      "balance_loss_clip": 1.05827188,
      "balance_loss_mlp": 1.027614,
      "epoch": 0.2703060181566765,
      "flos": 16319496648960.0,
      "grad_norm": 2.0359626011870824,
      "language_loss": 0.8734746,
      "learning_rate": 3.4243668605226374e-06,
      "loss": 0.89581078,
      "num_input_tokens_seen": 48233025,
      "step": 2248,
      "time_per_iteration": 2.6262314319610596
    },
    {
      "auxiliary_loss_clip": 0.01180194,
      "auxiliary_loss_mlp": 0.0103571,
      "balance_loss_clip": 1.05643058,
      "balance_loss_mlp": 1.02476037,
      "epoch": 0.2704262610473156,
      "flos": 19572357329280.0,
      "grad_norm": 2.499134474924868,
      "language_loss": 0.82598603,
      "learning_rate": 3.423819919528061e-06,
      "loss": 0.84814513,
      "num_input_tokens_seen": 48251110,
      "step": 2249,
      "time_per_iteration": 2.730983018875122
    },
    {
      "auxiliary_loss_clip": 0.01169402,
      "auxiliary_loss_mlp": 0.01038737,
      "balance_loss_clip": 1.04821754,
      "balance_loss_mlp": 1.02897358,
      "epoch": 0.27054650393795465,
      "flos": 20740746925440.0,
      "grad_norm": 1.7804889651796947,
      "language_loss": 0.78709865,
      "learning_rate": 3.4232727625411355e-06,
      "loss": 0.80918002,
      "num_input_tokens_seen": 48270215,
      "step": 2250,
      "time_per_iteration": 2.836367130279541
    },
    {
      "auxiliary_loss_clip": 0.01148711,
      "auxiliary_loss_mlp": 0.0103516,
      "balance_loss_clip": 1.05002129,
      "balance_loss_mlp": 1.0258435,
      "epoch": 0.27066674682859376,
      "flos": 18658322916480.0,
      "grad_norm": 1.7405895246315066,
      "language_loss": 0.86224103,
      "learning_rate": 3.4227253896448626e-06,
      "loss": 0.88407975,
      "num_input_tokens_seen": 48288075,
      "step": 2251,
      "time_per_iteration": 4.04388689994812
    },
    {
      "auxiliary_loss_clip": 0.01204893,
      "auxiliary_loss_mlp": 0.01033375,
      "balance_loss_clip": 1.05769944,
      "balance_loss_mlp": 1.02457142,
      "epoch": 0.2707869897192329,
      "flos": 23002759958400.0,
      "grad_norm": 2.993142147679781,
      "language_loss": 0.82010639,
      "learning_rate": 3.42217780092228e-06,
      "loss": 0.84248912,
      "num_input_tokens_seen": 48306415,
      "step": 2252,
      "time_per_iteration": 3.4981231689453125
    },
    {
      "auxiliary_loss_clip": 0.01082669,
      "auxiliary_loss_mlp": 0.01001998,
      "balance_loss_clip": 1.02012515,
      "balance_loss_mlp": 0.99975723,
      "epoch": 0.27090723260987193,
      "flos": 58323240293760.0,
      "grad_norm": 0.7926333794493962,
      "language_loss": 0.60313189,
      "learning_rate": 3.421629996456456e-06,
      "loss": 0.6239785,
      "num_input_tokens_seen": 48365035,
      "step": 2253,
      "time_per_iteration": 3.1903557777404785
    },
    {
      "auxiliary_loss_clip": 0.01197914,
      "auxiliary_loss_mlp": 0.01034922,
      "balance_loss_clip": 1.05823064,
      "balance_loss_mlp": 1.02517092,
      "epoch": 0.27102747550051104,
      "flos": 11984540797440.0,
      "grad_norm": 2.0626091845467527,
      "language_loss": 0.82483923,
      "learning_rate": 3.421081976330491e-06,
      "loss": 0.84716761,
      "num_input_tokens_seen": 48383550,
      "step": 2254,
      "time_per_iteration": 2.7304270267486572
    },
    {
      "auxiliary_loss_clip": 0.01184375,
      "auxiliary_loss_mlp": 0.01033859,
      "balance_loss_clip": 1.05345213,
      "balance_loss_mlp": 1.02407825,
      "epoch": 0.27114771839115015,
      "flos": 19900401264000.0,
      "grad_norm": 4.302379178869501,
      "language_loss": 0.87871176,
      "learning_rate": 3.4205337406275207e-06,
      "loss": 0.90089405,
      "num_input_tokens_seen": 48403670,
      "step": 2255,
      "time_per_iteration": 4.028710603713989
    },
    {
      "auxiliary_loss_clip": 0.01205526,
      "auxiliary_loss_mlp": 0.01032179,
      "balance_loss_clip": 1.05652046,
      "balance_loss_mlp": 1.02326226,
      "epoch": 0.2712679612817892,
      "flos": 18331966920960.0,
      "grad_norm": 2.4945195258698365,
      "language_loss": 0.75791526,
      "learning_rate": 3.4199852894307114e-06,
      "loss": 0.78029227,
      "num_input_tokens_seen": 48420420,
      "step": 2256,
      "time_per_iteration": 2.645217180252075
    },
    {
      "auxiliary_loss_clip": 0.01157553,
      "auxiliary_loss_mlp": 0.01029834,
      "balance_loss_clip": 1.05238104,
      "balance_loss_mlp": 1.01955783,
      "epoch": 0.2713882041724283,
      "flos": 24460302038400.0,
      "grad_norm": 2.137219321990181,
      "language_loss": 0.78934586,
      "learning_rate": 3.419436622823262e-06,
      "loss": 0.81121975,
      "num_input_tokens_seen": 48441140,
      "step": 2257,
      "time_per_iteration": 2.9608352184295654
    },
    {
      "auxiliary_loss_clip": 0.01184459,
      "auxiliary_loss_mlp": 0.01030269,
      "balance_loss_clip": 1.05531645,
      "balance_loss_mlp": 1.02132785,
      "epoch": 0.27150844706306737,
      "flos": 23039317025280.0,
      "grad_norm": 2.0737400218589834,
      "language_loss": 0.74290121,
      "learning_rate": 3.4188877408884063e-06,
      "loss": 0.7650485,
      "num_input_tokens_seen": 48461845,
      "step": 2258,
      "time_per_iteration": 2.753136396408081
    },
    {
      "auxiliary_loss_clip": 0.01181356,
      "auxiliary_loss_mlp": 0.01034453,
      "balance_loss_clip": 1.05534053,
      "balance_loss_mlp": 1.02492189,
      "epoch": 0.2716286899537065,
      "flos": 22563644192640.0,
      "grad_norm": 2.6595320370656768,
      "language_loss": 0.64941442,
      "learning_rate": 3.4183386437094088e-06,
      "loss": 0.67157251,
      "num_input_tokens_seen": 48478510,
      "step": 2259,
      "time_per_iteration": 2.7572216987609863
    },
    {
      "auxiliary_loss_clip": 0.01189857,
      "auxiliary_loss_mlp": 0.01031782,
      "balance_loss_clip": 1.05509949,
      "balance_loss_mlp": 1.02262712,
      "epoch": 0.2717489328443456,
      "flos": 13115044523520.0,
      "grad_norm": 2.850277752576776,
      "language_loss": 0.81971431,
      "learning_rate": 3.417789331369565e-06,
      "loss": 0.84193075,
      "num_input_tokens_seen": 48494300,
      "step": 2260,
      "time_per_iteration": 2.6601529121398926
    },
    {
      "auxiliary_loss_clip": 0.012122,
      "auxiliary_loss_mlp": 0.01038748,
      "balance_loss_clip": 1.06163216,
      "balance_loss_mlp": 1.02806687,
      "epoch": 0.27186917573498465,
      "flos": 29278688060160.0,
      "grad_norm": 2.2210495795906438,
      "language_loss": 0.91183043,
      "learning_rate": 3.4172398039522088e-06,
      "loss": 0.93433988,
      "num_input_tokens_seen": 48515585,
      "step": 2261,
      "time_per_iteration": 2.684307336807251
    },
    {
      "auxiliary_loss_clip": 0.01197099,
      "auxiliary_loss_mlp": 0.01031295,
      "balance_loss_clip": 1.05560184,
      "balance_loss_mlp": 1.02161562,
      "epoch": 0.27198941862562376,
      "flos": 26032220000640.0,
      "grad_norm": 2.532188165867407,
      "language_loss": 0.79791367,
      "learning_rate": 3.4166900615407e-06,
      "loss": 0.82019758,
      "num_input_tokens_seen": 48533500,
      "step": 2262,
      "time_per_iteration": 2.7080984115600586
    },
    {
      "auxiliary_loss_clip": 0.01194429,
      "auxiliary_loss_mlp": 0.01035847,
      "balance_loss_clip": 1.05662131,
      "balance_loss_mlp": 1.02684677,
      "epoch": 0.27210966151626287,
      "flos": 32780983760640.0,
      "grad_norm": 2.7893068464558706,
      "language_loss": 0.74771714,
      "learning_rate": 3.416140104218436e-06,
      "loss": 0.77001989,
      "num_input_tokens_seen": 48552865,
      "step": 2263,
      "time_per_iteration": 2.7364556789398193
    },
    {
      "auxiliary_loss_clip": 0.01080447,
      "auxiliary_loss_mlp": 0.00877552,
      "balance_loss_clip": 1.01796675,
      "balance_loss_mlp": 1.00058353,
      "epoch": 0.2722299044069019,
      "flos": 65471043219840.0,
      "grad_norm": 0.8606688139948507,
      "language_loss": 0.69628799,
      "learning_rate": 3.4155899320688437e-06,
      "loss": 0.715868,
      "num_input_tokens_seen": 48618940,
      "step": 2264,
      "time_per_iteration": 3.3313162326812744
    },
    {
      "auxiliary_loss_clip": 0.01163336,
      "auxiliary_loss_mlp": 0.01031004,
      "balance_loss_clip": 1.05525935,
      "balance_loss_mlp": 1.02206278,
      "epoch": 0.27235014729754103,
      "flos": 15334143782400.0,
      "grad_norm": 2.1504358805411736,
      "language_loss": 0.74083918,
      "learning_rate": 3.415039545175384e-06,
      "loss": 0.76278257,
      "num_input_tokens_seen": 48634665,
      "step": 2265,
      "time_per_iteration": 2.8606064319610596
    },
    {
      "auxiliary_loss_clip": 0.01198156,
      "auxiliary_loss_mlp": 0.01030013,
      "balance_loss_clip": 1.05639076,
      "balance_loss_mlp": 1.01987982,
      "epoch": 0.27247039018818014,
      "flos": 21872363973120.0,
      "grad_norm": 2.6053494310365615,
      "language_loss": 0.6530571,
      "learning_rate": 3.414488943621551e-06,
      "loss": 0.67533875,
      "num_input_tokens_seen": 48653330,
      "step": 2266,
      "time_per_iteration": 2.7137701511383057
    },
    {
      "auxiliary_loss_clip": 0.01193411,
      "auxiliary_loss_mlp": 0.01036073,
      "balance_loss_clip": 1.05618668,
      "balance_loss_mlp": 1.02703738,
      "epoch": 0.2725906330788192,
      "flos": 18695490514560.0,
      "grad_norm": 2.2085554044665807,
      "language_loss": 0.73459488,
      "learning_rate": 3.41393812749087e-06,
      "loss": 0.7568897,
      "num_input_tokens_seen": 48671375,
      "step": 2267,
      "time_per_iteration": 2.6492698192596436
    },
    {
      "auxiliary_loss_clip": 0.0118375,
      "auxiliary_loss_mlp": 0.01035025,
      "balance_loss_clip": 1.05569935,
      "balance_loss_mlp": 1.02478456,
      "epoch": 0.2727108759694583,
      "flos": 17886099398400.0,
      "grad_norm": 2.3584674779342496,
      "language_loss": 0.72076124,
      "learning_rate": 3.4133870968668984e-06,
      "loss": 0.74294895,
      "num_input_tokens_seen": 48686175,
      "step": 2268,
      "time_per_iteration": 2.6094911098480225
    },
    {
      "auxiliary_loss_clip": 0.01190291,
      "auxiliary_loss_mlp": 0.01040208,
      "balance_loss_clip": 1.05725336,
      "balance_loss_mlp": 1.03009844,
      "epoch": 0.2728311188600974,
      "flos": 24461666755200.0,
      "grad_norm": 3.9832955785441264,
      "language_loss": 0.78698301,
      "learning_rate": 3.412835851833229e-06,
      "loss": 0.80928802,
      "num_input_tokens_seen": 48708370,
      "step": 2269,
      "time_per_iteration": 2.736699342727661
    },
    {
      "auxiliary_loss_clip": 0.01192042,
      "auxiliary_loss_mlp": 0.01031738,
      "balance_loss_clip": 1.05580664,
      "balance_loss_mlp": 1.02259445,
      "epoch": 0.2729513617507365,
      "flos": 30993314757120.0,
      "grad_norm": 2.480954174515276,
      "language_loss": 0.7798813,
      "learning_rate": 3.4122843924734834e-06,
      "loss": 0.80211914,
      "num_input_tokens_seen": 48730670,
      "step": 2270,
      "time_per_iteration": 2.7440197467803955
    },
    {
      "auxiliary_loss_clip": 0.01184905,
      "auxiliary_loss_mlp": 0.01030215,
      "balance_loss_clip": 1.05493021,
      "balance_loss_mlp": 1.02077913,
      "epoch": 0.2730716046413756,
      "flos": 19094637421440.0,
      "grad_norm": 2.185518697439044,
      "language_loss": 0.87958539,
      "learning_rate": 3.411732718871319e-06,
      "loss": 0.90173662,
      "num_input_tokens_seen": 48746510,
      "step": 2271,
      "time_per_iteration": 2.708562135696411
    },
    {
      "auxiliary_loss_clip": 0.01208676,
      "auxiliary_loss_mlp": 0.01032446,
      "balance_loss_clip": 1.06232274,
      "balance_loss_mlp": 1.02369571,
      "epoch": 0.27319184753201464,
      "flos": 26944566474240.0,
      "grad_norm": 2.010233356183129,
      "language_loss": 0.78808892,
      "learning_rate": 3.4111808311104227e-06,
      "loss": 0.81050014,
      "num_input_tokens_seen": 48768825,
      "step": 2272,
      "time_per_iteration": 3.579988718032837
    },
    {
      "auxiliary_loss_clip": 0.01195768,
      "auxiliary_loss_mlp": 0.01030164,
      "balance_loss_clip": 1.05561495,
      "balance_loss_mlp": 1.02072906,
      "epoch": 0.27331209042265375,
      "flos": 31759828012800.0,
      "grad_norm": 1.8189842149999031,
      "language_loss": 0.69765347,
      "learning_rate": 3.410628729274517e-06,
      "loss": 0.71991277,
      "num_input_tokens_seen": 48790345,
      "step": 2273,
      "time_per_iteration": 2.7406771183013916
    },
    {
      "auxiliary_loss_clip": 0.01185841,
      "auxiliary_loss_mlp": 0.00889098,
      "balance_loss_clip": 1.05705452,
      "balance_loss_mlp": 1.00120831,
      "epoch": 0.27343233331329286,
      "flos": 25739081107200.0,
      "grad_norm": 3.132657366576825,
      "language_loss": 0.82483995,
      "learning_rate": 3.4100764134473546e-06,
      "loss": 0.84558928,
      "num_input_tokens_seen": 48809630,
      "step": 2274,
      "time_per_iteration": 2.7027816772460938
    },
    {
      "auxiliary_loss_clip": 0.01204689,
      "auxiliary_loss_mlp": 0.01031273,
      "balance_loss_clip": 1.05843604,
      "balance_loss_mlp": 1.02252281,
      "epoch": 0.2735525762039319,
      "flos": 24389414547840.0,
      "grad_norm": 3.046373626905058,
      "language_loss": 0.85290825,
      "learning_rate": 3.4095238837127215e-06,
      "loss": 0.87526786,
      "num_input_tokens_seen": 48828770,
      "step": 2275,
      "time_per_iteration": 2.65216326713562
    },
    {
      "auxiliary_loss_clip": 0.01171321,
      "auxiliary_loss_mlp": 0.01037627,
      "balance_loss_clip": 1.05093288,
      "balance_loss_mlp": 1.02817345,
      "epoch": 0.27367281909457103,
      "flos": 14465357527680.0,
      "grad_norm": 3.561722785521864,
      "language_loss": 0.79295063,
      "learning_rate": 3.4089711401544355e-06,
      "loss": 0.81504011,
      "num_input_tokens_seen": 48846365,
      "step": 2276,
      "time_per_iteration": 2.718059539794922
    },
    {
      "auxiliary_loss_clip": 0.01196206,
      "auxiliary_loss_mlp": 0.01040018,
      "balance_loss_clip": 1.05561149,
      "balance_loss_mlp": 1.03044581,
      "epoch": 0.27379306198521014,
      "flos": 23476996247040.0,
      "grad_norm": 3.010291632329331,
      "language_loss": 0.6750294,
      "learning_rate": 3.4084181828563486e-06,
      "loss": 0.69739163,
      "num_input_tokens_seen": 48863085,
      "step": 2277,
      "time_per_iteration": 3.68727970123291
    },
    {
      "auxiliary_loss_clip": 0.01167937,
      "auxiliary_loss_mlp": 0.01035429,
      "balance_loss_clip": 1.05353189,
      "balance_loss_mlp": 1.02582693,
      "epoch": 0.2739133048758492,
      "flos": 17458152762240.0,
      "grad_norm": 1.775942677207806,
      "language_loss": 0.70432508,
      "learning_rate": 3.4078650119023428e-06,
      "loss": 0.72635877,
      "num_input_tokens_seen": 48881400,
      "step": 2278,
      "time_per_iteration": 3.631182909011841
    },
    {
      "auxiliary_loss_clip": 0.01159357,
      "auxiliary_loss_mlp": 0.01032773,
      "balance_loss_clip": 1.04773962,
      "balance_loss_mlp": 1.02295637,
      "epoch": 0.2740335477664883,
      "flos": 19273113123840.0,
      "grad_norm": 3.022020561127829,
      "language_loss": 0.74691474,
      "learning_rate": 3.4073116273763337e-06,
      "loss": 0.76883614,
      "num_input_tokens_seen": 48895845,
      "step": 2279,
      "time_per_iteration": 2.7893002033233643
    },
    {
      "auxiliary_loss_clip": 0.01190763,
      "auxiliary_loss_mlp": 0.01033629,
      "balance_loss_clip": 1.05312598,
      "balance_loss_mlp": 1.02345419,
      "epoch": 0.2741537906571274,
      "flos": 26104723603200.0,
      "grad_norm": 1.882572040497392,
      "language_loss": 0.811984,
      "learning_rate": 3.40675802936227e-06,
      "loss": 0.83422792,
      "num_input_tokens_seen": 48916630,
      "step": 2280,
      "time_per_iteration": 2.6865670680999756
    },
    {
      "auxiliary_loss_clip": 0.01179629,
      "auxiliary_loss_mlp": 0.0103483,
      "balance_loss_clip": 1.05311859,
      "balance_loss_mlp": 1.02476835,
      "epoch": 0.27427403354776647,
      "flos": 34164190644480.0,
      "grad_norm": 2.014830411226732,
      "language_loss": 0.72102523,
      "learning_rate": 3.4062042179441318e-06,
      "loss": 0.74316978,
      "num_input_tokens_seen": 48937100,
      "step": 2281,
      "time_per_iteration": 3.650139093399048
    },
    {
      "auxiliary_loss_clip": 0.01192389,
      "auxiliary_loss_mlp": 0.01032761,
      "balance_loss_clip": 1.0560745,
      "balance_loss_mlp": 1.02383256,
      "epoch": 0.2743942764384056,
      "flos": 18766988536320.0,
      "grad_norm": 1.9731353379766035,
      "language_loss": 0.80777764,
      "learning_rate": 3.4056501932059314e-06,
      "loss": 0.83002913,
      "num_input_tokens_seen": 48955175,
      "step": 2282,
      "time_per_iteration": 2.6667537689208984
    },
    {
      "auxiliary_loss_clip": 0.01097552,
      "auxiliary_loss_mlp": 0.01011396,
      "balance_loss_clip": 1.02173829,
      "balance_loss_mlp": 1.00923824,
      "epoch": 0.2745145193290447,
      "flos": 64904048058240.0,
      "grad_norm": 0.7739025512723345,
      "language_loss": 0.58106303,
      "learning_rate": 3.405095955231715e-06,
      "loss": 0.60215247,
      "num_input_tokens_seen": 49006830,
      "step": 2283,
      "time_per_iteration": 3.0990610122680664
    },
    {
      "auxiliary_loss_clip": 0.01199958,
      "auxiliary_loss_mlp": 0.01029078,
      "balance_loss_clip": 1.05625081,
      "balance_loss_mlp": 1.02044082,
      "epoch": 0.27463476221968375,
      "flos": 16136926796160.0,
      "grad_norm": 5.89194753135991,
      "language_loss": 0.94503552,
      "learning_rate": 3.4045415041055585e-06,
      "loss": 0.96732593,
      "num_input_tokens_seen": 49022470,
      "step": 2284,
      "time_per_iteration": 2.65998911857605
    },
    {
      "auxiliary_loss_clip": 0.01189595,
      "auxiliary_loss_mlp": 0.0102932,
      "balance_loss_clip": 1.05623746,
      "balance_loss_mlp": 1.01942575,
      "epoch": 0.27475500511032286,
      "flos": 10376712213120.0,
      "grad_norm": 2.244933550649838,
      "language_loss": 0.78030765,
      "learning_rate": 3.4039868399115728e-06,
      "loss": 0.80249679,
      "num_input_tokens_seen": 49037110,
      "step": 2285,
      "time_per_iteration": 2.646679162979126
    },
    {
      "auxiliary_loss_clip": 0.01158072,
      "auxiliary_loss_mlp": 0.01034789,
      "balance_loss_clip": 1.05209017,
      "balance_loss_mlp": 1.02496016,
      "epoch": 0.27487524800096197,
      "flos": 17311062568320.0,
      "grad_norm": 1.74209767485544,
      "language_loss": 0.8033694,
      "learning_rate": 3.4034319627339003e-06,
      "loss": 0.82529801,
      "num_input_tokens_seen": 49053975,
      "step": 2286,
      "time_per_iteration": 2.805022954940796
    },
    {
      "auxiliary_loss_clip": 0.0118765,
      "auxiliary_loss_mlp": 0.01030571,
      "balance_loss_clip": 1.05536783,
      "balance_loss_mlp": 1.02095127,
      "epoch": 0.274995490891601,
      "flos": 27120205002240.0,
      "grad_norm": 2.5738259636801737,
      "language_loss": 0.69347066,
      "learning_rate": 3.402876872656715e-06,
      "loss": 0.71565282,
      "num_input_tokens_seen": 49072295,
      "step": 2287,
      "time_per_iteration": 2.7131738662719727
    },
    {
      "auxiliary_loss_clip": 0.01187316,
      "auxiliary_loss_mlp": 0.01026975,
      "balance_loss_clip": 1.05928302,
      "balance_loss_mlp": 1.01754558,
      "epoch": 0.27511573378224013,
      "flos": 23436093634560.0,
      "grad_norm": 2.024990151880931,
      "language_loss": 0.8993057,
      "learning_rate": 3.402321569764223e-06,
      "loss": 0.92144859,
      "num_input_tokens_seen": 49091600,
      "step": 2288,
      "time_per_iteration": 2.7686607837677
    },
    {
      "auxiliary_loss_clip": 0.01167603,
      "auxiliary_loss_mlp": 0.00889156,
      "balance_loss_clip": 1.05207729,
      "balance_loss_mlp": 1.00123847,
      "epoch": 0.2752359766728792,
      "flos": 16722019434240.0,
      "grad_norm": 1.8934823075441702,
      "language_loss": 0.83217227,
      "learning_rate": 3.4017660541406635e-06,
      "loss": 0.85273993,
      "num_input_tokens_seen": 49107665,
      "step": 2289,
      "time_per_iteration": 2.7204651832580566
    },
    {
      "auxiliary_loss_clip": 0.01192013,
      "auxiliary_loss_mlp": 0.01027749,
      "balance_loss_clip": 1.05326319,
      "balance_loss_mlp": 1.01892793,
      "epoch": 0.2753562195635183,
      "flos": 25297738698240.0,
      "grad_norm": 1.8472289088435885,
      "language_loss": 0.74960643,
      "learning_rate": 3.4012103258703092e-06,
      "loss": 0.77180409,
      "num_input_tokens_seen": 49126420,
      "step": 2290,
      "time_per_iteration": 2.751814365386963
    },
    {
      "auxiliary_loss_clip": 0.01177473,
      "auxiliary_loss_mlp": 0.01032618,
      "balance_loss_clip": 1.0533551,
      "balance_loss_mlp": 1.02305698,
      "epoch": 0.2754764624541574,
      "flos": 27338972785920.0,
      "grad_norm": 2.3876315398441945,
      "language_loss": 0.82862675,
      "learning_rate": 3.4006543850374616e-06,
      "loss": 0.85072768,
      "num_input_tokens_seen": 49141470,
      "step": 2291,
      "time_per_iteration": 2.7567524909973145
    },
    {
      "auxiliary_loss_clip": 0.0119719,
      "auxiliary_loss_mlp": 0.01031626,
      "balance_loss_clip": 1.05544519,
      "balance_loss_mlp": 1.02237499,
      "epoch": 0.27559670534479647,
      "flos": 17238379397760.0,
      "grad_norm": 2.274977265698928,
      "language_loss": 0.7530514,
      "learning_rate": 3.400098231726458e-06,
      "loss": 0.7753396,
      "num_input_tokens_seen": 49158570,
      "step": 2292,
      "time_per_iteration": 2.7142882347106934
    },
    {
      "auxiliary_loss_clip": 0.01178903,
      "auxiliary_loss_mlp": 0.01030939,
      "balance_loss_clip": 1.0505209,
      "balance_loss_mlp": 1.02103305,
      "epoch": 0.2757169482354356,
      "flos": 21939085486080.0,
      "grad_norm": 2.610270305127034,
      "language_loss": 0.86659706,
      "learning_rate": 3.3995418660216657e-06,
      "loss": 0.88869548,
      "num_input_tokens_seen": 49176025,
      "step": 2293,
      "time_per_iteration": 2.7203688621520996
    },
    {
      "auxiliary_loss_clip": 0.01215201,
      "auxiliary_loss_mlp": 0.01043357,
      "balance_loss_clip": 1.06232405,
      "balance_loss_mlp": 1.03300929,
      "epoch": 0.2758371911260747,
      "flos": 20850669521280.0,
      "grad_norm": 2.060260962958019,
      "language_loss": 0.80367857,
      "learning_rate": 3.3989852880074848e-06,
      "loss": 0.82626414,
      "num_input_tokens_seen": 49197455,
      "step": 2294,
      "time_per_iteration": 2.692147731781006
    },
    {
      "auxiliary_loss_clip": 0.01080883,
      "auxiliary_loss_mlp": 0.01003953,
      "balance_loss_clip": 1.02088809,
      "balance_loss_mlp": 1.00167561,
      "epoch": 0.27595743401671374,
      "flos": 69269063592960.0,
      "grad_norm": 0.7700596702109419,
      "language_loss": 0.60584354,
      "learning_rate": 3.398428497768348e-06,
      "loss": 0.62669194,
      "num_input_tokens_seen": 49262625,
      "step": 2295,
      "time_per_iteration": 3.3907570838928223
    },
    {
      "auxiliary_loss_clip": 0.01184352,
      "auxiliary_loss_mlp": 0.01030831,
      "balance_loss_clip": 1.05210209,
      "balance_loss_mlp": 1.02152658,
      "epoch": 0.27607767690735285,
      "flos": 21215019127680.0,
      "grad_norm": 2.0147533446865475,
      "language_loss": 0.72244596,
      "learning_rate": 3.3978714953887205e-06,
      "loss": 0.74459779,
      "num_input_tokens_seen": 49282380,
      "step": 2296,
      "time_per_iteration": 2.7657477855682373
    },
    {
      "auxiliary_loss_clip": 0.01150321,
      "auxiliary_loss_mlp": 0.01034666,
      "balance_loss_clip": 1.04640055,
      "balance_loss_mlp": 1.0254035,
      "epoch": 0.27619791979799196,
      "flos": 24825334003200.0,
      "grad_norm": 1.9548640008102651,
      "language_loss": 0.85968947,
      "learning_rate": 3.397314280953098e-06,
      "loss": 0.88153934,
      "num_input_tokens_seen": 49303205,
      "step": 2297,
      "time_per_iteration": 3.7244045734405518
    },
    {
      "auxiliary_loss_clip": 0.01180521,
      "auxiliary_loss_mlp": 0.01027636,
      "balance_loss_clip": 1.05450988,
      "balance_loss_mlp": 1.01882005,
      "epoch": 0.276318162688631,
      "flos": 24753548672640.0,
      "grad_norm": 2.297544985913244,
      "language_loss": 0.80207574,
      "learning_rate": 3.3967568545460108e-06,
      "loss": 0.82415736,
      "num_input_tokens_seen": 49322745,
      "step": 2298,
      "time_per_iteration": 2.773033857345581
    },
    {
      "auxiliary_loss_clip": 0.0119465,
      "auxiliary_loss_mlp": 0.01029038,
      "balance_loss_clip": 1.05851078,
      "balance_loss_mlp": 1.01934063,
      "epoch": 0.27643840557927013,
      "flos": 18150007599360.0,
      "grad_norm": 2.179802374429779,
      "language_loss": 0.8054015,
      "learning_rate": 3.3961992162520185e-06,
      "loss": 0.82763839,
      "num_input_tokens_seen": 49341370,
      "step": 2299,
      "time_per_iteration": 2.6437430381774902
    },
    {
      "auxiliary_loss_clip": 0.01199636,
      "auxiliary_loss_mlp": 0.01028429,
      "balance_loss_clip": 1.05767417,
      "balance_loss_mlp": 1.01820111,
      "epoch": 0.27655864846990924,
      "flos": 24823933372800.0,
      "grad_norm": 5.070951219297835,
      "language_loss": 0.71949422,
      "learning_rate": 3.3956413661557156e-06,
      "loss": 0.74177492,
      "num_input_tokens_seen": 49361545,
      "step": 2300,
      "time_per_iteration": 2.7448434829711914
    },
    {
      "auxiliary_loss_clip": 0.01186108,
      "auxiliary_loss_mlp": 0.0103266,
      "balance_loss_clip": 1.05490232,
      "balance_loss_mlp": 1.02258086,
      "epoch": 0.2766788913605483,
      "flos": 20266582464000.0,
      "grad_norm": 2.409075823747786,
      "language_loss": 0.66625988,
      "learning_rate": 3.3950833043417273e-06,
      "loss": 0.68844748,
      "num_input_tokens_seen": 49379690,
      "step": 2301,
      "time_per_iteration": 2.7220213413238525
    },
    {
      "auxiliary_loss_clip": 0.01203104,
      "auxiliary_loss_mlp": 0.01039452,
      "balance_loss_clip": 1.06076455,
      "balance_loss_mlp": 1.0294205,
      "epoch": 0.2767991342511874,
      "flos": 21470272151040.0,
      "grad_norm": 3.555394822940471,
      "language_loss": 0.72952557,
      "learning_rate": 3.3945250308947105e-06,
      "loss": 0.7519511,
      "num_input_tokens_seen": 49395995,
      "step": 2302,
      "time_per_iteration": 2.6630947589874268
    },
    {
      "auxiliary_loss_clip": 0.01091768,
      "auxiliary_loss_mlp": 0.01004043,
      "balance_loss_clip": 1.02104115,
      "balance_loss_mlp": 1.00177824,
      "epoch": 0.2769193771418265,
      "flos": 66002627571840.0,
      "grad_norm": 1.24725428211542,
      "language_loss": 0.68334836,
      "learning_rate": 3.3939665458993556e-06,
      "loss": 0.70430642,
      "num_input_tokens_seen": 49450415,
      "step": 2303,
      "time_per_iteration": 4.213227272033691
    },
    {
      "auxiliary_loss_clip": 0.01184819,
      "auxiliary_loss_mlp": 0.01033303,
      "balance_loss_clip": 1.05194402,
      "balance_loss_mlp": 1.02353406,
      "epoch": 0.27703962003246557,
      "flos": 20704441253760.0,
      "grad_norm": 2.3193436798136164,
      "language_loss": 0.77121127,
      "learning_rate": 3.3934078494403843e-06,
      "loss": 0.79339254,
      "num_input_tokens_seen": 49469990,
      "step": 2304,
      "time_per_iteration": 3.6548268795013428
    },
    {
      "auxiliary_loss_clip": 0.01137503,
      "auxiliary_loss_mlp": 0.00889097,
      "balance_loss_clip": 1.04517579,
      "balance_loss_mlp": 1.00117135,
      "epoch": 0.2771598629231047,
      "flos": 22929897219840.0,
      "grad_norm": 2.1164448046049786,
      "language_loss": 0.81924337,
      "learning_rate": 3.3928489416025495e-06,
      "loss": 0.83950931,
      "num_input_tokens_seen": 49490835,
      "step": 2305,
      "time_per_iteration": 2.9071664810180664
    },
    {
      "auxiliary_loss_clip": 0.0118634,
      "auxiliary_loss_mlp": 0.01029707,
      "balance_loss_clip": 1.0560782,
      "balance_loss_mlp": 1.01981878,
      "epoch": 0.27728010581374374,
      "flos": 18369457741440.0,
      "grad_norm": 3.0982235261880016,
      "language_loss": 0.79025841,
      "learning_rate": 3.392289822470638e-06,
      "loss": 0.81241894,
      "num_input_tokens_seen": 49508815,
      "step": 2306,
      "time_per_iteration": 2.6687803268432617
    },
    {
      "auxiliary_loss_clip": 0.01183181,
      "auxiliary_loss_mlp": 0.01029672,
      "balance_loss_clip": 1.05345547,
      "balance_loss_mlp": 1.02090383,
      "epoch": 0.27740034870438285,
      "flos": 19427637432960.0,
      "grad_norm": 2.29189065817419,
      "language_loss": 0.75753188,
      "learning_rate": 3.3917304921294674e-06,
      "loss": 0.77966034,
      "num_input_tokens_seen": 49526980,
      "step": 2307,
      "time_per_iteration": 3.542708158493042
    },
    {
      "auxiliary_loss_clip": 0.01197834,
      "auxiliary_loss_mlp": 0.01028702,
      "balance_loss_clip": 1.0574801,
      "balance_loss_mlp": 1.01927233,
      "epoch": 0.27752059159502196,
      "flos": 21614776565760.0,
      "grad_norm": 1.848972049604667,
      "language_loss": 0.80370986,
      "learning_rate": 3.3911709506638876e-06,
      "loss": 0.82597524,
      "num_input_tokens_seen": 49546290,
      "step": 2308,
      "time_per_iteration": 2.7162930965423584
    },
    {
      "auxiliary_loss_clip": 0.01165368,
      "auxiliary_loss_mlp": 0.00889357,
      "balance_loss_clip": 1.04861808,
      "balance_loss_mlp": 1.00111616,
      "epoch": 0.277640834485661,
      "flos": 26608011016320.0,
      "grad_norm": 3.3256009648195404,
      "language_loss": 0.81462109,
      "learning_rate": 3.390611198158781e-06,
      "loss": 0.8351683,
      "num_input_tokens_seen": 49564165,
      "step": 2309,
      "time_per_iteration": 2.7746617794036865
    },
    {
      "auxiliary_loss_clip": 0.01212793,
      "auxiliary_loss_mlp": 0.01030754,
      "balance_loss_clip": 1.06228018,
      "balance_loss_mlp": 1.02124739,
      "epoch": 0.2777610773763001,
      "flos": 19492814661120.0,
      "grad_norm": 2.0928901143308707,
      "language_loss": 0.90132904,
      "learning_rate": 3.3900512346990612e-06,
      "loss": 0.92376447,
      "num_input_tokens_seen": 49580155,
      "step": 2310,
      "time_per_iteration": 2.6495773792266846
    },
    {
      "auxiliary_loss_clip": 0.01161964,
      "auxiliary_loss_mlp": 0.01032994,
      "balance_loss_clip": 1.04737818,
      "balance_loss_mlp": 1.02321911,
      "epoch": 0.27788132026693924,
      "flos": 38290650001920.0,
      "grad_norm": 2.6848230043782575,
      "language_loss": 0.66027474,
      "learning_rate": 3.389491060369674e-06,
      "loss": 0.68222427,
      "num_input_tokens_seen": 49605830,
      "step": 2311,
      "time_per_iteration": 2.839243173599243
    },
    {
      "auxiliary_loss_clip": 0.01158531,
      "auxiliary_loss_mlp": 0.01032524,
      "balance_loss_clip": 1.04955316,
      "balance_loss_mlp": 1.02370906,
      "epoch": 0.2780015631575783,
      "flos": 22382546797440.0,
      "grad_norm": 3.3745480902748515,
      "language_loss": 0.89445055,
      "learning_rate": 3.388930675255598e-06,
      "loss": 0.91636109,
      "num_input_tokens_seen": 49625680,
      "step": 2312,
      "time_per_iteration": 2.7774953842163086
    },
    {
      "auxiliary_loss_clip": 0.01193886,
      "auxiliary_loss_mlp": 0.01032888,
      "balance_loss_clip": 1.05597973,
      "balance_loss_mlp": 1.02313089,
      "epoch": 0.2781218060482174,
      "flos": 12203200840320.0,
      "grad_norm": 2.528073506160809,
      "language_loss": 0.79526299,
      "learning_rate": 3.388370079441843e-06,
      "loss": 0.81753075,
      "num_input_tokens_seen": 49641195,
      "step": 2313,
      "time_per_iteration": 2.6281933784484863
    },
    {
      "auxiliary_loss_clip": 0.01177873,
      "auxiliary_loss_mlp": 0.01038457,
      "balance_loss_clip": 1.05801499,
      "balance_loss_mlp": 1.02905178,
      "epoch": 0.2782420489388565,
      "flos": 18107632529280.0,
      "grad_norm": 3.7983492266943277,
      "language_loss": 0.92765987,
      "learning_rate": 3.3878092730134505e-06,
      "loss": 0.94982314,
      "num_input_tokens_seen": 49659180,
      "step": 2314,
      "time_per_iteration": 2.7629663944244385
    },
    {
      "auxiliary_loss_clip": 0.01191538,
      "auxiliary_loss_mlp": 0.01038576,
      "balance_loss_clip": 1.05749035,
      "balance_loss_mlp": 1.02861023,
      "epoch": 0.27836229182949557,
      "flos": 18514752255360.0,
      "grad_norm": 1.9720372456155415,
      "language_loss": 0.80648398,
      "learning_rate": 3.3872482560554947e-06,
      "loss": 0.82878518,
      "num_input_tokens_seen": 49677955,
      "step": 2315,
      "time_per_iteration": 2.6516287326812744
    },
    {
      "auxiliary_loss_clip": 0.01093394,
      "auxiliary_loss_mlp": 0.01003833,
      "balance_loss_clip": 1.02241135,
      "balance_loss_mlp": 1.00186622,
      "epoch": 0.2784825347201347,
      "flos": 67079230940160.0,
      "grad_norm": 0.8044722343615459,
      "language_loss": 0.56976306,
      "learning_rate": 3.386687028653082e-06,
      "loss": 0.59073532,
      "num_input_tokens_seen": 49740800,
      "step": 2316,
      "time_per_iteration": 3.3087079524993896
    },
    {
      "auxiliary_loss_clip": 0.01166836,
      "auxiliary_loss_mlp": 0.01030838,
      "balance_loss_clip": 1.05387092,
      "balance_loss_mlp": 1.02153349,
      "epoch": 0.2786027776107738,
      "flos": 22631119891200.0,
      "grad_norm": 1.8213007078604107,
      "language_loss": 0.85001582,
      "learning_rate": 3.386125590891349e-06,
      "loss": 0.87199259,
      "num_input_tokens_seen": 49757675,
      "step": 2317,
      "time_per_iteration": 2.779123067855835
    },
    {
      "auxiliary_loss_clip": 0.01177694,
      "auxiliary_loss_mlp": 0.01034214,
      "balance_loss_clip": 1.05292809,
      "balance_loss_mlp": 1.02435565,
      "epoch": 0.27872302050141284,
      "flos": 15778826156160.0,
      "grad_norm": 2.260153325027283,
      "language_loss": 0.8303892,
      "learning_rate": 3.3855639428554657e-06,
      "loss": 0.85250825,
      "num_input_tokens_seen": 49775205,
      "step": 2318,
      "time_per_iteration": 2.674434185028076
    },
    {
      "auxiliary_loss_clip": 0.01165808,
      "auxiliary_loss_mlp": 0.0102746,
      "balance_loss_clip": 1.0519824,
      "balance_loss_mlp": 1.01802444,
      "epoch": 0.27884326339205195,
      "flos": 22126970551680.0,
      "grad_norm": 1.813529331120808,
      "language_loss": 0.80040395,
      "learning_rate": 3.385002084630635e-06,
      "loss": 0.82233667,
      "num_input_tokens_seen": 49794175,
      "step": 2319,
      "time_per_iteration": 2.728323221206665
    },
    {
      "auxiliary_loss_clip": 0.01201915,
      "auxiliary_loss_mlp": 0.01033418,
      "balance_loss_clip": 1.05866778,
      "balance_loss_mlp": 1.02401257,
      "epoch": 0.278963506282691,
      "flos": 20558715776640.0,
      "grad_norm": 2.281292938056801,
      "language_loss": 0.8492735,
      "learning_rate": 3.384440016302088e-06,
      "loss": 0.87162685,
      "num_input_tokens_seen": 49812850,
      "step": 2320,
      "time_per_iteration": 2.694577217102051
    },
    {
      "auxiliary_loss_clip": 0.01195732,
      "auxiliary_loss_mlp": 0.01032342,
      "balance_loss_clip": 1.05807197,
      "balance_loss_mlp": 1.02225101,
      "epoch": 0.2790837491733301,
      "flos": 21942928241280.0,
      "grad_norm": 2.0377871046135905,
      "language_loss": 0.62254435,
      "learning_rate": 3.3838777379550923e-06,
      "loss": 0.6448251,
      "num_input_tokens_seen": 49832295,
      "step": 2321,
      "time_per_iteration": 2.74920916557312
    },
    {
      "auxiliary_loss_clip": 0.01190296,
      "auxiliary_loss_mlp": 0.01037463,
      "balance_loss_clip": 1.05640113,
      "balance_loss_mlp": 1.02753282,
      "epoch": 0.27920399206396923,
      "flos": 26286790665600.0,
      "grad_norm": 2.1299934450982745,
      "language_loss": 0.78161573,
      "learning_rate": 3.383315249674944e-06,
      "loss": 0.80389333,
      "num_input_tokens_seen": 49850860,
      "step": 2322,
      "time_per_iteration": 2.7462470531463623
    },
    {
      "auxiliary_loss_clip": 0.01181198,
      "auxiliary_loss_mlp": 0.01033649,
      "balance_loss_clip": 1.05579865,
      "balance_loss_mlp": 1.02435088,
      "epoch": 0.2793242349546083,
      "flos": 25400981364480.0,
      "grad_norm": 2.32009624035304,
      "language_loss": 0.8589828,
      "learning_rate": 3.3827525515469715e-06,
      "loss": 0.88113129,
      "num_input_tokens_seen": 49865765,
      "step": 2323,
      "time_per_iteration": 3.6509487628936768
    },
    {
      "auxiliary_loss_clip": 0.01167179,
      "auxiliary_loss_mlp": 0.01040691,
      "balance_loss_clip": 1.05042815,
      "balance_loss_mlp": 1.03101122,
      "epoch": 0.2794444778452474,
      "flos": 20850346298880.0,
      "grad_norm": 2.6710822539967563,
      "language_loss": 0.70936918,
      "learning_rate": 3.3821896436565367e-06,
      "loss": 0.73144788,
      "num_input_tokens_seen": 49885425,
      "step": 2324,
      "time_per_iteration": 2.7695209980010986
    },
    {
      "auxiliary_loss_clip": 0.01203157,
      "auxiliary_loss_mlp": 0.01034597,
      "balance_loss_clip": 1.06137061,
      "balance_loss_mlp": 1.02476811,
      "epoch": 0.2795647207358865,
      "flos": 21576244250880.0,
      "grad_norm": 1.9692602385506164,
      "language_loss": 0.70168054,
      "learning_rate": 3.381626526089032e-06,
      "loss": 0.72405815,
      "num_input_tokens_seen": 49904990,
      "step": 2325,
      "time_per_iteration": 2.691138744354248
    },
    {
      "auxiliary_loss_clip": 0.01180071,
      "auxiliary_loss_mlp": 0.01029783,
      "balance_loss_clip": 1.05102897,
      "balance_loss_mlp": 1.02021027,
      "epoch": 0.27968496362652556,
      "flos": 21471744608640.0,
      "grad_norm": 2.4160487282672607,
      "language_loss": 0.78728366,
      "learning_rate": 3.3810631989298815e-06,
      "loss": 0.8093822,
      "num_input_tokens_seen": 49924600,
      "step": 2326,
      "time_per_iteration": 2.7020583152770996
    },
    {
      "auxiliary_loss_clip": 0.01173527,
      "auxiliary_loss_mlp": 0.0103494,
      "balance_loss_clip": 1.05369425,
      "balance_loss_mlp": 1.02564216,
      "epoch": 0.2798052065171647,
      "flos": 23258695340160.0,
      "grad_norm": 4.974098657544603,
      "language_loss": 0.84014392,
      "learning_rate": 3.3804996622645423e-06,
      "loss": 0.86222863,
      "num_input_tokens_seen": 49942600,
      "step": 2327,
      "time_per_iteration": 2.7456469535827637
    },
    {
      "auxiliary_loss_clip": 0.01206157,
      "auxiliary_loss_mlp": 0.01030699,
      "balance_loss_clip": 1.05868602,
      "balance_loss_mlp": 1.02156126,
      "epoch": 0.2799254494078038,
      "flos": 21539328048000.0,
      "grad_norm": 3.229574555606885,
      "language_loss": 0.89758289,
      "learning_rate": 3.3799359161785015e-06,
      "loss": 0.9199515,
      "num_input_tokens_seen": 49962250,
      "step": 2328,
      "time_per_iteration": 2.6666438579559326
    },
    {
      "auxiliary_loss_clip": 0.01194763,
      "auxiliary_loss_mlp": 0.01032891,
      "balance_loss_clip": 1.05700803,
      "balance_loss_mlp": 1.0234555,
      "epoch": 0.28004569229844284,
      "flos": 26393912000640.0,
      "grad_norm": 2.022657766742383,
      "language_loss": 0.85821414,
      "learning_rate": 3.3793719607572798e-06,
      "loss": 0.88049072,
      "num_input_tokens_seen": 49983215,
      "step": 2329,
      "time_per_iteration": 3.7371761798858643
    },
    {
      "auxiliary_loss_clip": 0.01168056,
      "auxiliary_loss_mlp": 0.01033838,
      "balance_loss_clip": 1.04957676,
      "balance_loss_mlp": 1.02425957,
      "epoch": 0.28016593518908195,
      "flos": 33547676584320.0,
      "grad_norm": 3.970134254755685,
      "language_loss": 0.76473254,
      "learning_rate": 3.378807796086428e-06,
      "loss": 0.78675145,
      "num_input_tokens_seen": 50006075,
      "step": 2330,
      "time_per_iteration": 3.654130220413208
    },
    {
      "auxiliary_loss_clip": 0.01210238,
      "auxiliary_loss_mlp": 0.01034521,
      "balance_loss_clip": 1.06115353,
      "balance_loss_mlp": 1.02550888,
      "epoch": 0.28028617807972106,
      "flos": 15340823712000.0,
      "grad_norm": 2.939058928054713,
      "language_loss": 0.76933014,
      "learning_rate": 3.37824342225153e-06,
      "loss": 0.79177773,
      "num_input_tokens_seen": 50022495,
      "step": 2331,
      "time_per_iteration": 2.6007542610168457
    },
    {
      "auxiliary_loss_clip": 0.01169031,
      "auxiliary_loss_mlp": 0.01027096,
      "balance_loss_clip": 1.05558085,
      "balance_loss_mlp": 1.01790464,
      "epoch": 0.2804064209703601,
      "flos": 25520277409920.0,
      "grad_norm": 1.847683343192458,
      "language_loss": 0.77519971,
      "learning_rate": 3.3776788393382006e-06,
      "loss": 0.79716098,
      "num_input_tokens_seen": 50041975,
      "step": 2332,
      "time_per_iteration": 2.796529769897461
    },
    {
      "auxiliary_loss_clip": 0.01207504,
      "auxiliary_loss_mlp": 0.01036007,
      "balance_loss_clip": 1.05786872,
      "balance_loss_mlp": 1.02665532,
      "epoch": 0.2805266638609992,
      "flos": 29351766280320.0,
      "grad_norm": 2.8662923058997993,
      "language_loss": 0.76889777,
      "learning_rate": 3.3771140474320872e-06,
      "loss": 0.79133284,
      "num_input_tokens_seen": 50061925,
      "step": 2333,
      "time_per_iteration": 3.6375339031219482
    },
    {
      "auxiliary_loss_clip": 0.01184737,
      "auxiliary_loss_mlp": 0.01032588,
      "balance_loss_clip": 1.05649161,
      "balance_loss_mlp": 1.0238198,
      "epoch": 0.28064690675163834,
      "flos": 21463735875840.0,
      "grad_norm": 2.206233630767482,
      "language_loss": 0.79795676,
      "learning_rate": 3.3765490466188664e-06,
      "loss": 0.82012999,
      "num_input_tokens_seen": 50079325,
      "step": 2334,
      "time_per_iteration": 2.7772140502929688
    },
    {
      "auxiliary_loss_clip": 0.01172999,
      "auxiliary_loss_mlp": 0.01036603,
      "balance_loss_clip": 1.05161655,
      "balance_loss_mlp": 1.02658367,
      "epoch": 0.2807671496422774,
      "flos": 20995640812800.0,
      "grad_norm": 3.444876473638248,
      "language_loss": 0.73312926,
      "learning_rate": 3.3759838369842508e-06,
      "loss": 0.7552253,
      "num_input_tokens_seen": 50097400,
      "step": 2335,
      "time_per_iteration": 2.732534646987915
    },
    {
      "auxiliary_loss_clip": 0.01173454,
      "auxiliary_loss_mlp": 0.01033595,
      "balance_loss_clip": 1.05069661,
      "balance_loss_mlp": 1.02408862,
      "epoch": 0.2808873925329165,
      "flos": 21506577822720.0,
      "grad_norm": 1.9466602231525447,
      "language_loss": 0.73275161,
      "learning_rate": 3.375418418613981e-06,
      "loss": 0.75482208,
      "num_input_tokens_seen": 50116425,
      "step": 2336,
      "time_per_iteration": 2.7015810012817383
    },
    {
      "auxiliary_loss_clip": 0.01186747,
      "auxiliary_loss_mlp": 0.01032019,
      "balance_loss_clip": 1.05573177,
      "balance_loss_mlp": 1.02256012,
      "epoch": 0.28100763542355556,
      "flos": 16070815814400.0,
      "grad_norm": 2.446741907278489,
      "language_loss": 0.83840191,
      "learning_rate": 3.374852791593831e-06,
      "loss": 0.86058956,
      "num_input_tokens_seen": 50132625,
      "step": 2337,
      "time_per_iteration": 2.6516177654266357
    },
    {
      "auxiliary_loss_clip": 0.0117696,
      "auxiliary_loss_mlp": 0.01040117,
      "balance_loss_clip": 1.05329013,
      "balance_loss_mlp": 1.02951956,
      "epoch": 0.28112787831419467,
      "flos": 19062605468160.0,
      "grad_norm": 3.8100162249417013,
      "language_loss": 0.54598057,
      "learning_rate": 3.374286956009605e-06,
      "loss": 0.5681513,
      "num_input_tokens_seen": 50151190,
      "step": 2338,
      "time_per_iteration": 2.7531492710113525
    },
    {
      "auxiliary_loss_clip": 0.01199156,
      "auxiliary_loss_mlp": 0.01033789,
      "balance_loss_clip": 1.06229234,
      "balance_loss_mlp": 1.02508128,
      "epoch": 0.2812481212048338,
      "flos": 12823629482880.0,
      "grad_norm": 2.2159341461557513,
      "language_loss": 0.74855363,
      "learning_rate": 3.3737209119471405e-06,
      "loss": 0.77088308,
      "num_input_tokens_seen": 50167700,
      "step": 2339,
      "time_per_iteration": 2.609591484069824
    },
    {
      "auxiliary_loss_clip": 0.01204613,
      "auxiliary_loss_mlp": 0.01037806,
      "balance_loss_clip": 1.06042576,
      "balance_loss_mlp": 1.02815008,
      "epoch": 0.28136836409547283,
      "flos": 15633064765440.0,
      "grad_norm": 2.6163126448508147,
      "language_loss": 0.6372872,
      "learning_rate": 3.373154659492306e-06,
      "loss": 0.65971136,
      "num_input_tokens_seen": 50185840,
      "step": 2340,
      "time_per_iteration": 2.724036931991577
    },
    {
      "auxiliary_loss_clip": 0.01191203,
      "auxiliary_loss_mlp": 0.01034701,
      "balance_loss_clip": 1.05631447,
      "balance_loss_mlp": 1.02605271,
      "epoch": 0.28148860698611194,
      "flos": 19933726106880.0,
      "grad_norm": 2.346591593129837,
      "language_loss": 0.85286903,
      "learning_rate": 3.3725881987310016e-06,
      "loss": 0.87512809,
      "num_input_tokens_seen": 50203375,
      "step": 2341,
      "time_per_iteration": 2.689455270767212
    },
    {
      "auxiliary_loss_clip": 0.01184581,
      "auxiliary_loss_mlp": 0.01031502,
      "balance_loss_clip": 1.05440366,
      "balance_loss_mlp": 1.02198279,
      "epoch": 0.28160884987675106,
      "flos": 17457219008640.0,
      "grad_norm": 1.9795870147980745,
      "language_loss": 0.87642831,
      "learning_rate": 3.372021529749159e-06,
      "loss": 0.89858913,
      "num_input_tokens_seen": 50222435,
      "step": 2342,
      "time_per_iteration": 2.687415838241577
    },
    {
      "auxiliary_loss_clip": 0.01156061,
      "auxiliary_loss_mlp": 0.01031651,
      "balance_loss_clip": 1.05137599,
      "balance_loss_mlp": 1.02293682,
      "epoch": 0.2817290927673901,
      "flos": 16834743290880.0,
      "grad_norm": 1.9223307790521926,
      "language_loss": 0.92537916,
      "learning_rate": 3.3714546526327405e-06,
      "loss": 0.94725621,
      "num_input_tokens_seen": 50240435,
      "step": 2343,
      "time_per_iteration": 2.738797187805176
    },
    {
      "auxiliary_loss_clip": 0.01180442,
      "auxiliary_loss_mlp": 0.01034366,
      "balance_loss_clip": 1.05318117,
      "balance_loss_mlp": 1.02521014,
      "epoch": 0.2818493356580292,
      "flos": 15414081500160.0,
      "grad_norm": 2.1090399053039945,
      "language_loss": 0.88256478,
      "learning_rate": 3.3708875674677423e-06,
      "loss": 0.90471292,
      "num_input_tokens_seen": 50258410,
      "step": 2344,
      "time_per_iteration": 2.741975784301758
    },
    {
      "auxiliary_loss_clip": 0.01196845,
      "auxiliary_loss_mlp": 0.01032855,
      "balance_loss_clip": 1.05801392,
      "balance_loss_mlp": 1.02343142,
      "epoch": 0.28196957854866833,
      "flos": 20412451595520.0,
      "grad_norm": 1.9974570306685375,
      "language_loss": 0.83825552,
      "learning_rate": 3.37032027434019e-06,
      "loss": 0.86055255,
      "num_input_tokens_seen": 50277930,
      "step": 2345,
      "time_per_iteration": 2.6883533000946045
    },
    {
      "auxiliary_loss_clip": 0.01208567,
      "auxiliary_loss_mlp": 0.01032322,
      "balance_loss_clip": 1.05907679,
      "balance_loss_mlp": 1.02205825,
      "epoch": 0.2820898214393074,
      "flos": 19973120348160.0,
      "grad_norm": 2.0055479728458048,
      "language_loss": 0.83153391,
      "learning_rate": 3.369752773336141e-06,
      "loss": 0.85394281,
      "num_input_tokens_seen": 50297410,
      "step": 2346,
      "time_per_iteration": 2.588221311569214
    },
    {
      "auxiliary_loss_clip": 0.01188098,
      "auxiliary_loss_mlp": 0.01037107,
      "balance_loss_clip": 1.05567181,
      "balance_loss_mlp": 1.02665257,
      "epoch": 0.2822100643299465,
      "flos": 22528308188160.0,
      "grad_norm": 1.7906675355738038,
      "language_loss": 0.7876786,
      "learning_rate": 3.3691850645416864e-06,
      "loss": 0.80993068,
      "num_input_tokens_seen": 50317120,
      "step": 2347,
      "time_per_iteration": 2.7350776195526123
    },
    {
      "auxiliary_loss_clip": 0.01201892,
      "auxiliary_loss_mlp": 0.01032525,
      "balance_loss_clip": 1.05796456,
      "balance_loss_mlp": 1.02270806,
      "epoch": 0.2823303072205856,
      "flos": 11546682007680.0,
      "grad_norm": 2.0192829475265364,
      "language_loss": 0.82859308,
      "learning_rate": 3.368617148042945e-06,
      "loss": 0.85093725,
      "num_input_tokens_seen": 50334790,
      "step": 2348,
      "time_per_iteration": 2.6231307983398438
    },
    {
      "auxiliary_loss_clip": 0.0118067,
      "auxiliary_loss_mlp": 0.010337,
      "balance_loss_clip": 1.05257297,
      "balance_loss_mlp": 1.02401471,
      "epoch": 0.28245055011122466,
      "flos": 18259894281600.0,
      "grad_norm": 31.279774824252122,
      "language_loss": 0.84343255,
      "learning_rate": 3.368049023926071e-06,
      "loss": 0.86557621,
      "num_input_tokens_seen": 50353785,
      "step": 2349,
      "time_per_iteration": 3.5231752395629883
    },
    {
      "auxiliary_loss_clip": 0.01195599,
      "auxiliary_loss_mlp": 0.01032251,
      "balance_loss_clip": 1.05908239,
      "balance_loss_mlp": 1.02226162,
      "epoch": 0.2825707930018638,
      "flos": 24608110504320.0,
      "grad_norm": 1.7422744521761018,
      "language_loss": 0.83997589,
      "learning_rate": 3.3674806922772476e-06,
      "loss": 0.86225438,
      "num_input_tokens_seen": 50374670,
      "step": 2350,
      "time_per_iteration": 2.6897499561309814
    },
    {
      "auxiliary_loss_clip": 0.01180824,
      "auxiliary_loss_mlp": 0.01035176,
      "balance_loss_clip": 1.05438471,
      "balance_loss_mlp": 1.02479255,
      "epoch": 0.28269103589250283,
      "flos": 25226994862080.0,
      "grad_norm": 2.0262091805684563,
      "language_loss": 0.75377721,
      "learning_rate": 3.3669121531826904e-06,
      "loss": 0.7759372,
      "num_input_tokens_seen": 50395650,
      "step": 2351,
      "time_per_iteration": 2.749756097793579
    },
    {
      "auxiliary_loss_clip": 0.01172206,
      "auxiliary_loss_mlp": 0.01028716,
      "balance_loss_clip": 1.0578866,
      "balance_loss_mlp": 1.01953721,
      "epoch": 0.28281127878314194,
      "flos": 19281552819840.0,
      "grad_norm": 2.015920175161949,
      "language_loss": 0.82984465,
      "learning_rate": 3.366343406728647e-06,
      "loss": 0.85185385,
      "num_input_tokens_seen": 50415100,
      "step": 2352,
      "time_per_iteration": 2.7185685634613037
    },
    {
      "auxiliary_loss_clip": 0.01186657,
      "auxiliary_loss_mlp": 0.01025695,
      "balance_loss_clip": 1.05304956,
      "balance_loss_mlp": 1.01628971,
      "epoch": 0.28293152167378105,
      "flos": 23878405710720.0,
      "grad_norm": 1.7133688424642581,
      "language_loss": 0.68648225,
      "learning_rate": 3.3657744530013946e-06,
      "loss": 0.70860577,
      "num_input_tokens_seen": 50434335,
      "step": 2353,
      "time_per_iteration": 2.661526679992676
    },
    {
      "auxiliary_loss_clip": 0.0120585,
      "auxiliary_loss_mlp": 0.01032592,
      "balance_loss_clip": 1.06153762,
      "balance_loss_mlp": 1.02357364,
      "epoch": 0.2830517645644201,
      "flos": 43866965928960.0,
      "grad_norm": 2.0900812761602783,
      "language_loss": 0.71575129,
      "learning_rate": 3.3652052920872437e-06,
      "loss": 0.7381357,
      "num_input_tokens_seen": 50457200,
      "step": 2354,
      "time_per_iteration": 3.699688673019409
    },
    {
      "auxiliary_loss_clip": 0.01185411,
      "auxiliary_loss_mlp": 0.01033618,
      "balance_loss_clip": 1.05363309,
      "balance_loss_mlp": 1.02406359,
      "epoch": 0.2831720074550592,
      "flos": 26651750803200.0,
      "grad_norm": 1.9592635558580898,
      "language_loss": 0.85404718,
      "learning_rate": 3.3646359240725355e-06,
      "loss": 0.87623745,
      "num_input_tokens_seen": 50476390,
      "step": 2355,
      "time_per_iteration": 3.728008985519409
    },
    {
      "auxiliary_loss_clip": 0.01191655,
      "auxiliary_loss_mlp": 0.00889688,
      "balance_loss_clip": 1.05720711,
      "balance_loss_mlp": 1.00122797,
      "epoch": 0.2832922503456983,
      "flos": 31029979564800.0,
      "grad_norm": 2.0409728650521175,
      "language_loss": 0.67752737,
      "learning_rate": 3.364066349043643e-06,
      "loss": 0.69834083,
      "num_input_tokens_seen": 50497595,
      "step": 2356,
      "time_per_iteration": 2.7436468601226807
    },
    {
      "auxiliary_loss_clip": 0.01181953,
      "auxiliary_loss_mlp": 0.01033718,
      "balance_loss_clip": 1.05406809,
      "balance_loss_mlp": 1.02536106,
      "epoch": 0.2834124932363374,
      "flos": 20405699838720.0,
      "grad_norm": 2.5334941491933316,
      "language_loss": 0.81956899,
      "learning_rate": 3.363496567086969e-06,
      "loss": 0.84172565,
      "num_input_tokens_seen": 50514690,
      "step": 2357,
      "time_per_iteration": 2.724172353744507
    },
    {
      "auxiliary_loss_clip": 0.01206797,
      "auxiliary_loss_mlp": 0.0102948,
      "balance_loss_clip": 1.05942893,
      "balance_loss_mlp": 1.02012789,
      "epoch": 0.2835327361269765,
      "flos": 39384848056320.0,
      "grad_norm": 1.9739565440144362,
      "language_loss": 0.75247443,
      "learning_rate": 3.3629265782889506e-06,
      "loss": 0.7748372,
      "num_input_tokens_seen": 50536515,
      "step": 2358,
      "time_per_iteration": 2.7450478076934814
    },
    {
      "auxiliary_loss_clip": 0.01168697,
      "auxiliary_loss_mlp": 0.01035178,
      "balance_loss_clip": 1.04795301,
      "balance_loss_mlp": 1.02586234,
      "epoch": 0.2836529790176156,
      "flos": 30261598801920.0,
      "grad_norm": 2.1699002636933664,
      "language_loss": 0.71951258,
      "learning_rate": 3.362356382736054e-06,
      "loss": 0.74155134,
      "num_input_tokens_seen": 50557120,
      "step": 2359,
      "time_per_iteration": 3.7888593673706055
    },
    {
      "auxiliary_loss_clip": 0.01176263,
      "auxiliary_loss_mlp": 0.01027913,
      "balance_loss_clip": 1.0490725,
      "balance_loss_mlp": 1.01910341,
      "epoch": 0.28377322190825466,
      "flos": 12677796264960.0,
      "grad_norm": 2.018490064196807,
      "language_loss": 0.91338819,
      "learning_rate": 3.361785980514777e-06,
      "loss": 0.93542993,
      "num_input_tokens_seen": 50573320,
      "step": 2360,
      "time_per_iteration": 2.8433992862701416
    },
    {
      "auxiliary_loss_clip": 0.01145774,
      "auxiliary_loss_mlp": 0.01029766,
      "balance_loss_clip": 1.04708886,
      "balance_loss_mlp": 1.01974702,
      "epoch": 0.28389346479889377,
      "flos": 18296666830080.0,
      "grad_norm": 9.860563809624992,
      "language_loss": 0.77083915,
      "learning_rate": 3.361215371711649e-06,
      "loss": 0.79259455,
      "num_input_tokens_seen": 50592415,
      "step": 2361,
      "time_per_iteration": 2.7609331607818604
    },
    {
      "auxiliary_loss_clip": 0.0117115,
      "auxiliary_loss_mlp": 0.01033559,
      "balance_loss_clip": 1.05439603,
      "balance_loss_mlp": 1.02412951,
      "epoch": 0.2840137076895329,
      "flos": 20406992728320.0,
      "grad_norm": 1.9729995815399053,
      "language_loss": 0.83657026,
      "learning_rate": 3.3606445564132326e-06,
      "loss": 0.85861737,
      "num_input_tokens_seen": 50609710,
      "step": 2362,
      "time_per_iteration": 2.744020938873291
    },
    {
      "auxiliary_loss_clip": 0.01208827,
      "auxiliary_loss_mlp": 0.00888957,
      "balance_loss_clip": 1.06089449,
      "balance_loss_mlp": 1.0011692,
      "epoch": 0.28413395058017193,
      "flos": 20048030161920.0,
      "grad_norm": 2.163355750526715,
      "language_loss": 0.82353193,
      "learning_rate": 3.360073534706118e-06,
      "loss": 0.84450972,
      "num_input_tokens_seen": 50626865,
      "step": 2363,
      "time_per_iteration": 2.58955717086792
    },
    {
      "auxiliary_loss_clip": 0.0118665,
      "auxiliary_loss_mlp": 0.01031631,
      "balance_loss_clip": 1.05616713,
      "balance_loss_mlp": 1.02109337,
      "epoch": 0.28425419347081105,
      "flos": 37663613256960.0,
      "grad_norm": 2.4256962451559922,
      "language_loss": 0.76403445,
      "learning_rate": 3.35950230667693e-06,
      "loss": 0.78621727,
      "num_input_tokens_seen": 50648560,
      "step": 2364,
      "time_per_iteration": 2.82112455368042
    },
    {
      "auxiliary_loss_clip": 0.01196356,
      "auxiliary_loss_mlp": 0.01026051,
      "balance_loss_clip": 1.05475438,
      "balance_loss_mlp": 1.01669335,
      "epoch": 0.28437443636145016,
      "flos": 13845072539520.0,
      "grad_norm": 2.316330243298048,
      "language_loss": 0.86457038,
      "learning_rate": 3.358930872412323e-06,
      "loss": 0.88679439,
      "num_input_tokens_seen": 50665725,
      "step": 2365,
      "time_per_iteration": 2.6343882083892822
    },
    {
      "auxiliary_loss_clip": 0.0119639,
      "auxiliary_loss_mlp": 0.01038019,
      "balance_loss_clip": 1.05781102,
      "balance_loss_mlp": 1.0285244,
      "epoch": 0.2844946792520892,
      "flos": 22747794243840.0,
      "grad_norm": 1.6076021543089007,
      "language_loss": 0.80987906,
      "learning_rate": 3.3583592319989825e-06,
      "loss": 0.83222318,
      "num_input_tokens_seen": 50685095,
      "step": 2366,
      "time_per_iteration": 2.7006051540374756
    },
    {
      "auxiliary_loss_clip": 0.01204625,
      "auxiliary_loss_mlp": 0.01039132,
      "balance_loss_clip": 1.05847979,
      "balance_loss_mlp": 1.02862358,
      "epoch": 0.2846149221427283,
      "flos": 32415987709440.0,
      "grad_norm": 2.5211107949536937,
      "language_loss": 0.68527329,
      "learning_rate": 3.357787385523627e-06,
      "loss": 0.70771086,
      "num_input_tokens_seen": 50706500,
      "step": 2367,
      "time_per_iteration": 2.773123264312744
    },
    {
      "auxiliary_loss_clip": 0.01166047,
      "auxiliary_loss_mlp": 0.01041994,
      "balance_loss_clip": 1.05171323,
      "balance_loss_mlp": 1.03243899,
      "epoch": 0.2847351650333674,
      "flos": 28475976873600.0,
      "grad_norm": 2.026017125060343,
      "language_loss": 0.82582074,
      "learning_rate": 3.3572153330730048e-06,
      "loss": 0.84790111,
      "num_input_tokens_seen": 50727595,
      "step": 2368,
      "time_per_iteration": 2.878737688064575
    },
    {
      "auxiliary_loss_clip": 0.01087872,
      "auxiliary_loss_mlp": 0.01003479,
      "balance_loss_clip": 1.0288918,
      "balance_loss_mlp": 1.00113106,
      "epoch": 0.2848554079240065,
      "flos": 55753399704960.0,
      "grad_norm": 0.8245630741239659,
      "language_loss": 0.64720428,
      "learning_rate": 3.3566430747338956e-06,
      "loss": 0.66811782,
      "num_input_tokens_seen": 50782800,
      "step": 2369,
      "time_per_iteration": 3.153400421142578
    },
    {
      "auxiliary_loss_clip": 0.01196584,
      "auxiliary_loss_mlp": 0.01026532,
      "balance_loss_clip": 1.05366075,
      "balance_loss_mlp": 1.01736534,
      "epoch": 0.2849756508146456,
      "flos": 11836875985920.0,
      "grad_norm": 3.15859537605444,
      "language_loss": 0.86296868,
      "learning_rate": 3.35607061059311e-06,
      "loss": 0.88519984,
      "num_input_tokens_seen": 50797730,
      "step": 2370,
      "time_per_iteration": 2.5943260192871094
    },
    {
      "auxiliary_loss_clip": 0.01202497,
      "auxiliary_loss_mlp": 0.01028824,
      "balance_loss_clip": 1.05756617,
      "balance_loss_mlp": 1.0192157,
      "epoch": 0.28509589370528465,
      "flos": 25155209531520.0,
      "grad_norm": 2.141541808394833,
      "language_loss": 0.7511434,
      "learning_rate": 3.3554979407374917e-06,
      "loss": 0.77345663,
      "num_input_tokens_seen": 50819840,
      "step": 2371,
      "time_per_iteration": 2.6777899265289307
    },
    {
      "auxiliary_loss_clip": 0.01195348,
      "auxiliary_loss_mlp": 0.01033876,
      "balance_loss_clip": 1.05470359,
      "balance_loss_mlp": 1.02445221,
      "epoch": 0.28521613659592376,
      "flos": 19974808287360.0,
      "grad_norm": 1.6371654287378508,
      "language_loss": 0.73369926,
      "learning_rate": 3.3549250652539134e-06,
      "loss": 0.75599152,
      "num_input_tokens_seen": 50838935,
      "step": 2372,
      "time_per_iteration": 2.678795099258423
    },
    {
      "auxiliary_loss_clip": 0.01183332,
      "auxiliary_loss_mlp": 0.01031474,
      "balance_loss_clip": 1.05076408,
      "balance_loss_mlp": 1.02208638,
      "epoch": 0.2853363794865629,
      "flos": 23367971491200.0,
      "grad_norm": 2.126317437117783,
      "language_loss": 0.81891364,
      "learning_rate": 3.3543519842292794e-06,
      "loss": 0.84106171,
      "num_input_tokens_seen": 50858590,
      "step": 2373,
      "time_per_iteration": 2.7017900943756104
    },
    {
      "auxiliary_loss_clip": 0.01205671,
      "auxiliary_loss_mlp": 0.00889793,
      "balance_loss_clip": 1.05818605,
      "balance_loss_mlp": 1.00118232,
      "epoch": 0.28545662237720193,
      "flos": 19861940776320.0,
      "grad_norm": 2.6837593710671177,
      "language_loss": 0.83559382,
      "learning_rate": 3.353778697750527e-06,
      "loss": 0.85654849,
      "num_input_tokens_seen": 50876995,
      "step": 2374,
      "time_per_iteration": 2.6397762298583984
    },
    {
      "auxiliary_loss_clip": 0.01178709,
      "auxiliary_loss_mlp": 0.01027776,
      "balance_loss_clip": 1.05209041,
      "balance_loss_mlp": 1.01846004,
      "epoch": 0.28557686526784104,
      "flos": 23879016241920.0,
      "grad_norm": 1.8548914190098562,
      "language_loss": 0.89130235,
      "learning_rate": 3.353205205904622e-06,
      "loss": 0.91336721,
      "num_input_tokens_seen": 50896105,
      "step": 2375,
      "time_per_iteration": 3.586822509765625
    },
    {
      "auxiliary_loss_clip": 0.01185346,
      "auxiliary_loss_mlp": 0.01031105,
      "balance_loss_clip": 1.05513549,
      "balance_loss_mlp": 1.02150285,
      "epoch": 0.28569710815848015,
      "flos": 44890384233600.0,
      "grad_norm": 2.321036388603201,
      "language_loss": 0.71506155,
      "learning_rate": 3.3526315087785637e-06,
      "loss": 0.73722601,
      "num_input_tokens_seen": 50917220,
      "step": 2376,
      "time_per_iteration": 2.855379581451416
    },
    {
      "auxiliary_loss_clip": 0.01150564,
      "auxiliary_loss_mlp": 0.01035219,
      "balance_loss_clip": 1.05208135,
      "balance_loss_mlp": 1.02592123,
      "epoch": 0.2858173510491192,
      "flos": 26829759628800.0,
      "grad_norm": 1.7877177603224463,
      "language_loss": 0.80912745,
      "learning_rate": 3.3520576064593805e-06,
      "loss": 0.83098531,
      "num_input_tokens_seen": 50937175,
      "step": 2377,
      "time_per_iteration": 2.774306535720825
    },
    {
      "auxiliary_loss_clip": 0.01201416,
      "auxiliary_loss_mlp": 0.01028364,
      "balance_loss_clip": 1.05841994,
      "balance_loss_mlp": 1.01890469,
      "epoch": 0.2859375939397583,
      "flos": 23148916398720.0,
      "grad_norm": 1.7867751612609106,
      "language_loss": 0.81785369,
      "learning_rate": 3.3514834990341337e-06,
      "loss": 0.84015149,
      "num_input_tokens_seen": 50957500,
      "step": 2378,
      "time_per_iteration": 2.716012954711914
    },
    {
      "auxiliary_loss_clip": 0.01193571,
      "auxiliary_loss_mlp": 0.01030522,
      "balance_loss_clip": 1.05610824,
      "balance_loss_mlp": 1.02161682,
      "epoch": 0.2860578368303974,
      "flos": 12129799397760.0,
      "grad_norm": 2.5281010686582457,
      "language_loss": 0.93096823,
      "learning_rate": 3.3509091865899144e-06,
      "loss": 0.95320916,
      "num_input_tokens_seen": 50972690,
      "step": 2379,
      "time_per_iteration": 2.6604926586151123
    },
    {
      "auxiliary_loss_clip": 0.01207407,
      "auxiliary_loss_mlp": 0.01029105,
      "balance_loss_clip": 1.0579226,
      "balance_loss_mlp": 1.02008653,
      "epoch": 0.2861780797210365,
      "flos": 19938035738880.0,
      "grad_norm": 2.3566441936734366,
      "language_loss": 0.7081306,
      "learning_rate": 3.350334669213846e-06,
      "loss": 0.73049569,
      "num_input_tokens_seen": 50990095,
      "step": 2380,
      "time_per_iteration": 3.5841636657714844
    },
    {
      "auxiliary_loss_clip": 0.01194515,
      "auxiliary_loss_mlp": 0.01033883,
      "balance_loss_clip": 1.05686212,
      "balance_loss_mlp": 1.02412534,
      "epoch": 0.2862983226116756,
      "flos": 27563127609600.0,
      "grad_norm": 1.9956620119787256,
      "language_loss": 0.75521028,
      "learning_rate": 3.3497599469930816e-06,
      "loss": 0.77749431,
      "num_input_tokens_seen": 51008305,
      "step": 2381,
      "time_per_iteration": 3.760512351989746
    },
    {
      "auxiliary_loss_clip": 0.01208155,
      "auxiliary_loss_mlp": 0.01032531,
      "balance_loss_clip": 1.05807781,
      "balance_loss_mlp": 1.023054,
      "epoch": 0.28641856550231465,
      "flos": 22053964158720.0,
      "grad_norm": 2.3996312337081958,
      "language_loss": 0.83026659,
      "learning_rate": 3.349185020014807e-06,
      "loss": 0.85267341,
      "num_input_tokens_seen": 51025570,
      "step": 2382,
      "time_per_iteration": 2.6371254920959473
    },
    {
      "auxiliary_loss_clip": 0.01196392,
      "auxiliary_loss_mlp": 0.01039334,
      "balance_loss_clip": 1.05448008,
      "balance_loss_mlp": 1.02906406,
      "epoch": 0.28653880839295376,
      "flos": 22378775869440.0,
      "grad_norm": 3.2053215718324295,
      "language_loss": 0.74613619,
      "learning_rate": 3.348609888366237e-06,
      "loss": 0.76849341,
      "num_input_tokens_seen": 51044585,
      "step": 2383,
      "time_per_iteration": 2.7033438682556152
    },
    {
      "auxiliary_loss_clip": 0.01146007,
      "auxiliary_loss_mlp": 0.01031412,
      "balance_loss_clip": 1.04507995,
      "balance_loss_mlp": 1.02196443,
      "epoch": 0.28665905128359287,
      "flos": 23367971491200.0,
      "grad_norm": 2.087230306078374,
      "language_loss": 0.63274109,
      "learning_rate": 3.348034552134619e-06,
      "loss": 0.65451527,
      "num_input_tokens_seen": 51063990,
      "step": 2384,
      "time_per_iteration": 2.8090720176696777
    },
    {
      "auxiliary_loss_clip": 0.01155388,
      "auxiliary_loss_mlp": 0.01029671,
      "balance_loss_clip": 1.04888415,
      "balance_loss_mlp": 1.02016997,
      "epoch": 0.2867792941742319,
      "flos": 20881695893760.0,
      "grad_norm": 2.2821959076379468,
      "language_loss": 0.83806545,
      "learning_rate": 3.3474590114072316e-06,
      "loss": 0.85991609,
      "num_input_tokens_seen": 51081990,
      "step": 2385,
      "time_per_iteration": 3.6853556632995605
    },
    {
      "auxiliary_loss_clip": 0.01173632,
      "auxiliary_loss_mlp": 0.01031873,
      "balance_loss_clip": 1.05609262,
      "balance_loss_mlp": 1.02211618,
      "epoch": 0.28689953706487104,
      "flos": 20664005518080.0,
      "grad_norm": 4.650406793178159,
      "language_loss": 0.83050013,
      "learning_rate": 3.3468832662713836e-06,
      "loss": 0.85255516,
      "num_input_tokens_seen": 51100235,
      "step": 2386,
      "time_per_iteration": 2.7356345653533936
    },
    {
      "auxiliary_loss_clip": 0.01175517,
      "auxiliary_loss_mlp": 0.01033216,
      "balance_loss_clip": 1.05570817,
      "balance_loss_mlp": 1.0237571,
      "epoch": 0.28701977995551015,
      "flos": 12675533708160.0,
      "grad_norm": 3.1341069041381417,
      "language_loss": 0.83917218,
      "learning_rate": 3.346307316814415e-06,
      "loss": 0.86125958,
      "num_input_tokens_seen": 51115405,
      "step": 2387,
      "time_per_iteration": 2.725520133972168
    },
    {
      "auxiliary_loss_clip": 0.01199171,
      "auxiliary_loss_mlp": 0.01036249,
      "balance_loss_clip": 1.06036592,
      "balance_loss_mlp": 1.0272423,
      "epoch": 0.2871400228461492,
      "flos": 21252366293760.0,
      "grad_norm": 2.784716059645203,
      "language_loss": 0.75849068,
      "learning_rate": 3.3457311631236965e-06,
      "loss": 0.78084493,
      "num_input_tokens_seen": 51136390,
      "step": 2388,
      "time_per_iteration": 2.746840238571167
    },
    {
      "auxiliary_loss_clip": 0.01174015,
      "auxiliary_loss_mlp": 0.01031442,
      "balance_loss_clip": 1.05219626,
      "balance_loss_mlp": 1.02233434,
      "epoch": 0.2872602657367883,
      "flos": 25119262995840.0,
      "grad_norm": 2.596439087206983,
      "language_loss": 0.84231907,
      "learning_rate": 3.345154805286631e-06,
      "loss": 0.86437368,
      "num_input_tokens_seen": 51156650,
      "step": 2389,
      "time_per_iteration": 2.6737592220306396
    },
    {
      "auxiliary_loss_clip": 0.01188633,
      "auxiliary_loss_mlp": 0.01027524,
      "balance_loss_clip": 1.05476081,
      "balance_loss_mlp": 1.01788616,
      "epoch": 0.2873805086274274,
      "flos": 16646606830080.0,
      "grad_norm": 3.119751431143423,
      "language_loss": 0.76610106,
      "learning_rate": 3.344578243390651e-06,
      "loss": 0.78826261,
      "num_input_tokens_seen": 51172210,
      "step": 2390,
      "time_per_iteration": 2.647596597671509
    },
    {
      "auxiliary_loss_clip": 0.01180228,
      "auxiliary_loss_mlp": 0.01029764,
      "balance_loss_clip": 1.05446947,
      "balance_loss_mlp": 1.02041209,
      "epoch": 0.2875007515180665,
      "flos": 17420123237760.0,
      "grad_norm": 3.0624813911005164,
      "language_loss": 0.78942549,
      "learning_rate": 3.3440014775232206e-06,
      "loss": 0.81152546,
      "num_input_tokens_seen": 51190265,
      "step": 2391,
      "time_per_iteration": 2.6214828491210938
    },
    {
      "auxiliary_loss_clip": 0.01177529,
      "auxiliary_loss_mlp": 0.01029479,
      "balance_loss_clip": 1.05330098,
      "balance_loss_mlp": 1.0204134,
      "epoch": 0.2876209944087056,
      "flos": 23434190213760.0,
      "grad_norm": 2.0365474933674665,
      "language_loss": 0.71422213,
      "learning_rate": 3.343424507771834e-06,
      "loss": 0.73629224,
      "num_input_tokens_seen": 51208475,
      "step": 2392,
      "time_per_iteration": 2.7565596103668213
    },
    {
      "auxiliary_loss_clip": 0.01176549,
      "auxiliary_loss_mlp": 0.01029154,
      "balance_loss_clip": 1.05497563,
      "balance_loss_mlp": 1.01981986,
      "epoch": 0.2877412372993447,
      "flos": 13735509079680.0,
      "grad_norm": 2.1451604745314445,
      "language_loss": 0.86356676,
      "learning_rate": 3.342847334224018e-06,
      "loss": 0.88562381,
      "num_input_tokens_seen": 51225875,
      "step": 2393,
      "time_per_iteration": 2.674910545349121
    },
    {
      "auxiliary_loss_clip": 0.01094213,
      "auxiliary_loss_mlp": 0.01001617,
      "balance_loss_clip": 1.02290535,
      "balance_loss_mlp": 0.99945891,
      "epoch": 0.28786148018998375,
      "flos": 58079695104000.0,
      "grad_norm": 0.9431190762245837,
      "language_loss": 0.62394583,
      "learning_rate": 3.342269956967329e-06,
      "loss": 0.64490414,
      "num_input_tokens_seen": 51287780,
      "step": 2394,
      "time_per_iteration": 3.3323981761932373
    },
    {
      "auxiliary_loss_clip": 0.01203896,
      "auxiliary_loss_mlp": 0.01028731,
      "balance_loss_clip": 1.0594039,
      "balance_loss_mlp": 1.01864624,
      "epoch": 0.28798172308062286,
      "flos": 23435052140160.0,
      "grad_norm": 2.7274423781758874,
      "language_loss": 0.71624285,
      "learning_rate": 3.341692376089355e-06,
      "loss": 0.73856914,
      "num_input_tokens_seen": 51303335,
      "step": 2395,
      "time_per_iteration": 2.6561169624328613
    },
    {
      "auxiliary_loss_clip": 0.01191778,
      "auxiliary_loss_mlp": 0.01031813,
      "balance_loss_clip": 1.05679154,
      "balance_loss_mlp": 1.02214563,
      "epoch": 0.288101965971262,
      "flos": 25110033200640.0,
      "grad_norm": 4.477365523033283,
      "language_loss": 0.84221041,
      "learning_rate": 3.3411145916777146e-06,
      "loss": 0.86444628,
      "num_input_tokens_seen": 51317495,
      "step": 2396,
      "time_per_iteration": 2.6211209297180176
    },
    {
      "auxiliary_loss_clip": 0.01179973,
      "auxiliary_loss_mlp": 0.01035717,
      "balance_loss_clip": 1.05337358,
      "balance_loss_mlp": 1.02572763,
      "epoch": 0.28822220886190103,
      "flos": 16252559654400.0,
      "grad_norm": 2.7190031464865654,
      "language_loss": 0.91492432,
      "learning_rate": 3.3405366038200566e-06,
      "loss": 0.93708122,
      "num_input_tokens_seen": 51336430,
      "step": 2397,
      "time_per_iteration": 2.6740074157714844
    },
    {
      "auxiliary_loss_clip": 0.01193158,
      "auxiliary_loss_mlp": 0.0103178,
      "balance_loss_clip": 1.06090426,
      "balance_loss_mlp": 1.02194536,
      "epoch": 0.28834245175254014,
      "flos": 24535642815360.0,
      "grad_norm": 2.719210769739738,
      "language_loss": 0.84961796,
      "learning_rate": 3.3399584126040617e-06,
      "loss": 0.87186736,
      "num_input_tokens_seen": 51355930,
      "step": 2398,
      "time_per_iteration": 2.706590175628662
    },
    {
      "auxiliary_loss_clip": 0.01208955,
      "auxiliary_loss_mlp": 0.00888463,
      "balance_loss_clip": 1.06041121,
      "balance_loss_mlp": 1.0011791,
      "epoch": 0.2884626946431792,
      "flos": 24571445696640.0,
      "grad_norm": 3.3913203082577437,
      "language_loss": 0.90988755,
      "learning_rate": 3.339380018117441e-06,
      "loss": 0.93086171,
      "num_input_tokens_seen": 51376765,
      "step": 2399,
      "time_per_iteration": 2.691162586212158
    },
    {
      "auxiliary_loss_clip": 0.01192539,
      "auxiliary_loss_mlp": 0.01030783,
      "balance_loss_clip": 1.05862451,
      "balance_loss_mlp": 1.02152085,
      "epoch": 0.2885829375338183,
      "flos": 16544657053440.0,
      "grad_norm": 2.740213232359704,
      "language_loss": 0.78251839,
      "learning_rate": 3.3388014204479366e-06,
      "loss": 0.80475163,
      "num_input_tokens_seen": 51394570,
      "step": 2400,
      "time_per_iteration": 2.626591205596924
    },
    {
      "auxiliary_loss_clip": 0.01209933,
      "auxiliary_loss_mlp": 0.01028471,
      "balance_loss_clip": 1.06053567,
      "balance_loss_mlp": 1.01892841,
      "epoch": 0.2887031804244574,
      "flos": 24061226958720.0,
      "grad_norm": 2.7877144722181435,
      "language_loss": 0.91515791,
      "learning_rate": 3.338222619683321e-06,
      "loss": 0.93754196,
      "num_input_tokens_seen": 51414535,
      "step": 2401,
      "time_per_iteration": 3.516216516494751
    },
    {
      "auxiliary_loss_clip": 0.01189669,
      "auxiliary_loss_mlp": 0.01027687,
      "balance_loss_clip": 1.05654907,
      "balance_loss_mlp": 1.01733398,
      "epoch": 0.2888234233150965,
      "flos": 23330696152320.0,
      "grad_norm": 3.547555536362244,
      "language_loss": 0.73259616,
      "learning_rate": 3.337643615911398e-06,
      "loss": 0.75476974,
      "num_input_tokens_seen": 51434160,
      "step": 2402,
      "time_per_iteration": 2.6704726219177246
    },
    {
      "auxiliary_loss_clip": 0.01199535,
      "auxiliary_loss_mlp": 0.01029592,
      "balance_loss_clip": 1.05731177,
      "balance_loss_mlp": 1.01979864,
      "epoch": 0.2889436662057356,
      "flos": 22272767856000.0,
      "grad_norm": 2.40780677684075,
      "language_loss": 0.78712177,
      "learning_rate": 3.3370644092200026e-06,
      "loss": 0.80941308,
      "num_input_tokens_seen": 51451435,
      "step": 2403,
      "time_per_iteration": 2.6557533740997314
    },
    {
      "auxiliary_loss_clip": 0.01166476,
      "auxiliary_loss_mlp": 0.01027805,
      "balance_loss_clip": 1.05131555,
      "balance_loss_mlp": 1.01842952,
      "epoch": 0.2890639090963747,
      "flos": 21616931381760.0,
      "grad_norm": 2.559088385104495,
      "language_loss": 0.78187138,
      "learning_rate": 3.3364849996969985e-06,
      "loss": 0.80381417,
      "num_input_tokens_seen": 51471455,
      "step": 2404,
      "time_per_iteration": 2.7353832721710205
    },
    {
      "auxiliary_loss_clip": 0.01194646,
      "auxiliary_loss_mlp": 0.01033921,
      "balance_loss_clip": 1.05717921,
      "balance_loss_mlp": 1.02460456,
      "epoch": 0.28918415198701375,
      "flos": 28585540333440.0,
      "grad_norm": 2.44373584282075,
      "language_loss": 0.85416245,
      "learning_rate": 3.335905387430283e-06,
      "loss": 0.87644809,
      "num_input_tokens_seen": 51492890,
      "step": 2405,
      "time_per_iteration": 2.742143392562866
    },
    {
      "auxiliary_loss_clip": 0.01192837,
      "auxiliary_loss_mlp": 0.01036083,
      "balance_loss_clip": 1.05520797,
      "balance_loss_mlp": 1.02711868,
      "epoch": 0.28930439487765286,
      "flos": 21944688007680.0,
      "grad_norm": 2.239125853751841,
      "language_loss": 0.8296802,
      "learning_rate": 3.335325572507782e-06,
      "loss": 0.85196942,
      "num_input_tokens_seen": 51513390,
      "step": 2406,
      "time_per_iteration": 3.8311960697174072
    },
    {
      "auxiliary_loss_clip": 0.01210945,
      "auxiliary_loss_mlp": 0.00889111,
      "balance_loss_clip": 1.06381679,
      "balance_loss_mlp": 1.00116646,
      "epoch": 0.28942463776829197,
      "flos": 19281911955840.0,
      "grad_norm": 1.8076192521959555,
      "language_loss": 0.74489218,
      "learning_rate": 3.3347455550174537e-06,
      "loss": 0.76589274,
      "num_input_tokens_seen": 51532730,
      "step": 2407,
      "time_per_iteration": 3.554521083831787
    },
    {
      "auxiliary_loss_clip": 0.01171124,
      "auxiliary_loss_mlp": 0.01029557,
      "balance_loss_clip": 1.05006945,
      "balance_loss_mlp": 1.01925707,
      "epoch": 0.289544880658931,
      "flos": 14645700737280.0,
      "grad_norm": 1.8016174838512857,
      "language_loss": 0.68517017,
      "learning_rate": 3.3341653350472864e-06,
      "loss": 0.70717698,
      "num_input_tokens_seen": 51549560,
      "step": 2408,
      "time_per_iteration": 2.693061113357544
    },
    {
      "auxiliary_loss_clip": 0.0121371,
      "auxiliary_loss_mlp": 0.01036257,
      "balance_loss_clip": 1.05884123,
      "balance_loss_mlp": 1.02514708,
      "epoch": 0.28966512354957014,
      "flos": 28621881918720.0,
      "grad_norm": 2.422836224584002,
      "language_loss": 0.68736237,
      "learning_rate": 3.333584912685298e-06,
      "loss": 0.70986199,
      "num_input_tokens_seen": 51568180,
      "step": 2409,
      "time_per_iteration": 2.668260335922241
    },
    {
      "auxiliary_loss_clip": 0.0107221,
      "auxiliary_loss_mlp": 0.01008529,
      "balance_loss_clip": 1.01738739,
      "balance_loss_mlp": 1.00634754,
      "epoch": 0.28978536644020925,
      "flos": 64711784511360.0,
      "grad_norm": 0.9235718101281812,
      "language_loss": 0.5558778,
      "learning_rate": 3.3330042880195385e-06,
      "loss": 0.57668519,
      "num_input_tokens_seen": 51622530,
      "step": 2410,
      "time_per_iteration": 3.2246298789978027
    },
    {
      "auxiliary_loss_clip": 0.01186908,
      "auxiliary_loss_mlp": 0.01028136,
      "balance_loss_clip": 1.05521667,
      "balance_loss_mlp": 1.01834249,
      "epoch": 0.2899056093308483,
      "flos": 18624638937600.0,
      "grad_norm": 1.8815138605796737,
      "language_loss": 0.78795797,
      "learning_rate": 3.3324234611380888e-06,
      "loss": 0.81010842,
      "num_input_tokens_seen": 51641260,
      "step": 2411,
      "time_per_iteration": 3.5329525470733643
    },
    {
      "auxiliary_loss_clip": 0.01174811,
      "auxiliary_loss_mlp": 0.01030395,
      "balance_loss_clip": 1.05778813,
      "balance_loss_mlp": 1.02123356,
      "epoch": 0.2900258522214874,
      "flos": 22893735202560.0,
      "grad_norm": 1.837386490794145,
      "language_loss": 0.81760305,
      "learning_rate": 3.3318424321290596e-06,
      "loss": 0.8396551,
      "num_input_tokens_seen": 51660975,
      "step": 2412,
      "time_per_iteration": 2.7365756034851074
    },
    {
      "auxiliary_loss_clip": 0.01080116,
      "auxiliary_loss_mlp": 0.01002472,
      "balance_loss_clip": 1.02425647,
      "balance_loss_mlp": 1.00049353,
      "epoch": 0.2901460951121265,
      "flos": 71106036013440.0,
      "grad_norm": 0.8273003623853812,
      "language_loss": 0.59888017,
      "learning_rate": 3.3312612010805917e-06,
      "loss": 0.61970603,
      "num_input_tokens_seen": 51720550,
      "step": 2413,
      "time_per_iteration": 3.289132833480835
    },
    {
      "auxiliary_loss_clip": 0.01176775,
      "auxiliary_loss_mlp": 0.01040893,
      "balance_loss_clip": 1.05403805,
      "balance_loss_mlp": 1.03069496,
      "epoch": 0.2902663380027656,
      "flos": 32160986081280.0,
      "grad_norm": 1.9924223310979439,
      "language_loss": 0.70004809,
      "learning_rate": 3.330679768080858e-06,
      "loss": 0.72222483,
      "num_input_tokens_seen": 51744435,
      "step": 2414,
      "time_per_iteration": 2.792268753051758
    },
    {
      "auxiliary_loss_clip": 0.01196671,
      "auxiliary_loss_mlp": 0.01030286,
      "balance_loss_clip": 1.06008661,
      "balance_loss_mlp": 1.02127421,
      "epoch": 0.2903865808934047,
      "flos": 29351658539520.0,
      "grad_norm": 2.3630281661921084,
      "language_loss": 0.83516538,
      "learning_rate": 3.3300981332180627e-06,
      "loss": 0.85743493,
      "num_input_tokens_seen": 51763640,
      "step": 2415,
      "time_per_iteration": 2.7436141967773438
    },
    {
      "auxiliary_loss_clip": 0.01181203,
      "auxiliary_loss_mlp": 0.01032966,
      "balance_loss_clip": 1.05464911,
      "balance_loss_mlp": 1.023054,
      "epoch": 0.29050682378404374,
      "flos": 17089026647040.0,
      "grad_norm": 2.051530651258358,
      "language_loss": 0.80312514,
      "learning_rate": 3.3295162965804373e-06,
      "loss": 0.82526684,
      "num_input_tokens_seen": 51782135,
      "step": 2416,
      "time_per_iteration": 2.7223238945007324
    },
    {
      "auxiliary_loss_clip": 0.01175639,
      "auxiliary_loss_mlp": 0.01035523,
      "balance_loss_clip": 1.05689394,
      "balance_loss_mlp": 1.02577162,
      "epoch": 0.29062706667468285,
      "flos": 17858233422720.0,
      "grad_norm": 2.4661779538983875,
      "language_loss": 0.7861895,
      "learning_rate": 3.328934258256247e-06,
      "loss": 0.80830109,
      "num_input_tokens_seen": 51800200,
      "step": 2417,
      "time_per_iteration": 2.708165168762207
    },
    {
      "auxiliary_loss_clip": 0.01193959,
      "auxiliary_loss_mlp": 0.01030039,
      "balance_loss_clip": 1.05454588,
      "balance_loss_mlp": 1.02054393,
      "epoch": 0.29074730956532197,
      "flos": 24279815174400.0,
      "grad_norm": 2.257106493187385,
      "language_loss": 0.66664243,
      "learning_rate": 3.3283520183337856e-06,
      "loss": 0.68888235,
      "num_input_tokens_seen": 51819905,
      "step": 2418,
      "time_per_iteration": 2.68444561958313
    },
    {
      "auxiliary_loss_clip": 0.01184203,
      "auxiliary_loss_mlp": 0.01028656,
      "balance_loss_clip": 1.05476189,
      "balance_loss_mlp": 1.01942968,
      "epoch": 0.290867552455961,
      "flos": 22340961826560.0,
      "grad_norm": 2.5151482388222592,
      "language_loss": 0.68855762,
      "learning_rate": 3.3277695769013797e-06,
      "loss": 0.71068627,
      "num_input_tokens_seen": 51839350,
      "step": 2419,
      "time_per_iteration": 2.684189558029175
    },
    {
      "auxiliary_loss_clip": 0.01197383,
      "auxiliary_loss_mlp": 0.01029567,
      "balance_loss_clip": 1.05913591,
      "balance_loss_mlp": 1.02011347,
      "epoch": 0.29098779534660013,
      "flos": 23186155824000.0,
      "grad_norm": 11.23142295683987,
      "language_loss": 0.77777338,
      "learning_rate": 3.327186934047385e-06,
      "loss": 0.80004287,
      "num_input_tokens_seen": 51858045,
      "step": 2420,
      "time_per_iteration": 2.65643310546875
    },
    {
      "auxiliary_loss_clip": 0.01171882,
      "auxiliary_loss_mlp": 0.0102946,
      "balance_loss_clip": 1.04736614,
      "balance_loss_mlp": 1.02012587,
      "epoch": 0.29110803823723924,
      "flos": 15304194817920.0,
      "grad_norm": 2.422885851414257,
      "language_loss": 0.65763891,
      "learning_rate": 3.3266040898601877e-06,
      "loss": 0.67965233,
      "num_input_tokens_seen": 51875880,
      "step": 2421,
      "time_per_iteration": 2.6239490509033203
    },
    {
      "auxiliary_loss_clip": 0.01158456,
      "auxiliary_loss_mlp": 0.01041498,
      "balance_loss_clip": 1.04981625,
      "balance_loss_mlp": 1.03140688,
      "epoch": 0.2912282811278783,
      "flos": 22595352923520.0,
      "grad_norm": 2.00010714446154,
      "language_loss": 0.78293574,
      "learning_rate": 3.3260210444282045e-06,
      "loss": 0.80493534,
      "num_input_tokens_seen": 51893835,
      "step": 2422,
      "time_per_iteration": 2.7303481101989746
    },
    {
      "auxiliary_loss_clip": 0.01187762,
      "auxiliary_loss_mlp": 0.01029439,
      "balance_loss_clip": 1.05492139,
      "balance_loss_mlp": 1.02056348,
      "epoch": 0.2913485240185174,
      "flos": 24497900599680.0,
      "grad_norm": 2.8607448999115825,
      "language_loss": 0.72592604,
      "learning_rate": 3.325437797839883e-06,
      "loss": 0.74809802,
      "num_input_tokens_seen": 51912205,
      "step": 2423,
      "time_per_iteration": 2.631538152694702
    },
    {
      "auxiliary_loss_clip": 0.01206176,
      "auxiliary_loss_mlp": 0.01035456,
      "balance_loss_clip": 1.05820835,
      "balance_loss_mlp": 1.02588367,
      "epoch": 0.2914687669091565,
      "flos": 17931024334080.0,
      "grad_norm": 2.98783117399393,
      "language_loss": 0.7513122,
      "learning_rate": 3.3248543501837015e-06,
      "loss": 0.77372849,
      "num_input_tokens_seen": 51929410,
      "step": 2424,
      "time_per_iteration": 2.5616095066070557
    },
    {
      "auxiliary_loss_clip": 0.01170019,
      "auxiliary_loss_mlp": 0.01038097,
      "balance_loss_clip": 1.05459571,
      "balance_loss_mlp": 1.02874494,
      "epoch": 0.2915890097997956,
      "flos": 22529313768960.0,
      "grad_norm": 1.9313326241180007,
      "language_loss": 0.77311897,
      "learning_rate": 3.3242707015481684e-06,
      "loss": 0.79520017,
      "num_input_tokens_seen": 51949345,
      "step": 2425,
      "time_per_iteration": 2.7512338161468506
    },
    {
      "auxiliary_loss_clip": 0.01182377,
      "auxiliary_loss_mlp": 0.01026267,
      "balance_loss_clip": 1.05201948,
      "balance_loss_mlp": 1.01638484,
      "epoch": 0.2917092526904347,
      "flos": 13845216193920.0,
      "grad_norm": 2.251588908616115,
      "language_loss": 0.80869389,
      "learning_rate": 3.323686852021823e-06,
      "loss": 0.83078039,
      "num_input_tokens_seen": 51966855,
      "step": 2426,
      "time_per_iteration": 2.656660795211792
    },
    {
      "auxiliary_loss_clip": 0.01178494,
      "auxiliary_loss_mlp": 0.01027779,
      "balance_loss_clip": 1.05029953,
      "balance_loss_mlp": 1.01854599,
      "epoch": 0.2918294955810738,
      "flos": 22674859678080.0,
      "grad_norm": 3.079970246805803,
      "language_loss": 0.79643482,
      "learning_rate": 3.323102801693235e-06,
      "loss": 0.8184976,
      "num_input_tokens_seen": 51985620,
      "step": 2427,
      "time_per_iteration": 3.683891773223877
    },
    {
      "auxiliary_loss_clip": 0.01189116,
      "auxiliary_loss_mlp": 0.01029044,
      "balance_loss_clip": 1.05636561,
      "balance_loss_mlp": 1.01988339,
      "epoch": 0.29194973847171285,
      "flos": 23438284364160.0,
      "grad_norm": 2.3025848248252627,
      "language_loss": 0.80718386,
      "learning_rate": 3.322518550651003e-06,
      "loss": 0.82936549,
      "num_input_tokens_seen": 52004930,
      "step": 2428,
      "time_per_iteration": 2.665881633758545
    },
    {
      "auxiliary_loss_clip": 0.01189609,
      "auxiliary_loss_mlp": 0.01032701,
      "balance_loss_clip": 1.05334115,
      "balance_loss_mlp": 1.02380252,
      "epoch": 0.29206998136235196,
      "flos": 21909064694400.0,
      "grad_norm": 1.925932306502806,
      "language_loss": 0.81579685,
      "learning_rate": 3.3219340989837586e-06,
      "loss": 0.83801991,
      "num_input_tokens_seen": 52024920,
      "step": 2429,
      "time_per_iteration": 2.717094659805298
    },
    {
      "auxiliary_loss_clip": 0.01186617,
      "auxiliary_loss_mlp": 0.01038421,
      "balance_loss_clip": 1.05702019,
      "balance_loss_mlp": 1.02958727,
      "epoch": 0.292190224252991,
      "flos": 23215925220480.0,
      "grad_norm": 1.807609824854817,
      "language_loss": 0.80701208,
      "learning_rate": 3.3213494467801625e-06,
      "loss": 0.82926244,
      "num_input_tokens_seen": 52044095,
      "step": 2430,
      "time_per_iteration": 2.71351957321167
    },
    {
      "auxiliary_loss_clip": 0.01144125,
      "auxiliary_loss_mlp": 0.01026349,
      "balance_loss_clip": 1.04536402,
      "balance_loss_mlp": 1.0165379,
      "epoch": 0.2923104671436301,
      "flos": 20740818752640.0,
      "grad_norm": 2.098903703839096,
      "language_loss": 0.71527028,
      "learning_rate": 3.3207645941289063e-06,
      "loss": 0.73697507,
      "num_input_tokens_seen": 52062440,
      "step": 2431,
      "time_per_iteration": 2.958420991897583
    },
    {
      "auxiliary_loss_clip": 0.01194899,
      "auxiliary_loss_mlp": 0.00888201,
      "balance_loss_clip": 1.05984104,
      "balance_loss_mlp": 1.00099111,
      "epoch": 0.29243071003426924,
      "flos": 35809114999680.0,
      "grad_norm": 2.1287637953172673,
      "language_loss": 0.80553722,
      "learning_rate": 3.320179541118711e-06,
      "loss": 0.82636821,
      "num_input_tokens_seen": 52084940,
      "step": 2432,
      "time_per_iteration": 4.280299663543701
    },
    {
      "auxiliary_loss_clip": 0.01094002,
      "auxiliary_loss_mlp": 0.01003452,
      "balance_loss_clip": 1.02382207,
      "balance_loss_mlp": 1.00149727,
      "epoch": 0.2925509529249083,
      "flos": 58081598524800.0,
      "grad_norm": 0.9964013242567756,
      "language_loss": 0.60282326,
      "learning_rate": 3.3195942878383293e-06,
      "loss": 0.62379777,
      "num_input_tokens_seen": 52141040,
      "step": 2433,
      "time_per_iteration": 3.2852346897125244
    },
    {
      "auxiliary_loss_clip": 0.01195267,
      "auxiliary_loss_mlp": 0.01027963,
      "balance_loss_clip": 1.05703735,
      "balance_loss_mlp": 1.01783586,
      "epoch": 0.2926711958155474,
      "flos": 21397122103680.0,
      "grad_norm": 1.8293380039005995,
      "language_loss": 0.78154129,
      "learning_rate": 3.319008834376543e-06,
      "loss": 0.80377358,
      "num_input_tokens_seen": 52160730,
      "step": 2434,
      "time_per_iteration": 2.6501758098602295
    },
    {
      "auxiliary_loss_clip": 0.01180639,
      "auxiliary_loss_mlp": 0.01030388,
      "balance_loss_clip": 1.05065417,
      "balance_loss_mlp": 1.02113104,
      "epoch": 0.2927914387061865,
      "flos": 23185796688000.0,
      "grad_norm": 2.2896545431463693,
      "language_loss": 0.8851859,
      "learning_rate": 3.3184231808221654e-06,
      "loss": 0.90729618,
      "num_input_tokens_seen": 52175055,
      "step": 2435,
      "time_per_iteration": 2.7534523010253906
    },
    {
      "auxiliary_loss_clip": 0.01174218,
      "auxiliary_loss_mlp": 0.01031117,
      "balance_loss_clip": 1.05276954,
      "balance_loss_mlp": 1.02157402,
      "epoch": 0.29291168159682557,
      "flos": 22455553190400.0,
      "grad_norm": 2.3707134504734713,
      "language_loss": 0.62811816,
      "learning_rate": 3.3178373272640394e-06,
      "loss": 0.65017152,
      "num_input_tokens_seen": 52194150,
      "step": 2436,
      "time_per_iteration": 3.669921636581421
    },
    {
      "auxiliary_loss_clip": 0.01202889,
      "auxiliary_loss_mlp": 0.01030875,
      "balance_loss_clip": 1.05876124,
      "balance_loss_mlp": 1.02171397,
      "epoch": 0.2930319244874647,
      "flos": 21170632896000.0,
      "grad_norm": 2.059781975766451,
      "language_loss": 0.85041559,
      "learning_rate": 3.3172512737910387e-06,
      "loss": 0.87275326,
      "num_input_tokens_seen": 52211660,
      "step": 2437,
      "time_per_iteration": 2.6369054317474365
    },
    {
      "auxiliary_loss_clip": 0.01193868,
      "auxiliary_loss_mlp": 0.01027975,
      "balance_loss_clip": 1.05548012,
      "balance_loss_mlp": 1.01868248,
      "epoch": 0.2931521673781038,
      "flos": 31357843931520.0,
      "grad_norm": 2.4161717898030513,
      "language_loss": 0.88703668,
      "learning_rate": 3.3166650204920674e-06,
      "loss": 0.90925515,
      "num_input_tokens_seen": 52232830,
      "step": 2438,
      "time_per_iteration": 2.712844133377075
    },
    {
      "auxiliary_loss_clip": 0.01192434,
      "auxiliary_loss_mlp": 0.01033234,
      "balance_loss_clip": 1.05767965,
      "balance_loss_mlp": 1.02366769,
      "epoch": 0.29327241026874284,
      "flos": 24200990778240.0,
      "grad_norm": 4.719661507774861,
      "language_loss": 0.81595945,
      "learning_rate": 3.316078567456059e-06,
      "loss": 0.83821607,
      "num_input_tokens_seen": 52250670,
      "step": 2439,
      "time_per_iteration": 2.6573832035064697
    },
    {
      "auxiliary_loss_clip": 0.01157296,
      "auxiliary_loss_mlp": 0.01034632,
      "balance_loss_clip": 1.05062723,
      "balance_loss_mlp": 1.02592397,
      "epoch": 0.29339265315938196,
      "flos": 24242611662720.0,
      "grad_norm": 1.637113611751357,
      "language_loss": 0.76166254,
      "learning_rate": 3.3154919147719786e-06,
      "loss": 0.78358185,
      "num_input_tokens_seen": 52271685,
      "step": 2440,
      "time_per_iteration": 2.815114736557007
    },
    {
      "auxiliary_loss_clip": 0.01191164,
      "auxiliary_loss_mlp": 0.01027264,
      "balance_loss_clip": 1.05531931,
      "balance_loss_mlp": 1.01778114,
      "epoch": 0.29351289605002107,
      "flos": 16946641134720.0,
      "grad_norm": 2.050153049206022,
      "language_loss": 0.86380219,
      "learning_rate": 3.31490506252882e-06,
      "loss": 0.88598651,
      "num_input_tokens_seen": 52291065,
      "step": 2441,
      "time_per_iteration": 2.6342971324920654
    },
    {
      "auxiliary_loss_clip": 0.01166449,
      "auxiliary_loss_mlp": 0.01029782,
      "balance_loss_clip": 1.05163026,
      "balance_loss_mlp": 1.02104962,
      "epoch": 0.2936331389406601,
      "flos": 19829082810240.0,
      "grad_norm": 1.842540910995635,
      "language_loss": 0.84367824,
      "learning_rate": 3.31431801081561e-06,
      "loss": 0.86564052,
      "num_input_tokens_seen": 52310000,
      "step": 2442,
      "time_per_iteration": 2.783363103866577
    },
    {
      "auxiliary_loss_clip": 0.01082245,
      "auxiliary_loss_mlp": 0.01007409,
      "balance_loss_clip": 1.02429557,
      "balance_loss_mlp": 1.00557351,
      "epoch": 0.29375338183129923,
      "flos": 71416844398080.0,
      "grad_norm": 0.9015665090434667,
      "language_loss": 0.67882228,
      "learning_rate": 3.313730759721402e-06,
      "loss": 0.69971883,
      "num_input_tokens_seen": 52372930,
      "step": 2443,
      "time_per_iteration": 3.3479607105255127
    },
    {
      "auxiliary_loss_clip": 0.01180863,
      "auxiliary_loss_mlp": 0.01027442,
      "balance_loss_clip": 1.05511165,
      "balance_loss_mlp": 1.0190258,
      "epoch": 0.29387362472193834,
      "flos": 22054502862720.0,
      "grad_norm": 2.0514799188864394,
      "language_loss": 0.86618084,
      "learning_rate": 3.313143309335282e-06,
      "loss": 0.88826394,
      "num_input_tokens_seen": 52391420,
      "step": 2444,
      "time_per_iteration": 2.7551121711730957
    },
    {
      "auxiliary_loss_clip": 0.01172487,
      "auxiliary_loss_mlp": 0.01032991,
      "balance_loss_clip": 1.05577993,
      "balance_loss_mlp": 1.024122,
      "epoch": 0.2939938676125774,
      "flos": 22966418373120.0,
      "grad_norm": 1.8184182138892961,
      "language_loss": 0.84694767,
      "learning_rate": 3.3125556597463665e-06,
      "loss": 0.86900246,
      "num_input_tokens_seen": 52410725,
      "step": 2445,
      "time_per_iteration": 2.7748730182647705
    },
    {
      "auxiliary_loss_clip": 0.0119273,
      "auxiliary_loss_mlp": 0.01026502,
      "balance_loss_clip": 1.05944824,
      "balance_loss_mlp": 1.01790094,
      "epoch": 0.2941141105032165,
      "flos": 31358705857920.0,
      "grad_norm": 1.6008769209313656,
      "language_loss": 0.66287231,
      "learning_rate": 3.311967811043801e-06,
      "loss": 0.68506455,
      "num_input_tokens_seen": 52432645,
      "step": 2446,
      "time_per_iteration": 2.745307207107544
    },
    {
      "auxiliary_loss_clip": 0.01193246,
      "auxiliary_loss_mlp": 0.01026282,
      "balance_loss_clip": 1.05956507,
      "balance_loss_mlp": 1.01721573,
      "epoch": 0.29423435339385556,
      "flos": 23222138273280.0,
      "grad_norm": 4.695829781270921,
      "language_loss": 0.81691325,
      "learning_rate": 3.3113797633167617e-06,
      "loss": 0.83910853,
      "num_input_tokens_seen": 52450940,
      "step": 2447,
      "time_per_iteration": 2.635932445526123
    },
    {
      "auxiliary_loss_clip": 0.01203012,
      "auxiliary_loss_mlp": 0.01031464,
      "balance_loss_clip": 1.05868387,
      "balance_loss_mlp": 1.02258849,
      "epoch": 0.2943545962844947,
      "flos": 26864054138880.0,
      "grad_norm": 2.7840099696509752,
      "language_loss": 0.68858612,
      "learning_rate": 3.310791516654455e-06,
      "loss": 0.71093082,
      "num_input_tokens_seen": 52468000,
      "step": 2448,
      "time_per_iteration": 2.6924831867218018
    },
    {
      "auxiliary_loss_clip": 0.01178769,
      "auxiliary_loss_mlp": 0.01034145,
      "balance_loss_clip": 1.05244637,
      "balance_loss_mlp": 1.02557373,
      "epoch": 0.2944748391751338,
      "flos": 20231677422720.0,
      "grad_norm": 2.193066777719152,
      "language_loss": 0.79373538,
      "learning_rate": 3.3102030711461177e-06,
      "loss": 0.81586456,
      "num_input_tokens_seen": 52487575,
      "step": 2449,
      "time_per_iteration": 2.761622190475464
    },
    {
      "auxiliary_loss_clip": 0.01175858,
      "auxiliary_loss_mlp": 0.01028894,
      "balance_loss_clip": 1.05439651,
      "balance_loss_mlp": 1.01913095,
      "epoch": 0.29459508206577284,
      "flos": 15960965045760.0,
      "grad_norm": 2.247726866248331,
      "language_loss": 0.68089354,
      "learning_rate": 3.3096144268810156e-06,
      "loss": 0.70294106,
      "num_input_tokens_seen": 52506335,
      "step": 2450,
      "time_per_iteration": 2.684671401977539
    },
    {
      "auxiliary_loss_clip": 0.01182885,
      "auxiliary_loss_mlp": 0.01033023,
      "balance_loss_clip": 1.05228806,
      "balance_loss_mlp": 1.02292609,
      "epoch": 0.29471532495641195,
      "flos": 20412882558720.0,
      "grad_norm": 2.158988937004681,
      "language_loss": 0.73231119,
      "learning_rate": 3.3090255839484462e-06,
      "loss": 0.75447023,
      "num_input_tokens_seen": 52524330,
      "step": 2451,
      "time_per_iteration": 2.7003142833709717
    },
    {
      "auxiliary_loss_clip": 0.01183663,
      "auxiliary_loss_mlp": 0.01027587,
      "balance_loss_clip": 1.05397689,
      "balance_loss_mlp": 1.01877165,
      "epoch": 0.29483556784705106,
      "flos": 20376576887040.0,
      "grad_norm": 2.3934400376885403,
      "language_loss": 0.85600853,
      "learning_rate": 3.3084365424377366e-06,
      "loss": 0.87812108,
      "num_input_tokens_seen": 52543095,
      "step": 2452,
      "time_per_iteration": 2.725142240524292
    },
    {
      "auxiliary_loss_clip": 0.01076075,
      "auxiliary_loss_mlp": 0.01014878,
      "balance_loss_clip": 1.02716362,
      "balance_loss_mlp": 1.01283979,
      "epoch": 0.2949558107376901,
      "flos": 68555660595840.0,
      "grad_norm": 0.7390478420918111,
      "language_loss": 0.55988085,
      "learning_rate": 3.307847302438245e-06,
      "loss": 0.5807904,
      "num_input_tokens_seen": 52597075,
      "step": 2453,
      "time_per_iteration": 4.236295700073242
    },
    {
      "auxiliary_loss_clip": 0.0114941,
      "auxiliary_loss_mlp": 0.01031611,
      "balance_loss_clip": 1.0476898,
      "balance_loss_mlp": 1.02205002,
      "epoch": 0.2950760536283292,
      "flos": 16107085572480.0,
      "grad_norm": 3.431741598845263,
      "language_loss": 0.78016222,
      "learning_rate": 3.3072578640393562e-06,
      "loss": 0.80197239,
      "num_input_tokens_seen": 52614410,
      "step": 2454,
      "time_per_iteration": 2.74200439453125
    },
    {
      "auxiliary_loss_clip": 0.01182787,
      "auxiliary_loss_mlp": 0.0103416,
      "balance_loss_clip": 1.05548632,
      "balance_loss_mlp": 1.02521896,
      "epoch": 0.29519629651896834,
      "flos": 20483626394880.0,
      "grad_norm": 1.8130068815761584,
      "language_loss": 0.79697806,
      "learning_rate": 3.3066682273304886e-06,
      "loss": 0.81914747,
      "num_input_tokens_seen": 52632055,
      "step": 2455,
      "time_per_iteration": 2.687171220779419
    },
    {
      "auxiliary_loss_clip": 0.01198756,
      "auxiliary_loss_mlp": 0.0088849,
      "balance_loss_clip": 1.05848885,
      "balance_loss_mlp": 1.00108027,
      "epoch": 0.2953165394096074,
      "flos": 18916484941440.0,
      "grad_norm": 2.003177980599089,
      "language_loss": 0.78937298,
      "learning_rate": 3.3060783924010904e-06,
      "loss": 0.81024545,
      "num_input_tokens_seen": 52649980,
      "step": 2456,
      "time_per_iteration": 2.6875133514404297
    },
    {
      "auxiliary_loss_clip": 0.0117243,
      "auxiliary_loss_mlp": 0.01028818,
      "balance_loss_clip": 1.05425715,
      "balance_loss_mlp": 1.0202949,
      "epoch": 0.2954367823002465,
      "flos": 20624467622400.0,
      "grad_norm": 2.238178924164044,
      "language_loss": 0.84804481,
      "learning_rate": 3.3054883593406387e-06,
      "loss": 0.87005728,
      "num_input_tokens_seen": 52664730,
      "step": 2457,
      "time_per_iteration": 2.656226634979248
    },
    {
      "auxiliary_loss_clip": 0.01186153,
      "auxiliary_loss_mlp": 0.01029179,
      "balance_loss_clip": 1.05459094,
      "balance_loss_mlp": 1.01987481,
      "epoch": 0.2955570251908856,
      "flos": 31175525473920.0,
      "grad_norm": 2.335612743875437,
      "language_loss": 0.65098286,
      "learning_rate": 3.3048981282386404e-06,
      "loss": 0.67313617,
      "num_input_tokens_seen": 52686040,
      "step": 2458,
      "time_per_iteration": 3.8468008041381836
    },
    {
      "auxiliary_loss_clip": 0.01159626,
      "auxiliary_loss_mlp": 0.01033979,
      "balance_loss_clip": 1.05241978,
      "balance_loss_mlp": 1.02533031,
      "epoch": 0.29567726808152467,
      "flos": 21650328051840.0,
      "grad_norm": 2.4903435957873494,
      "language_loss": 0.82546628,
      "learning_rate": 3.304307699184634e-06,
      "loss": 0.84740233,
      "num_input_tokens_seen": 52704630,
      "step": 2459,
      "time_per_iteration": 2.740541696548462
    },
    {
      "auxiliary_loss_clip": 0.01187199,
      "auxiliary_loss_mlp": 0.01035555,
      "balance_loss_clip": 1.05874121,
      "balance_loss_mlp": 1.02706695,
      "epoch": 0.2957975109721638,
      "flos": 24243868638720.0,
      "grad_norm": 1.7034315117866177,
      "language_loss": 0.79048371,
      "learning_rate": 3.3037170722681866e-06,
      "loss": 0.81271124,
      "num_input_tokens_seen": 52725465,
      "step": 2460,
      "time_per_iteration": 2.7345426082611084
    },
    {
      "auxiliary_loss_clip": 0.01162527,
      "auxiliary_loss_mlp": 0.01029316,
      "balance_loss_clip": 1.05325055,
      "balance_loss_mlp": 1.02040482,
      "epoch": 0.29591775386280283,
      "flos": 13479717352320.0,
      "grad_norm": 1.936620488902222,
      "language_loss": 0.67976344,
      "learning_rate": 3.3031262475788956e-06,
      "loss": 0.70168185,
      "num_input_tokens_seen": 52742405,
      "step": 2461,
      "time_per_iteration": 2.705915689468384
    },
    {
      "auxiliary_loss_clip": 0.01180976,
      "auxiliary_loss_mlp": 0.01027872,
      "balance_loss_clip": 1.05477345,
      "balance_loss_mlp": 1.01874065,
      "epoch": 0.29603799675344195,
      "flos": 17749783284480.0,
      "grad_norm": 1.9533541803924792,
      "language_loss": 0.73159665,
      "learning_rate": 3.3025352252063897e-06,
      "loss": 0.75368512,
      "num_input_tokens_seen": 52761100,
      "step": 2462,
      "time_per_iteration": 3.516012668609619
    },
    {
      "auxiliary_loss_clip": 0.01195673,
      "auxiliary_loss_mlp": 0.010318,
      "balance_loss_clip": 1.06238079,
      "balance_loss_mlp": 1.02302587,
      "epoch": 0.29615823964408106,
      "flos": 22783920347520.0,
      "grad_norm": 3.579978814377129,
      "language_loss": 0.75155532,
      "learning_rate": 3.3019440052403252e-06,
      "loss": 0.77383006,
      "num_input_tokens_seen": 52780965,
      "step": 2463,
      "time_per_iteration": 2.6759417057037354
    },
    {
      "auxiliary_loss_clip": 0.011861,
      "auxiliary_loss_mlp": 0.01024438,
      "balance_loss_clip": 1.05655885,
      "balance_loss_mlp": 1.01513398,
      "epoch": 0.2962784825347201,
      "flos": 23514199758720.0,
      "grad_norm": 2.1181993726573882,
      "language_loss": 0.7086556,
      "learning_rate": 3.30135258777039e-06,
      "loss": 0.73076093,
      "num_input_tokens_seen": 52800335,
      "step": 2464,
      "time_per_iteration": 2.6807122230529785
    },
    {
      "auxiliary_loss_clip": 0.01195096,
      "auxiliary_loss_mlp": 0.00889034,
      "balance_loss_clip": 1.05403578,
      "balance_loss_mlp": 1.00118017,
      "epoch": 0.2963987254253592,
      "flos": 16362769559040.0,
      "grad_norm": 2.201471206866888,
      "language_loss": 0.70087981,
      "learning_rate": 3.3007609728863024e-06,
      "loss": 0.72172105,
      "num_input_tokens_seen": 52818425,
      "step": 2465,
      "time_per_iteration": 2.658848285675049
    },
    {
      "auxiliary_loss_clip": 0.01144106,
      "auxiliary_loss_mlp": 0.01030967,
      "balance_loss_clip": 1.05282164,
      "balance_loss_mlp": 1.02176952,
      "epoch": 0.29651896831599833,
      "flos": 33472263980160.0,
      "grad_norm": 1.9440755917106074,
      "language_loss": 0.72919077,
      "learning_rate": 3.300169160677809e-06,
      "loss": 0.75094151,
      "num_input_tokens_seen": 52842340,
      "step": 2466,
      "time_per_iteration": 2.8513574600219727
    },
    {
      "auxiliary_loss_clip": 0.01186017,
      "auxiliary_loss_mlp": 0.01029928,
      "balance_loss_clip": 1.05722368,
      "balance_loss_mlp": 1.01965189,
      "epoch": 0.2966392112066374,
      "flos": 23805363404160.0,
      "grad_norm": 2.9992802175732742,
      "language_loss": 0.77816284,
      "learning_rate": 3.2995771512346878e-06,
      "loss": 0.80032229,
      "num_input_tokens_seen": 52860690,
      "step": 2467,
      "time_per_iteration": 2.7484846115112305
    },
    {
      "auxiliary_loss_clip": 0.01210621,
      "auxiliary_loss_mlp": 0.00889036,
      "balance_loss_clip": 1.06218028,
      "balance_loss_mlp": 1.00122285,
      "epoch": 0.2967594540972765,
      "flos": 19938466702080.0,
      "grad_norm": 2.355596767104657,
      "language_loss": 0.73108149,
      "learning_rate": 3.298984944646746e-06,
      "loss": 0.75207806,
      "num_input_tokens_seen": 52879370,
      "step": 2468,
      "time_per_iteration": 2.633816719055176
    },
    {
      "auxiliary_loss_clip": 0.01200116,
      "auxiliary_loss_mlp": 0.00888355,
      "balance_loss_clip": 1.06037283,
      "balance_loss_mlp": 1.0011096,
      "epoch": 0.2968796969879156,
      "flos": 23732823888000.0,
      "grad_norm": 2.2943265722486568,
      "language_loss": 0.81832981,
      "learning_rate": 3.298392541003822e-06,
      "loss": 0.83921456,
      "num_input_tokens_seen": 52898775,
      "step": 2469,
      "time_per_iteration": 2.651393413543701
    },
    {
      "auxiliary_loss_clip": 0.01185269,
      "auxiliary_loss_mlp": 0.01030227,
      "balance_loss_clip": 1.0582726,
      "balance_loss_mlp": 1.02126837,
      "epoch": 0.29699993987855466,
      "flos": 22893699288960.0,
      "grad_norm": 2.0879218318086066,
      "language_loss": 0.89740473,
      "learning_rate": 3.2977999403957806e-06,
      "loss": 0.91955972,
      "num_input_tokens_seen": 52917535,
      "step": 2470,
      "time_per_iteration": 2.7544946670532227
    },
    {
      "auxiliary_loss_clip": 0.01206915,
      "auxiliary_loss_mlp": 0.01033009,
      "balance_loss_clip": 1.06087601,
      "balance_loss_mlp": 1.02377057,
      "epoch": 0.2971201827691938,
      "flos": 33832555349760.0,
      "grad_norm": 3.650516920810719,
      "language_loss": 0.67118847,
      "learning_rate": 3.2972071429125207e-06,
      "loss": 0.69358766,
      "num_input_tokens_seen": 52938755,
      "step": 2471,
      "time_per_iteration": 2.7398974895477295
    },
    {
      "auxiliary_loss_clip": 0.01170181,
      "auxiliary_loss_mlp": 0.01027693,
      "balance_loss_clip": 1.05403662,
      "balance_loss_mlp": 1.01780438,
      "epoch": 0.2972404256598329,
      "flos": 22054359208320.0,
      "grad_norm": 2.294940798691851,
      "language_loss": 0.88855249,
      "learning_rate": 3.2966141486439682e-06,
      "loss": 0.91053128,
      "num_input_tokens_seen": 52957945,
      "step": 2472,
      "time_per_iteration": 2.8243095874786377
    },
    {
      "auxiliary_loss_clip": 0.01152191,
      "auxiliary_loss_mlp": 0.01030671,
      "balance_loss_clip": 1.04564202,
      "balance_loss_mlp": 1.02065134,
      "epoch": 0.29736066855047194,
      "flos": 31978595796480.0,
      "grad_norm": 2.3537100916301714,
      "language_loss": 0.64190716,
      "learning_rate": 3.29602095768008e-06,
      "loss": 0.66373575,
      "num_input_tokens_seen": 52978460,
      "step": 2473,
      "time_per_iteration": 2.9936065673828125
    },
    {
      "auxiliary_loss_clip": 0.01179475,
      "auxiliary_loss_mlp": 0.01027695,
      "balance_loss_clip": 1.0589509,
      "balance_loss_mlp": 1.0184797,
      "epoch": 0.29748091144111105,
      "flos": 33510401245440.0,
      "grad_norm": 2.253380817032591,
      "language_loss": 0.63962662,
      "learning_rate": 3.2954275701108437e-06,
      "loss": 0.66169834,
      "num_input_tokens_seen": 52999640,
      "step": 2474,
      "time_per_iteration": 2.798611640930176
    },
    {
      "auxiliary_loss_clip": 0.01159371,
      "auxiliary_loss_mlp": 0.01034114,
      "balance_loss_clip": 1.05289578,
      "balance_loss_mlp": 1.02426171,
      "epoch": 0.29760115433175016,
      "flos": 41283373409280.0,
      "grad_norm": 2.259062130501418,
      "language_loss": 0.68776059,
      "learning_rate": 3.294833986026275e-06,
      "loss": 0.70969546,
      "num_input_tokens_seen": 53022880,
      "step": 2475,
      "time_per_iteration": 2.944242477416992
    },
    {
      "auxiliary_loss_clip": 0.0116779,
      "auxiliary_loss_mlp": 0.01025596,
      "balance_loss_clip": 1.0544579,
      "balance_loss_mlp": 1.01634526,
      "epoch": 0.2977213972223892,
      "flos": 24493339572480.0,
      "grad_norm": 2.0065882718431793,
      "language_loss": 0.85137022,
      "learning_rate": 3.29424020551642e-06,
      "loss": 0.87330407,
      "num_input_tokens_seen": 53041515,
      "step": 2476,
      "time_per_iteration": 2.7639570236206055
    },
    {
      "auxiliary_loss_clip": 0.01208945,
      "auxiliary_loss_mlp": 0.01037799,
      "balance_loss_clip": 1.06119132,
      "balance_loss_mlp": 1.02706409,
      "epoch": 0.2978416401130283,
      "flos": 21285116519040.0,
      "grad_norm": 2.0054039634593033,
      "language_loss": 0.72205627,
      "learning_rate": 3.2936462286713546e-06,
      "loss": 0.74452376,
      "num_input_tokens_seen": 53059865,
      "step": 2477,
      "time_per_iteration": 2.694753885269165
    },
    {
      "auxiliary_loss_clip": 0.01195549,
      "auxiliary_loss_mlp": 0.01028527,
      "balance_loss_clip": 1.0597297,
      "balance_loss_mlp": 1.01863217,
      "epoch": 0.2979618830036674,
      "flos": 25772154554880.0,
      "grad_norm": 2.0498594794467038,
      "language_loss": 0.77488452,
      "learning_rate": 3.2930520555811846e-06,
      "loss": 0.79712528,
      "num_input_tokens_seen": 53079490,
      "step": 2478,
      "time_per_iteration": 2.7004518508911133
    },
    {
      "auxiliary_loss_clip": 0.01118409,
      "auxiliary_loss_mlp": 0.00889715,
      "balance_loss_clip": 1.04639554,
      "balance_loss_mlp": 1.00108862,
      "epoch": 0.2980821258943065,
      "flos": 23476996247040.0,
      "grad_norm": 1.9146734848291425,
      "language_loss": 0.80189764,
      "learning_rate": 3.292457686336046e-06,
      "loss": 0.82197893,
      "num_input_tokens_seen": 53098810,
      "step": 2479,
      "time_per_iteration": 3.7963924407958984
    },
    {
      "auxiliary_loss_clip": 0.01092409,
      "auxiliary_loss_mlp": 0.0100693,
      "balance_loss_clip": 1.02830517,
      "balance_loss_mlp": 1.00486779,
      "epoch": 0.2982023687849456,
      "flos": 69752314195200.0,
      "grad_norm": 0.8578905320806914,
      "language_loss": 0.61172569,
      "learning_rate": 3.291863121026105e-06,
      "loss": 0.63271904,
      "num_input_tokens_seen": 53162590,
      "step": 2480,
      "time_per_iteration": 3.4676966667175293
    },
    {
      "auxiliary_loss_clip": 0.01196237,
      "auxiliary_loss_mlp": 0.01033317,
      "balance_loss_clip": 1.05910134,
      "balance_loss_mlp": 1.02432919,
      "epoch": 0.29832261167558466,
      "flos": 29825930741760.0,
      "grad_norm": 2.0877344314790234,
      "language_loss": 0.76562476,
      "learning_rate": 3.2912683597415547e-06,
      "loss": 0.78792036,
      "num_input_tokens_seen": 53186675,
      "step": 2481,
      "time_per_iteration": 2.7785754203796387
    },
    {
      "auxiliary_loss_clip": 0.01176479,
      "auxiliary_loss_mlp": 0.01031773,
      "balance_loss_clip": 1.05503428,
      "balance_loss_mlp": 1.02261758,
      "epoch": 0.29844285456622377,
      "flos": 33910158683520.0,
      "grad_norm": 2.115635233068939,
      "language_loss": 0.7769624,
      "learning_rate": 3.2906734025726213e-06,
      "loss": 0.79904491,
      "num_input_tokens_seen": 53205940,
      "step": 2482,
      "time_per_iteration": 2.8385727405548096
    },
    {
      "auxiliary_loss_clip": 0.01201303,
      "auxiliary_loss_mlp": 0.01035916,
      "balance_loss_clip": 1.06049943,
      "balance_loss_mlp": 1.0259378,
      "epoch": 0.2985630974568629,
      "flos": 23876933253120.0,
      "grad_norm": 1.985207001361343,
      "language_loss": 0.87941939,
      "learning_rate": 3.290078249609559e-06,
      "loss": 0.90179157,
      "num_input_tokens_seen": 53225360,
      "step": 2483,
      "time_per_iteration": 3.7997286319732666
    },
    {
      "auxiliary_loss_clip": 0.01194528,
      "auxiliary_loss_mlp": 0.01028218,
      "balance_loss_clip": 1.06211185,
      "balance_loss_mlp": 1.01920629,
      "epoch": 0.29868334034750194,
      "flos": 21799106184960.0,
      "grad_norm": 2.22220012344086,
      "language_loss": 0.87860692,
      "learning_rate": 3.2894829009426514e-06,
      "loss": 0.90083432,
      "num_input_tokens_seen": 53243195,
      "step": 2484,
      "time_per_iteration": 2.6929783821105957
    },
    {
      "auxiliary_loss_clip": 0.01193551,
      "auxiliary_loss_mlp": 0.01025648,
      "balance_loss_clip": 1.05976605,
      "balance_loss_mlp": 1.01663613,
      "epoch": 0.29880358323814105,
      "flos": 25666649331840.0,
      "grad_norm": 2.3026879987191347,
      "language_loss": 0.77550787,
      "learning_rate": 3.288887356662213e-06,
      "loss": 0.79769981,
      "num_input_tokens_seen": 53264530,
      "step": 2485,
      "time_per_iteration": 2.715683698654175
    },
    {
      "auxiliary_loss_clip": 0.01087781,
      "auxiliary_loss_mlp": 0.01001874,
      "balance_loss_clip": 1.02511477,
      "balance_loss_mlp": 0.9998948,
      "epoch": 0.29892382612878016,
      "flos": 71005846003200.0,
      "grad_norm": 0.7799479317575064,
      "language_loss": 0.59727383,
      "learning_rate": 3.288291616858588e-06,
      "loss": 0.61817026,
      "num_input_tokens_seen": 53319920,
      "step": 2486,
      "time_per_iteration": 3.0924174785614014
    },
    {
      "auxiliary_loss_clip": 0.01162678,
      "auxiliary_loss_mlp": 0.01034162,
      "balance_loss_clip": 1.05774391,
      "balance_loss_mlp": 1.02566814,
      "epoch": 0.2990440690194192,
      "flos": 25481134563840.0,
      "grad_norm": 2.7400505990897552,
      "language_loss": 0.76549911,
      "learning_rate": 3.287695681622149e-06,
      "loss": 0.78746754,
      "num_input_tokens_seen": 53339270,
      "step": 2487,
      "time_per_iteration": 3.983623743057251
    },
    {
      "auxiliary_loss_clip": 0.01189082,
      "auxiliary_loss_mlp": 0.01029979,
      "balance_loss_clip": 1.05633044,
      "balance_loss_mlp": 1.02090716,
      "epoch": 0.2991643119100583,
      "flos": 23732357011200.0,
      "grad_norm": 2.3426079603087446,
      "language_loss": 0.81191885,
      "learning_rate": 3.2870995510432982e-06,
      "loss": 0.83410949,
      "num_input_tokens_seen": 53357750,
      "step": 2488,
      "time_per_iteration": 2.6978695392608643
    },
    {
      "auxiliary_loss_clip": 0.01188448,
      "auxiliary_loss_mlp": 0.01027624,
      "balance_loss_clip": 1.0576123,
      "balance_loss_mlp": 1.01923132,
      "epoch": 0.29928455480069743,
      "flos": 27417545786880.0,
      "grad_norm": 5.536010872630905,
      "language_loss": 0.7677384,
      "learning_rate": 3.2865032252124697e-06,
      "loss": 0.78989911,
      "num_input_tokens_seen": 53378265,
      "step": 2489,
      "time_per_iteration": 2.7018282413482666
    },
    {
      "auxiliary_loss_clip": 0.01184036,
      "auxiliary_loss_mlp": 0.01029379,
      "balance_loss_clip": 1.05676448,
      "balance_loss_mlp": 1.02086759,
      "epoch": 0.2994047976913365,
      "flos": 33692935184640.0,
      "grad_norm": 2.70837593489732,
      "language_loss": 0.77657914,
      "learning_rate": 3.2859067042201243e-06,
      "loss": 0.79871333,
      "num_input_tokens_seen": 53400305,
      "step": 2490,
      "time_per_iteration": 2.8204174041748047
    },
    {
      "auxiliary_loss_clip": 0.01131027,
      "auxiliary_loss_mlp": 0.01029671,
      "balance_loss_clip": 1.04927933,
      "balance_loss_mlp": 1.02087379,
      "epoch": 0.2995250405819756,
      "flos": 16763963541120.0,
      "grad_norm": 2.006654723500362,
      "language_loss": 0.77745742,
      "learning_rate": 3.2853099881567544e-06,
      "loss": 0.7990644,
      "num_input_tokens_seen": 53418705,
      "step": 2491,
      "time_per_iteration": 2.7636501789093018
    },
    {
      "auxiliary_loss_clip": 0.01202882,
      "auxiliary_loss_mlp": 0.01032965,
      "balance_loss_clip": 1.06146657,
      "balance_loss_mlp": 1.02440524,
      "epoch": 0.29964528347261465,
      "flos": 22963976248320.0,
      "grad_norm": 1.8929962969819587,
      "language_loss": 0.78877836,
      "learning_rate": 3.284713077112881e-06,
      "loss": 0.81113684,
      "num_input_tokens_seen": 53438135,
      "step": 2492,
      "time_per_iteration": 2.739546537399292
    },
    {
      "auxiliary_loss_clip": 0.01181835,
      "auxiliary_loss_mlp": 0.01029915,
      "balance_loss_clip": 1.0582931,
      "balance_loss_mlp": 1.02095008,
      "epoch": 0.29976552636325376,
      "flos": 16938021870720.0,
      "grad_norm": 2.5830617494496293,
      "language_loss": 0.86799288,
      "learning_rate": 3.284115971179056e-06,
      "loss": 0.89011043,
      "num_input_tokens_seen": 53452165,
      "step": 2493,
      "time_per_iteration": 2.6877777576446533
    },
    {
      "auxiliary_loss_clip": 0.01156138,
      "auxiliary_loss_mlp": 0.01033522,
      "balance_loss_clip": 1.05358684,
      "balance_loss_mlp": 1.02447355,
      "epoch": 0.2998857692538929,
      "flos": 17056455989760.0,
      "grad_norm": 1.9975739080885442,
      "language_loss": 0.78075522,
      "learning_rate": 3.283518670445859e-06,
      "loss": 0.80265182,
      "num_input_tokens_seen": 53470075,
      "step": 2494,
      "time_per_iteration": 2.756521701812744
    },
    {
      "auxiliary_loss_clip": 0.01078852,
      "auxiliary_loss_mlp": 0.00877193,
      "balance_loss_clip": 1.02537608,
      "balance_loss_mlp": 1.00068748,
      "epoch": 0.30000601214453193,
      "flos": 68831528025600.0,
      "grad_norm": 0.7252860954245992,
      "language_loss": 0.54362816,
      "learning_rate": 3.2829211750038995e-06,
      "loss": 0.56318861,
      "num_input_tokens_seen": 53538705,
      "step": 2495,
      "time_per_iteration": 3.2917370796203613
    },
    {
      "auxiliary_loss_clip": 0.01169067,
      "auxiliary_loss_mlp": 0.01032985,
      "balance_loss_clip": 1.05347776,
      "balance_loss_mlp": 1.02379382,
      "epoch": 0.30012625503517104,
      "flos": 17603267708160.0,
      "grad_norm": 2.1750888678036358,
      "language_loss": 0.88886827,
      "learning_rate": 3.2823234849438183e-06,
      "loss": 0.91088879,
      "num_input_tokens_seen": 53556740,
      "step": 2496,
      "time_per_iteration": 2.7499475479125977
    },
    {
      "auxiliary_loss_clip": 0.01185709,
      "auxiliary_loss_mlp": 0.0102618,
      "balance_loss_clip": 1.05702186,
      "balance_loss_mlp": 1.0176152,
      "epoch": 0.30024649792581015,
      "flos": 21252581775360.0,
      "grad_norm": 3.2483047721059446,
      "language_loss": 0.75353765,
      "learning_rate": 3.2817256003562836e-06,
      "loss": 0.77565658,
      "num_input_tokens_seen": 53577115,
      "step": 2497,
      "time_per_iteration": 2.734083890914917
    },
    {
      "auxiliary_loss_clip": 0.01158975,
      "auxiliary_loss_mlp": 0.01034866,
      "balance_loss_clip": 1.05405581,
      "balance_loss_mlp": 1.02518606,
      "epoch": 0.3003667408164492,
      "flos": 23003262748800.0,
      "grad_norm": 3.1121481593164884,
      "language_loss": 0.65965533,
      "learning_rate": 3.281127521331995e-06,
      "loss": 0.68159378,
      "num_input_tokens_seen": 53598295,
      "step": 2498,
      "time_per_iteration": 2.872074842453003
    },
    {
      "auxiliary_loss_clip": 0.01094741,
      "auxiliary_loss_mlp": 0.01002867,
      "balance_loss_clip": 1.0222615,
      "balance_loss_mlp": 1.00080454,
      "epoch": 0.3004869837070883,
      "flos": 64232340750720.0,
      "grad_norm": 0.9029568853672499,
      "language_loss": 0.60651439,
      "learning_rate": 3.2805292479616798e-06,
      "loss": 0.62749046,
      "num_input_tokens_seen": 53657160,
      "step": 2499,
      "time_per_iteration": 3.0880463123321533
    },
    {
      "auxiliary_loss_clip": 0.01187657,
      "auxiliary_loss_mlp": 0.01033802,
      "balance_loss_clip": 1.05732644,
      "balance_loss_mlp": 1.02540362,
      "epoch": 0.30060722659772743,
      "flos": 26248653400320.0,
      "grad_norm": 2.656966804500558,
      "language_loss": 0.91886008,
      "learning_rate": 3.2799307803360955e-06,
      "loss": 0.94107461,
      "num_input_tokens_seen": 53673090,
      "step": 2500,
      "time_per_iteration": 2.750046491622925
    },
    {
      "auxiliary_loss_clip": 0.01199081,
      "auxiliary_loss_mlp": 0.01026357,
      "balance_loss_clip": 1.0578146,
      "balance_loss_mlp": 1.01806557,
      "epoch": 0.3007274694883665,
      "flos": 24970879912320.0,
      "grad_norm": 1.5153342596243828,
      "language_loss": 0.81554997,
      "learning_rate": 3.27933211854603e-06,
      "loss": 0.83780432,
      "num_input_tokens_seen": 53692145,
      "step": 2501,
      "time_per_iteration": 2.68449068069458
    },
    {
      "auxiliary_loss_clip": 0.01182841,
      "auxiliary_loss_mlp": 0.01028462,
      "balance_loss_clip": 1.05601573,
      "balance_loss_mlp": 1.01979601,
      "epoch": 0.3008477123790056,
      "flos": 17055845458560.0,
      "grad_norm": 2.268528275970944,
      "language_loss": 0.86960542,
      "learning_rate": 3.278733262682299e-06,
      "loss": 0.89171851,
      "num_input_tokens_seen": 53710000,
      "step": 2502,
      "time_per_iteration": 2.633089065551758
    },
    {
      "auxiliary_loss_clip": 0.0120351,
      "auxiliary_loss_mlp": 0.01030505,
      "balance_loss_clip": 1.0598197,
      "balance_loss_mlp": 1.02194226,
      "epoch": 0.3009679552696447,
      "flos": 21506398254720.0,
      "grad_norm": 2.6188381511674175,
      "language_loss": 0.82423687,
      "learning_rate": 3.2781342128357484e-06,
      "loss": 0.84657705,
      "num_input_tokens_seen": 53729355,
      "step": 2503,
      "time_per_iteration": 2.6538171768188477
    },
    {
      "auxiliary_loss_clip": 0.01174145,
      "auxiliary_loss_mlp": 0.01028105,
      "balance_loss_clip": 1.05414391,
      "balance_loss_mlp": 1.01922989,
      "epoch": 0.30108819816028376,
      "flos": 21134004001920.0,
      "grad_norm": 2.8622770077976507,
      "language_loss": 0.80252105,
      "learning_rate": 3.2775349690972547e-06,
      "loss": 0.8245436,
      "num_input_tokens_seen": 53743505,
      "step": 2504,
      "time_per_iteration": 3.856996536254883
    },
    {
      "auxiliary_loss_clip": 0.01081488,
      "auxiliary_loss_mlp": 0.01001888,
      "balance_loss_clip": 1.02030897,
      "balance_loss_mlp": 0.99986106,
      "epoch": 0.30120844105092287,
      "flos": 71126434938240.0,
      "grad_norm": 0.7717075301234013,
      "language_loss": 0.51847315,
      "learning_rate": 3.276935531557722e-06,
      "loss": 0.53930694,
      "num_input_tokens_seen": 53808725,
      "step": 2505,
      "time_per_iteration": 3.3333935737609863
    },
    {
      "auxiliary_loss_clip": 0.01165046,
      "auxiliary_loss_mlp": 0.01029657,
      "balance_loss_clip": 1.05149722,
      "balance_loss_mlp": 1.0205493,
      "epoch": 0.301328683941562,
      "flos": 20264571302400.0,
      "grad_norm": 7.0753915083934515,
      "language_loss": 0.79229039,
      "learning_rate": 3.2763359003080837e-06,
      "loss": 0.81423742,
      "num_input_tokens_seen": 53825680,
      "step": 2506,
      "time_per_iteration": 2.7595112323760986
    },
    {
      "auxiliary_loss_clip": 0.01082727,
      "auxiliary_loss_mlp": 0.01003568,
      "balance_loss_clip": 1.02132154,
      "balance_loss_mlp": 1.00157702,
      "epoch": 0.30144892683220104,
      "flos": 70648212240000.0,
      "grad_norm": 0.798361404972339,
      "language_loss": 0.62433898,
      "learning_rate": 3.2757360754393047e-06,
      "loss": 0.64520192,
      "num_input_tokens_seen": 53889750,
      "step": 2507,
      "time_per_iteration": 3.3644096851348877
    },
    {
      "auxiliary_loss_clip": 0.01190631,
      "auxiliary_loss_mlp": 0.01035028,
      "balance_loss_clip": 1.05689156,
      "balance_loss_mlp": 1.02618849,
      "epoch": 0.30156916972284015,
      "flos": 22820549241600.0,
      "grad_norm": 4.921227488995989,
      "language_loss": 0.64137161,
      "learning_rate": 3.2751360570423767e-06,
      "loss": 0.66362822,
      "num_input_tokens_seen": 53908135,
      "step": 2508,
      "time_per_iteration": 2.6848835945129395
    },
    {
      "auxiliary_loss_clip": 0.01180376,
      "auxiliary_loss_mlp": 0.01039025,
      "balance_loss_clip": 1.05661297,
      "balance_loss_mlp": 1.03028107,
      "epoch": 0.3016894126134792,
      "flos": 29899188529920.0,
      "grad_norm": 3.992387482760114,
      "language_loss": 0.76023525,
      "learning_rate": 3.2745358452083236e-06,
      "loss": 0.78242928,
      "num_input_tokens_seen": 53931035,
      "step": 2509,
      "time_per_iteration": 3.756584644317627
    },
    {
      "auxiliary_loss_clip": 0.01192572,
      "auxiliary_loss_mlp": 0.01029845,
      "balance_loss_clip": 1.05814052,
      "balance_loss_mlp": 1.02197111,
      "epoch": 0.3018096555041183,
      "flos": 21546331200000.0,
      "grad_norm": 1.818056838393599,
      "language_loss": 0.82440794,
      "learning_rate": 3.2739354400281955e-06,
      "loss": 0.84663212,
      "num_input_tokens_seen": 53952255,
      "step": 2510,
      "time_per_iteration": 4.120133876800537
    },
    {
      "auxiliary_loss_clip": 0.01072002,
      "auxiliary_loss_mlp": 0.00877241,
      "balance_loss_clip": 1.01750779,
      "balance_loss_mlp": 1.0006783,
      "epoch": 0.3019298983947574,
      "flos": 59136294597120.0,
      "grad_norm": 0.8662733236681294,
      "language_loss": 0.6363349,
      "learning_rate": 3.2733348415930744e-06,
      "loss": 0.6558274,
      "num_input_tokens_seen": 54014125,
      "step": 2511,
      "time_per_iteration": 3.3433868885040283
    },
    {
      "auxiliary_loss_clip": 0.01166697,
      "auxiliary_loss_mlp": 0.01029937,
      "balance_loss_clip": 1.05325162,
      "balance_loss_mlp": 1.02143121,
      "epoch": 0.3020501412853965,
      "flos": 34423070941440.0,
      "grad_norm": 2.313187444550311,
      "language_loss": 0.80784106,
      "learning_rate": 3.27273404999407e-06,
      "loss": 0.8298074,
      "num_input_tokens_seen": 54036345,
      "step": 2512,
      "time_per_iteration": 2.8112027645111084
    },
    {
      "auxiliary_loss_clip": 0.01081411,
      "auxiliary_loss_mlp": 0.01004186,
      "balance_loss_clip": 1.01935792,
      "balance_loss_mlp": 1.00212336,
      "epoch": 0.3021703841760356,
      "flos": 71008288128000.0,
      "grad_norm": 0.8105690554036548,
      "language_loss": 0.60442561,
      "learning_rate": 3.272133065322322e-06,
      "loss": 0.62528151,
      "num_input_tokens_seen": 54094615,
      "step": 2513,
      "time_per_iteration": 3.2725653648376465
    },
    {
      "auxiliary_loss_clip": 0.01197822,
      "auxiliary_loss_mlp": 0.01029705,
      "balance_loss_clip": 1.05593491,
      "balance_loss_mlp": 1.02078819,
      "epoch": 0.3022906270666747,
      "flos": 21510528318720.0,
      "grad_norm": 1.699672847640865,
      "language_loss": 0.79433155,
      "learning_rate": 3.271531887669e-06,
      "loss": 0.81660688,
      "num_input_tokens_seen": 54114675,
      "step": 2514,
      "time_per_iteration": 3.528925657272339
    },
    {
      "auxiliary_loss_clip": 0.01165583,
      "auxiliary_loss_mlp": 0.01034925,
      "balance_loss_clip": 1.0501771,
      "balance_loss_mlp": 1.02581167,
      "epoch": 0.30241086995731375,
      "flos": 31132001168640.0,
      "grad_norm": 2.641213102747365,
      "language_loss": 0.63148487,
      "learning_rate": 3.2709305171253015e-06,
      "loss": 0.65348995,
      "num_input_tokens_seen": 54134795,
      "step": 2515,
      "time_per_iteration": 2.85971736907959
    },
    {
      "auxiliary_loss_clip": 0.01190827,
      "auxiliary_loss_mlp": 0.01029945,
      "balance_loss_clip": 1.05680156,
      "balance_loss_mlp": 1.02117658,
      "epoch": 0.30253111284795287,
      "flos": 23511542152320.0,
      "grad_norm": 2.0318659504558463,
      "language_loss": 0.77874893,
      "learning_rate": 3.2703289537824536e-06,
      "loss": 0.80095661,
      "num_input_tokens_seen": 54154595,
      "step": 2516,
      "time_per_iteration": 2.660646915435791
    },
    {
      "auxiliary_loss_clip": 0.01162995,
      "auxiliary_loss_mlp": 0.01030879,
      "balance_loss_clip": 1.04942405,
      "balance_loss_mlp": 1.02148581,
      "epoch": 0.302651355738592,
      "flos": 18725367651840.0,
      "grad_norm": 4.05087245706253,
      "language_loss": 0.79069519,
      "learning_rate": 3.269727197731714e-06,
      "loss": 0.81263387,
      "num_input_tokens_seen": 54167360,
      "step": 2517,
      "time_per_iteration": 2.7254858016967773
    },
    {
      "auxiliary_loss_clip": 0.0115279,
      "auxiliary_loss_mlp": 0.01029619,
      "balance_loss_clip": 1.05203724,
      "balance_loss_mlp": 1.02041602,
      "epoch": 0.30277159862923103,
      "flos": 22418888382720.0,
      "grad_norm": 1.7176431461366954,
      "language_loss": 0.77922678,
      "learning_rate": 3.269125249064367e-06,
      "loss": 0.8010509,
      "num_input_tokens_seen": 54187055,
      "step": 2518,
      "time_per_iteration": 2.754582166671753
    },
    {
      "auxiliary_loss_clip": 0.01206635,
      "auxiliary_loss_mlp": 0.01032006,
      "balance_loss_clip": 1.06085622,
      "balance_loss_mlp": 1.02357209,
      "epoch": 0.30289184151987014,
      "flos": 22273126992000.0,
      "grad_norm": 1.765863645977857,
      "language_loss": 0.83203983,
      "learning_rate": 3.2685231078717297e-06,
      "loss": 0.85442626,
      "num_input_tokens_seen": 54207245,
      "step": 2519,
      "time_per_iteration": 2.613649368286133
    },
    {
      "auxiliary_loss_clip": 0.01162357,
      "auxiliary_loss_mlp": 0.00888449,
      "balance_loss_clip": 1.05439901,
      "balance_loss_mlp": 1.00108302,
      "epoch": 0.30301208441050925,
      "flos": 25225594231680.0,
      "grad_norm": 2.989396535536856,
      "language_loss": 0.75835991,
      "learning_rate": 3.267920774245145e-06,
      "loss": 0.77886796,
      "num_input_tokens_seen": 54226650,
      "step": 2520,
      "time_per_iteration": 2.7313601970672607
    },
    {
      "auxiliary_loss_clip": 0.01193071,
      "auxiliary_loss_mlp": 0.01032313,
      "balance_loss_clip": 1.05932784,
      "balance_loss_mlp": 1.02312839,
      "epoch": 0.3031323273011483,
      "flos": 23039245198080.0,
      "grad_norm": 1.9670913644872499,
      "language_loss": 0.84575635,
      "learning_rate": 3.2673182482759876e-06,
      "loss": 0.86801016,
      "num_input_tokens_seen": 54245765,
      "step": 2521,
      "time_per_iteration": 2.701514720916748
    },
    {
      "auxiliary_loss_clip": 0.01191841,
      "auxiliary_loss_mlp": 0.0102907,
      "balance_loss_clip": 1.05843329,
      "balance_loss_mlp": 1.02048659,
      "epoch": 0.3032525701917874,
      "flos": 18876695650560.0,
      "grad_norm": 2.6300176126344046,
      "language_loss": 0.66365403,
      "learning_rate": 3.266715530055659e-06,
      "loss": 0.68586314,
      "num_input_tokens_seen": 54263915,
      "step": 2522,
      "time_per_iteration": 2.6473729610443115
    },
    {
      "auxiliary_loss_clip": 0.01182057,
      "auxiliary_loss_mlp": 0.01029526,
      "balance_loss_clip": 1.0536499,
      "balance_loss_mlp": 1.02054977,
      "epoch": 0.30337281308242653,
      "flos": 17782641250560.0,
      "grad_norm": 1.6502237362677936,
      "language_loss": 0.80554605,
      "learning_rate": 3.2661126196755927e-06,
      "loss": 0.82766187,
      "num_input_tokens_seen": 54283025,
      "step": 2523,
      "time_per_iteration": 2.635223627090454
    },
    {
      "auxiliary_loss_clip": 0.0109079,
      "auxiliary_loss_mlp": 0.01006034,
      "balance_loss_clip": 1.01908565,
      "balance_loss_mlp": 1.00420976,
      "epoch": 0.3034930559730656,
      "flos": 57824298426240.0,
      "grad_norm": 0.7846164570797295,
      "language_loss": 0.55944443,
      "learning_rate": 3.265509517227248e-06,
      "loss": 0.58041263,
      "num_input_tokens_seen": 54339840,
      "step": 2524,
      "time_per_iteration": 3.1676838397979736
    },
    {
      "auxiliary_loss_clip": 0.01182166,
      "auxiliary_loss_mlp": 0.01033212,
      "balance_loss_clip": 1.05428219,
      "balance_loss_mlp": 1.02510619,
      "epoch": 0.3036132988637047,
      "flos": 14755587419520.0,
      "grad_norm": 2.0792041646358874,
      "language_loss": 0.81079268,
      "learning_rate": 3.264906222802115e-06,
      "loss": 0.83294642,
      "num_input_tokens_seen": 54357690,
      "step": 2525,
      "time_per_iteration": 2.6680221557617188
    },
    {
      "auxiliary_loss_clip": 0.01201201,
      "auxiliary_loss_mlp": 0.01030989,
      "balance_loss_clip": 1.05759287,
      "balance_loss_mlp": 1.02199471,
      "epoch": 0.30373354175434375,
      "flos": 21033203460480.0,
      "grad_norm": 3.5027147431426817,
      "language_loss": 0.78007191,
      "learning_rate": 3.264302736491715e-06,
      "loss": 0.80239379,
      "num_input_tokens_seen": 54377810,
      "step": 2526,
      "time_per_iteration": 2.6627023220062256
    },
    {
      "auxiliary_loss_clip": 0.01185646,
      "auxiliary_loss_mlp": 0.01027022,
      "balance_loss_clip": 1.05648601,
      "balance_loss_mlp": 1.0180335,
      "epoch": 0.30385378464498286,
      "flos": 21143233797120.0,
      "grad_norm": 2.2304159098250165,
      "language_loss": 0.87375009,
      "learning_rate": 3.263699058387594e-06,
      "loss": 0.89587677,
      "num_input_tokens_seen": 54395245,
      "step": 2527,
      "time_per_iteration": 2.641788959503174
    },
    {
      "auxiliary_loss_clip": 0.01165962,
      "auxiliary_loss_mlp": 0.01029296,
      "balance_loss_clip": 1.05006659,
      "balance_loss_mlp": 1.02067757,
      "epoch": 0.30397402753562197,
      "flos": 20629244131200.0,
      "grad_norm": 2.3140098088966496,
      "language_loss": 0.90549517,
      "learning_rate": 3.2630951885813315e-06,
      "loss": 0.92744774,
      "num_input_tokens_seen": 54412640,
      "step": 2528,
      "time_per_iteration": 2.724968910217285
    },
    {
      "auxiliary_loss_clip": 0.0118467,
      "auxiliary_loss_mlp": 0.01026188,
      "balance_loss_clip": 1.05520666,
      "balance_loss_mlp": 1.01724172,
      "epoch": 0.304094270426261,
      "flos": 15085678429440.0,
      "grad_norm": 2.9588633495460175,
      "language_loss": 0.78428185,
      "learning_rate": 3.262491127164533e-06,
      "loss": 0.80639046,
      "num_input_tokens_seen": 54431455,
      "step": 2529,
      "time_per_iteration": 2.6714999675750732
    },
    {
      "auxiliary_loss_clip": 0.0118915,
      "auxiliary_loss_mlp": 0.00888805,
      "balance_loss_clip": 1.05587447,
      "balance_loss_mlp": 1.00109696,
      "epoch": 0.30421451331690014,
      "flos": 13845216193920.0,
      "grad_norm": 2.7165585414820668,
      "language_loss": 0.79391026,
      "learning_rate": 3.2618868742288337e-06,
      "loss": 0.81468987,
      "num_input_tokens_seen": 54448380,
      "step": 2530,
      "time_per_iteration": 3.5937509536743164
    },
    {
      "auxiliary_loss_clip": 0.01193664,
      "auxiliary_loss_mlp": 0.01031003,
      "balance_loss_clip": 1.0589298,
      "balance_loss_mlp": 1.02197325,
      "epoch": 0.30433475620753925,
      "flos": 17384212615680.0,
      "grad_norm": 1.8621083558504656,
      "language_loss": 0.72412902,
      "learning_rate": 3.261282429865899e-06,
      "loss": 0.74637568,
      "num_input_tokens_seen": 54466385,
      "step": 2531,
      "time_per_iteration": 2.6824214458465576
    },
    {
      "auxiliary_loss_clip": 0.01185952,
      "auxiliary_loss_mlp": 0.00887109,
      "balance_loss_clip": 1.05677116,
      "balance_loss_mlp": 1.00097477,
      "epoch": 0.3044549990981783,
      "flos": 18916951818240.0,
      "grad_norm": 2.921404425741174,
      "language_loss": 0.7217921,
      "learning_rate": 3.2606777941674225e-06,
      "loss": 0.74252272,
      "num_input_tokens_seen": 54485040,
      "step": 2532,
      "time_per_iteration": 2.6368489265441895
    },
    {
      "auxiliary_loss_clip": 0.01154911,
      "auxiliary_loss_mlp": 0.01027657,
      "balance_loss_clip": 1.05410779,
      "balance_loss_mlp": 1.01891267,
      "epoch": 0.3045752419888174,
      "flos": 21068431724160.0,
      "grad_norm": 2.0993572313419486,
      "language_loss": 0.84826034,
      "learning_rate": 3.2600729672251276e-06,
      "loss": 0.87008607,
      "num_input_tokens_seen": 54502755,
      "step": 2533,
      "time_per_iteration": 2.7724335193634033
    },
    {
      "auxiliary_loss_clip": 0.01204633,
      "auxiliary_loss_mlp": 0.00888262,
      "balance_loss_clip": 1.06081438,
      "balance_loss_mlp": 1.00103438,
      "epoch": 0.3046954848794565,
      "flos": 29096405516160.0,
      "grad_norm": 2.0871637741192357,
      "language_loss": 0.65721905,
      "learning_rate": 3.259467949130765e-06,
      "loss": 0.67814797,
      "num_input_tokens_seen": 54524165,
      "step": 2534,
      "time_per_iteration": 2.679919958114624
    },
    {
      "auxiliary_loss_clip": 0.01183337,
      "auxiliary_loss_mlp": 0.01029344,
      "balance_loss_clip": 1.05668807,
      "balance_loss_mlp": 1.02065372,
      "epoch": 0.3048157277700956,
      "flos": 20295346279680.0,
      "grad_norm": 2.787154551559918,
      "language_loss": 0.82847214,
      "learning_rate": 3.2588627399761164e-06,
      "loss": 0.85059893,
      "num_input_tokens_seen": 54540160,
      "step": 2535,
      "time_per_iteration": 4.691875696182251
    },
    {
      "auxiliary_loss_clip": 0.01183062,
      "auxiliary_loss_mlp": 0.01033887,
      "balance_loss_clip": 1.05790615,
      "balance_loss_mlp": 1.02468455,
      "epoch": 0.3049359706607347,
      "flos": 22739929165440.0,
      "grad_norm": 1.8072707868686693,
      "language_loss": 0.71007931,
      "learning_rate": 3.2582573398529903e-06,
      "loss": 0.73224878,
      "num_input_tokens_seen": 54557515,
      "step": 2536,
      "time_per_iteration": 2.695431709289551
    },
    {
      "auxiliary_loss_clip": 0.01174641,
      "auxiliary_loss_mlp": 0.01034391,
      "balance_loss_clip": 1.05325377,
      "balance_loss_mlp": 1.02518225,
      "epoch": 0.3050562135513738,
      "flos": 18434634969600.0,
      "grad_norm": 2.176961302312708,
      "language_loss": 0.74218976,
      "learning_rate": 3.2576517488532265e-06,
      "loss": 0.76428008,
      "num_input_tokens_seen": 54573865,
      "step": 2537,
      "time_per_iteration": 2.682504892349243
    },
    {
      "auxiliary_loss_clip": 0.01188992,
      "auxiliary_loss_mlp": 0.0102881,
      "balance_loss_clip": 1.05413818,
      "balance_loss_mlp": 1.02014935,
      "epoch": 0.30517645644201286,
      "flos": 20370327920640.0,
      "grad_norm": 1.8142382022942378,
      "language_loss": 0.87375045,
      "learning_rate": 3.257045967068692e-06,
      "loss": 0.89592844,
      "num_input_tokens_seen": 54593120,
      "step": 2538,
      "time_per_iteration": 2.693899393081665
    },
    {
      "auxiliary_loss_clip": 0.01203162,
      "auxiliary_loss_mlp": 0.01030771,
      "balance_loss_clip": 1.05842948,
      "balance_loss_mlp": 1.02153802,
      "epoch": 0.30529669933265197,
      "flos": 21945118970880.0,
      "grad_norm": 1.6644336636870862,
      "language_loss": 0.82272851,
      "learning_rate": 3.2564399945912848e-06,
      "loss": 0.84506786,
      "num_input_tokens_seen": 54612910,
      "step": 2539,
      "time_per_iteration": 3.5819170475006104
    },
    {
      "auxiliary_loss_clip": 0.01166364,
      "auxiliary_loss_mlp": 0.01033449,
      "balance_loss_clip": 1.05124927,
      "balance_loss_mlp": 1.02506256,
      "epoch": 0.305416942223291,
      "flos": 21835411856640.0,
      "grad_norm": 2.4340893962603123,
      "language_loss": 0.82018876,
      "learning_rate": 3.2558338315129287e-06,
      "loss": 0.84218693,
      "num_input_tokens_seen": 54631055,
      "step": 2540,
      "time_per_iteration": 2.794495105743408
    },
    {
      "auxiliary_loss_clip": 0.01183549,
      "auxiliary_loss_mlp": 0.0103123,
      "balance_loss_clip": 1.05461001,
      "balance_loss_mlp": 1.02243853,
      "epoch": 0.30553718511393013,
      "flos": 33911810709120.0,
      "grad_norm": 2.120732724273235,
      "language_loss": 0.7577703,
      "learning_rate": 3.2552274779255785e-06,
      "loss": 0.77991807,
      "num_input_tokens_seen": 54651985,
      "step": 2541,
      "time_per_iteration": 2.8098621368408203
    },
    {
      "auxiliary_loss_clip": 0.01186158,
      "auxiliary_loss_mlp": 0.01032227,
      "balance_loss_clip": 1.05427301,
      "balance_loss_mlp": 1.02371573,
      "epoch": 0.30565742800456924,
      "flos": 22268530051200.0,
      "grad_norm": 2.1759615499668508,
      "language_loss": 0.76707017,
      "learning_rate": 3.2546209339212184e-06,
      "loss": 0.78925407,
      "num_input_tokens_seen": 54671005,
      "step": 2542,
      "time_per_iteration": 2.647899866104126
    },
    {
      "auxiliary_loss_clip": 0.0118398,
      "auxiliary_loss_mlp": 0.01026164,
      "balance_loss_clip": 1.05359197,
      "balance_loss_mlp": 1.01703846,
      "epoch": 0.3057776708952083,
      "flos": 22565044823040.0,
      "grad_norm": 1.6512729069656134,
      "language_loss": 0.7768513,
      "learning_rate": 3.25401419959186e-06,
      "loss": 0.7989527,
      "num_input_tokens_seen": 54691615,
      "step": 2543,
      "time_per_iteration": 2.713447332382202
    },
    {
      "auxiliary_loss_clip": 0.01196731,
      "auxiliary_loss_mlp": 0.01032762,
      "balance_loss_clip": 1.0602057,
      "balance_loss_mlp": 1.023821,
      "epoch": 0.3058979137858474,
      "flos": 21799213925760.0,
      "grad_norm": 2.081007174344221,
      "language_loss": 0.76224422,
      "learning_rate": 3.253407275029545e-06,
      "loss": 0.78453916,
      "num_input_tokens_seen": 54710520,
      "step": 2544,
      "time_per_iteration": 2.68681001663208
    },
    {
      "auxiliary_loss_clip": 0.01180314,
      "auxiliary_loss_mlp": 0.01029482,
      "balance_loss_clip": 1.05850244,
      "balance_loss_mlp": 1.01972449,
      "epoch": 0.3060181566764865,
      "flos": 26979435601920.0,
      "grad_norm": 2.016643798898157,
      "language_loss": 0.80526602,
      "learning_rate": 3.2528001603263425e-06,
      "loss": 0.82736397,
      "num_input_tokens_seen": 54732590,
      "step": 2545,
      "time_per_iteration": 2.7838516235351562
    },
    {
      "auxiliary_loss_clip": 0.01189635,
      "auxiliary_loss_mlp": 0.0103712,
      "balance_loss_clip": 1.05756676,
      "balance_loss_mlp": 1.02755308,
      "epoch": 0.3061383995671256,
      "flos": 19865101173120.0,
      "grad_norm": 1.8507876927271913,
      "language_loss": 0.81534052,
      "learning_rate": 3.2521928555743514e-06,
      "loss": 0.83760804,
      "num_input_tokens_seen": 54749935,
      "step": 2546,
      "time_per_iteration": 2.6329004764556885
    },
    {
      "auxiliary_loss_clip": 0.0117639,
      "auxiliary_loss_mlp": 0.00889044,
      "balance_loss_clip": 1.05239058,
      "balance_loss_mlp": 1.00099063,
      "epoch": 0.3062586424577647,
      "flos": 22127509255680.0,
      "grad_norm": 2.4735152164803202,
      "language_loss": 0.67115504,
      "learning_rate": 3.2515853608657e-06,
      "loss": 0.69180942,
      "num_input_tokens_seen": 54767935,
      "step": 2547,
      "time_per_iteration": 2.715453863143921
    },
    {
      "auxiliary_loss_clip": 0.01187308,
      "auxiliary_loss_mlp": 0.0103443,
      "balance_loss_clip": 1.05621958,
      "balance_loss_mlp": 1.02525651,
      "epoch": 0.3063788853484038,
      "flos": 20845497962880.0,
      "grad_norm": 2.2521995001303323,
      "language_loss": 0.75135434,
      "learning_rate": 3.250977676292545e-06,
      "loss": 0.77357173,
      "num_input_tokens_seen": 54786175,
      "step": 2548,
      "time_per_iteration": 2.6301333904266357
    },
    {
      "auxiliary_loss_clip": 0.01185878,
      "auxiliary_loss_mlp": 0.01030369,
      "balance_loss_clip": 1.05402958,
      "balance_loss_mlp": 1.02110076,
      "epoch": 0.30649912823904285,
      "flos": 16209717707520.0,
      "grad_norm": 2.268785161569037,
      "language_loss": 0.79117084,
      "learning_rate": 3.2503698019470712e-06,
      "loss": 0.81333333,
      "num_input_tokens_seen": 54801945,
      "step": 2549,
      "time_per_iteration": 2.683229446411133
    },
    {
      "auxiliary_loss_clip": 0.01190764,
      "auxiliary_loss_mlp": 0.01033204,
      "balance_loss_clip": 1.05459499,
      "balance_loss_mlp": 1.02432919,
      "epoch": 0.30661937112968196,
      "flos": 18617815353600.0,
      "grad_norm": 3.148433452410117,
      "language_loss": 0.78539205,
      "learning_rate": 3.249761737921492e-06,
      "loss": 0.80763173,
      "num_input_tokens_seen": 54818475,
      "step": 2550,
      "time_per_iteration": 2.603717088699341
    },
    {
      "auxiliary_loss_clip": 0.01182331,
      "auxiliary_loss_mlp": 0.01029368,
      "balance_loss_clip": 1.05662715,
      "balance_loss_mlp": 1.02058804,
      "epoch": 0.30673961402032107,
      "flos": 31390809638400.0,
      "grad_norm": 2.5577799613011885,
      "language_loss": 0.74052483,
      "learning_rate": 3.249153484308051e-06,
      "loss": 0.76264185,
      "num_input_tokens_seen": 54837090,
      "step": 2551,
      "time_per_iteration": 2.7517850399017334
    },
    {
      "auxiliary_loss_clip": 0.01150743,
      "auxiliary_loss_mlp": 0.01030795,
      "balance_loss_clip": 1.04938722,
      "balance_loss_mlp": 1.02179492,
      "epoch": 0.3068598569109601,
      "flos": 20229809915520.0,
      "grad_norm": 3.1943430637441654,
      "language_loss": 0.77837408,
      "learning_rate": 3.2485450411990194e-06,
      "loss": 0.80018944,
      "num_input_tokens_seen": 54856445,
      "step": 2552,
      "time_per_iteration": 2.7423856258392334
    },
    {
      "auxiliary_loss_clip": 0.01202754,
      "auxiliary_loss_mlp": 0.01029492,
      "balance_loss_clip": 1.05653358,
      "balance_loss_mlp": 1.01978254,
      "epoch": 0.30698009980159924,
      "flos": 29601991399680.0,
      "grad_norm": 1.729472076260766,
      "language_loss": 0.82580364,
      "learning_rate": 3.2479364086866983e-06,
      "loss": 0.84812617,
      "num_input_tokens_seen": 54876700,
      "step": 2553,
      "time_per_iteration": 2.650435447692871
    },
    {
      "auxiliary_loss_clip": 0.01183115,
      "auxiliary_loss_mlp": 0.00888452,
      "balance_loss_clip": 1.05623984,
      "balance_loss_mlp": 1.00099695,
      "epoch": 0.30710034269223835,
      "flos": 23842423261440.0,
      "grad_norm": 1.834303714266676,
      "language_loss": 0.81464297,
      "learning_rate": 3.247327586863416e-06,
      "loss": 0.83535862,
      "num_input_tokens_seen": 54897580,
      "step": 2554,
      "time_per_iteration": 2.7166597843170166
    },
    {
      "auxiliary_loss_clip": 0.01179179,
      "auxiliary_loss_mlp": 0.01039172,
      "balance_loss_clip": 1.05385828,
      "balance_loss_mlp": 1.02983153,
      "epoch": 0.3072205855828774,
      "flos": 25884986152320.0,
      "grad_norm": 2.588594580260966,
      "language_loss": 0.76694942,
      "learning_rate": 3.2467185758215304e-06,
      "loss": 0.78913295,
      "num_input_tokens_seen": 54917320,
      "step": 2555,
      "time_per_iteration": 2.748028516769409
    },
    {
      "auxiliary_loss_clip": 0.01176046,
      "auxiliary_loss_mlp": 0.00887623,
      "balance_loss_clip": 1.05351949,
      "balance_loss_mlp": 1.0009681,
      "epoch": 0.3073408284735165,
      "flos": 22236390357120.0,
      "grad_norm": 2.6372707945040648,
      "language_loss": 0.85996902,
      "learning_rate": 3.246109375653428e-06,
      "loss": 0.88060564,
      "num_input_tokens_seen": 54934085,
      "step": 2556,
      "time_per_iteration": 3.9207398891448975
    },
    {
      "auxiliary_loss_clip": 0.01203818,
      "auxiliary_loss_mlp": 0.01031235,
      "balance_loss_clip": 1.05871892,
      "balance_loss_mlp": 1.02256215,
      "epoch": 0.30746107136415557,
      "flos": 19500284689920.0,
      "grad_norm": 2.624184843355492,
      "language_loss": 0.78344786,
      "learning_rate": 3.2454999864515243e-06,
      "loss": 0.80579841,
      "num_input_tokens_seen": 54953460,
      "step": 2557,
      "time_per_iteration": 2.6212997436523438
    },
    {
      "auxiliary_loss_clip": 0.0117579,
      "auxiliary_loss_mlp": 0.00888426,
      "balance_loss_clip": 1.05320477,
      "balance_loss_mlp": 1.00101793,
      "epoch": 0.3075813142547947,
      "flos": 21724806902400.0,
      "grad_norm": 2.0175766742587724,
      "language_loss": 0.69648963,
      "learning_rate": 3.244890408308263e-06,
      "loss": 0.71713173,
      "num_input_tokens_seen": 54974165,
      "step": 2558,
      "time_per_iteration": 2.7340641021728516
    },
    {
      "auxiliary_loss_clip": 0.01163312,
      "auxiliary_loss_mlp": 0.01028444,
      "balance_loss_clip": 1.04967725,
      "balance_loss_mlp": 1.02001023,
      "epoch": 0.3077015571454338,
      "flos": 24097963593600.0,
      "grad_norm": 2.380936609852506,
      "language_loss": 0.61530054,
      "learning_rate": 3.2442806413161165e-06,
      "loss": 0.63721806,
      "num_input_tokens_seen": 54993810,
      "step": 2559,
      "time_per_iteration": 2.7863125801086426
    },
    {
      "auxiliary_loss_clip": 0.01166237,
      "auxiliary_loss_mlp": 0.01027461,
      "balance_loss_clip": 1.05156326,
      "balance_loss_mlp": 1.0185678,
      "epoch": 0.30782180003607285,
      "flos": 18405476104320.0,
      "grad_norm": 1.9744117523994689,
      "language_loss": 0.75730699,
      "learning_rate": 3.243670685567586e-06,
      "loss": 0.77924395,
      "num_input_tokens_seen": 55011210,
      "step": 2560,
      "time_per_iteration": 3.6938421726226807
    },
    {
      "auxiliary_loss_clip": 0.0117993,
      "auxiliary_loss_mlp": 0.00888124,
      "balance_loss_clip": 1.05282772,
      "balance_loss_mlp": 1.000929,
      "epoch": 0.30794204292671196,
      "flos": 23878549365120.0,
      "grad_norm": 2.5009304957842637,
      "language_loss": 0.80529058,
      "learning_rate": 3.2430605411552012e-06,
      "loss": 0.82597119,
      "num_input_tokens_seen": 55031325,
      "step": 2561,
      "time_per_iteration": 3.67232084274292
    },
    {
      "auxiliary_loss_clip": 0.01076944,
      "auxiliary_loss_mlp": 0.01002117,
      "balance_loss_clip": 1.01944399,
      "balance_loss_mlp": 1.0000546,
      "epoch": 0.30806228581735107,
      "flos": 67927800816000.0,
      "grad_norm": 0.9038369687335763,
      "language_loss": 0.7052772,
      "learning_rate": 3.2424502081715205e-06,
      "loss": 0.72606778,
      "num_input_tokens_seen": 55094440,
      "step": 2562,
      "time_per_iteration": 3.2779123783111572
    },
    {
      "auxiliary_loss_clip": 0.01186641,
      "auxiliary_loss_mlp": 0.01030688,
      "balance_loss_clip": 1.05747473,
      "balance_loss_mlp": 1.02101421,
      "epoch": 0.3081825287079901,
      "flos": 23843213360640.0,
      "grad_norm": 1.8667758224797246,
      "language_loss": 0.78095591,
      "learning_rate": 3.241839686709132e-06,
      "loss": 0.80312932,
      "num_input_tokens_seen": 55115375,
      "step": 2563,
      "time_per_iteration": 2.7240259647369385
    },
    {
      "auxiliary_loss_clip": 0.01189454,
      "auxiliary_loss_mlp": 0.01029654,
      "balance_loss_clip": 1.05245924,
      "balance_loss_mlp": 1.01894295,
      "epoch": 0.30830277159862923,
      "flos": 16209969102720.0,
      "grad_norm": 2.345797065458003,
      "language_loss": 0.81971288,
      "learning_rate": 3.2412289768606495e-06,
      "loss": 0.84190392,
      "num_input_tokens_seen": 55131945,
      "step": 2564,
      "time_per_iteration": 2.642925977706909
    },
    {
      "auxiliary_loss_clip": 0.01194919,
      "auxiliary_loss_mlp": 0.01029028,
      "balance_loss_clip": 1.0561583,
      "balance_loss_mlp": 1.02074337,
      "epoch": 0.30842301448926834,
      "flos": 29349503723520.0,
      "grad_norm": 2.0337227258342225,
      "language_loss": 0.82820964,
      "learning_rate": 3.240618078718718e-06,
      "loss": 0.8504492,
      "num_input_tokens_seen": 55153405,
      "step": 2565,
      "time_per_iteration": 3.5900585651397705
    },
    {
      "auxiliary_loss_clip": 0.01169325,
      "auxiliary_loss_mlp": 0.01036568,
      "balance_loss_clip": 1.04981208,
      "balance_loss_mlp": 1.02704346,
      "epoch": 0.3085432573799074,
      "flos": 21945190798080.0,
      "grad_norm": 1.9108087003931433,
      "language_loss": 0.74208331,
      "learning_rate": 3.240006992376011e-06,
      "loss": 0.76414216,
      "num_input_tokens_seen": 55173030,
      "step": 2566,
      "time_per_iteration": 2.791172742843628
    },
    {
      "auxiliary_loss_clip": 0.01186262,
      "auxiliary_loss_mlp": 0.01031087,
      "balance_loss_clip": 1.05630028,
      "balance_loss_mlp": 1.02146697,
      "epoch": 0.3086635002705465,
      "flos": 22054718344320.0,
      "grad_norm": 8.426117027238194,
      "language_loss": 0.76614565,
      "learning_rate": 3.2393957179252284e-06,
      "loss": 0.78831911,
      "num_input_tokens_seen": 55189565,
      "step": 2567,
      "time_per_iteration": 2.7301464080810547
    },
    {
      "auxiliary_loss_clip": 0.01202992,
      "auxiliary_loss_mlp": 0.01034586,
      "balance_loss_clip": 1.05915546,
      "balance_loss_mlp": 1.02560377,
      "epoch": 0.3087837431611856,
      "flos": 32665925520000.0,
      "grad_norm": 1.9163923382040908,
      "language_loss": 0.80732381,
      "learning_rate": 3.2387842554591016e-06,
      "loss": 0.82969958,
      "num_input_tokens_seen": 55210380,
      "step": 2568,
      "time_per_iteration": 2.687424421310425
    },
    {
      "auxiliary_loss_clip": 0.01203333,
      "auxiliary_loss_mlp": 0.01028293,
      "balance_loss_clip": 1.05881166,
      "balance_loss_mlp": 1.01953745,
      "epoch": 0.3089039860518247,
      "flos": 17599245384960.0,
      "grad_norm": 2.6644206587599557,
      "language_loss": 0.8816427,
      "learning_rate": 3.238172605070388e-06,
      "loss": 0.90395904,
      "num_input_tokens_seen": 55225795,
      "step": 2569,
      "time_per_iteration": 2.647568464279175
    },
    {
      "auxiliary_loss_clip": 0.01195153,
      "auxiliary_loss_mlp": 0.00889199,
      "balance_loss_clip": 1.05884421,
      "balance_loss_mlp": 1.00116682,
      "epoch": 0.3090242289424638,
      "flos": 14383839611520.0,
      "grad_norm": 2.897520373464023,
      "language_loss": 0.79096401,
      "learning_rate": 3.2375607668518745e-06,
      "loss": 0.81180751,
      "num_input_tokens_seen": 55238830,
      "step": 2570,
      "time_per_iteration": 2.6077942848205566
    },
    {
      "auxiliary_loss_clip": 0.01173054,
      "auxiliary_loss_mlp": 0.01030868,
      "balance_loss_clip": 1.05270064,
      "balance_loss_mlp": 1.02121234,
      "epoch": 0.30914447183310284,
      "flos": 16068625084800.0,
      "grad_norm": 6.614083380965011,
      "language_loss": 0.905532,
      "learning_rate": 3.236948740896377e-06,
      "loss": 0.92757118,
      "num_input_tokens_seen": 55253630,
      "step": 2571,
      "time_per_iteration": 2.648110866546631
    },
    {
      "auxiliary_loss_clip": 0.01194323,
      "auxiliary_loss_mlp": 0.01030947,
      "balance_loss_clip": 1.05838656,
      "balance_loss_mlp": 1.02114797,
      "epoch": 0.30926471472374195,
      "flos": 32230221546240.0,
      "grad_norm": 1.4885799436430769,
      "language_loss": 0.84702808,
      "learning_rate": 3.2363365272967384e-06,
      "loss": 0.86928082,
      "num_input_tokens_seen": 55276200,
      "step": 2572,
      "time_per_iteration": 2.699924945831299
    },
    {
      "auxiliary_loss_clip": 0.01194241,
      "auxiliary_loss_mlp": 0.01045101,
      "balance_loss_clip": 1.05916667,
      "balance_loss_mlp": 1.03561163,
      "epoch": 0.30938495761438106,
      "flos": 20370722970240.0,
      "grad_norm": 1.9032322134111945,
      "language_loss": 0.8192265,
      "learning_rate": 3.235724126145832e-06,
      "loss": 0.84161997,
      "num_input_tokens_seen": 55292235,
      "step": 2573,
      "time_per_iteration": 2.624131679534912
    },
    {
      "auxiliary_loss_clip": 0.01183911,
      "auxiliary_loss_mlp": 0.01040825,
      "balance_loss_clip": 1.05281734,
      "balance_loss_mlp": 1.03091288,
      "epoch": 0.3095052005050201,
      "flos": 24061155131520.0,
      "grad_norm": 1.6445683857364248,
      "language_loss": 0.7769556,
      "learning_rate": 3.235111537536558e-06,
      "loss": 0.79920304,
      "num_input_tokens_seen": 55313050,
      "step": 2574,
      "time_per_iteration": 2.6569089889526367
    },
    {
      "auxiliary_loss_clip": 0.01193378,
      "auxiliary_loss_mlp": 0.01028147,
      "balance_loss_clip": 1.05664325,
      "balance_loss_mlp": 1.01964736,
      "epoch": 0.30962544339565923,
      "flos": 23401547729280.0,
      "grad_norm": 2.0442101350241497,
      "language_loss": 0.82913041,
      "learning_rate": 3.2344987615618456e-06,
      "loss": 0.85134566,
      "num_input_tokens_seen": 55332885,
      "step": 2575,
      "time_per_iteration": 2.682020664215088
    },
    {
      "auxiliary_loss_clip": 0.01169221,
      "auxiliary_loss_mlp": 0.01032034,
      "balance_loss_clip": 1.05381024,
      "balance_loss_mlp": 1.02274132,
      "epoch": 0.30974568628629834,
      "flos": 33799984692480.0,
      "grad_norm": 1.623249054791999,
      "language_loss": 0.78411263,
      "learning_rate": 3.2338857983146533e-06,
      "loss": 0.80612516,
      "num_input_tokens_seen": 55354385,
      "step": 2576,
      "time_per_iteration": 2.789659023284912
    },
    {
      "auxiliary_loss_clip": 0.01176019,
      "auxiliary_loss_mlp": 0.01034339,
      "balance_loss_clip": 1.05569398,
      "balance_loss_mlp": 1.02412891,
      "epoch": 0.3098659291769374,
      "flos": 20229594433920.0,
      "grad_norm": 2.065872971559713,
      "language_loss": 0.76688039,
      "learning_rate": 3.233272647887966e-06,
      "loss": 0.78898394,
      "num_input_tokens_seen": 55373275,
      "step": 2577,
      "time_per_iteration": 2.716102361679077
    },
    {
      "auxiliary_loss_clip": 0.01203716,
      "auxiliary_loss_mlp": 0.01036206,
      "balance_loss_clip": 1.05856979,
      "balance_loss_mlp": 1.02671063,
      "epoch": 0.3099861720675765,
      "flos": 24748556682240.0,
      "grad_norm": 1.7841845884893326,
      "language_loss": 0.90231675,
      "learning_rate": 3.2326593103747985e-06,
      "loss": 0.924716,
      "num_input_tokens_seen": 55392290,
      "step": 2578,
      "time_per_iteration": 2.6692044734954834
    },
    {
      "auxiliary_loss_clip": 0.01191585,
      "auxiliary_loss_mlp": 0.01035835,
      "balance_loss_clip": 1.05732954,
      "balance_loss_mlp": 1.02630448,
      "epoch": 0.3101064149582156,
      "flos": 11765485704960.0,
      "grad_norm": 4.998349305510349,
      "language_loss": 0.84900719,
      "learning_rate": 3.2320457858681936e-06,
      "loss": 0.87128133,
      "num_input_tokens_seen": 55410680,
      "step": 2579,
      "time_per_iteration": 2.5884206295013428
    },
    {
      "auxiliary_loss_clip": 0.01184484,
      "auxiliary_loss_mlp": 0.01033773,
      "balance_loss_clip": 1.05589807,
      "balance_loss_mlp": 1.02471864,
      "epoch": 0.31022665784885467,
      "flos": 23033247626880.0,
      "grad_norm": 2.4496583782053367,
      "language_loss": 0.8552891,
      "learning_rate": 3.2314320744612228e-06,
      "loss": 0.87747169,
      "num_input_tokens_seen": 55425980,
      "step": 2580,
      "time_per_iteration": 2.752823829650879
    },
    {
      "auxiliary_loss_clip": 0.01190094,
      "auxiliary_loss_mlp": 0.01029899,
      "balance_loss_clip": 1.05698395,
      "balance_loss_mlp": 1.0200938,
      "epoch": 0.3103469007394938,
      "flos": 16289188548480.0,
      "grad_norm": 1.5574484315738748,
      "language_loss": 0.76572073,
      "learning_rate": 3.2308181762469854e-06,
      "loss": 0.78792065,
      "num_input_tokens_seen": 55443925,
      "step": 2581,
      "time_per_iteration": 2.6122567653656006
    },
    {
      "auxiliary_loss_clip": 0.01206905,
      "auxiliary_loss_mlp": 0.01029235,
      "balance_loss_clip": 1.05888557,
      "balance_loss_mlp": 1.01953089,
      "epoch": 0.3104671436301329,
      "flos": 30515271626880.0,
      "grad_norm": 2.1324406403450435,
      "language_loss": 0.78177905,
      "learning_rate": 3.230204091318609e-06,
      "loss": 0.80414045,
      "num_input_tokens_seen": 55464465,
      "step": 2582,
      "time_per_iteration": 3.588512420654297
    },
    {
      "auxiliary_loss_clip": 0.01203089,
      "auxiliary_loss_mlp": 0.00888404,
      "balance_loss_clip": 1.05872738,
      "balance_loss_mlp": 1.00095308,
      "epoch": 0.31058738652077195,
      "flos": 20047240062720.0,
      "grad_norm": 1.9615310755012818,
      "language_loss": 0.84599209,
      "learning_rate": 3.2295898197692503e-06,
      "loss": 0.866907,
      "num_input_tokens_seen": 55483425,
      "step": 2583,
      "time_per_iteration": 2.6313254833221436
    },
    {
      "auxiliary_loss_clip": 0.01204111,
      "auxiliary_loss_mlp": 0.01027846,
      "balance_loss_clip": 1.0589211,
      "balance_loss_mlp": 1.0186491,
      "epoch": 0.31070762941141106,
      "flos": 28074639237120.0,
      "grad_norm": 1.9455130544977475,
      "language_loss": 0.79228634,
      "learning_rate": 3.228975361692094e-06,
      "loss": 0.81460589,
      "num_input_tokens_seen": 55504445,
      "step": 2584,
      "time_per_iteration": 2.6011977195739746
    },
    {
      "auxiliary_loss_clip": 0.01198689,
      "auxiliary_loss_mlp": 0.00889681,
      "balance_loss_clip": 1.05668116,
      "balance_loss_mlp": 1.00100708,
      "epoch": 0.31082787230205017,
      "flos": 20521907314560.0,
      "grad_norm": 2.5129231190655466,
      "language_loss": 0.80185878,
      "learning_rate": 3.228360717180352e-06,
      "loss": 0.82274246,
      "num_input_tokens_seen": 55521970,
      "step": 2585,
      "time_per_iteration": 2.6589791774749756
    },
    {
      "auxiliary_loss_clip": 0.01098947,
      "auxiliary_loss_mlp": 0.00877391,
      "balance_loss_clip": 1.02728796,
      "balance_loss_mlp": 1.00068533,
      "epoch": 0.3109481151926892,
      "flos": 62445928723200.0,
      "grad_norm": 0.8085833621852749,
      "language_loss": 0.59380615,
      "learning_rate": 3.227745886327266e-06,
      "loss": 0.6135695,
      "num_input_tokens_seen": 55580665,
      "step": 2586,
      "time_per_iteration": 4.22517466545105
    },
    {
      "auxiliary_loss_clip": 0.01098961,
      "auxiliary_loss_mlp": 0.01001792,
      "balance_loss_clip": 1.02706909,
      "balance_loss_mlp": 0.99982542,
      "epoch": 0.31106835808332833,
      "flos": 44746744723200.0,
      "grad_norm": 0.8130801152523908,
      "language_loss": 0.55889702,
      "learning_rate": 3.227130869226105e-06,
      "loss": 0.57990456,
      "num_input_tokens_seen": 55637825,
      "step": 2587,
      "time_per_iteration": 4.133531808853149
    },
    {
      "auxiliary_loss_clip": 0.01191856,
      "auxiliary_loss_mlp": 0.01033908,
      "balance_loss_clip": 1.05542183,
      "balance_loss_mlp": 1.02475905,
      "epoch": 0.3111886009739674,
      "flos": 23403056100480.0,
      "grad_norm": 3.196577500626911,
      "language_loss": 0.82793045,
      "learning_rate": 3.226515665970167e-06,
      "loss": 0.85018814,
      "num_input_tokens_seen": 55655365,
      "step": 2588,
      "time_per_iteration": 2.6701478958129883
    },
    {
      "auxiliary_loss_clip": 0.01189528,
      "auxiliary_loss_mlp": 0.01026027,
      "balance_loss_clip": 1.05561256,
      "balance_loss_mlp": 1.01635289,
      "epoch": 0.3113088438646065,
      "flos": 17530728192000.0,
      "grad_norm": 3.3163704673733077,
      "language_loss": 0.86660337,
      "learning_rate": 3.225900276652777e-06,
      "loss": 0.88875902,
      "num_input_tokens_seen": 55672140,
      "step": 2589,
      "time_per_iteration": 2.593151807785034
    },
    {
      "auxiliary_loss_clip": 0.01186936,
      "auxiliary_loss_mlp": 0.010294,
      "balance_loss_clip": 1.05348122,
      "balance_loss_mlp": 1.02027428,
      "epoch": 0.3114290867552456,
      "flos": 28365802882560.0,
      "grad_norm": 4.661818179633637,
      "language_loss": 0.75557452,
      "learning_rate": 3.2252847013672906e-06,
      "loss": 0.77773786,
      "num_input_tokens_seen": 55694800,
      "step": 2590,
      "time_per_iteration": 2.7549726963043213
    },
    {
      "auxiliary_loss_clip": 0.01164235,
      "auxiliary_loss_mlp": 0.01035381,
      "balance_loss_clip": 1.05157614,
      "balance_loss_mlp": 1.02603531,
      "epoch": 0.31154932964588467,
      "flos": 27379157126400.0,
      "grad_norm": 2.085926818508022,
      "language_loss": 0.75952494,
      "learning_rate": 3.224668940207089e-06,
      "loss": 0.78152114,
      "num_input_tokens_seen": 55713785,
      "step": 2591,
      "time_per_iteration": 3.5958521366119385
    },
    {
      "auxiliary_loss_clip": 0.01156714,
      "auxiliary_loss_mlp": 0.01034744,
      "balance_loss_clip": 1.04891849,
      "balance_loss_mlp": 1.025177,
      "epoch": 0.3116695725365238,
      "flos": 26541864120960.0,
      "grad_norm": 3.118363364843206,
      "language_loss": 0.8675316,
      "learning_rate": 3.2240529932655828e-06,
      "loss": 0.88944614,
      "num_input_tokens_seen": 55733050,
      "step": 2592,
      "time_per_iteration": 2.7685558795928955
    },
    {
      "auxiliary_loss_clip": 0.01185923,
      "auxiliary_loss_mlp": 0.01029499,
      "balance_loss_clip": 1.0597918,
      "balance_loss_mlp": 1.01995027,
      "epoch": 0.3117898154271629,
      "flos": 21177600134400.0,
      "grad_norm": 3.340534841112496,
      "language_loss": 0.8915906,
      "learning_rate": 3.223436860636211e-06,
      "loss": 0.91374481,
      "num_input_tokens_seen": 55748685,
      "step": 2593,
      "time_per_iteration": 2.6415233612060547
    },
    {
      "auxiliary_loss_clip": 0.01202524,
      "auxiliary_loss_mlp": 0.01030393,
      "balance_loss_clip": 1.05800998,
      "balance_loss_mlp": 1.02147591,
      "epoch": 0.31191005831780194,
      "flos": 27272430840960.0,
      "grad_norm": 1.8128002909928191,
      "language_loss": 0.74315339,
      "learning_rate": 3.2228205424124403e-06,
      "loss": 0.76548254,
      "num_input_tokens_seen": 55771840,
      "step": 2594,
      "time_per_iteration": 2.7777349948883057
    },
    {
      "auxiliary_loss_clip": 0.01170581,
      "auxiliary_loss_mlp": 0.01030523,
      "balance_loss_clip": 1.05233967,
      "balance_loss_mlp": 1.02087855,
      "epoch": 0.31203030120844105,
      "flos": 12963501043200.0,
      "grad_norm": 2.5950892953018654,
      "language_loss": 0.74755132,
      "learning_rate": 3.222204038687765e-06,
      "loss": 0.76956236,
      "num_input_tokens_seen": 55784975,
      "step": 2595,
      "time_per_iteration": 2.668051242828369
    },
    {
      "auxiliary_loss_clip": 0.01190497,
      "auxiliary_loss_mlp": 0.01035053,
      "balance_loss_clip": 1.05808139,
      "balance_loss_mlp": 1.0254153,
      "epoch": 0.31215054409908016,
      "flos": 27562014288000.0,
      "grad_norm": 1.894051426144932,
      "language_loss": 0.87893677,
      "learning_rate": 3.221587349555709e-06,
      "loss": 0.90119231,
      "num_input_tokens_seen": 55805235,
      "step": 2596,
      "time_per_iteration": 2.7165448665618896
    },
    {
      "auxiliary_loss_clip": 0.01185135,
      "auxiliary_loss_mlp": 0.01032387,
      "balance_loss_clip": 1.05504334,
      "balance_loss_mlp": 1.02276063,
      "epoch": 0.3122707869897192,
      "flos": 21506326427520.0,
      "grad_norm": 1.7404506191751972,
      "language_loss": 0.69362932,
      "learning_rate": 3.2209704751098236e-06,
      "loss": 0.71580458,
      "num_input_tokens_seen": 55824265,
      "step": 2597,
      "time_per_iteration": 2.731585741043091
    },
    {
      "auxiliary_loss_clip": 0.01189882,
      "auxiliary_loss_mlp": 0.01033023,
      "balance_loss_clip": 1.05835342,
      "balance_loss_mlp": 1.02333164,
      "epoch": 0.31239102988035833,
      "flos": 15187017674880.0,
      "grad_norm": 2.080103280340218,
      "language_loss": 0.82658637,
      "learning_rate": 3.2203534154436875e-06,
      "loss": 0.84881538,
      "num_input_tokens_seen": 55838620,
      "step": 2598,
      "time_per_iteration": 2.6607582569122314
    },
    {
      "auxiliary_loss_clip": 0.01149615,
      "auxiliary_loss_mlp": 0.01033964,
      "balance_loss_clip": 1.04958987,
      "balance_loss_mlp": 1.02357543,
      "epoch": 0.31251127277099744,
      "flos": 22053712763520.0,
      "grad_norm": 2.3679872769592745,
      "language_loss": 0.75638205,
      "learning_rate": 3.2197361706509084e-06,
      "loss": 0.77821785,
      "num_input_tokens_seen": 55859375,
      "step": 2599,
      "time_per_iteration": 2.8524186611175537
    },
    {
      "auxiliary_loss_clip": 0.01206829,
      "auxiliary_loss_mlp": 0.01040665,
      "balance_loss_clip": 1.05893254,
      "balance_loss_mlp": 1.03047204,
      "epoch": 0.3126315156616365,
      "flos": 15193984913280.0,
      "grad_norm": 2.779187065708898,
      "language_loss": 0.83574796,
      "learning_rate": 3.2191187408251228e-06,
      "loss": 0.85822284,
      "num_input_tokens_seen": 55876535,
      "step": 2600,
      "time_per_iteration": 2.614468812942505
    },
    {
      "auxiliary_loss_clip": 0.01197175,
      "auxiliary_loss_mlp": 0.0103328,
      "balance_loss_clip": 1.0541594,
      "balance_loss_mlp": 1.02332616,
      "epoch": 0.3127517585522756,
      "flos": 18145338831360.0,
      "grad_norm": 2.363244130868648,
      "language_loss": 0.78888863,
      "learning_rate": 3.218501126059993e-06,
      "loss": 0.81119317,
      "num_input_tokens_seen": 55891930,
      "step": 2601,
      "time_per_iteration": 2.6542320251464844
    },
    {
      "auxiliary_loss_clip": 0.01192747,
      "auxiliary_loss_mlp": 0.01038776,
      "balance_loss_clip": 1.05267608,
      "balance_loss_mlp": 1.02896523,
      "epoch": 0.31287200144291466,
      "flos": 21908633731200.0,
      "grad_norm": 1.8963960486582612,
      "language_loss": 0.81881511,
      "learning_rate": 3.2178833264492116e-06,
      "loss": 0.84113038,
      "num_input_tokens_seen": 55910635,
      "step": 2602,
      "time_per_iteration": 2.676304340362549
    },
    {
      "auxiliary_loss_clip": 0.01198119,
      "auxiliary_loss_mlp": 0.01029504,
      "balance_loss_clip": 1.05626202,
      "balance_loss_mlp": 1.02020526,
      "epoch": 0.31299224433355377,
      "flos": 29896997800320.0,
      "grad_norm": 2.7796925625712663,
      "language_loss": 0.759579,
      "learning_rate": 3.217265342086498e-06,
      "loss": 0.78185523,
      "num_input_tokens_seen": 55931125,
      "step": 2603,
      "time_per_iteration": 2.691587209701538
    },
    {
      "auxiliary_loss_clip": 0.01174408,
      "auxiliary_loss_mlp": 0.00889812,
      "balance_loss_clip": 1.05349457,
      "balance_loss_mlp": 1.00094318,
      "epoch": 0.3131124872241929,
      "flos": 11655886331520.0,
      "grad_norm": 2.6222906858320068,
      "language_loss": 0.73089981,
      "learning_rate": 3.216647173065599e-06,
      "loss": 0.75154197,
      "num_input_tokens_seen": 55946590,
      "step": 2604,
      "time_per_iteration": 2.663076162338257
    },
    {
      "auxiliary_loss_clip": 0.01181712,
      "auxiliary_loss_mlp": 0.01031896,
      "balance_loss_clip": 1.05720723,
      "balance_loss_mlp": 1.02256203,
      "epoch": 0.31323273011483194,
      "flos": 49848785470080.0,
      "grad_norm": 1.8963846843023455,
      "language_loss": 0.73869473,
      "learning_rate": 3.216028819480292e-06,
      "loss": 0.76083082,
      "num_input_tokens_seen": 55967930,
      "step": 2605,
      "time_per_iteration": 2.97102952003479
    },
    {
      "auxiliary_loss_clip": 0.01172323,
      "auxiliary_loss_mlp": 0.01037396,
      "balance_loss_clip": 1.05464613,
      "balance_loss_mlp": 1.02841401,
      "epoch": 0.31335297300547105,
      "flos": 22601278667520.0,
      "grad_norm": 2.382360151603781,
      "language_loss": 0.76127738,
      "learning_rate": 3.2154102814243793e-06,
      "loss": 0.78337455,
      "num_input_tokens_seen": 55987070,
      "step": 2606,
      "time_per_iteration": 2.697317361831665
    },
    {
      "auxiliary_loss_clip": 0.01179382,
      "auxiliary_loss_mlp": 0.01035809,
      "balance_loss_clip": 1.05636406,
      "balance_loss_mlp": 1.02673745,
      "epoch": 0.31347321589611016,
      "flos": 34710858708480.0,
      "grad_norm": 2.1191462388832103,
      "language_loss": 0.67029977,
      "learning_rate": 3.2147915589916937e-06,
      "loss": 0.69245172,
      "num_input_tokens_seen": 56008630,
      "step": 2607,
      "time_per_iteration": 2.8404288291931152
    },
    {
      "auxiliary_loss_clip": 0.01178028,
      "auxiliary_loss_mlp": 0.01034177,
      "balance_loss_clip": 1.05314493,
      "balance_loss_mlp": 1.0240798,
      "epoch": 0.3135934587867492,
      "flos": 19755789108480.0,
      "grad_norm": 3.060205069102368,
      "language_loss": 0.82684684,
      "learning_rate": 3.2141726522760938e-06,
      "loss": 0.84896892,
      "num_input_tokens_seen": 56026690,
      "step": 2608,
      "time_per_iteration": 3.570117950439453
    },
    {
      "auxiliary_loss_clip": 0.01088138,
      "auxiliary_loss_mlp": 0.01004968,
      "balance_loss_clip": 1.02425575,
      "balance_loss_mlp": 1.00314415,
      "epoch": 0.3137137016773883,
      "flos": 65815535583360.0,
      "grad_norm": 0.701462799974014,
      "language_loss": 0.52666807,
      "learning_rate": 3.213553561371469e-06,
      "loss": 0.54759914,
      "num_input_tokens_seen": 56090425,
      "step": 2609,
      "time_per_iteration": 3.2886931896209717
    },
    {
      "auxiliary_loss_clip": 0.0116567,
      "auxiliary_loss_mlp": 0.01040053,
      "balance_loss_clip": 1.05472589,
      "balance_loss_mlp": 1.03085601,
      "epoch": 0.31383394456802743,
      "flos": 16252739222400.0,
      "grad_norm": 2.997435512600894,
      "language_loss": 0.96388626,
      "learning_rate": 3.212934286371733e-06,
      "loss": 0.9859435,
      "num_input_tokens_seen": 56107135,
      "step": 2610,
      "time_per_iteration": 2.75791072845459
    },
    {
      "auxiliary_loss_clip": 0.01190216,
      "auxiliary_loss_mlp": 0.01035178,
      "balance_loss_clip": 1.05728364,
      "balance_loss_mlp": 1.02513504,
      "epoch": 0.3139541874586665,
      "flos": 38795517613440.0,
      "grad_norm": 3.1151387808628814,
      "language_loss": 0.83350873,
      "learning_rate": 3.2123148273708304e-06,
      "loss": 0.85576272,
      "num_input_tokens_seen": 56127325,
      "step": 2611,
      "time_per_iteration": 2.8365485668182373
    },
    {
      "auxiliary_loss_clip": 0.01203966,
      "auxiliary_loss_mlp": 0.01031992,
      "balance_loss_clip": 1.0603323,
      "balance_loss_mlp": 1.02303934,
      "epoch": 0.3140744303493056,
      "flos": 25046328430080.0,
      "grad_norm": 1.8455249299156276,
      "language_loss": 0.7714144,
      "learning_rate": 3.211695184462733e-06,
      "loss": 0.79377395,
      "num_input_tokens_seen": 56148500,
      "step": 2612,
      "time_per_iteration": 3.715832471847534
    },
    {
      "auxiliary_loss_clip": 0.01078255,
      "auxiliary_loss_mlp": 0.01002686,
      "balance_loss_clip": 1.02480054,
      "balance_loss_mlp": 1.00075459,
      "epoch": 0.3141946732399447,
      "flos": 72504254782080.0,
      "grad_norm": 0.8927602007630074,
      "language_loss": 0.60480809,
      "learning_rate": 3.2110753577414383e-06,
      "loss": 0.6256175,
      "num_input_tokens_seen": 56210080,
      "step": 2613,
      "time_per_iteration": 4.234154224395752
    },
    {
      "auxiliary_loss_clip": 0.01188378,
      "auxiliary_loss_mlp": 0.01034408,
      "balance_loss_clip": 1.05540884,
      "balance_loss_mlp": 1.02481222,
      "epoch": 0.31431491613058377,
      "flos": 19239788280960.0,
      "grad_norm": 1.8073850548178207,
      "language_loss": 0.79292476,
      "learning_rate": 3.2104553473009757e-06,
      "loss": 0.81515265,
      "num_input_tokens_seen": 56228200,
      "step": 2614,
      "time_per_iteration": 2.683148145675659
    },
    {
      "auxiliary_loss_clip": 0.01159885,
      "auxiliary_loss_mlp": 0.01035216,
      "balance_loss_clip": 1.0513984,
      "balance_loss_mlp": 1.02590537,
      "epoch": 0.3144351590212229,
      "flos": 36210596290560.0,
      "grad_norm": 2.2141512346974124,
      "language_loss": 0.6825034,
      "learning_rate": 3.209835153235399e-06,
      "loss": 0.70445442,
      "num_input_tokens_seen": 56249755,
      "step": 2615,
      "time_per_iteration": 2.876094102859497
    },
    {
      "auxiliary_loss_clip": 0.01164704,
      "auxiliary_loss_mlp": 0.01032025,
      "balance_loss_clip": 1.05129707,
      "balance_loss_mlp": 1.02357912,
      "epoch": 0.314555401911862,
      "flos": 18551740285440.0,
      "grad_norm": 2.0737995986719797,
      "language_loss": 0.67859733,
      "learning_rate": 3.2092147756387916e-06,
      "loss": 0.70056462,
      "num_input_tokens_seen": 56270080,
      "step": 2616,
      "time_per_iteration": 2.7501471042633057
    },
    {
      "auxiliary_loss_clip": 0.0117523,
      "auxiliary_loss_mlp": 0.01035316,
      "balance_loss_clip": 1.05259967,
      "balance_loss_mlp": 1.02636945,
      "epoch": 0.31467564480250104,
      "flos": 16362877299840.0,
      "grad_norm": 1.9035400505433366,
      "language_loss": 0.83883011,
      "learning_rate": 3.208594214605264e-06,
      "loss": 0.86093557,
      "num_input_tokens_seen": 56288625,
      "step": 2617,
      "time_per_iteration": 3.6217942237854004
    },
    {
      "auxiliary_loss_clip": 0.01170106,
      "auxiliary_loss_mlp": 0.01036177,
      "balance_loss_clip": 1.05254698,
      "balance_loss_mlp": 1.02692604,
      "epoch": 0.31479588769314015,
      "flos": 21652375127040.0,
      "grad_norm": 2.2192952911109702,
      "language_loss": 0.77425516,
      "learning_rate": 3.2079734702289553e-06,
      "loss": 0.79631793,
      "num_input_tokens_seen": 56307520,
      "step": 2618,
      "time_per_iteration": 2.7212018966674805
    },
    {
      "auxiliary_loss_clip": 0.01084422,
      "auxiliary_loss_mlp": 0.00877278,
      "balance_loss_clip": 1.02311349,
      "balance_loss_mlp": 1.00047004,
      "epoch": 0.3149161305837792,
      "flos": 66051072040320.0,
      "grad_norm": 0.8038563813080195,
      "language_loss": 0.60366964,
      "learning_rate": 3.207352542604031e-06,
      "loss": 0.6232866,
      "num_input_tokens_seen": 56369855,
      "step": 2619,
      "time_per_iteration": 3.3557748794555664
    },
    {
      "auxiliary_loss_clip": 0.01164112,
      "auxiliary_loss_mlp": 0.0102978,
      "balance_loss_clip": 1.05284858,
      "balance_loss_mlp": 1.02129197,
      "epoch": 0.3150363734744183,
      "flos": 28987201192320.0,
      "grad_norm": 1.6003599617248652,
      "language_loss": 0.78542304,
      "learning_rate": 3.2067314318246864e-06,
      "loss": 0.80736196,
      "num_input_tokens_seen": 56390570,
      "step": 2620,
      "time_per_iteration": 2.754148483276367
    },
    {
      "auxiliary_loss_clip": 0.01175195,
      "auxiliary_loss_mlp": 0.01032158,
      "balance_loss_clip": 1.05748606,
      "balance_loss_mlp": 1.02313936,
      "epoch": 0.31515661636505743,
      "flos": 27636600879360.0,
      "grad_norm": 1.7169978436205016,
      "language_loss": 0.7810452,
      "learning_rate": 3.206110137985143e-06,
      "loss": 0.80311877,
      "num_input_tokens_seen": 56410775,
      "step": 2621,
      "time_per_iteration": 2.776183843612671
    },
    {
      "auxiliary_loss_clip": 0.01163083,
      "auxiliary_loss_mlp": 0.01029994,
      "balance_loss_clip": 1.05294609,
      "balance_loss_mlp": 1.02042198,
      "epoch": 0.3152768592556965,
      "flos": 24605632465920.0,
      "grad_norm": 2.2564803259632926,
      "language_loss": 0.92073822,
      "learning_rate": 3.2054886611796505e-06,
      "loss": 0.94266903,
      "num_input_tokens_seen": 56429770,
      "step": 2622,
      "time_per_iteration": 2.749389171600342
    },
    {
      "auxiliary_loss_clip": 0.0109452,
      "auxiliary_loss_mlp": 0.01001052,
      "balance_loss_clip": 1.02328634,
      "balance_loss_mlp": 0.9992038,
      "epoch": 0.3153971021463356,
      "flos": 68476908026880.0,
      "grad_norm": 0.8859713283221323,
      "language_loss": 0.63517374,
      "learning_rate": 3.204867001502487e-06,
      "loss": 0.65612948,
      "num_input_tokens_seen": 56488425,
      "step": 2623,
      "time_per_iteration": 3.192944288253784
    },
    {
      "auxiliary_loss_clip": 0.01205124,
      "auxiliary_loss_mlp": 0.0103293,
      "balance_loss_clip": 1.06066012,
      "balance_loss_mlp": 1.02410293,
      "epoch": 0.3155173450369747,
      "flos": 25593714766080.0,
      "grad_norm": 1.9164326467520383,
      "language_loss": 0.80986291,
      "learning_rate": 3.2042451590479567e-06,
      "loss": 0.83224338,
      "num_input_tokens_seen": 56508940,
      "step": 2624,
      "time_per_iteration": 2.65173602104187
    },
    {
      "auxiliary_loss_clip": 0.01199102,
      "auxiliary_loss_mlp": 0.01027234,
      "balance_loss_clip": 1.05887771,
      "balance_loss_mlp": 1.01863956,
      "epoch": 0.31563758792761376,
      "flos": 24309333175680.0,
      "grad_norm": 1.7335029983173198,
      "language_loss": 0.8672452,
      "learning_rate": 3.203623133910394e-06,
      "loss": 0.88950861,
      "num_input_tokens_seen": 56527245,
      "step": 2625,
      "time_per_iteration": 2.622169017791748
    },
    {
      "auxiliary_loss_clip": 0.01156054,
      "auxiliary_loss_mlp": 0.01026596,
      "balance_loss_clip": 1.04995799,
      "balance_loss_mlp": 1.01782823,
      "epoch": 0.31575783081825287,
      "flos": 31903865550720.0,
      "grad_norm": 2.802675414758714,
      "language_loss": 0.7758978,
      "learning_rate": 3.203000926184158e-06,
      "loss": 0.79772425,
      "num_input_tokens_seen": 56546170,
      "step": 2626,
      "time_per_iteration": 2.9509589672088623
    },
    {
      "auxiliary_loss_clip": 0.01202135,
      "auxiliary_loss_mlp": 0.01034023,
      "balance_loss_clip": 1.05997396,
      "balance_loss_mlp": 1.02512431,
      "epoch": 0.315878073708892,
      "flos": 30810960385920.0,
      "grad_norm": 1.6986886220269415,
      "language_loss": 0.78152215,
      "learning_rate": 3.202378535963639e-06,
      "loss": 0.80388373,
      "num_input_tokens_seen": 56567085,
      "step": 2627,
      "time_per_iteration": 2.862370252609253
    },
    {
      "auxiliary_loss_clip": 0.01171089,
      "auxiliary_loss_mlp": 0.00888439,
      "balance_loss_clip": 1.05275226,
      "balance_loss_mlp": 1.00093985,
      "epoch": 0.31599831659953104,
      "flos": 22200264253440.0,
      "grad_norm": 1.96141867578319,
      "language_loss": 0.83856845,
      "learning_rate": 3.2017559633432516e-06,
      "loss": 0.85916376,
      "num_input_tokens_seen": 56586715,
      "step": 2628,
      "time_per_iteration": 2.740504741668701
    },
    {
      "auxiliary_loss_clip": 0.01190408,
      "auxiliary_loss_mlp": 0.0102849,
      "balance_loss_clip": 1.05554557,
      "balance_loss_mlp": 1.01993668,
      "epoch": 0.31611855949017015,
      "flos": 25593463370880.0,
      "grad_norm": 2.420981890893062,
      "language_loss": 0.66409767,
      "learning_rate": 3.2011332084174398e-06,
      "loss": 0.68628657,
      "num_input_tokens_seen": 56607585,
      "step": 2629,
      "time_per_iteration": 2.7373456954956055
    },
    {
      "auxiliary_loss_clip": 0.01188633,
      "auxiliary_loss_mlp": 0.01030546,
      "balance_loss_clip": 1.05643904,
      "balance_loss_mlp": 1.02149773,
      "epoch": 0.31623880238080926,
      "flos": 20594087694720.0,
      "grad_norm": 1.6802770987812683,
      "language_loss": 0.89279211,
      "learning_rate": 3.2005102712806756e-06,
      "loss": 0.91498393,
      "num_input_tokens_seen": 56626415,
      "step": 2630,
      "time_per_iteration": 2.681013822555542
    },
    {
      "auxiliary_loss_clip": 0.01194886,
      "auxiliary_loss_mlp": 0.01033036,
      "balance_loss_clip": 1.05745316,
      "balance_loss_mlp": 1.02406514,
      "epoch": 0.3163590452714483,
      "flos": 12784917600000.0,
      "grad_norm": 2.107144130122778,
      "language_loss": 0.73170769,
      "learning_rate": 3.1998871520274575e-06,
      "loss": 0.7539869,
      "num_input_tokens_seen": 56641750,
      "step": 2631,
      "time_per_iteration": 2.727182388305664
    },
    {
      "auxiliary_loss_clip": 0.01181221,
      "auxiliary_loss_mlp": 0.01038603,
      "balance_loss_clip": 1.05219555,
      "balance_loss_mlp": 1.02895319,
      "epoch": 0.3164792881620874,
      "flos": 23041292273280.0,
      "grad_norm": 3.2562639648111684,
      "language_loss": 0.85249227,
      "learning_rate": 3.199263850752312e-06,
      "loss": 0.87469053,
      "num_input_tokens_seen": 56662585,
      "step": 2632,
      "time_per_iteration": 2.750631093978882
    },
    {
      "auxiliary_loss_clip": 0.01189769,
      "auxiliary_loss_mlp": 0.01028997,
      "balance_loss_clip": 1.05563283,
      "balance_loss_mlp": 1.02039599,
      "epoch": 0.31659953105272653,
      "flos": 18296271780480.0,
      "grad_norm": 2.260132171349288,
      "language_loss": 0.8535161,
      "learning_rate": 3.198640367549795e-06,
      "loss": 0.87570369,
      "num_input_tokens_seen": 56681480,
      "step": 2633,
      "time_per_iteration": 2.6345720291137695
    },
    {
      "auxiliary_loss_clip": 0.01191116,
      "auxiliary_loss_mlp": 0.00888239,
      "balance_loss_clip": 1.05621958,
      "balance_loss_mlp": 1.00095296,
      "epoch": 0.3167197739433656,
      "flos": 25703421880320.0,
      "grad_norm": 2.4149235175243855,
      "language_loss": 0.85595274,
      "learning_rate": 3.198016702514487e-06,
      "loss": 0.8767463,
      "num_input_tokens_seen": 56701760,
      "step": 2634,
      "time_per_iteration": 3.639897346496582
    },
    {
      "auxiliary_loss_clip": 0.01200254,
      "auxiliary_loss_mlp": 0.0102872,
      "balance_loss_clip": 1.05807781,
      "balance_loss_mlp": 1.02033341,
      "epoch": 0.3168400168340047,
      "flos": 23546016230400.0,
      "grad_norm": 1.5707855306171654,
      "language_loss": 0.8433044,
      "learning_rate": 3.1973928557409972e-06,
      "loss": 0.86559415,
      "num_input_tokens_seen": 56719800,
      "step": 2635,
      "time_per_iteration": 2.6249985694885254
    },
    {
      "auxiliary_loss_clip": 0.01200596,
      "auxiliary_loss_mlp": 0.01033255,
      "balance_loss_clip": 1.05934703,
      "balance_loss_mlp": 1.02460027,
      "epoch": 0.31696025972464376,
      "flos": 28366449327360.0,
      "grad_norm": 2.2403583321114966,
      "language_loss": 0.71355742,
      "learning_rate": 3.1967688273239636e-06,
      "loss": 0.73589599,
      "num_input_tokens_seen": 56739605,
      "step": 2636,
      "time_per_iteration": 2.6753108501434326
    },
    {
      "auxiliary_loss_clip": 0.01167488,
      "auxiliary_loss_mlp": 0.01031952,
      "balance_loss_clip": 1.05198789,
      "balance_loss_mlp": 1.02294564,
      "epoch": 0.31708050261528287,
      "flos": 16399111144320.0,
      "grad_norm": 1.7316148498219603,
      "language_loss": 0.8187992,
      "learning_rate": 3.1961446173580503e-06,
      "loss": 0.84079361,
      "num_input_tokens_seen": 56756545,
      "step": 2637,
      "time_per_iteration": 2.6718499660491943
    },
    {
      "auxiliary_loss_clip": 0.01177709,
      "auxiliary_loss_mlp": 0.01027145,
      "balance_loss_clip": 1.05496311,
      "balance_loss_mlp": 1.01774585,
      "epoch": 0.317200745505922,
      "flos": 26212347728640.0,
      "grad_norm": 1.9250693878280234,
      "language_loss": 0.77390385,
      "learning_rate": 3.1955202259379502e-06,
      "loss": 0.79595244,
      "num_input_tokens_seen": 56778275,
      "step": 2638,
      "time_per_iteration": 3.768939256668091
    },
    {
      "auxiliary_loss_clip": 0.01184635,
      "auxiliary_loss_mlp": 0.0102815,
      "balance_loss_clip": 1.05250514,
      "balance_loss_mlp": 1.01952541,
      "epoch": 0.31732098839656103,
      "flos": 31350876693120.0,
      "grad_norm": 1.9069862547221164,
      "language_loss": 0.82754123,
      "learning_rate": 3.194895653158381e-06,
      "loss": 0.8496691,
      "num_input_tokens_seen": 56797215,
      "step": 2639,
      "time_per_iteration": 3.7021825313568115
    },
    {
      "auxiliary_loss_clip": 0.01091157,
      "auxiliary_loss_mlp": 0.01003845,
      "balance_loss_clip": 1.020455,
      "balance_loss_mlp": 1.0020926,
      "epoch": 0.31744123128720014,
      "flos": 58989024835200.0,
      "grad_norm": 0.7748411856094999,
      "language_loss": 0.55474854,
      "learning_rate": 3.194270899114093e-06,
      "loss": 0.57569855,
      "num_input_tokens_seen": 56863010,
      "step": 2640,
      "time_per_iteration": 3.2871766090393066
    },
    {
      "auxiliary_loss_clip": 0.01199004,
      "auxiliary_loss_mlp": 0.01035178,
      "balance_loss_clip": 1.0591296,
      "balance_loss_mlp": 1.02579665,
      "epoch": 0.31756147417783925,
      "flos": 17417573372160.0,
      "grad_norm": 2.3990799367864315,
      "language_loss": 0.8244586,
      "learning_rate": 3.193645963899858e-06,
      "loss": 0.84680045,
      "num_input_tokens_seen": 56880625,
      "step": 2641,
      "time_per_iteration": 2.686131715774536
    },
    {
      "auxiliary_loss_clip": 0.01177673,
      "auxiliary_loss_mlp": 0.01029183,
      "balance_loss_clip": 1.05656004,
      "balance_loss_mlp": 1.01990223,
      "epoch": 0.3176817170684783,
      "flos": 25481673267840.0,
      "grad_norm": 1.9864828690787502,
      "language_loss": 0.8405174,
      "learning_rate": 3.193020847610479e-06,
      "loss": 0.86258602,
      "num_input_tokens_seen": 56900945,
      "step": 2642,
      "time_per_iteration": 2.7288742065429688
    },
    {
      "auxiliary_loss_clip": 0.01175551,
      "auxiliary_loss_mlp": 0.01034984,
      "balance_loss_clip": 1.05563402,
      "balance_loss_mlp": 1.02514911,
      "epoch": 0.3178019599591174,
      "flos": 24972603765120.0,
      "grad_norm": 2.3700582992312635,
      "language_loss": 0.71189201,
      "learning_rate": 3.192395550340787e-06,
      "loss": 0.73399734,
      "num_input_tokens_seen": 56918895,
      "step": 2643,
      "time_per_iteration": 3.6722989082336426
    },
    {
      "auxiliary_loss_clip": 0.0119044,
      "auxiliary_loss_mlp": 0.01029065,
      "balance_loss_clip": 1.05881047,
      "balance_loss_mlp": 1.02019548,
      "epoch": 0.31792220284975653,
      "flos": 12422220019200.0,
      "grad_norm": 2.037982657720421,
      "language_loss": 0.77030367,
      "learning_rate": 3.191770072185638e-06,
      "loss": 0.79249871,
      "num_input_tokens_seen": 56935890,
      "step": 2644,
      "time_per_iteration": 2.6289103031158447
    },
    {
      "auxiliary_loss_clip": 0.01191491,
      "auxiliary_loss_mlp": 0.01026432,
      "balance_loss_clip": 1.05838525,
      "balance_loss_mlp": 1.01791501,
      "epoch": 0.3180424457403956,
      "flos": 15485759089920.0,
      "grad_norm": 2.900690880742417,
      "language_loss": 0.72890925,
      "learning_rate": 3.191144413239916e-06,
      "loss": 0.7510885,
      "num_input_tokens_seen": 56952460,
      "step": 2645,
      "time_per_iteration": 2.63889217376709
    },
    {
      "auxiliary_loss_clip": 0.01182986,
      "auxiliary_loss_mlp": 0.01036615,
      "balance_loss_clip": 1.05744648,
      "balance_loss_mlp": 1.02766848,
      "epoch": 0.3181626886310347,
      "flos": 26174964648960.0,
      "grad_norm": 2.0885563877097773,
      "language_loss": 0.88102698,
      "learning_rate": 3.190518573598534e-06,
      "loss": 0.90322292,
      "num_input_tokens_seen": 56969065,
      "step": 2646,
      "time_per_iteration": 2.68953013420105
    },
    {
      "auxiliary_loss_clip": 0.01180222,
      "auxiliary_loss_mlp": 0.01032242,
      "balance_loss_clip": 1.05390179,
      "balance_loss_mlp": 1.02341473,
      "epoch": 0.3182829315216738,
      "flos": 25483109811840.0,
      "grad_norm": 5.812705403113119,
      "language_loss": 0.77542794,
      "learning_rate": 3.1898925533564308e-06,
      "loss": 0.79755247,
      "num_input_tokens_seen": 56990535,
      "step": 2647,
      "time_per_iteration": 2.772369623184204
    },
    {
      "auxiliary_loss_clip": 0.01156939,
      "auxiliary_loss_mlp": 0.01031975,
      "balance_loss_clip": 1.04780698,
      "balance_loss_mlp": 1.02295732,
      "epoch": 0.31840317441231286,
      "flos": 18113701927680.0,
      "grad_norm": 3.1163376181250624,
      "language_loss": 0.64256561,
      "learning_rate": 3.1892663526085733e-06,
      "loss": 0.6644547,
      "num_input_tokens_seen": 57008910,
      "step": 2648,
      "time_per_iteration": 2.704505681991577
    },
    {
      "auxiliary_loss_clip": 0.01091153,
      "auxiliary_loss_mlp": 0.01003643,
      "balance_loss_clip": 1.0200963,
      "balance_loss_mlp": 1.00185442,
      "epoch": 0.31852341730295197,
      "flos": 64741948957440.0,
      "grad_norm": 0.7524572597708435,
      "language_loss": 0.56876677,
      "learning_rate": 3.188639971449956e-06,
      "loss": 0.58971471,
      "num_input_tokens_seen": 57074960,
      "step": 2649,
      "time_per_iteration": 3.176736831665039
    },
    {
      "auxiliary_loss_clip": 0.0120421,
      "auxiliary_loss_mlp": 0.01032601,
      "balance_loss_clip": 1.06033146,
      "balance_loss_mlp": 1.02370811,
      "epoch": 0.318643660193591,
      "flos": 20668135582080.0,
      "grad_norm": 2.265306950011389,
      "language_loss": 0.72208816,
      "learning_rate": 3.1880134099756e-06,
      "loss": 0.74445629,
      "num_input_tokens_seen": 57094595,
      "step": 2650,
      "time_per_iteration": 2.669647693634033
    },
    {
      "auxiliary_loss_clip": 0.01189285,
      "auxiliary_loss_mlp": 0.01031233,
      "balance_loss_clip": 1.05509305,
      "balance_loss_mlp": 1.02257788,
      "epoch": 0.31876390308423014,
      "flos": 26943345411840.0,
      "grad_norm": 2.431803348400744,
      "language_loss": 0.69585299,
      "learning_rate": 3.1873866682805535e-06,
      "loss": 0.71805823,
      "num_input_tokens_seen": 57115290,
      "step": 2651,
      "time_per_iteration": 2.707749128341675
    },
    {
      "auxiliary_loss_clip": 0.01191725,
      "auxiliary_loss_mlp": 0.01029436,
      "balance_loss_clip": 1.05967116,
      "balance_loss_mlp": 1.01993513,
      "epoch": 0.31888414597486925,
      "flos": 18041916597120.0,
      "grad_norm": 2.050626813845726,
      "language_loss": 0.88570225,
      "learning_rate": 3.186759746459894e-06,
      "loss": 0.90791392,
      "num_input_tokens_seen": 57134400,
      "step": 2652,
      "time_per_iteration": 2.705026626586914
    },
    {
      "auxiliary_loss_clip": 0.01176869,
      "auxiliary_loss_mlp": 0.01033665,
      "balance_loss_clip": 1.05231142,
      "balance_loss_mlp": 1.02477217,
      "epoch": 0.3190043888655083,
      "flos": 25149319701120.0,
      "grad_norm": 1.9948931637406886,
      "language_loss": 0.79559767,
      "learning_rate": 3.1861326446087246e-06,
      "loss": 0.81770301,
      "num_input_tokens_seen": 57153140,
      "step": 2653,
      "time_per_iteration": 2.7085459232330322
    },
    {
      "auxiliary_loss_clip": 0.01194423,
      "auxiliary_loss_mlp": 0.01044598,
      "balance_loss_clip": 1.05710649,
      "balance_loss_mlp": 1.03573513,
      "epoch": 0.3191246317561474,
      "flos": 22053892331520.0,
      "grad_norm": 2.281007029962854,
      "language_loss": 0.72110164,
      "learning_rate": 3.1855053628221763e-06,
      "loss": 0.74349189,
      "num_input_tokens_seen": 57172395,
      "step": 2654,
      "time_per_iteration": 2.681171178817749
    },
    {
      "auxiliary_loss_clip": 0.01163855,
      "auxiliary_loss_mlp": 0.01030393,
      "balance_loss_clip": 1.05015194,
      "balance_loss_mlp": 1.02064145,
      "epoch": 0.3192448746467865,
      "flos": 14901815687040.0,
      "grad_norm": 3.9207634702971745,
      "language_loss": 0.90434563,
      "learning_rate": 3.184877901195407e-06,
      "loss": 0.92628801,
      "num_input_tokens_seen": 57189090,
      "step": 2655,
      "time_per_iteration": 2.6826770305633545
    },
    {
      "auxiliary_loss_clip": 0.01075988,
      "auxiliary_loss_mlp": 0.01003317,
      "balance_loss_clip": 1.02021182,
      "balance_loss_mlp": 1.00155318,
      "epoch": 0.3193651175374256,
      "flos": 67234832657280.0,
      "grad_norm": 0.7988153247635461,
      "language_loss": 0.62814742,
      "learning_rate": 3.184250259823602e-06,
      "loss": 0.6489405,
      "num_input_tokens_seen": 57251620,
      "step": 2656,
      "time_per_iteration": 3.313215732574463
    },
    {
      "auxiliary_loss_clip": 0.01174803,
      "auxiliary_loss_mlp": 0.01028897,
      "balance_loss_clip": 1.05480361,
      "balance_loss_mlp": 1.01962256,
      "epoch": 0.3194853604280647,
      "flos": 12233077977600.0,
      "grad_norm": 2.047709199885371,
      "language_loss": 0.81780338,
      "learning_rate": 3.183622438801974e-06,
      "loss": 0.83984041,
      "num_input_tokens_seen": 57266910,
      "step": 2657,
      "time_per_iteration": 2.76959490776062
    },
    {
      "auxiliary_loss_clip": 0.01203386,
      "auxiliary_loss_mlp": 0.01039107,
      "balance_loss_clip": 1.06048405,
      "balance_loss_mlp": 1.0305481,
      "epoch": 0.3196056033187038,
      "flos": 14939917038720.0,
      "grad_norm": 2.1707235008044776,
      "language_loss": 0.74949557,
      "learning_rate": 3.1829944382257637e-06,
      "loss": 0.7719205,
      "num_input_tokens_seen": 57285040,
      "step": 2658,
      "time_per_iteration": 2.603573799133301
    },
    {
      "auxiliary_loss_clip": 0.01190565,
      "auxiliary_loss_mlp": 0.01031975,
      "balance_loss_clip": 1.05969751,
      "balance_loss_mlp": 1.02286136,
      "epoch": 0.31972584620934286,
      "flos": 23768878164480.0,
      "grad_norm": 2.2637045411853833,
      "language_loss": 0.8128829,
      "learning_rate": 3.1823662581902373e-06,
      "loss": 0.83510834,
      "num_input_tokens_seen": 57302725,
      "step": 2659,
      "time_per_iteration": 2.6615254878997803
    },
    {
      "auxiliary_loss_clip": 0.01155541,
      "auxiliary_loss_mlp": 0.01034889,
      "balance_loss_clip": 1.04614949,
      "balance_loss_mlp": 1.02573991,
      "epoch": 0.31984608909998197,
      "flos": 21251540280960.0,
      "grad_norm": 3.7007644027710995,
      "language_loss": 0.75161529,
      "learning_rate": 3.1817378987906896e-06,
      "loss": 0.77351964,
      "num_input_tokens_seen": 57322230,
      "step": 2660,
      "time_per_iteration": 3.621154308319092
    },
    {
      "auxiliary_loss_clip": 0.01156593,
      "auxiliary_loss_mlp": 0.01036845,
      "balance_loss_clip": 1.05258274,
      "balance_loss_mlp": 1.02784431,
      "epoch": 0.3199663319906211,
      "flos": 18296235866880.0,
      "grad_norm": 2.4214411787842893,
      "language_loss": 0.80096602,
      "learning_rate": 3.181109360122442e-06,
      "loss": 0.82290041,
      "num_input_tokens_seen": 57339820,
      "step": 2661,
      "time_per_iteration": 2.69523286819458
    },
    {
      "auxiliary_loss_clip": 0.01166505,
      "auxiliary_loss_mlp": 0.01032449,
      "balance_loss_clip": 1.04946852,
      "balance_loss_mlp": 1.02251923,
      "epoch": 0.32008657488126013,
      "flos": 18733627779840.0,
      "grad_norm": 5.331206923886815,
      "language_loss": 0.78513825,
      "learning_rate": 3.1804806422808445e-06,
      "loss": 0.80712783,
      "num_input_tokens_seen": 57356955,
      "step": 2662,
      "time_per_iteration": 2.599135398864746
    },
    {
      "auxiliary_loss_clip": 0.01172616,
      "auxiliary_loss_mlp": 0.0103522,
      "balance_loss_clip": 1.05431294,
      "balance_loss_mlp": 1.02630281,
      "epoch": 0.32020681777189924,
      "flos": 20595344670720.0,
      "grad_norm": 1.6779012293582236,
      "language_loss": 0.73592675,
      "learning_rate": 3.1798517453612714e-06,
      "loss": 0.75800508,
      "num_input_tokens_seen": 57376760,
      "step": 2663,
      "time_per_iteration": 2.6161386966705322
    },
    {
      "auxiliary_loss_clip": 0.01187505,
      "auxiliary_loss_mlp": 0.01037198,
      "balance_loss_clip": 1.05835986,
      "balance_loss_mlp": 1.02771533,
      "epoch": 0.32032706066253835,
      "flos": 35261692750080.0,
      "grad_norm": 2.3946123598955156,
      "language_loss": 0.75634515,
      "learning_rate": 3.1792226694591265e-06,
      "loss": 0.77859223,
      "num_input_tokens_seen": 57398145,
      "step": 2664,
      "time_per_iteration": 3.474414110183716
    },
    {
      "auxiliary_loss_clip": 0.01168292,
      "auxiliary_loss_mlp": 0.01036701,
      "balance_loss_clip": 1.05256772,
      "balance_loss_mlp": 1.02812994,
      "epoch": 0.3204473035531774,
      "flos": 15304230731520.0,
      "grad_norm": 1.9137917659604875,
      "language_loss": 0.80129004,
      "learning_rate": 3.178593414669841e-06,
      "loss": 0.82334,
      "num_input_tokens_seen": 57416730,
      "step": 2665,
      "time_per_iteration": 3.9637272357940674
    },
    {
      "auxiliary_loss_clip": 0.01190231,
      "auxiliary_loss_mlp": 0.01031933,
      "balance_loss_clip": 1.05471277,
      "balance_loss_mlp": 1.0212276,
      "epoch": 0.3205675464438165,
      "flos": 24462564595200.0,
      "grad_norm": 5.391153280339184,
      "language_loss": 0.70640779,
      "learning_rate": 3.1779639810888707e-06,
      "loss": 0.72862947,
      "num_input_tokens_seen": 57436325,
      "step": 2666,
      "time_per_iteration": 2.87636399269104
    },
    {
      "auxiliary_loss_clip": 0.01189338,
      "auxiliary_loss_mlp": 0.01031878,
      "balance_loss_clip": 1.05847692,
      "balance_loss_mlp": 1.02193594,
      "epoch": 0.3206877893344556,
      "flos": 22456235548800.0,
      "grad_norm": 2.2225579849736525,
      "language_loss": 0.75952327,
      "learning_rate": 3.1773343688117013e-06,
      "loss": 0.78173542,
      "num_input_tokens_seen": 57457235,
      "step": 2667,
      "time_per_iteration": 2.7369024753570557
    },
    {
      "auxiliary_loss_clip": 0.01184689,
      "auxiliary_loss_mlp": 0.00888673,
      "balance_loss_clip": 1.05439031,
      "balance_loss_mlp": 1.00100231,
      "epoch": 0.3208080322250947,
      "flos": 20412236113920.0,
      "grad_norm": 2.4543411106209154,
      "language_loss": 0.83811808,
      "learning_rate": 3.1767045779338445e-06,
      "loss": 0.85885173,
      "num_input_tokens_seen": 57474895,
      "step": 2668,
      "time_per_iteration": 2.728564977645874
    },
    {
      "auxiliary_loss_clip": 0.01189618,
      "auxiliary_loss_mlp": 0.01032188,
      "balance_loss_clip": 1.0541153,
      "balance_loss_mlp": 1.02303243,
      "epoch": 0.3209282751157338,
      "flos": 21762118154880.0,
      "grad_norm": 2.5557391644315213,
      "language_loss": 0.91441834,
      "learning_rate": 3.176074608550839e-06,
      "loss": 0.93663639,
      "num_input_tokens_seen": 57490715,
      "step": 2669,
      "time_per_iteration": 3.5431535243988037
    },
    {
      "auxiliary_loss_clip": 0.01153516,
      "auxiliary_loss_mlp": 0.01034915,
      "balance_loss_clip": 1.05245614,
      "balance_loss_mlp": 1.02590227,
      "epoch": 0.32104851800637285,
      "flos": 22055041566720.0,
      "grad_norm": 4.610925743703904,
      "language_loss": 0.82252705,
      "learning_rate": 3.17544446075825e-06,
      "loss": 0.84441137,
      "num_input_tokens_seen": 57509880,
      "step": 2670,
      "time_per_iteration": 2.837401866912842
    },
    {
      "auxiliary_loss_clip": 0.01186782,
      "auxiliary_loss_mlp": 0.01029953,
      "balance_loss_clip": 1.0544591,
      "balance_loss_mlp": 1.02103019,
      "epoch": 0.32116876089701196,
      "flos": 37012301896320.0,
      "grad_norm": 6.491868431118736,
      "language_loss": 0.71269178,
      "learning_rate": 3.174814134651671e-06,
      "loss": 0.73485911,
      "num_input_tokens_seen": 57532430,
      "step": 2671,
      "time_per_iteration": 2.8665285110473633
    },
    {
      "auxiliary_loss_clip": 0.0119574,
      "auxiliary_loss_mlp": 0.01032967,
      "balance_loss_clip": 1.05659974,
      "balance_loss_mlp": 1.02396107,
      "epoch": 0.3212890037876511,
      "flos": 21979233912960.0,
      "grad_norm": 1.6386757336374527,
      "language_loss": 0.80067331,
      "learning_rate": 3.1741836303267215e-06,
      "loss": 0.82296038,
      "num_input_tokens_seen": 57551965,
      "step": 2672,
      "time_per_iteration": 2.6764416694641113
    },
    {
      "auxiliary_loss_clip": 0.01198393,
      "auxiliary_loss_mlp": 0.01034275,
      "balance_loss_clip": 1.05788016,
      "balance_loss_mlp": 1.02485156,
      "epoch": 0.32140924667829013,
      "flos": 10342345875840.0,
      "grad_norm": 2.179103194682547,
      "language_loss": 0.75127226,
      "learning_rate": 3.1735529478790496e-06,
      "loss": 0.77359891,
      "num_input_tokens_seen": 57569955,
      "step": 2673,
      "time_per_iteration": 2.6607604026794434
    },
    {
      "auxiliary_loss_clip": 0.01191427,
      "auxiliary_loss_mlp": 0.01028076,
      "balance_loss_clip": 1.05750489,
      "balance_loss_mlp": 1.01752579,
      "epoch": 0.32152948956892924,
      "flos": 50798910072960.0,
      "grad_norm": 2.2100037350343644,
      "language_loss": 0.79533815,
      "learning_rate": 3.172922087404328e-06,
      "loss": 0.81753314,
      "num_input_tokens_seen": 57592215,
      "step": 2674,
      "time_per_iteration": 2.9419960975646973
    },
    {
      "auxiliary_loss_clip": 0.01090232,
      "auxiliary_loss_mlp": 0.01005386,
      "balance_loss_clip": 1.01924276,
      "balance_loss_mlp": 1.00359774,
      "epoch": 0.32164973245956835,
      "flos": 63863250549120.0,
      "grad_norm": 0.7897202651512614,
      "language_loss": 0.55209309,
      "learning_rate": 3.1722910489982586e-06,
      "loss": 0.57304931,
      "num_input_tokens_seen": 57652575,
      "step": 2675,
      "time_per_iteration": 3.301999092102051
    },
    {
      "auxiliary_loss_clip": 0.01175467,
      "auxiliary_loss_mlp": 0.01032284,
      "balance_loss_clip": 1.05185735,
      "balance_loss_mlp": 1.02207923,
      "epoch": 0.3217699753502074,
      "flos": 23513948363520.0,
      "grad_norm": 2.0642652309860323,
      "language_loss": 0.80059904,
      "learning_rate": 3.1716598327565694e-06,
      "loss": 0.82267654,
      "num_input_tokens_seen": 57672215,
      "step": 2676,
      "time_per_iteration": 2.831113338470459
    },
    {
      "auxiliary_loss_clip": 0.01200322,
      "auxiliary_loss_mlp": 0.01037742,
      "balance_loss_clip": 1.05951595,
      "balance_loss_mlp": 1.02914679,
      "epoch": 0.3218902182408465,
      "flos": 19062533640960.0,
      "grad_norm": 1.5268101837045138,
      "language_loss": 0.84041035,
      "learning_rate": 3.171028438775015e-06,
      "loss": 0.86279094,
      "num_input_tokens_seen": 57691410,
      "step": 2677,
      "time_per_iteration": 2.7075140476226807
    },
    {
      "auxiliary_loss_clip": 0.01199783,
      "auxiliary_loss_mlp": 0.01027099,
      "balance_loss_clip": 1.05858707,
      "balance_loss_mlp": 1.01833093,
      "epoch": 0.3220104611314856,
      "flos": 20375571306240.0,
      "grad_norm": 1.9599307265129797,
      "language_loss": 0.83899915,
      "learning_rate": 3.170396867149377e-06,
      "loss": 0.86126792,
      "num_input_tokens_seen": 57709415,
      "step": 2678,
      "time_per_iteration": 2.6940274238586426
    },
    {
      "auxiliary_loss_clip": 0.0115081,
      "auxiliary_loss_mlp": 0.01031897,
      "balance_loss_clip": 1.04916096,
      "balance_loss_mlp": 1.02216983,
      "epoch": 0.3221307040221247,
      "flos": 20117014231680.0,
      "grad_norm": 2.5095329776008772,
      "language_loss": 0.86406446,
      "learning_rate": 3.1697651179754653e-06,
      "loss": 0.88589156,
      "num_input_tokens_seen": 57728075,
      "step": 2679,
      "time_per_iteration": 2.790994882583618
    },
    {
      "auxiliary_loss_clip": 0.01174891,
      "auxiliary_loss_mlp": 0.0103562,
      "balance_loss_clip": 1.05783558,
      "balance_loss_mlp": 1.02628565,
      "epoch": 0.3222509469127638,
      "flos": 23987789602560.0,
      "grad_norm": 1.93220221162134,
      "language_loss": 0.73115098,
      "learning_rate": 3.1691331913491153e-06,
      "loss": 0.75325608,
      "num_input_tokens_seen": 57750645,
      "step": 2680,
      "time_per_iteration": 2.845109224319458
    },
    {
      "auxiliary_loss_clip": 0.01201085,
      "auxiliary_loss_mlp": 0.01030152,
      "balance_loss_clip": 1.05711079,
      "balance_loss_mlp": 1.02079964,
      "epoch": 0.32237118980340285,
      "flos": 17675735397120.0,
      "grad_norm": 2.7467878875386917,
      "language_loss": 0.84845382,
      "learning_rate": 3.1685010873661898e-06,
      "loss": 0.87076616,
      "num_input_tokens_seen": 57769820,
      "step": 2681,
      "time_per_iteration": 2.6769726276397705
    },
    {
      "auxiliary_loss_clip": 0.01184423,
      "auxiliary_loss_mlp": 0.01033091,
      "balance_loss_clip": 1.05444098,
      "balance_loss_mlp": 1.02347076,
      "epoch": 0.32249143269404196,
      "flos": 23147982645120.0,
      "grad_norm": 2.0297988047445674,
      "language_loss": 0.79748547,
      "learning_rate": 3.167868806122578e-06,
      "loss": 0.8196606,
      "num_input_tokens_seen": 57788870,
      "step": 2682,
      "time_per_iteration": 2.6618053913116455
    },
    {
      "auxiliary_loss_clip": 0.01183202,
      "auxiliary_loss_mlp": 0.0103811,
      "balance_loss_clip": 1.05458486,
      "balance_loss_mlp": 1.02825761,
      "epoch": 0.32261167558468107,
      "flos": 24422308427520.0,
      "grad_norm": 2.3085626527349064,
      "language_loss": 0.66395879,
      "learning_rate": 3.1672363477141968e-06,
      "loss": 0.68617189,
      "num_input_tokens_seen": 57808165,
      "step": 2683,
      "time_per_iteration": 2.732506275177002
    },
    {
      "auxiliary_loss_clip": 0.01184088,
      "auxiliary_loss_mlp": 0.01035893,
      "balance_loss_clip": 1.05377042,
      "balance_loss_mlp": 1.02623701,
      "epoch": 0.3227319184753201,
      "flos": 30367175852160.0,
      "grad_norm": 2.6310205405833678,
      "language_loss": 0.85085964,
      "learning_rate": 3.1666037122369903e-06,
      "loss": 0.87305945,
      "num_input_tokens_seen": 57828825,
      "step": 2684,
      "time_per_iteration": 2.725841760635376
    },
    {
      "auxiliary_loss_clip": 0.0118653,
      "auxiliary_loss_mlp": 0.01036095,
      "balance_loss_clip": 1.05364645,
      "balance_loss_mlp": 1.02558053,
      "epoch": 0.32285216136595923,
      "flos": 16946174257920.0,
      "grad_norm": 2.1712186668753217,
      "language_loss": 0.86263633,
      "learning_rate": 3.165970899786928e-06,
      "loss": 0.8848626,
      "num_input_tokens_seen": 57846740,
      "step": 2685,
      "time_per_iteration": 2.706232786178589
    },
    {
      "auxiliary_loss_clip": 0.01170849,
      "auxiliary_loss_mlp": 0.01030901,
      "balance_loss_clip": 1.05125809,
      "balance_loss_mlp": 1.02180576,
      "epoch": 0.32297240425659834,
      "flos": 21981532383360.0,
      "grad_norm": 2.426102783406795,
      "language_loss": 0.74989808,
      "learning_rate": 3.1653379104600067e-06,
      "loss": 0.77191556,
      "num_input_tokens_seen": 57866885,
      "step": 2686,
      "time_per_iteration": 3.656157970428467
    },
    {
      "auxiliary_loss_clip": 0.01192156,
      "auxiliary_loss_mlp": 0.01029588,
      "balance_loss_clip": 1.05587339,
      "balance_loss_mlp": 1.0203073,
      "epoch": 0.3230926471472374,
      "flos": 22748045639040.0,
      "grad_norm": 1.5121567803975824,
      "language_loss": 0.69522315,
      "learning_rate": 3.164704744352251e-06,
      "loss": 0.71744061,
      "num_input_tokens_seen": 57887690,
      "step": 2687,
      "time_per_iteration": 2.6668293476104736
    },
    {
      "auxiliary_loss_clip": 0.01186049,
      "auxiliary_loss_mlp": 0.01026701,
      "balance_loss_clip": 1.05492568,
      "balance_loss_mlp": 1.01756334,
      "epoch": 0.3232128900378765,
      "flos": 16942977947520.0,
      "grad_norm": 1.8124659332237085,
      "language_loss": 0.8083415,
      "learning_rate": 3.164071401559713e-06,
      "loss": 0.83046901,
      "num_input_tokens_seen": 57905090,
      "step": 2688,
      "time_per_iteration": 2.6796460151672363
    },
    {
      "auxiliary_loss_clip": 0.01185328,
      "auxiliary_loss_mlp": 0.01032143,
      "balance_loss_clip": 1.05726981,
      "balance_loss_mlp": 1.02332795,
      "epoch": 0.3233331329285156,
      "flos": 24023736138240.0,
      "grad_norm": 2.1515330609623438,
      "language_loss": 0.70603663,
      "learning_rate": 3.1634378821784674e-06,
      "loss": 0.7282114,
      "num_input_tokens_seen": 57925305,
      "step": 2689,
      "time_per_iteration": 2.6787774562835693
    },
    {
      "auxiliary_loss_clip": 0.01171834,
      "auxiliary_loss_mlp": 0.01032607,
      "balance_loss_clip": 1.0539422,
      "balance_loss_mlp": 1.02337456,
      "epoch": 0.3234533758191547,
      "flos": 18113845582080.0,
      "grad_norm": 2.152829016487116,
      "language_loss": 0.74142551,
      "learning_rate": 3.1628041863046208e-06,
      "loss": 0.76346999,
      "num_input_tokens_seen": 57942720,
      "step": 2690,
      "time_per_iteration": 3.7029879093170166
    },
    {
      "auxiliary_loss_clip": 0.01203541,
      "auxiliary_loss_mlp": 0.01030218,
      "balance_loss_clip": 1.05633163,
      "balance_loss_mlp": 1.02092612,
      "epoch": 0.3235736187097938,
      "flos": 16946138344320.0,
      "grad_norm": 2.3073267387476206,
      "language_loss": 0.9095422,
      "learning_rate": 3.162170314034304e-06,
      "loss": 0.93187976,
      "num_input_tokens_seen": 57960135,
      "step": 2691,
      "time_per_iteration": 3.9033541679382324
    },
    {
      "auxiliary_loss_clip": 0.01204137,
      "auxiliary_loss_mlp": 0.01033498,
      "balance_loss_clip": 1.05837703,
      "balance_loss_mlp": 1.02374125,
      "epoch": 0.3236938616004329,
      "flos": 22127150119680.0,
      "grad_norm": 1.7215616725372636,
      "language_loss": 0.80972737,
      "learning_rate": 3.1615362654636738e-06,
      "loss": 0.83210373,
      "num_input_tokens_seen": 57980875,
      "step": 2692,
      "time_per_iteration": 2.6879918575286865
    },
    {
      "auxiliary_loss_clip": 0.01165208,
      "auxiliary_loss_mlp": 0.01035211,
      "balance_loss_clip": 1.05631101,
      "balance_loss_mlp": 1.02650881,
      "epoch": 0.32381410449107195,
      "flos": 17164618819200.0,
      "grad_norm": 1.8616941627469568,
      "language_loss": 0.87180072,
      "learning_rate": 3.1609020406889163e-06,
      "loss": 0.89380491,
      "num_input_tokens_seen": 57998310,
      "step": 2693,
      "time_per_iteration": 2.7628190517425537
    },
    {
      "auxiliary_loss_clip": 0.01181812,
      "auxiliary_loss_mlp": 0.01040105,
      "balance_loss_clip": 1.05303574,
      "balance_loss_mlp": 1.03068769,
      "epoch": 0.32393434738171106,
      "flos": 16578125550720.0,
      "grad_norm": 1.7814845027744806,
      "language_loss": 0.85335767,
      "learning_rate": 3.1602676398062416e-06,
      "loss": 0.87557679,
      "num_input_tokens_seen": 58017220,
      "step": 2694,
      "time_per_iteration": 2.671727180480957
    },
    {
      "auxiliary_loss_clip": 0.01187997,
      "auxiliary_loss_mlp": 0.01028343,
      "balance_loss_clip": 1.05627394,
      "balance_loss_mlp": 1.01829946,
      "epoch": 0.3240545902723502,
      "flos": 25483612602240.0,
      "grad_norm": 2.5303888544091624,
      "language_loss": 0.61510909,
      "learning_rate": 3.1596330629118886e-06,
      "loss": 0.6372726,
      "num_input_tokens_seen": 58037190,
      "step": 2695,
      "time_per_iteration": 3.603806972503662
    },
    {
      "auxiliary_loss_clip": 0.01155164,
      "auxiliary_loss_mlp": 0.01033913,
      "balance_loss_clip": 1.05224538,
      "balance_loss_mlp": 1.02472806,
      "epoch": 0.32417483316298923,
      "flos": 35845851634560.0,
      "grad_norm": 2.1495758212463416,
      "language_loss": 0.73461914,
      "learning_rate": 3.1589983101021223e-06,
      "loss": 0.7565099,
      "num_input_tokens_seen": 58055820,
      "step": 2696,
      "time_per_iteration": 2.9381368160247803
    },
    {
      "auxiliary_loss_clip": 0.0117981,
      "auxiliary_loss_mlp": 0.01032801,
      "balance_loss_clip": 1.05400801,
      "balance_loss_mlp": 1.02368736,
      "epoch": 0.32429507605362834,
      "flos": 30080501406720.0,
      "grad_norm": 2.3362646964916003,
      "language_loss": 0.85155284,
      "learning_rate": 3.1583633814732337e-06,
      "loss": 0.87367892,
      "num_input_tokens_seen": 58075340,
      "step": 2697,
      "time_per_iteration": 2.7531754970550537
    },
    {
      "auxiliary_loss_clip": 0.01202321,
      "auxiliary_loss_mlp": 0.01027848,
      "balance_loss_clip": 1.05859065,
      "balance_loss_mlp": 1.01824534,
      "epoch": 0.3244153189442674,
      "flos": 18223265387520.0,
      "grad_norm": 2.781018142728859,
      "language_loss": 0.72500253,
      "learning_rate": 3.157728277121541e-06,
      "loss": 0.7473042,
      "num_input_tokens_seen": 58093515,
      "step": 2698,
      "time_per_iteration": 2.674713134765625
    },
    {
      "auxiliary_loss_clip": 0.01196917,
      "auxiliary_loss_mlp": 0.01029979,
      "balance_loss_clip": 1.0546608,
      "balance_loss_mlp": 1.02022791,
      "epoch": 0.3245355618349065,
      "flos": 17710317216000.0,
      "grad_norm": 2.754154838492913,
      "language_loss": 0.78522557,
      "learning_rate": 3.1570929971433897e-06,
      "loss": 0.80749452,
      "num_input_tokens_seen": 58109300,
      "step": 2699,
      "time_per_iteration": 2.563025712966919
    },
    {
      "auxiliary_loss_clip": 0.0119228,
      "auxiliary_loss_mlp": 0.01044583,
      "balance_loss_clip": 1.06019533,
      "balance_loss_mlp": 1.03526127,
      "epoch": 0.3246558047255456,
      "flos": 23440798316160.0,
      "grad_norm": 2.4693549524255953,
      "language_loss": 0.83899522,
      "learning_rate": 3.1564575416351504e-06,
      "loss": 0.86136389,
      "num_input_tokens_seen": 58128000,
      "step": 2700,
      "time_per_iteration": 2.7415199279785156
    },
    {
      "auxiliary_loss_clip": 0.01199891,
      "auxiliary_loss_mlp": 0.01028629,
      "balance_loss_clip": 1.05738831,
      "balance_loss_mlp": 1.01979566,
      "epoch": 0.32477604761618467,
      "flos": 21760861178880.0,
      "grad_norm": 2.310217766153118,
      "language_loss": 0.74454677,
      "learning_rate": 3.155821910693221e-06,
      "loss": 0.76683199,
      "num_input_tokens_seen": 58147415,
      "step": 2701,
      "time_per_iteration": 2.6558117866516113
    },
    {
      "auxiliary_loss_clip": 0.01178466,
      "auxiliary_loss_mlp": 0.01030759,
      "balance_loss_clip": 1.05348456,
      "balance_loss_mlp": 1.02073956,
      "epoch": 0.3248962905068238,
      "flos": 19828328624640.0,
      "grad_norm": 1.6489466960419639,
      "language_loss": 0.86211789,
      "learning_rate": 3.1551861044140275e-06,
      "loss": 0.88421023,
      "num_input_tokens_seen": 58167050,
      "step": 2702,
      "time_per_iteration": 2.7897729873657227
    },
    {
      "auxiliary_loss_clip": 0.01154118,
      "auxiliary_loss_mlp": 0.01031552,
      "balance_loss_clip": 1.05167544,
      "balance_loss_mlp": 1.02265263,
      "epoch": 0.3250165333974629,
      "flos": 23948215793280.0,
      "grad_norm": 1.824429106818287,
      "language_loss": 0.77336454,
      "learning_rate": 3.15455012289402e-06,
      "loss": 0.79522121,
      "num_input_tokens_seen": 58186695,
      "step": 2703,
      "time_per_iteration": 2.7651846408843994
    },
    {
      "auxiliary_loss_clip": 0.01194596,
      "auxiliary_loss_mlp": 0.01034793,
      "balance_loss_clip": 1.06211543,
      "balance_loss_mlp": 1.02508283,
      "epoch": 0.32513677628810195,
      "flos": 23989333887360.0,
      "grad_norm": 2.0767229742760716,
      "language_loss": 0.84386456,
      "learning_rate": 3.153913966229677e-06,
      "loss": 0.86615849,
      "num_input_tokens_seen": 58205815,
      "step": 2704,
      "time_per_iteration": 2.7443816661834717
    },
    {
      "auxiliary_loss_clip": 0.01086979,
      "auxiliary_loss_mlp": 0.01003191,
      "balance_loss_clip": 1.02089691,
      "balance_loss_mlp": 1.00125968,
      "epoch": 0.32525701917874106,
      "flos": 70655790009600.0,
      "grad_norm": 0.6441651191244796,
      "language_loss": 0.50287223,
      "learning_rate": 3.1532776345175027e-06,
      "loss": 0.52377391,
      "num_input_tokens_seen": 58270960,
      "step": 2705,
      "time_per_iteration": 3.2833220958709717
    },
    {
      "auxiliary_loss_clip": 0.01199641,
      "auxiliary_loss_mlp": 0.01029524,
      "balance_loss_clip": 1.05829859,
      "balance_loss_mlp": 1.02058899,
      "epoch": 0.32537726206938017,
      "flos": 19682639061120.0,
      "grad_norm": 2.1367929714823366,
      "language_loss": 0.79071188,
      "learning_rate": 3.1526411278540285e-06,
      "loss": 0.81300354,
      "num_input_tokens_seen": 58289390,
      "step": 2706,
      "time_per_iteration": 2.65757417678833
    },
    {
      "auxiliary_loss_clip": 0.01186654,
      "auxiliary_loss_mlp": 0.01033719,
      "balance_loss_clip": 1.05317461,
      "balance_loss_mlp": 1.02446806,
      "epoch": 0.3254975049600192,
      "flos": 28760999293440.0,
      "grad_norm": 4.79878175353824,
      "language_loss": 0.81040943,
      "learning_rate": 3.1520044463358116e-06,
      "loss": 0.83261311,
      "num_input_tokens_seen": 58306120,
      "step": 2707,
      "time_per_iteration": 2.829935312271118
    },
    {
      "auxiliary_loss_clip": 0.01188916,
      "auxiliary_loss_mlp": 0.01040601,
      "balance_loss_clip": 1.0577023,
      "balance_loss_mlp": 1.03127301,
      "epoch": 0.32561774785065833,
      "flos": 18877378008960.0,
      "grad_norm": 1.614495208058214,
      "language_loss": 0.80332643,
      "learning_rate": 3.151367590059436e-06,
      "loss": 0.8256216,
      "num_input_tokens_seen": 58324545,
      "step": 2708,
      "time_per_iteration": 2.7387568950653076
    },
    {
      "auxiliary_loss_clip": 0.0120369,
      "auxiliary_loss_mlp": 0.0088833,
      "balance_loss_clip": 1.05970061,
      "balance_loss_mlp": 1.00091195,
      "epoch": 0.32573799074129745,
      "flos": 23112107936640.0,
      "grad_norm": 2.0072757686036367,
      "language_loss": 0.86973786,
      "learning_rate": 3.1507305591215117e-06,
      "loss": 0.89065802,
      "num_input_tokens_seen": 58342455,
      "step": 2709,
      "time_per_iteration": 2.708231210708618
    },
    {
      "auxiliary_loss_clip": 0.01083607,
      "auxiliary_loss_mlp": 0.01003883,
      "balance_loss_clip": 1.01928961,
      "balance_loss_mlp": 1.00201118,
      "epoch": 0.3258582336319365,
      "flos": 71237650423680.0,
      "grad_norm": 0.7444458450159722,
      "language_loss": 0.55682242,
      "learning_rate": 3.150093353618677e-06,
      "loss": 0.5776974,
      "num_input_tokens_seen": 58407185,
      "step": 2710,
      "time_per_iteration": 3.303819417953491
    },
    {
      "auxiliary_loss_clip": 0.0119672,
      "auxiliary_loss_mlp": 0.01031025,
      "balance_loss_clip": 1.05627656,
      "balance_loss_mlp": 1.02197146,
      "epoch": 0.3259784765225756,
      "flos": 22456020067200.0,
      "grad_norm": 2.77276019836634,
      "language_loss": 0.88205975,
      "learning_rate": 3.149455973647596e-06,
      "loss": 0.90433717,
      "num_input_tokens_seen": 58425245,
      "step": 2711,
      "time_per_iteration": 2.716367244720459
    },
    {
      "auxiliary_loss_clip": 0.01159215,
      "auxiliary_loss_mlp": 0.01029231,
      "balance_loss_clip": 1.04693651,
      "balance_loss_mlp": 1.02006388,
      "epoch": 0.32609871941321467,
      "flos": 20484811543680.0,
      "grad_norm": 2.8215583852634065,
      "language_loss": 0.76909322,
      "learning_rate": 3.1488184193049563e-06,
      "loss": 0.79097766,
      "num_input_tokens_seen": 58444780,
      "step": 2712,
      "time_per_iteration": 3.6961801052093506
    },
    {
      "auxiliary_loss_clip": 0.01201464,
      "auxiliary_loss_mlp": 0.01032975,
      "balance_loss_clip": 1.05970383,
      "balance_loss_mlp": 1.02434969,
      "epoch": 0.3262189623038538,
      "flos": 22416805393920.0,
      "grad_norm": 1.8199830025991377,
      "language_loss": 0.72150385,
      "learning_rate": 3.1481806906874767e-06,
      "loss": 0.7438482,
      "num_input_tokens_seen": 58466090,
      "step": 2713,
      "time_per_iteration": 2.6870968341827393
    },
    {
      "auxiliary_loss_clip": 0.01198129,
      "auxiliary_loss_mlp": 0.01031448,
      "balance_loss_clip": 1.05589271,
      "balance_loss_mlp": 1.02320445,
      "epoch": 0.3263392051944929,
      "flos": 20923496346240.0,
      "grad_norm": 1.6247500980277152,
      "language_loss": 0.88042617,
      "learning_rate": 3.147542787891899e-06,
      "loss": 0.90272188,
      "num_input_tokens_seen": 58485435,
      "step": 2714,
      "time_per_iteration": 2.709975004196167
    },
    {
      "auxiliary_loss_clip": 0.01180536,
      "auxiliary_loss_mlp": 0.01031987,
      "balance_loss_clip": 1.05521095,
      "balance_loss_mlp": 1.02305818,
      "epoch": 0.32645944808513194,
      "flos": 24025172682240.0,
      "grad_norm": 1.9674243309965642,
      "language_loss": 0.75536078,
      "learning_rate": 3.1469047110149926e-06,
      "loss": 0.77748597,
      "num_input_tokens_seen": 58504175,
      "step": 2715,
      "time_per_iteration": 2.7580323219299316
    },
    {
      "auxiliary_loss_clip": 0.01151345,
      "auxiliary_loss_mlp": 0.01031731,
      "balance_loss_clip": 1.04981124,
      "balance_loss_mlp": 1.0223732,
      "epoch": 0.32657969097577105,
      "flos": 21032413361280.0,
      "grad_norm": 2.0307872021128985,
      "language_loss": 0.85520679,
      "learning_rate": 3.146266460153554e-06,
      "loss": 0.87703758,
      "num_input_tokens_seen": 58523885,
      "step": 2716,
      "time_per_iteration": 3.725531816482544
    },
    {
      "auxiliary_loss_clip": 0.0117823,
      "auxiliary_loss_mlp": 0.00888832,
      "balance_loss_clip": 1.05395007,
      "balance_loss_mlp": 1.00088155,
      "epoch": 0.32669993386641016,
      "flos": 22710267509760.0,
      "grad_norm": 1.9204298444429846,
      "language_loss": 0.80071497,
      "learning_rate": 3.145628035404404e-06,
      "loss": 0.82138556,
      "num_input_tokens_seen": 58543085,
      "step": 2717,
      "time_per_iteration": 3.8144726753234863
    },
    {
      "auxiliary_loss_clip": 0.0108217,
      "auxiliary_loss_mlp": 0.01005616,
      "balance_loss_clip": 1.01833248,
      "balance_loss_mlp": 1.00398302,
      "epoch": 0.3268201767570492,
      "flos": 72105718406400.0,
      "grad_norm": 0.8804093598032456,
      "language_loss": 0.57414091,
      "learning_rate": 3.1449894368643922e-06,
      "loss": 0.59501874,
      "num_input_tokens_seen": 58605400,
      "step": 2718,
      "time_per_iteration": 3.3870787620544434
    },
    {
      "auxiliary_loss_clip": 0.01174709,
      "auxiliary_loss_mlp": 0.0103348,
      "balance_loss_clip": 1.05826867,
      "balance_loss_mlp": 1.02447438,
      "epoch": 0.32694041964768833,
      "flos": 24535175938560.0,
      "grad_norm": 2.030014184950913,
      "language_loss": 0.71476513,
      "learning_rate": 3.1443506646303934e-06,
      "loss": 0.73684704,
      "num_input_tokens_seen": 58626700,
      "step": 2719,
      "time_per_iteration": 2.9134984016418457
    },
    {
      "auxiliary_loss_clip": 0.01195696,
      "auxiliary_loss_mlp": 0.01029439,
      "balance_loss_clip": 1.05897498,
      "balance_loss_mlp": 1.02086139,
      "epoch": 0.32706066253832744,
      "flos": 33183003755520.0,
      "grad_norm": 2.14751872022253,
      "language_loss": 0.66701782,
      "learning_rate": 3.1437117187993086e-06,
      "loss": 0.68926919,
      "num_input_tokens_seen": 58649020,
      "step": 2720,
      "time_per_iteration": 2.86606764793396
    },
    {
      "auxiliary_loss_clip": 0.01163728,
      "auxiliary_loss_mlp": 0.01034105,
      "balance_loss_clip": 1.05119181,
      "balance_loss_mlp": 1.02491403,
      "epoch": 0.3271809054289665,
      "flos": 24061622008320.0,
      "grad_norm": 1.6838757578206807,
      "language_loss": 0.79827642,
      "learning_rate": 3.143072599468065e-06,
      "loss": 0.8202548,
      "num_input_tokens_seen": 58668845,
      "step": 2721,
      "time_per_iteration": 3.7120189666748047
    },
    {
      "auxiliary_loss_clip": 0.01180737,
      "auxiliary_loss_mlp": 0.01032224,
      "balance_loss_clip": 1.05872846,
      "balance_loss_mlp": 1.02289581,
      "epoch": 0.3273011483196056,
      "flos": 38253769712640.0,
      "grad_norm": 1.5533036587704259,
      "language_loss": 0.75939775,
      "learning_rate": 3.1424333067336174e-06,
      "loss": 0.78152734,
      "num_input_tokens_seen": 58691610,
      "step": 2722,
      "time_per_iteration": 2.879563331604004
    },
    {
      "auxiliary_loss_clip": 0.01196234,
      "auxiliary_loss_mlp": 0.01026682,
      "balance_loss_clip": 1.05718255,
      "balance_loss_mlp": 1.01727605,
      "epoch": 0.3274213912102447,
      "flos": 29054389582080.0,
      "grad_norm": 1.8025711820617787,
      "language_loss": 0.78368819,
      "learning_rate": 3.141793840692945e-06,
      "loss": 0.80591726,
      "num_input_tokens_seen": 58712360,
      "step": 2723,
      "time_per_iteration": 2.808804512023926
    },
    {
      "auxiliary_loss_clip": 0.01172514,
      "auxiliary_loss_mlp": 0.01033075,
      "balance_loss_clip": 1.0536232,
      "balance_loss_mlp": 1.02328229,
      "epoch": 0.32754163410088377,
      "flos": 29133249891840.0,
      "grad_norm": 2.2313078864032,
      "language_loss": 0.61534798,
      "learning_rate": 3.1411542014430553e-06,
      "loss": 0.63740385,
      "num_input_tokens_seen": 58733440,
      "step": 2724,
      "time_per_iteration": 2.804218292236328
    },
    {
      "auxiliary_loss_clip": 0.01166111,
      "auxiliary_loss_mlp": 0.01029291,
      "balance_loss_clip": 1.04815745,
      "balance_loss_mlp": 1.02032661,
      "epoch": 0.3276618769915229,
      "flos": 20631075724800.0,
      "grad_norm": 1.8131656681329358,
      "language_loss": 0.82263982,
      "learning_rate": 3.1405143890809804e-06,
      "loss": 0.84459376,
      "num_input_tokens_seen": 58752735,
      "step": 2725,
      "time_per_iteration": 2.8160958290100098
    },
    {
      "auxiliary_loss_clip": 0.01177079,
      "auxiliary_loss_mlp": 0.01031401,
      "balance_loss_clip": 1.05361819,
      "balance_loss_mlp": 1.02237141,
      "epoch": 0.327782119882162,
      "flos": 18657425076480.0,
      "grad_norm": 1.7356251040088724,
      "language_loss": 0.70071387,
      "learning_rate": 3.1398744037037796e-06,
      "loss": 0.72279871,
      "num_input_tokens_seen": 58772070,
      "step": 2726,
      "time_per_iteration": 2.7389206886291504
    },
    {
      "auxiliary_loss_clip": 0.01179627,
      "auxiliary_loss_mlp": 0.01030147,
      "balance_loss_clip": 1.0559628,
      "balance_loss_mlp": 1.02092624,
      "epoch": 0.32790236277280105,
      "flos": 21795802133760.0,
      "grad_norm": 1.9525240008704172,
      "language_loss": 0.84020138,
      "learning_rate": 3.139234245408538e-06,
      "loss": 0.86229908,
      "num_input_tokens_seen": 58790950,
      "step": 2727,
      "time_per_iteration": 2.776116371154785
    },
    {
      "auxiliary_loss_clip": 0.01171855,
      "auxiliary_loss_mlp": 0.00887865,
      "balance_loss_clip": 1.05452704,
      "balance_loss_mlp": 1.00076461,
      "epoch": 0.32802260566344016,
      "flos": 23331414424320.0,
      "grad_norm": 1.3986384937377372,
      "language_loss": 0.76352119,
      "learning_rate": 3.1385939142923666e-06,
      "loss": 0.78411841,
      "num_input_tokens_seen": 58813340,
      "step": 2728,
      "time_per_iteration": 2.7955503463745117
    },
    {
      "auxiliary_loss_clip": 0.0117946,
      "auxiliary_loss_mlp": 0.01035433,
      "balance_loss_clip": 1.05273628,
      "balance_loss_mlp": 1.02568173,
      "epoch": 0.3281428485540792,
      "flos": 24206988349440.0,
      "grad_norm": 2.0342109588039916,
      "language_loss": 0.78092575,
      "learning_rate": 3.137953410452405e-06,
      "loss": 0.80307472,
      "num_input_tokens_seen": 58833610,
      "step": 2729,
      "time_per_iteration": 2.7616512775421143
    },
    {
      "auxiliary_loss_clip": 0.01176069,
      "auxiliary_loss_mlp": 0.01029044,
      "balance_loss_clip": 1.05244207,
      "balance_loss_mlp": 1.0198648,
      "epoch": 0.3282630914447183,
      "flos": 34128962380800.0,
      "grad_norm": 5.057485206418765,
      "language_loss": 0.74842334,
      "learning_rate": 3.1373127339858146e-06,
      "loss": 0.77047443,
      "num_input_tokens_seen": 58856210,
      "step": 2730,
      "time_per_iteration": 2.906055212020874
    },
    {
      "auxiliary_loss_clip": 0.0116528,
      "auxiliary_loss_mlp": 0.01032285,
      "balance_loss_clip": 1.05111253,
      "balance_loss_mlp": 1.02344608,
      "epoch": 0.32838333433535744,
      "flos": 27600726170880.0,
      "grad_norm": 1.9662333450689025,
      "language_loss": 0.74674481,
      "learning_rate": 3.136671884989787e-06,
      "loss": 0.76872051,
      "num_input_tokens_seen": 58876120,
      "step": 2731,
      "time_per_iteration": 2.8398845195770264
    },
    {
      "auxiliary_loss_clip": 0.01155607,
      "auxiliary_loss_mlp": 0.01030718,
      "balance_loss_clip": 1.05191159,
      "balance_loss_mlp": 1.02114594,
      "epoch": 0.3285035772259965,
      "flos": 12349500935040.0,
      "grad_norm": 2.2511519884355065,
      "language_loss": 0.86874276,
      "learning_rate": 3.1360308635615383e-06,
      "loss": 0.89060605,
      "num_input_tokens_seen": 58894660,
      "step": 2732,
      "time_per_iteration": 2.8216946125030518
    },
    {
      "auxiliary_loss_clip": 0.01192604,
      "auxiliary_loss_mlp": 0.01028774,
      "balance_loss_clip": 1.05805898,
      "balance_loss_mlp": 1.01815248,
      "epoch": 0.3286238201166356,
      "flos": 24316084932480.0,
      "grad_norm": 2.638654730131158,
      "language_loss": 0.78685093,
      "learning_rate": 3.135389669798311e-06,
      "loss": 0.80906475,
      "num_input_tokens_seen": 58912720,
      "step": 2733,
      "time_per_iteration": 2.694571018218994
    },
    {
      "auxiliary_loss_clip": 0.01189536,
      "auxiliary_loss_mlp": 0.00888573,
      "balance_loss_clip": 1.05554128,
      "balance_loss_mlp": 1.00083613,
      "epoch": 0.3287440630072747,
      "flos": 21392812471680.0,
      "grad_norm": 2.051159072618488,
      "language_loss": 0.79837668,
      "learning_rate": 3.134748303797373e-06,
      "loss": 0.81915778,
      "num_input_tokens_seen": 58930090,
      "step": 2734,
      "time_per_iteration": 2.735419273376465
    },
    {
      "auxiliary_loss_clip": 0.01158356,
      "auxiliary_loss_mlp": 0.01037082,
      "balance_loss_clip": 1.05045867,
      "balance_loss_mlp": 1.02668095,
      "epoch": 0.32886430589791377,
      "flos": 23732536579200.0,
      "grad_norm": 2.7917755873187917,
      "language_loss": 0.81209469,
      "learning_rate": 3.1341067656560203e-06,
      "loss": 0.83404911,
      "num_input_tokens_seen": 58947935,
      "step": 2735,
      "time_per_iteration": 2.7705399990081787
    },
    {
      "auxiliary_loss_clip": 0.01188679,
      "auxiliary_loss_mlp": 0.01032546,
      "balance_loss_clip": 1.05364609,
      "balance_loss_mlp": 1.02358782,
      "epoch": 0.3289845487885529,
      "flos": 22418708814720.0,
      "grad_norm": 2.1110483427610918,
      "language_loss": 0.86657369,
      "learning_rate": 3.133465055471572e-06,
      "loss": 0.88878596,
      "num_input_tokens_seen": 58967720,
      "step": 2736,
      "time_per_iteration": 2.760883331298828
    },
    {
      "auxiliary_loss_clip": 0.01166128,
      "auxiliary_loss_mlp": 0.01028328,
      "balance_loss_clip": 1.05250287,
      "balance_loss_mlp": 1.01892853,
      "epoch": 0.329104791679192,
      "flos": 19682603147520.0,
      "grad_norm": 2.626206704996967,
      "language_loss": 0.66492128,
      "learning_rate": 3.1328231733413767e-06,
      "loss": 0.68686581,
      "num_input_tokens_seen": 58984360,
      "step": 2737,
      "time_per_iteration": 2.678785562515259
    },
    {
      "auxiliary_loss_clip": 0.0118665,
      "auxiliary_loss_mlp": 0.0103213,
      "balance_loss_clip": 1.05613422,
      "balance_loss_mlp": 1.02329028,
      "epoch": 0.32922503456983104,
      "flos": 15997234803840.0,
      "grad_norm": 2.03104278176301,
      "language_loss": 0.91289872,
      "learning_rate": 3.1321811193628067e-06,
      "loss": 0.93508655,
      "num_input_tokens_seen": 59002505,
      "step": 2738,
      "time_per_iteration": 3.5188896656036377
    },
    {
      "auxiliary_loss_clip": 0.01193277,
      "auxiliary_loss_mlp": 0.00889018,
      "balance_loss_clip": 1.05856681,
      "balance_loss_mlp": 1.00080228,
      "epoch": 0.32934527746047015,
      "flos": 26834069260800.0,
      "grad_norm": 2.4157636742740602,
      "language_loss": 0.70243567,
      "learning_rate": 3.131538893633261e-06,
      "loss": 0.72325861,
      "num_input_tokens_seen": 59022065,
      "step": 2739,
      "time_per_iteration": 2.7688698768615723
    },
    {
      "auxiliary_loss_clip": 0.01202896,
      "auxiliary_loss_mlp": 0.01039586,
      "balance_loss_clip": 1.05942297,
      "balance_loss_mlp": 1.02974582,
      "epoch": 0.32946552035110926,
      "flos": 23403774372480.0,
      "grad_norm": 1.9770941793405792,
      "language_loss": 0.77712274,
      "learning_rate": 3.130896496250165e-06,
      "loss": 0.79954761,
      "num_input_tokens_seen": 59041890,
      "step": 2740,
      "time_per_iteration": 2.6430022716522217
    },
    {
      "auxiliary_loss_clip": 0.01202032,
      "auxiliary_loss_mlp": 0.01034307,
      "balance_loss_clip": 1.05768895,
      "balance_loss_mlp": 1.02429926,
      "epoch": 0.3295857632417483,
      "flos": 14172470029440.0,
      "grad_norm": 2.2826704729322262,
      "language_loss": 0.87131208,
      "learning_rate": 3.1302539273109693e-06,
      "loss": 0.89367545,
      "num_input_tokens_seen": 59058715,
      "step": 2741,
      "time_per_iteration": 3.649914264678955
    },
    {
      "auxiliary_loss_clip": 0.01174843,
      "auxiliary_loss_mlp": 0.0104104,
      "balance_loss_clip": 1.05521488,
      "balance_loss_mlp": 1.03108585,
      "epoch": 0.32970600613238743,
      "flos": 22196708807040.0,
      "grad_norm": 1.8382830624015956,
      "language_loss": 0.80523169,
      "learning_rate": 3.1296111869131513e-06,
      "loss": 0.82739055,
      "num_input_tokens_seen": 59076140,
      "step": 2742,
      "time_per_iteration": 2.6616127490997314
    },
    {
      "auxiliary_loss_clip": 0.01200799,
      "auxiliary_loss_mlp": 0.0103433,
      "balance_loss_clip": 1.05758584,
      "balance_loss_mlp": 1.02503204,
      "epoch": 0.32982624902302654,
      "flos": 22053784590720.0,
      "grad_norm": 1.780691403202844,
      "language_loss": 0.85993898,
      "learning_rate": 3.1289682751542153e-06,
      "loss": 0.88229024,
      "num_input_tokens_seen": 59095700,
      "step": 2743,
      "time_per_iteration": 3.5858709812164307
    },
    {
      "auxiliary_loss_clip": 0.0118634,
      "auxiliary_loss_mlp": 0.0103276,
      "balance_loss_clip": 1.05384994,
      "balance_loss_mlp": 1.02392054,
      "epoch": 0.3299464919136656,
      "flos": 18661626967680.0,
      "grad_norm": 2.1142104860961637,
      "language_loss": 0.71569824,
      "learning_rate": 3.1283251921316883e-06,
      "loss": 0.73788929,
      "num_input_tokens_seen": 59113445,
      "step": 2744,
      "time_per_iteration": 2.6963086128234863
    },
    {
      "auxiliary_loss_clip": 0.0115947,
      "auxiliary_loss_mlp": 0.01028104,
      "balance_loss_clip": 1.05428529,
      "balance_loss_mlp": 1.01834726,
      "epoch": 0.3300667348043047,
      "flos": 13407357404160.0,
      "grad_norm": 2.5740044213761935,
      "language_loss": 0.8079741,
      "learning_rate": 3.1276819379431277e-06,
      "loss": 0.82984984,
      "num_input_tokens_seen": 59131535,
      "step": 2745,
      "time_per_iteration": 2.710489511489868
    },
    {
      "auxiliary_loss_clip": 0.01188736,
      "auxiliary_loss_mlp": 0.00889223,
      "balance_loss_clip": 1.05521822,
      "balance_loss_mlp": 1.00092304,
      "epoch": 0.33018697769494376,
      "flos": 15742556398080.0,
      "grad_norm": 2.4150433431677665,
      "language_loss": 0.75523889,
      "learning_rate": 3.1270385126861134e-06,
      "loss": 0.7760185,
      "num_input_tokens_seen": 59149520,
      "step": 2746,
      "time_per_iteration": 2.7625555992126465
    },
    {
      "auxiliary_loss_clip": 0.01202629,
      "auxiliary_loss_mlp": 0.01031678,
      "balance_loss_clip": 1.05936849,
      "balance_loss_mlp": 1.02252889,
      "epoch": 0.3303072205855829,
      "flos": 18258601392000.0,
      "grad_norm": 1.7598428404149244,
      "language_loss": 0.81871849,
      "learning_rate": 3.1263949164582533e-06,
      "loss": 0.84106153,
      "num_input_tokens_seen": 59169170,
      "step": 2747,
      "time_per_iteration": 3.5365357398986816
    },
    {
      "auxiliary_loss_clip": 0.01201836,
      "auxiliary_loss_mlp": 0.01030135,
      "balance_loss_clip": 1.05738902,
      "balance_loss_mlp": 1.02044892,
      "epoch": 0.330427463476222,
      "flos": 17749424148480.0,
      "grad_norm": 9.855140723993346,
      "language_loss": 0.78776956,
      "learning_rate": 3.1257511493571797e-06,
      "loss": 0.81008923,
      "num_input_tokens_seen": 59187675,
      "step": 2748,
      "time_per_iteration": 2.6273388862609863
    },
    {
      "auxiliary_loss_clip": 0.01173795,
      "auxiliary_loss_mlp": 0.01030638,
      "balance_loss_clip": 1.05542552,
      "balance_loss_mlp": 1.02104199,
      "epoch": 0.33054770636686104,
      "flos": 27162580072320.0,
      "grad_norm": 9.448352943054747,
      "language_loss": 0.78523463,
      "learning_rate": 3.125107211480552e-06,
      "loss": 0.80727893,
      "num_input_tokens_seen": 59207610,
      "step": 2749,
      "time_per_iteration": 2.8385281562805176
    },
    {
      "auxiliary_loss_clip": 0.01151538,
      "auxiliary_loss_mlp": 0.01033025,
      "balance_loss_clip": 1.05200005,
      "balance_loss_mlp": 1.02436447,
      "epoch": 0.33066794925750015,
      "flos": 20117193799680.0,
      "grad_norm": 1.6142670012887501,
      "language_loss": 0.79593462,
      "learning_rate": 3.124463102926054e-06,
      "loss": 0.81778026,
      "num_input_tokens_seen": 59226945,
      "step": 2750,
      "time_per_iteration": 2.7427453994750977
    },
    {
      "auxiliary_loss_clip": 0.01078769,
      "auxiliary_loss_mlp": 0.01004213,
      "balance_loss_clip": 1.02000833,
      "balance_loss_mlp": 1.00240123,
      "epoch": 0.33078819214813926,
      "flos": 70642609718400.0,
      "grad_norm": 0.7611720658440204,
      "language_loss": 0.6159941,
      "learning_rate": 3.1238188237913984e-06,
      "loss": 0.63682389,
      "num_input_tokens_seen": 59291485,
      "step": 2751,
      "time_per_iteration": 3.3288145065307617
    },
    {
      "auxiliary_loss_clip": 0.01208908,
      "auxiliary_loss_mlp": 0.01033594,
      "balance_loss_clip": 1.06134176,
      "balance_loss_mlp": 1.02269888,
      "epoch": 0.3309084350387783,
      "flos": 21141940907520.0,
      "grad_norm": 2.140843904088893,
      "language_loss": 0.76268733,
      "learning_rate": 3.1231743741743202e-06,
      "loss": 0.78511232,
      "num_input_tokens_seen": 59310990,
      "step": 2752,
      "time_per_iteration": 2.6200037002563477
    },
    {
      "auxiliary_loss_clip": 0.0118523,
      "auxiliary_loss_mlp": 0.01028897,
      "balance_loss_clip": 1.05224681,
      "balance_loss_mlp": 1.01826358,
      "epoch": 0.3310286779294174,
      "flos": 14209350318720.0,
      "grad_norm": 2.2763502758280345,
      "language_loss": 0.83590204,
      "learning_rate": 3.122529754172582e-06,
      "loss": 0.85804331,
      "num_input_tokens_seen": 59327875,
      "step": 2753,
      "time_per_iteration": 2.6814801692962646
    },
    {
      "auxiliary_loss_clip": 0.01190907,
      "auxiliary_loss_mlp": 0.01032237,
      "balance_loss_clip": 1.05874968,
      "balance_loss_mlp": 1.02317667,
      "epoch": 0.33114892082005654,
      "flos": 20778130005120.0,
      "grad_norm": 2.176947721718361,
      "language_loss": 0.73082417,
      "learning_rate": 3.1218849638839736e-06,
      "loss": 0.75305563,
      "num_input_tokens_seen": 59347135,
      "step": 2754,
      "time_per_iteration": 2.660167694091797
    },
    {
      "auxiliary_loss_clip": 0.0115604,
      "auxiliary_loss_mlp": 0.01033855,
      "balance_loss_clip": 1.04506493,
      "balance_loss_mlp": 1.0245682,
      "epoch": 0.3312691637106956,
      "flos": 17090750499840.0,
      "grad_norm": 1.8736653841313329,
      "language_loss": 0.7868036,
      "learning_rate": 3.121240003406307e-06,
      "loss": 0.80870253,
      "num_input_tokens_seen": 59365985,
      "step": 2755,
      "time_per_iteration": 2.6989781856536865
    },
    {
      "auxiliary_loss_clip": 0.01175389,
      "auxiliary_loss_mlp": 0.01039886,
      "balance_loss_clip": 1.05608249,
      "balance_loss_mlp": 1.02956891,
      "epoch": 0.3313894066013347,
      "flos": 29456230008960.0,
      "grad_norm": 2.009995977916878,
      "language_loss": 0.72962105,
      "learning_rate": 3.120594872837425e-06,
      "loss": 0.75177383,
      "num_input_tokens_seen": 59384655,
      "step": 2756,
      "time_per_iteration": 2.7687511444091797
    },
    {
      "auxiliary_loss_clip": 0.01081532,
      "auxiliary_loss_mlp": 0.00877,
      "balance_loss_clip": 1.01939738,
      "balance_loss_mlp": 1.00017452,
      "epoch": 0.3315096494919738,
      "flos": 61419242280960.0,
      "grad_norm": 1.0161079271842202,
      "language_loss": 0.62394339,
      "learning_rate": 3.1199495722751906e-06,
      "loss": 0.64352864,
      "num_input_tokens_seen": 59444185,
      "step": 2757,
      "time_per_iteration": 3.257664203643799
    },
    {
      "auxiliary_loss_clip": 0.01165291,
      "auxiliary_loss_mlp": 0.0103473,
      "balance_loss_clip": 1.05142164,
      "balance_loss_mlp": 1.02553916,
      "epoch": 0.33162989238261287,
      "flos": 21653057485440.0,
      "grad_norm": 1.5792012046288704,
      "language_loss": 0.83922267,
      "learning_rate": 3.1193041018174972e-06,
      "loss": 0.86122286,
      "num_input_tokens_seen": 59464900,
      "step": 2758,
      "time_per_iteration": 2.7982871532440186
    },
    {
      "auxiliary_loss_clip": 0.01196264,
      "auxiliary_loss_mlp": 0.01033284,
      "balance_loss_clip": 1.05957043,
      "balance_loss_mlp": 1.02387249,
      "epoch": 0.331750135273252,
      "flos": 22674787850880.0,
      "grad_norm": 2.0739363818491463,
      "language_loss": 0.94782817,
      "learning_rate": 3.118658461562261e-06,
      "loss": 0.97012365,
      "num_input_tokens_seen": 59481000,
      "step": 2759,
      "time_per_iteration": 2.6584718227386475
    },
    {
      "auxiliary_loss_clip": 0.01184421,
      "auxiliary_loss_mlp": 0.01034821,
      "balance_loss_clip": 1.05918479,
      "balance_loss_mlp": 1.02526021,
      "epoch": 0.33187037816389103,
      "flos": 22746896403840.0,
      "grad_norm": 1.477625760538337,
      "language_loss": 0.84917301,
      "learning_rate": 3.118012651607426e-06,
      "loss": 0.87136537,
      "num_input_tokens_seen": 59502605,
      "step": 2760,
      "time_per_iteration": 2.751236915588379
    },
    {
      "auxiliary_loss_clip": 0.01203178,
      "auxiliary_loss_mlp": 0.01042757,
      "balance_loss_clip": 1.06003082,
      "balance_loss_mlp": 1.03341651,
      "epoch": 0.33199062105453014,
      "flos": 19203769918080.0,
      "grad_norm": 2.4237811447069473,
      "language_loss": 0.84116971,
      "learning_rate": 3.1173666720509603e-06,
      "loss": 0.8636291,
      "num_input_tokens_seen": 59519540,
      "step": 2761,
      "time_per_iteration": 2.5929930210113525
    },
    {
      "auxiliary_loss_clip": 0.01187345,
      "auxiliary_loss_mlp": 0.01030461,
      "balance_loss_clip": 1.05516958,
      "balance_loss_mlp": 1.0211091,
      "epoch": 0.33211086394516925,
      "flos": 31577006764800.0,
      "grad_norm": 2.172462820724402,
      "language_loss": 0.6794396,
      "learning_rate": 3.116720522990859e-06,
      "loss": 0.70161772,
      "num_input_tokens_seen": 59540415,
      "step": 2762,
      "time_per_iteration": 2.784362316131592
    },
    {
      "auxiliary_loss_clip": 0.01152206,
      "auxiliary_loss_mlp": 0.01036448,
      "balance_loss_clip": 1.05311823,
      "balance_loss_mlp": 1.0264225,
      "epoch": 0.3322311068358083,
      "flos": 17932496791680.0,
      "grad_norm": 1.9850901328552286,
      "language_loss": 0.62057257,
      "learning_rate": 3.116074204525142e-06,
      "loss": 0.64245915,
      "num_input_tokens_seen": 59558590,
      "step": 2763,
      "time_per_iteration": 2.8094959259033203
    },
    {
      "auxiliary_loss_clip": 0.01181785,
      "auxiliary_loss_mlp": 0.01032568,
      "balance_loss_clip": 1.05428016,
      "balance_loss_mlp": 1.02303743,
      "epoch": 0.3323513497264474,
      "flos": 32269831269120.0,
      "grad_norm": 1.8960437043171046,
      "language_loss": 0.83820647,
      "learning_rate": 3.1154277167518553e-06,
      "loss": 0.86035001,
      "num_input_tokens_seen": 59580205,
      "step": 2764,
      "time_per_iteration": 3.6267952919006348
    },
    {
      "auxiliary_loss_clip": 0.01069409,
      "auxiliary_loss_mlp": 0.01003276,
      "balance_loss_clip": 1.01734638,
      "balance_loss_mlp": 1.00154769,
      "epoch": 0.33247159261708653,
      "flos": 52668674588160.0,
      "grad_norm": 0.853431626528019,
      "language_loss": 0.59460855,
      "learning_rate": 3.114781059769072e-06,
      "loss": 0.61533546,
      "num_input_tokens_seen": 59631530,
      "step": 2765,
      "time_per_iteration": 3.091409206390381
    },
    {
      "auxiliary_loss_clip": 0.01177632,
      "auxiliary_loss_mlp": 0.01032246,
      "balance_loss_clip": 1.05348372,
      "balance_loss_mlp": 1.02210736,
      "epoch": 0.3325918355077256,
      "flos": 27125232906240.0,
      "grad_norm": 2.5002253283989124,
      "language_loss": 0.66737539,
      "learning_rate": 3.1141342336748874e-06,
      "loss": 0.68947417,
      "num_input_tokens_seen": 59651090,
      "step": 2766,
      "time_per_iteration": 2.750629425048828
    },
    {
      "auxiliary_loss_clip": 0.0118523,
      "auxiliary_loss_mlp": 0.01032867,
      "balance_loss_clip": 1.05707276,
      "balance_loss_mlp": 1.02390289,
      "epoch": 0.3327120783983647,
      "flos": 23664414435840.0,
      "grad_norm": 1.5621258272924439,
      "language_loss": 0.82120854,
      "learning_rate": 3.1134872385674253e-06,
      "loss": 0.84338951,
      "num_input_tokens_seen": 59675245,
      "step": 2767,
      "time_per_iteration": 3.685316801071167
    },
    {
      "auxiliary_loss_clip": 0.01182305,
      "auxiliary_loss_mlp": 0.01032101,
      "balance_loss_clip": 1.05142128,
      "balance_loss_mlp": 1.02322018,
      "epoch": 0.3328323212890038,
      "flos": 19171378828800.0,
      "grad_norm": 1.8592857037892319,
      "language_loss": 0.85393989,
      "learning_rate": 3.1128400745448353e-06,
      "loss": 0.87608397,
      "num_input_tokens_seen": 59694625,
      "step": 2768,
      "time_per_iteration": 2.707373857498169
    },
    {
      "auxiliary_loss_clip": 0.01193247,
      "auxiliary_loss_mlp": 0.01035028,
      "balance_loss_clip": 1.05841339,
      "balance_loss_mlp": 1.0250864,
      "epoch": 0.33295256417964286,
      "flos": 37706347463040.0,
      "grad_norm": 3.1404924414385196,
      "language_loss": 0.62766254,
      "learning_rate": 3.11219274170529e-06,
      "loss": 0.64994532,
      "num_input_tokens_seen": 59716435,
      "step": 2769,
      "time_per_iteration": 3.6969010829925537
    },
    {
      "auxiliary_loss_clip": 0.01175908,
      "auxiliary_loss_mlp": 0.01031396,
      "balance_loss_clip": 1.05359519,
      "balance_loss_mlp": 1.02241373,
      "epoch": 0.333072807070282,
      "flos": 26505989412480.0,
      "grad_norm": 2.214862373896045,
      "language_loss": 0.8153609,
      "learning_rate": 3.1115452401469903e-06,
      "loss": 0.83743393,
      "num_input_tokens_seen": 59736835,
      "step": 2770,
      "time_per_iteration": 2.7875263690948486
    },
    {
      "auxiliary_loss_clip": 0.0115249,
      "auxiliary_loss_mlp": 0.01037266,
      "balance_loss_clip": 1.04820716,
      "balance_loss_mlp": 1.02852213,
      "epoch": 0.3331930499609211,
      "flos": 21430913823360.0,
      "grad_norm": 5.235946546422249,
      "language_loss": 0.86894941,
      "learning_rate": 3.1108975699681613e-06,
      "loss": 0.89084703,
      "num_input_tokens_seen": 59754230,
      "step": 2771,
      "time_per_iteration": 2.736090898513794
    },
    {
      "auxiliary_loss_clip": 0.0117121,
      "auxiliary_loss_mlp": 0.01033936,
      "balance_loss_clip": 1.0550561,
      "balance_loss_mlp": 1.02534115,
      "epoch": 0.33331329285156014,
      "flos": 20659947281280.0,
      "grad_norm": 2.1033575221297416,
      "language_loss": 0.71436793,
      "learning_rate": 3.1102497312670542e-06,
      "loss": 0.73641944,
      "num_input_tokens_seen": 59772235,
      "step": 2772,
      "time_per_iteration": 2.724224805831909
    },
    {
      "auxiliary_loss_clip": 0.01168537,
      "auxiliary_loss_mlp": 0.01028464,
      "balance_loss_clip": 1.05410779,
      "balance_loss_mlp": 1.01905298,
      "epoch": 0.33343353574219925,
      "flos": 28001596930560.0,
      "grad_norm": 2.7604157768696274,
      "language_loss": 0.80440438,
      "learning_rate": 3.109601724141946e-06,
      "loss": 0.82637441,
      "num_input_tokens_seen": 59791230,
      "step": 2773,
      "time_per_iteration": 3.7554190158843994
    },
    {
      "auxiliary_loss_clip": 0.01176875,
      "auxiliary_loss_mlp": 0.01034033,
      "balance_loss_clip": 1.05321646,
      "balance_loss_mlp": 1.02428806,
      "epoch": 0.33355377863283836,
      "flos": 23764963582080.0,
      "grad_norm": 1.742489470458633,
      "language_loss": 0.6845566,
      "learning_rate": 3.108953548691138e-06,
      "loss": 0.70666564,
      "num_input_tokens_seen": 59811315,
      "step": 2774,
      "time_per_iteration": 2.69010853767395
    },
    {
      "auxiliary_loss_clip": 0.01202344,
      "auxiliary_loss_mlp": 0.01033992,
      "balance_loss_clip": 1.05962896,
      "balance_loss_mlp": 1.02400875,
      "epoch": 0.3336740215234774,
      "flos": 37779677078400.0,
      "grad_norm": 2.6091081039069204,
      "language_loss": 0.73005569,
      "learning_rate": 3.108305205012959e-06,
      "loss": 0.75241899,
      "num_input_tokens_seen": 59832010,
      "step": 2775,
      "time_per_iteration": 2.862123489379883
    },
    {
      "auxiliary_loss_clip": 0.01179134,
      "auxiliary_loss_mlp": 0.01039597,
      "balance_loss_clip": 1.05609357,
      "balance_loss_mlp": 1.0309062,
      "epoch": 0.3337942644141165,
      "flos": 25519056347520.0,
      "grad_norm": 4.230920452777796,
      "language_loss": 0.87834013,
      "learning_rate": 3.107656693205761e-06,
      "loss": 0.90052748,
      "num_input_tokens_seen": 59851450,
      "step": 2776,
      "time_per_iteration": 2.734279155731201
    },
    {
      "auxiliary_loss_clip": 0.01203106,
      "auxiliary_loss_mlp": 0.0103881,
      "balance_loss_clip": 1.05776596,
      "balance_loss_mlp": 1.02846897,
      "epoch": 0.3339145073047556,
      "flos": 25989844930560.0,
      "grad_norm": 3.9893931185276807,
      "language_loss": 0.70334923,
      "learning_rate": 3.107008013367924e-06,
      "loss": 0.72576845,
      "num_input_tokens_seen": 59870245,
      "step": 2777,
      "time_per_iteration": 2.6228103637695312
    },
    {
      "auxiliary_loss_clip": 0.01165333,
      "auxiliary_loss_mlp": 0.01032347,
      "balance_loss_clip": 1.05106878,
      "balance_loss_mlp": 1.02299523,
      "epoch": 0.3340347501953947,
      "flos": 19062569554560.0,
      "grad_norm": 2.292137445269914,
      "language_loss": 0.86499941,
      "learning_rate": 3.1063591655978507e-06,
      "loss": 0.88697624,
      "num_input_tokens_seen": 59886195,
      "step": 2778,
      "time_per_iteration": 2.6787497997283936
    },
    {
      "auxiliary_loss_clip": 0.01149235,
      "auxiliary_loss_mlp": 0.01033483,
      "balance_loss_clip": 1.04844868,
      "balance_loss_mlp": 1.02465534,
      "epoch": 0.3341549930860338,
      "flos": 18109715518080.0,
      "grad_norm": 2.961873329022988,
      "language_loss": 0.79658854,
      "learning_rate": 3.105710149993972e-06,
      "loss": 0.81841564,
      "num_input_tokens_seen": 59905525,
      "step": 2779,
      "time_per_iteration": 2.774420738220215
    },
    {
      "auxiliary_loss_clip": 0.01202135,
      "auxiliary_loss_mlp": 0.01032739,
      "balance_loss_clip": 1.0586071,
      "balance_loss_mlp": 1.0242753,
      "epoch": 0.33427523597667286,
      "flos": 22674967418880.0,
      "grad_norm": 3.0247254895268414,
      "language_loss": 0.85498083,
      "learning_rate": 3.1050609666547427e-06,
      "loss": 0.87732953,
      "num_input_tokens_seen": 59925085,
      "step": 2780,
      "time_per_iteration": 2.631284713745117
    },
    {
      "auxiliary_loss_clip": 0.01177356,
      "auxiliary_loss_mlp": 0.01028547,
      "balance_loss_clip": 1.05490685,
      "balance_loss_mlp": 1.01831245,
      "epoch": 0.33439547886731197,
      "flos": 22638338524800.0,
      "grad_norm": 3.045357584799459,
      "language_loss": 0.77370667,
      "learning_rate": 3.104411615678644e-06,
      "loss": 0.7957657,
      "num_input_tokens_seen": 59943935,
      "step": 2781,
      "time_per_iteration": 2.74436354637146
    },
    {
      "auxiliary_loss_clip": 0.01171343,
      "auxiliary_loss_mlp": 0.01038548,
      "balance_loss_clip": 1.05010366,
      "balance_loss_mlp": 1.02928591,
      "epoch": 0.3345157217579511,
      "flos": 24096383395200.0,
      "grad_norm": 3.0688592104132972,
      "language_loss": 0.73347616,
      "learning_rate": 3.1037620971641803e-06,
      "loss": 0.75557506,
      "num_input_tokens_seen": 59963725,
      "step": 2782,
      "time_per_iteration": 2.7280359268188477
    },
    {
      "auxiliary_loss_clip": 0.0120184,
      "auxiliary_loss_mlp": 0.01029002,
      "balance_loss_clip": 1.05813003,
      "balance_loss_mlp": 1.01959682,
      "epoch": 0.33463596464859013,
      "flos": 18989491334400.0,
      "grad_norm": 3.266878449187528,
      "language_loss": 0.6471355,
      "learning_rate": 3.1031124112098844e-06,
      "loss": 0.66944391,
      "num_input_tokens_seen": 59981935,
      "step": 2783,
      "time_per_iteration": 2.6422412395477295
    },
    {
      "auxiliary_loss_clip": 0.01184171,
      "auxiliary_loss_mlp": 0.01029944,
      "balance_loss_clip": 1.05452704,
      "balance_loss_mlp": 1.02018106,
      "epoch": 0.33475620753922924,
      "flos": 20375607219840.0,
      "grad_norm": 1.9865438476548622,
      "language_loss": 0.7211445,
      "learning_rate": 3.1024625579143127e-06,
      "loss": 0.74328566,
      "num_input_tokens_seen": 59999455,
      "step": 2784,
      "time_per_iteration": 2.7412562370300293
    },
    {
      "auxiliary_loss_clip": 0.01199037,
      "auxiliary_loss_mlp": 0.01036112,
      "balance_loss_clip": 1.05840349,
      "balance_loss_mlp": 1.02744579,
      "epoch": 0.33487645042986836,
      "flos": 18182578256640.0,
      "grad_norm": 1.9139450422667423,
      "language_loss": 0.72729385,
      "learning_rate": 3.101812537376048e-06,
      "loss": 0.74964535,
      "num_input_tokens_seen": 60018475,
      "step": 2785,
      "time_per_iteration": 2.639479637145996
    },
    {
      "auxiliary_loss_clip": 0.01169917,
      "auxiliary_loss_mlp": 0.00888323,
      "balance_loss_clip": 1.05238724,
      "balance_loss_mlp": 1.00082636,
      "epoch": 0.3349966933205074,
      "flos": 25848824135040.0,
      "grad_norm": 2.338234164764012,
      "language_loss": 0.84332168,
      "learning_rate": 3.1011623496936973e-06,
      "loss": 0.86390412,
      "num_input_tokens_seen": 60036770,
      "step": 2786,
      "time_per_iteration": 2.7509195804595947
    },
    {
      "auxiliary_loss_clip": 0.0119981,
      "auxiliary_loss_mlp": 0.01030769,
      "balance_loss_clip": 1.05929697,
      "balance_loss_mlp": 1.02192974,
      "epoch": 0.3351169362111465,
      "flos": 28111447699200.0,
      "grad_norm": 1.7491186766027216,
      "language_loss": 0.69954014,
      "learning_rate": 3.100511994965893e-06,
      "loss": 0.72184592,
      "num_input_tokens_seen": 60056725,
      "step": 2787,
      "time_per_iteration": 2.7196710109710693
    },
    {
      "auxiliary_loss_clip": 0.01186487,
      "auxiliary_loss_mlp": 0.01033038,
      "balance_loss_clip": 1.05666888,
      "balance_loss_mlp": 1.02385879,
      "epoch": 0.33523717910178563,
      "flos": 22673315393280.0,
      "grad_norm": 2.2124700467990164,
      "language_loss": 0.84482855,
      "learning_rate": 3.0998614732912947e-06,
      "loss": 0.86702383,
      "num_input_tokens_seen": 60076100,
      "step": 2788,
      "time_per_iteration": 2.7141201496124268
    },
    {
      "auxiliary_loss_clip": 0.01190768,
      "auxiliary_loss_mlp": 0.01031009,
      "balance_loss_clip": 1.05838275,
      "balance_loss_mlp": 1.02262855,
      "epoch": 0.3353574219924247,
      "flos": 15669801400320.0,
      "grad_norm": 2.628406839954847,
      "language_loss": 0.68233526,
      "learning_rate": 3.0992107847685855e-06,
      "loss": 0.70455301,
      "num_input_tokens_seen": 60093815,
      "step": 2789,
      "time_per_iteration": 2.741736888885498
    },
    {
      "auxiliary_loss_clip": 0.01180897,
      "auxiliary_loss_mlp": 0.01034042,
      "balance_loss_clip": 1.05785859,
      "balance_loss_mlp": 1.02478528,
      "epoch": 0.3354776648830638,
      "flos": 24790644443520.0,
      "grad_norm": 1.7626658700516582,
      "language_loss": 0.79220593,
      "learning_rate": 3.0985599294964736e-06,
      "loss": 0.81435537,
      "num_input_tokens_seen": 60113370,
      "step": 2790,
      "time_per_iteration": 2.732595205307007
    },
    {
      "auxiliary_loss_clip": 0.0118186,
      "auxiliary_loss_mlp": 0.01039061,
      "balance_loss_clip": 1.05286002,
      "balance_loss_mlp": 1.02950621,
      "epoch": 0.33559790777370285,
      "flos": 28694852398080.0,
      "grad_norm": 1.9764941148149338,
      "language_loss": 0.70085597,
      "learning_rate": 3.097908907573695e-06,
      "loss": 0.7230652,
      "num_input_tokens_seen": 60131350,
      "step": 2791,
      "time_per_iteration": 3.7355165481567383
    },
    {
      "auxiliary_loss_clip": 0.01152547,
      "auxiliary_loss_mlp": 0.01035549,
      "balance_loss_clip": 1.05391407,
      "balance_loss_mlp": 1.02711511,
      "epoch": 0.33571815066434196,
      "flos": 22235779825920.0,
      "grad_norm": 1.9494045571775143,
      "language_loss": 0.89762378,
      "learning_rate": 3.0972577190990067e-06,
      "loss": 0.91950476,
      "num_input_tokens_seen": 60149830,
      "step": 2792,
      "time_per_iteration": 2.861922025680542
    },
    {
      "auxiliary_loss_clip": 0.01175496,
      "auxiliary_loss_mlp": 0.01040996,
      "balance_loss_clip": 1.0547421,
      "balance_loss_mlp": 1.03167999,
      "epoch": 0.3358383935549811,
      "flos": 23842279607040.0,
      "grad_norm": 1.7675846569684184,
      "language_loss": 0.79748321,
      "learning_rate": 3.096606364171196e-06,
      "loss": 0.81964815,
      "num_input_tokens_seen": 60169620,
      "step": 2793,
      "time_per_iteration": 3.762601137161255
    },
    {
      "auxiliary_loss_clip": 0.01152979,
      "auxiliary_loss_mlp": 0.01030258,
      "balance_loss_clip": 1.04979873,
      "balance_loss_mlp": 1.02176976,
      "epoch": 0.33595863644562013,
      "flos": 22267308988800.0,
      "grad_norm": 1.997032543690447,
      "language_loss": 0.85201323,
      "learning_rate": 3.0959548428890703e-06,
      "loss": 0.87384558,
      "num_input_tokens_seen": 60188490,
      "step": 2794,
      "time_per_iteration": 2.723818302154541
    },
    {
      "auxiliary_loss_clip": 0.01186648,
      "auxiliary_loss_mlp": 0.01035721,
      "balance_loss_clip": 1.05784786,
      "balance_loss_mlp": 1.02701879,
      "epoch": 0.33607887933625924,
      "flos": 20119779578880.0,
      "grad_norm": 2.122845589329509,
      "language_loss": 0.84138781,
      "learning_rate": 3.095303155351468e-06,
      "loss": 0.86361146,
      "num_input_tokens_seen": 60208695,
      "step": 2795,
      "time_per_iteration": 3.6280035972595215
    },
    {
      "auxiliary_loss_clip": 0.01151202,
      "auxiliary_loss_mlp": 0.01028765,
      "balance_loss_clip": 1.05113113,
      "balance_loss_mlp": 1.0203135,
      "epoch": 0.33619912222689835,
      "flos": 19318109886720.0,
      "grad_norm": 2.6307604245716503,
      "language_loss": 0.79149503,
      "learning_rate": 3.0946513016572464e-06,
      "loss": 0.81329471,
      "num_input_tokens_seen": 60227600,
      "step": 2796,
      "time_per_iteration": 2.755117893218994
    },
    {
      "auxiliary_loss_clip": 0.01191264,
      "auxiliary_loss_mlp": 0.01030828,
      "balance_loss_clip": 1.05693221,
      "balance_loss_mlp": 1.02149427,
      "epoch": 0.3363193651175374,
      "flos": 16800664262400.0,
      "grad_norm": 2.4108136865848606,
      "language_loss": 0.76674414,
      "learning_rate": 3.0939992819052938e-06,
      "loss": 0.78896511,
      "num_input_tokens_seen": 60245110,
      "step": 2797,
      "time_per_iteration": 2.648264169692993
    },
    {
      "auxiliary_loss_clip": 0.0118398,
      "auxiliary_loss_mlp": 0.01041226,
      "balance_loss_clip": 1.05833483,
      "balance_loss_mlp": 1.03103924,
      "epoch": 0.3364396080081765,
      "flos": 23550289948800.0,
      "grad_norm": 2.099945939296578,
      "language_loss": 0.8101573,
      "learning_rate": 3.0933470961945193e-06,
      "loss": 0.83240926,
      "num_input_tokens_seen": 60263405,
      "step": 2798,
      "time_per_iteration": 3.6016788482666016
    },
    {
      "auxiliary_loss_clip": 0.01174315,
      "auxiliary_loss_mlp": 0.01036867,
      "balance_loss_clip": 1.05392742,
      "balance_loss_mlp": 1.02817094,
      "epoch": 0.3365598508988156,
      "flos": 28037902602240.0,
      "grad_norm": 1.9572728131129418,
      "language_loss": 0.68334508,
      "learning_rate": 3.0926947446238597e-06,
      "loss": 0.70545697,
      "num_input_tokens_seen": 60282975,
      "step": 2799,
      "time_per_iteration": 2.751295804977417
    },
    {
      "auxiliary_loss_clip": 0.01191876,
      "auxiliary_loss_mlp": 0.01029953,
      "balance_loss_clip": 1.0524081,
      "balance_loss_mlp": 1.02048826,
      "epoch": 0.3366800937894547,
      "flos": 16982767238400.0,
      "grad_norm": 2.4296039803971894,
      "language_loss": 0.82389867,
      "learning_rate": 3.092042227292276e-06,
      "loss": 0.84611702,
      "num_input_tokens_seen": 60299810,
      "step": 2800,
      "time_per_iteration": 2.616198778152466
    },
    {
      "auxiliary_loss_clip": 0.01197546,
      "auxiliary_loss_mlp": 0.01032475,
      "balance_loss_clip": 1.05915821,
      "balance_loss_mlp": 1.02375507,
      "epoch": 0.3368003366800938,
      "flos": 23915321913600.0,
      "grad_norm": 1.67659317408559,
      "language_loss": 0.88120818,
      "learning_rate": 3.0913895442987557e-06,
      "loss": 0.90350837,
      "num_input_tokens_seen": 60320775,
      "step": 2801,
      "time_per_iteration": 2.709585189819336
    },
    {
      "auxiliary_loss_clip": 0.01173328,
      "auxiliary_loss_mlp": 0.00888646,
      "balance_loss_clip": 1.05525076,
      "balance_loss_mlp": 1.00102758,
      "epoch": 0.3369205795707329,
      "flos": 24791219061120.0,
      "grad_norm": 1.7758708839349961,
      "language_loss": 0.8585009,
      "learning_rate": 3.090736695742308e-06,
      "loss": 0.87912059,
      "num_input_tokens_seen": 60341905,
      "step": 2802,
      "time_per_iteration": 2.7826831340789795
    },
    {
      "auxiliary_loss_clip": 0.01152691,
      "auxiliary_loss_mlp": 0.01032825,
      "balance_loss_clip": 1.05031312,
      "balance_loss_mlp": 1.0241648,
      "epoch": 0.33704082246137196,
      "flos": 17931096161280.0,
      "grad_norm": 3.159625815290534,
      "language_loss": 0.52304399,
      "learning_rate": 3.0900836817219713e-06,
      "loss": 0.54489911,
      "num_input_tokens_seen": 60358335,
      "step": 2803,
      "time_per_iteration": 2.7500290870666504
    },
    {
      "auxiliary_loss_clip": 0.01197825,
      "auxiliary_loss_mlp": 0.01037024,
      "balance_loss_clip": 1.05751157,
      "balance_loss_mlp": 1.02752936,
      "epoch": 0.33716106535201107,
      "flos": 21286517149440.0,
      "grad_norm": 1.851053168241289,
      "language_loss": 0.83887672,
      "learning_rate": 3.089430502336807e-06,
      "loss": 0.86122525,
      "num_input_tokens_seen": 60378305,
      "step": 2804,
      "time_per_iteration": 2.6798691749572754
    },
    {
      "auxiliary_loss_clip": 0.01193926,
      "auxiliary_loss_mlp": 0.01035356,
      "balance_loss_clip": 1.05703473,
      "balance_loss_mlp": 1.02539599,
      "epoch": 0.3372813082426502,
      "flos": 18402962152320.0,
      "grad_norm": 3.731782722106838,
      "language_loss": 0.90925992,
      "learning_rate": 3.088777157685902e-06,
      "loss": 0.93155271,
      "num_input_tokens_seen": 60393895,
      "step": 2805,
      "time_per_iteration": 2.664013147354126
    },
    {
      "auxiliary_loss_clip": 0.01178449,
      "auxiliary_loss_mlp": 0.01031791,
      "balance_loss_clip": 1.05660677,
      "balance_loss_mlp": 1.02259398,
      "epoch": 0.33740155113328923,
      "flos": 17201391367680.0,
      "grad_norm": 2.0761544061548745,
      "language_loss": 0.85202938,
      "learning_rate": 3.088123647868367e-06,
      "loss": 0.8741318,
      "num_input_tokens_seen": 60410445,
      "step": 2806,
      "time_per_iteration": 2.666836738586426
    },
    {
      "auxiliary_loss_clip": 0.01194173,
      "auxiliary_loss_mlp": 0.01032219,
      "balance_loss_clip": 1.05679274,
      "balance_loss_mlp": 1.02311182,
      "epoch": 0.33752179402392835,
      "flos": 29058950609280.0,
      "grad_norm": 9.444832755879586,
      "language_loss": 0.81664455,
      "learning_rate": 3.0874699729833405e-06,
      "loss": 0.83890843,
      "num_input_tokens_seen": 60431815,
      "step": 2807,
      "time_per_iteration": 2.795870304107666
    },
    {
      "auxiliary_loss_clip": 0.01180135,
      "auxiliary_loss_mlp": 0.01031032,
      "balance_loss_clip": 1.05854237,
      "balance_loss_mlp": 1.02148962,
      "epoch": 0.3376420369145674,
      "flos": 25080730680960.0,
      "grad_norm": 1.7651905682241538,
      "language_loss": 0.79595804,
      "learning_rate": 3.086816133129983e-06,
      "loss": 0.81806976,
      "num_input_tokens_seen": 60452075,
      "step": 2808,
      "time_per_iteration": 2.726701498031616
    },
    {
      "auxiliary_loss_clip": 0.01203771,
      "auxiliary_loss_mlp": 0.01031092,
      "balance_loss_clip": 1.0613215,
      "balance_loss_mlp": 1.02233028,
      "epoch": 0.3377622798052065,
      "flos": 27490624007040.0,
      "grad_norm": 2.0879605407243447,
      "language_loss": 0.76284707,
      "learning_rate": 3.0861621284074826e-06,
      "loss": 0.78519571,
      "num_input_tokens_seen": 60472600,
      "step": 2809,
      "time_per_iteration": 2.6578369140625
    },
    {
      "auxiliary_loss_clip": 0.01188557,
      "auxiliary_loss_mlp": 0.01025555,
      "balance_loss_clip": 1.057482,
      "balance_loss_mlp": 1.01691294,
      "epoch": 0.3378825226958456,
      "flos": 21975211589760.0,
      "grad_norm": 1.5424623844455259,
      "language_loss": 0.73329246,
      "learning_rate": 3.085507958915051e-06,
      "loss": 0.75543362,
      "num_input_tokens_seen": 60491030,
      "step": 2810,
      "time_per_iteration": 2.7293894290924072
    },
    {
      "auxiliary_loss_clip": 0.01175898,
      "auxiliary_loss_mlp": 0.01027908,
      "balance_loss_clip": 1.05474782,
      "balance_loss_mlp": 1.01835322,
      "epoch": 0.3380027655864847,
      "flos": 42523189200000.0,
      "grad_norm": 2.1089332539368955,
      "language_loss": 0.71229374,
      "learning_rate": 3.084853624751925e-06,
      "loss": 0.73433185,
      "num_input_tokens_seen": 60512615,
      "step": 2811,
      "time_per_iteration": 2.8657686710357666
    },
    {
      "auxiliary_loss_clip": 0.01175799,
      "auxiliary_loss_mlp": 0.01031697,
      "balance_loss_clip": 1.05805099,
      "balance_loss_mlp": 1.02154636,
      "epoch": 0.3381230084771238,
      "flos": 26725080418560.0,
      "grad_norm": 1.804684687141919,
      "language_loss": 0.8572706,
      "learning_rate": 3.0841991260173668e-06,
      "loss": 0.87934554,
      "num_input_tokens_seen": 60532520,
      "step": 2812,
      "time_per_iteration": 2.845003843307495
    },
    {
      "auxiliary_loss_clip": 0.01202895,
      "auxiliary_loss_mlp": 0.01035389,
      "balance_loss_clip": 1.05936575,
      "balance_loss_mlp": 1.02600145,
      "epoch": 0.3382432513677629,
      "flos": 22710375250560.0,
      "grad_norm": 2.2683114719849486,
      "language_loss": 0.79966521,
      "learning_rate": 3.0835444628106634e-06,
      "loss": 0.82204807,
      "num_input_tokens_seen": 60551500,
      "step": 2813,
      "time_per_iteration": 2.6095855236053467
    },
    {
      "auxiliary_loss_clip": 0.01201886,
      "auxiliary_loss_mlp": 0.00889332,
      "balance_loss_clip": 1.05955648,
      "balance_loss_mlp": 1.00085688,
      "epoch": 0.33836349425840195,
      "flos": 22122409524480.0,
      "grad_norm": 2.457371432476772,
      "language_loss": 0.82432878,
      "learning_rate": 3.082889635231126e-06,
      "loss": 0.84524095,
      "num_input_tokens_seen": 60570160,
      "step": 2814,
      "time_per_iteration": 2.661787271499634
    },
    {
      "auxiliary_loss_clip": 0.01183688,
      "auxiliary_loss_mlp": 0.0103363,
      "balance_loss_clip": 1.05561113,
      "balance_loss_mlp": 1.0245049,
      "epoch": 0.33848373714904106,
      "flos": 27308090067840.0,
      "grad_norm": 3.0070671870736634,
      "language_loss": 0.76572514,
      "learning_rate": 3.0822346433780925e-06,
      "loss": 0.7878983,
      "num_input_tokens_seen": 60590885,
      "step": 2815,
      "time_per_iteration": 2.732522487640381
    },
    {
      "auxiliary_loss_clip": 0.01192174,
      "auxiliary_loss_mlp": 0.0102838,
      "balance_loss_clip": 1.05517352,
      "balance_loss_mlp": 1.01882553,
      "epoch": 0.3386039800396802,
      "flos": 25848716394240.0,
      "grad_norm": 8.175958588362377,
      "language_loss": 0.87320161,
      "learning_rate": 3.0815794873509237e-06,
      "loss": 0.8954072,
      "num_input_tokens_seen": 60609170,
      "step": 2816,
      "time_per_iteration": 3.582256317138672
    },
    {
      "auxiliary_loss_clip": 0.01200897,
      "auxiliary_loss_mlp": 0.01028611,
      "balance_loss_clip": 1.05911124,
      "balance_loss_mlp": 1.01912165,
      "epoch": 0.33872422293031923,
      "flos": 18880646146560.0,
      "grad_norm": 2.0667835376719452,
      "language_loss": 0.72750944,
      "learning_rate": 3.0809241672490066e-06,
      "loss": 0.74980456,
      "num_input_tokens_seen": 60627340,
      "step": 2817,
      "time_per_iteration": 2.6385936737060547
    },
    {
      "auxiliary_loss_clip": 0.01183348,
      "auxiliary_loss_mlp": 0.01032108,
      "balance_loss_clip": 1.05667639,
      "balance_loss_mlp": 1.02388191,
      "epoch": 0.33884446582095834,
      "flos": 23146977064320.0,
      "grad_norm": 2.1099114467684794,
      "language_loss": 0.85268641,
      "learning_rate": 3.080268683171753e-06,
      "loss": 0.87484092,
      "num_input_tokens_seen": 60647630,
      "step": 2818,
      "time_per_iteration": 2.6780850887298584
    },
    {
      "auxiliary_loss_clip": 0.01190595,
      "auxiliary_loss_mlp": 0.0103168,
      "balance_loss_clip": 1.05445528,
      "balance_loss_mlp": 1.02327013,
      "epoch": 0.33896470871159745,
      "flos": 15997342544640.0,
      "grad_norm": 2.458757442744036,
      "language_loss": 0.89292961,
      "learning_rate": 3.0796130352185985e-06,
      "loss": 0.91515243,
      "num_input_tokens_seen": 60664485,
      "step": 2819,
      "time_per_iteration": 3.39437198638916
    },
    {
      "auxiliary_loss_clip": 0.0116758,
      "auxiliary_loss_mlp": 0.00889279,
      "balance_loss_clip": 1.04926515,
      "balance_loss_mlp": 1.00095844,
      "epoch": 0.3390849516022365,
      "flos": 34495754112000.0,
      "grad_norm": 1.7591754534781827,
      "language_loss": 0.66486084,
      "learning_rate": 3.0789572234890057e-06,
      "loss": 0.68542939,
      "num_input_tokens_seen": 60686125,
      "step": 2820,
      "time_per_iteration": 2.7847719192504883
    },
    {
      "auxiliary_loss_clip": 0.01180978,
      "auxiliary_loss_mlp": 0.0103944,
      "balance_loss_clip": 1.05768442,
      "balance_loss_mlp": 1.029796,
      "epoch": 0.3392051944928756,
      "flos": 16180307447040.0,
      "grad_norm": 2.0651388338811643,
      "language_loss": 0.77298629,
      "learning_rate": 3.0783012480824596e-06,
      "loss": 0.79519045,
      "num_input_tokens_seen": 60705270,
      "step": 2821,
      "time_per_iteration": 3.6243832111358643
    },
    {
      "auxiliary_loss_clip": 0.01204638,
      "auxiliary_loss_mlp": 0.01033179,
      "balance_loss_clip": 1.05996561,
      "balance_loss_mlp": 1.02347541,
      "epoch": 0.33932543738351467,
      "flos": 17086656349440.0,
      "grad_norm": 2.175997721970692,
      "language_loss": 0.74554926,
      "learning_rate": 3.077645109098471e-06,
      "loss": 0.76792747,
      "num_input_tokens_seen": 60721540,
      "step": 2822,
      "time_per_iteration": 2.6583404541015625
    },
    {
      "auxiliary_loss_clip": 0.01161293,
      "auxiliary_loss_mlp": 0.01031899,
      "balance_loss_clip": 1.0536747,
      "balance_loss_mlp": 1.02242184,
      "epoch": 0.3394456802741538,
      "flos": 22126970551680.0,
      "grad_norm": 1.8350482051163082,
      "language_loss": 0.72496748,
      "learning_rate": 3.076988806636577e-06,
      "loss": 0.74689937,
      "num_input_tokens_seen": 60739300,
      "step": 2823,
      "time_per_iteration": 2.6939587593078613
    },
    {
      "auxiliary_loss_clip": 0.01187563,
      "auxiliary_loss_mlp": 0.00889384,
      "balance_loss_clip": 1.05901313,
      "balance_loss_mlp": 1.00104642,
      "epoch": 0.3395659231647929,
      "flos": 25226887121280.0,
      "grad_norm": 2.046078969325094,
      "language_loss": 0.88987303,
      "learning_rate": 3.0763323407963377e-06,
      "loss": 0.9106425,
      "num_input_tokens_seen": 60758910,
      "step": 2824,
      "time_per_iteration": 2.745687246322632
    },
    {
      "auxiliary_loss_clip": 0.0119291,
      "auxiliary_loss_mlp": 0.0102762,
      "balance_loss_clip": 1.05754256,
      "balance_loss_mlp": 1.01817274,
      "epoch": 0.33968616605543195,
      "flos": 29096477343360.0,
      "grad_norm": 1.7835520602208357,
      "language_loss": 0.80393779,
      "learning_rate": 3.075675711677337e-06,
      "loss": 0.82614309,
      "num_input_tokens_seen": 60779005,
      "step": 2825,
      "time_per_iteration": 3.59736967086792
    },
    {
      "auxiliary_loss_clip": 0.01179683,
      "auxiliary_loss_mlp": 0.01031573,
      "balance_loss_clip": 1.05932045,
      "balance_loss_mlp": 1.02259636,
      "epoch": 0.33980640894607106,
      "flos": 21433966479360.0,
      "grad_norm": 2.0179522179066773,
      "language_loss": 0.78291804,
      "learning_rate": 3.0750189193791865e-06,
      "loss": 0.80503064,
      "num_input_tokens_seen": 60798590,
      "step": 2826,
      "time_per_iteration": 2.7134764194488525
    },
    {
      "auxiliary_loss_clip": 0.01190155,
      "auxiliary_loss_mlp": 0.01039167,
      "balance_loss_clip": 1.05741584,
      "balance_loss_mlp": 1.02988112,
      "epoch": 0.33992665183671017,
      "flos": 32490035596800.0,
      "grad_norm": 2.193146103132896,
      "language_loss": 0.70263833,
      "learning_rate": 3.0743619640015203e-06,
      "loss": 0.7249316,
      "num_input_tokens_seen": 60818840,
      "step": 2827,
      "time_per_iteration": 2.7834296226501465
    },
    {
      "auxiliary_loss_clip": 0.0118702,
      "auxiliary_loss_mlp": 0.01035378,
      "balance_loss_clip": 1.05433154,
      "balance_loss_mlp": 1.02592468,
      "epoch": 0.3400468947273492,
      "flos": 17055414495360.0,
      "grad_norm": 2.557840362288838,
      "language_loss": 0.92511678,
      "learning_rate": 3.073704845643999e-06,
      "loss": 0.94734073,
      "num_input_tokens_seen": 60835965,
      "step": 2828,
      "time_per_iteration": 2.70451021194458
    },
    {
      "auxiliary_loss_clip": 0.01195646,
      "auxiliary_loss_mlp": 0.01037034,
      "balance_loss_clip": 1.057042,
      "balance_loss_mlp": 1.02728879,
      "epoch": 0.34016713761798834,
      "flos": 16872988296960.0,
      "grad_norm": 2.67254044029524,
      "language_loss": 0.77534503,
      "learning_rate": 3.0730475644063063e-06,
      "loss": 0.79767179,
      "num_input_tokens_seen": 60851065,
      "step": 2829,
      "time_per_iteration": 2.706324577331543
    },
    {
      "auxiliary_loss_clip": 0.01172601,
      "auxiliary_loss_mlp": 0.00888785,
      "balance_loss_clip": 1.05095983,
      "balance_loss_mlp": 1.00095642,
      "epoch": 0.34028738050862745,
      "flos": 21907161273600.0,
      "grad_norm": 1.8498805046773625,
      "language_loss": 0.65212584,
      "learning_rate": 3.072390120388151e-06,
      "loss": 0.67273974,
      "num_input_tokens_seen": 60869390,
      "step": 2830,
      "time_per_iteration": 2.691242218017578
    },
    {
      "auxiliary_loss_clip": 0.01191661,
      "auxiliary_loss_mlp": 0.01027765,
      "balance_loss_clip": 1.05733514,
      "balance_loss_mlp": 1.01827562,
      "epoch": 0.3404076233992665,
      "flos": 22746034477440.0,
      "grad_norm": 2.627072756926716,
      "language_loss": 0.710922,
      "learning_rate": 3.071732513689267e-06,
      "loss": 0.73311627,
      "num_input_tokens_seen": 60887925,
      "step": 2831,
      "time_per_iteration": 2.777691602706909
    },
    {
      "auxiliary_loss_clip": 0.01195054,
      "auxiliary_loss_mlp": 0.0104205,
      "balance_loss_clip": 1.0604291,
      "balance_loss_mlp": 1.03263807,
      "epoch": 0.3405278662899056,
      "flos": 17052361839360.0,
      "grad_norm": 2.1663185199589887,
      "language_loss": 0.67479169,
      "learning_rate": 3.0710747444094134e-06,
      "loss": 0.69716275,
      "num_input_tokens_seen": 60905955,
      "step": 2832,
      "time_per_iteration": 2.672117233276367
    },
    {
      "auxiliary_loss_clip": 0.01185266,
      "auxiliary_loss_mlp": 0.01037213,
      "balance_loss_clip": 1.05819607,
      "balance_loss_mlp": 1.02787256,
      "epoch": 0.3406481091805447,
      "flos": 42813131783040.0,
      "grad_norm": 2.394480056567141,
      "language_loss": 0.65024495,
      "learning_rate": 3.070416812648372e-06,
      "loss": 0.67246974,
      "num_input_tokens_seen": 60929405,
      "step": 2833,
      "time_per_iteration": 2.9476263523101807
    },
    {
      "auxiliary_loss_clip": 0.01167904,
      "auxiliary_loss_mlp": 0.01031546,
      "balance_loss_clip": 1.05037332,
      "balance_loss_mlp": 1.02219439,
      "epoch": 0.3407683520711838,
      "flos": 26761457917440.0,
      "grad_norm": 2.2661802957810293,
      "language_loss": 0.64785129,
      "learning_rate": 3.069758718505951e-06,
      "loss": 0.66984576,
      "num_input_tokens_seen": 60951145,
      "step": 2834,
      "time_per_iteration": 2.7483348846435547
    },
    {
      "auxiliary_loss_clip": 0.01202509,
      "auxiliary_loss_mlp": 0.01030211,
      "balance_loss_clip": 1.05967546,
      "balance_loss_mlp": 1.02101374,
      "epoch": 0.3408885949618229,
      "flos": 28767643309440.0,
      "grad_norm": 2.268898905280549,
      "language_loss": 0.79868865,
      "learning_rate": 3.0691004620819836e-06,
      "loss": 0.82101583,
      "num_input_tokens_seen": 60971275,
      "step": 2835,
      "time_per_iteration": 2.714747667312622
    },
    {
      "auxiliary_loss_clip": 0.01066318,
      "auxiliary_loss_mlp": 0.01018005,
      "balance_loss_clip": 1.02564311,
      "balance_loss_mlp": 1.01619339,
      "epoch": 0.341008837852462,
      "flos": 63576252881280.0,
      "grad_norm": 0.8144017565362712,
      "language_loss": 0.60169351,
      "learning_rate": 3.0684420434763254e-06,
      "loss": 0.62253678,
      "num_input_tokens_seen": 61037460,
      "step": 2836,
      "time_per_iteration": 3.3630409240722656
    },
    {
      "auxiliary_loss_clip": 0.01167116,
      "auxiliary_loss_mlp": 0.01036252,
      "balance_loss_clip": 1.057441,
      "balance_loss_mlp": 1.02723968,
      "epoch": 0.34112908074310105,
      "flos": 20812173120000.0,
      "grad_norm": 2.2142040124083175,
      "language_loss": 0.76795578,
      "learning_rate": 3.06778346278886e-06,
      "loss": 0.78998947,
      "num_input_tokens_seen": 61056295,
      "step": 2837,
      "time_per_iteration": 2.7874178886413574
    },
    {
      "auxiliary_loss_clip": 0.01205963,
      "auxiliary_loss_mlp": 0.01032099,
      "balance_loss_clip": 1.06304431,
      "balance_loss_mlp": 1.02326572,
      "epoch": 0.34124932363374016,
      "flos": 24976446520320.0,
      "grad_norm": 1.8870358434557402,
      "language_loss": 0.79030037,
      "learning_rate": 3.0671247201194906e-06,
      "loss": 0.81268102,
      "num_input_tokens_seen": 61078430,
      "step": 2838,
      "time_per_iteration": 2.8006021976470947
    },
    {
      "auxiliary_loss_clip": 0.01172294,
      "auxiliary_loss_mlp": 0.01033375,
      "balance_loss_clip": 1.0523448,
      "balance_loss_mlp": 1.02365351,
      "epoch": 0.3413695665243792,
      "flos": 28402970480640.0,
      "grad_norm": 1.7330363765177756,
      "language_loss": 0.75247371,
      "learning_rate": 3.066465815568151e-06,
      "loss": 0.77453047,
      "num_input_tokens_seen": 61099260,
      "step": 2839,
      "time_per_iteration": 2.8007569313049316
    },
    {
      "auxiliary_loss_clip": 0.01194385,
      "auxiliary_loss_mlp": 0.01032042,
      "balance_loss_clip": 1.05726194,
      "balance_loss_mlp": 1.02255929,
      "epoch": 0.34148980941501833,
      "flos": 25302012416640.0,
      "grad_norm": 1.8173296946772857,
      "language_loss": 0.68676543,
      "learning_rate": 3.0658067492347947e-06,
      "loss": 0.70902967,
      "num_input_tokens_seen": 61121900,
      "step": 2840,
      "time_per_iteration": 2.7777624130249023
    },
    {
      "auxiliary_loss_clip": 0.01130547,
      "auxiliary_loss_mlp": 0.01030053,
      "balance_loss_clip": 1.04735637,
      "balance_loss_mlp": 1.02085567,
      "epoch": 0.34161005230565744,
      "flos": 17530081747200.0,
      "grad_norm": 4.016653902879983,
      "language_loss": 0.65956068,
      "learning_rate": 3.065147521219402e-06,
      "loss": 0.68116665,
      "num_input_tokens_seen": 61141155,
      "step": 2841,
      "time_per_iteration": 2.8727219104766846
    },
    {
      "auxiliary_loss_clip": 0.01174172,
      "auxiliary_loss_mlp": 0.01035022,
      "balance_loss_clip": 1.05786419,
      "balance_loss_mlp": 1.02528906,
      "epoch": 0.3417302951962965,
      "flos": 43650101566080.0,
      "grad_norm": 1.5925951513610768,
      "language_loss": 0.74967325,
      "learning_rate": 3.064488131621977e-06,
      "loss": 0.77176523,
      "num_input_tokens_seen": 61164480,
      "step": 2842,
      "time_per_iteration": 3.8527519702911377
    },
    {
      "auxiliary_loss_clip": 0.0118417,
      "auxiliary_loss_mlp": 0.01031419,
      "balance_loss_clip": 1.05527973,
      "balance_loss_mlp": 1.0225563,
      "epoch": 0.3418505380869356,
      "flos": 30882207012480.0,
      "grad_norm": 2.2712340126939257,
      "language_loss": 0.74077129,
      "learning_rate": 3.063828580542549e-06,
      "loss": 0.76292711,
      "num_input_tokens_seen": 61185675,
      "step": 2843,
      "time_per_iteration": 2.7797958850860596
    },
    {
      "auxiliary_loss_clip": 0.01180574,
      "auxiliary_loss_mlp": 0.01034805,
      "balance_loss_clip": 1.05523753,
      "balance_loss_mlp": 1.0255965,
      "epoch": 0.3419707809775747,
      "flos": 19463871277440.0,
      "grad_norm": 1.8220197021825502,
      "language_loss": 0.73431516,
      "learning_rate": 3.0631688680811706e-06,
      "loss": 0.75646895,
      "num_input_tokens_seen": 61205300,
      "step": 2844,
      "time_per_iteration": 2.695141315460205
    },
    {
      "auxiliary_loss_clip": 0.01202439,
      "auxiliary_loss_mlp": 0.0103625,
      "balance_loss_clip": 1.05857015,
      "balance_loss_mlp": 1.02667761,
      "epoch": 0.3420910238682138,
      "flos": 28727818104960.0,
      "grad_norm": 2.5410386206858058,
      "language_loss": 0.75532246,
      "learning_rate": 3.062508994337921e-06,
      "loss": 0.77770936,
      "num_input_tokens_seen": 61224905,
      "step": 2845,
      "time_per_iteration": 3.7130699157714844
    },
    {
      "auxiliary_loss_clip": 0.01192292,
      "auxiliary_loss_mlp": 0.01037796,
      "balance_loss_clip": 1.0567596,
      "balance_loss_mlp": 1.02747297,
      "epoch": 0.3422112667588529,
      "flos": 21397265758080.0,
      "grad_norm": 2.15609148713991,
      "language_loss": 0.79618663,
      "learning_rate": 3.0618489594129013e-06,
      "loss": 0.81848752,
      "num_input_tokens_seen": 61243045,
      "step": 2846,
      "time_per_iteration": 2.7161285877227783
    },
    {
      "auxiliary_loss_clip": 0.01175756,
      "auxiliary_loss_mlp": 0.0103065,
      "balance_loss_clip": 1.05606174,
      "balance_loss_mlp": 1.02090478,
      "epoch": 0.342331509649492,
      "flos": 13881450038400.0,
      "grad_norm": 2.5249305815423133,
      "language_loss": 0.70861065,
      "learning_rate": 3.061188763406239e-06,
      "loss": 0.73067474,
      "num_input_tokens_seen": 61259190,
      "step": 2847,
      "time_per_iteration": 3.6763696670532227
    },
    {
      "auxiliary_loss_clip": 0.01173242,
      "auxiliary_loss_mlp": 0.01034356,
      "balance_loss_clip": 1.05289888,
      "balance_loss_mlp": 1.02423549,
      "epoch": 0.34245175254013105,
      "flos": 28621450955520.0,
      "grad_norm": 3.2258046310227573,
      "language_loss": 0.82291389,
      "learning_rate": 3.060528406418085e-06,
      "loss": 0.8449899,
      "num_input_tokens_seen": 61279040,
      "step": 2848,
      "time_per_iteration": 2.8404011726379395
    },
    {
      "auxiliary_loss_clip": 0.01173572,
      "auxiliary_loss_mlp": 0.01034661,
      "balance_loss_clip": 1.05390561,
      "balance_loss_mlp": 1.02513587,
      "epoch": 0.34257199543077016,
      "flos": 34127058960000.0,
      "grad_norm": 1.950406785783491,
      "language_loss": 0.61761236,
      "learning_rate": 3.0598678885486145e-06,
      "loss": 0.63969469,
      "num_input_tokens_seen": 61301580,
      "step": 2849,
      "time_per_iteration": 2.796663761138916
    },
    {
      "auxiliary_loss_clip": 0.01171425,
      "auxiliary_loss_mlp": 0.008892,
      "balance_loss_clip": 1.05161619,
      "balance_loss_mlp": 1.00089788,
      "epoch": 0.34269223832140927,
      "flos": 19974018188160.0,
      "grad_norm": 1.7079212828277133,
      "language_loss": 0.74611849,
      "learning_rate": 3.0592072098980282e-06,
      "loss": 0.76672471,
      "num_input_tokens_seen": 61321240,
      "step": 2850,
      "time_per_iteration": 2.817882537841797
    },
    {
      "auxiliary_loss_clip": 0.01171459,
      "auxiliary_loss_mlp": 0.01030505,
      "balance_loss_clip": 1.05184829,
      "balance_loss_mlp": 1.02125442,
      "epoch": 0.3428124812120483,
      "flos": 27235658292480.0,
      "grad_norm": 1.9433857444592384,
      "language_loss": 0.73056376,
      "learning_rate": 3.0585463705665514e-06,
      "loss": 0.75258338,
      "num_input_tokens_seen": 61341615,
      "step": 2851,
      "time_per_iteration": 3.6734609603881836
    },
    {
      "auxiliary_loss_clip": 0.01167915,
      "auxiliary_loss_mlp": 0.01031829,
      "balance_loss_clip": 1.0528065,
      "balance_loss_mlp": 1.02224422,
      "epoch": 0.34293272410268744,
      "flos": 24570871079040.0,
      "grad_norm": 3.036790858228412,
      "language_loss": 0.71374208,
      "learning_rate": 3.0578853706544304e-06,
      "loss": 0.73573947,
      "num_input_tokens_seen": 61359005,
      "step": 2852,
      "time_per_iteration": 2.7394020557403564
    },
    {
      "auxiliary_loss_clip": 0.01170109,
      "auxiliary_loss_mlp": 0.00888983,
      "balance_loss_clip": 1.0520134,
      "balance_loss_mlp": 1.00092065,
      "epoch": 0.34305296699332655,
      "flos": 21506865131520.0,
      "grad_norm": 2.062482016845746,
      "language_loss": 0.65742671,
      "learning_rate": 3.0572242102619404e-06,
      "loss": 0.67801762,
      "num_input_tokens_seen": 61376160,
      "step": 2853,
      "time_per_iteration": 2.781134605407715
    },
    {
      "auxiliary_loss_clip": 0.01181277,
      "auxiliary_loss_mlp": 0.01032951,
      "balance_loss_clip": 1.05807853,
      "balance_loss_mlp": 1.02427232,
      "epoch": 0.3431732098839656,
      "flos": 24056665931520.0,
      "grad_norm": 1.936991704558411,
      "language_loss": 0.80847555,
      "learning_rate": 3.0565628894893784e-06,
      "loss": 0.83061785,
      "num_input_tokens_seen": 61396795,
      "step": 2854,
      "time_per_iteration": 2.7142205238342285
    },
    {
      "auxiliary_loss_clip": 0.01183564,
      "auxiliary_loss_mlp": 0.01038166,
      "balance_loss_clip": 1.05590701,
      "balance_loss_mlp": 1.02955258,
      "epoch": 0.3432934527746047,
      "flos": 16800879744000.0,
      "grad_norm": 1.6463930582289985,
      "language_loss": 0.74790478,
      "learning_rate": 3.0559014084370655e-06,
      "loss": 0.77012205,
      "num_input_tokens_seen": 61415320,
      "step": 2855,
      "time_per_iteration": 2.7199454307556152
    },
    {
      "auxiliary_loss_clip": 0.01187333,
      "auxiliary_loss_mlp": 0.01033121,
      "balance_loss_clip": 1.05711532,
      "balance_loss_mlp": 1.02342296,
      "epoch": 0.34341369566524377,
      "flos": 23439720908160.0,
      "grad_norm": 1.9418532514682734,
      "language_loss": 0.78776193,
      "learning_rate": 3.055239767205349e-06,
      "loss": 0.80996644,
      "num_input_tokens_seen": 61437070,
      "step": 2856,
      "time_per_iteration": 2.73745059967041
    },
    {
      "auxiliary_loss_clip": 0.01190569,
      "auxiliary_loss_mlp": 0.01037142,
      "balance_loss_clip": 1.06004858,
      "balance_loss_mlp": 1.02807617,
      "epoch": 0.3435339385558829,
      "flos": 17267466435840.0,
      "grad_norm": 1.7766770131614873,
      "language_loss": 0.7828123,
      "learning_rate": 3.054577965894599e-06,
      "loss": 0.80508941,
      "num_input_tokens_seen": 61453215,
      "step": 2857,
      "time_per_iteration": 2.7770299911499023
    },
    {
      "auxiliary_loss_clip": 0.01188675,
      "auxiliary_loss_mlp": 0.0103505,
      "balance_loss_clip": 1.05850112,
      "balance_loss_mlp": 1.02446437,
      "epoch": 0.343654181446522,
      "flos": 22199366413440.0,
      "grad_norm": 1.8752213955274974,
      "language_loss": 0.70607078,
      "learning_rate": 3.0539160046052094e-06,
      "loss": 0.72830802,
      "num_input_tokens_seen": 61472915,
      "step": 2858,
      "time_per_iteration": 2.7129149436950684
    },
    {
      "auxiliary_loss_clip": 0.01171675,
      "auxiliary_loss_mlp": 0.01040541,
      "balance_loss_clip": 1.05163574,
      "balance_loss_mlp": 1.03011656,
      "epoch": 0.34377442433716104,
      "flos": 19901801894400.0,
      "grad_norm": 2.6076097786613537,
      "language_loss": 0.70528817,
      "learning_rate": 3.0532538834376003e-06,
      "loss": 0.72741032,
      "num_input_tokens_seen": 61492475,
      "step": 2859,
      "time_per_iteration": 2.828245162963867
    },
    {
      "auxiliary_loss_clip": 0.01197554,
      "auxiliary_loss_mlp": 0.01033208,
      "balance_loss_clip": 1.05866861,
      "balance_loss_mlp": 1.02348065,
      "epoch": 0.34389466722780015,
      "flos": 22197678474240.0,
      "grad_norm": 2.5389219520348236,
      "language_loss": 0.78218925,
      "learning_rate": 3.0525916024922143e-06,
      "loss": 0.80449682,
      "num_input_tokens_seen": 61511660,
      "step": 2860,
      "time_per_iteration": 2.6844935417175293
    },
    {
      "auxiliary_loss_clip": 0.01178477,
      "auxiliary_loss_mlp": 0.01035452,
      "balance_loss_clip": 1.05479634,
      "balance_loss_mlp": 1.02589178,
      "epoch": 0.34401491011843927,
      "flos": 18624567110400.0,
      "grad_norm": 2.83081495169681,
      "language_loss": 0.84296972,
      "learning_rate": 3.0519291618695193e-06,
      "loss": 0.86510903,
      "num_input_tokens_seen": 61529060,
      "step": 2861,
      "time_per_iteration": 2.705501079559326
    },
    {
      "auxiliary_loss_clip": 0.01162041,
      "auxiliary_loss_mlp": 0.01037101,
      "balance_loss_clip": 1.05143714,
      "balance_loss_mlp": 1.02684271,
      "epoch": 0.3441351530090783,
      "flos": 17858197509120.0,
      "grad_norm": 1.6540420340610782,
      "language_loss": 0.75894254,
      "learning_rate": 3.0512665616700065e-06,
      "loss": 0.78093398,
      "num_input_tokens_seen": 61548125,
      "step": 2862,
      "time_per_iteration": 2.7309348583221436
    },
    {
      "auxiliary_loss_clip": 0.01151419,
      "auxiliary_loss_mlp": 0.01026195,
      "balance_loss_clip": 1.04792237,
      "balance_loss_mlp": 1.01727843,
      "epoch": 0.34425539589971743,
      "flos": 23112754381440.0,
      "grad_norm": 1.9453769180623033,
      "language_loss": 0.89243203,
      "learning_rate": 3.0506038019941933e-06,
      "loss": 0.91420817,
      "num_input_tokens_seen": 61568135,
      "step": 2863,
      "time_per_iteration": 2.731430768966675
    },
    {
      "auxiliary_loss_clip": 0.01170215,
      "auxiliary_loss_mlp": 0.01041588,
      "balance_loss_clip": 1.05480027,
      "balance_loss_mlp": 1.0312233,
      "epoch": 0.34437563879035654,
      "flos": 21907699977600.0,
      "grad_norm": 2.57976773153733,
      "language_loss": 0.67957079,
      "learning_rate": 3.049940882942617e-06,
      "loss": 0.70168877,
      "num_input_tokens_seen": 61586920,
      "step": 2864,
      "time_per_iteration": 2.7343666553497314
    },
    {
      "auxiliary_loss_clip": 0.0120425,
      "auxiliary_loss_mlp": 0.01033749,
      "balance_loss_clip": 1.0609678,
      "balance_loss_mlp": 1.02394426,
      "epoch": 0.3444958816809956,
      "flos": 23076915586560.0,
      "grad_norm": 1.8337886994868473,
      "language_loss": 0.80656844,
      "learning_rate": 3.0492778046158448e-06,
      "loss": 0.82894838,
      "num_input_tokens_seen": 61608340,
      "step": 2865,
      "time_per_iteration": 2.632966995239258
    },
    {
      "auxiliary_loss_clip": 0.01191073,
      "auxiliary_loss_mlp": 0.01035728,
      "balance_loss_clip": 1.06123638,
      "balance_loss_mlp": 1.02600074,
      "epoch": 0.3446161245716347,
      "flos": 21908633731200.0,
      "grad_norm": 2.2080526483093323,
      "language_loss": 0.76815629,
      "learning_rate": 3.0486145671144633e-06,
      "loss": 0.79042435,
      "num_input_tokens_seen": 61628130,
      "step": 2866,
      "time_per_iteration": 2.6844184398651123
    },
    {
      "auxiliary_loss_clip": 0.01136169,
      "auxiliary_loss_mlp": 0.01035784,
      "balance_loss_clip": 1.04910934,
      "balance_loss_mlp": 1.02650344,
      "epoch": 0.3447363674622738,
      "flos": 25112834461440.0,
      "grad_norm": 2.5449649540236736,
      "language_loss": 0.76747084,
      "learning_rate": 3.047951170539086e-06,
      "loss": 0.78919041,
      "num_input_tokens_seen": 61647755,
      "step": 2867,
      "time_per_iteration": 2.7706401348114014
    },
    {
      "auxiliary_loss_clip": 0.01169926,
      "auxiliary_loss_mlp": 0.01029513,
      "balance_loss_clip": 1.0577687,
      "balance_loss_mlp": 1.02029204,
      "epoch": 0.3448566103529129,
      "flos": 11984684451840.0,
      "grad_norm": 1.906448007348716,
      "language_loss": 0.84318584,
      "learning_rate": 3.047287614990349e-06,
      "loss": 0.86518025,
      "num_input_tokens_seen": 61665675,
      "step": 2868,
      "time_per_iteration": 3.676542043685913
    },
    {
      "auxiliary_loss_clip": 0.01174006,
      "auxiliary_loss_mlp": 0.01038255,
      "balance_loss_clip": 1.05579662,
      "balance_loss_mlp": 1.02795506,
      "epoch": 0.344976853243552,
      "flos": 40187882465280.0,
      "grad_norm": 2.7255140121742985,
      "language_loss": 0.61520541,
      "learning_rate": 3.046623900568914e-06,
      "loss": 0.63732803,
      "num_input_tokens_seen": 61688240,
      "step": 2869,
      "time_per_iteration": 2.8901116847991943
    },
    {
      "auxiliary_loss_clip": 0.01178555,
      "auxiliary_loss_mlp": 0.01038327,
      "balance_loss_clip": 1.05546665,
      "balance_loss_mlp": 1.02793741,
      "epoch": 0.34509709613419104,
      "flos": 28723652127360.0,
      "grad_norm": 3.770070048086575,
      "language_loss": 0.70316148,
      "learning_rate": 3.045960027375465e-06,
      "loss": 0.72533029,
      "num_input_tokens_seen": 61706075,
      "step": 2870,
      "time_per_iteration": 2.7682151794433594
    },
    {
      "auxiliary_loss_clip": 0.01194589,
      "auxiliary_loss_mlp": 0.01035593,
      "balance_loss_clip": 1.05546415,
      "balance_loss_mlp": 1.02519822,
      "epoch": 0.34521733902483015,
      "flos": 29967597982080.0,
      "grad_norm": 2.8701326131585274,
      "language_loss": 0.82632148,
      "learning_rate": 3.045295995510711e-06,
      "loss": 0.84862328,
      "num_input_tokens_seen": 61723045,
      "step": 2871,
      "time_per_iteration": 3.6821651458740234
    },
    {
      "auxiliary_loss_clip": 0.01177411,
      "auxiliary_loss_mlp": 0.01030912,
      "balance_loss_clip": 1.05582106,
      "balance_loss_mlp": 1.02153659,
      "epoch": 0.34533758191546926,
      "flos": 27923059843200.0,
      "grad_norm": 3.5796572908359523,
      "language_loss": 0.73949009,
      "learning_rate": 3.0446318050753865e-06,
      "loss": 0.76157331,
      "num_input_tokens_seen": 61743525,
      "step": 2872,
      "time_per_iteration": 2.885267734527588
    },
    {
      "auxiliary_loss_clip": 0.01181493,
      "auxiliary_loss_mlp": 0.01033617,
      "balance_loss_clip": 1.05520141,
      "balance_loss_mlp": 1.02509975,
      "epoch": 0.3454578248061083,
      "flos": 27125879351040.0,
      "grad_norm": 2.3839226599248655,
      "language_loss": 0.77929199,
      "learning_rate": 3.0439674561702474e-06,
      "loss": 0.8014431,
      "num_input_tokens_seen": 61763025,
      "step": 2873,
      "time_per_iteration": 3.6104471683502197
    },
    {
      "auxiliary_loss_clip": 0.01189387,
      "auxiliary_loss_mlp": 0.01032648,
      "balance_loss_clip": 1.05949163,
      "balance_loss_mlp": 1.02427924,
      "epoch": 0.3455780676967474,
      "flos": 19024899166080.0,
      "grad_norm": 3.2843461588351732,
      "language_loss": 0.88629454,
      "learning_rate": 3.043302948896076e-06,
      "loss": 0.90851486,
      "num_input_tokens_seen": 61781630,
      "step": 2874,
      "time_per_iteration": 2.6807761192321777
    },
    {
      "auxiliary_loss_clip": 0.01152727,
      "auxiliary_loss_mlp": 0.01036803,
      "balance_loss_clip": 1.05326986,
      "balance_loss_mlp": 1.02740383,
      "epoch": 0.34569831058738654,
      "flos": 34496005507200.0,
      "grad_norm": 2.489677513603377,
      "language_loss": 0.61065561,
      "learning_rate": 3.0426382833536756e-06,
      "loss": 0.63255095,
      "num_input_tokens_seen": 61804985,
      "step": 2875,
      "time_per_iteration": 2.837745428085327
    },
    {
      "auxiliary_loss_clip": 0.01165608,
      "auxiliary_loss_mlp": 0.0103747,
      "balance_loss_clip": 1.05210662,
      "balance_loss_mlp": 1.02703273,
      "epoch": 0.3458185534780256,
      "flos": 31138681098240.0,
      "grad_norm": 2.9804378313729862,
      "language_loss": 0.77867866,
      "learning_rate": 3.041973459643877e-06,
      "loss": 0.80070943,
      "num_input_tokens_seen": 61824440,
      "step": 2876,
      "time_per_iteration": 2.7776358127593994
    },
    {
      "auxiliary_loss_clip": 0.01153203,
      "auxiliary_loss_mlp": 0.01034842,
      "balance_loss_clip": 1.04837847,
      "balance_loss_mlp": 1.02535343,
      "epoch": 0.3459387963686647,
      "flos": 32452508862720.0,
      "grad_norm": 2.2104739916456113,
      "language_loss": 0.66961551,
      "learning_rate": 3.0413084778675334e-06,
      "loss": 0.69149601,
      "num_input_tokens_seen": 61845690,
      "step": 2877,
      "time_per_iteration": 3.795360565185547
    },
    {
      "auxiliary_loss_clip": 0.01174705,
      "auxiliary_loss_mlp": 0.00888895,
      "balance_loss_clip": 1.05351377,
      "balance_loss_mlp": 1.00091958,
      "epoch": 0.3460590392593038,
      "flos": 24675658030080.0,
      "grad_norm": 1.9305799748063153,
      "language_loss": 0.84158194,
      "learning_rate": 3.0406433381255214e-06,
      "loss": 0.8622179,
      "num_input_tokens_seen": 61863725,
      "step": 2878,
      "time_per_iteration": 2.702028274536133
    },
    {
      "auxiliary_loss_clip": 0.01190071,
      "auxiliary_loss_mlp": 0.01029277,
      "balance_loss_clip": 1.06142998,
      "balance_loss_mlp": 1.02015185,
      "epoch": 0.34617928214994287,
      "flos": 18807316531200.0,
      "grad_norm": 2.3686787120058446,
      "language_loss": 0.82092154,
      "learning_rate": 3.0399780405187425e-06,
      "loss": 0.84311497,
      "num_input_tokens_seen": 61882720,
      "step": 2879,
      "time_per_iteration": 2.7077815532684326
    },
    {
      "auxiliary_loss_clip": 0.01186283,
      "auxiliary_loss_mlp": 0.01031381,
      "balance_loss_clip": 1.05651367,
      "balance_loss_mlp": 1.02282214,
      "epoch": 0.346299525040582,
      "flos": 24857653265280.0,
      "grad_norm": 2.2156264911096177,
      "language_loss": 0.79033947,
      "learning_rate": 3.0393125851481216e-06,
      "loss": 0.81251615,
      "num_input_tokens_seen": 61902595,
      "step": 2880,
      "time_per_iteration": 2.71705961227417
    },
    {
      "auxiliary_loss_clip": 0.0116417,
      "auxiliary_loss_mlp": 0.01031499,
      "balance_loss_clip": 1.05534625,
      "balance_loss_mlp": 1.02283859,
      "epoch": 0.3464197679312211,
      "flos": 16434914025600.0,
      "grad_norm": 2.2233250988780067,
      "language_loss": 0.86782002,
      "learning_rate": 3.038646972114608e-06,
      "loss": 0.88977671,
      "num_input_tokens_seen": 61918920,
      "step": 2881,
      "time_per_iteration": 2.750767946243286
    },
    {
      "auxiliary_loss_clip": 0.01167842,
      "auxiliary_loss_mlp": 0.010316,
      "balance_loss_clip": 1.05798721,
      "balance_loss_mlp": 1.02234316,
      "epoch": 0.34654001082186014,
      "flos": 22382474970240.0,
      "grad_norm": 1.8498901557276304,
      "language_loss": 0.6733067,
      "learning_rate": 3.037981201519174e-06,
      "loss": 0.69530106,
      "num_input_tokens_seen": 61939520,
      "step": 2882,
      "time_per_iteration": 2.899885654449463
    },
    {
      "auxiliary_loss_clip": 0.01191914,
      "auxiliary_loss_mlp": 0.01031419,
      "balance_loss_clip": 1.06180596,
      "balance_loss_mlp": 1.02175748,
      "epoch": 0.34666025371249926,
      "flos": 19573901614080.0,
      "grad_norm": 2.0029023224710443,
      "language_loss": 0.71123683,
      "learning_rate": 3.0373152734628175e-06,
      "loss": 0.7334702,
      "num_input_tokens_seen": 61957800,
      "step": 2883,
      "time_per_iteration": 2.714799404144287
    },
    {
      "auxiliary_loss_clip": 0.01183862,
      "auxiliary_loss_mlp": 0.01026017,
      "balance_loss_clip": 1.05709589,
      "balance_loss_mlp": 1.01726103,
      "epoch": 0.34678049660313837,
      "flos": 15267637751040.0,
      "grad_norm": 2.0111234191455285,
      "language_loss": 0.75973642,
      "learning_rate": 3.0366491880465584e-06,
      "loss": 0.7818352,
      "num_input_tokens_seen": 61975820,
      "step": 2884,
      "time_per_iteration": 2.664768695831299
    },
    {
      "auxiliary_loss_clip": 0.01209935,
      "auxiliary_loss_mlp": 0.01045281,
      "balance_loss_clip": 1.06579256,
      "balance_loss_mlp": 1.03629243,
      "epoch": 0.3469007394937774,
      "flos": 21181550630400.0,
      "grad_norm": 3.2766667457147833,
      "language_loss": 0.81872213,
      "learning_rate": 3.035982945371443e-06,
      "loss": 0.84127426,
      "num_input_tokens_seen": 61997515,
      "step": 2885,
      "time_per_iteration": 2.6557013988494873
    },
    {
      "auxiliary_loss_clip": 0.01192163,
      "auxiliary_loss_mlp": 0.01034146,
      "balance_loss_clip": 1.06136918,
      "balance_loss_mlp": 1.02537179,
      "epoch": 0.34702098238441653,
      "flos": 22375471818240.0,
      "grad_norm": 2.183971399142959,
      "language_loss": 0.84956121,
      "learning_rate": 3.035316545538537e-06,
      "loss": 0.87182432,
      "num_input_tokens_seen": 62016310,
      "step": 2886,
      "time_per_iteration": 2.7278687953948975
    },
    {
      "auxiliary_loss_clip": 0.01177494,
      "auxiliary_loss_mlp": 0.01030726,
      "balance_loss_clip": 1.05958414,
      "balance_loss_mlp": 1.02154148,
      "epoch": 0.3471412252750556,
      "flos": 22929430343040.0,
      "grad_norm": 1.8318308115770134,
      "language_loss": 0.79161519,
      "learning_rate": 3.034649988648935e-06,
      "loss": 0.8136974,
      "num_input_tokens_seen": 62036075,
      "step": 2887,
      "time_per_iteration": 2.7235450744628906
    },
    {
      "auxiliary_loss_clip": 0.01182084,
      "auxiliary_loss_mlp": 0.01030523,
      "balance_loss_clip": 1.05673361,
      "balance_loss_mlp": 1.02160013,
      "epoch": 0.3472614681656947,
      "flos": 21324259365120.0,
      "grad_norm": 2.168716145779823,
      "language_loss": 0.80812526,
      "learning_rate": 3.033983274803752e-06,
      "loss": 0.83025134,
      "num_input_tokens_seen": 62055865,
      "step": 2888,
      "time_per_iteration": 2.7331347465515137
    },
    {
      "auxiliary_loss_clip": 0.01177713,
      "auxiliary_loss_mlp": 0.01030068,
      "balance_loss_clip": 1.05688262,
      "balance_loss_mlp": 1.02134156,
      "epoch": 0.3473817110563338,
      "flos": 23475739271040.0,
      "grad_norm": 2.970504486814633,
      "language_loss": 0.7229436,
      "learning_rate": 3.0333164041041283e-06,
      "loss": 0.7450214,
      "num_input_tokens_seen": 62072180,
      "step": 2889,
      "time_per_iteration": 2.678929328918457
    },
    {
      "auxiliary_loss_clip": 0.01157685,
      "auxiliary_loss_mlp": 0.01035155,
      "balance_loss_clip": 1.05387974,
      "balance_loss_mlp": 1.02689409,
      "epoch": 0.34750195394697286,
      "flos": 22346025644160.0,
      "grad_norm": 2.462501092360977,
      "language_loss": 0.7164433,
      "learning_rate": 3.032649376651228e-06,
      "loss": 0.73837167,
      "num_input_tokens_seen": 62091600,
      "step": 2890,
      "time_per_iteration": 2.8433585166931152
    },
    {
      "auxiliary_loss_clip": 0.01169681,
      "auxiliary_loss_mlp": 0.01033769,
      "balance_loss_clip": 1.05490124,
      "balance_loss_mlp": 1.02391672,
      "epoch": 0.347622196837612,
      "flos": 29095004885760.0,
      "grad_norm": 1.737518417888412,
      "language_loss": 0.75949872,
      "learning_rate": 3.031982192546238e-06,
      "loss": 0.78153318,
      "num_input_tokens_seen": 62114695,
      "step": 2891,
      "time_per_iteration": 2.7766103744506836
    },
    {
      "auxiliary_loss_clip": 0.01192547,
      "auxiliary_loss_mlp": 0.01037607,
      "balance_loss_clip": 1.05859613,
      "balance_loss_mlp": 1.02860641,
      "epoch": 0.3477424397282511,
      "flos": 22455732758400.0,
      "grad_norm": 5.743368018256721,
      "language_loss": 0.94589257,
      "learning_rate": 3.0313148518903696e-06,
      "loss": 0.96819413,
      "num_input_tokens_seen": 62134520,
      "step": 2892,
      "time_per_iteration": 2.6842005252838135
    },
    {
      "auxiliary_loss_clip": 0.01182745,
      "auxiliary_loss_mlp": 0.01029079,
      "balance_loss_clip": 1.05780458,
      "balance_loss_mlp": 1.02044189,
      "epoch": 0.34786268261889014,
      "flos": 15778790242560.0,
      "grad_norm": 3.052252646131731,
      "language_loss": 0.81219077,
      "learning_rate": 3.030647354784859e-06,
      "loss": 0.83430898,
      "num_input_tokens_seen": 62151560,
      "step": 2893,
      "time_per_iteration": 2.6665921211242676
    },
    {
      "auxiliary_loss_clip": 0.01166095,
      "auxiliary_loss_mlp": 0.01027335,
      "balance_loss_clip": 1.0549165,
      "balance_loss_mlp": 1.01932406,
      "epoch": 0.34798292550952925,
      "flos": 20777627214720.0,
      "grad_norm": 1.8094415411994176,
      "language_loss": 0.77263427,
      "learning_rate": 3.029979701330964e-06,
      "loss": 0.79456854,
      "num_input_tokens_seen": 62170985,
      "step": 2894,
      "time_per_iteration": 3.671722173690796
    },
    {
      "auxiliary_loss_clip": 0.01185279,
      "auxiliary_loss_mlp": 0.0103133,
      "balance_loss_clip": 1.05815434,
      "balance_loss_mlp": 1.02221692,
      "epoch": 0.34810316840016836,
      "flos": 19937820257280.0,
      "grad_norm": 2.312583384200631,
      "language_loss": 0.8047412,
      "learning_rate": 3.029311891629966e-06,
      "loss": 0.82690728,
      "num_input_tokens_seen": 62189440,
      "step": 2895,
      "time_per_iteration": 2.689570903778076
    },
    {
      "auxiliary_loss_clip": 0.0117815,
      "auxiliary_loss_mlp": 0.01029322,
      "balance_loss_clip": 1.05789399,
      "balance_loss_mlp": 1.0210135,
      "epoch": 0.3482234112908074,
      "flos": 23623296341760.0,
      "grad_norm": 1.9427903022308388,
      "language_loss": 0.74755293,
      "learning_rate": 3.0286439257831744e-06,
      "loss": 0.76962763,
      "num_input_tokens_seen": 62208910,
      "step": 2896,
      "time_per_iteration": 2.7478487491607666
    },
    {
      "auxiliary_loss_clip": 0.01201445,
      "auxiliary_loss_mlp": 0.01033918,
      "balance_loss_clip": 1.05758703,
      "balance_loss_mlp": 1.02422595,
      "epoch": 0.3483436541814465,
      "flos": 23986712194560.0,
      "grad_norm": 1.9862814081190092,
      "language_loss": 0.71462554,
      "learning_rate": 3.0279758038919156e-06,
      "loss": 0.73697913,
      "num_input_tokens_seen": 62227135,
      "step": 2897,
      "time_per_iteration": 3.594224214553833
    },
    {
      "auxiliary_loss_clip": 0.01192264,
      "auxiliary_loss_mlp": 0.0103462,
      "balance_loss_clip": 1.05831766,
      "balance_loss_mlp": 1.02522683,
      "epoch": 0.34846389707208564,
      "flos": 22638338524800.0,
      "grad_norm": 1.7974112592694351,
      "language_loss": 0.78360468,
      "learning_rate": 3.0273075260575455e-06,
      "loss": 0.80587351,
      "num_input_tokens_seen": 62246035,
      "step": 2898,
      "time_per_iteration": 2.6845216751098633
    },
    {
      "auxiliary_loss_clip": 0.01181922,
      "auxiliary_loss_mlp": 0.01030581,
      "balance_loss_clip": 1.05475545,
      "balance_loss_mlp": 1.02103245,
      "epoch": 0.3485841399627247,
      "flos": 21792857218560.0,
      "grad_norm": 2.1634132042606438,
      "language_loss": 0.80751419,
      "learning_rate": 3.0266390923814396e-06,
      "loss": 0.8296392,
      "num_input_tokens_seen": 62264095,
      "step": 2899,
      "time_per_iteration": 3.644256591796875
    },
    {
      "auxiliary_loss_clip": 0.01180822,
      "auxiliary_loss_mlp": 0.01035272,
      "balance_loss_clip": 1.05758142,
      "balance_loss_mlp": 1.02671874,
      "epoch": 0.3487043828533638,
      "flos": 17019036996480.0,
      "grad_norm": 2.0202476741510407,
      "language_loss": 0.81886572,
      "learning_rate": 3.0259705029650008e-06,
      "loss": 0.84102666,
      "num_input_tokens_seen": 62282025,
      "step": 2900,
      "time_per_iteration": 2.6692147254943848
    },
    {
      "auxiliary_loss_clip": 0.01190119,
      "auxiliary_loss_mlp": 0.01026219,
      "balance_loss_clip": 1.0572443,
      "balance_loss_mlp": 1.0176003,
      "epoch": 0.34882462574400286,
      "flos": 22601135013120.0,
      "grad_norm": 6.477068398648778,
      "language_loss": 0.72750688,
      "learning_rate": 3.025301757909652e-06,
      "loss": 0.74967027,
      "num_input_tokens_seen": 62302220,
      "step": 2901,
      "time_per_iteration": 2.731581449508667
    },
    {
      "auxiliary_loss_clip": 0.01173937,
      "auxiliary_loss_mlp": 0.00888357,
      "balance_loss_clip": 1.05572414,
      "balance_loss_mlp": 1.00090075,
      "epoch": 0.34894486863464197,
      "flos": 29861518141440.0,
      "grad_norm": 1.7220128151885103,
      "language_loss": 0.80704379,
      "learning_rate": 3.024632857316842e-06,
      "loss": 0.82766676,
      "num_input_tokens_seen": 62323535,
      "step": 2902,
      "time_per_iteration": 2.914386510848999
    },
    {
      "auxiliary_loss_clip": 0.01193528,
      "auxiliary_loss_mlp": 0.01032692,
      "balance_loss_clip": 1.05925035,
      "balance_loss_mlp": 1.02407312,
      "epoch": 0.3490651115252811,
      "flos": 22122265870080.0,
      "grad_norm": 2.1695032045888185,
      "language_loss": 0.77680397,
      "learning_rate": 3.0239638012880412e-06,
      "loss": 0.79906613,
      "num_input_tokens_seen": 62343430,
      "step": 2903,
      "time_per_iteration": 3.5445778369903564
    },
    {
      "auxiliary_loss_clip": 0.01153367,
      "auxiliary_loss_mlp": 0.01037565,
      "balance_loss_clip": 1.05145359,
      "balance_loss_mlp": 1.02765894,
      "epoch": 0.34918535441592014,
      "flos": 12676682943360.0,
      "grad_norm": 2.959716659385283,
      "language_loss": 0.81435162,
      "learning_rate": 3.0232945899247466e-06,
      "loss": 0.83626091,
      "num_input_tokens_seen": 62360365,
      "step": 2904,
      "time_per_iteration": 2.7625296115875244
    },
    {
      "auxiliary_loss_clip": 0.01192844,
      "auxiliary_loss_mlp": 0.01035167,
      "balance_loss_clip": 1.05774271,
      "balance_loss_mlp": 1.02542162,
      "epoch": 0.34930559730655925,
      "flos": 23185617120000.0,
      "grad_norm": 2.18044415296519,
      "language_loss": 0.77477616,
      "learning_rate": 3.022625223328476e-06,
      "loss": 0.79705626,
      "num_input_tokens_seen": 62382105,
      "step": 2905,
      "time_per_iteration": 2.757081985473633
    },
    {
      "auxiliary_loss_clip": 0.01196559,
      "auxiliary_loss_mlp": 0.01030168,
      "balance_loss_clip": 1.05881286,
      "balance_loss_mlp": 1.02069128,
      "epoch": 0.34942584019719836,
      "flos": 22855023319680.0,
      "grad_norm": 1.6674580492802267,
      "language_loss": 0.69351661,
      "learning_rate": 3.0219557016007723e-06,
      "loss": 0.71578383,
      "num_input_tokens_seen": 62402235,
      "step": 2906,
      "time_per_iteration": 2.6492044925689697
    },
    {
      "auxiliary_loss_clip": 0.01183908,
      "auxiliary_loss_mlp": 0.01030576,
      "balance_loss_clip": 1.05729651,
      "balance_loss_mlp": 1.02146244,
      "epoch": 0.3495460830878374,
      "flos": 24426043441920.0,
      "grad_norm": 2.6534685783837575,
      "language_loss": 0.69785416,
      "learning_rate": 3.021286024843202e-06,
      "loss": 0.71999902,
      "num_input_tokens_seen": 62420430,
      "step": 2907,
      "time_per_iteration": 2.7339985370635986
    },
    {
      "auxiliary_loss_clip": 0.0110268,
      "auxiliary_loss_mlp": 0.01005754,
      "balance_loss_clip": 1.03350544,
      "balance_loss_mlp": 1.00403774,
      "epoch": 0.3496663259784765,
      "flos": 70008749389440.0,
      "grad_norm": 1.0711532944451205,
      "language_loss": 0.64778852,
      "learning_rate": 3.0206161931573526e-06,
      "loss": 0.66887289,
      "num_input_tokens_seen": 62472980,
      "step": 2908,
      "time_per_iteration": 3.120802164077759
    },
    {
      "auxiliary_loss_clip": 0.01176613,
      "auxiliary_loss_mlp": 0.01032558,
      "balance_loss_clip": 1.05322409,
      "balance_loss_mlp": 1.02380252,
      "epoch": 0.34978656886911563,
      "flos": 28692805322880.0,
      "grad_norm": 1.5990658350120297,
      "language_loss": 0.92837793,
      "learning_rate": 3.0199462066448388e-06,
      "loss": 0.95046961,
      "num_input_tokens_seen": 62495175,
      "step": 2909,
      "time_per_iteration": 2.743833541870117
    },
    {
      "auxiliary_loss_clip": 0.01195052,
      "auxiliary_loss_mlp": 0.01032067,
      "balance_loss_clip": 1.06172705,
      "balance_loss_mlp": 1.02250648,
      "epoch": 0.3499068117597547,
      "flos": 21142156389120.0,
      "grad_norm": 1.7326298617152551,
      "language_loss": 0.6899873,
      "learning_rate": 3.019276065407296e-06,
      "loss": 0.71225846,
      "num_input_tokens_seen": 62514295,
      "step": 2910,
      "time_per_iteration": 2.68070387840271
    },
    {
      "auxiliary_loss_clip": 0.01160804,
      "auxiliary_loss_mlp": 0.01032479,
      "balance_loss_clip": 1.05252767,
      "balance_loss_mlp": 1.02320457,
      "epoch": 0.3500270546503938,
      "flos": 22782699285120.0,
      "grad_norm": 1.7919624706550628,
      "language_loss": 0.80506313,
      "learning_rate": 3.018605769546385e-06,
      "loss": 0.82699597,
      "num_input_tokens_seen": 62534850,
      "step": 2911,
      "time_per_iteration": 2.80058217048645
    },
    {
      "auxiliary_loss_clip": 0.01188741,
      "auxiliary_loss_mlp": 0.01031052,
      "balance_loss_clip": 1.05666006,
      "balance_loss_mlp": 1.0213784,
      "epoch": 0.3501472975410329,
      "flos": 22894058424960.0,
      "grad_norm": 1.827749371594537,
      "language_loss": 0.79577243,
      "learning_rate": 3.017935319163788e-06,
      "loss": 0.81797028,
      "num_input_tokens_seen": 62553810,
      "step": 2912,
      "time_per_iteration": 2.733015775680542
    },
    {
      "auxiliary_loss_clip": 0.01192081,
      "auxiliary_loss_mlp": 0.01029767,
      "balance_loss_clip": 1.05829167,
      "balance_loss_mlp": 1.01975942,
      "epoch": 0.35026754043167196,
      "flos": 25446588658560.0,
      "grad_norm": 1.8049711087195672,
      "language_loss": 0.7081089,
      "learning_rate": 3.017264714361213e-06,
      "loss": 0.73032737,
      "num_input_tokens_seen": 62573460,
      "step": 2913,
      "time_per_iteration": 2.673447847366333
    },
    {
      "auxiliary_loss_clip": 0.01181608,
      "auxiliary_loss_mlp": 0.00888256,
      "balance_loss_clip": 1.05764616,
      "balance_loss_mlp": 1.00100052,
      "epoch": 0.3503877833223111,
      "flos": 19573757959680.0,
      "grad_norm": 2.9384799738008085,
      "language_loss": 0.82136083,
      "learning_rate": 3.016593955240389e-06,
      "loss": 0.84205949,
      "num_input_tokens_seen": 62592150,
      "step": 2914,
      "time_per_iteration": 2.8138091564178467
    },
    {
      "auxiliary_loss_clip": 0.0108672,
      "auxiliary_loss_mlp": 0.010038,
      "balance_loss_clip": 1.02682221,
      "balance_loss_mlp": 1.0021075,
      "epoch": 0.3505080262129502,
      "flos": 65072075880960.0,
      "grad_norm": 0.8541529736333191,
      "language_loss": 0.63703454,
      "learning_rate": 3.015923041903071e-06,
      "loss": 0.65793979,
      "num_input_tokens_seen": 62658275,
      "step": 2915,
      "time_per_iteration": 3.273224353790283
    },
    {
      "auxiliary_loss_clip": 0.01191074,
      "auxiliary_loss_mlp": 0.0103396,
      "balance_loss_clip": 1.06053305,
      "balance_loss_mlp": 1.02477527,
      "epoch": 0.35062826910358924,
      "flos": 29314562768640.0,
      "grad_norm": 2.034890852279337,
      "language_loss": 0.83624732,
      "learning_rate": 3.0152519744510347e-06,
      "loss": 0.85849762,
      "num_input_tokens_seen": 62678075,
      "step": 2916,
      "time_per_iteration": 2.7713675498962402
    },
    {
      "auxiliary_loss_clip": 0.01170993,
      "auxiliary_loss_mlp": 0.01034909,
      "balance_loss_clip": 1.0537833,
      "balance_loss_mlp": 1.02618289,
      "epoch": 0.35074851199422835,
      "flos": 23987717775360.0,
      "grad_norm": 2.0995628607915053,
      "language_loss": 0.827968,
      "learning_rate": 3.014580752986081e-06,
      "loss": 0.85002702,
      "num_input_tokens_seen": 62696950,
      "step": 2917,
      "time_per_iteration": 2.766158103942871
    },
    {
      "auxiliary_loss_clip": 0.0116216,
      "auxiliary_loss_mlp": 0.01027385,
      "balance_loss_clip": 1.05502915,
      "balance_loss_mlp": 1.01810443,
      "epoch": 0.3508687548848674,
      "flos": 15224436668160.0,
      "grad_norm": 1.9928913888178104,
      "language_loss": 0.78182423,
      "learning_rate": 3.0139093776100345e-06,
      "loss": 0.8037197,
      "num_input_tokens_seen": 62713540,
      "step": 2918,
      "time_per_iteration": 2.7991628646850586
    },
    {
      "auxiliary_loss_clip": 0.0119527,
      "auxiliary_loss_mlp": 0.01029261,
      "balance_loss_clip": 1.05717266,
      "balance_loss_mlp": 1.02057683,
      "epoch": 0.3509889977755065,
      "flos": 21361750185600.0,
      "grad_norm": 1.8066233803754146,
      "language_loss": 0.75533974,
      "learning_rate": 3.013237848424741e-06,
      "loss": 0.77758509,
      "num_input_tokens_seen": 62732925,
      "step": 2919,
      "time_per_iteration": 2.635708808898926
    },
    {
      "auxiliary_loss_clip": 0.01182342,
      "auxiliary_loss_mlp": 0.01035349,
      "balance_loss_clip": 1.05819893,
      "balance_loss_mlp": 1.02596152,
      "epoch": 0.35110924066614563,
      "flos": 19135360465920.0,
      "grad_norm": 2.0623904795993453,
      "language_loss": 0.75120986,
      "learning_rate": 3.012566165532072e-06,
      "loss": 0.77338672,
      "num_input_tokens_seen": 62751715,
      "step": 2920,
      "time_per_iteration": 3.5784804821014404
    },
    {
      "auxiliary_loss_clip": 0.01150026,
      "auxiliary_loss_mlp": 0.01035342,
      "balance_loss_clip": 1.04797184,
      "balance_loss_mlp": 1.02616286,
      "epoch": 0.3512294835567847,
      "flos": 21980885938560.0,
      "grad_norm": 2.5403693043219278,
      "language_loss": 0.76585913,
      "learning_rate": 3.0118943290339207e-06,
      "loss": 0.78771281,
      "num_input_tokens_seen": 62771925,
      "step": 2921,
      "time_per_iteration": 2.8556065559387207
    },
    {
      "auxiliary_loss_clip": 0.0115693,
      "auxiliary_loss_mlp": 0.01033739,
      "balance_loss_clip": 1.04966307,
      "balance_loss_mlp": 1.02439928,
      "epoch": 0.3513497264474238,
      "flos": 17817294896640.0,
      "grad_norm": 2.307034703100744,
      "language_loss": 0.68257296,
      "learning_rate": 3.011222339032204e-06,
      "loss": 0.70447969,
      "num_input_tokens_seen": 62790075,
      "step": 2922,
      "time_per_iteration": 2.698179006576538
    },
    {
      "auxiliary_loss_clip": 0.01199855,
      "auxiliary_loss_mlp": 0.01035708,
      "balance_loss_clip": 1.0616827,
      "balance_loss_mlp": 1.02607584,
      "epoch": 0.3514699693380629,
      "flos": 26943417239040.0,
      "grad_norm": 1.7926207545055703,
      "language_loss": 0.69664848,
      "learning_rate": 3.0105501956288626e-06,
      "loss": 0.71900415,
      "num_input_tokens_seen": 62810545,
      "step": 2923,
      "time_per_iteration": 3.691004753112793
    },
    {
      "auxiliary_loss_clip": 0.01195908,
      "auxiliary_loss_mlp": 0.01028395,
      "balance_loss_clip": 1.05919766,
      "balance_loss_mlp": 1.01931143,
      "epoch": 0.35159021222870196,
      "flos": 15267565923840.0,
      "grad_norm": 1.8986913953314846,
      "language_loss": 0.73154688,
      "learning_rate": 3.0098778989258602e-06,
      "loss": 0.7537899,
      "num_input_tokens_seen": 62829155,
      "step": 2924,
      "time_per_iteration": 2.7033371925354004
    },
    {
      "auxiliary_loss_clip": 0.01165798,
      "auxiliary_loss_mlp": 0.01034628,
      "balance_loss_clip": 1.05627477,
      "balance_loss_mlp": 1.02557373,
      "epoch": 0.35171045511934107,
      "flos": 13984154000640.0,
      "grad_norm": 2.6593684970280544,
      "language_loss": 0.88440585,
      "learning_rate": 3.009205449025183e-06,
      "loss": 0.9064101,
      "num_input_tokens_seen": 62845350,
      "step": 2925,
      "time_per_iteration": 3.664557456970215
    },
    {
      "auxiliary_loss_clip": 0.01161829,
      "auxiliary_loss_mlp": 0.01032028,
      "balance_loss_clip": 1.05018258,
      "balance_loss_mlp": 1.02221084,
      "epoch": 0.3518306980099802,
      "flos": 14283434119680.0,
      "grad_norm": 2.0542584387049145,
      "language_loss": 0.62768817,
      "learning_rate": 3.008532846028842e-06,
      "loss": 0.64962673,
      "num_input_tokens_seen": 62862110,
      "step": 2926,
      "time_per_iteration": 2.7397818565368652
    },
    {
      "auxiliary_loss_clip": 0.01201139,
      "auxiliary_loss_mlp": 0.01034042,
      "balance_loss_clip": 1.05902863,
      "balance_loss_mlp": 1.02472568,
      "epoch": 0.35195094090061924,
      "flos": 27052872958080.0,
      "grad_norm": 2.832522690538464,
      "language_loss": 0.72464663,
      "learning_rate": 3.0078600900388694e-06,
      "loss": 0.74699843,
      "num_input_tokens_seen": 62882415,
      "step": 2927,
      "time_per_iteration": 2.729386806488037
    },
    {
      "auxiliary_loss_clip": 0.0115635,
      "auxiliary_loss_mlp": 0.01034898,
      "balance_loss_clip": 1.0476774,
      "balance_loss_mlp": 1.02539754,
      "epoch": 0.35207118379125835,
      "flos": 25629266252160.0,
      "grad_norm": 2.271228305488467,
      "language_loss": 0.74072331,
      "learning_rate": 3.007187181157323e-06,
      "loss": 0.76263577,
      "num_input_tokens_seen": 62902425,
      "step": 2928,
      "time_per_iteration": 2.780245780944824
    },
    {
      "auxiliary_loss_clip": 0.01138785,
      "auxiliary_loss_mlp": 0.01031739,
      "balance_loss_clip": 1.04971409,
      "balance_loss_mlp": 1.02286339,
      "epoch": 0.35219142668189746,
      "flos": 18004713085440.0,
      "grad_norm": 2.096710367961927,
      "language_loss": 0.67668939,
      "learning_rate": 3.006514119486282e-06,
      "loss": 0.6983946,
      "num_input_tokens_seen": 62919255,
      "step": 2929,
      "time_per_iteration": 3.6840968132019043
    },
    {
      "auxiliary_loss_clip": 0.01162059,
      "auxiliary_loss_mlp": 0.01035044,
      "balance_loss_clip": 1.05391598,
      "balance_loss_mlp": 1.02606785,
      "epoch": 0.3523116695725365,
      "flos": 14028109269120.0,
      "grad_norm": 2.357177323660166,
      "language_loss": 0.69843334,
      "learning_rate": 3.005840905127849e-06,
      "loss": 0.72040439,
      "num_input_tokens_seen": 62936160,
      "step": 2930,
      "time_per_iteration": 2.679283857345581
    },
    {
      "auxiliary_loss_clip": 0.0120366,
      "auxiliary_loss_mlp": 0.01027001,
      "balance_loss_clip": 1.06432867,
      "balance_loss_mlp": 1.01767313,
      "epoch": 0.3524319124631756,
      "flos": 21433966479360.0,
      "grad_norm": 2.6878778370361007,
      "language_loss": 0.86932367,
      "learning_rate": 3.0051675381841516e-06,
      "loss": 0.89163023,
      "num_input_tokens_seen": 62953470,
      "step": 2931,
      "time_per_iteration": 2.6145076751708984
    },
    {
      "auxiliary_loss_clip": 0.01137632,
      "auxiliary_loss_mlp": 0.0088903,
      "balance_loss_clip": 1.0471828,
      "balance_loss_mlp": 1.00094604,
      "epoch": 0.3525521553538147,
      "flos": 26322773114880.0,
      "grad_norm": 1.615737928192525,
      "language_loss": 0.76876873,
      "learning_rate": 3.0044940187573363e-06,
      "loss": 0.78903544,
      "num_input_tokens_seen": 62974480,
      "step": 2932,
      "time_per_iteration": 2.8968005180358887
    },
    {
      "auxiliary_loss_clip": 0.01192283,
      "auxiliary_loss_mlp": 0.01034644,
      "balance_loss_clip": 1.05774331,
      "balance_loss_mlp": 1.02585781,
      "epoch": 0.3526723982444538,
      "flos": 21543314457600.0,
      "grad_norm": 2.4878035384756525,
      "language_loss": 0.65461326,
      "learning_rate": 3.003820346949578e-06,
      "loss": 0.67688257,
      "num_input_tokens_seen": 62992560,
      "step": 2933,
      "time_per_iteration": 3.105363130569458
    },
    {
      "auxiliary_loss_clip": 0.01200932,
      "auxiliary_loss_mlp": 0.01032063,
      "balance_loss_clip": 1.0588311,
      "balance_loss_mlp": 1.02328956,
      "epoch": 0.3527926411350929,
      "flos": 23733649900800.0,
      "grad_norm": 3.0796450188728626,
      "language_loss": 0.79637229,
      "learning_rate": 3.003146522863071e-06,
      "loss": 0.81870222,
      "num_input_tokens_seen": 63013445,
      "step": 2934,
      "time_per_iteration": 2.6814939975738525
    },
    {
      "auxiliary_loss_clip": 0.01179611,
      "auxiliary_loss_mlp": 0.01033404,
      "balance_loss_clip": 1.05775905,
      "balance_loss_mlp": 1.02412367,
      "epoch": 0.35291288402573195,
      "flos": 30445461544320.0,
      "grad_norm": 2.166404464372487,
      "language_loss": 0.86336005,
      "learning_rate": 3.0024725466000345e-06,
      "loss": 0.88549018,
      "num_input_tokens_seen": 63033400,
      "step": 2935,
      "time_per_iteration": 2.7751400470733643
    },
    {
      "auxiliary_loss_clip": 0.01194213,
      "auxiliary_loss_mlp": 0.01028541,
      "balance_loss_clip": 1.06173229,
      "balance_loss_mlp": 1.01928437,
      "epoch": 0.35303312691637107,
      "flos": 23112179763840.0,
      "grad_norm": 1.8000605201151465,
      "language_loss": 0.78547865,
      "learning_rate": 3.0017984182627087e-06,
      "loss": 0.80770624,
      "num_input_tokens_seen": 63052725,
      "step": 2936,
      "time_per_iteration": 2.6877729892730713
    },
    {
      "auxiliary_loss_clip": 0.01167842,
      "auxiliary_loss_mlp": 0.00888773,
      "balance_loss_clip": 1.05333948,
      "balance_loss_mlp": 1.0010674,
      "epoch": 0.3531533698070102,
      "flos": 21835699165440.0,
      "grad_norm": 2.090101327839932,
      "language_loss": 0.821854,
      "learning_rate": 3.00112413795336e-06,
      "loss": 0.8424201,
      "num_input_tokens_seen": 63072560,
      "step": 2937,
      "time_per_iteration": 2.8393969535827637
    },
    {
      "auxiliary_loss_clip": 0.01175849,
      "auxiliary_loss_mlp": 0.01033922,
      "balance_loss_clip": 1.05237317,
      "balance_loss_mlp": 1.02486801,
      "epoch": 0.35327361269764923,
      "flos": 15778969810560.0,
      "grad_norm": 1.932880939846257,
      "language_loss": 0.80096942,
      "learning_rate": 3.000449705774275e-06,
      "loss": 0.82306707,
      "num_input_tokens_seen": 63090800,
      "step": 2938,
      "time_per_iteration": 2.7456817626953125
    },
    {
      "auxiliary_loss_clip": 0.01192249,
      "auxiliary_loss_mlp": 0.01029517,
      "balance_loss_clip": 1.06040275,
      "balance_loss_mlp": 1.02010584,
      "epoch": 0.35339385558828834,
      "flos": 22090413484800.0,
      "grad_norm": 2.443102726434641,
      "language_loss": 0.72089958,
      "learning_rate": 2.9997751218277654e-06,
      "loss": 0.74311733,
      "num_input_tokens_seen": 63108955,
      "step": 2939,
      "time_per_iteration": 2.670525550842285
    },
    {
      "auxiliary_loss_clip": 0.01202104,
      "auxiliary_loss_mlp": 0.01028233,
      "balance_loss_clip": 1.06136882,
      "balance_loss_mlp": 1.01891685,
      "epoch": 0.35351409847892745,
      "flos": 24165008328960.0,
      "grad_norm": 2.201254603968795,
      "language_loss": 0.78133309,
      "learning_rate": 2.999100386216166e-06,
      "loss": 0.80363649,
      "num_input_tokens_seen": 63127895,
      "step": 2940,
      "time_per_iteration": 2.6679940223693848
    },
    {
      "auxiliary_loss_clip": 0.01182105,
      "auxiliary_loss_mlp": 0.01029623,
      "balance_loss_clip": 1.05889535,
      "balance_loss_mlp": 1.02025914,
      "epoch": 0.3536343413695665,
      "flos": 27052298340480.0,
      "grad_norm": 1.9501739836441514,
      "language_loss": 0.74411726,
      "learning_rate": 2.998425499041831e-06,
      "loss": 0.76623452,
      "num_input_tokens_seen": 63148410,
      "step": 2941,
      "time_per_iteration": 2.7207841873168945
    },
    {
      "auxiliary_loss_clip": 0.01085504,
      "auxiliary_loss_mlp": 0.01002204,
      "balance_loss_clip": 1.02477503,
      "balance_loss_mlp": 1.00041568,
      "epoch": 0.3537545842602056,
      "flos": 65991066370560.0,
      "grad_norm": 1.2770980500417,
      "language_loss": 0.64531362,
      "learning_rate": 2.997750460407142e-06,
      "loss": 0.66619074,
      "num_input_tokens_seen": 63209765,
      "step": 2942,
      "time_per_iteration": 3.258460283279419
    },
    {
      "auxiliary_loss_clip": 0.0117193,
      "auxiliary_loss_mlp": 0.01028995,
      "balance_loss_clip": 1.05222559,
      "balance_loss_mlp": 1.01901746,
      "epoch": 0.35387482715084473,
      "flos": 18436897526400.0,
      "grad_norm": 2.4840975392829026,
      "language_loss": 0.70132279,
      "learning_rate": 2.997075270414501e-06,
      "loss": 0.72333211,
      "num_input_tokens_seen": 63226980,
      "step": 2943,
      "time_per_iteration": 2.755765676498413
    },
    {
      "auxiliary_loss_clip": 0.01081112,
      "auxiliary_loss_mlp": 0.01001275,
      "balance_loss_clip": 1.02746749,
      "balance_loss_mlp": 0.99953413,
      "epoch": 0.3539950700414838,
      "flos": 65588579498880.0,
      "grad_norm": 0.7344067499061453,
      "language_loss": 0.57689011,
      "learning_rate": 2.9963999291663347e-06,
      "loss": 0.59771395,
      "num_input_tokens_seen": 63292760,
      "step": 2944,
      "time_per_iteration": 3.2505111694335938
    },
    {
      "auxiliary_loss_clip": 0.01158853,
      "auxiliary_loss_mlp": 0.01039696,
      "balance_loss_clip": 1.05620503,
      "balance_loss_mlp": 1.03081465,
      "epoch": 0.3541153129321229,
      "flos": 20521655919360.0,
      "grad_norm": 2.3344254373689806,
      "language_loss": 0.73785424,
      "learning_rate": 2.9957244367650915e-06,
      "loss": 0.75983977,
      "num_input_tokens_seen": 63309005,
      "step": 2945,
      "time_per_iteration": 3.747103691101074
    },
    {
      "auxiliary_loss_clip": 0.01155224,
      "auxiliary_loss_mlp": 0.01030456,
      "balance_loss_clip": 1.05434477,
      "balance_loss_mlp": 1.02071619,
      "epoch": 0.354235555822762,
      "flos": 19573578391680.0,
      "grad_norm": 2.1748178197964374,
      "language_loss": 0.83641875,
      "learning_rate": 2.9950487933132425e-06,
      "loss": 0.85827559,
      "num_input_tokens_seen": 63326420,
      "step": 2946,
      "time_per_iteration": 2.8080430030822754
    },
    {
      "auxiliary_loss_clip": 0.01192404,
      "auxiliary_loss_mlp": 0.01034148,
      "balance_loss_clip": 1.0583868,
      "balance_loss_mlp": 1.02495742,
      "epoch": 0.35435579871340106,
      "flos": 20777268078720.0,
      "grad_norm": 2.558932954417978,
      "language_loss": 0.71735084,
      "learning_rate": 2.994372998913283e-06,
      "loss": 0.73961639,
      "num_input_tokens_seen": 63344925,
      "step": 2947,
      "time_per_iteration": 2.757073402404785
    },
    {
      "auxiliary_loss_clip": 0.0118447,
      "auxiliary_loss_mlp": 0.01033789,
      "balance_loss_clip": 1.06113672,
      "balance_loss_mlp": 1.02478921,
      "epoch": 0.35447604160404017,
      "flos": 23951807153280.0,
      "grad_norm": 2.280597189748196,
      "language_loss": 0.62439328,
      "learning_rate": 2.99369705366773e-06,
      "loss": 0.64657587,
      "num_input_tokens_seen": 63365170,
      "step": 2948,
      "time_per_iteration": 2.730677843093872
    },
    {
      "auxiliary_loss_clip": 0.01176319,
      "auxiliary_loss_mlp": 0.0103166,
      "balance_loss_clip": 1.05848503,
      "balance_loss_mlp": 1.02279663,
      "epoch": 0.3545962844946792,
      "flos": 23435662671360.0,
      "grad_norm": 2.152610754121185,
      "language_loss": 0.82009447,
      "learning_rate": 2.9930209576791244e-06,
      "loss": 0.84217417,
      "num_input_tokens_seen": 63383645,
      "step": 2949,
      "time_per_iteration": 3.67254376411438
    },
    {
      "auxiliary_loss_clip": 0.01185374,
      "auxiliary_loss_mlp": 0.01026347,
      "balance_loss_clip": 1.05803323,
      "balance_loss_mlp": 1.01741815,
      "epoch": 0.35471652738531834,
      "flos": 22085134185600.0,
      "grad_norm": 3.5341271841257567,
      "language_loss": 0.63384962,
      "learning_rate": 2.9923447110500285e-06,
      "loss": 0.65596682,
      "num_input_tokens_seen": 63402390,
      "step": 2950,
      "time_per_iteration": 2.6675267219543457
    },
    {
      "auxiliary_loss_clip": 0.01180514,
      "auxiliary_loss_mlp": 0.01030595,
      "balance_loss_clip": 1.05668473,
      "balance_loss_mlp": 1.02229834,
      "epoch": 0.35483677027595745,
      "flos": 27341881787520.0,
      "grad_norm": 3.455331429219249,
      "language_loss": 0.75513673,
      "learning_rate": 2.9916683138830295e-06,
      "loss": 0.77724779,
      "num_input_tokens_seen": 63423055,
      "step": 2951,
      "time_per_iteration": 3.59415602684021
    },
    {
      "auxiliary_loss_clip": 0.01177712,
      "auxiliary_loss_mlp": 0.0103901,
      "balance_loss_clip": 1.05840766,
      "balance_loss_mlp": 1.0293839,
      "epoch": 0.3549570131665965,
      "flos": 13516166678400.0,
      "grad_norm": 2.6269213135967244,
      "language_loss": 0.81189156,
      "learning_rate": 2.9909917662807353e-06,
      "loss": 0.83405882,
      "num_input_tokens_seen": 63440855,
      "step": 2952,
      "time_per_iteration": 2.665557622909546
    },
    {
      "auxiliary_loss_clip": 0.01187916,
      "auxiliary_loss_mlp": 0.0103551,
      "balance_loss_clip": 1.05810821,
      "balance_loss_mlp": 1.02652168,
      "epoch": 0.3550772560572356,
      "flos": 20887549810560.0,
      "grad_norm": 2.2848605681353065,
      "language_loss": 0.69399816,
      "learning_rate": 2.9903150683457783e-06,
      "loss": 0.71623242,
      "num_input_tokens_seen": 63459400,
      "step": 2953,
      "time_per_iteration": 2.6888537406921387
    },
    {
      "auxiliary_loss_clip": 0.01179912,
      "auxiliary_loss_mlp": 0.01036666,
      "balance_loss_clip": 1.05505013,
      "balance_loss_mlp": 1.02782655,
      "epoch": 0.3551974989478747,
      "flos": 20194042947840.0,
      "grad_norm": 2.002707399446938,
      "language_loss": 0.65007389,
      "learning_rate": 2.9896382201808126e-06,
      "loss": 0.67223966,
      "num_input_tokens_seen": 63476800,
      "step": 2954,
      "time_per_iteration": 2.666447877883911
    },
    {
      "auxiliary_loss_clip": 0.01204113,
      "auxiliary_loss_mlp": 0.01030174,
      "balance_loss_clip": 1.06215167,
      "balance_loss_mlp": 1.02102482,
      "epoch": 0.3553177418385138,
      "flos": 19828831415040.0,
      "grad_norm": 3.2403212912325086,
      "language_loss": 0.80828619,
      "learning_rate": 2.988961221888516e-06,
      "loss": 0.83062905,
      "num_input_tokens_seen": 63493475,
      "step": 2955,
      "time_per_iteration": 3.511887550354004
    },
    {
      "auxiliary_loss_clip": 0.01161859,
      "auxiliary_loss_mlp": 0.01027446,
      "balance_loss_clip": 1.05296385,
      "balance_loss_mlp": 1.0181303,
      "epoch": 0.3554379847291529,
      "flos": 14829132516480.0,
      "grad_norm": 2.190145711261787,
      "language_loss": 0.79091245,
      "learning_rate": 2.988284073571589e-06,
      "loss": 0.81280553,
      "num_input_tokens_seen": 63509560,
      "step": 2956,
      "time_per_iteration": 2.788092851638794
    },
    {
      "auxiliary_loss_clip": 0.0118997,
      "auxiliary_loss_mlp": 0.00887663,
      "balance_loss_clip": 1.05815291,
      "balance_loss_mlp": 1.00081491,
      "epoch": 0.355558227619792,
      "flos": 20485350247680.0,
      "grad_norm": 2.101977478439855,
      "language_loss": 0.73063141,
      "learning_rate": 2.9876067753327528e-06,
      "loss": 0.75140774,
      "num_input_tokens_seen": 63527290,
      "step": 2957,
      "time_per_iteration": 2.658094644546509
    },
    {
      "auxiliary_loss_clip": 0.01193868,
      "auxiliary_loss_mlp": 0.01031642,
      "balance_loss_clip": 1.05703843,
      "balance_loss_mlp": 1.02260613,
      "epoch": 0.35567847051043106,
      "flos": 37663613256960.0,
      "grad_norm": 2.007413240774779,
      "language_loss": 0.80494958,
      "learning_rate": 2.986929327274754e-06,
      "loss": 0.8272047,
      "num_input_tokens_seen": 63547870,
      "step": 2958,
      "time_per_iteration": 2.8200740814208984
    },
    {
      "auxiliary_loss_clip": 0.01189945,
      "auxiliary_loss_mlp": 0.01033244,
      "balance_loss_clip": 1.06073666,
      "balance_loss_mlp": 1.02432764,
      "epoch": 0.35579871340107017,
      "flos": 26943058103040.0,
      "grad_norm": 1.71648987272027,
      "language_loss": 0.78356779,
      "learning_rate": 2.9862517295003617e-06,
      "loss": 0.80579966,
      "num_input_tokens_seen": 63568285,
      "step": 2959,
      "time_per_iteration": 2.7115566730499268
    },
    {
      "auxiliary_loss_clip": 0.0116424,
      "auxiliary_loss_mlp": 0.01024019,
      "balance_loss_clip": 1.05031729,
      "balance_loss_mlp": 1.01550138,
      "epoch": 0.3559189562917093,
      "flos": 28293335193600.0,
      "grad_norm": 1.4777994596861541,
      "language_loss": 0.72488666,
      "learning_rate": 2.9855739821123654e-06,
      "loss": 0.74676919,
      "num_input_tokens_seen": 63589865,
      "step": 2960,
      "time_per_iteration": 2.8068461418151855
    },
    {
      "auxiliary_loss_clip": 0.01185353,
      "auxiliary_loss_mlp": 0.01034547,
      "balance_loss_clip": 1.05880785,
      "balance_loss_mlp": 1.02536178,
      "epoch": 0.35603919918234833,
      "flos": 25664063552640.0,
      "grad_norm": 1.696416443750649,
      "language_loss": 0.82032955,
      "learning_rate": 2.98489608521358e-06,
      "loss": 0.84252852,
      "num_input_tokens_seen": 63609805,
      "step": 2961,
      "time_per_iteration": 2.681313991546631
    },
    {
      "auxiliary_loss_clip": 0.01194221,
      "auxiliary_loss_mlp": 0.00887599,
      "balance_loss_clip": 1.0588243,
      "balance_loss_mlp": 1.00079584,
      "epoch": 0.35615944207298744,
      "flos": 23000856537600.0,
      "grad_norm": 2.1657819510757164,
      "language_loss": 0.79681599,
      "learning_rate": 2.9842180389068425e-06,
      "loss": 0.81763422,
      "num_input_tokens_seen": 63627115,
      "step": 2962,
      "time_per_iteration": 2.6764724254608154
    },
    {
      "auxiliary_loss_clip": 0.01071521,
      "auxiliary_loss_mlp": 0.01011789,
      "balance_loss_clip": 1.02650094,
      "balance_loss_mlp": 1.01003695,
      "epoch": 0.35627968496362655,
      "flos": 68251283723520.0,
      "grad_norm": 0.7659095505616861,
      "language_loss": 0.59190011,
      "learning_rate": 2.98353984329501e-06,
      "loss": 0.61273319,
      "num_input_tokens_seen": 63691460,
      "step": 2963,
      "time_per_iteration": 3.2776052951812744
    },
    {
      "auxiliary_loss_clip": 0.01179842,
      "auxiliary_loss_mlp": 0.01027926,
      "balance_loss_clip": 1.05714297,
      "balance_loss_mlp": 1.01866961,
      "epoch": 0.3563999278542656,
      "flos": 22641714403200.0,
      "grad_norm": 2.280807745814335,
      "language_loss": 0.7086302,
      "learning_rate": 2.982861498480965e-06,
      "loss": 0.73070788,
      "num_input_tokens_seen": 63713840,
      "step": 2964,
      "time_per_iteration": 2.7332727909088135
    },
    {
      "auxiliary_loss_clip": 0.01164267,
      "auxiliary_loss_mlp": 0.01031473,
      "balance_loss_clip": 1.05073214,
      "balance_loss_mlp": 1.02282977,
      "epoch": 0.3565201707449047,
      "flos": 25952533678080.0,
      "grad_norm": 1.7336860387066781,
      "language_loss": 0.82828128,
      "learning_rate": 2.9821830045676122e-06,
      "loss": 0.85023868,
      "num_input_tokens_seen": 63733540,
      "step": 2965,
      "time_per_iteration": 2.8132975101470947
    },
    {
      "auxiliary_loss_clip": 0.01202144,
      "auxiliary_loss_mlp": 0.01034052,
      "balance_loss_clip": 1.06040382,
      "balance_loss_mlp": 1.0243361,
      "epoch": 0.3566404136355438,
      "flos": 28475725478400.0,
      "grad_norm": 2.475392270849887,
      "language_loss": 0.72903883,
      "learning_rate": 2.9815043616578793e-06,
      "loss": 0.75140083,
      "num_input_tokens_seen": 63754335,
      "step": 2966,
      "time_per_iteration": 2.678497076034546
    },
    {
      "auxiliary_loss_clip": 0.01165914,
      "auxiliary_loss_mlp": 0.01028066,
      "balance_loss_clip": 1.05300331,
      "balance_loss_mlp": 1.01892281,
      "epoch": 0.3567606565261829,
      "flos": 38363117690880.0,
      "grad_norm": 2.569350072253737,
      "language_loss": 0.77176619,
      "learning_rate": 2.9808255698547145e-06,
      "loss": 0.79370606,
      "num_input_tokens_seen": 63777135,
      "step": 2967,
      "time_per_iteration": 2.8435354232788086
    },
    {
      "auxiliary_loss_clip": 0.01191733,
      "auxiliary_loss_mlp": 0.01038111,
      "balance_loss_clip": 1.06174827,
      "balance_loss_mlp": 1.0295217,
      "epoch": 0.356880899416822,
      "flos": 21981029592960.0,
      "grad_norm": 2.2817197276966943,
      "language_loss": 0.79991698,
      "learning_rate": 2.9801466292610913e-06,
      "loss": 0.82221544,
      "num_input_tokens_seen": 63797020,
      "step": 2968,
      "time_per_iteration": 2.636892080307007
    },
    {
      "auxiliary_loss_clip": 0.01186928,
      "auxiliary_loss_mlp": 0.01031963,
      "balance_loss_clip": 1.05623007,
      "balance_loss_mlp": 1.02348757,
      "epoch": 0.35700114230746105,
      "flos": 18989132198400.0,
      "grad_norm": 2.5456230359633607,
      "language_loss": 0.8128258,
      "learning_rate": 2.979467539980003e-06,
      "loss": 0.83501464,
      "num_input_tokens_seen": 63813810,
      "step": 2969,
      "time_per_iteration": 2.625614643096924
    },
    {
      "auxiliary_loss_clip": 0.01191412,
      "auxiliary_loss_mlp": 0.01026701,
      "balance_loss_clip": 1.05872881,
      "balance_loss_mlp": 1.01801109,
      "epoch": 0.35712138519810016,
      "flos": 19756112330880.0,
      "grad_norm": 2.1226779321837723,
      "language_loss": 0.76805592,
      "learning_rate": 2.978788302114468e-06,
      "loss": 0.79023707,
      "num_input_tokens_seen": 63830925,
      "step": 2970,
      "time_per_iteration": 2.6133363246917725
    },
    {
      "auxiliary_loss_clip": 0.01190377,
      "auxiliary_loss_mlp": 0.01031586,
      "balance_loss_clip": 1.06017041,
      "balance_loss_mlp": 1.02246642,
      "epoch": 0.35724162808873927,
      "flos": 35183012008320.0,
      "grad_norm": 2.466947513776904,
      "language_loss": 0.83322763,
      "learning_rate": 2.9781089157675255e-06,
      "loss": 0.85544729,
      "num_input_tokens_seen": 63849385,
      "step": 2971,
      "time_per_iteration": 2.8120341300964355
    },
    {
      "auxiliary_loss_clip": 0.01182154,
      "auxiliary_loss_mlp": 0.01032266,
      "balance_loss_clip": 1.05602574,
      "balance_loss_mlp": 1.02235365,
      "epoch": 0.3573618709793783,
      "flos": 25556726736000.0,
      "grad_norm": 1.4303929623915739,
      "language_loss": 0.88265824,
      "learning_rate": 2.977429381042238e-06,
      "loss": 0.90480244,
      "num_input_tokens_seen": 63870060,
      "step": 2972,
      "time_per_iteration": 3.654954195022583
    },
    {
      "auxiliary_loss_clip": 0.01182531,
      "auxiliary_loss_mlp": 0.01030703,
      "balance_loss_clip": 1.05671155,
      "balance_loss_mlp": 1.02251959,
      "epoch": 0.35748211387001744,
      "flos": 29132352051840.0,
      "grad_norm": 2.7271101382451657,
      "language_loss": 0.89045143,
      "learning_rate": 2.9767496980416913e-06,
      "loss": 0.91258383,
      "num_input_tokens_seen": 63889355,
      "step": 2973,
      "time_per_iteration": 2.863614559173584
    },
    {
      "auxiliary_loss_clip": 0.01173647,
      "auxiliary_loss_mlp": 0.01030826,
      "balance_loss_clip": 1.0527885,
      "balance_loss_mlp": 1.02174783,
      "epoch": 0.35760235676065655,
      "flos": 13954169122560.0,
      "grad_norm": 2.9866403969526467,
      "language_loss": 0.81329888,
      "learning_rate": 2.9760698668689914e-06,
      "loss": 0.8353436,
      "num_input_tokens_seen": 63905580,
      "step": 2974,
      "time_per_iteration": 2.69455885887146
    },
    {
      "auxiliary_loss_clip": 0.01192386,
      "auxiliary_loss_mlp": 0.01027776,
      "balance_loss_clip": 1.05951262,
      "balance_loss_mlp": 1.01892424,
      "epoch": 0.3577225996512956,
      "flos": 44018688977280.0,
      "grad_norm": 1.8794671607124986,
      "language_loss": 0.71131086,
      "learning_rate": 2.975389887627269e-06,
      "loss": 0.73351246,
      "num_input_tokens_seen": 63928180,
      "step": 2975,
      "time_per_iteration": 3.771603584289551
    },
    {
      "auxiliary_loss_clip": 0.01175019,
      "auxiliary_loss_mlp": 0.01033888,
      "balance_loss_clip": 1.055637,
      "balance_loss_mlp": 1.02472126,
      "epoch": 0.3578428425419347,
      "flos": 17055199013760.0,
      "grad_norm": 2.2709022960880576,
      "language_loss": 0.90162408,
      "learning_rate": 2.9747097604196764e-06,
      "loss": 0.92371315,
      "num_input_tokens_seen": 63944825,
      "step": 2976,
      "time_per_iteration": 2.6989500522613525
    },
    {
      "auxiliary_loss_clip": 0.01059733,
      "auxiliary_loss_mlp": 0.010073,
      "balance_loss_clip": 1.01879025,
      "balance_loss_mlp": 1.00516605,
      "epoch": 0.3579630854325738,
      "flos": 71676550707840.0,
      "grad_norm": 1.0664928998115222,
      "language_loss": 0.56635356,
      "learning_rate": 2.9740294853493875e-06,
      "loss": 0.58702397,
      "num_input_tokens_seen": 64016385,
      "step": 2977,
      "time_per_iteration": 4.4318554401397705
    },
    {
      "auxiliary_loss_clip": 0.01164518,
      "auxiliary_loss_mlp": 0.01027781,
      "balance_loss_clip": 1.05259728,
      "balance_loss_mlp": 1.01886451,
      "epoch": 0.3580833283232129,
      "flos": 25046651652480.0,
      "grad_norm": 2.05671526179445,
      "language_loss": 0.67067444,
      "learning_rate": 2.9733490625196008e-06,
      "loss": 0.69259745,
      "num_input_tokens_seen": 64036245,
      "step": 2978,
      "time_per_iteration": 2.783536911010742
    },
    {
      "auxiliary_loss_clip": 0.0116021,
      "auxiliary_loss_mlp": 0.01034253,
      "balance_loss_clip": 1.05334842,
      "balance_loss_mlp": 1.02537227,
      "epoch": 0.358203571213852,
      "flos": 13953127628160.0,
      "grad_norm": 2.6293721167067106,
      "language_loss": 0.75507247,
      "learning_rate": 2.9726684920335353e-06,
      "loss": 0.77701712,
      "num_input_tokens_seen": 64054110,
      "step": 2979,
      "time_per_iteration": 2.7513113021850586
    },
    {
      "auxiliary_loss_clip": 0.01201951,
      "auxiliary_loss_mlp": 0.00888668,
      "balance_loss_clip": 1.05875134,
      "balance_loss_mlp": 1.0007093,
      "epoch": 0.35832381410449105,
      "flos": 20302457172480.0,
      "grad_norm": 2.615868149056645,
      "language_loss": 0.81965578,
      "learning_rate": 2.971987773994432e-06,
      "loss": 0.84056199,
      "num_input_tokens_seen": 64070295,
      "step": 2980,
      "time_per_iteration": 2.6121106147766113
    },
    {
      "auxiliary_loss_clip": 0.01180998,
      "auxiliary_loss_mlp": 0.01038011,
      "balance_loss_clip": 1.05545378,
      "balance_loss_mlp": 1.02924895,
      "epoch": 0.35844405699513016,
      "flos": 16983234115200.0,
      "grad_norm": 2.0743683511943103,
      "language_loss": 0.83268189,
      "learning_rate": 2.9713069085055566e-06,
      "loss": 0.85487199,
      "num_input_tokens_seen": 64088605,
      "step": 2981,
      "time_per_iteration": 2.704826593399048
    },
    {
      "auxiliary_loss_clip": 0.01173155,
      "auxiliary_loss_mlp": 0.01031936,
      "balance_loss_clip": 1.05602241,
      "balance_loss_mlp": 1.02205956,
      "epoch": 0.35856429988576927,
      "flos": 23216858974080.0,
      "grad_norm": 1.7989587523560837,
      "language_loss": 0.79210281,
      "learning_rate": 2.9706258956701958e-06,
      "loss": 0.81415373,
      "num_input_tokens_seen": 64108595,
      "step": 2982,
      "time_per_iteration": 3.6546499729156494
    },
    {
      "auxiliary_loss_clip": 0.0119352,
      "auxiliary_loss_mlp": 0.01030089,
      "balance_loss_clip": 1.05824518,
      "balance_loss_mlp": 1.02060628,
      "epoch": 0.3586845427764083,
      "flos": 23034576430080.0,
      "grad_norm": 2.5731954403955863,
      "language_loss": 0.77637273,
      "learning_rate": 2.9699447355916575e-06,
      "loss": 0.79860878,
      "num_input_tokens_seen": 64127405,
      "step": 2983,
      "time_per_iteration": 2.6447033882141113
    },
    {
      "auxiliary_loss_clip": 0.01203331,
      "auxiliary_loss_mlp": 0.00887894,
      "balance_loss_clip": 1.06164169,
      "balance_loss_mlp": 1.00074577,
      "epoch": 0.35880478566704743,
      "flos": 20010682995840.0,
      "grad_norm": 2.014799525094323,
      "language_loss": 0.73894143,
      "learning_rate": 2.969263428373275e-06,
      "loss": 0.75985372,
      "num_input_tokens_seen": 64145755,
      "step": 2984,
      "time_per_iteration": 2.6466317176818848
    },
    {
      "auxiliary_loss_clip": 0.0118442,
      "auxiliary_loss_mlp": 0.01032332,
      "balance_loss_clip": 1.05710626,
      "balance_loss_mlp": 1.02352262,
      "epoch": 0.35892502855768654,
      "flos": 13699095667200.0,
      "grad_norm": 2.04055556122039,
      "language_loss": 0.7885524,
      "learning_rate": 2.9685819741184007e-06,
      "loss": 0.81071985,
      "num_input_tokens_seen": 64164195,
      "step": 2985,
      "time_per_iteration": 2.6747329235076904
    },
    {
      "auxiliary_loss_clip": 0.01166085,
      "auxiliary_loss_mlp": 0.01025813,
      "balance_loss_clip": 1.05506301,
      "balance_loss_mlp": 1.01672292,
      "epoch": 0.3590452714483256,
      "flos": 18114096977280.0,
      "grad_norm": 2.9852520307738897,
      "language_loss": 0.69026452,
      "learning_rate": 2.967900372930411e-06,
      "loss": 0.71218348,
      "num_input_tokens_seen": 64182705,
      "step": 2986,
      "time_per_iteration": 2.767754554748535
    },
    {
      "auxiliary_loss_clip": 0.01176366,
      "auxiliary_loss_mlp": 0.01035269,
      "balance_loss_clip": 1.05529881,
      "balance_loss_mlp": 1.02589869,
      "epoch": 0.3591655143389647,
      "flos": 17749352321280.0,
      "grad_norm": 2.9239353105675785,
      "language_loss": 0.79141784,
      "learning_rate": 2.9672186249127046e-06,
      "loss": 0.81353414,
      "num_input_tokens_seen": 64202170,
      "step": 2987,
      "time_per_iteration": 2.72301983833313
    },
    {
      "auxiliary_loss_clip": 0.01181606,
      "auxiliary_loss_mlp": 0.01037462,
      "balance_loss_clip": 1.05821919,
      "balance_loss_mlp": 1.02800834,
      "epoch": 0.3592857572296038,
      "flos": 25224409082880.0,
      "grad_norm": 2.152529058946173,
      "language_loss": 0.79056156,
      "learning_rate": 2.9665367301687014e-06,
      "loss": 0.81275225,
      "num_input_tokens_seen": 64220415,
      "step": 2988,
      "time_per_iteration": 2.693816900253296
    },
    {
      "auxiliary_loss_clip": 0.01172389,
      "auxiliary_loss_mlp": 0.01031733,
      "balance_loss_clip": 1.05338204,
      "balance_loss_mlp": 1.02295303,
      "epoch": 0.3594060001202429,
      "flos": 29384408764800.0,
      "grad_norm": 1.788717196295207,
      "language_loss": 0.77028227,
      "learning_rate": 2.965854688801845e-06,
      "loss": 0.79232347,
      "num_input_tokens_seen": 64242475,
      "step": 2989,
      "time_per_iteration": 2.760373592376709
    },
    {
      "auxiliary_loss_clip": 0.01188562,
      "auxiliary_loss_mlp": 0.01028439,
      "balance_loss_clip": 1.05537999,
      "balance_loss_mlp": 1.01954007,
      "epoch": 0.359526243010882,
      "flos": 17052900543360.0,
      "grad_norm": 2.1004359904949466,
      "language_loss": 0.76753742,
      "learning_rate": 2.9651725009156005e-06,
      "loss": 0.78970742,
      "num_input_tokens_seen": 64260220,
      "step": 2990,
      "time_per_iteration": 2.6510324478149414
    },
    {
      "auxiliary_loss_clip": 0.01171625,
      "auxiliary_loss_mlp": 0.01029327,
      "balance_loss_clip": 1.05429888,
      "balance_loss_mlp": 1.02007031,
      "epoch": 0.3596464859015211,
      "flos": 22965089569920.0,
      "grad_norm": 2.039497918896674,
      "language_loss": 0.74435103,
      "learning_rate": 2.964490166613454e-06,
      "loss": 0.76636058,
      "num_input_tokens_seen": 64280145,
      "step": 2991,
      "time_per_iteration": 2.703767776489258
    },
    {
      "auxiliary_loss_clip": 0.01095526,
      "auxiliary_loss_mlp": 0.01001549,
      "balance_loss_clip": 1.02735519,
      "balance_loss_mlp": 0.9996174,
      "epoch": 0.35976672879216015,
      "flos": 54739462590720.0,
      "grad_norm": 0.7617013598367178,
      "language_loss": 0.57731879,
      "learning_rate": 2.963807685998917e-06,
      "loss": 0.59828949,
      "num_input_tokens_seen": 64336010,
      "step": 2992,
      "time_per_iteration": 3.050368547439575
    },
    {
      "auxiliary_loss_clip": 0.01165056,
      "auxiliary_loss_mlp": 0.01034125,
      "balance_loss_clip": 1.05303752,
      "balance_loss_mlp": 1.02573895,
      "epoch": 0.35988697168279926,
      "flos": 43139020901760.0,
      "grad_norm": 1.5656904761731478,
      "language_loss": 0.78183973,
      "learning_rate": 2.9631250591755196e-06,
      "loss": 0.80383146,
      "num_input_tokens_seen": 64358725,
      "step": 2993,
      "time_per_iteration": 2.9800288677215576
    },
    {
      "auxiliary_loss_clip": 0.01179922,
      "auxiliary_loss_mlp": 0.01035829,
      "balance_loss_clip": 1.06012249,
      "balance_loss_mlp": 1.02662051,
      "epoch": 0.36000721457343837,
      "flos": 35845600239360.0,
      "grad_norm": 1.9053800168421906,
      "language_loss": 0.57852215,
      "learning_rate": 2.962442286246817e-06,
      "loss": 0.60067964,
      "num_input_tokens_seen": 64381555,
      "step": 2994,
      "time_per_iteration": 2.7872211933135986
    },
    {
      "auxiliary_loss_clip": 0.0118752,
      "auxiliary_loss_mlp": 0.01033522,
      "balance_loss_clip": 1.05839586,
      "balance_loss_mlp": 1.02400875,
      "epoch": 0.3601274574640774,
      "flos": 18291100222080.0,
      "grad_norm": 1.7295604777612708,
      "language_loss": 0.69724292,
      "learning_rate": 2.9617593673163853e-06,
      "loss": 0.71945333,
      "num_input_tokens_seen": 64400375,
      "step": 2995,
      "time_per_iteration": 2.6791574954986572
    },
    {
      "auxiliary_loss_clip": 0.01184968,
      "auxiliary_loss_mlp": 0.01032137,
      "balance_loss_clip": 1.0556078,
      "balance_loss_mlp": 1.023458,
      "epoch": 0.36024770035471654,
      "flos": 13333955961600.0,
      "grad_norm": 2.0776034297607406,
      "language_loss": 0.77405918,
      "learning_rate": 2.9610763024878216e-06,
      "loss": 0.7962302,
      "num_input_tokens_seen": 64415880,
      "step": 2996,
      "time_per_iteration": 2.682417869567871
    },
    {
      "auxiliary_loss_clip": 0.01175465,
      "auxiliary_loss_mlp": 0.01030639,
      "balance_loss_clip": 1.05508721,
      "balance_loss_mlp": 1.02169192,
      "epoch": 0.3603679432453556,
      "flos": 20267013427200.0,
      "grad_norm": 1.681268680901415,
      "language_loss": 0.91679454,
      "learning_rate": 2.960393091864747e-06,
      "loss": 0.93885559,
      "num_input_tokens_seen": 64434260,
      "step": 2997,
      "time_per_iteration": 2.6874029636383057
    },
    {
      "auxiliary_loss_clip": 0.01184543,
      "auxiliary_loss_mlp": 0.01037275,
      "balance_loss_clip": 1.05956554,
      "balance_loss_mlp": 1.02775586,
      "epoch": 0.3604881861359947,
      "flos": 22451135817600.0,
      "grad_norm": 1.9044497027612461,
      "language_loss": 0.75004387,
      "learning_rate": 2.959709735550804e-06,
      "loss": 0.77226198,
      "num_input_tokens_seen": 64453855,
      "step": 2998,
      "time_per_iteration": 3.641371726989746
    },
    {
      "auxiliary_loss_clip": 0.01164337,
      "auxiliary_loss_mlp": 0.01038825,
      "balance_loss_clip": 1.05237138,
      "balance_loss_mlp": 1.03013492,
      "epoch": 0.3606084290266338,
      "flos": 22054251467520.0,
      "grad_norm": 2.2599613505025693,
      "language_loss": 0.75881958,
      "learning_rate": 2.9590262336496575e-06,
      "loss": 0.78085119,
      "num_input_tokens_seen": 64473585,
      "step": 2999,
      "time_per_iteration": 2.7414982318878174
    },
    {
      "auxiliary_loss_clip": 0.01165739,
      "auxiliary_loss_mlp": 0.0103709,
      "balance_loss_clip": 1.05344617,
      "balance_loss_mlp": 1.02749395,
      "epoch": 0.36072867191727287,
      "flos": 15632921111040.0,
      "grad_norm": 1.9352214408578379,
      "language_loss": 0.85497767,
      "learning_rate": 2.9583425862649936e-06,
      "loss": 0.87700593,
      "num_input_tokens_seen": 64491720,
      "step": 3000,
      "time_per_iteration": 2.751678228378296
    },
    {
      "auxiliary_loss_clip": 0.01206129,
      "auxiliary_loss_mlp": 0.0103761,
      "balance_loss_clip": 1.06326425,
      "balance_loss_mlp": 1.02863336,
      "epoch": 0.360848914807912,
      "flos": 19677000625920.0,
      "grad_norm": 2.413660364364388,
      "language_loss": 0.73573184,
      "learning_rate": 2.9576587935005215e-06,
      "loss": 0.75816917,
      "num_input_tokens_seen": 64509800,
      "step": 3001,
      "time_per_iteration": 3.528630495071411
    },
    {
      "auxiliary_loss_clip": 0.01194263,
      "auxiliary_loss_mlp": 0.01032039,
      "balance_loss_clip": 1.05790043,
      "balance_loss_mlp": 1.02185893,
      "epoch": 0.3609691576985511,
      "flos": 18877808972160.0,
      "grad_norm": 3.1366780759413553,
      "language_loss": 0.72397566,
      "learning_rate": 2.9569748554599713e-06,
      "loss": 0.74623871,
      "num_input_tokens_seen": 64525410,
      "step": 3002,
      "time_per_iteration": 2.6727960109710693
    },
    {
      "auxiliary_loss_clip": 0.01179003,
      "auxiliary_loss_mlp": 0.01033576,
      "balance_loss_clip": 1.05641437,
      "balance_loss_mlp": 1.02386057,
      "epoch": 0.36108940058919015,
      "flos": 42224088648960.0,
      "grad_norm": 1.9631592532894926,
      "language_loss": 0.72930384,
      "learning_rate": 2.956290772247097e-06,
      "loss": 0.75142968,
      "num_input_tokens_seen": 64544085,
      "step": 3003,
      "time_per_iteration": 2.859668731689453
    },
    {
      "auxiliary_loss_clip": 0.01154374,
      "auxiliary_loss_mlp": 0.01036187,
      "balance_loss_clip": 1.05435312,
      "balance_loss_mlp": 1.02724028,
      "epoch": 0.36120964347982926,
      "flos": 23185150243200.0,
      "grad_norm": 1.652768001396227,
      "language_loss": 0.72936404,
      "learning_rate": 2.9556065439656724e-06,
      "loss": 0.75126958,
      "num_input_tokens_seen": 64563135,
      "step": 3004,
      "time_per_iteration": 3.5689051151275635
    },
    {
      "auxiliary_loss_clip": 0.01140326,
      "auxiliary_loss_mlp": 0.01034143,
      "balance_loss_clip": 1.0465368,
      "balance_loss_mlp": 1.02538121,
      "epoch": 0.36132988637046837,
      "flos": 18113055482880.0,
      "grad_norm": 2.034511836142106,
      "language_loss": 0.81739807,
      "learning_rate": 2.9549221707194952e-06,
      "loss": 0.8391428,
      "num_input_tokens_seen": 64581985,
      "step": 3005,
      "time_per_iteration": 2.8538155555725098
    },
    {
      "auxiliary_loss_clip": 0.01195114,
      "auxiliary_loss_mlp": 0.01030007,
      "balance_loss_clip": 1.06118715,
      "balance_loss_mlp": 1.02061307,
      "epoch": 0.3614501292611074,
      "flos": 27813101333760.0,
      "grad_norm": 2.822613013942959,
      "language_loss": 0.72981048,
      "learning_rate": 2.954237652612384e-06,
      "loss": 0.75206161,
      "num_input_tokens_seen": 64601035,
      "step": 3006,
      "time_per_iteration": 2.8464853763580322
    },
    {
      "auxiliary_loss_clip": 0.01179264,
      "auxiliary_loss_mlp": 0.01031516,
      "balance_loss_clip": 1.05741,
      "balance_loss_mlp": 1.02318943,
      "epoch": 0.36157037215174653,
      "flos": 22634926732800.0,
      "grad_norm": 2.1326321982805205,
      "language_loss": 0.8460623,
      "learning_rate": 2.9535529897481796e-06,
      "loss": 0.86817002,
      "num_input_tokens_seen": 64618580,
      "step": 3007,
      "time_per_iteration": 2.7073869705200195
    },
    {
      "auxiliary_loss_clip": 0.01200484,
      "auxiliary_loss_mlp": 0.01026987,
      "balance_loss_clip": 1.0585804,
      "balance_loss_mlp": 1.01687765,
      "epoch": 0.36169061504238564,
      "flos": 12600839376000.0,
      "grad_norm": 2.1756164343871833,
      "language_loss": 0.77024478,
      "learning_rate": 2.9528681822307446e-06,
      "loss": 0.79251945,
      "num_input_tokens_seen": 64635430,
      "step": 3008,
      "time_per_iteration": 3.4975767135620117
    },
    {
      "auxiliary_loss_clip": 0.01189609,
      "auxiliary_loss_mlp": 0.00888419,
      "balance_loss_clip": 1.06068957,
      "balance_loss_mlp": 1.00076997,
      "epoch": 0.3618108579330247,
      "flos": 26684644682880.0,
      "grad_norm": 2.1870910034916573,
      "language_loss": 0.81860268,
      "learning_rate": 2.952183230163964e-06,
      "loss": 0.83938301,
      "num_input_tokens_seen": 64655005,
      "step": 3009,
      "time_per_iteration": 2.69319748878479
    },
    {
      "auxiliary_loss_clip": 0.01159946,
      "auxiliary_loss_mlp": 0.01033055,
      "balance_loss_clip": 1.05072594,
      "balance_loss_mlp": 1.02398324,
      "epoch": 0.3619311008236638,
      "flos": 22817029708800.0,
      "grad_norm": 2.998755403527061,
      "language_loss": 0.72662842,
      "learning_rate": 2.9514981336517448e-06,
      "loss": 0.74855846,
      "num_input_tokens_seen": 64674775,
      "step": 3010,
      "time_per_iteration": 2.7804596424102783
    },
    {
      "auxiliary_loss_clip": 0.01189168,
      "auxiliary_loss_mlp": 0.01042987,
      "balance_loss_clip": 1.05931687,
      "balance_loss_mlp": 1.03350353,
      "epoch": 0.36205134371430286,
      "flos": 25919603884800.0,
      "grad_norm": 1.8359496885616966,
      "language_loss": 0.81402713,
      "learning_rate": 2.950812892798015e-06,
      "loss": 0.83634865,
      "num_input_tokens_seen": 64695670,
      "step": 3011,
      "time_per_iteration": 2.6898906230926514
    },
    {
      "auxiliary_loss_clip": 0.0115269,
      "auxiliary_loss_mlp": 0.00887979,
      "balance_loss_clip": 1.05320728,
      "balance_loss_mlp": 1.00083733,
      "epoch": 0.362171586604942,
      "flos": 26139592730880.0,
      "grad_norm": 1.9608139352956957,
      "language_loss": 0.86983782,
      "learning_rate": 2.9501275077067256e-06,
      "loss": 0.89024448,
      "num_input_tokens_seen": 64716290,
      "step": 3012,
      "time_per_iteration": 2.8328824043273926
    },
    {
      "auxiliary_loss_clip": 0.01130383,
      "auxiliary_loss_mlp": 0.01037615,
      "balance_loss_clip": 1.04594433,
      "balance_loss_mlp": 1.02870369,
      "epoch": 0.3622918294955811,
      "flos": 28074208273920.0,
      "grad_norm": 1.4442419607994073,
      "language_loss": 0.88503516,
      "learning_rate": 2.949441978481848e-06,
      "loss": 0.90671515,
      "num_input_tokens_seen": 64737190,
      "step": 3013,
      "time_per_iteration": 2.870944023132324
    },
    {
      "auxiliary_loss_clip": 0.01175245,
      "auxiliary_loss_mlp": 0.01041394,
      "balance_loss_clip": 1.05620408,
      "balance_loss_mlp": 1.03202438,
      "epoch": 0.36241207238622014,
      "flos": 19828005402240.0,
      "grad_norm": 2.117483493798661,
      "language_loss": 0.80188084,
      "learning_rate": 2.9487563052273778e-06,
      "loss": 0.82404721,
      "num_input_tokens_seen": 64753950,
      "step": 3014,
      "time_per_iteration": 2.799921751022339
    },
    {
      "auxiliary_loss_clip": 0.01186745,
      "auxiliary_loss_mlp": 0.01028192,
      "balance_loss_clip": 1.05881739,
      "balance_loss_mlp": 1.01860142,
      "epoch": 0.36253231527685925,
      "flos": 21397158017280.0,
      "grad_norm": 1.7084272403109084,
      "language_loss": 0.85748613,
      "learning_rate": 2.94807048804733e-06,
      "loss": 0.87963545,
      "num_input_tokens_seen": 64773570,
      "step": 3015,
      "time_per_iteration": 2.703162908554077
    },
    {
      "auxiliary_loss_clip": 0.01174237,
      "auxiliary_loss_mlp": 0.01039651,
      "balance_loss_clip": 1.05370784,
      "balance_loss_mlp": 1.03010201,
      "epoch": 0.36265255816749836,
      "flos": 18362885552640.0,
      "grad_norm": 1.7664801592660246,
      "language_loss": 0.89975655,
      "learning_rate": 2.9473845270457434e-06,
      "loss": 0.92189538,
      "num_input_tokens_seen": 64790385,
      "step": 3016,
      "time_per_iteration": 2.6879873275756836
    },
    {
      "auxiliary_loss_clip": 0.01173459,
      "auxiliary_loss_mlp": 0.01031002,
      "balance_loss_clip": 1.05537963,
      "balance_loss_mlp": 1.02161431,
      "epoch": 0.3627728010581374,
      "flos": 18660046769280.0,
      "grad_norm": 2.380051715595422,
      "language_loss": 0.70543581,
      "learning_rate": 2.946698422326677e-06,
      "loss": 0.72748041,
      "num_input_tokens_seen": 64807845,
      "step": 3017,
      "time_per_iteration": 2.734032392501831
    },
    {
      "auxiliary_loss_clip": 0.0116073,
      "auxiliary_loss_mlp": 0.01030621,
      "balance_loss_clip": 1.05281448,
      "balance_loss_mlp": 1.02144778,
      "epoch": 0.36289304394877653,
      "flos": 27524272072320.0,
      "grad_norm": 2.2087091033341553,
      "language_loss": 0.79328203,
      "learning_rate": 2.946012173994213e-06,
      "loss": 0.81519556,
      "num_input_tokens_seen": 64827630,
      "step": 3018,
      "time_per_iteration": 2.8408665657043457
    },
    {
      "auxiliary_loss_clip": 0.01189233,
      "auxiliary_loss_mlp": 0.01029907,
      "balance_loss_clip": 1.06377578,
      "balance_loss_mlp": 1.02051294,
      "epoch": 0.36301328683941564,
      "flos": 34533244932480.0,
      "grad_norm": 1.441067347121944,
      "language_loss": 0.67650616,
      "learning_rate": 2.945325782152454e-06,
      "loss": 0.69869751,
      "num_input_tokens_seen": 64850665,
      "step": 3019,
      "time_per_iteration": 2.7797553539276123
    },
    {
      "auxiliary_loss_clip": 0.01182836,
      "auxiliary_loss_mlp": 0.01030041,
      "balance_loss_clip": 1.0559473,
      "balance_loss_mlp": 1.02142262,
      "epoch": 0.3631335297300547,
      "flos": 19025976574080.0,
      "grad_norm": 2.160219720904973,
      "language_loss": 0.7921713,
      "learning_rate": 2.9446392469055257e-06,
      "loss": 0.81430006,
      "num_input_tokens_seen": 64868700,
      "step": 3020,
      "time_per_iteration": 2.7151412963867188
    },
    {
      "auxiliary_loss_clip": 0.01168558,
      "auxiliary_loss_mlp": 0.01035786,
      "balance_loss_clip": 1.06036639,
      "balance_loss_mlp": 1.02754259,
      "epoch": 0.3632537726206938,
      "flos": 19536769929600.0,
      "grad_norm": 2.1776780135742784,
      "language_loss": 0.79646456,
      "learning_rate": 2.9439525683575745e-06,
      "loss": 0.81850803,
      "num_input_tokens_seen": 64887620,
      "step": 3021,
      "time_per_iteration": 2.759564161300659
    },
    {
      "auxiliary_loss_clip": 0.01206171,
      "auxiliary_loss_mlp": 0.01035758,
      "balance_loss_clip": 1.06163383,
      "balance_loss_mlp": 1.02628648,
      "epoch": 0.3633740155113329,
      "flos": 21068611292160.0,
      "grad_norm": 2.3797342565054262,
      "language_loss": 0.74784923,
      "learning_rate": 2.9432657466127694e-06,
      "loss": 0.77026856,
      "num_input_tokens_seen": 64907190,
      "step": 3022,
      "time_per_iteration": 2.628986120223999
    },
    {
      "auxiliary_loss_clip": 0.01162519,
      "auxiliary_loss_mlp": 0.01039271,
      "balance_loss_clip": 1.05949962,
      "balance_loss_mlp": 1.03009772,
      "epoch": 0.36349425840197197,
      "flos": 20298722158080.0,
      "grad_norm": 1.7985699603566312,
      "language_loss": 0.76506877,
      "learning_rate": 2.9425787817753007e-06,
      "loss": 0.78708661,
      "num_input_tokens_seen": 64925850,
      "step": 3023,
      "time_per_iteration": 2.7720673084259033
    },
    {
      "auxiliary_loss_clip": 0.01170528,
      "auxiliary_loss_mlp": 0.01030518,
      "balance_loss_clip": 1.05547929,
      "balance_loss_mlp": 1.02138126,
      "epoch": 0.3636145012926111,
      "flos": 29716762331520.0,
      "grad_norm": 1.9849280350244014,
      "language_loss": 0.71419293,
      "learning_rate": 2.94189167394938e-06,
      "loss": 0.73620337,
      "num_input_tokens_seen": 64948285,
      "step": 3024,
      "time_per_iteration": 3.7081637382507324
    },
    {
      "auxiliary_loss_clip": 0.01206459,
      "auxiliary_loss_mlp": 0.01035087,
      "balance_loss_clip": 1.06565762,
      "balance_loss_mlp": 1.02565181,
      "epoch": 0.3637347441832502,
      "flos": 21431847576960.0,
      "grad_norm": 1.7560181605488536,
      "language_loss": 0.81384236,
      "learning_rate": 2.941204423239241e-06,
      "loss": 0.83625782,
      "num_input_tokens_seen": 64967160,
      "step": 3025,
      "time_per_iteration": 2.7367923259735107
    },
    {
      "auxiliary_loss_clip": 0.01187925,
      "auxiliary_loss_mlp": 0.01034424,
      "balance_loss_clip": 1.05908716,
      "balance_loss_mlp": 1.02498269,
      "epoch": 0.36385498707388925,
      "flos": 29533941083520.0,
      "grad_norm": 2.8551977591068614,
      "language_loss": 0.76008356,
      "learning_rate": 2.9405170297491395e-06,
      "loss": 0.78230703,
      "num_input_tokens_seen": 64987155,
      "step": 3026,
      "time_per_iteration": 2.7088212966918945
    },
    {
      "auxiliary_loss_clip": 0.01143232,
      "auxiliary_loss_mlp": 0.00888231,
      "balance_loss_clip": 1.05557084,
      "balance_loss_mlp": 1.00082409,
      "epoch": 0.36397522996452836,
      "flos": 22236569925120.0,
      "grad_norm": 2.4501462584268836,
      "language_loss": 0.80190402,
      "learning_rate": 2.939829493583353e-06,
      "loss": 0.82221866,
      "num_input_tokens_seen": 65003800,
      "step": 3027,
      "time_per_iteration": 2.815133810043335
    },
    {
      "auxiliary_loss_clip": 0.0116061,
      "auxiliary_loss_mlp": 0.01027804,
      "balance_loss_clip": 1.04989624,
      "balance_loss_mlp": 1.01957238,
      "epoch": 0.3640954728551674,
      "flos": 21506505995520.0,
      "grad_norm": 3.7913703871642883,
      "language_loss": 0.83497572,
      "learning_rate": 2.939141814846179e-06,
      "loss": 0.85685986,
      "num_input_tokens_seen": 65021215,
      "step": 3028,
      "time_per_iteration": 3.6937813758850098
    },
    {
      "auxiliary_loss_clip": 0.01180025,
      "auxiliary_loss_mlp": 0.01033571,
      "balance_loss_clip": 1.05525208,
      "balance_loss_mlp": 1.02460027,
      "epoch": 0.3642157157458065,
      "flos": 17712867081600.0,
      "grad_norm": 1.6148721805268658,
      "language_loss": 0.82351458,
      "learning_rate": 2.938453993641938e-06,
      "loss": 0.84565055,
      "num_input_tokens_seen": 65039590,
      "step": 3029,
      "time_per_iteration": 3.5295867919921875
    },
    {
      "auxiliary_loss_clip": 0.01182846,
      "auxiliary_loss_mlp": 0.01039704,
      "balance_loss_clip": 1.06150281,
      "balance_loss_mlp": 1.0303936,
      "epoch": 0.36433595863644563,
      "flos": 17639537466240.0,
      "grad_norm": 2.3442006092457506,
      "language_loss": 0.70940191,
      "learning_rate": 2.937766030074973e-06,
      "loss": 0.73162746,
      "num_input_tokens_seen": 65056845,
      "step": 3030,
      "time_per_iteration": 2.6903536319732666
    },
    {
      "auxiliary_loss_clip": 0.01175974,
      "auxiliary_loss_mlp": 0.01030215,
      "balance_loss_clip": 1.05579066,
      "balance_loss_mlp": 1.02187014,
      "epoch": 0.3644562015270847,
      "flos": 26833279161600.0,
      "grad_norm": 1.9140720466988521,
      "language_loss": 0.82936668,
      "learning_rate": 2.937077924249646e-06,
      "loss": 0.85142863,
      "num_input_tokens_seen": 65079435,
      "step": 3031,
      "time_per_iteration": 2.7818808555603027
    },
    {
      "auxiliary_loss_clip": 0.01186818,
      "auxiliary_loss_mlp": 0.01028914,
      "balance_loss_clip": 1.0569824,
      "balance_loss_mlp": 1.01972938,
      "epoch": 0.3645764444177238,
      "flos": 14282715847680.0,
      "grad_norm": 2.332164798578326,
      "language_loss": 0.75424373,
      "learning_rate": 2.9363896762703443e-06,
      "loss": 0.77640104,
      "num_input_tokens_seen": 65096500,
      "step": 3032,
      "time_per_iteration": 2.654170036315918
    },
    {
      "auxiliary_loss_clip": 0.01202938,
      "auxiliary_loss_mlp": 0.01032299,
      "balance_loss_clip": 1.06173241,
      "balance_loss_mlp": 1.02272677,
      "epoch": 0.3646966873083629,
      "flos": 20667489137280.0,
      "grad_norm": 1.6289743008097866,
      "language_loss": 0.84431159,
      "learning_rate": 2.9357012862414725e-06,
      "loss": 0.86666405,
      "num_input_tokens_seen": 65115860,
      "step": 3033,
      "time_per_iteration": 2.6291773319244385
    },
    {
      "auxiliary_loss_clip": 0.01196225,
      "auxiliary_loss_mlp": 0.01036691,
      "balance_loss_clip": 1.06183958,
      "balance_loss_mlp": 1.02771497,
      "epoch": 0.36481693019900197,
      "flos": 27782613665280.0,
      "grad_norm": 1.9319475259380856,
      "language_loss": 0.72002423,
      "learning_rate": 2.9350127542674593e-06,
      "loss": 0.74235344,
      "num_input_tokens_seen": 65138070,
      "step": 3034,
      "time_per_iteration": 3.6114954948425293
    },
    {
      "auxiliary_loss_clip": 0.01188441,
      "auxiliary_loss_mlp": 0.01036125,
      "balance_loss_clip": 1.06018054,
      "balance_loss_mlp": 1.02679694,
      "epoch": 0.3649371730896411,
      "flos": 19712588025600.0,
      "grad_norm": 1.9444942138354815,
      "language_loss": 0.76635373,
      "learning_rate": 2.934324080452755e-06,
      "loss": 0.78859937,
      "num_input_tokens_seen": 65155860,
      "step": 3035,
      "time_per_iteration": 2.675630807876587
    },
    {
      "auxiliary_loss_clip": 0.01158852,
      "auxiliary_loss_mlp": 0.00889294,
      "balance_loss_clip": 1.05263615,
      "balance_loss_mlp": 1.00074148,
      "epoch": 0.3650574159802802,
      "flos": 24750496016640.0,
      "grad_norm": 1.6278112236280953,
      "language_loss": 0.77975857,
      "learning_rate": 2.9336352649018307e-06,
      "loss": 0.80024004,
      "num_input_tokens_seen": 65175930,
      "step": 3036,
      "time_per_iteration": 2.734463691711426
    },
    {
      "auxiliary_loss_clip": 0.01182379,
      "auxiliary_loss_mlp": 0.01033481,
      "balance_loss_clip": 1.05801654,
      "balance_loss_mlp": 1.02428412,
      "epoch": 0.36517765887091924,
      "flos": 32853487363200.0,
      "grad_norm": 1.8351885849296818,
      "language_loss": 0.70501423,
      "learning_rate": 2.9329463077191783e-06,
      "loss": 0.72717285,
      "num_input_tokens_seen": 65199305,
      "step": 3037,
      "time_per_iteration": 2.7770307064056396
    },
    {
      "auxiliary_loss_clip": 0.01161898,
      "auxiliary_loss_mlp": 0.01035026,
      "balance_loss_clip": 1.05588531,
      "balance_loss_mlp": 1.02592421,
      "epoch": 0.36529790176155835,
      "flos": 20120318282880.0,
      "grad_norm": 2.0176809412645964,
      "language_loss": 0.64204478,
      "learning_rate": 2.9322572090093135e-06,
      "loss": 0.66401398,
      "num_input_tokens_seen": 65218010,
      "step": 3038,
      "time_per_iteration": 2.7903895378112793
    },
    {
      "auxiliary_loss_clip": 0.01157979,
      "auxiliary_loss_mlp": 0.01029057,
      "balance_loss_clip": 1.05085027,
      "balance_loss_mlp": 1.02018201,
      "epoch": 0.36541814465219746,
      "flos": 17639573379840.0,
      "grad_norm": 3.101797837888054,
      "language_loss": 0.76607168,
      "learning_rate": 2.9315679688767713e-06,
      "loss": 0.78794205,
      "num_input_tokens_seen": 65236020,
      "step": 3039,
      "time_per_iteration": 2.7536730766296387
    },
    {
      "auxiliary_loss_clip": 0.01174948,
      "auxiliary_loss_mlp": 0.0103075,
      "balance_loss_clip": 1.05488968,
      "balance_loss_mlp": 1.02229762,
      "epoch": 0.3655383875428365,
      "flos": 22674356887680.0,
      "grad_norm": 1.5779475026681495,
      "language_loss": 0.66185474,
      "learning_rate": 2.9308785874261085e-06,
      "loss": 0.68391168,
      "num_input_tokens_seen": 65256210,
      "step": 3040,
      "time_per_iteration": 2.7017288208007812
    },
    {
      "auxiliary_loss_clip": 0.01203258,
      "auxiliary_loss_mlp": 0.01032804,
      "balance_loss_clip": 1.06286061,
      "balance_loss_mlp": 1.02377415,
      "epoch": 0.36565863043347563,
      "flos": 21981173247360.0,
      "grad_norm": 1.7857766322493505,
      "language_loss": 0.81724608,
      "learning_rate": 2.9301890647619045e-06,
      "loss": 0.83960664,
      "num_input_tokens_seen": 65275505,
      "step": 3041,
      "time_per_iteration": 2.629413366317749
    },
    {
      "auxiliary_loss_clip": 0.01191356,
      "auxiliary_loss_mlp": 0.01041294,
      "balance_loss_clip": 1.06122708,
      "balance_loss_mlp": 1.03177571,
      "epoch": 0.36577887332411474,
      "flos": 24827632473600.0,
      "grad_norm": 2.017702721877274,
      "language_loss": 0.8012594,
      "learning_rate": 2.929499400988759e-06,
      "loss": 0.82358587,
      "num_input_tokens_seen": 65296665,
      "step": 3042,
      "time_per_iteration": 2.7387847900390625
    },
    {
      "auxiliary_loss_clip": 0.01189379,
      "auxiliary_loss_mlp": 0.01032386,
      "balance_loss_clip": 1.0590601,
      "balance_loss_mlp": 1.02329016,
      "epoch": 0.3658991162147538,
      "flos": 28293191539200.0,
      "grad_norm": 2.108600226568491,
      "language_loss": 0.65344685,
      "learning_rate": 2.9288095962112927e-06,
      "loss": 0.67566454,
      "num_input_tokens_seen": 65317370,
      "step": 3043,
      "time_per_iteration": 2.7796077728271484
    },
    {
      "auxiliary_loss_clip": 0.01202143,
      "auxiliary_loss_mlp": 0.01037286,
      "balance_loss_clip": 1.0605669,
      "balance_loss_mlp": 1.02776122,
      "epoch": 0.3660193591053929,
      "flos": 17785550252160.0,
      "grad_norm": 1.8752146390804803,
      "language_loss": 0.85322464,
      "learning_rate": 2.9281196505341503e-06,
      "loss": 0.87561893,
      "num_input_tokens_seen": 65334540,
      "step": 3044,
      "time_per_iteration": 2.6038408279418945
    },
    {
      "auxiliary_loss_clip": 0.01157459,
      "auxiliary_loss_mlp": 0.00888104,
      "balance_loss_clip": 1.05448985,
      "balance_loss_mlp": 1.00086904,
      "epoch": 0.36613960199603196,
      "flos": 10342776839040.0,
      "grad_norm": 2.052974176123555,
      "language_loss": 0.78654313,
      "learning_rate": 2.9274295640619946e-06,
      "loss": 0.80699873,
      "num_input_tokens_seen": 65351670,
      "step": 3045,
      "time_per_iteration": 2.801243305206299
    },
    {
      "auxiliary_loss_clip": 0.01167866,
      "auxiliary_loss_mlp": 0.01033388,
      "balance_loss_clip": 1.05150282,
      "balance_loss_mlp": 1.02428651,
      "epoch": 0.36625984488667107,
      "flos": 19755609540480.0,
      "grad_norm": 1.8665768565414462,
      "language_loss": 0.78549242,
      "learning_rate": 2.9267393368995103e-06,
      "loss": 0.80750501,
      "num_input_tokens_seen": 65370900,
      "step": 3046,
      "time_per_iteration": 2.7038190364837646
    },
    {
      "auxiliary_loss_clip": 0.01204613,
      "auxiliary_loss_mlp": 0.01030363,
      "balance_loss_clip": 1.06217718,
      "balance_loss_mlp": 1.02104676,
      "epoch": 0.3663800877773102,
      "flos": 17674262939520.0,
      "grad_norm": 2.025887354053572,
      "language_loss": 0.74346566,
      "learning_rate": 2.926048969151407e-06,
      "loss": 0.76581544,
      "num_input_tokens_seen": 65388185,
      "step": 3047,
      "time_per_iteration": 2.6265902519226074
    },
    {
      "auxiliary_loss_clip": 0.01151538,
      "auxiliary_loss_mlp": 0.01030745,
      "balance_loss_clip": 1.05442822,
      "balance_loss_mlp": 1.02162004,
      "epoch": 0.36650033066794924,
      "flos": 20303606407680.0,
      "grad_norm": 1.6650144113050285,
      "language_loss": 0.68179923,
      "learning_rate": 2.92535846092241e-06,
      "loss": 0.7036221,
      "num_input_tokens_seen": 65407200,
      "step": 3048,
      "time_per_iteration": 2.7185661792755127
    },
    {
      "auxiliary_loss_clip": 0.01183219,
      "auxiliary_loss_mlp": 0.01041314,
      "balance_loss_clip": 1.05838203,
      "balance_loss_mlp": 1.03223014,
      "epoch": 0.36662057355858835,
      "flos": 24716237420160.0,
      "grad_norm": 1.9514622811295093,
      "language_loss": 0.82660162,
      "learning_rate": 2.9246678123172704e-06,
      "loss": 0.84884691,
      "num_input_tokens_seen": 65427290,
      "step": 3049,
      "time_per_iteration": 2.702705144882202
    },
    {
      "auxiliary_loss_clip": 0.01203142,
      "auxiliary_loss_mlp": 0.01032486,
      "balance_loss_clip": 1.06123328,
      "balance_loss_mlp": 1.02335477,
      "epoch": 0.36674081644922746,
      "flos": 12385267902720.0,
      "grad_norm": 2.7184469186346396,
      "language_loss": 0.74343914,
      "learning_rate": 2.9239770234407596e-06,
      "loss": 0.76579535,
      "num_input_tokens_seen": 65445595,
      "step": 3050,
      "time_per_iteration": 3.527198076248169
    },
    {
      "auxiliary_loss_clip": 0.01193013,
      "auxiliary_loss_mlp": 0.01028786,
      "balance_loss_clip": 1.05836439,
      "balance_loss_mlp": 1.01974416,
      "epoch": 0.3668610593398665,
      "flos": 21105922544640.0,
      "grad_norm": 3.3340535107201164,
      "language_loss": 0.67920506,
      "learning_rate": 2.9232860943976686e-06,
      "loss": 0.70142305,
      "num_input_tokens_seen": 65466330,
      "step": 3051,
      "time_per_iteration": 2.6614882946014404
    },
    {
      "auxiliary_loss_clip": 0.01181183,
      "auxiliary_loss_mlp": 0.01031646,
      "balance_loss_clip": 1.05999756,
      "balance_loss_mlp": 1.02336717,
      "epoch": 0.3669813022305056,
      "flos": 26758082039040.0,
      "grad_norm": 1.7017207199201172,
      "language_loss": 0.84254932,
      "learning_rate": 2.9225950252928115e-06,
      "loss": 0.86467761,
      "num_input_tokens_seen": 65487180,
      "step": 3052,
      "time_per_iteration": 2.753211736679077
    },
    {
      "auxiliary_loss_clip": 0.01189397,
      "auxiliary_loss_mlp": 0.01031589,
      "balance_loss_clip": 1.05893326,
      "balance_loss_mlp": 1.02218938,
      "epoch": 0.36710154512114473,
      "flos": 19099521671040.0,
      "grad_norm": 2.6628438536462613,
      "language_loss": 0.82106471,
      "learning_rate": 2.9219038162310217e-06,
      "loss": 0.84327453,
      "num_input_tokens_seen": 65505380,
      "step": 3053,
      "time_per_iteration": 3.565967559814453
    },
    {
      "auxiliary_loss_clip": 0.01142718,
      "auxiliary_loss_mlp": 0.00888715,
      "balance_loss_clip": 1.05218732,
      "balance_loss_mlp": 1.00088811,
      "epoch": 0.3672217880117838,
      "flos": 20812029465600.0,
      "grad_norm": 1.8973120178791472,
      "language_loss": 0.82549721,
      "learning_rate": 2.921212467317157e-06,
      "loss": 0.84581155,
      "num_input_tokens_seen": 65524825,
      "step": 3054,
      "time_per_iteration": 2.8297433853149414
    },
    {
      "auxiliary_loss_clip": 0.01165795,
      "auxiliary_loss_mlp": 0.01034262,
      "balance_loss_clip": 1.05266047,
      "balance_loss_mlp": 1.02391458,
      "epoch": 0.3673420309024229,
      "flos": 13590394133760.0,
      "grad_norm": 2.283061676503427,
      "language_loss": 0.79983133,
      "learning_rate": 2.920520978656093e-06,
      "loss": 0.82183188,
      "num_input_tokens_seen": 65541790,
      "step": 3055,
      "time_per_iteration": 2.6595864295959473
    },
    {
      "auxiliary_loss_clip": 0.01200818,
      "auxiliary_loss_mlp": 0.00888075,
      "balance_loss_clip": 1.0607866,
      "balance_loss_mlp": 1.00084913,
      "epoch": 0.367462273793062,
      "flos": 28986877969920.0,
      "grad_norm": 1.9319442160227334,
      "language_loss": 0.7673583,
      "learning_rate": 2.919829350352729e-06,
      "loss": 0.78824723,
      "num_input_tokens_seen": 65563395,
      "step": 3056,
      "time_per_iteration": 3.5088727474212646
    },
    {
      "auxiliary_loss_clip": 0.01100554,
      "auxiliary_loss_mlp": 0.01006917,
      "balance_loss_clip": 1.03161454,
      "balance_loss_mlp": 1.0051167,
      "epoch": 0.36758251668370107,
      "flos": 62643148346880.0,
      "grad_norm": 0.7730373535387092,
      "language_loss": 0.59938341,
      "learning_rate": 2.919137582511983e-06,
      "loss": 0.62045813,
      "num_input_tokens_seen": 65619835,
      "step": 3057,
      "time_per_iteration": 3.1177566051483154
    },
    {
      "auxiliary_loss_clip": 0.0117712,
      "auxiliary_loss_mlp": 0.01030979,
      "balance_loss_clip": 1.05861068,
      "balance_loss_mlp": 1.02217531,
      "epoch": 0.3677027595743402,
      "flos": 12713886455040.0,
      "grad_norm": 2.3261230245586804,
      "language_loss": 0.63824707,
      "learning_rate": 2.918445675238797e-06,
      "loss": 0.66032803,
      "num_input_tokens_seen": 65636760,
      "step": 3058,
      "time_per_iteration": 2.7325100898742676
    },
    {
      "auxiliary_loss_clip": 0.01202587,
      "auxiliary_loss_mlp": 0.0102574,
      "balance_loss_clip": 1.06147552,
      "balance_loss_mlp": 1.01631045,
      "epoch": 0.36782300246497923,
      "flos": 25046579825280.0,
      "grad_norm": 1.9538568276118542,
      "language_loss": 0.69868958,
      "learning_rate": 2.917753628638132e-06,
      "loss": 0.7209729,
      "num_input_tokens_seen": 65657065,
      "step": 3059,
      "time_per_iteration": 3.5875275135040283
    },
    {
      "auxiliary_loss_clip": 0.01183871,
      "auxiliary_loss_mlp": 0.01036328,
      "balance_loss_clip": 1.0599966,
      "balance_loss_mlp": 1.02697599,
      "epoch": 0.36794324535561834,
      "flos": 17419512706560.0,
      "grad_norm": 19.21931954871222,
      "language_loss": 0.70209205,
      "learning_rate": 2.9170614428149716e-06,
      "loss": 0.72429401,
      "num_input_tokens_seen": 65675400,
      "step": 3060,
      "time_per_iteration": 2.6416900157928467
    },
    {
      "auxiliary_loss_clip": 0.01168124,
      "auxiliary_loss_mlp": 0.0103422,
      "balance_loss_clip": 1.05853891,
      "balance_loss_mlp": 1.02488041,
      "epoch": 0.36806348824625745,
      "flos": 24089128848000.0,
      "grad_norm": 2.388511858921739,
      "language_loss": 0.87540716,
      "learning_rate": 2.9163691178743195e-06,
      "loss": 0.89743066,
      "num_input_tokens_seen": 65694050,
      "step": 3061,
      "time_per_iteration": 2.7231669425964355
    },
    {
      "auxiliary_loss_clip": 0.01187846,
      "auxiliary_loss_mlp": 0.01031934,
      "balance_loss_clip": 1.05844176,
      "balance_loss_mlp": 1.02278447,
      "epoch": 0.3681837311368965,
      "flos": 20521871400960.0,
      "grad_norm": 2.344447350223104,
      "language_loss": 0.77344477,
      "learning_rate": 2.9156766539212006e-06,
      "loss": 0.79564255,
      "num_input_tokens_seen": 65711695,
      "step": 3062,
      "time_per_iteration": 2.6536335945129395
    },
    {
      "auxiliary_loss_clip": 0.01194543,
      "auxiliary_loss_mlp": 0.01028352,
      "balance_loss_clip": 1.0583328,
      "balance_loss_mlp": 1.01945901,
      "epoch": 0.3683039740275356,
      "flos": 21466644877440.0,
      "grad_norm": 2.0633189029571875,
      "language_loss": 0.71889824,
      "learning_rate": 2.9149840510606614e-06,
      "loss": 0.74112713,
      "num_input_tokens_seen": 65730350,
      "step": 3063,
      "time_per_iteration": 2.6185240745544434
    },
    {
      "auxiliary_loss_clip": 0.01091447,
      "auxiliary_loss_mlp": 0.00876993,
      "balance_loss_clip": 1.03121197,
      "balance_loss_mlp": 1.0008086,
      "epoch": 0.36842421691817473,
      "flos": 70380999987840.0,
      "grad_norm": 1.0263406807817181,
      "language_loss": 0.64193964,
      "learning_rate": 2.914291309397769e-06,
      "loss": 0.66162395,
      "num_input_tokens_seen": 65787820,
      "step": 3064,
      "time_per_iteration": 3.3454432487487793
    },
    {
      "auxiliary_loss_clip": 0.01135676,
      "auxiliary_loss_mlp": 0.01027521,
      "balance_loss_clip": 1.04875016,
      "balance_loss_mlp": 1.0181154,
      "epoch": 0.3685444598088138,
      "flos": 23331378510720.0,
      "grad_norm": 1.928268841149805,
      "language_loss": 0.7892161,
      "learning_rate": 2.9135984290376117e-06,
      "loss": 0.81084806,
      "num_input_tokens_seen": 65806685,
      "step": 3065,
      "time_per_iteration": 2.751811981201172
    },
    {
      "auxiliary_loss_clip": 0.01144773,
      "auxiliary_loss_mlp": 0.01033643,
      "balance_loss_clip": 1.0488745,
      "balance_loss_mlp": 1.02440381,
      "epoch": 0.3686647026994529,
      "flos": 23070271570560.0,
      "grad_norm": 7.850916928169094,
      "language_loss": 0.82907188,
      "learning_rate": 2.9129054100853e-06,
      "loss": 0.85085607,
      "num_input_tokens_seen": 65825525,
      "step": 3066,
      "time_per_iteration": 2.7951290607452393
    },
    {
      "auxiliary_loss_clip": 0.01181438,
      "auxiliary_loss_mlp": 0.01035944,
      "balance_loss_clip": 1.0561713,
      "balance_loss_mlp": 1.02653837,
      "epoch": 0.368784945590092,
      "flos": 25119909440640.0,
      "grad_norm": 2.7969418484414357,
      "language_loss": 0.76145363,
      "learning_rate": 2.912212252645963e-06,
      "loss": 0.78362739,
      "num_input_tokens_seen": 65848110,
      "step": 3067,
      "time_per_iteration": 2.768622636795044
    },
    {
      "auxiliary_loss_clip": 0.01197517,
      "auxiliary_loss_mlp": 0.01033824,
      "balance_loss_clip": 1.05918407,
      "balance_loss_mlp": 1.024037,
      "epoch": 0.36890518848073106,
      "flos": 18442284566400.0,
      "grad_norm": 2.6574843390451104,
      "language_loss": 0.76777267,
      "learning_rate": 2.9115189568247523e-06,
      "loss": 0.79008615,
      "num_input_tokens_seen": 65865670,
      "step": 3068,
      "time_per_iteration": 2.644728660583496
    },
    {
      "auxiliary_loss_clip": 0.01150252,
      "auxiliary_loss_mlp": 0.01030517,
      "balance_loss_clip": 1.05642033,
      "balance_loss_mlp": 1.02172542,
      "epoch": 0.36902543137137017,
      "flos": 16362446336640.0,
      "grad_norm": 1.9673965709557057,
      "language_loss": 0.92200863,
      "learning_rate": 2.910825522726841e-06,
      "loss": 0.9438163,
      "num_input_tokens_seen": 65883195,
      "step": 3069,
      "time_per_iteration": 2.7340338230133057
    },
    {
      "auxiliary_loss_clip": 0.01154168,
      "auxiliary_loss_mlp": 0.01035202,
      "balance_loss_clip": 1.05125403,
      "balance_loss_mlp": 1.02632117,
      "epoch": 0.3691456742620093,
      "flos": 12275596702080.0,
      "grad_norm": 2.0469500349237024,
      "language_loss": 0.77356595,
      "learning_rate": 2.9101319504574215e-06,
      "loss": 0.79545969,
      "num_input_tokens_seen": 65899635,
      "step": 3070,
      "time_per_iteration": 2.7316832542419434
    },
    {
      "auxiliary_loss_clip": 0.01182881,
      "auxiliary_loss_mlp": 0.01030602,
      "balance_loss_clip": 1.05584717,
      "balance_loss_mlp": 1.02139878,
      "epoch": 0.36926591715264834,
      "flos": 17786412178560.0,
      "grad_norm": 1.7212770793932124,
      "language_loss": 0.76466554,
      "learning_rate": 2.909438240121709e-06,
      "loss": 0.78680032,
      "num_input_tokens_seen": 65919910,
      "step": 3071,
      "time_per_iteration": 2.684868574142456
    },
    {
      "auxiliary_loss_clip": 0.01173464,
      "auxiliary_loss_mlp": 0.01028292,
      "balance_loss_clip": 1.05723238,
      "balance_loss_mlp": 1.0190531,
      "epoch": 0.36938616004328745,
      "flos": 28948309741440.0,
      "grad_norm": 2.1904430556328847,
      "language_loss": 0.70227593,
      "learning_rate": 2.908744391824939e-06,
      "loss": 0.72429347,
      "num_input_tokens_seen": 65940930,
      "step": 3072,
      "time_per_iteration": 2.7269821166992188
    },
    {
      "auxiliary_loss_clip": 0.01151061,
      "auxiliary_loss_mlp": 0.01029112,
      "balance_loss_clip": 1.04878414,
      "balance_loss_mlp": 1.01977205,
      "epoch": 0.36950640293392656,
      "flos": 29205394358400.0,
      "grad_norm": 1.7211589469506177,
      "language_loss": 0.79320532,
      "learning_rate": 2.908050405672367e-06,
      "loss": 0.81500709,
      "num_input_tokens_seen": 65960475,
      "step": 3073,
      "time_per_iteration": 2.8801095485687256
    },
    {
      "auxiliary_loss_clip": 0.01187919,
      "auxiliary_loss_mlp": 0.01031112,
      "balance_loss_clip": 1.05519533,
      "balance_loss_mlp": 1.02160478,
      "epoch": 0.3696266458245656,
      "flos": 24827776128000.0,
      "grad_norm": 1.8361638465536383,
      "language_loss": 0.79089117,
      "learning_rate": 2.9073562817692703e-06,
      "loss": 0.81308138,
      "num_input_tokens_seen": 65979160,
      "step": 3074,
      "time_per_iteration": 2.842137098312378
    },
    {
      "auxiliary_loss_clip": 0.01075638,
      "auxiliary_loss_mlp": 0.01008142,
      "balance_loss_clip": 1.02512717,
      "balance_loss_mlp": 1.00634229,
      "epoch": 0.3697468887152047,
      "flos": 59887257264000.0,
      "grad_norm": 0.7261128327749191,
      "language_loss": 0.56554836,
      "learning_rate": 2.9066620202209468e-06,
      "loss": 0.58638614,
      "num_input_tokens_seen": 66041650,
      "step": 3075,
      "time_per_iteration": 4.2321014404296875
    },
    {
      "auxiliary_loss_clip": 0.01160454,
      "auxiliary_loss_mlp": 0.0102991,
      "balance_loss_clip": 1.05303085,
      "balance_loss_mlp": 1.02091599,
      "epoch": 0.3698671316058438,
      "flos": 26137581569280.0,
      "grad_norm": 2.1964244731229425,
      "language_loss": 0.7765609,
      "learning_rate": 2.905967621132716e-06,
      "loss": 0.79846454,
      "num_input_tokens_seen": 66059260,
      "step": 3076,
      "time_per_iteration": 2.7293012142181396
    },
    {
      "auxiliary_loss_clip": 0.0118508,
      "auxiliary_loss_mlp": 0.01033566,
      "balance_loss_clip": 1.05694151,
      "balance_loss_mlp": 1.02367187,
      "epoch": 0.3699873744964829,
      "flos": 24607464059520.0,
      "grad_norm": 2.031080714565738,
      "language_loss": 0.75422335,
      "learning_rate": 2.9052730846099172e-06,
      "loss": 0.7764098,
      "num_input_tokens_seen": 66080605,
      "step": 3077,
      "time_per_iteration": 2.7293031215667725
    },
    {
      "auxiliary_loss_clip": 0.01078453,
      "auxiliary_loss_mlp": 0.01002802,
      "balance_loss_clip": 1.02310908,
      "balance_loss_mlp": 1.00112104,
      "epoch": 0.370107617387122,
      "flos": 64885340050560.0,
      "grad_norm": 0.8593618706892198,
      "language_loss": 0.60936272,
      "learning_rate": 2.9045784107579123e-06,
      "loss": 0.63017523,
      "num_input_tokens_seen": 66140710,
      "step": 3078,
      "time_per_iteration": 3.279813528060913
    },
    {
      "auxiliary_loss_clip": 0.01202237,
      "auxiliary_loss_mlp": 0.01033189,
      "balance_loss_clip": 1.06135333,
      "balance_loss_mlp": 1.02405119,
      "epoch": 0.37022786027776106,
      "flos": 15961683317760.0,
      "grad_norm": 2.153767602739392,
      "language_loss": 0.66959542,
      "learning_rate": 2.9038835996820807e-06,
      "loss": 0.69194967,
      "num_input_tokens_seen": 66158320,
      "step": 3079,
      "time_per_iteration": 3.5864083766937256
    },
    {
      "auxiliary_loss_clip": 0.01172649,
      "auxiliary_loss_mlp": 0.01035954,
      "balance_loss_clip": 1.05143714,
      "balance_loss_mlp": 1.02718067,
      "epoch": 0.37034810316840017,
      "flos": 18546927863040.0,
      "grad_norm": 1.9314860296057892,
      "language_loss": 0.79341602,
      "learning_rate": 2.903188651487826e-06,
      "loss": 0.81550205,
      "num_input_tokens_seen": 66176875,
      "step": 3080,
      "time_per_iteration": 2.6837778091430664
    },
    {
      "auxiliary_loss_clip": 0.01195423,
      "auxiliary_loss_mlp": 0.0103557,
      "balance_loss_clip": 1.05922365,
      "balance_loss_mlp": 1.02676666,
      "epoch": 0.3704683460590393,
      "flos": 17821927751040.0,
      "grad_norm": 2.1952312241997203,
      "language_loss": 0.86445522,
      "learning_rate": 2.902493566280571e-06,
      "loss": 0.88676518,
      "num_input_tokens_seen": 66194980,
      "step": 3081,
      "time_per_iteration": 3.5457470417022705
    },
    {
      "auxiliary_loss_clip": 0.01181074,
      "auxiliary_loss_mlp": 0.01032017,
      "balance_loss_clip": 1.05794799,
      "balance_loss_mlp": 1.0230701,
      "epoch": 0.37058858894967833,
      "flos": 14134081368960.0,
      "grad_norm": 1.964931569211845,
      "language_loss": 0.81511486,
      "learning_rate": 2.9017983441657595e-06,
      "loss": 0.83724576,
      "num_input_tokens_seen": 66212310,
      "step": 3082,
      "time_per_iteration": 2.679334878921509
    },
    {
      "auxiliary_loss_clip": 0.01163085,
      "auxiliary_loss_mlp": 0.01034423,
      "balance_loss_clip": 1.05314207,
      "balance_loss_mlp": 1.02610803,
      "epoch": 0.37070883184031744,
      "flos": 13954492344960.0,
      "grad_norm": 2.3204545146464213,
      "language_loss": 0.75210917,
      "learning_rate": 2.9011029852488564e-06,
      "loss": 0.77408427,
      "num_input_tokens_seen": 66229545,
      "step": 3083,
      "time_per_iteration": 2.707860231399536
    },
    {
      "auxiliary_loss_clip": 0.01092278,
      "auxiliary_loss_mlp": 0.01004585,
      "balance_loss_clip": 1.02394533,
      "balance_loss_mlp": 1.00304687,
      "epoch": 0.37082907473095655,
      "flos": 52315419306240.0,
      "grad_norm": 0.9931716502891382,
      "language_loss": 0.62475955,
      "learning_rate": 2.9004074896353465e-06,
      "loss": 0.64572817,
      "num_input_tokens_seen": 66283545,
      "step": 3084,
      "time_per_iteration": 3.070155382156372
    },
    {
      "auxiliary_loss_clip": 0.01202806,
      "auxiliary_loss_mlp": 0.01036322,
      "balance_loss_clip": 1.0645895,
      "balance_loss_mlp": 1.02777469,
      "epoch": 0.3709493176215956,
      "flos": 15998096730240.0,
      "grad_norm": 1.8104880733779598,
      "language_loss": 0.81496501,
      "learning_rate": 2.8997118574307362e-06,
      "loss": 0.83735633,
      "num_input_tokens_seen": 66300500,
      "step": 3085,
      "time_per_iteration": 3.4567837715148926
    },
    {
      "auxiliary_loss_clip": 0.01182,
      "auxiliary_loss_mlp": 0.01034721,
      "balance_loss_clip": 1.05938184,
      "balance_loss_mlp": 1.02526772,
      "epoch": 0.3710695605122347,
      "flos": 20959837931520.0,
      "grad_norm": 2.459039001753004,
      "language_loss": 0.74405301,
      "learning_rate": 2.899016088740553e-06,
      "loss": 0.76622021,
      "num_input_tokens_seen": 66318610,
      "step": 3086,
      "time_per_iteration": 2.7456626892089844
    },
    {
      "auxiliary_loss_clip": 0.01159236,
      "auxiliary_loss_mlp": 0.01032051,
      "balance_loss_clip": 1.05232704,
      "balance_loss_mlp": 1.02268744,
      "epoch": 0.37118980340287383,
      "flos": 14355578586240.0,
      "grad_norm": 1.852785019580353,
      "language_loss": 0.78951955,
      "learning_rate": 2.898320183670344e-06,
      "loss": 0.81143242,
      "num_input_tokens_seen": 66336025,
      "step": 3087,
      "time_per_iteration": 2.7195804119110107
    },
    {
      "auxiliary_loss_clip": 0.01156729,
      "auxiliary_loss_mlp": 0.0103605,
      "balance_loss_clip": 1.05554414,
      "balance_loss_mlp": 1.02698994,
      "epoch": 0.3713100462935129,
      "flos": 25885381201920.0,
      "grad_norm": 1.7037238781957273,
      "language_loss": 0.89075446,
      "learning_rate": 2.8976241423256767e-06,
      "loss": 0.91268229,
      "num_input_tokens_seen": 66356120,
      "step": 3088,
      "time_per_iteration": 2.804550886154175
    },
    {
      "auxiliary_loss_clip": 0.01173223,
      "auxiliary_loss_mlp": 0.01036284,
      "balance_loss_clip": 1.0553993,
      "balance_loss_mlp": 1.02782583,
      "epoch": 0.371430289184152,
      "flos": 30518934814080.0,
      "grad_norm": 2.2009091082999697,
      "language_loss": 0.68354094,
      "learning_rate": 2.896927964812142e-06,
      "loss": 0.70563596,
      "num_input_tokens_seen": 66376685,
      "step": 3089,
      "time_per_iteration": 2.752084255218506
    },
    {
      "auxiliary_loss_clip": 0.01176477,
      "auxiliary_loss_mlp": 0.01034772,
      "balance_loss_clip": 1.05776489,
      "balance_loss_mlp": 1.02621269,
      "epoch": 0.37155053207479105,
      "flos": 15742233175680.0,
      "grad_norm": 2.597881964122581,
      "language_loss": 0.74771333,
      "learning_rate": 2.8962316512353465e-06,
      "loss": 0.76982582,
      "num_input_tokens_seen": 66394230,
      "step": 3090,
      "time_per_iteration": 2.628103256225586
    },
    {
      "auxiliary_loss_clip": 0.01148049,
      "auxiliary_loss_mlp": 0.01029711,
      "balance_loss_clip": 1.05199993,
      "balance_loss_mlp": 1.01973927,
      "epoch": 0.37167077496543016,
      "flos": 23404061681280.0,
      "grad_norm": 1.493978764476143,
      "language_loss": 0.74969888,
      "learning_rate": 2.8955352017009233e-06,
      "loss": 0.77147651,
      "num_input_tokens_seen": 66413475,
      "step": 3091,
      "time_per_iteration": 2.779271364212036
    },
    {
      "auxiliary_loss_clip": 0.01176291,
      "auxiliary_loss_mlp": 0.01031822,
      "balance_loss_clip": 1.05726242,
      "balance_loss_mlp": 1.02253532,
      "epoch": 0.3717910178560693,
      "flos": 22088653718400.0,
      "grad_norm": 2.786574018546776,
      "language_loss": 0.77107334,
      "learning_rate": 2.8948386163145212e-06,
      "loss": 0.79315448,
      "num_input_tokens_seen": 66432685,
      "step": 3092,
      "time_per_iteration": 2.6675994396209717
    },
    {
      "auxiliary_loss_clip": 0.0119514,
      "auxiliary_loss_mlp": 0.010307,
      "balance_loss_clip": 1.05989742,
      "balance_loss_mlp": 1.02205777,
      "epoch": 0.3719112607467083,
      "flos": 26939969533440.0,
      "grad_norm": 1.9638184564485477,
      "language_loss": 0.79606652,
      "learning_rate": 2.8941418951818135e-06,
      "loss": 0.81832492,
      "num_input_tokens_seen": 66452245,
      "step": 3093,
      "time_per_iteration": 2.693302631378174
    },
    {
      "auxiliary_loss_clip": 0.01170709,
      "auxiliary_loss_mlp": 0.01035008,
      "balance_loss_clip": 1.05500805,
      "balance_loss_mlp": 1.02610326,
      "epoch": 0.37203150363734744,
      "flos": 12166500119040.0,
      "grad_norm": 2.868456249506324,
      "language_loss": 0.71100277,
      "learning_rate": 2.8934450384084903e-06,
      "loss": 0.73305988,
      "num_input_tokens_seen": 66469760,
      "step": 3094,
      "time_per_iteration": 2.648721933364868
    },
    {
      "auxiliary_loss_clip": 0.01169662,
      "auxiliary_loss_mlp": 0.01029209,
      "balance_loss_clip": 1.05340219,
      "balance_loss_mlp": 1.01991642,
      "epoch": 0.37215174652798655,
      "flos": 23697595624320.0,
      "grad_norm": 2.067696848076703,
      "language_loss": 0.70066643,
      "learning_rate": 2.8927480461002653e-06,
      "loss": 0.72265518,
      "num_input_tokens_seen": 66489730,
      "step": 3095,
      "time_per_iteration": 2.695667266845703
    },
    {
      "auxiliary_loss_clip": 0.01177999,
      "auxiliary_loss_mlp": 0.01030407,
      "balance_loss_clip": 1.05470943,
      "balance_loss_mlp": 1.02103734,
      "epoch": 0.3722719894186256,
      "flos": 17887751424000.0,
      "grad_norm": 2.484192046974697,
      "language_loss": 0.86168653,
      "learning_rate": 2.892050918362872e-06,
      "loss": 0.88377059,
      "num_input_tokens_seen": 66504785,
      "step": 3096,
      "time_per_iteration": 2.616586685180664
    },
    {
      "auxiliary_loss_clip": 0.01048058,
      "auxiliary_loss_mlp": 0.0100752,
      "balance_loss_clip": 1.02208519,
      "balance_loss_mlp": 1.00588691,
      "epoch": 0.3723922323092647,
      "flos": 62419891363200.0,
      "grad_norm": 0.8565033444264918,
      "language_loss": 0.5602355,
      "learning_rate": 2.8913536553020626e-06,
      "loss": 0.58079123,
      "num_input_tokens_seen": 66558840,
      "step": 3097,
      "time_per_iteration": 3.519460439682007
    },
    {
      "auxiliary_loss_clip": 0.01148318,
      "auxiliary_loss_mlp": 0.01030364,
      "balance_loss_clip": 1.04939818,
      "balance_loss_mlp": 1.02145934,
      "epoch": 0.3725124751999038,
      "flos": 23039747988480.0,
      "grad_norm": 2.0434171681817634,
      "language_loss": 0.85233241,
      "learning_rate": 2.8906562570236137e-06,
      "loss": 0.87411928,
      "num_input_tokens_seen": 66576750,
      "step": 3098,
      "time_per_iteration": 2.929039239883423
    },
    {
      "auxiliary_loss_clip": 0.01143134,
      "auxiliary_loss_mlp": 0.01026376,
      "balance_loss_clip": 1.04602492,
      "balance_loss_mlp": 1.01799572,
      "epoch": 0.3726327180905429,
      "flos": 20920551431040.0,
      "grad_norm": 1.486596985711117,
      "language_loss": 0.76588929,
      "learning_rate": 2.889958723633318e-06,
      "loss": 0.78758442,
      "num_input_tokens_seen": 66595690,
      "step": 3099,
      "time_per_iteration": 2.7917089462280273
    },
    {
      "auxiliary_loss_clip": 0.01172297,
      "auxiliary_loss_mlp": 0.01028093,
      "balance_loss_clip": 1.05882943,
      "balance_loss_mlp": 1.0196768,
      "epoch": 0.372752960981182,
      "flos": 30592156688640.0,
      "grad_norm": 1.7112662954307813,
      "language_loss": 0.74202251,
      "learning_rate": 2.889261055236992e-06,
      "loss": 0.7640264,
      "num_input_tokens_seen": 66617905,
      "step": 3100,
      "time_per_iteration": 2.8172385692596436
    },
    {
      "auxiliary_loss_clip": 0.0117608,
      "auxiliary_loss_mlp": 0.0103763,
      "balance_loss_clip": 1.0587914,
      "balance_loss_mlp": 1.02778912,
      "epoch": 0.3728732038718211,
      "flos": 25116749043840.0,
      "grad_norm": 2.23607482135108,
      "language_loss": 0.82807714,
      "learning_rate": 2.8885632519404704e-06,
      "loss": 0.85021424,
      "num_input_tokens_seen": 66638175,
      "step": 3101,
      "time_per_iteration": 4.3668882846832275
    },
    {
      "auxiliary_loss_clip": 0.01174292,
      "auxiliary_loss_mlp": 0.01031175,
      "balance_loss_clip": 1.05636048,
      "balance_loss_mlp": 1.02209711,
      "epoch": 0.37299344676246016,
      "flos": 25302048330240.0,
      "grad_norm": 1.8737602658279537,
      "language_loss": 0.75849026,
      "learning_rate": 2.8878653138496107e-06,
      "loss": 0.780545,
      "num_input_tokens_seen": 66658670,
      "step": 3102,
      "time_per_iteration": 2.8194711208343506
    },
    {
      "auxiliary_loss_clip": 0.01147738,
      "auxiliary_loss_mlp": 0.01027502,
      "balance_loss_clip": 1.04886675,
      "balance_loss_mlp": 1.01788187,
      "epoch": 0.37311368965309927,
      "flos": 23842531002240.0,
      "grad_norm": 2.7676519295468966,
      "language_loss": 0.75938797,
      "learning_rate": 2.8871672410702878e-06,
      "loss": 0.78114033,
      "num_input_tokens_seen": 66676030,
      "step": 3103,
      "time_per_iteration": 2.82142972946167
    },
    {
      "auxiliary_loss_clip": 0.01179583,
      "auxiliary_loss_mlp": 0.01035632,
      "balance_loss_clip": 1.05546784,
      "balance_loss_mlp": 1.02633357,
      "epoch": 0.3732339325437384,
      "flos": 25811943845760.0,
      "grad_norm": 1.65537121372973,
      "language_loss": 0.81702811,
      "learning_rate": 2.8864690337084008e-06,
      "loss": 0.83918029,
      "num_input_tokens_seen": 66695305,
      "step": 3104,
      "time_per_iteration": 2.740894317626953
    },
    {
      "auxiliary_loss_clip": 0.01183379,
      "auxiliary_loss_mlp": 0.010291,
      "balance_loss_clip": 1.05688763,
      "balance_loss_mlp": 1.01964641,
      "epoch": 0.37335417543437743,
      "flos": 26208433146240.0,
      "grad_norm": 2.0696823700635267,
      "language_loss": 0.7814213,
      "learning_rate": 2.885770691869866e-06,
      "loss": 0.80354607,
      "num_input_tokens_seen": 66716185,
      "step": 3105,
      "time_per_iteration": 3.6536993980407715
    },
    {
      "auxiliary_loss_clip": 0.01183593,
      "auxiliary_loss_mlp": 0.01030101,
      "balance_loss_clip": 1.05776966,
      "balance_loss_mlp": 1.02142262,
      "epoch": 0.37347441832501654,
      "flos": 24023879792640.0,
      "grad_norm": 2.082831152926282,
      "language_loss": 0.74646348,
      "learning_rate": 2.8850722156606207e-06,
      "loss": 0.7686004,
      "num_input_tokens_seen": 66734575,
      "step": 3106,
      "time_per_iteration": 2.6805076599121094
    },
    {
      "auxiliary_loss_clip": 0.01178811,
      "auxiliary_loss_mlp": 0.01033465,
      "balance_loss_clip": 1.05468833,
      "balance_loss_mlp": 1.02433324,
      "epoch": 0.3735946612156556,
      "flos": 19714922409600.0,
      "grad_norm": 1.5955912386075959,
      "language_loss": 0.67522418,
      "learning_rate": 2.8843736051866252e-06,
      "loss": 0.69734693,
      "num_input_tokens_seen": 66753500,
      "step": 3107,
      "time_per_iteration": 3.4352529048919678
    },
    {
      "auxiliary_loss_clip": 0.01154329,
      "auxiliary_loss_mlp": 0.0088798,
      "balance_loss_clip": 1.05145371,
      "balance_loss_mlp": 1.00078654,
      "epoch": 0.3737149041062947,
      "flos": 23039604334080.0,
      "grad_norm": 1.9952928056350727,
      "language_loss": 0.69000393,
      "learning_rate": 2.8836748605538557e-06,
      "loss": 0.71042699,
      "num_input_tokens_seen": 66775140,
      "step": 3108,
      "time_per_iteration": 2.8714170455932617
    },
    {
      "auxiliary_loss_clip": 0.01183552,
      "auxiliary_loss_mlp": 0.01026725,
      "balance_loss_clip": 1.05662358,
      "balance_loss_mlp": 1.01827884,
      "epoch": 0.3738351469969338,
      "flos": 34678108483200.0,
      "grad_norm": 1.9934916690503364,
      "language_loss": 0.63247657,
      "learning_rate": 2.882975981868313e-06,
      "loss": 0.65457928,
      "num_input_tokens_seen": 66795525,
      "step": 3109,
      "time_per_iteration": 2.8134748935699463
    },
    {
      "auxiliary_loss_clip": 0.01189735,
      "auxiliary_loss_mlp": 0.01029118,
      "balance_loss_clip": 1.0599494,
      "balance_loss_mlp": 1.02024269,
      "epoch": 0.3739553898875729,
      "flos": 43507967448960.0,
      "grad_norm": 2.397608121297028,
      "language_loss": 0.68854833,
      "learning_rate": 2.882276969236016e-06,
      "loss": 0.71073681,
      "num_input_tokens_seen": 66816885,
      "step": 3110,
      "time_per_iteration": 2.88527250289917
    },
    {
      "auxiliary_loss_clip": 0.01171211,
      "auxiliary_loss_mlp": 0.01034112,
      "balance_loss_clip": 1.05433285,
      "balance_loss_mlp": 1.0252012,
      "epoch": 0.374075632778212,
      "flos": 12856487448960.0,
      "grad_norm": 2.151213754951772,
      "language_loss": 0.76274687,
      "learning_rate": 2.881577822763005e-06,
      "loss": 0.78480005,
      "num_input_tokens_seen": 66834835,
      "step": 3111,
      "time_per_iteration": 3.6894779205322266
    },
    {
      "auxiliary_loss_clip": 0.01187166,
      "auxiliary_loss_mlp": 0.01032069,
      "balance_loss_clip": 1.0572505,
      "balance_loss_mlp": 1.02337289,
      "epoch": 0.3741958756688511,
      "flos": 26024031699840.0,
      "grad_norm": 2.263510811137349,
      "language_loss": 0.87441909,
      "learning_rate": 2.880878542555338e-06,
      "loss": 0.89661145,
      "num_input_tokens_seen": 66852600,
      "step": 3112,
      "time_per_iteration": 2.645289421081543
    },
    {
      "auxiliary_loss_clip": 0.01198203,
      "auxiliary_loss_mlp": 0.0103356,
      "balance_loss_clip": 1.0579083,
      "balance_loss_mlp": 1.02395773,
      "epoch": 0.37431611855949015,
      "flos": 21433894652160.0,
      "grad_norm": 2.322795720529312,
      "language_loss": 0.80396664,
      "learning_rate": 2.8801791287190976e-06,
      "loss": 0.82628429,
      "num_input_tokens_seen": 66870595,
      "step": 3113,
      "time_per_iteration": 2.677739143371582
    },
    {
      "auxiliary_loss_clip": 0.01190997,
      "auxiliary_loss_mlp": 0.01029226,
      "balance_loss_clip": 1.05772614,
      "balance_loss_mlp": 1.02036285,
      "epoch": 0.37443636145012926,
      "flos": 24207096090240.0,
      "grad_norm": 2.744361406782355,
      "language_loss": 0.86070859,
      "learning_rate": 2.8794795813603817e-06,
      "loss": 0.88291079,
      "num_input_tokens_seen": 66886060,
      "step": 3114,
      "time_per_iteration": 2.685328245162964
    },
    {
      "auxiliary_loss_clip": 0.01190767,
      "auxiliary_loss_mlp": 0.01028057,
      "balance_loss_clip": 1.05547452,
      "balance_loss_mlp": 1.01903903,
      "epoch": 0.3745566043407684,
      "flos": 15378601841280.0,
      "grad_norm": 1.7132305619828292,
      "language_loss": 0.81771159,
      "learning_rate": 2.878779900585314e-06,
      "loss": 0.83989984,
      "num_input_tokens_seen": 66903900,
      "step": 3115,
      "time_per_iteration": 2.6104092597961426
    },
    {
      "auxiliary_loss_clip": 0.0118579,
      "auxiliary_loss_mlp": 0.01031642,
      "balance_loss_clip": 1.05935216,
      "balance_loss_mlp": 1.02325535,
      "epoch": 0.37467684723140743,
      "flos": 24608218245120.0,
      "grad_norm": 1.543784468039755,
      "language_loss": 0.75262105,
      "learning_rate": 2.8780800865000336e-06,
      "loss": 0.77479535,
      "num_input_tokens_seen": 66925210,
      "step": 3116,
      "time_per_iteration": 2.703286647796631
    },
    {
      "auxiliary_loss_clip": 0.01082102,
      "auxiliary_loss_mlp": 0.01002641,
      "balance_loss_clip": 1.02142239,
      "balance_loss_mlp": 1.00107944,
      "epoch": 0.37479709012204654,
      "flos": 64377491610240.0,
      "grad_norm": 0.9802391252000014,
      "language_loss": 0.59168291,
      "learning_rate": 2.877380139210702e-06,
      "loss": 0.61253035,
      "num_input_tokens_seen": 66983880,
      "step": 3117,
      "time_per_iteration": 3.1887733936309814
    },
    {
      "auxiliary_loss_clip": 0.01173729,
      "auxiliary_loss_mlp": 0.01025108,
      "balance_loss_clip": 1.05626798,
      "balance_loss_mlp": 1.0165906,
      "epoch": 0.37491733301268565,
      "flos": 23803962773760.0,
      "grad_norm": 1.765765657476472,
      "language_loss": 0.76592493,
      "learning_rate": 2.876680058823501e-06,
      "loss": 0.78791326,
      "num_input_tokens_seen": 67004280,
      "step": 3118,
      "time_per_iteration": 2.7276971340179443
    },
    {
      "auxiliary_loss_clip": 0.01167942,
      "auxiliary_loss_mlp": 0.01033926,
      "balance_loss_clip": 1.05408549,
      "balance_loss_mlp": 1.02437162,
      "epoch": 0.3750375759033247,
      "flos": 32160950167680.0,
      "grad_norm": 1.8353252603779384,
      "language_loss": 0.66195655,
      "learning_rate": 2.8759798454446314e-06,
      "loss": 0.68397522,
      "num_input_tokens_seen": 67027445,
      "step": 3119,
      "time_per_iteration": 2.737583637237549
    },
    {
      "auxiliary_loss_clip": 0.01191327,
      "auxiliary_loss_mlp": 0.01035239,
      "balance_loss_clip": 1.05781078,
      "balance_loss_mlp": 1.02698362,
      "epoch": 0.3751578187939638,
      "flos": 23367791923200.0,
      "grad_norm": 2.0409357408662414,
      "language_loss": 0.81280839,
      "learning_rate": 2.8752794991803173e-06,
      "loss": 0.83507407,
      "num_input_tokens_seen": 67045130,
      "step": 3120,
      "time_per_iteration": 2.6942102909088135
    },
    {
      "auxiliary_loss_clip": 0.01176694,
      "auxiliary_loss_mlp": 0.01029762,
      "balance_loss_clip": 1.05703044,
      "balance_loss_mlp": 1.02117336,
      "epoch": 0.37527806168460287,
      "flos": 14605731878400.0,
      "grad_norm": 1.9563290246201224,
      "language_loss": 0.75329947,
      "learning_rate": 2.8745790201367976e-06,
      "loss": 0.77536404,
      "num_input_tokens_seen": 67060885,
      "step": 3121,
      "time_per_iteration": 2.678908586502075
    },
    {
      "auxiliary_loss_clip": 0.01200447,
      "auxiliary_loss_mlp": 0.01036924,
      "balance_loss_clip": 1.05912709,
      "balance_loss_mlp": 1.0278821,
      "epoch": 0.375398304575242,
      "flos": 26390823431040.0,
      "grad_norm": 2.013271301071911,
      "language_loss": 0.84311998,
      "learning_rate": 2.8738784084203373e-06,
      "loss": 0.86549371,
      "num_input_tokens_seen": 67080960,
      "step": 3122,
      "time_per_iteration": 2.746715784072876
    },
    {
      "auxiliary_loss_clip": 0.01168147,
      "auxiliary_loss_mlp": 0.01028028,
      "balance_loss_clip": 1.05179954,
      "balance_loss_mlp": 1.01900959,
      "epoch": 0.3755185474658811,
      "flos": 22236605838720.0,
      "grad_norm": 1.8054654583374468,
      "language_loss": 0.7861973,
      "learning_rate": 2.873177664137216e-06,
      "loss": 0.80815905,
      "num_input_tokens_seen": 67101890,
      "step": 3123,
      "time_per_iteration": 2.6720573902130127
    },
    {
      "auxiliary_loss_clip": 0.01164577,
      "auxiliary_loss_mlp": 0.01037234,
      "balance_loss_clip": 1.05560374,
      "balance_loss_mlp": 1.02819848,
      "epoch": 0.37563879035652015,
      "flos": 30812935633920.0,
      "grad_norm": 1.6878036899738824,
      "language_loss": 0.69271731,
      "learning_rate": 2.8724767873937384e-06,
      "loss": 0.71473539,
      "num_input_tokens_seen": 67126010,
      "step": 3124,
      "time_per_iteration": 2.792536973953247
    },
    {
      "auxiliary_loss_clip": 0.01179353,
      "auxiliary_loss_mlp": 0.01029988,
      "balance_loss_clip": 1.057464,
      "balance_loss_mlp": 1.0219115,
      "epoch": 0.37575903324715926,
      "flos": 20773533064320.0,
      "grad_norm": 2.818305159877377,
      "language_loss": 0.87514043,
      "learning_rate": 2.871775778296225e-06,
      "loss": 0.89723384,
      "num_input_tokens_seen": 67143100,
      "step": 3125,
      "time_per_iteration": 2.7131924629211426
    },
    {
      "auxiliary_loss_clip": 0.01186722,
      "auxiliary_loss_mlp": 0.01042158,
      "balance_loss_clip": 1.05692852,
      "balance_loss_mlp": 1.03255522,
      "epoch": 0.37587927613779837,
      "flos": 18697681244160.0,
      "grad_norm": 2.555755745602198,
      "language_loss": 0.78720903,
      "learning_rate": 2.8710746369510196e-06,
      "loss": 0.80949783,
      "num_input_tokens_seen": 67161085,
      "step": 3126,
      "time_per_iteration": 3.6924936771392822
    },
    {
      "auxiliary_loss_clip": 0.01175704,
      "auxiliary_loss_mlp": 0.0102647,
      "balance_loss_clip": 1.0571959,
      "balance_loss_mlp": 1.01749372,
      "epoch": 0.3759995190284374,
      "flos": 13624796384640.0,
      "grad_norm": 2.424215026469412,
      "language_loss": 0.83259296,
      "learning_rate": 2.8703733634644846e-06,
      "loss": 0.85461479,
      "num_input_tokens_seen": 67175840,
      "step": 3127,
      "time_per_iteration": 2.6537461280822754
    },
    {
      "auxiliary_loss_clip": 0.01197653,
      "auxiliary_loss_mlp": 0.01027105,
      "balance_loss_clip": 1.06001449,
      "balance_loss_mlp": 1.01902282,
      "epoch": 0.37611976191907653,
      "flos": 20484847457280.0,
      "grad_norm": 3.226686253727626,
      "language_loss": 0.79173279,
      "learning_rate": 2.869671957943002e-06,
      "loss": 0.8139804,
      "num_input_tokens_seen": 67194995,
      "step": 3128,
      "time_per_iteration": 2.623380422592163
    },
    {
      "auxiliary_loss_clip": 0.01171923,
      "auxiliary_loss_mlp": 0.01032111,
      "balance_loss_clip": 1.05851722,
      "balance_loss_mlp": 1.02234769,
      "epoch": 0.37624000480971564,
      "flos": 21141797253120.0,
      "grad_norm": 2.0485548134068954,
      "language_loss": 0.74616259,
      "learning_rate": 2.8689704204929747e-06,
      "loss": 0.7682029,
      "num_input_tokens_seen": 67214175,
      "step": 3129,
      "time_per_iteration": 2.66729998588562
    },
    {
      "auxiliary_loss_clip": 0.01198728,
      "auxiliary_loss_mlp": 0.01028235,
      "balance_loss_clip": 1.05868661,
      "balance_loss_mlp": 1.01974702,
      "epoch": 0.3763602477003547,
      "flos": 22564470205440.0,
      "grad_norm": 1.9825166800099687,
      "language_loss": 0.80902064,
      "learning_rate": 2.8682687512208253e-06,
      "loss": 0.8312903,
      "num_input_tokens_seen": 67233185,
      "step": 3130,
      "time_per_iteration": 2.631718873977661
    },
    {
      "auxiliary_loss_clip": 0.01195421,
      "auxiliary_loss_mlp": 0.01032931,
      "balance_loss_clip": 1.05976021,
      "balance_loss_mlp": 1.02425861,
      "epoch": 0.3764804905909938,
      "flos": 27526857851520.0,
      "grad_norm": 1.974044739148483,
      "language_loss": 0.80531096,
      "learning_rate": 2.8675669502329972e-06,
      "loss": 0.82759452,
      "num_input_tokens_seen": 67254715,
      "step": 3131,
      "time_per_iteration": 3.6439125537872314
    },
    {
      "auxiliary_loss_clip": 0.01185524,
      "auxiliary_loss_mlp": 0.00887425,
      "balance_loss_clip": 1.05727601,
      "balance_loss_mlp": 1.00069618,
      "epoch": 0.3766007334816329,
      "flos": 22528092706560.0,
      "grad_norm": 2.4561214584361175,
      "language_loss": 0.85847378,
      "learning_rate": 2.866865017635952e-06,
      "loss": 0.87920326,
      "num_input_tokens_seen": 67272535,
      "step": 3132,
      "time_per_iteration": 2.6283843517303467
    },
    {
      "auxiliary_loss_clip": 0.01162894,
      "auxiliary_loss_mlp": 0.01028219,
      "balance_loss_clip": 1.05545712,
      "balance_loss_mlp": 1.01932597,
      "epoch": 0.376720976372272,
      "flos": 25957166532480.0,
      "grad_norm": 1.5462872341321448,
      "language_loss": 0.79487383,
      "learning_rate": 2.866162953536174e-06,
      "loss": 0.81678498,
      "num_input_tokens_seen": 67293505,
      "step": 3133,
      "time_per_iteration": 3.703327178955078
    },
    {
      "auxiliary_loss_clip": 0.01177794,
      "auxiliary_loss_mlp": 0.008873,
      "balance_loss_clip": 1.05582571,
      "balance_loss_mlp": 1.0008595,
      "epoch": 0.3768412192629111,
      "flos": 18041162411520.0,
      "grad_norm": 1.6452338553557733,
      "language_loss": 0.75116736,
      "learning_rate": 2.8654607580401634e-06,
      "loss": 0.77181828,
      "num_input_tokens_seen": 67313240,
      "step": 3134,
      "time_per_iteration": 2.764043092727661
    },
    {
      "auxiliary_loss_clip": 0.01082938,
      "auxiliary_loss_mlp": 0.0100477,
      "balance_loss_clip": 1.0224092,
      "balance_loss_mlp": 1.00326812,
      "epoch": 0.3769614621535502,
      "flos": 62989472304000.0,
      "grad_norm": 1.165456467226941,
      "language_loss": 0.65186268,
      "learning_rate": 2.8647584312544446e-06,
      "loss": 0.67273974,
      "num_input_tokens_seen": 67378445,
      "step": 3135,
      "time_per_iteration": 3.2280688285827637
    },
    {
      "auxiliary_loss_clip": 0.01164181,
      "auxiliary_loss_mlp": 0.00887746,
      "balance_loss_clip": 1.05251074,
      "balance_loss_mlp": 1.00074458,
      "epoch": 0.37708170504418925,
      "flos": 23661685002240.0,
      "grad_norm": 1.7107166500975106,
      "language_loss": 0.85359848,
      "learning_rate": 2.864055973285559e-06,
      "loss": 0.87411773,
      "num_input_tokens_seen": 67400445,
      "step": 3136,
      "time_per_iteration": 2.8030335903167725
    },
    {
      "auxiliary_loss_clip": 0.01166681,
      "auxiliary_loss_mlp": 0.01028888,
      "balance_loss_clip": 1.05465198,
      "balance_loss_mlp": 1.02076364,
      "epoch": 0.37720194793482836,
      "flos": 24423170353920.0,
      "grad_norm": 1.9017371021896783,
      "language_loss": 0.85999674,
      "learning_rate": 2.8633533842400698e-06,
      "loss": 0.8819524,
      "num_input_tokens_seen": 67420645,
      "step": 3137,
      "time_per_iteration": 3.5985870361328125
    },
    {
      "auxiliary_loss_clip": 0.01187037,
      "auxiliary_loss_mlp": 0.00888401,
      "balance_loss_clip": 1.05766261,
      "balance_loss_mlp": 1.00084567,
      "epoch": 0.3773221908254674,
      "flos": 20996502739200.0,
      "grad_norm": 1.9600894509393498,
      "language_loss": 0.77677906,
      "learning_rate": 2.862650664224558e-06,
      "loss": 0.79753339,
      "num_input_tokens_seen": 67439495,
      "step": 3138,
      "time_per_iteration": 2.626319169998169
    },
    {
      "auxiliary_loss_clip": 0.01183027,
      "auxiliary_loss_mlp": 0.01030352,
      "balance_loss_clip": 1.05925167,
      "balance_loss_mlp": 1.02228177,
      "epoch": 0.37744243371610653,
      "flos": 37631724958080.0,
      "grad_norm": 1.5366252223857038,
      "language_loss": 0.69726628,
      "learning_rate": 2.861947813345627e-06,
      "loss": 0.71940005,
      "num_input_tokens_seen": 67462195,
      "step": 3139,
      "time_per_iteration": 2.816490411758423
    },
    {
      "auxiliary_loss_clip": 0.01201565,
      "auxiliary_loss_mlp": 0.00887431,
      "balance_loss_clip": 1.0614326,
      "balance_loss_mlp": 1.0008713,
      "epoch": 0.37756267660674564,
      "flos": 26140526484480.0,
      "grad_norm": 1.9448491092831477,
      "language_loss": 0.72315812,
      "learning_rate": 2.8612448317098974e-06,
      "loss": 0.74404812,
      "num_input_tokens_seen": 67482530,
      "step": 3140,
      "time_per_iteration": 2.6899445056915283
    },
    {
      "auxiliary_loss_clip": 0.01165056,
      "auxiliary_loss_mlp": 0.00888327,
      "balance_loss_clip": 1.05049467,
      "balance_loss_mlp": 1.00070155,
      "epoch": 0.3776829194973847,
      "flos": 19427888828160.0,
      "grad_norm": 2.139212982419822,
      "language_loss": 0.8323195,
      "learning_rate": 2.8605417194240114e-06,
      "loss": 0.8528533,
      "num_input_tokens_seen": 67500890,
      "step": 3141,
      "time_per_iteration": 2.722271680831909
    },
    {
      "auxiliary_loss_clip": 0.01179907,
      "auxiliary_loss_mlp": 0.01033888,
      "balance_loss_clip": 1.05590439,
      "balance_loss_mlp": 1.02572191,
      "epoch": 0.3778031623880238,
      "flos": 17382309194880.0,
      "grad_norm": 5.523356276963008,
      "language_loss": 0.78799939,
      "learning_rate": 2.8598384765946315e-06,
      "loss": 0.81013739,
      "num_input_tokens_seen": 67519545,
      "step": 3142,
      "time_per_iteration": 2.6793174743652344
    },
    {
      "auxiliary_loss_clip": 0.01193246,
      "auxiliary_loss_mlp": 0.0102955,
      "balance_loss_clip": 1.05550098,
      "balance_loss_mlp": 1.02143145,
      "epoch": 0.3779234052786629,
      "flos": 27125843437440.0,
      "grad_norm": 2.002574816392491,
      "language_loss": 0.71797645,
      "learning_rate": 2.8591351033284377e-06,
      "loss": 0.74020445,
      "num_input_tokens_seen": 67539275,
      "step": 3143,
      "time_per_iteration": 2.6299123764038086
    },
    {
      "auxiliary_loss_clip": 0.01188995,
      "auxiliary_loss_mlp": 0.01036785,
      "balance_loss_clip": 1.05517721,
      "balance_loss_mlp": 1.02791548,
      "epoch": 0.37804364816930197,
      "flos": 19682639061120.0,
      "grad_norm": 2.7164490355888122,
      "language_loss": 0.83949262,
      "learning_rate": 2.8584315997321325e-06,
      "loss": 0.86175042,
      "num_input_tokens_seen": 67558280,
      "step": 3144,
      "time_per_iteration": 2.620164155960083
    },
    {
      "auxiliary_loss_clip": 0.01194474,
      "auxiliary_loss_mlp": 0.01028551,
      "balance_loss_clip": 1.05639279,
      "balance_loss_mlp": 1.0202781,
      "epoch": 0.3781638910599411,
      "flos": 22702905221760.0,
      "grad_norm": 2.669111114232018,
      "language_loss": 0.78255439,
      "learning_rate": 2.8577279659124356e-06,
      "loss": 0.80478466,
      "num_input_tokens_seen": 67575955,
      "step": 3145,
      "time_per_iteration": 2.6210176944732666
    },
    {
      "auxiliary_loss_clip": 0.01181758,
      "auxiliary_loss_mlp": 0.01029357,
      "balance_loss_clip": 1.05547988,
      "balance_loss_mlp": 1.02163839,
      "epoch": 0.3782841339505802,
      "flos": 14647604158080.0,
      "grad_norm": 1.8246606371614549,
      "language_loss": 0.83359158,
      "learning_rate": 2.857024201976089e-06,
      "loss": 0.85570276,
      "num_input_tokens_seen": 67593515,
      "step": 3146,
      "time_per_iteration": 2.612743616104126
    },
    {
      "auxiliary_loss_clip": 0.01172397,
      "auxiliary_loss_mlp": 0.01028206,
      "balance_loss_clip": 1.0532974,
      "balance_loss_mlp": 1.01931322,
      "epoch": 0.37840437684121925,
      "flos": 32818223185920.0,
      "grad_norm": 2.4994970532347653,
      "language_loss": 0.73257411,
      "learning_rate": 2.8563203080298516e-06,
      "loss": 0.75458008,
      "num_input_tokens_seen": 67614290,
      "step": 3147,
      "time_per_iteration": 2.765894651412964
    },
    {
      "auxiliary_loss_clip": 0.01175306,
      "auxiliary_loss_mlp": 0.00888116,
      "balance_loss_clip": 1.05606389,
      "balance_loss_mlp": 1.00073719,
      "epoch": 0.37852461973185836,
      "flos": 18369206346240.0,
      "grad_norm": 2.0916362680337564,
      "language_loss": 0.89866233,
      "learning_rate": 2.855616284180505e-06,
      "loss": 0.9192965,
      "num_input_tokens_seen": 67631340,
      "step": 3148,
      "time_per_iteration": 2.694640874862671
    },
    {
      "auxiliary_loss_clip": 0.01083453,
      "auxiliary_loss_mlp": 0.01001616,
      "balance_loss_clip": 1.02120829,
      "balance_loss_mlp": 1.00014424,
      "epoch": 0.37864486262249747,
      "flos": 59500680117120.0,
      "grad_norm": 0.8817072713097603,
      "language_loss": 0.6612823,
      "learning_rate": 2.8549121305348477e-06,
      "loss": 0.68213296,
      "num_input_tokens_seen": 67691125,
      "step": 3149,
      "time_per_iteration": 3.1990089416503906
    },
    {
      "auxiliary_loss_clip": 0.01186154,
      "auxiliary_loss_mlp": 0.01030781,
      "balance_loss_clip": 1.05523396,
      "balance_loss_mlp": 1.02265716,
      "epoch": 0.3787651055131365,
      "flos": 23363015414400.0,
      "grad_norm": 2.2036589699176234,
      "language_loss": 0.83121848,
      "learning_rate": 2.8542078471997006e-06,
      "loss": 0.85338783,
      "num_input_tokens_seen": 67708740,
      "step": 3150,
      "time_per_iteration": 2.7052059173583984
    },
    {
      "auxiliary_loss_clip": 0.01185601,
      "auxiliary_loss_mlp": 0.01029089,
      "balance_loss_clip": 1.05435777,
      "balance_loss_mlp": 1.0210011,
      "epoch": 0.37888534840377563,
      "flos": 24601394661120.0,
      "grad_norm": 1.6266101461406832,
      "language_loss": 0.76070607,
      "learning_rate": 2.8535034342819013e-06,
      "loss": 0.78285301,
      "num_input_tokens_seen": 67726150,
      "step": 3151,
      "time_per_iteration": 2.674025297164917
    },
    {
      "auxiliary_loss_clip": 0.0119521,
      "auxiliary_loss_mlp": 0.01029816,
      "balance_loss_clip": 1.05750084,
      "balance_loss_mlp": 1.02131677,
      "epoch": 0.37900559129441475,
      "flos": 23986891762560.0,
      "grad_norm": 1.615974718204621,
      "language_loss": 0.7267381,
      "learning_rate": 2.85279889188831e-06,
      "loss": 0.74898839,
      "num_input_tokens_seen": 67746525,
      "step": 3152,
      "time_per_iteration": 3.6065855026245117
    },
    {
      "auxiliary_loss_clip": 0.01163861,
      "auxiliary_loss_mlp": 0.01031126,
      "balance_loss_clip": 1.05008042,
      "balance_loss_mlp": 1.02264392,
      "epoch": 0.3791258341850538,
      "flos": 24644667571200.0,
      "grad_norm": 2.446268783521638,
      "language_loss": 0.80895591,
      "learning_rate": 2.852094220125805e-06,
      "loss": 0.8309058,
      "num_input_tokens_seen": 67766035,
      "step": 3153,
      "time_per_iteration": 2.7215702533721924
    },
    {
      "auxiliary_loss_clip": 0.01190113,
      "auxiliary_loss_mlp": 0.01027445,
      "balance_loss_clip": 1.05965102,
      "balance_loss_mlp": 1.01860571,
      "epoch": 0.3792460770756929,
      "flos": 17420841509760.0,
      "grad_norm": 2.251309235601001,
      "language_loss": 0.71071637,
      "learning_rate": 2.8513894191012846e-06,
      "loss": 0.73289192,
      "num_input_tokens_seen": 67785015,
      "step": 3154,
      "time_per_iteration": 2.7255287170410156
    },
    {
      "auxiliary_loss_clip": 0.01197541,
      "auxiliary_loss_mlp": 0.01036889,
      "balance_loss_clip": 1.05935538,
      "balance_loss_mlp": 1.02900314,
      "epoch": 0.37936631996633197,
      "flos": 24206557386240.0,
      "grad_norm": 1.7939229052127816,
      "language_loss": 0.78942746,
      "learning_rate": 2.8506844889216664e-06,
      "loss": 0.81177175,
      "num_input_tokens_seen": 67804400,
      "step": 3155,
      "time_per_iteration": 2.682495355606079
    },
    {
      "auxiliary_loss_clip": 0.01074384,
      "auxiliary_loss_mlp": 0.0100166,
      "balance_loss_clip": 1.01826739,
      "balance_loss_mlp": 1.00015819,
      "epoch": 0.3794865628569711,
      "flos": 70297114752000.0,
      "grad_norm": 1.3279021287873705,
      "language_loss": 0.62952816,
      "learning_rate": 2.849979429693887e-06,
      "loss": 0.65028864,
      "num_input_tokens_seen": 67865385,
      "step": 3156,
      "time_per_iteration": 3.274052143096924
    },
    {
      "auxiliary_loss_clip": 0.01192662,
      "auxiliary_loss_mlp": 0.01033072,
      "balance_loss_clip": 1.05661869,
      "balance_loss_mlp": 1.02407217,
      "epoch": 0.3796068057476102,
      "flos": 15779364860160.0,
      "grad_norm": 2.1475573678946374,
      "language_loss": 0.7386815,
      "learning_rate": 2.8492742415249042e-06,
      "loss": 0.76093882,
      "num_input_tokens_seen": 67883030,
      "step": 3157,
      "time_per_iteration": 3.6256284713745117
    },
    {
      "auxiliary_loss_clip": 0.01191094,
      "auxiliary_loss_mlp": 0.01030186,
      "balance_loss_clip": 1.05504632,
      "balance_loss_mlp": 1.02221727,
      "epoch": 0.37972704863824924,
      "flos": 25191694771200.0,
      "grad_norm": 1.7952240729241642,
      "language_loss": 0.76564497,
      "learning_rate": 2.848568924521694e-06,
      "loss": 0.78785777,
      "num_input_tokens_seen": 67903810,
      "step": 3158,
      "time_per_iteration": 2.6467249393463135
    },
    {
      "auxiliary_loss_clip": 0.01176948,
      "auxiliary_loss_mlp": 0.01031548,
      "balance_loss_clip": 1.0519917,
      "balance_loss_mlp": 1.0227381,
      "epoch": 0.37984729152888835,
      "flos": 26210372480640.0,
      "grad_norm": 1.8915996503140324,
      "language_loss": 0.73286343,
      "learning_rate": 2.8478634787912526e-06,
      "loss": 0.75494838,
      "num_input_tokens_seen": 67921865,
      "step": 3159,
      "time_per_iteration": 3.4970686435699463
    },
    {
      "auxiliary_loss_clip": 0.01186171,
      "auxiliary_loss_mlp": 0.01034392,
      "balance_loss_clip": 1.05646968,
      "balance_loss_mlp": 1.02560616,
      "epoch": 0.37996753441952746,
      "flos": 25629302165760.0,
      "grad_norm": 4.9259447553610745,
      "language_loss": 0.76019096,
      "learning_rate": 2.847157904440596e-06,
      "loss": 0.78239661,
      "num_input_tokens_seen": 67941595,
      "step": 3160,
      "time_per_iteration": 2.673921823501587
    },
    {
      "auxiliary_loss_clip": 0.01184537,
      "auxiliary_loss_mlp": 0.01022559,
      "balance_loss_clip": 1.057199,
      "balance_loss_mlp": 1.01450086,
      "epoch": 0.3800877773101665,
      "flos": 20118414862080.0,
      "grad_norm": 1.5724343690598765,
      "language_loss": 0.74005026,
      "learning_rate": 2.846452201576759e-06,
      "loss": 0.7621212,
      "num_input_tokens_seen": 67960970,
      "step": 3161,
      "time_per_iteration": 2.6237850189208984
    },
    {
      "auxiliary_loss_clip": 0.01076318,
      "auxiliary_loss_mlp": 0.01001581,
      "balance_loss_clip": 1.0190413,
      "balance_loss_mlp": 1.0001862,
      "epoch": 0.38020802020080563,
      "flos": 63053608037760.0,
      "grad_norm": 0.8585591270756834,
      "language_loss": 0.62757617,
      "learning_rate": 2.845746370306795e-06,
      "loss": 0.64835507,
      "num_input_tokens_seen": 68026160,
      "step": 3162,
      "time_per_iteration": 3.3385870456695557
    },
    {
      "auxiliary_loss_clip": 0.01188523,
      "auxiliary_loss_mlp": 0.01032253,
      "balance_loss_clip": 1.05851054,
      "balance_loss_mlp": 1.02418208,
      "epoch": 0.38032826309144474,
      "flos": 21288420570240.0,
      "grad_norm": 1.9182049585170127,
      "language_loss": 0.78473443,
      "learning_rate": 2.84504041073778e-06,
      "loss": 0.80694216,
      "num_input_tokens_seen": 68044575,
      "step": 3163,
      "time_per_iteration": 3.6296160221099854
    },
    {
      "auxiliary_loss_clip": 0.01167975,
      "auxiliary_loss_mlp": 0.0103335,
      "balance_loss_clip": 1.05429029,
      "balance_loss_mlp": 1.02393293,
      "epoch": 0.3804485059820838,
      "flos": 18954119416320.0,
      "grad_norm": 2.118833009494238,
      "language_loss": 0.79142237,
      "learning_rate": 2.844334322976806e-06,
      "loss": 0.81343555,
      "num_input_tokens_seen": 68064790,
      "step": 3164,
      "time_per_iteration": 2.6851425170898438
    },
    {
      "auxiliary_loss_clip": 0.01159367,
      "auxiliary_loss_mlp": 0.01031332,
      "balance_loss_clip": 1.05095196,
      "balance_loss_mlp": 1.0227375,
      "epoch": 0.3805687488727229,
      "flos": 21833759831040.0,
      "grad_norm": 2.12985104403082,
      "language_loss": 0.83446401,
      "learning_rate": 2.8436281071309866e-06,
      "loss": 0.85637105,
      "num_input_tokens_seen": 68083330,
      "step": 3165,
      "time_per_iteration": 2.7582807540893555
    },
    {
      "auxiliary_loss_clip": 0.01068003,
      "auxiliary_loss_mlp": 0.01002656,
      "balance_loss_clip": 1.01974249,
      "balance_loss_mlp": 1.00111854,
      "epoch": 0.380688991763362,
      "flos": 58546209968640.0,
      "grad_norm": 0.7356439842921508,
      "language_loss": 0.53029621,
      "learning_rate": 2.842921763307455e-06,
      "loss": 0.5510028,
      "num_input_tokens_seen": 68146140,
      "step": 3166,
      "time_per_iteration": 3.320862054824829
    },
    {
      "auxiliary_loss_clip": 0.01171345,
      "auxiliary_loss_mlp": 0.01027976,
      "balance_loss_clip": 1.05298471,
      "balance_loss_mlp": 1.01942885,
      "epoch": 0.38080923465400107,
      "flos": 23799509487360.0,
      "grad_norm": 3.201005796577454,
      "language_loss": 0.82642233,
      "learning_rate": 2.842215291613361e-06,
      "loss": 0.84841561,
      "num_input_tokens_seen": 68164520,
      "step": 3167,
      "time_per_iteration": 2.696575403213501
    },
    {
      "auxiliary_loss_clip": 0.01042346,
      "auxiliary_loss_mlp": 0.01000293,
      "balance_loss_clip": 1.02182961,
      "balance_loss_mlp": 0.9989996,
      "epoch": 0.3809294775446402,
      "flos": 54969866380800.0,
      "grad_norm": 0.805322127094102,
      "language_loss": 0.59232223,
      "learning_rate": 2.8415086921558774e-06,
      "loss": 0.61274862,
      "num_input_tokens_seen": 68227945,
      "step": 3168,
      "time_per_iteration": 3.545118808746338
    },
    {
      "auxiliary_loss_clip": 0.01158979,
      "auxiliary_loss_mlp": 0.01030461,
      "balance_loss_clip": 1.04651403,
      "balance_loss_mlp": 1.02184784,
      "epoch": 0.38104972043527924,
      "flos": 24643697904000.0,
      "grad_norm": 1.9508293312104,
      "language_loss": 0.78672302,
      "learning_rate": 2.840801965042194e-06,
      "loss": 0.80861741,
      "num_input_tokens_seen": 68247405,
      "step": 3169,
      "time_per_iteration": 3.6431074142456055
    },
    {
      "auxiliary_loss_clip": 0.01162098,
      "auxiliary_loss_mlp": 0.01027317,
      "balance_loss_clip": 1.0484643,
      "balance_loss_mlp": 1.01900196,
      "epoch": 0.38116996332591835,
      "flos": 22856783086080.0,
      "grad_norm": 1.9399574092383767,
      "language_loss": 0.84097022,
      "learning_rate": 2.840095110379521e-06,
      "loss": 0.86286438,
      "num_input_tokens_seen": 68266925,
      "step": 3170,
      "time_per_iteration": 2.708562135696411
    },
    {
      "auxiliary_loss_clip": 0.01058414,
      "auxiliary_loss_mlp": 0.01007732,
      "balance_loss_clip": 1.02066004,
      "balance_loss_mlp": 1.00625956,
      "epoch": 0.38129020621655746,
      "flos": 60836160804480.0,
      "grad_norm": 0.7321537213498274,
      "language_loss": 0.53944016,
      "learning_rate": 2.8393881282750884e-06,
      "loss": 0.56010151,
      "num_input_tokens_seen": 68329755,
      "step": 3171,
      "time_per_iteration": 3.2718820571899414
    },
    {
      "auxiliary_loss_clip": 0.01174289,
      "auxiliary_loss_mlp": 0.01026141,
      "balance_loss_clip": 1.05449653,
      "balance_loss_mlp": 1.01725399,
      "epoch": 0.3814104491071965,
      "flos": 21648101408640.0,
      "grad_norm": 1.9292670632003721,
      "language_loss": 0.79028291,
      "learning_rate": 2.838681018836144e-06,
      "loss": 0.81228721,
      "num_input_tokens_seen": 68347075,
      "step": 3172,
      "time_per_iteration": 2.7505671977996826
    },
    {
      "auxiliary_loss_clip": 0.01164797,
      "auxiliary_loss_mlp": 0.00887212,
      "balance_loss_clip": 1.04994214,
      "balance_loss_mlp": 1.00082707,
      "epoch": 0.3815306919978356,
      "flos": 19099090707840.0,
      "grad_norm": 1.938862564801233,
      "language_loss": 0.78372943,
      "learning_rate": 2.837973782169955e-06,
      "loss": 0.80424953,
      "num_input_tokens_seen": 68365450,
      "step": 3173,
      "time_per_iteration": 2.759993553161621
    },
    {
      "auxiliary_loss_clip": 0.01086509,
      "auxiliary_loss_mlp": 0.01003088,
      "balance_loss_clip": 1.01991248,
      "balance_loss_mlp": 1.00178242,
      "epoch": 0.38165093488847474,
      "flos": 67067918156160.0,
      "grad_norm": 0.8086994839712859,
      "language_loss": 0.59170246,
      "learning_rate": 2.8372664183838096e-06,
      "loss": 0.61259842,
      "num_input_tokens_seen": 68428470,
      "step": 3174,
      "time_per_iteration": 3.2311203479766846
    },
    {
      "auxiliary_loss_clip": 0.01194467,
      "auxiliary_loss_mlp": 0.0103106,
      "balance_loss_clip": 1.05854702,
      "balance_loss_mlp": 1.02154756,
      "epoch": 0.3817711777791138,
      "flos": 22341105480960.0,
      "grad_norm": 2.298230206541142,
      "language_loss": 0.69062209,
      "learning_rate": 2.836558927585015e-06,
      "loss": 0.71287739,
      "num_input_tokens_seen": 68445440,
      "step": 3175,
      "time_per_iteration": 2.668113946914673
    },
    {
      "auxiliary_loss_clip": 0.01186542,
      "auxiliary_loss_mlp": 0.01030539,
      "balance_loss_clip": 1.0555048,
      "balance_loss_mlp": 1.02141309,
      "epoch": 0.3818914206697529,
      "flos": 22820621068800.0,
      "grad_norm": 2.1707948991220007,
      "language_loss": 0.8256045,
      "learning_rate": 2.8358513098808957e-06,
      "loss": 0.84777534,
      "num_input_tokens_seen": 68465755,
      "step": 3176,
      "time_per_iteration": 2.6814661026000977
    },
    {
      "auxiliary_loss_clip": 0.01146574,
      "auxiliary_loss_mlp": 0.01042028,
      "balance_loss_clip": 1.05298114,
      "balance_loss_mlp": 1.03285491,
      "epoch": 0.382011663560392,
      "flos": 24386074583040.0,
      "grad_norm": 1.724682357768351,
      "language_loss": 0.77053785,
      "learning_rate": 2.835143565378798e-06,
      "loss": 0.79242384,
      "num_input_tokens_seen": 68486220,
      "step": 3177,
      "time_per_iteration": 2.7682244777679443
    },
    {
      "auxiliary_loss_clip": 0.01138711,
      "auxiliary_loss_mlp": 0.01030358,
      "balance_loss_clip": 1.04850483,
      "balance_loss_mlp": 1.02197134,
      "epoch": 0.38213190645103107,
      "flos": 21981568296960.0,
      "grad_norm": 2.286173989278966,
      "language_loss": 0.78486288,
      "learning_rate": 2.8344356941860847e-06,
      "loss": 0.80655354,
      "num_input_tokens_seen": 68505850,
      "step": 3178,
      "time_per_iteration": 3.9687156677246094
    },
    {
      "auxiliary_loss_clip": 0.01162718,
      "auxiliary_loss_mlp": 0.01036923,
      "balance_loss_clip": 1.05494356,
      "balance_loss_mlp": 1.02841735,
      "epoch": 0.3822521493416702,
      "flos": 35516945773440.0,
      "grad_norm": 1.9435003862231015,
      "language_loss": 0.66662383,
      "learning_rate": 2.8337276964101403e-06,
      "loss": 0.68862033,
      "num_input_tokens_seen": 68526290,
      "step": 3179,
      "time_per_iteration": 2.8428237438201904
    },
    {
      "auxiliary_loss_clip": 0.01188745,
      "auxiliary_loss_mlp": 0.01031192,
      "balance_loss_clip": 1.05621326,
      "balance_loss_mlp": 1.02201271,
      "epoch": 0.3823723922323093,
      "flos": 21069904181760.0,
      "grad_norm": 2.525217891709735,
      "language_loss": 0.76310706,
      "learning_rate": 2.833019572158367e-06,
      "loss": 0.78530645,
      "num_input_tokens_seen": 68544725,
      "step": 3180,
      "time_per_iteration": 2.713672161102295
    },
    {
      "auxiliary_loss_clip": 0.0117248,
      "auxiliary_loss_mlp": 0.01031512,
      "balance_loss_clip": 1.05360425,
      "balance_loss_mlp": 1.02275586,
      "epoch": 0.38249263512294834,
      "flos": 19789149864960.0,
      "grad_norm": 1.7312080526143712,
      "language_loss": 0.80267161,
      "learning_rate": 2.8323113215381872e-06,
      "loss": 0.82471156,
      "num_input_tokens_seen": 68563070,
      "step": 3181,
      "time_per_iteration": 2.686577320098877
    },
    {
      "auxiliary_loss_clip": 0.01163437,
      "auxiliary_loss_mlp": 0.01025055,
      "balance_loss_clip": 1.05179048,
      "balance_loss_mlp": 1.01616788,
      "epoch": 0.38261287801358745,
      "flos": 21433930565760.0,
      "grad_norm": 149.2204842948841,
      "language_loss": 0.76254201,
      "learning_rate": 2.831602944657042e-06,
      "loss": 0.78442693,
      "num_input_tokens_seen": 68581150,
      "step": 3182,
      "time_per_iteration": 2.71803617477417
    },
    {
      "auxiliary_loss_clip": 0.0117907,
      "auxiliary_loss_mlp": 0.01025558,
      "balance_loss_clip": 1.05172086,
      "balance_loss_mlp": 1.01690364,
      "epoch": 0.38273312090422656,
      "flos": 21981568296960.0,
      "grad_norm": 2.6932660788295593,
      "language_loss": 0.74227941,
      "learning_rate": 2.830894441622391e-06,
      "loss": 0.76432568,
      "num_input_tokens_seen": 68597800,
      "step": 3183,
      "time_per_iteration": 3.738741636276245
    },
    {
      "auxiliary_loss_clip": 0.01162205,
      "auxiliary_loss_mlp": 0.008878,
      "balance_loss_clip": 1.0492239,
      "balance_loss_mlp": 1.00082302,
      "epoch": 0.3828533637948656,
      "flos": 24790895838720.0,
      "grad_norm": 1.9832243423861577,
      "language_loss": 0.79798901,
      "learning_rate": 2.8301858125417134e-06,
      "loss": 0.81848907,
      "num_input_tokens_seen": 68617640,
      "step": 3184,
      "time_per_iteration": 2.7218129634857178
    },
    {
      "auxiliary_loss_clip": 0.01172897,
      "auxiliary_loss_mlp": 0.01029896,
      "balance_loss_clip": 1.05414248,
      "balance_loss_mlp": 1.02194452,
      "epoch": 0.38297360668550473,
      "flos": 22455445449600.0,
      "grad_norm": 1.9097535661270022,
      "language_loss": 0.74083495,
      "learning_rate": 2.8294770575225082e-06,
      "loss": 0.7628628,
      "num_input_tokens_seen": 68637770,
      "step": 3185,
      "time_per_iteration": 3.7580065727233887
    },
    {
      "auxiliary_loss_clip": 0.01186141,
      "auxiliary_loss_mlp": 0.01032449,
      "balance_loss_clip": 1.05809689,
      "balance_loss_mlp": 1.02356791,
      "epoch": 0.3830938495761438,
      "flos": 24896903852160.0,
      "grad_norm": 1.9119731529425994,
      "language_loss": 0.84087378,
      "learning_rate": 2.828768176672293e-06,
      "loss": 0.86305964,
      "num_input_tokens_seen": 68656885,
      "step": 3186,
      "time_per_iteration": 2.7015769481658936
    },
    {
      "auxiliary_loss_clip": 0.01162825,
      "auxiliary_loss_mlp": 0.01031991,
      "balance_loss_clip": 1.04932833,
      "balance_loss_mlp": 1.02300882,
      "epoch": 0.3832140924667829,
      "flos": 33036236784000.0,
      "grad_norm": 1.8857134910126852,
      "language_loss": 0.71772683,
      "learning_rate": 2.8280591700986044e-06,
      "loss": 0.73967493,
      "num_input_tokens_seen": 68678750,
      "step": 3187,
      "time_per_iteration": 2.8146464824676514
    },
    {
      "auxiliary_loss_clip": 0.01180712,
      "auxiliary_loss_mlp": 0.01026543,
      "balance_loss_clip": 1.05304265,
      "balance_loss_mlp": 1.01832032,
      "epoch": 0.383334335357422,
      "flos": 31903721896320.0,
      "grad_norm": 4.299438320898406,
      "language_loss": 0.75269055,
      "learning_rate": 2.827350037908999e-06,
      "loss": 0.77476311,
      "num_input_tokens_seen": 68698190,
      "step": 3188,
      "time_per_iteration": 3.7694201469421387
    },
    {
      "auxiliary_loss_clip": 0.01170553,
      "auxiliary_loss_mlp": 0.01030204,
      "balance_loss_clip": 1.05211985,
      "balance_loss_mlp": 1.02075112,
      "epoch": 0.38345457824806106,
      "flos": 19791915212160.0,
      "grad_norm": 2.3892268518538766,
      "language_loss": 0.78608435,
      "learning_rate": 2.8266407802110496e-06,
      "loss": 0.80809194,
      "num_input_tokens_seen": 68716445,
      "step": 3189,
      "time_per_iteration": 2.698798418045044
    },
    {
      "auxiliary_loss_clip": 0.01141693,
      "auxiliary_loss_mlp": 0.01033906,
      "balance_loss_clip": 1.04523563,
      "balance_loss_mlp": 1.02449429,
      "epoch": 0.3835748211387002,
      "flos": 22419391173120.0,
      "grad_norm": 1.8662848080151724,
      "language_loss": 0.76375717,
      "learning_rate": 2.8259313971123515e-06,
      "loss": 0.78551316,
      "num_input_tokens_seen": 68737565,
      "step": 3190,
      "time_per_iteration": 2.9533586502075195
    },
    {
      "auxiliary_loss_clip": 0.01183962,
      "auxiliary_loss_mlp": 0.01031949,
      "balance_loss_clip": 1.05747962,
      "balance_loss_mlp": 1.02307415,
      "epoch": 0.3836950640293393,
      "flos": 25118436983040.0,
      "grad_norm": 1.529695353514443,
      "language_loss": 0.78435749,
      "learning_rate": 2.8252218887205166e-06,
      "loss": 0.80651659,
      "num_input_tokens_seen": 68758255,
      "step": 3191,
      "time_per_iteration": 2.8399434089660645
    },
    {
      "auxiliary_loss_clip": 0.01147734,
      "auxiliary_loss_mlp": 0.01039194,
      "balance_loss_clip": 1.04931557,
      "balance_loss_mlp": 1.03060484,
      "epoch": 0.38381530691997834,
      "flos": 21799213925760.0,
      "grad_norm": 1.741719794263235,
      "language_loss": 0.81099999,
      "learning_rate": 2.824512255143178e-06,
      "loss": 0.83286929,
      "num_input_tokens_seen": 68777490,
      "step": 3192,
      "time_per_iteration": 2.800818681716919
    },
    {
      "auxiliary_loss_clip": 0.01170978,
      "auxiliary_loss_mlp": 0.01027345,
      "balance_loss_clip": 1.05335104,
      "balance_loss_mlp": 1.0182972,
      "epoch": 0.38393554981061745,
      "flos": 21252689516160.0,
      "grad_norm": 2.126660728887676,
      "language_loss": 0.79311776,
      "learning_rate": 2.8238024964879855e-06,
      "loss": 0.81510103,
      "num_input_tokens_seen": 68798385,
      "step": 3193,
      "time_per_iteration": 2.818098783493042
    },
    {
      "auxiliary_loss_clip": 0.01199512,
      "auxiliary_loss_mlp": 0.01033767,
      "balance_loss_clip": 1.05875802,
      "balance_loss_mlp": 1.02459717,
      "epoch": 0.38405579270125656,
      "flos": 17019360218880.0,
      "grad_norm": 2.1495614196953943,
      "language_loss": 0.76749337,
      "learning_rate": 2.8230926128626095e-06,
      "loss": 0.78982615,
      "num_input_tokens_seen": 68816880,
      "step": 3194,
      "time_per_iteration": 2.666486978530884
    },
    {
      "auxiliary_loss_clip": 0.0116648,
      "auxiliary_loss_mlp": 0.01030603,
      "balance_loss_clip": 1.05071187,
      "balance_loss_mlp": 1.02104259,
      "epoch": 0.3841760355918956,
      "flos": 21835375943040.0,
      "grad_norm": 2.7782645886253956,
      "language_loss": 0.79680955,
      "learning_rate": 2.822382604374738e-06,
      "loss": 0.8187803,
      "num_input_tokens_seen": 68835805,
      "step": 3195,
      "time_per_iteration": 2.727634906768799
    },
    {
      "auxiliary_loss_clip": 0.01176049,
      "auxiliary_loss_mlp": 0.01039047,
      "balance_loss_clip": 1.05770731,
      "balance_loss_mlp": 1.02999938,
      "epoch": 0.3842962784825347,
      "flos": 25915114684800.0,
      "grad_norm": 2.081589168167101,
      "language_loss": 0.65901572,
      "learning_rate": 2.8216724711320793e-06,
      "loss": 0.68116665,
      "num_input_tokens_seen": 68854930,
      "step": 3196,
      "time_per_iteration": 2.725616693496704
    },
    {
      "auxiliary_loss_clip": 0.01192316,
      "auxiliary_loss_mlp": 0.00887824,
      "balance_loss_clip": 1.05641723,
      "balance_loss_mlp": 1.00087571,
      "epoch": 0.38441652137317384,
      "flos": 25337492075520.0,
      "grad_norm": 1.5685531145367073,
      "language_loss": 0.79959893,
      "learning_rate": 2.820962213242361e-06,
      "loss": 0.82040036,
      "num_input_tokens_seen": 68874260,
      "step": 3197,
      "time_per_iteration": 2.7022435665130615
    },
    {
      "auxiliary_loss_clip": 0.0117869,
      "auxiliary_loss_mlp": 0.01035401,
      "balance_loss_clip": 1.05345273,
      "balance_loss_mlp": 1.02681184,
      "epoch": 0.3845367642638129,
      "flos": 18113486446080.0,
      "grad_norm": 2.371839572651705,
      "language_loss": 0.84142542,
      "learning_rate": 2.8202518308133264e-06,
      "loss": 0.86356628,
      "num_input_tokens_seen": 68891535,
      "step": 3198,
      "time_per_iteration": 2.7198891639709473
    },
    {
      "auxiliary_loss_clip": 0.01200368,
      "auxiliary_loss_mlp": 0.01029472,
      "balance_loss_clip": 1.05807102,
      "balance_loss_mlp": 1.02028072,
      "epoch": 0.384657007154452,
      "flos": 25228395492480.0,
      "grad_norm": 1.9066920816816089,
      "language_loss": 0.73442286,
      "learning_rate": 2.8195413239527426e-06,
      "loss": 0.75672126,
      "num_input_tokens_seen": 68911275,
      "step": 3199,
      "time_per_iteration": 2.6296098232269287
    },
    {
      "auxiliary_loss_clip": 0.01182006,
      "auxiliary_loss_mlp": 0.01031622,
      "balance_loss_clip": 1.05447698,
      "balance_loss_mlp": 1.0222342,
      "epoch": 0.38477725004509106,
      "flos": 19865855358720.0,
      "grad_norm": 2.1911324821407474,
      "language_loss": 0.80838883,
      "learning_rate": 2.8188306927683906e-06,
      "loss": 0.83052516,
      "num_input_tokens_seen": 68930745,
      "step": 3200,
      "time_per_iteration": 2.6061787605285645
    },
    {
      "auxiliary_loss_clip": 0.01180042,
      "auxiliary_loss_mlp": 0.01030717,
      "balance_loss_clip": 1.05649722,
      "balance_loss_mlp": 1.02245617,
      "epoch": 0.38489749293573017,
      "flos": 18259391491200.0,
      "grad_norm": 1.9521759645928616,
      "language_loss": 0.74808311,
      "learning_rate": 2.818119937368074e-06,
      "loss": 0.77019072,
      "num_input_tokens_seen": 68949380,
      "step": 3201,
      "time_per_iteration": 2.6816065311431885
    },
    {
      "auxiliary_loss_clip": 0.01193109,
      "auxiliary_loss_mlp": 0.01030624,
      "balance_loss_clip": 1.05617809,
      "balance_loss_mlp": 1.02187991,
      "epoch": 0.3850177358263693,
      "flos": 24389163152640.0,
      "grad_norm": 2.3681973114008166,
      "language_loss": 0.65854454,
      "learning_rate": 2.817409057859613e-06,
      "loss": 0.6807819,
      "num_input_tokens_seen": 68968370,
      "step": 3202,
      "time_per_iteration": 2.6891908645629883
    },
    {
      "auxiliary_loss_clip": 0.01154252,
      "auxiliary_loss_mlp": 0.01036859,
      "balance_loss_clip": 1.05398893,
      "balance_loss_mlp": 1.0266366,
      "epoch": 0.38513797871700833,
      "flos": 17671533505920.0,
      "grad_norm": 1.8194051677448742,
      "language_loss": 0.7942397,
      "learning_rate": 2.8166980543508482e-06,
      "loss": 0.81615078,
      "num_input_tokens_seen": 68984260,
      "step": 3203,
      "time_per_iteration": 2.762880563735962
    },
    {
      "auxiliary_loss_clip": 0.01198144,
      "auxiliary_loss_mlp": 0.01032434,
      "balance_loss_clip": 1.05898762,
      "balance_loss_mlp": 1.02443516,
      "epoch": 0.38525822160764744,
      "flos": 25739583897600.0,
      "grad_norm": 3.0125158714001143,
      "language_loss": 0.80234337,
      "learning_rate": 2.815986926949638e-06,
      "loss": 0.8246491,
      "num_input_tokens_seen": 69002760,
      "step": 3204,
      "time_per_iteration": 3.5814990997314453
    },
    {
      "auxiliary_loss_clip": 0.01186778,
      "auxiliary_loss_mlp": 0.0103223,
      "balance_loss_clip": 1.05877495,
      "balance_loss_mlp": 1.02291954,
      "epoch": 0.38537846449828655,
      "flos": 20193647898240.0,
      "grad_norm": 1.7962343086209651,
      "language_loss": 0.80560136,
      "learning_rate": 2.8152756757638597e-06,
      "loss": 0.82779145,
      "num_input_tokens_seen": 69021260,
      "step": 3205,
      "time_per_iteration": 2.594363212585449
    },
    {
      "auxiliary_loss_clip": 0.01187897,
      "auxiliary_loss_mlp": 0.01037803,
      "balance_loss_clip": 1.05836415,
      "balance_loss_mlp": 1.02874339,
      "epoch": 0.3854987073889256,
      "flos": 23039352938880.0,
      "grad_norm": 2.0622340944171675,
      "language_loss": 0.84538424,
      "learning_rate": 2.8145643009014093e-06,
      "loss": 0.86764121,
      "num_input_tokens_seen": 69039755,
      "step": 3206,
      "time_per_iteration": 2.650249719619751
    },
    {
      "auxiliary_loss_clip": 0.01190732,
      "auxiliary_loss_mlp": 0.01032519,
      "balance_loss_clip": 1.05910397,
      "balance_loss_mlp": 1.02439499,
      "epoch": 0.3856189502795647,
      "flos": 20190631155840.0,
      "grad_norm": 2.2260626279301308,
      "language_loss": 0.79009426,
      "learning_rate": 2.813852802470202e-06,
      "loss": 0.81232667,
      "num_input_tokens_seen": 69057650,
      "step": 3207,
      "time_per_iteration": 2.6326022148132324
    },
    {
      "auxiliary_loss_clip": 0.01175454,
      "auxiliary_loss_mlp": 0.01031654,
      "balance_loss_clip": 1.05675626,
      "balance_loss_mlp": 1.02245092,
      "epoch": 0.38573919317020383,
      "flos": 25702631781120.0,
      "grad_norm": 1.7260466779270003,
      "language_loss": 0.7221806,
      "learning_rate": 2.8131411805781717e-06,
      "loss": 0.74425167,
      "num_input_tokens_seen": 69077775,
      "step": 3208,
      "time_per_iteration": 2.7179837226867676
    },
    {
      "auxiliary_loss_clip": 0.01183187,
      "auxiliary_loss_mlp": 0.0103222,
      "balance_loss_clip": 1.0586791,
      "balance_loss_mlp": 1.02332675,
      "epoch": 0.3858594360608429,
      "flos": 29821405628160.0,
      "grad_norm": 2.415052626835151,
      "language_loss": 0.64278185,
      "learning_rate": 2.8124294353332707e-06,
      "loss": 0.66493595,
      "num_input_tokens_seen": 69096450,
      "step": 3209,
      "time_per_iteration": 3.7574775218963623
    },
    {
      "auxiliary_loss_clip": 0.01173319,
      "auxiliary_loss_mlp": 0.01026871,
      "balance_loss_clip": 1.05311084,
      "balance_loss_mlp": 1.01798987,
      "epoch": 0.385979678951482,
      "flos": 24790428961920.0,
      "grad_norm": 1.6848670194065511,
      "language_loss": 0.77339381,
      "learning_rate": 2.8117175668434713e-06,
      "loss": 0.79539573,
      "num_input_tokens_seen": 69116110,
      "step": 3210,
      "time_per_iteration": 2.7696993350982666
    },
    {
      "auxiliary_loss_clip": 0.01200405,
      "auxiliary_loss_mlp": 0.0102988,
      "balance_loss_clip": 1.05973077,
      "balance_loss_mlp": 1.02097487,
      "epoch": 0.3860999218421211,
      "flos": 21287881866240.0,
      "grad_norm": 3.4124157624420564,
      "language_loss": 0.70444286,
      "learning_rate": 2.811005575216762e-06,
      "loss": 0.72674567,
      "num_input_tokens_seen": 69134825,
      "step": 3211,
      "time_per_iteration": 3.9599809646606445
    },
    {
      "auxiliary_loss_clip": 0.01158792,
      "auxiliary_loss_mlp": 0.01028581,
      "balance_loss_clip": 1.05114067,
      "balance_loss_mlp": 1.0198487,
      "epoch": 0.38622016473276016,
      "flos": 24536720223360.0,
      "grad_norm": 1.8189554587816152,
      "language_loss": 0.78943765,
      "learning_rate": 2.8102934605611513e-06,
      "loss": 0.81131136,
      "num_input_tokens_seen": 69156460,
      "step": 3212,
      "time_per_iteration": 2.748155117034912
    },
    {
      "auxiliary_loss_clip": 0.01182813,
      "auxiliary_loss_mlp": 0.01031638,
      "balance_loss_clip": 1.05685544,
      "balance_loss_mlp": 1.02303696,
      "epoch": 0.3863404076233993,
      "flos": 20558212986240.0,
      "grad_norm": 2.1803724998470844,
      "language_loss": 0.67737538,
      "learning_rate": 2.8095812229846665e-06,
      "loss": 0.69951987,
      "num_input_tokens_seen": 69176420,
      "step": 3213,
      "time_per_iteration": 2.702505588531494
    },
    {
      "auxiliary_loss_clip": 0.01176164,
      "auxiliary_loss_mlp": 0.01035357,
      "balance_loss_clip": 1.05298209,
      "balance_loss_mlp": 1.02608824,
      "epoch": 0.3864606505140384,
      "flos": 22346277039360.0,
      "grad_norm": 2.611357700352145,
      "language_loss": 0.68896782,
      "learning_rate": 2.808868862595355e-06,
      "loss": 0.71108305,
      "num_input_tokens_seen": 69196665,
      "step": 3214,
      "time_per_iteration": 3.5333950519561768
    },
    {
      "auxiliary_loss_clip": 0.01190662,
      "auxiliary_loss_mlp": 0.01031046,
      "balance_loss_clip": 1.05720162,
      "balance_loss_mlp": 1.0214498,
      "epoch": 0.38658089340467744,
      "flos": 25703601448320.0,
      "grad_norm": 1.6456329335381994,
      "language_loss": 0.79325032,
      "learning_rate": 2.8081563795012795e-06,
      "loss": 0.81546736,
      "num_input_tokens_seen": 69216290,
      "step": 3215,
      "time_per_iteration": 2.698845863342285
    },
    {
      "auxiliary_loss_clip": 0.01184849,
      "auxiliary_loss_mlp": 0.01029865,
      "balance_loss_clip": 1.05411363,
      "balance_loss_mlp": 1.02075696,
      "epoch": 0.38670113629531655,
      "flos": 33802534558080.0,
      "grad_norm": 1.8530753129610271,
      "language_loss": 0.73819697,
      "learning_rate": 2.807443773810524e-06,
      "loss": 0.76034403,
      "num_input_tokens_seen": 69237550,
      "step": 3216,
      "time_per_iteration": 2.7741825580596924
    },
    {
      "auxiliary_loss_clip": 0.01167104,
      "auxiliary_loss_mlp": 0.01038758,
      "balance_loss_clip": 1.05483818,
      "balance_loss_mlp": 1.02969801,
      "epoch": 0.3868213791859556,
      "flos": 23331522165120.0,
      "grad_norm": 4.90022486335547,
      "language_loss": 0.89699191,
      "learning_rate": 2.80673104563119e-06,
      "loss": 0.91905057,
      "num_input_tokens_seen": 69258175,
      "step": 3217,
      "time_per_iteration": 2.7419803142547607
    },
    {
      "auxiliary_loss_clip": 0.01186682,
      "auxiliary_loss_mlp": 0.010332,
      "balance_loss_clip": 1.05836415,
      "balance_loss_mlp": 1.02459323,
      "epoch": 0.3869416220765947,
      "flos": 18441530380800.0,
      "grad_norm": 2.119049589560759,
      "language_loss": 0.79021573,
      "learning_rate": 2.8060181950713976e-06,
      "loss": 0.81241453,
      "num_input_tokens_seen": 69274965,
      "step": 3218,
      "time_per_iteration": 2.6520204544067383
    },
    {
      "auxiliary_loss_clip": 0.01162037,
      "auxiliary_loss_mlp": 0.01038838,
      "balance_loss_clip": 1.05033958,
      "balance_loss_mlp": 1.02947402,
      "epoch": 0.3870618649672338,
      "flos": 15632992938240.0,
      "grad_norm": 2.256966998236981,
      "language_loss": 0.81108868,
      "learning_rate": 2.805305222239286e-06,
      "loss": 0.83309746,
      "num_input_tokens_seen": 69292220,
      "step": 3219,
      "time_per_iteration": 2.6216485500335693
    },
    {
      "auxiliary_loss_clip": 0.01177673,
      "auxiliary_loss_mlp": 0.01030654,
      "balance_loss_clip": 1.05702519,
      "balance_loss_mlp": 1.02107596,
      "epoch": 0.3871821078578729,
      "flos": 23513804709120.0,
      "grad_norm": 2.100957943042914,
      "language_loss": 0.74050057,
      "learning_rate": 2.8045921272430118e-06,
      "loss": 0.76258385,
      "num_input_tokens_seen": 69311900,
      "step": 3220,
      "time_per_iteration": 2.6943540573120117
    },
    {
      "auxiliary_loss_clip": 0.01195841,
      "auxiliary_loss_mlp": 0.01032285,
      "balance_loss_clip": 1.05725467,
      "balance_loss_mlp": 1.02272415,
      "epoch": 0.387302350748512,
      "flos": 17778259791360.0,
      "grad_norm": 4.119569453941553,
      "language_loss": 0.77195626,
      "learning_rate": 2.803878910190753e-06,
      "loss": 0.79423755,
      "num_input_tokens_seen": 69328820,
      "step": 3221,
      "time_per_iteration": 2.66243839263916
    },
    {
      "auxiliary_loss_clip": 0.0119193,
      "auxiliary_loss_mlp": 0.01039056,
      "balance_loss_clip": 1.05669832,
      "balance_loss_mlp": 1.02966809,
      "epoch": 0.3874225936391511,
      "flos": 11503409097600.0,
      "grad_norm": 3.2775334604665396,
      "language_loss": 0.82363784,
      "learning_rate": 2.8031655711907017e-06,
      "loss": 0.84594762,
      "num_input_tokens_seen": 69342525,
      "step": 3222,
      "time_per_iteration": 2.6393136978149414
    },
    {
      "auxiliary_loss_clip": 0.01189324,
      "auxiliary_loss_mlp": 0.01033197,
      "balance_loss_clip": 1.05841506,
      "balance_loss_mlp": 1.02340412,
      "epoch": 0.38754283652979016,
      "flos": 21945154884480.0,
      "grad_norm": 2.228509593298789,
      "language_loss": 0.80549526,
      "learning_rate": 2.8024521103510723e-06,
      "loss": 0.82772052,
      "num_input_tokens_seen": 69359295,
      "step": 3223,
      "time_per_iteration": 2.6653711795806885
    },
    {
      "auxiliary_loss_clip": 0.01191261,
      "auxiliary_loss_mlp": 0.01024094,
      "balance_loss_clip": 1.0575875,
      "balance_loss_mlp": 1.01483178,
      "epoch": 0.38766307942042927,
      "flos": 21175984022400.0,
      "grad_norm": 2.0936835613763387,
      "language_loss": 0.75503856,
      "learning_rate": 2.8017385277800952e-06,
      "loss": 0.77719212,
      "num_input_tokens_seen": 69377650,
      "step": 3224,
      "time_per_iteration": 2.669717788696289
    },
    {
      "auxiliary_loss_clip": 0.01170331,
      "auxiliary_loss_mlp": 0.01037569,
      "balance_loss_clip": 1.05326664,
      "balance_loss_mlp": 1.02790129,
      "epoch": 0.3877833223110684,
      "flos": 27417294391680.0,
      "grad_norm": 1.9321945787163541,
      "language_loss": 0.75225711,
      "learning_rate": 2.8010248235860213e-06,
      "loss": 0.7743361,
      "num_input_tokens_seen": 69397765,
      "step": 3225,
      "time_per_iteration": 2.796642303466797
    },
    {
      "auxiliary_loss_clip": 0.01082359,
      "auxiliary_loss_mlp": 0.00876874,
      "balance_loss_clip": 1.02396631,
      "balance_loss_mlp": 1.00083494,
      "epoch": 0.38790356520170743,
      "flos": 64500019879680.0,
      "grad_norm": 0.8423602499940143,
      "language_loss": 0.6282388,
      "learning_rate": 2.8003109978771192e-06,
      "loss": 0.64783108,
      "num_input_tokens_seen": 69458930,
      "step": 3226,
      "time_per_iteration": 3.324235677719116
    },
    {
      "auxiliary_loss_clip": 0.01157133,
      "auxiliary_loss_mlp": 0.0103416,
      "balance_loss_clip": 1.04978597,
      "balance_loss_mlp": 1.02508795,
      "epoch": 0.38802380809234654,
      "flos": 22345415112960.0,
      "grad_norm": 4.9250220478093185,
      "language_loss": 0.79418838,
      "learning_rate": 2.799597050761674e-06,
      "loss": 0.81610131,
      "num_input_tokens_seen": 69475135,
      "step": 3227,
      "time_per_iteration": 2.7421669960021973
    },
    {
      "auxiliary_loss_clip": 0.01199668,
      "auxiliary_loss_mlp": 0.01033659,
      "balance_loss_clip": 1.05834174,
      "balance_loss_mlp": 1.02462244,
      "epoch": 0.38814405098298566,
      "flos": 25261361199360.0,
      "grad_norm": 1.8921809877469538,
      "language_loss": 0.79026508,
      "learning_rate": 2.7988829823479924e-06,
      "loss": 0.81259835,
      "num_input_tokens_seen": 69493525,
      "step": 3228,
      "time_per_iteration": 2.6383931636810303
    },
    {
      "auxiliary_loss_clip": 0.01171883,
      "auxiliary_loss_mlp": 0.01033773,
      "balance_loss_clip": 1.05433846,
      "balance_loss_mlp": 1.02395618,
      "epoch": 0.3882642938736247,
      "flos": 18841180078080.0,
      "grad_norm": 2.004809660601305,
      "language_loss": 0.63945663,
      "learning_rate": 2.7981687927443976e-06,
      "loss": 0.66151321,
      "num_input_tokens_seen": 69510325,
      "step": 3229,
      "time_per_iteration": 2.808833599090576
    },
    {
      "auxiliary_loss_clip": 0.01187087,
      "auxiliary_loss_mlp": 0.01029872,
      "balance_loss_clip": 1.05442512,
      "balance_loss_mlp": 1.0208894,
      "epoch": 0.3883845367642638,
      "flos": 21652806090240.0,
      "grad_norm": 1.8300788936974477,
      "language_loss": 0.85580999,
      "learning_rate": 2.797454482059231e-06,
      "loss": 0.87797964,
      "num_input_tokens_seen": 69530480,
      "step": 3230,
      "time_per_iteration": 3.6134798526763916
    },
    {
      "auxiliary_loss_clip": 0.01201015,
      "auxiliary_loss_mlp": 0.01039484,
      "balance_loss_clip": 1.058779,
      "balance_loss_mlp": 1.02978075,
      "epoch": 0.3885047796549029,
      "flos": 20557530627840.0,
      "grad_norm": 2.872575506317214,
      "language_loss": 0.84735495,
      "learning_rate": 2.7967400504008537e-06,
      "loss": 0.86975998,
      "num_input_tokens_seen": 69549780,
      "step": 3231,
      "time_per_iteration": 2.6241257190704346
    },
    {
      "auxiliary_loss_clip": 0.01058895,
      "auxiliary_loss_mlp": 0.01003205,
      "balance_loss_clip": 1.01745903,
      "balance_loss_mlp": 1.00178611,
      "epoch": 0.388625022545542,
      "flos": 64325491695360.0,
      "grad_norm": 0.7920830193064573,
      "language_loss": 0.574031,
      "learning_rate": 2.7960254978776456e-06,
      "loss": 0.594652,
      "num_input_tokens_seen": 69611870,
      "step": 3232,
      "time_per_iteration": 3.311465263366699
    },
    {
      "auxiliary_loss_clip": 0.01200706,
      "auxiliary_loss_mlp": 0.01036427,
      "balance_loss_clip": 1.06026888,
      "balance_loss_mlp": 1.02692628,
      "epoch": 0.3887452654361811,
      "flos": 18113881495680.0,
      "grad_norm": 1.9902861173500481,
      "language_loss": 0.81738412,
      "learning_rate": 2.7953108245980006e-06,
      "loss": 0.83975542,
      "num_input_tokens_seen": 69630385,
      "step": 3233,
      "time_per_iteration": 2.5914595127105713
    },
    {
      "auxiliary_loss_clip": 0.01177551,
      "auxiliary_loss_mlp": 0.01033544,
      "balance_loss_clip": 1.05906057,
      "balance_loss_mlp": 1.02433515,
      "epoch": 0.38886550832682015,
      "flos": 24975261371520.0,
      "grad_norm": 1.5497307774856017,
      "language_loss": 0.73457456,
      "learning_rate": 2.7945960306703365e-06,
      "loss": 0.7566855,
      "num_input_tokens_seen": 69653370,
      "step": 3234,
      "time_per_iteration": 2.7529349327087402
    },
    {
      "auxiliary_loss_clip": 0.01192421,
      "auxiliary_loss_mlp": 0.0102968,
      "balance_loss_clip": 1.05632353,
      "balance_loss_mlp": 1.02061987,
      "epoch": 0.38898575121745926,
      "flos": 27199496275200.0,
      "grad_norm": 1.7870396817780632,
      "language_loss": 0.65641987,
      "learning_rate": 2.7938811162030865e-06,
      "loss": 0.6786409,
      "num_input_tokens_seen": 69673635,
      "step": 3235,
      "time_per_iteration": 3.694613456726074
    },
    {
      "auxiliary_loss_clip": 0.01188456,
      "auxiliary_loss_mlp": 0.01030949,
      "balance_loss_clip": 1.05742502,
      "balance_loss_mlp": 1.02252102,
      "epoch": 0.3891059941080984,
      "flos": 28763728727040.0,
      "grad_norm": 1.8996909726909892,
      "language_loss": 0.82393306,
      "learning_rate": 2.793166081304702e-06,
      "loss": 0.84612715,
      "num_input_tokens_seen": 69694130,
      "step": 3236,
      "time_per_iteration": 2.720280170440674
    },
    {
      "auxiliary_loss_clip": 0.0117174,
      "auxiliary_loss_mlp": 0.01034084,
      "balance_loss_clip": 1.05188227,
      "balance_loss_mlp": 1.02457142,
      "epoch": 0.38922623699873743,
      "flos": 22893447893760.0,
      "grad_norm": 2.0897418871755566,
      "language_loss": 0.82441783,
      "learning_rate": 2.7924509260836543e-06,
      "loss": 0.84647608,
      "num_input_tokens_seen": 69713255,
      "step": 3237,
      "time_per_iteration": 3.6145811080932617
    },
    {
      "auxiliary_loss_clip": 0.01169751,
      "auxiliary_loss_mlp": 0.0103389,
      "balance_loss_clip": 1.05366695,
      "balance_loss_mlp": 1.0249846,
      "epoch": 0.38934647988937654,
      "flos": 19792418002560.0,
      "grad_norm": 1.514404486114932,
      "language_loss": 0.68331558,
      "learning_rate": 2.791735650648431e-06,
      "loss": 0.70535195,
      "num_input_tokens_seen": 69732375,
      "step": 3238,
      "time_per_iteration": 2.7483103275299072
    },
    {
      "auxiliary_loss_clip": 0.01176361,
      "auxiliary_loss_mlp": 0.01033519,
      "balance_loss_clip": 1.05575657,
      "balance_loss_mlp": 1.02504301,
      "epoch": 0.38946672278001565,
      "flos": 19202081978880.0,
      "grad_norm": 2.0664587281365714,
      "language_loss": 0.74509841,
      "learning_rate": 2.791020255107538e-06,
      "loss": 0.76719719,
      "num_input_tokens_seen": 69749745,
      "step": 3239,
      "time_per_iteration": 2.742184638977051
    },
    {
      "auxiliary_loss_clip": 0.01162876,
      "auxiliary_loss_mlp": 0.01031375,
      "balance_loss_clip": 1.0494467,
      "balance_loss_mlp": 1.02198732,
      "epoch": 0.3895869656706547,
      "flos": 24936477661440.0,
      "grad_norm": 1.5712941867418577,
      "language_loss": 0.80508429,
      "learning_rate": 2.7903047395695023e-06,
      "loss": 0.82702678,
      "num_input_tokens_seen": 69769645,
      "step": 3240,
      "time_per_iteration": 3.7501721382141113
    },
    {
      "auxiliary_loss_clip": 0.0118985,
      "auxiliary_loss_mlp": 0.00888248,
      "balance_loss_clip": 1.05938339,
      "balance_loss_mlp": 1.00077963,
      "epoch": 0.3897072085612938,
      "flos": 24133622820480.0,
      "grad_norm": 2.835063649036545,
      "language_loss": 0.90390986,
      "learning_rate": 2.789589104142865e-06,
      "loss": 0.92469084,
      "num_input_tokens_seen": 69787270,
      "step": 3241,
      "time_per_iteration": 2.6634562015533447
    },
    {
      "auxiliary_loss_clip": 0.01166491,
      "auxiliary_loss_mlp": 0.01029983,
      "balance_loss_clip": 1.05102992,
      "balance_loss_mlp": 1.02154887,
      "epoch": 0.3898274514519329,
      "flos": 17166342672000.0,
      "grad_norm": 1.9067703803006564,
      "language_loss": 0.76910186,
      "learning_rate": 2.7888733489361895e-06,
      "loss": 0.79106659,
      "num_input_tokens_seen": 69805685,
      "step": 3242,
      "time_per_iteration": 2.872901678085327
    },
    {
      "auxiliary_loss_clip": 0.01087658,
      "auxiliary_loss_mlp": 0.01001133,
      "balance_loss_clip": 1.0215528,
      "balance_loss_mlp": 0.99978572,
      "epoch": 0.389947694342572,
      "flos": 66074807952000.0,
      "grad_norm": 1.970149141022136,
      "language_loss": 0.58635128,
      "learning_rate": 2.788157474058054e-06,
      "loss": 0.60723919,
      "num_input_tokens_seen": 69867960,
      "step": 3243,
      "time_per_iteration": 3.373321294784546
    },
    {
      "auxiliary_loss_clip": 0.01191389,
      "auxiliary_loss_mlp": 0.01021484,
      "balance_loss_clip": 1.05531406,
      "balance_loss_mlp": 1.01375592,
      "epoch": 0.3900679372332111,
      "flos": 25740912700800.0,
      "grad_norm": 3.6631149311977835,
      "language_loss": 0.70299137,
      "learning_rate": 2.7874414796170555e-06,
      "loss": 0.72512019,
      "num_input_tokens_seen": 69889450,
      "step": 3244,
      "time_per_iteration": 2.667346477508545
    },
    {
      "auxiliary_loss_clip": 0.01182336,
      "auxiliary_loss_mlp": 0.01032485,
      "balance_loss_clip": 1.05449116,
      "balance_loss_mlp": 1.02293646,
      "epoch": 0.3901881801238502,
      "flos": 11801611808640.0,
      "grad_norm": 2.7731578571443256,
      "language_loss": 0.83472741,
      "learning_rate": 2.7867253657218113e-06,
      "loss": 0.85687566,
      "num_input_tokens_seen": 69903340,
      "step": 3245,
      "time_per_iteration": 2.6665170192718506
    },
    {
      "auxiliary_loss_clip": 0.01178641,
      "auxiliary_loss_mlp": 0.00888702,
      "balance_loss_clip": 1.05532146,
      "balance_loss_mlp": 1.00075293,
      "epoch": 0.39030842301448926,
      "flos": 27308951994240.0,
      "grad_norm": 2.161185730532009,
      "language_loss": 0.72630364,
      "learning_rate": 2.7860091324809544e-06,
      "loss": 0.74697709,
      "num_input_tokens_seen": 69924400,
      "step": 3246,
      "time_per_iteration": 2.7027740478515625
    },
    {
      "auxiliary_loss_clip": 0.01184944,
      "auxiliary_loss_mlp": 0.01025904,
      "balance_loss_clip": 1.05926228,
      "balance_loss_mlp": 1.01736832,
      "epoch": 0.39042866590512837,
      "flos": 27163334257920.0,
      "grad_norm": 1.68660966505309,
      "language_loss": 0.81203914,
      "learning_rate": 2.7852927800031377e-06,
      "loss": 0.83414757,
      "num_input_tokens_seen": 69944565,
      "step": 3247,
      "time_per_iteration": 2.733549118041992
    },
    {
      "auxiliary_loss_clip": 0.01175509,
      "auxiliary_loss_mlp": 0.0103434,
      "balance_loss_clip": 1.05302823,
      "balance_loss_mlp": 1.02523267,
      "epoch": 0.3905489087957674,
      "flos": 29716115886720.0,
      "grad_norm": 1.9815846695095916,
      "language_loss": 0.83148837,
      "learning_rate": 2.7845763083970298e-06,
      "loss": 0.85358679,
      "num_input_tokens_seen": 69964965,
      "step": 3248,
      "time_per_iteration": 2.7233541011810303
    },
    {
      "auxiliary_loss_clip": 0.01180131,
      "auxiliary_loss_mlp": 0.01033991,
      "balance_loss_clip": 1.05443871,
      "balance_loss_mlp": 1.02487111,
      "epoch": 0.39066915168640653,
      "flos": 24498618871680.0,
      "grad_norm": 2.041743568008062,
      "language_loss": 0.820678,
      "learning_rate": 2.7838597177713205e-06,
      "loss": 0.84281921,
      "num_input_tokens_seen": 69986055,
      "step": 3249,
      "time_per_iteration": 2.694222927093506
    },
    {
      "auxiliary_loss_clip": 0.01135782,
      "auxiliary_loss_mlp": 0.01034776,
      "balance_loss_clip": 1.04998231,
      "balance_loss_mlp": 1.02547824,
      "epoch": 0.39078939457704565,
      "flos": 20558572122240.0,
      "grad_norm": 1.993091213595401,
      "language_loss": 0.73368907,
      "learning_rate": 2.7831430082347143e-06,
      "loss": 0.75539464,
      "num_input_tokens_seen": 70005260,
      "step": 3250,
      "time_per_iteration": 2.7804062366485596
    },
    {
      "auxiliary_loss_clip": 0.01191416,
      "auxiliary_loss_mlp": 0.0088733,
      "balance_loss_clip": 1.05962777,
      "balance_loss_mlp": 1.00070453,
      "epoch": 0.3909096374676847,
      "flos": 22783417557120.0,
      "grad_norm": 3.1692213210183726,
      "language_loss": 0.82422495,
      "learning_rate": 2.7824261798959373e-06,
      "loss": 0.84501243,
      "num_input_tokens_seen": 70023440,
      "step": 3251,
      "time_per_iteration": 2.6739423274993896
    },
    {
      "auxiliary_loss_clip": 0.01178487,
      "auxiliary_loss_mlp": 0.01032915,
      "balance_loss_clip": 1.05130959,
      "balance_loss_mlp": 1.0242064,
      "epoch": 0.3910298803583238,
      "flos": 23003119094400.0,
      "grad_norm": 2.4032795252068686,
      "language_loss": 0.79469216,
      "learning_rate": 2.78170923286373e-06,
      "loss": 0.81680626,
      "num_input_tokens_seen": 70043040,
      "step": 3252,
      "time_per_iteration": 2.6724562644958496
    },
    {
      "auxiliary_loss_clip": 0.01131811,
      "auxiliary_loss_mlp": 0.01034043,
      "balance_loss_clip": 1.048244,
      "balance_loss_mlp": 1.02482855,
      "epoch": 0.3911501232489629,
      "flos": 24316264500480.0,
      "grad_norm": 2.5011147122942465,
      "language_loss": 0.84098589,
      "learning_rate": 2.780992167246854e-06,
      "loss": 0.86264443,
      "num_input_tokens_seen": 70060565,
      "step": 3253,
      "time_per_iteration": 2.848186492919922
    },
    {
      "auxiliary_loss_clip": 0.01079214,
      "auxiliary_loss_mlp": 0.01001737,
      "balance_loss_clip": 1.02107644,
      "balance_loss_mlp": 1.00024724,
      "epoch": 0.391270366139602,
      "flos": 60869054684160.0,
      "grad_norm": 0.9820319004641475,
      "language_loss": 0.72169912,
      "learning_rate": 2.7802749831540883e-06,
      "loss": 0.74250865,
      "num_input_tokens_seen": 70119465,
      "step": 3254,
      "time_per_iteration": 3.3146915435791016
    },
    {
      "auxiliary_loss_clip": 0.01160832,
      "auxiliary_loss_mlp": 0.0102775,
      "balance_loss_clip": 1.05217934,
      "balance_loss_mlp": 1.02018297,
      "epoch": 0.3913906090302411,
      "flos": 21543494025600.0,
      "grad_norm": 5.9900254725326345,
      "language_loss": 0.82230008,
      "learning_rate": 2.7795576806942268e-06,
      "loss": 0.84418589,
      "num_input_tokens_seen": 70138270,
      "step": 3255,
      "time_per_iteration": 2.7518396377563477
    },
    {
      "auxiliary_loss_clip": 0.01070433,
      "auxiliary_loss_mlp": 0.01003189,
      "balance_loss_clip": 1.02281141,
      "balance_loss_mlp": 1.00167549,
      "epoch": 0.3915108519208802,
      "flos": 49839953702400.0,
      "grad_norm": 0.763323783753344,
      "language_loss": 0.54902154,
      "learning_rate": 2.778840259976085e-06,
      "loss": 0.56975776,
      "num_input_tokens_seen": 70193500,
      "step": 3256,
      "time_per_iteration": 4.130251169204712
    },
    {
      "auxiliary_loss_clip": 0.01188225,
      "auxiliary_loss_mlp": 0.01030387,
      "balance_loss_clip": 1.05555773,
      "balance_loss_mlp": 1.02175021,
      "epoch": 0.39163109481151925,
      "flos": 16506447960960.0,
      "grad_norm": 3.121200090338363,
      "language_loss": 0.76930845,
      "learning_rate": 2.778122721108495e-06,
      "loss": 0.79149461,
      "num_input_tokens_seen": 70211730,
      "step": 3257,
      "time_per_iteration": 2.619288921356201
    },
    {
      "auxiliary_loss_clip": 0.01182806,
      "auxiliary_loss_mlp": 0.01041029,
      "balance_loss_clip": 1.05671501,
      "balance_loss_mlp": 1.03285742,
      "epoch": 0.39175133770215836,
      "flos": 26067484177920.0,
      "grad_norm": 1.9573096255339153,
      "language_loss": 0.88199973,
      "learning_rate": 2.7774050642003076e-06,
      "loss": 0.9042381,
      "num_input_tokens_seen": 70232540,
      "step": 3258,
      "time_per_iteration": 2.745718002319336
    },
    {
      "auxiliary_loss_clip": 0.01199517,
      "auxiliary_loss_mlp": 0.01033713,
      "balance_loss_clip": 1.05910516,
      "balance_loss_mlp": 1.02425385,
      "epoch": 0.3918715805927975,
      "flos": 21872076664320.0,
      "grad_norm": 1.988606186058545,
      "language_loss": 0.93473291,
      "learning_rate": 2.7766872893603896e-06,
      "loss": 0.95706522,
      "num_input_tokens_seen": 70252515,
      "step": 3259,
      "time_per_iteration": 2.6467654705047607
    },
    {
      "auxiliary_loss_clip": 0.01190212,
      "auxiliary_loss_mlp": 0.01026631,
      "balance_loss_clip": 1.05854034,
      "balance_loss_mlp": 1.01895428,
      "epoch": 0.39199182348343653,
      "flos": 20376181837440.0,
      "grad_norm": 1.8883808067206562,
      "language_loss": 0.73401999,
      "learning_rate": 2.7759693966976275e-06,
      "loss": 0.75618851,
      "num_input_tokens_seen": 70271020,
      "step": 3260,
      "time_per_iteration": 2.6042568683624268
    },
    {
      "auxiliary_loss_clip": 0.01164201,
      "auxiliary_loss_mlp": 0.0103502,
      "balance_loss_clip": 1.05188286,
      "balance_loss_mlp": 1.025805,
      "epoch": 0.39211206637407564,
      "flos": 21683545153920.0,
      "grad_norm": 1.9678719458768175,
      "language_loss": 0.85306144,
      "learning_rate": 2.7752513863209242e-06,
      "loss": 0.87505364,
      "num_input_tokens_seen": 70289600,
      "step": 3261,
      "time_per_iteration": 3.6892008781433105
    },
    {
      "auxiliary_loss_clip": 0.01175664,
      "auxiliary_loss_mlp": 0.0088712,
      "balance_loss_clip": 1.05929196,
      "balance_loss_mlp": 1.00064504,
      "epoch": 0.39223230926471475,
      "flos": 21066276908160.0,
      "grad_norm": 1.7755178288365412,
      "language_loss": 0.8462311,
      "learning_rate": 2.774533258339203e-06,
      "loss": 0.86685896,
      "num_input_tokens_seen": 70307060,
      "step": 3262,
      "time_per_iteration": 2.679215431213379
    },
    {
      "auxiliary_loss_clip": 0.01155245,
      "auxiliary_loss_mlp": 0.01029894,
      "balance_loss_clip": 1.04762852,
      "balance_loss_mlp": 1.02069712,
      "epoch": 0.3923525521553538,
      "flos": 17603016312960.0,
      "grad_norm": 2.029380947856129,
      "language_loss": 0.79903966,
      "learning_rate": 2.7738150128614014e-06,
      "loss": 0.82089102,
      "num_input_tokens_seen": 70324465,
      "step": 3263,
      "time_per_iteration": 3.4167892932891846
    },
    {
      "auxiliary_loss_clip": 0.0115704,
      "auxiliary_loss_mlp": 0.01038314,
      "balance_loss_clip": 1.05422878,
      "balance_loss_mlp": 1.02940905,
      "epoch": 0.3924727950459929,
      "flos": 20558284813440.0,
      "grad_norm": 2.1974895747511916,
      "language_loss": 0.89602399,
      "learning_rate": 2.7730966499964777e-06,
      "loss": 0.91797757,
      "num_input_tokens_seen": 70341415,
      "step": 3264,
      "time_per_iteration": 2.730769157409668
    },
    {
      "auxiliary_loss_clip": 0.01196709,
      "auxiliary_loss_mlp": 0.01030234,
      "balance_loss_clip": 1.05547428,
      "balance_loss_mlp": 1.02129328,
      "epoch": 0.39259303793663197,
      "flos": 16216110328320.0,
      "grad_norm": 2.760470725887288,
      "language_loss": 0.80874598,
      "learning_rate": 2.772378169853408e-06,
      "loss": 0.83101547,
      "num_input_tokens_seen": 70358985,
      "step": 3265,
      "time_per_iteration": 2.573352336883545
    },
    {
      "auxiliary_loss_clip": 0.01171555,
      "auxiliary_loss_mlp": 0.01037281,
      "balance_loss_clip": 1.0568738,
      "balance_loss_mlp": 1.02891862,
      "epoch": 0.3927132808272711,
      "flos": 16797001075200.0,
      "grad_norm": 1.777025966299323,
      "language_loss": 0.74202585,
      "learning_rate": 2.771659572541183e-06,
      "loss": 0.7641142,
      "num_input_tokens_seen": 70376915,
      "step": 3266,
      "time_per_iteration": 3.66922926902771
    },
    {
      "auxiliary_loss_clip": 0.01192705,
      "auxiliary_loss_mlp": 0.01035551,
      "balance_loss_clip": 1.05981183,
      "balance_loss_mlp": 1.02702117,
      "epoch": 0.3928335237179102,
      "flos": 20267228908800.0,
      "grad_norm": 2.150993279444433,
      "language_loss": 0.87176192,
      "learning_rate": 2.7709408581688143e-06,
      "loss": 0.89404446,
      "num_input_tokens_seen": 70396900,
      "step": 3267,
      "time_per_iteration": 2.650386333465576
    },
    {
      "auxiliary_loss_clip": 0.01173177,
      "auxiliary_loss_mlp": 0.01030449,
      "balance_loss_clip": 1.0547421,
      "balance_loss_mlp": 1.02195537,
      "epoch": 0.39295376660854925,
      "flos": 24973250209920.0,
      "grad_norm": 1.6468266138780105,
      "language_loss": 0.88113415,
      "learning_rate": 2.7702220268453307e-06,
      "loss": 0.90317035,
      "num_input_tokens_seen": 70417260,
      "step": 3268,
      "time_per_iteration": 2.7408499717712402
    },
    {
      "auxiliary_loss_clip": 0.01179402,
      "auxiliary_loss_mlp": 0.01035887,
      "balance_loss_clip": 1.05460691,
      "balance_loss_mlp": 1.02714312,
      "epoch": 0.39307400949918836,
      "flos": 18697788984960.0,
      "grad_norm": 2.001521884929856,
      "language_loss": 0.84831154,
      "learning_rate": 2.7695030786797785e-06,
      "loss": 0.87046438,
      "num_input_tokens_seen": 70433155,
      "step": 3269,
      "time_per_iteration": 2.6480202674865723
    },
    {
      "auxiliary_loss_clip": 0.01153493,
      "auxiliary_loss_mlp": 0.0103231,
      "balance_loss_clip": 1.0516609,
      "balance_loss_mlp": 1.02326179,
      "epoch": 0.39319425238982747,
      "flos": 22415476590720.0,
      "grad_norm": 2.129626397519119,
      "language_loss": 0.74239624,
      "learning_rate": 2.7687840137812206e-06,
      "loss": 0.76425421,
      "num_input_tokens_seen": 70451240,
      "step": 3270,
      "time_per_iteration": 2.7487094402313232
    },
    {
      "auxiliary_loss_clip": 0.01072551,
      "auxiliary_loss_mlp": 0.01004282,
      "balance_loss_clip": 1.01930642,
      "balance_loss_mlp": 1.00300622,
      "epoch": 0.3933144952804665,
      "flos": 66192954762240.0,
      "grad_norm": 0.7974295347505245,
      "language_loss": 0.62049341,
      "learning_rate": 2.7680648322587395e-06,
      "loss": 0.64126176,
      "num_input_tokens_seen": 70516115,
      "step": 3271,
      "time_per_iteration": 3.2554728984832764
    },
    {
      "auxiliary_loss_clip": 0.01192644,
      "auxiliary_loss_mlp": 0.01032039,
      "balance_loss_clip": 1.05588245,
      "balance_loss_mlp": 1.02309275,
      "epoch": 0.39343473817110564,
      "flos": 15487159720320.0,
      "grad_norm": 1.7897496175324297,
      "language_loss": 0.80987859,
      "learning_rate": 2.7673455342214334e-06,
      "loss": 0.83212543,
      "num_input_tokens_seen": 70533105,
      "step": 3272,
      "time_per_iteration": 2.6042733192443848
    },
    {
      "auxiliary_loss_clip": 0.01187555,
      "auxiliary_loss_mlp": 0.01022422,
      "balance_loss_clip": 1.05768824,
      "balance_loss_mlp": 1.01383948,
      "epoch": 0.39355498106174475,
      "flos": 21324905809920.0,
      "grad_norm": 2.7994608319094887,
      "language_loss": 0.75906241,
      "learning_rate": 2.7666261197784198e-06,
      "loss": 0.7811622,
      "num_input_tokens_seen": 70551920,
      "step": 3273,
      "time_per_iteration": 2.6981585025787354
    },
    {
      "auxiliary_loss_clip": 0.011749,
      "auxiliary_loss_mlp": 0.01032683,
      "balance_loss_clip": 1.05833077,
      "balance_loss_mlp": 1.02405822,
      "epoch": 0.3936752239523838,
      "flos": 13296357400320.0,
      "grad_norm": 2.0019066326201203,
      "language_loss": 0.76294088,
      "learning_rate": 2.7659065890388336e-06,
      "loss": 0.78501678,
      "num_input_tokens_seen": 70567920,
      "step": 3274,
      "time_per_iteration": 2.625168561935425
    },
    {
      "auxiliary_loss_clip": 0.01176399,
      "auxiliary_loss_mlp": 0.01031306,
      "balance_loss_clip": 1.05293632,
      "balance_loss_mlp": 1.02223992,
      "epoch": 0.3937954668430229,
      "flos": 16800161472000.0,
      "grad_norm": 3.623538472899365,
      "language_loss": 0.8495717,
      "learning_rate": 2.7651869421118266e-06,
      "loss": 0.87164873,
      "num_input_tokens_seen": 70584530,
      "step": 3275,
      "time_per_iteration": 2.6898746490478516
    },
    {
      "auxiliary_loss_clip": 0.01193163,
      "auxiliary_loss_mlp": 0.01033787,
      "balance_loss_clip": 1.06053591,
      "balance_loss_mlp": 1.02578211,
      "epoch": 0.393915709733662,
      "flos": 21064229832960.0,
      "grad_norm": 1.6161381869233393,
      "language_loss": 0.82885373,
      "learning_rate": 2.76446717910657e-06,
      "loss": 0.85112333,
      "num_input_tokens_seen": 70605235,
      "step": 3276,
      "time_per_iteration": 2.6609065532684326
    },
    {
      "auxiliary_loss_clip": 0.01181263,
      "auxiliary_loss_mlp": 0.0102889,
      "balance_loss_clip": 1.05522573,
      "balance_loss_mlp": 1.02019393,
      "epoch": 0.3940359526243011,
      "flos": 17165265264000.0,
      "grad_norm": 2.2662111963255644,
      "language_loss": 0.77112317,
      "learning_rate": 2.763747300132249e-06,
      "loss": 0.79322469,
      "num_input_tokens_seen": 70622675,
      "step": 3277,
      "time_per_iteration": 2.6639533042907715
    },
    {
      "auxiliary_loss_clip": 0.01196794,
      "auxiliary_loss_mlp": 0.0103596,
      "balance_loss_clip": 1.05848455,
      "balance_loss_mlp": 1.02770448,
      "epoch": 0.3941561955149402,
      "flos": 20995856294400.0,
      "grad_norm": 2.5064521650779414,
      "language_loss": 0.8633827,
      "learning_rate": 2.7630273052980704e-06,
      "loss": 0.88571024,
      "num_input_tokens_seen": 70643265,
      "step": 3278,
      "time_per_iteration": 2.5749785900115967
    },
    {
      "auxiliary_loss_clip": 0.0116562,
      "auxiliary_loss_mlp": 0.01030589,
      "balance_loss_clip": 1.05339384,
      "balance_loss_mlp": 1.02223229,
      "epoch": 0.39427643840557924,
      "flos": 18843406721280.0,
      "grad_norm": 2.1398805326979846,
      "language_loss": 0.66845256,
      "learning_rate": 2.7623071947132554e-06,
      "loss": 0.69041461,
      "num_input_tokens_seen": 70660295,
      "step": 3279,
      "time_per_iteration": 2.66333270072937
    },
    {
      "auxiliary_loss_clip": 0.0118364,
      "auxiliary_loss_mlp": 0.01029555,
      "balance_loss_clip": 1.05518746,
      "balance_loss_mlp": 1.02026916,
      "epoch": 0.39439668129621835,
      "flos": 23258659426560.0,
      "grad_norm": 2.195554329167469,
      "language_loss": 0.78649831,
      "learning_rate": 2.7615869684870458e-06,
      "loss": 0.80863023,
      "num_input_tokens_seen": 70679605,
      "step": 3280,
      "time_per_iteration": 2.7622740268707275
    },
    {
      "auxiliary_loss_clip": 0.01184574,
      "auxiliary_loss_mlp": 0.01034414,
      "balance_loss_clip": 1.05821109,
      "balance_loss_mlp": 1.02580702,
      "epoch": 0.39451692418685746,
      "flos": 26652289507200.0,
      "grad_norm": 2.2181967479801514,
      "language_loss": 0.84635353,
      "learning_rate": 2.7608666267286986e-06,
      "loss": 0.86854339,
      "num_input_tokens_seen": 70699835,
      "step": 3281,
      "time_per_iteration": 2.674139976501465
    },
    {
      "auxiliary_loss_clip": 0.01142322,
      "auxiliary_loss_mlp": 0.01030461,
      "balance_loss_clip": 1.04782915,
      "balance_loss_mlp": 1.02103758,
      "epoch": 0.3946371670774965,
      "flos": 18258709132800.0,
      "grad_norm": 8.825828523422611,
      "language_loss": 0.86330438,
      "learning_rate": 2.760146169547489e-06,
      "loss": 0.88503224,
      "num_input_tokens_seen": 70716600,
      "step": 3282,
      "time_per_iteration": 3.7108492851257324
    },
    {
      "auxiliary_loss_clip": 0.01181045,
      "auxiliary_loss_mlp": 0.01034377,
      "balance_loss_clip": 1.05917072,
      "balance_loss_mlp": 1.02531147,
      "epoch": 0.39475740996813563,
      "flos": 24206126423040.0,
      "grad_norm": 1.6349702365217076,
      "language_loss": 0.76500916,
      "learning_rate": 2.75942559705271e-06,
      "loss": 0.78716338,
      "num_input_tokens_seen": 70736335,
      "step": 3283,
      "time_per_iteration": 2.730006217956543
    },
    {
      "auxiliary_loss_clip": 0.01185703,
      "auxiliary_loss_mlp": 0.01030821,
      "balance_loss_clip": 1.05747545,
      "balance_loss_mlp": 1.02225542,
      "epoch": 0.39487765285877474,
      "flos": 19317858491520.0,
      "grad_norm": 2.002483191986668,
      "language_loss": 0.89234424,
      "learning_rate": 2.7587049093536713e-06,
      "loss": 0.91450948,
      "num_input_tokens_seen": 70752665,
      "step": 3284,
      "time_per_iteration": 2.700901746749878
    },
    {
      "auxiliary_loss_clip": 0.0119003,
      "auxiliary_loss_mlp": 0.01031415,
      "balance_loss_clip": 1.05658817,
      "balance_loss_mlp": 1.02286208,
      "epoch": 0.3949978957494138,
      "flos": 17311744926720.0,
      "grad_norm": 1.8476254427940428,
      "language_loss": 0.80645025,
      "learning_rate": 2.757984106559701e-06,
      "loss": 0.82866466,
      "num_input_tokens_seen": 70771650,
      "step": 3285,
      "time_per_iteration": 2.622215747833252
    },
    {
      "auxiliary_loss_clip": 0.01169303,
      "auxiliary_loss_mlp": 0.01038321,
      "balance_loss_clip": 1.05581796,
      "balance_loss_mlp": 1.0299108,
      "epoch": 0.3951181386400529,
      "flos": 36317861280000.0,
      "grad_norm": 2.2276255624595946,
      "language_loss": 0.71298218,
      "learning_rate": 2.7572631887801446e-06,
      "loss": 0.73505843,
      "num_input_tokens_seen": 70793275,
      "step": 3286,
      "time_per_iteration": 2.762974977493286
    },
    {
      "auxiliary_loss_clip": 0.01188754,
      "auxiliary_loss_mlp": 0.01031954,
      "balance_loss_clip": 1.05857086,
      "balance_loss_mlp": 1.02334738,
      "epoch": 0.395238381530692,
      "flos": 23110348170240.0,
      "grad_norm": 1.5864609550244442,
      "language_loss": 0.76449603,
      "learning_rate": 2.7565421561243654e-06,
      "loss": 0.78670311,
      "num_input_tokens_seen": 70811440,
      "step": 3287,
      "time_per_iteration": 2.688737630844116
    },
    {
      "auxiliary_loss_clip": 0.011608,
      "auxiliary_loss_mlp": 0.01031434,
      "balance_loss_clip": 1.05107057,
      "balance_loss_mlp": 1.02358365,
      "epoch": 0.3953586244213311,
      "flos": 24347614095360.0,
      "grad_norm": 3.333437418920228,
      "language_loss": 0.82367104,
      "learning_rate": 2.7558210087017413e-06,
      "loss": 0.84559345,
      "num_input_tokens_seen": 70831375,
      "step": 3288,
      "time_per_iteration": 3.7448184490203857
    },
    {
      "auxiliary_loss_clip": 0.01158395,
      "auxiliary_loss_mlp": 0.01031937,
      "balance_loss_clip": 1.05361104,
      "balance_loss_mlp": 1.02230501,
      "epoch": 0.3954788673119702,
      "flos": 23440080044160.0,
      "grad_norm": 1.9072426713218222,
      "language_loss": 0.7340349,
      "learning_rate": 2.7550997466216724e-06,
      "loss": 0.75593817,
      "num_input_tokens_seen": 70849170,
      "step": 3289,
      "time_per_iteration": 3.619615316390991
    },
    {
      "auxiliary_loss_clip": 0.0117492,
      "auxiliary_loss_mlp": 0.01031332,
      "balance_loss_clip": 1.05640697,
      "balance_loss_mlp": 1.02273059,
      "epoch": 0.3955991102026093,
      "flos": 17494063384320.0,
      "grad_norm": 2.844626713771467,
      "language_loss": 0.81256008,
      "learning_rate": 2.7543783699935714e-06,
      "loss": 0.83462262,
      "num_input_tokens_seen": 70867200,
      "step": 3290,
      "time_per_iteration": 2.6743524074554443
    },
    {
      "auxiliary_loss_clip": 0.01187706,
      "auxiliary_loss_mlp": 0.01033618,
      "balance_loss_clip": 1.0599215,
      "balance_loss_mlp": 1.02457011,
      "epoch": 0.39571935309324835,
      "flos": 18221326053120.0,
      "grad_norm": 3.2085818685573018,
      "language_loss": 0.86555529,
      "learning_rate": 2.753656878926872e-06,
      "loss": 0.88776863,
      "num_input_tokens_seen": 70883080,
      "step": 3291,
      "time_per_iteration": 2.6428465843200684
    },
    {
      "auxiliary_loss_clip": 0.01163241,
      "auxiliary_loss_mlp": 0.01029915,
      "balance_loss_clip": 1.05144405,
      "balance_loss_mlp": 1.02115893,
      "epoch": 0.39583959598388746,
      "flos": 17748813617280.0,
      "grad_norm": 3.7480944833955223,
      "language_loss": 0.74076605,
      "learning_rate": 2.752935273531023e-06,
      "loss": 0.76269758,
      "num_input_tokens_seen": 70901230,
      "step": 3292,
      "time_per_iteration": 3.6665525436401367
    },
    {
      "auxiliary_loss_clip": 0.01187723,
      "auxiliary_loss_mlp": 0.01033809,
      "balance_loss_clip": 1.05744934,
      "balance_loss_mlp": 1.0245223,
      "epoch": 0.39595983887452657,
      "flos": 19352368483200.0,
      "grad_norm": 2.5836399873199487,
      "language_loss": 0.78753722,
      "learning_rate": 2.752213553915492e-06,
      "loss": 0.80975246,
      "num_input_tokens_seen": 70919585,
      "step": 3293,
      "time_per_iteration": 2.6543128490448
    },
    {
      "auxiliary_loss_clip": 0.01070023,
      "auxiliary_loss_mlp": 0.01005675,
      "balance_loss_clip": 1.01963139,
      "balance_loss_mlp": 1.00444114,
      "epoch": 0.3960800817651656,
      "flos": 60682282940160.0,
      "grad_norm": 0.8332213977785959,
      "language_loss": 0.66044641,
      "learning_rate": 2.751491720189762e-06,
      "loss": 0.68120337,
      "num_input_tokens_seen": 70977695,
      "step": 3294,
      "time_per_iteration": 3.2368624210357666
    },
    {
      "auxiliary_loss_clip": 0.01176169,
      "auxiliary_loss_mlp": 0.00887746,
      "balance_loss_clip": 1.05541039,
      "balance_loss_mlp": 1.00078297,
      "epoch": 0.39620032465580474,
      "flos": 16836718538880.0,
      "grad_norm": 2.553832860505693,
      "language_loss": 0.91304111,
      "learning_rate": 2.7507697724633364e-06,
      "loss": 0.9336803,
      "num_input_tokens_seen": 70994455,
      "step": 3295,
      "time_per_iteration": 2.6861608028411865
    },
    {
      "auxiliary_loss_clip": 0.0106125,
      "auxiliary_loss_mlp": 0.01003999,
      "balance_loss_clip": 1.02027965,
      "balance_loss_mlp": 1.00269377,
      "epoch": 0.3963205675464438,
      "flos": 69071445941760.0,
      "grad_norm": 0.7753714288664232,
      "language_loss": 0.54675984,
      "learning_rate": 2.7500477108457327e-06,
      "loss": 0.56741232,
      "num_input_tokens_seen": 71046465,
      "step": 3296,
      "time_per_iteration": 3.074166774749756
    },
    {
      "auxiliary_loss_clip": 0.01181606,
      "auxiliary_loss_mlp": 0.01027309,
      "balance_loss_clip": 1.05435181,
      "balance_loss_mlp": 1.01811194,
      "epoch": 0.3964408104370829,
      "flos": 25667439431040.0,
      "grad_norm": 1.9190730001814087,
      "language_loss": 0.81103951,
      "learning_rate": 2.7493255354464877e-06,
      "loss": 0.83312869,
      "num_input_tokens_seen": 71064275,
      "step": 3297,
      "time_per_iteration": 2.7296900749206543
    },
    {
      "auxiliary_loss_clip": 0.01101154,
      "auxiliary_loss_mlp": 0.01033693,
      "balance_loss_clip": 1.04184031,
      "balance_loss_mlp": 1.02455604,
      "epoch": 0.396561053327722,
      "flos": 24277480790400.0,
      "grad_norm": 1.8948565508838808,
      "language_loss": 0.7594372,
      "learning_rate": 2.748603246375156e-06,
      "loss": 0.78078562,
      "num_input_tokens_seen": 71082290,
      "step": 3298,
      "time_per_iteration": 3.2274956703186035
    },
    {
      "auxiliary_loss_clip": 0.01198219,
      "auxiliary_loss_mlp": 0.01029857,
      "balance_loss_clip": 1.05967367,
      "balance_loss_mlp": 1.02124989,
      "epoch": 0.39668129621836107,
      "flos": 20522302364160.0,
      "grad_norm": 2.6266727287507945,
      "language_loss": 0.69415671,
      "learning_rate": 2.7478808437413055e-06,
      "loss": 0.71643746,
      "num_input_tokens_seen": 71101700,
      "step": 3299,
      "time_per_iteration": 2.8570590019226074
    },
    {
      "auxiliary_loss_clip": 0.01155468,
      "auxiliary_loss_mlp": 0.01032933,
      "balance_loss_clip": 1.05413699,
      "balance_loss_mlp": 1.02448058,
      "epoch": 0.3968015391090002,
      "flos": 27052585649280.0,
      "grad_norm": 1.9458818147546764,
      "language_loss": 0.66027749,
      "learning_rate": 2.7471583276545263e-06,
      "loss": 0.68216157,
      "num_input_tokens_seen": 71122360,
      "step": 3300,
      "time_per_iteration": 2.7696123123168945
    },
    {
      "auxiliary_loss_clip": 0.01174967,
      "auxiliary_loss_mlp": 0.01038355,
      "balance_loss_clip": 1.05368173,
      "balance_loss_mlp": 1.02945614,
      "epoch": 0.3969217819996393,
      "flos": 12531819392640.0,
      "grad_norm": 1.83622132403671,
      "language_loss": 0.70538104,
      "learning_rate": 2.7464356982244224e-06,
      "loss": 0.72751427,
      "num_input_tokens_seen": 71140360,
      "step": 3301,
      "time_per_iteration": 2.698837995529175
    },
    {
      "auxiliary_loss_clip": 0.01072566,
      "auxiliary_loss_mlp": 0.01001143,
      "balance_loss_clip": 1.01866603,
      "balance_loss_mlp": 0.99983132,
      "epoch": 0.39704202489027834,
      "flos": 66241399230720.0,
      "grad_norm": 0.7829418648062404,
      "language_loss": 0.61726868,
      "learning_rate": 2.745712955560617e-06,
      "loss": 0.63800573,
      "num_input_tokens_seen": 71196565,
      "step": 3302,
      "time_per_iteration": 3.1461312770843506
    },
    {
      "auxiliary_loss_clip": 0.01144559,
      "auxiliary_loss_mlp": 0.01031006,
      "balance_loss_clip": 1.04906607,
      "balance_loss_mlp": 1.0223155,
      "epoch": 0.39716226778091746,
      "flos": 16982982720000.0,
      "grad_norm": 2.3069103932589097,
      "language_loss": 0.76834697,
      "learning_rate": 2.7449900997727496e-06,
      "loss": 0.79010266,
      "num_input_tokens_seen": 71214675,
      "step": 3303,
      "time_per_iteration": 2.758650779724121
    },
    {
      "auxiliary_loss_clip": 0.01172843,
      "auxiliary_loss_mlp": 0.0103258,
      "balance_loss_clip": 1.05612397,
      "balance_loss_mlp": 1.02371132,
      "epoch": 0.39728251067155657,
      "flos": 23477139901440.0,
      "grad_norm": 3.9740895465715,
      "language_loss": 0.83829528,
      "learning_rate": 2.744267130970476e-06,
      "loss": 0.86034954,
      "num_input_tokens_seen": 71234400,
      "step": 3304,
      "time_per_iteration": 2.727415084838867
    },
    {
      "auxiliary_loss_clip": 0.01167884,
      "auxiliary_loss_mlp": 0.01029409,
      "balance_loss_clip": 1.05450392,
      "balance_loss_mlp": 1.02021217,
      "epoch": 0.3974027535621956,
      "flos": 20704441253760.0,
      "grad_norm": 2.126653321615685,
      "language_loss": 0.76911283,
      "learning_rate": 2.7435440492634697e-06,
      "loss": 0.79108572,
      "num_input_tokens_seen": 71253725,
      "step": 3305,
      "time_per_iteration": 2.671755790710449
    },
    {
      "auxiliary_loss_clip": 0.01176371,
      "auxiliary_loss_mlp": 0.01035519,
      "balance_loss_clip": 1.05391216,
      "balance_loss_mlp": 1.02557683,
      "epoch": 0.39752299645283473,
      "flos": 21543278544000.0,
      "grad_norm": 2.624767652142647,
      "language_loss": 0.67260861,
      "learning_rate": 2.7428208547614228e-06,
      "loss": 0.69472754,
      "num_input_tokens_seen": 71273220,
      "step": 3306,
      "time_per_iteration": 2.7283852100372314
    },
    {
      "auxiliary_loss_clip": 0.0118687,
      "auxiliary_loss_mlp": 0.0103756,
      "balance_loss_clip": 1.05763197,
      "balance_loss_mlp": 1.02884543,
      "epoch": 0.39764323934347384,
      "flos": 19208295031680.0,
      "grad_norm": 2.912782392218445,
      "language_loss": 0.7741645,
      "learning_rate": 2.742097547574043e-06,
      "loss": 0.79640877,
      "num_input_tokens_seen": 71291445,
      "step": 3307,
      "time_per_iteration": 2.628992795944214
    },
    {
      "auxiliary_loss_clip": 0.01179304,
      "auxiliary_loss_mlp": 0.00888463,
      "balance_loss_clip": 1.05339718,
      "balance_loss_mlp": 1.00090885,
      "epoch": 0.3977634822341129,
      "flos": 20850202644480.0,
      "grad_norm": 2.7289852284588223,
      "language_loss": 0.7843321,
      "learning_rate": 2.7413741278110544e-06,
      "loss": 0.80500978,
      "num_input_tokens_seen": 71310135,
      "step": 3308,
      "time_per_iteration": 3.6225569248199463
    },
    {
      "auxiliary_loss_clip": 0.01179102,
      "auxiliary_loss_mlp": 0.01035853,
      "balance_loss_clip": 1.0556426,
      "balance_loss_mlp": 1.0270853,
      "epoch": 0.397883725124752,
      "flos": 39786042038400.0,
      "grad_norm": 2.434882366886202,
      "language_loss": 0.68532443,
      "learning_rate": 2.7406505955822016e-06,
      "loss": 0.70747399,
      "num_input_tokens_seen": 71331160,
      "step": 3309,
      "time_per_iteration": 2.862872838973999
    },
    {
      "auxiliary_loss_clip": 0.01172491,
      "auxiliary_loss_mlp": 0.01027599,
      "balance_loss_clip": 1.051615,
      "balance_loss_mlp": 1.01830697,
      "epoch": 0.39800396801539106,
      "flos": 17379507934080.0,
      "grad_norm": 2.2773301177253664,
      "language_loss": 0.66658938,
      "learning_rate": 2.7399269509972415e-06,
      "loss": 0.68859029,
      "num_input_tokens_seen": 71345315,
      "step": 3310,
      "time_per_iteration": 2.6658926010131836
    },
    {
      "auxiliary_loss_clip": 0.01168407,
      "auxiliary_loss_mlp": 0.01032834,
      "balance_loss_clip": 1.04876411,
      "balance_loss_mlp": 1.02267158,
      "epoch": 0.3981242109060302,
      "flos": 19202764337280.0,
      "grad_norm": 2.6533250354796967,
      "language_loss": 0.85767847,
      "learning_rate": 2.7392031941659514e-06,
      "loss": 0.87969083,
      "num_input_tokens_seen": 71363160,
      "step": 3311,
      "time_per_iteration": 2.6557416915893555
    },
    {
      "auxiliary_loss_clip": 0.01178463,
      "auxiliary_loss_mlp": 0.01031505,
      "balance_loss_clip": 1.05837965,
      "balance_loss_mlp": 1.02125883,
      "epoch": 0.3982444537966693,
      "flos": 24565124903040.0,
      "grad_norm": 1.8174979977555954,
      "language_loss": 0.85817623,
      "learning_rate": 2.7384793251981244e-06,
      "loss": 0.88027585,
      "num_input_tokens_seen": 71382145,
      "step": 3312,
      "time_per_iteration": 2.6894304752349854
    },
    {
      "auxiliary_loss_clip": 0.01191695,
      "auxiliary_loss_mlp": 0.01028529,
      "balance_loss_clip": 1.05590677,
      "balance_loss_mlp": 1.01958799,
      "epoch": 0.39836469668730834,
      "flos": 26213856099840.0,
      "grad_norm": 1.812532148004621,
      "language_loss": 0.8095665,
      "learning_rate": 2.737755344203571e-06,
      "loss": 0.83176875,
      "num_input_tokens_seen": 71402095,
      "step": 3313,
      "time_per_iteration": 2.71437668800354
    },
    {
      "auxiliary_loss_clip": 0.01188986,
      "auxiliary_loss_mlp": 0.01034283,
      "balance_loss_clip": 1.05757332,
      "balance_loss_mlp": 1.02531207,
      "epoch": 0.39848493957794745,
      "flos": 27636134002560.0,
      "grad_norm": 2.2426817321923553,
      "language_loss": 0.79701179,
      "learning_rate": 2.7370312512921186e-06,
      "loss": 0.8192445,
      "num_input_tokens_seen": 71423875,
      "step": 3314,
      "time_per_iteration": 3.9504058361053467
    },
    {
      "auxiliary_loss_clip": 0.01178696,
      "auxiliary_loss_mlp": 0.01030297,
      "balance_loss_clip": 1.05122054,
      "balance_loss_mlp": 1.02130914,
      "epoch": 0.39860518246858656,
      "flos": 12239326944000.0,
      "grad_norm": 2.36755218351218,
      "language_loss": 0.76829898,
      "learning_rate": 2.736307046573611e-06,
      "loss": 0.79038888,
      "num_input_tokens_seen": 71439745,
      "step": 3315,
      "time_per_iteration": 2.712658405303955
    },
    {
      "auxiliary_loss_clip": 0.01193398,
      "auxiliary_loss_mlp": 0.01032625,
      "balance_loss_clip": 1.05677772,
      "balance_loss_mlp": 1.02438796,
      "epoch": 0.3987254253592256,
      "flos": 22379135005440.0,
      "grad_norm": 1.6945144887175518,
      "language_loss": 0.81884027,
      "learning_rate": 2.73558273015791e-06,
      "loss": 0.84110051,
      "num_input_tokens_seen": 71459575,
      "step": 3316,
      "time_per_iteration": 2.6406455039978027
    },
    {
      "auxiliary_loss_clip": 0.01199422,
      "auxiliary_loss_mlp": 0.01029537,
      "balance_loss_clip": 1.05945373,
      "balance_loss_mlp": 1.02020311,
      "epoch": 0.3988456682498647,
      "flos": 23514020190720.0,
      "grad_norm": 2.5814516847203146,
      "language_loss": 0.7063452,
      "learning_rate": 2.734858302154894e-06,
      "loss": 0.72863477,
      "num_input_tokens_seen": 71481075,
      "step": 3317,
      "time_per_iteration": 2.628798723220825
    },
    {
      "auxiliary_loss_clip": 0.01169326,
      "auxiliary_loss_mlp": 0.01030574,
      "balance_loss_clip": 1.05432153,
      "balance_loss_mlp": 1.02162147,
      "epoch": 0.39896591114050384,
      "flos": 19208761908480.0,
      "grad_norm": 2.1699533799102224,
      "language_loss": 0.76574445,
      "learning_rate": 2.734133762674457e-06,
      "loss": 0.78774345,
      "num_input_tokens_seen": 71500665,
      "step": 3318,
      "time_per_iteration": 3.6621623039245605
    },
    {
      "auxiliary_loss_clip": 0.011767,
      "auxiliary_loss_mlp": 0.01029028,
      "balance_loss_clip": 1.05458164,
      "balance_loss_mlp": 1.01913404,
      "epoch": 0.3990861540311429,
      "flos": 28401031146240.0,
      "grad_norm": 1.8162145472119087,
      "language_loss": 0.70984977,
      "learning_rate": 2.7334091118265124e-06,
      "loss": 0.73190701,
      "num_input_tokens_seen": 71522560,
      "step": 3319,
      "time_per_iteration": 2.6979269981384277
    },
    {
      "auxiliary_loss_clip": 0.010814,
      "auxiliary_loss_mlp": 0.01007768,
      "balance_loss_clip": 1.02049637,
      "balance_loss_mlp": 1.00640345,
      "epoch": 0.399206396921782,
      "flos": 61758563086080.0,
      "grad_norm": 0.6739132906664246,
      "language_loss": 0.5779382,
      "learning_rate": 2.732684349720989e-06,
      "loss": 0.59882987,
      "num_input_tokens_seen": 71590520,
      "step": 3320,
      "time_per_iteration": 3.291839361190796
    },
    {
      "auxiliary_loss_clip": 0.01169965,
      "auxiliary_loss_mlp": 0.01032584,
      "balance_loss_clip": 1.05318093,
      "balance_loss_mlp": 1.02429318,
      "epoch": 0.3993266398124211,
      "flos": 28074567409920.0,
      "grad_norm": 3.095382232669359,
      "language_loss": 0.75579202,
      "learning_rate": 2.7319594764678318e-06,
      "loss": 0.77781755,
      "num_input_tokens_seen": 71612620,
      "step": 3321,
      "time_per_iteration": 2.9223437309265137
    },
    {
      "auxiliary_loss_clip": 0.01157686,
      "auxiliary_loss_mlp": 0.01032841,
      "balance_loss_clip": 1.05274737,
      "balance_loss_mlp": 1.02361989,
      "epoch": 0.39944688270306017,
      "flos": 23225083188480.0,
      "grad_norm": 1.725047816317883,
      "language_loss": 0.83058143,
      "learning_rate": 2.7312344921770044e-06,
      "loss": 0.85248661,
      "num_input_tokens_seen": 71634320,
      "step": 3322,
      "time_per_iteration": 2.7754335403442383
    },
    {
      "auxiliary_loss_clip": 0.01176082,
      "auxiliary_loss_mlp": 0.01027608,
      "balance_loss_clip": 1.05063915,
      "balance_loss_mlp": 1.01937675,
      "epoch": 0.3995671255936993,
      "flos": 19390433921280.0,
      "grad_norm": 1.9301946455489705,
      "language_loss": 0.7850585,
      "learning_rate": 2.7305093969584857e-06,
      "loss": 0.80709535,
      "num_input_tokens_seen": 71653145,
      "step": 3323,
      "time_per_iteration": 2.714846134185791
    },
    {
      "auxiliary_loss_clip": 0.01178166,
      "auxiliary_loss_mlp": 0.01036862,
      "balance_loss_clip": 1.05504704,
      "balance_loss_mlp": 1.02759886,
      "epoch": 0.3996873684843384,
      "flos": 23842638743040.0,
      "grad_norm": 2.0287697900760393,
      "language_loss": 0.80057836,
      "learning_rate": 2.729784190922272e-06,
      "loss": 0.82272863,
      "num_input_tokens_seen": 71674580,
      "step": 3324,
      "time_per_iteration": 2.6825597286224365
    },
    {
      "auxiliary_loss_clip": 0.01075458,
      "auxiliary_loss_mlp": 0.01002509,
      "balance_loss_clip": 1.02246857,
      "balance_loss_mlp": 1.00120378,
      "epoch": 0.39980761137497745,
      "flos": 66576877280640.0,
      "grad_norm": 0.9527137605519849,
      "language_loss": 0.57129878,
      "learning_rate": 2.729058874178378e-06,
      "loss": 0.59207845,
      "num_input_tokens_seen": 71745260,
      "step": 3325,
      "time_per_iteration": 3.334669828414917
    },
    {
      "auxiliary_loss_clip": 0.01181336,
      "auxiliary_loss_mlp": 0.01033898,
      "balance_loss_clip": 1.05659342,
      "balance_loss_mlp": 1.02336025,
      "epoch": 0.39992785426561656,
      "flos": 28549162834560.0,
      "grad_norm": 1.8168380772076949,
      "language_loss": 0.69237119,
      "learning_rate": 2.7283334468368315e-06,
      "loss": 0.71452355,
      "num_input_tokens_seen": 71766540,
      "step": 3326,
      "time_per_iteration": 2.7492082118988037
    },
    {
      "auxiliary_loss_clip": 0.01118484,
      "auxiliary_loss_mlp": 0.01032401,
      "balance_loss_clip": 1.03941774,
      "balance_loss_mlp": 1.0231328,
      "epoch": 0.4000480971562556,
      "flos": 15049408671360.0,
      "grad_norm": 1.862745677396568,
      "language_loss": 0.72906619,
      "learning_rate": 2.72760790900768e-06,
      "loss": 0.75057507,
      "num_input_tokens_seen": 71783125,
      "step": 3327,
      "time_per_iteration": 2.8966691493988037
    },
    {
      "auxiliary_loss_clip": 0.01200687,
      "auxiliary_loss_mlp": 0.01032201,
      "balance_loss_clip": 1.06130755,
      "balance_loss_mlp": 1.0230875,
      "epoch": 0.4001683400468947,
      "flos": 23915609222400.0,
      "grad_norm": 1.9548420149478867,
      "language_loss": 0.79226285,
      "learning_rate": 2.7268822608009875e-06,
      "loss": 0.81459171,
      "num_input_tokens_seen": 71802500,
      "step": 3328,
      "time_per_iteration": 3.006641387939453
    },
    {
      "auxiliary_loss_clip": 0.01175801,
      "auxiliary_loss_mlp": 0.01034904,
      "balance_loss_clip": 1.05477548,
      "balance_loss_mlp": 1.02514029,
      "epoch": 0.40028858293753383,
      "flos": 24352677912960.0,
      "grad_norm": 1.820468853546974,
      "language_loss": 0.78300178,
      "learning_rate": 2.726156502326834e-06,
      "loss": 0.80510879,
      "num_input_tokens_seen": 71823800,
      "step": 3329,
      "time_per_iteration": 296.24114322662354
    },
    {
      "auxiliary_loss_clip": 0.01055354,
      "auxiliary_loss_mlp": 0.010016,
      "balance_loss_clip": 1.01811099,
      "balance_loss_mlp": 1.00005019,
      "epoch": 0.4004088258281729,
      "flos": 66787025800320.0,
      "grad_norm": 0.6934914507312238,
      "language_loss": 0.6026184,
      "learning_rate": 2.725430633695316e-06,
      "loss": 0.62318796,
      "num_input_tokens_seen": 71886880,
      "step": 3330,
      "time_per_iteration": 3.335817575454712
    },
    {
      "auxiliary_loss_clip": 0.01085829,
      "auxiliary_loss_mlp": 0.01000749,
      "balance_loss_clip": 1.01977706,
      "balance_loss_mlp": 0.99941999,
      "epoch": 0.400529068718812,
      "flos": 58598386473600.0,
      "grad_norm": 0.8845317520200419,
      "language_loss": 0.57899404,
      "learning_rate": 2.7247046550165485e-06,
      "loss": 0.59985983,
      "num_input_tokens_seen": 71939005,
      "step": 3331,
      "time_per_iteration": 3.1694839000701904
    },
    {
      "auxiliary_loss_clip": 0.01199366,
      "auxiliary_loss_mlp": 0.01041565,
      "balance_loss_clip": 1.06032038,
      "balance_loss_mlp": 1.0323441,
      "epoch": 0.4006493116094511,
      "flos": 25377460934400.0,
      "grad_norm": 1.3872097127529532,
      "language_loss": 0.75907731,
      "learning_rate": 2.7239785664006606e-06,
      "loss": 0.78148657,
      "num_input_tokens_seen": 71962545,
      "step": 3332,
      "time_per_iteration": 2.712102174758911
    },
    {
      "auxiliary_loss_clip": 0.01080461,
      "auxiliary_loss_mlp": 0.01000894,
      "balance_loss_clip": 1.01876879,
      "balance_loss_mlp": 0.99958229,
      "epoch": 0.40076955450009016,
      "flos": 60280729822080.0,
      "grad_norm": 0.776257448086843,
      "language_loss": 0.61844611,
      "learning_rate": 2.7232523679578002e-06,
      "loss": 0.63925964,
      "num_input_tokens_seen": 72025625,
      "step": 3333,
      "time_per_iteration": 3.2683815956115723
    },
    {
      "auxiliary_loss_clip": 0.0118693,
      "auxiliary_loss_mlp": 0.01032413,
      "balance_loss_clip": 1.05826569,
      "balance_loss_mlp": 1.02363884,
      "epoch": 0.4008897973907293,
      "flos": 16617268396800.0,
      "grad_norm": 2.214289296357339,
      "language_loss": 0.78995949,
      "learning_rate": 2.7225260597981295e-06,
      "loss": 0.81215298,
      "num_input_tokens_seen": 72043330,
      "step": 3334,
      "time_per_iteration": 4.1876442432403564
    },
    {
      "auxiliary_loss_clip": 0.01162845,
      "auxiliary_loss_mlp": 0.00889437,
      "balance_loss_clip": 1.05272245,
      "balance_loss_mlp": 1.0010314,
      "epoch": 0.4010100402813684,
      "flos": 15377344865280.0,
      "grad_norm": 2.421725055703162,
      "language_loss": 0.78756958,
      "learning_rate": 2.721799642031831e-06,
      "loss": 0.80809242,
      "num_input_tokens_seen": 72059500,
      "step": 3335,
      "time_per_iteration": 2.7865350246429443
    },
    {
      "auxiliary_loss_clip": 0.01181984,
      "auxiliary_loss_mlp": 0.01031525,
      "balance_loss_clip": 1.05309808,
      "balance_loss_mlp": 1.02282619,
      "epoch": 0.40113028317200744,
      "flos": 13298835438720.0,
      "grad_norm": 2.0168861945359464,
      "language_loss": 0.77484727,
      "learning_rate": 2.721073114769101e-06,
      "loss": 0.79698241,
      "num_input_tokens_seen": 72077175,
      "step": 3336,
      "time_per_iteration": 2.626481533050537
    },
    {
      "auxiliary_loss_clip": 0.01162776,
      "auxiliary_loss_mlp": 0.01035159,
      "balance_loss_clip": 1.05458748,
      "balance_loss_mlp": 1.02640271,
      "epoch": 0.40125052606264655,
      "flos": 20668027841280.0,
      "grad_norm": 1.8506523813579614,
      "language_loss": 0.74597085,
      "learning_rate": 2.7203464781201523e-06,
      "loss": 0.76795018,
      "num_input_tokens_seen": 72096490,
      "step": 3337,
      "time_per_iteration": 2.772439956665039
    },
    {
      "auxiliary_loss_clip": 0.01201367,
      "auxiliary_loss_mlp": 0.01039614,
      "balance_loss_clip": 1.06056225,
      "balance_loss_mlp": 1.03002405,
      "epoch": 0.40137076895328566,
      "flos": 24607679541120.0,
      "grad_norm": 1.9853911250338647,
      "language_loss": 0.78161621,
      "learning_rate": 2.719619732195215e-06,
      "loss": 0.80402607,
      "num_input_tokens_seen": 72118130,
      "step": 3338,
      "time_per_iteration": 2.707230806350708
    },
    {
      "auxiliary_loss_clip": 0.0117012,
      "auxiliary_loss_mlp": 0.01035289,
      "balance_loss_clip": 1.05581713,
      "balance_loss_mlp": 1.02628243,
      "epoch": 0.4014910118439247,
      "flos": 24206593299840.0,
      "grad_norm": 1.4655976152221197,
      "language_loss": 0.7247889,
      "learning_rate": 2.7188928771045377e-06,
      "loss": 0.74684298,
      "num_input_tokens_seen": 72139450,
      "step": 3339,
      "time_per_iteration": 2.808979034423828
    },
    {
      "auxiliary_loss_clip": 0.01157135,
      "auxiliary_loss_mlp": 0.01037682,
      "balance_loss_clip": 1.04993093,
      "balance_loss_mlp": 1.02868748,
      "epoch": 0.4016112547345638,
      "flos": 26725080418560.0,
      "grad_norm": 2.051394893891617,
      "language_loss": 0.7996189,
      "learning_rate": 2.7181659129583815e-06,
      "loss": 0.82156706,
      "num_input_tokens_seen": 72159040,
      "step": 3340,
      "time_per_iteration": 4.966442346572876
    },
    {
      "auxiliary_loss_clip": 0.01165307,
      "auxiliary_loss_mlp": 0.0102763,
      "balance_loss_clip": 1.04793561,
      "balance_loss_mlp": 1.01775908,
      "epoch": 0.4017314976252029,
      "flos": 21288025520640.0,
      "grad_norm": 1.876249777567711,
      "language_loss": 0.76079774,
      "learning_rate": 2.7174388398670276e-06,
      "loss": 0.78272718,
      "num_input_tokens_seen": 72178220,
      "step": 3341,
      "time_per_iteration": 2.769850492477417
    },
    {
      "auxiliary_loss_clip": 0.01196634,
      "auxiliary_loss_mlp": 0.01026412,
      "balance_loss_clip": 1.05492902,
      "balance_loss_mlp": 1.01720345,
      "epoch": 0.401851740515842,
      "flos": 25484690010240.0,
      "grad_norm": 1.8292099505792123,
      "language_loss": 0.91913271,
      "learning_rate": 2.716711657940773e-06,
      "loss": 0.94136316,
      "num_input_tokens_seen": 72199230,
      "step": 3342,
      "time_per_iteration": 2.634005069732666
    },
    {
      "auxiliary_loss_clip": 0.01065906,
      "auxiliary_loss_mlp": 0.01005121,
      "balance_loss_clip": 1.0169307,
      "balance_loss_mlp": 1.00377357,
      "epoch": 0.4019719834064811,
      "flos": 55395334978560.0,
      "grad_norm": 0.8062229365603848,
      "language_loss": 0.56503087,
      "learning_rate": 2.7159843672899284e-06,
      "loss": 0.5857411,
      "num_input_tokens_seen": 72263430,
      "step": 3343,
      "time_per_iteration": 4.332052946090698
    },
    {
      "auxiliary_loss_clip": 0.01190066,
      "auxiliary_loss_mlp": 0.01031245,
      "balance_loss_clip": 1.05942011,
      "balance_loss_mlp": 1.02223933,
      "epoch": 0.40209222629712016,
      "flos": 18180100218240.0,
      "grad_norm": 1.9972460947250765,
      "language_loss": 0.81823307,
      "learning_rate": 2.715256968024825e-06,
      "loss": 0.84044617,
      "num_input_tokens_seen": 72280505,
      "step": 3344,
      "time_per_iteration": 2.588840961456299
    },
    {
      "auxiliary_loss_clip": 0.01186045,
      "auxiliary_loss_mlp": 0.01034263,
      "balance_loss_clip": 1.0567472,
      "balance_loss_mlp": 1.02517343,
      "epoch": 0.40221246918775927,
      "flos": 25961009287680.0,
      "grad_norm": 1.7394159176913946,
      "language_loss": 0.82540393,
      "learning_rate": 2.7145294602558083e-06,
      "loss": 0.84760702,
      "num_input_tokens_seen": 72301215,
      "step": 3345,
      "time_per_iteration": 2.7569632530212402
    },
    {
      "auxiliary_loss_clip": 0.01187095,
      "auxiliary_loss_mlp": 0.01033053,
      "balance_loss_clip": 1.05673456,
      "balance_loss_mlp": 1.02320647,
      "epoch": 0.4023327120783984,
      "flos": 33838912056960.0,
      "grad_norm": 2.716804400348511,
      "language_loss": 0.70498574,
      "learning_rate": 2.713801844093241e-06,
      "loss": 0.72718722,
      "num_input_tokens_seen": 72322365,
      "step": 3346,
      "time_per_iteration": 2.714834451675415
    },
    {
      "auxiliary_loss_clip": 0.01187809,
      "auxiliary_loss_mlp": 0.01028879,
      "balance_loss_clip": 1.0571388,
      "balance_loss_mlp": 1.02005708,
      "epoch": 0.40245295496903744,
      "flos": 26900252069760.0,
      "grad_norm": 2.0434211132331535,
      "language_loss": 0.88392127,
      "learning_rate": 2.7130741196475014e-06,
      "loss": 0.90608811,
      "num_input_tokens_seen": 72340495,
      "step": 3347,
      "time_per_iteration": 2.677945137023926
    },
    {
      "auxiliary_loss_clip": 0.011802,
      "auxiliary_loss_mlp": 0.01029524,
      "balance_loss_clip": 1.05704236,
      "balance_loss_mlp": 1.01965356,
      "epoch": 0.40257319785967655,
      "flos": 36902738436480.0,
      "grad_norm": 1.9230822179508769,
      "language_loss": 0.79156661,
      "learning_rate": 2.7123462870289848e-06,
      "loss": 0.81366384,
      "num_input_tokens_seen": 72360545,
      "step": 3348,
      "time_per_iteration": 2.8449370861053467
    },
    {
      "auxiliary_loss_clip": 0.01180621,
      "auxiliary_loss_mlp": 0.01028687,
      "balance_loss_clip": 1.05383909,
      "balance_loss_mlp": 1.01929307,
      "epoch": 0.40269344075031566,
      "flos": 24353180703360.0,
      "grad_norm": 1.6293954084983995,
      "language_loss": 0.80957353,
      "learning_rate": 2.711618346348102e-06,
      "loss": 0.83166665,
      "num_input_tokens_seen": 72381070,
      "step": 3349,
      "time_per_iteration": 2.7482593059539795
    },
    {
      "auxiliary_loss_clip": 0.01170966,
      "auxiliary_loss_mlp": 0.01036826,
      "balance_loss_clip": 1.05453742,
      "balance_loss_mlp": 1.02772474,
      "epoch": 0.4028136836409547,
      "flos": 14389657614720.0,
      "grad_norm": 1.8252116499693296,
      "language_loss": 0.63592458,
      "learning_rate": 2.7108902977152825e-06,
      "loss": 0.65800256,
      "num_input_tokens_seen": 72398970,
      "step": 3350,
      "time_per_iteration": 2.7306649684906006
    },
    {
      "auxiliary_loss_clip": 0.01186147,
      "auxiliary_loss_mlp": 0.0103264,
      "balance_loss_clip": 1.05652905,
      "balance_loss_mlp": 1.02355003,
      "epoch": 0.4029339265315938,
      "flos": 26136037284480.0,
      "grad_norm": 2.1972190160402523,
      "language_loss": 0.74614406,
      "learning_rate": 2.7101621412409704e-06,
      "loss": 0.768332,
      "num_input_tokens_seen": 72418455,
      "step": 3351,
      "time_per_iteration": 2.6770358085632324
    },
    {
      "auxiliary_loss_clip": 0.01197603,
      "auxiliary_loss_mlp": 0.01031104,
      "balance_loss_clip": 1.05746174,
      "balance_loss_mlp": 1.02196634,
      "epoch": 0.40305416942223293,
      "flos": 23256325042560.0,
      "grad_norm": 2.3040193368717445,
      "language_loss": 0.85854256,
      "learning_rate": 2.7094338770356256e-06,
      "loss": 0.88082957,
      "num_input_tokens_seen": 72437540,
      "step": 3352,
      "time_per_iteration": 2.6101222038269043
    },
    {
      "auxiliary_loss_clip": 0.01173218,
      "auxiliary_loss_mlp": 0.01028527,
      "balance_loss_clip": 1.05631709,
      "balance_loss_mlp": 1.01935983,
      "epoch": 0.403174412312872,
      "flos": 27089645506560.0,
      "grad_norm": 1.9681916475654748,
      "language_loss": 0.64575601,
      "learning_rate": 2.708705505209726e-06,
      "loss": 0.66777349,
      "num_input_tokens_seen": 72458315,
      "step": 3353,
      "time_per_iteration": 2.7118241786956787
    },
    {
      "auxiliary_loss_clip": 0.01148112,
      "auxiliary_loss_mlp": 0.01039995,
      "balance_loss_clip": 1.0480938,
      "balance_loss_mlp": 1.03111982,
      "epoch": 0.4032946552035111,
      "flos": 21756336065280.0,
      "grad_norm": 2.008542326771916,
      "language_loss": 0.91979712,
      "learning_rate": 2.7079770258737646e-06,
      "loss": 0.94167823,
      "num_input_tokens_seen": 72476225,
      "step": 3354,
      "time_per_iteration": 2.7651331424713135
    },
    {
      "auxiliary_loss_clip": 0.01161242,
      "auxiliary_loss_mlp": 0.01041462,
      "balance_loss_clip": 1.04999113,
      "balance_loss_mlp": 1.03149021,
      "epoch": 0.4034148980941502,
      "flos": 17343956448000.0,
      "grad_norm": 2.309487118838949,
      "language_loss": 0.7491197,
      "learning_rate": 2.707248439138251e-06,
      "loss": 0.77114677,
      "num_input_tokens_seen": 72492460,
      "step": 3355,
      "time_per_iteration": 2.6530416011810303
    },
    {
      "auxiliary_loss_clip": 0.01172487,
      "auxiliary_loss_mlp": 0.01034411,
      "balance_loss_clip": 1.05700231,
      "balance_loss_mlp": 1.02455258,
      "epoch": 0.40353514098478926,
      "flos": 22017838055040.0,
      "grad_norm": 2.242598676730064,
      "language_loss": 0.65474176,
      "learning_rate": 2.7065197451137114e-06,
      "loss": 0.67681074,
      "num_input_tokens_seen": 72513840,
      "step": 3356,
      "time_per_iteration": 2.720787286758423
    },
    {
      "auxiliary_loss_clip": 0.0117519,
      "auxiliary_loss_mlp": 0.01035153,
      "balance_loss_clip": 1.05658054,
      "balance_loss_mlp": 1.02553868,
      "epoch": 0.4036553838754284,
      "flos": 14246446089600.0,
      "grad_norm": 2.2964004446973036,
      "language_loss": 0.67455924,
      "learning_rate": 2.7057909439106894e-06,
      "loss": 0.69666266,
      "num_input_tokens_seen": 72531695,
      "step": 3357,
      "time_per_iteration": 2.6424829959869385
    },
    {
      "auxiliary_loss_clip": 0.011783,
      "auxiliary_loss_mlp": 0.00888451,
      "balance_loss_clip": 1.05405188,
      "balance_loss_mlp": 1.00083542,
      "epoch": 0.40377562676606743,
      "flos": 24790644443520.0,
      "grad_norm": 2.3221207461672684,
      "language_loss": 0.78353226,
      "learning_rate": 2.7050620356397417e-06,
      "loss": 0.80419976,
      "num_input_tokens_seen": 72550645,
      "step": 3358,
      "time_per_iteration": 2.6472208499908447
    },
    {
      "auxiliary_loss_clip": 0.01196143,
      "auxiliary_loss_mlp": 0.0102838,
      "balance_loss_clip": 1.06062317,
      "balance_loss_mlp": 1.0201124,
      "epoch": 0.40389586965670654,
      "flos": 24061226958720.0,
      "grad_norm": 2.326165805534407,
      "language_loss": 0.72352374,
      "learning_rate": 2.7043330204114437e-06,
      "loss": 0.7457689,
      "num_input_tokens_seen": 72569355,
      "step": 3359,
      "time_per_iteration": 2.62166690826416
    },
    {
      "auxiliary_loss_clip": 0.01192332,
      "auxiliary_loss_mlp": 0.01024491,
      "balance_loss_clip": 1.05635333,
      "balance_loss_mlp": 1.01529408,
      "epoch": 0.40401611254734565,
      "flos": 16399613934720.0,
      "grad_norm": 49.841827649540164,
      "language_loss": 0.85564291,
      "learning_rate": 2.7036038983363862e-06,
      "loss": 0.87781119,
      "num_input_tokens_seen": 72585960,
      "step": 3360,
      "time_per_iteration": 3.579770565032959
    },
    {
      "auxiliary_loss_clip": 0.01182343,
      "auxiliary_loss_mlp": 0.01034575,
      "balance_loss_clip": 1.05700779,
      "balance_loss_mlp": 1.02646303,
      "epoch": 0.4041363554379847,
      "flos": 23988220565760.0,
      "grad_norm": 1.7638847771317456,
      "language_loss": 0.84460735,
      "learning_rate": 2.702874669525177e-06,
      "loss": 0.86677659,
      "num_input_tokens_seen": 72604440,
      "step": 3361,
      "time_per_iteration": 2.677685499191284
    },
    {
      "auxiliary_loss_clip": 0.01168603,
      "auxiliary_loss_mlp": 0.01031163,
      "balance_loss_clip": 1.05622125,
      "balance_loss_mlp": 1.02197182,
      "epoch": 0.4042565983286238,
      "flos": 28401964899840.0,
      "grad_norm": 2.0249136073129184,
      "language_loss": 0.70026273,
      "learning_rate": 2.7021453340884394e-06,
      "loss": 0.72226042,
      "num_input_tokens_seen": 72622165,
      "step": 3362,
      "time_per_iteration": 2.744446039199829
    },
    {
      "auxiliary_loss_clip": 0.01165492,
      "auxiliary_loss_mlp": 0.00888275,
      "balance_loss_clip": 1.05396962,
      "balance_loss_mlp": 1.00083482,
      "epoch": 0.40437684121926293,
      "flos": 17710963660800.0,
      "grad_norm": 5.33601905949138,
      "language_loss": 0.7324298,
      "learning_rate": 2.7014158921368125e-06,
      "loss": 0.75296748,
      "num_input_tokens_seen": 72640490,
      "step": 3363,
      "time_per_iteration": 2.7274928092956543
    },
    {
      "auxiliary_loss_clip": 0.01195162,
      "auxiliary_loss_mlp": 0.01032882,
      "balance_loss_clip": 1.05867088,
      "balance_loss_mlp": 1.02345824,
      "epoch": 0.404497084109902,
      "flos": 24018959629440.0,
      "grad_norm": 1.897807486261986,
      "language_loss": 0.8558197,
      "learning_rate": 2.700686343780953e-06,
      "loss": 0.87810016,
      "num_input_tokens_seen": 72660360,
      "step": 3364,
      "time_per_iteration": 2.6255600452423096
    },
    {
      "auxiliary_loss_clip": 0.01173656,
      "auxiliary_loss_mlp": 0.01031118,
      "balance_loss_clip": 1.05186462,
      "balance_loss_mlp": 1.02252293,
      "epoch": 0.4046173270005411,
      "flos": 22929861306240.0,
      "grad_norm": 1.7304021276641888,
      "language_loss": 0.88012004,
      "learning_rate": 2.699956689131532e-06,
      "loss": 0.9021678,
      "num_input_tokens_seen": 72680345,
      "step": 3365,
      "time_per_iteration": 2.681093454360962
    },
    {
      "auxiliary_loss_clip": 0.01179866,
      "auxiliary_loss_mlp": 0.01028152,
      "balance_loss_clip": 1.0559305,
      "balance_loss_mlp": 1.01974213,
      "epoch": 0.4047375698911802,
      "flos": 20668135582080.0,
      "grad_norm": 2.3487111886405545,
      "language_loss": 0.85065043,
      "learning_rate": 2.699226928299238e-06,
      "loss": 0.87273061,
      "num_input_tokens_seen": 72698365,
      "step": 3366,
      "time_per_iteration": 4.6528918743133545
    },
    {
      "auxiliary_loss_clip": 0.01185626,
      "auxiliary_loss_mlp": 0.01029129,
      "balance_loss_clip": 1.05549359,
      "balance_loss_mlp": 1.02084446,
      "epoch": 0.40485781278181926,
      "flos": 28912865996160.0,
      "grad_norm": 2.3507286645060748,
      "language_loss": 0.7913664,
      "learning_rate": 2.698497061394774e-06,
      "loss": 0.81351399,
      "num_input_tokens_seen": 72716850,
      "step": 3367,
      "time_per_iteration": 2.7482433319091797
    },
    {
      "auxiliary_loss_clip": 0.01172916,
      "auxiliary_loss_mlp": 0.00888695,
      "balance_loss_clip": 1.05618668,
      "balance_loss_mlp": 1.00075543,
      "epoch": 0.40497805567245837,
      "flos": 23148377694720.0,
      "grad_norm": 1.828120849671837,
      "language_loss": 0.80672038,
      "learning_rate": 2.6977670885288627e-06,
      "loss": 0.82733649,
      "num_input_tokens_seen": 72738250,
      "step": 3368,
      "time_per_iteration": 2.751434326171875
    },
    {
      "auxiliary_loss_clip": 0.01166539,
      "auxiliary_loss_mlp": 0.01034547,
      "balance_loss_clip": 1.05337548,
      "balance_loss_mlp": 1.0256536,
      "epoch": 0.4050982985630975,
      "flos": 16289404030080.0,
      "grad_norm": 2.5937399062018796,
      "language_loss": 0.7553094,
      "learning_rate": 2.6970370098122378e-06,
      "loss": 0.77732027,
      "num_input_tokens_seen": 72755235,
      "step": 3369,
      "time_per_iteration": 3.715456008911133
    },
    {
      "auxiliary_loss_clip": 0.01198023,
      "auxiliary_loss_mlp": 0.0103171,
      "balance_loss_clip": 1.06066144,
      "balance_loss_mlp": 1.02298975,
      "epoch": 0.40521854145373654,
      "flos": 34459484353920.0,
      "grad_norm": 1.5871734512453572,
      "language_loss": 0.8643657,
      "learning_rate": 2.6963068253556535e-06,
      "loss": 0.88666308,
      "num_input_tokens_seen": 72776620,
      "step": 3370,
      "time_per_iteration": 2.871616840362549
    },
    {
      "auxiliary_loss_clip": 0.01195632,
      "auxiliary_loss_mlp": 0.01026243,
      "balance_loss_clip": 1.05844164,
      "balance_loss_mlp": 1.01696253,
      "epoch": 0.40533878434437565,
      "flos": 25331099454720.0,
      "grad_norm": 2.791639389632656,
      "language_loss": 0.85545313,
      "learning_rate": 2.6955765352698763e-06,
      "loss": 0.87767196,
      "num_input_tokens_seen": 72796765,
      "step": 3371,
      "time_per_iteration": 2.697713613510132
    },
    {
      "auxiliary_loss_clip": 0.01200078,
      "auxiliary_loss_mlp": 0.0103723,
      "balance_loss_clip": 1.05917692,
      "balance_loss_mlp": 1.02749026,
      "epoch": 0.40545902723501476,
      "flos": 15012061505280.0,
      "grad_norm": 2.241095368109525,
      "language_loss": 0.73372209,
      "learning_rate": 2.6948461396656923e-06,
      "loss": 0.75609517,
      "num_input_tokens_seen": 72814175,
      "step": 3372,
      "time_per_iteration": 2.5880794525146484
    },
    {
      "auxiliary_loss_clip": 0.01191771,
      "auxiliary_loss_mlp": 0.01029033,
      "balance_loss_clip": 1.05799866,
      "balance_loss_mlp": 1.01980031,
      "epoch": 0.4055792701256538,
      "flos": 25521103422720.0,
      "grad_norm": 2.1004716572583635,
      "language_loss": 0.74621314,
      "learning_rate": 2.6941156386539013e-06,
      "loss": 0.76842117,
      "num_input_tokens_seen": 72834125,
      "step": 3373,
      "time_per_iteration": 2.7013790607452393
    },
    {
      "auxiliary_loss_clip": 0.01172145,
      "auxiliary_loss_mlp": 0.01037372,
      "balance_loss_clip": 1.05803883,
      "balance_loss_mlp": 1.0288012,
      "epoch": 0.4056995130162929,
      "flos": 19574583972480.0,
      "grad_norm": 2.8634385596718643,
      "language_loss": 0.80715799,
      "learning_rate": 2.6933850323453203e-06,
      "loss": 0.8292532,
      "num_input_tokens_seen": 72852570,
      "step": 3374,
      "time_per_iteration": 2.6117749214172363
    },
    {
      "auxiliary_loss_clip": 0.01195641,
      "auxiliary_loss_mlp": 0.0102731,
      "balance_loss_clip": 1.05911529,
      "balance_loss_mlp": 1.01921546,
      "epoch": 0.405819755906932,
      "flos": 15413794191360.0,
      "grad_norm": 2.3619231161942174,
      "language_loss": 0.74842787,
      "learning_rate": 2.6926543208507806e-06,
      "loss": 0.7706573,
      "num_input_tokens_seen": 72871250,
      "step": 3375,
      "time_per_iteration": 2.5984368324279785
    },
    {
      "auxiliary_loss_clip": 0.01186219,
      "auxiliary_loss_mlp": 0.0103291,
      "balance_loss_clip": 1.05750585,
      "balance_loss_mlp": 1.02371883,
      "epoch": 0.4059399987975711,
      "flos": 21433930565760.0,
      "grad_norm": 2.0633136419174165,
      "language_loss": 0.80232024,
      "learning_rate": 2.6919235042811316e-06,
      "loss": 0.82451153,
      "num_input_tokens_seen": 72890035,
      "step": 3376,
      "time_per_iteration": 2.6140594482421875
    },
    {
      "auxiliary_loss_clip": 0.0116328,
      "auxiliary_loss_mlp": 0.01030461,
      "balance_loss_clip": 1.05293083,
      "balance_loss_mlp": 1.02096045,
      "epoch": 0.4060602416882102,
      "flos": 25556942217600.0,
      "grad_norm": 6.868320870816054,
      "language_loss": 0.76509231,
      "learning_rate": 2.691192582747237e-06,
      "loss": 0.78702974,
      "num_input_tokens_seen": 72909665,
      "step": 3377,
      "time_per_iteration": 2.7556352615356445
    },
    {
      "auxiliary_loss_clip": 0.01196482,
      "auxiliary_loss_mlp": 0.01030494,
      "balance_loss_clip": 1.05930042,
      "balance_loss_mlp": 1.02171981,
      "epoch": 0.40618048457884925,
      "flos": 23766759262080.0,
      "grad_norm": 1.788706222861083,
      "language_loss": 0.7399829,
      "learning_rate": 2.6904615563599765e-06,
      "loss": 0.76225269,
      "num_input_tokens_seen": 72929465,
      "step": 3378,
      "time_per_iteration": 2.619687795639038
    },
    {
      "auxiliary_loss_clip": 0.01163149,
      "auxiliary_loss_mlp": 0.01026569,
      "balance_loss_clip": 1.05271602,
      "balance_loss_mlp": 1.01807499,
      "epoch": 0.40630072746948837,
      "flos": 17639681120640.0,
      "grad_norm": 2.676255608943383,
      "language_loss": 0.83344603,
      "learning_rate": 2.6897304252302477e-06,
      "loss": 0.85534322,
      "num_input_tokens_seen": 72946785,
      "step": 3379,
      "time_per_iteration": 2.7374823093414307
    },
    {
      "auxiliary_loss_clip": 0.01063597,
      "auxiliary_loss_mlp": 0.01004795,
      "balance_loss_clip": 1.01921701,
      "balance_loss_mlp": 1.00347185,
      "epoch": 0.4064209703601275,
      "flos": 60836053063680.0,
      "grad_norm": 0.7876808634291262,
      "language_loss": 0.54806256,
      "learning_rate": 2.688999189468962e-06,
      "loss": 0.56874645,
      "num_input_tokens_seen": 73003215,
      "step": 3380,
      "time_per_iteration": 3.1564557552337646
    },
    {
      "auxiliary_loss_clip": 0.01180447,
      "auxiliary_loss_mlp": 0.01033727,
      "balance_loss_clip": 1.05470514,
      "balance_loss_mlp": 1.02521515,
      "epoch": 0.40654121325076653,
      "flos": 24024346669440.0,
      "grad_norm": 2.9069602024867183,
      "language_loss": 0.76836932,
      "learning_rate": 2.6882678491870464e-06,
      "loss": 0.79051101,
      "num_input_tokens_seen": 73023650,
      "step": 3381,
      "time_per_iteration": 2.6606149673461914
    },
    {
      "auxiliary_loss_clip": 0.01187769,
      "auxiliary_loss_mlp": 0.01030169,
      "balance_loss_clip": 1.05616903,
      "balance_loss_mlp": 1.02135396,
      "epoch": 0.40666145614140564,
      "flos": 27344252085120.0,
      "grad_norm": 2.924371774941879,
      "language_loss": 0.71529579,
      "learning_rate": 2.6875364044954453e-06,
      "loss": 0.73747516,
      "num_input_tokens_seen": 73043880,
      "step": 3382,
      "time_per_iteration": 2.7433996200561523
    },
    {
      "auxiliary_loss_clip": 0.01170406,
      "auxiliary_loss_mlp": 0.01034146,
      "balance_loss_clip": 1.0493679,
      "balance_loss_mlp": 1.02581882,
      "epoch": 0.40678169903204475,
      "flos": 26176724415360.0,
      "grad_norm": 1.5151502245668698,
      "language_loss": 0.82189637,
      "learning_rate": 2.6868048555051185e-06,
      "loss": 0.84394193,
      "num_input_tokens_seen": 73065410,
      "step": 3383,
      "time_per_iteration": 2.720036506652832
    },
    {
      "auxiliary_loss_clip": 0.01178836,
      "auxiliary_loss_mlp": 0.01027123,
      "balance_loss_clip": 1.05149233,
      "balance_loss_mlp": 1.01824188,
      "epoch": 0.4069019419226838,
      "flos": 28622420622720.0,
      "grad_norm": 2.3003650132661555,
      "language_loss": 0.8582809,
      "learning_rate": 2.686073202327041e-06,
      "loss": 0.88034046,
      "num_input_tokens_seen": 73084410,
      "step": 3384,
      "time_per_iteration": 2.9401657581329346
    },
    {
      "auxiliary_loss_clip": 0.01165576,
      "auxiliary_loss_mlp": 0.01035923,
      "balance_loss_clip": 1.05139446,
      "balance_loss_mlp": 1.02691054,
      "epoch": 0.4070221848133229,
      "flos": 25229006023680.0,
      "grad_norm": 1.8661697641358024,
      "language_loss": 0.73625547,
      "learning_rate": 2.6853414450722043e-06,
      "loss": 0.75827038,
      "num_input_tokens_seen": 73104075,
      "step": 3385,
      "time_per_iteration": 2.722074270248413
    },
    {
      "auxiliary_loss_clip": 0.01182045,
      "auxiliary_loss_mlp": 0.01033544,
      "balance_loss_clip": 1.05521524,
      "balance_loss_mlp": 1.02506208,
      "epoch": 0.40714242770396203,
      "flos": 18405224709120.0,
      "grad_norm": 1.921571586540686,
      "language_loss": 0.85632241,
      "learning_rate": 2.684609583851616e-06,
      "loss": 0.87847829,
      "num_input_tokens_seen": 73122250,
      "step": 3386,
      "time_per_iteration": 3.615449905395508
    },
    {
      "auxiliary_loss_clip": 0.01154162,
      "auxiliary_loss_mlp": 0.01034524,
      "balance_loss_clip": 1.05213046,
      "balance_loss_mlp": 1.02569675,
      "epoch": 0.4072626705946011,
      "flos": 30228920403840.0,
      "grad_norm": 1.7183116119249855,
      "language_loss": 0.80661958,
      "learning_rate": 2.683877618776297e-06,
      "loss": 0.82850641,
      "num_input_tokens_seen": 73144505,
      "step": 3387,
      "time_per_iteration": 2.842947483062744
    },
    {
      "auxiliary_loss_clip": 0.01166112,
      "auxiliary_loss_mlp": 0.01030847,
      "balance_loss_clip": 1.04954052,
      "balance_loss_mlp": 1.02153063,
      "epoch": 0.4073829134852402,
      "flos": 21834549930240.0,
      "grad_norm": 2.792628443881219,
      "language_loss": 0.74700725,
      "learning_rate": 2.6831455499572876e-06,
      "loss": 0.76897681,
      "num_input_tokens_seen": 73162440,
      "step": 3388,
      "time_per_iteration": 2.6858839988708496
    },
    {
      "auxiliary_loss_clip": 0.01192723,
      "auxiliary_loss_mlp": 0.01022184,
      "balance_loss_clip": 1.05555201,
      "balance_loss_mlp": 1.01349926,
      "epoch": 0.40750315637587925,
      "flos": 25260211964160.0,
      "grad_norm": 2.2973702839305195,
      "language_loss": 0.77984607,
      "learning_rate": 2.682413377505641e-06,
      "loss": 0.80199516,
      "num_input_tokens_seen": 73181245,
      "step": 3389,
      "time_per_iteration": 2.667485237121582
    },
    {
      "auxiliary_loss_clip": 0.01185757,
      "auxiliary_loss_mlp": 0.01030618,
      "balance_loss_clip": 1.05401421,
      "balance_loss_mlp": 1.02142096,
      "epoch": 0.40762339926651836,
      "flos": 19712767593600.0,
      "grad_norm": 2.1338262882305976,
      "language_loss": 0.76475191,
      "learning_rate": 2.6816811015324284e-06,
      "loss": 0.78691566,
      "num_input_tokens_seen": 73199295,
      "step": 3390,
      "time_per_iteration": 2.6208178997039795
    },
    {
      "auxiliary_loss_clip": 0.0108008,
      "auxiliary_loss_mlp": 0.01004133,
      "balance_loss_clip": 1.01538813,
      "balance_loss_mlp": 1.00283933,
      "epoch": 0.40774364215715747,
      "flos": 71449307314560.0,
      "grad_norm": 0.7279155643188912,
      "language_loss": 0.5672524,
      "learning_rate": 2.6809487221487343e-06,
      "loss": 0.58809459,
      "num_input_tokens_seen": 73258780,
      "step": 3391,
      "time_per_iteration": 4.114166021347046
    },
    {
      "auxiliary_loss_clip": 0.01175708,
      "auxiliary_loss_mlp": 0.01033104,
      "balance_loss_clip": 1.05135763,
      "balance_loss_mlp": 1.02423477,
      "epoch": 0.4078638850477965,
      "flos": 15084134144640.0,
      "grad_norm": 3.0593379503664346,
      "language_loss": 0.82275963,
      "learning_rate": 2.6802162394656605e-06,
      "loss": 0.8448478,
      "num_input_tokens_seen": 73275490,
      "step": 3392,
      "time_per_iteration": 3.553206205368042
    },
    {
      "auxiliary_loss_clip": 0.01170594,
      "auxiliary_loss_mlp": 0.01027723,
      "balance_loss_clip": 1.05182397,
      "balance_loss_mlp": 1.0190568,
      "epoch": 0.40798412793843564,
      "flos": 23842890138240.0,
      "grad_norm": 2.6346950060899257,
      "language_loss": 0.71548319,
      "learning_rate": 2.679483653594324e-06,
      "loss": 0.73746628,
      "num_input_tokens_seen": 73297260,
      "step": 3393,
      "time_per_iteration": 2.7035770416259766
    },
    {
      "auxiliary_loss_clip": 0.01185502,
      "auxiliary_loss_mlp": 0.0102969,
      "balance_loss_clip": 1.05477881,
      "balance_loss_mlp": 1.02116668,
      "epoch": 0.40810437082907475,
      "flos": 21065774117760.0,
      "grad_norm": 3.0884336696042016,
      "language_loss": 0.76248294,
      "learning_rate": 2.678750964645857e-06,
      "loss": 0.78463483,
      "num_input_tokens_seen": 73316340,
      "step": 3394,
      "time_per_iteration": 2.661008834838867
    },
    {
      "auxiliary_loss_clip": 0.0118532,
      "auxiliary_loss_mlp": 0.01035789,
      "balance_loss_clip": 1.05737555,
      "balance_loss_mlp": 1.02680016,
      "epoch": 0.4082246137197138,
      "flos": 11321377948800.0,
      "grad_norm": 2.28487872510482,
      "language_loss": 0.83189309,
      "learning_rate": 2.6780181727314094e-06,
      "loss": 0.85410416,
      "num_input_tokens_seen": 73331245,
      "step": 3395,
      "time_per_iteration": 3.6353511810302734
    },
    {
      "auxiliary_loss_clip": 0.01168195,
      "auxiliary_loss_mlp": 0.00888068,
      "balance_loss_clip": 1.05308294,
      "balance_loss_mlp": 1.00069547,
      "epoch": 0.4083448566103529,
      "flos": 19062569554560.0,
      "grad_norm": 2.232160110131026,
      "language_loss": 0.78180444,
      "learning_rate": 2.6772852779621435e-06,
      "loss": 0.80236709,
      "num_input_tokens_seen": 73349105,
      "step": 3396,
      "time_per_iteration": 2.716308355331421
    },
    {
      "auxiliary_loss_clip": 0.01178409,
      "auxiliary_loss_mlp": 0.00887228,
      "balance_loss_clip": 1.05622089,
      "balance_loss_mlp": 1.00069427,
      "epoch": 0.408465099500992,
      "flos": 23550254035200.0,
      "grad_norm": 2.021833357657987,
      "language_loss": 0.86821675,
      "learning_rate": 2.676552280449239e-06,
      "loss": 0.88887316,
      "num_input_tokens_seen": 73368990,
      "step": 3397,
      "time_per_iteration": 2.6867380142211914
    },
    {
      "auxiliary_loss_clip": 0.01176683,
      "auxiliary_loss_mlp": 0.01029691,
      "balance_loss_clip": 1.05362594,
      "balance_loss_mlp": 1.0208931,
      "epoch": 0.4085853423916311,
      "flos": 12750012558720.0,
      "grad_norm": 5.95063256740635,
      "language_loss": 0.75741333,
      "learning_rate": 2.6758191803038917e-06,
      "loss": 0.77947712,
      "num_input_tokens_seen": 73387485,
      "step": 3398,
      "time_per_iteration": 2.6256327629089355
    },
    {
      "auxiliary_loss_clip": 0.01142942,
      "auxiliary_loss_mlp": 0.01031144,
      "balance_loss_clip": 1.05275917,
      "balance_loss_mlp": 1.02251959,
      "epoch": 0.4087055852822702,
      "flos": 24353072962560.0,
      "grad_norm": 1.559326467004408,
      "language_loss": 0.8258689,
      "learning_rate": 2.6750859776373125e-06,
      "loss": 0.84760976,
      "num_input_tokens_seen": 73406940,
      "step": 3399,
      "time_per_iteration": 2.82883620262146
    },
    {
      "auxiliary_loss_clip": 0.01052324,
      "auxiliary_loss_mlp": 0.01003781,
      "balance_loss_clip": 1.01465893,
      "balance_loss_mlp": 1.00229704,
      "epoch": 0.4088258281729093,
      "flos": 66387950720640.0,
      "grad_norm": 0.7669591290984766,
      "language_loss": 0.60338473,
      "learning_rate": 2.674352672560727e-06,
      "loss": 0.62394583,
      "num_input_tokens_seen": 73468385,
      "step": 3400,
      "time_per_iteration": 3.2999417781829834
    },
    {
      "auxiliary_loss_clip": 0.01163332,
      "auxiliary_loss_mlp": 0.01034215,
      "balance_loss_clip": 1.05043221,
      "balance_loss_mlp": 1.02501225,
      "epoch": 0.40894607106354836,
      "flos": 20449260057600.0,
      "grad_norm": 1.7159579107167011,
      "language_loss": 0.76729554,
      "learning_rate": 2.673619265185377e-06,
      "loss": 0.78927094,
      "num_input_tokens_seen": 73488225,
      "step": 3401,
      "time_per_iteration": 2.7371954917907715
    },
    {
      "auxiliary_loss_clip": 0.0118829,
      "auxiliary_loss_mlp": 0.0103516,
      "balance_loss_clip": 1.05661154,
      "balance_loss_mlp": 1.02599859,
      "epoch": 0.40906631395418747,
      "flos": 27053627143680.0,
      "grad_norm": 1.758027101008451,
      "language_loss": 0.78083634,
      "learning_rate": 2.672885755622521e-06,
      "loss": 0.8030709,
      "num_input_tokens_seen": 73510640,
      "step": 3402,
      "time_per_iteration": 2.6904821395874023
    },
    {
      "auxiliary_loss_clip": 0.01153445,
      "auxiliary_loss_mlp": 0.01029351,
      "balance_loss_clip": 1.04977286,
      "balance_loss_mlp": 1.02068472,
      "epoch": 0.4091865568448266,
      "flos": 25484151306240.0,
      "grad_norm": 2.3186292448327874,
      "language_loss": 0.69878083,
      "learning_rate": 2.67215214398343e-06,
      "loss": 0.72060883,
      "num_input_tokens_seen": 73530655,
      "step": 3403,
      "time_per_iteration": 2.7825846672058105
    },
    {
      "auxiliary_loss_clip": 0.01155479,
      "auxiliary_loss_mlp": 0.01034523,
      "balance_loss_clip": 1.0470047,
      "balance_loss_mlp": 1.02534437,
      "epoch": 0.40930679973546563,
      "flos": 28657864368000.0,
      "grad_norm": 2.0508293501537147,
      "language_loss": 0.78203118,
      "learning_rate": 2.671418430379393e-06,
      "loss": 0.80393124,
      "num_input_tokens_seen": 73549340,
      "step": 3404,
      "time_per_iteration": 2.8517005443573
    },
    {
      "auxiliary_loss_clip": 0.01196066,
      "auxiliary_loss_mlp": 0.01028777,
      "balance_loss_clip": 1.05782652,
      "balance_loss_mlp": 1.01998806,
      "epoch": 0.40942704262610474,
      "flos": 20886292834560.0,
      "grad_norm": 2.082187822326164,
      "language_loss": 0.83319616,
      "learning_rate": 2.670684614921715e-06,
      "loss": 0.85544455,
      "num_input_tokens_seen": 73568315,
      "step": 3405,
      "time_per_iteration": 2.5878255367279053
    },
    {
      "auxiliary_loss_clip": 0.01177529,
      "auxiliary_loss_mlp": 0.01039794,
      "balance_loss_clip": 1.05382252,
      "balance_loss_mlp": 1.03031731,
      "epoch": 0.4095472855167438,
      "flos": 21618080616960.0,
      "grad_norm": 2.0503806629011896,
      "language_loss": 0.69215703,
      "learning_rate": 2.6699506977217128e-06,
      "loss": 0.71433026,
      "num_input_tokens_seen": 73588490,
      "step": 3406,
      "time_per_iteration": 2.7560787200927734
    },
    {
      "auxiliary_loss_clip": 0.01181081,
      "auxiliary_loss_mlp": 0.01030179,
      "balance_loss_clip": 1.0567944,
      "balance_loss_mlp": 1.02156007,
      "epoch": 0.4096675284073829,
      "flos": 27926112499200.0,
      "grad_norm": 2.308577420763947,
      "language_loss": 0.69645095,
      "learning_rate": 2.6692166788907233e-06,
      "loss": 0.71856356,
      "num_input_tokens_seen": 73608685,
      "step": 3407,
      "time_per_iteration": 2.7120018005371094
    },
    {
      "auxiliary_loss_clip": 0.01175507,
      "auxiliary_loss_mlp": 0.01029076,
      "balance_loss_clip": 1.05232525,
      "balance_loss_mlp": 1.02038586,
      "epoch": 0.409787771298022,
      "flos": 19206607092480.0,
      "grad_norm": 1.8675238768440456,
      "language_loss": 0.76778841,
      "learning_rate": 2.6684825585400957e-06,
      "loss": 0.78983426,
      "num_input_tokens_seen": 73627630,
      "step": 3408,
      "time_per_iteration": 2.7270348072052
    },
    {
      "auxiliary_loss_clip": 0.01062684,
      "auxiliary_loss_mlp": 0.01000579,
      "balance_loss_clip": 1.01468563,
      "balance_loss_mlp": 0.99938059,
      "epoch": 0.4099080141886611,
      "flos": 59269234832640.0,
      "grad_norm": 0.8105038877234672,
      "language_loss": 0.65119994,
      "learning_rate": 2.6677483367811947e-06,
      "loss": 0.67183256,
      "num_input_tokens_seen": 73687670,
      "step": 3409,
      "time_per_iteration": 3.353487253189087
    },
    {
      "auxiliary_loss_clip": 0.01188161,
      "auxiliary_loss_mlp": 0.01029684,
      "balance_loss_clip": 1.05532026,
      "balance_loss_mlp": 1.02141047,
      "epoch": 0.4100282570793002,
      "flos": 21906443001600.0,
      "grad_norm": 2.060366725861383,
      "language_loss": 0.75387597,
      "learning_rate": 2.6670140137254028e-06,
      "loss": 0.77605438,
      "num_input_tokens_seen": 73707145,
      "step": 3410,
      "time_per_iteration": 2.6883695125579834
    },
    {
      "auxiliary_loss_clip": 0.01151775,
      "auxiliary_loss_mlp": 0.01035898,
      "balance_loss_clip": 1.05192626,
      "balance_loss_mlp": 1.02661157,
      "epoch": 0.4101484999699393,
      "flos": 18551596631040.0,
      "grad_norm": 2.9973781844220255,
      "language_loss": 0.89773893,
      "learning_rate": 2.666279589484115e-06,
      "loss": 0.91961563,
      "num_input_tokens_seen": 73725045,
      "step": 3411,
      "time_per_iteration": 2.8146064281463623
    },
    {
      "auxiliary_loss_clip": 0.01153121,
      "auxiliary_loss_mlp": 0.01027771,
      "balance_loss_clip": 1.04707432,
      "balance_loss_mlp": 1.01947403,
      "epoch": 0.41026874286057835,
      "flos": 19094529680640.0,
      "grad_norm": 2.334090874024492,
      "language_loss": 0.81211805,
      "learning_rate": 2.6655450641687435e-06,
      "loss": 0.83392692,
      "num_input_tokens_seen": 73742610,
      "step": 3412,
      "time_per_iteration": 3.6795949935913086
    },
    {
      "auxiliary_loss_clip": 0.01196156,
      "auxiliary_loss_mlp": 0.01036572,
      "balance_loss_clip": 1.05932689,
      "balance_loss_mlp": 1.02866864,
      "epoch": 0.41038898575121746,
      "flos": 31209568588800.0,
      "grad_norm": 1.770720828558982,
      "language_loss": 0.69063586,
      "learning_rate": 2.664810437890715e-06,
      "loss": 0.71296316,
      "num_input_tokens_seen": 73764280,
      "step": 3413,
      "time_per_iteration": 2.789681911468506
    },
    {
      "auxiliary_loss_clip": 0.01135705,
      "auxiliary_loss_mlp": 0.0102786,
      "balance_loss_clip": 1.05430198,
      "balance_loss_mlp": 1.01944423,
      "epoch": 0.41050922864185657,
      "flos": 14355865895040.0,
      "grad_norm": 2.310314357288398,
      "language_loss": 0.79550588,
      "learning_rate": 2.6640757107614714e-06,
      "loss": 0.81714159,
      "num_input_tokens_seen": 73782375,
      "step": 3414,
      "time_per_iteration": 2.7740676403045654
    },
    {
      "auxiliary_loss_clip": 0.01156368,
      "auxiliary_loss_mlp": 0.01036216,
      "balance_loss_clip": 1.05075288,
      "balance_loss_mlp": 1.02706075,
      "epoch": 0.4106294715324956,
      "flos": 30956290813440.0,
      "grad_norm": 2.1803801883268505,
      "language_loss": 0.69297683,
      "learning_rate": 2.6633408828924697e-06,
      "loss": 0.7149027,
      "num_input_tokens_seen": 73801240,
      "step": 3415,
      "time_per_iteration": 2.816538095474243
    },
    {
      "auxiliary_loss_clip": 0.01170883,
      "auxiliary_loss_mlp": 0.01032016,
      "balance_loss_clip": 1.0533278,
      "balance_loss_mlp": 1.02333736,
      "epoch": 0.41074971442313474,
      "flos": 24457321209600.0,
      "grad_norm": 1.7691377226085703,
      "language_loss": 0.70140582,
      "learning_rate": 2.662605954395185e-06,
      "loss": 0.72343481,
      "num_input_tokens_seen": 73821200,
      "step": 3416,
      "time_per_iteration": 2.7852745056152344
    },
    {
      "auxiliary_loss_clip": 0.01184997,
      "auxiliary_loss_mlp": 0.01025101,
      "balance_loss_clip": 1.05327702,
      "balance_loss_mlp": 1.0166018,
      "epoch": 0.41086995731377385,
      "flos": 21542991235200.0,
      "grad_norm": 4.3049117298804145,
      "language_loss": 0.8390975,
      "learning_rate": 2.6618709253811027e-06,
      "loss": 0.86119843,
      "num_input_tokens_seen": 73840655,
      "step": 3417,
      "time_per_iteration": 3.6882145404815674
    },
    {
      "auxiliary_loss_clip": 0.01188977,
      "auxiliary_loss_mlp": 0.01032396,
      "balance_loss_clip": 1.05693674,
      "balance_loss_mlp": 1.02385163,
      "epoch": 0.4109902002044129,
      "flos": 20702753314560.0,
      "grad_norm": 1.6208261466797398,
      "language_loss": 0.87877798,
      "learning_rate": 2.6611357959617277e-06,
      "loss": 0.90099174,
      "num_input_tokens_seen": 73860275,
      "step": 3418,
      "time_per_iteration": 3.554551839828491
    },
    {
      "auxiliary_loss_clip": 0.01157316,
      "auxiliary_loss_mlp": 0.01031786,
      "balance_loss_clip": 1.05206251,
      "balance_loss_mlp": 1.02277398,
      "epoch": 0.411110443095052,
      "flos": 18179992477440.0,
      "grad_norm": 1.9008389594989616,
      "language_loss": 0.90979069,
      "learning_rate": 2.660400566248578e-06,
      "loss": 0.93168169,
      "num_input_tokens_seen": 73878400,
      "step": 3419,
      "time_per_iteration": 2.6794121265411377
    },
    {
      "auxiliary_loss_clip": 0.01165923,
      "auxiliary_loss_mlp": 0.01032644,
      "balance_loss_clip": 1.05302668,
      "balance_loss_mlp": 1.02373362,
      "epoch": 0.41123068598569107,
      "flos": 14575244209920.0,
      "grad_norm": 3.940415810032776,
      "language_loss": 0.67430848,
      "learning_rate": 2.6596652363531876e-06,
      "loss": 0.69629413,
      "num_input_tokens_seen": 73894275,
      "step": 3420,
      "time_per_iteration": 3.6657803058624268
    },
    {
      "auxiliary_loss_clip": 0.01193643,
      "auxiliary_loss_mlp": 0.0103141,
      "balance_loss_clip": 1.05919313,
      "balance_loss_mlp": 1.0228982,
      "epoch": 0.4113509288763302,
      "flos": 21177995184000.0,
      "grad_norm": 1.9545828689215885,
      "language_loss": 0.78171313,
      "learning_rate": 2.6589298063871055e-06,
      "loss": 0.80396366,
      "num_input_tokens_seen": 73914450,
      "step": 3421,
      "time_per_iteration": 2.6396796703338623
    },
    {
      "auxiliary_loss_clip": 0.01194073,
      "auxiliary_loss_mlp": 0.01030863,
      "balance_loss_clip": 1.05763865,
      "balance_loss_mlp": 1.02192879,
      "epoch": 0.4114711717669693,
      "flos": 18442212739200.0,
      "grad_norm": 2.504282773194039,
      "language_loss": 0.69753057,
      "learning_rate": 2.658194276461895e-06,
      "loss": 0.71977991,
      "num_input_tokens_seen": 73932375,
      "step": 3422,
      "time_per_iteration": 2.562760353088379
    },
    {
      "auxiliary_loss_clip": 0.01172901,
      "auxiliary_loss_mlp": 0.01039877,
      "balance_loss_clip": 1.04928827,
      "balance_loss_mlp": 1.02918983,
      "epoch": 0.41159141465760835,
      "flos": 27233395735680.0,
      "grad_norm": 2.460428610724026,
      "language_loss": 0.67386246,
      "learning_rate": 2.6574586466891368e-06,
      "loss": 0.6959902,
      "num_input_tokens_seen": 73952850,
      "step": 3423,
      "time_per_iteration": 2.7567265033721924
    },
    {
      "auxiliary_loss_clip": 0.0117624,
      "auxiliary_loss_mlp": 0.00887538,
      "balance_loss_clip": 1.05569911,
      "balance_loss_mlp": 1.00061977,
      "epoch": 0.41171165754824746,
      "flos": 20006876154240.0,
      "grad_norm": 5.980443011536536,
      "language_loss": 0.64955086,
      "learning_rate": 2.6567229171804247e-06,
      "loss": 0.67018861,
      "num_input_tokens_seen": 73970735,
      "step": 3424,
      "time_per_iteration": 2.68159556388855
    },
    {
      "auxiliary_loss_clip": 0.01170672,
      "auxiliary_loss_mlp": 0.01036043,
      "balance_loss_clip": 1.04980969,
      "balance_loss_mlp": 1.02644682,
      "epoch": 0.41183190043888657,
      "flos": 18004318035840.0,
      "grad_norm": 2.6863440979814,
      "language_loss": 0.87403136,
      "learning_rate": 2.655987088047368e-06,
      "loss": 0.89609849,
      "num_input_tokens_seen": 73989080,
      "step": 3425,
      "time_per_iteration": 2.7619621753692627
    },
    {
      "auxiliary_loss_clip": 0.01170181,
      "auxiliary_loss_mlp": 0.01036552,
      "balance_loss_clip": 1.05277002,
      "balance_loss_mlp": 1.02728939,
      "epoch": 0.4119521433295256,
      "flos": 27163370171520.0,
      "grad_norm": 2.143379904000488,
      "language_loss": 0.78982252,
      "learning_rate": 2.6552511594015912e-06,
      "loss": 0.81188989,
      "num_input_tokens_seen": 74009470,
      "step": 3426,
      "time_per_iteration": 2.7445297241210938
    },
    {
      "auxiliary_loss_clip": 0.01167537,
      "auxiliary_loss_mlp": 0.01035522,
      "balance_loss_clip": 1.04744804,
      "balance_loss_mlp": 1.02587235,
      "epoch": 0.41207238622016473,
      "flos": 15122020014720.0,
      "grad_norm": 2.408394310124801,
      "language_loss": 0.85677212,
      "learning_rate": 2.654515131354735e-06,
      "loss": 0.87880272,
      "num_input_tokens_seen": 74027735,
      "step": 3427,
      "time_per_iteration": 2.6949141025543213
    },
    {
      "auxiliary_loss_clip": 0.01165989,
      "auxiliary_loss_mlp": 0.01029154,
      "balance_loss_clip": 1.05449653,
      "balance_loss_mlp": 1.02030885,
      "epoch": 0.41219262911080384,
      "flos": 27052872958080.0,
      "grad_norm": 2.392689132355269,
      "language_loss": 0.85119957,
      "learning_rate": 2.653779004018453e-06,
      "loss": 0.87315106,
      "num_input_tokens_seen": 74048300,
      "step": 3428,
      "time_per_iteration": 2.780864953994751
    },
    {
      "auxiliary_loss_clip": 0.01167199,
      "auxiliary_loss_mlp": 0.01031672,
      "balance_loss_clip": 1.05252683,
      "balance_loss_mlp": 1.02218866,
      "epoch": 0.4123128720014429,
      "flos": 24686360282880.0,
      "grad_norm": 1.8193963612274855,
      "language_loss": 0.82036453,
      "learning_rate": 2.653042777504417e-06,
      "loss": 0.84235328,
      "num_input_tokens_seen": 74070890,
      "step": 3429,
      "time_per_iteration": 2.8066611289978027
    },
    {
      "auxiliary_loss_clip": 0.01181357,
      "auxiliary_loss_mlp": 0.01033363,
      "balance_loss_clip": 1.05305266,
      "balance_loss_mlp": 1.02399969,
      "epoch": 0.412433114892082,
      "flos": 26244774731520.0,
      "grad_norm": 1.7650799985840797,
      "language_loss": 0.80414462,
      "learning_rate": 2.6523064519243105e-06,
      "loss": 0.8262918,
      "num_input_tokens_seen": 74090460,
      "step": 3430,
      "time_per_iteration": 2.779008388519287
    },
    {
      "auxiliary_loss_clip": 0.01183738,
      "auxiliary_loss_mlp": 0.01035667,
      "balance_loss_clip": 1.05563378,
      "balance_loss_mlp": 1.02600491,
      "epoch": 0.4125533577827211,
      "flos": 21361031913600.0,
      "grad_norm": 2.186767451220826,
      "language_loss": 0.78417861,
      "learning_rate": 2.6515700273898333e-06,
      "loss": 0.8063727,
      "num_input_tokens_seen": 74108335,
      "step": 3431,
      "time_per_iteration": 2.6586852073669434
    },
    {
      "auxiliary_loss_clip": 0.01162317,
      "auxiliary_loss_mlp": 0.01039125,
      "balance_loss_clip": 1.05148745,
      "balance_loss_mlp": 1.03001177,
      "epoch": 0.4126736006733602,
      "flos": 26067556005120.0,
      "grad_norm": 2.092682882988426,
      "language_loss": 0.68967021,
      "learning_rate": 2.6508335040127018e-06,
      "loss": 0.71168464,
      "num_input_tokens_seen": 74128030,
      "step": 3432,
      "time_per_iteration": 2.7640671730041504
    },
    {
      "auxiliary_loss_clip": 0.01188067,
      "auxiliary_loss_mlp": 0.01031712,
      "balance_loss_clip": 1.05702925,
      "balance_loss_mlp": 1.02308774,
      "epoch": 0.4127938435639993,
      "flos": 25666146541440.0,
      "grad_norm": 1.7994786833564556,
      "language_loss": 0.76974589,
      "learning_rate": 2.6500968819046446e-06,
      "loss": 0.79194367,
      "num_input_tokens_seen": 74148330,
      "step": 3433,
      "time_per_iteration": 2.6831347942352295
    },
    {
      "auxiliary_loss_clip": 0.01148659,
      "auxiliary_loss_mlp": 0.01029693,
      "balance_loss_clip": 1.04642951,
      "balance_loss_mlp": 1.02096653,
      "epoch": 0.4129140864546384,
      "flos": 17995914253440.0,
      "grad_norm": 2.522368467154584,
      "language_loss": 0.58622718,
      "learning_rate": 2.649360161177408e-06,
      "loss": 0.60801071,
      "num_input_tokens_seen": 74163390,
      "step": 3434,
      "time_per_iteration": 2.7108254432678223
    },
    {
      "auxiliary_loss_clip": 0.01187233,
      "auxiliary_loss_mlp": 0.01037358,
      "balance_loss_clip": 1.05443549,
      "balance_loss_mlp": 1.02822709,
      "epoch": 0.41303432934527745,
      "flos": 23732895715200.0,
      "grad_norm": 1.8365183817922583,
      "language_loss": 0.73444378,
      "learning_rate": 2.6486233419427504e-06,
      "loss": 0.75668967,
      "num_input_tokens_seen": 74183205,
      "step": 3435,
      "time_per_iteration": 2.6848561763763428
    },
    {
      "auxiliary_loss_clip": 0.01158938,
      "auxiliary_loss_mlp": 0.01031311,
      "balance_loss_clip": 1.055601,
      "balance_loss_mlp": 1.02203012,
      "epoch": 0.41315457223591656,
      "flos": 19755286318080.0,
      "grad_norm": 4.732628704139484,
      "language_loss": 0.75217593,
      "learning_rate": 2.6478864243124484e-06,
      "loss": 0.77407837,
      "num_input_tokens_seen": 74202870,
      "step": 3436,
      "time_per_iteration": 2.7990336418151855
    },
    {
      "auxiliary_loss_clip": 0.01181913,
      "auxiliary_loss_mlp": 0.01031125,
      "balance_loss_clip": 1.05120707,
      "balance_loss_mlp": 1.02269137,
      "epoch": 0.4132748151265556,
      "flos": 20923316778240.0,
      "grad_norm": 2.075412746537397,
      "language_loss": 0.85477513,
      "learning_rate": 2.6471494083982903e-06,
      "loss": 0.8769055,
      "num_input_tokens_seen": 74222255,
      "step": 3437,
      "time_per_iteration": 2.7291269302368164
    },
    {
      "auxiliary_loss_clip": 0.0116448,
      "auxiliary_loss_mlp": 0.0103238,
      "balance_loss_clip": 1.04883254,
      "balance_loss_mlp": 1.02340913,
      "epoch": 0.4133950580171947,
      "flos": 32232520016640.0,
      "grad_norm": 2.381086942199271,
      "language_loss": 0.74271095,
      "learning_rate": 2.6464122943120818e-06,
      "loss": 0.76467961,
      "num_input_tokens_seen": 74242480,
      "step": 3438,
      "time_per_iteration": 3.7175891399383545
    },
    {
      "auxiliary_loss_clip": 0.01166663,
      "auxiliary_loss_mlp": 0.01034013,
      "balance_loss_clip": 1.0561583,
      "balance_loss_mlp": 1.02511406,
      "epoch": 0.41351530090783384,
      "flos": 23292487059840.0,
      "grad_norm": 2.7739075619900553,
      "language_loss": 0.82047772,
      "learning_rate": 2.645675082165642e-06,
      "loss": 0.84248453,
      "num_input_tokens_seen": 74258690,
      "step": 3439,
      "time_per_iteration": 2.720266342163086
    },
    {
      "auxiliary_loss_clip": 0.01177056,
      "auxiliary_loss_mlp": 0.01036173,
      "balance_loss_clip": 1.05816257,
      "balance_loss_mlp": 1.02698159,
      "epoch": 0.4136355437984729,
      "flos": 25593571111680.0,
      "grad_norm": 2.5085734812053286,
      "language_loss": 0.75139034,
      "learning_rate": 2.644937772070806e-06,
      "loss": 0.77352262,
      "num_input_tokens_seen": 74277135,
      "step": 3440,
      "time_per_iteration": 2.7272589206695557
    },
    {
      "auxiliary_loss_clip": 0.01194936,
      "auxiliary_loss_mlp": 0.01032576,
      "balance_loss_clip": 1.05750608,
      "balance_loss_mlp": 1.02368295,
      "epoch": 0.413755786689112,
      "flos": 19828615933440.0,
      "grad_norm": 2.279426827043185,
      "language_loss": 0.83422375,
      "learning_rate": 2.6442003641394225e-06,
      "loss": 0.8564989,
      "num_input_tokens_seen": 74294730,
      "step": 3441,
      "time_per_iteration": 2.6566355228424072
    },
    {
      "auxiliary_loss_clip": 0.01168524,
      "auxiliary_loss_mlp": 0.01031634,
      "balance_loss_clip": 1.05019081,
      "balance_loss_mlp": 1.02293754,
      "epoch": 0.4138760295797511,
      "flos": 26870446759680.0,
      "grad_norm": 1.424432606370541,
      "language_loss": 0.83924627,
      "learning_rate": 2.643462858483356e-06,
      "loss": 0.8612479,
      "num_input_tokens_seen": 74315015,
      "step": 3442,
      "time_per_iteration": 2.7221133708953857
    },
    {
      "auxiliary_loss_clip": 0.01149752,
      "auxiliary_loss_mlp": 0.01030574,
      "balance_loss_clip": 1.0487349,
      "balance_loss_mlp": 1.02160966,
      "epoch": 0.41399627247039017,
      "flos": 16399254798720.0,
      "grad_norm": 2.113301844040539,
      "language_loss": 0.72478777,
      "learning_rate": 2.6427252552144856e-06,
      "loss": 0.74659097,
      "num_input_tokens_seen": 74333665,
      "step": 3443,
      "time_per_iteration": 3.7307538986206055
    },
    {
      "auxiliary_loss_clip": 0.01191636,
      "auxiliary_loss_mlp": 0.01036631,
      "balance_loss_clip": 1.05482495,
      "balance_loss_mlp": 1.02723098,
      "epoch": 0.4141165153610293,
      "flos": 22930220442240.0,
      "grad_norm": 3.1467570210901434,
      "language_loss": 0.74751294,
      "learning_rate": 2.6419875544447044e-06,
      "loss": 0.76979554,
      "num_input_tokens_seen": 74355065,
      "step": 3444,
      "time_per_iteration": 3.4784085750579834
    },
    {
      "auxiliary_loss_clip": 0.01195786,
      "auxiliary_loss_mlp": 0.01034022,
      "balance_loss_clip": 1.05788648,
      "balance_loss_mlp": 1.02529001,
      "epoch": 0.4142367582516684,
      "flos": 25192556697600.0,
      "grad_norm": 1.621576085598924,
      "language_loss": 0.71555877,
      "learning_rate": 2.6412497562859218e-06,
      "loss": 0.73785686,
      "num_input_tokens_seen": 74376345,
      "step": 3445,
      "time_per_iteration": 2.780242443084717
    },
    {
      "auxiliary_loss_clip": 0.0118937,
      "auxiliary_loss_mlp": 0.01029541,
      "balance_loss_clip": 1.05623841,
      "balance_loss_mlp": 1.02061212,
      "epoch": 0.41435700114230745,
      "flos": 21690476478720.0,
      "grad_norm": 2.9566348842917054,
      "language_loss": 0.76458478,
      "learning_rate": 2.6405118608500617e-06,
      "loss": 0.78677392,
      "num_input_tokens_seen": 74395170,
      "step": 3446,
      "time_per_iteration": 2.7332265377044678
    },
    {
      "auxiliary_loss_clip": 0.01160411,
      "auxiliary_loss_mlp": 0.01028028,
      "balance_loss_clip": 1.05772591,
      "balance_loss_mlp": 1.01942706,
      "epoch": 0.41447724403294656,
      "flos": 25995160143360.0,
      "grad_norm": 1.7838125852507103,
      "language_loss": 0.81484503,
      "learning_rate": 2.6397738682490613e-06,
      "loss": 0.83672953,
      "num_input_tokens_seen": 74416070,
      "step": 3447,
      "time_per_iteration": 3.8794567584991455
    },
    {
      "auxiliary_loss_clip": 0.01194648,
      "auxiliary_loss_mlp": 0.01032297,
      "balance_loss_clip": 1.05761075,
      "balance_loss_mlp": 1.02284408,
      "epoch": 0.41459748692358567,
      "flos": 18259678800000.0,
      "grad_norm": 1.7256975170842845,
      "language_loss": 0.75206125,
      "learning_rate": 2.6390357785948734e-06,
      "loss": 0.77433068,
      "num_input_tokens_seen": 74433185,
      "step": 3448,
      "time_per_iteration": 2.5877654552459717
    },
    {
      "auxiliary_loss_clip": 0.01184885,
      "auxiliary_loss_mlp": 0.01032906,
      "balance_loss_clip": 1.05706978,
      "balance_loss_mlp": 1.02386427,
      "epoch": 0.4147177298142247,
      "flos": 24168456034560.0,
      "grad_norm": 1.667539295789955,
      "language_loss": 0.80055499,
      "learning_rate": 2.6382975919994667e-06,
      "loss": 0.82273293,
      "num_input_tokens_seen": 74453760,
      "step": 3449,
      "time_per_iteration": 2.725104570388794
    },
    {
      "auxiliary_loss_clip": 0.01174394,
      "auxiliary_loss_mlp": 0.01032237,
      "balance_loss_clip": 1.05250001,
      "balance_loss_mlp": 1.02391076,
      "epoch": 0.41483797270486383,
      "flos": 20084659056000.0,
      "grad_norm": 1.6971620456951364,
      "language_loss": 0.73027807,
      "learning_rate": 2.637559308574822e-06,
      "loss": 0.75234437,
      "num_input_tokens_seen": 74473505,
      "step": 3450,
      "time_per_iteration": 2.6573147773742676
    },
    {
      "auxiliary_loss_clip": 0.01192596,
      "auxiliary_loss_mlp": 0.01032309,
      "balance_loss_clip": 1.0566287,
      "balance_loss_mlp": 1.02330911,
      "epoch": 0.4149582155955029,
      "flos": 30081040110720.0,
      "grad_norm": 2.0987621597530395,
      "language_loss": 0.71383429,
      "learning_rate": 2.6368209284329376e-06,
      "loss": 0.73608333,
      "num_input_tokens_seen": 74494135,
      "step": 3451,
      "time_per_iteration": 2.6970131397247314
    },
    {
      "auxiliary_loss_clip": 0.01183169,
      "auxiliary_loss_mlp": 0.01038953,
      "balance_loss_clip": 1.05378044,
      "balance_loss_mlp": 1.02963102,
      "epoch": 0.415078458486142,
      "flos": 16764394504320.0,
      "grad_norm": 3.427134858381022,
      "language_loss": 0.75826657,
      "learning_rate": 2.636082451685825e-06,
      "loss": 0.78048778,
      "num_input_tokens_seen": 74512335,
      "step": 3452,
      "time_per_iteration": 2.6354339122772217
    },
    {
      "auxiliary_loss_clip": 0.01180803,
      "auxiliary_loss_mlp": 0.01030644,
      "balance_loss_clip": 1.0581342,
      "balance_loss_mlp": 1.02216256,
      "epoch": 0.4151987013767811,
      "flos": 26033692458240.0,
      "grad_norm": 1.711046702532657,
      "language_loss": 0.86443496,
      "learning_rate": 2.6353438784455094e-06,
      "loss": 0.88654947,
      "num_input_tokens_seen": 74535620,
      "step": 3453,
      "time_per_iteration": 2.753647565841675
    },
    {
      "auxiliary_loss_clip": 0.01168372,
      "auxiliary_loss_mlp": 0.01034904,
      "balance_loss_clip": 1.05302489,
      "balance_loss_mlp": 1.02505779,
      "epoch": 0.41531894426742016,
      "flos": 24608002763520.0,
      "grad_norm": 2.188093959942125,
      "language_loss": 0.71105975,
      "learning_rate": 2.6346052088240326e-06,
      "loss": 0.73309255,
      "num_input_tokens_seen": 74555140,
      "step": 3454,
      "time_per_iteration": 2.725825071334839
    },
    {
      "auxiliary_loss_clip": 0.01175218,
      "auxiliary_loss_mlp": 0.01031947,
      "balance_loss_clip": 1.05359387,
      "balance_loss_mlp": 1.02310801,
      "epoch": 0.4154391871580593,
      "flos": 14975791747200.0,
      "grad_norm": 2.079823917138294,
      "language_loss": 0.77532262,
      "learning_rate": 2.63386644293345e-06,
      "loss": 0.79739428,
      "num_input_tokens_seen": 74571485,
      "step": 3455,
      "time_per_iteration": 2.645612955093384
    },
    {
      "auxiliary_loss_clip": 0.01158522,
      "auxiliary_loss_mlp": 0.01034726,
      "balance_loss_clip": 1.04747295,
      "balance_loss_mlp": 1.02642941,
      "epoch": 0.4155594300486984,
      "flos": 14647173194880.0,
      "grad_norm": 2.233454130868389,
      "language_loss": 0.83312011,
      "learning_rate": 2.633127580885833e-06,
      "loss": 0.85505259,
      "num_input_tokens_seen": 74585985,
      "step": 3456,
      "time_per_iteration": 2.6795296669006348
    },
    {
      "auxiliary_loss_clip": 0.01194099,
      "auxiliary_loss_mlp": 0.01032228,
      "balance_loss_clip": 1.05971646,
      "balance_loss_mlp": 1.02419901,
      "epoch": 0.41567967293933744,
      "flos": 29497276275840.0,
      "grad_norm": 3.92828895290537,
      "language_loss": 0.64902282,
      "learning_rate": 2.632388622793265e-06,
      "loss": 0.67128611,
      "num_input_tokens_seen": 74605140,
      "step": 3457,
      "time_per_iteration": 2.6653075218200684
    },
    {
      "auxiliary_loss_clip": 0.01184409,
      "auxiliary_loss_mlp": 0.01032352,
      "balance_loss_clip": 1.05765378,
      "balance_loss_mlp": 1.02350628,
      "epoch": 0.41579991582997655,
      "flos": 19238387650560.0,
      "grad_norm": 1.8461836016529174,
      "language_loss": 0.67979062,
      "learning_rate": 2.6316495687678457e-06,
      "loss": 0.70195818,
      "num_input_tokens_seen": 74623790,
      "step": 3458,
      "time_per_iteration": 2.807337760925293
    },
    {
      "auxiliary_loss_clip": 0.01144622,
      "auxiliary_loss_mlp": 0.01025616,
      "balance_loss_clip": 1.04805207,
      "balance_loss_mlp": 1.01690817,
      "epoch": 0.41592015872061566,
      "flos": 24462061804800.0,
      "grad_norm": 2.703531959613162,
      "language_loss": 0.76958263,
      "learning_rate": 2.6309104189216887e-06,
      "loss": 0.79128498,
      "num_input_tokens_seen": 74641355,
      "step": 3459,
      "time_per_iteration": 2.745708703994751
    },
    {
      "auxiliary_loss_clip": 0.01151794,
      "auxiliary_loss_mlp": 0.00888447,
      "balance_loss_clip": 1.04848862,
      "balance_loss_mlp": 1.00071669,
      "epoch": 0.4160404016112547,
      "flos": 20775651966720.0,
      "grad_norm": 2.584895788332363,
      "language_loss": 0.74674428,
      "learning_rate": 2.630171173366923e-06,
      "loss": 0.76714671,
      "num_input_tokens_seen": 74657155,
      "step": 3460,
      "time_per_iteration": 2.735893964767456
    },
    {
      "auxiliary_loss_clip": 0.01150522,
      "auxiliary_loss_mlp": 0.01028872,
      "balance_loss_clip": 1.04774809,
      "balance_loss_mlp": 1.02025938,
      "epoch": 0.41616064450189383,
      "flos": 13916462820480.0,
      "grad_norm": 3.7641592892820044,
      "language_loss": 0.7448619,
      "learning_rate": 2.629431832215691e-06,
      "loss": 0.76665586,
      "num_input_tokens_seen": 74671960,
      "step": 3461,
      "time_per_iteration": 2.7171788215637207
    },
    {
      "auxiliary_loss_clip": 0.01169809,
      "auxiliary_loss_mlp": 0.01039016,
      "balance_loss_clip": 1.05399632,
      "balance_loss_mlp": 1.03010452,
      "epoch": 0.41628088739253294,
      "flos": 20010826650240.0,
      "grad_norm": 1.7645185858742187,
      "language_loss": 0.87448239,
      "learning_rate": 2.628692395580151e-06,
      "loss": 0.89657062,
      "num_input_tokens_seen": 74692050,
      "step": 3462,
      "time_per_iteration": 2.7340383529663086
    },
    {
      "auxiliary_loss_clip": 0.01121962,
      "auxiliary_loss_mlp": 0.01030462,
      "balance_loss_clip": 1.04294848,
      "balance_loss_mlp": 1.02190292,
      "epoch": 0.416401130283172,
      "flos": 29168801377920.0,
      "grad_norm": 3.3921291213626237,
      "language_loss": 0.79575139,
      "learning_rate": 2.6279528635724747e-06,
      "loss": 0.81727564,
      "num_input_tokens_seen": 74712205,
      "step": 3463,
      "time_per_iteration": 2.8467371463775635
    },
    {
      "auxiliary_loss_clip": 0.01179591,
      "auxiliary_loss_mlp": 0.01040467,
      "balance_loss_clip": 1.05050302,
      "balance_loss_mlp": 1.03033376,
      "epoch": 0.4165213731738111,
      "flos": 16246813478400.0,
      "grad_norm": 2.84092327121882,
      "language_loss": 0.78325701,
      "learning_rate": 2.627213236304848e-06,
      "loss": 0.80545747,
      "num_input_tokens_seen": 74729005,
      "step": 3464,
      "time_per_iteration": 3.5413424968719482
    },
    {
      "auxiliary_loss_clip": 0.01184623,
      "auxiliary_loss_mlp": 0.01032075,
      "balance_loss_clip": 1.05406439,
      "balance_loss_mlp": 1.02330768,
      "epoch": 0.4166416160644502,
      "flos": 33765438787200.0,
      "grad_norm": 2.26207031213609,
      "language_loss": 0.70607167,
      "learning_rate": 2.626473513889472e-06,
      "loss": 0.72823864,
      "num_input_tokens_seen": 74751385,
      "step": 3465,
      "time_per_iteration": 2.7941904067993164
    },
    {
      "auxiliary_loss_clip": 0.01173965,
      "auxiliary_loss_mlp": 0.01037186,
      "balance_loss_clip": 1.05208147,
      "balance_loss_mlp": 1.0283525,
      "epoch": 0.41676185895508927,
      "flos": 20917498775040.0,
      "grad_norm": 2.132777854023167,
      "language_loss": 0.83133924,
      "learning_rate": 2.625733696438562e-06,
      "loss": 0.85345072,
      "num_input_tokens_seen": 74768890,
      "step": 3466,
      "time_per_iteration": 2.6313729286193848
    },
    {
      "auxiliary_loss_clip": 0.01170488,
      "auxiliary_loss_mlp": 0.01028178,
      "balance_loss_clip": 1.05342388,
      "balance_loss_mlp": 1.01830792,
      "epoch": 0.4168821018457284,
      "flos": 18406122549120.0,
      "grad_norm": 1.7020691944202762,
      "language_loss": 0.74871647,
      "learning_rate": 2.6249937840643476e-06,
      "loss": 0.7707032,
      "num_input_tokens_seen": 74787195,
      "step": 3467,
      "time_per_iteration": 2.722429037094116
    },
    {
      "auxiliary_loss_clip": 0.01196921,
      "auxiliary_loss_mlp": 0.00888187,
      "balance_loss_clip": 1.06064701,
      "balance_loss_mlp": 1.00077093,
      "epoch": 0.41700234473636744,
      "flos": 18698399516160.0,
      "grad_norm": 1.7443393188423866,
      "language_loss": 0.66616338,
      "learning_rate": 2.6242537768790733e-06,
      "loss": 0.68701446,
      "num_input_tokens_seen": 74806350,
      "step": 3468,
      "time_per_iteration": 2.6266021728515625
    },
    {
      "auxiliary_loss_clip": 0.01183621,
      "auxiliary_loss_mlp": 0.0104208,
      "balance_loss_clip": 1.05643189,
      "balance_loss_mlp": 1.03295493,
      "epoch": 0.41712258762700655,
      "flos": 31033283616000.0,
      "grad_norm": 2.4265173790192174,
      "language_loss": 0.68692106,
      "learning_rate": 2.6235136749949975e-06,
      "loss": 0.70917809,
      "num_input_tokens_seen": 74829800,
      "step": 3469,
      "time_per_iteration": 3.7712199687957764
    },
    {
      "auxiliary_loss_clip": 0.01191911,
      "auxiliary_loss_mlp": 0.01029409,
      "balance_loss_clip": 1.05516839,
      "balance_loss_mlp": 1.02020657,
      "epoch": 0.41724283051764566,
      "flos": 35914763877120.0,
      "grad_norm": 2.135225164158265,
      "language_loss": 0.61041474,
      "learning_rate": 2.6227734785243924e-06,
      "loss": 0.63262796,
      "num_input_tokens_seen": 74849760,
      "step": 3470,
      "time_per_iteration": 3.657449960708618
    },
    {
      "auxiliary_loss_clip": 0.01135563,
      "auxiliary_loss_mlp": 0.01033799,
      "balance_loss_clip": 1.0459801,
      "balance_loss_mlp": 1.02579999,
      "epoch": 0.4173630734082847,
      "flos": 25333649320320.0,
      "grad_norm": 2.4928013901252535,
      "language_loss": 0.79260707,
      "learning_rate": 2.6220331875795466e-06,
      "loss": 0.81430066,
      "num_input_tokens_seen": 74869110,
      "step": 3471,
      "time_per_iteration": 2.7903223037719727
    },
    {
      "auxiliary_loss_clip": 0.01181257,
      "auxiliary_loss_mlp": 0.01035781,
      "balance_loss_clip": 1.0572505,
      "balance_loss_mlp": 1.02663732,
      "epoch": 0.4174833162989238,
      "flos": 26685398868480.0,
      "grad_norm": 1.6418651196403022,
      "language_loss": 0.74958599,
      "learning_rate": 2.62129280227276e-06,
      "loss": 0.77175641,
      "num_input_tokens_seen": 74889110,
      "step": 3472,
      "time_per_iteration": 3.6640236377716064
    },
    {
      "auxiliary_loss_clip": 0.01187795,
      "auxiliary_loss_mlp": 0.01034349,
      "balance_loss_clip": 1.05565393,
      "balance_loss_mlp": 1.02545571,
      "epoch": 0.41760355918956293,
      "flos": 74739584010240.0,
      "grad_norm": 1.9607298101578543,
      "language_loss": 0.6872353,
      "learning_rate": 2.62055232271635e-06,
      "loss": 0.70945674,
      "num_input_tokens_seen": 74916260,
      "step": 3473,
      "time_per_iteration": 3.0721096992492676
    },
    {
      "auxiliary_loss_clip": 0.0115309,
      "auxiliary_loss_mlp": 0.01029187,
      "balance_loss_clip": 1.04827571,
      "balance_loss_mlp": 1.01979303,
      "epoch": 0.417723802080202,
      "flos": 14317513148160.0,
      "grad_norm": 2.045574188119911,
      "language_loss": 0.87586528,
      "learning_rate": 2.619811749022646e-06,
      "loss": 0.89768809,
      "num_input_tokens_seen": 74931570,
      "step": 3474,
      "time_per_iteration": 2.6541194915771484
    },
    {
      "auxiliary_loss_clip": 0.01184331,
      "auxiliary_loss_mlp": 0.01032309,
      "balance_loss_clip": 1.05433631,
      "balance_loss_mlp": 1.02285624,
      "epoch": 0.4178440449708411,
      "flos": 14643797316480.0,
      "grad_norm": 3.380552828478962,
      "language_loss": 0.71324396,
      "learning_rate": 2.6190710813039917e-06,
      "loss": 0.73541039,
      "num_input_tokens_seen": 74944695,
      "step": 3475,
      "time_per_iteration": 2.638693332672119
    },
    {
      "auxiliary_loss_clip": 0.01147225,
      "auxiliary_loss_mlp": 0.00888694,
      "balance_loss_clip": 1.04456639,
      "balance_loss_mlp": 1.000736,
      "epoch": 0.4179642878614802,
      "flos": 21507296094720.0,
      "grad_norm": 2.70898060499742,
      "language_loss": 0.84170061,
      "learning_rate": 2.618330319672747e-06,
      "loss": 0.86205983,
      "num_input_tokens_seen": 74964115,
      "step": 3476,
      "time_per_iteration": 2.763702869415283
    },
    {
      "auxiliary_loss_clip": 0.01192145,
      "auxiliary_loss_mlp": 0.01033218,
      "balance_loss_clip": 1.05564201,
      "balance_loss_mlp": 1.02474201,
      "epoch": 0.41808453075211927,
      "flos": 18441997257600.0,
      "grad_norm": 2.3952367508856076,
      "language_loss": 0.91929084,
      "learning_rate": 2.617589464241284e-06,
      "loss": 0.94154441,
      "num_input_tokens_seen": 74978515,
      "step": 3477,
      "time_per_iteration": 2.607417345046997
    },
    {
      "auxiliary_loss_clip": 0.01167523,
      "auxiliary_loss_mlp": 0.01032494,
      "balance_loss_clip": 1.05404329,
      "balance_loss_mlp": 1.02457833,
      "epoch": 0.4182047736427584,
      "flos": 20301020628480.0,
      "grad_norm": 2.0851282397955027,
      "language_loss": 0.74201483,
      "learning_rate": 2.6168485151219914e-06,
      "loss": 0.76401502,
      "num_input_tokens_seen": 74998135,
      "step": 3478,
      "time_per_iteration": 2.7008817195892334
    },
    {
      "auxiliary_loss_clip": 0.01183601,
      "auxiliary_loss_mlp": 0.0103195,
      "balance_loss_clip": 1.0557251,
      "balance_loss_mlp": 1.02315283,
      "epoch": 0.4183250165333975,
      "flos": 18876623823360.0,
      "grad_norm": 2.7326530041542103,
      "language_loss": 0.71268928,
      "learning_rate": 2.616107472427269e-06,
      "loss": 0.73484474,
      "num_input_tokens_seen": 75012830,
      "step": 3479,
      "time_per_iteration": 2.690455198287964
    },
    {
      "auxiliary_loss_clip": 0.01190542,
      "auxiliary_loss_mlp": 0.0103425,
      "balance_loss_clip": 1.05554914,
      "balance_loss_mlp": 1.02528,
      "epoch": 0.41844525942403654,
      "flos": 17740050698880.0,
      "grad_norm": 2.4595179062475143,
      "language_loss": 0.76011682,
      "learning_rate": 2.615366336269533e-06,
      "loss": 0.78236467,
      "num_input_tokens_seen": 75026495,
      "step": 3480,
      "time_per_iteration": 2.6127865314483643
    },
    {
      "auxiliary_loss_clip": 0.01194316,
      "auxiliary_loss_mlp": 0.01040139,
      "balance_loss_clip": 1.05503988,
      "balance_loss_mlp": 1.03100181,
      "epoch": 0.41856550231467565,
      "flos": 18361377181440.0,
      "grad_norm": 2.4565344007213987,
      "language_loss": 0.80740499,
      "learning_rate": 2.6146251067612126e-06,
      "loss": 0.82974958,
      "num_input_tokens_seen": 75041970,
      "step": 3481,
      "time_per_iteration": 2.605997323989868
    },
    {
      "auxiliary_loss_clip": 0.0118232,
      "auxiliary_loss_mlp": 0.01028573,
      "balance_loss_clip": 1.05684459,
      "balance_loss_mlp": 1.02029347,
      "epoch": 0.41868574520531476,
      "flos": 22781801445120.0,
      "grad_norm": 1.6256545080195448,
      "language_loss": 0.82569873,
      "learning_rate": 2.6138837840147525e-06,
      "loss": 0.84780765,
      "num_input_tokens_seen": 75061005,
      "step": 3482,
      "time_per_iteration": 2.646472454071045
    },
    {
      "auxiliary_loss_clip": 0.01161697,
      "auxiliary_loss_mlp": 0.010327,
      "balance_loss_clip": 1.05170941,
      "balance_loss_mlp": 1.02375889,
      "epoch": 0.4188059880959538,
      "flos": 13699167494400.0,
      "grad_norm": 1.999476242855844,
      "language_loss": 0.76469773,
      "learning_rate": 2.6131423681426103e-06,
      "loss": 0.78664172,
      "num_input_tokens_seen": 75076920,
      "step": 3483,
      "time_per_iteration": 2.7081046104431152
    },
    {
      "auxiliary_loss_clip": 0.01188403,
      "auxiliary_loss_mlp": 0.01034514,
      "balance_loss_clip": 1.05392599,
      "balance_loss_mlp": 1.0258956,
      "epoch": 0.41892623098659293,
      "flos": 37818281220480.0,
      "grad_norm": 1.9037415281517243,
      "language_loss": 0.72837889,
      "learning_rate": 2.6124008592572587e-06,
      "loss": 0.75060809,
      "num_input_tokens_seen": 75100905,
      "step": 3484,
      "time_per_iteration": 2.789914846420288
    },
    {
      "auxiliary_loss_clip": 0.01196474,
      "auxiliary_loss_mlp": 0.01038509,
      "balance_loss_clip": 1.05613208,
      "balance_loss_mlp": 1.02945471,
      "epoch": 0.419046473877232,
      "flos": 23258874908160.0,
      "grad_norm": 2.2509987673213683,
      "language_loss": 0.81815946,
      "learning_rate": 2.6116592574711835e-06,
      "loss": 0.84050924,
      "num_input_tokens_seen": 75119205,
      "step": 3485,
      "time_per_iteration": 2.6653804779052734
    },
    {
      "auxiliary_loss_clip": 0.01195912,
      "auxiliary_loss_mlp": 0.01033287,
      "balance_loss_clip": 1.05666649,
      "balance_loss_mlp": 1.02479339,
      "epoch": 0.4191667167678711,
      "flos": 20741034234240.0,
      "grad_norm": 1.8542719087649981,
      "language_loss": 0.8412683,
      "learning_rate": 2.6109175628968853e-06,
      "loss": 0.86356026,
      "num_input_tokens_seen": 75138970,
      "step": 3486,
      "time_per_iteration": 2.6850063800811768
    },
    {
      "auxiliary_loss_clip": 0.01170454,
      "auxiliary_loss_mlp": 0.01023664,
      "balance_loss_clip": 1.04953432,
      "balance_loss_mlp": 1.01626658,
      "epoch": 0.4192869596585102,
      "flos": 23586416052480.0,
      "grad_norm": 2.710105960773851,
      "language_loss": 0.83125192,
      "learning_rate": 2.610175775646878e-06,
      "loss": 0.8531931,
      "num_input_tokens_seen": 75157550,
      "step": 3487,
      "time_per_iteration": 2.6343905925750732
    },
    {
      "auxiliary_loss_clip": 0.01167011,
      "auxiliary_loss_mlp": 0.01035021,
      "balance_loss_clip": 1.05080175,
      "balance_loss_mlp": 1.02658701,
      "epoch": 0.41940720254914926,
      "flos": 25081269384960.0,
      "grad_norm": 2.189010553306757,
      "language_loss": 0.72846484,
      "learning_rate": 2.6094338958336907e-06,
      "loss": 0.75048518,
      "num_input_tokens_seen": 75176220,
      "step": 3488,
      "time_per_iteration": 2.733370542526245
    },
    {
      "auxiliary_loss_clip": 0.01170636,
      "auxiliary_loss_mlp": 0.01033499,
      "balance_loss_clip": 1.05322015,
      "balance_loss_mlp": 1.02475524,
      "epoch": 0.41952744543978837,
      "flos": 15554132628480.0,
      "grad_norm": 1.9550066926589702,
      "language_loss": 0.82172245,
      "learning_rate": 2.608691923569867e-06,
      "loss": 0.84376383,
      "num_input_tokens_seen": 75193095,
      "step": 3489,
      "time_per_iteration": 2.694585084915161
    },
    {
      "auxiliary_loss_clip": 0.01187496,
      "auxiliary_loss_mlp": 0.01030319,
      "balance_loss_clip": 1.05703485,
      "balance_loss_mlp": 1.02197409,
      "epoch": 0.4196476883304275,
      "flos": 24644775312000.0,
      "grad_norm": 1.8916118270049749,
      "language_loss": 0.75938916,
      "learning_rate": 2.6079498589679616e-06,
      "loss": 0.78156734,
      "num_input_tokens_seen": 75214185,
      "step": 3490,
      "time_per_iteration": 3.621994972229004
    },
    {
      "auxiliary_loss_clip": 0.01133755,
      "auxiliary_loss_mlp": 0.01034928,
      "balance_loss_clip": 1.04390907,
      "balance_loss_mlp": 1.02510524,
      "epoch": 0.41976793122106654,
      "flos": 24531333183360.0,
      "grad_norm": 2.219618113103098,
      "language_loss": 0.763156,
      "learning_rate": 2.6072077021405465e-06,
      "loss": 0.78484285,
      "num_input_tokens_seen": 75233020,
      "step": 3491,
      "time_per_iteration": 2.8544540405273438
    },
    {
      "auxiliary_loss_clip": 0.01171875,
      "auxiliary_loss_mlp": 0.01026907,
      "balance_loss_clip": 1.05257249,
      "balance_loss_mlp": 1.01875901,
      "epoch": 0.41988817411170565,
      "flos": 21175301664000.0,
      "grad_norm": 2.775897603989658,
      "language_loss": 0.69525349,
      "learning_rate": 2.6064654532002054e-06,
      "loss": 0.71724129,
      "num_input_tokens_seen": 75252030,
      "step": 3492,
      "time_per_iteration": 2.737107753753662
    },
    {
      "auxiliary_loss_clip": 0.0119582,
      "auxiliary_loss_mlp": 0.01032564,
      "balance_loss_clip": 1.06001866,
      "balance_loss_mlp": 1.02365589,
      "epoch": 0.42000841700234476,
      "flos": 31649402626560.0,
      "grad_norm": 1.740569485654181,
      "language_loss": 0.75705135,
      "learning_rate": 2.6057231122595375e-06,
      "loss": 0.77933514,
      "num_input_tokens_seen": 75273340,
      "step": 3493,
      "time_per_iteration": 2.7212212085723877
    },
    {
      "auxiliary_loss_clip": 0.01174007,
      "auxiliary_loss_mlp": 0.01036351,
      "balance_loss_clip": 1.05165076,
      "balance_loss_mlp": 1.02762473,
      "epoch": 0.4201286598929838,
      "flos": 21281525159040.0,
      "grad_norm": 1.6468895679266975,
      "language_loss": 0.72966582,
      "learning_rate": 2.604980679431154e-06,
      "loss": 0.75176942,
      "num_input_tokens_seen": 75291580,
      "step": 3494,
      "time_per_iteration": 2.684434175491333
    },
    {
      "auxiliary_loss_clip": 0.01183472,
      "auxiliary_loss_mlp": 0.01028085,
      "balance_loss_clip": 1.0533098,
      "balance_loss_mlp": 1.01954341,
      "epoch": 0.4202489027836229,
      "flos": 18546532813440.0,
      "grad_norm": 2.225002688478893,
      "language_loss": 0.7434684,
      "learning_rate": 2.604238154827684e-06,
      "loss": 0.76558399,
      "num_input_tokens_seen": 75308205,
      "step": 3495,
      "time_per_iteration": 3.6585886478424072
    },
    {
      "auxiliary_loss_clip": 0.01184367,
      "auxiliary_loss_mlp": 0.01028666,
      "balance_loss_clip": 1.05617332,
      "balance_loss_mlp": 1.02001166,
      "epoch": 0.42036914567426203,
      "flos": 19317643009920.0,
      "grad_norm": 1.9424720684209547,
      "language_loss": 0.72795975,
      "learning_rate": 2.6034955385617656e-06,
      "loss": 0.75009012,
      "num_input_tokens_seen": 75326535,
      "step": 3496,
      "time_per_iteration": 3.5089316368103027
    },
    {
      "auxiliary_loss_clip": 0.01069646,
      "auxiliary_loss_mlp": 0.01002925,
      "balance_loss_clip": 1.02146852,
      "balance_loss_mlp": 1.00160813,
      "epoch": 0.4204893885649011,
      "flos": 67842942935040.0,
      "grad_norm": 0.7228207887076541,
      "language_loss": 0.61641532,
      "learning_rate": 2.6027528307460544e-06,
      "loss": 0.63714105,
      "num_input_tokens_seen": 75390540,
      "step": 3497,
      "time_per_iteration": 3.3511526584625244
    },
    {
      "auxiliary_loss_clip": 0.01195051,
      "auxiliary_loss_mlp": 0.01030631,
      "balance_loss_clip": 1.05811715,
      "balance_loss_mlp": 1.02273393,
      "epoch": 0.4206096314555402,
      "flos": 21908777385600.0,
      "grad_norm": 1.7260329184732073,
      "language_loss": 0.86776155,
      "learning_rate": 2.602010031493217e-06,
      "loss": 0.89001834,
      "num_input_tokens_seen": 75408770,
      "step": 3498,
      "time_per_iteration": 3.6392264366149902
    },
    {
      "auxiliary_loss_clip": 0.01155902,
      "auxiliary_loss_mlp": 0.01027162,
      "balance_loss_clip": 1.05083752,
      "balance_loss_mlp": 1.01898432,
      "epoch": 0.42072987434617926,
      "flos": 29278185269760.0,
      "grad_norm": 2.369872668009896,
      "language_loss": 0.87066817,
      "learning_rate": 2.6012671409159367e-06,
      "loss": 0.89249879,
      "num_input_tokens_seen": 75430105,
      "step": 3499,
      "time_per_iteration": 2.8464412689208984
    },
    {
      "auxiliary_loss_clip": 0.01167595,
      "auxiliary_loss_mlp": 0.0103295,
      "balance_loss_clip": 1.0531342,
      "balance_loss_mlp": 1.02343106,
      "epoch": 0.42085011723681837,
      "flos": 27600726170880.0,
      "grad_norm": 5.389679787053861,
      "language_loss": 0.816522,
      "learning_rate": 2.6005241591269097e-06,
      "loss": 0.83852744,
      "num_input_tokens_seen": 75449475,
      "step": 3500,
      "time_per_iteration": 2.73732328414917
    },
    {
      "auxiliary_loss_clip": 0.01162734,
      "auxiliary_loss_mlp": 0.01026204,
      "balance_loss_clip": 1.05579376,
      "balance_loss_mlp": 1.01825833,
      "epoch": 0.4209703601274575,
      "flos": 27818632028160.0,
      "grad_norm": 1.7040881474578953,
      "language_loss": 0.79577529,
      "learning_rate": 2.5997810862388454e-06,
      "loss": 0.81766474,
      "num_input_tokens_seen": 75469315,
      "step": 3501,
      "time_per_iteration": 2.820425271987915
    },
    {
      "auxiliary_loss_clip": 0.01175383,
      "auxiliary_loss_mlp": 0.01028631,
      "balance_loss_clip": 1.05396032,
      "balance_loss_mlp": 1.01939189,
      "epoch": 0.42109060301809653,
      "flos": 27525529048320.0,
      "grad_norm": 1.9219775108780175,
      "language_loss": 0.76064098,
      "learning_rate": 2.599037922364467e-06,
      "loss": 0.78268117,
      "num_input_tokens_seen": 75488215,
      "step": 3502,
      "time_per_iteration": 2.6763646602630615
    },
    {
      "auxiliary_loss_clip": 0.01154498,
      "auxiliary_loss_mlp": 0.01026979,
      "balance_loss_clip": 1.05197597,
      "balance_loss_mlp": 1.01821733,
      "epoch": 0.42121084590873564,
      "flos": 29314275459840.0,
      "grad_norm": 2.4029004885300465,
      "language_loss": 0.7520256,
      "learning_rate": 2.5982946676165112e-06,
      "loss": 0.77384043,
      "num_input_tokens_seen": 75507985,
      "step": 3503,
      "time_per_iteration": 2.809614658355713
    },
    {
      "auxiliary_loss_clip": 0.01065348,
      "auxiliary_loss_mlp": 0.01004815,
      "balance_loss_clip": 1.02358425,
      "balance_loss_mlp": 1.00334871,
      "epoch": 0.42133108879937475,
      "flos": 67398835178880.0,
      "grad_norm": 0.729568869758559,
      "language_loss": 0.57580763,
      "learning_rate": 2.5975513221077313e-06,
      "loss": 0.59650928,
      "num_input_tokens_seen": 75571955,
      "step": 3504,
      "time_per_iteration": 3.3592944145202637
    },
    {
      "auxiliary_loss_clip": 0.01163877,
      "auxiliary_loss_mlp": 0.01029016,
      "balance_loss_clip": 1.05287385,
      "balance_loss_mlp": 1.02066576,
      "epoch": 0.4214513316900138,
      "flos": 23106038538240.0,
      "grad_norm": 3.3529945770301692,
      "language_loss": 0.89007241,
      "learning_rate": 2.5968078859508897e-06,
      "loss": 0.91200125,
      "num_input_tokens_seen": 75589155,
      "step": 3505,
      "time_per_iteration": 2.7043776512145996
    },
    {
      "auxiliary_loss_clip": 0.01181947,
      "auxiliary_loss_mlp": 0.01027649,
      "balance_loss_clip": 1.05374384,
      "balance_loss_mlp": 1.01973331,
      "epoch": 0.4215715745806529,
      "flos": 15336190857600.0,
      "grad_norm": 11.852134584881153,
      "language_loss": 0.80292451,
      "learning_rate": 2.5960643592587673e-06,
      "loss": 0.82502043,
      "num_input_tokens_seen": 75606565,
      "step": 3506,
      "time_per_iteration": 2.6479873657226562
    },
    {
      "auxiliary_loss_clip": 0.01162421,
      "auxiliary_loss_mlp": 0.01028436,
      "balance_loss_clip": 1.05121469,
      "balance_loss_mlp": 1.02005553,
      "epoch": 0.42169181747129203,
      "flos": 22127257860480.0,
      "grad_norm": 1.8906416521084528,
      "language_loss": 0.81281233,
      "learning_rate": 2.5953207421441553e-06,
      "loss": 0.83472085,
      "num_input_tokens_seen": 75625165,
      "step": 3507,
      "time_per_iteration": 2.73892879486084
    },
    {
      "auxiliary_loss_clip": 0.01166025,
      "auxiliary_loss_mlp": 0.01032069,
      "balance_loss_clip": 1.05267608,
      "balance_loss_mlp": 1.02322364,
      "epoch": 0.4218120603619311,
      "flos": 22630724841600.0,
      "grad_norm": 2.9480875414806427,
      "language_loss": 0.75504196,
      "learning_rate": 2.5945770347198603e-06,
      "loss": 0.7770229,
      "num_input_tokens_seen": 75643320,
      "step": 3508,
      "time_per_iteration": 2.7646913528442383
    },
    {
      "auxiliary_loss_clip": 0.01168361,
      "auxiliary_loss_mlp": 0.0102752,
      "balance_loss_clip": 1.05164683,
      "balance_loss_mlp": 1.0189606,
      "epoch": 0.4219323032525702,
      "flos": 19682818629120.0,
      "grad_norm": 1.836552455928658,
      "language_loss": 0.82387227,
      "learning_rate": 2.593833237098701e-06,
      "loss": 0.84583104,
      "num_input_tokens_seen": 75660920,
      "step": 3509,
      "time_per_iteration": 2.707401990890503
    },
    {
      "auxiliary_loss_clip": 0.01179377,
      "auxiliary_loss_mlp": 0.01036125,
      "balance_loss_clip": 1.05196309,
      "balance_loss_mlp": 1.02721405,
      "epoch": 0.4220525461432093,
      "flos": 30190747224960.0,
      "grad_norm": 1.9943747863685823,
      "language_loss": 0.62602639,
      "learning_rate": 2.593089349393512e-06,
      "loss": 0.64818144,
      "num_input_tokens_seen": 75681410,
      "step": 3510,
      "time_per_iteration": 2.772857427597046
    },
    {
      "auxiliary_loss_clip": 0.01182543,
      "auxiliary_loss_mlp": 0.01032999,
      "balance_loss_clip": 1.0576607,
      "balance_loss_mlp": 1.02411795,
      "epoch": 0.42217278903384836,
      "flos": 24315941278080.0,
      "grad_norm": 2.2758237588296852,
      "language_loss": 0.83501506,
      "learning_rate": 2.592345371717141e-06,
      "loss": 0.85717046,
      "num_input_tokens_seen": 75700940,
      "step": 3511,
      "time_per_iteration": 2.6673805713653564
    },
    {
      "auxiliary_loss_clip": 0.01185916,
      "auxiliary_loss_mlp": 0.01031614,
      "balance_loss_clip": 1.06095314,
      "balance_loss_mlp": 1.02322805,
      "epoch": 0.42229303192448747,
      "flos": 17092474352640.0,
      "grad_norm": 3.21709845565196,
      "language_loss": 0.72251368,
      "learning_rate": 2.591601304182448e-06,
      "loss": 0.74468899,
      "num_input_tokens_seen": 75718910,
      "step": 3512,
      "time_per_iteration": 2.66571307182312
    },
    {
      "auxiliary_loss_clip": 0.01179177,
      "auxiliary_loss_mlp": 0.0103026,
      "balance_loss_clip": 1.05972672,
      "balance_loss_mlp": 1.02231503,
      "epoch": 0.4224132748151266,
      "flos": 22784530878720.0,
      "grad_norm": 2.7797457987153282,
      "language_loss": 0.79346132,
      "learning_rate": 2.5908571469023067e-06,
      "loss": 0.81555569,
      "num_input_tokens_seen": 75738395,
      "step": 3513,
      "time_per_iteration": 2.695167303085327
    },
    {
      "auxiliary_loss_clip": 0.01193258,
      "auxiliary_loss_mlp": 0.0103213,
      "balance_loss_clip": 1.05777192,
      "balance_loss_mlp": 1.02379131,
      "epoch": 0.42253351770576564,
      "flos": 17819090576640.0,
      "grad_norm": 2.4958755142862437,
      "language_loss": 0.76001322,
      "learning_rate": 2.5901128999896067e-06,
      "loss": 0.78226709,
      "num_input_tokens_seen": 75753825,
      "step": 3514,
      "time_per_iteration": 2.6337273120880127
    },
    {
      "auxiliary_loss_clip": 0.0118127,
      "auxiliary_loss_mlp": 0.01031595,
      "balance_loss_clip": 1.05621076,
      "balance_loss_mlp": 1.02305937,
      "epoch": 0.42265376059640475,
      "flos": 28512390286080.0,
      "grad_norm": 2.4960286992240124,
      "language_loss": 0.68553716,
      "learning_rate": 2.5893685635572487e-06,
      "loss": 0.7076658,
      "num_input_tokens_seen": 75774675,
      "step": 3515,
      "time_per_iteration": 2.6762969493865967
    },
    {
      "auxiliary_loss_clip": 0.0116968,
      "auxiliary_loss_mlp": 0.01031751,
      "balance_loss_clip": 1.05475044,
      "balance_loss_mlp": 1.02299547,
      "epoch": 0.4227740034870438,
      "flos": 16253349753600.0,
      "grad_norm": 2.086574903122371,
      "language_loss": 0.69370192,
      "learning_rate": 2.5886241377181483e-06,
      "loss": 0.71571624,
      "num_input_tokens_seen": 75793545,
      "step": 3516,
      "time_per_iteration": 3.6149187088012695
    },
    {
      "auxiliary_loss_clip": 0.01185926,
      "auxiliary_loss_mlp": 0.01026937,
      "balance_loss_clip": 1.05795634,
      "balance_loss_mlp": 1.01778221,
      "epoch": 0.4228942463776829,
      "flos": 25295691623040.0,
      "grad_norm": 1.9875672349824187,
      "language_loss": 0.81534868,
      "learning_rate": 2.587879622585234e-06,
      "loss": 0.83747733,
      "num_input_tokens_seen": 75812145,
      "step": 3517,
      "time_per_iteration": 2.6691060066223145
    },
    {
      "auxiliary_loss_clip": 0.01183852,
      "auxiliary_loss_mlp": 0.01029067,
      "balance_loss_clip": 1.05750775,
      "balance_loss_mlp": 1.02072239,
      "epoch": 0.423014489268322,
      "flos": 26395779507840.0,
      "grad_norm": 2.2880253326614173,
      "language_loss": 0.7613982,
      "learning_rate": 2.5871350182714486e-06,
      "loss": 0.78352737,
      "num_input_tokens_seen": 75833025,
      "step": 3518,
      "time_per_iteration": 2.686250925064087
    },
    {
      "auxiliary_loss_clip": 0.01190352,
      "auxiliary_loss_mlp": 0.0103336,
      "balance_loss_clip": 1.05588627,
      "balance_loss_mlp": 1.02528381,
      "epoch": 0.4231347321589611,
      "flos": 17274002711040.0,
      "grad_norm": 1.9459625570769588,
      "language_loss": 0.80515122,
      "learning_rate": 2.586390324889748e-06,
      "loss": 0.82738841,
      "num_input_tokens_seen": 75848925,
      "step": 3519,
      "time_per_iteration": 2.605149030685425
    },
    {
      "auxiliary_loss_clip": 0.0118054,
      "auxiliary_loss_mlp": 0.01031485,
      "balance_loss_clip": 1.05592215,
      "balance_loss_mlp": 1.02261591,
      "epoch": 0.4232549750496002,
      "flos": 22999635475200.0,
      "grad_norm": 2.2353264523642657,
      "language_loss": 0.67695141,
      "learning_rate": 2.5856455425531003e-06,
      "loss": 0.69907165,
      "num_input_tokens_seen": 75870400,
      "step": 3520,
      "time_per_iteration": 2.672877550125122
    },
    {
      "auxiliary_loss_clip": 0.01181543,
      "auxiliary_loss_mlp": 0.01030969,
      "balance_loss_clip": 1.05798006,
      "balance_loss_mlp": 1.02299416,
      "epoch": 0.4233752179402393,
      "flos": 21248343970560.0,
      "grad_norm": 1.8380531814850605,
      "language_loss": 0.80526483,
      "learning_rate": 2.5849006713744902e-06,
      "loss": 0.82739002,
      "num_input_tokens_seen": 75889195,
      "step": 3521,
      "time_per_iteration": 3.6861612796783447
    },
    {
      "auxiliary_loss_clip": 0.01171109,
      "auxiliary_loss_mlp": 0.01032162,
      "balance_loss_clip": 1.05452168,
      "balance_loss_mlp": 1.02311993,
      "epoch": 0.42349546083087836,
      "flos": 20704297599360.0,
      "grad_norm": 2.569564982456483,
      "language_loss": 0.73226506,
      "learning_rate": 2.5841557114669135e-06,
      "loss": 0.75429773,
      "num_input_tokens_seen": 75906055,
      "step": 3522,
      "time_per_iteration": 3.64493989944458
    },
    {
      "auxiliary_loss_clip": 0.01194138,
      "auxiliary_loss_mlp": 0.01029396,
      "balance_loss_clip": 1.05582356,
      "balance_loss_mlp": 1.01908398,
      "epoch": 0.42361570372151747,
      "flos": 18585065128320.0,
      "grad_norm": 2.790813790358219,
      "language_loss": 0.67535281,
      "learning_rate": 2.58341066294338e-06,
      "loss": 0.69758809,
      "num_input_tokens_seen": 75922720,
      "step": 3523,
      "time_per_iteration": 2.633436441421509
    },
    {
      "auxiliary_loss_clip": 0.01158782,
      "auxiliary_loss_mlp": 0.00887519,
      "balance_loss_clip": 1.05172062,
      "balance_loss_mlp": 1.00099277,
      "epoch": 0.4237359466121566,
      "flos": 20959478795520.0,
      "grad_norm": 2.326900901310562,
      "language_loss": 0.85280108,
      "learning_rate": 2.5826655259169124e-06,
      "loss": 0.87326407,
      "num_input_tokens_seen": 75941375,
      "step": 3524,
      "time_per_iteration": 3.6467790603637695
    },
    {
      "auxiliary_loss_clip": 0.01195658,
      "auxiliary_loss_mlp": 0.010297,
      "balance_loss_clip": 1.06069136,
      "balance_loss_mlp": 1.02150428,
      "epoch": 0.42385618950279563,
      "flos": 18038181582720.0,
      "grad_norm": 1.9170023439942236,
      "language_loss": 0.90691233,
      "learning_rate": 2.5819203005005475e-06,
      "loss": 0.92916584,
      "num_input_tokens_seen": 75958710,
      "step": 3525,
      "time_per_iteration": 2.5925748348236084
    },
    {
      "auxiliary_loss_clip": 0.01167417,
      "auxiliary_loss_mlp": 0.01026779,
      "balance_loss_clip": 1.05488825,
      "balance_loss_mlp": 1.01881552,
      "epoch": 0.42397643239343474,
      "flos": 23769129559680.0,
      "grad_norm": 1.7014256234396783,
      "language_loss": 0.78846443,
      "learning_rate": 2.581174986807336e-06,
      "loss": 0.81040645,
      "num_input_tokens_seen": 75978945,
      "step": 3526,
      "time_per_iteration": 2.7408900260925293
    },
    {
      "auxiliary_loss_clip": 0.01176195,
      "auxiliary_loss_mlp": 0.00887546,
      "balance_loss_clip": 1.0551064,
      "balance_loss_mlp": 1.0008539,
      "epoch": 0.42409667528407385,
      "flos": 16545088016640.0,
      "grad_norm": 2.072149042179865,
      "language_loss": 0.91356975,
      "learning_rate": 2.580429584950341e-06,
      "loss": 0.93420714,
      "num_input_tokens_seen": 75994695,
      "step": 3527,
      "time_per_iteration": 2.638800621032715
    },
    {
      "auxiliary_loss_clip": 0.01169334,
      "auxiliary_loss_mlp": 0.01028155,
      "balance_loss_clip": 1.05294979,
      "balance_loss_mlp": 1.01942897,
      "epoch": 0.4242169181747129,
      "flos": 16034186920320.0,
      "grad_norm": 2.1255327262675197,
      "language_loss": 0.66542983,
      "learning_rate": 2.5796840950426397e-06,
      "loss": 0.68740475,
      "num_input_tokens_seen": 76011780,
      "step": 3528,
      "time_per_iteration": 2.7317891120910645
    },
    {
      "auxiliary_loss_clip": 0.01174665,
      "auxiliary_loss_mlp": 0.01031322,
      "balance_loss_clip": 1.05482519,
      "balance_loss_mlp": 1.02277446,
      "epoch": 0.424337161065352,
      "flos": 20084012611200.0,
      "grad_norm": 2.080652420083427,
      "language_loss": 0.65990883,
      "learning_rate": 2.578938517197322e-06,
      "loss": 0.68196869,
      "num_input_tokens_seen": 76029875,
      "step": 3529,
      "time_per_iteration": 2.688746929168701
    },
    {
      "auxiliary_loss_clip": 0.01166417,
      "auxiliary_loss_mlp": 0.01031214,
      "balance_loss_clip": 1.05399108,
      "balance_loss_mlp": 1.02269053,
      "epoch": 0.4244574039559911,
      "flos": 23878369797120.0,
      "grad_norm": 2.873425224742392,
      "language_loss": 0.62443995,
      "learning_rate": 2.5781928515274916e-06,
      "loss": 0.64641631,
      "num_input_tokens_seen": 76048595,
      "step": 3530,
      "time_per_iteration": 2.70186448097229
    },
    {
      "auxiliary_loss_clip": 0.01186632,
      "auxiliary_loss_mlp": 0.01026657,
      "balance_loss_clip": 1.05896783,
      "balance_loss_mlp": 1.01791286,
      "epoch": 0.4245776468466302,
      "flos": 17565920542080.0,
      "grad_norm": 2.480925242987622,
      "language_loss": 0.68081117,
      "learning_rate": 2.577447098146265e-06,
      "loss": 0.7029441,
      "num_input_tokens_seen": 76065770,
      "step": 3531,
      "time_per_iteration": 2.6817259788513184
    },
    {
      "auxiliary_loss_clip": 0.01168615,
      "auxiliary_loss_mlp": 0.01031653,
      "balance_loss_clip": 1.05598569,
      "balance_loss_mlp": 1.02296305,
      "epoch": 0.4246978897372693,
      "flos": 27776256958080.0,
      "grad_norm": 1.6590768528802884,
      "language_loss": 0.78970855,
      "learning_rate": 2.5767012571667724e-06,
      "loss": 0.81171119,
      "num_input_tokens_seen": 76085250,
      "step": 3532,
      "time_per_iteration": 2.7406115531921387
    },
    {
      "auxiliary_loss_clip": 0.01183385,
      "auxiliary_loss_mlp": 0.01030544,
      "balance_loss_clip": 1.05326414,
      "balance_loss_mlp": 1.02140069,
      "epoch": 0.42481813262790835,
      "flos": 15596615439360.0,
      "grad_norm": 1.8368414634545638,
      "language_loss": 0.68641472,
      "learning_rate": 2.5759553287021587e-06,
      "loss": 0.70855403,
      "num_input_tokens_seen": 76103580,
      "step": 3533,
      "time_per_iteration": 2.7717978954315186
    },
    {
      "auxiliary_loss_clip": 0.01170434,
      "auxiliary_loss_mlp": 0.01034642,
      "balance_loss_clip": 1.05403757,
      "balance_loss_mlp": 1.02577293,
      "epoch": 0.42493837551854746,
      "flos": 23951088881280.0,
      "grad_norm": 1.9916449450245932,
      "language_loss": 0.77560842,
      "learning_rate": 2.5752093128655786e-06,
      "loss": 0.79765916,
      "num_input_tokens_seen": 76121825,
      "step": 3534,
      "time_per_iteration": 2.706117630004883
    },
    {
      "auxiliary_loss_clip": 0.01164864,
      "auxiliary_loss_mlp": 0.0102608,
      "balance_loss_clip": 1.0522325,
      "balance_loss_mlp": 1.01730585,
      "epoch": 0.4250586184091866,
      "flos": 20813466009600.0,
      "grad_norm": 2.385140710561619,
      "language_loss": 0.73736334,
      "learning_rate": 2.574463209770204e-06,
      "loss": 0.75927281,
      "num_input_tokens_seen": 76141140,
      "step": 3535,
      "time_per_iteration": 2.76493763923645
    },
    {
      "auxiliary_loss_clip": 0.01158539,
      "auxiliary_loss_mlp": 0.01033402,
      "balance_loss_clip": 1.04832864,
      "balance_loss_mlp": 1.02429402,
      "epoch": 0.42517886129982563,
      "flos": 30371018607360.0,
      "grad_norm": 1.6162071457232292,
      "language_loss": 0.79570317,
      "learning_rate": 2.5737170195292165e-06,
      "loss": 0.81762254,
      "num_input_tokens_seen": 76164475,
      "step": 3536,
      "time_per_iteration": 2.7947421073913574
    },
    {
      "auxiliary_loss_clip": 0.01163208,
      "auxiliary_loss_mlp": 0.01027906,
      "balance_loss_clip": 1.05094898,
      "balance_loss_mlp": 1.0193584,
      "epoch": 0.42529910419046474,
      "flos": 20080636732800.0,
      "grad_norm": 1.9260931622150597,
      "language_loss": 0.78233349,
      "learning_rate": 2.572970742255814e-06,
      "loss": 0.80424464,
      "num_input_tokens_seen": 76182965,
      "step": 3537,
      "time_per_iteration": 2.774995803833008
    },
    {
      "auxiliary_loss_clip": 0.01185148,
      "auxiliary_loss_mlp": 0.01029101,
      "balance_loss_clip": 1.05892825,
      "balance_loss_mlp": 1.02117991,
      "epoch": 0.42541934708110385,
      "flos": 22632448694400.0,
      "grad_norm": 2.1193531414157825,
      "language_loss": 0.81423032,
      "learning_rate": 2.5722243780632046e-06,
      "loss": 0.83637279,
      "num_input_tokens_seen": 76201230,
      "step": 3538,
      "time_per_iteration": 2.701845645904541
    },
    {
      "auxiliary_loss_clip": 0.01064259,
      "auxiliary_loss_mlp": 0.0100602,
      "balance_loss_clip": 1.02082944,
      "balance_loss_mlp": 1.00450611,
      "epoch": 0.4255395899717429,
      "flos": 66200676186240.0,
      "grad_norm": 0.7605058766094208,
      "language_loss": 0.60445368,
      "learning_rate": 2.5714779270646125e-06,
      "loss": 0.62515646,
      "num_input_tokens_seen": 76262000,
      "step": 3539,
      "time_per_iteration": 3.265791654586792
    },
    {
      "auxiliary_loss_clip": 0.01175655,
      "auxiliary_loss_mlp": 0.00888302,
      "balance_loss_clip": 1.05504489,
      "balance_loss_mlp": 1.00090504,
      "epoch": 0.425659832862382,
      "flos": 17931814433280.0,
      "grad_norm": 4.432066557057411,
      "language_loss": 0.77926958,
      "learning_rate": 2.5707313893732735e-06,
      "loss": 0.79990911,
      "num_input_tokens_seen": 76280540,
      "step": 3540,
      "time_per_iteration": 2.7199883460998535
    },
    {
      "auxiliary_loss_clip": 0.01127527,
      "auxiliary_loss_mlp": 0.01028073,
      "balance_loss_clip": 1.0426743,
      "balance_loss_mlp": 1.01937675,
      "epoch": 0.4257800757530211,
      "flos": 24022550989440.0,
      "grad_norm": 1.7060463738745715,
      "language_loss": 0.76901853,
      "learning_rate": 2.5699847651024364e-06,
      "loss": 0.79057455,
      "num_input_tokens_seen": 76301180,
      "step": 3541,
      "time_per_iteration": 3.777212619781494
    },
    {
      "auxiliary_loss_clip": 0.01181326,
      "auxiliary_loss_mlp": 0.01040536,
      "balance_loss_clip": 1.05890679,
      "balance_loss_mlp": 1.03192914,
      "epoch": 0.4259003186436602,
      "flos": 23696015425920.0,
      "grad_norm": 2.5263903392896236,
      "language_loss": 0.77139604,
      "learning_rate": 2.5692380543653627e-06,
      "loss": 0.79361463,
      "num_input_tokens_seen": 76319335,
      "step": 3542,
      "time_per_iteration": 2.8318755626678467
    },
    {
      "auxiliary_loss_clip": 0.01184565,
      "auxiliary_loss_mlp": 0.00887876,
      "balance_loss_clip": 1.05455756,
      "balance_loss_mlp": 1.00084746,
      "epoch": 0.4260205615342993,
      "flos": 15259772672640.0,
      "grad_norm": 2.420548329860472,
      "language_loss": 0.69413626,
      "learning_rate": 2.5684912572753293e-06,
      "loss": 0.71486068,
      "num_input_tokens_seen": 76335010,
      "step": 3543,
      "time_per_iteration": 2.6560583114624023
    },
    {
      "auxiliary_loss_clip": 0.01191602,
      "auxiliary_loss_mlp": 0.01023869,
      "balance_loss_clip": 1.05828309,
      "balance_loss_mlp": 1.01609051,
      "epoch": 0.4261408044249384,
      "flos": 30665306736000.0,
      "grad_norm": 1.6984741350398194,
      "language_loss": 0.84184003,
      "learning_rate": 2.5677443739456245e-06,
      "loss": 0.86399472,
      "num_input_tokens_seen": 76356670,
      "step": 3544,
      "time_per_iteration": 2.7046375274658203
    },
    {
      "auxiliary_loss_clip": 0.01172979,
      "auxiliary_loss_mlp": 0.01030191,
      "balance_loss_clip": 1.05521917,
      "balance_loss_mlp": 1.02183461,
      "epoch": 0.42626104731557746,
      "flos": 23257905240960.0,
      "grad_norm": 6.007781897723429,
      "language_loss": 0.79649186,
      "learning_rate": 2.5669974044895495e-06,
      "loss": 0.81852353,
      "num_input_tokens_seen": 76373065,
      "step": 3545,
      "time_per_iteration": 2.819406032562256
    },
    {
      "auxiliary_loss_clip": 0.01169812,
      "auxiliary_loss_mlp": 0.01033896,
      "balance_loss_clip": 1.05106711,
      "balance_loss_mlp": 1.02546823,
      "epoch": 0.42638129020621657,
      "flos": 25884770670720.0,
      "grad_norm": 1.674103803481855,
      "language_loss": 0.79802155,
      "learning_rate": 2.5662503490204187e-06,
      "loss": 0.82005864,
      "num_input_tokens_seen": 76393230,
      "step": 3546,
      "time_per_iteration": 2.8855133056640625
    },
    {
      "auxiliary_loss_clip": 0.01169706,
      "auxiliary_loss_mlp": 0.01034121,
      "balance_loss_clip": 1.05233645,
      "balance_loss_mlp": 1.02562785,
      "epoch": 0.4265015330968556,
      "flos": 26502362138880.0,
      "grad_norm": 2.650675306882743,
      "language_loss": 0.7606039,
      "learning_rate": 2.5655032076515603e-06,
      "loss": 0.78264213,
      "num_input_tokens_seen": 76412555,
      "step": 3547,
      "time_per_iteration": 3.812988758087158
    },
    {
      "auxiliary_loss_clip": 0.01176256,
      "auxiliary_loss_mlp": 0.01035834,
      "balance_loss_clip": 1.05706763,
      "balance_loss_mlp": 1.02782309,
      "epoch": 0.42662177598749473,
      "flos": 24389522288640.0,
      "grad_norm": 2.007547837041924,
      "language_loss": 0.82147402,
      "learning_rate": 2.5647559804963155e-06,
      "loss": 0.84359491,
      "num_input_tokens_seen": 76432485,
      "step": 3548,
      "time_per_iteration": 3.8262667655944824
    },
    {
      "auxiliary_loss_clip": 0.01161667,
      "auxiliary_loss_mlp": 0.01038421,
      "balance_loss_clip": 1.05309677,
      "balance_loss_mlp": 1.02920008,
      "epoch": 0.42674201887813384,
      "flos": 23148629089920.0,
      "grad_norm": 2.0806336107015344,
      "language_loss": 0.79296327,
      "learning_rate": 2.5640086676680364e-06,
      "loss": 0.81496418,
      "num_input_tokens_seen": 76453980,
      "step": 3549,
      "time_per_iteration": 2.8753929138183594
    },
    {
      "auxiliary_loss_clip": 0.01183961,
      "auxiliary_loss_mlp": 0.01032923,
      "balance_loss_clip": 1.05776286,
      "balance_loss_mlp": 1.02453637,
      "epoch": 0.4268622617687729,
      "flos": 21689614552320.0,
      "grad_norm": 2.109963786558373,
      "language_loss": 0.80869579,
      "learning_rate": 2.5632612692800923e-06,
      "loss": 0.83086467,
      "num_input_tokens_seen": 76473045,
      "step": 3550,
      "time_per_iteration": 3.6107003688812256
    },
    {
      "auxiliary_loss_clip": 0.01162283,
      "auxiliary_loss_mlp": 0.01037782,
      "balance_loss_clip": 1.05141544,
      "balance_loss_mlp": 1.02815592,
      "epoch": 0.426982504659412,
      "flos": 23440151871360.0,
      "grad_norm": 2.048892803913288,
      "language_loss": 0.7573176,
      "learning_rate": 2.5625137854458603e-06,
      "loss": 0.77931821,
      "num_input_tokens_seen": 76492060,
      "step": 3551,
      "time_per_iteration": 2.7425620555877686
    },
    {
      "auxiliary_loss_clip": 0.01171643,
      "auxiliary_loss_mlp": 0.01025228,
      "balance_loss_clip": 1.05181456,
      "balance_loss_mlp": 1.01801038,
      "epoch": 0.4271027475500511,
      "flos": 18916556768640.0,
      "grad_norm": 1.7863616245013327,
      "language_loss": 0.80242503,
      "learning_rate": 2.561766216278735e-06,
      "loss": 0.82439375,
      "num_input_tokens_seen": 76509655,
      "step": 3552,
      "time_per_iteration": 2.6850404739379883
    },
    {
      "auxiliary_loss_clip": 0.01150741,
      "auxiliary_loss_mlp": 0.01031883,
      "balance_loss_clip": 1.05038559,
      "balance_loss_mlp": 1.02352095,
      "epoch": 0.4272229904406902,
      "flos": 26870554500480.0,
      "grad_norm": 2.0192045956081444,
      "language_loss": 0.81010723,
      "learning_rate": 2.561018561892121e-06,
      "loss": 0.8319335,
      "num_input_tokens_seen": 76528795,
      "step": 3553,
      "time_per_iteration": 2.7896337509155273
    },
    {
      "auxiliary_loss_clip": 0.01170116,
      "auxiliary_loss_mlp": 0.01031543,
      "balance_loss_clip": 1.05089426,
      "balance_loss_mlp": 1.02358556,
      "epoch": 0.4273432333313293,
      "flos": 23951376190080.0,
      "grad_norm": 1.5613370773844333,
      "language_loss": 0.76814771,
      "learning_rate": 2.5602708223994363e-06,
      "loss": 0.79016429,
      "num_input_tokens_seen": 76550660,
      "step": 3554,
      "time_per_iteration": 2.684971332550049
    },
    {
      "auxiliary_loss_clip": 0.01164058,
      "auxiliary_loss_mlp": 0.01028632,
      "balance_loss_clip": 1.0487535,
      "balance_loss_mlp": 1.02019191,
      "epoch": 0.4274634762219684,
      "flos": 29570354496000.0,
      "grad_norm": 2.3275658728264954,
      "language_loss": 0.6828053,
      "learning_rate": 2.559522997914115e-06,
      "loss": 0.70473218,
      "num_input_tokens_seen": 76570240,
      "step": 3555,
      "time_per_iteration": 2.8356940746307373
    },
    {
      "auxiliary_loss_clip": 0.01192484,
      "auxiliary_loss_mlp": 0.01032177,
      "balance_loss_clip": 1.0594914,
      "balance_loss_mlp": 1.02392161,
      "epoch": 0.42758371911260745,
      "flos": 21434146047360.0,
      "grad_norm": 1.9780014324746822,
      "language_loss": 0.84898692,
      "learning_rate": 2.558775088549599e-06,
      "loss": 0.87123358,
      "num_input_tokens_seen": 76589820,
      "step": 3556,
      "time_per_iteration": 2.634547710418701
    },
    {
      "auxiliary_loss_clip": 0.01186304,
      "auxiliary_loss_mlp": 0.01034778,
      "balance_loss_clip": 1.05416393,
      "balance_loss_mlp": 1.02565813,
      "epoch": 0.42770396200324656,
      "flos": 14752822072320.0,
      "grad_norm": 2.470948521044505,
      "language_loss": 0.6664862,
      "learning_rate": 2.5580270944193467e-06,
      "loss": 0.68869698,
      "num_input_tokens_seen": 76606640,
      "step": 3557,
      "time_per_iteration": 2.6393394470214844
    },
    {
      "auxiliary_loss_clip": 0.01085044,
      "auxiliary_loss_mlp": 0.01002985,
      "balance_loss_clip": 1.02026749,
      "balance_loss_mlp": 1.00154865,
      "epoch": 0.4278242048938857,
      "flos": 70654712601600.0,
      "grad_norm": 0.7430683855579879,
      "language_loss": 0.55506098,
      "learning_rate": 2.557279015636827e-06,
      "loss": 0.57594126,
      "num_input_tokens_seen": 76667050,
      "step": 3558,
      "time_per_iteration": 3.216254711151123
    },
    {
      "auxiliary_loss_clip": 0.01074747,
      "auxiliary_loss_mlp": 0.01004337,
      "balance_loss_clip": 1.01935387,
      "balance_loss_mlp": 1.00298369,
      "epoch": 0.42794444778452473,
      "flos": 69366165033600.0,
      "grad_norm": 0.7643507673814091,
      "language_loss": 0.61161244,
      "learning_rate": 2.5565308523155245e-06,
      "loss": 0.63240325,
      "num_input_tokens_seen": 76726650,
      "step": 3559,
      "time_per_iteration": 3.147020101547241
    },
    {
      "auxiliary_loss_clip": 0.01144824,
      "auxiliary_loss_mlp": 0.01025513,
      "balance_loss_clip": 1.05061424,
      "balance_loss_mlp": 1.01756799,
      "epoch": 0.42806469067516384,
      "flos": 18215328481920.0,
      "grad_norm": 2.255788117040918,
      "language_loss": 0.82352018,
      "learning_rate": 2.5557826045689336e-06,
      "loss": 0.84522361,
      "num_input_tokens_seen": 76742890,
      "step": 3560,
      "time_per_iteration": 2.738950252532959
    },
    {
      "auxiliary_loss_clip": 0.01059749,
      "auxiliary_loss_mlp": 0.01006185,
      "balance_loss_clip": 1.01733303,
      "balance_loss_mlp": 1.00472438,
      "epoch": 0.4281849335658029,
      "flos": 54535814432640.0,
      "grad_norm": 0.8247029580870425,
      "language_loss": 0.58802569,
      "learning_rate": 2.5550342725105643e-06,
      "loss": 0.60868502,
      "num_input_tokens_seen": 76801055,
      "step": 3561,
      "time_per_iteration": 3.309974431991577
    },
    {
      "auxiliary_loss_clip": 0.01183476,
      "auxiliary_loss_mlp": 0.0103077,
      "balance_loss_clip": 1.05995083,
      "balance_loss_mlp": 1.02175152,
      "epoch": 0.428305176456442,
      "flos": 17274828723840.0,
      "grad_norm": 1.774182667739731,
      "language_loss": 0.81588054,
      "learning_rate": 2.554285856253937e-06,
      "loss": 0.83802301,
      "num_input_tokens_seen": 76819890,
      "step": 3562,
      "time_per_iteration": 2.8075945377349854
    },
    {
      "auxiliary_loss_clip": 0.01171391,
      "auxiliary_loss_mlp": 0.01036788,
      "balance_loss_clip": 1.05593657,
      "balance_loss_mlp": 1.02805007,
      "epoch": 0.4284254193470811,
      "flos": 26359509749760.0,
      "grad_norm": 1.6892672437773604,
      "language_loss": 0.77662206,
      "learning_rate": 2.5535373559125855e-06,
      "loss": 0.79870385,
      "num_input_tokens_seen": 76840255,
      "step": 3563,
      "time_per_iteration": 2.7091526985168457
    },
    {
      "auxiliary_loss_clip": 0.0113137,
      "auxiliary_loss_mlp": 0.01035817,
      "balance_loss_clip": 1.04480386,
      "balance_loss_mlp": 1.02662635,
      "epoch": 0.42854566223772017,
      "flos": 29714248379520.0,
      "grad_norm": 1.729988770905762,
      "language_loss": 0.82104844,
      "learning_rate": 2.552788771600057e-06,
      "loss": 0.84272039,
      "num_input_tokens_seen": 76860565,
      "step": 3564,
      "time_per_iteration": 2.9544477462768555
    },
    {
      "auxiliary_loss_clip": 0.01166984,
      "auxiliary_loss_mlp": 0.01030785,
      "balance_loss_clip": 1.05456197,
      "balance_loss_mlp": 1.02163577,
      "epoch": 0.4286659051283593,
      "flos": 22018161277440.0,
      "grad_norm": 2.0314096076624737,
      "language_loss": 0.82072842,
      "learning_rate": 2.5520401034299118e-06,
      "loss": 0.84270608,
      "num_input_tokens_seen": 76878325,
      "step": 3565,
      "time_per_iteration": 3.369168281555176
    },
    {
      "auxiliary_loss_clip": 0.01182459,
      "auxiliary_loss_mlp": 0.01033088,
      "balance_loss_clip": 1.05319691,
      "balance_loss_mlp": 1.02351582,
      "epoch": 0.4287861480189984,
      "flos": 13334422838400.0,
      "grad_norm": 1.9617526094916926,
      "language_loss": 0.87936616,
      "learning_rate": 2.551291351515722e-06,
      "loss": 0.90152168,
      "num_input_tokens_seen": 76895340,
      "step": 3566,
      "time_per_iteration": 2.666604518890381
    },
    {
      "auxiliary_loss_clip": 0.01156879,
      "auxiliary_loss_mlp": 0.00887514,
      "balance_loss_clip": 1.04821312,
      "balance_loss_mlp": 1.00092459,
      "epoch": 0.42890639090963745,
      "flos": 26651535321600.0,
      "grad_norm": 1.819973569452101,
      "language_loss": 0.85670614,
      "learning_rate": 2.5505425159710726e-06,
      "loss": 0.87715006,
      "num_input_tokens_seen": 76915150,
      "step": 3567,
      "time_per_iteration": 3.7639050483703613
    },
    {
      "auxiliary_loss_clip": 0.01179868,
      "auxiliary_loss_mlp": 0.00888243,
      "balance_loss_clip": 1.05296898,
      "balance_loss_mlp": 1.00097036,
      "epoch": 0.42902663380027656,
      "flos": 24055768091520.0,
      "grad_norm": 1.750991889171094,
      "language_loss": 0.83004344,
      "learning_rate": 2.549793596909561e-06,
      "loss": 0.85072458,
      "num_input_tokens_seen": 76933770,
      "step": 3568,
      "time_per_iteration": 2.740838050842285
    },
    {
      "auxiliary_loss_clip": 0.01168376,
      "auxiliary_loss_mlp": 0.01027572,
      "balance_loss_clip": 1.05322826,
      "balance_loss_mlp": 1.01875079,
      "epoch": 0.42914687669091567,
      "flos": 15632561975040.0,
      "grad_norm": 2.0392153106260427,
      "language_loss": 0.66253555,
      "learning_rate": 2.5490445944447976e-06,
      "loss": 0.68449503,
      "num_input_tokens_seen": 76952265,
      "step": 3569,
      "time_per_iteration": 2.999437093734741
    },
    {
      "auxiliary_loss_clip": 0.01184595,
      "auxiliary_loss_mlp": 0.01030286,
      "balance_loss_clip": 1.05645227,
      "balance_loss_mlp": 1.02156615,
      "epoch": 0.4292671195815547,
      "flos": 31467802440960.0,
      "grad_norm": 2.0363803287135003,
      "language_loss": 0.65461951,
      "learning_rate": 2.548295508690406e-06,
      "loss": 0.6767683,
      "num_input_tokens_seen": 76973560,
      "step": 3570,
      "time_per_iteration": 2.814080238342285
    },
    {
      "auxiliary_loss_clip": 0.01183964,
      "auxiliary_loss_mlp": 0.01031691,
      "balance_loss_clip": 1.05399644,
      "balance_loss_mlp": 1.02356088,
      "epoch": 0.42938736247219383,
      "flos": 30257756046720.0,
      "grad_norm": 1.6794311021596318,
      "language_loss": 0.76679206,
      "learning_rate": 2.5475463397600217e-06,
      "loss": 0.78894866,
      "num_input_tokens_seen": 76993640,
      "step": 3571,
      "time_per_iteration": 2.708132266998291
    },
    {
      "auxiliary_loss_clip": 0.01195853,
      "auxiliary_loss_mlp": 0.01034694,
      "balance_loss_clip": 1.05889916,
      "balance_loss_mlp": 1.02612889,
      "epoch": 0.42950760536283294,
      "flos": 29349683291520.0,
      "grad_norm": 2.1335901422995467,
      "language_loss": 0.77475417,
      "learning_rate": 2.546797087767293e-06,
      "loss": 0.79705966,
      "num_input_tokens_seen": 77013765,
      "step": 3572,
      "time_per_iteration": 2.6563003063201904
    },
    {
      "auxiliary_loss_clip": 0.01148873,
      "auxiliary_loss_mlp": 0.01032229,
      "balance_loss_clip": 1.04939353,
      "balance_loss_mlp": 1.02382505,
      "epoch": 0.429627848253472,
      "flos": 26869943969280.0,
      "grad_norm": 1.86285908048021,
      "language_loss": 0.87270033,
      "learning_rate": 2.546047752825881e-06,
      "loss": 0.89451134,
      "num_input_tokens_seen": 77034370,
      "step": 3573,
      "time_per_iteration": 3.8408732414245605
    },
    {
      "auxiliary_loss_clip": 0.0115644,
      "auxiliary_loss_mlp": 0.01030056,
      "balance_loss_clip": 1.05020559,
      "balance_loss_mlp": 1.02179503,
      "epoch": 0.4297480911441111,
      "flos": 13881270470400.0,
      "grad_norm": 2.241324212017353,
      "language_loss": 0.92935455,
      "learning_rate": 2.5452983350494595e-06,
      "loss": 0.9512195,
      "num_input_tokens_seen": 77049925,
      "step": 3574,
      "time_per_iteration": 3.5663368701934814
    },
    {
      "auxiliary_loss_clip": 0.0118231,
      "auxiliary_loss_mlp": 0.00887625,
      "balance_loss_clip": 1.05527914,
      "balance_loss_mlp": 1.00086939,
      "epoch": 0.4298683340347502,
      "flos": 20741141975040.0,
      "grad_norm": 2.5158743858076265,
      "language_loss": 0.65179032,
      "learning_rate": 2.544548834551713e-06,
      "loss": 0.6724897,
      "num_input_tokens_seen": 77068930,
      "step": 3575,
      "time_per_iteration": 2.708767890930176
    },
    {
      "auxiliary_loss_clip": 0.0116093,
      "auxiliary_loss_mlp": 0.00887598,
      "balance_loss_clip": 1.0522089,
      "balance_loss_mlp": 1.00086677,
      "epoch": 0.4299885769253893,
      "flos": 20882126856960.0,
      "grad_norm": 3.473752727362829,
      "language_loss": 0.94651783,
      "learning_rate": 2.5437992514463424e-06,
      "loss": 0.96700305,
      "num_input_tokens_seen": 77082255,
      "step": 3576,
      "time_per_iteration": 3.6855130195617676
    },
    {
      "auxiliary_loss_clip": 0.01178889,
      "auxiliary_loss_mlp": 0.01031718,
      "balance_loss_clip": 1.05438471,
      "balance_loss_mlp": 1.02276528,
      "epoch": 0.4301088198160284,
      "flos": 25484618183040.0,
      "grad_norm": 1.688604852412828,
      "language_loss": 0.88355601,
      "learning_rate": 2.5430495858470565e-06,
      "loss": 0.90566206,
      "num_input_tokens_seen": 77101725,
      "step": 3577,
      "time_per_iteration": 2.6872406005859375
    },
    {
      "auxiliary_loss_clip": 0.01178566,
      "auxiliary_loss_mlp": 0.01029275,
      "balance_loss_clip": 1.05502868,
      "balance_loss_mlp": 1.02066815,
      "epoch": 0.43022906270666744,
      "flos": 18259427404800.0,
      "grad_norm": 2.1297289129126367,
      "language_loss": 0.77364016,
      "learning_rate": 2.54229983786758e-06,
      "loss": 0.79571855,
      "num_input_tokens_seen": 77119670,
      "step": 3578,
      "time_per_iteration": 2.6424336433410645
    },
    {
      "auxiliary_loss_clip": 0.01171092,
      "auxiliary_loss_mlp": 0.01031356,
      "balance_loss_clip": 1.05036426,
      "balance_loss_mlp": 1.02297533,
      "epoch": 0.43034930559730655,
      "flos": 23399536567680.0,
      "grad_norm": 1.9265674928207623,
      "language_loss": 0.85104328,
      "learning_rate": 2.541550007621651e-06,
      "loss": 0.8730678,
      "num_input_tokens_seen": 77138160,
      "step": 3579,
      "time_per_iteration": 2.693103075027466
    },
    {
      "auxiliary_loss_clip": 0.01178317,
      "auxiliary_loss_mlp": 0.01031921,
      "balance_loss_clip": 1.05453408,
      "balance_loss_mlp": 1.02324224,
      "epoch": 0.43046954848794566,
      "flos": 28184382264960.0,
      "grad_norm": 1.7426190992569506,
      "language_loss": 0.79896432,
      "learning_rate": 2.5408000952230156e-06,
      "loss": 0.82106668,
      "num_input_tokens_seen": 77156950,
      "step": 3580,
      "time_per_iteration": 2.761587381362915
    },
    {
      "auxiliary_loss_clip": 0.01174188,
      "auxiliary_loss_mlp": 0.01031275,
      "balance_loss_clip": 1.05245221,
      "balance_loss_mlp": 1.02238798,
      "epoch": 0.4305897913785847,
      "flos": 28580476515840.0,
      "grad_norm": 2.1657936492617917,
      "language_loss": 0.90504789,
      "learning_rate": 2.5400501007854357e-06,
      "loss": 0.92710257,
      "num_input_tokens_seen": 77176395,
      "step": 3581,
      "time_per_iteration": 2.7876694202423096
    },
    {
      "auxiliary_loss_clip": 0.01149045,
      "auxiliary_loss_mlp": 0.01030037,
      "balance_loss_clip": 1.04544914,
      "balance_loss_mlp": 1.02205634,
      "epoch": 0.43071003426922383,
      "flos": 20448721353600.0,
      "grad_norm": 2.2236805957781085,
      "language_loss": 0.75406206,
      "learning_rate": 2.539300024422685e-06,
      "loss": 0.77585286,
      "num_input_tokens_seen": 77194340,
      "step": 3582,
      "time_per_iteration": 2.7528460025787354
    },
    {
      "auxiliary_loss_clip": 0.01063713,
      "auxiliary_loss_mlp": 0.01002665,
      "balance_loss_clip": 1.01863325,
      "balance_loss_mlp": 1.00128829,
      "epoch": 0.43083027715986294,
      "flos": 51997969883520.0,
      "grad_norm": 0.8236332125375109,
      "language_loss": 0.60965198,
      "learning_rate": 2.538549866248549e-06,
      "loss": 0.63031572,
      "num_input_tokens_seen": 77249320,
      "step": 3583,
      "time_per_iteration": 3.140249013900757
    },
    {
      "auxiliary_loss_clip": 0.01180519,
      "auxiliary_loss_mlp": 0.01029122,
      "balance_loss_clip": 1.05363131,
      "balance_loss_mlp": 1.02083707,
      "epoch": 0.430950520050502,
      "flos": 16690885320960.0,
      "grad_norm": 6.549042356428993,
      "language_loss": 0.81365049,
      "learning_rate": 2.5377996263768274e-06,
      "loss": 0.83574688,
      "num_input_tokens_seen": 77267400,
      "step": 3584,
      "time_per_iteration": 2.647251605987549
    },
    {
      "auxiliary_loss_clip": 0.01175981,
      "auxiliary_loss_mlp": 0.01031776,
      "balance_loss_clip": 1.05255008,
      "balance_loss_mlp": 1.02322316,
      "epoch": 0.4310707629411411,
      "flos": 24608433726720.0,
      "grad_norm": 1.9513021843448128,
      "language_loss": 0.6865983,
      "learning_rate": 2.5370493049213293e-06,
      "loss": 0.70867586,
      "num_input_tokens_seen": 77287045,
      "step": 3585,
      "time_per_iteration": 2.7271692752838135
    },
    {
      "auxiliary_loss_clip": 0.01115977,
      "auxiliary_loss_mlp": 0.01029711,
      "balance_loss_clip": 1.04619431,
      "balance_loss_mlp": 1.02133048,
      "epoch": 0.4311910058317802,
      "flos": 26432983019520.0,
      "grad_norm": 2.0209133479133987,
      "language_loss": 0.80332178,
      "learning_rate": 2.536298901995878e-06,
      "loss": 0.82477868,
      "num_input_tokens_seen": 77306255,
      "step": 3586,
      "time_per_iteration": 3.0464303493499756
    },
    {
      "auxiliary_loss_clip": 0.01173901,
      "auxiliary_loss_mlp": 0.01028863,
      "balance_loss_clip": 1.05504191,
      "balance_loss_mlp": 1.02061391,
      "epoch": 0.43131124872241927,
      "flos": 25155891889920.0,
      "grad_norm": 2.346993099877646,
      "language_loss": 0.80466884,
      "learning_rate": 2.535548417714311e-06,
      "loss": 0.82669652,
      "num_input_tokens_seen": 77325555,
      "step": 3587,
      "time_per_iteration": 2.9348089694976807
    },
    {
      "auxiliary_loss_clip": 0.01185065,
      "auxiliary_loss_mlp": 0.01023948,
      "balance_loss_clip": 1.05367923,
      "balance_loss_mlp": 1.01562762,
      "epoch": 0.4314314916130584,
      "flos": 21614812479360.0,
      "grad_norm": 6.982885496852929,
      "language_loss": 0.87390202,
      "learning_rate": 2.534797852190474e-06,
      "loss": 0.89599216,
      "num_input_tokens_seen": 77345735,
      "step": 3588,
      "time_per_iteration": 2.828498601913452
    },
    {
      "auxiliary_loss_clip": 0.01178653,
      "auxiliary_loss_mlp": 0.01032531,
      "balance_loss_clip": 1.05381656,
      "balance_loss_mlp": 1.02437103,
      "epoch": 0.4315517345036975,
      "flos": 19275016544640.0,
      "grad_norm": 1.8375198385294935,
      "language_loss": 0.81822193,
      "learning_rate": 2.5340472055382283e-06,
      "loss": 0.84033382,
      "num_input_tokens_seen": 77361765,
      "step": 3589,
      "time_per_iteration": 2.7817623615264893
    },
    {
      "auxiliary_loss_clip": 0.01160798,
      "auxiliary_loss_mlp": 0.01029926,
      "balance_loss_clip": 1.05015135,
      "balance_loss_mlp": 1.02139664,
      "epoch": 0.43167197739433655,
      "flos": 24273853516800.0,
      "grad_norm": 1.9423627533096883,
      "language_loss": 0.81120014,
      "learning_rate": 2.5332964778714468e-06,
      "loss": 0.83310735,
      "num_input_tokens_seen": 77378950,
      "step": 3590,
      "time_per_iteration": 2.702406406402588
    },
    {
      "auxiliary_loss_clip": 0.01160826,
      "auxiliary_loss_mlp": 0.01030678,
      "balance_loss_clip": 1.0537051,
      "balance_loss_mlp": 1.02271497,
      "epoch": 0.43179222028497566,
      "flos": 16867816738560.0,
      "grad_norm": 3.3170392150814325,
      "language_loss": 0.66201532,
      "learning_rate": 2.5325456693040123e-06,
      "loss": 0.6839304,
      "num_input_tokens_seen": 77396145,
      "step": 3591,
      "time_per_iteration": 2.7345058917999268
    },
    {
      "auxiliary_loss_clip": 0.01185784,
      "auxiliary_loss_mlp": 0.01034418,
      "balance_loss_clip": 1.05411339,
      "balance_loss_mlp": 1.02572751,
      "epoch": 0.43191246317561477,
      "flos": 17639214243840.0,
      "grad_norm": 3.024875605472962,
      "language_loss": 0.74969363,
      "learning_rate": 2.531794779949824e-06,
      "loss": 0.77189565,
      "num_input_tokens_seen": 77414045,
      "step": 3592,
      "time_per_iteration": 2.6056859493255615
    },
    {
      "auxiliary_loss_clip": 0.01151018,
      "auxiliary_loss_mlp": 0.01024942,
      "balance_loss_clip": 1.04915655,
      "balance_loss_mlp": 1.01733065,
      "epoch": 0.4320327060662538,
      "flos": 23878800760320.0,
      "grad_norm": 1.7706168270176392,
      "language_loss": 0.8825084,
      "learning_rate": 2.5310438099227903e-06,
      "loss": 0.90426803,
      "num_input_tokens_seen": 77431310,
      "step": 3593,
      "time_per_iteration": 4.1861467361450195
    },
    {
      "auxiliary_loss_clip": 0.01079535,
      "auxiliary_loss_mlp": 0.01002123,
      "balance_loss_clip": 1.02071023,
      "balance_loss_mlp": 1.00073385,
      "epoch": 0.43215294895689293,
      "flos": 66394917959040.0,
      "grad_norm": 0.7994588890093997,
      "language_loss": 0.53371525,
      "learning_rate": 2.530292759336833e-06,
      "loss": 0.55453181,
      "num_input_tokens_seen": 77492045,
      "step": 3594,
      "time_per_iteration": 3.2468008995056152
    },
    {
      "auxiliary_loss_clip": 0.01166499,
      "auxiliary_loss_mlp": 0.01027744,
      "balance_loss_clip": 1.05282474,
      "balance_loss_mlp": 1.01863599,
      "epoch": 0.432273191847532,
      "flos": 20594267262720.0,
      "grad_norm": 2.0480321567687496,
      "language_loss": 0.69676638,
      "learning_rate": 2.5295416283058855e-06,
      "loss": 0.71870881,
      "num_input_tokens_seen": 77510910,
      "step": 3595,
      "time_per_iteration": 2.7392568588256836
    },
    {
      "auxiliary_loss_clip": 0.01165857,
      "auxiliary_loss_mlp": 0.00886886,
      "balance_loss_clip": 1.05181551,
      "balance_loss_mlp": 1.00077736,
      "epoch": 0.4323934347381711,
      "flos": 19282127437440.0,
      "grad_norm": 1.6643550585194338,
      "language_loss": 0.66243291,
      "learning_rate": 2.5287904169438943e-06,
      "loss": 0.68296033,
      "num_input_tokens_seen": 77530115,
      "step": 3596,
      "time_per_iteration": 2.6789824962615967
    },
    {
      "auxiliary_loss_clip": 0.01140238,
      "auxiliary_loss_mlp": 0.01030615,
      "balance_loss_clip": 1.04746854,
      "balance_loss_mlp": 1.02165675,
      "epoch": 0.4325136776288102,
      "flos": 21726315273600.0,
      "grad_norm": 2.639626278368083,
      "language_loss": 0.63917613,
      "learning_rate": 2.528039125364817e-06,
      "loss": 0.66088468,
      "num_input_tokens_seen": 77548920,
      "step": 3597,
      "time_per_iteration": 2.8488433361053467
    },
    {
      "auxiliary_loss_clip": 0.01165577,
      "auxiliary_loss_mlp": 0.01027048,
      "balance_loss_clip": 1.05433011,
      "balance_loss_mlp": 1.01822662,
      "epoch": 0.43263392051944927,
      "flos": 22340746344960.0,
      "grad_norm": 2.169047661770851,
      "language_loss": 0.76287276,
      "learning_rate": 2.5272877536826246e-06,
      "loss": 0.78479898,
      "num_input_tokens_seen": 77567715,
      "step": 3598,
      "time_per_iteration": 2.6941959857940674
    },
    {
      "auxiliary_loss_clip": 0.01151821,
      "auxiliary_loss_mlp": 0.01031845,
      "balance_loss_clip": 1.04639983,
      "balance_loss_mlp": 1.02270186,
      "epoch": 0.4327541634100884,
      "flos": 29168406328320.0,
      "grad_norm": 2.2249753770114657,
      "language_loss": 0.70434856,
      "learning_rate": 2.5265363020112986e-06,
      "loss": 0.7261852,
      "num_input_tokens_seen": 77588035,
      "step": 3599,
      "time_per_iteration": 4.71821928024292
    },
    {
      "auxiliary_loss_clip": 0.01181721,
      "auxiliary_loss_mlp": 0.0103313,
      "balance_loss_clip": 1.05684721,
      "balance_loss_mlp": 1.02491617,
      "epoch": 0.4328744063007275,
      "flos": 26067448264320.0,
      "grad_norm": 2.390938250900754,
      "language_loss": 0.84104931,
      "learning_rate": 2.5257847704648344e-06,
      "loss": 0.8631978,
      "num_input_tokens_seen": 77609265,
      "step": 3600,
      "time_per_iteration": 2.7020456790924072
    },
    {
      "auxiliary_loss_clip": 0.01189144,
      "auxiliary_loss_mlp": 0.01032281,
      "balance_loss_clip": 1.05566287,
      "balance_loss_mlp": 1.02407336,
      "epoch": 0.43299464919136654,
      "flos": 16581357774720.0,
      "grad_norm": 2.4971128773999847,
      "language_loss": 0.75314242,
      "learning_rate": 2.525033159157239e-06,
      "loss": 0.77535665,
      "num_input_tokens_seen": 77625580,
      "step": 3601,
      "time_per_iteration": 2.634671449661255
    },
    {
      "auxiliary_loss_clip": 0.01176129,
      "auxiliary_loss_mlp": 0.01031342,
      "balance_loss_clip": 1.05277014,
      "balance_loss_mlp": 1.02134025,
      "epoch": 0.43311489208200565,
      "flos": 16107265140480.0,
      "grad_norm": 1.7233828698991598,
      "language_loss": 0.77343321,
      "learning_rate": 2.52428146820253e-06,
      "loss": 0.79550797,
      "num_input_tokens_seen": 77643835,
      "step": 3602,
      "time_per_iteration": 3.4363977909088135
    },
    {
      "auxiliary_loss_clip": 0.01163721,
      "auxiliary_loss_mlp": 0.01032331,
      "balance_loss_clip": 1.05251288,
      "balance_loss_mlp": 1.02399826,
      "epoch": 0.43323513497264476,
      "flos": 22930220442240.0,
      "grad_norm": 3.546794186379102,
      "language_loss": 0.81561166,
      "learning_rate": 2.52352969771474e-06,
      "loss": 0.83757216,
      "num_input_tokens_seen": 77663060,
      "step": 3603,
      "time_per_iteration": 2.7130379676818848
    },
    {
      "auxiliary_loss_clip": 0.01173994,
      "auxiliary_loss_mlp": 0.01035129,
      "balance_loss_clip": 1.05413401,
      "balance_loss_mlp": 1.02690327,
      "epoch": 0.4333553778632838,
      "flos": 25299031587840.0,
      "grad_norm": 1.850420377367706,
      "language_loss": 0.886163,
      "learning_rate": 2.5227778478079106e-06,
      "loss": 0.90825427,
      "num_input_tokens_seen": 77682470,
      "step": 3604,
      "time_per_iteration": 2.708315134048462
    },
    {
      "auxiliary_loss_clip": 0.01178192,
      "auxiliary_loss_mlp": 0.01029736,
      "balance_loss_clip": 1.05420828,
      "balance_loss_mlp": 1.02184451,
      "epoch": 0.43347562075392293,
      "flos": 19387165783680.0,
      "grad_norm": 1.6317391782979023,
      "language_loss": 0.77119601,
      "learning_rate": 2.522025918596098e-06,
      "loss": 0.7932753,
      "num_input_tokens_seen": 77700770,
      "step": 3605,
      "time_per_iteration": 2.5964059829711914
    },
    {
      "auxiliary_loss_clip": 0.01184284,
      "auxiliary_loss_mlp": 0.01034626,
      "balance_loss_clip": 1.05704117,
      "balance_loss_mlp": 1.02675223,
      "epoch": 0.43359586364456204,
      "flos": 26325969425280.0,
      "grad_norm": 1.4086295146033168,
      "language_loss": 0.65461212,
      "learning_rate": 2.521273910193368e-06,
      "loss": 0.6768012,
      "num_input_tokens_seen": 77723950,
      "step": 3606,
      "time_per_iteration": 2.695052146911621
    },
    {
      "auxiliary_loss_clip": 0.0118804,
      "auxiliary_loss_mlp": 0.0103147,
      "balance_loss_clip": 1.05754769,
      "balance_loss_mlp": 1.0222429,
      "epoch": 0.4337161065352011,
      "flos": 15989261984640.0,
      "grad_norm": 2.0792764683405656,
      "language_loss": 0.87223303,
      "learning_rate": 2.5205218227138006e-06,
      "loss": 0.89442813,
      "num_input_tokens_seen": 77736905,
      "step": 3607,
      "time_per_iteration": 2.6370816230773926
    },
    {
      "auxiliary_loss_clip": 0.01191104,
      "auxiliary_loss_mlp": 0.0103016,
      "balance_loss_clip": 1.05557764,
      "balance_loss_mlp": 1.0215708,
      "epoch": 0.4338363494258402,
      "flos": 20224710184320.0,
      "grad_norm": 2.0067718019934246,
      "language_loss": 0.79091591,
      "learning_rate": 2.519769656271486e-06,
      "loss": 0.81312859,
      "num_input_tokens_seen": 77754325,
      "step": 3608,
      "time_per_iteration": 2.6447882652282715
    },
    {
      "auxiliary_loss_clip": 0.01143278,
      "auxiliary_loss_mlp": 0.01031674,
      "balance_loss_clip": 1.0499872,
      "balance_loss_mlp": 1.0228231,
      "epoch": 0.43395659231647926,
      "flos": 20083904870400.0,
      "grad_norm": 2.3460717992154008,
      "language_loss": 0.6793623,
      "learning_rate": 2.5190174109805285e-06,
      "loss": 0.70111179,
      "num_input_tokens_seen": 77774150,
      "step": 3609,
      "time_per_iteration": 2.7591440677642822
    },
    {
      "auxiliary_loss_clip": 0.0115846,
      "auxiliary_loss_mlp": 0.01033255,
      "balance_loss_clip": 1.04823053,
      "balance_loss_mlp": 1.02432656,
      "epoch": 0.43407683520711837,
      "flos": 19901801894400.0,
      "grad_norm": 2.16052788476329,
      "language_loss": 0.6418584,
      "learning_rate": 2.518265086955042e-06,
      "loss": 0.66377556,
      "num_input_tokens_seen": 77791870,
      "step": 3610,
      "time_per_iteration": 2.675618886947632
    },
    {
      "auxiliary_loss_clip": 0.01189792,
      "auxiliary_loss_mlp": 0.01029198,
      "balance_loss_clip": 1.05425847,
      "balance_loss_mlp": 1.02049613,
      "epoch": 0.4341970780977575,
      "flos": 23108732058240.0,
      "grad_norm": 1.7800497005079496,
      "language_loss": 0.83563852,
      "learning_rate": 2.5175126843091534e-06,
      "loss": 0.85782844,
      "num_input_tokens_seen": 77811240,
      "step": 3611,
      "time_per_iteration": 2.665226459503174
    },
    {
      "auxiliary_loss_clip": 0.0117822,
      "auxiliary_loss_mlp": 0.01035422,
      "balance_loss_clip": 1.05654442,
      "balance_loss_mlp": 1.02642131,
      "epoch": 0.43431732098839654,
      "flos": 37408288406400.0,
      "grad_norm": 2.3556479533154993,
      "language_loss": 0.75457215,
      "learning_rate": 2.5167602031570034e-06,
      "loss": 0.7767086,
      "num_input_tokens_seen": 77831425,
      "step": 3612,
      "time_per_iteration": 2.8035476207733154
    },
    {
      "auxiliary_loss_clip": 0.0119283,
      "auxiliary_loss_mlp": 0.01032483,
      "balance_loss_clip": 1.05737114,
      "balance_loss_mlp": 1.02426922,
      "epoch": 0.43443756387903565,
      "flos": 31868206323840.0,
      "grad_norm": 1.8179293910012801,
      "language_loss": 0.73460197,
      "learning_rate": 2.51600764361274e-06,
      "loss": 0.75685507,
      "num_input_tokens_seen": 77852950,
      "step": 3613,
      "time_per_iteration": 2.722520351409912
    },
    {
      "auxiliary_loss_clip": 0.01190336,
      "auxiliary_loss_mlp": 0.01031649,
      "balance_loss_clip": 1.05536044,
      "balance_loss_mlp": 1.02288747,
      "epoch": 0.43455780676967476,
      "flos": 23477139901440.0,
      "grad_norm": 3.583364549206928,
      "language_loss": 0.7890836,
      "learning_rate": 2.5152550057905283e-06,
      "loss": 0.8113035,
      "num_input_tokens_seen": 77872840,
      "step": 3614,
      "time_per_iteration": 2.6261978149414062
    },
    {
      "auxiliary_loss_clip": 0.01183918,
      "auxiliary_loss_mlp": 0.00887694,
      "balance_loss_clip": 1.05655563,
      "balance_loss_mlp": 1.0008378,
      "epoch": 0.4346780496603138,
      "flos": 24207060176640.0,
      "grad_norm": 6.210047345581906,
      "language_loss": 0.76609087,
      "learning_rate": 2.5145022898045415e-06,
      "loss": 0.78680706,
      "num_input_tokens_seen": 77892025,
      "step": 3615,
      "time_per_iteration": 2.7289700508117676
    },
    {
      "auxiliary_loss_clip": 0.01172678,
      "auxiliary_loss_mlp": 0.01030149,
      "balance_loss_clip": 1.04983568,
      "balance_loss_mlp": 1.02144074,
      "epoch": 0.4347982925509529,
      "flos": 17092366611840.0,
      "grad_norm": 2.1628620991634975,
      "language_loss": 0.90011489,
      "learning_rate": 2.5137494957689664e-06,
      "loss": 0.9221431,
      "num_input_tokens_seen": 77907635,
      "step": 3616,
      "time_per_iteration": 2.6799118518829346
    },
    {
      "auxiliary_loss_clip": 0.0106841,
      "auxiliary_loss_mlp": 0.01002583,
      "balance_loss_clip": 1.01675892,
      "balance_loss_mlp": 1.00132561,
      "epoch": 0.43491853544159204,
      "flos": 60945544696320.0,
      "grad_norm": 0.7626401832925934,
      "language_loss": 0.57328182,
      "learning_rate": 2.5129966237980016e-06,
      "loss": 0.59399176,
      "num_input_tokens_seen": 77970630,
      "step": 3617,
      "time_per_iteration": 3.2325174808502197
    },
    {
      "auxiliary_loss_clip": 0.01162681,
      "auxiliary_loss_mlp": 0.01026317,
      "balance_loss_clip": 1.04941583,
      "balance_loss_mlp": 1.01789522,
      "epoch": 0.4350387783322311,
      "flos": 21944652094080.0,
      "grad_norm": 1.7192178373146103,
      "language_loss": 0.786394,
      "learning_rate": 2.512243674005857e-06,
      "loss": 0.80828393,
      "num_input_tokens_seen": 77989995,
      "step": 3618,
      "time_per_iteration": 2.8760032653808594
    },
    {
      "auxiliary_loss_clip": 0.01137013,
      "auxiliary_loss_mlp": 0.01029832,
      "balance_loss_clip": 1.04476881,
      "balance_loss_mlp": 1.02159429,
      "epoch": 0.4351590212228702,
      "flos": 25082705928960.0,
      "grad_norm": 1.8399068300738344,
      "language_loss": 0.860479,
      "learning_rate": 2.5114906465067537e-06,
      "loss": 0.88214743,
      "num_input_tokens_seen": 78010980,
      "step": 3619,
      "time_per_iteration": 3.9581217765808105
    },
    {
      "auxiliary_loss_clip": 0.0118014,
      "auxiliary_loss_mlp": 0.01026589,
      "balance_loss_clip": 1.05075073,
      "balance_loss_mlp": 1.01849484,
      "epoch": 0.4352792641135093,
      "flos": 21506541909120.0,
      "grad_norm": 3.1834015045422466,
      "language_loss": 0.75131327,
      "learning_rate": 2.5107375414149264e-06,
      "loss": 0.77338064,
      "num_input_tokens_seen": 78030225,
      "step": 3620,
      "time_per_iteration": 2.754547357559204
    },
    {
      "auxiliary_loss_clip": 0.0114313,
      "auxiliary_loss_mlp": 0.0102321,
      "balance_loss_clip": 1.04310083,
      "balance_loss_mlp": 1.0143646,
      "epoch": 0.43539950700414837,
      "flos": 16253457494400.0,
      "grad_norm": 2.206541809215506,
      "language_loss": 0.71776396,
      "learning_rate": 2.5099843588446197e-06,
      "loss": 0.73942733,
      "num_input_tokens_seen": 78048545,
      "step": 3621,
      "time_per_iteration": 2.8234481811523438
    },
    {
      "auxiliary_loss_clip": 0.01155108,
      "auxiliary_loss_mlp": 0.01033095,
      "balance_loss_clip": 1.05021536,
      "balance_loss_mlp": 1.02447569,
      "epoch": 0.4355197498947875,
      "flos": 16691819074560.0,
      "grad_norm": 1.5589975655571329,
      "language_loss": 0.61209953,
      "learning_rate": 2.509231098910091e-06,
      "loss": 0.63398153,
      "num_input_tokens_seen": 78068415,
      "step": 3622,
      "time_per_iteration": 2.7807865142822266
    },
    {
      "auxiliary_loss_clip": 0.01164037,
      "auxiliary_loss_mlp": 0.01028999,
      "balance_loss_clip": 1.05168366,
      "balance_loss_mlp": 1.02135777,
      "epoch": 0.4356399927854266,
      "flos": 16362733645440.0,
      "grad_norm": 2.0804670702277592,
      "language_loss": 0.75062525,
      "learning_rate": 2.508477761725611e-06,
      "loss": 0.77255559,
      "num_input_tokens_seen": 78086690,
      "step": 3623,
      "time_per_iteration": 2.6688592433929443
    },
    {
      "auxiliary_loss_clip": 0.01185083,
      "auxiliary_loss_mlp": 0.01028531,
      "balance_loss_clip": 1.05473232,
      "balance_loss_mlp": 1.0202105,
      "epoch": 0.43576023567606564,
      "flos": 17202037812480.0,
      "grad_norm": 1.7475860295910488,
      "language_loss": 0.80891836,
      "learning_rate": 2.507724347405458e-06,
      "loss": 0.83105451,
      "num_input_tokens_seen": 78104640,
      "step": 3624,
      "time_per_iteration": 2.5944156646728516
    },
    {
      "auxiliary_loss_clip": 0.01145443,
      "auxiliary_loss_mlp": 0.01025581,
      "balance_loss_clip": 1.04701877,
      "balance_loss_mlp": 1.01743329,
      "epoch": 0.43588047856670475,
      "flos": 15917656222080.0,
      "grad_norm": 2.058818198073942,
      "language_loss": 0.81886727,
      "learning_rate": 2.5069708560639243e-06,
      "loss": 0.84057748,
      "num_input_tokens_seen": 78122550,
      "step": 3625,
      "time_per_iteration": 2.779010534286499
    },
    {
      "auxiliary_loss_clip": 0.01163274,
      "auxiliary_loss_mlp": 0.01028594,
      "balance_loss_clip": 1.05096614,
      "balance_loss_mlp": 1.01987946,
      "epoch": 0.4360007214573438,
      "flos": 23659566099840.0,
      "grad_norm": 2.6741028166191727,
      "language_loss": 0.61833519,
      "learning_rate": 2.5062172878153158e-06,
      "loss": 0.6402539,
      "num_input_tokens_seen": 78141825,
      "step": 3626,
      "time_per_iteration": 4.484116315841675
    },
    {
      "auxiliary_loss_clip": 0.0114839,
      "auxiliary_loss_mlp": 0.01024467,
      "balance_loss_clip": 1.0495249,
      "balance_loss_mlp": 1.01557994,
      "epoch": 0.4361209643479829,
      "flos": 21978767036160.0,
      "grad_norm": 4.957580737609516,
      "language_loss": 0.87272161,
      "learning_rate": 2.505463642773947e-06,
      "loss": 0.89445019,
      "num_input_tokens_seen": 78161790,
      "step": 3627,
      "time_per_iteration": 2.775935649871826
    },
    {
      "auxiliary_loss_clip": 0.01160876,
      "auxiliary_loss_mlp": 0.00887575,
      "balance_loss_clip": 1.05193198,
      "balance_loss_mlp": 1.00078869,
      "epoch": 0.43624120723862203,
      "flos": 17420159151360.0,
      "grad_norm": 2.697689000406037,
      "language_loss": 0.74611294,
      "learning_rate": 2.504709921054146e-06,
      "loss": 0.76659745,
      "num_input_tokens_seen": 78178605,
      "step": 3628,
      "time_per_iteration": 3.7984814643859863
    },
    {
      "auxiliary_loss_clip": 0.01152796,
      "auxiliary_loss_mlp": 0.01031048,
      "balance_loss_clip": 1.04564321,
      "balance_loss_mlp": 1.02199996,
      "epoch": 0.4363614501292611,
      "flos": 17895293280000.0,
      "grad_norm": 2.328468868599595,
      "language_loss": 0.83564311,
      "learning_rate": 2.50395612277025e-06,
      "loss": 0.8574816,
      "num_input_tokens_seen": 78194460,
      "step": 3629,
      "time_per_iteration": 2.954397678375244
    },
    {
      "auxiliary_loss_clip": 0.0117387,
      "auxiliary_loss_mlp": 0.01026676,
      "balance_loss_clip": 1.05167699,
      "balance_loss_mlp": 1.01843858,
      "epoch": 0.4364816930199002,
      "flos": 20302888135680.0,
      "grad_norm": 1.945278844302486,
      "language_loss": 0.72960407,
      "learning_rate": 2.503202248036612e-06,
      "loss": 0.75160956,
      "num_input_tokens_seen": 78213315,
      "step": 3630,
      "time_per_iteration": 2.775402069091797
    },
    {
      "auxiliary_loss_clip": 0.01187323,
      "auxiliary_loss_mlp": 0.01030333,
      "balance_loss_clip": 1.05376935,
      "balance_loss_mlp": 1.02132058,
      "epoch": 0.4366019359105393,
      "flos": 24061334699520.0,
      "grad_norm": 16.83095789943775,
      "language_loss": 0.73515844,
      "learning_rate": 2.5024482969675927e-06,
      "loss": 0.75733501,
      "num_input_tokens_seen": 78233270,
      "step": 3631,
      "time_per_iteration": 2.6876373291015625
    },
    {
      "auxiliary_loss_clip": 0.01154887,
      "auxiliary_loss_mlp": 0.01024264,
      "balance_loss_clip": 1.04857779,
      "balance_loss_mlp": 1.01642621,
      "epoch": 0.43672217880117836,
      "flos": 21754109422080.0,
      "grad_norm": 2.214560918669868,
      "language_loss": 0.8457942,
      "learning_rate": 2.501694269677566e-06,
      "loss": 0.86758578,
      "num_input_tokens_seen": 78251040,
      "step": 3632,
      "time_per_iteration": 2.745164155960083
    },
    {
      "auxiliary_loss_clip": 0.01180735,
      "auxiliary_loss_mlp": 0.01027836,
      "balance_loss_clip": 1.05206525,
      "balance_loss_mlp": 1.01956844,
      "epoch": 0.4368424216918175,
      "flos": 18035200753920.0,
      "grad_norm": 2.8443540255859068,
      "language_loss": 0.80265826,
      "learning_rate": 2.500940166280918e-06,
      "loss": 0.82474393,
      "num_input_tokens_seen": 78269470,
      "step": 3633,
      "time_per_iteration": 2.6778604984283447
    },
    {
      "auxiliary_loss_clip": 0.01174812,
      "auxiliary_loss_mlp": 0.0103027,
      "balance_loss_clip": 1.0518713,
      "balance_loss_mlp": 1.02191031,
      "epoch": 0.4369626645824566,
      "flos": 25447127362560.0,
      "grad_norm": 1.7017166405541635,
      "language_loss": 0.79454684,
      "learning_rate": 2.500185986892045e-06,
      "loss": 0.81659758,
      "num_input_tokens_seen": 78288955,
      "step": 3634,
      "time_per_iteration": 2.757953405380249
    },
    {
      "auxiliary_loss_clip": 0.01174571,
      "auxiliary_loss_mlp": 0.01029544,
      "balance_loss_clip": 1.05158889,
      "balance_loss_mlp": 1.02070463,
      "epoch": 0.43708290747309564,
      "flos": 25302694775040.0,
      "grad_norm": 1.9264469640030144,
      "language_loss": 0.77590954,
      "learning_rate": 2.499431731625355e-06,
      "loss": 0.79795069,
      "num_input_tokens_seen": 78307980,
      "step": 3635,
      "time_per_iteration": 2.697205066680908
    },
    {
      "auxiliary_loss_clip": 0.01189831,
      "auxiliary_loss_mlp": 0.01027674,
      "balance_loss_clip": 1.05488968,
      "balance_loss_mlp": 1.01885271,
      "epoch": 0.43720315036373475,
      "flos": 31575103344000.0,
      "grad_norm": 1.9627656616145632,
      "language_loss": 0.79364216,
      "learning_rate": 2.4986774005952686e-06,
      "loss": 0.81581724,
      "num_input_tokens_seen": 78330355,
      "step": 3636,
      "time_per_iteration": 2.7094268798828125
    },
    {
      "auxiliary_loss_clip": 0.01175841,
      "auxiliary_loss_mlp": 0.01026423,
      "balance_loss_clip": 1.05452228,
      "balance_loss_mlp": 1.01803708,
      "epoch": 0.43732339325437386,
      "flos": 23112000195840.0,
      "grad_norm": 3.6746802098428697,
      "language_loss": 0.8501187,
      "learning_rate": 2.4979229939162166e-06,
      "loss": 0.8721413,
      "num_input_tokens_seen": 78349135,
      "step": 3637,
      "time_per_iteration": 2.7069180011749268
    },
    {
      "auxiliary_loss_clip": 0.01173639,
      "auxiliary_loss_mlp": 0.01023501,
      "balance_loss_clip": 1.05392933,
      "balance_loss_mlp": 1.01593101,
      "epoch": 0.4374436361450129,
      "flos": 27746272080000.0,
      "grad_norm": 1.5420379325580156,
      "language_loss": 0.80567682,
      "learning_rate": 2.4971685117026433e-06,
      "loss": 0.82764816,
      "num_input_tokens_seen": 78368900,
      "step": 3638,
      "time_per_iteration": 2.689389944076538
    },
    {
      "auxiliary_loss_clip": 0.01184346,
      "auxiliary_loss_mlp": 0.01026068,
      "balance_loss_clip": 1.05588567,
      "balance_loss_mlp": 1.01787281,
      "epoch": 0.437563879035652,
      "flos": 24172370616960.0,
      "grad_norm": 1.397081905313786,
      "language_loss": 0.76436514,
      "learning_rate": 2.4964139540690018e-06,
      "loss": 0.78646922,
      "num_input_tokens_seen": 78392235,
      "step": 3639,
      "time_per_iteration": 2.727996349334717
    },
    {
      "auxiliary_loss_clip": 0.01161823,
      "auxiliary_loss_mlp": 0.01028425,
      "balance_loss_clip": 1.04974246,
      "balance_loss_mlp": 1.01898372,
      "epoch": 0.4376841219262911,
      "flos": 23477211728640.0,
      "grad_norm": 2.0834192681757817,
      "language_loss": 0.7282657,
      "learning_rate": 2.495659321129758e-06,
      "loss": 0.75016814,
      "num_input_tokens_seen": 78409980,
      "step": 3640,
      "time_per_iteration": 2.739398241043091
    },
    {
      "auxiliary_loss_clip": 0.01175361,
      "auxiliary_loss_mlp": 0.01034254,
      "balance_loss_clip": 1.05210662,
      "balance_loss_mlp": 1.02585602,
      "epoch": 0.4378043648169302,
      "flos": 25447809720960.0,
      "grad_norm": 1.954176477473128,
      "language_loss": 0.76004565,
      "learning_rate": 2.494904612999389e-06,
      "loss": 0.7821418,
      "num_input_tokens_seen": 78428690,
      "step": 3641,
      "time_per_iteration": 2.6958611011505127
    },
    {
      "auxiliary_loss_clip": 0.01071085,
      "auxiliary_loss_mlp": 0.01002585,
      "balance_loss_clip": 1.01632428,
      "balance_loss_mlp": 1.00143456,
      "epoch": 0.4379246077075693,
      "flos": 53914056986880.0,
      "grad_norm": 0.7503549424344562,
      "language_loss": 0.56572449,
      "learning_rate": 2.4941498297923843e-06,
      "loss": 0.58646119,
      "num_input_tokens_seen": 78489260,
      "step": 3642,
      "time_per_iteration": 3.2474629878997803
    },
    {
      "auxiliary_loss_clip": 0.01177339,
      "auxiliary_loss_mlp": 0.01030414,
      "balance_loss_clip": 1.05486226,
      "balance_loss_mlp": 1.02178347,
      "epoch": 0.43804485059820836,
      "flos": 20588305605120.0,
      "grad_norm": 1.9758706043749472,
      "language_loss": 0.69964921,
      "learning_rate": 2.4933949716232424e-06,
      "loss": 0.72172678,
      "num_input_tokens_seen": 78506785,
      "step": 3643,
      "time_per_iteration": 2.6355950832366943
    },
    {
      "auxiliary_loss_clip": 0.01158091,
      "auxiliary_loss_mlp": 0.01029889,
      "balance_loss_clip": 1.05205655,
      "balance_loss_mlp": 1.02165174,
      "epoch": 0.43816509348884747,
      "flos": 23876214981120.0,
      "grad_norm": 3.3636357109475306,
      "language_loss": 0.73644257,
      "learning_rate": 2.492640038606476e-06,
      "loss": 0.75832242,
      "num_input_tokens_seen": 78525150,
      "step": 3644,
      "time_per_iteration": 2.7801802158355713
    },
    {
      "auxiliary_loss_clip": 0.01179864,
      "auxiliary_loss_mlp": 0.0102782,
      "balance_loss_clip": 1.05237412,
      "balance_loss_mlp": 1.01940417,
      "epoch": 0.4382853363794866,
      "flos": 14684448533760.0,
      "grad_norm": 2.4946474049315044,
      "language_loss": 0.78899646,
      "learning_rate": 2.491885030856608e-06,
      "loss": 0.8110733,
      "num_input_tokens_seen": 78543245,
      "step": 3645,
      "time_per_iteration": 3.5631065368652344
    },
    {
      "auxiliary_loss_clip": 0.01173081,
      "auxiliary_loss_mlp": 0.01036655,
      "balance_loss_clip": 1.05385423,
      "balance_loss_mlp": 1.02828646,
      "epoch": 0.43840557927012563,
      "flos": 17165301177600.0,
      "grad_norm": 3.599609151874849,
      "language_loss": 0.82763946,
      "learning_rate": 2.4911299484881713e-06,
      "loss": 0.84973681,
      "num_input_tokens_seen": 78560775,
      "step": 3646,
      "time_per_iteration": 2.705148220062256
    },
    {
      "auxiliary_loss_clip": 0.01159845,
      "auxiliary_loss_mlp": 0.01029404,
      "balance_loss_clip": 1.04796612,
      "balance_loss_mlp": 1.02104795,
      "epoch": 0.43852582216076474,
      "flos": 19390685316480.0,
      "grad_norm": 1.5341339633335132,
      "language_loss": 0.81102574,
      "learning_rate": 2.490374791615712e-06,
      "loss": 0.83291817,
      "num_input_tokens_seen": 78580800,
      "step": 3647,
      "time_per_iteration": 2.707486629486084
    },
    {
      "auxiliary_loss_clip": 0.01193102,
      "auxiliary_loss_mlp": 0.00887517,
      "balance_loss_clip": 1.05597568,
      "balance_loss_mlp": 1.00082111,
      "epoch": 0.43864606505140386,
      "flos": 18075133699200.0,
      "grad_norm": 2.411399297687337,
      "language_loss": 0.77754807,
      "learning_rate": 2.4896195603537867e-06,
      "loss": 0.79835427,
      "num_input_tokens_seen": 78595410,
      "step": 3648,
      "time_per_iteration": 2.6117475032806396
    },
    {
      "auxiliary_loss_clip": 0.01145834,
      "auxiliary_loss_mlp": 0.01031505,
      "balance_loss_clip": 1.05249512,
      "balance_loss_mlp": 1.02352953,
      "epoch": 0.4387663079420429,
      "flos": 19644896845440.0,
      "grad_norm": 2.256630715568459,
      "language_loss": 0.73882389,
      "learning_rate": 2.488864254816964e-06,
      "loss": 0.76059723,
      "num_input_tokens_seen": 78614100,
      "step": 3649,
      "time_per_iteration": 2.7962327003479004
    },
    {
      "auxiliary_loss_clip": 0.01181258,
      "auxiliary_loss_mlp": 0.01033289,
      "balance_loss_clip": 1.0550096,
      "balance_loss_mlp": 1.0244441,
      "epoch": 0.438886550832682,
      "flos": 19719339782400.0,
      "grad_norm": 2.4810496957481045,
      "language_loss": 0.68315631,
      "learning_rate": 2.4881088751198218e-06,
      "loss": 0.70530176,
      "num_input_tokens_seen": 78632260,
      "step": 3650,
      "time_per_iteration": 2.659972906112671
    },
    {
      "auxiliary_loss_clip": 0.01172183,
      "auxiliary_loss_mlp": 0.01034127,
      "balance_loss_clip": 1.05220926,
      "balance_loss_mlp": 1.02522206,
      "epoch": 0.43900679372332113,
      "flos": 14536675981440.0,
      "grad_norm": 2.792759420359229,
      "language_loss": 0.64252651,
      "learning_rate": 2.4873534213769517e-06,
      "loss": 0.66458964,
      "num_input_tokens_seen": 78647490,
      "step": 3651,
      "time_per_iteration": 3.658278465270996
    },
    {
      "auxiliary_loss_clip": 0.01157058,
      "auxiliary_loss_mlp": 0.01034538,
      "balance_loss_clip": 1.05348647,
      "balance_loss_mlp": 1.02579439,
      "epoch": 0.4391270366139602,
      "flos": 24056234968320.0,
      "grad_norm": 1.6921412981653727,
      "language_loss": 0.71875858,
      "learning_rate": 2.4865978937029547e-06,
      "loss": 0.74067461,
      "num_input_tokens_seen": 78666470,
      "step": 3652,
      "time_per_iteration": 3.7029504776000977
    },
    {
      "auxiliary_loss_clip": 0.01144637,
      "auxiliary_loss_mlp": 0.01030107,
      "balance_loss_clip": 1.05132484,
      "balance_loss_mlp": 1.02056432,
      "epoch": 0.4392472795045993,
      "flos": 31538510363520.0,
      "grad_norm": 1.7204500481561538,
      "language_loss": 0.66249949,
      "learning_rate": 2.485842292212445e-06,
      "loss": 0.6842469,
      "num_input_tokens_seen": 78687685,
      "step": 3653,
      "time_per_iteration": 2.842712879180908
    },
    {
      "auxiliary_loss_clip": 0.01194623,
      "auxiliary_loss_mlp": 0.01036772,
      "balance_loss_clip": 1.05855083,
      "balance_loss_mlp": 1.02830219,
      "epoch": 0.4393675223952384,
      "flos": 14866300114560.0,
      "grad_norm": 2.3700105127501554,
      "language_loss": 0.80507487,
      "learning_rate": 2.485086617020045e-06,
      "loss": 0.82738888,
      "num_input_tokens_seen": 78706180,
      "step": 3654,
      "time_per_iteration": 3.5113348960876465
    },
    {
      "auxiliary_loss_clip": 0.01162384,
      "auxiliary_loss_mlp": 0.0102964,
      "balance_loss_clip": 1.04793227,
      "balance_loss_mlp": 1.02047324,
      "epoch": 0.43948776528587746,
      "flos": 14825900292480.0,
      "grad_norm": 2.0277391180437006,
      "language_loss": 0.81856871,
      "learning_rate": 2.4843308682403903e-06,
      "loss": 0.84048891,
      "num_input_tokens_seen": 78723095,
      "step": 3655,
      "time_per_iteration": 2.627481460571289
    },
    {
      "auxiliary_loss_clip": 0.01190813,
      "auxiliary_loss_mlp": 0.01037587,
      "balance_loss_clip": 1.05616009,
      "balance_loss_mlp": 1.02957606,
      "epoch": 0.4396080081765166,
      "flos": 13914523486080.0,
      "grad_norm": 1.7344932018350534,
      "language_loss": 0.82415402,
      "learning_rate": 2.4835750459881294e-06,
      "loss": 0.84643793,
      "num_input_tokens_seen": 78739720,
      "step": 3656,
      "time_per_iteration": 2.630603551864624
    },
    {
      "auxiliary_loss_clip": 0.01158869,
      "auxiliary_loss_mlp": 0.01029831,
      "balance_loss_clip": 1.04701424,
      "balance_loss_mlp": 1.02168298,
      "epoch": 0.43972825106715563,
      "flos": 18222978078720.0,
      "grad_norm": 1.6212603919080713,
      "language_loss": 0.82039738,
      "learning_rate": 2.4828191503779177e-06,
      "loss": 0.84228438,
      "num_input_tokens_seen": 78757820,
      "step": 3657,
      "time_per_iteration": 2.6481685638427734
    },
    {
      "auxiliary_loss_clip": 0.01159973,
      "auxiliary_loss_mlp": 0.01032828,
      "balance_loss_clip": 1.04937816,
      "balance_loss_mlp": 1.02432871,
      "epoch": 0.43984849395779474,
      "flos": 16873239692160.0,
      "grad_norm": 1.9756668110874558,
      "language_loss": 0.899324,
      "learning_rate": 2.482063181524425e-06,
      "loss": 0.92125201,
      "num_input_tokens_seen": 78773720,
      "step": 3658,
      "time_per_iteration": 2.7326183319091797
    },
    {
      "auxiliary_loss_clip": 0.01195166,
      "auxiliary_loss_mlp": 0.01036282,
      "balance_loss_clip": 1.05731678,
      "balance_loss_mlp": 1.02652526,
      "epoch": 0.43996873684843385,
      "flos": 18691504104960.0,
      "grad_norm": 2.1609561043259795,
      "language_loss": 0.81481576,
      "learning_rate": 2.4813071395423307e-06,
      "loss": 0.83713019,
      "num_input_tokens_seen": 78791285,
      "step": 3659,
      "time_per_iteration": 2.6362926959991455
    },
    {
      "auxiliary_loss_clip": 0.01182478,
      "auxiliary_loss_mlp": 0.01034305,
      "balance_loss_clip": 1.05436921,
      "balance_loss_mlp": 1.02606726,
      "epoch": 0.4400889797390729,
      "flos": 23653460787840.0,
      "grad_norm": 1.724127326070172,
      "language_loss": 0.64325881,
      "learning_rate": 2.4805510245463263e-06,
      "loss": 0.66542661,
      "num_input_tokens_seen": 78811440,
      "step": 3660,
      "time_per_iteration": 2.743804693222046
    },
    {
      "auxiliary_loss_clip": 0.01177744,
      "auxiliary_loss_mlp": 0.01032985,
      "balance_loss_clip": 1.05103433,
      "balance_loss_mlp": 1.02427077,
      "epoch": 0.440209222629712,
      "flos": 23149203707520.0,
      "grad_norm": 2.0898056162191616,
      "language_loss": 0.60547996,
      "learning_rate": 2.4797948366511137e-06,
      "loss": 0.6275872,
      "num_input_tokens_seen": 78831150,
      "step": 3661,
      "time_per_iteration": 2.720473051071167
    },
    {
      "auxiliary_loss_clip": 0.0115697,
      "auxiliary_loss_mlp": 0.01035372,
      "balance_loss_clip": 1.04750788,
      "balance_loss_mlp": 1.02703321,
      "epoch": 0.4403294655203511,
      "flos": 24823394668800.0,
      "grad_norm": 2.130604020838939,
      "language_loss": 0.76259863,
      "learning_rate": 2.4790385759714055e-06,
      "loss": 0.78452206,
      "num_input_tokens_seen": 78850215,
      "step": 3662,
      "time_per_iteration": 2.7871909141540527
    },
    {
      "auxiliary_loss_clip": 0.0117459,
      "auxiliary_loss_mlp": 0.01029988,
      "balance_loss_clip": 1.05291176,
      "balance_loss_mlp": 1.02120876,
      "epoch": 0.4404497084109902,
      "flos": 22565080736640.0,
      "grad_norm": 1.971339970525284,
      "language_loss": 0.71093082,
      "learning_rate": 2.478282242621926e-06,
      "loss": 0.73297656,
      "num_input_tokens_seen": 78870675,
      "step": 3663,
      "time_per_iteration": 2.7085306644439697
    },
    {
      "auxiliary_loss_clip": 0.01060563,
      "auxiliary_loss_mlp": 0.01008097,
      "balance_loss_clip": 1.01521003,
      "balance_loss_mlp": 1.00676775,
      "epoch": 0.4405699513016293,
      "flos": 64967073448320.0,
      "grad_norm": 1.2007165082524676,
      "language_loss": 0.59601146,
      "learning_rate": 2.477525836717411e-06,
      "loss": 0.61669809,
      "num_input_tokens_seen": 78938440,
      "step": 3664,
      "time_per_iteration": 3.4190540313720703
    },
    {
      "auxiliary_loss_clip": 0.01181405,
      "auxiliary_loss_mlp": 0.01031356,
      "balance_loss_clip": 1.05251455,
      "balance_loss_mlp": 1.02292252,
      "epoch": 0.4406901941922684,
      "flos": 35661952978560.0,
      "grad_norm": 3.4675093384820146,
      "language_loss": 0.79632723,
      "learning_rate": 2.476769358372606e-06,
      "loss": 0.81845486,
      "num_input_tokens_seen": 78960090,
      "step": 3665,
      "time_per_iteration": 2.7990171909332275
    },
    {
      "auxiliary_loss_clip": 0.01158599,
      "auxiliary_loss_mlp": 0.01029338,
      "balance_loss_clip": 1.05388975,
      "balance_loss_mlp": 1.02095151,
      "epoch": 0.44081043708290746,
      "flos": 18040767361920.0,
      "grad_norm": 1.9286451848568114,
      "language_loss": 0.74772471,
      "learning_rate": 2.4760128077022683e-06,
      "loss": 0.76960409,
      "num_input_tokens_seen": 78978225,
      "step": 3666,
      "time_per_iteration": 2.710071086883545
    },
    {
      "auxiliary_loss_clip": 0.01141086,
      "auxiliary_loss_mlp": 0.01032012,
      "balance_loss_clip": 1.04689598,
      "balance_loss_mlp": 1.02332151,
      "epoch": 0.44093067997354657,
      "flos": 30153507799680.0,
      "grad_norm": 1.5521571229916886,
      "language_loss": 0.68542844,
      "learning_rate": 2.4752561848211672e-06,
      "loss": 0.7071594,
      "num_input_tokens_seen": 79000625,
      "step": 3667,
      "time_per_iteration": 2.81960391998291
    },
    {
      "auxiliary_loss_clip": 0.01177946,
      "auxiliary_loss_mlp": 0.0102468,
      "balance_loss_clip": 1.05598199,
      "balance_loss_mlp": 1.01623392,
      "epoch": 0.4410509228641857,
      "flos": 23255068066560.0,
      "grad_norm": 1.9986619811788917,
      "language_loss": 0.71268785,
      "learning_rate": 2.4744994898440797e-06,
      "loss": 0.73471415,
      "num_input_tokens_seen": 79019415,
      "step": 3668,
      "time_per_iteration": 2.6821885108947754
    },
    {
      "auxiliary_loss_clip": 0.01162971,
      "auxiliary_loss_mlp": 0.01028103,
      "balance_loss_clip": 1.04837048,
      "balance_loss_mlp": 1.01920974,
      "epoch": 0.44117116575482473,
      "flos": 19500571998720.0,
      "grad_norm": 3.5673788837627693,
      "language_loss": 0.83704531,
      "learning_rate": 2.473742722885797e-06,
      "loss": 0.85895598,
      "num_input_tokens_seen": 79038435,
      "step": 3669,
      "time_per_iteration": 2.6719179153442383
    },
    {
      "auxiliary_loss_clip": 0.01181558,
      "auxiliary_loss_mlp": 0.00888629,
      "balance_loss_clip": 1.05607271,
      "balance_loss_mlp": 1.00091481,
      "epoch": 0.44129140864546385,
      "flos": 27053124353280.0,
      "grad_norm": 2.238375576252327,
      "language_loss": 0.65390664,
      "learning_rate": 2.4729858840611197e-06,
      "loss": 0.67460847,
      "num_input_tokens_seen": 79057345,
      "step": 3670,
      "time_per_iteration": 2.749640464782715
    },
    {
      "auxiliary_loss_clip": 0.01190785,
      "auxiliary_loss_mlp": 0.01030782,
      "balance_loss_clip": 1.05658543,
      "balance_loss_mlp": 1.02268195,
      "epoch": 0.4414116515361029,
      "flos": 26102101910400.0,
      "grad_norm": 1.8942896213630014,
      "language_loss": 0.72943175,
      "learning_rate": 2.4722289734848605e-06,
      "loss": 0.75164735,
      "num_input_tokens_seen": 79077810,
      "step": 3671,
      "time_per_iteration": 3.5488791465759277
    },
    {
      "auxiliary_loss_clip": 0.01157534,
      "auxiliary_loss_mlp": 0.01030576,
      "balance_loss_clip": 1.05320001,
      "balance_loss_mlp": 1.02222562,
      "epoch": 0.441531894426742,
      "flos": 21906083865600.0,
      "grad_norm": 2.4159192118589954,
      "language_loss": 0.78234482,
      "learning_rate": 2.471471991271841e-06,
      "loss": 0.80422586,
      "num_input_tokens_seen": 79094935,
      "step": 3672,
      "time_per_iteration": 2.724734306335449
    },
    {
      "auxiliary_loss_clip": 0.01172019,
      "auxiliary_loss_mlp": 0.0102908,
      "balance_loss_clip": 1.05026114,
      "balance_loss_mlp": 1.02028227,
      "epoch": 0.4416521373173811,
      "flos": 23437099215360.0,
      "grad_norm": 2.0367154182235034,
      "language_loss": 0.7978785,
      "learning_rate": 2.470714937536896e-06,
      "loss": 0.81988955,
      "num_input_tokens_seen": 79113660,
      "step": 3673,
      "time_per_iteration": 2.6779394149780273
    },
    {
      "auxiliary_loss_clip": 0.01148267,
      "auxiliary_loss_mlp": 0.01030439,
      "balance_loss_clip": 1.04887438,
      "balance_loss_mlp": 1.02142715,
      "epoch": 0.4417723802080202,
      "flos": 20334345471360.0,
      "grad_norm": 1.739865712956287,
      "language_loss": 0.70892477,
      "learning_rate": 2.469957812394868e-06,
      "loss": 0.73071182,
      "num_input_tokens_seen": 79132470,
      "step": 3674,
      "time_per_iteration": 2.740983009338379
    },
    {
      "auxiliary_loss_clip": 0.0119008,
      "auxiliary_loss_mlp": 0.01023708,
      "balance_loss_clip": 1.05710495,
      "balance_loss_mlp": 1.01528931,
      "epoch": 0.4418926230986593,
      "flos": 18880682060160.0,
      "grad_norm": 2.54211423094208,
      "language_loss": 0.76427817,
      "learning_rate": 2.4692006159606148e-06,
      "loss": 0.78641611,
      "num_input_tokens_seen": 79150000,
      "step": 3675,
      "time_per_iteration": 2.6512365341186523
    },
    {
      "auxiliary_loss_clip": 0.01189789,
      "auxiliary_loss_mlp": 0.01038833,
      "balance_loss_clip": 1.05447936,
      "balance_loss_mlp": 1.03041708,
      "epoch": 0.4420128659892984,
      "flos": 19464409981440.0,
      "grad_norm": 1.9383652751574687,
      "language_loss": 0.78475791,
      "learning_rate": 2.468443348349e-06,
      "loss": 0.80704415,
      "num_input_tokens_seen": 79167875,
      "step": 3676,
      "time_per_iteration": 2.641312837600708
    },
    {
      "auxiliary_loss_clip": 0.01144877,
      "auxiliary_loss_mlp": 0.0103868,
      "balance_loss_clip": 1.04635906,
      "balance_loss_mlp": 1.02946532,
      "epoch": 0.44213310887993745,
      "flos": 17894359526400.0,
      "grad_norm": 2.3755235314142022,
      "language_loss": 0.82608885,
      "learning_rate": 2.467686009674902e-06,
      "loss": 0.84792447,
      "num_input_tokens_seen": 79182325,
      "step": 3677,
      "time_per_iteration": 3.694589853286743
    },
    {
      "auxiliary_loss_clip": 0.01172719,
      "auxiliary_loss_mlp": 0.01029311,
      "balance_loss_clip": 1.05052948,
      "balance_loss_mlp": 1.02048373,
      "epoch": 0.44225335177057656,
      "flos": 19204667758080.0,
      "grad_norm": 2.001024980748195,
      "language_loss": 0.85165489,
      "learning_rate": 2.466928600053209e-06,
      "loss": 0.87367523,
      "num_input_tokens_seen": 79197630,
      "step": 3678,
      "time_per_iteration": 3.481980562210083
    },
    {
      "auxiliary_loss_clip": 0.01165121,
      "auxiliary_loss_mlp": 0.01027251,
      "balance_loss_clip": 1.0488323,
      "balance_loss_mlp": 1.01866198,
      "epoch": 0.4423735946612157,
      "flos": 23471321898240.0,
      "grad_norm": 2.0902885729193343,
      "language_loss": 0.71383464,
      "learning_rate": 2.466171119598818e-06,
      "loss": 0.73575836,
      "num_input_tokens_seen": 79217600,
      "step": 3679,
      "time_per_iteration": 2.7119264602661133
    },
    {
      "auxiliary_loss_clip": 0.01184926,
      "auxiliary_loss_mlp": 0.01026567,
      "balance_loss_clip": 1.05125141,
      "balance_loss_mlp": 1.01728106,
      "epoch": 0.44249383755185473,
      "flos": 26685398868480.0,
      "grad_norm": 3.102299030430349,
      "language_loss": 0.76788437,
      "learning_rate": 2.465413568426639e-06,
      "loss": 0.78999925,
      "num_input_tokens_seen": 79238550,
      "step": 3680,
      "time_per_iteration": 3.647135019302368
    },
    {
      "auxiliary_loss_clip": 0.01176071,
      "auxiliary_loss_mlp": 0.01025938,
      "balance_loss_clip": 1.05353916,
      "balance_loss_mlp": 1.01820755,
      "epoch": 0.44261408044249384,
      "flos": 23147659422720.0,
      "grad_norm": 1.788124134322086,
      "language_loss": 0.81219417,
      "learning_rate": 2.464655946651591e-06,
      "loss": 0.83421427,
      "num_input_tokens_seen": 79257555,
      "step": 3681,
      "time_per_iteration": 2.603853702545166
    },
    {
      "auxiliary_loss_clip": 0.0118212,
      "auxiliary_loss_mlp": 0.0103681,
      "balance_loss_clip": 1.05530715,
      "balance_loss_mlp": 1.02774405,
      "epoch": 0.44273432333313295,
      "flos": 24462564595200.0,
      "grad_norm": 2.075471840943669,
      "language_loss": 0.81064481,
      "learning_rate": 2.4638982543886065e-06,
      "loss": 0.83283412,
      "num_input_tokens_seen": 79277595,
      "step": 3682,
      "time_per_iteration": 2.7283871173858643
    },
    {
      "auxiliary_loss_clip": 0.01187925,
      "auxiliary_loss_mlp": 0.01034748,
      "balance_loss_clip": 1.05872452,
      "balance_loss_mlp": 1.02583694,
      "epoch": 0.442854566223772,
      "flos": 17528932512000.0,
      "grad_norm": 2.6687772516062314,
      "language_loss": 0.87010968,
      "learning_rate": 2.4631404917526254e-06,
      "loss": 0.89233637,
      "num_input_tokens_seen": 79294550,
      "step": 3683,
      "time_per_iteration": 2.6453113555908203
    },
    {
      "auxiliary_loss_clip": 0.01173213,
      "auxiliary_loss_mlp": 0.01027999,
      "balance_loss_clip": 1.05230069,
      "balance_loss_mlp": 1.01875973,
      "epoch": 0.4429748091144111,
      "flos": 24896293320960.0,
      "grad_norm": 1.5749850624903678,
      "language_loss": 0.79173213,
      "learning_rate": 2.4623826588586e-06,
      "loss": 0.81374425,
      "num_input_tokens_seen": 79314820,
      "step": 3684,
      "time_per_iteration": 2.683342695236206
    },
    {
      "auxiliary_loss_clip": 0.01165534,
      "auxiliary_loss_mlp": 0.0102782,
      "balance_loss_clip": 1.04834843,
      "balance_loss_mlp": 1.01867676,
      "epoch": 0.4430950520050502,
      "flos": 21614704738560.0,
      "grad_norm": 1.6983226752187284,
      "language_loss": 0.83016562,
      "learning_rate": 2.461624755821492e-06,
      "loss": 0.85209918,
      "num_input_tokens_seen": 79334300,
      "step": 3685,
      "time_per_iteration": 2.723006010055542
    },
    {
      "auxiliary_loss_clip": 0.01163459,
      "auxiliary_loss_mlp": 0.01034666,
      "balance_loss_clip": 1.05102015,
      "balance_loss_mlp": 1.0258745,
      "epoch": 0.4432152948956893,
      "flos": 24572271709440.0,
      "grad_norm": 1.5760314797808264,
      "language_loss": 0.7666012,
      "learning_rate": 2.4608667827562763e-06,
      "loss": 0.78858244,
      "num_input_tokens_seen": 79353630,
      "step": 3686,
      "time_per_iteration": 2.8091981410980225
    },
    {
      "auxiliary_loss_clip": 0.01185795,
      "auxiliary_loss_mlp": 0.01030235,
      "balance_loss_clip": 1.0546751,
      "balance_loss_mlp": 1.02109146,
      "epoch": 0.4433355377863284,
      "flos": 21762261809280.0,
      "grad_norm": 2.562669765546597,
      "language_loss": 0.89696753,
      "learning_rate": 2.460108739777936e-06,
      "loss": 0.91912794,
      "num_input_tokens_seen": 79372765,
      "step": 3687,
      "time_per_iteration": 2.675452947616577
    },
    {
      "auxiliary_loss_clip": 0.01173069,
      "auxiliary_loss_mlp": 0.010234,
      "balance_loss_clip": 1.05586481,
      "balance_loss_mlp": 1.01521611,
      "epoch": 0.44345578067696745,
      "flos": 20084479488000.0,
      "grad_norm": 1.5966141420151738,
      "language_loss": 0.765239,
      "learning_rate": 2.4593506270014656e-06,
      "loss": 0.78720367,
      "num_input_tokens_seen": 79391735,
      "step": 3688,
      "time_per_iteration": 2.6934010982513428
    },
    {
      "auxiliary_loss_clip": 0.01173316,
      "auxiliary_loss_mlp": 0.01032703,
      "balance_loss_clip": 1.04998994,
      "balance_loss_mlp": 1.02346992,
      "epoch": 0.44357602356760656,
      "flos": 24169497528960.0,
      "grad_norm": 1.589821835486137,
      "language_loss": 0.81870884,
      "learning_rate": 2.45859244454187e-06,
      "loss": 0.84076899,
      "num_input_tokens_seen": 79411525,
      "step": 3689,
      "time_per_iteration": 2.7568161487579346
    },
    {
      "auxiliary_loss_clip": 0.01178886,
      "auxiliary_loss_mlp": 0.01024441,
      "balance_loss_clip": 1.05548704,
      "balance_loss_mlp": 1.01613784,
      "epoch": 0.44369626645824567,
      "flos": 22707717644160.0,
      "grad_norm": 1.92204851610002,
      "language_loss": 0.66371351,
      "learning_rate": 2.4578341925141655e-06,
      "loss": 0.68574679,
      "num_input_tokens_seen": 79430740,
      "step": 3690,
      "time_per_iteration": 2.775993824005127
    },
    {
      "auxiliary_loss_clip": 0.01186129,
      "auxiliary_loss_mlp": 0.01030478,
      "balance_loss_clip": 1.05429435,
      "balance_loss_mlp": 1.02110827,
      "epoch": 0.4438165093488847,
      "flos": 38030225420160.0,
      "grad_norm": 1.9919633086332778,
      "language_loss": 0.72225595,
      "learning_rate": 2.457075871033378e-06,
      "loss": 0.74442202,
      "num_input_tokens_seen": 79452615,
      "step": 3691,
      "time_per_iteration": 2.836236000061035
    },
    {
      "auxiliary_loss_clip": 0.01159951,
      "auxiliary_loss_mlp": 0.01028138,
      "balance_loss_clip": 1.05156302,
      "balance_loss_mlp": 1.0198288,
      "epoch": 0.44393675223952384,
      "flos": 15523213996800.0,
      "grad_norm": 2.2250053575698088,
      "language_loss": 0.88506812,
      "learning_rate": 2.4563174802145445e-06,
      "loss": 0.90694904,
      "num_input_tokens_seen": 79469865,
      "step": 3692,
      "time_per_iteration": 2.6865553855895996
    },
    {
      "auxiliary_loss_clip": 0.01069653,
      "auxiliary_loss_mlp": 0.01000867,
      "balance_loss_clip": 1.01883531,
      "balance_loss_mlp": 0.99956161,
      "epoch": 0.44405699513016295,
      "flos": 64574893779840.0,
      "grad_norm": 0.6320259136463712,
      "language_loss": 0.48566282,
      "learning_rate": 2.455559020172712e-06,
      "loss": 0.50636804,
      "num_input_tokens_seen": 79537220,
      "step": 3693,
      "time_per_iteration": 3.3904922008514404
    },
    {
      "auxiliary_loss_clip": 0.01158429,
      "auxiliary_loss_mlp": 0.01033322,
      "balance_loss_clip": 1.0557642,
      "balance_loss_mlp": 1.02498972,
      "epoch": 0.444177238020802,
      "flos": 23987394552960.0,
      "grad_norm": 3.471480047911241,
      "language_loss": 0.8973819,
      "learning_rate": 2.4548004910229385e-06,
      "loss": 0.91929936,
      "num_input_tokens_seen": 79554795,
      "step": 3694,
      "time_per_iteration": 2.7882068157196045
    },
    {
      "auxiliary_loss_clip": 0.01184435,
      "auxiliary_loss_mlp": 0.00887308,
      "balance_loss_clip": 1.05505943,
      "balance_loss_mlp": 1.00086081,
      "epoch": 0.4442974809114411,
      "flos": 22563069575040.0,
      "grad_norm": 2.061473051671478,
      "language_loss": 0.8727513,
      "learning_rate": 2.4540418928802913e-06,
      "loss": 0.89346874,
      "num_input_tokens_seen": 79573530,
      "step": 3695,
      "time_per_iteration": 2.6907405853271484
    },
    {
      "auxiliary_loss_clip": 0.01168234,
      "auxiliary_loss_mlp": 0.01036948,
      "balance_loss_clip": 1.05159962,
      "balance_loss_mlp": 1.02761388,
      "epoch": 0.4444177238020802,
      "flos": 17675699483520.0,
      "grad_norm": 2.867833336665643,
      "language_loss": 0.65955269,
      "learning_rate": 2.4532832258598506e-06,
      "loss": 0.6816045,
      "num_input_tokens_seen": 79591360,
      "step": 3696,
      "time_per_iteration": 2.7709357738494873
    },
    {
      "auxiliary_loss_clip": 0.01188303,
      "auxiliary_loss_mlp": 0.01035624,
      "balance_loss_clip": 1.05539823,
      "balance_loss_mlp": 1.02720177,
      "epoch": 0.4445379666927193,
      "flos": 28621594609920.0,
      "grad_norm": 2.045089710935714,
      "language_loss": 0.80827701,
      "learning_rate": 2.4525244900767047e-06,
      "loss": 0.83051634,
      "num_input_tokens_seen": 79612175,
      "step": 3697,
      "time_per_iteration": 3.623596429824829
    },
    {
      "auxiliary_loss_clip": 0.01072481,
      "auxiliary_loss_mlp": 0.01001063,
      "balance_loss_clip": 1.01911831,
      "balance_loss_mlp": 0.99982274,
      "epoch": 0.4446582095833584,
      "flos": 70487370115200.0,
      "grad_norm": 0.7696439410553474,
      "language_loss": 0.60538417,
      "learning_rate": 2.4517656856459536e-06,
      "loss": 0.62611961,
      "num_input_tokens_seen": 79678020,
      "step": 3698,
      "time_per_iteration": 3.337857961654663
    },
    {
      "auxiliary_loss_clip": 0.01180184,
      "auxiliary_loss_mlp": 0.01025868,
      "balance_loss_clip": 1.05272305,
      "balance_loss_mlp": 1.01744246,
      "epoch": 0.4447784524739975,
      "flos": 26505199313280.0,
      "grad_norm": 1.7608370105486058,
      "language_loss": 0.67708963,
      "learning_rate": 2.4510068126827073e-06,
      "loss": 0.69915015,
      "num_input_tokens_seen": 79699020,
      "step": 3699,
      "time_per_iteration": 2.704383611679077
    },
    {
      "auxiliary_loss_clip": 0.01170324,
      "auxiliary_loss_mlp": 0.01028703,
      "balance_loss_clip": 1.05283308,
      "balance_loss_mlp": 1.01996493,
      "epoch": 0.44489869536463655,
      "flos": 11656209553920.0,
      "grad_norm": 2.275112635144091,
      "language_loss": 0.81971174,
      "learning_rate": 2.450247871302086e-06,
      "loss": 0.84170204,
      "num_input_tokens_seen": 79716795,
      "step": 3700,
      "time_per_iteration": 2.6735734939575195
    },
    {
      "auxiliary_loss_clip": 0.01186313,
      "auxiliary_loss_mlp": 0.01026935,
      "balance_loss_clip": 1.05525422,
      "balance_loss_mlp": 1.0184536,
      "epoch": 0.44501893825527566,
      "flos": 20448469958400.0,
      "grad_norm": 2.3302467047904103,
      "language_loss": 0.83432174,
      "learning_rate": 2.44948886161922e-06,
      "loss": 0.85645425,
      "num_input_tokens_seen": 79735810,
      "step": 3701,
      "time_per_iteration": 2.6667163372039795
    },
    {
      "auxiliary_loss_clip": 0.01183042,
      "auxiliary_loss_mlp": 0.01027664,
      "balance_loss_clip": 1.0544498,
      "balance_loss_mlp": 1.01933098,
      "epoch": 0.4451391811459148,
      "flos": 18261079430400.0,
      "grad_norm": 2.536795566795525,
      "language_loss": 0.85111094,
      "learning_rate": 2.4487297837492524e-06,
      "loss": 0.873218,
      "num_input_tokens_seen": 79754975,
      "step": 3702,
      "time_per_iteration": 2.628960371017456
    },
    {
      "auxiliary_loss_clip": 0.01160232,
      "auxiliary_loss_mlp": 0.01028332,
      "balance_loss_clip": 1.05061555,
      "balance_loss_mlp": 1.02008271,
      "epoch": 0.44525942403655383,
      "flos": 16910155895040.0,
      "grad_norm": 1.984719640106926,
      "language_loss": 0.62646931,
      "learning_rate": 2.4479706378073323e-06,
      "loss": 0.64835495,
      "num_input_tokens_seen": 79773515,
      "step": 3703,
      "time_per_iteration": 4.702720880508423
    },
    {
      "auxiliary_loss_clip": 0.01149615,
      "auxiliary_loss_mlp": 0.01032302,
      "balance_loss_clip": 1.04695177,
      "balance_loss_mlp": 1.02417231,
      "epoch": 0.44537966692719294,
      "flos": 23258838994560.0,
      "grad_norm": 1.5199382980923988,
      "language_loss": 0.84001815,
      "learning_rate": 2.447211423908623e-06,
      "loss": 0.86183727,
      "num_input_tokens_seen": 79793560,
      "step": 3704,
      "time_per_iteration": 2.847337484359741
    },
    {
      "auxiliary_loss_clip": 0.01181058,
      "auxiliary_loss_mlp": 0.01030388,
      "balance_loss_clip": 1.0529294,
      "balance_loss_mlp": 1.02193642,
      "epoch": 0.445499909817832,
      "flos": 21724160457600.0,
      "grad_norm": 2.092477138024697,
      "language_loss": 0.75561929,
      "learning_rate": 2.4464521421682966e-06,
      "loss": 0.7777338,
      "num_input_tokens_seen": 79811150,
      "step": 3705,
      "time_per_iteration": 2.7462751865386963
    },
    {
      "auxiliary_loss_clip": 0.011756,
      "auxiliary_loss_mlp": 0.01023917,
      "balance_loss_clip": 1.05501771,
      "balance_loss_mlp": 1.01550674,
      "epoch": 0.4456201527084711,
      "flos": 23987969170560.0,
      "grad_norm": 1.9779399792491115,
      "language_loss": 0.87831342,
      "learning_rate": 2.4456927927015345e-06,
      "loss": 0.90030861,
      "num_input_tokens_seen": 79832190,
      "step": 3706,
      "time_per_iteration": 2.746913194656372
    },
    {
      "auxiliary_loss_clip": 0.0117607,
      "auxiliary_loss_mlp": 0.01037362,
      "balance_loss_clip": 1.05421209,
      "balance_loss_mlp": 1.02851641,
      "epoch": 0.4457403955991102,
      "flos": 18807065136000.0,
      "grad_norm": 2.2106329153478073,
      "language_loss": 0.76152521,
      "learning_rate": 2.4449333756235307e-06,
      "loss": 0.78365946,
      "num_input_tokens_seen": 79848905,
      "step": 3707,
      "time_per_iteration": 3.701201915740967
    },
    {
      "auxiliary_loss_clip": 0.01184886,
      "auxiliary_loss_mlp": 0.01031519,
      "balance_loss_clip": 1.05467713,
      "balance_loss_mlp": 1.02291155,
      "epoch": 0.4458606384897493,
      "flos": 19207756327680.0,
      "grad_norm": 2.1244558430799314,
      "language_loss": 0.78660089,
      "learning_rate": 2.4441738910494876e-06,
      "loss": 0.80876493,
      "num_input_tokens_seen": 79863640,
      "step": 3708,
      "time_per_iteration": 2.6533360481262207
    },
    {
      "auxiliary_loss_clip": 0.01174708,
      "auxiliary_loss_mlp": 0.01033824,
      "balance_loss_clip": 1.04949856,
      "balance_loss_mlp": 1.02459741,
      "epoch": 0.4459808813803884,
      "flos": 21361283308800.0,
      "grad_norm": 1.8261700593719605,
      "language_loss": 0.82433248,
      "learning_rate": 2.4434143390946176e-06,
      "loss": 0.84641778,
      "num_input_tokens_seen": 79882450,
      "step": 3709,
      "time_per_iteration": 2.701685667037964
    },
    {
      "auxiliary_loss_clip": 0.01158435,
      "auxiliary_loss_mlp": 0.01032593,
      "balance_loss_clip": 1.05150294,
      "balance_loss_mlp": 1.02417672,
      "epoch": 0.4461011242710275,
      "flos": 23288967527040.0,
      "grad_norm": 2.100995092047047,
      "language_loss": 0.85583562,
      "learning_rate": 2.4426547198741457e-06,
      "loss": 0.87774593,
      "num_input_tokens_seen": 79900655,
      "step": 3710,
      "time_per_iteration": 2.7734105587005615
    },
    {
      "auxiliary_loss_clip": 0.0115327,
      "auxiliary_loss_mlp": 0.01032845,
      "balance_loss_clip": 1.05203068,
      "balance_loss_mlp": 1.02437496,
      "epoch": 0.44622136716166655,
      "flos": 20193001453440.0,
      "grad_norm": 2.0204692079835422,
      "language_loss": 0.74177402,
      "learning_rate": 2.441895033503305e-06,
      "loss": 0.76363516,
      "num_input_tokens_seen": 79918575,
      "step": 3711,
      "time_per_iteration": 2.8257291316986084
    },
    {
      "auxiliary_loss_clip": 0.01178449,
      "auxiliary_loss_mlp": 0.01032884,
      "balance_loss_clip": 1.05368018,
      "balance_loss_mlp": 1.02364516,
      "epoch": 0.44634161005230566,
      "flos": 21283033530240.0,
      "grad_norm": 1.7158493693016452,
      "language_loss": 0.8211295,
      "learning_rate": 2.4411352800973375e-06,
      "loss": 0.84324282,
      "num_input_tokens_seen": 79937010,
      "step": 3712,
      "time_per_iteration": 2.6585335731506348
    },
    {
      "auxiliary_loss_clip": 0.01151425,
      "auxiliary_loss_mlp": 0.01034473,
      "balance_loss_clip": 1.04632604,
      "balance_loss_mlp": 1.02539468,
      "epoch": 0.44646185294294477,
      "flos": 22929358515840.0,
      "grad_norm": 2.360046778387968,
      "language_loss": 0.75495148,
      "learning_rate": 2.4403754597715005e-06,
      "loss": 0.77681047,
      "num_input_tokens_seen": 79956455,
      "step": 3713,
      "time_per_iteration": 2.741114616394043
    },
    {
      "auxiliary_loss_clip": 0.01169434,
      "auxiliary_loss_mlp": 0.01030908,
      "balance_loss_clip": 1.04608727,
      "balance_loss_mlp": 1.02244139,
      "epoch": 0.4465820958335838,
      "flos": 22637692080000.0,
      "grad_norm": 1.8855626664766965,
      "language_loss": 0.93023431,
      "learning_rate": 2.4396155726410553e-06,
      "loss": 0.95223773,
      "num_input_tokens_seen": 79975065,
      "step": 3714,
      "time_per_iteration": 2.7640955448150635
    },
    {
      "auxiliary_loss_clip": 0.01185329,
      "auxiliary_loss_mlp": 0.01033182,
      "balance_loss_clip": 1.05263853,
      "balance_loss_mlp": 1.02439094,
      "epoch": 0.44670233872422294,
      "flos": 22672525294080.0,
      "grad_norm": 2.451197094273652,
      "language_loss": 0.90754318,
      "learning_rate": 2.438855618821278e-06,
      "loss": 0.92972839,
      "num_input_tokens_seen": 79990865,
      "step": 3715,
      "time_per_iteration": 2.651975631713867
    },
    {
      "auxiliary_loss_clip": 0.01168398,
      "auxiliary_loss_mlp": 0.01028452,
      "balance_loss_clip": 1.04809976,
      "balance_loss_mlp": 1.0192728,
      "epoch": 0.44682258161486205,
      "flos": 23582178247680.0,
      "grad_norm": 1.6947551689840494,
      "language_loss": 0.6705848,
      "learning_rate": 2.4380955984274517e-06,
      "loss": 0.69255328,
      "num_input_tokens_seen": 80009520,
      "step": 3716,
      "time_per_iteration": 2.6387109756469727
    },
    {
      "auxiliary_loss_clip": 0.01178922,
      "auxiliary_loss_mlp": 0.01033702,
      "balance_loss_clip": 1.05208373,
      "balance_loss_mlp": 1.02476764,
      "epoch": 0.4469428245055011,
      "flos": 26501356558080.0,
      "grad_norm": 2.033947569350972,
      "language_loss": 0.77106875,
      "learning_rate": 2.4373355115748716e-06,
      "loss": 0.79319501,
      "num_input_tokens_seen": 80030350,
      "step": 3717,
      "time_per_iteration": 2.667511224746704
    },
    {
      "auxiliary_loss_clip": 0.01161041,
      "auxiliary_loss_mlp": 0.01032867,
      "balance_loss_clip": 1.05117583,
      "balance_loss_mlp": 1.02406287,
      "epoch": 0.4470630673961402,
      "flos": 21504925797120.0,
      "grad_norm": 1.7041518994011509,
      "language_loss": 0.72015595,
      "learning_rate": 2.436575358378842e-06,
      "loss": 0.74209499,
      "num_input_tokens_seen": 80049840,
      "step": 3718,
      "time_per_iteration": 2.725985527038574
    },
    {
      "auxiliary_loss_clip": 0.01173901,
      "auxiliary_loss_mlp": 0.01028659,
      "balance_loss_clip": 1.05091262,
      "balance_loss_mlp": 1.02018893,
      "epoch": 0.44718331028677927,
      "flos": 16173986653440.0,
      "grad_norm": 2.9198580873226048,
      "language_loss": 0.83331716,
      "learning_rate": 2.4358151389546782e-06,
      "loss": 0.85534275,
      "num_input_tokens_seen": 80066525,
      "step": 3719,
      "time_per_iteration": 2.7869222164154053
    },
    {
      "auxiliary_loss_clip": 0.0118828,
      "auxiliary_loss_mlp": 0.01030535,
      "balance_loss_clip": 1.05451536,
      "balance_loss_mlp": 1.02198195,
      "epoch": 0.4473035531774184,
      "flos": 19681238430720.0,
      "grad_norm": 2.6183587768444645,
      "language_loss": 0.76355708,
      "learning_rate": 2.4350548534177035e-06,
      "loss": 0.78574526,
      "num_input_tokens_seen": 80083355,
      "step": 3720,
      "time_per_iteration": 2.6857404708862305
    },
    {
      "auxiliary_loss_clip": 0.01160316,
      "auxiliary_loss_mlp": 0.01029777,
      "balance_loss_clip": 1.0510211,
      "balance_loss_mlp": 1.02162957,
      "epoch": 0.4474237960680575,
      "flos": 41427590515200.0,
      "grad_norm": 4.884864020234193,
      "language_loss": 0.66812325,
      "learning_rate": 2.434294501883254e-06,
      "loss": 0.69002414,
      "num_input_tokens_seen": 80106450,
      "step": 3721,
      "time_per_iteration": 3.0900626182556152
    },
    {
      "auxiliary_loss_clip": 0.01161044,
      "auxiliary_loss_mlp": 0.01030103,
      "balance_loss_clip": 1.05006027,
      "balance_loss_mlp": 1.02182984,
      "epoch": 0.44754403895869654,
      "flos": 22891328991360.0,
      "grad_norm": 1.6429029185171835,
      "language_loss": 0.65763772,
      "learning_rate": 2.433534084466674e-06,
      "loss": 0.67954922,
      "num_input_tokens_seen": 80125670,
      "step": 3722,
      "time_per_iteration": 2.7482986450195312
    },
    {
      "auxiliary_loss_clip": 0.01188231,
      "auxiliary_loss_mlp": 0.01027819,
      "balance_loss_clip": 1.05530214,
      "balance_loss_mlp": 1.01946819,
      "epoch": 0.44766428184933565,
      "flos": 25630271832960.0,
      "grad_norm": 1.6400099409805555,
      "language_loss": 0.70619857,
      "learning_rate": 2.4327736012833178e-06,
      "loss": 0.72835898,
      "num_input_tokens_seen": 80147390,
      "step": 3723,
      "time_per_iteration": 2.6522228717803955
    },
    {
      "auxiliary_loss_clip": 0.01177288,
      "auxiliary_loss_mlp": 0.01029522,
      "balance_loss_clip": 1.05287659,
      "balance_loss_mlp": 1.0210762,
      "epoch": 0.44778452473997477,
      "flos": 20448972748800.0,
      "grad_norm": 2.3614738433316305,
      "language_loss": 0.76807666,
      "learning_rate": 2.4320130524485506e-06,
      "loss": 0.79014468,
      "num_input_tokens_seen": 80166185,
      "step": 3724,
      "time_per_iteration": 3.8852174282073975
    },
    {
      "auxiliary_loss_clip": 0.01161004,
      "auxiliary_loss_mlp": 0.01028068,
      "balance_loss_clip": 1.05314946,
      "balance_loss_mlp": 1.02044439,
      "epoch": 0.4479047676306138,
      "flos": 21975462984960.0,
      "grad_norm": 1.6668955863374375,
      "language_loss": 0.79565442,
      "learning_rate": 2.431252438077746e-06,
      "loss": 0.81754518,
      "num_input_tokens_seen": 80185685,
      "step": 3725,
      "time_per_iteration": 2.86328125
    },
    {
      "auxiliary_loss_clip": 0.01183995,
      "auxiliary_loss_mlp": 0.00888178,
      "balance_loss_clip": 1.05450141,
      "balance_loss_mlp": 1.00082743,
      "epoch": 0.44802501052125293,
      "flos": 21467219495040.0,
      "grad_norm": 2.6753196704224793,
      "language_loss": 0.77607322,
      "learning_rate": 2.4304917582862906e-06,
      "loss": 0.79679501,
      "num_input_tokens_seen": 80204865,
      "step": 3726,
      "time_per_iteration": 2.6600735187530518
    },
    {
      "auxiliary_loss_clip": 0.01190543,
      "auxiliary_loss_mlp": 0.01037906,
      "balance_loss_clip": 1.05599952,
      "balance_loss_mlp": 1.02946019,
      "epoch": 0.44814525341189204,
      "flos": 22126970551680.0,
      "grad_norm": 1.9636566237748467,
      "language_loss": 0.87763,
      "learning_rate": 2.4297310131895774e-06,
      "loss": 0.8999145,
      "num_input_tokens_seen": 80223410,
      "step": 3727,
      "time_per_iteration": 2.6557400226593018
    },
    {
      "auxiliary_loss_clip": 0.0117956,
      "auxiliary_loss_mlp": 0.01025333,
      "balance_loss_clip": 1.0529139,
      "balance_loss_mlp": 1.01662517,
      "epoch": 0.4482654963025311,
      "flos": 16653933204480.0,
      "grad_norm": 2.614749081856435,
      "language_loss": 0.74845028,
      "learning_rate": 2.4289702029030113e-06,
      "loss": 0.77049923,
      "num_input_tokens_seen": 80240880,
      "step": 3728,
      "time_per_iteration": 2.6460158824920654
    },
    {
      "auxiliary_loss_clip": 0.01180516,
      "auxiliary_loss_mlp": 0.0103195,
      "balance_loss_clip": 1.05548477,
      "balance_loss_mlp": 1.02377236,
      "epoch": 0.4483857391931702,
      "flos": 18841251905280.0,
      "grad_norm": 2.0336932282669125,
      "language_loss": 0.83099449,
      "learning_rate": 2.4282093275420057e-06,
      "loss": 0.85311913,
      "num_input_tokens_seen": 80259910,
      "step": 3729,
      "time_per_iteration": 3.6082632541656494
    },
    {
      "auxiliary_loss_clip": 0.01184473,
      "auxiliary_loss_mlp": 0.01030795,
      "balance_loss_clip": 1.05492425,
      "balance_loss_mlp": 1.02276635,
      "epoch": 0.4485059820838093,
      "flos": 20372590477440.0,
      "grad_norm": 2.232259373799384,
      "language_loss": 0.70619947,
      "learning_rate": 2.4274483872219863e-06,
      "loss": 0.72835219,
      "num_input_tokens_seen": 80277270,
      "step": 3730,
      "time_per_iteration": 2.685415029525757
    },
    {
      "auxiliary_loss_clip": 0.01175384,
      "auxiliary_loss_mlp": 0.01036694,
      "balance_loss_clip": 1.05161345,
      "balance_loss_mlp": 1.02778268,
      "epoch": 0.4486262249744484,
      "flos": 20047742853120.0,
      "grad_norm": 1.7930689952534629,
      "language_loss": 0.94117337,
      "learning_rate": 2.426687382058386e-06,
      "loss": 0.96329421,
      "num_input_tokens_seen": 80295550,
      "step": 3731,
      "time_per_iteration": 2.6877899169921875
    },
    {
      "auxiliary_loss_clip": 0.01069092,
      "auxiliary_loss_mlp": 0.01002466,
      "balance_loss_clip": 1.01618338,
      "balance_loss_mlp": 1.00133312,
      "epoch": 0.4487464678650875,
      "flos": 64595684776320.0,
      "grad_norm": 0.8665799406405988,
      "language_loss": 0.5979501,
      "learning_rate": 2.425926312166649e-06,
      "loss": 0.6186657,
      "num_input_tokens_seen": 80348425,
      "step": 3732,
      "time_per_iteration": 3.1018261909484863
    },
    {
      "auxiliary_loss_clip": 0.01173107,
      "auxiliary_loss_mlp": 0.01032018,
      "balance_loss_clip": 1.05350327,
      "balance_loss_mlp": 1.02282691,
      "epoch": 0.4488667107557266,
      "flos": 20769798049920.0,
      "grad_norm": 2.427442486562972,
      "language_loss": 0.73239571,
      "learning_rate": 2.42516517766223e-06,
      "loss": 0.75444692,
      "num_input_tokens_seen": 80366505,
      "step": 3733,
      "time_per_iteration": 3.6464762687683105
    },
    {
      "auxiliary_loss_clip": 0.0119096,
      "auxiliary_loss_mlp": 0.01028,
      "balance_loss_clip": 1.05718493,
      "balance_loss_mlp": 1.01963139,
      "epoch": 0.44898695364636565,
      "flos": 23951735326080.0,
      "grad_norm": 2.009391550439378,
      "language_loss": 0.68171597,
      "learning_rate": 2.4244039786605907e-06,
      "loss": 0.70390558,
      "num_input_tokens_seen": 80387510,
      "step": 3734,
      "time_per_iteration": 2.6391983032226562
    },
    {
      "auxiliary_loss_clip": 0.01150644,
      "auxiliary_loss_mlp": 0.01029428,
      "balance_loss_clip": 1.04758036,
      "balance_loss_mlp": 1.02092505,
      "epoch": 0.44910719653700476,
      "flos": 18624351628800.0,
      "grad_norm": 2.363949321879263,
      "language_loss": 0.82533073,
      "learning_rate": 2.4236427152772055e-06,
      "loss": 0.84713149,
      "num_input_tokens_seen": 80405915,
      "step": 3735,
      "time_per_iteration": 2.7775943279266357
    },
    {
      "auxiliary_loss_clip": 0.01045517,
      "auxiliary_loss_mlp": 0.01001646,
      "balance_loss_clip": 1.0134505,
      "balance_loss_mlp": 1.00047147,
      "epoch": 0.4492274394276438,
      "flos": 57033435749760.0,
      "grad_norm": 0.8702593939766355,
      "language_loss": 0.57396472,
      "learning_rate": 2.422881387627557e-06,
      "loss": 0.59443635,
      "num_input_tokens_seen": 80458365,
      "step": 3736,
      "time_per_iteration": 3.0002481937408447
    },
    {
      "auxiliary_loss_clip": 0.01169296,
      "auxiliary_loss_mlp": 0.01034705,
      "balance_loss_clip": 1.05205595,
      "balance_loss_mlp": 1.02652085,
      "epoch": 0.4493476823182829,
      "flos": 23254888498560.0,
      "grad_norm": 1.7136196656056029,
      "language_loss": 0.77414417,
      "learning_rate": 2.422119995827139e-06,
      "loss": 0.79618424,
      "num_input_tokens_seen": 80478490,
      "step": 3737,
      "time_per_iteration": 2.759270429611206
    },
    {
      "auxiliary_loss_clip": 0.01185672,
      "auxiliary_loss_mlp": 0.01031827,
      "balance_loss_clip": 1.05653763,
      "balance_loss_mlp": 1.02280259,
      "epoch": 0.44946792520892204,
      "flos": 15815131827840.0,
      "grad_norm": 2.710261124310935,
      "language_loss": 0.74699235,
      "learning_rate": 2.4213585399914528e-06,
      "loss": 0.7691673,
      "num_input_tokens_seen": 80495695,
      "step": 3738,
      "time_per_iteration": 2.6499645709991455
    },
    {
      "auxiliary_loss_clip": 0.0117927,
      "auxiliary_loss_mlp": 0.01033259,
      "balance_loss_clip": 1.05433893,
      "balance_loss_mlp": 1.02407956,
      "epoch": 0.4495881680995611,
      "flos": 19610063631360.0,
      "grad_norm": 1.6388283516365034,
      "language_loss": 0.85248303,
      "learning_rate": 2.4205970202360113e-06,
      "loss": 0.87460834,
      "num_input_tokens_seen": 80515260,
      "step": 3739,
      "time_per_iteration": 2.7153022289276123
    },
    {
      "auxiliary_loss_clip": 0.01140985,
      "auxiliary_loss_mlp": 0.01036486,
      "balance_loss_clip": 1.04904819,
      "balance_loss_mlp": 1.02834404,
      "epoch": 0.4497084109902002,
      "flos": 26031465815040.0,
      "grad_norm": 2.312569316257929,
      "language_loss": 0.78155911,
      "learning_rate": 2.4198354366763354e-06,
      "loss": 0.80333388,
      "num_input_tokens_seen": 80533900,
      "step": 3740,
      "time_per_iteration": 2.835137128829956
    },
    {
      "auxiliary_loss_clip": 0.0117425,
      "auxiliary_loss_mlp": 0.01028604,
      "balance_loss_clip": 1.05256832,
      "balance_loss_mlp": 1.02012253,
      "epoch": 0.4498286538808393,
      "flos": 14793688771200.0,
      "grad_norm": 3.2874321719978634,
      "language_loss": 0.78316343,
      "learning_rate": 2.4190737894279587e-06,
      "loss": 0.80519187,
      "num_input_tokens_seen": 80551270,
      "step": 3741,
      "time_per_iteration": 2.766771078109741
    },
    {
      "auxiliary_loss_clip": 0.0114659,
      "auxiliary_loss_mlp": 0.01021546,
      "balance_loss_clip": 1.04462564,
      "balance_loss_mlp": 1.01340961,
      "epoch": 0.44994889677147837,
      "flos": 15450171690240.0,
      "grad_norm": 2.55555848479376,
      "language_loss": 0.80289829,
      "learning_rate": 2.4183120786064203e-06,
      "loss": 0.8245796,
      "num_input_tokens_seen": 80568145,
      "step": 3742,
      "time_per_iteration": 2.677394390106201
    },
    {
      "auxiliary_loss_clip": 0.01183087,
      "auxiliary_loss_mlp": 0.00887577,
      "balance_loss_clip": 1.05598009,
      "balance_loss_mlp": 1.00076854,
      "epoch": 0.4500691396621175,
      "flos": 21798316085760.0,
      "grad_norm": 3.3823988525759714,
      "language_loss": 0.85476208,
      "learning_rate": 2.417550304327273e-06,
      "loss": 0.87546873,
      "num_input_tokens_seen": 80586185,
      "step": 3743,
      "time_per_iteration": 2.716778039932251
    },
    {
      "auxiliary_loss_clip": 0.01193969,
      "auxiliary_loss_mlp": 0.01032665,
      "balance_loss_clip": 1.05810785,
      "balance_loss_mlp": 1.02318227,
      "epoch": 0.4501893825527566,
      "flos": 32382016421760.0,
      "grad_norm": 1.4854709413779286,
      "language_loss": 0.7558127,
      "learning_rate": 2.4167884667060763e-06,
      "loss": 0.77807909,
      "num_input_tokens_seen": 80608895,
      "step": 3744,
      "time_per_iteration": 2.718914270401001
    },
    {
      "auxiliary_loss_clip": 0.01168711,
      "auxiliary_loss_mlp": 0.01033666,
      "balance_loss_clip": 1.04981887,
      "balance_loss_mlp": 1.02467787,
      "epoch": 0.45030962544339564,
      "flos": 16544944362240.0,
      "grad_norm": 2.5976385775977393,
      "language_loss": 0.87513775,
      "learning_rate": 2.4160265658584e-06,
      "loss": 0.89716148,
      "num_input_tokens_seen": 80623785,
      "step": 3745,
      "time_per_iteration": 2.744753837585449
    },
    {
      "auxiliary_loss_clip": 0.01183126,
      "auxiliary_loss_mlp": 0.01036541,
      "balance_loss_clip": 1.05450511,
      "balance_loss_mlp": 1.02777267,
      "epoch": 0.45042986833403476,
      "flos": 19573039687680.0,
      "grad_norm": 2.310118557432352,
      "language_loss": 0.68354738,
      "learning_rate": 2.4152646018998253e-06,
      "loss": 0.70574403,
      "num_input_tokens_seen": 80642735,
      "step": 3746,
      "time_per_iteration": 2.6445324420928955
    },
    {
      "auxiliary_loss_clip": 0.0117579,
      "auxiliary_loss_mlp": 0.01034757,
      "balance_loss_clip": 1.05364656,
      "balance_loss_mlp": 1.02607906,
      "epoch": 0.45055011122467387,
      "flos": 23112467072640.0,
      "grad_norm": 1.6410585936128288,
      "language_loss": 0.71705794,
      "learning_rate": 2.4145025749459403e-06,
      "loss": 0.7391634,
      "num_input_tokens_seen": 80663760,
      "step": 3747,
      "time_per_iteration": 2.6937708854675293
    },
    {
      "auxiliary_loss_clip": 0.01129489,
      "auxiliary_loss_mlp": 0.01029846,
      "balance_loss_clip": 1.04762077,
      "balance_loss_mlp": 1.02128112,
      "epoch": 0.4506703541153129,
      "flos": 19934623946880.0,
      "grad_norm": 2.4608277171726813,
      "language_loss": 0.70284474,
      "learning_rate": 2.413740485112344e-06,
      "loss": 0.72443807,
      "num_input_tokens_seen": 80682100,
      "step": 3748,
      "time_per_iteration": 2.934379816055298
    },
    {
      "auxiliary_loss_clip": 0.01162652,
      "auxiliary_loss_mlp": 0.01026268,
      "balance_loss_clip": 1.05133879,
      "balance_loss_mlp": 1.01836467,
      "epoch": 0.45079059700595203,
      "flos": 19499530504320.0,
      "grad_norm": 1.6273937279806505,
      "language_loss": 0.82215691,
      "learning_rate": 2.412978332514646e-06,
      "loss": 0.84404612,
      "num_input_tokens_seen": 80700880,
      "step": 3749,
      "time_per_iteration": 3.707934856414795
    },
    {
      "auxiliary_loss_clip": 0.01172947,
      "auxiliary_loss_mlp": 0.01033835,
      "balance_loss_clip": 1.05297422,
      "balance_loss_mlp": 1.0254786,
      "epoch": 0.4509108398965911,
      "flos": 27636313570560.0,
      "grad_norm": 2.04972634662848,
      "language_loss": 0.72332597,
      "learning_rate": 2.4122161172684623e-06,
      "loss": 0.74539381,
      "num_input_tokens_seen": 80721675,
      "step": 3750,
      "time_per_iteration": 2.7393693923950195
    },
    {
      "auxiliary_loss_clip": 0.01174253,
      "auxiliary_loss_mlp": 0.01029688,
      "balance_loss_clip": 1.05544519,
      "balance_loss_mlp": 1.02086651,
      "epoch": 0.4510310827872302,
      "flos": 20995712640000.0,
      "grad_norm": 2.069841156844083,
      "language_loss": 0.83654118,
      "learning_rate": 2.4114538394894216e-06,
      "loss": 0.85858059,
      "num_input_tokens_seen": 80739315,
      "step": 3751,
      "time_per_iteration": 2.714725971221924
    },
    {
      "auxiliary_loss_clip": 0.01164155,
      "auxiliary_loss_mlp": 0.01028518,
      "balance_loss_clip": 1.04598808,
      "balance_loss_mlp": 1.02082872,
      "epoch": 0.4511513256778693,
      "flos": 16216684945920.0,
      "grad_norm": 1.8082072799258602,
      "language_loss": 0.82740605,
      "learning_rate": 2.410691499293161e-06,
      "loss": 0.84933281,
      "num_input_tokens_seen": 80757470,
      "step": 3752,
      "time_per_iteration": 2.731549024581909
    },
    {
      "auxiliary_loss_clip": 0.01175988,
      "auxiliary_loss_mlp": 0.01023943,
      "balance_loss_clip": 1.05068755,
      "balance_loss_mlp": 1.01558089,
      "epoch": 0.45127156856850836,
      "flos": 25186702780800.0,
      "grad_norm": 1.6292944387057637,
      "language_loss": 0.74232268,
      "learning_rate": 2.409929096795326e-06,
      "loss": 0.76432204,
      "num_input_tokens_seen": 80777840,
      "step": 3753,
      "time_per_iteration": 2.7078757286071777
    },
    {
      "auxiliary_loss_clip": 0.01179107,
      "auxiliary_loss_mlp": 0.01028403,
      "balance_loss_clip": 1.05187404,
      "balance_loss_mlp": 1.01971281,
      "epoch": 0.4513918114591475,
      "flos": 20412523422720.0,
      "grad_norm": 1.8114967523476087,
      "language_loss": 0.79052925,
      "learning_rate": 2.409166632111573e-06,
      "loss": 0.81260437,
      "num_input_tokens_seen": 80795975,
      "step": 3754,
      "time_per_iteration": 2.6728148460388184
    },
    {
      "auxiliary_loss_clip": 0.01188579,
      "auxiliary_loss_mlp": 0.01028,
      "balance_loss_clip": 1.05477893,
      "balance_loss_mlp": 1.01889205,
      "epoch": 0.4515120543497866,
      "flos": 26648482665600.0,
      "grad_norm": 2.579702978980011,
      "language_loss": 0.80340815,
      "learning_rate": 2.4084041053575674e-06,
      "loss": 0.82557392,
      "num_input_tokens_seen": 80815395,
      "step": 3755,
      "time_per_iteration": 4.519062519073486
    },
    {
      "auxiliary_loss_clip": 0.01175883,
      "auxiliary_loss_mlp": 0.01027783,
      "balance_loss_clip": 1.05412781,
      "balance_loss_mlp": 1.01908064,
      "epoch": 0.45163229724042564,
      "flos": 20595093275520.0,
      "grad_norm": 3.21320632672413,
      "language_loss": 0.72436088,
      "learning_rate": 2.4076415166489834e-06,
      "loss": 0.74639755,
      "num_input_tokens_seen": 80834805,
      "step": 3756,
      "time_per_iteration": 2.7097327709198
    },
    {
      "auxiliary_loss_clip": 0.01155608,
      "auxiliary_loss_mlp": 0.01030689,
      "balance_loss_clip": 1.04838717,
      "balance_loss_mlp": 1.02234995,
      "epoch": 0.45175254013106475,
      "flos": 21689004021120.0,
      "grad_norm": 1.6863616141331756,
      "language_loss": 0.79184902,
      "learning_rate": 2.406878866101506e-06,
      "loss": 0.813712,
      "num_input_tokens_seen": 80853770,
      "step": 3757,
      "time_per_iteration": 2.774895191192627
    },
    {
      "auxiliary_loss_clip": 0.01192749,
      "auxiliary_loss_mlp": 0.01028523,
      "balance_loss_clip": 1.05801368,
      "balance_loss_mlp": 1.02012432,
      "epoch": 0.45187278302170386,
      "flos": 18878850466560.0,
      "grad_norm": 2.0366140329302866,
      "language_loss": 0.78294772,
      "learning_rate": 2.4061161538308273e-06,
      "loss": 0.8051604,
      "num_input_tokens_seen": 80870615,
      "step": 3758,
      "time_per_iteration": 2.744206428527832
    },
    {
      "auxiliary_loss_clip": 0.01178834,
      "auxiliary_loss_mlp": 0.01028228,
      "balance_loss_clip": 1.0529418,
      "balance_loss_mlp": 1.02001452,
      "epoch": 0.4519930259123429,
      "flos": 18582479349120.0,
      "grad_norm": 1.8273898871105445,
      "language_loss": 0.89066684,
      "learning_rate": 2.4053533799526523e-06,
      "loss": 0.91273743,
      "num_input_tokens_seen": 80886335,
      "step": 3759,
      "time_per_iteration": 3.5969655513763428
    },
    {
      "auxiliary_loss_clip": 0.01163966,
      "auxiliary_loss_mlp": 0.01030385,
      "balance_loss_clip": 1.05260265,
      "balance_loss_mlp": 1.02207625,
      "epoch": 0.452113268802982,
      "flos": 25192377129600.0,
      "grad_norm": 1.866692619878268,
      "language_loss": 0.86579609,
      "learning_rate": 2.404590544582691e-06,
      "loss": 0.88773966,
      "num_input_tokens_seen": 80904570,
      "step": 3760,
      "time_per_iteration": 2.777458667755127
    },
    {
      "auxiliary_loss_clip": 0.0115067,
      "auxiliary_loss_mlp": 0.01029269,
      "balance_loss_clip": 1.04260731,
      "balance_loss_mlp": 1.02054334,
      "epoch": 0.45223351169362114,
      "flos": 39378922312320.0,
      "grad_norm": 1.7967692208070547,
      "language_loss": 0.81221515,
      "learning_rate": 2.403827647836666e-06,
      "loss": 0.83401453,
      "num_input_tokens_seen": 80925125,
      "step": 3761,
      "time_per_iteration": 3.0260086059570312
    },
    {
      "auxiliary_loss_clip": 0.01190268,
      "auxiliary_loss_mlp": 0.01025151,
      "balance_loss_clip": 1.05465651,
      "balance_loss_mlp": 1.01698494,
      "epoch": 0.4523537545842602,
      "flos": 21582169994880.0,
      "grad_norm": 1.9573321094330938,
      "language_loss": 0.69360441,
      "learning_rate": 2.4030646898303075e-06,
      "loss": 0.71575868,
      "num_input_tokens_seen": 80946615,
      "step": 3762,
      "time_per_iteration": 2.7315428256988525
    },
    {
      "auxiliary_loss_clip": 0.01175516,
      "auxiliary_loss_mlp": 0.01033414,
      "balance_loss_clip": 1.05147195,
      "balance_loss_mlp": 1.0245564,
      "epoch": 0.4524739974748993,
      "flos": 28439527547520.0,
      "grad_norm": 2.053358233319229,
      "language_loss": 0.82435209,
      "learning_rate": 2.4023016706793566e-06,
      "loss": 0.84644139,
      "num_input_tokens_seen": 80966410,
      "step": 3763,
      "time_per_iteration": 2.747575283050537
    },
    {
      "auxiliary_loss_clip": 0.01069512,
      "auxiliary_loss_mlp": 0.01003392,
      "balance_loss_clip": 1.01781392,
      "balance_loss_mlp": 1.00215268,
      "epoch": 0.4525942403655384,
      "flos": 61556492148480.0,
      "grad_norm": 0.7843482086871857,
      "language_loss": 0.56820023,
      "learning_rate": 2.401538590499561e-06,
      "loss": 0.5889293,
      "num_input_tokens_seen": 81026865,
      "step": 3764,
      "time_per_iteration": 3.3090715408325195
    },
    {
      "auxiliary_loss_clip": 0.01181148,
      "auxiliary_loss_mlp": 0.00887795,
      "balance_loss_clip": 1.05351448,
      "balance_loss_mlp": 1.00062823,
      "epoch": 0.45271448325617747,
      "flos": 27529838680320.0,
      "grad_norm": 1.9777823197473199,
      "language_loss": 0.71991837,
      "learning_rate": 2.400775449406682e-06,
      "loss": 0.7406078,
      "num_input_tokens_seen": 81050060,
      "step": 3765,
      "time_per_iteration": 2.766491174697876
    },
    {
      "auxiliary_loss_clip": 0.01176754,
      "auxiliary_loss_mlp": 0.01027444,
      "balance_loss_clip": 1.0500474,
      "balance_loss_mlp": 1.01903999,
      "epoch": 0.4528347261468166,
      "flos": 22452608275200.0,
      "grad_norm": 1.9620970111267608,
      "language_loss": 0.73019916,
      "learning_rate": 2.400012247516485e-06,
      "loss": 0.75224113,
      "num_input_tokens_seen": 81070625,
      "step": 3766,
      "time_per_iteration": 2.717170238494873
    },
    {
      "auxiliary_loss_clip": 0.01161199,
      "auxiliary_loss_mlp": 0.01030407,
      "balance_loss_clip": 1.04942203,
      "balance_loss_mlp": 1.02239001,
      "epoch": 0.45295496903745563,
      "flos": 21103875469440.0,
      "grad_norm": 2.577656029005465,
      "language_loss": 0.90098858,
      "learning_rate": 2.3992489849447484e-06,
      "loss": 0.92290461,
      "num_input_tokens_seen": 81089080,
      "step": 3767,
      "time_per_iteration": 2.8819644451141357
    },
    {
      "auxiliary_loss_clip": 0.01168551,
      "auxiliary_loss_mlp": 0.01033251,
      "balance_loss_clip": 1.05134964,
      "balance_loss_mlp": 1.0246799,
      "epoch": 0.45307521192809475,
      "flos": 23221168606080.0,
      "grad_norm": 1.5741026479714046,
      "language_loss": 0.78961837,
      "learning_rate": 2.3984856618072584e-06,
      "loss": 0.81163633,
      "num_input_tokens_seen": 81109115,
      "step": 3768,
      "time_per_iteration": 2.7222037315368652
    },
    {
      "auxiliary_loss_clip": 0.01167435,
      "auxiliary_loss_mlp": 0.01034408,
      "balance_loss_clip": 1.05179322,
      "balance_loss_mlp": 1.02589011,
      "epoch": 0.45319545481873386,
      "flos": 15560094286080.0,
      "grad_norm": 1.9668050092661553,
      "language_loss": 0.73976541,
      "learning_rate": 2.3977222782198098e-06,
      "loss": 0.76178384,
      "num_input_tokens_seen": 81127750,
      "step": 3769,
      "time_per_iteration": 2.7150890827178955
    },
    {
      "auxiliary_loss_clip": 0.01148576,
      "auxiliary_loss_mlp": 0.01037451,
      "balance_loss_clip": 1.04540694,
      "balance_loss_mlp": 1.02798009,
      "epoch": 0.4533156977093729,
      "flos": 21944759834880.0,
      "grad_norm": 1.8772603765806,
      "language_loss": 0.75685608,
      "learning_rate": 2.3969588342982077e-06,
      "loss": 0.77871633,
      "num_input_tokens_seen": 81147125,
      "step": 3770,
      "time_per_iteration": 2.8006389141082764
    },
    {
      "auxiliary_loss_clip": 0.01174801,
      "auxiliary_loss_mlp": 0.01035786,
      "balance_loss_clip": 1.05435944,
      "balance_loss_mlp": 1.02773929,
      "epoch": 0.453435940600012,
      "flos": 24242180699520.0,
      "grad_norm": 1.8399908760882877,
      "language_loss": 0.72642732,
      "learning_rate": 2.396195330158267e-06,
      "loss": 0.74853319,
      "num_input_tokens_seen": 81167015,
      "step": 3771,
      "time_per_iteration": 2.663673162460327
    },
    {
      "auxiliary_loss_clip": 0.01190863,
      "auxiliary_loss_mlp": 0.01026654,
      "balance_loss_clip": 1.05514646,
      "balance_loss_mlp": 1.01833355,
      "epoch": 0.45355618349065113,
      "flos": 23440367352960.0,
      "grad_norm": 2.304898677956002,
      "language_loss": 0.79361415,
      "learning_rate": 2.3954317659158094e-06,
      "loss": 0.81578934,
      "num_input_tokens_seen": 81187350,
      "step": 3772,
      "time_per_iteration": 2.7085394859313965
    },
    {
      "auxiliary_loss_clip": 0.0107978,
      "auxiliary_loss_mlp": 0.01002998,
      "balance_loss_clip": 1.01631236,
      "balance_loss_mlp": 1.00185955,
      "epoch": 0.4536764263812902,
      "flos": 66903161448960.0,
      "grad_norm": 0.8927512156541474,
      "language_loss": 0.56933743,
      "learning_rate": 2.394668141686667e-06,
      "loss": 0.5901652,
      "num_input_tokens_seen": 81249315,
      "step": 3773,
      "time_per_iteration": 3.2229063510894775
    },
    {
      "auxiliary_loss_clip": 0.01174883,
      "auxiliary_loss_mlp": 0.01034079,
      "balance_loss_clip": 1.05036545,
      "balance_loss_mlp": 1.02627647,
      "epoch": 0.4537966692719293,
      "flos": 42739766254080.0,
      "grad_norm": 1.9803875345637185,
      "language_loss": 0.69977593,
      "learning_rate": 2.3939044575866813e-06,
      "loss": 0.72186559,
      "num_input_tokens_seen": 81272065,
      "step": 3774,
      "time_per_iteration": 2.8614189624786377
    },
    {
      "auxiliary_loss_clip": 0.01165155,
      "auxiliary_loss_mlp": 0.00887671,
      "balance_loss_clip": 1.05121994,
      "balance_loss_mlp": 1.00068617,
      "epoch": 0.4539169121625684,
      "flos": 35549480517120.0,
      "grad_norm": 3.3208669768277503,
      "language_loss": 0.75721216,
      "learning_rate": 2.3931407137317024e-06,
      "loss": 0.77774048,
      "num_input_tokens_seen": 81292220,
      "step": 3775,
      "time_per_iteration": 3.7736785411834717
    },
    {
      "auxiliary_loss_clip": 0.0115511,
      "auxiliary_loss_mlp": 0.01031956,
      "balance_loss_clip": 1.04622126,
      "balance_loss_mlp": 1.02400506,
      "epoch": 0.45403715505320746,
      "flos": 18514716341760.0,
      "grad_norm": 1.7258344176484524,
      "language_loss": 0.84796774,
      "learning_rate": 2.3923769102375907e-06,
      "loss": 0.86983842,
      "num_input_tokens_seen": 81311085,
      "step": 3776,
      "time_per_iteration": 2.6713900566101074
    },
    {
      "auxiliary_loss_clip": 0.01157075,
      "auxiliary_loss_mlp": 0.01030943,
      "balance_loss_clip": 1.0469842,
      "balance_loss_mlp": 1.02195454,
      "epoch": 0.4541573979438466,
      "flos": 25045825639680.0,
      "grad_norm": 2.273174013847569,
      "language_loss": 0.789437,
      "learning_rate": 2.391613047220213e-06,
      "loss": 0.81131721,
      "num_input_tokens_seen": 81330985,
      "step": 3777,
      "time_per_iteration": 2.7754669189453125
    },
    {
      "auxiliary_loss_clip": 0.01157305,
      "auxiliary_loss_mlp": 0.01032617,
      "balance_loss_clip": 1.04795861,
      "balance_loss_mlp": 1.02329445,
      "epoch": 0.4542776408344857,
      "flos": 18332397884160.0,
      "grad_norm": 2.4063485514146237,
      "language_loss": 0.79170388,
      "learning_rate": 2.390849124795447e-06,
      "loss": 0.81360316,
      "num_input_tokens_seen": 81346985,
      "step": 3778,
      "time_per_iteration": 2.727119207382202
    },
    {
      "auxiliary_loss_clip": 0.01190427,
      "auxiliary_loss_mlp": 0.01034426,
      "balance_loss_clip": 1.05569863,
      "balance_loss_mlp": 1.02589083,
      "epoch": 0.45439788372512474,
      "flos": 20701173116160.0,
      "grad_norm": 2.0228299693902403,
      "language_loss": 0.84637642,
      "learning_rate": 2.3900851430791804e-06,
      "loss": 0.86862499,
      "num_input_tokens_seen": 81365005,
      "step": 3779,
      "time_per_iteration": 2.6328136920928955
    },
    {
      "auxiliary_loss_clip": 0.01194282,
      "auxiliary_loss_mlp": 0.01039285,
      "balance_loss_clip": 1.05622733,
      "balance_loss_mlp": 1.03008235,
      "epoch": 0.45451812661576385,
      "flos": 22309432663680.0,
      "grad_norm": 2.0376930945705447,
      "language_loss": 0.85201502,
      "learning_rate": 2.389321102187307e-06,
      "loss": 0.87435067,
      "num_input_tokens_seen": 81383785,
      "step": 3780,
      "time_per_iteration": 2.5893537998199463
    },
    {
      "auxiliary_loss_clip": 0.01169115,
      "auxiliary_loss_mlp": 0.0088741,
      "balance_loss_clip": 1.05303454,
      "balance_loss_mlp": 1.00080585,
      "epoch": 0.4546383695064029,
      "flos": 21763303303680.0,
      "grad_norm": 1.6077667981187953,
      "language_loss": 0.81536198,
      "learning_rate": 2.3885570022357326e-06,
      "loss": 0.83592725,
      "num_input_tokens_seen": 81402915,
      "step": 3781,
      "time_per_iteration": 3.691657066345215
    },
    {
      "auxiliary_loss_clip": 0.01066895,
      "auxiliary_loss_mlp": 0.01004631,
      "balance_loss_clip": 1.01648355,
      "balance_loss_mlp": 1.00341535,
      "epoch": 0.454758612397042,
      "flos": 64242755694720.0,
      "grad_norm": 0.8691430862212269,
      "language_loss": 0.60917211,
      "learning_rate": 2.38779284334037e-06,
      "loss": 0.62988734,
      "num_input_tokens_seen": 81467890,
      "step": 3782,
      "time_per_iteration": 3.295929431915283
    },
    {
      "auxiliary_loss_clip": 0.01133735,
      "auxiliary_loss_mlp": 0.01028806,
      "balance_loss_clip": 1.04522371,
      "balance_loss_mlp": 1.02033639,
      "epoch": 0.4548788552876811,
      "flos": 27304175485440.0,
      "grad_norm": 2.2062245172360897,
      "language_loss": 0.79155242,
      "learning_rate": 2.387028625617141e-06,
      "loss": 0.81317788,
      "num_input_tokens_seen": 81487105,
      "step": 3783,
      "time_per_iteration": 2.7756738662719727
    },
    {
      "auxiliary_loss_clip": 0.0115741,
      "auxiliary_loss_mlp": 0.01027822,
      "balance_loss_clip": 1.04901576,
      "balance_loss_mlp": 1.01918519,
      "epoch": 0.4549990981783202,
      "flos": 22857142222080.0,
      "grad_norm": 4.613122864653612,
      "language_loss": 0.84642744,
      "learning_rate": 2.3862643491819766e-06,
      "loss": 0.86827981,
      "num_input_tokens_seen": 81505670,
      "step": 3784,
      "time_per_iteration": 2.718907117843628
    },
    {
      "auxiliary_loss_clip": 0.01173999,
      "auxiliary_loss_mlp": 0.01027731,
      "balance_loss_clip": 1.04934287,
      "balance_loss_mlp": 1.01975858,
      "epoch": 0.4551193410689593,
      "flos": 23258587599360.0,
      "grad_norm": 1.6839102796814456,
      "language_loss": 0.84774435,
      "learning_rate": 2.3855000141508186e-06,
      "loss": 0.86976159,
      "num_input_tokens_seen": 81525825,
      "step": 3785,
      "time_per_iteration": 3.6913414001464844
    },
    {
      "auxiliary_loss_clip": 0.01169423,
      "auxiliary_loss_mlp": 0.01028362,
      "balance_loss_clip": 1.05120981,
      "balance_loss_mlp": 1.01867056,
      "epoch": 0.4552395839595984,
      "flos": 20777519473920.0,
      "grad_norm": 2.232220159854298,
      "language_loss": 0.83957589,
      "learning_rate": 2.3847356206396143e-06,
      "loss": 0.86155379,
      "num_input_tokens_seen": 81543135,
      "step": 3786,
      "time_per_iteration": 2.671752691268921
    },
    {
      "auxiliary_loss_clip": 0.01189038,
      "auxiliary_loss_mlp": 0.01030361,
      "balance_loss_clip": 1.05568337,
      "balance_loss_mlp": 1.02184319,
      "epoch": 0.45535982685023746,
      "flos": 23257510191360.0,
      "grad_norm": 1.4466761103701071,
      "language_loss": 0.78783983,
      "learning_rate": 2.3839711687643227e-06,
      "loss": 0.8100338,
      "num_input_tokens_seen": 81564360,
      "step": 3787,
      "time_per_iteration": 2.6522231101989746
    },
    {
      "auxiliary_loss_clip": 0.01179096,
      "auxiliary_loss_mlp": 0.01031026,
      "balance_loss_clip": 1.05319536,
      "balance_loss_mlp": 1.021626,
      "epoch": 0.45548006974087657,
      "flos": 19646117907840.0,
      "grad_norm": 3.778645959014536,
      "language_loss": 0.74016207,
      "learning_rate": 2.38320665864091e-06,
      "loss": 0.7622633,
      "num_input_tokens_seen": 81583710,
      "step": 3788,
      "time_per_iteration": 2.6161251068115234
    },
    {
      "auxiliary_loss_clip": 0.01139282,
      "auxiliary_loss_mlp": 0.01026233,
      "balance_loss_clip": 1.04240716,
      "balance_loss_mlp": 1.01731563,
      "epoch": 0.4556003126315157,
      "flos": 20047778766720.0,
      "grad_norm": 1.9085343091551605,
      "language_loss": 0.82155758,
      "learning_rate": 2.3824420903853516e-06,
      "loss": 0.84321272,
      "num_input_tokens_seen": 81602175,
      "step": 3789,
      "time_per_iteration": 2.792407751083374
    },
    {
      "auxiliary_loss_clip": 0.01176671,
      "auxiliary_loss_mlp": 0.01029399,
      "balance_loss_clip": 1.05310941,
      "balance_loss_mlp": 1.02073884,
      "epoch": 0.45572055552215474,
      "flos": 22959738443520.0,
      "grad_norm": 2.7863056995143163,
      "language_loss": 0.82737112,
      "learning_rate": 2.3816774641136324e-06,
      "loss": 0.84943187,
      "num_input_tokens_seen": 81619430,
      "step": 3790,
      "time_per_iteration": 2.631652355194092
    },
    {
      "auxiliary_loss_clip": 0.01176076,
      "auxiliary_loss_mlp": 0.00887027,
      "balance_loss_clip": 1.05278015,
      "balance_loss_mlp": 1.00076509,
      "epoch": 0.45584079841279385,
      "flos": 33109925535360.0,
      "grad_norm": 1.8386356108803772,
      "language_loss": 0.71276969,
      "learning_rate": 2.380912779941745e-06,
      "loss": 0.7334007,
      "num_input_tokens_seen": 81642550,
      "step": 3791,
      "time_per_iteration": 2.767814874649048
    },
    {
      "auxiliary_loss_clip": 0.01179099,
      "auxiliary_loss_mlp": 0.01026739,
      "balance_loss_clip": 1.04887569,
      "balance_loss_mlp": 1.01740527,
      "epoch": 0.45596104130343296,
      "flos": 27272179445760.0,
      "grad_norm": 1.8804536137646315,
      "language_loss": 0.83557725,
      "learning_rate": 2.3801480379856918e-06,
      "loss": 0.85763556,
      "num_input_tokens_seen": 81664260,
      "step": 3792,
      "time_per_iteration": 2.6710662841796875
    },
    {
      "auxiliary_loss_clip": 0.01172757,
      "auxiliary_loss_mlp": 0.01029506,
      "balance_loss_clip": 1.05313039,
      "balance_loss_mlp": 1.02105463,
      "epoch": 0.456081284194072,
      "flos": 21579799697280.0,
      "grad_norm": 1.7425509295955006,
      "language_loss": 0.84015626,
      "learning_rate": 2.379383238361484e-06,
      "loss": 0.86217886,
      "num_input_tokens_seen": 81683620,
      "step": 3793,
      "time_per_iteration": 2.737372398376465
    },
    {
      "auxiliary_loss_clip": 0.01174156,
      "auxiliary_loss_mlp": 0.0102523,
      "balance_loss_clip": 1.05111647,
      "balance_loss_mlp": 1.01727891,
      "epoch": 0.4562015270847111,
      "flos": 35918822113920.0,
      "grad_norm": 2.4265565452529345,
      "language_loss": 0.799528,
      "learning_rate": 2.3786183811851407e-06,
      "loss": 0.82152188,
      "num_input_tokens_seen": 81704325,
      "step": 3794,
      "time_per_iteration": 2.725163221359253
    },
    {
      "auxiliary_loss_clip": 0.01189275,
      "auxiliary_loss_mlp": 0.01032471,
      "balance_loss_clip": 1.05514288,
      "balance_loss_mlp": 1.02426314,
      "epoch": 0.45632176997535023,
      "flos": 13589783602560.0,
      "grad_norm": 1.7839784148284203,
      "language_loss": 0.80230749,
      "learning_rate": 2.3778534665726892e-06,
      "loss": 0.82452488,
      "num_input_tokens_seen": 81721155,
      "step": 3795,
      "time_per_iteration": 2.6040918827056885
    },
    {
      "auxiliary_loss_clip": 0.01171187,
      "auxiliary_loss_mlp": 0.01029034,
      "balance_loss_clip": 1.05296004,
      "balance_loss_mlp": 1.02137518,
      "epoch": 0.4564420128659893,
      "flos": 32635401937920.0,
      "grad_norm": 3.5656994805632807,
      "language_loss": 0.7273913,
      "learning_rate": 2.377088494640168e-06,
      "loss": 0.74939346,
      "num_input_tokens_seen": 81742905,
      "step": 3796,
      "time_per_iteration": 2.8407132625579834
    },
    {
      "auxiliary_loss_clip": 0.01175752,
      "auxiliary_loss_mlp": 0.01033893,
      "balance_loss_clip": 1.05319667,
      "balance_loss_mlp": 1.02508354,
      "epoch": 0.4565622557566284,
      "flos": 20377690208640.0,
      "grad_norm": 2.2895917751576627,
      "language_loss": 0.78198004,
      "learning_rate": 2.3763234655036216e-06,
      "loss": 0.80407649,
      "num_input_tokens_seen": 81762105,
      "step": 3797,
      "time_per_iteration": 2.662614583969116
    },
    {
      "auxiliary_loss_clip": 0.01156564,
      "auxiliary_loss_mlp": 0.01034286,
      "balance_loss_clip": 1.04527295,
      "balance_loss_mlp": 1.02552378,
      "epoch": 0.45668249864726745,
      "flos": 25374372364800.0,
      "grad_norm": 2.046846272192971,
      "language_loss": 0.8740505,
      "learning_rate": 2.3755583792791046e-06,
      "loss": 0.89595902,
      "num_input_tokens_seen": 81781975,
      "step": 3798,
      "time_per_iteration": 2.7388503551483154
    },
    {
      "auxiliary_loss_clip": 0.01179494,
      "auxiliary_loss_mlp": 0.01033568,
      "balance_loss_clip": 1.05265808,
      "balance_loss_mlp": 1.0252533,
      "epoch": 0.45680274153790656,
      "flos": 15559806977280.0,
      "grad_norm": 2.029609119904428,
      "language_loss": 0.74537641,
      "learning_rate": 2.3747932360826803e-06,
      "loss": 0.76750708,
      "num_input_tokens_seen": 81798905,
      "step": 3799,
      "time_per_iteration": 2.6051976680755615
    },
    {
      "auxiliary_loss_clip": 0.01179158,
      "auxiliary_loss_mlp": 0.01029898,
      "balance_loss_clip": 1.05445099,
      "balance_loss_mlp": 1.02061152,
      "epoch": 0.4569229844285457,
      "flos": 19792884879360.0,
      "grad_norm": 1.88738523609262,
      "language_loss": 0.82113725,
      "learning_rate": 2.3740280360304205e-06,
      "loss": 0.8432278,
      "num_input_tokens_seen": 81816630,
      "step": 3800,
      "time_per_iteration": 2.6405534744262695
    },
    {
      "auxiliary_loss_clip": 0.01157392,
      "auxiliary_loss_mlp": 0.01027369,
      "balance_loss_clip": 1.0519259,
      "balance_loss_mlp": 1.01899421,
      "epoch": 0.45704322731918473,
      "flos": 24093941270400.0,
      "grad_norm": 1.775391715993643,
      "language_loss": 0.67990041,
      "learning_rate": 2.3732627792384038e-06,
      "loss": 0.70174801,
      "num_input_tokens_seen": 81837700,
      "step": 3801,
      "time_per_iteration": 3.613584041595459
    },
    {
      "auxiliary_loss_clip": 0.01187863,
      "auxiliary_loss_mlp": 0.0102675,
      "balance_loss_clip": 1.05290866,
      "balance_loss_mlp": 1.01830411,
      "epoch": 0.45716347020982384,
      "flos": 31317803245440.0,
      "grad_norm": 2.448631587538904,
      "language_loss": 0.75241876,
      "learning_rate": 2.3724974658227207e-06,
      "loss": 0.77456486,
      "num_input_tokens_seen": 81858490,
      "step": 3802,
      "time_per_iteration": 2.6795356273651123
    },
    {
      "auxiliary_loss_clip": 0.01171007,
      "auxiliary_loss_mlp": 0.00887724,
      "balance_loss_clip": 1.05440366,
      "balance_loss_mlp": 1.00068605,
      "epoch": 0.45728371310046295,
      "flos": 26501392471680.0,
      "grad_norm": 2.166481721152086,
      "language_loss": 0.71167672,
      "learning_rate": 2.3717320958994687e-06,
      "loss": 0.73226404,
      "num_input_tokens_seen": 81876050,
      "step": 3803,
      "time_per_iteration": 2.7205522060394287
    },
    {
      "auxiliary_loss_clip": 0.01157587,
      "auxiliary_loss_mlp": 0.0102758,
      "balance_loss_clip": 1.04404926,
      "balance_loss_mlp": 1.01868129,
      "epoch": 0.457403955991102,
      "flos": 17929408222080.0,
      "grad_norm": 1.8680480705047944,
      "language_loss": 0.70112455,
      "learning_rate": 2.3709666695847534e-06,
      "loss": 0.72297621,
      "num_input_tokens_seen": 81894230,
      "step": 3804,
      "time_per_iteration": 2.720928907394409
    },
    {
      "auxiliary_loss_clip": 0.01140023,
      "auxiliary_loss_mlp": 0.01030262,
      "balance_loss_clip": 1.04417741,
      "balance_loss_mlp": 1.0213269,
      "epoch": 0.4575241988817411,
      "flos": 42230660837760.0,
      "grad_norm": 1.7228437466243351,
      "language_loss": 0.7065506,
      "learning_rate": 2.370201186994689e-06,
      "loss": 0.72825342,
      "num_input_tokens_seen": 81917915,
      "step": 3805,
      "time_per_iteration": 2.9680750370025635
    },
    {
      "auxiliary_loss_clip": 0.01162,
      "auxiliary_loss_mlp": 0.01030174,
      "balance_loss_clip": 1.05121493,
      "balance_loss_mlp": 1.02139974,
      "epoch": 0.45764444177238023,
      "flos": 30117309868800.0,
      "grad_norm": 1.9457303229405614,
      "language_loss": 0.69808459,
      "learning_rate": 2.369435648245399e-06,
      "loss": 0.72000635,
      "num_input_tokens_seen": 81938130,
      "step": 3806,
      "time_per_iteration": 2.77152419090271
    },
    {
      "auxiliary_loss_clip": 0.01170045,
      "auxiliary_loss_mlp": 0.01035107,
      "balance_loss_clip": 1.05274701,
      "balance_loss_mlp": 1.02639878,
      "epoch": 0.4577646846630193,
      "flos": 24060293205120.0,
      "grad_norm": 1.5881648025971322,
      "language_loss": 0.85066402,
      "learning_rate": 2.368670053453015e-06,
      "loss": 0.87271559,
      "num_input_tokens_seen": 81959820,
      "step": 3807,
      "time_per_iteration": 4.698255300521851
    },
    {
      "auxiliary_loss_clip": 0.01188848,
      "auxiliary_loss_mlp": 0.01031159,
      "balance_loss_clip": 1.05778289,
      "balance_loss_mlp": 1.02202797,
      "epoch": 0.4578849275536584,
      "flos": 17418578952960.0,
      "grad_norm": 2.2545898016581263,
      "language_loss": 0.74053478,
      "learning_rate": 2.3679044027336757e-06,
      "loss": 0.76273483,
      "num_input_tokens_seen": 81975710,
      "step": 3808,
      "time_per_iteration": 2.6340138912200928
    },
    {
      "auxiliary_loss_clip": 0.01192055,
      "auxiliary_loss_mlp": 0.01031598,
      "balance_loss_clip": 1.05608845,
      "balance_loss_mlp": 1.02236569,
      "epoch": 0.4580051704442975,
      "flos": 13510169107200.0,
      "grad_norm": 2.5324423890049537,
      "language_loss": 0.69029123,
      "learning_rate": 2.3671386962035326e-06,
      "loss": 0.71252769,
      "num_input_tokens_seen": 81993180,
      "step": 3809,
      "time_per_iteration": 2.616690158843994
    },
    {
      "auxiliary_loss_clip": 0.01180884,
      "auxiliary_loss_mlp": 0.01034052,
      "balance_loss_clip": 1.05239964,
      "balance_loss_mlp": 1.02500951,
      "epoch": 0.45812541333493656,
      "flos": 18037606965120.0,
      "grad_norm": 13.400732501527607,
      "language_loss": 0.68828857,
      "learning_rate": 2.3663729339787405e-06,
      "loss": 0.71043789,
      "num_input_tokens_seen": 82010115,
      "step": 3810,
      "time_per_iteration": 2.6367719173431396
    },
    {
      "auxiliary_loss_clip": 0.01188387,
      "auxiliary_loss_mlp": 0.01038261,
      "balance_loss_clip": 1.05366445,
      "balance_loss_mlp": 1.02887893,
      "epoch": 0.45824565622557567,
      "flos": 20222196232320.0,
      "grad_norm": 2.352648852264746,
      "language_loss": 0.73360121,
      "learning_rate": 2.365607116175466e-06,
      "loss": 0.75586778,
      "num_input_tokens_seen": 82025540,
      "step": 3811,
      "time_per_iteration": 3.6503725051879883
    },
    {
      "auxiliary_loss_clip": 0.0118935,
      "auxiliary_loss_mlp": 0.01030646,
      "balance_loss_clip": 1.05431199,
      "balance_loss_mlp": 1.02212262,
      "epoch": 0.4583658991162148,
      "flos": 19864885691520.0,
      "grad_norm": 2.3046168430785046,
      "language_loss": 0.66977251,
      "learning_rate": 2.3648412429098825e-06,
      "loss": 0.69197249,
      "num_input_tokens_seen": 82043890,
      "step": 3812,
      "time_per_iteration": 2.6191186904907227
    },
    {
      "auxiliary_loss_clip": 0.01156381,
      "auxiliary_loss_mlp": 0.01034748,
      "balance_loss_clip": 1.05117774,
      "balance_loss_mlp": 1.02540827,
      "epoch": 0.45848614200685384,
      "flos": 21029935322880.0,
      "grad_norm": 1.7742663302451556,
      "language_loss": 0.82196069,
      "learning_rate": 2.364075314298172e-06,
      "loss": 0.84387195,
      "num_input_tokens_seen": 82061345,
      "step": 3813,
      "time_per_iteration": 2.6885671615600586
    },
    {
      "auxiliary_loss_clip": 0.0118228,
      "auxiliary_loss_mlp": 0.00888427,
      "balance_loss_clip": 1.05386651,
      "balance_loss_mlp": 1.00069475,
      "epoch": 0.45860638489749295,
      "flos": 21069293650560.0,
      "grad_norm": 1.8495739547980243,
      "language_loss": 0.69949102,
      "learning_rate": 2.3633093304565267e-06,
      "loss": 0.72019815,
      "num_input_tokens_seen": 82080400,
      "step": 3814,
      "time_per_iteration": 2.652578353881836
    },
    {
      "auxiliary_loss_clip": 0.0119636,
      "auxiliary_loss_mlp": 0.01034449,
      "balance_loss_clip": 1.0590868,
      "balance_loss_mlp": 1.02521002,
      "epoch": 0.458726627788132,
      "flos": 26833889692800.0,
      "grad_norm": 1.9437306156382843,
      "language_loss": 0.62932122,
      "learning_rate": 2.3625432915011443e-06,
      "loss": 0.65162933,
      "num_input_tokens_seen": 82102310,
      "step": 3815,
      "time_per_iteration": 2.6055984497070312
    },
    {
      "auxiliary_loss_clip": 0.01161082,
      "auxiliary_loss_mlp": 0.01032997,
      "balance_loss_clip": 1.05005682,
      "balance_loss_mlp": 1.02404451,
      "epoch": 0.4588468706787711,
      "flos": 24097927680000.0,
      "grad_norm": 1.7486106759000717,
      "language_loss": 0.65492845,
      "learning_rate": 2.3617771975482334e-06,
      "loss": 0.67686921,
      "num_input_tokens_seen": 82121140,
      "step": 3816,
      "time_per_iteration": 2.7890303134918213
    },
    {
      "auxiliary_loss_clip": 0.01142964,
      "auxiliary_loss_mlp": 0.01033293,
      "balance_loss_clip": 1.04628587,
      "balance_loss_mlp": 1.02437055,
      "epoch": 0.4589671135694102,
      "flos": 17889331622400.0,
      "grad_norm": 1.6766982041367455,
      "language_loss": 0.74548519,
      "learning_rate": 2.3610110487140083e-06,
      "loss": 0.7672478,
      "num_input_tokens_seen": 82139575,
      "step": 3817,
      "time_per_iteration": 2.766981840133667
    },
    {
      "auxiliary_loss_clip": 0.01168396,
      "auxiliary_loss_mlp": 0.01026391,
      "balance_loss_clip": 1.05139303,
      "balance_loss_mlp": 1.01753342,
      "epoch": 0.4590873564600493,
      "flos": 25626967781760.0,
      "grad_norm": 1.6501185206555773,
      "language_loss": 0.80655873,
      "learning_rate": 2.360244845114695e-06,
      "loss": 0.82850671,
      "num_input_tokens_seen": 82159195,
      "step": 3818,
      "time_per_iteration": 2.7044572830200195
    },
    {
      "auxiliary_loss_clip": 0.01163422,
      "auxiliary_loss_mlp": 0.0103289,
      "balance_loss_clip": 1.05161285,
      "balance_loss_mlp": 1.0243609,
      "epoch": 0.4592075993506884,
      "flos": 18514788168960.0,
      "grad_norm": 2.358608979987292,
      "language_loss": 0.68659949,
      "learning_rate": 2.3594785868665245e-06,
      "loss": 0.70856261,
      "num_input_tokens_seen": 82175500,
      "step": 3819,
      "time_per_iteration": 2.6899664402008057
    },
    {
      "auxiliary_loss_clip": 0.01164255,
      "auxiliary_loss_mlp": 0.00888572,
      "balance_loss_clip": 1.05217636,
      "balance_loss_mlp": 1.00073624,
      "epoch": 0.4593278422413275,
      "flos": 20631111638400.0,
      "grad_norm": 2.1149059163046973,
      "language_loss": 0.81129223,
      "learning_rate": 2.3587122740857386e-06,
      "loss": 0.83182049,
      "num_input_tokens_seen": 82192600,
      "step": 3820,
      "time_per_iteration": 2.7223682403564453
    },
    {
      "auxiliary_loss_clip": 0.01177542,
      "auxiliary_loss_mlp": 0.01027871,
      "balance_loss_clip": 1.05303752,
      "balance_loss_mlp": 1.01922786,
      "epoch": 0.45944808513196655,
      "flos": 21358517961600.0,
      "grad_norm": 1.6247102663341926,
      "language_loss": 0.78408217,
      "learning_rate": 2.357945906888586e-06,
      "loss": 0.80613625,
      "num_input_tokens_seen": 82212040,
      "step": 3821,
      "time_per_iteration": 2.6954610347747803
    },
    {
      "auxiliary_loss_clip": 0.01181312,
      "auxiliary_loss_mlp": 0.01035919,
      "balance_loss_clip": 1.05502617,
      "balance_loss_mlp": 1.02598262,
      "epoch": 0.45956832802260567,
      "flos": 21427789340160.0,
      "grad_norm": 2.278294395370602,
      "language_loss": 0.79836869,
      "learning_rate": 2.357179485391324e-06,
      "loss": 0.82054102,
      "num_input_tokens_seen": 82229895,
      "step": 3822,
      "time_per_iteration": 2.6186070442199707
    },
    {
      "auxiliary_loss_clip": 0.0118675,
      "auxiliary_loss_mlp": 0.01030923,
      "balance_loss_clip": 1.05585837,
      "balance_loss_mlp": 1.02186859,
      "epoch": 0.4596885709132448,
      "flos": 22382654538240.0,
      "grad_norm": 1.859665002882509,
      "language_loss": 0.8630265,
      "learning_rate": 2.3564130097102173e-06,
      "loss": 0.88520324,
      "num_input_tokens_seen": 82249550,
      "step": 3823,
      "time_per_iteration": 2.703386068344116
    },
    {
      "auxiliary_loss_clip": 0.01161277,
      "auxiliary_loss_mlp": 0.01032361,
      "balance_loss_clip": 1.05271173,
      "balance_loss_mlp": 1.02361107,
      "epoch": 0.45980881380388383,
      "flos": 28981957806720.0,
      "grad_norm": 1.8070618011866628,
      "language_loss": 0.75320154,
      "learning_rate": 2.355646479961541e-06,
      "loss": 0.7751379,
      "num_input_tokens_seen": 82268860,
      "step": 3824,
      "time_per_iteration": 2.7203333377838135
    },
    {
      "auxiliary_loss_clip": 0.01189394,
      "auxiliary_loss_mlp": 0.01028847,
      "balance_loss_clip": 1.05451083,
      "balance_loss_mlp": 1.01983476,
      "epoch": 0.45992905669452294,
      "flos": 33396599980800.0,
      "grad_norm": 1.8096050714813392,
      "language_loss": 0.71431315,
      "learning_rate": 2.354879896261576e-06,
      "loss": 0.73649561,
      "num_input_tokens_seen": 82289070,
      "step": 3825,
      "time_per_iteration": 2.7502827644348145
    },
    {
      "auxiliary_loss_clip": 0.01158127,
      "auxiliary_loss_mlp": 0.01031577,
      "balance_loss_clip": 1.05480027,
      "balance_loss_mlp": 1.02258837,
      "epoch": 0.46004929958516205,
      "flos": 36318184502400.0,
      "grad_norm": 1.8149029140366848,
      "language_loss": 0.5715574,
      "learning_rate": 2.3541132587266133e-06,
      "loss": 0.59345448,
      "num_input_tokens_seen": 82311790,
      "step": 3826,
      "time_per_iteration": 2.845534563064575
    },
    {
      "auxiliary_loss_clip": 0.01170329,
      "auxiliary_loss_mlp": 0.01031397,
      "balance_loss_clip": 1.05388308,
      "balance_loss_mlp": 1.02258754,
      "epoch": 0.4601695424758011,
      "flos": 17238451224960.0,
      "grad_norm": 1.9040655885341975,
      "language_loss": 0.6937325,
      "learning_rate": 2.3533465674729515e-06,
      "loss": 0.71574986,
      "num_input_tokens_seen": 82329020,
      "step": 3827,
      "time_per_iteration": 3.634929895401001
    },
    {
      "auxiliary_loss_clip": 0.01190932,
      "auxiliary_loss_mlp": 0.01032341,
      "balance_loss_clip": 1.05609798,
      "balance_loss_mlp": 1.02346039,
      "epoch": 0.4602897853664402,
      "flos": 15888425529600.0,
      "grad_norm": 2.0061847401016837,
      "language_loss": 0.72999954,
      "learning_rate": 2.352579822616895e-06,
      "loss": 0.75223225,
      "num_input_tokens_seen": 82346455,
      "step": 3828,
      "time_per_iteration": 2.632017135620117
    },
    {
      "auxiliary_loss_clip": 0.01171977,
      "auxiliary_loss_mlp": 0.01031142,
      "balance_loss_clip": 1.05366337,
      "balance_loss_mlp": 1.02221322,
      "epoch": 0.4604100282570793,
      "flos": 25412617370880.0,
      "grad_norm": 4.090911169055376,
      "language_loss": 0.77890539,
      "learning_rate": 2.351813024274761e-06,
      "loss": 0.80093652,
      "num_input_tokens_seen": 82367810,
      "step": 3829,
      "time_per_iteration": 2.693171977996826
    },
    {
      "auxiliary_loss_clip": 0.01167848,
      "auxiliary_loss_mlp": 0.01030205,
      "balance_loss_clip": 1.05403996,
      "balance_loss_mlp": 1.02130032,
      "epoch": 0.4605302711477184,
      "flos": 27630711048960.0,
      "grad_norm": 1.7912076999280497,
      "language_loss": 0.7349124,
      "learning_rate": 2.3510461725628693e-06,
      "loss": 0.75689292,
      "num_input_tokens_seen": 82388275,
      "step": 3830,
      "time_per_iteration": 2.8085057735443115
    },
    {
      "auxiliary_loss_clip": 0.01163905,
      "auxiliary_loss_mlp": 0.01030088,
      "balance_loss_clip": 1.0513792,
      "balance_loss_mlp": 1.02135038,
      "epoch": 0.4606505140383575,
      "flos": 23839657914240.0,
      "grad_norm": 1.9554720487975121,
      "language_loss": 0.71489418,
      "learning_rate": 2.350279267597554e-06,
      "loss": 0.73683411,
      "num_input_tokens_seen": 82408915,
      "step": 3831,
      "time_per_iteration": 2.7483718395233154
    },
    {
      "auxiliary_loss_clip": 0.01182679,
      "auxiliary_loss_mlp": 0.01033997,
      "balance_loss_clip": 1.055686,
      "balance_loss_mlp": 1.02465701,
      "epoch": 0.46077075692899655,
      "flos": 16107013745280.0,
      "grad_norm": 2.5027262298734274,
      "language_loss": 0.82782674,
      "learning_rate": 2.3495123094951515e-06,
      "loss": 0.84999347,
      "num_input_tokens_seen": 82427260,
      "step": 3832,
      "time_per_iteration": 3.6875176429748535
    },
    {
      "auxiliary_loss_clip": 0.01162208,
      "auxiliary_loss_mlp": 0.01031872,
      "balance_loss_clip": 1.05246651,
      "balance_loss_mlp": 1.02355719,
      "epoch": 0.46089099981963566,
      "flos": 48798147634560.0,
      "grad_norm": 2.466866061810932,
      "language_loss": 0.76157475,
      "learning_rate": 2.34874529837201e-06,
      "loss": 0.78351551,
      "num_input_tokens_seen": 82450805,
      "step": 3833,
      "time_per_iteration": 3.8407342433929443
    },
    {
      "auxiliary_loss_clip": 0.01134812,
      "auxiliary_loss_mlp": 0.01029025,
      "balance_loss_clip": 1.04536414,
      "balance_loss_mlp": 1.02068603,
      "epoch": 0.46101124271027477,
      "flos": 19099234362240.0,
      "grad_norm": 1.7534293581027391,
      "language_loss": 0.79112697,
      "learning_rate": 2.347978234344483e-06,
      "loss": 0.81276536,
      "num_input_tokens_seen": 82467010,
      "step": 3834,
      "time_per_iteration": 2.774834632873535
    },
    {
      "auxiliary_loss_clip": 0.01188372,
      "auxiliary_loss_mlp": 0.01030555,
      "balance_loss_clip": 1.05817831,
      "balance_loss_mlp": 1.0217334,
      "epoch": 0.4611314856009138,
      "flos": 39347931853440.0,
      "grad_norm": 2.0879406831986733,
      "language_loss": 0.69310427,
      "learning_rate": 2.347211117528935e-06,
      "loss": 0.71529353,
      "num_input_tokens_seen": 82489310,
      "step": 3835,
      "time_per_iteration": 2.9033725261688232
    },
    {
      "auxiliary_loss_clip": 0.011687,
      "auxiliary_loss_mlp": 0.01029965,
      "balance_loss_clip": 1.05416143,
      "balance_loss_mlp": 1.02113748,
      "epoch": 0.46125172849155294,
      "flos": 20810772489600.0,
      "grad_norm": 1.624136252366263,
      "language_loss": 0.71667039,
      "learning_rate": 2.3464439480417374e-06,
      "loss": 0.73865712,
      "num_input_tokens_seen": 82508830,
      "step": 3836,
      "time_per_iteration": 2.7725656032562256
    },
    {
      "auxiliary_loss_clip": 0.01184855,
      "auxiliary_loss_mlp": 0.01032375,
      "balance_loss_clip": 1.05601239,
      "balance_loss_mlp": 1.02369094,
      "epoch": 0.46137197138219205,
      "flos": 17930808852480.0,
      "grad_norm": 2.947283532322531,
      "language_loss": 0.77645278,
      "learning_rate": 2.3456767259992676e-06,
      "loss": 0.79862511,
      "num_input_tokens_seen": 82526475,
      "step": 3837,
      "time_per_iteration": 3.6150100231170654
    },
    {
      "auxiliary_loss_clip": 0.0119147,
      "auxiliary_loss_mlp": 0.00888061,
      "balance_loss_clip": 1.05438685,
      "balance_loss_mlp": 1.00065315,
      "epoch": 0.4614922142728311,
      "flos": 16836610798080.0,
      "grad_norm": 2.5812757397049766,
      "language_loss": 0.88884223,
      "learning_rate": 2.3449094515179135e-06,
      "loss": 0.90963757,
      "num_input_tokens_seen": 82543935,
      "step": 3838,
      "time_per_iteration": 2.590542793273926
    },
    {
      "auxiliary_loss_clip": 0.0117886,
      "auxiliary_loss_mlp": 0.01029558,
      "balance_loss_clip": 1.05381382,
      "balance_loss_mlp": 1.02080154,
      "epoch": 0.4616124571634702,
      "flos": 26614906427520.0,
      "grad_norm": 1.595872528199101,
      "language_loss": 0.81800556,
      "learning_rate": 2.34414212471407e-06,
      "loss": 0.8400898,
      "num_input_tokens_seen": 82563730,
      "step": 3839,
      "time_per_iteration": 2.738755702972412
    },
    {
      "auxiliary_loss_clip": 0.01186183,
      "auxiliary_loss_mlp": 0.01028857,
      "balance_loss_clip": 1.05461347,
      "balance_loss_mlp": 1.01989305,
      "epoch": 0.4617327000541093,
      "flos": 20340127560960.0,
      "grad_norm": 2.0670018961962513,
      "language_loss": 0.72644305,
      "learning_rate": 2.3433747457041394e-06,
      "loss": 0.74859345,
      "num_input_tokens_seen": 82582435,
      "step": 3840,
      "time_per_iteration": 2.647808074951172
    },
    {
      "auxiliary_loss_clip": 0.01155147,
      "auxiliary_loss_mlp": 0.01029085,
      "balance_loss_clip": 1.04858994,
      "balance_loss_mlp": 1.02082396,
      "epoch": 0.4618529429447484,
      "flos": 29570749545600.0,
      "grad_norm": 2.9716328594486825,
      "language_loss": 0.85182315,
      "learning_rate": 2.342607314604533e-06,
      "loss": 0.87366545,
      "num_input_tokens_seen": 82602185,
      "step": 3841,
      "time_per_iteration": 2.7423899173736572
    },
    {
      "auxiliary_loss_clip": 0.01176959,
      "auxiliary_loss_mlp": 0.01036917,
      "balance_loss_clip": 1.05415046,
      "balance_loss_mlp": 1.02839983,
      "epoch": 0.4619731858353875,
      "flos": 19787030962560.0,
      "grad_norm": 2.236262089224456,
      "language_loss": 0.84296691,
      "learning_rate": 2.3418398315316694e-06,
      "loss": 0.86510563,
      "num_input_tokens_seen": 82620005,
      "step": 3842,
      "time_per_iteration": 2.7030014991760254
    },
    {
      "auxiliary_loss_clip": 0.01192215,
      "auxiliary_loss_mlp": 0.01038017,
      "balance_loss_clip": 1.05807209,
      "balance_loss_mlp": 1.02919579,
      "epoch": 0.4620934287260266,
      "flos": 18951138587520.0,
      "grad_norm": 2.2144230582416045,
      "language_loss": 0.78636181,
      "learning_rate": 2.3410722966019755e-06,
      "loss": 0.80866408,
      "num_input_tokens_seen": 82635120,
      "step": 3843,
      "time_per_iteration": 2.5373117923736572
    },
    {
      "auxiliary_loss_clip": 0.01178015,
      "auxiliary_loss_mlp": 0.01030611,
      "balance_loss_clip": 1.05343091,
      "balance_loss_mlp": 1.02173543,
      "epoch": 0.46221367161666566,
      "flos": 37341674634240.0,
      "grad_norm": 1.8396827626902803,
      "language_loss": 0.6585325,
      "learning_rate": 2.3403047099318848e-06,
      "loss": 0.6806187,
      "num_input_tokens_seen": 82659190,
      "step": 3844,
      "time_per_iteration": 2.8097622394561768
    },
    {
      "auxiliary_loss_clip": 0.01143883,
      "auxiliary_loss_mlp": 0.01033069,
      "balance_loss_clip": 1.04803348,
      "balance_loss_mlp": 1.02411056,
      "epoch": 0.46233391450730477,
      "flos": 14428549065600.0,
      "grad_norm": 2.285251711522875,
      "language_loss": 0.75068986,
      "learning_rate": 2.3395370716378405e-06,
      "loss": 0.77245939,
      "num_input_tokens_seen": 82676635,
      "step": 3845,
      "time_per_iteration": 2.9002459049224854
    },
    {
      "auxiliary_loss_clip": 0.0118287,
      "auxiliary_loss_mlp": 0.01028169,
      "balance_loss_clip": 1.05302548,
      "balance_loss_mlp": 1.01946056,
      "epoch": 0.4624541573979438,
      "flos": 22493044010880.0,
      "grad_norm": 2.422789405336236,
      "language_loss": 0.72319722,
      "learning_rate": 2.338769381836292e-06,
      "loss": 0.74530756,
      "num_input_tokens_seen": 82696245,
      "step": 3846,
      "time_per_iteration": 2.6573009490966797
    },
    {
      "auxiliary_loss_clip": 0.01157104,
      "auxiliary_loss_mlp": 0.0102953,
      "balance_loss_clip": 1.05194163,
      "balance_loss_mlp": 1.02075064,
      "epoch": 0.46257440028858293,
      "flos": 14465070218880.0,
      "grad_norm": 1.9756029652059268,
      "language_loss": 0.73328155,
      "learning_rate": 2.3380016406436984e-06,
      "loss": 0.75514793,
      "num_input_tokens_seen": 82713725,
      "step": 3847,
      "time_per_iteration": 2.7064268589019775
    },
    {
      "auxiliary_loss_clip": 0.01147125,
      "auxiliary_loss_mlp": 0.01031743,
      "balance_loss_clip": 1.05089009,
      "balance_loss_mlp": 1.02336276,
      "epoch": 0.46269464317922204,
      "flos": 23332204523520.0,
      "grad_norm": 2.0055031931043104,
      "language_loss": 0.81223273,
      "learning_rate": 2.337233848176524e-06,
      "loss": 0.83402139,
      "num_input_tokens_seen": 82731495,
      "step": 3848,
      "time_per_iteration": 2.766603946685791
    },
    {
      "auxiliary_loss_clip": 0.01139851,
      "auxiliary_loss_mlp": 0.01032039,
      "balance_loss_clip": 1.047454,
      "balance_loss_mlp": 1.02274668,
      "epoch": 0.4628148860698611,
      "flos": 18552027594240.0,
      "grad_norm": 2.3084308657950627,
      "language_loss": 0.83503598,
      "learning_rate": 2.3364660045512435e-06,
      "loss": 0.8567549,
      "num_input_tokens_seen": 82750255,
      "step": 3849,
      "time_per_iteration": 2.764120101928711
    },
    {
      "auxiliary_loss_clip": 0.01071586,
      "auxiliary_loss_mlp": 0.01001946,
      "balance_loss_clip": 1.02311456,
      "balance_loss_mlp": 1.0007714,
      "epoch": 0.4629351289605002,
      "flos": 70667569670400.0,
      "grad_norm": 0.7444957402815304,
      "language_loss": 0.58205879,
      "learning_rate": 2.335698109884337e-06,
      "loss": 0.60279405,
      "num_input_tokens_seen": 82815460,
      "step": 3850,
      "time_per_iteration": 3.381535768508911
    },
    {
      "auxiliary_loss_clip": 0.01055666,
      "auxiliary_loss_mlp": 0.01002079,
      "balance_loss_clip": 1.01906991,
      "balance_loss_mlp": 1.00086296,
      "epoch": 0.4630553718511393,
      "flos": 59687200465920.0,
      "grad_norm": 0.7860643308337637,
      "language_loss": 0.59842002,
      "learning_rate": 2.334930164292294e-06,
      "loss": 0.61899745,
      "num_input_tokens_seen": 82878010,
      "step": 3851,
      "time_per_iteration": 3.4435954093933105
    },
    {
      "auxiliary_loss_clip": 0.0114419,
      "auxiliary_loss_mlp": 0.01027651,
      "balance_loss_clip": 1.04792881,
      "balance_loss_mlp": 1.0192107,
      "epoch": 0.4631756147417784,
      "flos": 15960605909760.0,
      "grad_norm": 2.8533108333174972,
      "language_loss": 0.79943204,
      "learning_rate": 2.334162167891612e-06,
      "loss": 0.82115042,
      "num_input_tokens_seen": 82895275,
      "step": 3852,
      "time_per_iteration": 2.7620692253112793
    },
    {
      "auxiliary_loss_clip": 0.01171562,
      "auxiliary_loss_mlp": 0.01027891,
      "balance_loss_clip": 1.05017281,
      "balance_loss_mlp": 1.01915312,
      "epoch": 0.4632958576324175,
      "flos": 16472907636480.0,
      "grad_norm": 3.36148077758051,
      "language_loss": 0.74650168,
      "learning_rate": 2.333394120798795e-06,
      "loss": 0.76849616,
      "num_input_tokens_seen": 82914010,
      "step": 3853,
      "time_per_iteration": 3.5910489559173584
    },
    {
      "auxiliary_loss_clip": 0.01169144,
      "auxiliary_loss_mlp": 0.01030464,
      "balance_loss_clip": 1.04949605,
      "balance_loss_mlp": 1.02178574,
      "epoch": 0.4634161005230566,
      "flos": 22346492520960.0,
      "grad_norm": 1.9898556088164634,
      "language_loss": 0.72384435,
      "learning_rate": 2.3326260231303545e-06,
      "loss": 0.74584043,
      "num_input_tokens_seen": 82932610,
      "step": 3854,
      "time_per_iteration": 2.7207894325256348
    },
    {
      "auxiliary_loss_clip": 0.01189025,
      "auxiliary_loss_mlp": 0.01025436,
      "balance_loss_clip": 1.05602956,
      "balance_loss_mlp": 1.01770568,
      "epoch": 0.46353634341369565,
      "flos": 15742233175680.0,
      "grad_norm": 1.595964188157978,
      "language_loss": 0.86600959,
      "learning_rate": 2.331857875002811e-06,
      "loss": 0.88815421,
      "num_input_tokens_seen": 82951210,
      "step": 3855,
      "time_per_iteration": 2.6131439208984375
    },
    {
      "auxiliary_loss_clip": 0.01173178,
      "auxiliary_loss_mlp": 0.01027045,
      "balance_loss_clip": 1.05719435,
      "balance_loss_mlp": 1.01859283,
      "epoch": 0.46365658630433476,
      "flos": 28329820433280.0,
      "grad_norm": 2.2062073461319023,
      "language_loss": 0.76322651,
      "learning_rate": 2.3310896765326916e-06,
      "loss": 0.78522873,
      "num_input_tokens_seen": 82972210,
      "step": 3856,
      "time_per_iteration": 2.7466156482696533
    },
    {
      "auxiliary_loss_clip": 0.01153474,
      "auxiliary_loss_mlp": 0.010323,
      "balance_loss_clip": 1.04908514,
      "balance_loss_mlp": 1.02352083,
      "epoch": 0.46377682919497387,
      "flos": 24608074590720.0,
      "grad_norm": 1.554874866250534,
      "language_loss": 0.84221363,
      "learning_rate": 2.330321427836531e-06,
      "loss": 0.86407137,
      "num_input_tokens_seen": 82994080,
      "step": 3857,
      "time_per_iteration": 2.762772798538208
    },
    {
      "auxiliary_loss_clip": 0.01173805,
      "auxiliary_loss_mlp": 0.01034977,
      "balance_loss_clip": 1.05097461,
      "balance_loss_mlp": 1.02598286,
      "epoch": 0.4638970720856129,
      "flos": 19060953442560.0,
      "grad_norm": 1.698166363571378,
      "language_loss": 0.82582814,
      "learning_rate": 2.3295531290308733e-06,
      "loss": 0.84791601,
      "num_input_tokens_seen": 83012230,
      "step": 3858,
      "time_per_iteration": 3.6106576919555664
    },
    {
      "auxiliary_loss_clip": 0.01193107,
      "auxiliary_loss_mlp": 0.00888785,
      "balance_loss_clip": 1.05686951,
      "balance_loss_mlp": 1.00058866,
      "epoch": 0.46401731497625204,
      "flos": 18471012468480.0,
      "grad_norm": 3.0849694159224033,
      "language_loss": 0.75368297,
      "learning_rate": 2.3287847802322678e-06,
      "loss": 0.77450192,
      "num_input_tokens_seen": 83027800,
      "step": 3859,
      "time_per_iteration": 3.4815244674682617
    },
    {
      "auxiliary_loss_clip": 0.01175797,
      "auxiliary_loss_mlp": 0.01034555,
      "balance_loss_clip": 1.05325913,
      "balance_loss_mlp": 1.02476156,
      "epoch": 0.4641375578668911,
      "flos": 26067053214720.0,
      "grad_norm": 2.035207235008698,
      "language_loss": 0.83897483,
      "learning_rate": 2.3280163815572723e-06,
      "loss": 0.86107838,
      "num_input_tokens_seen": 83048395,
      "step": 3860,
      "time_per_iteration": 2.758103370666504
    },
    {
      "auxiliary_loss_clip": 0.01165248,
      "auxiliary_loss_mlp": 0.01035955,
      "balance_loss_clip": 1.05272579,
      "balance_loss_mlp": 1.02738976,
      "epoch": 0.4642578007575302,
      "flos": 19570382081280.0,
      "grad_norm": 1.9233784147894275,
      "language_loss": 0.77163124,
      "learning_rate": 2.3272479331224522e-06,
      "loss": 0.7936433,
      "num_input_tokens_seen": 83065825,
      "step": 3861,
      "time_per_iteration": 2.697309970855713
    },
    {
      "auxiliary_loss_clip": 0.0119076,
      "auxiliary_loss_mlp": 0.01028736,
      "balance_loss_clip": 1.05404162,
      "balance_loss_mlp": 1.01992607,
      "epoch": 0.4643780436481693,
      "flos": 28186249772160.0,
      "grad_norm": 1.621056480878328,
      "language_loss": 0.777843,
      "learning_rate": 2.3264794350443817e-06,
      "loss": 0.80003798,
      "num_input_tokens_seen": 83087920,
      "step": 3862,
      "time_per_iteration": 2.7353224754333496
    },
    {
      "auxiliary_loss_clip": 0.01182089,
      "auxiliary_loss_mlp": 0.01032904,
      "balance_loss_clip": 1.05189753,
      "balance_loss_mlp": 1.02400541,
      "epoch": 0.46449828653880837,
      "flos": 25375270204800.0,
      "grad_norm": 2.3170747580321156,
      "language_loss": 0.78505242,
      "learning_rate": 2.3257108874396396e-06,
      "loss": 0.80720234,
      "num_input_tokens_seen": 83109015,
      "step": 3863,
      "time_per_iteration": 3.6745541095733643
    },
    {
      "auxiliary_loss_clip": 0.01170091,
      "auxiliary_loss_mlp": 0.01029504,
      "balance_loss_clip": 1.05053902,
      "balance_loss_mlp": 1.02127278,
      "epoch": 0.4646185294294475,
      "flos": 16034330574720.0,
      "grad_norm": 2.9126283231965777,
      "language_loss": 0.74005878,
      "learning_rate": 2.3249422904248152e-06,
      "loss": 0.76205468,
      "num_input_tokens_seen": 83127450,
      "step": 3864,
      "time_per_iteration": 2.711449146270752
    },
    {
      "auxiliary_loss_clip": 0.01182152,
      "auxiliary_loss_mlp": 0.0102705,
      "balance_loss_clip": 1.05195022,
      "balance_loss_mlp": 1.01864004,
      "epoch": 0.4647387723200866,
      "flos": 26363101109760.0,
      "grad_norm": 2.010140892154145,
      "language_loss": 0.87264478,
      "learning_rate": 2.324173644116504e-06,
      "loss": 0.89473683,
      "num_input_tokens_seen": 83150300,
      "step": 3865,
      "time_per_iteration": 2.7909929752349854
    },
    {
      "auxiliary_loss_clip": 0.01177863,
      "auxiliary_loss_mlp": 0.01033987,
      "balance_loss_clip": 1.05596113,
      "balance_loss_mlp": 1.02493882,
      "epoch": 0.46485901521072565,
      "flos": 27160209774720.0,
      "grad_norm": 1.73181083481721,
      "language_loss": 0.81438112,
      "learning_rate": 2.3234049486313087e-06,
      "loss": 0.83649957,
      "num_input_tokens_seen": 83171750,
      "step": 3866,
      "time_per_iteration": 2.9178197383880615
    },
    {
      "auxiliary_loss_clip": 0.01179937,
      "auxiliary_loss_mlp": 0.0102927,
      "balance_loss_clip": 1.05459857,
      "balance_loss_mlp": 1.02136898,
      "epoch": 0.46497925810136476,
      "flos": 24279851088000.0,
      "grad_norm": 2.234342028639183,
      "language_loss": 0.76006913,
      "learning_rate": 2.322636204085839e-06,
      "loss": 0.78216124,
      "num_input_tokens_seen": 83191820,
      "step": 3867,
      "time_per_iteration": 2.885542154312134
    },
    {
      "auxiliary_loss_clip": 0.01161145,
      "auxiliary_loss_mlp": 0.01038584,
      "balance_loss_clip": 1.04813838,
      "balance_loss_mlp": 1.02963161,
      "epoch": 0.46509950099200387,
      "flos": 16253134272000.0,
      "grad_norm": 9.188613086350161,
      "language_loss": 0.78992903,
      "learning_rate": 2.3218674105967143e-06,
      "loss": 0.81192636,
      "num_input_tokens_seen": 83210085,
      "step": 3868,
      "time_per_iteration": 2.641245126724243
    },
    {
      "auxiliary_loss_clip": 0.01164448,
      "auxiliary_loss_mlp": 0.01031905,
      "balance_loss_clip": 1.05199885,
      "balance_loss_mlp": 1.02324486,
      "epoch": 0.4652197438826429,
      "flos": 23442270773760.0,
      "grad_norm": 1.62460242073101,
      "language_loss": 0.83690864,
      "learning_rate": 2.3210985682805593e-06,
      "loss": 0.85887218,
      "num_input_tokens_seen": 83231865,
      "step": 3869,
      "time_per_iteration": 2.753453493118286
    },
    {
      "auxiliary_loss_clip": 0.01192689,
      "auxiliary_loss_mlp": 0.01038444,
      "balance_loss_clip": 1.05816364,
      "balance_loss_mlp": 1.02851367,
      "epoch": 0.46533998677328203,
      "flos": 16216397637120.0,
      "grad_norm": 2.2777345161847253,
      "language_loss": 0.67763412,
      "learning_rate": 2.320329677254007e-06,
      "loss": 0.69994545,
      "num_input_tokens_seen": 83249195,
      "step": 3870,
      "time_per_iteration": 2.595221519470215
    },
    {
      "auxiliary_loss_clip": 0.01188123,
      "auxiliary_loss_mlp": 0.01028076,
      "balance_loss_clip": 1.05500102,
      "balance_loss_mlp": 1.01951671,
      "epoch": 0.46546022966392114,
      "flos": 21141869080320.0,
      "grad_norm": 2.58832989684901,
      "language_loss": 0.7259841,
      "learning_rate": 2.319560737633697e-06,
      "loss": 0.74814612,
      "num_input_tokens_seen": 83267915,
      "step": 3871,
      "time_per_iteration": 2.6700191497802734
    },
    {
      "auxiliary_loss_clip": 0.01164904,
      "auxiliary_loss_mlp": 0.01028045,
      "balance_loss_clip": 1.04845715,
      "balance_loss_mlp": 1.01873517,
      "epoch": 0.4655804725545602,
      "flos": 41171942442240.0,
      "grad_norm": 1.9046164311514184,
      "language_loss": 0.67902452,
      "learning_rate": 2.3187917495362775e-06,
      "loss": 0.70095402,
      "num_input_tokens_seen": 83292325,
      "step": 3872,
      "time_per_iteration": 2.9986612796783447
    },
    {
      "auxiliary_loss_clip": 0.01149463,
      "auxiliary_loss_mlp": 0.010354,
      "balance_loss_clip": 1.04984868,
      "balance_loss_mlp": 1.02622104,
      "epoch": 0.4657007154451993,
      "flos": 19570956698880.0,
      "grad_norm": 2.4132082030935575,
      "language_loss": 0.76671422,
      "learning_rate": 2.318022713078403e-06,
      "loss": 0.78856283,
      "num_input_tokens_seen": 83306905,
      "step": 3873,
      "time_per_iteration": 2.7697603702545166
    },
    {
      "auxiliary_loss_clip": 0.01169443,
      "auxiliary_loss_mlp": 0.01027962,
      "balance_loss_clip": 1.05179453,
      "balance_loss_mlp": 1.01964164,
      "epoch": 0.4658209583358384,
      "flos": 15517826956800.0,
      "grad_norm": 2.0928276017821137,
      "language_loss": 0.85283697,
      "learning_rate": 2.3172536283767354e-06,
      "loss": 0.87481105,
      "num_input_tokens_seen": 83320665,
      "step": 3874,
      "time_per_iteration": 2.6567351818084717
    },
    {
      "auxiliary_loss_clip": 0.01157487,
      "auxiliary_loss_mlp": 0.01033509,
      "balance_loss_clip": 1.05227065,
      "balance_loss_mlp": 1.02447319,
      "epoch": 0.4659412012264775,
      "flos": 14903180403840.0,
      "grad_norm": 2.192581468146669,
      "language_loss": 0.81006336,
      "learning_rate": 2.3164844955479447e-06,
      "loss": 0.83197331,
      "num_input_tokens_seen": 83336475,
      "step": 3875,
      "time_per_iteration": 2.6628706455230713
    },
    {
      "auxiliary_loss_clip": 0.01158874,
      "auxiliary_loss_mlp": 0.01034223,
      "balance_loss_clip": 1.04948115,
      "balance_loss_mlp": 1.02578902,
      "epoch": 0.4660614441171166,
      "flos": 24425612478720.0,
      "grad_norm": 2.6533032130462177,
      "language_loss": 0.70706701,
      "learning_rate": 2.3157153147087082e-06,
      "loss": 0.72899806,
      "num_input_tokens_seen": 83358365,
      "step": 3876,
      "time_per_iteration": 2.881603956222534
    },
    {
      "auxiliary_loss_clip": 0.01154707,
      "auxiliary_loss_mlp": 0.01027553,
      "balance_loss_clip": 1.04907393,
      "balance_loss_mlp": 1.01931834,
      "epoch": 0.46618168700775564,
      "flos": 22091095843200.0,
      "grad_norm": 2.049075879730674,
      "language_loss": 0.83221018,
      "learning_rate": 2.314946085975709e-06,
      "loss": 0.85403281,
      "num_input_tokens_seen": 83377345,
      "step": 3877,
      "time_per_iteration": 2.7585246562957764
    },
    {
      "auxiliary_loss_clip": 0.01147621,
      "auxiliary_loss_mlp": 0.01030262,
      "balance_loss_clip": 1.05119491,
      "balance_loss_mlp": 1.02231717,
      "epoch": 0.46630192989839475,
      "flos": 26176975810560.0,
      "grad_norm": 1.887406052327121,
      "language_loss": 0.82737881,
      "learning_rate": 2.3141768094656393e-06,
      "loss": 0.84915757,
      "num_input_tokens_seen": 83395920,
      "step": 3878,
      "time_per_iteration": 3.7321202754974365
    },
    {
      "auxiliary_loss_clip": 0.01136848,
      "auxiliary_loss_mlp": 0.0102756,
      "balance_loss_clip": 1.04368913,
      "balance_loss_mlp": 1.01972234,
      "epoch": 0.46642217278903386,
      "flos": 11509622150400.0,
      "grad_norm": 2.6821673402220823,
      "language_loss": 0.83620834,
      "learning_rate": 2.3134074852951966e-06,
      "loss": 0.8578524,
      "num_input_tokens_seen": 83412510,
      "step": 3879,
      "time_per_iteration": 2.878340482711792
    },
    {
      "auxiliary_loss_clip": 0.01142229,
      "auxiliary_loss_mlp": 0.01029122,
      "balance_loss_clip": 1.04491305,
      "balance_loss_mlp": 1.02102709,
      "epoch": 0.4665424156796729,
      "flos": 32306819299200.0,
      "grad_norm": 1.8223358107783376,
      "language_loss": 0.77930349,
      "learning_rate": 2.312638113581088e-06,
      "loss": 0.80101699,
      "num_input_tokens_seen": 83432995,
      "step": 3880,
      "time_per_iteration": 3.0524418354034424
    },
    {
      "auxiliary_loss_clip": 0.01175642,
      "auxiliary_loss_mlp": 0.01026439,
      "balance_loss_clip": 1.04920447,
      "balance_loss_mlp": 1.01838017,
      "epoch": 0.46666265857031203,
      "flos": 18436179254400.0,
      "grad_norm": 24.75026321413494,
      "language_loss": 0.78318524,
      "learning_rate": 2.311868694440027e-06,
      "loss": 0.805206,
      "num_input_tokens_seen": 83447415,
      "step": 3881,
      "time_per_iteration": 2.655991315841675
    },
    {
      "auxiliary_loss_clip": 0.01081711,
      "auxiliary_loss_mlp": 0.01002763,
      "balance_loss_clip": 1.01879549,
      "balance_loss_mlp": 1.00165987,
      "epoch": 0.46678290146095114,
      "flos": 68438989221120.0,
      "grad_norm": 0.7379311941455629,
      "language_loss": 0.62509114,
      "learning_rate": 2.3110992279887323e-06,
      "loss": 0.64593589,
      "num_input_tokens_seen": 83519340,
      "step": 3882,
      "time_per_iteration": 3.325373649597168
    },
    {
      "auxiliary_loss_clip": 0.01161504,
      "auxiliary_loss_mlp": 0.01032629,
      "balance_loss_clip": 1.05072355,
      "balance_loss_mlp": 1.02426004,
      "epoch": 0.4669031443515902,
      "flos": 17712507945600.0,
      "grad_norm": 2.3824541673490462,
      "language_loss": 0.85145557,
      "learning_rate": 2.310329714343932e-06,
      "loss": 0.87339699,
      "num_input_tokens_seen": 83535490,
      "step": 3883,
      "time_per_iteration": 3.690106153488159
    },
    {
      "auxiliary_loss_clip": 0.01164787,
      "auxiliary_loss_mlp": 0.01036587,
      "balance_loss_clip": 1.05124378,
      "balance_loss_mlp": 1.02808738,
      "epoch": 0.4670233872422293,
      "flos": 23947748916480.0,
      "grad_norm": 1.977279869659484,
      "language_loss": 0.81820542,
      "learning_rate": 2.309560153622361e-06,
      "loss": 0.84021914,
      "num_input_tokens_seen": 83552400,
      "step": 3884,
      "time_per_iteration": 2.6820437908172607
    },
    {
      "auxiliary_loss_clip": 0.01158849,
      "auxiliary_loss_mlp": 0.01029277,
      "balance_loss_clip": 1.05355096,
      "balance_loss_mlp": 1.02052701,
      "epoch": 0.4671436301328684,
      "flos": 28111268131200.0,
      "grad_norm": 2.1368888410723086,
      "language_loss": 0.74150765,
      "learning_rate": 2.3087905459407602e-06,
      "loss": 0.76338887,
      "num_input_tokens_seen": 83571340,
      "step": 3885,
      "time_per_iteration": 3.82318115234375
    },
    {
      "auxiliary_loss_clip": 0.0107693,
      "auxiliary_loss_mlp": 0.01000676,
      "balance_loss_clip": 1.01831198,
      "balance_loss_mlp": 0.99960309,
      "epoch": 0.46726387302350747,
      "flos": 69369684566400.0,
      "grad_norm": 0.7895438212367463,
      "language_loss": 0.62912536,
      "learning_rate": 2.3080208914158795e-06,
      "loss": 0.64990139,
      "num_input_tokens_seen": 83634340,
      "step": 3886,
      "time_per_iteration": 3.348735809326172
    },
    {
      "auxiliary_loss_clip": 0.01171109,
      "auxiliary_loss_mlp": 0.01033,
      "balance_loss_clip": 1.05667293,
      "balance_loss_mlp": 1.02399421,
      "epoch": 0.4673841159141466,
      "flos": 25519666878720.0,
      "grad_norm": 2.575065742038477,
      "language_loss": 0.72390962,
      "learning_rate": 2.3072511901644753e-06,
      "loss": 0.7459507,
      "num_input_tokens_seen": 83653410,
      "step": 3887,
      "time_per_iteration": 2.7389652729034424
    },
    {
      "auxiliary_loss_clip": 0.01190533,
      "auxiliary_loss_mlp": 0.01032542,
      "balance_loss_clip": 1.05857134,
      "balance_loss_mlp": 1.02474594,
      "epoch": 0.4675043588047857,
      "flos": 24499265316480.0,
      "grad_norm": 2.095108572150877,
      "language_loss": 0.80377829,
      "learning_rate": 2.306481442303309e-06,
      "loss": 0.82600904,
      "num_input_tokens_seen": 83672985,
      "step": 3888,
      "time_per_iteration": 2.641935348510742
    },
    {
      "auxiliary_loss_clip": 0.01183298,
      "auxiliary_loss_mlp": 0.0103289,
      "balance_loss_clip": 1.05570459,
      "balance_loss_mlp": 1.02448606,
      "epoch": 0.46762460169542475,
      "flos": 20960771685120.0,
      "grad_norm": 1.7971126486953726,
      "language_loss": 0.73319185,
      "learning_rate": 2.3057116479491515e-06,
      "loss": 0.75535369,
      "num_input_tokens_seen": 83692395,
      "step": 3889,
      "time_per_iteration": 3.6083950996398926
    },
    {
      "auxiliary_loss_clip": 0.01174442,
      "auxiliary_loss_mlp": 0.01027889,
      "balance_loss_clip": 1.05075097,
      "balance_loss_mlp": 1.01920497,
      "epoch": 0.46774484458606386,
      "flos": 19171666137600.0,
      "grad_norm": 1.81263943686531,
      "language_loss": 0.76073778,
      "learning_rate": 2.30494180721878e-06,
      "loss": 0.78276104,
      "num_input_tokens_seen": 83709735,
      "step": 3890,
      "time_per_iteration": 2.6412482261657715
    },
    {
      "auxiliary_loss_clip": 0.01177182,
      "auxiliary_loss_mlp": 0.01029531,
      "balance_loss_clip": 1.05250072,
      "balance_loss_mlp": 1.02150261,
      "epoch": 0.4678650874767029,
      "flos": 17967689141760.0,
      "grad_norm": 1.9832711302967463,
      "language_loss": 0.90030569,
      "learning_rate": 2.3041719202289794e-06,
      "loss": 0.92237288,
      "num_input_tokens_seen": 83725910,
      "step": 3891,
      "time_per_iteration": 2.6488521099090576
    },
    {
      "auxiliary_loss_clip": 0.01177546,
      "auxiliary_loss_mlp": 0.01027381,
      "balance_loss_clip": 1.05266416,
      "balance_loss_mlp": 1.01968026,
      "epoch": 0.467985330367342,
      "flos": 21360816432000.0,
      "grad_norm": 1.7958005152651089,
      "language_loss": 0.80569029,
      "learning_rate": 2.30340198709654e-06,
      "loss": 0.82773954,
      "num_input_tokens_seen": 83745745,
      "step": 3892,
      "time_per_iteration": 2.6967222690582275
    },
    {
      "auxiliary_loss_clip": 0.01172725,
      "auxiliary_loss_mlp": 0.01033824,
      "balance_loss_clip": 1.04973423,
      "balance_loss_mlp": 1.02506828,
      "epoch": 0.46810557325798113,
      "flos": 20521835487360.0,
      "grad_norm": 1.9303562916764878,
      "language_loss": 0.74085486,
      "learning_rate": 2.3026320079382605e-06,
      "loss": 0.76292032,
      "num_input_tokens_seen": 83762680,
      "step": 3893,
      "time_per_iteration": 2.6964242458343506
    },
    {
      "auxiliary_loss_clip": 0.01187272,
      "auxiliary_loss_mlp": 0.01025791,
      "balance_loss_clip": 1.05581319,
      "balance_loss_mlp": 1.01761949,
      "epoch": 0.4682258161486202,
      "flos": 30117848572800.0,
      "grad_norm": 2.5584924587184226,
      "language_loss": 0.76256061,
      "learning_rate": 2.3018619828709454e-06,
      "loss": 0.78469121,
      "num_input_tokens_seen": 83784220,
      "step": 3894,
      "time_per_iteration": 2.6487820148468018
    },
    {
      "auxiliary_loss_clip": 0.01176671,
      "auxiliary_loss_mlp": 0.00887467,
      "balance_loss_clip": 1.05571747,
      "balance_loss_mlp": 1.00050235,
      "epoch": 0.4683460590392593,
      "flos": 25293357239040.0,
      "grad_norm": 1.9008144991455307,
      "language_loss": 0.82202876,
      "learning_rate": 2.3010919120114084e-06,
      "loss": 0.84267008,
      "num_input_tokens_seen": 83800750,
      "step": 3895,
      "time_per_iteration": 2.679227113723755
    },
    {
      "auxiliary_loss_clip": 0.01173306,
      "auxiliary_loss_mlp": 0.01025167,
      "balance_loss_clip": 1.04867613,
      "balance_loss_mlp": 1.01630938,
      "epoch": 0.4684663019298984,
      "flos": 15368330551680.0,
      "grad_norm": 2.6620946627588045,
      "language_loss": 0.66110307,
      "learning_rate": 2.3003217954764672e-06,
      "loss": 0.68308777,
      "num_input_tokens_seen": 83815455,
      "step": 3896,
      "time_per_iteration": 2.595885753631592
    },
    {
      "auxiliary_loss_clip": 0.0117883,
      "auxiliary_loss_mlp": 0.01024908,
      "balance_loss_clip": 1.04935896,
      "balance_loss_mlp": 1.0166769,
      "epoch": 0.46858654482053747,
      "flos": 27778842737280.0,
      "grad_norm": 2.343075382707235,
      "language_loss": 0.79710627,
      "learning_rate": 2.299551633382949e-06,
      "loss": 0.81914365,
      "num_input_tokens_seen": 83835765,
      "step": 3897,
      "time_per_iteration": 2.6955506801605225
    },
    {
      "auxiliary_loss_clip": 0.01159888,
      "auxiliary_loss_mlp": 0.01030332,
      "balance_loss_clip": 1.04932213,
      "balance_loss_mlp": 1.02189183,
      "epoch": 0.4687067877111766,
      "flos": 18040623707520.0,
      "grad_norm": 1.9628843485229688,
      "language_loss": 0.85642695,
      "learning_rate": 2.2987814258476854e-06,
      "loss": 0.87832916,
      "num_input_tokens_seen": 83853565,
      "step": 3898,
      "time_per_iteration": 2.6428890228271484
    },
    {
      "auxiliary_loss_clip": 0.01148807,
      "auxiliary_loss_mlp": 0.01034127,
      "balance_loss_clip": 1.04487073,
      "balance_loss_mlp": 1.0257169,
      "epoch": 0.4688270306018157,
      "flos": 16977380198400.0,
      "grad_norm": 2.4248304176987374,
      "language_loss": 0.68247938,
      "learning_rate": 2.2980111729875177e-06,
      "loss": 0.70430875,
      "num_input_tokens_seen": 83869815,
      "step": 3899,
      "time_per_iteration": 2.728172779083252
    },
    {
      "auxiliary_loss_clip": 0.01163074,
      "auxiliary_loss_mlp": 0.01024437,
      "balance_loss_clip": 1.05247879,
      "balance_loss_mlp": 1.01639676,
      "epoch": 0.46894727349245474,
      "flos": 17821640442240.0,
      "grad_norm": 1.7091106453703646,
      "language_loss": 0.8203932,
      "learning_rate": 2.2972408749192917e-06,
      "loss": 0.84226823,
      "num_input_tokens_seen": 83887545,
      "step": 3900,
      "time_per_iteration": 2.7081212997436523
    },
    {
      "auxiliary_loss_clip": 0.01174208,
      "auxiliary_loss_mlp": 0.00887297,
      "balance_loss_clip": 1.05283713,
      "balance_loss_mlp": 1.00043678,
      "epoch": 0.46906751638309385,
      "flos": 21471349559040.0,
      "grad_norm": 1.9351417727779403,
      "language_loss": 0.67511106,
      "learning_rate": 2.296470531759861e-06,
      "loss": 0.69572616,
      "num_input_tokens_seen": 83905645,
      "step": 3901,
      "time_per_iteration": 2.6643004417419434
    },
    {
      "auxiliary_loss_clip": 0.01150791,
      "auxiliary_loss_mlp": 0.0103176,
      "balance_loss_clip": 1.04668427,
      "balance_loss_mlp": 1.02304018,
      "epoch": 0.46918775927373296,
      "flos": 20337829090560.0,
      "grad_norm": 1.9280292320540762,
      "language_loss": 0.7913605,
      "learning_rate": 2.2957001436260866e-06,
      "loss": 0.81318593,
      "num_input_tokens_seen": 83922705,
      "step": 3902,
      "time_per_iteration": 2.748488664627075
    },
    {
      "auxiliary_loss_clip": 0.01162119,
      "auxiliary_loss_mlp": 0.01028429,
      "balance_loss_clip": 1.04921818,
      "balance_loss_mlp": 1.02029848,
      "epoch": 0.469308002164372,
      "flos": 18403249461120.0,
      "grad_norm": 1.6381313588542785,
      "language_loss": 0.73177367,
      "learning_rate": 2.294929710634836e-06,
      "loss": 0.75367916,
      "num_input_tokens_seen": 83940795,
      "step": 3903,
      "time_per_iteration": 2.6309642791748047
    },
    {
      "auxiliary_loss_clip": 0.01175659,
      "auxiliary_loss_mlp": 0.01026212,
      "balance_loss_clip": 1.05046511,
      "balance_loss_mlp": 1.01837969,
      "epoch": 0.46942824505501113,
      "flos": 37962067363200.0,
      "grad_norm": 2.152038902219521,
      "language_loss": 0.61120689,
      "learning_rate": 2.2941592329029823e-06,
      "loss": 0.63322556,
      "num_input_tokens_seen": 83961900,
      "step": 3904,
      "time_per_iteration": 3.748839855194092
    },
    {
      "auxiliary_loss_clip": 0.01174076,
      "auxiliary_loss_mlp": 0.01027197,
      "balance_loss_clip": 1.0514698,
      "balance_loss_mlp": 1.01846504,
      "epoch": 0.46954848794565024,
      "flos": 21872507627520.0,
      "grad_norm": 1.8506957842506264,
      "language_loss": 0.7944153,
      "learning_rate": 2.2933887105474067e-06,
      "loss": 0.81642807,
      "num_input_tokens_seen": 83980075,
      "step": 3905,
      "time_per_iteration": 2.6935393810272217
    },
    {
      "auxiliary_loss_clip": 0.01174775,
      "auxiliary_loss_mlp": 0.01026625,
      "balance_loss_clip": 1.05446041,
      "balance_loss_mlp": 1.01914501,
      "epoch": 0.4696687308362893,
      "flos": 22016545165440.0,
      "grad_norm": 1.5969646966703934,
      "language_loss": 0.81313533,
      "learning_rate": 2.2926181436849974e-06,
      "loss": 0.83514929,
      "num_input_tokens_seen": 83999430,
      "step": 3906,
      "time_per_iteration": 2.661729335784912
    },
    {
      "auxiliary_loss_clip": 0.01177403,
      "auxiliary_loss_mlp": 0.01030946,
      "balance_loss_clip": 1.0545851,
      "balance_loss_mlp": 1.02288127,
      "epoch": 0.4697889737269284,
      "flos": 21613663244160.0,
      "grad_norm": 1.573602630916234,
      "language_loss": 0.72579634,
      "learning_rate": 2.2918475324326478e-06,
      "loss": 0.7478798,
      "num_input_tokens_seen": 84019150,
      "step": 3907,
      "time_per_iteration": 2.6790573596954346
    },
    {
      "auxiliary_loss_clip": 0.01181519,
      "auxiliary_loss_mlp": 0.00888152,
      "balance_loss_clip": 1.05473852,
      "balance_loss_mlp": 1.00059938,
      "epoch": 0.46990921661756746,
      "flos": 25228323665280.0,
      "grad_norm": 2.118000666225178,
      "language_loss": 0.90971434,
      "learning_rate": 2.2910768769072603e-06,
      "loss": 0.93041098,
      "num_input_tokens_seen": 84037930,
      "step": 3908,
      "time_per_iteration": 2.607365369796753
    },
    {
      "auxiliary_loss_clip": 0.01170395,
      "auxiliary_loss_mlp": 0.0102869,
      "balance_loss_clip": 1.05149388,
      "balance_loss_mlp": 1.02055407,
      "epoch": 0.47002945950820657,
      "flos": 13844031045120.0,
      "grad_norm": 2.0033722670805485,
      "language_loss": 0.76081592,
      "learning_rate": 2.2903061772257417e-06,
      "loss": 0.78280675,
      "num_input_tokens_seen": 84055915,
      "step": 3909,
      "time_per_iteration": 3.4007816314697266
    },
    {
      "auxiliary_loss_clip": 0.01178541,
      "auxiliary_loss_mlp": 0.01031414,
      "balance_loss_clip": 1.0553391,
      "balance_loss_mlp": 1.02342725,
      "epoch": 0.4701497023988457,
      "flos": 26247001374720.0,
      "grad_norm": 1.528252603215092,
      "language_loss": 0.78543055,
      "learning_rate": 2.289535433505007e-06,
      "loss": 0.80753011,
      "num_input_tokens_seen": 84077270,
      "step": 3910,
      "time_per_iteration": 2.5624117851257324
    },
    {
      "auxiliary_loss_clip": 0.01169263,
      "auxiliary_loss_mlp": 0.01030646,
      "balance_loss_clip": 1.05055594,
      "balance_loss_mlp": 1.02218771,
      "epoch": 0.47026994528948474,
      "flos": 25629517647360.0,
      "grad_norm": 1.9422732863424006,
      "language_loss": 0.63858759,
      "learning_rate": 2.2887646458619767e-06,
      "loss": 0.66058666,
      "num_input_tokens_seen": 84098635,
      "step": 3911,
      "time_per_iteration": 3.4200642108917236
    },
    {
      "auxiliary_loss_clip": 0.01163292,
      "auxiliary_loss_mlp": 0.01033739,
      "balance_loss_clip": 1.04944706,
      "balance_loss_mlp": 1.02461338,
      "epoch": 0.47039018818012385,
      "flos": 20554406144640.0,
      "grad_norm": 1.8473027287398875,
      "language_loss": 0.76373625,
      "learning_rate": 2.2879938144135797e-06,
      "loss": 0.78570652,
      "num_input_tokens_seen": 84114740,
      "step": 3912,
      "time_per_iteration": 2.804971218109131
    },
    {
      "auxiliary_loss_clip": 0.01155386,
      "auxiliary_loss_mlp": 0.0088722,
      "balance_loss_clip": 1.04802585,
      "balance_loss_mlp": 1.00048852,
      "epoch": 0.47051043107076296,
      "flos": 21577249831680.0,
      "grad_norm": 1.751547144629605,
      "language_loss": 0.75277144,
      "learning_rate": 2.2872229392767496e-06,
      "loss": 0.77319753,
      "num_input_tokens_seen": 84134845,
      "step": 3913,
      "time_per_iteration": 2.7188007831573486
    },
    {
      "auxiliary_loss_clip": 0.01183385,
      "auxiliary_loss_mlp": 0.01028495,
      "balance_loss_clip": 1.05494499,
      "balance_loss_mlp": 1.02044225,
      "epoch": 0.470630673961402,
      "flos": 18953185662720.0,
      "grad_norm": 1.4621868848435973,
      "language_loss": 0.7509594,
      "learning_rate": 2.286452020568428e-06,
      "loss": 0.7730782,
      "num_input_tokens_seen": 84152920,
      "step": 3914,
      "time_per_iteration": 2.6605231761932373
    },
    {
      "auxiliary_loss_clip": 0.01189872,
      "auxiliary_loss_mlp": 0.01037127,
      "balance_loss_clip": 1.05442262,
      "balance_loss_mlp": 1.02792358,
      "epoch": 0.4707509168520411,
      "flos": 19938969492480.0,
      "grad_norm": 1.950498257848813,
      "language_loss": 0.72798049,
      "learning_rate": 2.2856810584055637e-06,
      "loss": 0.75025052,
      "num_input_tokens_seen": 84170455,
      "step": 3915,
      "time_per_iteration": 3.5193331241607666
    },
    {
      "auxiliary_loss_clip": 0.01176776,
      "auxiliary_loss_mlp": 0.01031945,
      "balance_loss_clip": 1.05246806,
      "balance_loss_mlp": 1.02331424,
      "epoch": 0.47087115974268023,
      "flos": 40118754741120.0,
      "grad_norm": 1.5593758461372416,
      "language_loss": 0.67592657,
      "learning_rate": 2.2849100529051085e-06,
      "loss": 0.69801372,
      "num_input_tokens_seen": 84197390,
      "step": 3916,
      "time_per_iteration": 3.008451223373413
    },
    {
      "auxiliary_loss_clip": 0.01185468,
      "auxiliary_loss_mlp": 0.01032279,
      "balance_loss_clip": 1.05361199,
      "balance_loss_mlp": 1.02422071,
      "epoch": 0.4709914026333193,
      "flos": 13552723745280.0,
      "grad_norm": 2.2516133316562095,
      "language_loss": 0.8015399,
      "learning_rate": 2.284139004184026e-06,
      "loss": 0.82371742,
      "num_input_tokens_seen": 84214620,
      "step": 3917,
      "time_per_iteration": 2.6018683910369873
    },
    {
      "auxiliary_loss_clip": 0.01185607,
      "auxiliary_loss_mlp": 0.0103314,
      "balance_loss_clip": 1.05267572,
      "balance_loss_mlp": 1.02497375,
      "epoch": 0.4711116455239584,
      "flos": 19974628719360.0,
      "grad_norm": 1.917923662611785,
      "language_loss": 0.74714708,
      "learning_rate": 2.2833679123592814e-06,
      "loss": 0.76933461,
      "num_input_tokens_seen": 84231880,
      "step": 3918,
      "time_per_iteration": 2.5799078941345215
    },
    {
      "auxiliary_loss_clip": 0.01168868,
      "auxiliary_loss_mlp": 0.01024868,
      "balance_loss_clip": 1.05550754,
      "balance_loss_mlp": 1.01623082,
      "epoch": 0.4712318884145975,
      "flos": 32124824064000.0,
      "grad_norm": 1.6611988311645733,
      "language_loss": 0.63062584,
      "learning_rate": 2.2825967775478508e-06,
      "loss": 0.65256321,
      "num_input_tokens_seen": 84252980,
      "step": 3919,
      "time_per_iteration": 2.870974063873291
    },
    {
      "auxiliary_loss_clip": 0.01186869,
      "auxiliary_loss_mlp": 0.0103595,
      "balance_loss_clip": 1.05408871,
      "balance_loss_mlp": 1.02784395,
      "epoch": 0.47135213130523657,
      "flos": 20047850593920.0,
      "grad_norm": 2.0434109806480443,
      "language_loss": 0.83883816,
      "learning_rate": 2.2818255998667135e-06,
      "loss": 0.86106634,
      "num_input_tokens_seen": 84271490,
      "step": 3920,
      "time_per_iteration": 2.695345878601074
    },
    {
      "auxiliary_loss_clip": 0.01176412,
      "auxiliary_loss_mlp": 0.01026021,
      "balance_loss_clip": 1.05425525,
      "balance_loss_mlp": 1.01812387,
      "epoch": 0.4714723741958757,
      "flos": 19426990988160.0,
      "grad_norm": 1.803528209930476,
      "language_loss": 0.79192942,
      "learning_rate": 2.2810543794328566e-06,
      "loss": 0.81395376,
      "num_input_tokens_seen": 84290525,
      "step": 3921,
      "time_per_iteration": 2.669914484024048
    },
    {
      "auxiliary_loss_clip": 0.01181304,
      "auxiliary_loss_mlp": 0.01028694,
      "balance_loss_clip": 1.05384552,
      "balance_loss_mlp": 1.02022457,
      "epoch": 0.4715926170865148,
      "flos": 20373883367040.0,
      "grad_norm": 1.8999182331183095,
      "language_loss": 0.82626861,
      "learning_rate": 2.2802831163632735e-06,
      "loss": 0.84836864,
      "num_input_tokens_seen": 84309245,
      "step": 3922,
      "time_per_iteration": 2.6806726455688477
    },
    {
      "auxiliary_loss_clip": 0.01139384,
      "auxiliary_loss_mlp": 0.01031214,
      "balance_loss_clip": 1.04792333,
      "balance_loss_mlp": 1.02280092,
      "epoch": 0.47171285997715384,
      "flos": 22672884430080.0,
      "grad_norm": 1.6143229549271076,
      "language_loss": 0.74269354,
      "learning_rate": 2.279511810774965e-06,
      "loss": 0.76439953,
      "num_input_tokens_seen": 84330775,
      "step": 3923,
      "time_per_iteration": 2.8774874210357666
    },
    {
      "auxiliary_loss_clip": 0.01188046,
      "auxiliary_loss_mlp": 0.01028842,
      "balance_loss_clip": 1.05408788,
      "balance_loss_mlp": 1.0209744,
      "epoch": 0.47183310286779295,
      "flos": 21105419754240.0,
      "grad_norm": 2.0460001703563964,
      "language_loss": 0.71447235,
      "learning_rate": 2.2787404627849364e-06,
      "loss": 0.73664129,
      "num_input_tokens_seen": 84349985,
      "step": 3924,
      "time_per_iteration": 2.719334125518799
    },
    {
      "auxiliary_loss_clip": 0.01164552,
      "auxiliary_loss_mlp": 0.01033337,
      "balance_loss_clip": 1.04920244,
      "balance_loss_mlp": 1.02478385,
      "epoch": 0.471953345758432,
      "flos": 21726566668800.0,
      "grad_norm": 1.78329383390808,
      "language_loss": 0.78939688,
      "learning_rate": 2.277969072510202e-06,
      "loss": 0.81137574,
      "num_input_tokens_seen": 84368965,
      "step": 3925,
      "time_per_iteration": 2.652981996536255
    },
    {
      "auxiliary_loss_clip": 0.01166723,
      "auxiliary_loss_mlp": 0.01030687,
      "balance_loss_clip": 1.05254972,
      "balance_loss_mlp": 1.02245593,
      "epoch": 0.4720735886490711,
      "flos": 19861078849920.0,
      "grad_norm": 2.075319221204905,
      "language_loss": 0.81518739,
      "learning_rate": 2.2771976400677803e-06,
      "loss": 0.83716154,
      "num_input_tokens_seen": 84387795,
      "step": 3926,
      "time_per_iteration": 2.6767385005950928
    },
    {
      "auxiliary_loss_clip": 0.01135045,
      "auxiliary_loss_mlp": 0.01024406,
      "balance_loss_clip": 1.04576588,
      "balance_loss_mlp": 1.01636517,
      "epoch": 0.47219383153971023,
      "flos": 19171809792000.0,
      "grad_norm": 1.6514328690759672,
      "language_loss": 0.79101771,
      "learning_rate": 2.2764261655746965e-06,
      "loss": 0.81261218,
      "num_input_tokens_seen": 84405290,
      "step": 3927,
      "time_per_iteration": 2.7481491565704346
    },
    {
      "auxiliary_loss_clip": 0.01154691,
      "auxiliary_loss_mlp": 0.01028056,
      "balance_loss_clip": 1.04900706,
      "balance_loss_mlp": 1.0195806,
      "epoch": 0.4723140744303493,
      "flos": 23224005780480.0,
      "grad_norm": 1.594029114507721,
      "language_loss": 0.75761056,
      "learning_rate": 2.2756546491479832e-06,
      "loss": 0.77943802,
      "num_input_tokens_seen": 84426205,
      "step": 3928,
      "time_per_iteration": 2.7508022785186768
    },
    {
      "auxiliary_loss_clip": 0.01186615,
      "auxiliary_loss_mlp": 0.00887841,
      "balance_loss_clip": 1.05262077,
      "balance_loss_mlp": 1.00055313,
      "epoch": 0.4724343173209884,
      "flos": 18223265387520.0,
      "grad_norm": 2.349996865805357,
      "language_loss": 0.79874283,
      "learning_rate": 2.274883090904679e-06,
      "loss": 0.81948739,
      "num_input_tokens_seen": 84443970,
      "step": 3929,
      "time_per_iteration": 2.615853786468506
    },
    {
      "auxiliary_loss_clip": 0.01192175,
      "auxiliary_loss_mlp": 0.01032886,
      "balance_loss_clip": 1.05815303,
      "balance_loss_mlp": 1.02438045,
      "epoch": 0.4725545602116275,
      "flos": 21251037490560.0,
      "grad_norm": 2.397518176409314,
      "language_loss": 0.67391145,
      "learning_rate": 2.2741114909618283e-06,
      "loss": 0.6961621,
      "num_input_tokens_seen": 84459865,
      "step": 3930,
      "time_per_iteration": 2.616800546646118
    },
    {
      "auxiliary_loss_clip": 0.01158221,
      "auxiliary_loss_mlp": 0.01029869,
      "balance_loss_clip": 1.05027032,
      "balance_loss_mlp": 1.02103579,
      "epoch": 0.47267480310226656,
      "flos": 21434002392960.0,
      "grad_norm": 1.7774673392478113,
      "language_loss": 0.72158504,
      "learning_rate": 2.2733398494364828e-06,
      "loss": 0.74346596,
      "num_input_tokens_seen": 84479110,
      "step": 3931,
      "time_per_iteration": 3.6220862865448
    },
    {
      "auxiliary_loss_clip": 0.01161662,
      "auxiliary_loss_mlp": 0.01029676,
      "balance_loss_clip": 1.05308676,
      "balance_loss_mlp": 1.0211525,
      "epoch": 0.47279504599290567,
      "flos": 18770508069120.0,
      "grad_norm": 2.5767820769797605,
      "language_loss": 0.84386301,
      "learning_rate": 2.272568166445699e-06,
      "loss": 0.86577642,
      "num_input_tokens_seen": 84497675,
      "step": 3932,
      "time_per_iteration": 2.6622679233551025
    },
    {
      "auxiliary_loss_clip": 0.01178259,
      "auxiliary_loss_mlp": 0.0102683,
      "balance_loss_clip": 1.05247545,
      "balance_loss_mlp": 1.01882493,
      "epoch": 0.4729152888835448,
      "flos": 21105742976640.0,
      "grad_norm": 2.2680340446081897,
      "language_loss": 0.64472097,
      "learning_rate": 2.271796442106541e-06,
      "loss": 0.66677189,
      "num_input_tokens_seen": 84517030,
      "step": 3933,
      "time_per_iteration": 2.7912135124206543
    },
    {
      "auxiliary_loss_clip": 0.01057943,
      "auxiliary_loss_mlp": 0.01004467,
      "balance_loss_clip": 1.01673269,
      "balance_loss_mlp": 1.00327528,
      "epoch": 0.47303553177418384,
      "flos": 70201877840640.0,
      "grad_norm": 0.801647287622321,
      "language_loss": 0.56564242,
      "learning_rate": 2.271024676536079e-06,
      "loss": 0.58626652,
      "num_input_tokens_seen": 84577290,
      "step": 3934,
      "time_per_iteration": 3.249621868133545
    },
    {
      "auxiliary_loss_clip": 0.01174117,
      "auxiliary_loss_mlp": 0.01031874,
      "balance_loss_clip": 1.054739,
      "balance_loss_mlp": 1.02274263,
      "epoch": 0.47315577466482295,
      "flos": 22455122227200.0,
      "grad_norm": 2.0971770064391224,
      "language_loss": 0.73612559,
      "learning_rate": 2.2702528698513894e-06,
      "loss": 0.75818551,
      "num_input_tokens_seen": 84598415,
      "step": 3935,
      "time_per_iteration": 3.756711959838867
    },
    {
      "auxiliary_loss_clip": 0.0117023,
      "auxiliary_loss_mlp": 0.01028949,
      "balance_loss_clip": 1.05038762,
      "balance_loss_mlp": 1.02016377,
      "epoch": 0.47327601755546206,
      "flos": 24352857480960.0,
      "grad_norm": 1.9318240995599423,
      "language_loss": 0.78861892,
      "learning_rate": 2.269481022169554e-06,
      "loss": 0.81061077,
      "num_input_tokens_seen": 84617010,
      "step": 3936,
      "time_per_iteration": 2.735215187072754
    },
    {
      "auxiliary_loss_clip": 0.01174008,
      "auxiliary_loss_mlp": 0.01033055,
      "balance_loss_clip": 1.05023789,
      "balance_loss_mlp": 1.02419209,
      "epoch": 0.4733962604461011,
      "flos": 22926772736640.0,
      "grad_norm": 1.736007143955176,
      "language_loss": 0.80557936,
      "learning_rate": 2.2687091336076614e-06,
      "loss": 0.82765001,
      "num_input_tokens_seen": 84636350,
      "step": 3937,
      "time_per_iteration": 3.7075843811035156
    },
    {
      "auxiliary_loss_clip": 0.01176932,
      "auxiliary_loss_mlp": 0.01029429,
      "balance_loss_clip": 1.05492806,
      "balance_loss_mlp": 1.02068532,
      "epoch": 0.4735165033367402,
      "flos": 18327369980160.0,
      "grad_norm": 2.9042497261048568,
      "language_loss": 0.80124086,
      "learning_rate": 2.267937204282807e-06,
      "loss": 0.82330441,
      "num_input_tokens_seen": 84653490,
      "step": 3938,
      "time_per_iteration": 2.665242910385132
    },
    {
      "auxiliary_loss_clip": 0.01186667,
      "auxiliary_loss_mlp": 0.01032919,
      "balance_loss_clip": 1.05597639,
      "balance_loss_mlp": 1.02391911,
      "epoch": 0.4736367462273793,
      "flos": 23037018554880.0,
      "grad_norm": 2.454382397236991,
      "language_loss": 0.79123294,
      "learning_rate": 2.2671652343120926e-06,
      "loss": 0.81342882,
      "num_input_tokens_seen": 84673965,
      "step": 3939,
      "time_per_iteration": 2.680717945098877
    },
    {
      "auxiliary_loss_clip": 0.01186404,
      "auxiliary_loss_mlp": 0.01024439,
      "balance_loss_clip": 1.05461788,
      "balance_loss_mlp": 1.01634455,
      "epoch": 0.4737569891180184,
      "flos": 25374336451200.0,
      "grad_norm": 1.6447481636481434,
      "language_loss": 0.80632126,
      "learning_rate": 2.2663932238126236e-06,
      "loss": 0.8284297,
      "num_input_tokens_seen": 84692525,
      "step": 3940,
      "time_per_iteration": 2.6588125228881836
    },
    {
      "auxiliary_loss_clip": 0.01175536,
      "auxiliary_loss_mlp": 0.01031865,
      "balance_loss_clip": 1.05043674,
      "balance_loss_mlp": 1.02354968,
      "epoch": 0.4738772320086575,
      "flos": 25849326925440.0,
      "grad_norm": 1.546618428284386,
      "language_loss": 0.80513024,
      "learning_rate": 2.265621172901515e-06,
      "loss": 0.82720423,
      "num_input_tokens_seen": 84715640,
      "step": 3941,
      "time_per_iteration": 3.600162982940674
    },
    {
      "auxiliary_loss_clip": 0.01192901,
      "auxiliary_loss_mlp": 0.01039188,
      "balance_loss_clip": 1.05916178,
      "balance_loss_mlp": 1.03062868,
      "epoch": 0.47399747489929656,
      "flos": 27564420499200.0,
      "grad_norm": 2.5722441933305924,
      "language_loss": 0.71047163,
      "learning_rate": 2.2648490816958854e-06,
      "loss": 0.7327925,
      "num_input_tokens_seen": 84736635,
      "step": 3942,
      "time_per_iteration": 2.6397647857666016
    },
    {
      "auxiliary_loss_clip": 0.01176176,
      "auxiliary_loss_mlp": 0.01033827,
      "balance_loss_clip": 1.05068338,
      "balance_loss_mlp": 1.02470112,
      "epoch": 0.47411771778993567,
      "flos": 24863650836480.0,
      "grad_norm": 2.5252546461115593,
      "language_loss": 0.73408353,
      "learning_rate": 2.264076950312861e-06,
      "loss": 0.75618351,
      "num_input_tokens_seen": 84755445,
      "step": 3943,
      "time_per_iteration": 2.692361831665039
    },
    {
      "auxiliary_loss_clip": 0.01172036,
      "auxiliary_loss_mlp": 0.01028677,
      "balance_loss_clip": 1.05221796,
      "balance_loss_mlp": 1.01996326,
      "epoch": 0.4742379606805748,
      "flos": 22748009725440.0,
      "grad_norm": 1.9542332922928904,
      "language_loss": 0.8253895,
      "learning_rate": 2.2633047788695727e-06,
      "loss": 0.84739661,
      "num_input_tokens_seen": 84775750,
      "step": 3944,
      "time_per_iteration": 2.725827932357788
    },
    {
      "auxiliary_loss_clip": 0.01171436,
      "auxiliary_loss_mlp": 0.01030602,
      "balance_loss_clip": 1.0561769,
      "balance_loss_mlp": 1.02197146,
      "epoch": 0.47435820357121383,
      "flos": 19681130689920.0,
      "grad_norm": 2.2900756161255917,
      "language_loss": 0.64303577,
      "learning_rate": 2.262532567483159e-06,
      "loss": 0.66505611,
      "num_input_tokens_seen": 84794310,
      "step": 3945,
      "time_per_iteration": 2.758307456970215
    },
    {
      "auxiliary_loss_clip": 0.01192198,
      "auxiliary_loss_mlp": 0.00887528,
      "balance_loss_clip": 1.05850828,
      "balance_loss_mlp": 1.00052238,
      "epoch": 0.47447844646185294,
      "flos": 25228718714880.0,
      "grad_norm": 1.999882403317095,
      "language_loss": 0.8003515,
      "learning_rate": 2.2617603162707635e-06,
      "loss": 0.82114875,
      "num_input_tokens_seen": 84814720,
      "step": 3946,
      "time_per_iteration": 2.719235420227051
    },
    {
      "auxiliary_loss_clip": 0.0118994,
      "auxiliary_loss_mlp": 0.01029384,
      "balance_loss_clip": 1.0569849,
      "balance_loss_mlp": 1.0211879,
      "epoch": 0.47459868935249205,
      "flos": 24570619683840.0,
      "grad_norm": 1.6245369020545564,
      "language_loss": 0.83133614,
      "learning_rate": 2.2609880253495363e-06,
      "loss": 0.85352933,
      "num_input_tokens_seen": 84834355,
      "step": 3947,
      "time_per_iteration": 2.7097549438476562
    },
    {
      "auxiliary_loss_clip": 0.01167887,
      "auxiliary_loss_mlp": 0.01031501,
      "balance_loss_clip": 1.04890442,
      "balance_loss_mlp": 1.02278638,
      "epoch": 0.4747189322431311,
      "flos": 20558500295040.0,
      "grad_norm": 1.973749227837883,
      "language_loss": 0.86359012,
      "learning_rate": 2.260215694836633e-06,
      "loss": 0.88558406,
      "num_input_tokens_seen": 84853530,
      "step": 3948,
      "time_per_iteration": 2.6871731281280518
    },
    {
      "auxiliary_loss_clip": 0.01152959,
      "auxiliary_loss_mlp": 0.00887095,
      "balance_loss_clip": 1.04856241,
      "balance_loss_mlp": 1.00047195,
      "epoch": 0.4748391751337702,
      "flos": 25995231970560.0,
      "grad_norm": 2.5842606640073496,
      "language_loss": 0.64783984,
      "learning_rate": 2.2594433248492157e-06,
      "loss": 0.66824043,
      "num_input_tokens_seen": 84872505,
      "step": 3949,
      "time_per_iteration": 2.817589521408081
    },
    {
      "auxiliary_loss_clip": 0.01185158,
      "auxiliary_loss_mlp": 0.01037369,
      "balance_loss_clip": 1.05362952,
      "balance_loss_mlp": 1.02853537,
      "epoch": 0.47495941802440933,
      "flos": 22821052032000.0,
      "grad_norm": 1.7559861727626898,
      "language_loss": 0.80018348,
      "learning_rate": 2.2586709155044527e-06,
      "loss": 0.82240874,
      "num_input_tokens_seen": 84893105,
      "step": 3950,
      "time_per_iteration": 2.7301502227783203
    },
    {
      "auxiliary_loss_clip": 0.01188468,
      "auxiliary_loss_mlp": 0.01028189,
      "balance_loss_clip": 1.05471301,
      "balance_loss_mlp": 1.02017796,
      "epoch": 0.4750796609150484,
      "flos": 27891782075520.0,
      "grad_norm": 1.8660193594229235,
      "language_loss": 0.7585296,
      "learning_rate": 2.2578984669195167e-06,
      "loss": 0.78069615,
      "num_input_tokens_seen": 84914070,
      "step": 3951,
      "time_per_iteration": 2.8152365684509277
    },
    {
      "auxiliary_loss_clip": 0.01176723,
      "auxiliary_loss_mlp": 0.01024329,
      "balance_loss_clip": 1.05052137,
      "balance_loss_mlp": 1.01680684,
      "epoch": 0.4751999038056875,
      "flos": 35660085471360.0,
      "grad_norm": 2.044367575358381,
      "language_loss": 0.67652231,
      "learning_rate": 2.2571259792115887e-06,
      "loss": 0.69853282,
      "num_input_tokens_seen": 84935290,
      "step": 3952,
      "time_per_iteration": 2.8563663959503174
    },
    {
      "auxiliary_loss_clip": 0.01173803,
      "auxiliary_loss_mlp": 0.01027729,
      "balance_loss_clip": 1.05230379,
      "balance_loss_mlp": 1.01937819,
      "epoch": 0.4753201466963266,
      "flos": 22090880361600.0,
      "grad_norm": 1.7391290456688175,
      "language_loss": 0.7950657,
      "learning_rate": 2.2563534524978544e-06,
      "loss": 0.81708103,
      "num_input_tokens_seen": 84952760,
      "step": 3953,
      "time_per_iteration": 2.65950870513916
    },
    {
      "auxiliary_loss_clip": 0.01154126,
      "auxiliary_loss_mlp": 0.01025508,
      "balance_loss_clip": 1.05239367,
      "balance_loss_mlp": 1.01689458,
      "epoch": 0.47544038958696566,
      "flos": 30190854965760.0,
      "grad_norm": 1.8259685141058972,
      "language_loss": 0.70682865,
      "learning_rate": 2.2555808868955052e-06,
      "loss": 0.728625,
      "num_input_tokens_seen": 84974890,
      "step": 3954,
      "time_per_iteration": 2.737823486328125
    },
    {
      "auxiliary_loss_clip": 0.01155257,
      "auxiliary_loss_mlp": 0.01031703,
      "balance_loss_clip": 1.05234277,
      "balance_loss_mlp": 1.02256536,
      "epoch": 0.47556063247760477,
      "flos": 23472219738240.0,
      "grad_norm": 3.0339916179178124,
      "language_loss": 0.7377584,
      "learning_rate": 2.254808282521738e-06,
      "loss": 0.75962794,
      "num_input_tokens_seen": 84993640,
      "step": 3955,
      "time_per_iteration": 2.7881503105163574
    },
    {
      "auxiliary_loss_clip": 0.01164332,
      "auxiliary_loss_mlp": 0.00887337,
      "balance_loss_clip": 1.05152071,
      "balance_loss_mlp": 1.00047255,
      "epoch": 0.4756808753682438,
      "flos": 25155209531520.0,
      "grad_norm": 1.8665228007207404,
      "language_loss": 0.81535423,
      "learning_rate": 2.2540356394937573e-06,
      "loss": 0.83587086,
      "num_input_tokens_seen": 85012340,
      "step": 3956,
      "time_per_iteration": 3.6835951805114746
    },
    {
      "auxiliary_loss_clip": 0.01165085,
      "auxiliary_loss_mlp": 0.01033548,
      "balance_loss_clip": 1.05154574,
      "balance_loss_mlp": 1.02490509,
      "epoch": 0.47580111825888294,
      "flos": 15669729573120.0,
      "grad_norm": 2.5773148514704465,
      "language_loss": 0.83574605,
      "learning_rate": 2.253262957928772e-06,
      "loss": 0.85773236,
      "num_input_tokens_seen": 85029225,
      "step": 3957,
      "time_per_iteration": 2.804621458053589
    },
    {
      "auxiliary_loss_clip": 0.01161478,
      "auxiliary_loss_mlp": 0.01032523,
      "balance_loss_clip": 1.04687858,
      "balance_loss_mlp": 1.02314723,
      "epoch": 0.47592136114952205,
      "flos": 17636556637440.0,
      "grad_norm": 1.6806457316135666,
      "language_loss": 0.72456098,
      "learning_rate": 2.2524902379439976e-06,
      "loss": 0.74650097,
      "num_input_tokens_seen": 85047895,
      "step": 3958,
      "time_per_iteration": 2.851884126663208
    },
    {
      "auxiliary_loss_clip": 0.01041818,
      "auxiliary_loss_mlp": 0.01003961,
      "balance_loss_clip": 1.01349771,
      "balance_loss_mlp": 1.00269723,
      "epoch": 0.4760416040401611,
      "flos": 61417159292160.0,
      "grad_norm": 0.7433758043545259,
      "language_loss": 0.63707209,
      "learning_rate": 2.251717479656655e-06,
      "loss": 0.65752989,
      "num_input_tokens_seen": 85112690,
      "step": 3959,
      "time_per_iteration": 3.503566026687622
    },
    {
      "auxiliary_loss_clip": 0.01192402,
      "auxiliary_loss_mlp": 0.01032094,
      "balance_loss_clip": 1.05557799,
      "balance_loss_mlp": 1.02351665,
      "epoch": 0.4761618469308002,
      "flos": 18405871153920.0,
      "grad_norm": 4.486817061509851,
      "language_loss": 0.76329458,
      "learning_rate": 2.2509446831839704e-06,
      "loss": 0.78553951,
      "num_input_tokens_seen": 85132130,
      "step": 3960,
      "time_per_iteration": 2.7465016841888428
    },
    {
      "auxiliary_loss_clip": 0.01173184,
      "auxiliary_loss_mlp": 0.01034229,
      "balance_loss_clip": 1.05177784,
      "balance_loss_mlp": 1.02584267,
      "epoch": 0.4762820898214393,
      "flos": 18040911016320.0,
      "grad_norm": 2.518435089691698,
      "language_loss": 0.8201226,
      "learning_rate": 2.250171848643177e-06,
      "loss": 0.8421967,
      "num_input_tokens_seen": 85149420,
      "step": 3961,
      "time_per_iteration": 2.756408452987671
    },
    {
      "auxiliary_loss_clip": 0.01163979,
      "auxiliary_loss_mlp": 0.01037027,
      "balance_loss_clip": 1.05196118,
      "balance_loss_mlp": 1.02867651,
      "epoch": 0.4764023327120784,
      "flos": 19318253541120.0,
      "grad_norm": 1.8087882686096892,
      "language_loss": 0.86131018,
      "learning_rate": 2.249398976151513e-06,
      "loss": 0.88332021,
      "num_input_tokens_seen": 85166970,
      "step": 3962,
      "time_per_iteration": 3.6333858966827393
    },
    {
      "auxiliary_loss_clip": 0.01187909,
      "auxiliary_loss_mlp": 0.01033986,
      "balance_loss_clip": 1.05509818,
      "balance_loss_mlp": 1.02554035,
      "epoch": 0.4765225756027175,
      "flos": 22747255539840.0,
      "grad_norm": 2.3690928392562896,
      "language_loss": 0.78571784,
      "learning_rate": 2.248626065826223e-06,
      "loss": 0.80793679,
      "num_input_tokens_seen": 85185175,
      "step": 3963,
      "time_per_iteration": 3.7721712589263916
    },
    {
      "auxiliary_loss_clip": 0.01080854,
      "auxiliary_loss_mlp": 0.01002658,
      "balance_loss_clip": 1.01780069,
      "balance_loss_mlp": 1.00156105,
      "epoch": 0.4766428184933566,
      "flos": 65933392106880.0,
      "grad_norm": 0.7618219668378401,
      "language_loss": 0.62528265,
      "learning_rate": 2.2478531177845564e-06,
      "loss": 0.64611769,
      "num_input_tokens_seen": 85246170,
      "step": 3964,
      "time_per_iteration": 3.2697083950042725
    },
    {
      "auxiliary_loss_clip": 0.01174952,
      "auxiliary_loss_mlp": 0.01034922,
      "balance_loss_clip": 1.05460906,
      "balance_loss_mlp": 1.02616596,
      "epoch": 0.47676306138399566,
      "flos": 24136495908480.0,
      "grad_norm": 2.714071318514788,
      "language_loss": 0.84735805,
      "learning_rate": 2.247080132143769e-06,
      "loss": 0.86945677,
      "num_input_tokens_seen": 85268525,
      "step": 3965,
      "time_per_iteration": 2.728919267654419
    },
    {
      "auxiliary_loss_clip": 0.01156456,
      "auxiliary_loss_mlp": 0.01035074,
      "balance_loss_clip": 1.04530764,
      "balance_loss_mlp": 1.02567458,
      "epoch": 0.47688330427463477,
      "flos": 12604322995200.0,
      "grad_norm": 2.9091428491074494,
      "language_loss": 0.69348031,
      "learning_rate": 2.246307109021121e-06,
      "loss": 0.71539563,
      "num_input_tokens_seen": 85285930,
      "step": 3966,
      "time_per_iteration": 2.8014748096466064
    },
    {
      "auxiliary_loss_clip": 0.01163276,
      "auxiliary_loss_mlp": 0.01025094,
      "balance_loss_clip": 1.04839778,
      "balance_loss_mlp": 1.0167315,
      "epoch": 0.4770035471652739,
      "flos": 21390585828480.0,
      "grad_norm": 1.7501131957827258,
      "language_loss": 0.82182944,
      "learning_rate": 2.2455340485338817e-06,
      "loss": 0.84371316,
      "num_input_tokens_seen": 85303565,
      "step": 3967,
      "time_per_iteration": 3.7548632621765137
    },
    {
      "auxiliary_loss_clip": 0.01179802,
      "auxiliary_loss_mlp": 0.0103185,
      "balance_loss_clip": 1.05270839,
      "balance_loss_mlp": 1.02380347,
      "epoch": 0.47712379005591293,
      "flos": 25156251025920.0,
      "grad_norm": 2.4284269081271654,
      "language_loss": 0.68020725,
      "learning_rate": 2.244760950799322e-06,
      "loss": 0.70232379,
      "num_input_tokens_seen": 85321835,
      "step": 3968,
      "time_per_iteration": 2.713228225708008
    },
    {
      "auxiliary_loss_clip": 0.01143357,
      "auxiliary_loss_mlp": 0.01034747,
      "balance_loss_clip": 1.04877234,
      "balance_loss_mlp": 1.02591968,
      "epoch": 0.47724403294655204,
      "flos": 22054323294720.0,
      "grad_norm": 2.4113711869386623,
      "language_loss": 0.73032123,
      "learning_rate": 2.2439878159347203e-06,
      "loss": 0.75210226,
      "num_input_tokens_seen": 85341260,
      "step": 3969,
      "time_per_iteration": 2.8099653720855713
    },
    {
      "auxiliary_loss_clip": 0.01079003,
      "auxiliary_loss_mlp": 0.01000664,
      "balance_loss_clip": 1.01617849,
      "balance_loss_mlp": 0.99954337,
      "epoch": 0.4773642758371911,
      "flos": 70229387658240.0,
      "grad_norm": 0.7309621410869187,
      "language_loss": 0.55277836,
      "learning_rate": 2.2432146440573616e-06,
      "loss": 0.57357508,
      "num_input_tokens_seen": 85407220,
      "step": 3970,
      "time_per_iteration": 3.3021233081817627
    },
    {
      "auxiliary_loss_clip": 0.01167862,
      "auxiliary_loss_mlp": 0.01029823,
      "balance_loss_clip": 1.05272579,
      "balance_loss_mlp": 1.02117419,
      "epoch": 0.4774845187278302,
      "flos": 23548602009600.0,
      "grad_norm": 1.8391261671492904,
      "language_loss": 0.66389537,
      "learning_rate": 2.242441435284534e-06,
      "loss": 0.6858722,
      "num_input_tokens_seen": 85426095,
      "step": 3971,
      "time_per_iteration": 2.7072715759277344
    },
    {
      "auxiliary_loss_clip": 0.01178864,
      "auxiliary_loss_mlp": 0.0103293,
      "balance_loss_clip": 1.05267096,
      "balance_loss_mlp": 1.0242517,
      "epoch": 0.4776047616184693,
      "flos": 23075371301760.0,
      "grad_norm": 4.032838125356596,
      "language_loss": 0.85323495,
      "learning_rate": 2.2416681897335337e-06,
      "loss": 0.87535286,
      "num_input_tokens_seen": 85444245,
      "step": 3972,
      "time_per_iteration": 2.704352378845215
    },
    {
      "auxiliary_loss_clip": 0.01147727,
      "auxiliary_loss_mlp": 0.01029355,
      "balance_loss_clip": 1.05038738,
      "balance_loss_mlp": 1.02087927,
      "epoch": 0.4777250045091084,
      "flos": 31898119374720.0,
      "grad_norm": 4.7008387322160825,
      "language_loss": 0.67250556,
      "learning_rate": 2.240894907521661e-06,
      "loss": 0.69427633,
      "num_input_tokens_seen": 85463325,
      "step": 3973,
      "time_per_iteration": 2.838437557220459
    },
    {
      "auxiliary_loss_clip": 0.01168214,
      "auxiliary_loss_mlp": 0.010252,
      "balance_loss_clip": 1.0498023,
      "balance_loss_mlp": 1.01686168,
      "epoch": 0.4778452473997475,
      "flos": 24278163148800.0,
      "grad_norm": 2.1557610469445994,
      "language_loss": 0.63680422,
      "learning_rate": 2.240121588766223e-06,
      "loss": 0.65873837,
      "num_input_tokens_seen": 85483375,
      "step": 3974,
      "time_per_iteration": 2.751864194869995
    },
    {
      "auxiliary_loss_clip": 0.01162994,
      "auxiliary_loss_mlp": 0.01031297,
      "balance_loss_clip": 1.05119133,
      "balance_loss_mlp": 1.02273154,
      "epoch": 0.4779654902903866,
      "flos": 31575031516800.0,
      "grad_norm": 1.8330185473008276,
      "language_loss": 0.71800327,
      "learning_rate": 2.239348233584531e-06,
      "loss": 0.73994619,
      "num_input_tokens_seen": 85504230,
      "step": 3975,
      "time_per_iteration": 2.7288503646850586
    },
    {
      "auxiliary_loss_clip": 0.01180682,
      "auxiliary_loss_mlp": 0.0103037,
      "balance_loss_clip": 1.05295444,
      "balance_loss_mlp": 1.0218823,
      "epoch": 0.47808573318102565,
      "flos": 19500428344320.0,
      "grad_norm": 1.9014302916032064,
      "language_loss": 0.80832386,
      "learning_rate": 2.2385748420939013e-06,
      "loss": 0.83043444,
      "num_input_tokens_seen": 85523425,
      "step": 3976,
      "time_per_iteration": 2.680683135986328
    },
    {
      "auxiliary_loss_clip": 0.01187477,
      "auxiliary_loss_mlp": 0.01037571,
      "balance_loss_clip": 1.0570085,
      "balance_loss_mlp": 1.02960229,
      "epoch": 0.47820597607166476,
      "flos": 22601135013120.0,
      "grad_norm": 2.1153018191365973,
      "language_loss": 0.72213846,
      "learning_rate": 2.2378014144116583e-06,
      "loss": 0.74438894,
      "num_input_tokens_seen": 85542235,
      "step": 3977,
      "time_per_iteration": 2.615053653717041
    },
    {
      "auxiliary_loss_clip": 0.0119148,
      "auxiliary_loss_mlp": 0.01035229,
      "balance_loss_clip": 1.05557513,
      "balance_loss_mlp": 1.02628827,
      "epoch": 0.4783262189623039,
      "flos": 23003011353600.0,
      "grad_norm": 1.9133481458788915,
      "language_loss": 0.79767221,
      "learning_rate": 2.23702795065513e-06,
      "loss": 0.81993932,
      "num_input_tokens_seen": 85561815,
      "step": 3978,
      "time_per_iteration": 2.6727499961853027
    },
    {
      "auxiliary_loss_clip": 0.01075393,
      "auxiliary_loss_mlp": 0.01000728,
      "balance_loss_clip": 1.01696491,
      "balance_loss_mlp": 0.9995417,
      "epoch": 0.47844646185294293,
      "flos": 49772801226240.0,
      "grad_norm": 0.991782357818678,
      "language_loss": 0.67492104,
      "learning_rate": 2.2362544509416493e-06,
      "loss": 0.69568229,
      "num_input_tokens_seen": 85613930,
      "step": 3979,
      "time_per_iteration": 3.1098294258117676
    },
    {
      "auxiliary_loss_clip": 0.01161308,
      "auxiliary_loss_mlp": 0.01031221,
      "balance_loss_clip": 1.04964161,
      "balance_loss_mlp": 1.02295983,
      "epoch": 0.47856670474358204,
      "flos": 20229558520320.0,
      "grad_norm": 2.9758091614836375,
      "language_loss": 0.83023357,
      "learning_rate": 2.2354809153885572e-06,
      "loss": 0.8521589,
      "num_input_tokens_seen": 85631000,
      "step": 3980,
      "time_per_iteration": 2.7305452823638916
    },
    {
      "auxiliary_loss_clip": 0.01178938,
      "auxiliary_loss_mlp": 0.01031874,
      "balance_loss_clip": 1.05360436,
      "balance_loss_mlp": 1.02304697,
      "epoch": 0.47868694763422115,
      "flos": 20990936131200.0,
      "grad_norm": 2.04290517442097,
      "language_loss": 0.83009857,
      "learning_rate": 2.234707344113197e-06,
      "loss": 0.85220671,
      "num_input_tokens_seen": 85649095,
      "step": 3981,
      "time_per_iteration": 2.651273488998413
    },
    {
      "auxiliary_loss_clip": 0.01186055,
      "auxiliary_loss_mlp": 0.01029226,
      "balance_loss_clip": 1.05463696,
      "balance_loss_mlp": 1.02106011,
      "epoch": 0.4788071905248602,
      "flos": 19026551191680.0,
      "grad_norm": 1.7022351994246312,
      "language_loss": 0.77534205,
      "learning_rate": 2.233933737232919e-06,
      "loss": 0.79749483,
      "num_input_tokens_seen": 85666875,
      "step": 3982,
      "time_per_iteration": 3.5716960430145264
    },
    {
      "auxiliary_loss_clip": 0.01139847,
      "auxiliary_loss_mlp": 0.0088776,
      "balance_loss_clip": 1.04544294,
      "balance_loss_mlp": 1.00055194,
      "epoch": 0.4789274334154993,
      "flos": 23002221254400.0,
      "grad_norm": 1.637116995289455,
      "language_loss": 0.78085095,
      "learning_rate": 2.2331600948650793e-06,
      "loss": 0.80112708,
      "num_input_tokens_seen": 85687020,
      "step": 3983,
      "time_per_iteration": 2.813231945037842
    },
    {
      "auxiliary_loss_clip": 0.01145213,
      "auxiliary_loss_mlp": 0.00889286,
      "balance_loss_clip": 1.0472343,
      "balance_loss_mlp": 1.00058055,
      "epoch": 0.4790476763061384,
      "flos": 23075586783360.0,
      "grad_norm": 1.634472589727249,
      "language_loss": 0.80262518,
      "learning_rate": 2.2323864171270386e-06,
      "loss": 0.82297015,
      "num_input_tokens_seen": 85708290,
      "step": 3984,
      "time_per_iteration": 2.732997179031372
    },
    {
      "auxiliary_loss_clip": 0.01162991,
      "auxiliary_loss_mlp": 0.01028963,
      "balance_loss_clip": 1.04808331,
      "balance_loss_mlp": 1.02023673,
      "epoch": 0.4791679191967775,
      "flos": 21179288073600.0,
      "grad_norm": 1.9210679773863746,
      "language_loss": 0.72679877,
      "learning_rate": 2.231612704136164e-06,
      "loss": 0.74871826,
      "num_input_tokens_seen": 85728660,
      "step": 3985,
      "time_per_iteration": 2.83109712600708
    },
    {
      "auxiliary_loss_clip": 0.01171179,
      "auxiliary_loss_mlp": 0.01027665,
      "balance_loss_clip": 1.0500195,
      "balance_loss_mlp": 1.01844406,
      "epoch": 0.4792881620874166,
      "flos": 22301495758080.0,
      "grad_norm": 2.749843243961818,
      "language_loss": 0.75062728,
      "learning_rate": 2.2308389560098253e-06,
      "loss": 0.77261573,
      "num_input_tokens_seen": 85745035,
      "step": 3986,
      "time_per_iteration": 2.6653316020965576
    },
    {
      "auxiliary_loss_clip": 0.01160284,
      "auxiliary_loss_mlp": 0.01028215,
      "balance_loss_clip": 1.04952109,
      "balance_loss_mlp": 1.01920867,
      "epoch": 0.47940840497805565,
      "flos": 17420877423360.0,
      "grad_norm": 2.1611630815252405,
      "language_loss": 0.77164531,
      "learning_rate": 2.2300651728654008e-06,
      "loss": 0.79353034,
      "num_input_tokens_seen": 85760295,
      "step": 3987,
      "time_per_iteration": 3.7147440910339355
    },
    {
      "auxiliary_loss_clip": 0.01065396,
      "auxiliary_loss_mlp": 0.00875957,
      "balance_loss_clip": 1.01477087,
      "balance_loss_mlp": 1.00039887,
      "epoch": 0.47952864786869476,
      "flos": 65358175708800.0,
      "grad_norm": 0.7579691931606135,
      "language_loss": 0.60161942,
      "learning_rate": 2.229291354820272e-06,
      "loss": 0.62103295,
      "num_input_tokens_seen": 85821305,
      "step": 3988,
      "time_per_iteration": 3.2608354091644287
    },
    {
      "auxiliary_loss_clip": 0.01175061,
      "auxiliary_loss_mlp": 0.01030041,
      "balance_loss_clip": 1.05060577,
      "balance_loss_mlp": 1.02133846,
      "epoch": 0.47964889075933387,
      "flos": 16799802336000.0,
      "grad_norm": 2.0664684386319867,
      "language_loss": 0.76025975,
      "learning_rate": 2.228517501991828e-06,
      "loss": 0.78231078,
      "num_input_tokens_seen": 85840105,
      "step": 3989,
      "time_per_iteration": 3.535365343093872
    },
    {
      "auxiliary_loss_clip": 0.01060119,
      "auxiliary_loss_mlp": 0.01002599,
      "balance_loss_clip": 1.01448977,
      "balance_loss_mlp": 1.00136495,
      "epoch": 0.4797691336499729,
      "flos": 70079244808320.0,
      "grad_norm": 0.8175851716537117,
      "language_loss": 0.61051708,
      "learning_rate": 2.22774361449746e-06,
      "loss": 0.63114423,
      "num_input_tokens_seen": 85896585,
      "step": 3990,
      "time_per_iteration": 3.339629650115967
    },
    {
      "auxiliary_loss_clip": 0.01139191,
      "auxiliary_loss_mlp": 0.01030914,
      "balance_loss_clip": 1.04639065,
      "balance_loss_mlp": 1.02239621,
      "epoch": 0.47988937654061203,
      "flos": 18953329317120.0,
      "grad_norm": 3.582347705942024,
      "language_loss": 0.70170474,
      "learning_rate": 2.2269696924545668e-06,
      "loss": 0.72340584,
      "num_input_tokens_seen": 85914415,
      "step": 3991,
      "time_per_iteration": 2.770296335220337
    },
    {
      "auxiliary_loss_clip": 0.01158147,
      "auxiliary_loss_mlp": 0.01029889,
      "balance_loss_clip": 1.05179274,
      "balance_loss_mlp": 1.02212286,
      "epoch": 0.48000961943125114,
      "flos": 14461981649280.0,
      "grad_norm": 2.9153949579575347,
      "language_loss": 0.77707392,
      "learning_rate": 2.2261957359805523e-06,
      "loss": 0.79895431,
      "num_input_tokens_seen": 85931650,
      "step": 3992,
      "time_per_iteration": 2.713305950164795
    },
    {
      "auxiliary_loss_clip": 0.01187863,
      "auxiliary_loss_mlp": 0.01029949,
      "balance_loss_clip": 1.05439925,
      "balance_loss_mlp": 1.02065659,
      "epoch": 0.4801298623218902,
      "flos": 27051149105280.0,
      "grad_norm": 2.1830132637148756,
      "language_loss": 0.73916769,
      "learning_rate": 2.225421745192823e-06,
      "loss": 0.76134586,
      "num_input_tokens_seen": 85951805,
      "step": 3993,
      "time_per_iteration": 3.6484198570251465
    },
    {
      "auxiliary_loss_clip": 0.0117596,
      "auxiliary_loss_mlp": 0.01029334,
      "balance_loss_clip": 1.05250943,
      "balance_loss_mlp": 1.02053022,
      "epoch": 0.4802501052125293,
      "flos": 26355236031360.0,
      "grad_norm": 1.9653427160286114,
      "language_loss": 0.78205872,
      "learning_rate": 2.2246477202087955e-06,
      "loss": 0.8041116,
      "num_input_tokens_seen": 85972485,
      "step": 3994,
      "time_per_iteration": 2.6928322315216064
    },
    {
      "auxiliary_loss_clip": 0.01167513,
      "auxiliary_loss_mlp": 0.0102669,
      "balance_loss_clip": 1.04838657,
      "balance_loss_mlp": 1.01877475,
      "epoch": 0.4803703481031684,
      "flos": 20993916960000.0,
      "grad_norm": 1.6267768431719098,
      "language_loss": 0.82639557,
      "learning_rate": 2.223873661145887e-06,
      "loss": 0.84833765,
      "num_input_tokens_seen": 85992540,
      "step": 3995,
      "time_per_iteration": 2.715808868408203
    },
    {
      "auxiliary_loss_clip": 0.01166053,
      "auxiliary_loss_mlp": 0.0088738,
      "balance_loss_clip": 1.05370927,
      "balance_loss_mlp": 1.00047708,
      "epoch": 0.4804905909938075,
      "flos": 20703722981760.0,
      "grad_norm": 1.6428801184408832,
      "language_loss": 0.71453524,
      "learning_rate": 2.2230995681215226e-06,
      "loss": 0.73506963,
      "num_input_tokens_seen": 86012065,
      "step": 3996,
      "time_per_iteration": 2.722810983657837
    },
    {
      "auxiliary_loss_clip": 0.01154535,
      "auxiliary_loss_mlp": 0.01030992,
      "balance_loss_clip": 1.04907465,
      "balance_loss_mlp": 1.02156234,
      "epoch": 0.4806108338844466,
      "flos": 16654831044480.0,
      "grad_norm": 1.980151160386087,
      "language_loss": 0.78212976,
      "learning_rate": 2.2223254412531305e-06,
      "loss": 0.803985,
      "num_input_tokens_seen": 86029435,
      "step": 3997,
      "time_per_iteration": 2.681832790374756
    },
    {
      "auxiliary_loss_clip": 0.01155249,
      "auxiliary_loss_mlp": 0.0102978,
      "balance_loss_clip": 1.04801023,
      "balance_loss_mlp": 1.02181029,
      "epoch": 0.4807310767750857,
      "flos": 20011329440640.0,
      "grad_norm": 1.847871507135753,
      "language_loss": 0.8249259,
      "learning_rate": 2.221551280658146e-06,
      "loss": 0.84677613,
      "num_input_tokens_seen": 86048495,
      "step": 3998,
      "time_per_iteration": 2.7589669227600098
    },
    {
      "auxiliary_loss_clip": 0.01146265,
      "auxiliary_loss_mlp": 0.01022413,
      "balance_loss_clip": 1.04800868,
      "balance_loss_mlp": 1.01418495,
      "epoch": 0.48085131966572475,
      "flos": 23185257984000.0,
      "grad_norm": 1.6566853656558111,
      "language_loss": 0.74027014,
      "learning_rate": 2.2207770864540085e-06,
      "loss": 0.76195687,
      "num_input_tokens_seen": 86067470,
      "step": 3999,
      "time_per_iteration": 2.8111228942871094
    },
    {
      "auxiliary_loss_clip": 0.01161054,
      "auxiliary_loss_mlp": 0.01025803,
      "balance_loss_clip": 1.05015528,
      "balance_loss_mlp": 1.01787567,
      "epoch": 0.48097156255636386,
      "flos": 20558643949440.0,
      "grad_norm": 2.282594401620395,
      "language_loss": 0.73414046,
      "learning_rate": 2.220002858758162e-06,
      "loss": 0.7560091,
      "num_input_tokens_seen": 86085460,
      "step": 4000,
      "time_per_iteration": 2.7359774112701416
    },
    {
      "auxiliary_loss_clip": 0.01073824,
      "auxiliary_loss_mlp": 0.01001645,
      "balance_loss_clip": 1.01486397,
      "balance_loss_mlp": 1.00039315,
      "epoch": 0.481091805447003,
      "flos": 70511608817280.0,
      "grad_norm": 0.9162509990409365,
      "language_loss": 0.60924971,
      "learning_rate": 2.2192285976880573e-06,
      "loss": 0.63000441,
      "num_input_tokens_seen": 86149715,
      "step": 4001,
      "time_per_iteration": 3.2314038276672363
    },
    {
      "auxiliary_loss_clip": 0.01158964,
      "auxiliary_loss_mlp": 0.00887063,
      "balance_loss_clip": 1.04773426,
      "balance_loss_mlp": 1.00064075,
      "epoch": 0.48121204833764203,
      "flos": 36428214839040.0,
      "grad_norm": 1.62611677238896,
      "language_loss": 0.80842161,
      "learning_rate": 2.2184543033611485e-06,
      "loss": 0.82888186,
      "num_input_tokens_seen": 86170795,
      "step": 4002,
      "time_per_iteration": 2.869325637817383
    },
    {
      "auxiliary_loss_clip": 0.01180576,
      "auxiliary_loss_mlp": 0.01024381,
      "balance_loss_clip": 1.05243373,
      "balance_loss_mlp": 1.01621199,
      "epoch": 0.48133229122828114,
      "flos": 27490264871040.0,
      "grad_norm": 2.4740621613450817,
      "language_loss": 0.81805062,
      "learning_rate": 2.2176799758948957e-06,
      "loss": 0.84010023,
      "num_input_tokens_seen": 86190955,
      "step": 4003,
      "time_per_iteration": 2.7703731060028076
    },
    {
      "auxiliary_loss_clip": 0.01163339,
      "auxiliary_loss_mlp": 0.01033897,
      "balance_loss_clip": 1.0507679,
      "balance_loss_mlp": 1.02596378,
      "epoch": 0.4814525341189202,
      "flos": 43072802179200.0,
      "grad_norm": 1.8440552315077499,
      "language_loss": 0.73186326,
      "learning_rate": 2.2169056154067635e-06,
      "loss": 0.75383568,
      "num_input_tokens_seen": 86214875,
      "step": 4004,
      "time_per_iteration": 2.90671443939209
    },
    {
      "auxiliary_loss_clip": 0.01179013,
      "auxiliary_loss_mlp": 0.00887599,
      "balance_loss_clip": 1.05485964,
      "balance_loss_mlp": 1.00058532,
      "epoch": 0.4815727770095593,
      "flos": 24236901400320.0,
      "grad_norm": 1.7170848283637692,
      "language_loss": 0.82575577,
      "learning_rate": 2.216131222014222e-06,
      "loss": 0.8464219,
      "num_input_tokens_seen": 86232950,
      "step": 4005,
      "time_per_iteration": 2.7523202896118164
    },
    {
      "auxiliary_loss_clip": 0.01152529,
      "auxiliary_loss_mlp": 0.01029409,
      "balance_loss_clip": 1.05013561,
      "balance_loss_mlp": 1.02058136,
      "epoch": 0.4816930199001984,
      "flos": 18113630100480.0,
      "grad_norm": 2.30533945183014,
      "language_loss": 0.80230641,
      "learning_rate": 2.2153567958347455e-06,
      "loss": 0.82412577,
      "num_input_tokens_seen": 86249160,
      "step": 4006,
      "time_per_iteration": 2.6991074085235596
    },
    {
      "auxiliary_loss_clip": 0.01167852,
      "auxiliary_loss_mlp": 0.01033235,
      "balance_loss_clip": 1.05259407,
      "balance_loss_mlp": 1.02395439,
      "epoch": 0.48181326279083747,
      "flos": 17274720983040.0,
      "grad_norm": 1.7082234610470963,
      "language_loss": 0.79919815,
      "learning_rate": 2.214582336985815e-06,
      "loss": 0.82120895,
      "num_input_tokens_seen": 86267060,
      "step": 4007,
      "time_per_iteration": 3.6044938564300537
    },
    {
      "auxiliary_loss_clip": 0.01160158,
      "auxiliary_loss_mlp": 0.0102776,
      "balance_loss_clip": 1.04902387,
      "balance_loss_mlp": 1.01906347,
      "epoch": 0.4819335056814766,
      "flos": 14903252231040.0,
      "grad_norm": 2.4595050462649817,
      "language_loss": 0.66303468,
      "learning_rate": 2.2138078455849142e-06,
      "loss": 0.68491381,
      "num_input_tokens_seen": 86285055,
      "step": 4008,
      "time_per_iteration": 2.6389479637145996
    },
    {
      "auxiliary_loss_clip": 0.01183196,
      "auxiliary_loss_mlp": 0.01026606,
      "balance_loss_clip": 1.05315697,
      "balance_loss_mlp": 1.01822591,
      "epoch": 0.4820537485721157,
      "flos": 19244888012160.0,
      "grad_norm": 2.3312473008624828,
      "language_loss": 0.79056156,
      "learning_rate": 2.2130333217495334e-06,
      "loss": 0.81265962,
      "num_input_tokens_seen": 86304225,
      "step": 4009,
      "time_per_iteration": 2.6791679859161377
    },
    {
      "auxiliary_loss_clip": 0.01166229,
      "auxiliary_loss_mlp": 0.01028722,
      "balance_loss_clip": 1.05074716,
      "balance_loss_mlp": 1.02012146,
      "epoch": 0.48217399146275475,
      "flos": 16033791870720.0,
      "grad_norm": 2.9600013898548596,
      "language_loss": 0.6783796,
      "learning_rate": 2.2122587655971665e-06,
      "loss": 0.70032912,
      "num_input_tokens_seen": 86319170,
      "step": 4010,
      "time_per_iteration": 2.6786105632781982
    },
    {
      "auxiliary_loss_clip": 0.01170783,
      "auxiliary_loss_mlp": 0.01029099,
      "balance_loss_clip": 1.05297971,
      "balance_loss_mlp": 1.02083766,
      "epoch": 0.48229423435339386,
      "flos": 24134197438080.0,
      "grad_norm": 1.7021393859452307,
      "language_loss": 0.64259785,
      "learning_rate": 2.211484177245314e-06,
      "loss": 0.66459674,
      "num_input_tokens_seen": 86338760,
      "step": 4011,
      "time_per_iteration": 2.7067883014678955
    },
    {
      "auxiliary_loss_clip": 0.01191305,
      "auxiliary_loss_mlp": 0.01024067,
      "balance_loss_clip": 1.0565393,
      "balance_loss_mlp": 1.01573396,
      "epoch": 0.48241447724403297,
      "flos": 23805435231360.0,
      "grad_norm": 1.924270313918779,
      "language_loss": 0.72285926,
      "learning_rate": 2.21070955681148e-06,
      "loss": 0.745013,
      "num_input_tokens_seen": 86357865,
      "step": 4012,
      "time_per_iteration": 2.687758445739746
    },
    {
      "auxiliary_loss_clip": 0.01151648,
      "auxiliary_loss_mlp": 0.01030639,
      "balance_loss_clip": 1.05126929,
      "balance_loss_mlp": 1.02182388,
      "epoch": 0.482534720134672,
      "flos": 23110312256640.0,
      "grad_norm": 1.6047349639607011,
      "language_loss": 0.78262997,
      "learning_rate": 2.209934904413174e-06,
      "loss": 0.80445284,
      "num_input_tokens_seen": 86379470,
      "step": 4013,
      "time_per_iteration": 3.746157169342041
    },
    {
      "auxiliary_loss_clip": 0.01135886,
      "auxiliary_loss_mlp": 0.01036343,
      "balance_loss_clip": 1.04055834,
      "balance_loss_mlp": 1.02805793,
      "epoch": 0.48265496302531113,
      "flos": 20923819568640.0,
      "grad_norm": 2.009587767331921,
      "language_loss": 0.712084,
      "learning_rate": 2.2091602201679095e-06,
      "loss": 0.73380625,
      "num_input_tokens_seen": 86399080,
      "step": 4014,
      "time_per_iteration": 2.813621759414673
    },
    {
      "auxiliary_loss_clip": 0.01159241,
      "auxiliary_loss_mlp": 0.01035286,
      "balance_loss_clip": 1.04860497,
      "balance_loss_mlp": 1.02738273,
      "epoch": 0.48277520591595025,
      "flos": 15231152511360.0,
      "grad_norm": 2.145199977034797,
      "language_loss": 0.83247685,
      "learning_rate": 2.208385504193206e-06,
      "loss": 0.85442215,
      "num_input_tokens_seen": 86416580,
      "step": 4015,
      "time_per_iteration": 3.643437385559082
    },
    {
      "auxiliary_loss_clip": 0.01185792,
      "auxiliary_loss_mlp": 0.01032214,
      "balance_loss_clip": 1.05078506,
      "balance_loss_mlp": 1.02401209,
      "epoch": 0.4828954488065893,
      "flos": 17858664385920.0,
      "grad_norm": 2.3124671585807253,
      "language_loss": 0.81253803,
      "learning_rate": 2.2076107566065873e-06,
      "loss": 0.83471805,
      "num_input_tokens_seen": 86434365,
      "step": 4016,
      "time_per_iteration": 2.6018459796905518
    },
    {
      "auxiliary_loss_clip": 0.01181483,
      "auxiliary_loss_mlp": 0.01032751,
      "balance_loss_clip": 1.05290198,
      "balance_loss_mlp": 1.02410793,
      "epoch": 0.4830156916972284,
      "flos": 32087405070720.0,
      "grad_norm": 2.30326540484205,
      "language_loss": 0.75534415,
      "learning_rate": 2.2068359775255816e-06,
      "loss": 0.77748644,
      "num_input_tokens_seen": 86452675,
      "step": 4017,
      "time_per_iteration": 2.7945218086242676
    },
    {
      "auxiliary_loss_clip": 0.01143175,
      "auxiliary_loss_mlp": 0.01033273,
      "balance_loss_clip": 1.04617977,
      "balance_loss_mlp": 1.02461851,
      "epoch": 0.48313593458786747,
      "flos": 21871717528320.0,
      "grad_norm": 3.4132579939587586,
      "language_loss": 0.7879771,
      "learning_rate": 2.206061167067723e-06,
      "loss": 0.80974162,
      "num_input_tokens_seen": 86470785,
      "step": 4018,
      "time_per_iteration": 2.8137149810791016
    },
    {
      "auxiliary_loss_clip": 0.01154209,
      "auxiliary_loss_mlp": 0.01029612,
      "balance_loss_clip": 1.04519176,
      "balance_loss_mlp": 1.02124381,
      "epoch": 0.4832561774785066,
      "flos": 22601206840320.0,
      "grad_norm": 2.154058865097023,
      "language_loss": 0.79616314,
      "learning_rate": 2.205286325350549e-06,
      "loss": 0.81800133,
      "num_input_tokens_seen": 86489850,
      "step": 4019,
      "time_per_iteration": 3.7338638305664062
    },
    {
      "auxiliary_loss_clip": 0.01149417,
      "auxiliary_loss_mlp": 0.01034233,
      "balance_loss_clip": 1.05030942,
      "balance_loss_mlp": 1.02559066,
      "epoch": 0.4833764203691457,
      "flos": 13437342282240.0,
      "grad_norm": 2.5942614208400623,
      "language_loss": 0.72586209,
      "learning_rate": 2.204511452491603e-06,
      "loss": 0.74769861,
      "num_input_tokens_seen": 86506475,
      "step": 4020,
      "time_per_iteration": 2.7429251670837402
    },
    {
      "auxiliary_loss_clip": 0.01185507,
      "auxiliary_loss_mlp": 0.01026048,
      "balance_loss_clip": 1.05460858,
      "balance_loss_mlp": 1.01770329,
      "epoch": 0.48349666325978474,
      "flos": 44128036955520.0,
      "grad_norm": 1.6974008048231486,
      "language_loss": 0.74685025,
      "learning_rate": 2.2037365486084316e-06,
      "loss": 0.76896584,
      "num_input_tokens_seen": 86529715,
      "step": 4021,
      "time_per_iteration": 2.8025214672088623
    },
    {
      "auxiliary_loss_clip": 0.01165526,
      "auxiliary_loss_mlp": 0.01025661,
      "balance_loss_clip": 1.04641473,
      "balance_loss_mlp": 1.01653528,
      "epoch": 0.48361690615042385,
      "flos": 26028377245440.0,
      "grad_norm": 2.406192945664661,
      "language_loss": 0.78166091,
      "learning_rate": 2.2029616138185886e-06,
      "loss": 0.80357277,
      "num_input_tokens_seen": 86548715,
      "step": 4022,
      "time_per_iteration": 2.7901883125305176
    },
    {
      "auxiliary_loss_clip": 0.01157674,
      "auxiliary_loss_mlp": 0.01025065,
      "balance_loss_clip": 1.05449414,
      "balance_loss_mlp": 1.01742983,
      "epoch": 0.48373714904106296,
      "flos": 22273306560000.0,
      "grad_norm": 1.7157735916859966,
      "language_loss": 0.8244133,
      "learning_rate": 2.202186648239629e-06,
      "loss": 0.84624076,
      "num_input_tokens_seen": 86568650,
      "step": 4023,
      "time_per_iteration": 2.7035140991210938
    },
    {
      "auxiliary_loss_clip": 0.01175099,
      "auxiliary_loss_mlp": 0.01029732,
      "balance_loss_clip": 1.05311787,
      "balance_loss_mlp": 1.02173293,
      "epoch": 0.483857391931702,
      "flos": 28292293699200.0,
      "grad_norm": 1.7623702405952033,
      "language_loss": 0.7179985,
      "learning_rate": 2.201411651989117e-06,
      "loss": 0.7400468,
      "num_input_tokens_seen": 86590630,
      "step": 4024,
      "time_per_iteration": 2.684960126876831
    },
    {
      "auxiliary_loss_clip": 0.01162487,
      "auxiliary_loss_mlp": 0.00887245,
      "balance_loss_clip": 1.05055571,
      "balance_loss_mlp": 1.00053716,
      "epoch": 0.48397763482234113,
      "flos": 27418048577280.0,
      "grad_norm": 1.9292083806928004,
      "language_loss": 0.78346956,
      "learning_rate": 2.2006366251846167e-06,
      "loss": 0.80396688,
      "num_input_tokens_seen": 86611270,
      "step": 4025,
      "time_per_iteration": 2.7153306007385254
    },
    {
      "auxiliary_loss_clip": 0.011688,
      "auxiliary_loss_mlp": 0.01025968,
      "balance_loss_clip": 1.0548054,
      "balance_loss_mlp": 1.01830912,
      "epoch": 0.48409787771298024,
      "flos": 16797252470400.0,
      "grad_norm": 1.741242084898866,
      "language_loss": 0.75699806,
      "learning_rate": 2.1998615679436997e-06,
      "loss": 0.77894574,
      "num_input_tokens_seen": 86628810,
      "step": 4026,
      "time_per_iteration": 2.679936647415161
    },
    {
      "auxiliary_loss_clip": 0.01174657,
      "auxiliary_loss_mlp": 0.01027761,
      "balance_loss_clip": 1.05026627,
      "balance_loss_mlp": 1.01862979,
      "epoch": 0.4842181206036193,
      "flos": 25083496028160.0,
      "grad_norm": 2.223536618891466,
      "language_loss": 0.76993537,
      "learning_rate": 2.199086480383942e-06,
      "loss": 0.79195958,
      "num_input_tokens_seen": 86648185,
      "step": 4027,
      "time_per_iteration": 2.6665070056915283
    },
    {
      "auxiliary_loss_clip": 0.01178005,
      "auxiliary_loss_mlp": 0.01035284,
      "balance_loss_clip": 1.05071187,
      "balance_loss_mlp": 1.02581835,
      "epoch": 0.4843383634942584,
      "flos": 30372311496960.0,
      "grad_norm": 3.11874709010349,
      "language_loss": 0.67390573,
      "learning_rate": 2.1983113626229234e-06,
      "loss": 0.6960386,
      "num_input_tokens_seen": 86667435,
      "step": 4028,
      "time_per_iteration": 2.7434701919555664
    },
    {
      "auxiliary_loss_clip": 0.01148949,
      "auxiliary_loss_mlp": 0.00887628,
      "balance_loss_clip": 1.04429722,
      "balance_loss_mlp": 1.00060856,
      "epoch": 0.4844586063848975,
      "flos": 20413564917120.0,
      "grad_norm": 2.546335757350214,
      "language_loss": 0.78560299,
      "learning_rate": 2.1975362147782293e-06,
      "loss": 0.80596876,
      "num_input_tokens_seen": 86686630,
      "step": 4029,
      "time_per_iteration": 2.6737890243530273
    },
    {
      "auxiliary_loss_clip": 0.01060264,
      "auxiliary_loss_mlp": 0.01002844,
      "balance_loss_clip": 1.01424837,
      "balance_loss_mlp": 1.00169373,
      "epoch": 0.48457884927553657,
      "flos": 70303722854400.0,
      "grad_norm": 0.6904483917337092,
      "language_loss": 0.54135656,
      "learning_rate": 2.196761036967448e-06,
      "loss": 0.56198764,
      "num_input_tokens_seen": 86754595,
      "step": 4030,
      "time_per_iteration": 3.3451151847839355
    },
    {
      "auxiliary_loss_clip": 0.01172051,
      "auxiliary_loss_mlp": 0.01029454,
      "balance_loss_clip": 1.05138183,
      "balance_loss_mlp": 1.02143466,
      "epoch": 0.4846990921661757,
      "flos": 19934516206080.0,
      "grad_norm": 1.8338631848154794,
      "language_loss": 0.77600557,
      "learning_rate": 2.1959858293081743e-06,
      "loss": 0.7980206,
      "num_input_tokens_seen": 86773730,
      "step": 4031,
      "time_per_iteration": 2.6556506156921387
    },
    {
      "auxiliary_loss_clip": 0.01157468,
      "auxiliary_loss_mlp": 0.01027576,
      "balance_loss_clip": 1.05276132,
      "balance_loss_mlp": 1.01963711,
      "epoch": 0.4848193350568148,
      "flos": 23075945919360.0,
      "grad_norm": 1.6000973668427971,
      "language_loss": 0.76059097,
      "learning_rate": 2.1952105919180056e-06,
      "loss": 0.78244144,
      "num_input_tokens_seen": 86792985,
      "step": 4032,
      "time_per_iteration": 2.6986594200134277
    },
    {
      "auxiliary_loss_clip": 0.01166398,
      "auxiliary_loss_mlp": 0.0102885,
      "balance_loss_clip": 1.05237961,
      "balance_loss_mlp": 1.0203203,
      "epoch": 0.48493957794745385,
      "flos": 22455481363200.0,
      "grad_norm": 2.407382785641902,
      "language_loss": 0.68278778,
      "learning_rate": 2.1944353249145456e-06,
      "loss": 0.70474029,
      "num_input_tokens_seen": 86812095,
      "step": 4033,
      "time_per_iteration": 3.644361972808838
    },
    {
      "auxiliary_loss_clip": 0.01188107,
      "auxiliary_loss_mlp": 0.01029411,
      "balance_loss_clip": 1.0564959,
      "balance_loss_mlp": 1.02141762,
      "epoch": 0.48505982083809296,
      "flos": 25046112948480.0,
      "grad_norm": 2.104400058595553,
      "language_loss": 0.74563855,
      "learning_rate": 2.193660028415401e-06,
      "loss": 0.76781368,
      "num_input_tokens_seen": 86832875,
      "step": 4034,
      "time_per_iteration": 2.6706466674804688
    },
    {
      "auxiliary_loss_clip": 0.01160366,
      "auxiliary_loss_mlp": 0.01022531,
      "balance_loss_clip": 1.05119956,
      "balance_loss_mlp": 1.0143714,
      "epoch": 0.485180063728732,
      "flos": 26761386090240.0,
      "grad_norm": 1.813610545245124,
      "language_loss": 0.82164097,
      "learning_rate": 2.1928847025381852e-06,
      "loss": 0.84346986,
      "num_input_tokens_seen": 86853480,
      "step": 4035,
      "time_per_iteration": 2.6825015544891357
    },
    {
      "auxiliary_loss_clip": 0.01172809,
      "auxiliary_loss_mlp": 0.01032813,
      "balance_loss_clip": 1.04723036,
      "balance_loss_mlp": 1.0244683,
      "epoch": 0.4853003066193711,
      "flos": 24059143969920.0,
      "grad_norm": 4.375282134591334,
      "language_loss": 0.8410238,
      "learning_rate": 2.192109347400512e-06,
      "loss": 0.86308002,
      "num_input_tokens_seen": 86873695,
      "step": 4036,
      "time_per_iteration": 2.724717855453491
    },
    {
      "auxiliary_loss_clip": 0.01171599,
      "auxiliary_loss_mlp": 0.01032318,
      "balance_loss_clip": 1.05068171,
      "balance_loss_mlp": 1.02430105,
      "epoch": 0.48542054951001024,
      "flos": 23076376882560.0,
      "grad_norm": 2.283460318637029,
      "language_loss": 0.79146814,
      "learning_rate": 2.191333963120004e-06,
      "loss": 0.81350732,
      "num_input_tokens_seen": 86892675,
      "step": 4037,
      "time_per_iteration": 2.688917636871338
    },
    {
      "auxiliary_loss_clip": 0.01167475,
      "auxiliary_loss_mlp": 0.01030262,
      "balance_loss_clip": 1.05194342,
      "balance_loss_mlp": 1.02185178,
      "epoch": 0.4855407924006493,
      "flos": 25664889565440.0,
      "grad_norm": 3.041884269746737,
      "language_loss": 0.70098245,
      "learning_rate": 2.190558549814286e-06,
      "loss": 0.72295982,
      "num_input_tokens_seen": 86912835,
      "step": 4038,
      "time_per_iteration": 2.7554144859313965
    },
    {
      "auxiliary_loss_clip": 0.01163895,
      "auxiliary_loss_mlp": 0.01027753,
      "balance_loss_clip": 1.04883695,
      "balance_loss_mlp": 1.01980734,
      "epoch": 0.4856610352912884,
      "flos": 23987933256960.0,
      "grad_norm": 2.0138464459058625,
      "language_loss": 0.79400116,
      "learning_rate": 2.1897831076009872e-06,
      "loss": 0.81591761,
      "num_input_tokens_seen": 86932475,
      "step": 4039,
      "time_per_iteration": 3.661525249481201
    },
    {
      "auxiliary_loss_clip": 0.01180371,
      "auxiliary_loss_mlp": 0.01026963,
      "balance_loss_clip": 1.05452669,
      "balance_loss_mlp": 1.01882648,
      "epoch": 0.4857812781819275,
      "flos": 24096814358400.0,
      "grad_norm": 2.1552969393019312,
      "language_loss": 0.79876649,
      "learning_rate": 2.1890076365977426e-06,
      "loss": 0.82083988,
      "num_input_tokens_seen": 86952300,
      "step": 4040,
      "time_per_iteration": 2.7365164756774902
    },
    {
      "auxiliary_loss_clip": 0.01064756,
      "auxiliary_loss_mlp": 0.01005127,
      "balance_loss_clip": 1.01748514,
      "balance_loss_mlp": 1.00401807,
      "epoch": 0.48590152107256657,
      "flos": 56266635185280.0,
      "grad_norm": 0.8538470014639199,
      "language_loss": 0.52812469,
      "learning_rate": 2.188232136922189e-06,
      "loss": 0.54882348,
      "num_input_tokens_seen": 87010420,
      "step": 4041,
      "time_per_iteration": 4.0402257442474365
    },
    {
      "auxiliary_loss_clip": 0.01130994,
      "auxiliary_loss_mlp": 0.01033061,
      "balance_loss_clip": 1.04488778,
      "balance_loss_mlp": 1.02469301,
      "epoch": 0.4860217639632057,
      "flos": 20046988667520.0,
      "grad_norm": 2.0279276580281165,
      "language_loss": 0.75418031,
      "learning_rate": 2.187456608691971e-06,
      "loss": 0.77582085,
      "num_input_tokens_seen": 87029295,
      "step": 4042,
      "time_per_iteration": 2.822697877883911
    },
    {
      "auxiliary_loss_clip": 0.01164537,
      "auxiliary_loss_mlp": 0.01032765,
      "balance_loss_clip": 1.05473423,
      "balance_loss_mlp": 1.0248915,
      "epoch": 0.4861420068538448,
      "flos": 17822143232640.0,
      "grad_norm": 1.9259461896868253,
      "language_loss": 0.87652707,
      "learning_rate": 2.1866810520247334e-06,
      "loss": 0.89850008,
      "num_input_tokens_seen": 87048165,
      "step": 4043,
      "time_per_iteration": 2.846865653991699
    },
    {
      "auxiliary_loss_clip": 0.01180435,
      "auxiliary_loss_mlp": 0.01029333,
      "balance_loss_clip": 1.05106807,
      "balance_loss_mlp": 1.02063107,
      "epoch": 0.48626224974448384,
      "flos": 26250125857920.0,
      "grad_norm": 1.915757389364385,
      "language_loss": 0.64798486,
      "learning_rate": 2.185905467038129e-06,
      "loss": 0.67008257,
      "num_input_tokens_seen": 87067070,
      "step": 4044,
      "time_per_iteration": 2.6977570056915283
    },
    {
      "auxiliary_loss_clip": 0.01187502,
      "auxiliary_loss_mlp": 0.01030181,
      "balance_loss_clip": 1.05817163,
      "balance_loss_mlp": 1.02230763,
      "epoch": 0.48638249263512295,
      "flos": 22054502862720.0,
      "grad_norm": 1.7109697568510487,
      "language_loss": 0.77444041,
      "learning_rate": 2.1851298538498127e-06,
      "loss": 0.79661721,
      "num_input_tokens_seen": 87086785,
      "step": 4045,
      "time_per_iteration": 3.5962226390838623
    },
    {
      "auxiliary_loss_clip": 0.0118416,
      "auxiliary_loss_mlp": 0.00889058,
      "balance_loss_clip": 1.05487204,
      "balance_loss_mlp": 1.00075912,
      "epoch": 0.48650273552576206,
      "flos": 25119945354240.0,
      "grad_norm": 2.2640082710160754,
      "language_loss": 0.80137479,
      "learning_rate": 2.184354212577446e-06,
      "loss": 0.82210702,
      "num_input_tokens_seen": 87107090,
      "step": 4046,
      "time_per_iteration": 2.7903318405151367
    },
    {
      "auxiliary_loss_clip": 0.01188675,
      "auxiliary_loss_mlp": 0.01030891,
      "balance_loss_clip": 1.0542345,
      "balance_loss_mlp": 1.02217126,
      "epoch": 0.4866229784164011,
      "flos": 17456931699840.0,
      "grad_norm": 2.4038813986358862,
      "language_loss": 0.62660331,
      "learning_rate": 2.1835785433386907e-06,
      "loss": 0.64879894,
      "num_input_tokens_seen": 87125905,
      "step": 4047,
      "time_per_iteration": 2.600318193435669
    },
    {
      "auxiliary_loss_clip": 0.01151046,
      "auxiliary_loss_mlp": 0.01031051,
      "balance_loss_clip": 1.05345082,
      "balance_loss_mlp": 1.02249789,
      "epoch": 0.48674322130704023,
      "flos": 23331127115520.0,
      "grad_norm": 2.717775217091255,
      "language_loss": 0.65102619,
      "learning_rate": 2.182802846251216e-06,
      "loss": 0.67284715,
      "num_input_tokens_seen": 87146175,
      "step": 4048,
      "time_per_iteration": 2.701129913330078
    },
    {
      "auxiliary_loss_clip": 0.0116119,
      "auxiliary_loss_mlp": 0.01026766,
      "balance_loss_clip": 1.04884148,
      "balance_loss_mlp": 1.01861811,
      "epoch": 0.4868634641976793,
      "flos": 28804344030720.0,
      "grad_norm": 1.7065606876465673,
      "language_loss": 0.72282368,
      "learning_rate": 2.182027121432696e-06,
      "loss": 0.74470317,
      "num_input_tokens_seen": 87166800,
      "step": 4049,
      "time_per_iteration": 2.7224538326263428
    },
    {
      "auxiliary_loss_clip": 0.01192586,
      "auxiliary_loss_mlp": 0.01025925,
      "balance_loss_clip": 1.05729365,
      "balance_loss_mlp": 1.01727617,
      "epoch": 0.4869837070883184,
      "flos": 19025976574080.0,
      "grad_norm": 2.115698470026233,
      "language_loss": 0.82210064,
      "learning_rate": 2.1812513690008054e-06,
      "loss": 0.84428573,
      "num_input_tokens_seen": 87185920,
      "step": 4050,
      "time_per_iteration": 2.6354005336761475
    },
    {
      "auxiliary_loss_clip": 0.01182794,
      "auxiliary_loss_mlp": 0.01029429,
      "balance_loss_clip": 1.05250478,
      "balance_loss_mlp": 1.02055359,
      "epoch": 0.4871039499789575,
      "flos": 15121409483520.0,
      "grad_norm": 2.218277100535069,
      "language_loss": 0.80026269,
      "learning_rate": 2.180475589073227e-06,
      "loss": 0.82238495,
      "num_input_tokens_seen": 87203620,
      "step": 4051,
      "time_per_iteration": 2.6307835578918457
    },
    {
      "auxiliary_loss_clip": 0.01170456,
      "auxiliary_loss_mlp": 0.01024218,
      "balance_loss_clip": 1.0519917,
      "balance_loss_mlp": 1.01626706,
      "epoch": 0.48722419286959656,
      "flos": 26174066808960.0,
      "grad_norm": 1.6542993354109767,
      "language_loss": 0.72999716,
      "learning_rate": 2.1796997817676456e-06,
      "loss": 0.75194395,
      "num_input_tokens_seen": 87224630,
      "step": 4052,
      "time_per_iteration": 2.709235668182373
    },
    {
      "auxiliary_loss_clip": 0.01179045,
      "auxiliary_loss_mlp": 0.00887207,
      "balance_loss_clip": 1.05374503,
      "balance_loss_mlp": 1.00069213,
      "epoch": 0.4873444357602357,
      "flos": 24026142349440.0,
      "grad_norm": 1.53427090095763,
      "language_loss": 0.66924334,
      "learning_rate": 2.1789239472017494e-06,
      "loss": 0.68990588,
      "num_input_tokens_seen": 87246280,
      "step": 4053,
      "time_per_iteration": 2.6642568111419678
    },
    {
      "auxiliary_loss_clip": 0.01157413,
      "auxiliary_loss_mlp": 0.01028792,
      "balance_loss_clip": 1.04966164,
      "balance_loss_mlp": 1.02070975,
      "epoch": 0.4874646786508748,
      "flos": 22820441500800.0,
      "grad_norm": 2.3107468384906205,
      "language_loss": 0.72883201,
      "learning_rate": 2.1781480854932326e-06,
      "loss": 0.75069404,
      "num_input_tokens_seen": 87266045,
      "step": 4054,
      "time_per_iteration": 2.737445831298828
    },
    {
      "auxiliary_loss_clip": 0.01146634,
      "auxiliary_loss_mlp": 0.01030419,
      "balance_loss_clip": 1.05013597,
      "balance_loss_mlp": 1.02196157,
      "epoch": 0.48758492154151384,
      "flos": 21287594557440.0,
      "grad_norm": 2.1575398282860476,
      "language_loss": 0.78927898,
      "learning_rate": 2.1773721967597933e-06,
      "loss": 0.81104946,
      "num_input_tokens_seen": 87284495,
      "step": 4055,
      "time_per_iteration": 2.8320093154907227
    },
    {
      "auxiliary_loss_clip": 0.01056025,
      "auxiliary_loss_mlp": 0.01006153,
      "balance_loss_clip": 1.01484656,
      "balance_loss_mlp": 1.00496674,
      "epoch": 0.48770516443215295,
      "flos": 62244109180800.0,
      "grad_norm": 0.8522483050088733,
      "language_loss": 0.57293212,
      "learning_rate": 2.1765962811191322e-06,
      "loss": 0.5935539,
      "num_input_tokens_seen": 87338960,
      "step": 4056,
      "time_per_iteration": 3.152428388595581
    },
    {
      "auxiliary_loss_clip": 0.01045896,
      "auxiliary_loss_mlp": 0.01003127,
      "balance_loss_clip": 1.01438415,
      "balance_loss_mlp": 1.00199401,
      "epoch": 0.48782540732279206,
      "flos": 66133451882880.0,
      "grad_norm": 0.8399092365614883,
      "language_loss": 0.6196385,
      "learning_rate": 2.1758203386889566e-06,
      "loss": 0.64012873,
      "num_input_tokens_seen": 87401730,
      "step": 4057,
      "time_per_iteration": 3.3505454063415527
    },
    {
      "auxiliary_loss_clip": 0.01153702,
      "auxiliary_loss_mlp": 0.00887575,
      "balance_loss_clip": 1.04651439,
      "balance_loss_mlp": 1.00072932,
      "epoch": 0.4879456502134311,
      "flos": 14607922608000.0,
      "grad_norm": 3.1430425369601482,
      "language_loss": 0.84224451,
      "learning_rate": 2.1750443695869746e-06,
      "loss": 0.86265731,
      "num_input_tokens_seen": 87417300,
      "step": 4058,
      "time_per_iteration": 2.6858086585998535
    },
    {
      "auxiliary_loss_clip": 0.01180127,
      "auxiliary_loss_mlp": 0.01027159,
      "balance_loss_clip": 1.05302906,
      "balance_loss_mlp": 1.01818252,
      "epoch": 0.4880658931040702,
      "flos": 19500464257920.0,
      "grad_norm": 1.8654753496744887,
      "language_loss": 0.85813701,
      "learning_rate": 2.174268373930901e-06,
      "loss": 0.88020986,
      "num_input_tokens_seen": 87434815,
      "step": 4059,
      "time_per_iteration": 3.5390865802764893
    },
    {
      "auxiliary_loss_clip": 0.01154866,
      "auxiliary_loss_mlp": 0.00887806,
      "balance_loss_clip": 1.05501127,
      "balance_loss_mlp": 1.00059485,
      "epoch": 0.48818613599470934,
      "flos": 16723060928640.0,
      "grad_norm": 2.0534116468935704,
      "language_loss": 0.79872835,
      "learning_rate": 2.1734923518384537e-06,
      "loss": 0.8191551,
      "num_input_tokens_seen": 87451420,
      "step": 4060,
      "time_per_iteration": 2.742133617401123
    },
    {
      "auxiliary_loss_clip": 0.01149045,
      "auxiliary_loss_mlp": 0.01034332,
      "balance_loss_clip": 1.05502653,
      "balance_loss_mlp": 1.02579653,
      "epoch": 0.4883063788853484,
      "flos": 26756932803840.0,
      "grad_norm": 2.8334793338995103,
      "language_loss": 0.82634604,
      "learning_rate": 2.1727163034273547e-06,
      "loss": 0.84817982,
      "num_input_tokens_seen": 87469585,
      "step": 4061,
      "time_per_iteration": 2.7460601329803467
    },
    {
      "auxiliary_loss_clip": 0.01176727,
      "auxiliary_loss_mlp": 0.01026851,
      "balance_loss_clip": 1.0491178,
      "balance_loss_mlp": 1.01866102,
      "epoch": 0.4884266217759875,
      "flos": 16763388923520.0,
      "grad_norm": 2.7110433994367726,
      "language_loss": 0.78776121,
      "learning_rate": 2.17194022881533e-06,
      "loss": 0.80979705,
      "num_input_tokens_seen": 87485675,
      "step": 4062,
      "time_per_iteration": 2.6716866493225098
    },
    {
      "auxiliary_loss_clip": 0.01167296,
      "auxiliary_loss_mlp": 0.01033752,
      "balance_loss_clip": 1.04903173,
      "balance_loss_mlp": 1.02482295,
      "epoch": 0.4885468646666266,
      "flos": 24207132003840.0,
      "grad_norm": 2.0100301657919655,
      "language_loss": 0.67781794,
      "learning_rate": 2.1711641281201092e-06,
      "loss": 0.69982851,
      "num_input_tokens_seen": 87505605,
      "step": 4063,
      "time_per_iteration": 2.7003071308135986
    },
    {
      "auxiliary_loss_clip": 0.01177738,
      "auxiliary_loss_mlp": 0.01029859,
      "balance_loss_clip": 1.05373907,
      "balance_loss_mlp": 1.02168131,
      "epoch": 0.48866710755726567,
      "flos": 14610795696000.0,
      "grad_norm": 2.3792918855861687,
      "language_loss": 0.79486823,
      "learning_rate": 2.1703880014594264e-06,
      "loss": 0.81694418,
      "num_input_tokens_seen": 87523195,
      "step": 4064,
      "time_per_iteration": 2.685575008392334
    },
    {
      "auxiliary_loss_clip": 0.01141583,
      "auxiliary_loss_mlp": 0.01029408,
      "balance_loss_clip": 1.04904318,
      "balance_loss_mlp": 1.02154577,
      "epoch": 0.4887873504479048,
      "flos": 28804451771520.0,
      "grad_norm": 2.3619906458805358,
      "language_loss": 0.73935962,
      "learning_rate": 2.1696118489510182e-06,
      "loss": 0.76106954,
      "num_input_tokens_seen": 87544125,
      "step": 4065,
      "time_per_iteration": 3.8349556922912598
    },
    {
      "auxiliary_loss_clip": 0.01162303,
      "auxiliary_loss_mlp": 0.00887698,
      "balance_loss_clip": 1.05026948,
      "balance_loss_mlp": 1.00055623,
      "epoch": 0.48890759333854383,
      "flos": 22784387224320.0,
      "grad_norm": 1.9440443032653145,
      "language_loss": 0.72378731,
      "learning_rate": 2.1688356707126286e-06,
      "loss": 0.74428737,
      "num_input_tokens_seen": 87563745,
      "step": 4066,
      "time_per_iteration": 2.7078723907470703
    },
    {
      "auxiliary_loss_clip": 0.01155539,
      "auxiliary_loss_mlp": 0.01026813,
      "balance_loss_clip": 1.05169153,
      "balance_loss_mlp": 1.01785398,
      "epoch": 0.48902783622918294,
      "flos": 17786088956160.0,
      "grad_norm": 2.025252147154963,
      "language_loss": 0.70326072,
      "learning_rate": 2.168059466862001e-06,
      "loss": 0.72508425,
      "num_input_tokens_seen": 87581895,
      "step": 4067,
      "time_per_iteration": 3.5999341011047363
    },
    {
      "auxiliary_loss_clip": 0.01166943,
      "auxiliary_loss_mlp": 0.01029917,
      "balance_loss_clip": 1.04697418,
      "balance_loss_mlp": 1.02188277,
      "epoch": 0.48914807911982205,
      "flos": 22310294590080.0,
      "grad_norm": 2.2270385489207793,
      "language_loss": 0.81414407,
      "learning_rate": 2.167283237516887e-06,
      "loss": 0.83611274,
      "num_input_tokens_seen": 87600170,
      "step": 4068,
      "time_per_iteration": 2.6644833087921143
    },
    {
      "auxiliary_loss_clip": 0.01169788,
      "auxiliary_loss_mlp": 0.01027675,
      "balance_loss_clip": 1.04995656,
      "balance_loss_mlp": 1.01892531,
      "epoch": 0.4892683220104611,
      "flos": 16363020954240.0,
      "grad_norm": 1.7801699324834708,
      "language_loss": 0.74708641,
      "learning_rate": 2.1665069827950383e-06,
      "loss": 0.76906109,
      "num_input_tokens_seen": 87617455,
      "step": 4069,
      "time_per_iteration": 2.6833581924438477
    },
    {
      "auxiliary_loss_clip": 0.01164543,
      "auxiliary_loss_mlp": 0.01030817,
      "balance_loss_clip": 1.04955041,
      "balance_loss_mlp": 1.02190638,
      "epoch": 0.4893885649011002,
      "flos": 15739144606080.0,
      "grad_norm": 2.1689127370114276,
      "language_loss": 0.86311507,
      "learning_rate": 2.1657307028142126e-06,
      "loss": 0.88506866,
      "num_input_tokens_seen": 87634995,
      "step": 4070,
      "time_per_iteration": 2.6429545879364014
    },
    {
      "auxiliary_loss_clip": 0.01170365,
      "auxiliary_loss_mlp": 0.01025323,
      "balance_loss_clip": 1.05412817,
      "balance_loss_mlp": 1.01651299,
      "epoch": 0.48950880779173933,
      "flos": 28581984887040.0,
      "grad_norm": 1.9221841727405313,
      "language_loss": 0.67523623,
      "learning_rate": 2.164954397692171e-06,
      "loss": 0.69719315,
      "num_input_tokens_seen": 87654420,
      "step": 4071,
      "time_per_iteration": 3.6328372955322266
    },
    {
      "auxiliary_loss_clip": 0.01068059,
      "auxiliary_loss_mlp": 0.01004671,
      "balance_loss_clip": 1.01550293,
      "balance_loss_mlp": 1.003479,
      "epoch": 0.4896290506823784,
      "flos": 66186310746240.0,
      "grad_norm": 1.0859526450153667,
      "language_loss": 0.77331239,
      "learning_rate": 2.164178067546678e-06,
      "loss": 0.79403973,
      "num_input_tokens_seen": 87713585,
      "step": 4072,
      "time_per_iteration": 3.313581705093384
    },
    {
      "auxiliary_loss_clip": 0.01170573,
      "auxiliary_loss_mlp": 0.01031933,
      "balance_loss_clip": 1.04759169,
      "balance_loss_mlp": 1.02375531,
      "epoch": 0.4897492935730175,
      "flos": 12531065207040.0,
      "grad_norm": 1.9458433323581519,
      "language_loss": 0.91150683,
      "learning_rate": 2.163401712495504e-06,
      "loss": 0.93353188,
      "num_input_tokens_seen": 87731280,
      "step": 4073,
      "time_per_iteration": 2.622891426086426
    },
    {
      "auxiliary_loss_clip": 0.01150091,
      "auxiliary_loss_mlp": 0.0103153,
      "balance_loss_clip": 1.04812777,
      "balance_loss_mlp": 1.02317977,
      "epoch": 0.4898695364636566,
      "flos": 23476816679040.0,
      "grad_norm": 1.6214376710530738,
      "language_loss": 0.79384458,
      "learning_rate": 2.1626253326564194e-06,
      "loss": 0.81566083,
      "num_input_tokens_seen": 87750230,
      "step": 4074,
      "time_per_iteration": 2.746584415435791
    },
    {
      "auxiliary_loss_clip": 0.01164963,
      "auxiliary_loss_mlp": 0.01027729,
      "balance_loss_clip": 1.0483768,
      "balance_loss_mlp": 1.01933682,
      "epoch": 0.48998977935429566,
      "flos": 27160209774720.0,
      "grad_norm": 1.805681046358491,
      "language_loss": 0.77046603,
      "learning_rate": 2.161848928147201e-06,
      "loss": 0.79239297,
      "num_input_tokens_seen": 87770500,
      "step": 4075,
      "time_per_iteration": 2.7139573097229004
    },
    {
      "auxiliary_loss_clip": 0.01177295,
      "auxiliary_loss_mlp": 0.01032439,
      "balance_loss_clip": 1.05335963,
      "balance_loss_mlp": 1.02323568,
      "epoch": 0.4901100222449348,
      "flos": 20339588856960.0,
      "grad_norm": 2.062717299942844,
      "language_loss": 0.80653995,
      "learning_rate": 2.161072499085629e-06,
      "loss": 0.8286373,
      "num_input_tokens_seen": 87789495,
      "step": 4076,
      "time_per_iteration": 2.6604397296905518
    },
    {
      "auxiliary_loss_clip": 0.0116489,
      "auxiliary_loss_mlp": 0.0104009,
      "balance_loss_clip": 1.05075622,
      "balance_loss_mlp": 1.03198361,
      "epoch": 0.4902302651355739,
      "flos": 30446359384320.0,
      "grad_norm": 1.7579457177773683,
      "language_loss": 0.82962775,
      "learning_rate": 2.160296045589487e-06,
      "loss": 0.85167754,
      "num_input_tokens_seen": 87812955,
      "step": 4077,
      "time_per_iteration": 2.7782504558563232
    },
    {
      "auxiliary_loss_clip": 0.01178074,
      "auxiliary_loss_mlp": 0.01029834,
      "balance_loss_clip": 1.0528084,
      "balance_loss_mlp": 1.02060103,
      "epoch": 0.49035050802621294,
      "flos": 19174180089600.0,
      "grad_norm": 1.6705802630346223,
      "language_loss": 0.69828868,
      "learning_rate": 2.159519567776562e-06,
      "loss": 0.72036779,
      "num_input_tokens_seen": 87832605,
      "step": 4078,
      "time_per_iteration": 2.634380340576172
    },
    {
      "auxiliary_loss_clip": 0.01151957,
      "auxiliary_loss_mlp": 0.01025892,
      "balance_loss_clip": 1.04529226,
      "balance_loss_mlp": 1.01760101,
      "epoch": 0.49047075091685205,
      "flos": 22228489365120.0,
      "grad_norm": 2.706273458829982,
      "language_loss": 0.70449442,
      "learning_rate": 2.1587430657646463e-06,
      "loss": 0.72627294,
      "num_input_tokens_seen": 87846040,
      "step": 4079,
      "time_per_iteration": 2.719510793685913
    },
    {
      "auxiliary_loss_clip": 0.01167007,
      "auxiliary_loss_mlp": 0.01030282,
      "balance_loss_clip": 1.0528419,
      "balance_loss_mlp": 1.0225451,
      "epoch": 0.4905909938074911,
      "flos": 20156516213760.0,
      "grad_norm": 2.011787504858451,
      "language_loss": 0.77913439,
      "learning_rate": 2.157966539671533e-06,
      "loss": 0.80110729,
      "num_input_tokens_seen": 87865680,
      "step": 4080,
      "time_per_iteration": 2.6773910522460938
    },
    {
      "auxiliary_loss_clip": 0.01160484,
      "auxiliary_loss_mlp": 0.01032907,
      "balance_loss_clip": 1.04831219,
      "balance_loss_mlp": 1.02487826,
      "epoch": 0.4907112366981302,
      "flos": 17202217380480.0,
      "grad_norm": 1.9717634525766188,
      "language_loss": 0.67263901,
      "learning_rate": 2.157189989615021e-06,
      "loss": 0.69457293,
      "num_input_tokens_seen": 87884270,
      "step": 4081,
      "time_per_iteration": 2.7442564964294434
    },
    {
      "auxiliary_loss_clip": 0.01177577,
      "auxiliary_loss_mlp": 0.00888189,
      "balance_loss_clip": 1.0500381,
      "balance_loss_mlp": 1.00050378,
      "epoch": 0.4908314795887693,
      "flos": 21688968107520.0,
      "grad_norm": 1.746329094306434,
      "language_loss": 0.75124538,
      "learning_rate": 2.156413415712913e-06,
      "loss": 0.7719031,
      "num_input_tokens_seen": 87906320,
      "step": 4082,
      "time_per_iteration": 2.6410062313079834
    },
    {
      "auxiliary_loss_clip": 0.01173697,
      "auxiliary_loss_mlp": 0.00888111,
      "balance_loss_clip": 1.05190921,
      "balance_loss_mlp": 1.00060785,
      "epoch": 0.4909517224794084,
      "flos": 26213676531840.0,
      "grad_norm": 1.937038548170265,
      "language_loss": 0.78453231,
      "learning_rate": 2.155636818083014e-06,
      "loss": 0.80515033,
      "num_input_tokens_seen": 87927690,
      "step": 4083,
      "time_per_iteration": 2.7691569328308105
    },
    {
      "auxiliary_loss_clip": 0.01162805,
      "auxiliary_loss_mlp": 0.01031923,
      "balance_loss_clip": 1.05246496,
      "balance_loss_mlp": 1.02395368,
      "epoch": 0.4910719653700475,
      "flos": 23148377694720.0,
      "grad_norm": 1.957169705935429,
      "language_loss": 0.84331381,
      "learning_rate": 2.154860196843134e-06,
      "loss": 0.86526108,
      "num_input_tokens_seen": 87946885,
      "step": 4084,
      "time_per_iteration": 2.6394741535186768
    },
    {
      "auxiliary_loss_clip": 0.01188529,
      "auxiliary_loss_mlp": 0.01030488,
      "balance_loss_clip": 1.05390394,
      "balance_loss_mlp": 1.02223909,
      "epoch": 0.4911922082606866,
      "flos": 23331845387520.0,
      "grad_norm": 1.784855842432866,
      "language_loss": 0.76953113,
      "learning_rate": 2.154083552111085e-06,
      "loss": 0.79172134,
      "num_input_tokens_seen": 87966055,
      "step": 4085,
      "time_per_iteration": 3.510544776916504
    },
    {
      "auxiliary_loss_clip": 0.01187938,
      "auxiliary_loss_mlp": 0.01026253,
      "balance_loss_clip": 1.05265474,
      "balance_loss_mlp": 1.01775336,
      "epoch": 0.49131245115132566,
      "flos": 29203239542400.0,
      "grad_norm": 1.7528597895037237,
      "language_loss": 0.81534123,
      "learning_rate": 2.1533068840046834e-06,
      "loss": 0.83748311,
      "num_input_tokens_seen": 87986320,
      "step": 4086,
      "time_per_iteration": 2.651379108428955
    },
    {
      "auxiliary_loss_clip": 0.01159585,
      "auxiliary_loss_mlp": 0.00888059,
      "balance_loss_clip": 1.05051923,
      "balance_loss_mlp": 1.00064206,
      "epoch": 0.49143269404196477,
      "flos": 20147465986560.0,
      "grad_norm": 2.7739692602771777,
      "language_loss": 0.6159116,
      "learning_rate": 2.152530192641749e-06,
      "loss": 0.63638806,
      "num_input_tokens_seen": 88001230,
      "step": 4087,
      "time_per_iteration": 2.7140183448791504
    },
    {
      "auxiliary_loss_clip": 0.01181661,
      "auxiliary_loss_mlp": 0.01035165,
      "balance_loss_clip": 1.05365419,
      "balance_loss_mlp": 1.02620614,
      "epoch": 0.4915529369326039,
      "flos": 24389809597440.0,
      "grad_norm": 1.9046219292671942,
      "language_loss": 0.72462189,
      "learning_rate": 2.1517534781401068e-06,
      "loss": 0.74679017,
      "num_input_tokens_seen": 88019110,
      "step": 4088,
      "time_per_iteration": 2.664233922958374
    },
    {
      "auxiliary_loss_clip": 0.01175945,
      "auxiliary_loss_mlp": 0.01023099,
      "balance_loss_clip": 1.05242085,
      "balance_loss_mlp": 1.01496899,
      "epoch": 0.49167317982324293,
      "flos": 10524305197440.0,
      "grad_norm": 3.7069332189671274,
      "language_loss": 0.69205201,
      "learning_rate": 2.150976740617581e-06,
      "loss": 0.71404243,
      "num_input_tokens_seen": 88035670,
      "step": 4089,
      "time_per_iteration": 2.621859312057495
    },
    {
      "auxiliary_loss_clip": 0.01170963,
      "auxiliary_loss_mlp": 0.01030079,
      "balance_loss_clip": 1.05218852,
      "balance_loss_mlp": 1.02166331,
      "epoch": 0.49179342271388204,
      "flos": 25593427457280.0,
      "grad_norm": 1.8179143004691367,
      "language_loss": 0.71282077,
      "learning_rate": 2.150199980192006e-06,
      "loss": 0.73483121,
      "num_input_tokens_seen": 88054790,
      "step": 4090,
      "time_per_iteration": 2.7344870567321777
    },
    {
      "auxiliary_loss_clip": 0.01163583,
      "auxiliary_loss_mlp": 0.01028271,
      "balance_loss_clip": 1.04986989,
      "balance_loss_mlp": 1.01985478,
      "epoch": 0.49191366560452116,
      "flos": 21102043875840.0,
      "grad_norm": 5.614571809189194,
      "language_loss": 0.80686939,
      "learning_rate": 2.1494231969812114e-06,
      "loss": 0.82878792,
      "num_input_tokens_seen": 88073780,
      "step": 4091,
      "time_per_iteration": 3.6720502376556396
    },
    {
      "auxiliary_loss_clip": 0.01165561,
      "auxiliary_loss_mlp": 0.01039302,
      "balance_loss_clip": 1.05242276,
      "balance_loss_mlp": 1.03047466,
      "epoch": 0.4920339084951602,
      "flos": 26067520091520.0,
      "grad_norm": 3.077254177136541,
      "language_loss": 0.81404662,
      "learning_rate": 2.1486463911030372e-06,
      "loss": 0.83609521,
      "num_input_tokens_seen": 88094430,
      "step": 4092,
      "time_per_iteration": 2.7176713943481445
    },
    {
      "auxiliary_loss_clip": 0.01164495,
      "auxiliary_loss_mlp": 0.01027338,
      "balance_loss_clip": 1.04844296,
      "balance_loss_mlp": 1.01915455,
      "epoch": 0.4921541513857993,
      "flos": 25081269384960.0,
      "grad_norm": 2.1184365579236886,
      "language_loss": 0.74690658,
      "learning_rate": 2.147869562675324e-06,
      "loss": 0.76882493,
      "num_input_tokens_seen": 88113400,
      "step": 4093,
      "time_per_iteration": 3.5976614952087402
    },
    {
      "auxiliary_loss_clip": 0.01178282,
      "auxiliary_loss_mlp": 0.01033175,
      "balance_loss_clip": 1.05556536,
      "balance_loss_mlp": 1.02415133,
      "epoch": 0.49227439427643843,
      "flos": 24389809597440.0,
      "grad_norm": 3.970275784757389,
      "language_loss": 0.72546136,
      "learning_rate": 2.147092711815915e-06,
      "loss": 0.74757588,
      "num_input_tokens_seen": 88132750,
      "step": 4094,
      "time_per_iteration": 2.6502413749694824
    },
    {
      "auxiliary_loss_clip": 0.01157782,
      "auxiliary_loss_mlp": 0.01029749,
      "balance_loss_clip": 1.05200195,
      "balance_loss_mlp": 1.02125561,
      "epoch": 0.4923946371670775,
      "flos": 11363753018880.0,
      "grad_norm": 2.515994122807601,
      "language_loss": 0.86551178,
      "learning_rate": 2.1463158386426593e-06,
      "loss": 0.88738704,
      "num_input_tokens_seen": 88150560,
      "step": 4095,
      "time_per_iteration": 2.6963469982147217
    },
    {
      "auxiliary_loss_clip": 0.01171179,
      "auxiliary_loss_mlp": 0.010236,
      "balance_loss_clip": 1.0512048,
      "balance_loss_mlp": 1.0143975,
      "epoch": 0.4925148800577166,
      "flos": 30445964334720.0,
      "grad_norm": 2.6224796803586026,
      "language_loss": 0.77564228,
      "learning_rate": 2.145538943273407e-06,
      "loss": 0.79759008,
      "num_input_tokens_seen": 88170835,
      "step": 4096,
      "time_per_iteration": 2.752408742904663
    },
    {
      "auxiliary_loss_clip": 0.01189962,
      "auxiliary_loss_mlp": 0.01031239,
      "balance_loss_clip": 1.05603004,
      "balance_loss_mlp": 1.02256024,
      "epoch": 0.49263512294835565,
      "flos": 20850454039680.0,
      "grad_norm": 1.8639911056881573,
      "language_loss": 0.71952987,
      "learning_rate": 2.144762025826013e-06,
      "loss": 0.7417419,
      "num_input_tokens_seen": 88189925,
      "step": 4097,
      "time_per_iteration": 3.693948268890381
    },
    {
      "auxiliary_loss_clip": 0.01181791,
      "auxiliary_loss_mlp": 0.01029024,
      "balance_loss_clip": 1.05299139,
      "balance_loss_mlp": 1.02064395,
      "epoch": 0.49275536583899476,
      "flos": 23767477534080.0,
      "grad_norm": 2.139993736434873,
      "language_loss": 0.87193155,
      "learning_rate": 2.143985086418334e-06,
      "loss": 0.89403975,
      "num_input_tokens_seen": 88205105,
      "step": 4098,
      "time_per_iteration": 2.7105789184570312
    },
    {
      "auxiliary_loss_clip": 0.01171994,
      "auxiliary_loss_mlp": 0.01029678,
      "balance_loss_clip": 1.05170226,
      "balance_loss_mlp": 1.02174497,
      "epoch": 0.4928756087296339,
      "flos": 22273522041600.0,
      "grad_norm": 1.401201775362574,
      "language_loss": 0.76439834,
      "learning_rate": 2.1432081251682324e-06,
      "loss": 0.78641504,
      "num_input_tokens_seen": 88225475,
      "step": 4099,
      "time_per_iteration": 2.6833066940307617
    },
    {
      "auxiliary_loss_clip": 0.01175047,
      "auxiliary_loss_mlp": 0.01036911,
      "balance_loss_clip": 1.05378485,
      "balance_loss_mlp": 1.02785659,
      "epoch": 0.49299585162027293,
      "flos": 19645471463040.0,
      "grad_norm": 2.2196279081139534,
      "language_loss": 0.86797208,
      "learning_rate": 2.142431142193572e-06,
      "loss": 0.89009166,
      "num_input_tokens_seen": 88243255,
      "step": 4100,
      "time_per_iteration": 2.6787145137786865
    },
    {
      "auxiliary_loss_clip": 0.01184447,
      "auxiliary_loss_mlp": 0.01024834,
      "balance_loss_clip": 1.0532428,
      "balance_loss_mlp": 1.01666224,
      "epoch": 0.49311609451091204,
      "flos": 38837138497920.0,
      "grad_norm": 2.701288368084575,
      "language_loss": 0.72298896,
      "learning_rate": 2.1416541376122207e-06,
      "loss": 0.74508178,
      "num_input_tokens_seen": 88263435,
      "step": 4101,
      "time_per_iteration": 2.8464581966400146
    },
    {
      "auxiliary_loss_clip": 0.01186031,
      "auxiliary_loss_mlp": 0.01029104,
      "balance_loss_clip": 1.0526191,
      "balance_loss_mlp": 1.02047372,
      "epoch": 0.49323633740155115,
      "flos": 28329102161280.0,
      "grad_norm": 1.9278499393766262,
      "language_loss": 0.73121262,
      "learning_rate": 2.1408771115420496e-06,
      "loss": 0.75336397,
      "num_input_tokens_seen": 88283295,
      "step": 4102,
      "time_per_iteration": 2.7400760650634766
    },
    {
      "auxiliary_loss_clip": 0.01152361,
      "auxiliary_loss_mlp": 0.01030434,
      "balance_loss_clip": 1.0517838,
      "balance_loss_mlp": 1.02264309,
      "epoch": 0.4933565802921902,
      "flos": 21135584200320.0,
      "grad_norm": 1.8101615978875374,
      "language_loss": 0.65063632,
      "learning_rate": 2.140100064100932e-06,
      "loss": 0.67246425,
      "num_input_tokens_seen": 88299270,
      "step": 4103,
      "time_per_iteration": 2.725130319595337
    },
    {
      "auxiliary_loss_clip": 0.01174662,
      "auxiliary_loss_mlp": 0.01030609,
      "balance_loss_clip": 1.05342674,
      "balance_loss_mlp": 1.02260399,
      "epoch": 0.4934768231828293,
      "flos": 18039007595520.0,
      "grad_norm": 2.29551132610969,
      "language_loss": 0.76324928,
      "learning_rate": 2.139322995406746e-06,
      "loss": 0.78530204,
      "num_input_tokens_seen": 88316905,
      "step": 4104,
      "time_per_iteration": 2.5820138454437256
    },
    {
      "auxiliary_loss_clip": 0.01189512,
      "auxiliary_loss_mlp": 0.01031518,
      "balance_loss_clip": 1.05638981,
      "balance_loss_mlp": 1.0229404,
      "epoch": 0.4935970660734684,
      "flos": 23469957181440.0,
      "grad_norm": 2.1680997285153603,
      "language_loss": 0.79596442,
      "learning_rate": 2.1385459055773727e-06,
      "loss": 0.81817472,
      "num_input_tokens_seen": 88335095,
      "step": 4105,
      "time_per_iteration": 2.6220815181732178
    },
    {
      "auxiliary_loss_clip": 0.0113295,
      "auxiliary_loss_mlp": 0.00886413,
      "balance_loss_clip": 1.0456723,
      "balance_loss_mlp": 1.00052094,
      "epoch": 0.4937173089641075,
      "flos": 64479258840960.0,
      "grad_norm": 1.9740791842556884,
      "language_loss": 0.74201179,
      "learning_rate": 2.137768794730696e-06,
      "loss": 0.76220542,
      "num_input_tokens_seen": 88358545,
      "step": 4106,
      "time_per_iteration": 3.125803232192993
    },
    {
      "auxiliary_loss_clip": 0.01171949,
      "auxiliary_loss_mlp": 0.01035349,
      "balance_loss_clip": 1.05300248,
      "balance_loss_mlp": 1.02655149,
      "epoch": 0.4938375518547466,
      "flos": 22346025644160.0,
      "grad_norm": 2.931294239894787,
      "language_loss": 0.80396807,
      "learning_rate": 2.1369916629846026e-06,
      "loss": 0.82604098,
      "num_input_tokens_seen": 88378295,
      "step": 4107,
      "time_per_iteration": 2.6584904193878174
    },
    {
      "auxiliary_loss_clip": 0.01167255,
      "auxiliary_loss_mlp": 0.01025414,
      "balance_loss_clip": 1.04972601,
      "balance_loss_mlp": 1.01739669,
      "epoch": 0.4939577947453857,
      "flos": 17858700299520.0,
      "grad_norm": 2.4125524338278956,
      "language_loss": 0.75464034,
      "learning_rate": 2.136214510456983e-06,
      "loss": 0.77656698,
      "num_input_tokens_seen": 88396750,
      "step": 4108,
      "time_per_iteration": 2.695321559906006
    },
    {
      "auxiliary_loss_clip": 0.01061638,
      "auxiliary_loss_mlp": 0.00876033,
      "balance_loss_clip": 1.01740003,
      "balance_loss_mlp": 1.00015497,
      "epoch": 0.49407803763602476,
      "flos": 70066746875520.0,
      "grad_norm": 0.891352926033869,
      "language_loss": 0.62996536,
      "learning_rate": 2.1354373372657296e-06,
      "loss": 0.64934206,
      "num_input_tokens_seen": 88455190,
      "step": 4109,
      "time_per_iteration": 3.338078022003174
    },
    {
      "auxiliary_loss_clip": 0.0118761,
      "auxiliary_loss_mlp": 0.01027983,
      "balance_loss_clip": 1.05568302,
      "balance_loss_mlp": 1.01987696,
      "epoch": 0.49419828052666387,
      "flos": 24317485562880.0,
      "grad_norm": 1.7659068836041436,
      "language_loss": 0.71011961,
      "learning_rate": 2.1346601435287404e-06,
      "loss": 0.73227549,
      "num_input_tokens_seen": 88477460,
      "step": 4110,
      "time_per_iteration": 2.646240472793579
    },
    {
      "auxiliary_loss_clip": 0.01165871,
      "auxiliary_loss_mlp": 0.01033187,
      "balance_loss_clip": 1.04947054,
      "balance_loss_mlp": 1.02540839,
      "epoch": 0.494318523417303,
      "flos": 29386060790400.0,
      "grad_norm": 2.3330710739144633,
      "language_loss": 0.80432606,
      "learning_rate": 2.1338829293639144e-06,
      "loss": 0.82631665,
      "num_input_tokens_seen": 88497820,
      "step": 4111,
      "time_per_iteration": 3.661823272705078
    },
    {
      "auxiliary_loss_clip": 0.0114632,
      "auxiliary_loss_mlp": 0.01028901,
      "balance_loss_clip": 1.04708171,
      "balance_loss_mlp": 1.02028215,
      "epoch": 0.49443876630794203,
      "flos": 15268284195840.0,
      "grad_norm": 2.749342464337924,
      "language_loss": 0.8301878,
      "learning_rate": 2.1331056948891547e-06,
      "loss": 0.85194004,
      "num_input_tokens_seen": 88514920,
      "step": 4112,
      "time_per_iteration": 2.7366695404052734
    },
    {
      "auxiliary_loss_clip": 0.01161931,
      "auxiliary_loss_mlp": 0.01033807,
      "balance_loss_clip": 1.04954219,
      "balance_loss_mlp": 1.02555776,
      "epoch": 0.49455900919858115,
      "flos": 12347453859840.0,
      "grad_norm": 2.5836686379204576,
      "language_loss": 0.76531065,
      "learning_rate": 2.1323284402223666e-06,
      "loss": 0.78726798,
      "num_input_tokens_seen": 88530910,
      "step": 4113,
      "time_per_iteration": 2.6379103660583496
    },
    {
      "auxiliary_loss_clip": 0.01187942,
      "auxiliary_loss_mlp": 0.0088588,
      "balance_loss_clip": 1.05845213,
      "balance_loss_mlp": 1.00046217,
      "epoch": 0.4946792520892202,
      "flos": 22779610715520.0,
      "grad_norm": 2.2600464731262844,
      "language_loss": 0.88130367,
      "learning_rate": 2.1315511654814597e-06,
      "loss": 0.90204191,
      "num_input_tokens_seen": 88549320,
      "step": 4114,
      "time_per_iteration": 2.6690759658813477
    },
    {
      "auxiliary_loss_clip": 0.01160674,
      "auxiliary_loss_mlp": 0.01026373,
      "balance_loss_clip": 1.05350721,
      "balance_loss_mlp": 1.0187968,
      "epoch": 0.4947994949798593,
      "flos": 23148126299520.0,
      "grad_norm": 2.6602006019962716,
      "language_loss": 0.78344774,
      "learning_rate": 2.1307738707843456e-06,
      "loss": 0.80531818,
      "num_input_tokens_seen": 88568985,
      "step": 4115,
      "time_per_iteration": 2.6864304542541504
    },
    {
      "auxiliary_loss_clip": 0.01184997,
      "auxiliary_loss_mlp": 0.0103193,
      "balance_loss_clip": 1.05486357,
      "balance_loss_mlp": 1.02287591,
      "epoch": 0.4949197378704984,
      "flos": 23659997063040.0,
      "grad_norm": 2.6094684439595497,
      "language_loss": 0.69140685,
      "learning_rate": 2.1299965562489385e-06,
      "loss": 0.71357608,
      "num_input_tokens_seen": 88588790,
      "step": 4116,
      "time_per_iteration": 2.7471933364868164
    },
    {
      "auxiliary_loss_clip": 0.01175623,
      "auxiliary_loss_mlp": 0.0102968,
      "balance_loss_clip": 1.05123234,
      "balance_loss_mlp": 1.02147269,
      "epoch": 0.4950399807611375,
      "flos": 26911493026560.0,
      "grad_norm": 1.6223312642346235,
      "language_loss": 0.79002738,
      "learning_rate": 2.129219221993158e-06,
      "loss": 0.81208038,
      "num_input_tokens_seen": 88613575,
      "step": 4117,
      "time_per_iteration": 3.7151753902435303
    },
    {
      "auxiliary_loss_clip": 0.01063252,
      "auxiliary_loss_mlp": 0.01000929,
      "balance_loss_clip": 1.01980209,
      "balance_loss_mlp": 0.99976027,
      "epoch": 0.4951602236517766,
      "flos": 67315270187520.0,
      "grad_norm": 0.7849099092639965,
      "language_loss": 0.5988909,
      "learning_rate": 2.128441868134924e-06,
      "loss": 0.6195327,
      "num_input_tokens_seen": 88675510,
      "step": 4118,
      "time_per_iteration": 3.323741912841797
    },
    {
      "auxiliary_loss_clip": 0.01161172,
      "auxiliary_loss_mlp": 0.01025917,
      "balance_loss_clip": 1.04895043,
      "balance_loss_mlp": 1.0173223,
      "epoch": 0.4952804665424157,
      "flos": 19901442758400.0,
      "grad_norm": 2.0767945284093443,
      "language_loss": 0.82708716,
      "learning_rate": 2.1276644947921606e-06,
      "loss": 0.84895802,
      "num_input_tokens_seen": 88694425,
      "step": 4119,
      "time_per_iteration": 3.628304958343506
    },
    {
      "auxiliary_loss_clip": 0.01176668,
      "auxiliary_loss_mlp": 0.0102535,
      "balance_loss_clip": 1.05244112,
      "balance_loss_mlp": 1.01656437,
      "epoch": 0.49540070943305475,
      "flos": 18806813740800.0,
      "grad_norm": 5.730225470130708,
      "language_loss": 0.82275271,
      "learning_rate": 2.126887102082795e-06,
      "loss": 0.84477293,
      "num_input_tokens_seen": 88714450,
      "step": 4120,
      "time_per_iteration": 2.7256979942321777
    },
    {
      "auxiliary_loss_clip": 0.01157259,
      "auxiliary_loss_mlp": 0.01032006,
      "balance_loss_clip": 1.04718959,
      "balance_loss_mlp": 1.02324462,
      "epoch": 0.49552095232369386,
      "flos": 24934179191040.0,
      "grad_norm": 1.5923442884274566,
      "language_loss": 0.70442605,
      "learning_rate": 2.126109690124757e-06,
      "loss": 0.72631872,
      "num_input_tokens_seen": 88735265,
      "step": 4121,
      "time_per_iteration": 2.755472421646118
    },
    {
      "auxiliary_loss_clip": 0.0115017,
      "auxiliary_loss_mlp": 0.01031136,
      "balance_loss_clip": 1.047912,
      "balance_loss_mlp": 1.02260041,
      "epoch": 0.495641195214333,
      "flos": 22857249962880.0,
      "grad_norm": 1.9593854807893332,
      "language_loss": 0.71139383,
      "learning_rate": 2.1253322590359786e-06,
      "loss": 0.73320687,
      "num_input_tokens_seen": 88754600,
      "step": 4122,
      "time_per_iteration": 2.7915287017822266
    },
    {
      "auxiliary_loss_clip": 0.01173217,
      "auxiliary_loss_mlp": 0.010289,
      "balance_loss_clip": 1.0504458,
      "balance_loss_mlp": 1.02032304,
      "epoch": 0.49576143810497203,
      "flos": 25769748343680.0,
      "grad_norm": 2.483515959588082,
      "language_loss": 0.73983699,
      "learning_rate": 2.124554808934397e-06,
      "loss": 0.76185817,
      "num_input_tokens_seen": 88775180,
      "step": 4123,
      "time_per_iteration": 3.647165298461914
    },
    {
      "auxiliary_loss_clip": 0.01141219,
      "auxiliary_loss_mlp": 0.01028862,
      "balance_loss_clip": 1.04443204,
      "balance_loss_mlp": 1.02010036,
      "epoch": 0.49588168099561114,
      "flos": 22128838058880.0,
      "grad_norm": 2.3324730479902653,
      "language_loss": 0.73040128,
      "learning_rate": 2.1237773399379496e-06,
      "loss": 0.75210208,
      "num_input_tokens_seen": 88796145,
      "step": 4124,
      "time_per_iteration": 2.8221166133880615
    },
    {
      "auxiliary_loss_clip": 0.01170825,
      "auxiliary_loss_mlp": 0.01028144,
      "balance_loss_clip": 1.0463891,
      "balance_loss_mlp": 1.0191679,
      "epoch": 0.49600192388625025,
      "flos": 24387331559040.0,
      "grad_norm": 2.054002800190044,
      "language_loss": 0.86943805,
      "learning_rate": 2.122999852164578e-06,
      "loss": 0.89142776,
      "num_input_tokens_seen": 88816765,
      "step": 4125,
      "time_per_iteration": 2.678480863571167
    },
    {
      "auxiliary_loss_clip": 0.01147064,
      "auxiliary_loss_mlp": 0.01031742,
      "balance_loss_clip": 1.05002141,
      "balance_loss_mlp": 1.02304578,
      "epoch": 0.4961221667768893,
      "flos": 22857429530880.0,
      "grad_norm": 2.24682543687152,
      "language_loss": 0.59083056,
      "learning_rate": 2.122222345732227e-06,
      "loss": 0.61261863,
      "num_input_tokens_seen": 88836680,
      "step": 4126,
      "time_per_iteration": 2.8016092777252197
    },
    {
      "auxiliary_loss_clip": 0.01157463,
      "auxiliary_loss_mlp": 0.0102792,
      "balance_loss_clip": 1.04776788,
      "balance_loss_mlp": 1.01933742,
      "epoch": 0.4962424096675284,
      "flos": 17858089768320.0,
      "grad_norm": 1.6779678918505996,
      "language_loss": 0.83009434,
      "learning_rate": 2.121444820758843e-06,
      "loss": 0.85194826,
      "num_input_tokens_seen": 88855320,
      "step": 4127,
      "time_per_iteration": 2.6821014881134033
    },
    {
      "auxiliary_loss_clip": 0.01148446,
      "auxiliary_loss_mlp": 0.01035994,
      "balance_loss_clip": 1.04978883,
      "balance_loss_mlp": 1.02705908,
      "epoch": 0.49636265255816747,
      "flos": 21793611404160.0,
      "grad_norm": 2.02809484535576,
      "language_loss": 0.78475976,
      "learning_rate": 2.120667277362376e-06,
      "loss": 0.80660421,
      "num_input_tokens_seen": 88874035,
      "step": 4128,
      "time_per_iteration": 2.8205833435058594
    },
    {
      "auxiliary_loss_clip": 0.01192301,
      "auxiliary_loss_mlp": 0.01031352,
      "balance_loss_clip": 1.05709958,
      "balance_loss_mlp": 1.02192807,
      "epoch": 0.4964828954488066,
      "flos": 16358603581440.0,
      "grad_norm": 2.6327363288136105,
      "language_loss": 0.84933174,
      "learning_rate": 2.1198897156607796e-06,
      "loss": 0.8715682,
      "num_input_tokens_seen": 88891390,
      "step": 4129,
      "time_per_iteration": 2.5566751956939697
    },
    {
      "auxiliary_loss_clip": 0.01180192,
      "auxiliary_loss_mlp": 0.01028936,
      "balance_loss_clip": 1.05103719,
      "balance_loss_mlp": 1.0201149,
      "epoch": 0.4966031383394457,
      "flos": 24711101775360.0,
      "grad_norm": 5.35066414174663,
      "language_loss": 0.73752892,
      "learning_rate": 2.1191121357720085e-06,
      "loss": 0.75962019,
      "num_input_tokens_seen": 88909450,
      "step": 4130,
      "time_per_iteration": 2.7074108123779297
    },
    {
      "auxiliary_loss_clip": 0.01136067,
      "auxiliary_loss_mlp": 0.01029232,
      "balance_loss_clip": 1.04400885,
      "balance_loss_mlp": 1.02093506,
      "epoch": 0.49672338123008475,
      "flos": 22930615491840.0,
      "grad_norm": 1.7160113866740598,
      "language_loss": 0.74565232,
      "learning_rate": 2.1183345378140206e-06,
      "loss": 0.76730537,
      "num_input_tokens_seen": 88929195,
      "step": 4131,
      "time_per_iteration": 2.8197669982910156
    },
    {
      "auxiliary_loss_clip": 0.01072637,
      "auxiliary_loss_mlp": 0.01002131,
      "balance_loss_clip": 1.01484752,
      "balance_loss_mlp": 1.00102282,
      "epoch": 0.49684362412072386,
      "flos": 65976736844160.0,
      "grad_norm": 0.8711247730815476,
      "language_loss": 0.61952001,
      "learning_rate": 2.1175569219047783e-06,
      "loss": 0.64026773,
      "num_input_tokens_seen": 88990635,
      "step": 4132,
      "time_per_iteration": 3.3439621925354004
    },
    {
      "auxiliary_loss_clip": 0.01187244,
      "auxiliary_loss_mlp": 0.01029132,
      "balance_loss_clip": 1.05482507,
      "balance_loss_mlp": 1.0203228,
      "epoch": 0.49696386701136297,
      "flos": 19971288754560.0,
      "grad_norm": 1.9286992082146996,
      "language_loss": 0.73461366,
      "learning_rate": 2.1167792881622437e-06,
      "loss": 0.75677741,
      "num_input_tokens_seen": 89009655,
      "step": 4133,
      "time_per_iteration": 2.6586501598358154
    },
    {
      "auxiliary_loss_clip": 0.01166461,
      "auxiliary_loss_mlp": 0.01030848,
      "balance_loss_clip": 1.05481088,
      "balance_loss_mlp": 1.02240205,
      "epoch": 0.497084109902002,
      "flos": 24750819239040.0,
      "grad_norm": 1.5184367802622423,
      "language_loss": 0.80754805,
      "learning_rate": 2.116001636704384e-06,
      "loss": 0.82952106,
      "num_input_tokens_seen": 89030040,
      "step": 4134,
      "time_per_iteration": 2.7650883197784424
    },
    {
      "auxiliary_loss_clip": 0.01156836,
      "auxiliary_loss_mlp": 0.01029638,
      "balance_loss_clip": 1.04845929,
      "balance_loss_mlp": 1.02190137,
      "epoch": 0.49720435279264114,
      "flos": 21871825269120.0,
      "grad_norm": 1.920688795276984,
      "language_loss": 0.80582058,
      "learning_rate": 2.1152239676491685e-06,
      "loss": 0.8276853,
      "num_input_tokens_seen": 89048145,
      "step": 4135,
      "time_per_iteration": 2.794172763824463
    },
    {
      "auxiliary_loss_clip": 0.01169418,
      "auxiliary_loss_mlp": 0.01030438,
      "balance_loss_clip": 1.04702854,
      "balance_loss_mlp": 1.02220023,
      "epoch": 0.49732459568328025,
      "flos": 23805794367360.0,
      "grad_norm": 2.238904945317595,
      "language_loss": 0.73586142,
      "learning_rate": 2.114446281114569e-06,
      "loss": 0.75786,
      "num_input_tokens_seen": 89067165,
      "step": 4136,
      "time_per_iteration": 3.6610171794891357
    },
    {
      "auxiliary_loss_clip": 0.01157211,
      "auxiliary_loss_mlp": 0.01033061,
      "balance_loss_clip": 1.04979551,
      "balance_loss_mlp": 1.02467728,
      "epoch": 0.4974448385739193,
      "flos": 20047742853120.0,
      "grad_norm": 2.0393588827774227,
      "language_loss": 0.76165563,
      "learning_rate": 2.1136685772185587e-06,
      "loss": 0.78355837,
      "num_input_tokens_seen": 89086190,
      "step": 4137,
      "time_per_iteration": 2.6667494773864746
    },
    {
      "auxiliary_loss_clip": 0.01168378,
      "auxiliary_loss_mlp": 0.00887961,
      "balance_loss_clip": 1.0472641,
      "balance_loss_mlp": 1.00055623,
      "epoch": 0.4975650814645584,
      "flos": 24821347593600.0,
      "grad_norm": 1.64875984282363,
      "language_loss": 0.77971572,
      "learning_rate": 2.1128908560791163e-06,
      "loss": 0.80027908,
      "num_input_tokens_seen": 89106020,
      "step": 4138,
      "time_per_iteration": 2.7267308235168457
    },
    {
      "auxiliary_loss_clip": 0.01187455,
      "auxiliary_loss_mlp": 0.01027476,
      "balance_loss_clip": 1.055058,
      "balance_loss_mlp": 1.01967418,
      "epoch": 0.4976853243551975,
      "flos": 19829477859840.0,
      "grad_norm": 1.8838310246628358,
      "language_loss": 0.78655422,
      "learning_rate": 2.1121131178142203e-06,
      "loss": 0.80870354,
      "num_input_tokens_seen": 89125385,
      "step": 4139,
      "time_per_iteration": 2.621076822280884
    },
    {
      "auxiliary_loss_clip": 0.01166155,
      "auxiliary_loss_mlp": 0.01024749,
      "balance_loss_clip": 1.04862785,
      "balance_loss_mlp": 1.01711929,
      "epoch": 0.4978055672458366,
      "flos": 23142990654720.0,
      "grad_norm": 1.5375829189212205,
      "language_loss": 0.82443035,
      "learning_rate": 2.1113353625418544e-06,
      "loss": 0.84633934,
      "num_input_tokens_seen": 89143935,
      "step": 4140,
      "time_per_iteration": 2.6958982944488525
    },
    {
      "auxiliary_loss_clip": 0.01172646,
      "auxiliary_loss_mlp": 0.01023996,
      "balance_loss_clip": 1.05591094,
      "balance_loss_mlp": 1.01637256,
      "epoch": 0.4979258101364757,
      "flos": 15559914718080.0,
      "grad_norm": 1.6402491066746594,
      "language_loss": 0.79051995,
      "learning_rate": 2.1105575903800017e-06,
      "loss": 0.81248641,
      "num_input_tokens_seen": 89162655,
      "step": 4141,
      "time_per_iteration": 2.583178997039795
    },
    {
      "auxiliary_loss_clip": 0.01183642,
      "auxiliary_loss_mlp": 0.01031428,
      "balance_loss_clip": 1.05467379,
      "balance_loss_mlp": 1.02310109,
      "epoch": 0.4980460530271148,
      "flos": 26356169784960.0,
      "grad_norm": 1.9289808820036458,
      "language_loss": 0.85172319,
      "learning_rate": 2.1097798014466502e-06,
      "loss": 0.87387395,
      "num_input_tokens_seen": 89182255,
      "step": 4142,
      "time_per_iteration": 2.734968423843384
    },
    {
      "auxiliary_loss_clip": 0.01181078,
      "auxiliary_loss_mlp": 0.0102896,
      "balance_loss_clip": 1.05194914,
      "balance_loss_mlp": 1.01989388,
      "epoch": 0.49816629591775385,
      "flos": 17274541415040.0,
      "grad_norm": 2.5609313706065677,
      "language_loss": 0.58696651,
      "learning_rate": 2.109001995859791e-06,
      "loss": 0.60906684,
      "num_input_tokens_seen": 89201155,
      "step": 4143,
      "time_per_iteration": 3.692047357559204
    },
    {
      "auxiliary_loss_clip": 0.01063865,
      "auxiliary_loss_mlp": 0.01000902,
      "balance_loss_clip": 1.01592588,
      "balance_loss_mlp": 0.99969178,
      "epoch": 0.49828653880839296,
      "flos": 64930947344640.0,
      "grad_norm": 0.7937888165122746,
      "language_loss": 0.60051972,
      "learning_rate": 2.108224173737415e-06,
      "loss": 0.62116736,
      "num_input_tokens_seen": 89264455,
      "step": 4144,
      "time_per_iteration": 3.2429823875427246
    },
    {
      "auxiliary_loss_clip": 0.0116542,
      "auxiliary_loss_mlp": 0.01030288,
      "balance_loss_clip": 1.04927588,
      "balance_loss_mlp": 1.02158618,
      "epoch": 0.498406781699032,
      "flos": 27484806003840.0,
      "grad_norm": 1.8688171812974166,
      "language_loss": 0.76294851,
      "learning_rate": 2.1074463351975183e-06,
      "loss": 0.78490555,
      "num_input_tokens_seen": 89283340,
      "step": 4145,
      "time_per_iteration": 2.7638213634490967
    },
    {
      "auxiliary_loss_clip": 0.0116191,
      "auxiliary_loss_mlp": 0.01031794,
      "balance_loss_clip": 1.04893589,
      "balance_loss_mlp": 1.02398574,
      "epoch": 0.49852702458967113,
      "flos": 31499870307840.0,
      "grad_norm": 1.792282334024415,
      "language_loss": 0.71919709,
      "learning_rate": 2.106668480358098e-06,
      "loss": 0.74113411,
      "num_input_tokens_seen": 89303565,
      "step": 4146,
      "time_per_iteration": 3.5775978565216064
    },
    {
      "auxiliary_loss_clip": 0.01167519,
      "auxiliary_loss_mlp": 0.01030207,
      "balance_loss_clip": 1.04680252,
      "balance_loss_mlp": 1.02084291,
      "epoch": 0.49864726748031024,
      "flos": 22852868503680.0,
      "grad_norm": 1.8107599056933041,
      "language_loss": 0.70992982,
      "learning_rate": 2.105890609337154e-06,
      "loss": 0.73190707,
      "num_input_tokens_seen": 89322080,
      "step": 4147,
      "time_per_iteration": 2.719407320022583
    },
    {
      "auxiliary_loss_clip": 0.01078136,
      "auxiliary_loss_mlp": 0.01001492,
      "balance_loss_clip": 1.01581693,
      "balance_loss_mlp": 1.00038326,
      "epoch": 0.4987675103709493,
      "flos": 70405708544640.0,
      "grad_norm": 0.687906559281776,
      "language_loss": 0.63824856,
      "learning_rate": 2.1051127222526883e-06,
      "loss": 0.6590448,
      "num_input_tokens_seen": 89394195,
      "step": 4148,
      "time_per_iteration": 3.307260751724243
    },
    {
      "auxiliary_loss_clip": 0.01175607,
      "auxiliary_loss_mlp": 0.01036329,
      "balance_loss_clip": 1.0544281,
      "balance_loss_mlp": 1.02827609,
      "epoch": 0.4988877532615884,
      "flos": 28767571482240.0,
      "grad_norm": 1.7948458286288551,
      "language_loss": 0.80559742,
      "learning_rate": 2.1043348192227067e-06,
      "loss": 0.82771677,
      "num_input_tokens_seen": 89414565,
      "step": 4149,
      "time_per_iteration": 3.656339645385742
    },
    {
      "auxiliary_loss_clip": 0.01147754,
      "auxiliary_loss_mlp": 0.01027893,
      "balance_loss_clip": 1.04874372,
      "balance_loss_mlp": 1.02032864,
      "epoch": 0.4990079961522275,
      "flos": 16872700988160.0,
      "grad_norm": 1.8554165250536803,
      "language_loss": 0.61523604,
      "learning_rate": 2.1035569003652156e-06,
      "loss": 0.63699251,
      "num_input_tokens_seen": 89433195,
      "step": 4150,
      "time_per_iteration": 2.736226797103882
    },
    {
      "auxiliary_loss_clip": 0.01142962,
      "auxiliary_loss_mlp": 0.01033679,
      "balance_loss_clip": 1.04623365,
      "balance_loss_mlp": 1.02474439,
      "epoch": 0.4991282390428666,
      "flos": 13291042187520.0,
      "grad_norm": 1.9489638515986667,
      "language_loss": 0.81573212,
      "learning_rate": 2.1027789657982255e-06,
      "loss": 0.83749849,
      "num_input_tokens_seen": 89447410,
      "step": 4151,
      "time_per_iteration": 2.727672576904297
    },
    {
      "auxiliary_loss_clip": 0.01148847,
      "auxiliary_loss_mlp": 0.01029422,
      "balance_loss_clip": 1.04791474,
      "balance_loss_mlp": 1.02117825,
      "epoch": 0.4992484819335057,
      "flos": 21537496454400.0,
      "grad_norm": 2.1288881354822893,
      "language_loss": 0.77216589,
      "learning_rate": 2.1020010156397482e-06,
      "loss": 0.79394859,
      "num_input_tokens_seen": 89464630,
      "step": 4152,
      "time_per_iteration": 2.7762434482574463
    },
    {
      "auxiliary_loss_clip": 0.01178095,
      "auxiliary_loss_mlp": 0.01030534,
      "balance_loss_clip": 1.05242205,
      "balance_loss_mlp": 1.02128911,
      "epoch": 0.4993687248241448,
      "flos": 24860095390080.0,
      "grad_norm": 1.6113374293155964,
      "language_loss": 0.77457571,
      "learning_rate": 2.101223050007797e-06,
      "loss": 0.79666203,
      "num_input_tokens_seen": 89483180,
      "step": 4153,
      "time_per_iteration": 2.7403564453125
    },
    {
      "auxiliary_loss_clip": 0.01077246,
      "auxiliary_loss_mlp": 0.01002174,
      "balance_loss_clip": 1.01472712,
      "balance_loss_mlp": 1.00106525,
      "epoch": 0.49948896771478385,
      "flos": 62941602453120.0,
      "grad_norm": 0.8100567439363878,
      "language_loss": 0.53790826,
      "learning_rate": 2.1004450690203904e-06,
      "loss": 0.55870247,
      "num_input_tokens_seen": 89539260,
      "step": 4154,
      "time_per_iteration": 3.217785358428955
    },
    {
      "auxiliary_loss_clip": 0.01077415,
      "auxiliary_loss_mlp": 0.01003027,
      "balance_loss_clip": 1.01490414,
      "balance_loss_mlp": 1.00185323,
      "epoch": 0.49960921060542296,
      "flos": 68284213516800.0,
      "grad_norm": 0.9265209224216069,
      "language_loss": 0.63331199,
      "learning_rate": 2.099667072795546e-06,
      "loss": 0.65411639,
      "num_input_tokens_seen": 89601380,
      "step": 4155,
      "time_per_iteration": 3.262239933013916
    },
    {
      "auxiliary_loss_clip": 0.01173377,
      "auxiliary_loss_mlp": 0.01030278,
      "balance_loss_clip": 1.04933381,
      "balance_loss_mlp": 1.02148044,
      "epoch": 0.49972945349606207,
      "flos": 23659350618240.0,
      "grad_norm": 1.7912179106462272,
      "language_loss": 0.79800832,
      "learning_rate": 2.0988890614512864e-06,
      "loss": 0.82004488,
      "num_input_tokens_seen": 89621270,
      "step": 4156,
      "time_per_iteration": 2.7218236923217773
    },
    {
      "auxiliary_loss_clip": 0.01170071,
      "auxiliary_loss_mlp": 0.01024994,
      "balance_loss_clip": 1.05368507,
      "balance_loss_mlp": 1.01676297,
      "epoch": 0.4998496963867011,
      "flos": 19755825022080.0,
      "grad_norm": 1.7763474468292615,
      "language_loss": 0.84432209,
      "learning_rate": 2.098111035105635e-06,
      "loss": 0.86627269,
      "num_input_tokens_seen": 89639695,
      "step": 4157,
      "time_per_iteration": 2.7170143127441406
    },
    {
      "auxiliary_loss_clip": 0.01148724,
      "auxiliary_loss_mlp": 0.01028413,
      "balance_loss_clip": 1.05154407,
      "balance_loss_mlp": 1.02030063,
      "epoch": 0.49996993927734024,
      "flos": 22265728790400.0,
      "grad_norm": 2.9177916316552324,
      "language_loss": 0.7340095,
      "learning_rate": 2.0973329938766176e-06,
      "loss": 0.75578082,
      "num_input_tokens_seen": 89657125,
      "step": 4158,
      "time_per_iteration": 2.762817859649658
    },
    {
      "auxiliary_loss_clip": 0.01185465,
      "auxiliary_loss_mlp": 0.01030529,
      "balance_loss_clip": 1.05438316,
      "balance_loss_mlp": 1.02183914,
      "epoch": 0.5000901821679793,
      "flos": 23327212533120.0,
      "grad_norm": 1.9677706684900125,
      "language_loss": 0.78752112,
      "learning_rate": 2.0965549378822618e-06,
      "loss": 0.80968106,
      "num_input_tokens_seen": 89678415,
      "step": 4159,
      "time_per_iteration": 2.6490261554718018
    },
    {
      "auxiliary_loss_clip": 0.0111724,
      "auxiliary_loss_mlp": 0.01029991,
      "balance_loss_clip": 1.04363561,
      "balance_loss_mlp": 1.02123499,
      "epoch": 0.5002104250586185,
      "flos": 20339014239360.0,
      "grad_norm": 2.721184273644788,
      "language_loss": 0.83930475,
      "learning_rate": 2.095776867240599e-06,
      "loss": 0.86077714,
      "num_input_tokens_seen": 89695405,
      "step": 4160,
      "time_per_iteration": 2.9710333347320557
    },
    {
      "auxiliary_loss_clip": 0.01152269,
      "auxiliary_loss_mlp": 0.01032718,
      "balance_loss_clip": 1.04939198,
      "balance_loss_mlp": 1.02409875,
      "epoch": 0.5003306679492575,
      "flos": 13991372634240.0,
      "grad_norm": 1.9310522308666478,
      "language_loss": 0.8246839,
      "learning_rate": 2.094998782069661e-06,
      "loss": 0.84653378,
      "num_input_tokens_seen": 89713110,
      "step": 4161,
      "time_per_iteration": 2.86411714553833
    },
    {
      "auxiliary_loss_clip": 0.01187651,
      "auxiliary_loss_mlp": 0.01032565,
      "balance_loss_clip": 1.05583203,
      "balance_loss_mlp": 1.0240829,
      "epoch": 0.5004509108398966,
      "flos": 27672762896640.0,
      "grad_norm": 1.686740928250113,
      "language_loss": 0.75876433,
      "learning_rate": 2.0942206824874845e-06,
      "loss": 0.78096652,
      "num_input_tokens_seen": 89735885,
      "step": 4162,
      "time_per_iteration": 3.8083343505859375
    },
    {
      "auxiliary_loss_clip": 0.01172006,
      "auxiliary_loss_mlp": 0.01033873,
      "balance_loss_clip": 1.05053091,
      "balance_loss_mlp": 1.02474761,
      "epoch": 0.5005711537305357,
      "flos": 14976186796800.0,
      "grad_norm": 4.787606771650664,
      "language_loss": 0.79045361,
      "learning_rate": 2.093442568612105e-06,
      "loss": 0.8125124,
      "num_input_tokens_seen": 89753690,
      "step": 4163,
      "time_per_iteration": 2.9623537063598633
    },
    {
      "auxiliary_loss_clip": 0.01187646,
      "auxiliary_loss_mlp": 0.01029962,
      "balance_loss_clip": 1.05317843,
      "balance_loss_mlp": 1.02086687,
      "epoch": 0.5006913966211748,
      "flos": 26503259978880.0,
      "grad_norm": 1.5312677668166699,
      "language_loss": 0.85258138,
      "learning_rate": 2.0926644405615613e-06,
      "loss": 0.87475747,
      "num_input_tokens_seen": 89774590,
      "step": 4164,
      "time_per_iteration": 2.6538286209106445
    },
    {
      "auxiliary_loss_clip": 0.01155373,
      "auxiliary_loss_mlp": 0.0103043,
      "balance_loss_clip": 1.0499202,
      "balance_loss_mlp": 1.02227569,
      "epoch": 0.5008116395118138,
      "flos": 20449295971200.0,
      "grad_norm": 1.775742651525084,
      "language_loss": 0.81112111,
      "learning_rate": 2.091886298453897e-06,
      "loss": 0.8329792,
      "num_input_tokens_seen": 89792775,
      "step": 4165,
      "time_per_iteration": 2.749903678894043
    },
    {
      "auxiliary_loss_clip": 0.01175409,
      "auxiliary_loss_mlp": 0.01031729,
      "balance_loss_clip": 1.05134284,
      "balance_loss_mlp": 1.02315176,
      "epoch": 0.500931882402453,
      "flos": 21579871524480.0,
      "grad_norm": 2.1903175961677643,
      "language_loss": 0.73103392,
      "learning_rate": 2.091108142407153e-06,
      "loss": 0.75310528,
      "num_input_tokens_seen": 89811515,
      "step": 4166,
      "time_per_iteration": 2.639673948287964
    },
    {
      "auxiliary_loss_clip": 0.01059133,
      "auxiliary_loss_mlp": 0.01001982,
      "balance_loss_clip": 1.01237774,
      "balance_loss_mlp": 1.00082552,
      "epoch": 0.5010521252930921,
      "flos": 57785011925760.0,
      "grad_norm": 0.8373923858939123,
      "language_loss": 0.62369829,
      "learning_rate": 2.090329972539377e-06,
      "loss": 0.64430946,
      "num_input_tokens_seen": 89870080,
      "step": 4167,
      "time_per_iteration": 3.29019832611084
    },
    {
      "auxiliary_loss_clip": 0.01111128,
      "auxiliary_loss_mlp": 0.01028962,
      "balance_loss_clip": 1.04501224,
      "balance_loss_mlp": 1.02038479,
      "epoch": 0.5011723681837311,
      "flos": 18625500864000.0,
      "grad_norm": 1.69542023071899,
      "language_loss": 0.68556297,
      "learning_rate": 2.089551788968616e-06,
      "loss": 0.7069639,
      "num_input_tokens_seen": 89888045,
      "step": 4168,
      "time_per_iteration": 4.030146360397339
    },
    {
      "auxiliary_loss_clip": 0.01077562,
      "auxiliary_loss_mlp": 0.01001359,
      "balance_loss_clip": 1.01520252,
      "balance_loss_mlp": 1.0002327,
      "epoch": 0.5012926110743702,
      "flos": 55883146608000.0,
      "grad_norm": 0.8358578786279018,
      "language_loss": 0.60744286,
      "learning_rate": 2.08877359181292e-06,
      "loss": 0.62823212,
      "num_input_tokens_seen": 89944610,
      "step": 4169,
      "time_per_iteration": 3.3798446655273438
    },
    {
      "auxiliary_loss_clip": 0.0116144,
      "auxiliary_loss_mlp": 0.01029251,
      "balance_loss_clip": 1.04738331,
      "balance_loss_mlp": 1.02089477,
      "epoch": 0.5014128539650093,
      "flos": 24238266117120.0,
      "grad_norm": 2.712008096398238,
      "language_loss": 0.85148448,
      "learning_rate": 2.0879953811903396e-06,
      "loss": 0.87339139,
      "num_input_tokens_seen": 89959495,
      "step": 4170,
      "time_per_iteration": 2.7811458110809326
    },
    {
      "auxiliary_loss_clip": 0.01177009,
      "auxiliary_loss_mlp": 0.0102922,
      "balance_loss_clip": 1.05496681,
      "balance_loss_mlp": 1.02022552,
      "epoch": 0.5015330968556484,
      "flos": 27527468382720.0,
      "grad_norm": 2.6564231800574203,
      "language_loss": 0.78490078,
      "learning_rate": 2.08721715721893e-06,
      "loss": 0.80696309,
      "num_input_tokens_seen": 89978820,
      "step": 4171,
      "time_per_iteration": 3.6017160415649414
    },
    {
      "auxiliary_loss_clip": 0.01177713,
      "auxiliary_loss_mlp": 0.01030385,
      "balance_loss_clip": 1.05363941,
      "balance_loss_mlp": 1.02183175,
      "epoch": 0.5016533397462875,
      "flos": 23800802376960.0,
      "grad_norm": 2.101513495342323,
      "language_loss": 0.77602232,
      "learning_rate": 2.0864389200167477e-06,
      "loss": 0.79810333,
      "num_input_tokens_seen": 89997075,
      "step": 4172,
      "time_per_iteration": 2.6867153644561768
    },
    {
      "auxiliary_loss_clip": 0.01180362,
      "auxiliary_loss_mlp": 0.0088715,
      "balance_loss_clip": 1.05308294,
      "balance_loss_mlp": 1.0004456,
      "epoch": 0.5017735826369266,
      "flos": 25295009264640.0,
      "grad_norm": 1.7119876355946924,
      "language_loss": 0.7941606,
      "learning_rate": 2.0856606697018504e-06,
      "loss": 0.81483579,
      "num_input_tokens_seen": 90015085,
      "step": 4173,
      "time_per_iteration": 2.725170373916626
    },
    {
      "auxiliary_loss_clip": 0.01163854,
      "auxiliary_loss_mlp": 0.01030359,
      "balance_loss_clip": 1.0503056,
      "balance_loss_mlp": 1.02193069,
      "epoch": 0.5018938255275657,
      "flos": 16873203778560.0,
      "grad_norm": 2.9958085795976217,
      "language_loss": 0.73138863,
      "learning_rate": 2.084882406392297e-06,
      "loss": 0.75333077,
      "num_input_tokens_seen": 90033045,
      "step": 4174,
      "time_per_iteration": 2.6334433555603027
    },
    {
      "auxiliary_loss_clip": 0.01178005,
      "auxiliary_loss_mlp": 0.01027054,
      "balance_loss_clip": 1.05275738,
      "balance_loss_mlp": 1.01888835,
      "epoch": 0.5020140684182047,
      "flos": 25515429073920.0,
      "grad_norm": 2.1339089940109632,
      "language_loss": 0.70838046,
      "learning_rate": 2.0841041302061496e-06,
      "loss": 0.73043108,
      "num_input_tokens_seen": 90052505,
      "step": 4175,
      "time_per_iteration": 4.00925087928772
    },
    {
      "auxiliary_loss_clip": 0.01156466,
      "auxiliary_loss_mlp": 0.01031818,
      "balance_loss_clip": 1.04729176,
      "balance_loss_mlp": 1.02384913,
      "epoch": 0.5021343113088439,
      "flos": 23659278791040.0,
      "grad_norm": 1.831953217719057,
      "language_loss": 0.75503719,
      "learning_rate": 2.083325841261473e-06,
      "loss": 0.77691996,
      "num_input_tokens_seen": 90071565,
      "step": 4176,
      "time_per_iteration": 2.7629783153533936
    },
    {
      "auxiliary_loss_clip": 0.01159082,
      "auxiliary_loss_mlp": 0.0103133,
      "balance_loss_clip": 1.04634356,
      "balance_loss_mlp": 1.02241349,
      "epoch": 0.502254554199483,
      "flos": 24534673148160.0,
      "grad_norm": 2.507876544725324,
      "language_loss": 0.66391736,
      "learning_rate": 2.0825475396763322e-06,
      "loss": 0.68582147,
      "num_input_tokens_seen": 90092215,
      "step": 4177,
      "time_per_iteration": 2.737764358520508
    },
    {
      "auxiliary_loss_clip": 0.0110654,
      "auxiliary_loss_mlp": 0.01026781,
      "balance_loss_clip": 1.03818297,
      "balance_loss_mlp": 1.01869297,
      "epoch": 0.502374797090122,
      "flos": 34240285607040.0,
      "grad_norm": 1.4065617339332603,
      "language_loss": 0.65635312,
      "learning_rate": 2.081769225568796e-06,
      "loss": 0.67768633,
      "num_input_tokens_seen": 90114665,
      "step": 4178,
      "time_per_iteration": 3.122556209564209
    },
    {
      "auxiliary_loss_clip": 0.01177369,
      "auxiliary_loss_mlp": 0.01028984,
      "balance_loss_clip": 1.05010009,
      "balance_loss_mlp": 1.02047849,
      "epoch": 0.5024950399807612,
      "flos": 26031106679040.0,
      "grad_norm": 1.487156143738059,
      "language_loss": 0.76003182,
      "learning_rate": 2.0809908990569327e-06,
      "loss": 0.78209531,
      "num_input_tokens_seen": 90136445,
      "step": 4179,
      "time_per_iteration": 3.41923451423645
    },
    {
      "auxiliary_loss_clip": 0.01166264,
      "auxiliary_loss_mlp": 0.01033361,
      "balance_loss_clip": 1.05090022,
      "balance_loss_mlp": 1.0246172,
      "epoch": 0.5026152828714002,
      "flos": 21252438120960.0,
      "grad_norm": 3.339487375159306,
      "language_loss": 0.79293704,
      "learning_rate": 2.0802125602588146e-06,
      "loss": 0.8149333,
      "num_input_tokens_seen": 90155710,
      "step": 4180,
      "time_per_iteration": 2.7720465660095215
    },
    {
      "auxiliary_loss_clip": 0.01189068,
      "auxiliary_loss_mlp": 0.01030095,
      "balance_loss_clip": 1.05554414,
      "balance_loss_mlp": 1.0208621,
      "epoch": 0.5027355257620393,
      "flos": 30956111245440.0,
      "grad_norm": 1.9920129014888242,
      "language_loss": 0.66546071,
      "learning_rate": 2.0794342092925146e-06,
      "loss": 0.68765235,
      "num_input_tokens_seen": 90176845,
      "step": 4181,
      "time_per_iteration": 2.716237783432007
    },
    {
      "auxiliary_loss_clip": 0.011799,
      "auxiliary_loss_mlp": 0.01027175,
      "balance_loss_clip": 1.05428457,
      "balance_loss_mlp": 1.01898527,
      "epoch": 0.5028557686526784,
      "flos": 24791147233920.0,
      "grad_norm": 1.903379366263353,
      "language_loss": 0.67308784,
      "learning_rate": 2.078655846276108e-06,
      "loss": 0.69515854,
      "num_input_tokens_seen": 90197175,
      "step": 4182,
      "time_per_iteration": 2.6768319606781006
    },
    {
      "auxiliary_loss_clip": 0.01162565,
      "auxiliary_loss_mlp": 0.01028645,
      "balance_loss_clip": 1.04949439,
      "balance_loss_mlp": 1.02015173,
      "epoch": 0.5029760115433175,
      "flos": 22966992990720.0,
      "grad_norm": 1.922651184875025,
      "language_loss": 0.68703783,
      "learning_rate": 2.0778774713276727e-06,
      "loss": 0.70894998,
      "num_input_tokens_seen": 90216650,
      "step": 4183,
      "time_per_iteration": 2.76020884513855
    },
    {
      "auxiliary_loss_clip": 0.01171484,
      "auxiliary_loss_mlp": 0.01030595,
      "balance_loss_clip": 1.04736853,
      "balance_loss_mlp": 1.02113581,
      "epoch": 0.5030962544339566,
      "flos": 15305164485120.0,
      "grad_norm": 2.217205512333479,
      "language_loss": 0.68294919,
      "learning_rate": 2.077099084565287e-06,
      "loss": 0.70497,
      "num_input_tokens_seen": 90234055,
      "step": 4184,
      "time_per_iteration": 2.6574220657348633
    },
    {
      "auxiliary_loss_clip": 0.01160974,
      "auxiliary_loss_mlp": 0.01027626,
      "balance_loss_clip": 1.04710937,
      "balance_loss_mlp": 1.01931071,
      "epoch": 0.5032164973245957,
      "flos": 24494847943680.0,
      "grad_norm": 2.3178641180854247,
      "language_loss": 0.65445733,
      "learning_rate": 2.0763206861070313e-06,
      "loss": 0.67634332,
      "num_input_tokens_seen": 90253115,
      "step": 4185,
      "time_per_iteration": 2.7009243965148926
    },
    {
      "auxiliary_loss_clip": 0.01188158,
      "auxiliary_loss_mlp": 0.01033425,
      "balance_loss_clip": 1.05438709,
      "balance_loss_mlp": 1.02447212,
      "epoch": 0.5033367402152348,
      "flos": 16213452721920.0,
      "grad_norm": 1.9949329642906108,
      "language_loss": 0.75183702,
      "learning_rate": 2.0755422760709876e-06,
      "loss": 0.7740528,
      "num_input_tokens_seen": 90270515,
      "step": 4186,
      "time_per_iteration": 2.575951337814331
    },
    {
      "auxiliary_loss_clip": 0.01141828,
      "auxiliary_loss_mlp": 0.01032096,
      "balance_loss_clip": 1.04742098,
      "balance_loss_mlp": 1.02311349,
      "epoch": 0.5034569831058738,
      "flos": 21391375927680.0,
      "grad_norm": 2.1591772695672984,
      "language_loss": 0.77026415,
      "learning_rate": 2.0747638545752417e-06,
      "loss": 0.79200339,
      "num_input_tokens_seen": 90289075,
      "step": 4187,
      "time_per_iteration": 2.799647092819214
    },
    {
      "auxiliary_loss_clip": 0.01165184,
      "auxiliary_loss_mlp": 0.01028077,
      "balance_loss_clip": 1.05172849,
      "balance_loss_mlp": 1.01986396,
      "epoch": 0.503577225996513,
      "flos": 20558751690240.0,
      "grad_norm": 2.5737571188396795,
      "language_loss": 0.83203602,
      "learning_rate": 2.073985421737878e-06,
      "loss": 0.85396862,
      "num_input_tokens_seen": 90306385,
      "step": 4188,
      "time_per_iteration": 3.6587603092193604
    },
    {
      "auxiliary_loss_clip": 0.01179908,
      "auxiliary_loss_mlp": 0.01030504,
      "balance_loss_clip": 1.0529834,
      "balance_loss_mlp": 1.02180195,
      "epoch": 0.5036974688871521,
      "flos": 27229157930880.0,
      "grad_norm": 5.735867688132053,
      "language_loss": 0.74244308,
      "learning_rate": 2.0732069776769844e-06,
      "loss": 0.76454729,
      "num_input_tokens_seen": 90323795,
      "step": 4189,
      "time_per_iteration": 2.690577268600464
    },
    {
      "auxiliary_loss_clip": 0.0118717,
      "auxiliary_loss_mlp": 0.01029029,
      "balance_loss_clip": 1.05447555,
      "balance_loss_mlp": 1.02061915,
      "epoch": 0.5038177117777911,
      "flos": 20412164286720.0,
      "grad_norm": 2.5801539445690462,
      "language_loss": 0.73334539,
      "learning_rate": 2.072428522510651e-06,
      "loss": 0.75550735,
      "num_input_tokens_seen": 90340360,
      "step": 4190,
      "time_per_iteration": 2.6663434505462646
    },
    {
      "auxiliary_loss_clip": 0.01154477,
      "auxiliary_loss_mlp": 0.01036522,
      "balance_loss_clip": 1.04999745,
      "balance_loss_mlp": 1.0278554,
      "epoch": 0.5039379546684303,
      "flos": 21907987286400.0,
      "grad_norm": 2.165631662497464,
      "language_loss": 0.76603335,
      "learning_rate": 2.071650056356968e-06,
      "loss": 0.7879433,
      "num_input_tokens_seen": 90357900,
      "step": 4191,
      "time_per_iteration": 2.7100882530212402
    },
    {
      "auxiliary_loss_clip": 0.01187502,
      "auxiliary_loss_mlp": 0.01036683,
      "balance_loss_clip": 1.05418551,
      "balance_loss_mlp": 1.0282315,
      "epoch": 0.5040581975590693,
      "flos": 20010718909440.0,
      "grad_norm": 1.9174010509216275,
      "language_loss": 0.80298519,
      "learning_rate": 2.070871579334028e-06,
      "loss": 0.82522702,
      "num_input_tokens_seen": 90377010,
      "step": 4192,
      "time_per_iteration": 2.6257317066192627
    },
    {
      "auxiliary_loss_clip": 0.01187215,
      "auxiliary_loss_mlp": 0.01028344,
      "balance_loss_clip": 1.05429626,
      "balance_loss_mlp": 1.01956999,
      "epoch": 0.5041784404497084,
      "flos": 20959837931520.0,
      "grad_norm": 1.672551062520361,
      "language_loss": 0.71935493,
      "learning_rate": 2.0700930915599264e-06,
      "loss": 0.74151051,
      "num_input_tokens_seen": 90396740,
      "step": 4193,
      "time_per_iteration": 2.608783483505249
    },
    {
      "auxiliary_loss_clip": 0.01186933,
      "auxiliary_loss_mlp": 0.01027536,
      "balance_loss_clip": 1.05476904,
      "balance_loss_mlp": 1.01959109,
      "epoch": 0.5042986833403476,
      "flos": 12495082757760.0,
      "grad_norm": 3.5120010026603667,
      "language_loss": 0.78311753,
      "learning_rate": 2.0693145931527583e-06,
      "loss": 0.80526227,
      "num_input_tokens_seen": 90413220,
      "step": 4194,
      "time_per_iteration": 3.588454008102417
    },
    {
      "auxiliary_loss_clip": 0.01167728,
      "auxiliary_loss_mlp": 0.01023002,
      "balance_loss_clip": 1.05245137,
      "balance_loss_mlp": 1.01374567,
      "epoch": 0.5044189262309866,
      "flos": 29202305788800.0,
      "grad_norm": 1.6202245414685439,
      "language_loss": 0.78175825,
      "learning_rate": 2.068536084230622e-06,
      "loss": 0.80366552,
      "num_input_tokens_seen": 90435085,
      "step": 4195,
      "time_per_iteration": 2.7659804821014404
    },
    {
      "auxiliary_loss_clip": 0.01177849,
      "auxiliary_loss_mlp": 0.01030564,
      "balance_loss_clip": 1.05409193,
      "balance_loss_mlp": 1.02230883,
      "epoch": 0.5045391691216257,
      "flos": 23873198238720.0,
      "grad_norm": 1.9192827007100288,
      "language_loss": 0.88827229,
      "learning_rate": 2.067757564911616e-06,
      "loss": 0.9103564,
      "num_input_tokens_seen": 90453660,
      "step": 4196,
      "time_per_iteration": 2.690962791442871
    },
    {
      "auxiliary_loss_clip": 0.01173473,
      "auxiliary_loss_mlp": 0.0088778,
      "balance_loss_clip": 1.04966831,
      "balance_loss_mlp": 1.00048459,
      "epoch": 0.5046594120122648,
      "flos": 24644990793600.0,
      "grad_norm": 2.2105525606629346,
      "language_loss": 0.92494607,
      "learning_rate": 2.0669790353138407e-06,
      "loss": 0.94555855,
      "num_input_tokens_seen": 90472625,
      "step": 4197,
      "time_per_iteration": 3.5782394409179688
    },
    {
      "auxiliary_loss_clip": 0.01152958,
      "auxiliary_loss_mlp": 0.00887697,
      "balance_loss_clip": 1.05111718,
      "balance_loss_mlp": 1.00049508,
      "epoch": 0.5047796549029039,
      "flos": 23362835846400.0,
      "grad_norm": 2.4563806570380295,
      "language_loss": 0.73285371,
      "learning_rate": 2.0662004955553995e-06,
      "loss": 0.75326031,
      "num_input_tokens_seen": 90492325,
      "step": 4198,
      "time_per_iteration": 2.7136855125427246
    },
    {
      "auxiliary_loss_clip": 0.01162223,
      "auxiliary_loss_mlp": 0.01026697,
      "balance_loss_clip": 1.04901361,
      "balance_loss_mlp": 1.01897788,
      "epoch": 0.5048998977935429,
      "flos": 17304095329920.0,
      "grad_norm": 2.064476023655542,
      "language_loss": 0.77080965,
      "learning_rate": 2.065421945754395e-06,
      "loss": 0.79269886,
      "num_input_tokens_seen": 90510055,
      "step": 4199,
      "time_per_iteration": 2.679615020751953
    },
    {
      "auxiliary_loss_clip": 0.01151179,
      "auxiliary_loss_mlp": 0.01026392,
      "balance_loss_clip": 1.05074406,
      "balance_loss_mlp": 1.01837552,
      "epoch": 0.505020140684182,
      "flos": 34856979235200.0,
      "grad_norm": 2.3972643372090965,
      "language_loss": 0.78050578,
      "learning_rate": 2.0646433860289344e-06,
      "loss": 0.8022815,
      "num_input_tokens_seen": 90528980,
      "step": 4200,
      "time_per_iteration": 2.86728572845459
    },
    {
      "auxiliary_loss_clip": 0.01181679,
      "auxiliary_loss_mlp": 0.00888139,
      "balance_loss_clip": 1.05264282,
      "balance_loss_mlp": 1.00063217,
      "epoch": 0.5051403835748212,
      "flos": 24863974058880.0,
      "grad_norm": 1.9273327443315746,
      "language_loss": 0.82567817,
      "learning_rate": 2.0638648164971233e-06,
      "loss": 0.84637636,
      "num_input_tokens_seen": 90547445,
      "step": 4201,
      "time_per_iteration": 3.7782533168792725
    },
    {
      "auxiliary_loss_clip": 0.01163764,
      "auxiliary_loss_mlp": 0.01024837,
      "balance_loss_clip": 1.05004668,
      "balance_loss_mlp": 1.01717186,
      "epoch": 0.5052606264654602,
      "flos": 20959694277120.0,
      "grad_norm": 2.1532199464165656,
      "language_loss": 0.8854183,
      "learning_rate": 2.06308623727707e-06,
      "loss": 0.90730429,
      "num_input_tokens_seen": 90567545,
      "step": 4202,
      "time_per_iteration": 2.7737996578216553
    },
    {
      "auxiliary_loss_clip": 0.01176878,
      "auxiliary_loss_mlp": 0.01029796,
      "balance_loss_clip": 1.0533371,
      "balance_loss_mlp": 1.02160668,
      "epoch": 0.5053808693560993,
      "flos": 19642382893440.0,
      "grad_norm": 2.480864679622347,
      "language_loss": 0.7668345,
      "learning_rate": 2.0623076484868846e-06,
      "loss": 0.78890121,
      "num_input_tokens_seen": 90585000,
      "step": 4203,
      "time_per_iteration": 2.6451220512390137
    },
    {
      "auxiliary_loss_clip": 0.01064369,
      "auxiliary_loss_mlp": 0.01001264,
      "balance_loss_clip": 1.01891255,
      "balance_loss_mlp": 1.00014961,
      "epoch": 0.5055011122467384,
      "flos": 67504915019520.0,
      "grad_norm": 0.8349128476749034,
      "language_loss": 0.60669303,
      "learning_rate": 2.061529050244679e-06,
      "loss": 0.62734938,
      "num_input_tokens_seen": 90644745,
      "step": 4204,
      "time_per_iteration": 3.250060796737671
    },
    {
      "auxiliary_loss_clip": 0.01163433,
      "auxiliary_loss_mlp": 0.01031146,
      "balance_loss_clip": 1.04931974,
      "balance_loss_mlp": 1.02318907,
      "epoch": 0.5056213551373775,
      "flos": 16872952383360.0,
      "grad_norm": 2.3867447688991605,
      "language_loss": 0.74223554,
      "learning_rate": 2.060750442668565e-06,
      "loss": 0.76418138,
      "num_input_tokens_seen": 90662500,
      "step": 4205,
      "time_per_iteration": 2.677978515625
    },
    {
      "auxiliary_loss_clip": 0.01180976,
      "auxiliary_loss_mlp": 0.01032784,
      "balance_loss_clip": 1.05542636,
      "balance_loss_mlp": 1.02477908,
      "epoch": 0.5057415980280165,
      "flos": 15334179696000.0,
      "grad_norm": 2.667601794484563,
      "language_loss": 0.64020717,
      "learning_rate": 2.059971825876657e-06,
      "loss": 0.66234469,
      "num_input_tokens_seen": 90677010,
      "step": 4206,
      "time_per_iteration": 2.6466681957244873
    },
    {
      "auxiliary_loss_clip": 0.01179213,
      "auxiliary_loss_mlp": 0.01032021,
      "balance_loss_clip": 1.05335093,
      "balance_loss_mlp": 1.02337265,
      "epoch": 0.5058618409186557,
      "flos": 19025976574080.0,
      "grad_norm": 1.7922833974820003,
      "language_loss": 0.76798785,
      "learning_rate": 2.0591931999870713e-06,
      "loss": 0.79010022,
      "num_input_tokens_seen": 90695935,
      "step": 4207,
      "time_per_iteration": 2.713987112045288
    },
    {
      "auxiliary_loss_clip": 0.01070156,
      "auxiliary_loss_mlp": 0.01001378,
      "balance_loss_clip": 1.01953316,
      "balance_loss_mlp": 1.00028133,
      "epoch": 0.5059820838092948,
      "flos": 63453114080640.0,
      "grad_norm": 0.82304315313403,
      "language_loss": 0.57579213,
      "learning_rate": 2.0584145651179234e-06,
      "loss": 0.59650743,
      "num_input_tokens_seen": 90751645,
      "step": 4208,
      "time_per_iteration": 3.2024271488189697
    },
    {
      "auxiliary_loss_clip": 0.01168339,
      "auxiliary_loss_mlp": 0.00887092,
      "balance_loss_clip": 1.05425143,
      "balance_loss_mlp": 1.00046742,
      "epoch": 0.5061023266999338,
      "flos": 15441803821440.0,
      "grad_norm": 2.175765908094112,
      "language_loss": 0.79611486,
      "learning_rate": 2.0576359213873327e-06,
      "loss": 0.81666923,
      "num_input_tokens_seen": 90766795,
      "step": 4209,
      "time_per_iteration": 2.648348569869995
    },
    {
      "auxiliary_loss_clip": 0.01173665,
      "auxiliary_loss_mlp": 0.01034354,
      "balance_loss_clip": 1.04797459,
      "balance_loss_mlp": 1.02588975,
      "epoch": 0.506222569590573,
      "flos": 22451063990400.0,
      "grad_norm": 3.644828793411281,
      "language_loss": 0.70160633,
      "learning_rate": 2.056857268913419e-06,
      "loss": 0.72368652,
      "num_input_tokens_seen": 90786845,
      "step": 4210,
      "time_per_iteration": 2.7151291370391846
    },
    {
      "auxiliary_loss_clip": 0.01176161,
      "auxiliary_loss_mlp": 0.0103583,
      "balance_loss_clip": 1.05249107,
      "balance_loss_mlp": 1.02696729,
      "epoch": 0.506342812481212,
      "flos": 17558665994880.0,
      "grad_norm": 2.330191434408364,
      "language_loss": 0.83871925,
      "learning_rate": 2.056078607814303e-06,
      "loss": 0.86083919,
      "num_input_tokens_seen": 90802630,
      "step": 4211,
      "time_per_iteration": 2.7092125415802
    },
    {
      "auxiliary_loss_clip": 0.01177814,
      "auxiliary_loss_mlp": 0.01028078,
      "balance_loss_clip": 1.05480361,
      "balance_loss_mlp": 1.01966763,
      "epoch": 0.5064630553718511,
      "flos": 23402050519680.0,
      "grad_norm": 1.957478284292179,
      "language_loss": 0.78605062,
      "learning_rate": 2.055299938208106e-06,
      "loss": 0.80810952,
      "num_input_tokens_seen": 90823620,
      "step": 4212,
      "time_per_iteration": 2.687011957168579
    },
    {
      "auxiliary_loss_clip": 0.01181838,
      "auxiliary_loss_mlp": 0.01030278,
      "balance_loss_clip": 1.0541693,
      "balance_loss_mlp": 1.02158785,
      "epoch": 0.5065832982624903,
      "flos": 23987035416960.0,
      "grad_norm": 1.6308840066778918,
      "language_loss": 0.86198211,
      "learning_rate": 2.0545212602129526e-06,
      "loss": 0.88410318,
      "num_input_tokens_seen": 90843475,
      "step": 4213,
      "time_per_iteration": 2.6760268211364746
    },
    {
      "auxiliary_loss_clip": 0.01164221,
      "auxiliary_loss_mlp": 0.01028368,
      "balance_loss_clip": 1.05118728,
      "balance_loss_mlp": 1.01921272,
      "epoch": 0.5067035411531293,
      "flos": 21503058289920.0,
      "grad_norm": 2.972840466215469,
      "language_loss": 0.66442919,
      "learning_rate": 2.0537425739469673e-06,
      "loss": 0.68635499,
      "num_input_tokens_seen": 90862410,
      "step": 4214,
      "time_per_iteration": 3.570848226547241
    },
    {
      "auxiliary_loss_clip": 0.01073913,
      "auxiliary_loss_mlp": 0.01000986,
      "balance_loss_clip": 1.01755714,
      "balance_loss_mlp": 0.99978226,
      "epoch": 0.5068237840437684,
      "flos": 65934397687680.0,
      "grad_norm": 0.8364775683873211,
      "language_loss": 0.59452796,
      "learning_rate": 2.052963879528276e-06,
      "loss": 0.61527699,
      "num_input_tokens_seen": 90922280,
      "step": 4215,
      "time_per_iteration": 3.194183826446533
    },
    {
      "auxiliary_loss_clip": 0.01179201,
      "auxiliary_loss_mlp": 0.01026791,
      "balance_loss_clip": 1.054986,
      "balance_loss_mlp": 1.01835084,
      "epoch": 0.5069440269344075,
      "flos": 27264206626560.0,
      "grad_norm": 2.1975183937577767,
      "language_loss": 0.76007199,
      "learning_rate": 2.052185177075007e-06,
      "loss": 0.78213191,
      "num_input_tokens_seen": 90941850,
      "step": 4216,
      "time_per_iteration": 2.7594690322875977
    },
    {
      "auxiliary_loss_clip": 0.0117836,
      "auxiliary_loss_mlp": 0.01031884,
      "balance_loss_clip": 1.05167997,
      "balance_loss_mlp": 1.02302074,
      "epoch": 0.5070642698250466,
      "flos": 23366319465600.0,
      "grad_norm": 1.7995918621064533,
      "language_loss": 0.82659578,
      "learning_rate": 2.051406466705288e-06,
      "loss": 0.84869826,
      "num_input_tokens_seen": 90961390,
      "step": 4217,
      "time_per_iteration": 2.6831531524658203
    },
    {
      "auxiliary_loss_clip": 0.01184672,
      "auxiliary_loss_mlp": 0.01023939,
      "balance_loss_clip": 1.0529654,
      "balance_loss_mlp": 1.01574969,
      "epoch": 0.5071845127156857,
      "flos": 20340127560960.0,
      "grad_norm": 1.7652247278081055,
      "language_loss": 0.80995864,
      "learning_rate": 2.0506277485372486e-06,
      "loss": 0.83204472,
      "num_input_tokens_seen": 90980215,
      "step": 4218,
      "time_per_iteration": 2.62664794921875
    },
    {
      "auxiliary_loss_clip": 0.01170755,
      "auxiliary_loss_mlp": 0.01026982,
      "balance_loss_clip": 1.05128741,
      "balance_loss_mlp": 1.01782632,
      "epoch": 0.5073047556063248,
      "flos": 12092955022080.0,
      "grad_norm": 8.142938772500766,
      "language_loss": 0.66627324,
      "learning_rate": 2.04984902268902e-06,
      "loss": 0.6882506,
      "num_input_tokens_seen": 90997415,
      "step": 4219,
      "time_per_iteration": 2.5900378227233887
    },
    {
      "auxiliary_loss_clip": 0.01183362,
      "auxiliary_loss_mlp": 0.01029431,
      "balance_loss_clip": 1.05237842,
      "balance_loss_mlp": 1.02093136,
      "epoch": 0.5074249984969639,
      "flos": 19682854542720.0,
      "grad_norm": 2.129501647399212,
      "language_loss": 0.75260639,
      "learning_rate": 2.0490702892787345e-06,
      "loss": 0.77473426,
      "num_input_tokens_seen": 91016475,
      "step": 4220,
      "time_per_iteration": 3.6318016052246094
    },
    {
      "auxiliary_loss_clip": 0.01167334,
      "auxiliary_loss_mlp": 0.01027319,
      "balance_loss_clip": 1.04915297,
      "balance_loss_mlp": 1.01917124,
      "epoch": 0.5075452413876029,
      "flos": 28765703975040.0,
      "grad_norm": 1.6128997968338559,
      "language_loss": 0.62171459,
      "learning_rate": 2.0482915484245246e-06,
      "loss": 0.64366108,
      "num_input_tokens_seen": 91038095,
      "step": 4221,
      "time_per_iteration": 2.7071914672851562
    },
    {
      "auxiliary_loss_clip": 0.01143679,
      "auxiliary_loss_mlp": 0.01037253,
      "balance_loss_clip": 1.04828846,
      "balance_loss_mlp": 1.02850318,
      "epoch": 0.5076654842782421,
      "flos": 20339445202560.0,
      "grad_norm": 2.7494232314221585,
      "language_loss": 0.84036052,
      "learning_rate": 2.047512800244526e-06,
      "loss": 0.8621698,
      "num_input_tokens_seen": 91053360,
      "step": 4222,
      "time_per_iteration": 2.7700326442718506
    },
    {
      "auxiliary_loss_clip": 0.01178738,
      "auxiliary_loss_mlp": 0.0103085,
      "balance_loss_clip": 1.05381131,
      "balance_loss_mlp": 1.02168274,
      "epoch": 0.5077857271688812,
      "flos": 26359653404160.0,
      "grad_norm": 1.9085259494822149,
      "language_loss": 0.78579986,
      "learning_rate": 2.046734044856873e-06,
      "loss": 0.80789566,
      "num_input_tokens_seen": 91072770,
      "step": 4223,
      "time_per_iteration": 3.726496696472168
    },
    {
      "auxiliary_loss_clip": 0.01177035,
      "auxiliary_loss_mlp": 0.01027578,
      "balance_loss_clip": 1.05525804,
      "balance_loss_mlp": 1.0188874,
      "epoch": 0.5079059700595202,
      "flos": 21798962530560.0,
      "grad_norm": 2.255891806399195,
      "language_loss": 0.81303573,
      "learning_rate": 2.045955282379702e-06,
      "loss": 0.83508188,
      "num_input_tokens_seen": 91091430,
      "step": 4224,
      "time_per_iteration": 2.6829187870025635
    },
    {
      "auxiliary_loss_clip": 0.01173118,
      "auxiliary_loss_mlp": 0.01029113,
      "balance_loss_clip": 1.04876184,
      "balance_loss_mlp": 1.02024996,
      "epoch": 0.5080262129501594,
      "flos": 13187943175680.0,
      "grad_norm": 2.999752614638065,
      "language_loss": 0.75786078,
      "learning_rate": 2.045176512931152e-06,
      "loss": 0.77988303,
      "num_input_tokens_seen": 91106060,
      "step": 4225,
      "time_per_iteration": 2.6347432136535645
    },
    {
      "auxiliary_loss_clip": 0.0115912,
      "auxiliary_loss_mlp": 0.01031317,
      "balance_loss_clip": 1.04902673,
      "balance_loss_mlp": 1.02301407,
      "epoch": 0.5081464558407984,
      "flos": 25301473712640.0,
      "grad_norm": 2.330065608077136,
      "language_loss": 0.76418871,
      "learning_rate": 2.0443977366293604e-06,
      "loss": 0.78609312,
      "num_input_tokens_seen": 91124100,
      "step": 4226,
      "time_per_iteration": 2.729565143585205
    },
    {
      "auxiliary_loss_clip": 0.01137982,
      "auxiliary_loss_mlp": 0.01031268,
      "balance_loss_clip": 1.04541707,
      "balance_loss_mlp": 1.0219456,
      "epoch": 0.5082666987314375,
      "flos": 30951226995840.0,
      "grad_norm": 1.6665416907084767,
      "language_loss": 0.76791,
      "learning_rate": 2.043618953592468e-06,
      "loss": 0.78960246,
      "num_input_tokens_seen": 91146555,
      "step": 4227,
      "time_per_iteration": 3.816070795059204
    },
    {
      "auxiliary_loss_clip": 0.01169677,
      "auxiliary_loss_mlp": 0.01030718,
      "balance_loss_clip": 1.05337727,
      "balance_loss_mlp": 1.02224827,
      "epoch": 0.5083869416220766,
      "flos": 19682495406720.0,
      "grad_norm": 1.5821126466918622,
      "language_loss": 0.81082851,
      "learning_rate": 2.0428401639386144e-06,
      "loss": 0.83283246,
      "num_input_tokens_seen": 91167120,
      "step": 4228,
      "time_per_iteration": 2.7161705493927
    },
    {
      "auxiliary_loss_clip": 0.01059374,
      "auxiliary_loss_mlp": 0.01003198,
      "balance_loss_clip": 1.01573515,
      "balance_loss_mlp": 1.00201213,
      "epoch": 0.5085071845127157,
      "flos": 71817535589760.0,
      "grad_norm": 0.8249727445288757,
      "language_loss": 0.58054507,
      "learning_rate": 2.042061367785943e-06,
      "loss": 0.60117084,
      "num_input_tokens_seen": 91220260,
      "step": 4229,
      "time_per_iteration": 3.242591142654419
    },
    {
      "auxiliary_loss_clip": 0.01156855,
      "auxiliary_loss_mlp": 0.010285,
      "balance_loss_clip": 1.04679608,
      "balance_loss_mlp": 1.02012515,
      "epoch": 0.5086274274033548,
      "flos": 35951608252800.0,
      "grad_norm": 2.090504949678459,
      "language_loss": 0.75121313,
      "learning_rate": 2.041282565252594e-06,
      "loss": 0.7730667,
      "num_input_tokens_seen": 91240425,
      "step": 4230,
      "time_per_iteration": 2.814913034439087
    },
    {
      "auxiliary_loss_clip": 0.01155604,
      "auxiliary_loss_mlp": 0.01036271,
      "balance_loss_clip": 1.04794085,
      "balance_loss_mlp": 1.02804542,
      "epoch": 0.5087476702939938,
      "flos": 23513732881920.0,
      "grad_norm": 1.6423857494878038,
      "language_loss": 0.77096683,
      "learning_rate": 2.040503756456714e-06,
      "loss": 0.7928856,
      "num_input_tokens_seen": 91259635,
      "step": 4231,
      "time_per_iteration": 2.685824155807495
    },
    {
      "auxiliary_loss_clip": 0.01172226,
      "auxiliary_loss_mlp": 0.01025723,
      "balance_loss_clip": 1.05123925,
      "balance_loss_mlp": 1.01650178,
      "epoch": 0.508867913184633,
      "flos": 15122091841920.0,
      "grad_norm": 2.26161054216022,
      "language_loss": 0.78857279,
      "learning_rate": 2.0397249415164456e-06,
      "loss": 0.8105523,
      "num_input_tokens_seen": 91276990,
      "step": 4232,
      "time_per_iteration": 2.6551873683929443
    },
    {
      "auxiliary_loss_clip": 0.01157748,
      "auxiliary_loss_mlp": 0.01034105,
      "balance_loss_clip": 1.04686093,
      "balance_loss_mlp": 1.02490163,
      "epoch": 0.508988156075272,
      "flos": 25885309374720.0,
      "grad_norm": 1.8924481969719467,
      "language_loss": 0.80279052,
      "learning_rate": 2.0389461205499354e-06,
      "loss": 0.82470906,
      "num_input_tokens_seen": 91296125,
      "step": 4233,
      "time_per_iteration": 2.697247266769409
    },
    {
      "auxiliary_loss_clip": 0.01158521,
      "auxiliary_loss_mlp": 0.01032465,
      "balance_loss_clip": 1.04904401,
      "balance_loss_mlp": 1.02372134,
      "epoch": 0.5091083989659111,
      "flos": 13844857057920.0,
      "grad_norm": 1.9619619881834374,
      "language_loss": 0.73924196,
      "learning_rate": 2.03816729367533e-06,
      "loss": 0.76115179,
      "num_input_tokens_seen": 91314280,
      "step": 4234,
      "time_per_iteration": 2.77642560005188
    },
    {
      "auxiliary_loss_clip": 0.01167942,
      "auxiliary_loss_mlp": 0.01038015,
      "balance_loss_clip": 1.04993331,
      "balance_loss_mlp": 1.02924132,
      "epoch": 0.5092286418565503,
      "flos": 21104881050240.0,
      "grad_norm": 1.9972828271995469,
      "language_loss": 0.71562529,
      "learning_rate": 2.0373884610107765e-06,
      "loss": 0.73768485,
      "num_input_tokens_seen": 91334595,
      "step": 4235,
      "time_per_iteration": 2.7401533126831055
    },
    {
      "auxiliary_loss_clip": 0.01178578,
      "auxiliary_loss_mlp": 0.01027192,
      "balance_loss_clip": 1.05040979,
      "balance_loss_mlp": 1.01873994,
      "epoch": 0.5093488847471893,
      "flos": 18621298972800.0,
      "grad_norm": 2.4947264192001017,
      "language_loss": 0.6988076,
      "learning_rate": 2.0366096226744225e-06,
      "loss": 0.72086531,
      "num_input_tokens_seen": 91349790,
      "step": 4236,
      "time_per_iteration": 2.6186017990112305
    },
    {
      "auxiliary_loss_clip": 0.01167913,
      "auxiliary_loss_mlp": 0.01034731,
      "balance_loss_clip": 1.04999936,
      "balance_loss_mlp": 1.02626705,
      "epoch": 0.5094691276378284,
      "flos": 23803783205760.0,
      "grad_norm": 1.5630424628122912,
      "language_loss": 0.76776171,
      "learning_rate": 2.035830778784418e-06,
      "loss": 0.78978813,
      "num_input_tokens_seen": 91370465,
      "step": 4237,
      "time_per_iteration": 2.700490951538086
    },
    {
      "auxiliary_loss_clip": 0.01174083,
      "auxiliary_loss_mlp": 0.01028984,
      "balance_loss_clip": 1.05721104,
      "balance_loss_mlp": 1.02086043,
      "epoch": 0.5095893705284675,
      "flos": 17420410546560.0,
      "grad_norm": 1.8348269152247214,
      "language_loss": 0.79957372,
      "learning_rate": 2.0350519294589134e-06,
      "loss": 0.82160437,
      "num_input_tokens_seen": 91388505,
      "step": 4238,
      "time_per_iteration": 2.710571050643921
    },
    {
      "auxiliary_loss_clip": 0.01143413,
      "auxiliary_loss_mlp": 0.01026205,
      "balance_loss_clip": 1.04388094,
      "balance_loss_mlp": 1.01693654,
      "epoch": 0.5097096134191066,
      "flos": 25849362839040.0,
      "grad_norm": 1.658482926202428,
      "language_loss": 0.82787573,
      "learning_rate": 2.0342730748160588e-06,
      "loss": 0.84957194,
      "num_input_tokens_seen": 91408970,
      "step": 4239,
      "time_per_iteration": 2.8630735874176025
    },
    {
      "auxiliary_loss_clip": 0.01166886,
      "auxiliary_loss_mlp": 0.01033758,
      "balance_loss_clip": 1.0499332,
      "balance_loss_mlp": 1.02493072,
      "epoch": 0.5098298563097456,
      "flos": 27745122844800.0,
      "grad_norm": 2.8436635056352233,
      "language_loss": 0.70793486,
      "learning_rate": 2.033494214974006e-06,
      "loss": 0.72994125,
      "num_input_tokens_seen": 91430115,
      "step": 4240,
      "time_per_iteration": 3.6846413612365723
    },
    {
      "auxiliary_loss_clip": 0.01157317,
      "auxiliary_loss_mlp": 0.01028194,
      "balance_loss_clip": 1.05023408,
      "balance_loss_mlp": 1.02005219,
      "epoch": 0.5099500992003848,
      "flos": 21358913011200.0,
      "grad_norm": 1.8502410374708702,
      "language_loss": 0.84255624,
      "learning_rate": 2.0327153500509067e-06,
      "loss": 0.86441135,
      "num_input_tokens_seen": 91449140,
      "step": 4241,
      "time_per_iteration": 2.6872811317443848
    },
    {
      "auxiliary_loss_clip": 0.01169495,
      "auxiliary_loss_mlp": 0.01033749,
      "balance_loss_clip": 1.05377841,
      "balance_loss_mlp": 1.02467108,
      "epoch": 0.5100703420910239,
      "flos": 19865999013120.0,
      "grad_norm": 3.526216274283293,
      "language_loss": 0.85005331,
      "learning_rate": 2.031936480164916e-06,
      "loss": 0.87208581,
      "num_input_tokens_seen": 91466880,
      "step": 4242,
      "time_per_iteration": 2.738067865371704
    },
    {
      "auxiliary_loss_clip": 0.01165599,
      "auxiliary_loss_mlp": 0.01029402,
      "balance_loss_clip": 1.05392575,
      "balance_loss_mlp": 1.02050912,
      "epoch": 0.5101905849816629,
      "flos": 24648797635200.0,
      "grad_norm": 3.1972098476567896,
      "language_loss": 0.80112362,
      "learning_rate": 2.0311576054341857e-06,
      "loss": 0.82307363,
      "num_input_tokens_seen": 91487495,
      "step": 4243,
      "time_per_iteration": 2.6967568397521973
    },
    {
      "auxiliary_loss_clip": 0.01188336,
      "auxiliary_loss_mlp": 0.01025932,
      "balance_loss_clip": 1.05607843,
      "balance_loss_mlp": 1.0173434,
      "epoch": 0.5103108278723021,
      "flos": 22930076787840.0,
      "grad_norm": 2.1176236400921282,
      "language_loss": 0.6264258,
      "learning_rate": 2.0303787259768715e-06,
      "loss": 0.64856851,
      "num_input_tokens_seen": 91508395,
      "step": 4244,
      "time_per_iteration": 2.654040813446045
    },
    {
      "auxiliary_loss_clip": 0.01170952,
      "auxiliary_loss_mlp": 0.01031937,
      "balance_loss_clip": 1.05498743,
      "balance_loss_mlp": 1.02344954,
      "epoch": 0.5104310707629411,
      "flos": 21506613736320.0,
      "grad_norm": 2.499652593897664,
      "language_loss": 0.69042063,
      "learning_rate": 2.0295998419111294e-06,
      "loss": 0.71244955,
      "num_input_tokens_seen": 91525685,
      "step": 4245,
      "time_per_iteration": 2.661090850830078
    },
    {
      "auxiliary_loss_clip": 0.0113584,
      "auxiliary_loss_mlp": 0.01026101,
      "balance_loss_clip": 1.04340696,
      "balance_loss_mlp": 1.01752996,
      "epoch": 0.5105513136535802,
      "flos": 14903180403840.0,
      "grad_norm": 30.650489653766712,
      "language_loss": 0.73811376,
      "learning_rate": 2.028820953355115e-06,
      "loss": 0.7597332,
      "num_input_tokens_seen": 91543785,
      "step": 4246,
      "time_per_iteration": 3.86792254447937
    },
    {
      "auxiliary_loss_clip": 0.0117654,
      "auxiliary_loss_mlp": 0.0102675,
      "balance_loss_clip": 1.05271316,
      "balance_loss_mlp": 1.0179702,
      "epoch": 0.5106715565442194,
      "flos": 22602212421120.0,
      "grad_norm": 1.8137705836486224,
      "language_loss": 0.78448564,
      "learning_rate": 2.0280420604269834e-06,
      "loss": 0.80651855,
      "num_input_tokens_seen": 91563325,
      "step": 4247,
      "time_per_iteration": 2.844548463821411
    },
    {
      "auxiliary_loss_clip": 0.01071177,
      "auxiliary_loss_mlp": 0.01002855,
      "balance_loss_clip": 1.01646185,
      "balance_loss_mlp": 1.00174665,
      "epoch": 0.5107917994348584,
      "flos": 71027645558400.0,
      "grad_norm": 0.7074681333423406,
      "language_loss": 0.58938175,
      "learning_rate": 2.027263163244895e-06,
      "loss": 0.61012208,
      "num_input_tokens_seen": 91632450,
      "step": 4248,
      "time_per_iteration": 4.158996820449829
    },
    {
      "auxiliary_loss_clip": 0.0117672,
      "auxiliary_loss_mlp": 0.01029506,
      "balance_loss_clip": 1.05440187,
      "balance_loss_mlp": 1.0216558,
      "epoch": 0.5109120423254975,
      "flos": 24827416992000.0,
      "grad_norm": 2.637002393630305,
      "language_loss": 0.74564505,
      "learning_rate": 2.026484261927005e-06,
      "loss": 0.76770735,
      "num_input_tokens_seen": 91651945,
      "step": 4249,
      "time_per_iteration": 2.7364675998687744
    },
    {
      "auxiliary_loss_clip": 0.01186971,
      "auxiliary_loss_mlp": 0.01030452,
      "balance_loss_clip": 1.05880547,
      "balance_loss_mlp": 1.02175581,
      "epoch": 0.5110322852161366,
      "flos": 21247661612160.0,
      "grad_norm": 2.0803039974404633,
      "language_loss": 0.73797202,
      "learning_rate": 2.025705356591475e-06,
      "loss": 0.76014626,
      "num_input_tokens_seen": 91669635,
      "step": 4250,
      "time_per_iteration": 2.6605589389801025
    },
    {
      "auxiliary_loss_clip": 0.01053562,
      "auxiliary_loss_mlp": 0.00875785,
      "balance_loss_clip": 1.01378238,
      "balance_loss_mlp": 1.00075436,
      "epoch": 0.5111525281067757,
      "flos": 66457114358400.0,
      "grad_norm": 0.7580413915440788,
      "language_loss": 0.57939899,
      "learning_rate": 2.024926447356462e-06,
      "loss": 0.59869248,
      "num_input_tokens_seen": 91731920,
      "step": 4251,
      "time_per_iteration": 3.1849007606506348
    },
    {
      "auxiliary_loss_clip": 0.0117689,
      "auxiliary_loss_mlp": 0.01032736,
      "balance_loss_clip": 1.05186248,
      "balance_loss_mlp": 1.02323484,
      "epoch": 0.5112727709974147,
      "flos": 14866731077760.0,
      "grad_norm": 1.884520032972671,
      "language_loss": 0.78662825,
      "learning_rate": 2.024147534340127e-06,
      "loss": 0.80872452,
      "num_input_tokens_seen": 91749780,
      "step": 4252,
      "time_per_iteration": 2.6766316890716553
    },
    {
      "auxiliary_loss_clip": 0.01163059,
      "auxiliary_loss_mlp": 0.01026861,
      "balance_loss_clip": 1.04757285,
      "balance_loss_mlp": 1.01822472,
      "epoch": 0.5113930138880539,
      "flos": 21177600134400.0,
      "grad_norm": 1.7563689848048132,
      "language_loss": 0.80016267,
      "learning_rate": 2.02336861766063e-06,
      "loss": 0.8220619,
      "num_input_tokens_seen": 91768840,
      "step": 4253,
      "time_per_iteration": 3.5385124683380127
    },
    {
      "auxiliary_loss_clip": 0.01186,
      "auxiliary_loss_mlp": 0.01036611,
      "balance_loss_clip": 1.05400848,
      "balance_loss_mlp": 1.02796233,
      "epoch": 0.511513256778693,
      "flos": 20409111630720.0,
      "grad_norm": 2.263417717899982,
      "language_loss": 0.78714895,
      "learning_rate": 2.0225896974361327e-06,
      "loss": 0.80937505,
      "num_input_tokens_seen": 91788945,
      "step": 4254,
      "time_per_iteration": 2.6500444412231445
    },
    {
      "auxiliary_loss_clip": 0.01057448,
      "auxiliary_loss_mlp": 0.01001524,
      "balance_loss_clip": 1.01403654,
      "balance_loss_mlp": 1.00041509,
      "epoch": 0.511633499669332,
      "flos": 69879975131520.0,
      "grad_norm": 0.8586300837645814,
      "language_loss": 0.59971505,
      "learning_rate": 2.0218107737847962e-06,
      "loss": 0.62030476,
      "num_input_tokens_seen": 91850990,
      "step": 4255,
      "time_per_iteration": 3.3282229900360107
    },
    {
      "auxiliary_loss_clip": 0.01188351,
      "auxiliary_loss_mlp": 0.01023408,
      "balance_loss_clip": 1.05613899,
      "balance_loss_mlp": 1.01562667,
      "epoch": 0.5117537425599712,
      "flos": 24097855852800.0,
      "grad_norm": 2.343184313910287,
      "language_loss": 0.74670327,
      "learning_rate": 2.0210318468247826e-06,
      "loss": 0.76882082,
      "num_input_tokens_seen": 91869960,
      "step": 4256,
      "time_per_iteration": 2.663834810256958
    },
    {
      "auxiliary_loss_clip": 0.01164737,
      "auxiliary_loss_mlp": 0.01031753,
      "balance_loss_clip": 1.04814076,
      "balance_loss_mlp": 1.02322376,
      "epoch": 0.5118739854506102,
      "flos": 20959550622720.0,
      "grad_norm": 2.149566881813389,
      "language_loss": 0.8192873,
      "learning_rate": 2.020252916674255e-06,
      "loss": 0.84125221,
      "num_input_tokens_seen": 91889075,
      "step": 4257,
      "time_per_iteration": 2.7285726070404053
    },
    {
      "auxiliary_loss_clip": 0.0117642,
      "auxiliary_loss_mlp": 0.01036851,
      "balance_loss_clip": 1.05045009,
      "balance_loss_mlp": 1.02825594,
      "epoch": 0.5119942283412493,
      "flos": 17457326749440.0,
      "grad_norm": 2.015468705304527,
      "language_loss": 0.81073844,
      "learning_rate": 2.019473983451375e-06,
      "loss": 0.83287114,
      "num_input_tokens_seen": 91907495,
      "step": 4258,
      "time_per_iteration": 2.6546618938446045
    },
    {
      "auxiliary_loss_clip": 0.0116383,
      "auxiliary_loss_mlp": 0.01028644,
      "balance_loss_clip": 1.04903793,
      "balance_loss_mlp": 1.0198698,
      "epoch": 0.5121144712318885,
      "flos": 21066743784960.0,
      "grad_norm": 2.8540347112200095,
      "language_loss": 0.71832597,
      "learning_rate": 2.0186950472743076e-06,
      "loss": 0.74025077,
      "num_input_tokens_seen": 91927400,
      "step": 4259,
      "time_per_iteration": 2.719302177429199
    },
    {
      "auxiliary_loss_clip": 0.0118631,
      "auxiliary_loss_mlp": 0.01026135,
      "balance_loss_clip": 1.05399013,
      "balance_loss_mlp": 1.01793337,
      "epoch": 0.5122347141225275,
      "flos": 19860791541120.0,
      "grad_norm": 1.6997256633474687,
      "language_loss": 0.7395637,
      "learning_rate": 2.0179161082612162e-06,
      "loss": 0.76168817,
      "num_input_tokens_seen": 91946790,
      "step": 4260,
      "time_per_iteration": 2.6399340629577637
    },
    {
      "auxiliary_loss_clip": 0.01158183,
      "auxiliary_loss_mlp": 0.01029348,
      "balance_loss_clip": 1.04579616,
      "balance_loss_mlp": 1.0205797,
      "epoch": 0.5123549570131666,
      "flos": 22528487756160.0,
      "grad_norm": 2.3993604487036233,
      "language_loss": 0.72612989,
      "learning_rate": 2.017137166530266e-06,
      "loss": 0.74800521,
      "num_input_tokens_seen": 91966325,
      "step": 4261,
      "time_per_iteration": 2.71272611618042
    },
    {
      "auxiliary_loss_clip": 0.01171771,
      "auxiliary_loss_mlp": 0.01028112,
      "balance_loss_clip": 1.05171275,
      "balance_loss_mlp": 1.02063775,
      "epoch": 0.5124751999038056,
      "flos": 20333375804160.0,
      "grad_norm": 2.064765284733979,
      "language_loss": 0.80120623,
      "learning_rate": 2.0163582221996213e-06,
      "loss": 0.82320511,
      "num_input_tokens_seen": 91984700,
      "step": 4262,
      "time_per_iteration": 2.6312828063964844
    },
    {
      "auxiliary_loss_clip": 0.01166461,
      "auxiliary_loss_mlp": 0.01026589,
      "balance_loss_clip": 1.0509057,
      "balance_loss_mlp": 1.01831627,
      "epoch": 0.5125954427944448,
      "flos": 39785970211200.0,
      "grad_norm": 1.949511905852855,
      "language_loss": 0.67955917,
      "learning_rate": 2.015579275387446e-06,
      "loss": 0.70148969,
      "num_input_tokens_seen": 92010020,
      "step": 4263,
      "time_per_iteration": 2.787677049636841
    },
    {
      "auxiliary_loss_clip": 0.01159998,
      "auxiliary_loss_mlp": 0.01034614,
      "balance_loss_clip": 1.05195332,
      "balance_loss_mlp": 1.02590036,
      "epoch": 0.5127156856850839,
      "flos": 29205394358400.0,
      "grad_norm": 2.2951900672867227,
      "language_loss": 0.68529499,
      "learning_rate": 2.0148003262119085e-06,
      "loss": 0.70724118,
      "num_input_tokens_seen": 92030990,
      "step": 4264,
      "time_per_iteration": 2.7113661766052246
    },
    {
      "auxiliary_loss_clip": 0.0115842,
      "auxiliary_loss_mlp": 0.01029652,
      "balance_loss_clip": 1.0511806,
      "balance_loss_mlp": 1.02059817,
      "epoch": 0.5128359285757229,
      "flos": 13553693412480.0,
      "grad_norm": 1.9995996624517671,
      "language_loss": 0.76707673,
      "learning_rate": 2.0140213747911728e-06,
      "loss": 0.78895748,
      "num_input_tokens_seen": 92049525,
      "step": 4265,
      "time_per_iteration": 2.7932910919189453
    },
    {
      "auxiliary_loss_clip": 0.01157854,
      "auxiliary_loss_mlp": 0.010244,
      "balance_loss_clip": 1.05242372,
      "balance_loss_mlp": 1.0159719,
      "epoch": 0.5129561714663621,
      "flos": 25192089820800.0,
      "grad_norm": 2.9082528979644042,
      "language_loss": 0.80975384,
      "learning_rate": 2.013242421243406e-06,
      "loss": 0.83157635,
      "num_input_tokens_seen": 92068430,
      "step": 4266,
      "time_per_iteration": 3.6653048992156982
    },
    {
      "auxiliary_loss_clip": 0.01151143,
      "auxiliary_loss_mlp": 0.0102419,
      "balance_loss_clip": 1.05128908,
      "balance_loss_mlp": 1.01609874,
      "epoch": 0.5130764143570011,
      "flos": 18150223080960.0,
      "grad_norm": 1.994657613685618,
      "language_loss": 0.78961676,
      "learning_rate": 2.012463465686774e-06,
      "loss": 0.81137007,
      "num_input_tokens_seen": 92088180,
      "step": 4267,
      "time_per_iteration": 2.76993465423584
    },
    {
      "auxiliary_loss_clip": 0.01049673,
      "auxiliary_loss_mlp": 0.01001413,
      "balance_loss_clip": 1.01334047,
      "balance_loss_mlp": 1.00012577,
      "epoch": 0.5131966572476402,
      "flos": 59794896418560.0,
      "grad_norm": 0.7616942670988393,
      "language_loss": 0.54724133,
      "learning_rate": 2.0116845082394446e-06,
      "loss": 0.56775218,
      "num_input_tokens_seen": 92153015,
      "step": 4268,
      "time_per_iteration": 3.3323259353637695
    },
    {
      "auxiliary_loss_clip": 0.01177767,
      "auxiliary_loss_mlp": 0.01028708,
      "balance_loss_clip": 1.05011368,
      "balance_loss_mlp": 1.02023184,
      "epoch": 0.5133169001382794,
      "flos": 18515219132160.0,
      "grad_norm": 2.192939011922768,
      "language_loss": 0.7850039,
      "learning_rate": 2.0109055490195836e-06,
      "loss": 0.80706871,
      "num_input_tokens_seen": 92171470,
      "step": 4269,
      "time_per_iteration": 2.6266801357269287
    },
    {
      "auxiliary_loss_clip": 0.011381,
      "auxiliary_loss_mlp": 0.01028774,
      "balance_loss_clip": 1.03863966,
      "balance_loss_mlp": 1.02007735,
      "epoch": 0.5134371430289184,
      "flos": 15523537219200.0,
      "grad_norm": 1.8857047220711123,
      "language_loss": 0.64271986,
      "learning_rate": 2.0101265881453605e-06,
      "loss": 0.66438854,
      "num_input_tokens_seen": 92189945,
      "step": 4270,
      "time_per_iteration": 2.9683949947357178
    },
    {
      "auxiliary_loss_clip": 0.01165604,
      "auxiliary_loss_mlp": 0.01032236,
      "balance_loss_clip": 1.05400741,
      "balance_loss_mlp": 1.02436256,
      "epoch": 0.5135573859195575,
      "flos": 21433786911360.0,
      "grad_norm": 2.029117026882324,
      "language_loss": 0.78106034,
      "learning_rate": 2.009347625734941e-06,
      "loss": 0.80303872,
      "num_input_tokens_seen": 92209855,
      "step": 4271,
      "time_per_iteration": 2.7959327697753906
    },
    {
      "auxiliary_loss_clip": 0.01191757,
      "auxiliary_loss_mlp": 0.0103076,
      "balance_loss_clip": 1.05704856,
      "balance_loss_mlp": 1.02171159,
      "epoch": 0.5136776288101966,
      "flos": 17712651600000.0,
      "grad_norm": 2.346017384188483,
      "language_loss": 0.75277817,
      "learning_rate": 2.0085686619064954e-06,
      "loss": 0.77500331,
      "num_input_tokens_seen": 92226295,
      "step": 4272,
      "time_per_iteration": 3.5789880752563477
    },
    {
      "auxiliary_loss_clip": 0.01187147,
      "auxiliary_loss_mlp": 0.01031125,
      "balance_loss_clip": 1.0566175,
      "balance_loss_mlp": 1.02334058,
      "epoch": 0.5137978717008357,
      "flos": 16581680997120.0,
      "grad_norm": 2.074415968937425,
      "language_loss": 0.8299123,
      "learning_rate": 2.00778969677819e-06,
      "loss": 0.85209501,
      "num_input_tokens_seen": 92243330,
      "step": 4273,
      "time_per_iteration": 2.6446495056152344
    },
    {
      "auxiliary_loss_clip": 0.01168755,
      "auxiliary_loss_mlp": 0.01030406,
      "balance_loss_clip": 1.05095828,
      "balance_loss_mlp": 1.02182305,
      "epoch": 0.5139181145914747,
      "flos": 20668243322880.0,
      "grad_norm": 2.253405917219742,
      "language_loss": 0.6397078,
      "learning_rate": 2.0070107304681934e-06,
      "loss": 0.66169941,
      "num_input_tokens_seen": 92262285,
      "step": 4274,
      "time_per_iteration": 3.6153910160064697
    },
    {
      "auxiliary_loss_clip": 0.01157716,
      "auxiliary_loss_mlp": 0.01028238,
      "balance_loss_clip": 1.05201507,
      "balance_loss_mlp": 1.01988149,
      "epoch": 0.5140383574821139,
      "flos": 32926996546560.0,
      "grad_norm": 1.752837231108485,
      "language_loss": 0.77786559,
      "learning_rate": 2.006231763094675e-06,
      "loss": 0.79972512,
      "num_input_tokens_seen": 92283305,
      "step": 4275,
      "time_per_iteration": 2.8025991916656494
    },
    {
      "auxiliary_loss_clip": 0.01166105,
      "auxiliary_loss_mlp": 0.01035949,
      "balance_loss_clip": 1.05543721,
      "balance_loss_mlp": 1.02768195,
      "epoch": 0.514158600372753,
      "flos": 19537093152000.0,
      "grad_norm": 2.319884076314553,
      "language_loss": 0.87589061,
      "learning_rate": 2.0054527947758027e-06,
      "loss": 0.89791119,
      "num_input_tokens_seen": 92302105,
      "step": 4276,
      "time_per_iteration": 2.688791036605835
    },
    {
      "auxiliary_loss_clip": 0.01067051,
      "auxiliary_loss_mlp": 0.01001711,
      "balance_loss_clip": 1.01245308,
      "balance_loss_mlp": 1.00060201,
      "epoch": 0.514278843263392,
      "flos": 62523855279360.0,
      "grad_norm": 0.7344969606397863,
      "language_loss": 0.55889213,
      "learning_rate": 2.004673825629746e-06,
      "loss": 0.57957977,
      "num_input_tokens_seen": 92362885,
      "step": 4277,
      "time_per_iteration": 3.203580141067505
    },
    {
      "auxiliary_loss_clip": 0.01162569,
      "auxiliary_loss_mlp": 0.01027525,
      "balance_loss_clip": 1.0487988,
      "balance_loss_mlp": 1.01841724,
      "epoch": 0.5143990861540312,
      "flos": 25882328545920.0,
      "grad_norm": 2.0698525426723267,
      "language_loss": 0.722247,
      "learning_rate": 2.0038948557746744e-06,
      "loss": 0.74414796,
      "num_input_tokens_seen": 92384740,
      "step": 4278,
      "time_per_iteration": 3.73028302192688
    },
    {
      "auxiliary_loss_clip": 0.01175624,
      "auxiliary_loss_mlp": 0.01037457,
      "balance_loss_clip": 1.05413628,
      "balance_loss_mlp": 1.02913642,
      "epoch": 0.5145193290446702,
      "flos": 23330660238720.0,
      "grad_norm": 3.127037103957618,
      "language_loss": 0.75379443,
      "learning_rate": 2.0031158853287558e-06,
      "loss": 0.77592528,
      "num_input_tokens_seen": 92405175,
      "step": 4279,
      "time_per_iteration": 2.727571725845337
    },
    {
      "auxiliary_loss_clip": 0.01171619,
      "auxiliary_loss_mlp": 0.01037953,
      "balance_loss_clip": 1.05681205,
      "balance_loss_mlp": 1.02913117,
      "epoch": 0.5146395719353093,
      "flos": 22856603518080.0,
      "grad_norm": 2.2285437021327517,
      "language_loss": 0.70317084,
      "learning_rate": 2.0023369144101593e-06,
      "loss": 0.72526652,
      "num_input_tokens_seen": 92423345,
      "step": 4280,
      "time_per_iteration": 2.6683201789855957
    },
    {
      "auxiliary_loss_clip": 0.01158971,
      "auxiliary_loss_mlp": 0.01035764,
      "balance_loss_clip": 1.05093384,
      "balance_loss_mlp": 1.02656651,
      "epoch": 0.5147598148259485,
      "flos": 26391577616640.0,
      "grad_norm": 2.987009019909969,
      "language_loss": 0.76535594,
      "learning_rate": 2.0015579431370555e-06,
      "loss": 0.78730333,
      "num_input_tokens_seen": 92445025,
      "step": 4281,
      "time_per_iteration": 2.7829627990722656
    },
    {
      "auxiliary_loss_clip": 0.01174029,
      "auxiliary_loss_mlp": 0.01027812,
      "balance_loss_clip": 1.05336797,
      "balance_loss_mlp": 1.01932454,
      "epoch": 0.5148800577165875,
      "flos": 29965694561280.0,
      "grad_norm": 3.43777310532598,
      "language_loss": 0.6998449,
      "learning_rate": 2.000778971627612e-06,
      "loss": 0.72186327,
      "num_input_tokens_seen": 92464490,
      "step": 4282,
      "time_per_iteration": 2.7364277839660645
    },
    {
      "auxiliary_loss_clip": 0.0115933,
      "auxiliary_loss_mlp": 0.01033871,
      "balance_loss_clip": 1.04880118,
      "balance_loss_mlp": 1.02553236,
      "epoch": 0.5150003006072266,
      "flos": 17931383470080.0,
      "grad_norm": 2.520198893011651,
      "language_loss": 0.90255296,
      "learning_rate": 2e-06,
      "loss": 0.92448497,
      "num_input_tokens_seen": 92482085,
      "step": 4283,
      "time_per_iteration": 2.709373950958252
    },
    {
      "auxiliary_loss_clip": 0.01188848,
      "auxiliary_loss_mlp": 0.01029875,
      "balance_loss_clip": 1.05622828,
      "balance_loss_mlp": 1.02124441,
      "epoch": 0.5151205434978657,
      "flos": 18478733892480.0,
      "grad_norm": 1.7060812927412974,
      "language_loss": 0.85767752,
      "learning_rate": 1.9992210283723878e-06,
      "loss": 0.87986481,
      "num_input_tokens_seen": 92499325,
      "step": 4284,
      "time_per_iteration": 2.555598735809326
    },
    {
      "auxiliary_loss_clip": 0.01188153,
      "auxiliary_loss_mlp": 0.01029859,
      "balance_loss_clip": 1.05600834,
      "balance_loss_mlp": 1.0220989,
      "epoch": 0.5152407863885048,
      "flos": 25341263003520.0,
      "grad_norm": 1.6925665077366217,
      "language_loss": 0.795919,
      "learning_rate": 1.9984420568629448e-06,
      "loss": 0.81809914,
      "num_input_tokens_seen": 92522090,
      "step": 4285,
      "time_per_iteration": 2.7192015647888184
    },
    {
      "auxiliary_loss_clip": 0.0117712,
      "auxiliary_loss_mlp": 0.01028325,
      "balance_loss_clip": 1.05120993,
      "balance_loss_mlp": 1.02048111,
      "epoch": 0.5153610292791438,
      "flos": 18329740277760.0,
      "grad_norm": 1.9824624117763032,
      "language_loss": 0.78508949,
      "learning_rate": 1.9976630855898405e-06,
      "loss": 0.80714399,
      "num_input_tokens_seen": 92539845,
      "step": 4286,
      "time_per_iteration": 2.603576898574829
    },
    {
      "auxiliary_loss_clip": 0.01159784,
      "auxiliary_loss_mlp": 0.01029072,
      "balance_loss_clip": 1.04442763,
      "balance_loss_mlp": 1.02102554,
      "epoch": 0.515481272169783,
      "flos": 30409945971840.0,
      "grad_norm": 2.2638326551964933,
      "language_loss": 0.74502254,
      "learning_rate": 1.9968841146712445e-06,
      "loss": 0.76691109,
      "num_input_tokens_seen": 92559460,
      "step": 4287,
      "time_per_iteration": 2.7462704181671143
    },
    {
      "auxiliary_loss_clip": 0.01137657,
      "auxiliary_loss_mlp": 0.00887606,
      "balance_loss_clip": 1.04754651,
      "balance_loss_mlp": 1.00062847,
      "epoch": 0.5156015150604221,
      "flos": 23037305863680.0,
      "grad_norm": 5.308342093162036,
      "language_loss": 0.71370989,
      "learning_rate": 1.996105144225326e-06,
      "loss": 0.73396254,
      "num_input_tokens_seen": 92579695,
      "step": 4288,
      "time_per_iteration": 2.863987445831299
    },
    {
      "auxiliary_loss_clip": 0.01180732,
      "auxiliary_loss_mlp": 0.01031221,
      "balance_loss_clip": 1.05704141,
      "balance_loss_mlp": 1.02284706,
      "epoch": 0.5157217579510611,
      "flos": 17858556645120.0,
      "grad_norm": 1.9621796632829773,
      "language_loss": 0.7914983,
      "learning_rate": 1.995326174370254e-06,
      "loss": 0.81361789,
      "num_input_tokens_seen": 92598795,
      "step": 4289,
      "time_per_iteration": 2.969080686569214
    },
    {
      "auxiliary_loss_clip": 0.01174405,
      "auxiliary_loss_mlp": 0.00886854,
      "balance_loss_clip": 1.05191183,
      "balance_loss_mlp": 1.00048506,
      "epoch": 0.5158420008417003,
      "flos": 19171486569600.0,
      "grad_norm": 1.8082837335703783,
      "language_loss": 0.73015684,
      "learning_rate": 1.994547205224197e-06,
      "loss": 0.7507695,
      "num_input_tokens_seen": 92617700,
      "step": 4290,
      "time_per_iteration": 2.672372817993164
    },
    {
      "auxiliary_loss_clip": 0.01165122,
      "auxiliary_loss_mlp": 0.01033249,
      "balance_loss_clip": 1.05264115,
      "balance_loss_mlp": 1.02505994,
      "epoch": 0.5159622437323393,
      "flos": 22419534827520.0,
      "grad_norm": 2.064194937759691,
      "language_loss": 0.67761666,
      "learning_rate": 1.993768236905325e-06,
      "loss": 0.6996004,
      "num_input_tokens_seen": 92638370,
      "step": 4291,
      "time_per_iteration": 2.6605000495910645
    },
    {
      "auxiliary_loss_clip": 0.01162274,
      "auxiliary_loss_mlp": 0.01033209,
      "balance_loss_clip": 1.04836822,
      "balance_loss_mlp": 1.02456617,
      "epoch": 0.5160824866229784,
      "flos": 24603010773120.0,
      "grad_norm": 15.67584085724645,
      "language_loss": 0.66185725,
      "learning_rate": 1.992989269531807e-06,
      "loss": 0.68381202,
      "num_input_tokens_seen": 92657180,
      "step": 4292,
      "time_per_iteration": 3.579167604446411
    },
    {
      "auxiliary_loss_clip": 0.0116726,
      "auxiliary_loss_mlp": 0.01034513,
      "balance_loss_clip": 1.05036318,
      "balance_loss_mlp": 1.0258224,
      "epoch": 0.5162027295136175,
      "flos": 18002737837440.0,
      "grad_norm": 2.6736314120798763,
      "language_loss": 0.6799022,
      "learning_rate": 1.99221030322181e-06,
      "loss": 0.70191991,
      "num_input_tokens_seen": 92673985,
      "step": 4293,
      "time_per_iteration": 2.6806588172912598
    },
    {
      "auxiliary_loss_clip": 0.01171584,
      "auxiliary_loss_mlp": 0.01026888,
      "balance_loss_clip": 1.05227625,
      "balance_loss_mlp": 1.01841795,
      "epoch": 0.5163229724042566,
      "flos": 27344611221120.0,
      "grad_norm": 2.1951563814083057,
      "language_loss": 0.80938542,
      "learning_rate": 1.991431338093505e-06,
      "loss": 0.83137017,
      "num_input_tokens_seen": 92696340,
      "step": 4294,
      "time_per_iteration": 2.744035243988037
    },
    {
      "auxiliary_loss_clip": 0.01169693,
      "auxiliary_loss_mlp": 0.0103003,
      "balance_loss_clip": 1.0562017,
      "balance_loss_mlp": 1.02254367,
      "epoch": 0.5164432152948957,
      "flos": 21762764599680.0,
      "grad_norm": 1.7044126891888016,
      "language_loss": 0.79277849,
      "learning_rate": 1.9906523742650587e-06,
      "loss": 0.81477571,
      "num_input_tokens_seen": 92715200,
      "step": 4295,
      "time_per_iteration": 2.697357177734375
    },
    {
      "auxiliary_loss_clip": 0.01187919,
      "auxiliary_loss_mlp": 0.01030075,
      "balance_loss_clip": 1.05402815,
      "balance_loss_mlp": 1.02054453,
      "epoch": 0.5165634581855347,
      "flos": 25550334115200.0,
      "grad_norm": 2.097700250273438,
      "language_loss": 0.7763207,
      "learning_rate": 1.9898734118546397e-06,
      "loss": 0.7985006,
      "num_input_tokens_seen": 92735150,
      "step": 4296,
      "time_per_iteration": 2.6175119876861572
    },
    {
      "auxiliary_loss_clip": 0.01132862,
      "auxiliary_loss_mlp": 0.0103064,
      "balance_loss_clip": 1.04476619,
      "balance_loss_mlp": 1.02212882,
      "epoch": 0.5166837010761739,
      "flos": 19901191363200.0,
      "grad_norm": 1.9685941535967613,
      "language_loss": 0.80432332,
      "learning_rate": 1.989094450980416e-06,
      "loss": 0.82595825,
      "num_input_tokens_seen": 92755250,
      "step": 4297,
      "time_per_iteration": 2.9149954319000244
    },
    {
      "auxiliary_loss_clip": 0.01176765,
      "auxiliary_loss_mlp": 0.01032332,
      "balance_loss_clip": 1.05423772,
      "balance_loss_mlp": 1.0240705,
      "epoch": 0.516803943966813,
      "flos": 26646076454400.0,
      "grad_norm": 5.743246562964203,
      "language_loss": 0.76745021,
      "learning_rate": 1.9883154917605556e-06,
      "loss": 0.78954124,
      "num_input_tokens_seen": 92774460,
      "step": 4298,
      "time_per_iteration": 3.613537073135376
    },
    {
      "auxiliary_loss_clip": 0.01187163,
      "auxiliary_loss_mlp": 0.01028753,
      "balance_loss_clip": 1.05567694,
      "balance_loss_mlp": 1.02067089,
      "epoch": 0.516924186857452,
      "flos": 19682854542720.0,
      "grad_norm": 1.6175024232030581,
      "language_loss": 0.83285588,
      "learning_rate": 1.9875365343132262e-06,
      "loss": 0.85501504,
      "num_input_tokens_seen": 92791580,
      "step": 4299,
      "time_per_iteration": 2.6684396266937256
    },
    {
      "auxiliary_loss_clip": 0.0117822,
      "auxiliary_loss_mlp": 0.0088676,
      "balance_loss_clip": 1.05603886,
      "balance_loss_mlp": 1.00047326,
      "epoch": 0.5170444297480912,
      "flos": 15956583586560.0,
      "grad_norm": 2.154199381944944,
      "language_loss": 0.8453089,
      "learning_rate": 1.9867575787565946e-06,
      "loss": 0.86595869,
      "num_input_tokens_seen": 92806240,
      "step": 4300,
      "time_per_iteration": 3.431549072265625
    },
    {
      "auxiliary_loss_clip": 0.01181334,
      "auxiliary_loss_mlp": 0.01034231,
      "balance_loss_clip": 1.05583274,
      "balance_loss_mlp": 1.02535009,
      "epoch": 0.5171646726387302,
      "flos": 14174157968640.0,
      "grad_norm": 2.6352435465479065,
      "language_loss": 0.85993838,
      "learning_rate": 1.9859786252088275e-06,
      "loss": 0.88209409,
      "num_input_tokens_seen": 92823420,
      "step": 4301,
      "time_per_iteration": 2.6018056869506836
    },
    {
      "auxiliary_loss_clip": 0.01162078,
      "auxiliary_loss_mlp": 0.01030765,
      "balance_loss_clip": 1.05188191,
      "balance_loss_mlp": 1.02165103,
      "epoch": 0.5172849155293693,
      "flos": 23578550974080.0,
      "grad_norm": 2.793033011502789,
      "language_loss": 0.67027253,
      "learning_rate": 1.9851996737880914e-06,
      "loss": 0.69220102,
      "num_input_tokens_seen": 92838605,
      "step": 4302,
      "time_per_iteration": 2.719411611557007
    },
    {
      "auxiliary_loss_clip": 0.01184817,
      "auxiliary_loss_mlp": 0.01033281,
      "balance_loss_clip": 1.05498266,
      "balance_loss_mlp": 1.0241673,
      "epoch": 0.5174051584200084,
      "flos": 14283541860480.0,
      "grad_norm": 2.3712268032577923,
      "language_loss": 0.74383664,
      "learning_rate": 1.9844207246125537e-06,
      "loss": 0.76601768,
      "num_input_tokens_seen": 92855185,
      "step": 4303,
      "time_per_iteration": 2.6259922981262207
    },
    {
      "auxiliary_loss_clip": 0.01166816,
      "auxiliary_loss_mlp": 0.01029361,
      "balance_loss_clip": 1.05245161,
      "balance_loss_mlp": 1.02086103,
      "epoch": 0.5175254013106475,
      "flos": 37889384192640.0,
      "grad_norm": 2.064338054574168,
      "language_loss": 0.68586087,
      "learning_rate": 1.983641777800379e-06,
      "loss": 0.70782268,
      "num_input_tokens_seen": 92877830,
      "step": 4304,
      "time_per_iteration": 2.8475301265716553
    },
    {
      "auxiliary_loss_clip": 0.01066473,
      "auxiliary_loss_mlp": 0.01004931,
      "balance_loss_clip": 1.01343679,
      "balance_loss_mlp": 1.00373888,
      "epoch": 0.5176456442012866,
      "flos": 68549737829760.0,
      "grad_norm": 0.7602856957564624,
      "language_loss": 0.58796966,
      "learning_rate": 1.9828628334697343e-06,
      "loss": 0.60868359,
      "num_input_tokens_seen": 92945040,
      "step": 4305,
      "time_per_iteration": 4.340419054031372
    },
    {
      "auxiliary_loss_clip": 0.01068553,
      "auxiliary_loss_mlp": 0.01005658,
      "balance_loss_clip": 1.01562142,
      "balance_loss_mlp": 1.00443637,
      "epoch": 0.5177658870919257,
      "flos": 64084137235200.0,
      "grad_norm": 0.7658651147968895,
      "language_loss": 0.54642075,
      "learning_rate": 1.982083891738784e-06,
      "loss": 0.56716281,
      "num_input_tokens_seen": 93005910,
      "step": 4306,
      "time_per_iteration": 3.2707128524780273
    },
    {
      "auxiliary_loss_clip": 0.01163926,
      "auxiliary_loss_mlp": 0.01027426,
      "balance_loss_clip": 1.05400419,
      "balance_loss_mlp": 1.01960015,
      "epoch": 0.5178861299825648,
      "flos": 26651248012800.0,
      "grad_norm": 1.5505512757256235,
      "language_loss": 0.82815945,
      "learning_rate": 1.9813049527256923e-06,
      "loss": 0.85007298,
      "num_input_tokens_seen": 93026305,
      "step": 4307,
      "time_per_iteration": 2.778421401977539
    },
    {
      "auxiliary_loss_clip": 0.01154088,
      "auxiliary_loss_mlp": 0.01032576,
      "balance_loss_clip": 1.04646885,
      "balance_loss_mlp": 1.02443385,
      "epoch": 0.5180063728732038,
      "flos": 17931886260480.0,
      "grad_norm": 2.7106375127567337,
      "language_loss": 0.82334805,
      "learning_rate": 1.9805260165486252e-06,
      "loss": 0.84521472,
      "num_input_tokens_seen": 93045675,
      "step": 4308,
      "time_per_iteration": 2.6767821311950684
    },
    {
      "auxiliary_loss_clip": 0.01178342,
      "auxiliary_loss_mlp": 0.01027827,
      "balance_loss_clip": 1.05561304,
      "balance_loss_mlp": 1.01960123,
      "epoch": 0.518126615763843,
      "flos": 19500895221120.0,
      "grad_norm": 2.2605974601803016,
      "language_loss": 0.8708148,
      "learning_rate": 1.9797470833257457e-06,
      "loss": 0.89287651,
      "num_input_tokens_seen": 93065375,
      "step": 4309,
      "time_per_iteration": 2.7002646923065186
    },
    {
      "auxiliary_loss_clip": 0.01178443,
      "auxiliary_loss_mlp": 0.01036353,
      "balance_loss_clip": 1.05514336,
      "balance_loss_mlp": 1.02800858,
      "epoch": 0.5182468586544821,
      "flos": 20704082117760.0,
      "grad_norm": 2.160779225410694,
      "language_loss": 0.77363741,
      "learning_rate": 1.9789681531752177e-06,
      "loss": 0.79578537,
      "num_input_tokens_seen": 93085595,
      "step": 4310,
      "time_per_iteration": 2.6472413539886475
    },
    {
      "auxiliary_loss_clip": 0.01145554,
      "auxiliary_loss_mlp": 0.01032128,
      "balance_loss_clip": 1.05031168,
      "balance_loss_mlp": 1.02380753,
      "epoch": 0.5183671015451211,
      "flos": 23112107936640.0,
      "grad_norm": 1.770932883145853,
      "language_loss": 0.72478253,
      "learning_rate": 1.978189226215204e-06,
      "loss": 0.74655938,
      "num_input_tokens_seen": 93106140,
      "step": 4311,
      "time_per_iteration": 2.8229568004608154
    },
    {
      "auxiliary_loss_clip": 0.01186823,
      "auxiliary_loss_mlp": 0.01030372,
      "balance_loss_clip": 1.05529356,
      "balance_loss_mlp": 1.02172327,
      "epoch": 0.5184873444357603,
      "flos": 17597090568960.0,
      "grad_norm": 1.807336565759864,
      "language_loss": 0.77203417,
      "learning_rate": 1.9774103025638675e-06,
      "loss": 0.79420602,
      "num_input_tokens_seen": 93124265,
      "step": 4312,
      "time_per_iteration": 2.6117498874664307
    },
    {
      "auxiliary_loss_clip": 0.01154288,
      "auxiliary_loss_mlp": 0.01027299,
      "balance_loss_clip": 1.05634665,
      "balance_loss_mlp": 1.01884723,
      "epoch": 0.5186075873263993,
      "flos": 24936800883840.0,
      "grad_norm": 1.599556309653753,
      "language_loss": 0.76312989,
      "learning_rate": 1.9766313823393696e-06,
      "loss": 0.78494573,
      "num_input_tokens_seen": 93145130,
      "step": 4313,
      "time_per_iteration": 2.8746390342712402
    },
    {
      "auxiliary_loss_clip": 0.01142468,
      "auxiliary_loss_mlp": 0.01040783,
      "balance_loss_clip": 1.04576254,
      "balance_loss_mlp": 1.03257585,
      "epoch": 0.5187278302170384,
      "flos": 15190106244480.0,
      "grad_norm": 2.1382389278769383,
      "language_loss": 0.68794191,
      "learning_rate": 1.975852465659873e-06,
      "loss": 0.70977437,
      "num_input_tokens_seen": 93161110,
      "step": 4314,
      "time_per_iteration": 2.7473528385162354
    },
    {
      "auxiliary_loss_clip": 0.01183019,
      "auxiliary_loss_mlp": 0.01041539,
      "balance_loss_clip": 1.0569185,
      "balance_loss_mlp": 1.03203201,
      "epoch": 0.5188480731076776,
      "flos": 25009412227200.0,
      "grad_norm": 2.483642366061269,
      "language_loss": 0.70244753,
      "learning_rate": 1.9750735526435377e-06,
      "loss": 0.72469312,
      "num_input_tokens_seen": 93178055,
      "step": 4315,
      "time_per_iteration": 2.7141599655151367
    },
    {
      "auxiliary_loss_clip": 0.01166472,
      "auxiliary_loss_mlp": 0.01032828,
      "balance_loss_clip": 1.05248916,
      "balance_loss_mlp": 1.02415013,
      "epoch": 0.5189683159983166,
      "flos": 24790141653120.0,
      "grad_norm": 2.1819975997030205,
      "language_loss": 0.7906965,
      "learning_rate": 1.974294643408525e-06,
      "loss": 0.81268954,
      "num_input_tokens_seen": 93195850,
      "step": 4316,
      "time_per_iteration": 2.731492042541504
    },
    {
      "auxiliary_loss_clip": 0.01180696,
      "auxiliary_loss_mlp": 0.01032996,
      "balance_loss_clip": 1.05342245,
      "balance_loss_mlp": 1.02419281,
      "epoch": 0.5190885588889557,
      "flos": 24754266944640.0,
      "grad_norm": 2.6034746357207594,
      "language_loss": 0.66865814,
      "learning_rate": 1.9735157380729947e-06,
      "loss": 0.69079506,
      "num_input_tokens_seen": 93216260,
      "step": 4317,
      "time_per_iteration": 2.7001123428344727
    },
    {
      "auxiliary_loss_clip": 0.011702,
      "auxiliary_loss_mlp": 0.01033604,
      "balance_loss_clip": 1.05289125,
      "balance_loss_mlp": 1.02540803,
      "epoch": 0.5192088017795948,
      "flos": 24712646060160.0,
      "grad_norm": 1.8836857883528348,
      "language_loss": 0.84164214,
      "learning_rate": 1.9727368367551053e-06,
      "loss": 0.86368018,
      "num_input_tokens_seen": 93234810,
      "step": 4318,
      "time_per_iteration": 2.689422130584717
    },
    {
      "auxiliary_loss_clip": 0.01159758,
      "auxiliary_loss_mlp": 0.01025808,
      "balance_loss_clip": 1.05196023,
      "balance_loss_mlp": 1.01735055,
      "epoch": 0.5193290446702339,
      "flos": 27229588894080.0,
      "grad_norm": 2.253705081837102,
      "language_loss": 0.68359298,
      "learning_rate": 1.9719579395730164e-06,
      "loss": 0.70544863,
      "num_input_tokens_seen": 93254185,
      "step": 4319,
      "time_per_iteration": 3.90061092376709
    },
    {
      "auxiliary_loss_clip": 0.01192085,
      "auxiliary_loss_mlp": 0.01028432,
      "balance_loss_clip": 1.05924582,
      "balance_loss_mlp": 1.02040339,
      "epoch": 0.5194492875608729,
      "flos": 11473352392320.0,
      "grad_norm": 2.422062329056487,
      "language_loss": 0.93502998,
      "learning_rate": 1.9711790466448854e-06,
      "loss": 0.95723522,
      "num_input_tokens_seen": 93268205,
      "step": 4320,
      "time_per_iteration": 2.611525297164917
    },
    {
      "auxiliary_loss_clip": 0.0115237,
      "auxiliary_loss_mlp": 0.0103144,
      "balance_loss_clip": 1.04981828,
      "balance_loss_mlp": 1.02223694,
      "epoch": 0.5195695304515121,
      "flos": 20338906498560.0,
      "grad_norm": 2.1509692739927417,
      "language_loss": 0.7190426,
      "learning_rate": 1.9704001580888704e-06,
      "loss": 0.74088067,
      "num_input_tokens_seen": 93286945,
      "step": 4321,
      "time_per_iteration": 2.7943482398986816
    },
    {
      "auxiliary_loss_clip": 0.01160507,
      "auxiliary_loss_mlp": 0.00887079,
      "balance_loss_clip": 1.04878473,
      "balance_loss_mlp": 1.00046968,
      "epoch": 0.5196897733421512,
      "flos": 20048317470720.0,
      "grad_norm": 2.1326322462904606,
      "language_loss": 0.86753196,
      "learning_rate": 1.9696212740231283e-06,
      "loss": 0.88800776,
      "num_input_tokens_seen": 93305595,
      "step": 4322,
      "time_per_iteration": 2.656461715698242
    },
    {
      "auxiliary_loss_clip": 0.01183349,
      "auxiliary_loss_mlp": 0.01032172,
      "balance_loss_clip": 1.05242968,
      "balance_loss_mlp": 1.02324343,
      "epoch": 0.5198100162327902,
      "flos": 23805507058560.0,
      "grad_norm": 2.106790925038784,
      "language_loss": 0.82127762,
      "learning_rate": 1.9688423945658146e-06,
      "loss": 0.84343278,
      "num_input_tokens_seen": 93326460,
      "step": 4323,
      "time_per_iteration": 3.6883091926574707
    },
    {
      "auxiliary_loss_clip": 0.01134087,
      "auxiliary_loss_mlp": 0.01028687,
      "balance_loss_clip": 1.04175687,
      "balance_loss_mlp": 1.02000856,
      "epoch": 0.5199302591234293,
      "flos": 24023951619840.0,
      "grad_norm": 2.214096571298046,
      "language_loss": 0.72308826,
      "learning_rate": 1.9680635198350845e-06,
      "loss": 0.74471593,
      "num_input_tokens_seen": 93346170,
      "step": 4324,
      "time_per_iteration": 2.7788889408111572
    },
    {
      "auxiliary_loss_clip": 0.01176928,
      "auxiliary_loss_mlp": 0.01031653,
      "balance_loss_clip": 1.05143285,
      "balance_loss_mlp": 1.02248013,
      "epoch": 0.5200505020140684,
      "flos": 26359366095360.0,
      "grad_norm": 2.01391590172055,
      "language_loss": 0.72689778,
      "learning_rate": 1.967284649949093e-06,
      "loss": 0.74898362,
      "num_input_tokens_seen": 93365380,
      "step": 4325,
      "time_per_iteration": 2.767699956893921
    },
    {
      "auxiliary_loss_clip": 0.0115452,
      "auxiliary_loss_mlp": 0.01029048,
      "balance_loss_clip": 1.04688954,
      "balance_loss_mlp": 1.0202446,
      "epoch": 0.5201707449047075,
      "flos": 39604262284800.0,
      "grad_norm": 3.0151697644089612,
      "language_loss": 0.72392547,
      "learning_rate": 1.966505785025994e-06,
      "loss": 0.74576116,
      "num_input_tokens_seen": 93387285,
      "step": 4326,
      "time_per_iteration": 3.8304505348205566
    },
    {
      "auxiliary_loss_clip": 0.01161655,
      "auxiliary_loss_mlp": 0.01025197,
      "balance_loss_clip": 1.0529629,
      "balance_loss_mlp": 1.01681709,
      "epoch": 0.5202909877953465,
      "flos": 53682788292480.0,
      "grad_norm": 2.539001302645597,
      "language_loss": 0.76305091,
      "learning_rate": 1.965726925183941e-06,
      "loss": 0.7849195,
      "num_input_tokens_seen": 93410390,
      "step": 4327,
      "time_per_iteration": 2.9634621143341064
    },
    {
      "auxiliary_loss_clip": 0.01188882,
      "auxiliary_loss_mlp": 0.01030106,
      "balance_loss_clip": 1.05673361,
      "balance_loss_mlp": 1.02182126,
      "epoch": 0.5204112306859857,
      "flos": 19537021324800.0,
      "grad_norm": 2.5891637403451795,
      "language_loss": 0.85053205,
      "learning_rate": 1.964948070541087e-06,
      "loss": 0.87272197,
      "num_input_tokens_seen": 93429050,
      "step": 4328,
      "time_per_iteration": 2.5974936485290527
    },
    {
      "auxiliary_loss_clip": 0.01165805,
      "auxiliary_loss_mlp": 0.01029223,
      "balance_loss_clip": 1.04891586,
      "balance_loss_mlp": 1.01958454,
      "epoch": 0.5205314735766248,
      "flos": 15304697608320.0,
      "grad_norm": 2.3753757497777443,
      "language_loss": 0.70008332,
      "learning_rate": 1.9641692212155816e-06,
      "loss": 0.72203362,
      "num_input_tokens_seen": 93446815,
      "step": 4329,
      "time_per_iteration": 2.6546456813812256
    },
    {
      "auxiliary_loss_clip": 0.01144796,
      "auxiliary_loss_mlp": 0.01024386,
      "balance_loss_clip": 1.05140233,
      "balance_loss_mlp": 1.01642895,
      "epoch": 0.5206517164672638,
      "flos": 59263701160320.0,
      "grad_norm": 1.809856933054613,
      "language_loss": 0.72719568,
      "learning_rate": 1.9633903773255777e-06,
      "loss": 0.74888748,
      "num_input_tokens_seen": 93469130,
      "step": 4330,
      "time_per_iteration": 3.037559986114502
    },
    {
      "auxiliary_loss_clip": 0.01186545,
      "auxiliary_loss_mlp": 0.01030449,
      "balance_loss_clip": 1.05357099,
      "balance_loss_mlp": 1.02196777,
      "epoch": 0.520771959357903,
      "flos": 26871129118080.0,
      "grad_norm": 2.0113463790897246,
      "language_loss": 0.74713266,
      "learning_rate": 1.9626115389892237e-06,
      "loss": 0.76930261,
      "num_input_tokens_seen": 93489920,
      "step": 4331,
      "time_per_iteration": 3.587474822998047
    },
    {
      "auxiliary_loss_clip": 0.01166619,
      "auxiliary_loss_mlp": 0.01031736,
      "balance_loss_clip": 1.05240631,
      "balance_loss_mlp": 1.02327228,
      "epoch": 0.520892202248542,
      "flos": 26907075653760.0,
      "grad_norm": 2.020822006652056,
      "language_loss": 0.85505474,
      "learning_rate": 1.96183270632467e-06,
      "loss": 0.8770383,
      "num_input_tokens_seen": 93509770,
      "step": 4332,
      "time_per_iteration": 2.7571630477905273
    },
    {
      "auxiliary_loss_clip": 0.01151548,
      "auxiliary_loss_mlp": 0.00887945,
      "balance_loss_clip": 1.0469445,
      "balance_loss_mlp": 1.00048423,
      "epoch": 0.5210124451391811,
      "flos": 25849434666240.0,
      "grad_norm": 1.6720223615549101,
      "language_loss": 0.78919417,
      "learning_rate": 1.9610538794500644e-06,
      "loss": 0.80958915,
      "num_input_tokens_seen": 93529320,
      "step": 4333,
      "time_per_iteration": 2.7443268299102783
    },
    {
      "auxiliary_loss_clip": 0.01062051,
      "auxiliary_loss_mlp": 0.01007006,
      "balance_loss_clip": 1.01530075,
      "balance_loss_mlp": 1.00578427,
      "epoch": 0.5211326880298203,
      "flos": 70553804319360.0,
      "grad_norm": 0.7743124015683905,
      "language_loss": 0.59401381,
      "learning_rate": 1.9602750584835542e-06,
      "loss": 0.61470443,
      "num_input_tokens_seen": 93595255,
      "step": 4334,
      "time_per_iteration": 3.4058499336242676
    },
    {
      "auxiliary_loss_clip": 0.01163453,
      "auxiliary_loss_mlp": 0.01035786,
      "balance_loss_clip": 1.04991448,
      "balance_loss_mlp": 1.02716708,
      "epoch": 0.5212529309204593,
      "flos": 15628898787840.0,
      "grad_norm": 1.9772249975734464,
      "language_loss": 0.82424361,
      "learning_rate": 1.959496243543286e-06,
      "loss": 0.84623599,
      "num_input_tokens_seen": 93613135,
      "step": 4335,
      "time_per_iteration": 2.639284372329712
    },
    {
      "auxiliary_loss_clip": 0.01181853,
      "auxiliary_loss_mlp": 0.01029648,
      "balance_loss_clip": 1.05784559,
      "balance_loss_mlp": 1.02082109,
      "epoch": 0.5213731738110984,
      "flos": 26242655829120.0,
      "grad_norm": 2.0827810389285926,
      "language_loss": 0.79258484,
      "learning_rate": 1.9587174347474057e-06,
      "loss": 0.81469989,
      "num_input_tokens_seen": 93629645,
      "step": 4336,
      "time_per_iteration": 2.7337982654571533
    },
    {
      "auxiliary_loss_clip": 0.0113121,
      "auxiliary_loss_mlp": 0.01024691,
      "balance_loss_clip": 1.04451776,
      "balance_loss_mlp": 1.01594675,
      "epoch": 0.5214934167017375,
      "flos": 19418407637760.0,
      "grad_norm": 11.037434344583147,
      "language_loss": 0.820225,
      "learning_rate": 1.9579386322140574e-06,
      "loss": 0.841784,
      "num_input_tokens_seen": 93645325,
      "step": 4337,
      "time_per_iteration": 2.818434715270996
    },
    {
      "auxiliary_loss_clip": 0.01192445,
      "auxiliary_loss_mlp": 0.00887855,
      "balance_loss_clip": 1.05802727,
      "balance_loss_mlp": 1.0005908,
      "epoch": 0.5216136595923766,
      "flos": 30955788023040.0,
      "grad_norm": 1.7708258620543544,
      "language_loss": 0.81089383,
      "learning_rate": 1.9571598360613854e-06,
      "loss": 0.83169681,
      "num_input_tokens_seen": 93668200,
      "step": 4338,
      "time_per_iteration": 2.6964011192321777
    },
    {
      "auxiliary_loss_clip": 0.01152209,
      "auxiliary_loss_mlp": 0.01024494,
      "balance_loss_clip": 1.04699564,
      "balance_loss_mlp": 1.0158273,
      "epoch": 0.5217339024830157,
      "flos": 21945047143680.0,
      "grad_norm": 4.021059791600143,
      "language_loss": 0.70127839,
      "learning_rate": 1.956381046407532e-06,
      "loss": 0.72304547,
      "num_input_tokens_seen": 93688495,
      "step": 4339,
      "time_per_iteration": 2.647001266479492
    },
    {
      "auxiliary_loss_clip": 0.01156269,
      "auxiliary_loss_mlp": 0.01033135,
      "balance_loss_clip": 1.0515871,
      "balance_loss_mlp": 1.02488565,
      "epoch": 0.5218541453736548,
      "flos": 20923209037440.0,
      "grad_norm": 1.8096000969674622,
      "language_loss": 0.86288106,
      "learning_rate": 1.9556022633706394e-06,
      "loss": 0.8847751,
      "num_input_tokens_seen": 93707285,
      "step": 4340,
      "time_per_iteration": 2.7373268604278564
    },
    {
      "auxiliary_loss_clip": 0.01161681,
      "auxiliary_loss_mlp": 0.01028201,
      "balance_loss_clip": 1.05383718,
      "balance_loss_mlp": 1.01943874,
      "epoch": 0.5219743882642939,
      "flos": 23951663498880.0,
      "grad_norm": 2.263711550306086,
      "language_loss": 0.79665667,
      "learning_rate": 1.954823487068848e-06,
      "loss": 0.81855547,
      "num_input_tokens_seen": 93727495,
      "step": 4341,
      "time_per_iteration": 2.6668169498443604
    },
    {
      "auxiliary_loss_clip": 0.01181458,
      "auxiliary_loss_mlp": 0.01027439,
      "balance_loss_clip": 1.05839157,
      "balance_loss_mlp": 1.01878428,
      "epoch": 0.5220946311549329,
      "flos": 28799280213120.0,
      "grad_norm": 1.646392844323559,
      "language_loss": 0.81209129,
      "learning_rate": 1.9540447176202976e-06,
      "loss": 0.83418024,
      "num_input_tokens_seen": 93748740,
      "step": 4342,
      "time_per_iteration": 2.752227783203125
    },
    {
      "auxiliary_loss_clip": 0.0106693,
      "auxiliary_loss_mlp": 0.01001757,
      "balance_loss_clip": 1.0138377,
      "balance_loss_mlp": 1.0006783,
      "epoch": 0.5222148740455721,
      "flos": 67189369017600.0,
      "grad_norm": 0.8845602637496985,
      "language_loss": 0.60689509,
      "learning_rate": 1.9532659551431272e-06,
      "loss": 0.62758195,
      "num_input_tokens_seen": 93815770,
      "step": 4343,
      "time_per_iteration": 3.388424873352051
    },
    {
      "auxiliary_loss_clip": 0.01177276,
      "auxiliary_loss_mlp": 0.0103103,
      "balance_loss_clip": 1.0516957,
      "balance_loss_mlp": 1.02309072,
      "epoch": 0.5223351169362112,
      "flos": 61856164339200.0,
      "grad_norm": 2.143040250131364,
      "language_loss": 0.67402816,
      "learning_rate": 1.9524871997554744e-06,
      "loss": 0.69611114,
      "num_input_tokens_seen": 93843530,
      "step": 4344,
      "time_per_iteration": 3.9826457500457764
    },
    {
      "auxiliary_loss_clip": 0.01179469,
      "auxiliary_loss_mlp": 0.01033084,
      "balance_loss_clip": 1.05462527,
      "balance_loss_mlp": 1.0241673,
      "epoch": 0.5224553598268502,
      "flos": 14647388676480.0,
      "grad_norm": 2.275853305752564,
      "language_loss": 0.80903113,
      "learning_rate": 1.951708451575475e-06,
      "loss": 0.83115661,
      "num_input_tokens_seen": 93860595,
      "step": 4345,
      "time_per_iteration": 2.679365634918213
    },
    {
      "auxiliary_loss_clip": 0.01167946,
      "auxiliary_loss_mlp": 0.01032404,
      "balance_loss_clip": 1.04991412,
      "balance_loss_mlp": 1.02377295,
      "epoch": 0.5225756027174894,
      "flos": 14826043946880.0,
      "grad_norm": 1.7556015787021484,
      "language_loss": 0.82217646,
      "learning_rate": 1.9509297107212657e-06,
      "loss": 0.84417993,
      "num_input_tokens_seen": 93877365,
      "step": 4346,
      "time_per_iteration": 2.744995594024658
    },
    {
      "auxiliary_loss_clip": 0.01188775,
      "auxiliary_loss_mlp": 0.01027987,
      "balance_loss_clip": 1.05605924,
      "balance_loss_mlp": 1.01939249,
      "epoch": 0.5226958456081284,
      "flos": 23512009029120.0,
      "grad_norm": 2.115585354527338,
      "language_loss": 0.79110152,
      "learning_rate": 1.95015097731098e-06,
      "loss": 0.81326914,
      "num_input_tokens_seen": 93896855,
      "step": 4347,
      "time_per_iteration": 2.6929731369018555
    },
    {
      "auxiliary_loss_clip": 0.01187895,
      "auxiliary_loss_mlp": 0.0103244,
      "balance_loss_clip": 1.05615902,
      "balance_loss_mlp": 1.02414894,
      "epoch": 0.5228160884987675,
      "flos": 19062928690560.0,
      "grad_norm": 2.768195367949572,
      "language_loss": 0.82427263,
      "learning_rate": 1.949372251462751e-06,
      "loss": 0.84647596,
      "num_input_tokens_seen": 93914270,
      "step": 4348,
      "time_per_iteration": 2.6651928424835205
    },
    {
      "auxiliary_loss_clip": 0.0115828,
      "auxiliary_loss_mlp": 0.0088757,
      "balance_loss_clip": 1.05162454,
      "balance_loss_mlp": 1.00057244,
      "epoch": 0.5229363313894067,
      "flos": 21063224252160.0,
      "grad_norm": 2.1528612200514003,
      "language_loss": 0.82748342,
      "learning_rate": 1.9485935332947124e-06,
      "loss": 0.84794199,
      "num_input_tokens_seen": 93932180,
      "step": 4349,
      "time_per_iteration": 3.682079315185547
    },
    {
      "auxiliary_loss_clip": 0.01162127,
      "auxiliary_loss_mlp": 0.01026206,
      "balance_loss_clip": 1.05010128,
      "balance_loss_mlp": 1.01850843,
      "epoch": 0.5230565742800457,
      "flos": 14830389492480.0,
      "grad_norm": 4.30786024191374,
      "language_loss": 0.83488387,
      "learning_rate": 1.947814822924993e-06,
      "loss": 0.85676724,
      "num_input_tokens_seen": 93949690,
      "step": 4350,
      "time_per_iteration": 2.6765780448913574
    },
    {
      "auxiliary_loss_clip": 0.01187105,
      "auxiliary_loss_mlp": 0.01030133,
      "balance_loss_clip": 1.05619478,
      "balance_loss_mlp": 1.0225811,
      "epoch": 0.5231768171706848,
      "flos": 25813021253760.0,
      "grad_norm": 1.742468793465716,
      "language_loss": 0.82936335,
      "learning_rate": 1.9470361204717236e-06,
      "loss": 0.85153568,
      "num_input_tokens_seen": 93968830,
      "step": 4351,
      "time_per_iteration": 2.661893606185913
    },
    {
      "auxiliary_loss_clip": 0.01158626,
      "auxiliary_loss_mlp": 0.00888215,
      "balance_loss_clip": 1.04830301,
      "balance_loss_mlp": 1.00052941,
      "epoch": 0.5232970600613239,
      "flos": 22743807834240.0,
      "grad_norm": 2.6679876909050515,
      "language_loss": 0.81008202,
      "learning_rate": 1.9462574260530326e-06,
      "loss": 0.83055043,
      "num_input_tokens_seen": 93989110,
      "step": 4352,
      "time_per_iteration": 3.6629726886749268
    },
    {
      "auxiliary_loss_clip": 0.01164672,
      "auxiliary_loss_mlp": 0.01032992,
      "balance_loss_clip": 1.04809141,
      "balance_loss_mlp": 1.02440917,
      "epoch": 0.523417302951963,
      "flos": 17310703432320.0,
      "grad_norm": 1.9214986735341573,
      "language_loss": 0.80993521,
      "learning_rate": 1.9454787397870472e-06,
      "loss": 0.8319118,
      "num_input_tokens_seen": 94006430,
      "step": 4353,
      "time_per_iteration": 2.71701717376709
    },
    {
      "auxiliary_loss_clip": 0.01129327,
      "auxiliary_loss_mlp": 0.01029506,
      "balance_loss_clip": 1.04819846,
      "balance_loss_mlp": 1.02072597,
      "epoch": 0.523537545842602,
      "flos": 18551740285440.0,
      "grad_norm": 2.033399219185816,
      "language_loss": 0.72015357,
      "learning_rate": 1.944700061791894e-06,
      "loss": 0.7417419,
      "num_input_tokens_seen": 94024825,
      "step": 4354,
      "time_per_iteration": 2.876922130584717
    },
    {
      "auxiliary_loss_clip": 0.01177478,
      "auxiliary_loss_mlp": 0.01025486,
      "balance_loss_clip": 1.05485082,
      "balance_loss_mlp": 1.01674175,
      "epoch": 0.5236577887332411,
      "flos": 19719267955200.0,
      "grad_norm": 2.100757292546521,
      "language_loss": 0.65054858,
      "learning_rate": 1.943921392185698e-06,
      "loss": 0.67257816,
      "num_input_tokens_seen": 94043450,
      "step": 4355,
      "time_per_iteration": 2.9114925861358643
    },
    {
      "auxiliary_loss_clip": 0.01171251,
      "auxiliary_loss_mlp": 0.0102985,
      "balance_loss_clip": 1.05132031,
      "balance_loss_mlp": 1.02192843,
      "epoch": 0.5237780316238803,
      "flos": 23550218121600.0,
      "grad_norm": 2.0307582232015897,
      "language_loss": 0.77299452,
      "learning_rate": 1.9431427310865814e-06,
      "loss": 0.79500556,
      "num_input_tokens_seen": 94063055,
      "step": 4356,
      "time_per_iteration": 3.661787986755371
    },
    {
      "auxiliary_loss_clip": 0.01135262,
      "auxiliary_loss_mlp": 0.01031996,
      "balance_loss_clip": 1.04445696,
      "balance_loss_mlp": 1.02389026,
      "epoch": 0.5238982745145193,
      "flos": 22491894775680.0,
      "grad_norm": 1.7301565658568236,
      "language_loss": 0.78943229,
      "learning_rate": 1.942364078612667e-06,
      "loss": 0.81110489,
      "num_input_tokens_seen": 94081785,
      "step": 4357,
      "time_per_iteration": 2.769469738006592
    },
    {
      "auxiliary_loss_clip": 0.01161886,
      "auxiliary_loss_mlp": 0.01030548,
      "balance_loss_clip": 1.04855204,
      "balance_loss_mlp": 1.02120197,
      "epoch": 0.5240185174051584,
      "flos": 27088927234560.0,
      "grad_norm": 1.8818806801053596,
      "language_loss": 0.75476885,
      "learning_rate": 1.9415854348820765e-06,
      "loss": 0.77669322,
      "num_input_tokens_seen": 94101635,
      "step": 4358,
      "time_per_iteration": 2.852994203567505
    },
    {
      "auxiliary_loss_clip": 0.01180651,
      "auxiliary_loss_mlp": 0.01028636,
      "balance_loss_clip": 1.05219352,
      "balance_loss_mlp": 1.02035713,
      "epoch": 0.5241387602957975,
      "flos": 22674680110080.0,
      "grad_norm": 2.67634505914616,
      "language_loss": 0.68060023,
      "learning_rate": 1.940806800012929e-06,
      "loss": 0.7026931,
      "num_input_tokens_seen": 94121705,
      "step": 4359,
      "time_per_iteration": 2.701091766357422
    },
    {
      "auxiliary_loss_clip": 0.01141528,
      "auxiliary_loss_mlp": 0.00887968,
      "balance_loss_clip": 1.04814911,
      "balance_loss_mlp": 1.00059307,
      "epoch": 0.5242590031864366,
      "flos": 40553453134080.0,
      "grad_norm": 1.4704714305699944,
      "language_loss": 0.63519216,
      "learning_rate": 1.9400281741233432e-06,
      "loss": 0.65548712,
      "num_input_tokens_seen": 94146595,
      "step": 4360,
      "time_per_iteration": 3.0896174907684326
    },
    {
      "auxiliary_loss_clip": 0.01049348,
      "auxiliary_loss_mlp": 0.01002731,
      "balance_loss_clip": 1.01160109,
      "balance_loss_mlp": 1.00154531,
      "epoch": 0.5243792460770756,
      "flos": 66676313105280.0,
      "grad_norm": 0.6553516936573204,
      "language_loss": 0.52535725,
      "learning_rate": 1.939249557331435e-06,
      "loss": 0.54587805,
      "num_input_tokens_seen": 94212410,
      "step": 4361,
      "time_per_iteration": 3.3369154930114746
    },
    {
      "auxiliary_loss_clip": 0.01162956,
      "auxiliary_loss_mlp": 0.01026705,
      "balance_loss_clip": 1.04824984,
      "balance_loss_mlp": 1.01824677,
      "epoch": 0.5244994889677148,
      "flos": 28183663992960.0,
      "grad_norm": 2.2825639117467786,
      "language_loss": 0.73062444,
      "learning_rate": 1.938470949755321e-06,
      "loss": 0.75252104,
      "num_input_tokens_seen": 94232290,
      "step": 4362,
      "time_per_iteration": 2.7914035320281982
    },
    {
      "auxiliary_loss_clip": 0.01057159,
      "auxiliary_loss_mlp": 0.01002649,
      "balance_loss_clip": 1.01359415,
      "balance_loss_mlp": 1.00155222,
      "epoch": 0.5246197318583539,
      "flos": 65950379239680.0,
      "grad_norm": 0.8125063292505189,
      "language_loss": 0.55682874,
      "learning_rate": 1.937692351513115e-06,
      "loss": 0.57742679,
      "num_input_tokens_seen": 94291285,
      "step": 4363,
      "time_per_iteration": 3.2271740436553955
    },
    {
      "auxiliary_loss_clip": 0.01182149,
      "auxiliary_loss_mlp": 0.01024794,
      "balance_loss_clip": 1.05322659,
      "balance_loss_mlp": 1.01644301,
      "epoch": 0.5247399747489929,
      "flos": 21033490769280.0,
      "grad_norm": 1.6284781521311484,
      "language_loss": 0.80494791,
      "learning_rate": 1.9369137627229297e-06,
      "loss": 0.82701731,
      "num_input_tokens_seen": 94309685,
      "step": 4364,
      "time_per_iteration": 2.6505002975463867
    },
    {
      "auxiliary_loss_clip": 0.01174407,
      "auxiliary_loss_mlp": 0.01035481,
      "balance_loss_clip": 1.05371714,
      "balance_loss_mlp": 1.02679038,
      "epoch": 0.5248602176396321,
      "flos": 19025940660480.0,
      "grad_norm": 1.963152994366438,
      "language_loss": 0.88311112,
      "learning_rate": 1.936135183502877e-06,
      "loss": 0.90521002,
      "num_input_tokens_seen": 94326985,
      "step": 4365,
      "time_per_iteration": 2.702369213104248
    },
    {
      "auxiliary_loss_clip": 0.01162257,
      "auxiliary_loss_mlp": 0.01029577,
      "balance_loss_clip": 1.05133843,
      "balance_loss_mlp": 1.02089238,
      "epoch": 0.5249804605302711,
      "flos": 22200084685440.0,
      "grad_norm": 2.5470354850352863,
      "language_loss": 0.80271679,
      "learning_rate": 1.935356613971066e-06,
      "loss": 0.82463515,
      "num_input_tokens_seen": 94347645,
      "step": 4366,
      "time_per_iteration": 2.753056287765503
    },
    {
      "auxiliary_loss_clip": 0.011647,
      "auxiliary_loss_mlp": 0.00887636,
      "balance_loss_clip": 1.0513916,
      "balance_loss_mlp": 1.00054169,
      "epoch": 0.5251007034209102,
      "flos": 23805686626560.0,
      "grad_norm": 6.7806956056903145,
      "language_loss": 0.7694248,
      "learning_rate": 1.9345780542456047e-06,
      "loss": 0.78994811,
      "num_input_tokens_seen": 94367020,
      "step": 4367,
      "time_per_iteration": 2.740605115890503
    },
    {
      "auxiliary_loss_clip": 0.01163984,
      "auxiliary_loss_mlp": 0.01031655,
      "balance_loss_clip": 1.04965878,
      "balance_loss_mlp": 1.02311325,
      "epoch": 0.5252209463115494,
      "flos": 23294605962240.0,
      "grad_norm": 3.149430768031327,
      "language_loss": 0.71465015,
      "learning_rate": 1.9337995044446007e-06,
      "loss": 0.7366066,
      "num_input_tokens_seen": 94385860,
      "step": 4368,
      "time_per_iteration": 2.7418320178985596
    },
    {
      "auxiliary_loss_clip": 0.01178808,
      "auxiliary_loss_mlp": 0.01031299,
      "balance_loss_clip": 1.05137229,
      "balance_loss_mlp": 1.02340126,
      "epoch": 0.5253411892021884,
      "flos": 19828687760640.0,
      "grad_norm": 2.3694756297990853,
      "language_loss": 0.80168819,
      "learning_rate": 1.9330209646861596e-06,
      "loss": 0.82378924,
      "num_input_tokens_seen": 94405010,
      "step": 4369,
      "time_per_iteration": 2.7312231063842773
    },
    {
      "auxiliary_loss_clip": 0.01162057,
      "auxiliary_loss_mlp": 0.01026846,
      "balance_loss_clip": 1.04806662,
      "balance_loss_mlp": 1.01881099,
      "epoch": 0.5254614320928275,
      "flos": 24133730561280.0,
      "grad_norm": 1.6047085401940746,
      "language_loss": 0.77735639,
      "learning_rate": 1.9322424350883843e-06,
      "loss": 0.79924548,
      "num_input_tokens_seen": 94426845,
      "step": 4370,
      "time_per_iteration": 3.5841853618621826
    },
    {
      "auxiliary_loss_clip": 0.01165899,
      "auxiliary_loss_mlp": 0.01025212,
      "balance_loss_clip": 1.04826534,
      "balance_loss_mlp": 1.01716566,
      "epoch": 0.5255816749834666,
      "flos": 24644954880000.0,
      "grad_norm": 1.79338789136669,
      "language_loss": 0.78616154,
      "learning_rate": 1.931463915769379e-06,
      "loss": 0.80807269,
      "num_input_tokens_seen": 94446960,
      "step": 4371,
      "time_per_iteration": 2.720858335494995
    },
    {
      "auxiliary_loss_clip": 0.01145306,
      "auxiliary_loss_mlp": 0.01029601,
      "balance_loss_clip": 1.04704559,
      "balance_loss_mlp": 1.02100003,
      "epoch": 0.5257019178741057,
      "flos": 14136595320960.0,
      "grad_norm": 2.258705928565188,
      "language_loss": 0.74150676,
      "learning_rate": 1.930685406847242e-06,
      "loss": 0.76325583,
      "num_input_tokens_seen": 94461535,
      "step": 4372,
      "time_per_iteration": 2.7489614486694336
    },
    {
      "auxiliary_loss_clip": 0.01164407,
      "auxiliary_loss_mlp": 0.01029963,
      "balance_loss_clip": 1.0518142,
      "balance_loss_mlp": 1.02213359,
      "epoch": 0.5258221607647448,
      "flos": 23548961145600.0,
      "grad_norm": 1.5037317109163095,
      "language_loss": 0.81848335,
      "learning_rate": 1.9299069084400734e-06,
      "loss": 0.84042704,
      "num_input_tokens_seen": 94482395,
      "step": 4373,
      "time_per_iteration": 2.6919233798980713
    },
    {
      "auxiliary_loss_clip": 0.01151658,
      "auxiliary_loss_mlp": 0.01030886,
      "balance_loss_clip": 1.05027795,
      "balance_loss_mlp": 1.02183819,
      "epoch": 0.5259424036553839,
      "flos": 24966103403520.0,
      "grad_norm": 2.2628967075747024,
      "language_loss": 0.69717777,
      "learning_rate": 1.9291284206659717e-06,
      "loss": 0.7190032,
      "num_input_tokens_seen": 94500580,
      "step": 4374,
      "time_per_iteration": 2.7650716304779053
    },
    {
      "auxiliary_loss_clip": 0.0118961,
      "auxiliary_loss_mlp": 0.01034239,
      "balance_loss_clip": 1.0564636,
      "balance_loss_mlp": 1.02596593,
      "epoch": 0.526062646546023,
      "flos": 28763908295040.0,
      "grad_norm": 2.2238540921533927,
      "language_loss": 0.71071684,
      "learning_rate": 1.928349943643032e-06,
      "loss": 0.73295534,
      "num_input_tokens_seen": 94519680,
      "step": 4375,
      "time_per_iteration": 3.5575757026672363
    },
    {
      "auxiliary_loss_clip": 0.01175562,
      "auxiliary_loss_mlp": 0.01028422,
      "balance_loss_clip": 1.05451727,
      "balance_loss_mlp": 1.02017272,
      "epoch": 0.526182889436662,
      "flos": 22821375254400.0,
      "grad_norm": 1.6074820718135179,
      "language_loss": 0.8185792,
      "learning_rate": 1.9275714774893493e-06,
      "loss": 0.84061897,
      "num_input_tokens_seen": 94539135,
      "step": 4376,
      "time_per_iteration": 2.681171417236328
    },
    {
      "auxiliary_loss_clip": 0.01145361,
      "auxiliary_loss_mlp": 0.0103532,
      "balance_loss_clip": 1.04475653,
      "balance_loss_mlp": 1.02672529,
      "epoch": 0.5263031323273012,
      "flos": 22929466256640.0,
      "grad_norm": 1.9298521053763216,
      "language_loss": 0.73006618,
      "learning_rate": 1.9267930223230154e-06,
      "loss": 0.75187302,
      "num_input_tokens_seen": 94557610,
      "step": 4377,
      "time_per_iteration": 3.5539162158966064
    },
    {
      "auxiliary_loss_clip": 0.01168011,
      "auxiliary_loss_mlp": 0.01026506,
      "balance_loss_clip": 1.05133665,
      "balance_loss_mlp": 1.01838148,
      "epoch": 0.5264233752179402,
      "flos": 17748634049280.0,
      "grad_norm": 2.1792973644957074,
      "language_loss": 0.78133035,
      "learning_rate": 1.9260145782621224e-06,
      "loss": 0.80327547,
      "num_input_tokens_seen": 94575390,
      "step": 4378,
      "time_per_iteration": 2.6381609439849854
    },
    {
      "auxiliary_loss_clip": 0.0116313,
      "auxiliary_loss_mlp": 0.01032037,
      "balance_loss_clip": 1.05329418,
      "balance_loss_mlp": 1.02396035,
      "epoch": 0.5265436181085793,
      "flos": 24421626069120.0,
      "grad_norm": 2.665730403527135,
      "language_loss": 0.88211596,
      "learning_rate": 1.925236145424758e-06,
      "loss": 0.90406764,
      "num_input_tokens_seen": 94594210,
      "step": 4379,
      "time_per_iteration": 2.7495689392089844
    },
    {
      "auxiliary_loss_clip": 0.01069255,
      "auxiliary_loss_mlp": 0.01006044,
      "balance_loss_clip": 1.01354861,
      "balance_loss_mlp": 1.0048703,
      "epoch": 0.5266638609992185,
      "flos": 69207298156800.0,
      "grad_norm": 0.6978898224058494,
      "language_loss": 0.57603943,
      "learning_rate": 1.924457723929012e-06,
      "loss": 0.5967924,
      "num_input_tokens_seen": 94665020,
      "step": 4380,
      "time_per_iteration": 3.3331875801086426
    },
    {
      "auxiliary_loss_clip": 0.01179711,
      "auxiliary_loss_mlp": 0.01031283,
      "balance_loss_clip": 1.0538435,
      "balance_loss_mlp": 1.02247369,
      "epoch": 0.5267841038898575,
      "flos": 20738699850240.0,
      "grad_norm": 1.55539776923662,
      "language_loss": 0.82674342,
      "learning_rate": 1.9236793138929685e-06,
      "loss": 0.84885335,
      "num_input_tokens_seen": 94684290,
      "step": 4381,
      "time_per_iteration": 2.6206092834472656
    },
    {
      "auxiliary_loss_clip": 0.01177533,
      "auxiliary_loss_mlp": 0.01029377,
      "balance_loss_clip": 1.04972506,
      "balance_loss_mlp": 1.02077627,
      "epoch": 0.5269043467804966,
      "flos": 17234392988160.0,
      "grad_norm": 1.8602617885606032,
      "language_loss": 0.81218565,
      "learning_rate": 1.9229009154347133e-06,
      "loss": 0.83425474,
      "num_input_tokens_seen": 94701880,
      "step": 4382,
      "time_per_iteration": 3.6073648929595947
    },
    {
      "auxiliary_loss_clip": 0.01128428,
      "auxiliary_loss_mlp": 0.00887112,
      "balance_loss_clip": 1.04325438,
      "balance_loss_mlp": 1.00052631,
      "epoch": 0.5270245896711357,
      "flos": 18223157646720.0,
      "grad_norm": 2.5190117371557874,
      "language_loss": 0.8069194,
      "learning_rate": 1.922122528672327e-06,
      "loss": 0.82707477,
      "num_input_tokens_seen": 94720545,
      "step": 4383,
      "time_per_iteration": 2.722872257232666
    },
    {
      "auxiliary_loss_clip": 0.0118321,
      "auxiliary_loss_mlp": 0.01030787,
      "balance_loss_clip": 1.05329657,
      "balance_loss_mlp": 1.0229311,
      "epoch": 0.5271448325617748,
      "flos": 21287558643840.0,
      "grad_norm": 2.6607057480454848,
      "language_loss": 0.78324652,
      "learning_rate": 1.9213441537238914e-06,
      "loss": 0.80538648,
      "num_input_tokens_seen": 94737420,
      "step": 4384,
      "time_per_iteration": 2.6413538455963135
    },
    {
      "auxiliary_loss_clip": 0.01049442,
      "auxiliary_loss_mlp": 0.01002396,
      "balance_loss_clip": 1.01883864,
      "balance_loss_mlp": 1.00128698,
      "epoch": 0.5272650754524139,
      "flos": 65495497403520.0,
      "grad_norm": 0.8424847798856677,
      "language_loss": 0.57381433,
      "learning_rate": 1.920565790707485e-06,
      "loss": 0.5943327,
      "num_input_tokens_seen": 94802810,
      "step": 4385,
      "time_per_iteration": 3.442431688308716
    },
    {
      "auxiliary_loss_clip": 0.01152335,
      "auxiliary_loss_mlp": 0.01028073,
      "balance_loss_clip": 1.04665828,
      "balance_loss_mlp": 1.01879859,
      "epoch": 0.527385318343053,
      "flos": 19676426008320.0,
      "grad_norm": 2.171386799754343,
      "language_loss": 0.65726584,
      "learning_rate": 1.9197874397411853e-06,
      "loss": 0.67906988,
      "num_input_tokens_seen": 94819440,
      "step": 4386,
      "time_per_iteration": 2.7410502433776855
    },
    {
      "auxiliary_loss_clip": 0.01153601,
      "auxiliary_loss_mlp": 0.01027725,
      "balance_loss_clip": 1.04435492,
      "balance_loss_mlp": 1.01964235,
      "epoch": 0.5275055612336921,
      "flos": 12712018947840.0,
      "grad_norm": 4.597236067820709,
      "language_loss": 0.66369122,
      "learning_rate": 1.919009100943067e-06,
      "loss": 0.6855045,
      "num_input_tokens_seen": 94835130,
      "step": 4387,
      "time_per_iteration": 2.69923996925354
    },
    {
      "auxiliary_loss_clip": 0.01157365,
      "auxiliary_loss_mlp": 0.01028736,
      "balance_loss_clip": 1.04859519,
      "balance_loss_mlp": 1.02010536,
      "epoch": 0.5276258041243311,
      "flos": 17749029098880.0,
      "grad_norm": 2.736520321207642,
      "language_loss": 0.65680915,
      "learning_rate": 1.9182307744312043e-06,
      "loss": 0.67867017,
      "num_input_tokens_seen": 94852235,
      "step": 4388,
      "time_per_iteration": 2.737975597381592
    },
    {
      "auxiliary_loss_clip": 0.01166923,
      "auxiliary_loss_mlp": 0.01028125,
      "balance_loss_clip": 1.04871452,
      "balance_loss_mlp": 1.01966703,
      "epoch": 0.5277460470149702,
      "flos": 22710447077760.0,
      "grad_norm": 3.0060495552720092,
      "language_loss": 0.76131082,
      "learning_rate": 1.9174524603236676e-06,
      "loss": 0.7832613,
      "num_input_tokens_seen": 94871185,
      "step": 4389,
      "time_per_iteration": 2.727811098098755
    },
    {
      "auxiliary_loss_clip": 0.01163046,
      "auxiliary_loss_mlp": 0.01028307,
      "balance_loss_clip": 1.04931355,
      "balance_loss_mlp": 1.01986742,
      "epoch": 0.5278662899056094,
      "flos": 19902699734400.0,
      "grad_norm": 1.9676190829291047,
      "language_loss": 0.76551193,
      "learning_rate": 1.916674158738527e-06,
      "loss": 0.78742552,
      "num_input_tokens_seen": 94890090,
      "step": 4390,
      "time_per_iteration": 2.6586835384368896
    },
    {
      "auxiliary_loss_clip": 0.01151101,
      "auxiliary_loss_mlp": 0.008874,
      "balance_loss_clip": 1.05098724,
      "balance_loss_mlp": 1.00051701,
      "epoch": 0.5279865327962484,
      "flos": 18005215875840.0,
      "grad_norm": 2.9048076299896177,
      "language_loss": 0.6056726,
      "learning_rate": 1.9158958697938506e-06,
      "loss": 0.62605757,
      "num_input_tokens_seen": 94908470,
      "step": 4391,
      "time_per_iteration": 2.7265708446502686
    },
    {
      "auxiliary_loss_clip": 0.01159881,
      "auxiliary_loss_mlp": 0.01027458,
      "balance_loss_clip": 1.05075359,
      "balance_loss_mlp": 1.01908398,
      "epoch": 0.5281067756868875,
      "flos": 15924443892480.0,
      "grad_norm": 2.487875299463692,
      "language_loss": 0.85856688,
      "learning_rate": 1.9151175936077032e-06,
      "loss": 0.88044024,
      "num_input_tokens_seen": 94923440,
      "step": 4392,
      "time_per_iteration": 2.6226212978363037
    },
    {
      "auxiliary_loss_clip": 0.01169649,
      "auxiliary_loss_mlp": 0.01030542,
      "balance_loss_clip": 1.0513382,
      "balance_loss_mlp": 1.02231073,
      "epoch": 0.5282270185775266,
      "flos": 19426488197760.0,
      "grad_norm": 1.852798052552628,
      "language_loss": 0.79138821,
      "learning_rate": 1.9143393302981507e-06,
      "loss": 0.81339014,
      "num_input_tokens_seen": 94941125,
      "step": 4393,
      "time_per_iteration": 2.6705126762390137
    },
    {
      "auxiliary_loss_clip": 0.01166696,
      "auxiliary_loss_mlp": 0.01030211,
      "balance_loss_clip": 1.05004048,
      "balance_loss_mlp": 1.02212262,
      "epoch": 0.5283472614681657,
      "flos": 16399613934720.0,
      "grad_norm": 1.7824314092863278,
      "language_loss": 0.83615059,
      "learning_rate": 1.913561079983252e-06,
      "loss": 0.85811967,
      "num_input_tokens_seen": 94959950,
      "step": 4394,
      "time_per_iteration": 2.665733575820923
    },
    {
      "auxiliary_loss_clip": 0.01168954,
      "auxiliary_loss_mlp": 0.01033889,
      "balance_loss_clip": 1.0488348,
      "balance_loss_mlp": 1.02497196,
      "epoch": 0.5284675043588047,
      "flos": 26760524163840.0,
      "grad_norm": 2.291545540354245,
      "language_loss": 0.74809206,
      "learning_rate": 1.9127828427810693e-06,
      "loss": 0.7701205,
      "num_input_tokens_seen": 94980515,
      "step": 4395,
      "time_per_iteration": 2.698883295059204
    },
    {
      "auxiliary_loss_clip": 0.01161681,
      "auxiliary_loss_mlp": 0.01027349,
      "balance_loss_clip": 1.04752672,
      "balance_loss_mlp": 1.01912332,
      "epoch": 0.5285877472494439,
      "flos": 19899898473600.0,
      "grad_norm": 2.878352510532385,
      "language_loss": 0.81389153,
      "learning_rate": 1.9120046188096607e-06,
      "loss": 0.83578175,
      "num_input_tokens_seen": 94998560,
      "step": 4396,
      "time_per_iteration": 3.705720901489258
    },
    {
      "auxiliary_loss_clip": 0.01164082,
      "auxiliary_loss_mlp": 0.01029797,
      "balance_loss_clip": 1.05317986,
      "balance_loss_mlp": 1.02147067,
      "epoch": 0.528707990140083,
      "flos": 20011257613440.0,
      "grad_norm": 2.3881405363405594,
      "language_loss": 0.74214923,
      "learning_rate": 1.9112264081870804e-06,
      "loss": 0.76408803,
      "num_input_tokens_seen": 95016950,
      "step": 4397,
      "time_per_iteration": 2.67056941986084
    },
    {
      "auxiliary_loss_clip": 0.01149563,
      "auxiliary_loss_mlp": 0.01025547,
      "balance_loss_clip": 1.04885316,
      "balance_loss_mlp": 1.01685715,
      "epoch": 0.528828233030722,
      "flos": 20667956014080.0,
      "grad_norm": 2.0438761578371247,
      "language_loss": 0.75642198,
      "learning_rate": 1.9104482110313843e-06,
      "loss": 0.77817309,
      "num_input_tokens_seen": 95036540,
      "step": 4398,
      "time_per_iteration": 2.7466468811035156
    },
    {
      "auxiliary_loss_clip": 0.01173634,
      "auxiliary_loss_mlp": 0.010274,
      "balance_loss_clip": 1.05155253,
      "balance_loss_mlp": 1.01943064,
      "epoch": 0.5289484759213612,
      "flos": 25192448956800.0,
      "grad_norm": 1.8577868142334648,
      "language_loss": 0.74033678,
      "learning_rate": 1.909670027460623e-06,
      "loss": 0.7623471,
      "num_input_tokens_seen": 95053840,
      "step": 4399,
      "time_per_iteration": 2.6653614044189453
    },
    {
      "auxiliary_loss_clip": 0.01174684,
      "auxiliary_loss_mlp": 0.01027627,
      "balance_loss_clip": 1.05328298,
      "balance_loss_mlp": 1.01958656,
      "epoch": 0.5290687188120002,
      "flos": 31139255715840.0,
      "grad_norm": 1.7331653267299978,
      "language_loss": 0.72008264,
      "learning_rate": 1.908891857592847e-06,
      "loss": 0.74210572,
      "num_input_tokens_seen": 95074910,
      "step": 4400,
      "time_per_iteration": 2.775946855545044
    },
    {
      "auxiliary_loss_clip": 0.01147212,
      "auxiliary_loss_mlp": 0.01028001,
      "balance_loss_clip": 1.04948294,
      "balance_loss_mlp": 1.02032411,
      "epoch": 0.5291889617026393,
      "flos": 20119851406080.0,
      "grad_norm": 2.4408239732720047,
      "language_loss": 0.90204585,
      "learning_rate": 1.9081137015461034e-06,
      "loss": 0.92379797,
      "num_input_tokens_seen": 95090985,
      "step": 4401,
      "time_per_iteration": 3.8053648471832275
    },
    {
      "auxiliary_loss_clip": 0.01135487,
      "auxiliary_loss_mlp": 0.01027164,
      "balance_loss_clip": 1.04848433,
      "balance_loss_mlp": 1.01865888,
      "epoch": 0.5293092045932785,
      "flos": 19643747610240.0,
      "grad_norm": 2.1249369448942597,
      "language_loss": 0.90463722,
      "learning_rate": 1.9073355594384383e-06,
      "loss": 0.92626369,
      "num_input_tokens_seen": 95109225,
      "step": 4402,
      "time_per_iteration": 2.7277750968933105
    },
    {
      "auxiliary_loss_clip": 0.01146001,
      "auxiliary_loss_mlp": 0.01033221,
      "balance_loss_clip": 1.04705763,
      "balance_loss_mlp": 1.02460194,
      "epoch": 0.5294294474839175,
      "flos": 24317736958080.0,
      "grad_norm": 2.8649998722274597,
      "language_loss": 0.80629992,
      "learning_rate": 1.906557431387895e-06,
      "loss": 0.82809216,
      "num_input_tokens_seen": 95128215,
      "step": 4403,
      "time_per_iteration": 2.798177719116211
    },
    {
      "auxiliary_loss_clip": 0.01152773,
      "auxiliary_loss_mlp": 0.01032557,
      "balance_loss_clip": 1.05370712,
      "balance_loss_mlp": 1.02441192,
      "epoch": 0.5295496903745566,
      "flos": 18875941464960.0,
      "grad_norm": 2.1704400838395075,
      "language_loss": 0.78947771,
      "learning_rate": 1.905779317512516e-06,
      "loss": 0.81133097,
      "num_input_tokens_seen": 95145760,
      "step": 4404,
      "time_per_iteration": 3.540572166442871
    },
    {
      "auxiliary_loss_clip": 0.01172735,
      "auxiliary_loss_mlp": 0.01029584,
      "balance_loss_clip": 1.0520829,
      "balance_loss_mlp": 1.02159119,
      "epoch": 0.5296699332651957,
      "flos": 20923101296640.0,
      "grad_norm": 2.100709356767748,
      "language_loss": 0.80336601,
      "learning_rate": 1.9050012179303385e-06,
      "loss": 0.82538921,
      "num_input_tokens_seen": 95164270,
      "step": 4405,
      "time_per_iteration": 2.639833450317383
    },
    {
      "auxiliary_loss_clip": 0.01176347,
      "auxiliary_loss_mlp": 0.01028817,
      "balance_loss_clip": 1.05039787,
      "balance_loss_mlp": 1.02019823,
      "epoch": 0.5297901761558348,
      "flos": 22046745525120.0,
      "grad_norm": 2.7785655821871873,
      "language_loss": 0.69067836,
      "learning_rate": 1.904223132759401e-06,
      "loss": 0.71272999,
      "num_input_tokens_seen": 95182870,
      "step": 4406,
      "time_per_iteration": 2.672562599182129
    },
    {
      "auxiliary_loss_clip": 0.01171983,
      "auxiliary_loss_mlp": 0.01032557,
      "balance_loss_clip": 1.04993486,
      "balance_loss_mlp": 1.02456427,
      "epoch": 0.5299104190464738,
      "flos": 21798495653760.0,
      "grad_norm": 3.141182121476354,
      "language_loss": 0.6913712,
      "learning_rate": 1.9034450621177383e-06,
      "loss": 0.71341664,
      "num_input_tokens_seen": 95201190,
      "step": 4407,
      "time_per_iteration": 2.636096715927124
    },
    {
      "auxiliary_loss_clip": 0.01174038,
      "auxiliary_loss_mlp": 0.01033684,
      "balance_loss_clip": 1.05379796,
      "balance_loss_mlp": 1.02476096,
      "epoch": 0.530030661937113,
      "flos": 14720790119040.0,
      "grad_norm": 2.3325425869048573,
      "language_loss": 0.70452446,
      "learning_rate": 1.9026670061233824e-06,
      "loss": 0.72660172,
      "num_input_tokens_seen": 95218625,
      "step": 4408,
      "time_per_iteration": 3.69120454788208
    },
    {
      "auxiliary_loss_clip": 0.01161076,
      "auxiliary_loss_mlp": 0.01030106,
      "balance_loss_clip": 1.05168343,
      "balance_loss_mlp": 1.02144516,
      "epoch": 0.5301509048277521,
      "flos": 21251504367360.0,
      "grad_norm": 1.858509400716333,
      "language_loss": 0.80565131,
      "learning_rate": 1.901888964894365e-06,
      "loss": 0.82756311,
      "num_input_tokens_seen": 95237665,
      "step": 4409,
      "time_per_iteration": 2.6736176013946533
    },
    {
      "auxiliary_loss_clip": 0.01186667,
      "auxiliary_loss_mlp": 0.01029285,
      "balance_loss_clip": 1.05339932,
      "balance_loss_mlp": 1.02004647,
      "epoch": 0.5302711477183911,
      "flos": 25957058791680.0,
      "grad_norm": 1.8244946269492985,
      "language_loss": 0.67509943,
      "learning_rate": 1.9011109385487134e-06,
      "loss": 0.69725895,
      "num_input_tokens_seen": 95258915,
      "step": 4410,
      "time_per_iteration": 2.663709878921509
    },
    {
      "auxiliary_loss_clip": 0.01184596,
      "auxiliary_loss_mlp": 0.01028039,
      "balance_loss_clip": 1.05379415,
      "balance_loss_mlp": 1.01980186,
      "epoch": 0.5303913906090303,
      "flos": 22273126992000.0,
      "grad_norm": 2.514679522756979,
      "language_loss": 0.66436195,
      "learning_rate": 1.900332927204454e-06,
      "loss": 0.68648833,
      "num_input_tokens_seen": 95277365,
      "step": 4411,
      "time_per_iteration": 2.596684694290161
    },
    {
      "auxiliary_loss_clip": 0.01169909,
      "auxiliary_loss_mlp": 0.01031125,
      "balance_loss_clip": 1.05001783,
      "balance_loss_mlp": 1.02227378,
      "epoch": 0.5305116334996693,
      "flos": 24936010784640.0,
      "grad_norm": 1.6814356185533346,
      "language_loss": 0.76973403,
      "learning_rate": 1.8995549309796097e-06,
      "loss": 0.79174429,
      "num_input_tokens_seen": 95296670,
      "step": 4412,
      "time_per_iteration": 2.7126731872558594
    },
    {
      "auxiliary_loss_clip": 0.01180149,
      "auxiliary_loss_mlp": 0.01026673,
      "balance_loss_clip": 1.05386198,
      "balance_loss_mlp": 1.01808977,
      "epoch": 0.5306318763903084,
      "flos": 20189338266240.0,
      "grad_norm": 2.1504765367467313,
      "language_loss": 0.76558143,
      "learning_rate": 1.8987769499922028e-06,
      "loss": 0.78764969,
      "num_input_tokens_seen": 95315640,
      "step": 4413,
      "time_per_iteration": 2.608104705810547
    },
    {
      "auxiliary_loss_clip": 0.01172755,
      "auxiliary_loss_mlp": 0.00887473,
      "balance_loss_clip": 1.05142295,
      "balance_loss_mlp": 1.0005734,
      "epoch": 0.5307521192809476,
      "flos": 20266366982400.0,
      "grad_norm": 2.809922557127335,
      "language_loss": 0.70703685,
      "learning_rate": 1.897998984360252e-06,
      "loss": 0.72763914,
      "num_input_tokens_seen": 95334610,
      "step": 4414,
      "time_per_iteration": 2.6396799087524414
    },
    {
      "auxiliary_loss_clip": 0.01160902,
      "auxiliary_loss_mlp": 0.01031686,
      "balance_loss_clip": 1.04937339,
      "balance_loss_mlp": 1.02351463,
      "epoch": 0.5308723621715866,
      "flos": 28844276976000.0,
      "grad_norm": 1.4908183206513403,
      "language_loss": 0.78626502,
      "learning_rate": 1.897221034201775e-06,
      "loss": 0.80819088,
      "num_input_tokens_seen": 95358350,
      "step": 4415,
      "time_per_iteration": 2.7597429752349854
    },
    {
      "auxiliary_loss_clip": 0.01156178,
      "auxiliary_loss_mlp": 0.01026707,
      "balance_loss_clip": 1.04907095,
      "balance_loss_mlp": 1.01947689,
      "epoch": 0.5309926050622257,
      "flos": 27457766040960.0,
      "grad_norm": 1.5333118680471405,
      "language_loss": 0.66755646,
      "learning_rate": 1.8964430996347842e-06,
      "loss": 0.68938529,
      "num_input_tokens_seen": 95379900,
      "step": 4416,
      "time_per_iteration": 2.7682197093963623
    },
    {
      "auxiliary_loss_clip": 0.01162709,
      "auxiliary_loss_mlp": 0.0103213,
      "balance_loss_clip": 1.0499264,
      "balance_loss_mlp": 1.02377975,
      "epoch": 0.5311128479528648,
      "flos": 20514545026560.0,
      "grad_norm": 1.8829515793343388,
      "language_loss": 0.82773638,
      "learning_rate": 1.8956651807772931e-06,
      "loss": 0.84968472,
      "num_input_tokens_seen": 95397935,
      "step": 4417,
      "time_per_iteration": 2.6534841060638428
    },
    {
      "auxiliary_loss_clip": 0.01170515,
      "auxiliary_loss_mlp": 0.0102312,
      "balance_loss_clip": 1.05255163,
      "balance_loss_mlp": 1.01524019,
      "epoch": 0.5312330908435039,
      "flos": 21397660807680.0,
      "grad_norm": 1.6108329491177837,
      "language_loss": 0.83875358,
      "learning_rate": 1.8948872777473115e-06,
      "loss": 0.86068994,
      "num_input_tokens_seen": 95415890,
      "step": 4418,
      "time_per_iteration": 2.6642487049102783
    },
    {
      "auxiliary_loss_clip": 0.01166449,
      "auxiliary_loss_mlp": 0.01030935,
      "balance_loss_clip": 1.05373478,
      "balance_loss_mlp": 1.02234626,
      "epoch": 0.531353333734143,
      "flos": 24717350741760.0,
      "grad_norm": 1.6976833762442578,
      "language_loss": 0.63393909,
      "learning_rate": 1.8941093906628458e-06,
      "loss": 0.65591288,
      "num_input_tokens_seen": 95433675,
      "step": 4419,
      "time_per_iteration": 2.7003109455108643
    },
    {
      "auxiliary_loss_clip": 0.01156954,
      "auxiliary_loss_mlp": 0.01029168,
      "balance_loss_clip": 1.04904044,
      "balance_loss_mlp": 1.0210433,
      "epoch": 0.531473576624782,
      "flos": 30480689808000.0,
      "grad_norm": 1.6792757438814405,
      "language_loss": 0.71056926,
      "learning_rate": 1.893331519641902e-06,
      "loss": 0.7324304,
      "num_input_tokens_seen": 95455820,
      "step": 4420,
      "time_per_iteration": 2.7247562408447266
    },
    {
      "auxiliary_loss_clip": 0.01144094,
      "auxiliary_loss_mlp": 0.01029271,
      "balance_loss_clip": 1.04654086,
      "balance_loss_mlp": 1.02117622,
      "epoch": 0.5315938195154212,
      "flos": 23002975440000.0,
      "grad_norm": 2.361622537157405,
      "language_loss": 0.74247766,
      "learning_rate": 1.8925536648024815e-06,
      "loss": 0.7642113,
      "num_input_tokens_seen": 95473240,
      "step": 4421,
      "time_per_iteration": 2.726602554321289
    },
    {
      "auxiliary_loss_clip": 0.01186386,
      "auxiliary_loss_mlp": 0.01030431,
      "balance_loss_clip": 1.05433154,
      "balance_loss_mlp": 1.02241445,
      "epoch": 0.5317140624060602,
      "flos": 22748584343040.0,
      "grad_norm": 1.8471595300112318,
      "language_loss": 0.75845867,
      "learning_rate": 1.8917758262625849e-06,
      "loss": 0.78062689,
      "num_input_tokens_seen": 95493480,
      "step": 4422,
      "time_per_iteration": 3.4671130180358887
    },
    {
      "auxiliary_loss_clip": 0.01161628,
      "auxiliary_loss_mlp": 0.01028747,
      "balance_loss_clip": 1.05402279,
      "balance_loss_mlp": 1.0215354,
      "epoch": 0.5318343052966993,
      "flos": 22821087945600.0,
      "grad_norm": 1.6585989659456117,
      "language_loss": 0.81088793,
      "learning_rate": 1.8909980041402089e-06,
      "loss": 0.83279169,
      "num_input_tokens_seen": 95512075,
      "step": 4423,
      "time_per_iteration": 2.7492012977600098
    },
    {
      "auxiliary_loss_clip": 0.01166997,
      "auxiliary_loss_mlp": 0.01029488,
      "balance_loss_clip": 1.0495702,
      "balance_loss_mlp": 1.02106595,
      "epoch": 0.5319545481873384,
      "flos": 13626089274240.0,
      "grad_norm": 2.3916789085222874,
      "language_loss": 0.65914851,
      "learning_rate": 1.8902201985533494e-06,
      "loss": 0.68111336,
      "num_input_tokens_seen": 95529340,
      "step": 4424,
      "time_per_iteration": 2.6588735580444336
    },
    {
      "auxiliary_loss_clip": 0.01167812,
      "auxiliary_loss_mlp": 0.01023837,
      "balance_loss_clip": 1.05310011,
      "balance_loss_mlp": 1.01565361,
      "epoch": 0.5320747910779775,
      "flos": 22162522037760.0,
      "grad_norm": 1.9684203911134803,
      "language_loss": 0.74988842,
      "learning_rate": 1.8894424096199983e-06,
      "loss": 0.77180487,
      "num_input_tokens_seen": 95548545,
      "step": 4425,
      "time_per_iteration": 2.7727386951446533
    },
    {
      "auxiliary_loss_clip": 0.01173305,
      "auxiliary_loss_mlp": 0.01029684,
      "balance_loss_clip": 1.05318952,
      "balance_loss_mlp": 1.02155995,
      "epoch": 0.5321950339686166,
      "flos": 18588081870720.0,
      "grad_norm": 2.2671252843620975,
      "language_loss": 0.85834885,
      "learning_rate": 1.8886646374581463e-06,
      "loss": 0.88037872,
      "num_input_tokens_seen": 95567770,
      "step": 4426,
      "time_per_iteration": 2.6568894386291504
    },
    {
      "auxiliary_loss_clip": 0.0117128,
      "auxiliary_loss_mlp": 0.01031855,
      "balance_loss_clip": 1.04969704,
      "balance_loss_mlp": 1.02368355,
      "epoch": 0.5323152768592557,
      "flos": 22856818999680.0,
      "grad_norm": 1.870454366533302,
      "language_loss": 0.71469235,
      "learning_rate": 1.8878868821857795e-06,
      "loss": 0.73672366,
      "num_input_tokens_seen": 95587420,
      "step": 4427,
      "time_per_iteration": 3.5070207118988037
    },
    {
      "auxiliary_loss_clip": 0.01137249,
      "auxiliary_loss_mlp": 0.01029056,
      "balance_loss_clip": 1.04221129,
      "balance_loss_mlp": 1.02059841,
      "epoch": 0.5324355197498948,
      "flos": 33948690998400.0,
      "grad_norm": 2.2259044147598943,
      "language_loss": 0.75122458,
      "learning_rate": 1.8871091439208838e-06,
      "loss": 0.77288765,
      "num_input_tokens_seen": 95609030,
      "step": 4428,
      "time_per_iteration": 2.866126298904419
    },
    {
      "auxiliary_loss_clip": 0.01139822,
      "auxiliary_loss_mlp": 0.01036503,
      "balance_loss_clip": 1.04714119,
      "balance_loss_mlp": 1.02745473,
      "epoch": 0.5325557626405338,
      "flos": 23256720092160.0,
      "grad_norm": 2.1362519227785777,
      "language_loss": 0.7711122,
      "learning_rate": 1.8863314227814414e-06,
      "loss": 0.79287547,
      "num_input_tokens_seen": 95627340,
      "step": 4429,
      "time_per_iteration": 3.6863808631896973
    },
    {
      "auxiliary_loss_clip": 0.01182459,
      "auxiliary_loss_mlp": 0.01029765,
      "balance_loss_clip": 1.05527115,
      "balance_loss_mlp": 1.02135491,
      "epoch": 0.532676005531173,
      "flos": 26718687797760.0,
      "grad_norm": 2.9235401541222075,
      "language_loss": 0.48105538,
      "learning_rate": 1.8855537188854313e-06,
      "loss": 0.50317764,
      "num_input_tokens_seen": 95646315,
      "step": 4430,
      "time_per_iteration": 2.648993492126465
    },
    {
      "auxiliary_loss_clip": 0.01174945,
      "auxiliary_loss_mlp": 0.01031051,
      "balance_loss_clip": 1.04886675,
      "balance_loss_mlp": 1.0226289,
      "epoch": 0.5327962484218121,
      "flos": 17894610921600.0,
      "grad_norm": 2.8038504224874723,
      "language_loss": 0.78457701,
      "learning_rate": 1.8847760323508315e-06,
      "loss": 0.80663699,
      "num_input_tokens_seen": 95665220,
      "step": 4431,
      "time_per_iteration": 2.667673110961914
    },
    {
      "auxiliary_loss_clip": 0.01160759,
      "auxiliary_loss_mlp": 0.01031464,
      "balance_loss_clip": 1.0535996,
      "balance_loss_mlp": 1.02375686,
      "epoch": 0.5329164913124511,
      "flos": 17925385898880.0,
      "grad_norm": 1.6735398717909362,
      "language_loss": 0.7575202,
      "learning_rate": 1.883998363295616e-06,
      "loss": 0.77944243,
      "num_input_tokens_seen": 95682700,
      "step": 4432,
      "time_per_iteration": 2.6158058643341064
    },
    {
      "auxiliary_loss_clip": 0.01061105,
      "auxiliary_loss_mlp": 0.01003307,
      "balance_loss_clip": 1.01413131,
      "balance_loss_mlp": 1.00212049,
      "epoch": 0.5330367342030903,
      "flos": 57254178781440.0,
      "grad_norm": 0.8729030230161356,
      "language_loss": 0.62630141,
      "learning_rate": 1.8832207118377565e-06,
      "loss": 0.64694548,
      "num_input_tokens_seen": 95738070,
      "step": 4433,
      "time_per_iteration": 3.138516902923584
    },
    {
      "auxiliary_loss_clip": 0.01182855,
      "auxiliary_loss_mlp": 0.01032622,
      "balance_loss_clip": 1.05453968,
      "balance_loss_mlp": 1.02439702,
      "epoch": 0.5331569770937293,
      "flos": 17420518287360.0,
      "grad_norm": 1.966021809500174,
      "language_loss": 0.69723678,
      "learning_rate": 1.882443078095222e-06,
      "loss": 0.71939147,
      "num_input_tokens_seen": 95756950,
      "step": 4434,
      "time_per_iteration": 3.575486183166504
    },
    {
      "auxiliary_loss_clip": 0.01052087,
      "auxiliary_loss_mlp": 0.01001117,
      "balance_loss_clip": 1.01341939,
      "balance_loss_mlp": 0.99991274,
      "epoch": 0.5332772199843684,
      "flos": 56750783627520.0,
      "grad_norm": 0.8633971973458234,
      "language_loss": 0.66760206,
      "learning_rate": 1.8816654621859794e-06,
      "loss": 0.68813413,
      "num_input_tokens_seen": 95816615,
      "step": 4435,
      "time_per_iteration": 3.3153464794158936
    },
    {
      "auxiliary_loss_clip": 0.01180496,
      "auxiliary_loss_mlp": 0.01024744,
      "balance_loss_clip": 1.05237186,
      "balance_loss_mlp": 1.01674545,
      "epoch": 0.5333974628750076,
      "flos": 18697753071360.0,
      "grad_norm": 2.4269231192367715,
      "language_loss": 0.72677469,
      "learning_rate": 1.8808878642279915e-06,
      "loss": 0.7488271,
      "num_input_tokens_seen": 95832020,
      "step": 4436,
      "time_per_iteration": 3.0439939498901367
    },
    {
      "auxiliary_loss_clip": 0.01155397,
      "auxiliary_loss_mlp": 0.01033369,
      "balance_loss_clip": 1.04426491,
      "balance_loss_mlp": 1.02504802,
      "epoch": 0.5335177057656466,
      "flos": 23805507058560.0,
      "grad_norm": 10.342769901761548,
      "language_loss": 0.64936042,
      "learning_rate": 1.8801102843392209e-06,
      "loss": 0.67124808,
      "num_input_tokens_seen": 95851425,
      "step": 4437,
      "time_per_iteration": 2.7498626708984375
    },
    {
      "auxiliary_loss_clip": 0.0115596,
      "auxiliary_loss_mlp": 0.01027843,
      "balance_loss_clip": 1.04939795,
      "balance_loss_mlp": 1.01930153,
      "epoch": 0.5336379486562857,
      "flos": 25078683605760.0,
      "grad_norm": 4.196117635074892,
      "language_loss": 0.85248291,
      "learning_rate": 1.8793327226376238e-06,
      "loss": 0.87432086,
      "num_input_tokens_seen": 95870745,
      "step": 4438,
      "time_per_iteration": 2.7832438945770264
    },
    {
      "auxiliary_loss_clip": 0.01172365,
      "auxiliary_loss_mlp": 0.0103417,
      "balance_loss_clip": 1.05009747,
      "balance_loss_mlp": 1.02589738,
      "epoch": 0.5337581915469248,
      "flos": 21396691140480.0,
      "grad_norm": 1.687623867813351,
      "language_loss": 0.80342722,
      "learning_rate": 1.8785551792411569e-06,
      "loss": 0.8254925,
      "num_input_tokens_seen": 95889755,
      "step": 4439,
      "time_per_iteration": 2.711693286895752
    },
    {
      "auxiliary_loss_clip": 0.01166199,
      "auxiliary_loss_mlp": 0.01025343,
      "balance_loss_clip": 1.05171371,
      "balance_loss_mlp": 1.01780295,
      "epoch": 0.5338784344375639,
      "flos": 14865905064960.0,
      "grad_norm": 2.4098683829628205,
      "language_loss": 0.82713073,
      "learning_rate": 1.8777776542677733e-06,
      "loss": 0.84904611,
      "num_input_tokens_seen": 95907805,
      "step": 4440,
      "time_per_iteration": 2.670287847518921
    },
    {
      "auxiliary_loss_clip": 0.01148054,
      "auxiliary_loss_mlp": 0.01032888,
      "balance_loss_clip": 1.04206312,
      "balance_loss_mlp": 1.02438807,
      "epoch": 0.5339986773282029,
      "flos": 20813501923200.0,
      "grad_norm": 1.7857092983212166,
      "language_loss": 0.7272799,
      "learning_rate": 1.8770001478354216e-06,
      "loss": 0.7490893,
      "num_input_tokens_seen": 95927480,
      "step": 4441,
      "time_per_iteration": 2.6887521743774414
    },
    {
      "auxiliary_loss_clip": 0.011695,
      "auxiliary_loss_mlp": 0.01036916,
      "balance_loss_clip": 1.05061269,
      "balance_loss_mlp": 1.02759385,
      "epoch": 0.5341189202188421,
      "flos": 17969089772160.0,
      "grad_norm": 2.527211717605433,
      "language_loss": 0.8406148,
      "learning_rate": 1.8762226600620504e-06,
      "loss": 0.862679,
      "num_input_tokens_seen": 95946095,
      "step": 4442,
      "time_per_iteration": 2.623039484024048
    },
    {
      "auxiliary_loss_clip": 0.0116759,
      "auxiliary_loss_mlp": 0.01030461,
      "balance_loss_clip": 1.04685473,
      "balance_loss_mlp": 1.02196145,
      "epoch": 0.5342391631094812,
      "flos": 11031866328960.0,
      "grad_norm": 2.7113554931012387,
      "language_loss": 0.59202671,
      "learning_rate": 1.8754451910656031e-06,
      "loss": 0.61400723,
      "num_input_tokens_seen": 95959995,
      "step": 4443,
      "time_per_iteration": 2.64494252204895
    },
    {
      "auxiliary_loss_clip": 0.01147392,
      "auxiliary_loss_mlp": 0.01025474,
      "balance_loss_clip": 1.04608023,
      "balance_loss_mlp": 1.01748109,
      "epoch": 0.5343594060001202,
      "flos": 15339135772800.0,
      "grad_norm": 2.3593150353757832,
      "language_loss": 0.82407153,
      "learning_rate": 1.8746677409640212e-06,
      "loss": 0.84580022,
      "num_input_tokens_seen": 95977095,
      "step": 4444,
      "time_per_iteration": 2.755434036254883
    },
    {
      "auxiliary_loss_clip": 0.01176563,
      "auxiliary_loss_mlp": 0.01029371,
      "balance_loss_clip": 1.052562,
      "balance_loss_mlp": 1.02114511,
      "epoch": 0.5344796488907594,
      "flos": 26900898514560.0,
      "grad_norm": 1.8283053439714572,
      "language_loss": 0.84545243,
      "learning_rate": 1.8738903098752432e-06,
      "loss": 0.86751175,
      "num_input_tokens_seen": 95996225,
      "step": 4445,
      "time_per_iteration": 2.7241952419281006
    },
    {
      "auxiliary_loss_clip": 0.01167993,
      "auxiliary_loss_mlp": 0.01029523,
      "balance_loss_clip": 1.05284929,
      "balance_loss_mlp": 1.02174425,
      "epoch": 0.5345998917813984,
      "flos": 25411216740480.0,
      "grad_norm": 2.666715777206602,
      "language_loss": 0.73902321,
      "learning_rate": 1.8731128979172052e-06,
      "loss": 0.76099837,
      "num_input_tokens_seen": 96015425,
      "step": 4446,
      "time_per_iteration": 2.7070322036743164
    },
    {
      "auxiliary_loss_clip": 0.01161302,
      "auxiliary_loss_mlp": 0.01026694,
      "balance_loss_clip": 1.05016196,
      "balance_loss_mlp": 1.01933563,
      "epoch": 0.5347201346720375,
      "flos": 32853379622400.0,
      "grad_norm": 2.202972701600498,
      "language_loss": 0.66683441,
      "learning_rate": 1.8723355052078394e-06,
      "loss": 0.68871439,
      "num_input_tokens_seen": 96035460,
      "step": 4447,
      "time_per_iteration": 2.8559300899505615
    },
    {
      "auxiliary_loss_clip": 0.01169538,
      "auxiliary_loss_mlp": 0.01036335,
      "balance_loss_clip": 1.0496614,
      "balance_loss_mlp": 1.02743578,
      "epoch": 0.5348403775626767,
      "flos": 17967940536960.0,
      "grad_norm": 2.5765194647936362,
      "language_loss": 0.77186531,
      "learning_rate": 1.8715581318650765e-06,
      "loss": 0.79392403,
      "num_input_tokens_seen": 96054515,
      "step": 4448,
      "time_per_iteration": 3.5318756103515625
    },
    {
      "auxiliary_loss_clip": 0.01162825,
      "auxiliary_loss_mlp": 0.0103769,
      "balance_loss_clip": 1.04867673,
      "balance_loss_mlp": 1.02894008,
      "epoch": 0.5349606204533157,
      "flos": 17603339535360.0,
      "grad_norm": 2.1606894900183162,
      "language_loss": 0.81878865,
      "learning_rate": 1.8707807780068422e-06,
      "loss": 0.84079373,
      "num_input_tokens_seen": 96072330,
      "step": 4449,
      "time_per_iteration": 2.8077876567840576
    },
    {
      "auxiliary_loss_clip": 0.01163255,
      "auxiliary_loss_mlp": 0.01023404,
      "balance_loss_clip": 1.04975581,
      "balance_loss_mlp": 1.01549995,
      "epoch": 0.5350808633439548,
      "flos": 29167831710720.0,
      "grad_norm": 2.297739924277098,
      "language_loss": 0.66301405,
      "learning_rate": 1.8700034437510611e-06,
      "loss": 0.68488061,
      "num_input_tokens_seen": 96092425,
      "step": 4450,
      "time_per_iteration": 2.791553020477295
    },
    {
      "auxiliary_loss_clip": 0.01147321,
      "auxiliary_loss_mlp": 0.01025246,
      "balance_loss_clip": 1.04826009,
      "balance_loss_mlp": 1.01721156,
      "epoch": 0.5352011062345938,
      "flos": 19499997381120.0,
      "grad_norm": 2.1770765627177076,
      "language_loss": 0.81809294,
      "learning_rate": 1.8692261292156549e-06,
      "loss": 0.8398186,
      "num_input_tokens_seen": 96111660,
      "step": 4451,
      "time_per_iteration": 2.7033050060272217
    },
    {
      "auxiliary_loss_clip": 0.01183772,
      "auxiliary_loss_mlp": 0.01030938,
      "balance_loss_clip": 1.05616546,
      "balance_loss_mlp": 1.02329063,
      "epoch": 0.535321349125233,
      "flos": 23477642691840.0,
      "grad_norm": 2.181561453807145,
      "language_loss": 0.81246996,
      "learning_rate": 1.8684488345185401e-06,
      "loss": 0.83461702,
      "num_input_tokens_seen": 96131835,
      "step": 4452,
      "time_per_iteration": 2.6598145961761475
    },
    {
      "auxiliary_loss_clip": 0.01188794,
      "auxiliary_loss_mlp": 0.01032999,
      "balance_loss_clip": 1.05693436,
      "balance_loss_mlp": 1.02485371,
      "epoch": 0.535441592015872,
      "flos": 20478059786880.0,
      "grad_norm": 3.1376835046594826,
      "language_loss": 0.7849977,
      "learning_rate": 1.8676715597776332e-06,
      "loss": 0.80721569,
      "num_input_tokens_seen": 96150180,
      "step": 4453,
      "time_per_iteration": 3.9070322513580322
    },
    {
      "auxiliary_loss_clip": 0.01133836,
      "auxiliary_loss_mlp": 0.01031052,
      "balance_loss_clip": 1.04445231,
      "balance_loss_mlp": 1.02267194,
      "epoch": 0.5355618349065111,
      "flos": 19573147428480.0,
      "grad_norm": 1.8237812602785866,
      "language_loss": 0.76152635,
      "learning_rate": 1.8668943051108455e-06,
      "loss": 0.78317523,
      "num_input_tokens_seen": 96167485,
      "step": 4454,
      "time_per_iteration": 2.8415892124176025
    },
    {
      "auxiliary_loss_clip": 0.01163105,
      "auxiliary_loss_mlp": 0.01030216,
      "balance_loss_clip": 1.04916596,
      "balance_loss_mlp": 1.02205038,
      "epoch": 0.5356820777971503,
      "flos": 24024633978240.0,
      "grad_norm": 1.6988636696965456,
      "language_loss": 0.75981945,
      "learning_rate": 1.8661170706360856e-06,
      "loss": 0.78175265,
      "num_input_tokens_seen": 96186650,
      "step": 4455,
      "time_per_iteration": 3.552493095397949
    },
    {
      "auxiliary_loss_clip": 0.0117516,
      "auxiliary_loss_mlp": 0.01026827,
      "balance_loss_clip": 1.05635846,
      "balance_loss_mlp": 1.01944184,
      "epoch": 0.5358023206877893,
      "flos": 20884676722560.0,
      "grad_norm": 1.592020737335353,
      "language_loss": 0.81358087,
      "learning_rate": 1.8653398564712594e-06,
      "loss": 0.83560073,
      "num_input_tokens_seen": 96205595,
      "step": 4456,
      "time_per_iteration": 2.6010396480560303
    },
    {
      "auxiliary_loss_clip": 0.01171064,
      "auxiliary_loss_mlp": 0.01025551,
      "balance_loss_clip": 1.05289054,
      "balance_loss_mlp": 1.01699221,
      "epoch": 0.5359225635784284,
      "flos": 22418996123520.0,
      "grad_norm": 1.6025421916631544,
      "language_loss": 0.82147902,
      "learning_rate": 1.8645626627342704e-06,
      "loss": 0.84344518,
      "num_input_tokens_seen": 96226360,
      "step": 4457,
      "time_per_iteration": 2.677309989929199
    },
    {
      "auxiliary_loss_clip": 0.01175654,
      "auxiliary_loss_mlp": 0.01025216,
      "balance_loss_clip": 1.05084729,
      "balance_loss_mlp": 1.01734221,
      "epoch": 0.5360428064690675,
      "flos": 24097784025600.0,
      "grad_norm": 2.350425959733391,
      "language_loss": 0.80975378,
      "learning_rate": 1.8637854895430172e-06,
      "loss": 0.83176249,
      "num_input_tokens_seen": 96245625,
      "step": 4458,
      "time_per_iteration": 2.668180465698242
    },
    {
      "auxiliary_loss_clip": 0.01145231,
      "auxiliary_loss_mlp": 0.01028191,
      "balance_loss_clip": 1.04573369,
      "balance_loss_mlp": 1.0196681,
      "epoch": 0.5361630493597066,
      "flos": 21434505183360.0,
      "grad_norm": 2.1031979142648605,
      "language_loss": 0.69547868,
      "learning_rate": 1.8630083370153978e-06,
      "loss": 0.71721292,
      "num_input_tokens_seen": 96265265,
      "step": 4459,
      "time_per_iteration": 3.640099048614502
    },
    {
      "auxiliary_loss_clip": 0.01049748,
      "auxiliary_loss_mlp": 0.01004782,
      "balance_loss_clip": 1.01748037,
      "balance_loss_mlp": 1.00356007,
      "epoch": 0.5362832922503457,
      "flos": 68888696520960.0,
      "grad_norm": 0.7477576793904215,
      "language_loss": 0.55414176,
      "learning_rate": 1.8622312052693041e-06,
      "loss": 0.57468706,
      "num_input_tokens_seen": 96326445,
      "step": 4460,
      "time_per_iteration": 3.5125744342803955
    },
    {
      "auxiliary_loss_clip": 0.01163621,
      "auxiliary_loss_mlp": 0.01027295,
      "balance_loss_clip": 1.04687285,
      "balance_loss_mlp": 1.01936114,
      "epoch": 0.5364035351409848,
      "flos": 9793702563840.0,
      "grad_norm": 6.534902297647412,
      "language_loss": 0.71895671,
      "learning_rate": 1.8614540944226267e-06,
      "loss": 0.74086595,
      "num_input_tokens_seen": 96343115,
      "step": 4461,
      "time_per_iteration": 2.808938980102539
    },
    {
      "auxiliary_loss_clip": 0.01161704,
      "auxiliary_loss_mlp": 0.01026305,
      "balance_loss_clip": 1.05425549,
      "balance_loss_mlp": 1.01900387,
      "epoch": 0.5365237780316239,
      "flos": 23290080848640.0,
      "grad_norm": 1.836689466057091,
      "language_loss": 0.67990696,
      "learning_rate": 1.8606770045932537e-06,
      "loss": 0.70178711,
      "num_input_tokens_seen": 96362230,
      "step": 4462,
      "time_per_iteration": 2.7327892780303955
    },
    {
      "auxiliary_loss_clip": 0.01144755,
      "auxiliary_loss_mlp": 0.01033433,
      "balance_loss_clip": 1.04216814,
      "balance_loss_mlp": 1.02437854,
      "epoch": 0.5366440209222629,
      "flos": 26578133879040.0,
      "grad_norm": 1.8996277577618108,
      "language_loss": 0.81695318,
      "learning_rate": 1.859899935899068e-06,
      "loss": 0.83873498,
      "num_input_tokens_seen": 96382085,
      "step": 4463,
      "time_per_iteration": 2.73227858543396
    },
    {
      "auxiliary_loss_clip": 0.01158078,
      "auxiliary_loss_mlp": 0.01026934,
      "balance_loss_clip": 1.0497117,
      "balance_loss_mlp": 1.01963246,
      "epoch": 0.5367642638129021,
      "flos": 19608052469760.0,
      "grad_norm": 1.533959598116756,
      "language_loss": 0.78847498,
      "learning_rate": 1.8591228884579506e-06,
      "loss": 0.81032509,
      "num_input_tokens_seen": 96400580,
      "step": 4464,
      "time_per_iteration": 2.6983630657196045
    },
    {
      "auxiliary_loss_clip": 0.01157022,
      "auxiliary_loss_mlp": 0.01027632,
      "balance_loss_clip": 1.04809499,
      "balance_loss_mlp": 1.01963305,
      "epoch": 0.5368845067035412,
      "flos": 23915214172800.0,
      "grad_norm": 1.9277630046500478,
      "language_loss": 0.82171559,
      "learning_rate": 1.8583458623877795e-06,
      "loss": 0.84356213,
      "num_input_tokens_seen": 96419680,
      "step": 4465,
      "time_per_iteration": 2.7249972820281982
    },
    {
      "auxiliary_loss_clip": 0.01173741,
      "auxiliary_loss_mlp": 0.01028671,
      "balance_loss_clip": 1.05070257,
      "balance_loss_mlp": 1.02091622,
      "epoch": 0.5370047495941802,
      "flos": 16873131951360.0,
      "grad_norm": 2.121830130137716,
      "language_loss": 0.7405808,
      "learning_rate": 1.8575688578064281e-06,
      "loss": 0.76260489,
      "num_input_tokens_seen": 96437805,
      "step": 4466,
      "time_per_iteration": 2.6742000579833984
    },
    {
      "auxiliary_loss_clip": 0.0117728,
      "auxiliary_loss_mlp": 0.01027551,
      "balance_loss_clip": 1.05423832,
      "balance_loss_mlp": 1.01951635,
      "epoch": 0.5371249924848194,
      "flos": 20740926493440.0,
      "grad_norm": 1.893493430216262,
      "language_loss": 0.76715755,
      "learning_rate": 1.8567918748317674e-06,
      "loss": 0.78920591,
      "num_input_tokens_seen": 96457155,
      "step": 4467,
      "time_per_iteration": 2.6554465293884277
    },
    {
      "auxiliary_loss_clip": 0.0115117,
      "auxiliary_loss_mlp": 0.01029979,
      "balance_loss_clip": 1.04430676,
      "balance_loss_mlp": 1.02140808,
      "epoch": 0.5372452353754584,
      "flos": 17968120104960.0,
      "grad_norm": 2.1443936863059765,
      "language_loss": 0.82901394,
      "learning_rate": 1.8560149135816659e-06,
      "loss": 0.85082543,
      "num_input_tokens_seen": 96473990,
      "step": 4468,
      "time_per_iteration": 2.6799919605255127
    },
    {
      "auxiliary_loss_clip": 0.01169379,
      "auxiliary_loss_mlp": 0.01026649,
      "balance_loss_clip": 1.04958606,
      "balance_loss_mlp": 1.01875758,
      "epoch": 0.5373654782660975,
      "flos": 15377021642880.0,
      "grad_norm": 2.3181763212455495,
      "language_loss": 0.84321177,
      "learning_rate": 1.8552379741739873e-06,
      "loss": 0.86517215,
      "num_input_tokens_seen": 96491335,
      "step": 4469,
      "time_per_iteration": 2.647343397140503
    },
    {
      "auxiliary_loss_clip": 0.01053966,
      "auxiliary_loss_mlp": 0.0087581,
      "balance_loss_clip": 1.01277161,
      "balance_loss_mlp": 1.00065982,
      "epoch": 0.5374857211567367,
      "flos": 69000091574400.0,
      "grad_norm": 0.8952705984552258,
      "language_loss": 0.55595905,
      "learning_rate": 1.8544610567265935e-06,
      "loss": 0.57525682,
      "num_input_tokens_seen": 96545275,
      "step": 4470,
      "time_per_iteration": 3.2040348052978516
    },
    {
      "auxiliary_loss_clip": 0.01162995,
      "auxiliary_loss_mlp": 0.00886957,
      "balance_loss_clip": 1.05077147,
      "balance_loss_mlp": 1.00064516,
      "epoch": 0.5376059640473757,
      "flos": 15085355207040.0,
      "grad_norm": 3.0154543666856073,
      "language_loss": 0.82824928,
      "learning_rate": 1.853684161357341e-06,
      "loss": 0.8487488,
      "num_input_tokens_seen": 96562935,
      "step": 4471,
      "time_per_iteration": 2.6823084354400635
    },
    {
      "auxiliary_loss_clip": 0.0117091,
      "auxiliary_loss_mlp": 0.0088717,
      "balance_loss_clip": 1.05204141,
      "balance_loss_mlp": 1.00071549,
      "epoch": 0.5377262069380148,
      "flos": 19792597570560.0,
      "grad_norm": 1.7681584865995668,
      "language_loss": 0.76899624,
      "learning_rate": 1.852907288184085e-06,
      "loss": 0.78957701,
      "num_input_tokens_seen": 96581820,
      "step": 4472,
      "time_per_iteration": 2.628946542739868
    },
    {
      "auxiliary_loss_clip": 0.01145421,
      "auxiliary_loss_mlp": 0.01026128,
      "balance_loss_clip": 1.04505444,
      "balance_loss_mlp": 1.01784921,
      "epoch": 0.5378464498286539,
      "flos": 30003077640960.0,
      "grad_norm": 1.7806308104048618,
      "language_loss": 0.69680202,
      "learning_rate": 1.8521304373246762e-06,
      "loss": 0.71851754,
      "num_input_tokens_seen": 96602865,
      "step": 4473,
      "time_per_iteration": 3.746170997619629
    },
    {
      "auxiliary_loss_clip": 0.0117516,
      "auxiliary_loss_mlp": 0.01031753,
      "balance_loss_clip": 1.05061007,
      "balance_loss_mlp": 1.02303863,
      "epoch": 0.537966692719293,
      "flos": 21251217058560.0,
      "grad_norm": 3.3926765833085506,
      "language_loss": 0.88518643,
      "learning_rate": 1.8513536088969626e-06,
      "loss": 0.90725553,
      "num_input_tokens_seen": 96620530,
      "step": 4474,
      "time_per_iteration": 2.6661202907562256
    },
    {
      "auxiliary_loss_clip": 0.0117843,
      "auxiliary_loss_mlp": 0.01031465,
      "balance_loss_clip": 1.05611432,
      "balance_loss_mlp": 1.02298307,
      "epoch": 0.538086935609932,
      "flos": 21543170803200.0,
      "grad_norm": 1.6131552220579473,
      "language_loss": 0.80264986,
      "learning_rate": 1.8505768030187884e-06,
      "loss": 0.82474875,
      "num_input_tokens_seen": 96640660,
      "step": 4475,
      "time_per_iteration": 2.6750409603118896
    },
    {
      "auxiliary_loss_clip": 0.01161888,
      "auxiliary_loss_mlp": 0.01031221,
      "balance_loss_clip": 1.05317307,
      "balance_loss_mlp": 1.02321053,
      "epoch": 0.5382071785005712,
      "flos": 22747219626240.0,
      "grad_norm": 2.3217475808268375,
      "language_loss": 0.80109704,
      "learning_rate": 1.849800019807995e-06,
      "loss": 0.82302809,
      "num_input_tokens_seen": 96661885,
      "step": 4476,
      "time_per_iteration": 2.781967878341675
    },
    {
      "auxiliary_loss_clip": 0.01154162,
      "auxiliary_loss_mlp": 0.01028696,
      "balance_loss_clip": 1.04977584,
      "balance_loss_mlp": 1.02076292,
      "epoch": 0.5383274213912103,
      "flos": 24934574240640.0,
      "grad_norm": 2.1543187002712534,
      "language_loss": 0.70756841,
      "learning_rate": 1.8490232593824186e-06,
      "loss": 0.72939694,
      "num_input_tokens_seen": 96678340,
      "step": 4477,
      "time_per_iteration": 2.7143003940582275
    },
    {
      "auxiliary_loss_clip": 0.01160944,
      "auxiliary_loss_mlp": 0.01031045,
      "balance_loss_clip": 1.05238557,
      "balance_loss_mlp": 1.0230639,
      "epoch": 0.5384476642818493,
      "flos": 22310186849280.0,
      "grad_norm": 1.661977302680458,
      "language_loss": 0.84673911,
      "learning_rate": 1.8482465218598935e-06,
      "loss": 0.86865902,
      "num_input_tokens_seen": 96698285,
      "step": 4478,
      "time_per_iteration": 3.690364360809326
    },
    {
      "auxiliary_loss_clip": 0.01154935,
      "auxiliary_loss_mlp": 0.01029405,
      "balance_loss_clip": 1.04927826,
      "balance_loss_mlp": 1.02120304,
      "epoch": 0.5385679071724885,
      "flos": 22711021695360.0,
      "grad_norm": 1.937177135004292,
      "language_loss": 0.83484095,
      "learning_rate": 1.8474698073582508e-06,
      "loss": 0.85668439,
      "num_input_tokens_seen": 96719655,
      "step": 4479,
      "time_per_iteration": 2.7180016040802
    },
    {
      "auxiliary_loss_clip": 0.01157538,
      "auxiliary_loss_mlp": 0.01026687,
      "balance_loss_clip": 1.04737461,
      "balance_loss_mlp": 1.01893222,
      "epoch": 0.5386881500631275,
      "flos": 15953746412160.0,
      "grad_norm": 2.3295974276819487,
      "language_loss": 0.86931455,
      "learning_rate": 1.8466931159953166e-06,
      "loss": 0.89115679,
      "num_input_tokens_seen": 96736290,
      "step": 4480,
      "time_per_iteration": 2.716948986053467
    },
    {
      "auxiliary_loss_clip": 0.01167625,
      "auxiliary_loss_mlp": 0.01029045,
      "balance_loss_clip": 1.0523591,
      "balance_loss_mlp": 1.02064037,
      "epoch": 0.5388083929537666,
      "flos": 24060041809920.0,
      "grad_norm": 1.7758415706713033,
      "language_loss": 0.84043992,
      "learning_rate": 1.8459164478889158e-06,
      "loss": 0.86240655,
      "num_input_tokens_seen": 96757685,
      "step": 4481,
      "time_per_iteration": 3.5734128952026367
    },
    {
      "auxiliary_loss_clip": 0.01144186,
      "auxiliary_loss_mlp": 0.0102615,
      "balance_loss_clip": 1.04543567,
      "balance_loss_mlp": 1.0186758,
      "epoch": 0.5389286358444056,
      "flos": 22236893147520.0,
      "grad_norm": 1.8503662744284444,
      "language_loss": 0.75818455,
      "learning_rate": 1.8451398031568663e-06,
      "loss": 0.77988791,
      "num_input_tokens_seen": 96777310,
      "step": 4482,
      "time_per_iteration": 2.7482686042785645
    },
    {
      "auxiliary_loss_clip": 0.01155248,
      "auxiliary_loss_mlp": 0.01035461,
      "balance_loss_clip": 1.04959571,
      "balance_loss_mlp": 1.02701521,
      "epoch": 0.5390488787350448,
      "flos": 24281718595200.0,
      "grad_norm": 1.5636872875122838,
      "language_loss": 0.74605286,
      "learning_rate": 1.844363181916986e-06,
      "loss": 0.76796001,
      "num_input_tokens_seen": 96798035,
      "step": 4483,
      "time_per_iteration": 2.7435977458953857
    },
    {
      "auxiliary_loss_clip": 0.0116888,
      "auxiliary_loss_mlp": 0.01025909,
      "balance_loss_clip": 1.05008173,
      "balance_loss_mlp": 1.01749897,
      "epoch": 0.5391691216256839,
      "flos": 16581393688320.0,
      "grad_norm": 2.1477512245939168,
      "language_loss": 0.83139169,
      "learning_rate": 1.8435865842870868e-06,
      "loss": 0.85333955,
      "num_input_tokens_seen": 96815975,
      "step": 4484,
      "time_per_iteration": 2.5623950958251953
    },
    {
      "auxiliary_loss_clip": 0.01153609,
      "auxiliary_loss_mlp": 0.00887499,
      "balance_loss_clip": 1.04580414,
      "balance_loss_mlp": 1.00066471,
      "epoch": 0.5392893645163229,
      "flos": 23330049707520.0,
      "grad_norm": 2.1741360348359304,
      "language_loss": 0.72141397,
      "learning_rate": 1.8428100103849787e-06,
      "loss": 0.74182498,
      "num_input_tokens_seen": 96835770,
      "step": 4485,
      "time_per_iteration": 2.677232503890991
    },
    {
      "auxiliary_loss_clip": 0.01163415,
      "auxiliary_loss_mlp": 0.01036233,
      "balance_loss_clip": 1.05342054,
      "balance_loss_mlp": 1.02842474,
      "epoch": 0.5394096074069621,
      "flos": 15669801400320.0,
      "grad_norm": 2.2485550519945736,
      "language_loss": 0.73266423,
      "learning_rate": 1.842033460328467e-06,
      "loss": 0.75466073,
      "num_input_tokens_seen": 96854490,
      "step": 4486,
      "time_per_iteration": 3.5072362422943115
    },
    {
      "auxiliary_loss_clip": 0.01167282,
      "auxiliary_loss_mlp": 0.00886704,
      "balance_loss_clip": 1.04875541,
      "balance_loss_mlp": 1.00073361,
      "epoch": 0.5395298502976011,
      "flos": 22893447893760.0,
      "grad_norm": 2.448488380873831,
      "language_loss": 0.75110555,
      "learning_rate": 1.8412569342353541e-06,
      "loss": 0.77164543,
      "num_input_tokens_seen": 96874645,
      "step": 4487,
      "time_per_iteration": 2.6993141174316406
    },
    {
      "auxiliary_loss_clip": 0.01169345,
      "auxiliary_loss_mlp": 0.01031076,
      "balance_loss_clip": 1.05270398,
      "balance_loss_mlp": 1.02174747,
      "epoch": 0.5396500931882402,
      "flos": 23842135952640.0,
      "grad_norm": 1.9090302026645025,
      "language_loss": 0.84466022,
      "learning_rate": 1.840480432223438e-06,
      "loss": 0.86666447,
      "num_input_tokens_seen": 96893650,
      "step": 4488,
      "time_per_iteration": 2.729576826095581
    },
    {
      "auxiliary_loss_clip": 0.01165493,
      "auxiliary_loss_mlp": 0.01030583,
      "balance_loss_clip": 1.04815865,
      "balance_loss_mlp": 1.02248299,
      "epoch": 0.5397703360788794,
      "flos": 26322988596480.0,
      "grad_norm": 2.2233526246919846,
      "language_loss": 0.78098762,
      "learning_rate": 1.8397039544105131e-06,
      "loss": 0.80294836,
      "num_input_tokens_seen": 96912735,
      "step": 4489,
      "time_per_iteration": 2.7178335189819336
    },
    {
      "auxiliary_loss_clip": 0.01156506,
      "auxiliary_loss_mlp": 0.01024726,
      "balance_loss_clip": 1.0448842,
      "balance_loss_mlp": 1.01621509,
      "epoch": 0.5398905789695184,
      "flos": 21214588164480.0,
      "grad_norm": 2.1926536169143813,
      "language_loss": 0.70053411,
      "learning_rate": 1.8389275009143711e-06,
      "loss": 0.72234637,
      "num_input_tokens_seen": 96932475,
      "step": 4490,
      "time_per_iteration": 2.6899588108062744
    },
    {
      "auxiliary_loss_clip": 0.01178974,
      "auxiliary_loss_mlp": 0.01027508,
      "balance_loss_clip": 1.05035591,
      "balance_loss_mlp": 1.01877546,
      "epoch": 0.5400108218601575,
      "flos": 25080335631360.0,
      "grad_norm": 1.6574356265722703,
      "language_loss": 0.73592663,
      "learning_rate": 1.8381510718527988e-06,
      "loss": 0.75799143,
      "num_input_tokens_seen": 96952085,
      "step": 4491,
      "time_per_iteration": 2.637648582458496
    },
    {
      "auxiliary_loss_clip": 0.01165741,
      "auxiliary_loss_mlp": 0.01033978,
      "balance_loss_clip": 1.04719186,
      "balance_loss_mlp": 1.02567494,
      "epoch": 0.5401310647507966,
      "flos": 26357498588160.0,
      "grad_norm": 2.026377800122624,
      "language_loss": 0.63561058,
      "learning_rate": 1.8373746673435812e-06,
      "loss": 0.65760773,
      "num_input_tokens_seen": 96973110,
      "step": 4492,
      "time_per_iteration": 2.813462972640991
    },
    {
      "auxiliary_loss_clip": 0.01184584,
      "auxiliary_loss_mlp": 0.01038445,
      "balance_loss_clip": 1.05456972,
      "balance_loss_mlp": 1.02939689,
      "epoch": 0.5402513076414357,
      "flos": 27855332749440.0,
      "grad_norm": 1.779236783396205,
      "language_loss": 0.79141259,
      "learning_rate": 1.8365982875044964e-06,
      "loss": 0.81364286,
      "num_input_tokens_seen": 96993420,
      "step": 4493,
      "time_per_iteration": 2.664572238922119
    },
    {
      "auxiliary_loss_clip": 0.01179572,
      "auxiliary_loss_mlp": 0.00888271,
      "balance_loss_clip": 1.05252242,
      "balance_loss_mlp": 1.00069106,
      "epoch": 0.5403715505320748,
      "flos": 22893771116160.0,
      "grad_norm": 2.5222230787370763,
      "language_loss": 0.76307893,
      "learning_rate": 1.8358219324533217e-06,
      "loss": 0.78375733,
      "num_input_tokens_seen": 97013685,
      "step": 4494,
      "time_per_iteration": 2.7504866123199463
    },
    {
      "auxiliary_loss_clip": 0.01161102,
      "auxiliary_loss_mlp": 0.01033261,
      "balance_loss_clip": 1.04905486,
      "balance_loss_mlp": 1.02552092,
      "epoch": 0.5404917934227139,
      "flos": 30224143895040.0,
      "grad_norm": 1.6198053081905515,
      "language_loss": 0.70411253,
      "learning_rate": 1.8350456023078292e-06,
      "loss": 0.72605622,
      "num_input_tokens_seen": 97036060,
      "step": 4495,
      "time_per_iteration": 2.7198145389556885
    },
    {
      "auxiliary_loss_clip": 0.01187339,
      "auxiliary_loss_mlp": 0.01031567,
      "balance_loss_clip": 1.05309057,
      "balance_loss_mlp": 1.02256036,
      "epoch": 0.540612036313353,
      "flos": 19938502615680.0,
      "grad_norm": 2.8828078200499445,
      "language_loss": 0.78066134,
      "learning_rate": 1.8342692971857874e-06,
      "loss": 0.80285037,
      "num_input_tokens_seen": 97055260,
      "step": 4496,
      "time_per_iteration": 2.614255666732788
    },
    {
      "auxiliary_loss_clip": 0.01160233,
      "auxiliary_loss_mlp": 0.01027326,
      "balance_loss_clip": 1.04976439,
      "balance_loss_mlp": 1.01890445,
      "epoch": 0.540732279203992,
      "flos": 24279599692800.0,
      "grad_norm": 2.612774304836604,
      "language_loss": 0.71520472,
      "learning_rate": 1.833493017204962e-06,
      "loss": 0.73708034,
      "num_input_tokens_seen": 97075365,
      "step": 4497,
      "time_per_iteration": 2.7200233936309814
    },
    {
      "auxiliary_loss_clip": 0.01184529,
      "auxiliary_loss_mlp": 0.01034357,
      "balance_loss_clip": 1.05402279,
      "balance_loss_mlp": 1.02564907,
      "epoch": 0.5408525220946312,
      "flos": 20193216935040.0,
      "grad_norm": 1.8664348911276474,
      "language_loss": 0.77752423,
      "learning_rate": 1.8327167624831134e-06,
      "loss": 0.79971308,
      "num_input_tokens_seen": 97093095,
      "step": 4498,
      "time_per_iteration": 2.612258195877075
    },
    {
      "auxiliary_loss_clip": 0.01183337,
      "auxiliary_loss_mlp": 0.01026023,
      "balance_loss_clip": 1.05479908,
      "balance_loss_mlp": 1.01810122,
      "epoch": 0.5409727649852702,
      "flos": 24134448833280.0,
      "grad_norm": 1.7791303052070777,
      "language_loss": 0.70943928,
      "learning_rate": 1.831940533137999e-06,
      "loss": 0.73153281,
      "num_input_tokens_seen": 97112000,
      "step": 4499,
      "time_per_iteration": 3.5937578678131104
    },
    {
      "auxiliary_loss_clip": 0.01170414,
      "auxiliary_loss_mlp": 0.01032998,
      "balance_loss_clip": 1.05255377,
      "balance_loss_mlp": 1.02436757,
      "epoch": 0.5410930078759093,
      "flos": 23912700220800.0,
      "grad_norm": 2.0841766049416193,
      "language_loss": 0.72405148,
      "learning_rate": 1.8311643292873718e-06,
      "loss": 0.74608564,
      "num_input_tokens_seen": 97130820,
      "step": 4500,
      "time_per_iteration": 2.6496939659118652
    },
    {
      "auxiliary_loss_clip": 0.01169678,
      "auxiliary_loss_mlp": 0.01025083,
      "balance_loss_clip": 1.05254817,
      "balance_loss_mlp": 1.01714373,
      "epoch": 0.5412132507665485,
      "flos": 21105132445440.0,
      "grad_norm": 1.8415595266066085,
      "language_loss": 0.88066202,
      "learning_rate": 1.8303881510489818e-06,
      "loss": 0.90260971,
      "num_input_tokens_seen": 97149210,
      "step": 4501,
      "time_per_iteration": 2.63838791847229
    },
    {
      "auxiliary_loss_clip": 0.01164833,
      "auxiliary_loss_mlp": 0.0103074,
      "balance_loss_clip": 1.05057406,
      "balance_loss_mlp": 1.02149558,
      "epoch": 0.5413334936571875,
      "flos": 30227340205440.0,
      "grad_norm": 5.849042904176922,
      "language_loss": 0.69504511,
      "learning_rate": 1.829611998540574e-06,
      "loss": 0.71700084,
      "num_input_tokens_seen": 97170415,
      "step": 4502,
      "time_per_iteration": 2.735013246536255
    },
    {
      "auxiliary_loss_clip": 0.01174089,
      "auxiliary_loss_mlp": 0.00887532,
      "balance_loss_clip": 1.0514307,
      "balance_loss_mlp": 1.0006578,
      "epoch": 0.5414537365478266,
      "flos": 24279635606400.0,
      "grad_norm": 2.1549384345441744,
      "language_loss": 0.80305988,
      "learning_rate": 1.8288358718798914e-06,
      "loss": 0.82367611,
      "num_input_tokens_seen": 97189605,
      "step": 4503,
      "time_per_iteration": 2.659881830215454
    },
    {
      "auxiliary_loss_clip": 0.01172042,
      "auxiliary_loss_mlp": 0.00887006,
      "balance_loss_clip": 1.05302954,
      "balance_loss_mlp": 1.00073338,
      "epoch": 0.5415739794384657,
      "flos": 16654543735680.0,
      "grad_norm": 1.6871916318981335,
      "language_loss": 0.72476417,
      "learning_rate": 1.8280597711846703e-06,
      "loss": 0.74535471,
      "num_input_tokens_seen": 97207845,
      "step": 4504,
      "time_per_iteration": 2.632185697555542
    },
    {
      "auxiliary_loss_clip": 0.01170233,
      "auxiliary_loss_mlp": 0.01025182,
      "balance_loss_clip": 1.05208373,
      "balance_loss_mlp": 1.0174489,
      "epoch": 0.5416942223291048,
      "flos": 23185724860800.0,
      "grad_norm": 2.228592246932123,
      "language_loss": 0.83163929,
      "learning_rate": 1.8272836965726455e-06,
      "loss": 0.85359335,
      "num_input_tokens_seen": 97226780,
      "step": 4505,
      "time_per_iteration": 3.6195642948150635
    },
    {
      "auxiliary_loss_clip": 0.01131036,
      "auxiliary_loss_mlp": 0.01031074,
      "balance_loss_clip": 1.04216886,
      "balance_loss_mlp": 1.02263951,
      "epoch": 0.5418144652197439,
      "flos": 20303247271680.0,
      "grad_norm": 1.7431717868092187,
      "language_loss": 0.78356546,
      "learning_rate": 1.8265076481615461e-06,
      "loss": 0.80518657,
      "num_input_tokens_seen": 97246695,
      "step": 4506,
      "time_per_iteration": 2.7995452880859375
    },
    {
      "auxiliary_loss_clip": 0.01167163,
      "auxiliary_loss_mlp": 0.01036138,
      "balance_loss_clip": 1.05668044,
      "balance_loss_mlp": 1.02746582,
      "epoch": 0.541934708110383,
      "flos": 12458633431680.0,
      "grad_norm": 3.9796193019873347,
      "language_loss": 0.87205708,
      "learning_rate": 1.8257316260690987e-06,
      "loss": 0.89409012,
      "num_input_tokens_seen": 97264480,
      "step": 4507,
      "time_per_iteration": 3.561619758605957
    },
    {
      "auxiliary_loss_clip": 0.01174357,
      "auxiliary_loss_mlp": 0.01030049,
      "balance_loss_clip": 1.05146003,
      "balance_loss_mlp": 1.02204454,
      "epoch": 0.5420549510010221,
      "flos": 21253802837760.0,
      "grad_norm": 1.5583855424914494,
      "language_loss": 0.76248592,
      "learning_rate": 1.8249556304130254e-06,
      "loss": 0.78452998,
      "num_input_tokens_seen": 97285760,
      "step": 4508,
      "time_per_iteration": 2.7118029594421387
    },
    {
      "auxiliary_loss_clip": 0.01153335,
      "auxiliary_loss_mlp": 0.01026312,
      "balance_loss_clip": 1.04691911,
      "balance_loss_mlp": 1.01841402,
      "epoch": 0.5421751938916611,
      "flos": 29490524519040.0,
      "grad_norm": 2.1770539448741046,
      "language_loss": 0.68477482,
      "learning_rate": 1.824179661311044e-06,
      "loss": 0.70657134,
      "num_input_tokens_seen": 97304510,
      "step": 4509,
      "time_per_iteration": 2.7480363845825195
    },
    {
      "auxiliary_loss_clip": 0.01142319,
      "auxiliary_loss_mlp": 0.01029252,
      "balance_loss_clip": 1.04201365,
      "balance_loss_mlp": 1.0208056,
      "epoch": 0.5422954367823003,
      "flos": 18734238311040.0,
      "grad_norm": 1.986882811918177,
      "language_loss": 0.80017322,
      "learning_rate": 1.823403718880868e-06,
      "loss": 0.82188898,
      "num_input_tokens_seen": 97323270,
      "step": 4510,
      "time_per_iteration": 2.77717924118042
    },
    {
      "auxiliary_loss_clip": 0.01160186,
      "auxiliary_loss_mlp": 0.01029369,
      "balance_loss_clip": 1.04463887,
      "balance_loss_mlp": 1.02145958,
      "epoch": 0.5424156796729394,
      "flos": 39969006940800.0,
      "grad_norm": 1.750504721238814,
      "language_loss": 0.66822696,
      "learning_rate": 1.822627803240207e-06,
      "loss": 0.69012254,
      "num_input_tokens_seen": 97345600,
      "step": 4511,
      "time_per_iteration": 3.8277199268341064
    },
    {
      "auxiliary_loss_clip": 0.01157201,
      "auxiliary_loss_mlp": 0.01031301,
      "balance_loss_clip": 1.04932666,
      "balance_loss_mlp": 1.02296782,
      "epoch": 0.5425359225635784,
      "flos": 11546538353280.0,
      "grad_norm": 2.342277600890258,
      "language_loss": 0.85347939,
      "learning_rate": 1.8218519145067675e-06,
      "loss": 0.87536436,
      "num_input_tokens_seen": 97361220,
      "step": 4512,
      "time_per_iteration": 2.683173418045044
    },
    {
      "auxiliary_loss_clip": 0.01147858,
      "auxiliary_loss_mlp": 0.01030421,
      "balance_loss_clip": 1.04641783,
      "balance_loss_mlp": 1.02168262,
      "epoch": 0.5426561654542175,
      "flos": 20229702174720.0,
      "grad_norm": 1.9217814894910459,
      "language_loss": 0.89713722,
      "learning_rate": 1.8210760527982508e-06,
      "loss": 0.91892004,
      "num_input_tokens_seen": 97381505,
      "step": 4513,
      "time_per_iteration": 2.676218271255493
    },
    {
      "auxiliary_loss_clip": 0.01167722,
      "auxiliary_loss_mlp": 0.00886634,
      "balance_loss_clip": 1.05430686,
      "balance_loss_mlp": 1.00079942,
      "epoch": 0.5427764083448566,
      "flos": 21871681614720.0,
      "grad_norm": 1.9858549073433502,
      "language_loss": 0.74970567,
      "learning_rate": 1.8203002182323552e-06,
      "loss": 0.77024931,
      "num_input_tokens_seen": 97399060,
      "step": 4514,
      "time_per_iteration": 2.6999363899230957
    },
    {
      "auxiliary_loss_clip": 0.0116316,
      "auxiliary_loss_mlp": 0.01030386,
      "balance_loss_clip": 1.04874182,
      "balance_loss_mlp": 1.02228594,
      "epoch": 0.5428966512354957,
      "flos": 19640946349440.0,
      "grad_norm": 1.80308445670383,
      "language_loss": 0.75212836,
      "learning_rate": 1.819524410926773e-06,
      "loss": 0.77406377,
      "num_input_tokens_seen": 97416740,
      "step": 4515,
      "time_per_iteration": 2.665649890899658
    },
    {
      "auxiliary_loss_clip": 0.01133527,
      "auxiliary_loss_mlp": 0.01030996,
      "balance_loss_clip": 1.04816318,
      "balance_loss_mlp": 1.02269936,
      "epoch": 0.5430168941261347,
      "flos": 22382187661440.0,
      "grad_norm": 1.4309594017020169,
      "language_loss": 0.77037132,
      "learning_rate": 1.8187486309991944e-06,
      "loss": 0.79201663,
      "num_input_tokens_seen": 97437620,
      "step": 4516,
      "time_per_iteration": 2.806184768676758
    },
    {
      "auxiliary_loss_clip": 0.01179856,
      "auxiliary_loss_mlp": 0.01028062,
      "balance_loss_clip": 1.05304646,
      "balance_loss_mlp": 1.01978874,
      "epoch": 0.5431371370167739,
      "flos": 18764187275520.0,
      "grad_norm": 1.618441285233418,
      "language_loss": 0.7754494,
      "learning_rate": 1.817972878567304e-06,
      "loss": 0.79752856,
      "num_input_tokens_seen": 97456275,
      "step": 4517,
      "time_per_iteration": 2.6227684020996094
    },
    {
      "auxiliary_loss_clip": 0.01166951,
      "auxiliary_loss_mlp": 0.01028427,
      "balance_loss_clip": 1.04834747,
      "balance_loss_mlp": 1.02055335,
      "epoch": 0.543257379907413,
      "flos": 18806023641600.0,
      "grad_norm": 1.6693844349050981,
      "language_loss": 0.76124752,
      "learning_rate": 1.8171971537487834e-06,
      "loss": 0.78320134,
      "num_input_tokens_seen": 97474925,
      "step": 4518,
      "time_per_iteration": 2.7196855545043945
    },
    {
      "auxiliary_loss_clip": 0.01182768,
      "auxiliary_loss_mlp": 0.01030973,
      "balance_loss_clip": 1.05138779,
      "balance_loss_mlp": 1.0225625,
      "epoch": 0.543377622798052,
      "flos": 17493381025920.0,
      "grad_norm": 1.7721188496994174,
      "language_loss": 0.80757111,
      "learning_rate": 1.8164214566613093e-06,
      "loss": 0.82970852,
      "num_input_tokens_seen": 97493550,
      "step": 4519,
      "time_per_iteration": 2.5996296405792236
    },
    {
      "auxiliary_loss_clip": 0.01181076,
      "auxiliary_loss_mlp": 0.01028592,
      "balance_loss_clip": 1.05332983,
      "balance_loss_mlp": 1.02046788,
      "epoch": 0.5434978656886912,
      "flos": 18989311766400.0,
      "grad_norm": 2.9451273345691855,
      "language_loss": 0.66061985,
      "learning_rate": 1.8156457874225547e-06,
      "loss": 0.68271661,
      "num_input_tokens_seen": 97512010,
      "step": 4520,
      "time_per_iteration": 2.598710298538208
    },
    {
      "auxiliary_loss_clip": 0.01157733,
      "auxiliary_loss_mlp": 0.0102526,
      "balance_loss_clip": 1.0508244,
      "balance_loss_mlp": 1.01715982,
      "epoch": 0.5436181085793302,
      "flos": 17274936464640.0,
      "grad_norm": 1.8247349834086501,
      "language_loss": 0.80556226,
      "learning_rate": 1.814870146150187e-06,
      "loss": 0.82739222,
      "num_input_tokens_seen": 97530120,
      "step": 4521,
      "time_per_iteration": 2.7201809883117676
    },
    {
      "auxiliary_loss_clip": 0.01169105,
      "auxiliary_loss_mlp": 0.01029482,
      "balance_loss_clip": 1.04831958,
      "balance_loss_mlp": 1.02078617,
      "epoch": 0.5437383514699693,
      "flos": 19098587917440.0,
      "grad_norm": 3.4261084854537645,
      "language_loss": 0.78537881,
      "learning_rate": 1.814094532961871e-06,
      "loss": 0.8073647,
      "num_input_tokens_seen": 97548695,
      "step": 4522,
      "time_per_iteration": 2.7065556049346924
    },
    {
      "auxiliary_loss_clip": 0.01142571,
      "auxiliary_loss_mlp": 0.01031309,
      "balance_loss_clip": 1.04273772,
      "balance_loss_mlp": 1.02337599,
      "epoch": 0.5438585943606085,
      "flos": 22602715211520.0,
      "grad_norm": 2.099176989008021,
      "language_loss": 0.83498973,
      "learning_rate": 1.8133189479752666e-06,
      "loss": 0.85672855,
      "num_input_tokens_seen": 97567625,
      "step": 4523,
      "time_per_iteration": 2.7484288215637207
    },
    {
      "auxiliary_loss_clip": 0.01183325,
      "auxiliary_loss_mlp": 0.01031351,
      "balance_loss_clip": 1.05428171,
      "balance_loss_mlp": 1.02368569,
      "epoch": 0.5439788372512475,
      "flos": 21798495653760.0,
      "grad_norm": 1.8801173816710794,
      "language_loss": 0.82010162,
      "learning_rate": 1.8125433913080292e-06,
      "loss": 0.84224832,
      "num_input_tokens_seen": 97585325,
      "step": 4524,
      "time_per_iteration": 2.6346843242645264
    },
    {
      "auxiliary_loss_clip": 0.01096142,
      "auxiliary_loss_mlp": 0.0102611,
      "balance_loss_clip": 1.03707075,
      "balance_loss_mlp": 1.01858759,
      "epoch": 0.5440990801418866,
      "flos": 16399362539520.0,
      "grad_norm": 1.910994102983811,
      "language_loss": 0.82434368,
      "learning_rate": 1.811767863077811e-06,
      "loss": 0.84556621,
      "num_input_tokens_seen": 97604275,
      "step": 4525,
      "time_per_iteration": 4.108574390411377
    },
    {
      "auxiliary_loss_clip": 0.01129408,
      "auxiliary_loss_mlp": 0.01025927,
      "balance_loss_clip": 1.048383,
      "balance_loss_mlp": 1.01847064,
      "epoch": 0.5442193230325257,
      "flos": 21615638492160.0,
      "grad_norm": 1.6418378063763972,
      "language_loss": 0.78455353,
      "learning_rate": 1.8109923634022577e-06,
      "loss": 0.80610681,
      "num_input_tokens_seen": 97624300,
      "step": 4526,
      "time_per_iteration": 3.029939651489258
    },
    {
      "auxiliary_loss_clip": 0.01186316,
      "auxiliary_loss_mlp": 0.01027914,
      "balance_loss_clip": 1.05435348,
      "balance_loss_mlp": 1.01913404,
      "epoch": 0.5443395659231648,
      "flos": 15481198062720.0,
      "grad_norm": 1.8906614601501135,
      "language_loss": 0.86437851,
      "learning_rate": 1.8102168923990128e-06,
      "loss": 0.88652086,
      "num_input_tokens_seen": 97637845,
      "step": 4527,
      "time_per_iteration": 3.476660966873169
    },
    {
      "auxiliary_loss_clip": 0.0117656,
      "auxiliary_loss_mlp": 0.00887062,
      "balance_loss_clip": 1.05375648,
      "balance_loss_mlp": 1.00080454,
      "epoch": 0.5444598088138038,
      "flos": 18770436241920.0,
      "grad_norm": 1.7446707129068906,
      "language_loss": 0.79861093,
      "learning_rate": 1.809441450185714e-06,
      "loss": 0.81924713,
      "num_input_tokens_seen": 97656330,
      "step": 4528,
      "time_per_iteration": 2.7197201251983643
    },
    {
      "auxiliary_loss_clip": 0.01168981,
      "auxiliary_loss_mlp": 0.01029262,
      "balance_loss_clip": 1.04782701,
      "balance_loss_mlp": 1.02104878,
      "epoch": 0.544580051704443,
      "flos": 21142335957120.0,
      "grad_norm": 3.4180044608136795,
      "language_loss": 0.73204625,
      "learning_rate": 1.8086660368799958e-06,
      "loss": 0.75402862,
      "num_input_tokens_seen": 97674380,
      "step": 4529,
      "time_per_iteration": 2.7203640937805176
    },
    {
      "auxiliary_loss_clip": 0.01161244,
      "auxiliary_loss_mlp": 0.01028052,
      "balance_loss_clip": 1.04849863,
      "balance_loss_mlp": 1.0194273,
      "epoch": 0.5447002945950821,
      "flos": 32491508054400.0,
      "grad_norm": 1.808811023331131,
      "language_loss": 0.77427572,
      "learning_rate": 1.807890652599488e-06,
      "loss": 0.79616868,
      "num_input_tokens_seen": 97698765,
      "step": 4530,
      "time_per_iteration": 3.8136332035064697
    },
    {
      "auxiliary_loss_clip": 0.01181525,
      "auxiliary_loss_mlp": 0.01025959,
      "balance_loss_clip": 1.05491781,
      "balance_loss_mlp": 1.01886058,
      "epoch": 0.5448205374857211,
      "flos": 11798307757440.0,
      "grad_norm": 1.9620414534291817,
      "language_loss": 0.82105553,
      "learning_rate": 1.8071152974618156e-06,
      "loss": 0.84313035,
      "num_input_tokens_seen": 97716565,
      "step": 4531,
      "time_per_iteration": 2.5935912132263184
    },
    {
      "auxiliary_loss_clip": 0.01153639,
      "auxiliary_loss_mlp": 0.00887074,
      "balance_loss_clip": 1.04529226,
      "balance_loss_mlp": 1.00064325,
      "epoch": 0.5449407803763603,
      "flos": 24133766474880.0,
      "grad_norm": 2.225346584270516,
      "language_loss": 0.78087229,
      "learning_rate": 1.806339971584599e-06,
      "loss": 0.80127943,
      "num_input_tokens_seen": 97733225,
      "step": 4532,
      "time_per_iteration": 2.7515790462493896
    },
    {
      "auxiliary_loss_clip": 0.0118324,
      "auxiliary_loss_mlp": 0.01030426,
      "balance_loss_clip": 1.05264223,
      "balance_loss_mlp": 1.02244544,
      "epoch": 0.5450610232669993,
      "flos": 23258551685760.0,
      "grad_norm": 1.8846698230128518,
      "language_loss": 0.85368752,
      "learning_rate": 1.8055646750854546e-06,
      "loss": 0.87582421,
      "num_input_tokens_seen": 97752735,
      "step": 4533,
      "time_per_iteration": 3.5308799743652344
    },
    {
      "auxiliary_loss_clip": 0.01166725,
      "auxiliary_loss_mlp": 0.01030112,
      "balance_loss_clip": 1.04906297,
      "balance_loss_mlp": 1.02197003,
      "epoch": 0.5451812661576384,
      "flos": 17785083375360.0,
      "grad_norm": 2.174756277811465,
      "language_loss": 0.82065737,
      "learning_rate": 1.8047894080819945e-06,
      "loss": 0.8426258,
      "num_input_tokens_seen": 97769985,
      "step": 4534,
      "time_per_iteration": 2.6535229682922363
    },
    {
      "auxiliary_loss_clip": 0.01074958,
      "auxiliary_loss_mlp": 0.0100264,
      "balance_loss_clip": 1.01555753,
      "balance_loss_mlp": 1.00152528,
      "epoch": 0.5453015090482776,
      "flos": 71062586513280.0,
      "grad_norm": 0.725817088569117,
      "language_loss": 0.63173729,
      "learning_rate": 1.8040141706918258e-06,
      "loss": 0.65251333,
      "num_input_tokens_seen": 97831225,
      "step": 4535,
      "time_per_iteration": 3.320056438446045
    },
    {
      "auxiliary_loss_clip": 0.01167732,
      "auxiliary_loss_mlp": 0.0103308,
      "balance_loss_clip": 1.053859,
      "balance_loss_mlp": 1.02466965,
      "epoch": 0.5454217519389166,
      "flos": 25552201622400.0,
      "grad_norm": 1.6543242857413518,
      "language_loss": 0.76880598,
      "learning_rate": 1.8032389630325525e-06,
      "loss": 0.7908141,
      "num_input_tokens_seen": 97849975,
      "step": 4536,
      "time_per_iteration": 2.685467004776001
    },
    {
      "auxiliary_loss_clip": 0.01160921,
      "auxiliary_loss_mlp": 0.01035658,
      "balance_loss_clip": 1.04517591,
      "balance_loss_mlp": 1.02735162,
      "epoch": 0.5455419948295557,
      "flos": 23658345037440.0,
      "grad_norm": 1.7313573579685217,
      "language_loss": 0.75796092,
      "learning_rate": 1.8024637852217707e-06,
      "loss": 0.77992678,
      "num_input_tokens_seen": 97869700,
      "step": 4537,
      "time_per_iteration": 3.6599740982055664
    },
    {
      "auxiliary_loss_clip": 0.01164398,
      "auxiliary_loss_mlp": 0.01030213,
      "balance_loss_clip": 1.05073643,
      "balance_loss_mlp": 1.0228132,
      "epoch": 0.5456622377201948,
      "flos": 23403989854080.0,
      "grad_norm": 1.6580929933512105,
      "language_loss": 0.84448338,
      "learning_rate": 1.8016886373770766e-06,
      "loss": 0.86642951,
      "num_input_tokens_seen": 97888215,
      "step": 4538,
      "time_per_iteration": 2.7622249126434326
    },
    {
      "auxiliary_loss_clip": 0.01161069,
      "auxiliary_loss_mlp": 0.01033596,
      "balance_loss_clip": 1.04920268,
      "balance_loss_mlp": 1.02514434,
      "epoch": 0.5457824806108339,
      "flos": 23988040997760.0,
      "grad_norm": 1.6887215752929596,
      "language_loss": 0.78757536,
      "learning_rate": 1.8009135196160579e-06,
      "loss": 0.80952191,
      "num_input_tokens_seen": 97907090,
      "step": 4539,
      "time_per_iteration": 2.8016891479492188
    },
    {
      "auxiliary_loss_clip": 0.01151103,
      "auxiliary_loss_mlp": 0.01024016,
      "balance_loss_clip": 1.04790664,
      "balance_loss_mlp": 1.01601684,
      "epoch": 0.545902723501473,
      "flos": 22565870835840.0,
      "grad_norm": 1.7818325305391927,
      "language_loss": 0.84165883,
      "learning_rate": 1.8001384320563e-06,
      "loss": 0.86341,
      "num_input_tokens_seen": 97927345,
      "step": 4540,
      "time_per_iteration": 2.768526554107666
    },
    {
      "auxiliary_loss_clip": 0.01073719,
      "auxiliary_loss_mlp": 0.01001133,
      "balance_loss_clip": 1.01465189,
      "balance_loss_mlp": 1.0000422,
      "epoch": 0.5460229663921121,
      "flos": 55198399685760.0,
      "grad_norm": 0.7724540016915104,
      "language_loss": 0.57752502,
      "learning_rate": 1.7993633748153833e-06,
      "loss": 0.59827352,
      "num_input_tokens_seen": 97981950,
      "step": 4541,
      "time_per_iteration": 3.0771257877349854
    },
    {
      "auxiliary_loss_clip": 0.01178582,
      "auxiliary_loss_mlp": 0.01034442,
      "balance_loss_clip": 1.0527339,
      "balance_loss_mlp": 1.02652657,
      "epoch": 0.5461432092827512,
      "flos": 15413866018560.0,
      "grad_norm": 2.355316073227812,
      "language_loss": 0.72728372,
      "learning_rate": 1.7985883480108834e-06,
      "loss": 0.74941397,
      "num_input_tokens_seen": 97999585,
      "step": 4542,
      "time_per_iteration": 2.684521436691284
    },
    {
      "auxiliary_loss_clip": 0.01167858,
      "auxiliary_loss_mlp": 0.01031521,
      "balance_loss_clip": 1.04944754,
      "balance_loss_mlp": 1.02336669,
      "epoch": 0.5462634521733902,
      "flos": 24024921287040.0,
      "grad_norm": 1.6665550160128169,
      "language_loss": 0.71910596,
      "learning_rate": 1.797813351760371e-06,
      "loss": 0.74109972,
      "num_input_tokens_seen": 98021290,
      "step": 4543,
      "time_per_iteration": 2.6493728160858154
    },
    {
      "auxiliary_loss_clip": 0.01183811,
      "auxiliary_loss_mlp": 0.01029098,
      "balance_loss_clip": 1.05290926,
      "balance_loss_mlp": 1.0214566,
      "epoch": 0.5463836950640293,
      "flos": 22820944291200.0,
      "grad_norm": 1.7921684295925737,
      "language_loss": 0.78252113,
      "learning_rate": 1.7970383861814116e-06,
      "loss": 0.80465019,
      "num_input_tokens_seen": 98041060,
      "step": 4544,
      "time_per_iteration": 2.642578363418579
    },
    {
      "auxiliary_loss_clip": 0.01174451,
      "auxiliary_loss_mlp": 0.01026315,
      "balance_loss_clip": 1.05341744,
      "balance_loss_mlp": 1.01824403,
      "epoch": 0.5465039379546685,
      "flos": 20448290390400.0,
      "grad_norm": 8.482263921386533,
      "language_loss": 0.74030316,
      "learning_rate": 1.7962634513915684e-06,
      "loss": 0.76231086,
      "num_input_tokens_seen": 98058410,
      "step": 4545,
      "time_per_iteration": 2.630070209503174
    },
    {
      "auxiliary_loss_clip": 0.0118093,
      "auxiliary_loss_mlp": 0.0102857,
      "balance_loss_clip": 1.05150509,
      "balance_loss_mlp": 1.02015638,
      "epoch": 0.5466241808453075,
      "flos": 17343310003200.0,
      "grad_norm": 6.840713296397907,
      "language_loss": 0.79598522,
      "learning_rate": 1.7954885475083969e-06,
      "loss": 0.81808019,
      "num_input_tokens_seen": 98076080,
      "step": 4546,
      "time_per_iteration": 2.5727639198303223
    },
    {
      "auxiliary_loss_clip": 0.01184858,
      "auxiliary_loss_mlp": 0.01036064,
      "balance_loss_clip": 1.05294299,
      "balance_loss_mlp": 1.02816582,
      "epoch": 0.5467444237359466,
      "flos": 21617039122560.0,
      "grad_norm": 2.122948526542983,
      "language_loss": 0.72778159,
      "learning_rate": 1.7947136746494513e-06,
      "loss": 0.74999082,
      "num_input_tokens_seen": 98096995,
      "step": 4547,
      "time_per_iteration": 2.613070249557495
    },
    {
      "auxiliary_loss_clip": 0.0117202,
      "auxiliary_loss_mlp": 0.01028585,
      "balance_loss_clip": 1.05288839,
      "balance_loss_mlp": 1.02072036,
      "epoch": 0.5468646666265857,
      "flos": 24170467196160.0,
      "grad_norm": 3.0532640646349773,
      "language_loss": 0.88346219,
      "learning_rate": 1.793938832932277e-06,
      "loss": 0.90546829,
      "num_input_tokens_seen": 98115105,
      "step": 4548,
      "time_per_iteration": 2.6671743392944336
    },
    {
      "auxiliary_loss_clip": 0.01182682,
      "auxiliary_loss_mlp": 0.01030434,
      "balance_loss_clip": 1.05246258,
      "balance_loss_mlp": 1.02198744,
      "epoch": 0.5469849095172248,
      "flos": 27527001505920.0,
      "grad_norm": 1.929936617319826,
      "language_loss": 0.70630836,
      "learning_rate": 1.7931640224744185e-06,
      "loss": 0.72843951,
      "num_input_tokens_seen": 98135655,
      "step": 4549,
      "time_per_iteration": 2.6925601959228516
    },
    {
      "auxiliary_loss_clip": 0.01139869,
      "auxiliary_loss_mlp": 0.01026767,
      "balance_loss_clip": 1.04060686,
      "balance_loss_mlp": 1.01874447,
      "epoch": 0.5471051524078638,
      "flos": 27964680727680.0,
      "grad_norm": 1.628746249084595,
      "language_loss": 0.73559332,
      "learning_rate": 1.7923892433934127e-06,
      "loss": 0.75725961,
      "num_input_tokens_seen": 98156730,
      "step": 4550,
      "time_per_iteration": 2.7718801498413086
    },
    {
      "auxiliary_loss_clip": 0.01166378,
      "auxiliary_loss_mlp": 0.00887241,
      "balance_loss_clip": 1.05056596,
      "balance_loss_mlp": 1.00067639,
      "epoch": 0.547225395298503,
      "flos": 18150510389760.0,
      "grad_norm": 1.7436655695204737,
      "language_loss": 0.78940296,
      "learning_rate": 1.7916144958067939e-06,
      "loss": 0.80993915,
      "num_input_tokens_seen": 98174590,
      "step": 4551,
      "time_per_iteration": 3.591961622238159
    },
    {
      "auxiliary_loss_clip": 0.01174771,
      "auxiliary_loss_mlp": 0.01032448,
      "balance_loss_clip": 1.05180883,
      "balance_loss_mlp": 1.02384663,
      "epoch": 0.5473456381891421,
      "flos": 21361498790400.0,
      "grad_norm": 1.7236179714431108,
      "language_loss": 0.78979772,
      "learning_rate": 1.7908397798320905e-06,
      "loss": 0.81186986,
      "num_input_tokens_seen": 98194325,
      "step": 4552,
      "time_per_iteration": 2.606893301010132
    },
    {
      "auxiliary_loss_clip": 0.01174884,
      "auxiliary_loss_mlp": 0.00887933,
      "balance_loss_clip": 1.05235136,
      "balance_loss_mlp": 1.00071335,
      "epoch": 0.5474658810797811,
      "flos": 19932145908480.0,
      "grad_norm": 1.7855116784551124,
      "language_loss": 0.74960494,
      "learning_rate": 1.7900650955868265e-06,
      "loss": 0.77023315,
      "num_input_tokens_seen": 98213970,
      "step": 4553,
      "time_per_iteration": 2.6835672855377197
    },
    {
      "auxiliary_loss_clip": 0.01176456,
      "auxiliary_loss_mlp": 0.00886853,
      "balance_loss_clip": 1.05480671,
      "balance_loss_mlp": 1.00067782,
      "epoch": 0.5475861239704203,
      "flos": 50476217264640.0,
      "grad_norm": 1.3812794381840159,
      "language_loss": 0.76793396,
      "learning_rate": 1.7892904431885202e-06,
      "loss": 0.78856701,
      "num_input_tokens_seen": 98241145,
      "step": 4554,
      "time_per_iteration": 2.937676191329956
    },
    {
      "auxiliary_loss_clip": 0.01141812,
      "auxiliary_loss_mlp": 0.01024065,
      "balance_loss_clip": 1.04301,
      "balance_loss_mlp": 1.01614404,
      "epoch": 0.5477063668610593,
      "flos": 20705123612160.0,
      "grad_norm": 1.8136012851411467,
      "language_loss": 0.75920457,
      "learning_rate": 1.788515822754686e-06,
      "loss": 0.78086329,
      "num_input_tokens_seen": 98261565,
      "step": 4555,
      "time_per_iteration": 2.7799856662750244
    },
    {
      "auxiliary_loss_clip": 0.01152083,
      "auxiliary_loss_mlp": 0.0103025,
      "balance_loss_clip": 1.04405785,
      "balance_loss_mlp": 1.02206004,
      "epoch": 0.5478266097516984,
      "flos": 19609740408960.0,
      "grad_norm": 2.447896164933828,
      "language_loss": 0.78092974,
      "learning_rate": 1.7877412344028335e-06,
      "loss": 0.80275309,
      "num_input_tokens_seen": 98281370,
      "step": 4556,
      "time_per_iteration": 3.7491047382354736
    },
    {
      "auxiliary_loss_clip": 0.01175402,
      "auxiliary_loss_mlp": 0.01029276,
      "balance_loss_clip": 1.05144,
      "balance_loss_mlp": 1.02095819,
      "epoch": 0.5479468526423376,
      "flos": 12896599962240.0,
      "grad_norm": 2.2083478184115655,
      "language_loss": 0.77495211,
      "learning_rate": 1.7869666782504668e-06,
      "loss": 0.79699892,
      "num_input_tokens_seen": 98297950,
      "step": 4557,
      "time_per_iteration": 2.5935795307159424
    },
    {
      "auxiliary_loss_clip": 0.01152481,
      "auxiliary_loss_mlp": 0.01027623,
      "balance_loss_clip": 1.04636574,
      "balance_loss_mlp": 1.01922429,
      "epoch": 0.5480670955329766,
      "flos": 18588800142720.0,
      "grad_norm": 1.8724594679398041,
      "language_loss": 0.68995214,
      "learning_rate": 1.7861921544150867e-06,
      "loss": 0.71175319,
      "num_input_tokens_seen": 98316800,
      "step": 4558,
      "time_per_iteration": 2.6868224143981934
    },
    {
      "auxiliary_loss_clip": 0.0112279,
      "auxiliary_loss_mlp": 0.00887168,
      "balance_loss_clip": 1.04544294,
      "balance_loss_mlp": 1.00062776,
      "epoch": 0.5481873384236157,
      "flos": 15954608338560.0,
      "grad_norm": 2.160684512757022,
      "language_loss": 0.76522815,
      "learning_rate": 1.7854176630141856e-06,
      "loss": 0.78532773,
      "num_input_tokens_seen": 98333935,
      "step": 4559,
      "time_per_iteration": 3.6327576637268066
    },
    {
      "auxiliary_loss_clip": 0.01186699,
      "auxiliary_loss_mlp": 0.01035487,
      "balance_loss_clip": 1.05450225,
      "balance_loss_mlp": 1.02723813,
      "epoch": 0.5483075813142548,
      "flos": 22783812606720.0,
      "grad_norm": 2.2182001231888404,
      "language_loss": 0.84325838,
      "learning_rate": 1.784643204165255e-06,
      "loss": 0.86548018,
      "num_input_tokens_seen": 98353255,
      "step": 4560,
      "time_per_iteration": 2.6010794639587402
    },
    {
      "auxiliary_loss_clip": 0.01169488,
      "auxiliary_loss_mlp": 0.01023505,
      "balance_loss_clip": 1.05174232,
      "balance_loss_mlp": 1.01551175,
      "epoch": 0.5484278242048939,
      "flos": 19317212046720.0,
      "grad_norm": 2.0233593820433002,
      "language_loss": 0.77383262,
      "learning_rate": 1.7838687779857783e-06,
      "loss": 0.79576254,
      "num_input_tokens_seen": 98371130,
      "step": 4561,
      "time_per_iteration": 2.6580302715301514
    },
    {
      "auxiliary_loss_clip": 0.01154258,
      "auxiliary_loss_mlp": 0.01029229,
      "balance_loss_clip": 1.04603982,
      "balance_loss_mlp": 1.02107477,
      "epoch": 0.5485480670955329,
      "flos": 22816024128000.0,
      "grad_norm": 2.035659101503775,
      "language_loss": 0.63807917,
      "learning_rate": 1.7830943845932366e-06,
      "loss": 0.65991402,
      "num_input_tokens_seen": 98390455,
      "step": 4562,
      "time_per_iteration": 2.718355655670166
    },
    {
      "auxiliary_loss_clip": 0.01166493,
      "auxiliary_loss_mlp": 0.01032568,
      "balance_loss_clip": 1.05102324,
      "balance_loss_mlp": 1.02432442,
      "epoch": 0.5486683099861721,
      "flos": 22671304231680.0,
      "grad_norm": 1.5613699681046196,
      "language_loss": 0.75383914,
      "learning_rate": 1.7823200241051044e-06,
      "loss": 0.77582973,
      "num_input_tokens_seen": 98409370,
      "step": 4563,
      "time_per_iteration": 3.5571587085723877
    },
    {
      "auxiliary_loss_clip": 0.01184269,
      "auxiliary_loss_mlp": 0.01031573,
      "balance_loss_clip": 1.05382884,
      "balance_loss_mlp": 1.02397311,
      "epoch": 0.5487885528768112,
      "flos": 23149383275520.0,
      "grad_norm": 3.332577817856254,
      "language_loss": 0.80745173,
      "learning_rate": 1.7815456966388513e-06,
      "loss": 0.82961017,
      "num_input_tokens_seen": 98428465,
      "step": 4564,
      "time_per_iteration": 2.65378475189209
    },
    {
      "auxiliary_loss_clip": 0.01155369,
      "auxiliary_loss_mlp": 0.01024919,
      "balance_loss_clip": 1.04802454,
      "balance_loss_mlp": 1.01664615,
      "epoch": 0.5489087957674502,
      "flos": 22053928245120.0,
      "grad_norm": 2.0901293379811867,
      "language_loss": 0.81151223,
      "learning_rate": 1.780771402311943e-06,
      "loss": 0.83331507,
      "num_input_tokens_seen": 98447300,
      "step": 4565,
      "time_per_iteration": 2.6423544883728027
    },
    {
      "auxiliary_loss_clip": 0.01165089,
      "auxiliary_loss_mlp": 0.01038066,
      "balance_loss_clip": 1.05157137,
      "balance_loss_mlp": 1.02952421,
      "epoch": 0.5490290386580894,
      "flos": 24315977191680.0,
      "grad_norm": 1.6918369399751383,
      "language_loss": 0.78906107,
      "learning_rate": 1.7799971412418374e-06,
      "loss": 0.81109262,
      "num_input_tokens_seen": 98468695,
      "step": 4566,
      "time_per_iteration": 2.6768336296081543
    },
    {
      "auxiliary_loss_clip": 0.01150643,
      "auxiliary_loss_mlp": 0.01031685,
      "balance_loss_clip": 1.04596019,
      "balance_loss_mlp": 1.02319765,
      "epoch": 0.5491492815487284,
      "flos": 18294942977280.0,
      "grad_norm": 2.0010380614159144,
      "language_loss": 0.74323422,
      "learning_rate": 1.7792229135459918e-06,
      "loss": 0.76505744,
      "num_input_tokens_seen": 98485345,
      "step": 4567,
      "time_per_iteration": 2.5893826484680176
    },
    {
      "auxiliary_loss_clip": 0.01042558,
      "auxiliary_loss_mlp": 0.01003875,
      "balance_loss_clip": 1.01369882,
      "balance_loss_mlp": 1.00275469,
      "epoch": 0.5492695244393675,
      "flos": 64550257050240.0,
      "grad_norm": 0.7340756424723615,
      "language_loss": 0.61603326,
      "learning_rate": 1.7784487193418538e-06,
      "loss": 0.63649756,
      "num_input_tokens_seen": 98543195,
      "step": 4568,
      "time_per_iteration": 3.109036922454834
    },
    {
      "auxiliary_loss_clip": 0.01135883,
      "auxiliary_loss_mlp": 0.01033505,
      "balance_loss_clip": 1.03981256,
      "balance_loss_mlp": 1.02477896,
      "epoch": 0.5493897673300067,
      "flos": 17379579761280.0,
      "grad_norm": 1.8144811158512468,
      "language_loss": 0.60649067,
      "learning_rate": 1.7776745587468698e-06,
      "loss": 0.62818456,
      "num_input_tokens_seen": 98560620,
      "step": 4569,
      "time_per_iteration": 2.546931266784668
    },
    {
      "auxiliary_loss_clip": 0.01181691,
      "auxiliary_loss_mlp": 0.01026657,
      "balance_loss_clip": 1.05058336,
      "balance_loss_mlp": 1.01828229,
      "epoch": 0.5495100102206457,
      "flos": 19901765980800.0,
      "grad_norm": 2.2308759863132503,
      "language_loss": 0.82281035,
      "learning_rate": 1.7769004318784776e-06,
      "loss": 0.84489381,
      "num_input_tokens_seen": 98578265,
      "step": 4570,
      "time_per_iteration": 2.5967025756835938
    },
    {
      "auxiliary_loss_clip": 0.01172812,
      "auxiliary_loss_mlp": 0.01025658,
      "balance_loss_clip": 1.04974234,
      "balance_loss_mlp": 1.01762342,
      "epoch": 0.5496302531112848,
      "flos": 16727190992640.0,
      "grad_norm": 1.6065413481469324,
      "language_loss": 0.80730045,
      "learning_rate": 1.776126338854113e-06,
      "loss": 0.8292852,
      "num_input_tokens_seen": 98596055,
      "step": 4571,
      "time_per_iteration": 2.5825870037078857
    },
    {
      "auxiliary_loss_clip": 0.01166383,
      "auxiliary_loss_mlp": 0.0102642,
      "balance_loss_clip": 1.04975152,
      "balance_loss_mlp": 1.01839697,
      "epoch": 0.5497504960019239,
      "flos": 24572343536640.0,
      "grad_norm": 2.0730004311918746,
      "language_loss": 0.84513766,
      "learning_rate": 1.7753522797912044e-06,
      "loss": 0.86706567,
      "num_input_tokens_seen": 98616140,
      "step": 4572,
      "time_per_iteration": 2.6712281703948975
    },
    {
      "auxiliary_loss_clip": 0.01168395,
      "auxiliary_loss_mlp": 0.01032972,
      "balance_loss_clip": 1.0478102,
      "balance_loss_mlp": 1.02449024,
      "epoch": 0.549870738892563,
      "flos": 15450494912640.0,
      "grad_norm": 3.5244440372294386,
      "language_loss": 0.69888943,
      "learning_rate": 1.7745782548071765e-06,
      "loss": 0.7209031,
      "num_input_tokens_seen": 98633035,
      "step": 4573,
      "time_per_iteration": 2.647291660308838
    },
    {
      "auxiliary_loss_clip": 0.01151248,
      "auxiliary_loss_mlp": 0.01031804,
      "balance_loss_clip": 1.05183792,
      "balance_loss_mlp": 1.02377546,
      "epoch": 0.549990981783202,
      "flos": 21069114082560.0,
      "grad_norm": 1.9865982829393145,
      "language_loss": 0.74221814,
      "learning_rate": 1.7738042640194482e-06,
      "loss": 0.76404858,
      "num_input_tokens_seen": 98652700,
      "step": 4574,
      "time_per_iteration": 2.687272071838379
    },
    {
      "auxiliary_loss_clip": 0.01182741,
      "auxiliary_loss_mlp": 0.01034105,
      "balance_loss_clip": 1.05231428,
      "balance_loss_mlp": 1.0253911,
      "epoch": 0.5501112246738411,
      "flos": 21395901041280.0,
      "grad_norm": 1.8656110481884733,
      "language_loss": 0.70669061,
      "learning_rate": 1.7730303075454335e-06,
      "loss": 0.72885907,
      "num_input_tokens_seen": 98671590,
      "step": 4575,
      "time_per_iteration": 2.605125665664673
    },
    {
      "auxiliary_loss_clip": 0.01157968,
      "auxiliary_loss_mlp": 0.01028673,
      "balance_loss_clip": 1.04767513,
      "balance_loss_mlp": 1.02013159,
      "epoch": 0.5502314675644803,
      "flos": 17456931699840.0,
      "grad_norm": 2.332361250020698,
      "language_loss": 0.84644276,
      "learning_rate": 1.7722563855025402e-06,
      "loss": 0.86830914,
      "num_input_tokens_seen": 98689620,
      "step": 4576,
      "time_per_iteration": 2.734473943710327
    },
    {
      "auxiliary_loss_clip": 0.01163105,
      "auxiliary_loss_mlp": 0.01029583,
      "balance_loss_clip": 1.04511833,
      "balance_loss_mlp": 1.0213989,
      "epoch": 0.5503517104551193,
      "flos": 24310410583680.0,
      "grad_norm": 3.446973832133991,
      "language_loss": 0.70637512,
      "learning_rate": 1.7714824980081721e-06,
      "loss": 0.728302,
      "num_input_tokens_seen": 98708915,
      "step": 4577,
      "time_per_iteration": 3.5968687534332275
    },
    {
      "auxiliary_loss_clip": 0.01170998,
      "auxiliary_loss_mlp": 0.01030382,
      "balance_loss_clip": 1.05361974,
      "balance_loss_mlp": 1.02206731,
      "epoch": 0.5504719533457584,
      "flos": 22419427086720.0,
      "grad_norm": 1.8068446556859805,
      "language_loss": 0.73703098,
      "learning_rate": 1.7707086451797276e-06,
      "loss": 0.75904477,
      "num_input_tokens_seen": 98729790,
      "step": 4578,
      "time_per_iteration": 2.6920175552368164
    },
    {
      "auxiliary_loss_clip": 0.01055142,
      "auxiliary_loss_mlp": 0.01001899,
      "balance_loss_clip": 1.01328063,
      "balance_loss_mlp": 1.00081444,
      "epoch": 0.5505921962363975,
      "flos": 67294155968640.0,
      "grad_norm": 0.698570969829306,
      "language_loss": 0.52304208,
      "learning_rate": 1.7699348271345993e-06,
      "loss": 0.54361248,
      "num_input_tokens_seen": 98792415,
      "step": 4579,
      "time_per_iteration": 3.2758684158325195
    },
    {
      "auxiliary_loss_clip": 0.01054035,
      "auxiliary_loss_mlp": 0.01002449,
      "balance_loss_clip": 1.01185679,
      "balance_loss_mlp": 1.00131631,
      "epoch": 0.5507124391270366,
      "flos": 45685125578880.0,
      "grad_norm": 0.717296580716372,
      "language_loss": 0.54431224,
      "learning_rate": 1.7691610439901753e-06,
      "loss": 0.56487709,
      "num_input_tokens_seen": 98855350,
      "step": 4580,
      "time_per_iteration": 3.348964214324951
    },
    {
      "auxiliary_loss_clip": 0.01176105,
      "auxiliary_loss_mlp": 0.01029626,
      "balance_loss_clip": 1.05214143,
      "balance_loss_mlp": 1.02073896,
      "epoch": 0.5508326820176757,
      "flos": 22273845264000.0,
      "grad_norm": 2.442789609863077,
      "language_loss": 0.75740343,
      "learning_rate": 1.7683872958638367e-06,
      "loss": 0.77946079,
      "num_input_tokens_seen": 98874230,
      "step": 4581,
      "time_per_iteration": 2.649585723876953
    },
    {
      "auxiliary_loss_clip": 0.01158586,
      "auxiliary_loss_mlp": 0.01028503,
      "balance_loss_clip": 1.04534054,
      "balance_loss_mlp": 1.02025986,
      "epoch": 0.5509529249083148,
      "flos": 20012442762240.0,
      "grad_norm": 2.366172965682177,
      "language_loss": 0.84267378,
      "learning_rate": 1.7676135828729614e-06,
      "loss": 0.86454469,
      "num_input_tokens_seen": 98893940,
      "step": 4582,
      "time_per_iteration": 2.671071767807007
    },
    {
      "auxiliary_loss_clip": 0.01173982,
      "auxiliary_loss_mlp": 0.01031822,
      "balance_loss_clip": 1.05238259,
      "balance_loss_mlp": 1.02356637,
      "epoch": 0.5510731677989539,
      "flos": 21834801325440.0,
      "grad_norm": 1.9876764472276045,
      "language_loss": 0.82860661,
      "learning_rate": 1.7668399051349205e-06,
      "loss": 0.85066462,
      "num_input_tokens_seen": 98913620,
      "step": 4583,
      "time_per_iteration": 3.4931206703186035
    },
    {
      "auxiliary_loss_clip": 0.01151268,
      "auxiliary_loss_mlp": 0.0102988,
      "balance_loss_clip": 1.04752207,
      "balance_loss_mlp": 1.02119589,
      "epoch": 0.5511934106895929,
      "flos": 21467901853440.0,
      "grad_norm": 2.230715931546132,
      "language_loss": 0.82830542,
      "learning_rate": 1.766066262767081e-06,
      "loss": 0.85011697,
      "num_input_tokens_seen": 98931460,
      "step": 4584,
      "time_per_iteration": 2.929292917251587
    },
    {
      "auxiliary_loss_clip": 0.01157354,
      "auxiliary_loss_mlp": 0.01030017,
      "balance_loss_clip": 1.04931974,
      "balance_loss_mlp": 1.02224469,
      "epoch": 0.5513136535802321,
      "flos": 21068934514560.0,
      "grad_norm": 3.5275722056254404,
      "language_loss": 0.76535344,
      "learning_rate": 1.765292655886803e-06,
      "loss": 0.78722715,
      "num_input_tokens_seen": 98950105,
      "step": 4585,
      "time_per_iteration": 3.6106088161468506
    },
    {
      "auxiliary_loss_clip": 0.01161593,
      "auxiliary_loss_mlp": 0.0102945,
      "balance_loss_clip": 1.0480262,
      "balance_loss_mlp": 1.02117717,
      "epoch": 0.5514338964708712,
      "flos": 27815004754560.0,
      "grad_norm": 1.8036449488466548,
      "language_loss": 0.70899194,
      "learning_rate": 1.764519084611443e-06,
      "loss": 0.73090237,
      "num_input_tokens_seen": 98970560,
      "step": 4586,
      "time_per_iteration": 2.784353733062744
    },
    {
      "auxiliary_loss_clip": 0.0116149,
      "auxiliary_loss_mlp": 0.01028973,
      "balance_loss_clip": 1.04843414,
      "balance_loss_mlp": 1.02016914,
      "epoch": 0.5515541393615102,
      "flos": 21908525990400.0,
      "grad_norm": 1.6569849520776474,
      "language_loss": 0.77863258,
      "learning_rate": 1.7637455490583505e-06,
      "loss": 0.80053723,
      "num_input_tokens_seen": 98989885,
      "step": 4587,
      "time_per_iteration": 2.702603578567505
    },
    {
      "auxiliary_loss_clip": 0.0117283,
      "auxiliary_loss_mlp": 0.01024063,
      "balance_loss_clip": 1.05057108,
      "balance_loss_mlp": 1.01633251,
      "epoch": 0.5516743822521494,
      "flos": 20485422074880.0,
      "grad_norm": 2.0862216091780894,
      "language_loss": 0.77148789,
      "learning_rate": 1.7629720493448701e-06,
      "loss": 0.79345679,
      "num_input_tokens_seen": 99007180,
      "step": 4588,
      "time_per_iteration": 2.6360278129577637
    },
    {
      "auxiliary_loss_clip": 0.01170167,
      "auxiliary_loss_mlp": 0.01031973,
      "balance_loss_clip": 1.04970646,
      "balance_loss_mlp": 1.02265108,
      "epoch": 0.5517946251427884,
      "flos": 14940383915520.0,
      "grad_norm": 1.8984804784789737,
      "language_loss": 0.8484478,
      "learning_rate": 1.7621985855883418e-06,
      "loss": 0.87046921,
      "num_input_tokens_seen": 99023880,
      "step": 4589,
      "time_per_iteration": 2.646510362625122
    },
    {
      "auxiliary_loss_clip": 0.01158507,
      "auxiliary_loss_mlp": 0.01027403,
      "balance_loss_clip": 1.04929495,
      "balance_loss_mlp": 1.0195173,
      "epoch": 0.5519148680334275,
      "flos": 18404865573120.0,
      "grad_norm": 1.7746951942513094,
      "language_loss": 0.72488242,
      "learning_rate": 1.7614251579060983e-06,
      "loss": 0.74674153,
      "num_input_tokens_seen": 99042475,
      "step": 4590,
      "time_per_iteration": 3.5339090824127197
    },
    {
      "auxiliary_loss_clip": 0.01155712,
      "auxiliary_loss_mlp": 0.01025515,
      "balance_loss_clip": 1.04826617,
      "balance_loss_mlp": 1.01767147,
      "epoch": 0.5520351109240667,
      "flos": 25113337251840.0,
      "grad_norm": 1.8276546438339167,
      "language_loss": 0.84662247,
      "learning_rate": 1.76065176641547e-06,
      "loss": 0.86843473,
      "num_input_tokens_seen": 99065185,
      "step": 4591,
      "time_per_iteration": 2.757558584213257
    },
    {
      "auxiliary_loss_clip": 0.01171784,
      "auxiliary_loss_mlp": 0.01025331,
      "balance_loss_clip": 1.04815865,
      "balance_loss_mlp": 1.01729667,
      "epoch": 0.5521553538147057,
      "flos": 21069545045760.0,
      "grad_norm": 1.6981869813753836,
      "language_loss": 0.78160846,
      "learning_rate": 1.759878411233777e-06,
      "loss": 0.80357963,
      "num_input_tokens_seen": 99083645,
      "step": 4592,
      "time_per_iteration": 2.68091082572937
    },
    {
      "auxiliary_loss_clip": 0.01174997,
      "auxiliary_loss_mlp": 0.01029973,
      "balance_loss_clip": 1.05315495,
      "balance_loss_mlp": 1.02085376,
      "epoch": 0.5522755967053448,
      "flos": 18879999701760.0,
      "grad_norm": 8.314706798069116,
      "language_loss": 0.75412446,
      "learning_rate": 1.7591050924783388e-06,
      "loss": 0.77617419,
      "num_input_tokens_seen": 99100835,
      "step": 4593,
      "time_per_iteration": 2.6550042629241943
    },
    {
      "auxiliary_loss_clip": 0.01051104,
      "auxiliary_loss_mlp": 0.0100118,
      "balance_loss_clip": 1.01480961,
      "balance_loss_mlp": 1.00012493,
      "epoch": 0.5523958395959839,
      "flos": 64675622494080.0,
      "grad_norm": 0.8349249606087816,
      "language_loss": 0.5790993,
      "learning_rate": 1.7583318102664661e-06,
      "loss": 0.59962213,
      "num_input_tokens_seen": 99168400,
      "step": 4594,
      "time_per_iteration": 3.464709758758545
    },
    {
      "auxiliary_loss_clip": 0.01172077,
      "auxiliary_loss_mlp": 0.01028072,
      "balance_loss_clip": 1.04573512,
      "balance_loss_mlp": 1.01967335,
      "epoch": 0.552516082486623,
      "flos": 10889732211840.0,
      "grad_norm": 2.0869690437963246,
      "language_loss": 0.7926178,
      "learning_rate": 1.757558564715466e-06,
      "loss": 0.8146193,
      "num_input_tokens_seen": 99186475,
      "step": 4595,
      "time_per_iteration": 2.7345314025878906
    },
    {
      "auxiliary_loss_clip": 0.01171,
      "auxiliary_loss_mlp": 0.01028234,
      "balance_loss_clip": 1.04814541,
      "balance_loss_mlp": 1.02022874,
      "epoch": 0.552636325377262,
      "flos": 22199797376640.0,
      "grad_norm": 2.887250571570696,
      "language_loss": 0.74339497,
      "learning_rate": 1.7567853559426386e-06,
      "loss": 0.7653873,
      "num_input_tokens_seen": 99203525,
      "step": 4596,
      "time_per_iteration": 2.688821315765381
    },
    {
      "auxiliary_loss_clip": 0.01174903,
      "auxiliary_loss_mlp": 0.01025964,
      "balance_loss_clip": 1.05099154,
      "balance_loss_mlp": 1.01793551,
      "epoch": 0.5527565682679012,
      "flos": 23988184652160.0,
      "grad_norm": 2.632132073462631,
      "language_loss": 0.75264537,
      "learning_rate": 1.7560121840652797e-06,
      "loss": 0.77465403,
      "num_input_tokens_seen": 99222910,
      "step": 4597,
      "time_per_iteration": 2.679346799850464
    },
    {
      "auxiliary_loss_clip": 0.01140989,
      "auxiliary_loss_mlp": 0.01027233,
      "balance_loss_clip": 1.04606724,
      "balance_loss_mlp": 1.01859641,
      "epoch": 0.5528768111585403,
      "flos": 19719267955200.0,
      "grad_norm": 1.7539793380689648,
      "language_loss": 0.69331682,
      "learning_rate": 1.7552390492006782e-06,
      "loss": 0.71499902,
      "num_input_tokens_seen": 99241230,
      "step": 4598,
      "time_per_iteration": 2.7261719703674316
    },
    {
      "auxiliary_loss_clip": 0.01151351,
      "auxiliary_loss_mlp": 0.00887973,
      "balance_loss_clip": 1.04401541,
      "balance_loss_mlp": 1.00079083,
      "epoch": 0.5529970540491793,
      "flos": 26215975002240.0,
      "grad_norm": 1.7944468779922327,
      "language_loss": 0.65411997,
      "learning_rate": 1.7544659514661184e-06,
      "loss": 0.67451322,
      "num_input_tokens_seen": 99264320,
      "step": 4599,
      "time_per_iteration": 2.783083915710449
    },
    {
      "auxiliary_loss_clip": 0.01159043,
      "auxiliary_loss_mlp": 0.01028452,
      "balance_loss_clip": 1.04709601,
      "balance_loss_mlp": 1.01941645,
      "epoch": 0.5531172969398185,
      "flos": 24425971614720.0,
      "grad_norm": 1.801988318540219,
      "language_loss": 0.79643059,
      "learning_rate": 1.7536928909788786e-06,
      "loss": 0.81830549,
      "num_input_tokens_seen": 99283625,
      "step": 4600,
      "time_per_iteration": 2.7007391452789307
    },
    {
      "auxiliary_loss_clip": 0.01056472,
      "auxiliary_loss_mlp": 0.01000608,
      "balance_loss_clip": 1.01524794,
      "balance_loss_mlp": 0.99944544,
      "epoch": 0.5532375398304575,
      "flos": 64907316195840.0,
      "grad_norm": 0.8794867212990962,
      "language_loss": 0.61996597,
      "learning_rate": 1.752919867856231e-06,
      "loss": 0.64053679,
      "num_input_tokens_seen": 99335270,
      "step": 4601,
      "time_per_iteration": 3.158597707748413
    },
    {
      "auxiliary_loss_clip": 0.01155258,
      "auxiliary_loss_mlp": 0.01027763,
      "balance_loss_clip": 1.04685199,
      "balance_loss_mlp": 1.0199492,
      "epoch": 0.5533577827210966,
      "flos": 19683105937920.0,
      "grad_norm": 1.710629912852627,
      "language_loss": 0.78995067,
      "learning_rate": 1.7521468822154436e-06,
      "loss": 0.81178087,
      "num_input_tokens_seen": 99354185,
      "step": 4602,
      "time_per_iteration": 2.680236577987671
    },
    {
      "auxiliary_loss_clip": 0.01156681,
      "auxiliary_loss_mlp": 0.01026043,
      "balance_loss_clip": 1.04899502,
      "balance_loss_mlp": 1.01797509,
      "epoch": 0.5534780256117358,
      "flos": 32306496076800.0,
      "grad_norm": 1.9064348030972187,
      "language_loss": 0.75254977,
      "learning_rate": 1.751373934173777e-06,
      "loss": 0.77437699,
      "num_input_tokens_seen": 99376930,
      "step": 4603,
      "time_per_iteration": 3.669973850250244
    },
    {
      "auxiliary_loss_clip": 0.01185944,
      "auxiliary_loss_mlp": 0.0103089,
      "balance_loss_clip": 1.05361545,
      "balance_loss_mlp": 1.02257466,
      "epoch": 0.5535982685023748,
      "flos": 23222425582080.0,
      "grad_norm": 1.5849940698304814,
      "language_loss": 0.72740018,
      "learning_rate": 1.750601023848487e-06,
      "loss": 0.74956852,
      "num_input_tokens_seen": 99397655,
      "step": 4604,
      "time_per_iteration": 2.6072986125946045
    },
    {
      "auxiliary_loss_clip": 0.01179731,
      "auxiliary_loss_mlp": 0.00887343,
      "balance_loss_clip": 1.05171299,
      "balance_loss_mlp": 1.00073826,
      "epoch": 0.5537185113930139,
      "flos": 24352534258560.0,
      "grad_norm": 2.16779338212497,
      "language_loss": 0.7420038,
      "learning_rate": 1.749828151356823e-06,
      "loss": 0.76267451,
      "num_input_tokens_seen": 99417850,
      "step": 4605,
      "time_per_iteration": 2.642925262451172
    },
    {
      "auxiliary_loss_clip": 0.01164009,
      "auxiliary_loss_mlp": 0.01031963,
      "balance_loss_clip": 1.04918051,
      "balance_loss_mlp": 1.02290261,
      "epoch": 0.553838754283653,
      "flos": 23549068886400.0,
      "grad_norm": 3.8263330638147823,
      "language_loss": 0.75669372,
      "learning_rate": 1.7490553168160297e-06,
      "loss": 0.77865344,
      "num_input_tokens_seen": 99438920,
      "step": 4606,
      "time_per_iteration": 2.7000231742858887
    },
    {
      "auxiliary_loss_clip": 0.01160526,
      "auxiliary_loss_mlp": 0.01021453,
      "balance_loss_clip": 1.04750395,
      "balance_loss_mlp": 1.01428866,
      "epoch": 0.5539589971742921,
      "flos": 17275044205440.0,
      "grad_norm": 2.131092103839166,
      "language_loss": 0.76274222,
      "learning_rate": 1.748282520343345e-06,
      "loss": 0.78456199,
      "num_input_tokens_seen": 99457950,
      "step": 4607,
      "time_per_iteration": 2.6644344329833984
    },
    {
      "auxiliary_loss_clip": 0.01180031,
      "auxiliary_loss_mlp": 0.0103184,
      "balance_loss_clip": 1.0513773,
      "balance_loss_mlp": 1.02338243,
      "epoch": 0.5540792400649311,
      "flos": 27564169104000.0,
      "grad_norm": 2.1475424581457445,
      "language_loss": 0.78381658,
      "learning_rate": 1.7475097620560023e-06,
      "loss": 0.80593532,
      "num_input_tokens_seen": 99478015,
      "step": 4608,
      "time_per_iteration": 3.9229187965393066
    },
    {
      "auxiliary_loss_clip": 0.01181555,
      "auxiliary_loss_mlp": 0.01035437,
      "balance_loss_clip": 1.0526619,
      "balance_loss_mlp": 1.02755713,
      "epoch": 0.5541994829555702,
      "flos": 23878657105920.0,
      "grad_norm": 1.7189781860420053,
      "language_loss": 0.71330929,
      "learning_rate": 1.746737042071228e-06,
      "loss": 0.73547924,
      "num_input_tokens_seen": 99496520,
      "step": 4609,
      "time_per_iteration": 2.634267568588257
    },
    {
      "auxiliary_loss_clip": 0.01158615,
      "auxiliary_loss_mlp": 0.01025182,
      "balance_loss_clip": 1.05138659,
      "balance_loss_mlp": 1.01751041,
      "epoch": 0.5543197258462094,
      "flos": 20115721342080.0,
      "grad_norm": 1.831620397993425,
      "language_loss": 0.78669286,
      "learning_rate": 1.7459643605062424e-06,
      "loss": 0.80853081,
      "num_input_tokens_seen": 99513780,
      "step": 4610,
      "time_per_iteration": 3.5535154342651367
    },
    {
      "auxiliary_loss_clip": 0.01140718,
      "auxiliary_loss_mlp": 0.01026038,
      "balance_loss_clip": 1.04859698,
      "balance_loss_mlp": 1.01803303,
      "epoch": 0.5544399687368484,
      "flos": 20916565021440.0,
      "grad_norm": 1.881978023873009,
      "language_loss": 0.80557448,
      "learning_rate": 1.745191717478262e-06,
      "loss": 0.82724202,
      "num_input_tokens_seen": 99532360,
      "step": 4611,
      "time_per_iteration": 2.7663137912750244
    },
    {
      "auxiliary_loss_clip": 0.01158718,
      "auxiliary_loss_mlp": 0.01026578,
      "balance_loss_clip": 1.04995131,
      "balance_loss_mlp": 1.01832223,
      "epoch": 0.5545602116274875,
      "flos": 25518661297920.0,
      "grad_norm": 1.6308651852699043,
      "language_loss": 0.79344875,
      "learning_rate": 1.7444191131044948e-06,
      "loss": 0.81530166,
      "num_input_tokens_seen": 99552635,
      "step": 4612,
      "time_per_iteration": 2.7099196910858154
    },
    {
      "auxiliary_loss_clip": 0.0115962,
      "auxiliary_loss_mlp": 0.01028623,
      "balance_loss_clip": 1.04917407,
      "balance_loss_mlp": 1.02023721,
      "epoch": 0.5546804545181266,
      "flos": 20995568985600.0,
      "grad_norm": 1.6828087988938865,
      "language_loss": 0.73171127,
      "learning_rate": 1.7436465475021456e-06,
      "loss": 0.75359368,
      "num_input_tokens_seen": 99572685,
      "step": 4613,
      "time_per_iteration": 2.752316951751709
    },
    {
      "auxiliary_loss_clip": 0.01144003,
      "auxiliary_loss_mlp": 0.01029831,
      "balance_loss_clip": 1.04740429,
      "balance_loss_mlp": 1.02176094,
      "epoch": 0.5548006974087657,
      "flos": 26833638297600.0,
      "grad_norm": 1.9083615552782167,
      "language_loss": 0.71669894,
      "learning_rate": 1.7428740207884111e-06,
      "loss": 0.73843729,
      "num_input_tokens_seen": 99593565,
      "step": 4614,
      "time_per_iteration": 2.7932517528533936
    },
    {
      "auxiliary_loss_clip": 0.01145325,
      "auxiliary_loss_mlp": 0.01025379,
      "balance_loss_clip": 1.04620314,
      "balance_loss_mlp": 1.01664138,
      "epoch": 0.5549209402994048,
      "flos": 33656414031360.0,
      "grad_norm": 2.8912156687082184,
      "language_loss": 0.60692668,
      "learning_rate": 1.7421015330804833e-06,
      "loss": 0.62863374,
      "num_input_tokens_seen": 99613485,
      "step": 4615,
      "time_per_iteration": 3.7808876037597656
    },
    {
      "auxiliary_loss_clip": 0.01181567,
      "auxiliary_loss_mlp": 0.010252,
      "balance_loss_clip": 1.05223989,
      "balance_loss_mlp": 1.01722503,
      "epoch": 0.5550411831900439,
      "flos": 23769524609280.0,
      "grad_norm": 2.0323983913543096,
      "language_loss": 0.7271601,
      "learning_rate": 1.7413290844955475e-06,
      "loss": 0.74922776,
      "num_input_tokens_seen": 99633515,
      "step": 4616,
      "time_per_iteration": 2.571650505065918
    },
    {
      "auxiliary_loss_clip": 0.01165301,
      "auxiliary_loss_mlp": 0.01032943,
      "balance_loss_clip": 1.05059397,
      "balance_loss_mlp": 1.02454424,
      "epoch": 0.555161426080683,
      "flos": 21651189978240.0,
      "grad_norm": 1.867154394431231,
      "language_loss": 0.78203493,
      "learning_rate": 1.7405566751507843e-06,
      "loss": 0.80401731,
      "num_input_tokens_seen": 99651560,
      "step": 4617,
      "time_per_iteration": 2.653658628463745
    },
    {
      "auxiliary_loss_clip": 0.01151346,
      "auxiliary_loss_mlp": 0.01029973,
      "balance_loss_clip": 1.04728794,
      "balance_loss_mlp": 1.02180123,
      "epoch": 0.555281668971322,
      "flos": 49563116605440.0,
      "grad_norm": 1.6526307808078724,
      "language_loss": 0.67900062,
      "learning_rate": 1.7397843051633668e-06,
      "loss": 0.70081377,
      "num_input_tokens_seen": 99674255,
      "step": 4618,
      "time_per_iteration": 3.038135051727295
    },
    {
      "auxiliary_loss_clip": 0.0117026,
      "auxiliary_loss_mlp": 0.01025822,
      "balance_loss_clip": 1.05151987,
      "balance_loss_mlp": 1.01796603,
      "epoch": 0.5554019118619612,
      "flos": 20741608851840.0,
      "grad_norm": 2.9546135774890243,
      "language_loss": 0.71651185,
      "learning_rate": 1.739011974650464e-06,
      "loss": 0.7384727,
      "num_input_tokens_seen": 99693585,
      "step": 4619,
      "time_per_iteration": 2.611128807067871
    },
    {
      "auxiliary_loss_clip": 0.01146469,
      "auxiliary_loss_mlp": 0.01037277,
      "balance_loss_clip": 1.04552877,
      "balance_loss_mlp": 1.02854443,
      "epoch": 0.5555221547526003,
      "flos": 25483217552640.0,
      "grad_norm": 2.1138626561088323,
      "language_loss": 0.767838,
      "learning_rate": 1.7382396837292365e-06,
      "loss": 0.78967547,
      "num_input_tokens_seen": 99714045,
      "step": 4620,
      "time_per_iteration": 2.796614408493042
    },
    {
      "auxiliary_loss_clip": 0.0118408,
      "auxiliary_loss_mlp": 0.01035162,
      "balance_loss_clip": 1.05321813,
      "balance_loss_mlp": 1.02637672,
      "epoch": 0.5556423976432393,
      "flos": 21762513204480.0,
      "grad_norm": 1.8256730742296483,
      "language_loss": 0.73238134,
      "learning_rate": 1.737467432516841e-06,
      "loss": 0.75457376,
      "num_input_tokens_seen": 99734145,
      "step": 4621,
      "time_per_iteration": 2.596132755279541
    },
    {
      "auxiliary_loss_clip": 0.01161825,
      "auxiliary_loss_mlp": 0.01029281,
      "balance_loss_clip": 1.04724741,
      "balance_loss_mlp": 1.02079916,
      "epoch": 0.5557626405338785,
      "flos": 24900171989760.0,
      "grad_norm": 2.3251673889612845,
      "language_loss": 0.74075669,
      "learning_rate": 1.7366952211304274e-06,
      "loss": 0.76266778,
      "num_input_tokens_seen": 99751990,
      "step": 4622,
      "time_per_iteration": 2.6882448196411133
    },
    {
      "auxiliary_loss_clip": 0.01150679,
      "auxiliary_loss_mlp": 0.01032091,
      "balance_loss_clip": 1.04642296,
      "balance_loss_mlp": 1.02371621,
      "epoch": 0.5558828834245175,
      "flos": 18697501676160.0,
      "grad_norm": 2.014749247871624,
      "language_loss": 0.83399141,
      "learning_rate": 1.735923049687139e-06,
      "loss": 0.85581911,
      "num_input_tokens_seen": 99768565,
      "step": 4623,
      "time_per_iteration": 2.6668739318847656
    },
    {
      "auxiliary_loss_clip": 0.01155721,
      "auxiliary_loss_mlp": 0.01036314,
      "balance_loss_clip": 1.04600799,
      "balance_loss_mlp": 1.02841091,
      "epoch": 0.5560031263151566,
      "flos": 27272179445760.0,
      "grad_norm": 1.5335413888287903,
      "language_loss": 0.73920423,
      "learning_rate": 1.7351509183041144e-06,
      "loss": 0.76112455,
      "num_input_tokens_seen": 99788895,
      "step": 4624,
      "time_per_iteration": 2.699761390686035
    },
    {
      "auxiliary_loss_clip": 0.01185038,
      "auxiliary_loss_mlp": 0.01028558,
      "balance_loss_clip": 1.05348599,
      "balance_loss_mlp": 1.02060688,
      "epoch": 0.5561233692057957,
      "flos": 23403738458880.0,
      "grad_norm": 1.883118886312254,
      "language_loss": 0.71867275,
      "learning_rate": 1.7343788270984852e-06,
      "loss": 0.74080873,
      "num_input_tokens_seen": 99808035,
      "step": 4625,
      "time_per_iteration": 2.596651792526245
    },
    {
      "auxiliary_loss_clip": 0.01161381,
      "auxiliary_loss_mlp": 0.01028915,
      "balance_loss_clip": 1.04977059,
      "balance_loss_mlp": 1.02020681,
      "epoch": 0.5562436120964348,
      "flos": 37670867804160.0,
      "grad_norm": 1.8335703939071961,
      "language_loss": 0.74645644,
      "learning_rate": 1.7336067761873764e-06,
      "loss": 0.7683593,
      "num_input_tokens_seen": 99830460,
      "step": 4626,
      "time_per_iteration": 2.835275411605835
    },
    {
      "auxiliary_loss_clip": 0.01175765,
      "auxiliary_loss_mlp": 0.01034357,
      "balance_loss_clip": 1.04805279,
      "balance_loss_mlp": 1.02604818,
      "epoch": 0.5563638549870739,
      "flos": 25155245445120.0,
      "grad_norm": 2.025033126708382,
      "language_loss": 0.76492238,
      "learning_rate": 1.7328347656879076e-06,
      "loss": 0.78702354,
      "num_input_tokens_seen": 99850320,
      "step": 4627,
      "time_per_iteration": 2.6192307472229004
    },
    {
      "auxiliary_loss_clip": 0.01153719,
      "auxiliary_loss_mlp": 0.01029078,
      "balance_loss_clip": 1.04677594,
      "balance_loss_mlp": 1.0202688,
      "epoch": 0.556484097877713,
      "flos": 13581810783360.0,
      "grad_norm": 2.4126735994550894,
      "language_loss": 0.68172365,
      "learning_rate": 1.7320627957171927e-06,
      "loss": 0.70355159,
      "num_input_tokens_seen": 99864980,
      "step": 4628,
      "time_per_iteration": 2.6833605766296387
    },
    {
      "auxiliary_loss_clip": 0.0118084,
      "auxiliary_loss_mlp": 0.01032441,
      "balance_loss_clip": 1.0525738,
      "balance_loss_mlp": 1.02387023,
      "epoch": 0.5566043407683521,
      "flos": 24681368292480.0,
      "grad_norm": 1.7191100427669246,
      "language_loss": 0.81607759,
      "learning_rate": 1.7312908663923382e-06,
      "loss": 0.83821046,
      "num_input_tokens_seen": 99881155,
      "step": 4629,
      "time_per_iteration": 2.6166954040527344
    },
    {
      "auxiliary_loss_clip": 0.01164973,
      "auxiliary_loss_mlp": 0.01025703,
      "balance_loss_clip": 1.0483731,
      "balance_loss_mlp": 1.01690555,
      "epoch": 0.5567245836589911,
      "flos": 20588161950720.0,
      "grad_norm": 2.0629099434343896,
      "language_loss": 0.67564356,
      "learning_rate": 1.7305189778304463e-06,
      "loss": 0.6975503,
      "num_input_tokens_seen": 99899330,
      "step": 4630,
      "time_per_iteration": 3.4914004802703857
    },
    {
      "auxiliary_loss_clip": 0.01164701,
      "auxiliary_loss_mlp": 0.01032695,
      "balance_loss_clip": 1.05360556,
      "balance_loss_mlp": 1.02522671,
      "epoch": 0.5568448265496303,
      "flos": 20704189858560.0,
      "grad_norm": 1.9320252971205072,
      "language_loss": 0.79905224,
      "learning_rate": 1.729747130148611e-06,
      "loss": 0.82102615,
      "num_input_tokens_seen": 99918525,
      "step": 4631,
      "time_per_iteration": 2.8082547187805176
    },
    {
      "auxiliary_loss_clip": 0.01157419,
      "auxiliary_loss_mlp": 0.01025921,
      "balance_loss_clip": 1.04704368,
      "balance_loss_mlp": 1.01702785,
      "epoch": 0.5569650694402694,
      "flos": 25302910256640.0,
      "grad_norm": 1.9827882749536916,
      "language_loss": 0.76747304,
      "learning_rate": 1.7289753234639208e-06,
      "loss": 0.7893064,
      "num_input_tokens_seen": 99937500,
      "step": 4632,
      "time_per_iteration": 2.745169162750244
    },
    {
      "auxiliary_loss_clip": 0.01178414,
      "auxiliary_loss_mlp": 0.01028685,
      "balance_loss_clip": 1.05275166,
      "balance_loss_mlp": 1.02050734,
      "epoch": 0.5570853123309084,
      "flos": 19712623939200.0,
      "grad_norm": 1.8941121185184695,
      "language_loss": 0.76328194,
      "learning_rate": 1.7282035578934592e-06,
      "loss": 0.78535295,
      "num_input_tokens_seen": 99955665,
      "step": 4633,
      "time_per_iteration": 2.6041407585144043
    },
    {
      "auxiliary_loss_clip": 0.01158154,
      "auxiliary_loss_mlp": 0.01033086,
      "balance_loss_clip": 1.05268204,
      "balance_loss_mlp": 1.02477694,
      "epoch": 0.5572055552215476,
      "flos": 16108091153280.0,
      "grad_norm": 1.674455780398322,
      "language_loss": 0.78648758,
      "learning_rate": 1.727431833554301e-06,
      "loss": 0.80840003,
      "num_input_tokens_seen": 99974140,
      "step": 4634,
      "time_per_iteration": 2.6200475692749023
    },
    {
      "auxiliary_loss_clip": 0.01137831,
      "auxiliary_loss_mlp": 0.01033337,
      "balance_loss_clip": 1.0428257,
      "balance_loss_mlp": 1.02537978,
      "epoch": 0.5573257981121866,
      "flos": 17128815937920.0,
      "grad_norm": 1.9385487288156424,
      "language_loss": 0.77589679,
      "learning_rate": 1.7266601505635175e-06,
      "loss": 0.79760849,
      "num_input_tokens_seen": 99991480,
      "step": 4635,
      "time_per_iteration": 3.6436045169830322
    },
    {
      "auxiliary_loss_clip": 0.01173434,
      "auxiliary_loss_mlp": 0.01028919,
      "balance_loss_clip": 1.05227041,
      "balance_loss_mlp": 1.02105105,
      "epoch": 0.5574460410028257,
      "flos": 18807029222400.0,
      "grad_norm": 1.9833566586082225,
      "language_loss": 0.75514549,
      "learning_rate": 1.7258885090381717e-06,
      "loss": 0.77716905,
      "num_input_tokens_seen": 100009520,
      "step": 4636,
      "time_per_iteration": 3.5214269161224365
    },
    {
      "auxiliary_loss_clip": 0.01162205,
      "auxiliary_loss_mlp": 0.01031125,
      "balance_loss_clip": 1.04690564,
      "balance_loss_mlp": 1.0232811,
      "epoch": 0.5575662838934649,
      "flos": 29642678530560.0,
      "grad_norm": 1.741856373278785,
      "language_loss": 0.78648454,
      "learning_rate": 1.7251169090953213e-06,
      "loss": 0.80841786,
      "num_input_tokens_seen": 100029995,
      "step": 4637,
      "time_per_iteration": 2.7003426551818848
    },
    {
      "auxiliary_loss_clip": 0.01169941,
      "auxiliary_loss_mlp": 0.01029643,
      "balance_loss_clip": 1.04985535,
      "balance_loss_mlp": 1.02089322,
      "epoch": 0.5576865267841039,
      "flos": 22054466949120.0,
      "grad_norm": 2.377700233568155,
      "language_loss": 0.76141632,
      "learning_rate": 1.7243453508520168e-06,
      "loss": 0.7834121,
      "num_input_tokens_seen": 100046980,
      "step": 4638,
      "time_per_iteration": 2.6438887119293213
    },
    {
      "auxiliary_loss_clip": 0.01160783,
      "auxiliary_loss_mlp": 0.01033515,
      "balance_loss_clip": 1.04655135,
      "balance_loss_mlp": 1.02476525,
      "epoch": 0.557806769674743,
      "flos": 17196040241280.0,
      "grad_norm": 4.6692209634382325,
      "language_loss": 0.84330541,
      "learning_rate": 1.7235738344253038e-06,
      "loss": 0.86524844,
      "num_input_tokens_seen": 100060610,
      "step": 4639,
      "time_per_iteration": 2.59270977973938
    },
    {
      "auxiliary_loss_clip": 0.01168882,
      "auxiliary_loss_mlp": 0.01027049,
      "balance_loss_clip": 1.05124032,
      "balance_loss_mlp": 1.01821518,
      "epoch": 0.557927012565382,
      "flos": 24712717887360.0,
      "grad_norm": 2.1225627967486376,
      "language_loss": 0.82656509,
      "learning_rate": 1.72280235993222e-06,
      "loss": 0.84852439,
      "num_input_tokens_seen": 100078915,
      "step": 4640,
      "time_per_iteration": 2.7245702743530273
    },
    {
      "auxiliary_loss_clip": 0.01168338,
      "auxiliary_loss_mlp": 0.00888163,
      "balance_loss_clip": 1.04993558,
      "balance_loss_mlp": 1.00074005,
      "epoch": 0.5580472554560212,
      "flos": 16983090460800.0,
      "grad_norm": 2.280539526124212,
      "language_loss": 0.69917125,
      "learning_rate": 1.722030927489798e-06,
      "loss": 0.71973622,
      "num_input_tokens_seen": 100096195,
      "step": 4641,
      "time_per_iteration": 3.5097548961639404
    },
    {
      "auxiliary_loss_clip": 0.01152734,
      "auxiliary_loss_mlp": 0.01026926,
      "balance_loss_clip": 1.04930472,
      "balance_loss_mlp": 1.01909411,
      "epoch": 0.5581674983466602,
      "flos": 23509100027520.0,
      "grad_norm": 2.131105118030242,
      "language_loss": 0.7408917,
      "learning_rate": 1.7212595372150634e-06,
      "loss": 0.76268834,
      "num_input_tokens_seen": 100116175,
      "step": 4642,
      "time_per_iteration": 2.742250680923462
    },
    {
      "auxiliary_loss_clip": 0.01179947,
      "auxiliary_loss_mlp": 0.01025433,
      "balance_loss_clip": 1.05097198,
      "balance_loss_mlp": 1.01759481,
      "epoch": 0.5582877412372993,
      "flos": 13480291969920.0,
      "grad_norm": 2.802510836149894,
      "language_loss": 0.73271191,
      "learning_rate": 1.720488189225035e-06,
      "loss": 0.75476575,
      "num_input_tokens_seen": 100133875,
      "step": 4643,
      "time_per_iteration": 2.6419143676757812
    },
    {
      "auxiliary_loss_clip": 0.0117233,
      "auxiliary_loss_mlp": 0.01030399,
      "balance_loss_clip": 1.04879379,
      "balance_loss_mlp": 1.02217317,
      "epoch": 0.5584079841279385,
      "flos": 21903605827200.0,
      "grad_norm": 2.6614574458593703,
      "language_loss": 0.79594553,
      "learning_rate": 1.7197168836367265e-06,
      "loss": 0.81797278,
      "num_input_tokens_seen": 100150685,
      "step": 4644,
      "time_per_iteration": 2.5923078060150146
    },
    {
      "auxiliary_loss_clip": 0.01170249,
      "auxiliary_loss_mlp": 0.00886861,
      "balance_loss_clip": 1.04905963,
      "balance_loss_mlp": 1.00076377,
      "epoch": 0.5585282270185775,
      "flos": 18843550375680.0,
      "grad_norm": 2.4717758501823894,
      "language_loss": 0.82179314,
      "learning_rate": 1.7189456205671433e-06,
      "loss": 0.84236425,
      "num_input_tokens_seen": 100169530,
      "step": 4645,
      "time_per_iteration": 2.661747694015503
    },
    {
      "auxiliary_loss_clip": 0.0117987,
      "auxiliary_loss_mlp": 0.01031633,
      "balance_loss_clip": 1.05304503,
      "balance_loss_mlp": 1.02378964,
      "epoch": 0.5586484699092166,
      "flos": 21868449390720.0,
      "grad_norm": 2.0496209931558167,
      "language_loss": 0.81853426,
      "learning_rate": 1.7181744001332866e-06,
      "loss": 0.84064925,
      "num_input_tokens_seen": 100188140,
      "step": 4646,
      "time_per_iteration": 2.622915744781494
    },
    {
      "auxiliary_loss_clip": 0.01183176,
      "auxiliary_loss_mlp": 0.01030788,
      "balance_loss_clip": 1.05608213,
      "balance_loss_mlp": 1.0233674,
      "epoch": 0.5587687127998557,
      "flos": 22893232412160.0,
      "grad_norm": 1.797835084265554,
      "language_loss": 0.63384032,
      "learning_rate": 1.7174032224521493e-06,
      "loss": 0.65597999,
      "num_input_tokens_seen": 100206850,
      "step": 4647,
      "time_per_iteration": 2.6648426055908203
    },
    {
      "auxiliary_loss_clip": 0.01168253,
      "auxiliary_loss_mlp": 0.01030702,
      "balance_loss_clip": 1.04804778,
      "balance_loss_mlp": 1.02207768,
      "epoch": 0.5588889556904948,
      "flos": 20303067703680.0,
      "grad_norm": 1.6149762957706955,
      "language_loss": 0.69845885,
      "learning_rate": 1.7166320876407184e-06,
      "loss": 0.72044837,
      "num_input_tokens_seen": 100226270,
      "step": 4648,
      "time_per_iteration": 2.6541900634765625
    },
    {
      "auxiliary_loss_clip": 0.01183164,
      "auxiliary_loss_mlp": 0.0088771,
      "balance_loss_clip": 1.05380523,
      "balance_loss_mlp": 1.00071609,
      "epoch": 0.5590091985811338,
      "flos": 16472153450880.0,
      "grad_norm": 2.031418252384292,
      "language_loss": 0.67583847,
      "learning_rate": 1.7158609958159742e-06,
      "loss": 0.69654721,
      "num_input_tokens_seen": 100243675,
      "step": 4649,
      "time_per_iteration": 2.5932440757751465
    },
    {
      "auxiliary_loss_clip": 0.01141782,
      "auxiliary_loss_mlp": 0.01028115,
      "balance_loss_clip": 1.04375648,
      "balance_loss_mlp": 1.02008319,
      "epoch": 0.559129441471773,
      "flos": 14532186781440.0,
      "grad_norm": 1.908580434335754,
      "language_loss": 0.78018677,
      "learning_rate": 1.7150899470948911e-06,
      "loss": 0.80188572,
      "num_input_tokens_seen": 100258940,
      "step": 4650,
      "time_per_iteration": 2.82098650932312
    },
    {
      "auxiliary_loss_clip": 0.01057894,
      "auxiliary_loss_mlp": 0.01010657,
      "balance_loss_clip": 1.01426101,
      "balance_loss_mlp": 1.00948322,
      "epoch": 0.5592496843624121,
      "flos": 60521009852160.0,
      "grad_norm": 0.8009218301959287,
      "language_loss": 0.56627101,
      "learning_rate": 1.7143189415944365e-06,
      "loss": 0.5869565,
      "num_input_tokens_seen": 100323400,
      "step": 4651,
      "time_per_iteration": 3.507974863052368
    },
    {
      "auxiliary_loss_clip": 0.01168924,
      "auxiliary_loss_mlp": 0.01032979,
      "balance_loss_clip": 1.05066943,
      "balance_loss_mlp": 1.0239135,
      "epoch": 0.5593699272530511,
      "flos": 20886256920960.0,
      "grad_norm": 1.8307947316600828,
      "language_loss": 0.76523197,
      "learning_rate": 1.7135479794315714e-06,
      "loss": 0.78725106,
      "num_input_tokens_seen": 100340355,
      "step": 4652,
      "time_per_iteration": 2.7420997619628906
    },
    {
      "auxiliary_loss_clip": 0.01151673,
      "auxiliary_loss_mlp": 0.01025619,
      "balance_loss_clip": 1.04861975,
      "balance_loss_mlp": 1.01801348,
      "epoch": 0.5594901701436903,
      "flos": 12896743616640.0,
      "grad_norm": 1.7995980146339972,
      "language_loss": 0.78968418,
      "learning_rate": 1.7127770607232502e-06,
      "loss": 0.81145716,
      "num_input_tokens_seen": 100358900,
      "step": 4653,
      "time_per_iteration": 2.6883697509765625
    },
    {
      "auxiliary_loss_clip": 0.01157241,
      "auxiliary_loss_mlp": 0.01025197,
      "balance_loss_clip": 1.04815412,
      "balance_loss_mlp": 1.0171324,
      "epoch": 0.5596104130343293,
      "flos": 23112107936640.0,
      "grad_norm": 1.916993706915756,
      "language_loss": 0.79632294,
      "learning_rate": 1.7120061855864204e-06,
      "loss": 0.8181473,
      "num_input_tokens_seen": 100378910,
      "step": 4654,
      "time_per_iteration": 2.8017055988311768
    },
    {
      "auxiliary_loss_clip": 0.01172902,
      "auxiliary_loss_mlp": 0.010257,
      "balance_loss_clip": 1.05426967,
      "balance_loss_mlp": 1.0178647,
      "epoch": 0.5597306559249684,
      "flos": 25957812977280.0,
      "grad_norm": 1.8560297082121977,
      "language_loss": 0.71080947,
      "learning_rate": 1.7112353541380233e-06,
      "loss": 0.73279548,
      "num_input_tokens_seen": 100398770,
      "step": 4655,
      "time_per_iteration": 2.6714422702789307
    },
    {
      "auxiliary_loss_clip": 0.01164915,
      "auxiliary_loss_mlp": 0.01029238,
      "balance_loss_clip": 1.0507803,
      "balance_loss_mlp": 1.02129269,
      "epoch": 0.5598508988156076,
      "flos": 22492289825280.0,
      "grad_norm": 1.4648877929985722,
      "language_loss": 0.71878743,
      "learning_rate": 1.7104645664949931e-06,
      "loss": 0.74072897,
      "num_input_tokens_seen": 100421240,
      "step": 4656,
      "time_per_iteration": 3.6531572341918945
    },
    {
      "auxiliary_loss_clip": 0.01163414,
      "auxiliary_loss_mlp": 0.01030643,
      "balance_loss_clip": 1.04853272,
      "balance_loss_mlp": 1.02219653,
      "epoch": 0.5599711417062466,
      "flos": 23112538899840.0,
      "grad_norm": 1.8084634799682395,
      "language_loss": 0.71310496,
      "learning_rate": 1.7096938227742584e-06,
      "loss": 0.73504555,
      "num_input_tokens_seen": 100442370,
      "step": 4657,
      "time_per_iteration": 2.7076778411865234
    },
    {
      "auxiliary_loss_clip": 0.01182482,
      "auxiliary_loss_mlp": 0.01027538,
      "balance_loss_clip": 1.05406845,
      "balance_loss_mlp": 1.0192585,
      "epoch": 0.5600913845968857,
      "flos": 22339345714560.0,
      "grad_norm": 1.9636678210201737,
      "language_loss": 0.84333074,
      "learning_rate": 1.70892312309274e-06,
      "loss": 0.86543095,
      "num_input_tokens_seen": 100460260,
      "step": 4658,
      "time_per_iteration": 2.670564889907837
    },
    {
      "auxiliary_loss_clip": 0.01161032,
      "auxiliary_loss_mlp": 0.01026454,
      "balance_loss_clip": 1.04485965,
      "balance_loss_mlp": 1.01839542,
      "epoch": 0.5602116274875248,
      "flos": 17633791290240.0,
      "grad_norm": 2.1659199462464467,
      "language_loss": 0.68255651,
      "learning_rate": 1.7081524675673523e-06,
      "loss": 0.70443141,
      "num_input_tokens_seen": 100475750,
      "step": 4659,
      "time_per_iteration": 2.664646625518799
    },
    {
      "auxiliary_loss_clip": 0.01062228,
      "auxiliary_loss_mlp": 0.0100721,
      "balance_loss_clip": 1.01402402,
      "balance_loss_mlp": 1.00600648,
      "epoch": 0.5603318703781639,
      "flos": 70115945529600.0,
      "grad_norm": 0.7793877500438656,
      "language_loss": 0.59558392,
      "learning_rate": 1.7073818563150026e-06,
      "loss": 0.61627829,
      "num_input_tokens_seen": 100537830,
      "step": 4660,
      "time_per_iteration": 4.381212949752808
    },
    {
      "auxiliary_loss_clip": 0.01166709,
      "auxiliary_loss_mlp": 0.01027737,
      "balance_loss_clip": 1.04864573,
      "balance_loss_mlp": 1.0193032,
      "epoch": 0.560452113268803,
      "flos": 18545850455040.0,
      "grad_norm": 2.069681016636651,
      "language_loss": 0.86340213,
      "learning_rate": 1.7066112894525935e-06,
      "loss": 0.88534653,
      "num_input_tokens_seen": 100555910,
      "step": 4661,
      "time_per_iteration": 2.657881498336792
    },
    {
      "auxiliary_loss_clip": 0.01154941,
      "auxiliary_loss_mlp": 0.01029577,
      "balance_loss_clip": 1.04706502,
      "balance_loss_mlp": 1.02126265,
      "epoch": 0.5605723561594421,
      "flos": 25264665250560.0,
      "grad_norm": 1.7425035731897442,
      "language_loss": 0.72698879,
      "learning_rate": 1.7058407670970177e-06,
      "loss": 0.74883395,
      "num_input_tokens_seen": 100577385,
      "step": 4662,
      "time_per_iteration": 3.573535203933716
    },
    {
      "auxiliary_loss_clip": 0.01175109,
      "auxiliary_loss_mlp": 0.01028183,
      "balance_loss_clip": 1.04933381,
      "balance_loss_mlp": 1.01979613,
      "epoch": 0.5606925990500812,
      "flos": 20594949621120.0,
      "grad_norm": 2.912103282255603,
      "language_loss": 0.61532176,
      "learning_rate": 1.7050702893651643e-06,
      "loss": 0.63735461,
      "num_input_tokens_seen": 100596965,
      "step": 4663,
      "time_per_iteration": 2.6639885902404785
    },
    {
      "auxiliary_loss_clip": 0.01174139,
      "auxiliary_loss_mlp": 0.01034663,
      "balance_loss_clip": 1.05304766,
      "balance_loss_mlp": 1.02619362,
      "epoch": 0.5608128419407202,
      "flos": 35006044677120.0,
      "grad_norm": 2.0942889960390074,
      "language_loss": 0.75385189,
      "learning_rate": 1.7042998563739134e-06,
      "loss": 0.77593988,
      "num_input_tokens_seen": 100615315,
      "step": 4664,
      "time_per_iteration": 2.7630529403686523
    },
    {
      "auxiliary_loss_clip": 0.011682,
      "auxiliary_loss_mlp": 0.01029385,
      "balance_loss_clip": 1.04748082,
      "balance_loss_mlp": 1.02139235,
      "epoch": 0.5609330848313594,
      "flos": 24639819235200.0,
      "grad_norm": 3.1555394670884427,
      "language_loss": 0.71980655,
      "learning_rate": 1.703529468240139e-06,
      "loss": 0.74178243,
      "num_input_tokens_seen": 100634185,
      "step": 4665,
      "time_per_iteration": 2.6732096672058105
    },
    {
      "auxiliary_loss_clip": 0.01158533,
      "auxiliary_loss_mlp": 0.01029134,
      "balance_loss_clip": 1.05024302,
      "balance_loss_mlp": 1.02090883,
      "epoch": 0.5610533277219985,
      "flos": 18762894385920.0,
      "grad_norm": 2.2092330693626843,
      "language_loss": 0.7396161,
      "learning_rate": 1.7027591250807088e-06,
      "loss": 0.76149273,
      "num_input_tokens_seen": 100651360,
      "step": 4666,
      "time_per_iteration": 2.6992032527923584
    },
    {
      "auxiliary_loss_clip": 0.01186272,
      "auxiliary_loss_mlp": 0.01031133,
      "balance_loss_clip": 1.05523789,
      "balance_loss_mlp": 1.02228761,
      "epoch": 0.5611735706126375,
      "flos": 15012384727680.0,
      "grad_norm": 2.5031587039727574,
      "language_loss": 0.84933037,
      "learning_rate": 1.7019888270124825e-06,
      "loss": 0.87150443,
      "num_input_tokens_seen": 100668525,
      "step": 4667,
      "time_per_iteration": 3.4982588291168213
    },
    {
      "auxiliary_loss_clip": 0.01179111,
      "auxiliary_loss_mlp": 0.01044368,
      "balance_loss_clip": 1.0555948,
      "balance_loss_mlp": 1.03658366,
      "epoch": 0.5612938135032767,
      "flos": 16468167041280.0,
      "grad_norm": 1.872467510113477,
      "language_loss": 0.81978148,
      "learning_rate": 1.7012185741523147e-06,
      "loss": 0.84201622,
      "num_input_tokens_seen": 100684850,
      "step": 4668,
      "time_per_iteration": 2.598041296005249
    },
    {
      "auxiliary_loss_clip": 0.0118363,
      "auxiliary_loss_mlp": 0.01026843,
      "balance_loss_clip": 1.05472517,
      "balance_loss_mlp": 1.01854563,
      "epoch": 0.5614140563939157,
      "flos": 25666433850240.0,
      "grad_norm": 2.865327905232013,
      "language_loss": 0.62433654,
      "learning_rate": 1.7004483666170514e-06,
      "loss": 0.64644128,
      "num_input_tokens_seen": 100705345,
      "step": 4669,
      "time_per_iteration": 2.6413445472717285
    },
    {
      "auxiliary_loss_clip": 0.01170088,
      "auxiliary_loss_mlp": 0.01028124,
      "balance_loss_clip": 1.04938114,
      "balance_loss_mlp": 1.01998234,
      "epoch": 0.5615342992845548,
      "flos": 24717566223360.0,
      "grad_norm": 2.268104580833452,
      "language_loss": 0.80054104,
      "learning_rate": 1.699678204523533e-06,
      "loss": 0.82252312,
      "num_input_tokens_seen": 100725210,
      "step": 4670,
      "time_per_iteration": 2.629920244216919
    },
    {
      "auxiliary_loss_clip": 0.01165084,
      "auxiliary_loss_mlp": 0.01031793,
      "balance_loss_clip": 1.05192661,
      "balance_loss_mlp": 1.02330554,
      "epoch": 0.5616545421751938,
      "flos": 22015934634240.0,
      "grad_norm": 2.894503722132214,
      "language_loss": 0.68557799,
      "learning_rate": 1.6989080879885918e-06,
      "loss": 0.70754677,
      "num_input_tokens_seen": 100743070,
      "step": 4671,
      "time_per_iteration": 2.706639528274536
    },
    {
      "auxiliary_loss_clip": 0.01053348,
      "auxiliary_loss_mlp": 0.01005081,
      "balance_loss_clip": 1.01342666,
      "balance_loss_mlp": 1.00397253,
      "epoch": 0.561774785065833,
      "flos": 53760358690560.0,
      "grad_norm": 0.9128658112402525,
      "language_loss": 0.61020327,
      "learning_rate": 1.6981380171290544e-06,
      "loss": 0.63078749,
      "num_input_tokens_seen": 100804095,
      "step": 4672,
      "time_per_iteration": 3.2372660636901855
    },
    {
      "auxiliary_loss_clip": 0.0115752,
      "auxiliary_loss_mlp": 0.01025641,
      "balance_loss_clip": 1.04594326,
      "balance_loss_mlp": 1.01764214,
      "epoch": 0.5618950279564721,
      "flos": 19750007018880.0,
      "grad_norm": 6.337500396737806,
      "language_loss": 0.74369395,
      "learning_rate": 1.6973679920617396e-06,
      "loss": 0.76552558,
      "num_input_tokens_seen": 100821630,
      "step": 4673,
      "time_per_iteration": 2.682981252670288
    },
    {
      "auxiliary_loss_clip": 0.01161451,
      "auxiliary_loss_mlp": 0.01031135,
      "balance_loss_clip": 1.0508759,
      "balance_loss_mlp": 1.02279079,
      "epoch": 0.5620152708471111,
      "flos": 16800592435200.0,
      "grad_norm": 2.232815783539158,
      "language_loss": 0.85284096,
      "learning_rate": 1.6965980129034603e-06,
      "loss": 0.87476683,
      "num_input_tokens_seen": 100839015,
      "step": 4674,
      "time_per_iteration": 2.750002861022949
    },
    {
      "auxiliary_loss_clip": 0.01161747,
      "auxiliary_loss_mlp": 0.01027929,
      "balance_loss_clip": 1.05013859,
      "balance_loss_mlp": 1.0196085,
      "epoch": 0.5621355137377503,
      "flos": 26797799502720.0,
      "grad_norm": 1.9339923366056881,
      "language_loss": 0.76822013,
      "learning_rate": 1.6958280797710209e-06,
      "loss": 0.79011691,
      "num_input_tokens_seen": 100860940,
      "step": 4675,
      "time_per_iteration": 2.7953712940216064
    },
    {
      "auxiliary_loss_clip": 0.01060684,
      "auxiliary_loss_mlp": 0.01001859,
      "balance_loss_clip": 1.015517,
      "balance_loss_mlp": 1.00078058,
      "epoch": 0.5622557566283893,
      "flos": 61207046686080.0,
      "grad_norm": 0.7080912394913148,
      "language_loss": 0.54760081,
      "learning_rate": 1.6950581927812198e-06,
      "loss": 0.56822628,
      "num_input_tokens_seen": 100920510,
      "step": 4676,
      "time_per_iteration": 3.1838254928588867
    },
    {
      "auxiliary_loss_clip": 0.0117041,
      "auxiliary_loss_mlp": 0.0103427,
      "balance_loss_clip": 1.04972982,
      "balance_loss_mlp": 1.02604437,
      "epoch": 0.5623759995190284,
      "flos": 26468534505600.0,
      "grad_norm": 3.8832929869162394,
      "language_loss": 0.78977305,
      "learning_rate": 1.6942883520508486e-06,
      "loss": 0.81181985,
      "num_input_tokens_seen": 100939245,
      "step": 4677,
      "time_per_iteration": 2.7165770530700684
    },
    {
      "auxiliary_loss_clip": 0.0117432,
      "auxiliary_loss_mlp": 0.01026523,
      "balance_loss_clip": 1.05134404,
      "balance_loss_mlp": 1.01829755,
      "epoch": 0.5624962424096676,
      "flos": 19390900798080.0,
      "grad_norm": 2.2048547377331738,
      "language_loss": 0.77288759,
      "learning_rate": 1.693518557696691e-06,
      "loss": 0.79489601,
      "num_input_tokens_seen": 100958385,
      "step": 4678,
      "time_per_iteration": 2.6563000679016113
    },
    {
      "auxiliary_loss_clip": 0.01168357,
      "auxiliary_loss_mlp": 0.0102742,
      "balance_loss_clip": 1.04736638,
      "balance_loss_mlp": 1.0194211,
      "epoch": 0.5626164853003066,
      "flos": 20667345482880.0,
      "grad_norm": 3.443896141044688,
      "language_loss": 0.8937518,
      "learning_rate": 1.6927488098355252e-06,
      "loss": 0.91570961,
      "num_input_tokens_seen": 100976015,
      "step": 4679,
      "time_per_iteration": 2.6263561248779297
    },
    {
      "auxiliary_loss_clip": 0.01054275,
      "auxiliary_loss_mlp": 0.01002033,
      "balance_loss_clip": 1.0120647,
      "balance_loss_mlp": 1.00079346,
      "epoch": 0.5627367281909457,
      "flos": 62766071665920.0,
      "grad_norm": 0.9152457794263796,
      "language_loss": 0.63196158,
      "learning_rate": 1.6919791085841201e-06,
      "loss": 0.65252471,
      "num_input_tokens_seen": 101033425,
      "step": 4680,
      "time_per_iteration": 3.25810170173645
    },
    {
      "auxiliary_loss_clip": 0.01162724,
      "auxiliary_loss_mlp": 0.01029051,
      "balance_loss_clip": 1.04560149,
      "balance_loss_mlp": 1.01996708,
      "epoch": 0.5628569710815848,
      "flos": 12787144243200.0,
      "grad_norm": 2.3850526340727387,
      "language_loss": 0.78813505,
      "learning_rate": 1.6912094540592396e-06,
      "loss": 0.81005287,
      "num_input_tokens_seen": 101048945,
      "step": 4681,
      "time_per_iteration": 2.5901618003845215
    },
    {
      "auxiliary_loss_clip": 0.01170778,
      "auxiliary_loss_mlp": 0.01028978,
      "balance_loss_clip": 1.05122781,
      "balance_loss_mlp": 1.02026916,
      "epoch": 0.5629772139722239,
      "flos": 13762082165760.0,
      "grad_norm": 2.830954061346989,
      "language_loss": 0.81163061,
      "learning_rate": 1.6904398463776393e-06,
      "loss": 0.83362818,
      "num_input_tokens_seen": 101062745,
      "step": 4682,
      "time_per_iteration": 3.5301718711853027
    },
    {
      "auxiliary_loss_clip": 0.01173999,
      "auxiliary_loss_mlp": 0.01029572,
      "balance_loss_clip": 1.0503341,
      "balance_loss_mlp": 1.02138233,
      "epoch": 0.5630974568628629,
      "flos": 21467830026240.0,
      "grad_norm": 1.703986412072195,
      "language_loss": 0.7248739,
      "learning_rate": 1.6896702856560683e-06,
      "loss": 0.74690962,
      "num_input_tokens_seen": 101081840,
      "step": 4683,
      "time_per_iteration": 2.637326955795288
    },
    {
      "auxiliary_loss_clip": 0.01147526,
      "auxiliary_loss_mlp": 0.01028353,
      "balance_loss_clip": 1.04254794,
      "balance_loss_mlp": 1.02024055,
      "epoch": 0.5632176997535021,
      "flos": 14245907385600.0,
      "grad_norm": 2.839371532006322,
      "language_loss": 0.69195127,
      "learning_rate": 1.6889007720112677e-06,
      "loss": 0.71370995,
      "num_input_tokens_seen": 101099585,
      "step": 4684,
      "time_per_iteration": 2.6667304039001465
    },
    {
      "auxiliary_loss_clip": 0.01174306,
      "auxiliary_loss_mlp": 0.01026508,
      "balance_loss_clip": 1.05146503,
      "balance_loss_mlp": 1.0183723,
      "epoch": 0.5633379426441412,
      "flos": 20812244947200.0,
      "grad_norm": 1.6223900849183053,
      "language_loss": 0.77230698,
      "learning_rate": 1.6881313055599734e-06,
      "loss": 0.79431516,
      "num_input_tokens_seen": 101119515,
      "step": 4685,
      "time_per_iteration": 2.6938469409942627
    },
    {
      "auxiliary_loss_clip": 0.0114665,
      "auxiliary_loss_mlp": 0.01033864,
      "balance_loss_clip": 1.04270053,
      "balance_loss_mlp": 1.02514362,
      "epoch": 0.5634581855347802,
      "flos": 22600883617920.0,
      "grad_norm": 3.0452537220407367,
      "language_loss": 0.82196414,
      "learning_rate": 1.6873618864189117e-06,
      "loss": 0.84376925,
      "num_input_tokens_seen": 101135285,
      "step": 4686,
      "time_per_iteration": 3.62558650970459
    },
    {
      "auxiliary_loss_clip": 0.01171,
      "auxiliary_loss_mlp": 0.0103099,
      "balance_loss_clip": 1.04907978,
      "balance_loss_mlp": 1.02236485,
      "epoch": 0.5635784284254194,
      "flos": 21506972872320.0,
      "grad_norm": 2.1554414438699188,
      "language_loss": 0.7795592,
      "learning_rate": 1.686592514704803e-06,
      "loss": 0.80157906,
      "num_input_tokens_seen": 101152680,
      "step": 4687,
      "time_per_iteration": 2.6796295642852783
    },
    {
      "auxiliary_loss_clip": 0.01159785,
      "auxiliary_loss_mlp": 0.01029388,
      "balance_loss_clip": 1.04952133,
      "balance_loss_mlp": 1.02093029,
      "epoch": 0.5636986713160584,
      "flos": 19827466698240.0,
      "grad_norm": 2.1227716902232148,
      "language_loss": 0.70336628,
      "learning_rate": 1.685823190534361e-06,
      "loss": 0.72525799,
      "num_input_tokens_seen": 101170920,
      "step": 4688,
      "time_per_iteration": 3.513745069503784
    },
    {
      "auxiliary_loss_clip": 0.01185202,
      "auxiliary_loss_mlp": 0.01029366,
      "balance_loss_clip": 1.05155253,
      "balance_loss_mlp": 1.0209682,
      "epoch": 0.5638189142066975,
      "flos": 19792453916160.0,
      "grad_norm": 3.733898325108064,
      "language_loss": 0.83966124,
      "learning_rate": 1.6850539140242907e-06,
      "loss": 0.86180699,
      "num_input_tokens_seen": 101190180,
      "step": 4689,
      "time_per_iteration": 2.5981380939483643
    },
    {
      "auxiliary_loss_clip": 0.01174118,
      "auxiliary_loss_mlp": 0.01031031,
      "balance_loss_clip": 1.04961073,
      "balance_loss_mlp": 1.02248919,
      "epoch": 0.5639391570973367,
      "flos": 22893771116160.0,
      "grad_norm": 1.8123523189662365,
      "language_loss": 0.8181051,
      "learning_rate": 1.684284685291292e-06,
      "loss": 0.84015656,
      "num_input_tokens_seen": 101211825,
      "step": 4690,
      "time_per_iteration": 2.6731162071228027
    },
    {
      "auxiliary_loss_clip": 0.0118411,
      "auxiliary_loss_mlp": 0.01033443,
      "balance_loss_clip": 1.05462337,
      "balance_loss_mlp": 1.02472341,
      "epoch": 0.5640593999879757,
      "flos": 23727077712000.0,
      "grad_norm": 2.277250396843601,
      "language_loss": 0.81322026,
      "learning_rate": 1.683515504452055e-06,
      "loss": 0.83539581,
      "num_input_tokens_seen": 101229200,
      "step": 4691,
      "time_per_iteration": 2.590928554534912
    },
    {
      "auxiliary_loss_clip": 0.01146009,
      "auxiliary_loss_mlp": 0.01037378,
      "balance_loss_clip": 1.04584384,
      "balance_loss_mlp": 1.02833009,
      "epoch": 0.5641796428786148,
      "flos": 22710123855360.0,
      "grad_norm": 1.5900587788303695,
      "language_loss": 0.66623056,
      "learning_rate": 1.6827463716232648e-06,
      "loss": 0.68806446,
      "num_input_tokens_seen": 101249860,
      "step": 4692,
      "time_per_iteration": 2.7242798805236816
    },
    {
      "auxiliary_loss_clip": 0.01170279,
      "auxiliary_loss_mlp": 0.00887137,
      "balance_loss_clip": 1.04853189,
      "balance_loss_mlp": 1.00067282,
      "epoch": 0.5642998857692539,
      "flos": 19791987039360.0,
      "grad_norm": 2.318592123474067,
      "language_loss": 0.75860405,
      "learning_rate": 1.6819772869215972e-06,
      "loss": 0.7791782,
      "num_input_tokens_seen": 101268940,
      "step": 4693,
      "time_per_iteration": 3.5098931789398193
    },
    {
      "auxiliary_loss_clip": 0.01168402,
      "auxiliary_loss_mlp": 0.01029703,
      "balance_loss_clip": 1.04996693,
      "balance_loss_mlp": 1.02214515,
      "epoch": 0.564420128659893,
      "flos": 23185904428800.0,
      "grad_norm": 2.0677734889616644,
      "language_loss": 0.8210181,
      "learning_rate": 1.6812082504637228e-06,
      "loss": 0.84299922,
      "num_input_tokens_seen": 101290260,
      "step": 4694,
      "time_per_iteration": 2.714832305908203
    },
    {
      "auxiliary_loss_clip": 0.01167674,
      "auxiliary_loss_mlp": 0.01031627,
      "balance_loss_clip": 1.0502634,
      "balance_loss_mlp": 1.02372301,
      "epoch": 0.564540371550532,
      "flos": 23258264376960.0,
      "grad_norm": 1.4953394089973255,
      "language_loss": 0.74416906,
      "learning_rate": 1.6804392623663025e-06,
      "loss": 0.76616204,
      "num_input_tokens_seen": 101311465,
      "step": 4695,
      "time_per_iteration": 2.6647515296936035
    },
    {
      "auxiliary_loss_clip": 0.01166591,
      "auxiliary_loss_mlp": 0.01025126,
      "balance_loss_clip": 1.0502342,
      "balance_loss_mlp": 1.01628661,
      "epoch": 0.5646606144411712,
      "flos": 25010058672000.0,
      "grad_norm": 1.805719143842148,
      "language_loss": 0.7796942,
      "learning_rate": 1.6796703227459935e-06,
      "loss": 0.80161142,
      "num_input_tokens_seen": 101329420,
      "step": 4696,
      "time_per_iteration": 2.6577200889587402
    },
    {
      "auxiliary_loss_clip": 0.01133223,
      "auxiliary_loss_mlp": 0.01029014,
      "balance_loss_clip": 1.04407001,
      "balance_loss_mlp": 1.0206871,
      "epoch": 0.5647808573318103,
      "flos": 36539645806080.0,
      "grad_norm": 2.390779804878214,
      "language_loss": 0.75979137,
      "learning_rate": 1.6789014317194407e-06,
      "loss": 0.78141379,
      "num_input_tokens_seen": 101350900,
      "step": 4697,
      "time_per_iteration": 2.8467581272125244
    },
    {
      "auxiliary_loss_clip": 0.01169847,
      "auxiliary_loss_mlp": 0.01028628,
      "balance_loss_clip": 1.05051827,
      "balance_loss_mlp": 1.01984859,
      "epoch": 0.5649011002224493,
      "flos": 22528451842560.0,
      "grad_norm": 2.3514965537953194,
      "language_loss": 0.72286415,
      "learning_rate": 1.6781325894032853e-06,
      "loss": 0.74484897,
      "num_input_tokens_seen": 101369860,
      "step": 4698,
      "time_per_iteration": 2.748295307159424
    },
    {
      "auxiliary_loss_clip": 0.01157732,
      "auxiliary_loss_mlp": 0.01028599,
      "balance_loss_clip": 1.0507195,
      "balance_loss_mlp": 1.0197717,
      "epoch": 0.5650213431130885,
      "flos": 18515147304960.0,
      "grad_norm": 1.9934703225986483,
      "language_loss": 0.92015958,
      "learning_rate": 1.6773637959141608e-06,
      "loss": 0.94202298,
      "num_input_tokens_seen": 101386835,
      "step": 4699,
      "time_per_iteration": 2.671759843826294
    },
    {
      "auxiliary_loss_clip": 0.01154342,
      "auxiliary_loss_mlp": 0.01027609,
      "balance_loss_clip": 1.04848456,
      "balance_loss_mlp": 1.01912177,
      "epoch": 0.5651415860037275,
      "flos": 17526310819200.0,
      "grad_norm": 2.10556618254401,
      "language_loss": 0.66773415,
      "learning_rate": 1.6765950513686915e-06,
      "loss": 0.68955362,
      "num_input_tokens_seen": 101404945,
      "step": 4700,
      "time_per_iteration": 2.672197103500366
    },
    {
      "auxiliary_loss_clip": 0.01142998,
      "auxiliary_loss_mlp": 0.01032318,
      "balance_loss_clip": 1.04221272,
      "balance_loss_mlp": 1.02340126,
      "epoch": 0.5652618288943666,
      "flos": 25520026014720.0,
      "grad_norm": 1.5902267396050043,
      "language_loss": 0.76027256,
      "learning_rate": 1.675826355883496e-06,
      "loss": 0.78202575,
      "num_input_tokens_seen": 101424160,
      "step": 4701,
      "time_per_iteration": 2.8118999004364014
    },
    {
      "auxiliary_loss_clip": 0.01159623,
      "auxiliary_loss_mlp": 0.01031424,
      "balance_loss_clip": 1.05158603,
      "balance_loss_mlp": 1.02285326,
      "epoch": 0.5653820717850057,
      "flos": 19683105937920.0,
      "grad_norm": 2.1585273554138573,
      "language_loss": 0.79467857,
      "learning_rate": 1.6750577095751848e-06,
      "loss": 0.816589,
      "num_input_tokens_seen": 101443270,
      "step": 4702,
      "time_per_iteration": 2.623850107192993
    },
    {
      "auxiliary_loss_clip": 0.01181433,
      "auxiliary_loss_mlp": 0.0102967,
      "balance_loss_clip": 1.05330062,
      "balance_loss_mlp": 1.02125359,
      "epoch": 0.5655023146756448,
      "flos": 26979722910720.0,
      "grad_norm": 1.7679127070315381,
      "language_loss": 0.72706079,
      "learning_rate": 1.6742891125603605e-06,
      "loss": 0.74917179,
      "num_input_tokens_seen": 101464175,
      "step": 4703,
      "time_per_iteration": 2.633328437805176
    },
    {
      "auxiliary_loss_clip": 0.01171516,
      "auxiliary_loss_mlp": 0.010328,
      "balance_loss_clip": 1.0511893,
      "balance_loss_mlp": 1.02444327,
      "epoch": 0.5656225575662839,
      "flos": 27669351104640.0,
      "grad_norm": 1.9949858932203872,
      "language_loss": 0.72258621,
      "learning_rate": 1.6735205649556185e-06,
      "loss": 0.74462932,
      "num_input_tokens_seen": 101484045,
      "step": 4704,
      "time_per_iteration": 2.6337594985961914
    },
    {
      "auxiliary_loss_clip": 0.01158284,
      "auxiliary_loss_mlp": 0.01026634,
      "balance_loss_clip": 1.05004287,
      "balance_loss_mlp": 1.01836681,
      "epoch": 0.5657428004569229,
      "flos": 24349732997760.0,
      "grad_norm": 1.5420200163101443,
      "language_loss": 0.84931225,
      "learning_rate": 1.6727520668775476e-06,
      "loss": 0.87116146,
      "num_input_tokens_seen": 101504330,
      "step": 4705,
      "time_per_iteration": 2.7824203968048096
    },
    {
      "auxiliary_loss_clip": 0.0118208,
      "auxiliary_loss_mlp": 0.01032852,
      "balance_loss_clip": 1.04981256,
      "balance_loss_mlp": 1.0244838,
      "epoch": 0.5658630433475621,
      "flos": 21944041562880.0,
      "grad_norm": 1.796654416502373,
      "language_loss": 0.75107431,
      "learning_rate": 1.6719836184427275e-06,
      "loss": 0.77322358,
      "num_input_tokens_seen": 101524635,
      "step": 4706,
      "time_per_iteration": 2.5966575145721436
    },
    {
      "auxiliary_loss_clip": 0.01155947,
      "auxiliary_loss_mlp": 0.01023684,
      "balance_loss_clip": 1.04556012,
      "balance_loss_mlp": 1.01605439,
      "epoch": 0.5659832862382012,
      "flos": 30409012218240.0,
      "grad_norm": 1.9867139225472776,
      "language_loss": 0.64574254,
      "learning_rate": 1.671215219767733e-06,
      "loss": 0.66753882,
      "num_input_tokens_seen": 101544095,
      "step": 4707,
      "time_per_iteration": 2.7777068614959717
    },
    {
      "auxiliary_loss_clip": 0.01141936,
      "auxiliary_loss_mlp": 0.01031296,
      "balance_loss_clip": 1.04331958,
      "balance_loss_mlp": 1.02252197,
      "epoch": 0.5661035291288402,
      "flos": 13188194570880.0,
      "grad_norm": 2.4145600316406632,
      "language_loss": 0.76540953,
      "learning_rate": 1.670446870969127e-06,
      "loss": 0.7871418,
      "num_input_tokens_seen": 101561760,
      "step": 4708,
      "time_per_iteration": 3.6475510597229004
    },
    {
      "auxiliary_loss_clip": 0.01164961,
      "auxiliary_loss_mlp": 0.01022806,
      "balance_loss_clip": 1.04954076,
      "balance_loss_mlp": 1.01502144,
      "epoch": 0.5662237720194794,
      "flos": 16143032108160.0,
      "grad_norm": 2.045587495439554,
      "language_loss": 0.80357528,
      "learning_rate": 1.6696785721634685e-06,
      "loss": 0.82545298,
      "num_input_tokens_seen": 101576245,
      "step": 4709,
      "time_per_iteration": 2.5811965465545654
    },
    {
      "auxiliary_loss_clip": 0.01173132,
      "auxiliary_loss_mlp": 0.01033029,
      "balance_loss_clip": 1.04965401,
      "balance_loss_mlp": 1.02376604,
      "epoch": 0.5663440149101184,
      "flos": 17676848718720.0,
      "grad_norm": 2.6722240216273514,
      "language_loss": 0.73512644,
      "learning_rate": 1.6689103234673086e-06,
      "loss": 0.75718802,
      "num_input_tokens_seen": 101594565,
      "step": 4710,
      "time_per_iteration": 2.637695074081421
    },
    {
      "auxiliary_loss_clip": 0.0116253,
      "auxiliary_loss_mlp": 0.01028655,
      "balance_loss_clip": 1.05169916,
      "balance_loss_mlp": 1.01992917,
      "epoch": 0.5664642578007575,
      "flos": 23368330627200.0,
      "grad_norm": 1.9017591072084383,
      "language_loss": 0.77125132,
      "learning_rate": 1.668142124997189e-06,
      "loss": 0.79316312,
      "num_input_tokens_seen": 101614225,
      "step": 4711,
      "time_per_iteration": 2.680537700653076
    },
    {
      "auxiliary_loss_clip": 0.01049044,
      "auxiliary_loss_mlp": 0.01004429,
      "balance_loss_clip": 1.00826979,
      "balance_loss_mlp": 1.00318325,
      "epoch": 0.5665845006913967,
      "flos": 65516470945920.0,
      "grad_norm": 0.7290438773400976,
      "language_loss": 0.59775031,
      "learning_rate": 1.6673739768696453e-06,
      "loss": 0.61828506,
      "num_input_tokens_seen": 101680795,
      "step": 4712,
      "time_per_iteration": 4.250638008117676
    },
    {
      "auxiliary_loss_clip": 0.01164703,
      "auxiliary_loss_mlp": 0.01035078,
      "balance_loss_clip": 1.04712033,
      "balance_loss_mlp": 1.02647161,
      "epoch": 0.5667047435820357,
      "flos": 26140885620480.0,
      "grad_norm": 1.6475304454319428,
      "language_loss": 0.7760151,
      "learning_rate": 1.6666058792012052e-06,
      "loss": 0.79801297,
      "num_input_tokens_seen": 101701680,
      "step": 4713,
      "time_per_iteration": 2.751444101333618
    },
    {
      "auxiliary_loss_clip": 0.0106546,
      "auxiliary_loss_mlp": 0.01001075,
      "balance_loss_clip": 1.01005149,
      "balance_loss_mlp": 0.99994832,
      "epoch": 0.5668249864726748,
      "flos": 71866949725440.0,
      "grad_norm": 0.9078204080057906,
      "language_loss": 0.68690026,
      "learning_rate": 1.6658378321083878e-06,
      "loss": 0.70756555,
      "num_input_tokens_seen": 101766010,
      "step": 4714,
      "time_per_iteration": 4.1211464405059814
    },
    {
      "auxiliary_loss_clip": 0.01138629,
      "auxiliary_loss_mlp": 0.01024746,
      "balance_loss_clip": 1.04407692,
      "balance_loss_mlp": 1.01695585,
      "epoch": 0.5669452293633139,
      "flos": 22195667312640.0,
      "grad_norm": 1.7329095685062716,
      "language_loss": 0.82409155,
      "learning_rate": 1.6650698357077055e-06,
      "loss": 0.8457253,
      "num_input_tokens_seen": 101783055,
      "step": 4715,
      "time_per_iteration": 2.7403385639190674
    },
    {
      "auxiliary_loss_clip": 0.01165456,
      "auxiliary_loss_mlp": 0.01029314,
      "balance_loss_clip": 1.0469234,
      "balance_loss_mlp": 1.02032006,
      "epoch": 0.567065472253953,
      "flos": 18223193560320.0,
      "grad_norm": 2.4167790683264565,
      "language_loss": 0.81197584,
      "learning_rate": 1.6643018901156632e-06,
      "loss": 0.83392352,
      "num_input_tokens_seen": 101802150,
      "step": 4716,
      "time_per_iteration": 2.6944642066955566
    },
    {
      "auxiliary_loss_clip": 0.0116488,
      "auxiliary_loss_mlp": 0.01031687,
      "balance_loss_clip": 1.04608583,
      "balance_loss_mlp": 1.02371788,
      "epoch": 0.567185715144592,
      "flos": 20371548983040.0,
      "grad_norm": 2.9744820556116665,
      "language_loss": 0.79337263,
      "learning_rate": 1.6635339954487566e-06,
      "loss": 0.81533831,
      "num_input_tokens_seen": 101818025,
      "step": 4717,
      "time_per_iteration": 2.6232662200927734
    },
    {
      "auxiliary_loss_clip": 0.01164568,
      "auxiliary_loss_mlp": 0.01035524,
      "balance_loss_clip": 1.04773235,
      "balance_loss_mlp": 1.02729237,
      "epoch": 0.5673059580352312,
      "flos": 23221348174080.0,
      "grad_norm": 1.7922153655823245,
      "language_loss": 0.82260764,
      "learning_rate": 1.6627661518234765e-06,
      "loss": 0.84460849,
      "num_input_tokens_seen": 101837280,
      "step": 4718,
      "time_per_iteration": 2.75273060798645
    },
    {
      "auxiliary_loss_clip": 0.01145104,
      "auxiliary_loss_mlp": 0.01045531,
      "balance_loss_clip": 1.04720426,
      "balance_loss_mlp": 1.03647673,
      "epoch": 0.5674262009258703,
      "flos": 21719599430400.0,
      "grad_norm": 1.6722478577359432,
      "language_loss": 0.85616881,
      "learning_rate": 1.661998359356302e-06,
      "loss": 0.87807512,
      "num_input_tokens_seen": 101856310,
      "step": 4719,
      "time_per_iteration": 3.6532154083251953
    },
    {
      "auxiliary_loss_clip": 0.01069273,
      "auxiliary_loss_mlp": 0.01000856,
      "balance_loss_clip": 1.01019883,
      "balance_loss_mlp": 0.99975348,
      "epoch": 0.5675464438165093,
      "flos": 67470369114240.0,
      "grad_norm": 0.7503052482645289,
      "language_loss": 0.55792677,
      "learning_rate": 1.6612306181637077e-06,
      "loss": 0.57862806,
      "num_input_tokens_seen": 101915635,
      "step": 4720,
      "time_per_iteration": 3.169494152069092
    },
    {
      "auxiliary_loss_clip": 0.01152361,
      "auxiliary_loss_mlp": 0.01032276,
      "balance_loss_clip": 1.04581308,
      "balance_loss_mlp": 1.02370453,
      "epoch": 0.5676666867071485,
      "flos": 18879173688960.0,
      "grad_norm": 2.1662134479965043,
      "language_loss": 0.65547603,
      "learning_rate": 1.6604629283621598e-06,
      "loss": 0.67732239,
      "num_input_tokens_seen": 101933565,
      "step": 4721,
      "time_per_iteration": 2.707138776779175
    },
    {
      "auxiliary_loss_clip": 0.01183634,
      "auxiliary_loss_mlp": 0.01030115,
      "balance_loss_clip": 1.05149555,
      "balance_loss_mlp": 1.02146614,
      "epoch": 0.5677869295977875,
      "flos": 33546778744320.0,
      "grad_norm": 1.7709144986431709,
      "language_loss": 0.7432375,
      "learning_rate": 1.6596952900681152e-06,
      "loss": 0.76537502,
      "num_input_tokens_seen": 101954325,
      "step": 4722,
      "time_per_iteration": 2.7300353050231934
    },
    {
      "auxiliary_loss_clip": 0.01133789,
      "auxiliary_loss_mlp": 0.01040173,
      "balance_loss_clip": 1.04594374,
      "balance_loss_mlp": 1.03170371,
      "epoch": 0.5679071724884266,
      "flos": 28037256157440.0,
      "grad_norm": 2.624453919782511,
      "language_loss": 0.81643367,
      "learning_rate": 1.658927703398025e-06,
      "loss": 0.83817327,
      "num_input_tokens_seen": 101974390,
      "step": 4723,
      "time_per_iteration": 2.7929677963256836
    },
    {
      "auxiliary_loss_clip": 0.0114008,
      "auxiliary_loss_mlp": 0.01025484,
      "balance_loss_clip": 1.04038382,
      "balance_loss_mlp": 1.01755667,
      "epoch": 0.5680274153790658,
      "flos": 23550110380800.0,
      "grad_norm": 2.4089618888768722,
      "language_loss": 0.78267699,
      "learning_rate": 1.6581601684683309e-06,
      "loss": 0.80433261,
      "num_input_tokens_seen": 101994815,
      "step": 4724,
      "time_per_iteration": 2.7471227645874023
    },
    {
      "auxiliary_loss_clip": 0.01173254,
      "auxiliary_loss_mlp": 0.01031499,
      "balance_loss_clip": 1.05103445,
      "balance_loss_mlp": 1.02275479,
      "epoch": 0.5681476582697048,
      "flos": 22455158140800.0,
      "grad_norm": 2.6862167090128106,
      "language_loss": 0.68411541,
      "learning_rate": 1.6573926853954674e-06,
      "loss": 0.70616293,
      "num_input_tokens_seen": 102012400,
      "step": 4725,
      "time_per_iteration": 2.6385178565979004
    },
    {
      "auxiliary_loss_clip": 0.01155945,
      "auxiliary_loss_mlp": 0.01024792,
      "balance_loss_clip": 1.04551721,
      "balance_loss_mlp": 1.01726699,
      "epoch": 0.5682679011603439,
      "flos": 19536913584000.0,
      "grad_norm": 1.8784738825022729,
      "language_loss": 0.83158129,
      "learning_rate": 1.6566252542958608e-06,
      "loss": 0.85338867,
      "num_input_tokens_seen": 102031900,
      "step": 4726,
      "time_per_iteration": 2.6568572521209717
    },
    {
      "auxiliary_loss_clip": 0.01141549,
      "auxiliary_loss_mlp": 0.01031773,
      "balance_loss_clip": 1.0455482,
      "balance_loss_mlp": 1.02289188,
      "epoch": 0.568388144050983,
      "flos": 28765488493440.0,
      "grad_norm": 1.9670449484946582,
      "language_loss": 0.78215086,
      "learning_rate": 1.6558578752859305e-06,
      "loss": 0.80388415,
      "num_input_tokens_seen": 102050860,
      "step": 4727,
      "time_per_iteration": 2.731902837753296
    },
    {
      "auxiliary_loss_clip": 0.01148329,
      "auxiliary_loss_mlp": 0.01033561,
      "balance_loss_clip": 1.04375732,
      "balance_loss_mlp": 1.0249958,
      "epoch": 0.5685083869416221,
      "flos": 21209452519680.0,
      "grad_norm": 2.136558826738712,
      "language_loss": 0.79148102,
      "learning_rate": 1.6550905484820865e-06,
      "loss": 0.81329989,
      "num_input_tokens_seen": 102069320,
      "step": 4728,
      "time_per_iteration": 2.7325541973114014
    },
    {
      "auxiliary_loss_clip": 0.0118202,
      "auxiliary_loss_mlp": 0.01028151,
      "balance_loss_clip": 1.05006218,
      "balance_loss_mlp": 1.01965189,
      "epoch": 0.5686286298322611,
      "flos": 24827021942400.0,
      "grad_norm": 2.149563330318499,
      "language_loss": 0.78712153,
      "learning_rate": 1.6543232740007328e-06,
      "loss": 0.80922323,
      "num_input_tokens_seen": 102086435,
      "step": 4729,
      "time_per_iteration": 2.612504482269287
    },
    {
      "auxiliary_loss_clip": 0.01171965,
      "auxiliary_loss_mlp": 0.01033663,
      "balance_loss_clip": 1.04904199,
      "balance_loss_mlp": 1.02568746,
      "epoch": 0.5687488727229003,
      "flos": 26615121909120.0,
      "grad_norm": 2.2629780014355916,
      "language_loss": 0.66853088,
      "learning_rate": 1.653556051958263e-06,
      "loss": 0.69058716,
      "num_input_tokens_seen": 102106115,
      "step": 4730,
      "time_per_iteration": 2.624422788619995
    },
    {
      "auxiliary_loss_clip": 0.01116405,
      "auxiliary_loss_mlp": 0.01034701,
      "balance_loss_clip": 1.04295754,
      "balance_loss_mlp": 1.0258553,
      "epoch": 0.5688691156135394,
      "flos": 20808725414400.0,
      "grad_norm": 1.750312138504775,
      "language_loss": 0.73522735,
      "learning_rate": 1.6527888824710642e-06,
      "loss": 0.75673842,
      "num_input_tokens_seen": 102125715,
      "step": 4731,
      "time_per_iteration": 2.8007614612579346
    },
    {
      "auxiliary_loss_clip": 0.01144025,
      "auxiliary_loss_mlp": 0.01033131,
      "balance_loss_clip": 1.04240906,
      "balance_loss_mlp": 1.0240531,
      "epoch": 0.5689893585041784,
      "flos": 25880963829120.0,
      "grad_norm": 2.3059788461332063,
      "language_loss": 0.77025831,
      "learning_rate": 1.6520217656555166e-06,
      "loss": 0.79202992,
      "num_input_tokens_seen": 102145005,
      "step": 4732,
      "time_per_iteration": 2.75992751121521
    },
    {
      "auxiliary_loss_clip": 0.01148373,
      "auxiliary_loss_mlp": 0.01035103,
      "balance_loss_clip": 1.04446852,
      "balance_loss_mlp": 1.02634668,
      "epoch": 0.5691096013948175,
      "flos": 23477463123840.0,
      "grad_norm": 1.5557051528128416,
      "language_loss": 0.70793915,
      "learning_rate": 1.65125470162799e-06,
      "loss": 0.72977388,
      "num_input_tokens_seen": 102165360,
      "step": 4733,
      "time_per_iteration": 2.68241810798645
    },
    {
      "auxiliary_loss_clip": 0.01153309,
      "auxiliary_loss_mlp": 0.01027845,
      "balance_loss_clip": 1.04460478,
      "balance_loss_mlp": 1.01954794,
      "epoch": 0.5692298442854566,
      "flos": 18075600576000.0,
      "grad_norm": 2.3741139080252234,
      "language_loss": 0.69833142,
      "learning_rate": 1.6504876905048485e-06,
      "loss": 0.72014296,
      "num_input_tokens_seen": 102182320,
      "step": 4734,
      "time_per_iteration": 3.5673019886016846
    },
    {
      "auxiliary_loss_clip": 0.01180436,
      "auxiliary_loss_mlp": 0.01026407,
      "balance_loss_clip": 1.05228794,
      "balance_loss_mlp": 1.01798451,
      "epoch": 0.5693500871760957,
      "flos": 23039317025280.0,
      "grad_norm": 2.3500264779907334,
      "language_loss": 0.72209126,
      "learning_rate": 1.6497207324024464e-06,
      "loss": 0.7441597,
      "num_input_tokens_seen": 102201220,
      "step": 4735,
      "time_per_iteration": 2.6641159057617188
    },
    {
      "auxiliary_loss_clip": 0.0117009,
      "auxiliary_loss_mlp": 0.01032431,
      "balance_loss_clip": 1.0490483,
      "balance_loss_mlp": 1.02423537,
      "epoch": 0.5694703300667348,
      "flos": 18989670902400.0,
      "grad_norm": 1.8307904909943145,
      "language_loss": 0.82567012,
      "learning_rate": 1.6489538274371305e-06,
      "loss": 0.84769535,
      "num_input_tokens_seen": 102219825,
      "step": 4736,
      "time_per_iteration": 2.672947406768799
    },
    {
      "auxiliary_loss_clip": 0.01165892,
      "auxiliary_loss_mlp": 0.01027062,
      "balance_loss_clip": 1.05079794,
      "balance_loss_mlp": 1.01912856,
      "epoch": 0.5695905729573739,
      "flos": 21908705558400.0,
      "grad_norm": 1.917391008758969,
      "language_loss": 0.82812607,
      "learning_rate": 1.6481869757252396e-06,
      "loss": 0.85005558,
      "num_input_tokens_seen": 102238160,
      "step": 4737,
      "time_per_iteration": 3.6883761882781982
    },
    {
      "auxiliary_loss_clip": 0.01171665,
      "auxiliary_loss_mlp": 0.0103303,
      "balance_loss_clip": 1.05180264,
      "balance_loss_mlp": 1.02519202,
      "epoch": 0.569710815848013,
      "flos": 28476659232000.0,
      "grad_norm": 1.4593814221180503,
      "language_loss": 0.7196945,
      "learning_rate": 1.647420177383105e-06,
      "loss": 0.74174148,
      "num_input_tokens_seen": 102261030,
      "step": 4738,
      "time_per_iteration": 2.6700141429901123
    },
    {
      "auxiliary_loss_clip": 0.01166079,
      "auxiliary_loss_mlp": 0.01025489,
      "balance_loss_clip": 1.05021393,
      "balance_loss_mlp": 1.01786232,
      "epoch": 0.569831058738652,
      "flos": 28366162018560.0,
      "grad_norm": 2.020904229858083,
      "language_loss": 0.72745591,
      "learning_rate": 1.646653432527049e-06,
      "loss": 0.74937159,
      "num_input_tokens_seen": 102281670,
      "step": 4739,
      "time_per_iteration": 3.548443555831909
    },
    {
      "auxiliary_loss_clip": 0.01152742,
      "auxiliary_loss_mlp": 0.0103051,
      "balance_loss_clip": 1.04753947,
      "balance_loss_mlp": 1.02274323,
      "epoch": 0.5699513016292912,
      "flos": 25849973370240.0,
      "grad_norm": 1.6206256798634697,
      "language_loss": 0.74777055,
      "learning_rate": 1.645886741273387e-06,
      "loss": 0.76960301,
      "num_input_tokens_seen": 102303485,
      "step": 4740,
      "time_per_iteration": 2.7069661617279053
    },
    {
      "auxiliary_loss_clip": 0.01148737,
      "auxiliary_loss_mlp": 0.0102703,
      "balance_loss_clip": 1.04867995,
      "balance_loss_mlp": 1.01905513,
      "epoch": 0.5700715445199303,
      "flos": 18037858360320.0,
      "grad_norm": 1.9625380515425266,
      "language_loss": 0.73578644,
      "learning_rate": 1.645120103738424e-06,
      "loss": 0.75754416,
      "num_input_tokens_seen": 102320995,
      "step": 4741,
      "time_per_iteration": 2.7982399463653564
    },
    {
      "auxiliary_loss_clip": 0.01158328,
      "auxiliary_loss_mlp": 0.00886484,
      "balance_loss_clip": 1.04674411,
      "balance_loss_mlp": 1.00068378,
      "epoch": 0.5701917874105693,
      "flos": 11473352392320.0,
      "grad_norm": 2.3613348406859274,
      "language_loss": 0.834589,
      "learning_rate": 1.6443535200384591e-06,
      "loss": 0.85503709,
      "num_input_tokens_seen": 102339170,
      "step": 4742,
      "time_per_iteration": 2.6540629863739014
    },
    {
      "auxiliary_loss_clip": 0.0118123,
      "auxiliary_loss_mlp": 0.01029164,
      "balance_loss_clip": 1.05301857,
      "balance_loss_mlp": 1.02085519,
      "epoch": 0.5703120303012085,
      "flos": 21761759018880.0,
      "grad_norm": 1.4905545347570317,
      "language_loss": 0.70898473,
      "learning_rate": 1.6435869902897827e-06,
      "loss": 0.73108864,
      "num_input_tokens_seen": 102357750,
      "step": 4743,
      "time_per_iteration": 2.5822200775146484
    },
    {
      "auxiliary_loss_clip": 0.0105089,
      "auxiliary_loss_mlp": 0.01003561,
      "balance_loss_clip": 1.01160145,
      "balance_loss_mlp": 1.00247002,
      "epoch": 0.5704322731918475,
      "flos": 56746258513920.0,
      "grad_norm": 0.7897398499138482,
      "language_loss": 0.61971676,
      "learning_rate": 1.6428205146086764e-06,
      "loss": 0.64026129,
      "num_input_tokens_seen": 102419730,
      "step": 4744,
      "time_per_iteration": 3.325417995452881
    },
    {
      "auxiliary_loss_clip": 0.01167773,
      "auxiliary_loss_mlp": 0.01037212,
      "balance_loss_clip": 1.0490272,
      "balance_loss_mlp": 1.02846766,
      "epoch": 0.5705525160824866,
      "flos": 20741141975040.0,
      "grad_norm": 1.7249309924539888,
      "language_loss": 0.71156722,
      "learning_rate": 1.6420540931114142e-06,
      "loss": 0.73361713,
      "num_input_tokens_seen": 102440320,
      "step": 4745,
      "time_per_iteration": 3.6283371448516846
    },
    {
      "auxiliary_loss_clip": 0.01165842,
      "auxiliary_loss_mlp": 0.01030416,
      "balance_loss_clip": 1.05025041,
      "balance_loss_mlp": 1.02172542,
      "epoch": 0.5706727589731257,
      "flos": 18771262254720.0,
      "grad_norm": 1.9195447257345282,
      "language_loss": 0.79103863,
      "learning_rate": 1.6412877259142616e-06,
      "loss": 0.81300128,
      "num_input_tokens_seen": 102460240,
      "step": 4746,
      "time_per_iteration": 2.701176643371582
    },
    {
      "auxiliary_loss_clip": 0.01158496,
      "auxiliary_loss_mlp": 0.0103314,
      "balance_loss_clip": 1.04846263,
      "balance_loss_mlp": 1.02439594,
      "epoch": 0.5707930018637648,
      "flos": 27634733372160.0,
      "grad_norm": 2.2005076184652426,
      "language_loss": 0.73904204,
      "learning_rate": 1.6405214131334757e-06,
      "loss": 0.76095837,
      "num_input_tokens_seen": 102478765,
      "step": 4747,
      "time_per_iteration": 2.713726758956909
    },
    {
      "auxiliary_loss_clip": 0.01139179,
      "auxiliary_loss_mlp": 0.01039774,
      "balance_loss_clip": 1.04823899,
      "balance_loss_mlp": 1.03123283,
      "epoch": 0.5709132447544039,
      "flos": 27597673514880.0,
      "grad_norm": 2.065226023423966,
      "language_loss": 0.79927391,
      "learning_rate": 1.6397551548853052e-06,
      "loss": 0.82106346,
      "num_input_tokens_seen": 102496930,
      "step": 4748,
      "time_per_iteration": 2.7623088359832764
    },
    {
      "auxiliary_loss_clip": 0.01162671,
      "auxiliary_loss_mlp": 0.01027523,
      "balance_loss_clip": 1.05021071,
      "balance_loss_mlp": 1.01883841,
      "epoch": 0.571033487645043,
      "flos": 21686095019520.0,
      "grad_norm": 1.5387232243855842,
      "language_loss": 0.70951784,
      "learning_rate": 1.6389889512859917e-06,
      "loss": 0.73141968,
      "num_input_tokens_seen": 102516590,
      "step": 4749,
      "time_per_iteration": 2.6982927322387695
    },
    {
      "auxiliary_loss_clip": 0.01055856,
      "auxiliary_loss_mlp": 0.01002424,
      "balance_loss_clip": 1.00990272,
      "balance_loss_mlp": 1.001369,
      "epoch": 0.5711537305356821,
      "flos": 70181445980160.0,
      "grad_norm": 0.8135139816720052,
      "language_loss": 0.60336,
      "learning_rate": 1.638222802451767e-06,
      "loss": 0.62394285,
      "num_input_tokens_seen": 102578070,
      "step": 4750,
      "time_per_iteration": 3.2351486682891846
    },
    {
      "auxiliary_loss_clip": 0.01164764,
      "auxiliary_loss_mlp": 0.01028373,
      "balance_loss_clip": 1.05027175,
      "balance_loss_mlp": 1.02021897,
      "epoch": 0.5712739734263211,
      "flos": 24717494396160.0,
      "grad_norm": 1.624316260899711,
      "language_loss": 0.75124758,
      "learning_rate": 1.6374567084988561e-06,
      "loss": 0.77317894,
      "num_input_tokens_seen": 102599255,
      "step": 4751,
      "time_per_iteration": 2.7205429077148438
    },
    {
      "auxiliary_loss_clip": 0.01168257,
      "auxiliary_loss_mlp": 0.01030491,
      "balance_loss_clip": 1.05237222,
      "balance_loss_mlp": 1.02209902,
      "epoch": 0.5713942163169603,
      "flos": 26578169792640.0,
      "grad_norm": 1.7591672666140754,
      "language_loss": 0.76406407,
      "learning_rate": 1.6366906695434738e-06,
      "loss": 0.78605157,
      "num_input_tokens_seen": 102621775,
      "step": 4752,
      "time_per_iteration": 2.7150487899780273
    },
    {
      "auxiliary_loss_clip": 0.01172421,
      "auxiliary_loss_mlp": 0.01027179,
      "balance_loss_clip": 1.05220556,
      "balance_loss_mlp": 1.01912093,
      "epoch": 0.5715144592075994,
      "flos": 21142443697920.0,
      "grad_norm": 2.0102491923052765,
      "language_loss": 0.85730684,
      "learning_rate": 1.6359246857018275e-06,
      "loss": 0.8793028,
      "num_input_tokens_seen": 102639305,
      "step": 4753,
      "time_per_iteration": 2.685732841491699
    },
    {
      "auxiliary_loss_clip": 0.01136945,
      "auxiliary_loss_mlp": 0.01025767,
      "balance_loss_clip": 1.04203725,
      "balance_loss_mlp": 1.01778626,
      "epoch": 0.5716347020982384,
      "flos": 23330265189120.0,
      "grad_norm": 1.900281594432121,
      "language_loss": 0.78750122,
      "learning_rate": 1.6351587570901178e-06,
      "loss": 0.8091284,
      "num_input_tokens_seen": 102659430,
      "step": 4754,
      "time_per_iteration": 2.6993041038513184
    },
    {
      "auxiliary_loss_clip": 0.01146463,
      "auxiliary_loss_mlp": 0.01029097,
      "balance_loss_clip": 1.04456997,
      "balance_loss_mlp": 1.02092469,
      "epoch": 0.5717549449888776,
      "flos": 17009555806080.0,
      "grad_norm": 2.5417495949250632,
      "language_loss": 0.7572937,
      "learning_rate": 1.634392883824534e-06,
      "loss": 0.7790494,
      "num_input_tokens_seen": 102671430,
      "step": 4755,
      "time_per_iteration": 2.6746408939361572
    },
    {
      "auxiliary_loss_clip": 0.01146103,
      "auxiliary_loss_mlp": 0.01032468,
      "balance_loss_clip": 1.04417014,
      "balance_loss_mlp": 1.02373576,
      "epoch": 0.5718751878795166,
      "flos": 35518130922240.0,
      "grad_norm": 1.5533314980098956,
      "language_loss": 0.67995995,
      "learning_rate": 1.6336270660212595e-06,
      "loss": 0.70174563,
      "num_input_tokens_seen": 102693025,
      "step": 4756,
      "time_per_iteration": 2.860652208328247
    },
    {
      "auxiliary_loss_clip": 0.01159851,
      "auxiliary_loss_mlp": 0.01028757,
      "balance_loss_clip": 1.051934,
      "balance_loss_mlp": 1.02032888,
      "epoch": 0.5719954307701557,
      "flos": 38613989255040.0,
      "grad_norm": 6.528792641922522,
      "language_loss": 0.65843606,
      "learning_rate": 1.6328613037964676e-06,
      "loss": 0.68032211,
      "num_input_tokens_seen": 102716090,
      "step": 4757,
      "time_per_iteration": 2.845761299133301
    },
    {
      "auxiliary_loss_clip": 0.0116899,
      "auxiliary_loss_mlp": 0.01023816,
      "balance_loss_clip": 1.0475477,
      "balance_loss_mlp": 1.01546538,
      "epoch": 0.5721156736607949,
      "flos": 20631111638400.0,
      "grad_norm": 1.7495907013375038,
      "language_loss": 0.67817104,
      "learning_rate": 1.6320955972663241e-06,
      "loss": 0.70009905,
      "num_input_tokens_seen": 102735685,
      "step": 4758,
      "time_per_iteration": 2.6900687217712402
    },
    {
      "auxiliary_loss_clip": 0.01170033,
      "auxiliary_loss_mlp": 0.01028691,
      "balance_loss_clip": 1.04794633,
      "balance_loss_mlp": 1.02019119,
      "epoch": 0.5722359165514339,
      "flos": 37415076076800.0,
      "grad_norm": 1.7886462403446526,
      "language_loss": 0.6522373,
      "learning_rate": 1.6313299465469857e-06,
      "loss": 0.6742245,
      "num_input_tokens_seen": 102758415,
      "step": 4759,
      "time_per_iteration": 2.7231647968292236
    },
    {
      "auxiliary_loss_clip": 0.01166053,
      "auxiliary_loss_mlp": 0.01032682,
      "balance_loss_clip": 1.04832363,
      "balance_loss_mlp": 1.02401531,
      "epoch": 0.572356159442073,
      "flos": 21972877205760.0,
      "grad_norm": 3.598412812013559,
      "language_loss": 0.79636884,
      "learning_rate": 1.6305643517546014e-06,
      "loss": 0.81835622,
      "num_input_tokens_seen": 102773795,
      "step": 4760,
      "time_per_iteration": 3.531364917755127
    },
    {
      "auxiliary_loss_clip": 0.01182522,
      "auxiliary_loss_mlp": 0.01031236,
      "balance_loss_clip": 1.05376148,
      "balance_loss_mlp": 1.02283132,
      "epoch": 0.5724764023327121,
      "flos": 19135540033920.0,
      "grad_norm": 3.142469319547796,
      "language_loss": 0.84915948,
      "learning_rate": 1.629798813005311e-06,
      "loss": 0.87129712,
      "num_input_tokens_seen": 102793515,
      "step": 4761,
      "time_per_iteration": 2.6266393661499023
    },
    {
      "auxiliary_loss_clip": 0.01144214,
      "auxiliary_loss_mlp": 0.01030197,
      "balance_loss_clip": 1.04834783,
      "balance_loss_mlp": 1.022228,
      "epoch": 0.5725966452233512,
      "flos": 22819759142400.0,
      "grad_norm": 2.227964332715468,
      "language_loss": 0.70727175,
      "learning_rate": 1.6290333304152473e-06,
      "loss": 0.72901589,
      "num_input_tokens_seen": 102813390,
      "step": 4762,
      "time_per_iteration": 2.8075103759765625
    },
    {
      "auxiliary_loss_clip": 0.01156424,
      "auxiliary_loss_mlp": 0.01028843,
      "balance_loss_clip": 1.04930747,
      "balance_loss_mlp": 1.02065945,
      "epoch": 0.5727168881139902,
      "flos": 41496610498560.0,
      "grad_norm": 1.8156037404911582,
      "language_loss": 0.5678407,
      "learning_rate": 1.6282679041005314e-06,
      "loss": 0.58969337,
      "num_input_tokens_seen": 102838980,
      "step": 4763,
      "time_per_iteration": 3.838817834854126
    },
    {
      "auxiliary_loss_clip": 0.01150532,
      "auxiliary_loss_mlp": 0.01026826,
      "balance_loss_clip": 1.04548025,
      "balance_loss_mlp": 1.01812363,
      "epoch": 0.5728371310046293,
      "flos": 14647675985280.0,
      "grad_norm": 2.2886399075058375,
      "language_loss": 0.87898296,
      "learning_rate": 1.6275025341772789e-06,
      "loss": 0.9007566,
      "num_input_tokens_seen": 102855285,
      "step": 4764,
      "time_per_iteration": 2.6219053268432617
    },
    {
      "auxiliary_loss_clip": 0.01161062,
      "auxiliary_loss_mlp": 0.01033986,
      "balance_loss_clip": 1.04694319,
      "balance_loss_mlp": 1.02548015,
      "epoch": 0.5729573738952685,
      "flos": 21506613736320.0,
      "grad_norm": 2.6672781721848975,
      "language_loss": 0.81610715,
      "learning_rate": 1.626737220761596e-06,
      "loss": 0.83805764,
      "num_input_tokens_seen": 102872750,
      "step": 4765,
      "time_per_iteration": 3.562239408493042
    },
    {
      "auxiliary_loss_clip": 0.01170206,
      "auxiliary_loss_mlp": 0.0103179,
      "balance_loss_clip": 1.05061758,
      "balance_loss_mlp": 1.02334428,
      "epoch": 0.5730776167859075,
      "flos": 23621680229760.0,
      "grad_norm": 2.0929813682569733,
      "language_loss": 0.78791147,
      "learning_rate": 1.62597196396958e-06,
      "loss": 0.8099314,
      "num_input_tokens_seen": 102890920,
      "step": 4766,
      "time_per_iteration": 2.681725263595581
    },
    {
      "auxiliary_loss_clip": 0.01169861,
      "auxiliary_loss_mlp": 0.01024383,
      "balance_loss_clip": 1.05118155,
      "balance_loss_mlp": 1.01643765,
      "epoch": 0.5731978596765466,
      "flos": 25739224761600.0,
      "grad_norm": 1.8872661021369224,
      "language_loss": 0.85392755,
      "learning_rate": 1.6252067639173197e-06,
      "loss": 0.87586999,
      "num_input_tokens_seen": 102912830,
      "step": 4767,
      "time_per_iteration": 2.7118117809295654
    },
    {
      "auxiliary_loss_clip": 0.01171285,
      "auxiliary_loss_mlp": 0.01027529,
      "balance_loss_clip": 1.04927886,
      "balance_loss_mlp": 1.01893377,
      "epoch": 0.5733181025671857,
      "flos": 26359509749760.0,
      "grad_norm": 1.719170967329337,
      "language_loss": 0.69734502,
      "learning_rate": 1.6244416207208956e-06,
      "loss": 0.71933317,
      "num_input_tokens_seen": 102933765,
      "step": 4768,
      "time_per_iteration": 2.7177698612213135
    },
    {
      "auxiliary_loss_clip": 0.01154465,
      "auxiliary_loss_mlp": 0.01035615,
      "balance_loss_clip": 1.04879141,
      "balance_loss_mlp": 1.02713346,
      "epoch": 0.5734383454578248,
      "flos": 29423874833280.0,
      "grad_norm": 1.8813091424289712,
      "language_loss": 0.73833591,
      "learning_rate": 1.6236765344963787e-06,
      "loss": 0.76023668,
      "num_input_tokens_seen": 102955025,
      "step": 4769,
      "time_per_iteration": 2.7610785961151123
    },
    {
      "auxiliary_loss_clip": 0.01160116,
      "auxiliary_loss_mlp": 0.01021774,
      "balance_loss_clip": 1.04963636,
      "balance_loss_mlp": 1.01374578,
      "epoch": 0.5735585883484638,
      "flos": 34969954487040.0,
      "grad_norm": 2.8252441349051876,
      "language_loss": 0.69319355,
      "learning_rate": 1.6229115053598322e-06,
      "loss": 0.71501243,
      "num_input_tokens_seen": 102976780,
      "step": 4770,
      "time_per_iteration": 2.7853102684020996
    },
    {
      "auxiliary_loss_clip": 0.01170966,
      "auxiliary_loss_mlp": 0.01029682,
      "balance_loss_clip": 1.05196559,
      "balance_loss_mlp": 1.0217185,
      "epoch": 0.573678831239103,
      "flos": 18770759464320.0,
      "grad_norm": 1.806122221567621,
      "language_loss": 0.72434849,
      "learning_rate": 1.6221465334273108e-06,
      "loss": 0.746355,
      "num_input_tokens_seen": 102995990,
      "step": 4771,
      "time_per_iteration": 3.5145204067230225
    },
    {
      "auxiliary_loss_clip": 0.01158064,
      "auxiliary_loss_mlp": 0.01029763,
      "balance_loss_clip": 1.04843235,
      "balance_loss_mlp": 1.02190685,
      "epoch": 0.5737990741297421,
      "flos": 25702883176320.0,
      "grad_norm": 4.141578308689644,
      "language_loss": 0.61508268,
      "learning_rate": 1.6213816188148593e-06,
      "loss": 0.63696092,
      "num_input_tokens_seen": 103014695,
      "step": 4772,
      "time_per_iteration": 2.7348766326904297
    },
    {
      "auxiliary_loss_clip": 0.01152513,
      "auxiliary_loss_mlp": 0.01023159,
      "balance_loss_clip": 1.04964137,
      "balance_loss_mlp": 1.0153656,
      "epoch": 0.5739193170203811,
      "flos": 27269234530560.0,
      "grad_norm": 1.9861043330995825,
      "language_loss": 0.77376217,
      "learning_rate": 1.6206167616385162e-06,
      "loss": 0.79551888,
      "num_input_tokens_seen": 103035760,
      "step": 4773,
      "time_per_iteration": 2.7419593334198
    },
    {
      "auxiliary_loss_clip": 0.01168771,
      "auxiliary_loss_mlp": 0.01027839,
      "balance_loss_clip": 1.05220449,
      "balance_loss_mlp": 1.01865995,
      "epoch": 0.5740395599110203,
      "flos": 12239721993600.0,
      "grad_norm": 1.8436809641030822,
      "language_loss": 0.73686677,
      "learning_rate": 1.6198519620143078e-06,
      "loss": 0.75883287,
      "num_input_tokens_seen": 103052915,
      "step": 4774,
      "time_per_iteration": 2.6605427265167236
    },
    {
      "auxiliary_loss_clip": 0.01154455,
      "auxiliary_loss_mlp": 0.01030911,
      "balance_loss_clip": 1.04887247,
      "balance_loss_mlp": 1.02309704,
      "epoch": 0.5741598028016593,
      "flos": 25921399564800.0,
      "grad_norm": 1.6846528917484795,
      "language_loss": 0.78337038,
      "learning_rate": 1.6190872200582546e-06,
      "loss": 0.80522406,
      "num_input_tokens_seen": 103074655,
      "step": 4775,
      "time_per_iteration": 2.7805163860321045
    },
    {
      "auxiliary_loss_clip": 0.01156647,
      "auxiliary_loss_mlp": 0.00887269,
      "balance_loss_clip": 1.04777718,
      "balance_loss_mlp": 1.00073385,
      "epoch": 0.5742800456922984,
      "flos": 19244133826560.0,
      "grad_norm": 2.6694558016469765,
      "language_loss": 0.7798655,
      "learning_rate": 1.6183225358863676e-06,
      "loss": 0.80030465,
      "num_input_tokens_seen": 103091550,
      "step": 4776,
      "time_per_iteration": 2.6435699462890625
    },
    {
      "auxiliary_loss_clip": 0.01150712,
      "auxiliary_loss_mlp": 0.01029604,
      "balance_loss_clip": 1.04463315,
      "balance_loss_mlp": 1.02120614,
      "epoch": 0.5744002885829376,
      "flos": 30920487932160.0,
      "grad_norm": 2.4416257302618525,
      "language_loss": 0.71993053,
      "learning_rate": 1.617557909614648e-06,
      "loss": 0.74173367,
      "num_input_tokens_seen": 103110985,
      "step": 4777,
      "time_per_iteration": 2.7567074298858643
    },
    {
      "auxiliary_loss_clip": 0.01148294,
      "auxiliary_loss_mlp": 0.01027113,
      "balance_loss_clip": 1.04651904,
      "balance_loss_mlp": 1.0191021,
      "epoch": 0.5745205314735766,
      "flos": 23840017050240.0,
      "grad_norm": 1.8526519719202228,
      "language_loss": 0.8632803,
      "learning_rate": 1.6167933413590899e-06,
      "loss": 0.88503438,
      "num_input_tokens_seen": 103129890,
      "step": 4778,
      "time_per_iteration": 2.721220016479492
    },
    {
      "auxiliary_loss_clip": 0.01167384,
      "auxiliary_loss_mlp": 0.01035243,
      "balance_loss_clip": 1.04820669,
      "balance_loss_mlp": 1.02697635,
      "epoch": 0.5746407743642157,
      "flos": 12311902373760.0,
      "grad_norm": 3.4537973480656015,
      "language_loss": 0.90880311,
      "learning_rate": 1.6160288312356773e-06,
      "loss": 0.93082941,
      "num_input_tokens_seen": 103147020,
      "step": 4779,
      "time_per_iteration": 2.694521427154541
    },
    {
      "auxiliary_loss_clip": 0.01172878,
      "auxiliary_loss_mlp": 0.01028201,
      "balance_loss_clip": 1.04803097,
      "balance_loss_mlp": 1.02008319,
      "epoch": 0.5747610172548548,
      "flos": 24133658734080.0,
      "grad_norm": 1.6855017907344356,
      "language_loss": 0.81550777,
      "learning_rate": 1.6152643793603857e-06,
      "loss": 0.83751851,
      "num_input_tokens_seen": 103167370,
      "step": 4780,
      "time_per_iteration": 2.6400582790374756
    },
    {
      "auxiliary_loss_clip": 0.01177286,
      "auxiliary_loss_mlp": 0.01031055,
      "balance_loss_clip": 1.04939771,
      "balance_loss_mlp": 1.02350891,
      "epoch": 0.5748812601454939,
      "flos": 25408451393280.0,
      "grad_norm": 1.9294388394974358,
      "language_loss": 0.87942362,
      "learning_rate": 1.6144999858491815e-06,
      "loss": 0.90150702,
      "num_input_tokens_seen": 103186000,
      "step": 4781,
      "time_per_iteration": 2.686673879623413
    },
    {
      "auxiliary_loss_clip": 0.01161763,
      "auxiliary_loss_mlp": 0.01031886,
      "balance_loss_clip": 1.04680705,
      "balance_loss_mlp": 1.0236603,
      "epoch": 0.575001503036133,
      "flos": 30624942827520.0,
      "grad_norm": 1.6874174593831286,
      "language_loss": 0.85959548,
      "learning_rate": 1.6137356508180232e-06,
      "loss": 0.88153195,
      "num_input_tokens_seen": 103207710,
      "step": 4782,
      "time_per_iteration": 2.7712044715881348
    },
    {
      "auxiliary_loss_clip": 0.011782,
      "auxiliary_loss_mlp": 0.00887134,
      "balance_loss_clip": 1.04951787,
      "balance_loss_mlp": 1.00064278,
      "epoch": 0.5751217459267721,
      "flos": 21726566668800.0,
      "grad_norm": 1.873732076113133,
      "language_loss": 0.8156532,
      "learning_rate": 1.6129713743828593e-06,
      "loss": 0.83630645,
      "num_input_tokens_seen": 103226720,
      "step": 4783,
      "time_per_iteration": 2.6845436096191406
    },
    {
      "auxiliary_loss_clip": 0.01157602,
      "auxiliary_loss_mlp": 0.01029352,
      "balance_loss_clip": 1.04425287,
      "balance_loss_mlp": 1.02165687,
      "epoch": 0.5752419888174112,
      "flos": 21651620941440.0,
      "grad_norm": 1.422759306421392,
      "language_loss": 0.7534278,
      "learning_rate": 1.6122071566596306e-06,
      "loss": 0.77529734,
      "num_input_tokens_seen": 103246995,
      "step": 4784,
      "time_per_iteration": 2.7079412937164307
    },
    {
      "auxiliary_loss_clip": 0.01171156,
      "auxiliary_loss_mlp": 0.01025327,
      "balance_loss_clip": 1.04938042,
      "balance_loss_mlp": 1.0174886,
      "epoch": 0.5753622317080502,
      "flos": 17775997234560.0,
      "grad_norm": 2.104266591209065,
      "language_loss": 0.83434093,
      "learning_rate": 1.6114429977642674e-06,
      "loss": 0.85630572,
      "num_input_tokens_seen": 103261500,
      "step": 4785,
      "time_per_iteration": 2.685314416885376
    },
    {
      "auxiliary_loss_clip": 0.0117206,
      "auxiliary_loss_mlp": 0.01027789,
      "balance_loss_clip": 1.05349362,
      "balance_loss_mlp": 1.02002215,
      "epoch": 0.5754824745986894,
      "flos": 19789616741760.0,
      "grad_norm": 1.8682084812351731,
      "language_loss": 0.73491013,
      "learning_rate": 1.6106788978126926e-06,
      "loss": 0.7569086,
      "num_input_tokens_seen": 103280475,
      "step": 4786,
      "time_per_iteration": 3.578450918197632
    },
    {
      "auxiliary_loss_clip": 0.0113502,
      "auxiliary_loss_mlp": 0.0103016,
      "balance_loss_clip": 1.04193521,
      "balance_loss_mlp": 1.02149367,
      "epoch": 0.5756027174893285,
      "flos": 30985665160320.0,
      "grad_norm": 2.162932427969287,
      "language_loss": 0.79258305,
      "learning_rate": 1.6099148569208196e-06,
      "loss": 0.81423485,
      "num_input_tokens_seen": 103297695,
      "step": 4787,
      "time_per_iteration": 2.772503614425659
    },
    {
      "auxiliary_loss_clip": 0.01159663,
      "auxiliary_loss_mlp": 0.01025848,
      "balance_loss_clip": 1.05072498,
      "balance_loss_mlp": 1.01755667,
      "epoch": 0.5757229603799675,
      "flos": 28546864364160.0,
      "grad_norm": 2.720151010219519,
      "language_loss": 0.63384318,
      "learning_rate": 1.6091508752045523e-06,
      "loss": 0.65569824,
      "num_input_tokens_seen": 103318575,
      "step": 4788,
      "time_per_iteration": 2.7763280868530273
    },
    {
      "auxiliary_loss_clip": 0.01142024,
      "auxiliary_loss_mlp": 0.01027727,
      "balance_loss_clip": 1.04387784,
      "balance_loss_mlp": 1.01963258,
      "epoch": 0.5758432032706067,
      "flos": 22999024944000.0,
      "grad_norm": 1.599002729770378,
      "language_loss": 0.86553305,
      "learning_rate": 1.608386952779787e-06,
      "loss": 0.88723058,
      "num_input_tokens_seen": 103337945,
      "step": 4789,
      "time_per_iteration": 3.747580051422119
    },
    {
      "auxiliary_loss_clip": 0.01161772,
      "auxiliary_loss_mlp": 0.01032038,
      "balance_loss_clip": 1.04647946,
      "balance_loss_mlp": 1.02452195,
      "epoch": 0.5759634461612457,
      "flos": 25739727552000.0,
      "grad_norm": 1.5081009423611194,
      "language_loss": 0.74737358,
      "learning_rate": 1.6076230897624098e-06,
      "loss": 0.76931167,
      "num_input_tokens_seen": 103360150,
      "step": 4790,
      "time_per_iteration": 2.755347967147827
    },
    {
      "auxiliary_loss_clip": 0.0117016,
      "auxiliary_loss_mlp": 0.01028003,
      "balance_loss_clip": 1.04624486,
      "balance_loss_mlp": 1.02011096,
      "epoch": 0.5760836890518848,
      "flos": 30591761639040.0,
      "grad_norm": 2.300126942123109,
      "language_loss": 0.77729166,
      "learning_rate": 1.6068592862682974e-06,
      "loss": 0.79927331,
      "num_input_tokens_seen": 103378305,
      "step": 4791,
      "time_per_iteration": 3.5512046813964844
    },
    {
      "auxiliary_loss_clip": 0.01164146,
      "auxiliary_loss_mlp": 0.01025944,
      "balance_loss_clip": 1.0502609,
      "balance_loss_mlp": 1.01761723,
      "epoch": 0.576203931942524,
      "flos": 36538963447680.0,
      "grad_norm": 2.257849887474841,
      "language_loss": 0.73759627,
      "learning_rate": 1.6060955424133187e-06,
      "loss": 0.75949717,
      "num_input_tokens_seen": 103399230,
      "step": 4792,
      "time_per_iteration": 2.7688586711883545
    },
    {
      "auxiliary_loss_clip": 0.0117186,
      "auxiliary_loss_mlp": 0.01026563,
      "balance_loss_clip": 1.05248344,
      "balance_loss_mlp": 1.01833153,
      "epoch": 0.576324174833163,
      "flos": 25516937445120.0,
      "grad_norm": 2.4129492891577704,
      "language_loss": 0.8946926,
      "learning_rate": 1.6053318583133332e-06,
      "loss": 0.91667682,
      "num_input_tokens_seen": 103420100,
      "step": 4793,
      "time_per_iteration": 2.666287899017334
    },
    {
      "auxiliary_loss_clip": 0.01167405,
      "auxiliary_loss_mlp": 0.01033978,
      "balance_loss_clip": 1.04896414,
      "balance_loss_mlp": 1.02531195,
      "epoch": 0.5764444177238021,
      "flos": 25119262995840.0,
      "grad_norm": 2.010654625752154,
      "language_loss": 0.75244117,
      "learning_rate": 1.6045682340841907e-06,
      "loss": 0.77445495,
      "num_input_tokens_seen": 103439025,
      "step": 4794,
      "time_per_iteration": 2.6761586666107178
    },
    {
      "auxiliary_loss_clip": 0.01053675,
      "auxiliary_loss_mlp": 0.00875949,
      "balance_loss_clip": 1.01183701,
      "balance_loss_mlp": 1.00062072,
      "epoch": 0.5765646606144411,
      "flos": 62212687758720.0,
      "grad_norm": 0.7544730129495265,
      "language_loss": 0.57991767,
      "learning_rate": 1.6038046698417336e-06,
      "loss": 0.5992139,
      "num_input_tokens_seen": 103499920,
      "step": 4795,
      "time_per_iteration": 3.2612714767456055
    },
    {
      "auxiliary_loss_clip": 0.0116931,
      "auxiliary_loss_mlp": 0.01030573,
      "balance_loss_clip": 1.04854405,
      "balance_loss_mlp": 1.02247262,
      "epoch": 0.5766849035050803,
      "flos": 25118760205440.0,
      "grad_norm": 2.333321884695864,
      "language_loss": 0.69023621,
      "learning_rate": 1.6030411657017919e-06,
      "loss": 0.71223503,
      "num_input_tokens_seen": 103519575,
      "step": 4796,
      "time_per_iteration": 2.694384813308716
    },
    {
      "auxiliary_loss_clip": 0.01164309,
      "auxiliary_loss_mlp": 0.01030887,
      "balance_loss_clip": 1.04992533,
      "balance_loss_mlp": 1.02292371,
      "epoch": 0.5768051463957193,
      "flos": 15991093578240.0,
      "grad_norm": 1.7780845512002457,
      "language_loss": 0.84681273,
      "learning_rate": 1.6022777217801903e-06,
      "loss": 0.8687647,
      "num_input_tokens_seen": 103536530,
      "step": 4797,
      "time_per_iteration": 3.4514260292053223
    },
    {
      "auxiliary_loss_clip": 0.01154474,
      "auxiliary_loss_mlp": 0.01035021,
      "balance_loss_clip": 1.04990101,
      "balance_loss_mlp": 1.02646208,
      "epoch": 0.5769253892863584,
      "flos": 22163635359360.0,
      "grad_norm": 2.8188052402143735,
      "language_loss": 0.73267293,
      "learning_rate": 1.601514338192742e-06,
      "loss": 0.75456786,
      "num_input_tokens_seen": 103556460,
      "step": 4798,
      "time_per_iteration": 2.7233071327209473
    },
    {
      "auxiliary_loss_clip": 0.01174722,
      "auxiliary_loss_mlp": 0.01027276,
      "balance_loss_clip": 1.04963946,
      "balance_loss_mlp": 1.01914549,
      "epoch": 0.5770456321769976,
      "flos": 22856388036480.0,
      "grad_norm": 2.103352714322212,
      "language_loss": 0.71568048,
      "learning_rate": 1.6007510150552514e-06,
      "loss": 0.73770046,
      "num_input_tokens_seen": 103574520,
      "step": 4799,
      "time_per_iteration": 2.5856313705444336
    },
    {
      "auxiliary_loss_clip": 0.0117523,
      "auxiliary_loss_mlp": 0.01029408,
      "balance_loss_clip": 1.04981589,
      "balance_loss_mlp": 1.02115238,
      "epoch": 0.5771658750676366,
      "flos": 46353672489600.0,
      "grad_norm": 2.3570803992325966,
      "language_loss": 0.62293744,
      "learning_rate": 1.599987752483515e-06,
      "loss": 0.64498377,
      "num_input_tokens_seen": 103598965,
      "step": 4800,
      "time_per_iteration": 2.8578996658325195
    },
    {
      "auxiliary_loss_clip": 0.01146598,
      "auxiliary_loss_mlp": 0.01029878,
      "balance_loss_clip": 1.04558802,
      "balance_loss_mlp": 1.02161121,
      "epoch": 0.5772861179582757,
      "flos": 22159972172160.0,
      "grad_norm": 1.8199653329052743,
      "language_loss": 0.67933381,
      "learning_rate": 1.5992245505933184e-06,
      "loss": 0.70109856,
      "num_input_tokens_seen": 103618665,
      "step": 4801,
      "time_per_iteration": 2.728423833847046
    },
    {
      "auxiliary_loss_clip": 0.01180623,
      "auxiliary_loss_mlp": 0.01024352,
      "balance_loss_clip": 1.05239654,
      "balance_loss_mlp": 1.01612043,
      "epoch": 0.5774063608489148,
      "flos": 31248926916480.0,
      "grad_norm": 2.262060912213347,
      "language_loss": 0.71390563,
      "learning_rate": 1.5984614095004388e-06,
      "loss": 0.73595536,
      "num_input_tokens_seen": 103639800,
      "step": 4802,
      "time_per_iteration": 2.712918281555176
    },
    {
      "auxiliary_loss_clip": 0.01165935,
      "auxiliary_loss_mlp": 0.01033956,
      "balance_loss_clip": 1.04916763,
      "balance_loss_mlp": 1.02549779,
      "epoch": 0.5775266037395539,
      "flos": 22527123039360.0,
      "grad_norm": 2.1409049641995024,
      "language_loss": 0.8091265,
      "learning_rate": 1.5976983293206438e-06,
      "loss": 0.83112538,
      "num_input_tokens_seen": 103655605,
      "step": 4803,
      "time_per_iteration": 2.680027961730957
    },
    {
      "auxiliary_loss_clip": 0.01153887,
      "auxiliary_loss_mlp": 0.01032155,
      "balance_loss_clip": 1.0437696,
      "balance_loss_mlp": 1.02350068,
      "epoch": 0.577646846630193,
      "flos": 21068790860160.0,
      "grad_norm": 2.2262539101040804,
      "language_loss": 0.71269464,
      "learning_rate": 1.5969353101696928e-06,
      "loss": 0.73455501,
      "num_input_tokens_seen": 103674045,
      "step": 4804,
      "time_per_iteration": 2.6293821334838867
    },
    {
      "auxiliary_loss_clip": 0.01169377,
      "auxiliary_loss_mlp": 0.0103605,
      "balance_loss_clip": 1.04881442,
      "balance_loss_mlp": 1.02824736,
      "epoch": 0.5777670895208321,
      "flos": 29714284293120.0,
      "grad_norm": 4.123477151154588,
      "language_loss": 0.79613888,
      "learning_rate": 1.5961723521633341e-06,
      "loss": 0.8181932,
      "num_input_tokens_seen": 103695285,
      "step": 4805,
      "time_per_iteration": 2.748687267303467
    },
    {
      "auxiliary_loss_clip": 0.01156321,
      "auxiliary_loss_mlp": 0.01024412,
      "balance_loss_clip": 1.04589272,
      "balance_loss_mlp": 1.01661837,
      "epoch": 0.5778873324114712,
      "flos": 19500428344320.0,
      "grad_norm": 2.202672964294615,
      "language_loss": 0.91182649,
      "learning_rate": 1.5954094554173097e-06,
      "loss": 0.93363386,
      "num_input_tokens_seen": 103713275,
      "step": 4806,
      "time_per_iteration": 2.6455016136169434
    },
    {
      "auxiliary_loss_clip": 0.01164133,
      "auxiliary_loss_mlp": 0.01031377,
      "balance_loss_clip": 1.04975605,
      "balance_loss_mlp": 1.02409935,
      "epoch": 0.5780075753021102,
      "flos": 14136846716160.0,
      "grad_norm": 1.978739544921386,
      "language_loss": 0.7938562,
      "learning_rate": 1.5946466200473482e-06,
      "loss": 0.81581134,
      "num_input_tokens_seen": 103731185,
      "step": 4807,
      "time_per_iteration": 2.6918153762817383
    },
    {
      "auxiliary_loss_clip": 0.01161066,
      "auxiliary_loss_mlp": 0.01026419,
      "balance_loss_clip": 1.04520535,
      "balance_loss_mlp": 1.01823521,
      "epoch": 0.5781278181927494,
      "flos": 15262178883840.0,
      "grad_norm": 2.1138309124883956,
      "language_loss": 0.83200979,
      "learning_rate": 1.5938838461691723e-06,
      "loss": 0.85388464,
      "num_input_tokens_seen": 103748095,
      "step": 4808,
      "time_per_iteration": 2.6459155082702637
    },
    {
      "auxiliary_loss_clip": 0.0118154,
      "auxiliary_loss_mlp": 0.01033091,
      "balance_loss_clip": 1.05342579,
      "balance_loss_mlp": 1.02456188,
      "epoch": 0.5782480610833884,
      "flos": 16726831856640.0,
      "grad_norm": 3.4567241558370942,
      "language_loss": 0.82965517,
      "learning_rate": 1.593121133898494e-06,
      "loss": 0.8518014,
      "num_input_tokens_seen": 103765300,
      "step": 4809,
      "time_per_iteration": 2.6043152809143066
    },
    {
      "auxiliary_loss_clip": 0.01175335,
      "auxiliary_loss_mlp": 0.0102875,
      "balance_loss_clip": 1.05057216,
      "balance_loss_mlp": 1.02097738,
      "epoch": 0.5783683039740275,
      "flos": 25482140144640.0,
      "grad_norm": 2.0304997390867854,
      "language_loss": 0.79325879,
      "learning_rate": 1.592358483351016e-06,
      "loss": 0.81529963,
      "num_input_tokens_seen": 103785475,
      "step": 4810,
      "time_per_iteration": 2.621412992477417
    },
    {
      "auxiliary_loss_clip": 0.01167275,
      "auxiliary_loss_mlp": 0.01034447,
      "balance_loss_clip": 1.04898131,
      "balance_loss_mlp": 1.02672839,
      "epoch": 0.5784885468646667,
      "flos": 18405835240320.0,
      "grad_norm": 2.031883676638278,
      "language_loss": 0.7240271,
      "learning_rate": 1.5915958946424326e-06,
      "loss": 0.74604434,
      "num_input_tokens_seen": 103804160,
      "step": 4811,
      "time_per_iteration": 2.661907196044922
    },
    {
      "auxiliary_loss_clip": 0.01150746,
      "auxiliary_loss_mlp": 0.00887429,
      "balance_loss_clip": 1.0451479,
      "balance_loss_mlp": 1.00060236,
      "epoch": 0.5786087897553057,
      "flos": 46100717936640.0,
      "grad_norm": 1.627619700083156,
      "language_loss": 0.74539357,
      "learning_rate": 1.5908333678884271e-06,
      "loss": 0.76577538,
      "num_input_tokens_seen": 103830580,
      "step": 4812,
      "time_per_iteration": 3.9120678901672363
    },
    {
      "auxiliary_loss_clip": 0.01170022,
      "auxiliary_loss_mlp": 0.01026977,
      "balance_loss_clip": 1.05130291,
      "balance_loss_mlp": 1.01840639,
      "epoch": 0.5787290326459448,
      "flos": 12385950261120.0,
      "grad_norm": 10.34127700523194,
      "language_loss": 0.73783445,
      "learning_rate": 1.5900709032046743e-06,
      "loss": 0.75980449,
      "num_input_tokens_seen": 103848655,
      "step": 4813,
      "time_per_iteration": 2.588423252105713
    },
    {
      "auxiliary_loss_clip": 0.01159098,
      "auxiliary_loss_mlp": 0.0103319,
      "balance_loss_clip": 1.05286741,
      "balance_loss_mlp": 1.02545357,
      "epoch": 0.5788492755365839,
      "flos": 23290332243840.0,
      "grad_norm": 2.191309270407789,
      "language_loss": 0.78524923,
      "learning_rate": 1.5893085007068391e-06,
      "loss": 0.80717212,
      "num_input_tokens_seen": 103866215,
      "step": 4814,
      "time_per_iteration": 2.770566463470459
    },
    {
      "auxiliary_loss_clip": 0.01147137,
      "auxiliary_loss_mlp": 0.01032485,
      "balance_loss_clip": 1.04518151,
      "balance_loss_mlp": 1.02445602,
      "epoch": 0.578969518427223,
      "flos": 24061047390720.0,
      "grad_norm": 1.8660902913704402,
      "language_loss": 0.71040541,
      "learning_rate": 1.5885461605105786e-06,
      "loss": 0.73220158,
      "num_input_tokens_seen": 103887815,
      "step": 4815,
      "time_per_iteration": 3.689192295074463
    },
    {
      "auxiliary_loss_clip": 0.01161966,
      "auxiliary_loss_mlp": 0.01024076,
      "balance_loss_clip": 1.04911613,
      "balance_loss_mlp": 1.01561821,
      "epoch": 0.579089761317862,
      "flos": 21871825269120.0,
      "grad_norm": 2.054757504888723,
      "language_loss": 0.77084625,
      "learning_rate": 1.5877838827315375e-06,
      "loss": 0.79270667,
      "num_input_tokens_seen": 103906360,
      "step": 4816,
      "time_per_iteration": 2.7148702144622803
    },
    {
      "auxiliary_loss_clip": 0.01178981,
      "auxiliary_loss_mlp": 0.01026818,
      "balance_loss_clip": 1.05105186,
      "balance_loss_mlp": 1.01833606,
      "epoch": 0.5792100042085012,
      "flos": 22929681738240.0,
      "grad_norm": 1.7133266061275958,
      "language_loss": 0.7020129,
      "learning_rate": 1.587021667485355e-06,
      "loss": 0.72407091,
      "num_input_tokens_seen": 103925730,
      "step": 4817,
      "time_per_iteration": 3.5293517112731934
    },
    {
      "auxiliary_loss_clip": 0.01162868,
      "auxiliary_loss_mlp": 0.0103913,
      "balance_loss_clip": 1.0467782,
      "balance_loss_mlp": 1.03150702,
      "epoch": 0.5793302470991403,
      "flos": 21470056669440.0,
      "grad_norm": 1.868437993411777,
      "language_loss": 0.78496587,
      "learning_rate": 1.5862595148876559e-06,
      "loss": 0.80698586,
      "num_input_tokens_seen": 103945835,
      "step": 4818,
      "time_per_iteration": 2.7427523136138916
    },
    {
      "auxiliary_loss_clip": 0.01140497,
      "auxiliary_loss_mlp": 0.01024828,
      "balance_loss_clip": 1.04433417,
      "balance_loss_mlp": 1.01703811,
      "epoch": 0.5794504899897793,
      "flos": 12711013367040.0,
      "grad_norm": 1.9507580021468742,
      "language_loss": 0.76821911,
      "learning_rate": 1.58549742505406e-06,
      "loss": 0.78987241,
      "num_input_tokens_seen": 103960580,
      "step": 4819,
      "time_per_iteration": 2.732583522796631
    },
    {
      "auxiliary_loss_clip": 0.01181729,
      "auxiliary_loss_mlp": 0.01030484,
      "balance_loss_clip": 1.05264926,
      "balance_loss_mlp": 1.02193713,
      "epoch": 0.5795707328804185,
      "flos": 14867054300160.0,
      "grad_norm": 2.026293642976803,
      "language_loss": 0.75888503,
      "learning_rate": 1.5847353981001747e-06,
      "loss": 0.78100711,
      "num_input_tokens_seen": 103977760,
      "step": 4820,
      "time_per_iteration": 2.5336451530456543
    },
    {
      "auxiliary_loss_clip": 0.01154862,
      "auxiliary_loss_mlp": 0.01024379,
      "balance_loss_clip": 1.04544306,
      "balance_loss_mlp": 1.01621866,
      "epoch": 0.5796909757710575,
      "flos": 36430046432640.0,
      "grad_norm": 1.5936915078557075,
      "language_loss": 0.69996846,
      "learning_rate": 1.5839734341415993e-06,
      "loss": 0.72176087,
      "num_input_tokens_seen": 103999960,
      "step": 4821,
      "time_per_iteration": 2.8484818935394287
    },
    {
      "auxiliary_loss_clip": 0.01165884,
      "auxiliary_loss_mlp": 0.01028418,
      "balance_loss_clip": 1.05274189,
      "balance_loss_mlp": 1.02072895,
      "epoch": 0.5798112186616966,
      "flos": 23039891642880.0,
      "grad_norm": 1.6818293709966914,
      "language_loss": 0.76466203,
      "learning_rate": 1.5832115332939238e-06,
      "loss": 0.78660512,
      "num_input_tokens_seen": 104018400,
      "step": 4822,
      "time_per_iteration": 2.6264209747314453
    },
    {
      "auxiliary_loss_clip": 0.01169504,
      "auxiliary_loss_mlp": 0.01029462,
      "balance_loss_clip": 1.04964709,
      "balance_loss_mlp": 1.02146339,
      "epoch": 0.5799314615523358,
      "flos": 16652604401280.0,
      "grad_norm": 1.744716510546159,
      "language_loss": 0.74937028,
      "learning_rate": 1.5824496956727272e-06,
      "loss": 0.77135992,
      "num_input_tokens_seen": 104035605,
      "step": 4823,
      "time_per_iteration": 3.494816780090332
    },
    {
      "auxiliary_loss_clip": 0.0115912,
      "auxiliary_loss_mlp": 0.01026857,
      "balance_loss_clip": 1.04737425,
      "balance_loss_mlp": 1.01916826,
      "epoch": 0.5800517044429748,
      "flos": 20485673470080.0,
      "grad_norm": 1.6632785028795594,
      "language_loss": 0.73377931,
      "learning_rate": 1.5816879213935797e-06,
      "loss": 0.75563902,
      "num_input_tokens_seen": 104054415,
      "step": 4824,
      "time_per_iteration": 2.7016520500183105
    },
    {
      "auxiliary_loss_clip": 0.01167517,
      "auxiliary_loss_mlp": 0.01023904,
      "balance_loss_clip": 1.05144262,
      "balance_loss_mlp": 1.01639652,
      "epoch": 0.5801719473336139,
      "flos": 31538258968320.0,
      "grad_norm": 1.9208695693830133,
      "language_loss": 0.79690731,
      "learning_rate": 1.5809262105720416e-06,
      "loss": 0.81882143,
      "num_input_tokens_seen": 104075455,
      "step": 4825,
      "time_per_iteration": 2.6953537464141846
    },
    {
      "auxiliary_loss_clip": 0.01178139,
      "auxiliary_loss_mlp": 0.01024951,
      "balance_loss_clip": 1.05224335,
      "balance_loss_mlp": 1.01757181,
      "epoch": 0.580292190224253,
      "flos": 20375966355840.0,
      "grad_norm": 2.8647601517888104,
      "language_loss": 0.79522312,
      "learning_rate": 1.5801645633236644e-06,
      "loss": 0.81725401,
      "num_input_tokens_seen": 104096440,
      "step": 4826,
      "time_per_iteration": 2.722691297531128
    },
    {
      "auxiliary_loss_clip": 0.01154563,
      "auxiliary_loss_mlp": 0.01027467,
      "balance_loss_clip": 1.04816139,
      "balance_loss_mlp": 1.01973081,
      "epoch": 0.5804124331148921,
      "flos": 26615373304320.0,
      "grad_norm": 1.998034777651877,
      "language_loss": 0.77364409,
      "learning_rate": 1.579402979763989e-06,
      "loss": 0.79546434,
      "num_input_tokens_seen": 104116775,
      "step": 4827,
      "time_per_iteration": 2.695828914642334
    },
    {
      "auxiliary_loss_clip": 0.01142579,
      "auxiliary_loss_mlp": 0.01022581,
      "balance_loss_clip": 1.04466999,
      "balance_loss_mlp": 1.01460004,
      "epoch": 0.5805326760055312,
      "flos": 13478496289920.0,
      "grad_norm": 2.17649867342501,
      "language_loss": 0.81480438,
      "learning_rate": 1.578641460008548e-06,
      "loss": 0.83645594,
      "num_input_tokens_seen": 104134510,
      "step": 4828,
      "time_per_iteration": 2.7503252029418945
    },
    {
      "auxiliary_loss_clip": 0.01166376,
      "auxiliary_loss_mlp": 0.0102627,
      "balance_loss_clip": 1.04810715,
      "balance_loss_mlp": 1.01899219,
      "epoch": 0.5806529188961702,
      "flos": 12091374823680.0,
      "grad_norm": 2.01165784632447,
      "language_loss": 0.684466,
      "learning_rate": 1.5778800041728613e-06,
      "loss": 0.70639241,
      "num_input_tokens_seen": 104150800,
      "step": 4829,
      "time_per_iteration": 2.623028039932251
    },
    {
      "auxiliary_loss_clip": 0.01165521,
      "auxiliary_loss_mlp": 0.0102454,
      "balance_loss_clip": 1.05100214,
      "balance_loss_mlp": 1.0165534,
      "epoch": 0.5807731617868094,
      "flos": 26214107495040.0,
      "grad_norm": 1.6381416496644594,
      "language_loss": 0.66036236,
      "learning_rate": 1.577118612372443e-06,
      "loss": 0.68226302,
      "num_input_tokens_seen": 104172640,
      "step": 4830,
      "time_per_iteration": 2.7499887943267822
    },
    {
      "auxiliary_loss_clip": 0.01155187,
      "auxiliary_loss_mlp": 0.0088725,
      "balance_loss_clip": 1.04580772,
      "balance_loss_mlp": 1.00065255,
      "epoch": 0.5808934046774484,
      "flos": 37962139190400.0,
      "grad_norm": 1.8100468786103778,
      "language_loss": 0.70451015,
      "learning_rate": 1.5763572847227943e-06,
      "loss": 0.72493458,
      "num_input_tokens_seen": 104193525,
      "step": 4831,
      "time_per_iteration": 2.82241153717041
    },
    {
      "auxiliary_loss_clip": 0.01167316,
      "auxiliary_loss_mlp": 0.01025763,
      "balance_loss_clip": 1.04777813,
      "balance_loss_mlp": 1.01744854,
      "epoch": 0.5810136475680875,
      "flos": 20485853038080.0,
      "grad_norm": 1.8330355134536147,
      "language_loss": 0.81282651,
      "learning_rate": 1.5755960213394091e-06,
      "loss": 0.83475727,
      "num_input_tokens_seen": 104210625,
      "step": 4832,
      "time_per_iteration": 2.658677577972412
    },
    {
      "auxiliary_loss_clip": 0.01153331,
      "auxiliary_loss_mlp": 0.01029018,
      "balance_loss_clip": 1.04675972,
      "balance_loss_mlp": 1.02159405,
      "epoch": 0.5811338904587267,
      "flos": 17530153574400.0,
      "grad_norm": 1.7664304490634815,
      "language_loss": 0.78184277,
      "learning_rate": 1.5748348223377703e-06,
      "loss": 0.80366623,
      "num_input_tokens_seen": 104228180,
      "step": 4833,
      "time_per_iteration": 2.6834146976470947
    },
    {
      "auxiliary_loss_clip": 0.01158282,
      "auxiliary_loss_mlp": 0.01024724,
      "balance_loss_clip": 1.04947543,
      "balance_loss_mlp": 1.01688039,
      "epoch": 0.5812541333493657,
      "flos": 19458017360640.0,
      "grad_norm": 1.8204116859894612,
      "language_loss": 0.78163934,
      "learning_rate": 1.5740736878333507e-06,
      "loss": 0.80346942,
      "num_input_tokens_seen": 104246020,
      "step": 4834,
      "time_per_iteration": 2.8753714561462402
    },
    {
      "auxiliary_loss_clip": 0.01161095,
      "auxiliary_loss_mlp": 0.01029267,
      "balance_loss_clip": 1.04657865,
      "balance_loss_mlp": 1.02100611,
      "epoch": 0.5813743762400048,
      "flos": 20594949621120.0,
      "grad_norm": 3.6152547116477836,
      "language_loss": 0.77797759,
      "learning_rate": 1.5733126179416143e-06,
      "loss": 0.79988116,
      "num_input_tokens_seen": 104260505,
      "step": 4835,
      "time_per_iteration": 2.965660572052002
    },
    {
      "auxiliary_loss_clip": 0.01168377,
      "auxiliary_loss_mlp": 0.01028854,
      "balance_loss_clip": 1.04896998,
      "balance_loss_mlp": 1.02078938,
      "epoch": 0.5814946191306439,
      "flos": 33178227246720.0,
      "grad_norm": 1.9323773268996878,
      "language_loss": 0.72865951,
      "learning_rate": 1.5725516127780137e-06,
      "loss": 0.75063187,
      "num_input_tokens_seen": 104282640,
      "step": 4836,
      "time_per_iteration": 2.711825370788574
    },
    {
      "auxiliary_loss_clip": 0.01173537,
      "auxiliary_loss_mlp": 0.01036257,
      "balance_loss_clip": 1.04774857,
      "balance_loss_mlp": 1.02742946,
      "epoch": 0.581614862021283,
      "flos": 16143283503360.0,
      "grad_norm": 2.923428054795675,
      "language_loss": 0.88070405,
      "learning_rate": 1.5717906724579943e-06,
      "loss": 0.90280199,
      "num_input_tokens_seen": 104299700,
      "step": 4837,
      "time_per_iteration": 3.663163661956787
    },
    {
      "auxiliary_loss_clip": 0.01153518,
      "auxiliary_loss_mlp": 0.01030253,
      "balance_loss_clip": 1.04360902,
      "balance_loss_mlp": 1.02220082,
      "epoch": 0.581735104911922,
      "flos": 33802642298880.0,
      "grad_norm": 1.9625299144978496,
      "language_loss": 0.68085551,
      "learning_rate": 1.571029797096989e-06,
      "loss": 0.70269322,
      "num_input_tokens_seen": 104320805,
      "step": 4838,
      "time_per_iteration": 2.8098409175872803
    },
    {
      "auxiliary_loss_clip": 0.01173798,
      "auxiliary_loss_mlp": 0.01025094,
      "balance_loss_clip": 1.0486536,
      "balance_loss_mlp": 1.01709461,
      "epoch": 0.5818553478025612,
      "flos": 23331163029120.0,
      "grad_norm": 2.584544906998037,
      "language_loss": 0.78814518,
      "learning_rate": 1.570268986810423e-06,
      "loss": 0.81013405,
      "num_input_tokens_seen": 104340700,
      "step": 4839,
      "time_per_iteration": 2.7171456813812256
    },
    {
      "auxiliary_loss_clip": 0.0115959,
      "auxiliary_loss_mlp": 0.01029876,
      "balance_loss_clip": 1.04866457,
      "balance_loss_mlp": 1.02158475,
      "epoch": 0.5819755906932003,
      "flos": 20996143603200.0,
      "grad_norm": 2.636964624687776,
      "language_loss": 0.74579573,
      "learning_rate": 1.5695082417137096e-06,
      "loss": 0.76769042,
      "num_input_tokens_seen": 104358575,
      "step": 4840,
      "time_per_iteration": 3.7299723625183105
    },
    {
      "auxiliary_loss_clip": 0.01156736,
      "auxiliary_loss_mlp": 0.01026744,
      "balance_loss_clip": 1.04500413,
      "balance_loss_mlp": 1.0189898,
      "epoch": 0.5820958335838393,
      "flos": 21431668008960.0,
      "grad_norm": 1.4958282815957613,
      "language_loss": 0.7530998,
      "learning_rate": 1.5687475619222539e-06,
      "loss": 0.77493465,
      "num_input_tokens_seen": 104378530,
      "step": 4841,
      "time_per_iteration": 2.7100563049316406
    },
    {
      "auxiliary_loss_clip": 0.01151251,
      "auxiliary_loss_mlp": 0.01026624,
      "balance_loss_clip": 1.04345703,
      "balance_loss_mlp": 1.01864266,
      "epoch": 0.5822160764744785,
      "flos": 17967473660160.0,
      "grad_norm": 2.0722951321103693,
      "language_loss": 0.73208499,
      "learning_rate": 1.5679869475514496e-06,
      "loss": 0.75386369,
      "num_input_tokens_seen": 104395465,
      "step": 4842,
      "time_per_iteration": 2.6936283111572266
    },
    {
      "auxiliary_loss_clip": 0.01169122,
      "auxiliary_loss_mlp": 0.01025839,
      "balance_loss_clip": 1.05028033,
      "balance_loss_mlp": 1.01785803,
      "epoch": 0.5823363193651175,
      "flos": 23033858158080.0,
      "grad_norm": 2.012889413484819,
      "language_loss": 0.81302464,
      "learning_rate": 1.567226398716682e-06,
      "loss": 0.83497429,
      "num_input_tokens_seen": 104415380,
      "step": 4843,
      "time_per_iteration": 3.5360493659973145
    },
    {
      "auxiliary_loss_clip": 0.01167667,
      "auxiliary_loss_mlp": 0.01025838,
      "balance_loss_clip": 1.04933572,
      "balance_loss_mlp": 1.01745749,
      "epoch": 0.5824565622557566,
      "flos": 32891840110080.0,
      "grad_norm": 1.78476620751806,
      "language_loss": 0.61873496,
      "learning_rate": 1.566465915533326e-06,
      "loss": 0.64067006,
      "num_input_tokens_seen": 104437410,
      "step": 4844,
      "time_per_iteration": 2.7775769233703613
    },
    {
      "auxiliary_loss_clip": 0.01165321,
      "auxiliary_loss_mlp": 0.01032767,
      "balance_loss_clip": 1.04829979,
      "balance_loss_mlp": 1.02454448,
      "epoch": 0.5825768051463958,
      "flos": 22229674513920.0,
      "grad_norm": 2.037007796938364,
      "language_loss": 0.88112211,
      "learning_rate": 1.5657054981167458e-06,
      "loss": 0.90310305,
      "num_input_tokens_seen": 104456305,
      "step": 4845,
      "time_per_iteration": 2.674304246902466
    },
    {
      "auxiliary_loss_clip": 0.01167156,
      "auxiliary_loss_mlp": 0.01027851,
      "balance_loss_clip": 1.04955459,
      "balance_loss_mlp": 1.02012002,
      "epoch": 0.5826970480370348,
      "flos": 28001561016960.0,
      "grad_norm": 1.8655636410337966,
      "language_loss": 0.67970335,
      "learning_rate": 1.5649451465822965e-06,
      "loss": 0.70165342,
      "num_input_tokens_seen": 104477695,
      "step": 4846,
      "time_per_iteration": 2.71665096282959
    },
    {
      "auxiliary_loss_clip": 0.01143263,
      "auxiliary_loss_mlp": 0.01021869,
      "balance_loss_clip": 1.04999518,
      "balance_loss_mlp": 1.01398921,
      "epoch": 0.5828172909276739,
      "flos": 17858053854720.0,
      "grad_norm": 1.748673033277491,
      "language_loss": 0.83881474,
      "learning_rate": 1.5641848610453218e-06,
      "loss": 0.860466,
      "num_input_tokens_seen": 104496355,
      "step": 4847,
      "time_per_iteration": 2.725588321685791
    },
    {
      "auxiliary_loss_clip": 0.01165746,
      "auxiliary_loss_mlp": 0.01027787,
      "balance_loss_clip": 1.04888856,
      "balance_loss_mlp": 1.01991367,
      "epoch": 0.582937533818313,
      "flos": 19865244827520.0,
      "grad_norm": 1.9570746167360524,
      "language_loss": 0.85850608,
      "learning_rate": 1.563424641621158e-06,
      "loss": 0.88044143,
      "num_input_tokens_seen": 104515535,
      "step": 4848,
      "time_per_iteration": 2.603212833404541
    },
    {
      "auxiliary_loss_clip": 0.01164469,
      "auxiliary_loss_mlp": 0.0103194,
      "balance_loss_clip": 1.04884839,
      "balance_loss_mlp": 1.02338088,
      "epoch": 0.5830577767089521,
      "flos": 26870734068480.0,
      "grad_norm": 1.9835722730704786,
      "language_loss": 0.69906884,
      "learning_rate": 1.5626644884251282e-06,
      "loss": 0.72103298,
      "num_input_tokens_seen": 104535055,
      "step": 4849,
      "time_per_iteration": 3.6481738090515137
    },
    {
      "auxiliary_loss_clip": 0.01174301,
      "auxiliary_loss_mlp": 0.01025772,
      "balance_loss_clip": 1.04832554,
      "balance_loss_mlp": 1.01809514,
      "epoch": 0.5831780195995911,
      "flos": 25298205575040.0,
      "grad_norm": 1.663527381401267,
      "language_loss": 0.87959874,
      "learning_rate": 1.5619044015725488e-06,
      "loss": 0.90159941,
      "num_input_tokens_seen": 104554745,
      "step": 4850,
      "time_per_iteration": 2.683725595474243
    },
    {
      "auxiliary_loss_clip": 0.01186858,
      "auxiliary_loss_mlp": 0.01033741,
      "balance_loss_clip": 1.0550487,
      "balance_loss_mlp": 1.02504468,
      "epoch": 0.5832982624902303,
      "flos": 14756988049920.0,
      "grad_norm": 9.123431869939452,
      "language_loss": 0.86926997,
      "learning_rate": 1.5611443811787224e-06,
      "loss": 0.89147592,
      "num_input_tokens_seen": 104568870,
      "step": 4851,
      "time_per_iteration": 2.5805671215057373
    },
    {
      "auxiliary_loss_clip": 0.01169551,
      "auxiliary_loss_mlp": 0.01029473,
      "balance_loss_clip": 1.05210209,
      "balance_loss_mlp": 1.02136111,
      "epoch": 0.5834185053808694,
      "flos": 20444555376000.0,
      "grad_norm": 2.1001707449839486,
      "language_loss": 0.69094789,
      "learning_rate": 1.560384427358945e-06,
      "loss": 0.71293807,
      "num_input_tokens_seen": 104588415,
      "step": 4852,
      "time_per_iteration": 2.6608965396881104
    },
    {
      "auxiliary_loss_clip": 0.011528,
      "auxiliary_loss_mlp": 0.01026764,
      "balance_loss_clip": 1.04287791,
      "balance_loss_mlp": 1.01863968,
      "epoch": 0.5835387482715084,
      "flos": 27200394115200.0,
      "grad_norm": 1.5241281377052622,
      "language_loss": 0.72890741,
      "learning_rate": 1.5596245402284998e-06,
      "loss": 0.7507031,
      "num_input_tokens_seen": 104611940,
      "step": 4853,
      "time_per_iteration": 2.7667171955108643
    },
    {
      "auxiliary_loss_clip": 0.01173664,
      "auxiliary_loss_mlp": 0.01030468,
      "balance_loss_clip": 1.05408061,
      "balance_loss_mlp": 1.02272499,
      "epoch": 0.5836589911621476,
      "flos": 16654615562880.0,
      "grad_norm": 1.6377052813067257,
      "language_loss": 0.82070369,
      "learning_rate": 1.5588647199026619e-06,
      "loss": 0.84274501,
      "num_input_tokens_seen": 104629675,
      "step": 4854,
      "time_per_iteration": 2.647813558578491
    },
    {
      "auxiliary_loss_clip": 0.01182466,
      "auxiliary_loss_mlp": 0.01033226,
      "balance_loss_clip": 1.05286503,
      "balance_loss_mlp": 1.02460742,
      "epoch": 0.5837792340527866,
      "flos": 20446817932800.0,
      "grad_norm": 2.9562544766437386,
      "language_loss": 0.87571931,
      "learning_rate": 1.5581049664966956e-06,
      "loss": 0.89787614,
      "num_input_tokens_seen": 104647435,
      "step": 4855,
      "time_per_iteration": 2.5611445903778076
    },
    {
      "auxiliary_loss_clip": 0.01047017,
      "auxiliary_loss_mlp": 0.01002481,
      "balance_loss_clip": 1.01295292,
      "balance_loss_mlp": 1.00134277,
      "epoch": 0.5838994769434257,
      "flos": 65995480765440.0,
      "grad_norm": 0.9954873292438459,
      "language_loss": 0.65113533,
      "learning_rate": 1.5573452801258545e-06,
      "loss": 0.67163026,
      "num_input_tokens_seen": 104694605,
      "step": 4856,
      "time_per_iteration": 3.239309310913086
    },
    {
      "auxiliary_loss_clip": 0.01176621,
      "auxiliary_loss_mlp": 0.01034957,
      "balance_loss_clip": 1.0513196,
      "balance_loss_mlp": 1.02651072,
      "epoch": 0.5840197198340649,
      "flos": 21470523546240.0,
      "grad_norm": 2.054365326150176,
      "language_loss": 0.63800299,
      "learning_rate": 1.5565856609053824e-06,
      "loss": 0.66011882,
      "num_input_tokens_seen": 104713400,
      "step": 4857,
      "time_per_iteration": 2.781754970550537
    },
    {
      "auxiliary_loss_clip": 0.01180001,
      "auxiliary_loss_mlp": 0.01032923,
      "balance_loss_clip": 1.0514425,
      "balance_loss_mlp": 1.0246861,
      "epoch": 0.5841399627247039,
      "flos": 19135144984320.0,
      "grad_norm": 1.961440143846312,
      "language_loss": 0.80346692,
      "learning_rate": 1.5558261089505127e-06,
      "loss": 0.82559609,
      "num_input_tokens_seen": 104732130,
      "step": 4858,
      "time_per_iteration": 2.7116615772247314
    },
    {
      "auxiliary_loss_clip": 0.0117092,
      "auxiliary_loss_mlp": 0.01029557,
      "balance_loss_clip": 1.05202377,
      "balance_loss_mlp": 1.02118254,
      "epoch": 0.584260205615343,
      "flos": 26425692558720.0,
      "grad_norm": 2.5036263655198976,
      "language_loss": 0.79511654,
      "learning_rate": 1.5550666243764697e-06,
      "loss": 0.81712127,
      "num_input_tokens_seen": 104750290,
      "step": 4859,
      "time_per_iteration": 2.6821682453155518
    },
    {
      "auxiliary_loss_clip": 0.01169166,
      "auxiliary_loss_mlp": 0.01026638,
      "balance_loss_clip": 1.04990304,
      "balance_loss_mlp": 1.0182817,
      "epoch": 0.584380448505982,
      "flos": 13881809174400.0,
      "grad_norm": 2.5668972821753764,
      "language_loss": 0.7750864,
      "learning_rate": 1.554307207298465e-06,
      "loss": 0.7970444,
      "num_input_tokens_seen": 104768550,
      "step": 4860,
      "time_per_iteration": 2.635972261428833
    },
    {
      "auxiliary_loss_clip": 0.01182285,
      "auxiliary_loss_mlp": 0.01035259,
      "balance_loss_clip": 1.05175567,
      "balance_loss_mlp": 1.02559161,
      "epoch": 0.5845006913966212,
      "flos": 21543709507200.0,
      "grad_norm": 2.2917142303627687,
      "language_loss": 0.79052675,
      "learning_rate": 1.553547857831704e-06,
      "loss": 0.81270218,
      "num_input_tokens_seen": 104785060,
      "step": 4861,
      "time_per_iteration": 2.609773635864258
    },
    {
      "auxiliary_loss_clip": 0.01071448,
      "auxiliary_loss_mlp": 0.01001777,
      "balance_loss_clip": 1.01209426,
      "balance_loss_mlp": 1.00077581,
      "epoch": 0.5846209342872603,
      "flos": 58375452712320.0,
      "grad_norm": 0.8973203200199802,
      "language_loss": 0.64143342,
      "learning_rate": 1.5527885760913771e-06,
      "loss": 0.66216564,
      "num_input_tokens_seen": 104834950,
      "step": 4862,
      "time_per_iteration": 3.0261592864990234
    },
    {
      "auxiliary_loss_clip": 0.01159532,
      "auxiliary_loss_mlp": 0.01027296,
      "balance_loss_clip": 1.05107331,
      "balance_loss_mlp": 1.01925492,
      "epoch": 0.5847411771778993,
      "flos": 18588045957120.0,
      "grad_norm": 1.7121136070554352,
      "language_loss": 0.76946884,
      "learning_rate": 1.552029362192668e-06,
      "loss": 0.79133713,
      "num_input_tokens_seen": 104854210,
      "step": 4863,
      "time_per_iteration": 3.6163337230682373
    },
    {
      "auxiliary_loss_clip": 0.01147522,
      "auxiliary_loss_mlp": 0.01033295,
      "balance_loss_clip": 1.04850221,
      "balance_loss_mlp": 1.02481318,
      "epoch": 0.5848614200685385,
      "flos": 24240780069120.0,
      "grad_norm": 2.218310853450635,
      "language_loss": 0.72189569,
      "learning_rate": 1.5512702162507478e-06,
      "loss": 0.74370384,
      "num_input_tokens_seen": 104874525,
      "step": 4864,
      "time_per_iteration": 2.724870443344116
    },
    {
      "auxiliary_loss_clip": 0.01058067,
      "auxiliary_loss_mlp": 0.01001557,
      "balance_loss_clip": 1.01154923,
      "balance_loss_mlp": 1.00051403,
      "epoch": 0.5849816629591775,
      "flos": 71660245933440.0,
      "grad_norm": 1.1076208363677225,
      "language_loss": 0.55812633,
      "learning_rate": 1.5505111383807792e-06,
      "loss": 0.57872254,
      "num_input_tokens_seen": 104937195,
      "step": 4865,
      "time_per_iteration": 3.287783145904541
    },
    {
      "auxiliary_loss_clip": 0.0114224,
      "auxiliary_loss_mlp": 0.01026541,
      "balance_loss_clip": 1.04359901,
      "balance_loss_mlp": 1.01801133,
      "epoch": 0.5851019058498166,
      "flos": 23802095266560.0,
      "grad_norm": 1.7194795943468943,
      "language_loss": 0.80540198,
      "learning_rate": 1.5497521286979138e-06,
      "loss": 0.82708979,
      "num_input_tokens_seen": 104957435,
      "step": 4866,
      "time_per_iteration": 3.717845916748047
    },
    {
      "auxiliary_loss_clip": 0.01153855,
      "auxiliary_loss_mlp": 0.01030642,
      "balance_loss_clip": 1.04504097,
      "balance_loss_mlp": 1.02182603,
      "epoch": 0.5852221487404557,
      "flos": 24388516707840.0,
      "grad_norm": 2.0512424893509453,
      "language_loss": 0.74395347,
      "learning_rate": 1.5489931873172927e-06,
      "loss": 0.76579845,
      "num_input_tokens_seen": 104978755,
      "step": 4867,
      "time_per_iteration": 2.746955633163452
    },
    {
      "auxiliary_loss_clip": 0.01114614,
      "auxiliary_loss_mlp": 0.01033253,
      "balance_loss_clip": 1.03812671,
      "balance_loss_mlp": 1.02462268,
      "epoch": 0.5853423916310948,
      "flos": 27271425260160.0,
      "grad_norm": 1.6680940802218232,
      "language_loss": 0.79384822,
      "learning_rate": 1.5482343143540467e-06,
      "loss": 0.81532693,
      "num_input_tokens_seen": 105000020,
      "step": 4868,
      "time_per_iteration": 2.8301570415496826
    },
    {
      "auxiliary_loss_clip": 0.01153162,
      "auxiliary_loss_mlp": 0.00886676,
      "balance_loss_clip": 1.04624033,
      "balance_loss_mlp": 1.00049865,
      "epoch": 0.5854626345217339,
      "flos": 11983786611840.0,
      "grad_norm": 2.161823659896399,
      "language_loss": 0.82574421,
      "learning_rate": 1.547475509923295e-06,
      "loss": 0.84614259,
      "num_input_tokens_seen": 105017060,
      "step": 4869,
      "time_per_iteration": 2.6599230766296387
    },
    {
      "auxiliary_loss_clip": 0.01051107,
      "auxiliary_loss_mlp": 0.01002542,
      "balance_loss_clip": 1.01271784,
      "balance_loss_mlp": 1.00154042,
      "epoch": 0.585582877412373,
      "flos": 64342335173760.0,
      "grad_norm": 0.7206582099419974,
      "language_loss": 0.56008863,
      "learning_rate": 1.5467167741401495e-06,
      "loss": 0.58062518,
      "num_input_tokens_seen": 105078540,
      "step": 4870,
      "time_per_iteration": 4.13996696472168
    },
    {
      "auxiliary_loss_clip": 0.01159678,
      "auxiliary_loss_mlp": 0.01034852,
      "balance_loss_clip": 1.04681849,
      "balance_loss_mlp": 1.02644205,
      "epoch": 0.5857031203030121,
      "flos": 17011926103680.0,
      "grad_norm": 2.0616900199631645,
      "language_loss": 0.7107327,
      "learning_rate": 1.5459581071197083e-06,
      "loss": 0.73267806,
      "num_input_tokens_seen": 105094200,
      "step": 4871,
      "time_per_iteration": 2.7363414764404297
    },
    {
      "auxiliary_loss_clip": 0.01177281,
      "auxiliary_loss_mlp": 0.01035247,
      "balance_loss_clip": 1.05621219,
      "balance_loss_mlp": 1.02694392,
      "epoch": 0.5858233631936511,
      "flos": 20885682303360.0,
      "grad_norm": 2.521592724344283,
      "language_loss": 0.83253241,
      "learning_rate": 1.5451995089770624e-06,
      "loss": 0.85465771,
      "num_input_tokens_seen": 105113985,
      "step": 4872,
      "time_per_iteration": 2.71360182762146
    },
    {
      "auxiliary_loss_clip": 0.01177874,
      "auxiliary_loss_mlp": 0.0102764,
      "balance_loss_clip": 1.05103993,
      "balance_loss_mlp": 1.01970088,
      "epoch": 0.5859436060842903,
      "flos": 23191902000000.0,
      "grad_norm": 1.3699082443757244,
      "language_loss": 0.72137129,
      "learning_rate": 1.5444409798272885e-06,
      "loss": 0.74342644,
      "num_input_tokens_seen": 105138075,
      "step": 4873,
      "time_per_iteration": 2.751394748687744
    },
    {
      "auxiliary_loss_clip": 0.01149684,
      "auxiliary_loss_mlp": 0.01027445,
      "balance_loss_clip": 1.04485106,
      "balance_loss_mlp": 1.01914167,
      "epoch": 0.5860638489749294,
      "flos": 22492648961280.0,
      "grad_norm": 2.289464115127323,
      "language_loss": 0.80910528,
      "learning_rate": 1.543682519785456e-06,
      "loss": 0.83087659,
      "num_input_tokens_seen": 105156555,
      "step": 4874,
      "time_per_iteration": 2.7242350578308105
    },
    {
      "auxiliary_loss_clip": 0.01160428,
      "auxiliary_loss_mlp": 0.01028653,
      "balance_loss_clip": 1.04817915,
      "balance_loss_mlp": 1.02074325,
      "epoch": 0.5861840918655684,
      "flos": 17566243764480.0,
      "grad_norm": 2.921051716498221,
      "language_loss": 0.80522573,
      "learning_rate": 1.5429241289666219e-06,
      "loss": 0.82711655,
      "num_input_tokens_seen": 105174055,
      "step": 4875,
      "time_per_iteration": 3.547776460647583
    },
    {
      "auxiliary_loss_clip": 0.01153415,
      "auxiliary_loss_mlp": 0.01029893,
      "balance_loss_clip": 1.04737902,
      "balance_loss_mlp": 1.02196598,
      "epoch": 0.5863043347562076,
      "flos": 25556152118400.0,
      "grad_norm": 1.9480425624951918,
      "language_loss": 0.69665807,
      "learning_rate": 1.5421658074858342e-06,
      "loss": 0.71849114,
      "num_input_tokens_seen": 105192160,
      "step": 4876,
      "time_per_iteration": 2.7068111896514893
    },
    {
      "auxiliary_loss_clip": 0.01155974,
      "auxiliary_loss_mlp": 0.01035362,
      "balance_loss_clip": 1.04877234,
      "balance_loss_mlp": 1.02625489,
      "epoch": 0.5864245776468466,
      "flos": 20667525050880.0,
      "grad_norm": 3.8240761175005336,
      "language_loss": 0.66426885,
      "learning_rate": 1.5414075554581298e-06,
      "loss": 0.68618226,
      "num_input_tokens_seen": 105210205,
      "step": 4877,
      "time_per_iteration": 2.6669514179229736
    },
    {
      "auxiliary_loss_clip": 0.01181161,
      "auxiliary_loss_mlp": 0.0102497,
      "balance_loss_clip": 1.05130899,
      "balance_loss_mlp": 1.01655388,
      "epoch": 0.5865448205374857,
      "flos": 28913907490560.0,
      "grad_norm": 2.5467677147400254,
      "language_loss": 0.78559875,
      "learning_rate": 1.5406493729985348e-06,
      "loss": 0.80766004,
      "num_input_tokens_seen": 105229400,
      "step": 4878,
      "time_per_iteration": 2.6923279762268066
    },
    {
      "auxiliary_loss_clip": 0.01148548,
      "auxiliary_loss_mlp": 0.00887744,
      "balance_loss_clip": 1.04799426,
      "balance_loss_mlp": 1.00058746,
      "epoch": 0.5866650634281249,
      "flos": 25842575168640.0,
      "grad_norm": 2.0049530903114525,
      "language_loss": 0.71894467,
      "learning_rate": 1.5398912602220644e-06,
      "loss": 0.73930752,
      "num_input_tokens_seen": 105248675,
      "step": 4879,
      "time_per_iteration": 2.7777485847473145
    },
    {
      "auxiliary_loss_clip": 0.01155181,
      "auxiliary_loss_mlp": 0.01030283,
      "balance_loss_clip": 1.04695606,
      "balance_loss_mlp": 1.02190912,
      "epoch": 0.5867853063187639,
      "flos": 17052325925760.0,
      "grad_norm": 2.8759235744217024,
      "language_loss": 0.78526032,
      "learning_rate": 1.539133217243724e-06,
      "loss": 0.80711496,
      "num_input_tokens_seen": 105265695,
      "step": 4880,
      "time_per_iteration": 2.8175253868103027
    },
    {
      "auxiliary_loss_clip": 0.01155657,
      "auxiliary_loss_mlp": 0.01035374,
      "balance_loss_clip": 1.04726708,
      "balance_loss_mlp": 1.0266,
      "epoch": 0.586905549209403,
      "flos": 24645026707200.0,
      "grad_norm": 2.1231384320606677,
      "language_loss": 0.7636162,
      "learning_rate": 1.5383752441785081e-06,
      "loss": 0.78552651,
      "num_input_tokens_seen": 105284920,
      "step": 4881,
      "time_per_iteration": 2.775797128677368
    },
    {
      "auxiliary_loss_clip": 0.01178909,
      "auxiliary_loss_mlp": 0.01032442,
      "balance_loss_clip": 1.05396366,
      "balance_loss_mlp": 1.02420425,
      "epoch": 0.5870257921000421,
      "flos": 14720538723840.0,
      "grad_norm": 2.0733702913112064,
      "language_loss": 0.86229408,
      "learning_rate": 1.5376173411414003e-06,
      "loss": 0.88440752,
      "num_input_tokens_seen": 105302960,
      "step": 4882,
      "time_per_iteration": 2.6761693954467773
    },
    {
      "auxiliary_loss_clip": 0.01158528,
      "auxiliary_loss_mlp": 0.01035112,
      "balance_loss_clip": 1.04395533,
      "balance_loss_mlp": 1.02670217,
      "epoch": 0.5871460349906812,
      "flos": 23914998691200.0,
      "grad_norm": 2.500735260694711,
      "language_loss": 0.79239517,
      "learning_rate": 1.5368595082473753e-06,
      "loss": 0.81433165,
      "num_input_tokens_seen": 105321260,
      "step": 4883,
      "time_per_iteration": 2.7142586708068848
    },
    {
      "auxiliary_loss_clip": 0.01172497,
      "auxiliary_loss_mlp": 0.0102837,
      "balance_loss_clip": 1.04905272,
      "balance_loss_mlp": 1.02025151,
      "epoch": 0.5872662778813202,
      "flos": 22164174063360.0,
      "grad_norm": 1.7789596773310998,
      "language_loss": 0.77961683,
      "learning_rate": 1.5361017456113935e-06,
      "loss": 0.80162549,
      "num_input_tokens_seen": 105341610,
      "step": 4884,
      "time_per_iteration": 2.686105251312256
    },
    {
      "auxiliary_loss_clip": 0.01171419,
      "auxiliary_loss_mlp": 0.01032585,
      "balance_loss_clip": 1.04810071,
      "balance_loss_mlp": 1.02354896,
      "epoch": 0.5873865207719594,
      "flos": 18441925430400.0,
      "grad_norm": 2.077441158890187,
      "language_loss": 0.85563087,
      "learning_rate": 1.5353440533484085e-06,
      "loss": 0.87767094,
      "num_input_tokens_seen": 105360465,
      "step": 4885,
      "time_per_iteration": 2.667274236679077
    },
    {
      "auxiliary_loss_clip": 0.01163895,
      "auxiliary_loss_mlp": 0.01032716,
      "balance_loss_clip": 1.05021882,
      "balance_loss_mlp": 1.02427554,
      "epoch": 0.5875067636625985,
      "flos": 54015321427200.0,
      "grad_norm": 1.775456437860472,
      "language_loss": 0.65791428,
      "learning_rate": 1.534586431573361e-06,
      "loss": 0.67988044,
      "num_input_tokens_seen": 105385405,
      "step": 4886,
      "time_per_iteration": 2.965813398361206
    },
    {
      "auxiliary_loss_clip": 0.01133089,
      "auxiliary_loss_mlp": 0.0104055,
      "balance_loss_clip": 1.0433054,
      "balance_loss_mlp": 1.03107858,
      "epoch": 0.5876270065532375,
      "flos": 27995707100160.0,
      "grad_norm": 2.2049964465722796,
      "language_loss": 0.79039973,
      "learning_rate": 1.5338288804011817e-06,
      "loss": 0.81213611,
      "num_input_tokens_seen": 105404905,
      "step": 4887,
      "time_per_iteration": 3.0500528812408447
    },
    {
      "auxiliary_loss_clip": 0.01157923,
      "auxiliary_loss_mlp": 0.01030218,
      "balance_loss_clip": 1.04606295,
      "balance_loss_mlp": 1.02110744,
      "epoch": 0.5877472494438767,
      "flos": 21361462876800.0,
      "grad_norm": 1.96673479990648,
      "language_loss": 0.71268547,
      "learning_rate": 1.533071399946791e-06,
      "loss": 0.73456687,
      "num_input_tokens_seen": 105423650,
      "step": 4888,
      "time_per_iteration": 2.7237863540649414
    },
    {
      "auxiliary_loss_clip": 0.01163621,
      "auxiliary_loss_mlp": 0.01030602,
      "balance_loss_clip": 1.04857922,
      "balance_loss_mlp": 1.02252519,
      "epoch": 0.5878674923345157,
      "flos": 22383013674240.0,
      "grad_norm": 2.182996144022098,
      "language_loss": 0.57492721,
      "learning_rate": 1.5323139903250977e-06,
      "loss": 0.59686941,
      "num_input_tokens_seen": 105444255,
      "step": 4889,
      "time_per_iteration": 3.6824309825897217
    },
    {
      "auxiliary_loss_clip": 0.011661,
      "auxiliary_loss_mlp": 0.01031869,
      "balance_loss_clip": 1.0525403,
      "balance_loss_mlp": 1.02376318,
      "epoch": 0.5879877352251548,
      "flos": 21868664872320.0,
      "grad_norm": 1.545600898619093,
      "language_loss": 0.77368194,
      "learning_rate": 1.5315566516510002e-06,
      "loss": 0.79566157,
      "num_input_tokens_seen": 105462425,
      "step": 4890,
      "time_per_iteration": 2.713235378265381
    },
    {
      "auxiliary_loss_clip": 0.01179167,
      "auxiliary_loss_mlp": 0.01027393,
      "balance_loss_clip": 1.05065608,
      "balance_loss_mlp": 1.01855338,
      "epoch": 0.5881079781157939,
      "flos": 17493811989120.0,
      "grad_norm": 5.547326775519268,
      "language_loss": 0.67801166,
      "learning_rate": 1.5307993840393857e-06,
      "loss": 0.70007724,
      "num_input_tokens_seen": 105480505,
      "step": 4891,
      "time_per_iteration": 2.6151692867279053
    },
    {
      "auxiliary_loss_clip": 0.0117765,
      "auxiliary_loss_mlp": 0.01028602,
      "balance_loss_clip": 1.04973233,
      "balance_loss_mlp": 1.02062118,
      "epoch": 0.588228221006433,
      "flos": 22601853285120.0,
      "grad_norm": 4.078875812209051,
      "language_loss": 0.80720252,
      "learning_rate": 1.530042187605132e-06,
      "loss": 0.829265,
      "num_input_tokens_seen": 105499760,
      "step": 4892,
      "time_per_iteration": 2.609363317489624
    },
    {
      "auxiliary_loss_clip": 0.01172802,
      "auxiliary_loss_mlp": 0.0088645,
      "balance_loss_clip": 1.0505631,
      "balance_loss_mlp": 1.00058317,
      "epoch": 0.5883484638970721,
      "flos": 26176939896960.0,
      "grad_norm": 1.55568161540515,
      "language_loss": 0.84244132,
      "learning_rate": 1.5292850624631044e-06,
      "loss": 0.86303377,
      "num_input_tokens_seen": 105521955,
      "step": 4893,
      "time_per_iteration": 3.4756085872650146
    },
    {
      "auxiliary_loss_clip": 0.01169007,
      "auxiliary_loss_mlp": 0.01029335,
      "balance_loss_clip": 1.05115438,
      "balance_loss_mlp": 1.02134228,
      "epoch": 0.5884687067877111,
      "flos": 30443737691520.0,
      "grad_norm": 2.9927420061425325,
      "language_loss": 0.8019129,
      "learning_rate": 1.5285280087281593e-06,
      "loss": 0.82389635,
      "num_input_tokens_seen": 105542685,
      "step": 4894,
      "time_per_iteration": 2.677833080291748
    },
    {
      "auxiliary_loss_clip": 0.01061567,
      "auxiliary_loss_mlp": 0.01001306,
      "balance_loss_clip": 1.01236296,
      "balance_loss_mlp": 1.0002867,
      "epoch": 0.5885889496783503,
      "flos": 70507550580480.0,
      "grad_norm": 0.6459300217002459,
      "language_loss": 0.56570232,
      "learning_rate": 1.5277710265151398e-06,
      "loss": 0.58633101,
      "num_input_tokens_seen": 105612165,
      "step": 4895,
      "time_per_iteration": 4.384997367858887
    },
    {
      "auxiliary_loss_clip": 0.01171201,
      "auxiliary_loss_mlp": 0.01034456,
      "balance_loss_clip": 1.04968214,
      "balance_loss_mlp": 1.02527714,
      "epoch": 0.5887091925689893,
      "flos": 19098767485440.0,
      "grad_norm": 2.6722544099276826,
      "language_loss": 0.77102268,
      "learning_rate": 1.5270141159388803e-06,
      "loss": 0.79307926,
      "num_input_tokens_seen": 105629185,
      "step": 4896,
      "time_per_iteration": 2.6060116291046143
    },
    {
      "auxiliary_loss_clip": 0.01177863,
      "auxiliary_loss_mlp": 0.0103361,
      "balance_loss_clip": 1.04891467,
      "balance_loss_mlp": 1.02548027,
      "epoch": 0.5888294354596284,
      "flos": 23294282739840.0,
      "grad_norm": 1.6923543072145155,
      "language_loss": 0.80291235,
      "learning_rate": 1.526257277114203e-06,
      "loss": 0.82502711,
      "num_input_tokens_seen": 105650260,
      "step": 4897,
      "time_per_iteration": 2.666839361190796
    },
    {
      "auxiliary_loss_clip": 0.01158836,
      "auxiliary_loss_mlp": 0.01029885,
      "balance_loss_clip": 1.05131578,
      "balance_loss_mlp": 1.0213083,
      "epoch": 0.5889496783502676,
      "flos": 21981532383360.0,
      "grad_norm": 1.849967862835847,
      "language_loss": 0.79765511,
      "learning_rate": 1.5255005101559201e-06,
      "loss": 0.81954229,
      "num_input_tokens_seen": 105667870,
      "step": 4898,
      "time_per_iteration": 2.6935698986053467
    },
    {
      "auxiliary_loss_clip": 0.01174856,
      "auxiliary_loss_mlp": 0.01031713,
      "balance_loss_clip": 1.0506351,
      "balance_loss_mlp": 1.02383935,
      "epoch": 0.5890699212409066,
      "flos": 21685233093120.0,
      "grad_norm": 2.0847169991514622,
      "language_loss": 0.76871198,
      "learning_rate": 1.524743815178833e-06,
      "loss": 0.79077762,
      "num_input_tokens_seen": 105685830,
      "step": 4899,
      "time_per_iteration": 2.6592798233032227
    },
    {
      "auxiliary_loss_clip": 0.01161274,
      "auxiliary_loss_mlp": 0.01029541,
      "balance_loss_clip": 1.04568338,
      "balance_loss_mlp": 1.02133322,
      "epoch": 0.5891901641315457,
      "flos": 19464553635840.0,
      "grad_norm": 2.3864968442358943,
      "language_loss": 0.80326432,
      "learning_rate": 1.5239871922977315e-06,
      "loss": 0.82517248,
      "num_input_tokens_seen": 105705745,
      "step": 4900,
      "time_per_iteration": 2.7398433685302734
    },
    {
      "auxiliary_loss_clip": 0.01158028,
      "auxiliary_loss_mlp": 0.01026531,
      "balance_loss_clip": 1.04586411,
      "balance_loss_mlp": 1.01896691,
      "epoch": 0.5893104070221848,
      "flos": 19609884063360.0,
      "grad_norm": 1.7513238315516726,
      "language_loss": 0.8970263,
      "learning_rate": 1.523230641627394e-06,
      "loss": 0.91887194,
      "num_input_tokens_seen": 105724730,
      "step": 4901,
      "time_per_iteration": 3.5308477878570557
    },
    {
      "auxiliary_loss_clip": 0.01142772,
      "auxiliary_loss_mlp": 0.01028762,
      "balance_loss_clip": 1.04019809,
      "balance_loss_mlp": 1.02104902,
      "epoch": 0.5894306499128239,
      "flos": 29060063930880.0,
      "grad_norm": 2.2167894041950404,
      "language_loss": 0.72816324,
      "learning_rate": 1.5224741632825888e-06,
      "loss": 0.74987853,
      "num_input_tokens_seen": 105744920,
      "step": 4902,
      "time_per_iteration": 2.8331949710845947
    },
    {
      "auxiliary_loss_clip": 0.01186183,
      "auxiliary_loss_mlp": 0.01030787,
      "balance_loss_clip": 1.05515504,
      "balance_loss_mlp": 1.02210903,
      "epoch": 0.589550892803463,
      "flos": 42298890721920.0,
      "grad_norm": 1.7784022484768018,
      "language_loss": 0.69459295,
      "learning_rate": 1.521717757378074e-06,
      "loss": 0.71676266,
      "num_input_tokens_seen": 105765465,
      "step": 4903,
      "time_per_iteration": 2.841280937194824
    },
    {
      "auxiliary_loss_clip": 0.01176351,
      "auxiliary_loss_mlp": 0.01028037,
      "balance_loss_clip": 1.0509932,
      "balance_loss_mlp": 1.01919174,
      "epoch": 0.5896711356941021,
      "flos": 14137062197760.0,
      "grad_norm": 2.0692972684969244,
      "language_loss": 0.69277602,
      "learning_rate": 1.5209614240285943e-06,
      "loss": 0.71481991,
      "num_input_tokens_seen": 105783120,
      "step": 4904,
      "time_per_iteration": 2.755711078643799
    },
    {
      "auxiliary_loss_clip": 0.0117913,
      "auxiliary_loss_mlp": 0.00887748,
      "balance_loss_clip": 1.04984856,
      "balance_loss_mlp": 1.00059056,
      "epoch": 0.5897913785847412,
      "flos": 17201355454080.0,
      "grad_norm": 3.5621795309208366,
      "language_loss": 0.8453998,
      "learning_rate": 1.520205163348887e-06,
      "loss": 0.8660686,
      "num_input_tokens_seen": 105801055,
      "step": 4905,
      "time_per_iteration": 2.6247034072875977
    },
    {
      "auxiliary_loss_clip": 0.01056909,
      "auxiliary_loss_mlp": 0.01002013,
      "balance_loss_clip": 1.01130402,
      "balance_loss_mlp": 1.00090408,
      "epoch": 0.5899116214753802,
      "flos": 48794164202880.0,
      "grad_norm": 0.7270863733995846,
      "language_loss": 0.56932962,
      "learning_rate": 1.519448975453674e-06,
      "loss": 0.58991885,
      "num_input_tokens_seen": 105856155,
      "step": 4906,
      "time_per_iteration": 3.1533639430999756
    },
    {
      "auxiliary_loss_clip": 0.0117327,
      "auxiliary_loss_mlp": 0.0088729,
      "balance_loss_clip": 1.05429411,
      "balance_loss_mlp": 1.00061917,
      "epoch": 0.5900318643660194,
      "flos": 21103659987840.0,
      "grad_norm": 2.426367629511541,
      "language_loss": 0.76354867,
      "learning_rate": 1.5186928604576696e-06,
      "loss": 0.7841543,
      "num_input_tokens_seen": 105873350,
      "step": 4907,
      "time_per_iteration": 2.7113876342773438
    },
    {
      "auxiliary_loss_clip": 0.01159638,
      "auxiliary_loss_mlp": 0.01026643,
      "balance_loss_clip": 1.04670811,
      "balance_loss_mlp": 1.01867938,
      "epoch": 0.5901521072566585,
      "flos": 21178390233600.0,
      "grad_norm": 2.2350654022604646,
      "language_loss": 0.77376175,
      "learning_rate": 1.5179368184755752e-06,
      "loss": 0.79562455,
      "num_input_tokens_seen": 105891435,
      "step": 4908,
      "time_per_iteration": 2.711148738861084
    },
    {
      "auxiliary_loss_clip": 0.01162276,
      "auxiliary_loss_mlp": 0.01034791,
      "balance_loss_clip": 1.05123079,
      "balance_loss_mlp": 1.02676821,
      "epoch": 0.5902723501472975,
      "flos": 20225967160320.0,
      "grad_norm": 1.4895956776032941,
      "language_loss": 0.82647407,
      "learning_rate": 1.5171808496220821e-06,
      "loss": 0.84844482,
      "num_input_tokens_seen": 105910190,
      "step": 4909,
      "time_per_iteration": 2.730069637298584
    },
    {
      "auxiliary_loss_clip": 0.01164049,
      "auxiliary_loss_mlp": 0.01024562,
      "balance_loss_clip": 1.04689503,
      "balance_loss_mlp": 1.01660442,
      "epoch": 0.5903925930379367,
      "flos": 22964407211520.0,
      "grad_norm": 2.3321977540068928,
      "language_loss": 0.81253862,
      "learning_rate": 1.5164249540118708e-06,
      "loss": 0.83442467,
      "num_input_tokens_seen": 105929315,
      "step": 4910,
      "time_per_iteration": 2.6764841079711914
    },
    {
      "auxiliary_loss_clip": 0.01136791,
      "auxiliary_loss_mlp": 0.01023994,
      "balance_loss_clip": 1.04363227,
      "balance_loss_mlp": 1.0154587,
      "epoch": 0.5905128359285757,
      "flos": 23367720096000.0,
      "grad_norm": 1.708540209046842,
      "language_loss": 0.83294606,
      "learning_rate": 1.5156691317596093e-06,
      "loss": 0.85455394,
      "num_input_tokens_seen": 105950740,
      "step": 4911,
      "time_per_iteration": 2.8923285007476807
    },
    {
      "auxiliary_loss_clip": 0.01174167,
      "auxiliary_loss_mlp": 0.00887087,
      "balance_loss_clip": 1.05082989,
      "balance_loss_mlp": 1.00058973,
      "epoch": 0.5906330788192148,
      "flos": 28032335994240.0,
      "grad_norm": 2.0762711746525175,
      "language_loss": 0.66606581,
      "learning_rate": 1.5149133829799556e-06,
      "loss": 0.68667841,
      "num_input_tokens_seen": 105968735,
      "step": 4912,
      "time_per_iteration": 2.7040939331054688
    },
    {
      "auxiliary_loss_clip": 0.011675,
      "auxiliary_loss_mlp": 0.01034155,
      "balance_loss_clip": 1.04769611,
      "balance_loss_mlp": 1.02573931,
      "epoch": 0.590753321709854,
      "flos": 18477943793280.0,
      "grad_norm": 2.110273144255856,
      "language_loss": 0.80369925,
      "learning_rate": 1.5141577077875556e-06,
      "loss": 0.82571584,
      "num_input_tokens_seen": 105986060,
      "step": 4913,
      "time_per_iteration": 2.709669589996338
    },
    {
      "auxiliary_loss_clip": 0.01175185,
      "auxiliary_loss_mlp": 0.01028888,
      "balance_loss_clip": 1.05091059,
      "balance_loss_mlp": 1.02073359,
      "epoch": 0.590873564600493,
      "flos": 16873706568960.0,
      "grad_norm": 1.9947788962345074,
      "language_loss": 0.7224189,
      "learning_rate": 1.5134021062970451e-06,
      "loss": 0.74445963,
      "num_input_tokens_seen": 106004440,
      "step": 4914,
      "time_per_iteration": 2.666964530944824
    },
    {
      "auxiliary_loss_clip": 0.01141244,
      "auxiliary_loss_mlp": 0.01027542,
      "balance_loss_clip": 1.04731739,
      "balance_loss_mlp": 1.01977587,
      "epoch": 0.5909938074911321,
      "flos": 13516166678400.0,
      "grad_norm": 1.8689238823513423,
      "language_loss": 0.80900466,
      "learning_rate": 1.5126465786230483e-06,
      "loss": 0.83069247,
      "num_input_tokens_seen": 106021215,
      "step": 4915,
      "time_per_iteration": 3.6678428649902344
    },
    {
      "auxiliary_loss_clip": 0.01182406,
      "auxiliary_loss_mlp": 0.01030138,
      "balance_loss_clip": 1.05331373,
      "balance_loss_mlp": 1.02248502,
      "epoch": 0.5911140503817712,
      "flos": 26024067613440.0,
      "grad_norm": 1.7906174924735108,
      "language_loss": 0.82058889,
      "learning_rate": 1.5118911248801787e-06,
      "loss": 0.84271431,
      "num_input_tokens_seen": 106039225,
      "step": 4916,
      "time_per_iteration": 2.6649117469787598
    },
    {
      "auxiliary_loss_clip": 0.01166346,
      "auxiliary_loss_mlp": 0.01024255,
      "balance_loss_clip": 1.04917026,
      "balance_loss_mlp": 1.01600552,
      "epoch": 0.5912342932724103,
      "flos": 23258731253760.0,
      "grad_norm": 2.0822330324631233,
      "language_loss": 0.7977879,
      "learning_rate": 1.5111357451830364e-06,
      "loss": 0.81969398,
      "num_input_tokens_seen": 106057920,
      "step": 4917,
      "time_per_iteration": 2.68391752243042
    },
    {
      "auxiliary_loss_clip": 0.01171285,
      "auxiliary_loss_mlp": 0.01029669,
      "balance_loss_clip": 1.04972279,
      "balance_loss_mlp": 1.02180731,
      "epoch": 0.5913545361630493,
      "flos": 19573039687680.0,
      "grad_norm": 1.8216059886822662,
      "language_loss": 0.71027839,
      "learning_rate": 1.5103804396462131e-06,
      "loss": 0.73228788,
      "num_input_tokens_seen": 106077855,
      "step": 4918,
      "time_per_iteration": 2.6574716567993164
    },
    {
      "auxiliary_loss_clip": 0.01173616,
      "auxiliary_loss_mlp": 0.01030638,
      "balance_loss_clip": 1.04818797,
      "balance_loss_mlp": 1.02181101,
      "epoch": 0.5914747790536885,
      "flos": 26213532877440.0,
      "grad_norm": 2.074156427335602,
      "language_loss": 0.80248058,
      "learning_rate": 1.5096252083842877e-06,
      "loss": 0.82452315,
      "num_input_tokens_seen": 106097065,
      "step": 4919,
      "time_per_iteration": 3.682633876800537
    },
    {
      "auxiliary_loss_clip": 0.011658,
      "auxiliary_loss_mlp": 0.01034392,
      "balance_loss_clip": 1.04574966,
      "balance_loss_mlp": 1.02571368,
      "epoch": 0.5915950219443276,
      "flos": 27417545786880.0,
      "grad_norm": 1.7301873396849858,
      "language_loss": 0.85279131,
      "learning_rate": 1.5088700515118285e-06,
      "loss": 0.87479329,
      "num_input_tokens_seen": 106116385,
      "step": 4920,
      "time_per_iteration": 2.6980655193328857
    },
    {
      "auxiliary_loss_clip": 0.0114575,
      "auxiliary_loss_mlp": 0.01028859,
      "balance_loss_clip": 1.04727542,
      "balance_loss_mlp": 1.0204432,
      "epoch": 0.5917152648349666,
      "flos": 21907879545600.0,
      "grad_norm": 2.145394676109204,
      "language_loss": 0.6651969,
      "learning_rate": 1.508114969143392e-06,
      "loss": 0.68694293,
      "num_input_tokens_seen": 106136370,
      "step": 4921,
      "time_per_iteration": 2.711911916732788
    },
    {
      "auxiliary_loss_clip": 0.01161254,
      "auxiliary_loss_mlp": 0.0102423,
      "balance_loss_clip": 1.04609251,
      "balance_loss_mlp": 1.01694632,
      "epoch": 0.5918355077256057,
      "flos": 28109185142400.0,
      "grad_norm": 1.5945562974225085,
      "language_loss": 0.7771914,
      "learning_rate": 1.5073599613935238e-06,
      "loss": 0.79904628,
      "num_input_tokens_seen": 106158490,
      "step": 4922,
      "time_per_iteration": 3.596726655960083
    },
    {
      "auxiliary_loss_clip": 0.01163225,
      "auxiliary_loss_mlp": 0.01025518,
      "balance_loss_clip": 1.04861152,
      "balance_loss_mlp": 1.01730418,
      "epoch": 0.5919557506162448,
      "flos": 28183807647360.0,
      "grad_norm": 1.8996212587441819,
      "language_loss": 0.57535374,
      "learning_rate": 1.5066050283767574e-06,
      "loss": 0.59724116,
      "num_input_tokens_seen": 106179170,
      "step": 4923,
      "time_per_iteration": 2.7289998531341553
    },
    {
      "auxiliary_loss_clip": 0.01160171,
      "auxiliary_loss_mlp": 0.01028047,
      "balance_loss_clip": 1.04969966,
      "balance_loss_mlp": 1.01988673,
      "epoch": 0.5920759935068839,
      "flos": 12094355652480.0,
      "grad_norm": 1.8890256305338686,
      "language_loss": 0.82727098,
      "learning_rate": 1.505850170207616e-06,
      "loss": 0.84915316,
      "num_input_tokens_seen": 106196035,
      "step": 4924,
      "time_per_iteration": 2.648116111755371
    },
    {
      "auxiliary_loss_clip": 0.0115863,
      "auxiliary_loss_mlp": 0.01027643,
      "balance_loss_clip": 1.04611564,
      "balance_loss_mlp": 1.01942956,
      "epoch": 0.592196236397523,
      "flos": 29424772673280.0,
      "grad_norm": 2.2538525185134595,
      "language_loss": 0.78054905,
      "learning_rate": 1.505095387000611e-06,
      "loss": 0.80241179,
      "num_input_tokens_seen": 106218335,
      "step": 4925,
      "time_per_iteration": 2.7518820762634277
    },
    {
      "auxiliary_loss_clip": 0.01154877,
      "auxiliary_loss_mlp": 0.01035537,
      "balance_loss_clip": 1.04915226,
      "balance_loss_mlp": 1.02765131,
      "epoch": 0.5923164792881621,
      "flos": 24384709866240.0,
      "grad_norm": 1.8961535118496045,
      "language_loss": 0.74130094,
      "learning_rate": 1.504340678870242e-06,
      "loss": 0.76320511,
      "num_input_tokens_seen": 106236550,
      "step": 4926,
      "time_per_iteration": 3.6001336574554443
    },
    {
      "auxiliary_loss_clip": 0.01168435,
      "auxiliary_loss_mlp": 0.01030911,
      "balance_loss_clip": 1.04985631,
      "balance_loss_mlp": 1.0225544,
      "epoch": 0.5924367221788012,
      "flos": 24024238928640.0,
      "grad_norm": 1.9347351127773535,
      "language_loss": 0.89769375,
      "learning_rate": 1.5035860459309989e-06,
      "loss": 0.91968721,
      "num_input_tokens_seen": 106254265,
      "step": 4927,
      "time_per_iteration": 2.6731150150299072
    },
    {
      "auxiliary_loss_clip": 0.01157519,
      "auxiliary_loss_mlp": 0.01032129,
      "balance_loss_clip": 1.04790306,
      "balance_loss_mlp": 1.02360582,
      "epoch": 0.5925569650694402,
      "flos": 26870590414080.0,
      "grad_norm": 1.7622495663536537,
      "language_loss": 0.63503271,
      "learning_rate": 1.5028314882973568e-06,
      "loss": 0.65692925,
      "num_input_tokens_seen": 106274670,
      "step": 4928,
      "time_per_iteration": 2.7963030338287354
    },
    {
      "auxiliary_loss_clip": 0.0116379,
      "auxiliary_loss_mlp": 0.01035325,
      "balance_loss_clip": 1.05144167,
      "balance_loss_mlp": 1.0269686,
      "epoch": 0.5926772079600794,
      "flos": 22302788647680.0,
      "grad_norm": 2.3099915476367614,
      "language_loss": 0.84706724,
      "learning_rate": 1.502077006083783e-06,
      "loss": 0.86905837,
      "num_input_tokens_seen": 106293330,
      "step": 4929,
      "time_per_iteration": 2.71924090385437
    },
    {
      "auxiliary_loss_clip": 0.01175565,
      "auxiliary_loss_mlp": 0.008866,
      "balance_loss_clip": 1.05157924,
      "balance_loss_mlp": 1.00052524,
      "epoch": 0.5927974508507184,
      "flos": 19865244827520.0,
      "grad_norm": 1.7364679664374798,
      "language_loss": 0.76929647,
      "learning_rate": 1.5013225994047315e-06,
      "loss": 0.78991807,
      "num_input_tokens_seen": 106310960,
      "step": 4930,
      "time_per_iteration": 2.7748005390167236
    },
    {
      "auxiliary_loss_clip": 0.01175227,
      "auxiliary_loss_mlp": 0.00887232,
      "balance_loss_clip": 1.05379224,
      "balance_loss_mlp": 1.00052583,
      "epoch": 0.5929176937413575,
      "flos": 15776743167360.0,
      "grad_norm": 1.612715143757833,
      "language_loss": 0.8050952,
      "learning_rate": 1.5005682683746452e-06,
      "loss": 0.82571971,
      "num_input_tokens_seen": 106329475,
      "step": 4931,
      "time_per_iteration": 2.6864821910858154
    },
    {
      "auxiliary_loss_clip": 0.0117143,
      "auxiliary_loss_mlp": 0.01034941,
      "balance_loss_clip": 1.05182886,
      "balance_loss_mlp": 1.02629805,
      "epoch": 0.5930379366319967,
      "flos": 17601472028160.0,
      "grad_norm": 2.0419873953832717,
      "language_loss": 0.72517198,
      "learning_rate": 1.4998140131079553e-06,
      "loss": 0.74723566,
      "num_input_tokens_seen": 106345565,
      "step": 4932,
      "time_per_iteration": 2.663421392440796
    },
    {
      "auxiliary_loss_clip": 0.01131406,
      "auxiliary_loss_mlp": 0.00886304,
      "balance_loss_clip": 1.04403937,
      "balance_loss_mlp": 1.00042486,
      "epoch": 0.5931581795226357,
      "flos": 17704283731200.0,
      "grad_norm": 1.8594319134987667,
      "language_loss": 0.73403108,
      "learning_rate": 1.4990598337190821e-06,
      "loss": 0.75420821,
      "num_input_tokens_seen": 106361920,
      "step": 4933,
      "time_per_iteration": 2.7412655353546143
    },
    {
      "auxiliary_loss_clip": 0.01180991,
      "auxiliary_loss_mlp": 0.00887509,
      "balance_loss_clip": 1.05117083,
      "balance_loss_mlp": 1.0005343,
      "epoch": 0.5932784224132748,
      "flos": 24280102483200.0,
      "grad_norm": 1.6095041889370314,
      "language_loss": 0.67739493,
      "learning_rate": 1.4983057303224338e-06,
      "loss": 0.69807994,
      "num_input_tokens_seen": 106381735,
      "step": 4934,
      "time_per_iteration": 2.6421384811401367
    },
    {
      "auxiliary_loss_clip": 0.01138759,
      "auxiliary_loss_mlp": 0.01029476,
      "balance_loss_clip": 1.04476786,
      "balance_loss_mlp": 1.02104187,
      "epoch": 0.5933986653039139,
      "flos": 22926700909440.0,
      "grad_norm": 1.8421886148754876,
      "language_loss": 0.87727237,
      "learning_rate": 1.4975517030324072e-06,
      "loss": 0.89895475,
      "num_input_tokens_seen": 106399745,
      "step": 4935,
      "time_per_iteration": 2.72835373878479
    },
    {
      "auxiliary_loss_clip": 0.01069241,
      "auxiliary_loss_mlp": 0.00875955,
      "balance_loss_clip": 1.01035249,
      "balance_loss_mlp": 1.00078321,
      "epoch": 0.593518908194553,
      "flos": 71121730256640.0,
      "grad_norm": 0.7836963505482831,
      "language_loss": 0.6178,
      "learning_rate": 1.4967977519633882e-06,
      "loss": 0.63725197,
      "num_input_tokens_seen": 106457205,
      "step": 4936,
      "time_per_iteration": 3.2950949668884277
    },
    {
      "auxiliary_loss_clip": 0.0114699,
      "auxiliary_loss_mlp": 0.01030199,
      "balance_loss_clip": 1.04591274,
      "balance_loss_mlp": 1.02170575,
      "epoch": 0.593639151085192,
      "flos": 20448649526400.0,
      "grad_norm": 1.8724139401160877,
      "language_loss": 0.78529704,
      "learning_rate": 1.4960438772297494e-06,
      "loss": 0.80706894,
      "num_input_tokens_seen": 106474250,
      "step": 4937,
      "time_per_iteration": 2.7808101177215576
    },
    {
      "auxiliary_loss_clip": 0.01161444,
      "auxiliary_loss_mlp": 0.01029682,
      "balance_loss_clip": 1.04521132,
      "balance_loss_mlp": 1.02122414,
      "epoch": 0.5937593939758312,
      "flos": 30883428074880.0,
      "grad_norm": 2.4498302296269725,
      "language_loss": 0.73861343,
      "learning_rate": 1.495290078945855e-06,
      "loss": 0.76052469,
      "num_input_tokens_seen": 106494015,
      "step": 4938,
      "time_per_iteration": 2.7233128547668457
    },
    {
      "auxiliary_loss_clip": 0.01180502,
      "auxiliary_loss_mlp": 0.01033816,
      "balance_loss_clip": 1.05268216,
      "balance_loss_mlp": 1.02620482,
      "epoch": 0.5938796368664703,
      "flos": 36898069668480.0,
      "grad_norm": 1.8378786865364518,
      "language_loss": 0.74373972,
      "learning_rate": 1.4945363572260529e-06,
      "loss": 0.76588297,
      "num_input_tokens_seen": 106515010,
      "step": 4939,
      "time_per_iteration": 2.7703566551208496
    },
    {
      "auxiliary_loss_clip": 0.01171517,
      "auxiliary_loss_mlp": 0.01032173,
      "balance_loss_clip": 1.05070603,
      "balance_loss_mlp": 1.02430534,
      "epoch": 0.5939998797571093,
      "flos": 23842926051840.0,
      "grad_norm": 4.128995193186593,
      "language_loss": 0.67969537,
      "learning_rate": 1.4937827121846845e-06,
      "loss": 0.70173228,
      "num_input_tokens_seen": 106535265,
      "step": 4940,
      "time_per_iteration": 3.6308300495147705
    },
    {
      "auxiliary_loss_clip": 0.01143862,
      "auxiliary_loss_mlp": 0.01031514,
      "balance_loss_clip": 1.04654193,
      "balance_loss_mlp": 1.02355123,
      "epoch": 0.5941201226477485,
      "flos": 25191407462400.0,
      "grad_norm": 1.5023932402086462,
      "language_loss": 0.73597151,
      "learning_rate": 1.4930291439360755e-06,
      "loss": 0.75772524,
      "num_input_tokens_seen": 106557830,
      "step": 4941,
      "time_per_iteration": 2.775470495223999
    },
    {
      "auxiliary_loss_clip": 0.01172242,
      "auxiliary_loss_mlp": 0.01026189,
      "balance_loss_clip": 1.05137575,
      "balance_loss_mlp": 1.01743329,
      "epoch": 0.5942403655383875,
      "flos": 22418996123520.0,
      "grad_norm": 2.634393144512283,
      "language_loss": 0.79115629,
      "learning_rate": 1.4922756525945427e-06,
      "loss": 0.81314063,
      "num_input_tokens_seen": 106577140,
      "step": 4942,
      "time_per_iteration": 2.6784157752990723
    },
    {
      "auxiliary_loss_clip": 0.01064877,
      "auxiliary_loss_mlp": 0.0100128,
      "balance_loss_clip": 1.01031506,
      "balance_loss_mlp": 1.00028467,
      "epoch": 0.5943606084290266,
      "flos": 67629310796160.0,
      "grad_norm": 0.7725251696574781,
      "language_loss": 0.59602153,
      "learning_rate": 1.4915222382743894e-06,
      "loss": 0.61668313,
      "num_input_tokens_seen": 106635975,
      "step": 4943,
      "time_per_iteration": 3.2618441581726074
    },
    {
      "auxiliary_loss_clip": 0.01171278,
      "auxiliary_loss_mlp": 0.01028529,
      "balance_loss_clip": 1.05234289,
      "balance_loss_mlp": 1.02031207,
      "epoch": 0.5944808513196658,
      "flos": 18223157646720.0,
      "grad_norm": 1.9502322028279713,
      "language_loss": 0.71860796,
      "learning_rate": 1.4907689010899085e-06,
      "loss": 0.74060607,
      "num_input_tokens_seen": 106653555,
      "step": 4944,
      "time_per_iteration": 2.65556001663208
    },
    {
      "auxiliary_loss_clip": 0.01164803,
      "auxiliary_loss_mlp": 0.01027765,
      "balance_loss_clip": 1.05030453,
      "balance_loss_mlp": 1.01954567,
      "epoch": 0.5946010942103048,
      "flos": 24790824011520.0,
      "grad_norm": 1.8461084917278217,
      "language_loss": 0.62604409,
      "learning_rate": 1.4900156411553804e-06,
      "loss": 0.64796978,
      "num_input_tokens_seen": 106673385,
      "step": 4945,
      "time_per_iteration": 3.7291371822357178
    },
    {
      "auxiliary_loss_clip": 0.01163991,
      "auxiliary_loss_mlp": 0.01027748,
      "balance_loss_clip": 1.0508014,
      "balance_loss_mlp": 1.01943946,
      "epoch": 0.5947213371009439,
      "flos": 15231619388160.0,
      "grad_norm": 2.38573891340596,
      "language_loss": 0.85695851,
      "learning_rate": 1.4892624585850739e-06,
      "loss": 0.87887585,
      "num_input_tokens_seen": 106691740,
      "step": 4946,
      "time_per_iteration": 2.6761484146118164
    },
    {
      "auxiliary_loss_clip": 0.01181708,
      "auxiliary_loss_mlp": 0.0102923,
      "balance_loss_clip": 1.05091619,
      "balance_loss_mlp": 1.0205636,
      "epoch": 0.594841579991583,
      "flos": 25848069949440.0,
      "grad_norm": 2.0569158953989697,
      "language_loss": 0.79700321,
      "learning_rate": 1.4885093534932465e-06,
      "loss": 0.81911254,
      "num_input_tokens_seen": 106709705,
      "step": 4947,
      "time_per_iteration": 2.656022787094116
    },
    {
      "auxiliary_loss_clip": 0.01161503,
      "auxiliary_loss_mlp": 0.01041834,
      "balance_loss_clip": 1.05199409,
      "balance_loss_mlp": 1.03326917,
      "epoch": 0.5949618228822221,
      "flos": 23981109672960.0,
      "grad_norm": 2.0395287877945605,
      "language_loss": 0.71032798,
      "learning_rate": 1.4877563259941433e-06,
      "loss": 0.73236138,
      "num_input_tokens_seen": 106727560,
      "step": 4948,
      "time_per_iteration": 3.6104629039764404
    },
    {
      "auxiliary_loss_clip": 0.01176837,
      "auxiliary_loss_mlp": 0.01027333,
      "balance_loss_clip": 1.05085874,
      "balance_loss_mlp": 1.01872015,
      "epoch": 0.5950820657728612,
      "flos": 40547491476480.0,
      "grad_norm": 2.7947222898577952,
      "language_loss": 0.67913389,
      "learning_rate": 1.4870033762019988e-06,
      "loss": 0.70117563,
      "num_input_tokens_seen": 106747725,
      "step": 4949,
      "time_per_iteration": 2.903001546859741
    },
    {
      "auxiliary_loss_clip": 0.01158839,
      "auxiliary_loss_mlp": 0.0103268,
      "balance_loss_clip": 1.04764414,
      "balance_loss_mlp": 1.02420402,
      "epoch": 0.5952023086635003,
      "flos": 23184467884800.0,
      "grad_norm": 1.806318191243658,
      "language_loss": 0.73209989,
      "learning_rate": 1.4862505042310334e-06,
      "loss": 0.75401497,
      "num_input_tokens_seen": 106767010,
      "step": 4950,
      "time_per_iteration": 2.701342821121216
    },
    {
      "auxiliary_loss_clip": 0.01152076,
      "auxiliary_loss_mlp": 0.01029476,
      "balance_loss_clip": 1.04696512,
      "balance_loss_mlp": 1.02189445,
      "epoch": 0.5953225515541394,
      "flos": 33653289548160.0,
      "grad_norm": 1.702167865634458,
      "language_loss": 0.69721782,
      "learning_rate": 1.4854977101954587e-06,
      "loss": 0.7190333,
      "num_input_tokens_seen": 106789230,
      "step": 4951,
      "time_per_iteration": 2.794158458709717
    },
    {
      "auxiliary_loss_clip": 0.01170906,
      "auxiliary_loss_mlp": 0.01028456,
      "balance_loss_clip": 1.04669249,
      "balance_loss_mlp": 1.02000976,
      "epoch": 0.5954427944447784,
      "flos": 24459619680000.0,
      "grad_norm": 2.814211289203777,
      "language_loss": 0.86133027,
      "learning_rate": 1.4847449942094716e-06,
      "loss": 0.88332391,
      "num_input_tokens_seen": 106808110,
      "step": 4952,
      "time_per_iteration": 2.664608955383301
    },
    {
      "auxiliary_loss_clip": 0.01156955,
      "auxiliary_loss_mlp": 0.01024875,
      "balance_loss_clip": 1.04913998,
      "balance_loss_mlp": 1.01682281,
      "epoch": 0.5955630373354175,
      "flos": 18551848026240.0,
      "grad_norm": 2.194351442108987,
      "language_loss": 0.86409909,
      "learning_rate": 1.4839923563872598e-06,
      "loss": 0.88591743,
      "num_input_tokens_seen": 106826650,
      "step": 4953,
      "time_per_iteration": 3.540015935897827
    },
    {
      "auxiliary_loss_clip": 0.01151022,
      "auxiliary_loss_mlp": 0.01031023,
      "balance_loss_clip": 1.04801607,
      "balance_loss_mlp": 1.02228534,
      "epoch": 0.5956832802260567,
      "flos": 19791699730560.0,
      "grad_norm": 2.0448538070066675,
      "language_loss": 0.76036304,
      "learning_rate": 1.483239796842997e-06,
      "loss": 0.78218347,
      "num_input_tokens_seen": 106844680,
      "step": 4954,
      "time_per_iteration": 2.751803159713745
    },
    {
      "auxiliary_loss_clip": 0.01152312,
      "auxiliary_loss_mlp": 0.01029615,
      "balance_loss_clip": 1.04954743,
      "balance_loss_mlp": 1.02229238,
      "epoch": 0.5958035231166957,
      "flos": 19750868945280.0,
      "grad_norm": 1.6820346602728886,
      "language_loss": 0.8397032,
      "learning_rate": 1.4824873156908462e-06,
      "loss": 0.86152244,
      "num_input_tokens_seen": 106862605,
      "step": 4955,
      "time_per_iteration": 2.718891143798828
    },
    {
      "auxiliary_loss_clip": 0.01176583,
      "auxiliary_loss_mlp": 0.0088769,
      "balance_loss_clip": 1.05386102,
      "balance_loss_mlp": 1.00060773,
      "epoch": 0.5959237660073348,
      "flos": 21652806090240.0,
      "grad_norm": 1.9384104915265095,
      "language_loss": 0.7544111,
      "learning_rate": 1.4817349130449584e-06,
      "loss": 0.77505386,
      "num_input_tokens_seen": 106882325,
      "step": 4956,
      "time_per_iteration": 2.7226457595825195
    },
    {
      "auxiliary_loss_clip": 0.01166175,
      "auxiliary_loss_mlp": 0.01026558,
      "balance_loss_clip": 1.04915929,
      "balance_loss_mlp": 1.01811206,
      "epoch": 0.5960440088979739,
      "flos": 21171207513600.0,
      "grad_norm": 1.9392963543264974,
      "language_loss": 0.83244711,
      "learning_rate": 1.4809825890194717e-06,
      "loss": 0.85437447,
      "num_input_tokens_seen": 106900995,
      "step": 4957,
      "time_per_iteration": 2.608938694000244
    },
    {
      "auxiliary_loss_clip": 0.01153375,
      "auxiliary_loss_mlp": 0.01028396,
      "balance_loss_clip": 1.04587626,
      "balance_loss_mlp": 1.02028704,
      "epoch": 0.596164251788613,
      "flos": 14757526753920.0,
      "grad_norm": 2.577586998930513,
      "language_loss": 0.77086878,
      "learning_rate": 1.4802303437285139e-06,
      "loss": 0.79268646,
      "num_input_tokens_seen": 106918265,
      "step": 4958,
      "time_per_iteration": 2.6836483478546143
    },
    {
      "auxiliary_loss_clip": 0.01156528,
      "auxiliary_loss_mlp": 0.01026347,
      "balance_loss_clip": 1.04586959,
      "balance_loss_mlp": 1.01818705,
      "epoch": 0.596284494679252,
      "flos": 20485924865280.0,
      "grad_norm": 2.4229898970264703,
      "language_loss": 0.80418169,
      "learning_rate": 1.4794781772861994e-06,
      "loss": 0.82601041,
      "num_input_tokens_seen": 106934760,
      "step": 4959,
      "time_per_iteration": 2.640251636505127
    },
    {
      "auxiliary_loss_clip": 0.01160662,
      "auxiliary_loss_mlp": 0.0088734,
      "balance_loss_clip": 1.04951167,
      "balance_loss_mlp": 1.00053334,
      "epoch": 0.5964047375698912,
      "flos": 31212262108800.0,
      "grad_norm": 2.916629343968314,
      "language_loss": 0.67093521,
      "learning_rate": 1.4787260898066324e-06,
      "loss": 0.69141519,
      "num_input_tokens_seen": 106954760,
      "step": 4960,
      "time_per_iteration": 2.797074317932129
    },
    {
      "auxiliary_loss_clip": 0.01179084,
      "auxiliary_loss_mlp": 0.01023826,
      "balance_loss_clip": 1.05196118,
      "balance_loss_mlp": 1.01585698,
      "epoch": 0.5965249804605303,
      "flos": 27483620855040.0,
      "grad_norm": 1.9781029501323966,
      "language_loss": 0.85830903,
      "learning_rate": 1.4779740814039023e-06,
      "loss": 0.88033813,
      "num_input_tokens_seen": 106974845,
      "step": 4961,
      "time_per_iteration": 2.703500509262085
    },
    {
      "auxiliary_loss_clip": 0.01179257,
      "auxiliary_loss_mlp": 0.01026068,
      "balance_loss_clip": 1.05083275,
      "balance_loss_mlp": 1.01834309,
      "epoch": 0.5966452233511693,
      "flos": 30773936442240.0,
      "grad_norm": 1.7735582415725002,
      "language_loss": 0.6816653,
      "learning_rate": 1.4772221521920894e-06,
      "loss": 0.70371854,
      "num_input_tokens_seen": 106994870,
      "step": 4962,
      "time_per_iteration": 2.68090558052063
    },
    {
      "auxiliary_loss_clip": 0.0115758,
      "auxiliary_loss_mlp": 0.01033486,
      "balance_loss_clip": 1.04873002,
      "balance_loss_mlp": 1.02636075,
      "epoch": 0.5967654662418085,
      "flos": 25481170477440.0,
      "grad_norm": 2.004221949975714,
      "language_loss": 0.74179912,
      "learning_rate": 1.4764703022852598e-06,
      "loss": 0.76370978,
      "num_input_tokens_seen": 107015390,
      "step": 4963,
      "time_per_iteration": 2.7433626651763916
    },
    {
      "auxiliary_loss_clip": 0.01118186,
      "auxiliary_loss_mlp": 0.01028337,
      "balance_loss_clip": 1.04350781,
      "balance_loss_mlp": 1.0208267,
      "epoch": 0.5968857091324475,
      "flos": 19099126621440.0,
      "grad_norm": 1.9954575419522944,
      "language_loss": 0.76987982,
      "learning_rate": 1.4757185317974696e-06,
      "loss": 0.791345,
      "num_input_tokens_seen": 107033775,
      "step": 4964,
      "time_per_iteration": 2.769221782684326
    },
    {
      "auxiliary_loss_clip": 0.01168614,
      "auxiliary_loss_mlp": 0.01030318,
      "balance_loss_clip": 1.04780889,
      "balance_loss_mlp": 1.02222323,
      "epoch": 0.5970059520230866,
      "flos": 23692711374720.0,
      "grad_norm": 2.350516950625117,
      "language_loss": 0.70622587,
      "learning_rate": 1.474966840842761e-06,
      "loss": 0.72821522,
      "num_input_tokens_seen": 107053355,
      "step": 4965,
      "time_per_iteration": 2.6757469177246094
    },
    {
      "auxiliary_loss_clip": 0.01173733,
      "auxiliary_loss_mlp": 0.01027827,
      "balance_loss_clip": 1.05089521,
      "balance_loss_mlp": 1.02005458,
      "epoch": 0.5971261949137258,
      "flos": 23185545292800.0,
      "grad_norm": 1.871863881292836,
      "language_loss": 0.86792284,
      "learning_rate": 1.4742152295351655e-06,
      "loss": 0.88993847,
      "num_input_tokens_seen": 107072510,
      "step": 4966,
      "time_per_iteration": 3.5820682048797607
    },
    {
      "auxiliary_loss_clip": 0.01169726,
      "auxiliary_loss_mlp": 0.00887483,
      "balance_loss_clip": 1.0493902,
      "balance_loss_mlp": 1.00057125,
      "epoch": 0.5972464378043648,
      "flos": 20557710195840.0,
      "grad_norm": 2.5414558223877695,
      "language_loss": 0.63866478,
      "learning_rate": 1.4734636979887016e-06,
      "loss": 0.65923691,
      "num_input_tokens_seen": 107089970,
      "step": 4967,
      "time_per_iteration": 2.6744799613952637
    },
    {
      "auxiliary_loss_clip": 0.01156582,
      "auxiliary_loss_mlp": 0.01032213,
      "balance_loss_clip": 1.04741144,
      "balance_loss_mlp": 1.02340913,
      "epoch": 0.5973666806950039,
      "flos": 29387030457600.0,
      "grad_norm": 2.265737091219697,
      "language_loss": 0.90445173,
      "learning_rate": 1.4727122463173755e-06,
      "loss": 0.92633963,
      "num_input_tokens_seen": 107108500,
      "step": 4968,
      "time_per_iteration": 2.81589412689209
    },
    {
      "auxiliary_loss_clip": 0.01161184,
      "auxiliary_loss_mlp": 0.01029241,
      "balance_loss_clip": 1.05119264,
      "balance_loss_mlp": 1.02123284,
      "epoch": 0.597486923585643,
      "flos": 22273522041600.0,
      "grad_norm": 1.8404377435973662,
      "language_loss": 0.64031994,
      "learning_rate": 1.471960874635183e-06,
      "loss": 0.66222423,
      "num_input_tokens_seen": 107128060,
      "step": 4969,
      "time_per_iteration": 2.6664676666259766
    },
    {
      "auxiliary_loss_clip": 0.0115336,
      "auxiliary_loss_mlp": 0.01025711,
      "balance_loss_clip": 1.04575849,
      "balance_loss_mlp": 1.01678824,
      "epoch": 0.5976071664762821,
      "flos": 13772461196160.0,
      "grad_norm": 2.1907921738776106,
      "language_loss": 0.71021944,
      "learning_rate": 1.4712095830561055e-06,
      "loss": 0.73201013,
      "num_input_tokens_seen": 107146550,
      "step": 4970,
      "time_per_iteration": 2.6710121631622314
    },
    {
      "auxiliary_loss_clip": 0.01159876,
      "auxiliary_loss_mlp": 0.0102345,
      "balance_loss_clip": 1.0466156,
      "balance_loss_mlp": 1.01536798,
      "epoch": 0.5977274093669211,
      "flos": 19098623831040.0,
      "grad_norm": 1.8473707265381107,
      "language_loss": 0.80893546,
      "learning_rate": 1.4704583716941147e-06,
      "loss": 0.83076876,
      "num_input_tokens_seen": 107165415,
      "step": 4971,
      "time_per_iteration": 3.6929333209991455
    },
    {
      "auxiliary_loss_clip": 0.01164112,
      "auxiliary_loss_mlp": 0.01031731,
      "balance_loss_clip": 1.05064487,
      "balance_loss_mlp": 1.02288008,
      "epoch": 0.5978476522575603,
      "flos": 20376002269440.0,
      "grad_norm": 1.73567923734694,
      "language_loss": 0.72778451,
      "learning_rate": 1.4697072406631672e-06,
      "loss": 0.74974298,
      "num_input_tokens_seen": 107185320,
      "step": 4972,
      "time_per_iteration": 2.6970620155334473
    },
    {
      "auxiliary_loss_clip": 0.01151281,
      "auxiliary_loss_mlp": 0.01034131,
      "balance_loss_clip": 1.05246401,
      "balance_loss_mlp": 1.02536345,
      "epoch": 0.5979678951481994,
      "flos": 29023147728000.0,
      "grad_norm": 1.729753027242323,
      "language_loss": 0.73242176,
      "learning_rate": 1.4689561900772097e-06,
      "loss": 0.75427586,
      "num_input_tokens_seen": 107205380,
      "step": 4973,
      "time_per_iteration": 3.637120008468628
    },
    {
      "auxiliary_loss_clip": 0.01160178,
      "auxiliary_loss_mlp": 0.01030604,
      "balance_loss_clip": 1.0492835,
      "balance_loss_mlp": 1.02230132,
      "epoch": 0.5980881380388384,
      "flos": 17967689141760.0,
      "grad_norm": 2.5206039165297334,
      "language_loss": 0.72622865,
      "learning_rate": 1.4682052200501758e-06,
      "loss": 0.74813652,
      "num_input_tokens_seen": 107222585,
      "step": 4974,
      "time_per_iteration": 2.637415885925293
    },
    {
      "auxiliary_loss_clip": 0.0117993,
      "auxiliary_loss_mlp": 0.01026687,
      "balance_loss_clip": 1.05176139,
      "balance_loss_mlp": 1.01821697,
      "epoch": 0.5982083809294776,
      "flos": 22962827013120.0,
      "grad_norm": 1.7574220982173308,
      "language_loss": 0.80322653,
      "learning_rate": 1.4674543306959876e-06,
      "loss": 0.82529271,
      "num_input_tokens_seen": 107242055,
      "step": 4975,
      "time_per_iteration": 2.6391165256500244
    },
    {
      "auxiliary_loss_clip": 0.01167219,
      "auxiliary_loss_mlp": 0.01036464,
      "balance_loss_clip": 1.05102921,
      "balance_loss_mlp": 1.0281496,
      "epoch": 0.5983286238201166,
      "flos": 20991941712000.0,
      "grad_norm": 2.7778985531771925,
      "language_loss": 0.84672034,
      "learning_rate": 1.4667035221285535e-06,
      "loss": 0.86875725,
      "num_input_tokens_seen": 107259695,
      "step": 4976,
      "time_per_iteration": 2.6096808910369873
    },
    {
      "auxiliary_loss_clip": 0.01168376,
      "auxiliary_loss_mlp": 0.01025652,
      "balance_loss_clip": 1.05049801,
      "balance_loss_mlp": 1.01782632,
      "epoch": 0.5984488667107557,
      "flos": 28183448511360.0,
      "grad_norm": 2.139568548957334,
      "language_loss": 0.74378741,
      "learning_rate": 1.4659527944617715e-06,
      "loss": 0.76572764,
      "num_input_tokens_seen": 107279640,
      "step": 4977,
      "time_per_iteration": 2.6685171127319336
    },
    {
      "auxiliary_loss_clip": 0.01125559,
      "auxiliary_loss_mlp": 0.01028347,
      "balance_loss_clip": 1.04316497,
      "balance_loss_mlp": 1.02000821,
      "epoch": 0.5985691096013949,
      "flos": 16471794314880.0,
      "grad_norm": 1.678459876116773,
      "language_loss": 0.75901413,
      "learning_rate": 1.465202147809526e-06,
      "loss": 0.78055316,
      "num_input_tokens_seen": 107298135,
      "step": 4978,
      "time_per_iteration": 3.6140029430389404
    },
    {
      "auxiliary_loss_clip": 0.0118289,
      "auxiliary_loss_mlp": 0.01028162,
      "balance_loss_clip": 1.0535841,
      "balance_loss_mlp": 1.02013302,
      "epoch": 0.5986893524920339,
      "flos": 26719046933760.0,
      "grad_norm": 1.8933176137578784,
      "language_loss": 0.76013899,
      "learning_rate": 1.4644515822856888e-06,
      "loss": 0.78224945,
      "num_input_tokens_seen": 107316570,
      "step": 4979,
      "time_per_iteration": 2.6264572143554688
    },
    {
      "auxiliary_loss_clip": 0.01054177,
      "auxiliary_loss_mlp": 0.01002683,
      "balance_loss_clip": 1.01188254,
      "balance_loss_mlp": 1.0015744,
      "epoch": 0.598809595382673,
      "flos": 61608061100160.0,
      "grad_norm": 0.7558834150088144,
      "language_loss": 0.56553721,
      "learning_rate": 1.4637010980041215e-06,
      "loss": 0.58610582,
      "num_input_tokens_seen": 107378680,
      "step": 4980,
      "time_per_iteration": 3.2821202278137207
    },
    {
      "auxiliary_loss_clip": 0.01183727,
      "auxiliary_loss_mlp": 0.01033215,
      "balance_loss_clip": 1.05337739,
      "balance_loss_mlp": 1.02477229,
      "epoch": 0.5989298382733121,
      "flos": 11801719549440.0,
      "grad_norm": 2.1184629343751475,
      "language_loss": 0.89528978,
      "learning_rate": 1.4629506950786707e-06,
      "loss": 0.91745919,
      "num_input_tokens_seen": 107394860,
      "step": 4981,
      "time_per_iteration": 2.541576862335205
    },
    {
      "auxiliary_loss_clip": 0.01070316,
      "auxiliary_loss_mlp": 0.01000665,
      "balance_loss_clip": 1.01108098,
      "balance_loss_mlp": 0.99966925,
      "epoch": 0.5990500811639512,
      "flos": 60025800021120.0,
      "grad_norm": 1.3703515871224532,
      "language_loss": 0.56094992,
      "learning_rate": 1.4622003736231733e-06,
      "loss": 0.58165979,
      "num_input_tokens_seen": 107453850,
      "step": 4982,
      "time_per_iteration": 3.2177751064300537
    },
    {
      "auxiliary_loss_clip": 0.01167356,
      "auxiliary_loss_mlp": 0.01027751,
      "balance_loss_clip": 1.04946756,
      "balance_loss_mlp": 1.01925707,
      "epoch": 0.5991703240545903,
      "flos": 18222726683520.0,
      "grad_norm": 2.136139758091012,
      "language_loss": 0.80592436,
      "learning_rate": 1.461450133751451e-06,
      "loss": 0.82787544,
      "num_input_tokens_seen": 107471920,
      "step": 4983,
      "time_per_iteration": 2.7436273097991943
    },
    {
      "auxiliary_loss_clip": 0.01174558,
      "auxiliary_loss_mlp": 0.01025417,
      "balance_loss_clip": 1.05023551,
      "balance_loss_mlp": 1.01753402,
      "epoch": 0.5992905669452293,
      "flos": 27709894581120.0,
      "grad_norm": 1.8463615005934912,
      "language_loss": 0.76036328,
      "learning_rate": 1.4606999755773153e-06,
      "loss": 0.78236306,
      "num_input_tokens_seen": 107493125,
      "step": 4984,
      "time_per_iteration": 2.660210609436035
    },
    {
      "auxiliary_loss_clip": 0.0118029,
      "auxiliary_loss_mlp": 0.01030228,
      "balance_loss_clip": 1.05290294,
      "balance_loss_mlp": 1.02227664,
      "epoch": 0.5994108098358685,
      "flos": 20449008662400.0,
      "grad_norm": 1.706040494720758,
      "language_loss": 0.82489407,
      "learning_rate": 1.4599498992145643e-06,
      "loss": 0.84699929,
      "num_input_tokens_seen": 107513150,
      "step": 4985,
      "time_per_iteration": 2.59920072555542
    },
    {
      "auxiliary_loss_clip": 0.01167167,
      "auxiliary_loss_mlp": 0.00887452,
      "balance_loss_clip": 1.05010796,
      "balance_loss_mlp": 1.00043559,
      "epoch": 0.5995310527265075,
      "flos": 22269966595200.0,
      "grad_norm": 1.9667554908305869,
      "language_loss": 0.70664418,
      "learning_rate": 1.4591999047769846e-06,
      "loss": 0.72719038,
      "num_input_tokens_seen": 107532005,
      "step": 4986,
      "time_per_iteration": 2.6794824600219727
    },
    {
      "auxiliary_loss_clip": 0.01126033,
      "auxiliary_loss_mlp": 0.01032702,
      "balance_loss_clip": 1.04061532,
      "balance_loss_mlp": 1.02459562,
      "epoch": 0.5996512956171466,
      "flos": 18916951818240.0,
      "grad_norm": 3.0588840112832543,
      "language_loss": 0.75255352,
      "learning_rate": 1.4584499923783486e-06,
      "loss": 0.77414083,
      "num_input_tokens_seen": 107550585,
      "step": 4987,
      "time_per_iteration": 2.7101869583129883
    },
    {
      "auxiliary_loss_clip": 0.01163254,
      "auxiliary_loss_mlp": 0.01022849,
      "balance_loss_clip": 1.05088675,
      "balance_loss_mlp": 1.01507986,
      "epoch": 0.5997715385077858,
      "flos": 15370916330880.0,
      "grad_norm": 1.7547183401873707,
      "language_loss": 0.76563632,
      "learning_rate": 1.457700162132419e-06,
      "loss": 0.7874974,
      "num_input_tokens_seen": 107567575,
      "step": 4988,
      "time_per_iteration": 2.66795015335083
    },
    {
      "auxiliary_loss_clip": 0.01138467,
      "auxiliary_loss_mlp": 0.01031222,
      "balance_loss_clip": 1.04750204,
      "balance_loss_mlp": 1.02280569,
      "epoch": 0.5998917813984248,
      "flos": 25264844818560.0,
      "grad_norm": 2.0569533894159804,
      "language_loss": 0.72345281,
      "learning_rate": 1.4569504141529433e-06,
      "loss": 0.74514973,
      "num_input_tokens_seen": 107585410,
      "step": 4989,
      "time_per_iteration": 2.7429983615875244
    },
    {
      "auxiliary_loss_clip": 0.01169004,
      "auxiliary_loss_mlp": 0.01025944,
      "balance_loss_clip": 1.05117941,
      "balance_loss_mlp": 1.0175395,
      "epoch": 0.6000120242890639,
      "flos": 22054502862720.0,
      "grad_norm": 3.9217051061054744,
      "language_loss": 0.71626264,
      "learning_rate": 1.456200748553658e-06,
      "loss": 0.73821211,
      "num_input_tokens_seen": 107603405,
      "step": 4990,
      "time_per_iteration": 2.6427416801452637
    },
    {
      "auxiliary_loss_clip": 0.01182131,
      "auxiliary_loss_mlp": 0.01028702,
      "balance_loss_clip": 1.05267024,
      "balance_loss_mlp": 1.01991057,
      "epoch": 0.600132267179703,
      "flos": 29863421562240.0,
      "grad_norm": 1.5035100300827353,
      "language_loss": 0.78753573,
      "learning_rate": 1.455451165448287e-06,
      "loss": 0.80964404,
      "num_input_tokens_seen": 107626060,
      "step": 4991,
      "time_per_iteration": 2.708285093307495
    },
    {
      "auxiliary_loss_clip": 0.01159627,
      "auxiliary_loss_mlp": 0.01025798,
      "balance_loss_clip": 1.04942811,
      "balance_loss_mlp": 1.01781046,
      "epoch": 0.6002525100703421,
      "flos": 25045358762880.0,
      "grad_norm": 2.9168754690262606,
      "language_loss": 0.73947519,
      "learning_rate": 1.4547016649505407e-06,
      "loss": 0.76132941,
      "num_input_tokens_seen": 107644070,
      "step": 4992,
      "time_per_iteration": 3.53391432762146
    },
    {
      "auxiliary_loss_clip": 0.01145369,
      "auxiliary_loss_mlp": 0.01030407,
      "balance_loss_clip": 1.04236555,
      "balance_loss_mlp": 1.02237284,
      "epoch": 0.6003727529609811,
      "flos": 20849592113280.0,
      "grad_norm": 10.20411819079946,
      "language_loss": 0.84812164,
      "learning_rate": 1.4539522471741193e-06,
      "loss": 0.86987948,
      "num_input_tokens_seen": 107661495,
      "step": 4993,
      "time_per_iteration": 276.0166013240814
    },
    {
      "auxiliary_loss_clip": 0.01173478,
      "auxiliary_loss_mlp": 0.01034589,
      "balance_loss_clip": 1.04928434,
      "balance_loss_mlp": 1.026173,
      "epoch": 0.6004929958516203,
      "flos": 15594604277760.0,
      "grad_norm": 2.2037710430135684,
      "language_loss": 0.70605254,
      "learning_rate": 1.4532029122327067e-06,
      "loss": 0.72813326,
      "num_input_tokens_seen": 107678280,
      "step": 4994,
      "time_per_iteration": 2.6484172344207764
    },
    {
      "auxiliary_loss_clip": 0.01143923,
      "auxiliary_loss_mlp": 0.01027617,
      "balance_loss_clip": 1.05005634,
      "balance_loss_mlp": 1.01910567,
      "epoch": 0.6006132387422594,
      "flos": 21763267390080.0,
      "grad_norm": 1.8687475421981794,
      "language_loss": 0.75513744,
      "learning_rate": 1.4524536602399783e-06,
      "loss": 0.77685285,
      "num_input_tokens_seen": 107697370,
      "step": 4995,
      "time_per_iteration": 2.8770949840545654
    },
    {
      "auxiliary_loss_clip": 0.01160306,
      "auxiliary_loss_mlp": 0.01028931,
      "balance_loss_clip": 1.05280542,
      "balance_loss_mlp": 1.02157581,
      "epoch": 0.6007334816328984,
      "flos": 22858542852480.0,
      "grad_norm": 1.5805418602669143,
      "language_loss": 0.77485341,
      "learning_rate": 1.4517044913095938e-06,
      "loss": 0.79674578,
      "num_input_tokens_seen": 107717790,
      "step": 4996,
      "time_per_iteration": 3.79841947555542
    },
    {
      "auxiliary_loss_clip": 0.01168946,
      "auxiliary_loss_mlp": 0.01033645,
      "balance_loss_clip": 1.04996371,
      "balance_loss_mlp": 1.02525294,
      "epoch": 0.6008537245235376,
      "flos": 28324577047680.0,
      "grad_norm": 1.6250920031162295,
      "language_loss": 0.81622565,
      "learning_rate": 1.4509554055552022e-06,
      "loss": 0.83825159,
      "num_input_tokens_seen": 107738020,
      "step": 4997,
      "time_per_iteration": 2.838552236557007
    },
    {
      "auxiliary_loss_clip": 0.01157735,
      "auxiliary_loss_mlp": 0.01031337,
      "balance_loss_clip": 1.04756403,
      "balance_loss_mlp": 1.02291441,
      "epoch": 0.6009739674141766,
      "flos": 20886113266560.0,
      "grad_norm": 4.102989318060016,
      "language_loss": 0.83710611,
      "learning_rate": 1.450206403090439e-06,
      "loss": 0.85899681,
      "num_input_tokens_seen": 107756215,
      "step": 4998,
      "time_per_iteration": 2.663447141647339
    },
    {
      "auxiliary_loss_clip": 0.01166464,
      "auxiliary_loss_mlp": 0.01029199,
      "balance_loss_clip": 1.05126739,
      "balance_loss_mlp": 1.02208257,
      "epoch": 0.6010942103048157,
      "flos": 20481004702080.0,
      "grad_norm": 1.941509558915524,
      "language_loss": 0.86368996,
      "learning_rate": 1.4494574840289274e-06,
      "loss": 0.88564658,
      "num_input_tokens_seen": 107773330,
      "step": 4999,
      "time_per_iteration": 3.5345683097839355
    },
    {
      "auxiliary_loss_clip": 0.01176006,
      "auxiliary_loss_mlp": 0.01027384,
      "balance_loss_clip": 1.05108452,
      "balance_loss_mlp": 1.01905179,
      "epoch": 0.6012144531954549,
      "flos": 23805973935360.0,
      "grad_norm": 1.9485780504300467,
      "language_loss": 0.73711503,
      "learning_rate": 1.4487086484842782e-06,
      "loss": 0.75914896,
      "num_input_tokens_seen": 107791975,
      "step": 5000,
      "time_per_iteration": 2.6638083457946777
    },
    {
      "auxiliary_loss_clip": 0.01180042,
      "auxiliary_loss_mlp": 0.01029149,
      "balance_loss_clip": 1.0524559,
      "balance_loss_mlp": 1.02136433,
      "epoch": 0.6013346960860939,
      "flos": 18988378012800.0,
      "grad_norm": 1.9338653755265762,
      "language_loss": 0.60622936,
      "learning_rate": 1.4479598965700878e-06,
      "loss": 0.62832129,
      "num_input_tokens_seen": 107809240,
      "step": 5001,
      "time_per_iteration": 2.6028521060943604
    },
    {
      "auxiliary_loss_clip": 0.01149722,
      "auxiliary_loss_mlp": 0.01023867,
      "balance_loss_clip": 1.04632974,
      "balance_loss_mlp": 1.01561737,
      "epoch": 0.601454938976733,
      "flos": 24025316336640.0,
      "grad_norm": 3.166157314304953,
      "language_loss": 0.68954194,
      "learning_rate": 1.4472112283999427e-06,
      "loss": 0.71127778,
      "num_input_tokens_seen": 107827895,
      "step": 5002,
      "time_per_iteration": 2.7485976219177246
    },
    {
      "auxiliary_loss_clip": 0.01161249,
      "auxiliary_loss_mlp": 0.01026877,
      "balance_loss_clip": 1.04763746,
      "balance_loss_mlp": 1.01896179,
      "epoch": 0.6015751818673721,
      "flos": 26427129102720.0,
      "grad_norm": 2.147640456887441,
      "language_loss": 0.69125491,
      "learning_rate": 1.4464626440874143e-06,
      "loss": 0.7131362,
      "num_input_tokens_seen": 107847010,
      "step": 5003,
      "time_per_iteration": 3.6609671115875244
    },
    {
      "auxiliary_loss_clip": 0.01147041,
      "auxiliary_loss_mlp": 0.01025459,
      "balance_loss_clip": 1.04212344,
      "balance_loss_mlp": 1.01692355,
      "epoch": 0.6016954247580112,
      "flos": 13115260005120.0,
      "grad_norm": 2.3178942842453507,
      "language_loss": 0.73861468,
      "learning_rate": 1.4457141437460636e-06,
      "loss": 0.76033962,
      "num_input_tokens_seen": 107864235,
      "step": 5004,
      "time_per_iteration": 2.7226810455322266
    },
    {
      "auxiliary_loss_clip": 0.01165486,
      "auxiliary_loss_mlp": 0.0103178,
      "balance_loss_clip": 1.05182147,
      "balance_loss_mlp": 1.02283335,
      "epoch": 0.6018156676486502,
      "flos": 23768447201280.0,
      "grad_norm": 1.8797079826552288,
      "language_loss": 0.73228383,
      "learning_rate": 1.444965727489436e-06,
      "loss": 0.75425649,
      "num_input_tokens_seen": 107883680,
      "step": 5005,
      "time_per_iteration": 2.7211849689483643
    },
    {
      "auxiliary_loss_clip": 0.011475,
      "auxiliary_loss_mlp": 0.01027408,
      "balance_loss_clip": 1.04459167,
      "balance_loss_mlp": 1.01907551,
      "epoch": 0.6019359105392894,
      "flos": 26469360518400.0,
      "grad_norm": 2.326690888490767,
      "language_loss": 0.63343883,
      "learning_rate": 1.444217395431066e-06,
      "loss": 0.65518796,
      "num_input_tokens_seen": 107906220,
      "step": 5006,
      "time_per_iteration": 2.771103858947754
    },
    {
      "auxiliary_loss_clip": 0.01052113,
      "auxiliary_loss_mlp": 0.01002964,
      "balance_loss_clip": 1.01554692,
      "balance_loss_mlp": 1.00199878,
      "epoch": 0.6020561534299285,
      "flos": 69190849728000.0,
      "grad_norm": 0.8087816262424393,
      "language_loss": 0.55858225,
      "learning_rate": 1.4434691476844755e-06,
      "loss": 0.57913309,
      "num_input_tokens_seen": 107967195,
      "step": 5007,
      "time_per_iteration": 3.2643520832061768
    },
    {
      "auxiliary_loss_clip": 0.01161153,
      "auxiliary_loss_mlp": 0.01028534,
      "balance_loss_clip": 1.05365002,
      "balance_loss_mlp": 1.02117312,
      "epoch": 0.6021763963205675,
      "flos": 21835304115840.0,
      "grad_norm": 2.404364693318858,
      "language_loss": 0.67067266,
      "learning_rate": 1.4427209843631729e-06,
      "loss": 0.69256955,
      "num_input_tokens_seen": 107984245,
      "step": 5008,
      "time_per_iteration": 2.6762993335723877
    },
    {
      "auxiliary_loss_clip": 0.01179263,
      "auxiliary_loss_mlp": 0.00886993,
      "balance_loss_clip": 1.05289423,
      "balance_loss_mlp": 1.00050902,
      "epoch": 0.6022966392112067,
      "flos": 26578636669440.0,
      "grad_norm": 1.7163435947320091,
      "language_loss": 0.8123337,
      "learning_rate": 1.4419729055806534e-06,
      "loss": 0.83299637,
      "num_input_tokens_seen": 108003680,
      "step": 5009,
      "time_per_iteration": 2.7077128887176514
    },
    {
      "auxiliary_loss_clip": 0.01159178,
      "auxiliary_loss_mlp": 0.00886227,
      "balance_loss_clip": 1.05303025,
      "balance_loss_mlp": 1.00043058,
      "epoch": 0.6024168821018457,
      "flos": 20703722981760.0,
      "grad_norm": 1.8463012199788427,
      "language_loss": 0.8209579,
      "learning_rate": 1.441224911450401e-06,
      "loss": 0.84141195,
      "num_input_tokens_seen": 108019635,
      "step": 5010,
      "time_per_iteration": 2.6516008377075195
    },
    {
      "auxiliary_loss_clip": 0.01176305,
      "auxiliary_loss_mlp": 0.01022938,
      "balance_loss_clip": 1.05208921,
      "balance_loss_mlp": 1.01491547,
      "epoch": 0.6025371249924848,
      "flos": 24680973242880.0,
      "grad_norm": 1.6009113004559328,
      "language_loss": 0.82326519,
      "learning_rate": 1.4404770020858851e-06,
      "loss": 0.84525764,
      "num_input_tokens_seen": 108039120,
      "step": 5011,
      "time_per_iteration": 2.7000937461853027
    },
    {
      "auxiliary_loss_clip": 0.01165035,
      "auxiliary_loss_mlp": 0.01029739,
      "balance_loss_clip": 1.04954469,
      "balance_loss_mlp": 1.02204418,
      "epoch": 0.602657367883124,
      "flos": 25955801815680.0,
      "grad_norm": 1.7165693760359526,
      "language_loss": 0.86075282,
      "learning_rate": 1.439729177600563e-06,
      "loss": 0.88270056,
      "num_input_tokens_seen": 108059615,
      "step": 5012,
      "time_per_iteration": 2.6775074005126953
    },
    {
      "auxiliary_loss_clip": 0.01170244,
      "auxiliary_loss_mlp": 0.01032134,
      "balance_loss_clip": 1.05237341,
      "balance_loss_mlp": 1.02453458,
      "epoch": 0.602777610773763,
      "flos": 16690633925760.0,
      "grad_norm": 2.4690227534074163,
      "language_loss": 0.7299971,
      "learning_rate": 1.4389814381078793e-06,
      "loss": 0.75202084,
      "num_input_tokens_seen": 108078855,
      "step": 5013,
      "time_per_iteration": 2.646768808364868
    },
    {
      "auxiliary_loss_clip": 0.01107977,
      "auxiliary_loss_mlp": 0.01032192,
      "balance_loss_clip": 1.0456357,
      "balance_loss_mlp": 1.02381802,
      "epoch": 0.6028978536644021,
      "flos": 13334243270400.0,
      "grad_norm": 2.3226704250452124,
      "language_loss": 0.80058706,
      "learning_rate": 1.438233783721265e-06,
      "loss": 0.82198882,
      "num_input_tokens_seen": 108095020,
      "step": 5014,
      "time_per_iteration": 3.089465618133545
    },
    {
      "auxiliary_loss_clip": 0.0115691,
      "auxiliary_loss_mlp": 0.01032276,
      "balance_loss_clip": 1.05323648,
      "balance_loss_mlp": 1.02447939,
      "epoch": 0.6030180965550412,
      "flos": 19644825018240.0,
      "grad_norm": 2.1305448501032305,
      "language_loss": 0.77622354,
      "learning_rate": 1.43748621455414e-06,
      "loss": 0.79811531,
      "num_input_tokens_seen": 108111455,
      "step": 5015,
      "time_per_iteration": 2.9922406673431396
    },
    {
      "auxiliary_loss_clip": 0.01160403,
      "auxiliary_loss_mlp": 0.01028523,
      "balance_loss_clip": 1.05208862,
      "balance_loss_mlp": 1.02030933,
      "epoch": 0.6031383394456803,
      "flos": 14458390289280.0,
      "grad_norm": 2.6630415857907628,
      "language_loss": 0.80775362,
      "learning_rate": 1.4367387307199082e-06,
      "loss": 0.82964289,
      "num_input_tokens_seen": 108128305,
      "step": 5016,
      "time_per_iteration": 3.0272738933563232
    },
    {
      "auxiliary_loss_clip": 0.01161651,
      "auxiliary_loss_mlp": 0.01031729,
      "balance_loss_clip": 1.04648626,
      "balance_loss_mlp": 1.0226512,
      "epoch": 0.6032585823363193,
      "flos": 13917791623680.0,
      "grad_norm": 2.347663278728128,
      "language_loss": 0.82757688,
      "learning_rate": 1.4359913323319632e-06,
      "loss": 0.84951067,
      "num_input_tokens_seen": 108145475,
      "step": 5017,
      "time_per_iteration": 2.636385440826416
    },
    {
      "auxiliary_loss_clip": 0.01119776,
      "auxiliary_loss_mlp": 0.01028845,
      "balance_loss_clip": 1.04084241,
      "balance_loss_mlp": 1.02078652,
      "epoch": 0.6033788252269584,
      "flos": 24353252530560.0,
      "grad_norm": 1.9497664152078247,
      "language_loss": 0.77850032,
      "learning_rate": 1.4352440195036847e-06,
      "loss": 0.79998648,
      "num_input_tokens_seen": 108165650,
      "step": 5018,
      "time_per_iteration": 4.244372606277466
    },
    {
      "auxiliary_loss_clip": 0.01124786,
      "auxiliary_loss_mlp": 0.01027245,
      "balance_loss_clip": 1.04008174,
      "balance_loss_mlp": 1.01927936,
      "epoch": 0.6034990681175976,
      "flos": 25521247077120.0,
      "grad_norm": 1.7959566115819354,
      "language_loss": 0.80071056,
      "learning_rate": 1.4344967923484395e-06,
      "loss": 0.82223088,
      "num_input_tokens_seen": 108187620,
      "step": 5019,
      "time_per_iteration": 2.903038263320923
    },
    {
      "auxiliary_loss_clip": 0.01167886,
      "auxiliary_loss_mlp": 0.01027196,
      "balance_loss_clip": 1.05179429,
      "balance_loss_mlp": 1.01913786,
      "epoch": 0.6036193110082366,
      "flos": 25958387594880.0,
      "grad_norm": 2.077317178841762,
      "language_loss": 0.71999091,
      "learning_rate": 1.433749650979581e-06,
      "loss": 0.74194181,
      "num_input_tokens_seen": 108207605,
      "step": 5020,
      "time_per_iteration": 2.693694829940796
    },
    {
      "auxiliary_loss_clip": 0.01155801,
      "auxiliary_loss_mlp": 0.01023651,
      "balance_loss_clip": 1.04725599,
      "balance_loss_mlp": 1.01571751,
      "epoch": 0.6037395538988757,
      "flos": 25593427457280.0,
      "grad_norm": 2.895339044364563,
      "language_loss": 0.67927992,
      "learning_rate": 1.433002595510451e-06,
      "loss": 0.70107448,
      "num_input_tokens_seen": 108226385,
      "step": 5021,
      "time_per_iteration": 2.742506265640259
    },
    {
      "auxiliary_loss_clip": 0.01155934,
      "auxiliary_loss_mlp": 0.00887429,
      "balance_loss_clip": 1.04789364,
      "balance_loss_mlp": 1.00046754,
      "epoch": 0.6038597967895148,
      "flos": 17816253402240.0,
      "grad_norm": 1.7978372783582768,
      "language_loss": 0.72078687,
      "learning_rate": 1.4322556260543757e-06,
      "loss": 0.74122047,
      "num_input_tokens_seen": 108242960,
      "step": 5022,
      "time_per_iteration": 3.634725570678711
    },
    {
      "auxiliary_loss_clip": 0.0105413,
      "auxiliary_loss_mlp": 0.01003004,
      "balance_loss_clip": 1.01151109,
      "balance_loss_mlp": 1.00196731,
      "epoch": 0.6039800396801539,
      "flos": 65169213235200.0,
      "grad_norm": 0.9458256191103191,
      "language_loss": 0.62682176,
      "learning_rate": 1.4315087427246703e-06,
      "loss": 0.64739311,
      "num_input_tokens_seen": 108296785,
      "step": 5023,
      "time_per_iteration": 3.1434121131896973
    },
    {
      "auxiliary_loss_clip": 0.0107154,
      "auxiliary_loss_mlp": 0.01001876,
      "balance_loss_clip": 1.01261878,
      "balance_loss_mlp": 1.0008744,
      "epoch": 0.604100282570793,
      "flos": 67386409073280.0,
      "grad_norm": 0.8714750545962678,
      "language_loss": 0.58536983,
      "learning_rate": 1.4307619456346372e-06,
      "loss": 0.60610402,
      "num_input_tokens_seen": 108341090,
      "step": 5024,
      "time_per_iteration": 2.9700961112976074
    },
    {
      "auxiliary_loss_clip": 0.01170944,
      "auxiliary_loss_mlp": 0.01026187,
      "balance_loss_clip": 1.04823172,
      "balance_loss_mlp": 1.01759243,
      "epoch": 0.6042205254614321,
      "flos": 35297495631360.0,
      "grad_norm": 1.831780532045681,
      "language_loss": 0.74423277,
      "learning_rate": 1.430015234897564e-06,
      "loss": 0.76620412,
      "num_input_tokens_seen": 108364370,
      "step": 5025,
      "time_per_iteration": 4.232853889465332
    },
    {
      "auxiliary_loss_clip": 0.01180312,
      "auxiliary_loss_mlp": 0.008872,
      "balance_loss_clip": 1.05256379,
      "balance_loss_mlp": 1.00054216,
      "epoch": 0.6043407683520712,
      "flos": 45658262206080.0,
      "grad_norm": 1.8482634234121147,
      "language_loss": 0.66364628,
      "learning_rate": 1.4292686106267274e-06,
      "loss": 0.68432146,
      "num_input_tokens_seen": 108387220,
      "step": 5026,
      "time_per_iteration": 2.8685855865478516
    },
    {
      "auxiliary_loss_clip": 0.01174482,
      "auxiliary_loss_mlp": 0.01035507,
      "balance_loss_clip": 1.05135894,
      "balance_loss_mlp": 1.02779412,
      "epoch": 0.6044610112427102,
      "flos": 16180020138240.0,
      "grad_norm": 1.9733483071262454,
      "language_loss": 0.77193093,
      "learning_rate": 1.4285220729353876e-06,
      "loss": 0.79403079,
      "num_input_tokens_seen": 108405760,
      "step": 5027,
      "time_per_iteration": 2.6522557735443115
    },
    {
      "auxiliary_loss_clip": 0.01157113,
      "auxiliary_loss_mlp": 0.01033113,
      "balance_loss_clip": 1.04576015,
      "balance_loss_mlp": 1.0248338,
      "epoch": 0.6045812541333494,
      "flos": 13804062186240.0,
      "grad_norm": 1.855653545888904,
      "language_loss": 0.77931321,
      "learning_rate": 1.4277756219367957e-06,
      "loss": 0.80121541,
      "num_input_tokens_seen": 108422785,
      "step": 5028,
      "time_per_iteration": 2.7075905799865723
    },
    {
      "auxiliary_loss_clip": 0.01158604,
      "auxiliary_loss_mlp": 0.01027803,
      "balance_loss_clip": 1.04979539,
      "balance_loss_mlp": 1.01924348,
      "epoch": 0.6047014970239885,
      "flos": 19975059682560.0,
      "grad_norm": 4.681452957275874,
      "language_loss": 0.79912853,
      "learning_rate": 1.4270292577441864e-06,
      "loss": 0.82099259,
      "num_input_tokens_seen": 108442290,
      "step": 5029,
      "time_per_iteration": 3.7540087699890137
    },
    {
      "auxiliary_loss_clip": 0.01172101,
      "auxiliary_loss_mlp": 0.01025712,
      "balance_loss_clip": 1.04694116,
      "balance_loss_mlp": 1.01710534,
      "epoch": 0.6048217399146275,
      "flos": 25337097025920.0,
      "grad_norm": 1.565565269826558,
      "language_loss": 0.72152066,
      "learning_rate": 1.4262829804707836e-06,
      "loss": 0.7434988,
      "num_input_tokens_seen": 108464280,
      "step": 5030,
      "time_per_iteration": 2.7227232456207275
    },
    {
      "auxiliary_loss_clip": 0.01171393,
      "auxiliary_loss_mlp": 0.01026874,
      "balance_loss_clip": 1.04860353,
      "balance_loss_mlp": 1.01838589,
      "epoch": 0.6049419828052667,
      "flos": 26030819370240.0,
      "grad_norm": 1.4141479419073513,
      "language_loss": 0.6986196,
      "learning_rate": 1.4255367902297958e-06,
      "loss": 0.72060227,
      "num_input_tokens_seen": 108485610,
      "step": 5031,
      "time_per_iteration": 2.6832218170166016
    },
    {
      "auxiliary_loss_clip": 0.01179919,
      "auxiliary_loss_mlp": 0.01026924,
      "balance_loss_clip": 1.05326319,
      "balance_loss_mlp": 1.01939631,
      "epoch": 0.6050622256959057,
      "flos": 14648106948480.0,
      "grad_norm": 2.282139848349821,
      "language_loss": 0.7858656,
      "learning_rate": 1.4247906871344215e-06,
      "loss": 0.80793405,
      "num_input_tokens_seen": 108501005,
      "step": 5032,
      "time_per_iteration": 2.6023125648498535
    },
    {
      "auxiliary_loss_clip": 0.01153986,
      "auxiliary_loss_mlp": 0.01028205,
      "balance_loss_clip": 1.04504108,
      "balance_loss_mlp": 1.02035177,
      "epoch": 0.6051824685865448,
      "flos": 23331450337920.0,
      "grad_norm": 2.081172895451367,
      "language_loss": 0.75249934,
      "learning_rate": 1.4240446712978415e-06,
      "loss": 0.7743212,
      "num_input_tokens_seen": 108519990,
      "step": 5033,
      "time_per_iteration": 2.700770139694214
    },
    {
      "auxiliary_loss_clip": 0.01173875,
      "auxiliary_loss_mlp": 0.01031544,
      "balance_loss_clip": 1.05051267,
      "balance_loss_mlp": 1.02344418,
      "epoch": 0.605302711477184,
      "flos": 27563307177600.0,
      "grad_norm": 2.076693144073778,
      "language_loss": 0.74082577,
      "learning_rate": 1.423298742833227e-06,
      "loss": 0.76287997,
      "num_input_tokens_seen": 108538650,
      "step": 5034,
      "time_per_iteration": 2.7029550075531006
    },
    {
      "auxiliary_loss_clip": 0.01155211,
      "auxiliary_loss_mlp": 0.01034861,
      "balance_loss_clip": 1.04534984,
      "balance_loss_mlp": 1.02635586,
      "epoch": 0.605422954367823,
      "flos": 15154698412800.0,
      "grad_norm": 2.1900201889518653,
      "language_loss": 0.71579552,
      "learning_rate": 1.4225529018537352e-06,
      "loss": 0.73769617,
      "num_input_tokens_seen": 108554155,
      "step": 5035,
      "time_per_iteration": 2.805704355239868
    },
    {
      "auxiliary_loss_clip": 0.01178807,
      "auxiliary_loss_mlp": 0.01028842,
      "balance_loss_clip": 1.05132651,
      "balance_loss_mlp": 1.02050984,
      "epoch": 0.6055431972584621,
      "flos": 27673912131840.0,
      "grad_norm": 1.9189540751911747,
      "language_loss": 0.77981019,
      "learning_rate": 1.4218071484725082e-06,
      "loss": 0.80188668,
      "num_input_tokens_seen": 108576275,
      "step": 5036,
      "time_per_iteration": 2.737302541732788
    },
    {
      "auxiliary_loss_clip": 0.01157609,
      "auxiliary_loss_mlp": 0.0103658,
      "balance_loss_clip": 1.05094528,
      "balance_loss_mlp": 1.028229,
      "epoch": 0.6056634401491012,
      "flos": 19387489006080.0,
      "grad_norm": 1.7901124505312926,
      "language_loss": 0.76444018,
      "learning_rate": 1.4210614828026786e-06,
      "loss": 0.78638208,
      "num_input_tokens_seen": 108594125,
      "step": 5037,
      "time_per_iteration": 2.6598868370056152
    },
    {
      "auxiliary_loss_clip": 0.01176782,
      "auxiliary_loss_mlp": 0.01025989,
      "balance_loss_clip": 1.0495913,
      "balance_loss_mlp": 1.01822901,
      "epoch": 0.6057836830397403,
      "flos": 24789459294720.0,
      "grad_norm": 1.5286063848182527,
      "language_loss": 0.74523443,
      "learning_rate": 1.4203159049573605e-06,
      "loss": 0.7672621,
      "num_input_tokens_seen": 108615360,
      "step": 5038,
      "time_per_iteration": 2.6312339305877686
    },
    {
      "auxiliary_loss_clip": 0.01167035,
      "auxiliary_loss_mlp": 0.01035218,
      "balance_loss_clip": 1.04762506,
      "balance_loss_mlp": 1.02707577,
      "epoch": 0.6059039259303793,
      "flos": 20558248899840.0,
      "grad_norm": 1.9368879445348894,
      "language_loss": 0.86903346,
      "learning_rate": 1.4195704150496593e-06,
      "loss": 0.89105606,
      "num_input_tokens_seen": 108633075,
      "step": 5039,
      "time_per_iteration": 2.6593830585479736
    },
    {
      "auxiliary_loss_clip": 0.01164323,
      "auxiliary_loss_mlp": 0.0103111,
      "balance_loss_clip": 1.05233085,
      "balance_loss_mlp": 1.02182949,
      "epoch": 0.6060241688210185,
      "flos": 21069724613760.0,
      "grad_norm": 1.795318146666022,
      "language_loss": 0.73748565,
      "learning_rate": 1.4188250131926639e-06,
      "loss": 0.75943995,
      "num_input_tokens_seen": 108651875,
      "step": 5040,
      "time_per_iteration": 2.7013652324676514
    },
    {
      "auxiliary_loss_clip": 0.01160329,
      "auxiliary_loss_mlp": 0.01030467,
      "balance_loss_clip": 1.04759753,
      "balance_loss_mlp": 1.02158034,
      "epoch": 0.6061444117116576,
      "flos": 16361081619840.0,
      "grad_norm": 2.970829739856353,
      "language_loss": 0.80583298,
      "learning_rate": 1.4180796994994525e-06,
      "loss": 0.82774097,
      "num_input_tokens_seen": 108669290,
      "step": 5041,
      "time_per_iteration": 2.668053388595581
    },
    {
      "auxiliary_loss_clip": 0.01157161,
      "auxiliary_loss_mlp": 0.01026232,
      "balance_loss_clip": 1.047014,
      "balance_loss_mlp": 1.01815009,
      "epoch": 0.6062646546022966,
      "flos": 21507296094720.0,
      "grad_norm": 1.82759753188413,
      "language_loss": 0.72189617,
      "learning_rate": 1.4173344740830877e-06,
      "loss": 0.74373013,
      "num_input_tokens_seen": 108688420,
      "step": 5042,
      "time_per_iteration": 2.692434310913086
    },
    {
      "auxiliary_loss_clip": 0.01151714,
      "auxiliary_loss_mlp": 0.01031124,
      "balance_loss_clip": 1.04832149,
      "balance_loss_mlp": 1.02321446,
      "epoch": 0.6063848974929358,
      "flos": 38983151283840.0,
      "grad_norm": 1.5049880160979165,
      "language_loss": 0.70937932,
      "learning_rate": 1.4165893370566206e-06,
      "loss": 0.73120773,
      "num_input_tokens_seen": 108712175,
      "step": 5043,
      "time_per_iteration": 2.8461596965789795
    },
    {
      "auxiliary_loss_clip": 0.01164366,
      "auxiliary_loss_mlp": 0.01032395,
      "balance_loss_clip": 1.04809093,
      "balance_loss_mlp": 1.02380002,
      "epoch": 0.6065051403835748,
      "flos": 19646584784640.0,
      "grad_norm": 1.9833133779319876,
      "language_loss": 0.77694738,
      "learning_rate": 1.4158442885330865e-06,
      "loss": 0.79891497,
      "num_input_tokens_seen": 108730745,
      "step": 5044,
      "time_per_iteration": 3.5191171169281006
    },
    {
      "auxiliary_loss_clip": 0.01160785,
      "auxiliary_loss_mlp": 0.01025158,
      "balance_loss_clip": 1.04632998,
      "balance_loss_mlp": 1.01662242,
      "epoch": 0.6066253832742139,
      "flos": 23513086437120.0,
      "grad_norm": 2.691785675068259,
      "language_loss": 0.78595793,
      "learning_rate": 1.4150993286255094e-06,
      "loss": 0.8078174,
      "num_input_tokens_seen": 108749995,
      "step": 5045,
      "time_per_iteration": 2.674729347229004
    },
    {
      "auxiliary_loss_clip": 0.01176986,
      "auxiliary_loss_mlp": 0.01031065,
      "balance_loss_clip": 1.04972792,
      "balance_loss_mlp": 1.02303028,
      "epoch": 0.6067456261648531,
      "flos": 19133708440320.0,
      "grad_norm": 2.2289086693690416,
      "language_loss": 0.80097568,
      "learning_rate": 1.4143544574468993e-06,
      "loss": 0.82305616,
      "num_input_tokens_seen": 108768355,
      "step": 5046,
      "time_per_iteration": 2.554548501968384
    },
    {
      "auxiliary_loss_clip": 0.0116617,
      "auxiliary_loss_mlp": 0.01027148,
      "balance_loss_clip": 1.05107021,
      "balance_loss_mlp": 1.01863623,
      "epoch": 0.6068658690554921,
      "flos": 20520614424960.0,
      "grad_norm": 2.822498165312822,
      "language_loss": 0.82331389,
      "learning_rate": 1.4136096751102523e-06,
      "loss": 0.84524709,
      "num_input_tokens_seen": 108786685,
      "step": 5047,
      "time_per_iteration": 2.6637959480285645
    },
    {
      "auxiliary_loss_clip": 0.01160613,
      "auxiliary_loss_mlp": 0.01023996,
      "balance_loss_clip": 1.04665458,
      "balance_loss_mlp": 1.0161103,
      "epoch": 0.6069861119461312,
      "flos": 27374560185600.0,
      "grad_norm": 2.325788781626852,
      "language_loss": 0.83011258,
      "learning_rate": 1.4128649817285516e-06,
      "loss": 0.85195863,
      "num_input_tokens_seen": 108804820,
      "step": 5048,
      "time_per_iteration": 3.748018503189087
    },
    {
      "auxiliary_loss_clip": 0.01160128,
      "auxiliary_loss_mlp": 0.01030918,
      "balance_loss_clip": 1.0458746,
      "balance_loss_mlp": 1.02311254,
      "epoch": 0.6071063548367702,
      "flos": 25626500904960.0,
      "grad_norm": 1.876604573076918,
      "language_loss": 0.6314016,
      "learning_rate": 1.412120377414766e-06,
      "loss": 0.65331209,
      "num_input_tokens_seen": 108825010,
      "step": 5049,
      "time_per_iteration": 2.698225259780884
    },
    {
      "auxiliary_loss_clip": 0.01179605,
      "auxiliary_loss_mlp": 0.01028076,
      "balance_loss_clip": 1.05344248,
      "balance_loss_mlp": 1.02073812,
      "epoch": 0.6072265977274094,
      "flos": 24460517520000.0,
      "grad_norm": 1.598497810539314,
      "language_loss": 0.7124573,
      "learning_rate": 1.4113758622818522e-06,
      "loss": 0.73453408,
      "num_input_tokens_seen": 108845075,
      "step": 5050,
      "time_per_iteration": 2.681840419769287
    },
    {
      "auxiliary_loss_clip": 0.01167382,
      "auxiliary_loss_mlp": 0.00886184,
      "balance_loss_clip": 1.05227351,
      "balance_loss_mlp": 1.00042033,
      "epoch": 0.6073468406180484,
      "flos": 18149253413760.0,
      "grad_norm": 2.0866626932570482,
      "language_loss": 0.8317349,
      "learning_rate": 1.410631436442751e-06,
      "loss": 0.85227054,
      "num_input_tokens_seen": 108863870,
      "step": 5051,
      "time_per_iteration": 3.5337181091308594
    },
    {
      "auxiliary_loss_clip": 0.01174043,
      "auxiliary_loss_mlp": 0.01027465,
      "balance_loss_clip": 1.05006993,
      "balance_loss_mlp": 1.01924586,
      "epoch": 0.6074670835086875,
      "flos": 20697617669760.0,
      "grad_norm": 2.636242323055347,
      "language_loss": 0.86933768,
      "learning_rate": 1.4098871000103936e-06,
      "loss": 0.89135277,
      "num_input_tokens_seen": 108882470,
      "step": 5052,
      "time_per_iteration": 2.7572104930877686
    },
    {
      "auxiliary_loss_clip": 0.01158287,
      "auxiliary_loss_mlp": 0.01028942,
      "balance_loss_clip": 1.04565167,
      "balance_loss_mlp": 1.02108634,
      "epoch": 0.6075873263993267,
      "flos": 23769955572480.0,
      "grad_norm": 1.6738252395002018,
      "language_loss": 0.82637411,
      "learning_rate": 1.409142853097693e-06,
      "loss": 0.8482464,
      "num_input_tokens_seen": 108902710,
      "step": 5053,
      "time_per_iteration": 2.704514980316162
    },
    {
      "auxiliary_loss_clip": 0.0116414,
      "auxiliary_loss_mlp": 0.01032626,
      "balance_loss_clip": 1.04986465,
      "balance_loss_mlp": 1.02416229,
      "epoch": 0.6077075692899657,
      "flos": 24454484035200.0,
      "grad_norm": 6.825478034985551,
      "language_loss": 0.79464996,
      "learning_rate": 1.408398695817553e-06,
      "loss": 0.81661761,
      "num_input_tokens_seen": 108919935,
      "step": 5054,
      "time_per_iteration": 2.7496817111968994
    },
    {
      "auxiliary_loss_clip": 0.01158053,
      "auxiliary_loss_mlp": 0.01028749,
      "balance_loss_clip": 1.04577374,
      "balance_loss_mlp": 1.01999271,
      "epoch": 0.6078278121806048,
      "flos": 27382102041600.0,
      "grad_norm": 1.7274670574792608,
      "language_loss": 0.70136654,
      "learning_rate": 1.4076546282828593e-06,
      "loss": 0.72323453,
      "num_input_tokens_seen": 108942790,
      "step": 5055,
      "time_per_iteration": 3.710256338119507
    },
    {
      "auxiliary_loss_clip": 0.01159812,
      "auxiliary_loss_mlp": 0.01024627,
      "balance_loss_clip": 1.04294693,
      "balance_loss_mlp": 1.01619327,
      "epoch": 0.6079480550712439,
      "flos": 38436447306240.0,
      "grad_norm": 2.267683294550844,
      "language_loss": 0.65861177,
      "learning_rate": 1.4069106506064874e-06,
      "loss": 0.68045616,
      "num_input_tokens_seen": 108964215,
      "step": 5056,
      "time_per_iteration": 2.8226988315582275
    },
    {
      "auxiliary_loss_clip": 0.01157116,
      "auxiliary_loss_mlp": 0.01031575,
      "balance_loss_clip": 1.05110931,
      "balance_loss_mlp": 1.02369237,
      "epoch": 0.608068297961883,
      "flos": 25336271013120.0,
      "grad_norm": 1.6246960181507457,
      "language_loss": 0.78516257,
      "learning_rate": 1.4061667629012989e-06,
      "loss": 0.80704939,
      "num_input_tokens_seen": 108984885,
      "step": 5057,
      "time_per_iteration": 2.691124439239502
    },
    {
      "auxiliary_loss_clip": 0.01150449,
      "auxiliary_loss_mlp": 0.01025265,
      "balance_loss_clip": 1.0484885,
      "balance_loss_mlp": 1.01736772,
      "epoch": 0.608188540852522,
      "flos": 24202463235840.0,
      "grad_norm": 1.6127209374621694,
      "language_loss": 0.83267939,
      "learning_rate": 1.40542296528014e-06,
      "loss": 0.85443652,
      "num_input_tokens_seen": 109004545,
      "step": 5058,
      "time_per_iteration": 2.74249005317688
    },
    {
      "auxiliary_loss_clip": 0.01169227,
      "auxiliary_loss_mlp": 0.01033186,
      "balance_loss_clip": 1.04800415,
      "balance_loss_mlp": 1.02485943,
      "epoch": 0.6083087837431612,
      "flos": 21284146851840.0,
      "grad_norm": 2.1312876095021442,
      "language_loss": 0.76008213,
      "learning_rate": 1.4046792578558452e-06,
      "loss": 0.78210622,
      "num_input_tokens_seen": 109022440,
      "step": 5059,
      "time_per_iteration": 2.65187406539917
    },
    {
      "auxiliary_loss_clip": 0.01155239,
      "auxiliary_loss_mlp": 0.01031146,
      "balance_loss_clip": 1.04763377,
      "balance_loss_mlp": 1.02313185,
      "epoch": 0.6084290266338003,
      "flos": 16471435178880.0,
      "grad_norm": 2.3620052369370854,
      "language_loss": 0.75915289,
      "learning_rate": 1.4039356407412325e-06,
      "loss": 0.78101677,
      "num_input_tokens_seen": 109035680,
      "step": 5060,
      "time_per_iteration": 2.8264987468719482
    },
    {
      "auxiliary_loss_clip": 0.01066149,
      "auxiliary_loss_mlp": 0.0100109,
      "balance_loss_clip": 1.01228666,
      "balance_loss_mlp": 1.00000501,
      "epoch": 0.6085492695244393,
      "flos": 66443574931200.0,
      "grad_norm": 1.1639311649151833,
      "language_loss": 0.57120657,
      "learning_rate": 1.40319211404911e-06,
      "loss": 0.59187901,
      "num_input_tokens_seen": 109090680,
      "step": 5061,
      "time_per_iteration": 3.227386951446533
    },
    {
      "auxiliary_loss_clip": 0.01181635,
      "auxiliary_loss_mlp": 0.01027541,
      "balance_loss_clip": 1.05346,
      "balance_loss_mlp": 1.01990581,
      "epoch": 0.6086695124150785,
      "flos": 23618986709760.0,
      "grad_norm": 1.754229242836544,
      "language_loss": 0.90719736,
      "learning_rate": 1.4024486778922691e-06,
      "loss": 0.92928922,
      "num_input_tokens_seen": 109108995,
      "step": 5062,
      "time_per_iteration": 2.6646785736083984
    },
    {
      "auxiliary_loss_clip": 0.01161769,
      "auxiliary_loss_mlp": 0.01028738,
      "balance_loss_clip": 1.04482675,
      "balance_loss_mlp": 1.02079248,
      "epoch": 0.6087897553057176,
      "flos": 20157054917760.0,
      "grad_norm": 1.846798676055818,
      "language_loss": 0.77728111,
      "learning_rate": 1.4017053323834884e-06,
      "loss": 0.79918617,
      "num_input_tokens_seen": 109128825,
      "step": 5063,
      "time_per_iteration": 2.811788320541382
    },
    {
      "auxiliary_loss_clip": 0.01159156,
      "auxiliary_loss_mlp": 0.01025399,
      "balance_loss_clip": 1.04450583,
      "balance_loss_mlp": 1.01799655,
      "epoch": 0.6089099981963566,
      "flos": 25482535194240.0,
      "grad_norm": 8.156173993721502,
      "language_loss": 0.76082337,
      "learning_rate": 1.4009620776355333e-06,
      "loss": 0.78266889,
      "num_input_tokens_seen": 109150425,
      "step": 5064,
      "time_per_iteration": 2.796945333480835
    },
    {
      "auxiliary_loss_clip": 0.01167598,
      "auxiliary_loss_mlp": 0.01028448,
      "balance_loss_clip": 1.0490396,
      "balance_loss_mlp": 1.02041328,
      "epoch": 0.6090302410869958,
      "flos": 25332895134720.0,
      "grad_norm": 3.2576976130994892,
      "language_loss": 0.79136002,
      "learning_rate": 1.4002189137611553e-06,
      "loss": 0.81332046,
      "num_input_tokens_seen": 109169765,
      "step": 5065,
      "time_per_iteration": 2.6403751373291016
    },
    {
      "auxiliary_loss_clip": 0.01168861,
      "auxiliary_loss_mlp": 0.01027537,
      "balance_loss_clip": 1.04992962,
      "balance_loss_mlp": 1.01984787,
      "epoch": 0.6091504839776348,
      "flos": 23987358639360.0,
      "grad_norm": 1.6120115955023193,
      "language_loss": 0.69765544,
      "learning_rate": 1.3994758408730901e-06,
      "loss": 0.71961945,
      "num_input_tokens_seen": 109188950,
      "step": 5066,
      "time_per_iteration": 2.6812803745269775
    },
    {
      "auxiliary_loss_clip": 0.01163289,
      "auxiliary_loss_mlp": 0.01031901,
      "balance_loss_clip": 1.05150294,
      "balance_loss_mlp": 1.02285314,
      "epoch": 0.6092707268682739,
      "flos": 29643037666560.0,
      "grad_norm": 1.8887740700421778,
      "language_loss": 0.76465225,
      "learning_rate": 1.3987328590840629e-06,
      "loss": 0.78660417,
      "num_input_tokens_seen": 109209895,
      "step": 5067,
      "time_per_iteration": 2.7382211685180664
    },
    {
      "auxiliary_loss_clip": 0.01166036,
      "auxiliary_loss_mlp": 0.01030224,
      "balance_loss_clip": 1.04863095,
      "balance_loss_mlp": 1.02218962,
      "epoch": 0.609390969758913,
      "flos": 24024957200640.0,
      "grad_norm": 1.8015187292567065,
      "language_loss": 0.86356086,
      "learning_rate": 1.397989968506783e-06,
      "loss": 0.8855235,
      "num_input_tokens_seen": 109228905,
      "step": 5068,
      "time_per_iteration": 2.6010780334472656
    },
    {
      "auxiliary_loss_clip": 0.01184935,
      "auxiliary_loss_mlp": 0.01036433,
      "balance_loss_clip": 1.05385256,
      "balance_loss_mlp": 1.02816582,
      "epoch": 0.6095112126495521,
      "flos": 11102143288320.0,
      "grad_norm": 2.381184123469328,
      "language_loss": 0.72475296,
      "learning_rate": 1.3972471692539458e-06,
      "loss": 0.74696672,
      "num_input_tokens_seen": 109243620,
      "step": 5069,
      "time_per_iteration": 2.5824201107025146
    },
    {
      "auxiliary_loss_clip": 0.01156191,
      "auxiliary_loss_mlp": 0.01021719,
      "balance_loss_clip": 1.04774284,
      "balance_loss_mlp": 1.01443493,
      "epoch": 0.6096314555401912,
      "flos": 17265491187840.0,
      "grad_norm": 2.0861563378826387,
      "language_loss": 0.75689971,
      "learning_rate": 1.3965044614382348e-06,
      "loss": 0.77867877,
      "num_input_tokens_seen": 109259070,
      "step": 5070,
      "time_per_iteration": 3.5640218257904053
    },
    {
      "auxiliary_loss_clip": 0.0118213,
      "auxiliary_loss_mlp": 0.01030706,
      "balance_loss_clip": 1.05271816,
      "balance_loss_mlp": 1.02212906,
      "epoch": 0.6097516984308303,
      "flos": 21645910679040.0,
      "grad_norm": 2.5566592520776226,
      "language_loss": 0.75573182,
      "learning_rate": 1.3957618451723162e-06,
      "loss": 0.77786016,
      "num_input_tokens_seen": 109275100,
      "step": 5071,
      "time_per_iteration": 2.594954252243042
    },
    {
      "auxiliary_loss_clip": 0.01160491,
      "auxiliary_loss_mlp": 0.01024619,
      "balance_loss_clip": 1.04787993,
      "balance_loss_mlp": 1.01693845,
      "epoch": 0.6098719413214694,
      "flos": 27199208966400.0,
      "grad_norm": 2.1418599054623977,
      "language_loss": 0.71669292,
      "learning_rate": 1.3950193205688457e-06,
      "loss": 0.73854399,
      "num_input_tokens_seen": 109294825,
      "step": 5072,
      "time_per_iteration": 2.702042579650879
    },
    {
      "auxiliary_loss_clip": 0.01158747,
      "auxiliary_loss_mlp": 0.01027215,
      "balance_loss_clip": 1.04917002,
      "balance_loss_mlp": 1.01941299,
      "epoch": 0.6099921842121084,
      "flos": 20412954385920.0,
      "grad_norm": 1.9102080973817737,
      "language_loss": 0.83893663,
      "learning_rate": 1.3942768877404627e-06,
      "loss": 0.86079621,
      "num_input_tokens_seen": 109313790,
      "step": 5073,
      "time_per_iteration": 2.671278953552246
    },
    {
      "auxiliary_loss_clip": 0.01179041,
      "auxiliary_loss_mlp": 0.01021828,
      "balance_loss_clip": 1.05173266,
      "balance_loss_mlp": 1.0139066,
      "epoch": 0.6101124271027476,
      "flos": 23366139897600.0,
      "grad_norm": 1.4867933966840323,
      "language_loss": 0.73716557,
      "learning_rate": 1.393534546799795e-06,
      "loss": 0.75917423,
      "num_input_tokens_seen": 109333490,
      "step": 5074,
      "time_per_iteration": 3.6378917694091797
    },
    {
      "auxiliary_loss_clip": 0.01150314,
      "auxiliary_loss_mlp": 0.01028698,
      "balance_loss_clip": 1.04805005,
      "balance_loss_mlp": 1.02079439,
      "epoch": 0.6102326699933867,
      "flos": 26687840993280.0,
      "grad_norm": 1.9924577083258217,
      "language_loss": 0.67783761,
      "learning_rate": 1.3927922978594536e-06,
      "loss": 0.69962776,
      "num_input_tokens_seen": 109354575,
      "step": 5075,
      "time_per_iteration": 2.7125496864318848
    },
    {
      "auxiliary_loss_clip": 0.01062021,
      "auxiliary_loss_mlp": 0.01001252,
      "balance_loss_clip": 1.01232362,
      "balance_loss_mlp": 1.00032187,
      "epoch": 0.6103529128840257,
      "flos": 60644612551680.0,
      "grad_norm": 0.7709686224775197,
      "language_loss": 0.57434297,
      "learning_rate": 1.3920501410320387e-06,
      "loss": 0.59497571,
      "num_input_tokens_seen": 109410690,
      "step": 5076,
      "time_per_iteration": 3.1823575496673584
    },
    {
      "auxiliary_loss_clip": 0.01157347,
      "auxiliary_loss_mlp": 0.01030018,
      "balance_loss_clip": 1.04548025,
      "balance_loss_mlp": 1.02159584,
      "epoch": 0.6104731557746649,
      "flos": 19021307806080.0,
      "grad_norm": 1.9536914495993845,
      "language_loss": 0.76141101,
      "learning_rate": 1.3913080764301333e-06,
      "loss": 0.78328466,
      "num_input_tokens_seen": 109427650,
      "step": 5077,
      "time_per_iteration": 2.695765256881714
    },
    {
      "auxiliary_loss_clip": 0.01149604,
      "auxiliary_loss_mlp": 0.01028972,
      "balance_loss_clip": 1.04369545,
      "balance_loss_mlp": 1.02095544,
      "epoch": 0.6105933986653039,
      "flos": 23366894083200.0,
      "grad_norm": 1.6665231115686923,
      "language_loss": 0.71062982,
      "learning_rate": 1.3905661041663085e-06,
      "loss": 0.73241556,
      "num_input_tokens_seen": 109448835,
      "step": 5078,
      "time_per_iteration": 3.7066142559051514
    },
    {
      "auxiliary_loss_clip": 0.01170091,
      "auxiliary_loss_mlp": 0.01031706,
      "balance_loss_clip": 1.05076718,
      "balance_loss_mlp": 1.02302778,
      "epoch": 0.610713641555943,
      "flos": 34637565006720.0,
      "grad_norm": 2.061082960213089,
      "language_loss": 0.65476632,
      "learning_rate": 1.389824224353122e-06,
      "loss": 0.67678434,
      "num_input_tokens_seen": 109470425,
      "step": 5079,
      "time_per_iteration": 2.8047659397125244
    },
    {
      "auxiliary_loss_clip": 0.01169158,
      "auxiliary_loss_mlp": 0.01025849,
      "balance_loss_clip": 1.05290949,
      "balance_loss_mlp": 1.01841092,
      "epoch": 0.610833884446582,
      "flos": 26646471504000.0,
      "grad_norm": 1.8766938455387034,
      "language_loss": 0.76829022,
      "learning_rate": 1.389082437103115e-06,
      "loss": 0.79024035,
      "num_input_tokens_seen": 109489695,
      "step": 5080,
      "time_per_iteration": 2.7091755867004395
    },
    {
      "auxiliary_loss_clip": 0.01150618,
      "auxiliary_loss_mlp": 0.01027922,
      "balance_loss_clip": 1.0457232,
      "balance_loss_mlp": 1.01935101,
      "epoch": 0.6109541273372212,
      "flos": 21215126868480.0,
      "grad_norm": 2.1768420465601324,
      "language_loss": 0.78109825,
      "learning_rate": 1.3883407425288172e-06,
      "loss": 0.80288368,
      "num_input_tokens_seen": 109510030,
      "step": 5081,
      "time_per_iteration": 3.568244457244873
    },
    {
      "auxiliary_loss_clip": 0.01155465,
      "auxiliary_loss_mlp": 0.01028178,
      "balance_loss_clip": 1.04647541,
      "balance_loss_mlp": 1.0202806,
      "epoch": 0.6110743702278603,
      "flos": 20084084438400.0,
      "grad_norm": 7.1590955788490644,
      "language_loss": 0.79848421,
      "learning_rate": 1.3875991407427417e-06,
      "loss": 0.82032073,
      "num_input_tokens_seen": 109528255,
      "step": 5082,
      "time_per_iteration": 2.745096206665039
    },
    {
      "auxiliary_loss_clip": 0.0105695,
      "auxiliary_loss_mlp": 0.01001045,
      "balance_loss_clip": 1.01193833,
      "balance_loss_mlp": 1.00001419,
      "epoch": 0.6111946131184993,
      "flos": 68302957438080.0,
      "grad_norm": 1.2439313001047607,
      "language_loss": 0.58213371,
      "learning_rate": 1.38685763185739e-06,
      "loss": 0.6027137,
      "num_input_tokens_seen": 109581915,
      "step": 5083,
      "time_per_iteration": 3.2719409465789795
    },
    {
      "auxiliary_loss_clip": 0.01178318,
      "auxiliary_loss_mlp": 0.01026674,
      "balance_loss_clip": 1.05068767,
      "balance_loss_mlp": 1.01895809,
      "epoch": 0.6113148560091385,
      "flos": 19937676602880.0,
      "grad_norm": 3.280188839264629,
      "language_loss": 0.67905235,
      "learning_rate": 1.3861162159852476e-06,
      "loss": 0.70110226,
      "num_input_tokens_seen": 109600050,
      "step": 5084,
      "time_per_iteration": 2.628091812133789
    },
    {
      "auxiliary_loss_clip": 0.0116511,
      "auxiliary_loss_mlp": 0.01032889,
      "balance_loss_clip": 1.05083263,
      "balance_loss_mlp": 1.02459192,
      "epoch": 0.6114350988997775,
      "flos": 23731854220800.0,
      "grad_norm": 5.162192133634511,
      "language_loss": 0.79628372,
      "learning_rate": 1.3853748932387875e-06,
      "loss": 0.81826377,
      "num_input_tokens_seen": 109620690,
      "step": 5085,
      "time_per_iteration": 2.7079825401306152
    },
    {
      "auxiliary_loss_clip": 0.01148198,
      "auxiliary_loss_mlp": 0.01027027,
      "balance_loss_clip": 1.04387879,
      "balance_loss_mlp": 1.01860535,
      "epoch": 0.6115553417904166,
      "flos": 24023700224640.0,
      "grad_norm": 2.4215432594977977,
      "language_loss": 0.75552082,
      "learning_rate": 1.3846336637304671e-06,
      "loss": 0.77727306,
      "num_input_tokens_seen": 109638960,
      "step": 5086,
      "time_per_iteration": 2.739192008972168
    },
    {
      "auxiliary_loss_clip": 0.01148744,
      "auxiliary_loss_mlp": 0.0102788,
      "balance_loss_clip": 1.04596138,
      "balance_loss_mlp": 1.01953578,
      "epoch": 0.6116755846810558,
      "flos": 23733542160000.0,
      "grad_norm": 2.3368158005779978,
      "language_loss": 0.82907307,
      "learning_rate": 1.3838925275727316e-06,
      "loss": 0.85083926,
      "num_input_tokens_seen": 109659700,
      "step": 5087,
      "time_per_iteration": 2.6560137271881104
    },
    {
      "auxiliary_loss_clip": 0.01180267,
      "auxiliary_loss_mlp": 0.01024049,
      "balance_loss_clip": 1.05240464,
      "balance_loss_mlp": 1.01604414,
      "epoch": 0.6117958275716948,
      "flos": 18661626967680.0,
      "grad_norm": 1.7070198554556801,
      "language_loss": 0.79083771,
      "learning_rate": 1.3831514848780089e-06,
      "loss": 0.81288087,
      "num_input_tokens_seen": 109679275,
      "step": 5088,
      "time_per_iteration": 2.5848910808563232
    },
    {
      "auxiliary_loss_clip": 0.01162137,
      "auxiliary_loss_mlp": 0.01025808,
      "balance_loss_clip": 1.04893517,
      "balance_loss_mlp": 1.01769626,
      "epoch": 0.6119160704623339,
      "flos": 16471183783680.0,
      "grad_norm": 2.221493264650508,
      "language_loss": 0.92110276,
      "learning_rate": 1.3824105357587152e-06,
      "loss": 0.94298226,
      "num_input_tokens_seen": 109696380,
      "step": 5089,
      "time_per_iteration": 2.593217134475708
    },
    {
      "auxiliary_loss_clip": 0.01152779,
      "auxiliary_loss_mlp": 0.01026087,
      "balance_loss_clip": 1.04518819,
      "balance_loss_mlp": 1.01813555,
      "epoch": 0.612036313352973,
      "flos": 23915465568000.0,
      "grad_norm": 1.510896674787838,
      "language_loss": 0.82516587,
      "learning_rate": 1.381669680327253e-06,
      "loss": 0.84695446,
      "num_input_tokens_seen": 109718060,
      "step": 5090,
      "time_per_iteration": 2.722100257873535
    },
    {
      "auxiliary_loss_clip": 0.0115321,
      "auxiliary_loss_mlp": 0.01026633,
      "balance_loss_clip": 1.04774594,
      "balance_loss_mlp": 1.01866353,
      "epoch": 0.6121565562436121,
      "flos": 26974766833920.0,
      "grad_norm": 1.7645327265336361,
      "language_loss": 0.70862043,
      "learning_rate": 1.380928918696008e-06,
      "loss": 0.73041892,
      "num_input_tokens_seen": 109736830,
      "step": 5091,
      "time_per_iteration": 2.6815378665924072
    },
    {
      "auxiliary_loss_clip": 0.01167581,
      "auxiliary_loss_mlp": 0.01029364,
      "balance_loss_clip": 1.04856598,
      "balance_loss_mlp": 1.02180648,
      "epoch": 0.6122767991342511,
      "flos": 15668867646720.0,
      "grad_norm": 2.5793694131825147,
      "language_loss": 0.71221018,
      "learning_rate": 1.3801882509773548e-06,
      "loss": 0.73417962,
      "num_input_tokens_seen": 109754690,
      "step": 5092,
      "time_per_iteration": 2.6930418014526367
    },
    {
      "auxiliary_loss_clip": 0.01162177,
      "auxiliary_loss_mlp": 0.01024364,
      "balance_loss_clip": 1.04617047,
      "balance_loss_mlp": 1.01584053,
      "epoch": 0.6123970420248903,
      "flos": 27964321591680.0,
      "grad_norm": 1.811119307691797,
      "language_loss": 0.81790441,
      "learning_rate": 1.3794476772836503e-06,
      "loss": 0.8397699,
      "num_input_tokens_seen": 109775790,
      "step": 5093,
      "time_per_iteration": 2.6771810054779053
    },
    {
      "auxiliary_loss_clip": 0.01138411,
      "auxiliary_loss_mlp": 0.01023521,
      "balance_loss_clip": 1.04408228,
      "balance_loss_mlp": 1.01509285,
      "epoch": 0.6125172849155294,
      "flos": 21468727866240.0,
      "grad_norm": 1.9277017448160796,
      "language_loss": 0.84480655,
      "learning_rate": 1.3787071977272402e-06,
      "loss": 0.86642587,
      "num_input_tokens_seen": 109795050,
      "step": 5094,
      "time_per_iteration": 2.7336480617523193
    },
    {
      "auxiliary_loss_clip": 0.01137555,
      "auxiliary_loss_mlp": 0.01026192,
      "balance_loss_clip": 1.04887342,
      "balance_loss_mlp": 1.01821136,
      "epoch": 0.6126375278061684,
      "flos": 16248321849600.0,
      "grad_norm": 4.155712463070677,
      "language_loss": 0.71476537,
      "learning_rate": 1.3779668124204535e-06,
      "loss": 0.73640287,
      "num_input_tokens_seen": 109811465,
      "step": 5095,
      "time_per_iteration": 2.756972551345825
    },
    {
      "auxiliary_loss_clip": 0.01152336,
      "auxiliary_loss_mlp": 0.01023562,
      "balance_loss_clip": 1.05006838,
      "balance_loss_mlp": 1.01558948,
      "epoch": 0.6127577706968076,
      "flos": 20448865008000.0,
      "grad_norm": 1.8029127860828453,
      "language_loss": 0.80667007,
      "learning_rate": 1.3772265214756074e-06,
      "loss": 0.82842898,
      "num_input_tokens_seen": 109831225,
      "step": 5096,
      "time_per_iteration": 3.675859212875366
    },
    {
      "auxiliary_loss_clip": 0.01169206,
      "auxiliary_loss_mlp": 0.01029912,
      "balance_loss_clip": 1.04718399,
      "balance_loss_mlp": 1.02184725,
      "epoch": 0.6128780135874466,
      "flos": 18260397072000.0,
      "grad_norm": 2.3515380673511563,
      "language_loss": 0.75283563,
      "learning_rate": 1.3764863250050025e-06,
      "loss": 0.77482677,
      "num_input_tokens_seen": 109849465,
      "step": 5097,
      "time_per_iteration": 2.6347837448120117
    },
    {
      "auxiliary_loss_clip": 0.01148167,
      "auxiliary_loss_mlp": 0.0102963,
      "balance_loss_clip": 1.04588032,
      "balance_loss_mlp": 1.02247119,
      "epoch": 0.6129982564780857,
      "flos": 24937088192640.0,
      "grad_norm": 1.7101115488792846,
      "language_loss": 0.80594736,
      "learning_rate": 1.3757462231209272e-06,
      "loss": 0.82772529,
      "num_input_tokens_seen": 109869770,
      "step": 5098,
      "time_per_iteration": 2.730315685272217
    },
    {
      "auxiliary_loss_clip": 0.01149329,
      "auxiliary_loss_mlp": 0.01028621,
      "balance_loss_clip": 1.04562855,
      "balance_loss_mlp": 1.02083623,
      "epoch": 0.6131184993687249,
      "flos": 22492038430080.0,
      "grad_norm": 2.136596956475919,
      "language_loss": 0.88653308,
      "learning_rate": 1.3750062159356525e-06,
      "loss": 0.90831256,
      "num_input_tokens_seen": 109889120,
      "step": 5099,
      "time_per_iteration": 2.732316255569458
    },
    {
      "auxiliary_loss_clip": 0.01139116,
      "auxiliary_loss_mlp": 0.01023962,
      "balance_loss_clip": 1.04446054,
      "balance_loss_mlp": 1.01626146,
      "epoch": 0.6132387422593639,
      "flos": 15885839750400.0,
      "grad_norm": 1.8883691568473588,
      "language_loss": 0.83325416,
      "learning_rate": 1.3742663035614382e-06,
      "loss": 0.85488498,
      "num_input_tokens_seen": 109906490,
      "step": 5100,
      "time_per_iteration": 3.6921725273132324
    },
    {
      "auxiliary_loss_clip": 0.01178261,
      "auxiliary_loss_mlp": 0.0102951,
      "balance_loss_clip": 1.05069745,
      "balance_loss_mlp": 1.02171373,
      "epoch": 0.613358985150003,
      "flos": 25411539962880.0,
      "grad_norm": 1.65083353890213,
      "language_loss": 0.79911011,
      "learning_rate": 1.3735264861105283e-06,
      "loss": 0.82118785,
      "num_input_tokens_seen": 109927130,
      "step": 5101,
      "time_per_iteration": 2.6795432567596436
    },
    {
      "auxiliary_loss_clip": 0.01149499,
      "auxiliary_loss_mlp": 0.01028547,
      "balance_loss_clip": 1.04560757,
      "balance_loss_mlp": 1.02147746,
      "epoch": 0.6134792280406421,
      "flos": 21361283308800.0,
      "grad_norm": 2.975417182159513,
      "language_loss": 0.78711796,
      "learning_rate": 1.372786763695152e-06,
      "loss": 0.80889845,
      "num_input_tokens_seen": 109945890,
      "step": 5102,
      "time_per_iteration": 2.7286674976348877
    },
    {
      "auxiliary_loss_clip": 0.01168812,
      "auxiliary_loss_mlp": 0.01031195,
      "balance_loss_clip": 1.04797626,
      "balance_loss_mlp": 1.0228678,
      "epoch": 0.6135994709312812,
      "flos": 21211248199680.0,
      "grad_norm": 1.7546397282943305,
      "language_loss": 0.77762604,
      "learning_rate": 1.3720471364275257e-06,
      "loss": 0.79962611,
      "num_input_tokens_seen": 109965535,
      "step": 5103,
      "time_per_iteration": 3.3902652263641357
    },
    {
      "auxiliary_loss_clip": 0.01145627,
      "auxiliary_loss_mlp": 0.00887535,
      "balance_loss_clip": 1.04546165,
      "balance_loss_mlp": 1.00057125,
      "epoch": 0.6137197138219203,
      "flos": 14794047907200.0,
      "grad_norm": 2.0668258892285607,
      "language_loss": 0.78434861,
      "learning_rate": 1.3713076044198486e-06,
      "loss": 0.80468023,
      "num_input_tokens_seen": 109982345,
      "step": 5104,
      "time_per_iteration": 2.738412380218506
    },
    {
      "auxiliary_loss_clip": 0.01152171,
      "auxiliary_loss_mlp": 0.01026766,
      "balance_loss_clip": 1.04709363,
      "balance_loss_mlp": 1.01867127,
      "epoch": 0.6138399567125594,
      "flos": 20084515401600.0,
      "grad_norm": 3.823892750047965,
      "language_loss": 0.81207079,
      "learning_rate": 1.3705681677843086e-06,
      "loss": 0.83386016,
      "num_input_tokens_seen": 110000940,
      "step": 5105,
      "time_per_iteration": 2.6427736282348633
    },
    {
      "auxiliary_loss_clip": 0.01071058,
      "auxiliary_loss_mlp": 0.01002095,
      "balance_loss_clip": 1.01235461,
      "balance_loss_mlp": 1.00111127,
      "epoch": 0.6139601996031985,
      "flos": 60123838193280.0,
      "grad_norm": 0.804011576788313,
      "language_loss": 0.60594308,
      "learning_rate": 1.3698288266330768e-06,
      "loss": 0.62667465,
      "num_input_tokens_seen": 110061565,
      "step": 5106,
      "time_per_iteration": 3.265261173248291
    },
    {
      "auxiliary_loss_clip": 0.01154132,
      "auxiliary_loss_mlp": 0.01026974,
      "balance_loss_clip": 1.04933488,
      "balance_loss_mlp": 1.01958334,
      "epoch": 0.6140804424938375,
      "flos": 23586703361280.0,
      "grad_norm": 2.3470866557223182,
      "language_loss": 0.72534627,
      "learning_rate": 1.3690895810783113e-06,
      "loss": 0.74715734,
      "num_input_tokens_seen": 110080360,
      "step": 5107,
      "time_per_iteration": 3.6159188747406006
    },
    {
      "auxiliary_loss_clip": 0.01135336,
      "auxiliary_loss_mlp": 0.00887429,
      "balance_loss_clip": 1.04137206,
      "balance_loss_mlp": 1.00057054,
      "epoch": 0.6142006853844767,
      "flos": 21398199511680.0,
      "grad_norm": 2.2431146140104805,
      "language_loss": 0.71492279,
      "learning_rate": 1.3683504312321543e-06,
      "loss": 0.73515034,
      "num_input_tokens_seen": 110100695,
      "step": 5108,
      "time_per_iteration": 2.833494186401367
    },
    {
      "auxiliary_loss_clip": 0.01169202,
      "auxiliary_loss_mlp": 0.01023394,
      "balance_loss_clip": 1.04668725,
      "balance_loss_mlp": 1.01530552,
      "epoch": 0.6143209282751158,
      "flos": 12057367622400.0,
      "grad_norm": 2.2271710884869,
      "language_loss": 0.80166,
      "learning_rate": 1.3676113772067355e-06,
      "loss": 0.82358593,
      "num_input_tokens_seen": 110117750,
      "step": 5109,
      "time_per_iteration": 2.721108913421631
    },
    {
      "auxiliary_loss_clip": 0.0114454,
      "auxiliary_loss_mlp": 0.01032005,
      "balance_loss_clip": 1.0441339,
      "balance_loss_mlp": 1.02359462,
      "epoch": 0.6144411711657548,
      "flos": 25082274965760.0,
      "grad_norm": 1.8562380999717498,
      "language_loss": 0.72684014,
      "learning_rate": 1.3668724191141671e-06,
      "loss": 0.74860561,
      "num_input_tokens_seen": 110137020,
      "step": 5110,
      "time_per_iteration": 2.745553970336914
    },
    {
      "auxiliary_loss_clip": 0.0114367,
      "auxiliary_loss_mlp": 0.01031332,
      "balance_loss_clip": 1.04964972,
      "balance_loss_mlp": 1.02354193,
      "epoch": 0.6145614140563939,
      "flos": 20114069316480.0,
      "grad_norm": 2.294632285325818,
      "language_loss": 0.66900623,
      "learning_rate": 1.3661335570665493e-06,
      "loss": 0.6907562,
      "num_input_tokens_seen": 110154930,
      "step": 5111,
      "time_per_iteration": 2.731553554534912
    },
    {
      "auxiliary_loss_clip": 0.01163317,
      "auxiliary_loss_mlp": 0.01028032,
      "balance_loss_clip": 1.05149233,
      "balance_loss_mlp": 1.02064133,
      "epoch": 0.614681656947033,
      "flos": 16800376953600.0,
      "grad_norm": 10.764911618461808,
      "language_loss": 0.7010538,
      "learning_rate": 1.3653947911759676e-06,
      "loss": 0.72296727,
      "num_input_tokens_seen": 110172480,
      "step": 5112,
      "time_per_iteration": 2.6700778007507324
    },
    {
      "auxiliary_loss_clip": 0.0113187,
      "auxiliary_loss_mlp": 0.01035842,
      "balance_loss_clip": 1.04383135,
      "balance_loss_mlp": 1.02802801,
      "epoch": 0.6148018998376721,
      "flos": 38801587011840.0,
      "grad_norm": 2.32496206053108,
      "language_loss": 0.74625546,
      "learning_rate": 1.3646561215544904e-06,
      "loss": 0.76793253,
      "num_input_tokens_seen": 110197120,
      "step": 5113,
      "time_per_iteration": 2.861868143081665
    },
    {
      "auxiliary_loss_clip": 0.0116801,
      "auxiliary_loss_mlp": 0.01028584,
      "balance_loss_clip": 1.05033147,
      "balance_loss_mlp": 1.02054322,
      "epoch": 0.6149221427283111,
      "flos": 23327032965120.0,
      "grad_norm": 2.245916754141384,
      "language_loss": 0.79404092,
      "learning_rate": 1.363917548314176e-06,
      "loss": 0.81600684,
      "num_input_tokens_seen": 110216385,
      "step": 5114,
      "time_per_iteration": 2.679436206817627
    },
    {
      "auxiliary_loss_clip": 0.01173402,
      "auxiliary_loss_mlp": 0.01025233,
      "balance_loss_clip": 1.04871893,
      "balance_loss_mlp": 1.01734698,
      "epoch": 0.6150423856189503,
      "flos": 22379494141440.0,
      "grad_norm": 1.862293677871603,
      "language_loss": 0.73260021,
      "learning_rate": 1.3631790715670626e-06,
      "loss": 0.75458646,
      "num_input_tokens_seen": 110234790,
      "step": 5115,
      "time_per_iteration": 2.6158275604248047
    },
    {
      "auxiliary_loss_clip": 0.01105234,
      "auxiliary_loss_mlp": 0.01027109,
      "balance_loss_clip": 1.04051948,
      "balance_loss_mlp": 1.01974785,
      "epoch": 0.6151626285095894,
      "flos": 18692078722560.0,
      "grad_norm": 1.7405730829066675,
      "language_loss": 0.85541713,
      "learning_rate": 1.3624406914251783e-06,
      "loss": 0.87674057,
      "num_input_tokens_seen": 110251910,
      "step": 5116,
      "time_per_iteration": 2.9311344623565674
    },
    {
      "auxiliary_loss_clip": 0.01166378,
      "auxiliary_loss_mlp": 0.01024894,
      "balance_loss_clip": 1.04594851,
      "balance_loss_mlp": 1.01718712,
      "epoch": 0.6152828714002284,
      "flos": 15851688894720.0,
      "grad_norm": 1.9073922188112455,
      "language_loss": 0.8868652,
      "learning_rate": 1.3617024080005335e-06,
      "loss": 0.90877795,
      "num_input_tokens_seen": 110268810,
      "step": 5117,
      "time_per_iteration": 2.7401978969573975
    },
    {
      "auxiliary_loss_clip": 0.01161583,
      "auxiliary_loss_mlp": 0.00886885,
      "balance_loss_clip": 1.04650688,
      "balance_loss_mlp": 1.00052416,
      "epoch": 0.6154031142908676,
      "flos": 24869792062080.0,
      "grad_norm": 1.5590631434737936,
      "language_loss": 0.74400961,
      "learning_rate": 1.3609642214051266e-06,
      "loss": 0.7644943,
      "num_input_tokens_seen": 110293035,
      "step": 5118,
      "time_per_iteration": 2.8690202236175537
    },
    {
      "auxiliary_loss_clip": 0.01147595,
      "auxiliary_loss_mlp": 0.01029157,
      "balance_loss_clip": 1.04480362,
      "balance_loss_mlp": 1.02128363,
      "epoch": 0.6155233571815066,
      "flos": 19244744357760.0,
      "grad_norm": 4.444948918061527,
      "language_loss": 0.66528189,
      "learning_rate": 1.3602261317509385e-06,
      "loss": 0.68704939,
      "num_input_tokens_seen": 110309695,
      "step": 5119,
      "time_per_iteration": 2.6363227367401123
    },
    {
      "auxiliary_loss_clip": 0.01170898,
      "auxiliary_loss_mlp": 0.01028546,
      "balance_loss_clip": 1.04900789,
      "balance_loss_mlp": 1.02053523,
      "epoch": 0.6156436000721457,
      "flos": 18770077105920.0,
      "grad_norm": 2.5229070556512907,
      "language_loss": 0.82401872,
      "learning_rate": 1.3594881391499387e-06,
      "loss": 0.84601313,
      "num_input_tokens_seen": 110328610,
      "step": 5120,
      "time_per_iteration": 2.6116132736206055
    },
    {
      "auxiliary_loss_clip": 0.01160643,
      "auxiliary_loss_mlp": 0.01028618,
      "balance_loss_clip": 1.04746723,
      "balance_loss_mlp": 1.02107823,
      "epoch": 0.6157638429627849,
      "flos": 18041198325120.0,
      "grad_norm": 2.1619449065881358,
      "language_loss": 0.79234123,
      "learning_rate": 1.3587502437140778e-06,
      "loss": 0.81423378,
      "num_input_tokens_seen": 110346775,
      "step": 5121,
      "time_per_iteration": 3.862938165664673
    },
    {
      "auxiliary_loss_clip": 0.01162135,
      "auxiliary_loss_mlp": 0.01024629,
      "balance_loss_clip": 1.04759717,
      "balance_loss_mlp": 1.01655889,
      "epoch": 0.6158840858534239,
      "flos": 25556726736000.0,
      "grad_norm": 2.666640853929156,
      "language_loss": 0.84968495,
      "learning_rate": 1.3580124455552952e-06,
      "loss": 0.87155265,
      "num_input_tokens_seen": 110366140,
      "step": 5122,
      "time_per_iteration": 2.7334654331207275
    },
    {
      "auxiliary_loss_clip": 0.01170487,
      "auxiliary_loss_mlp": 0.00886858,
      "balance_loss_clip": 1.05131817,
      "balance_loss_mlp": 1.00051057,
      "epoch": 0.616004328744063,
      "flos": 24640788902400.0,
      "grad_norm": 1.7000321512133179,
      "language_loss": 0.87269807,
      "learning_rate": 1.3572747447855148e-06,
      "loss": 0.89327151,
      "num_input_tokens_seen": 110386550,
      "step": 5123,
      "time_per_iteration": 2.656888246536255
    },
    {
      "auxiliary_loss_clip": 0.01178603,
      "auxiliary_loss_mlp": 0.01023621,
      "balance_loss_clip": 1.05126059,
      "balance_loss_mlp": 1.01609862,
      "epoch": 0.6161245716347021,
      "flos": 21689686379520.0,
      "grad_norm": 3.4086820854954185,
      "language_loss": 0.69423169,
      "learning_rate": 1.356537141516644e-06,
      "loss": 0.71625394,
      "num_input_tokens_seen": 110403970,
      "step": 5124,
      "time_per_iteration": 2.5591893196105957
    },
    {
      "auxiliary_loss_clip": 0.0116738,
      "auxiliary_loss_mlp": 0.01025058,
      "balance_loss_clip": 1.05068374,
      "balance_loss_mlp": 1.01733327,
      "epoch": 0.6162448145253412,
      "flos": 35189225061120.0,
      "grad_norm": 8.292233559475457,
      "language_loss": 0.61816353,
      "learning_rate": 1.3557996358605775e-06,
      "loss": 0.64008796,
      "num_input_tokens_seen": 110423890,
      "step": 5125,
      "time_per_iteration": 2.7495627403259277
    },
    {
      "auxiliary_loss_clip": 0.01167772,
      "auxiliary_loss_mlp": 0.0102744,
      "balance_loss_clip": 1.04860926,
      "balance_loss_mlp": 1.01988792,
      "epoch": 0.6163650574159802,
      "flos": 21615279356160.0,
      "grad_norm": 2.5278628447805436,
      "language_loss": 0.70435989,
      "learning_rate": 1.3550622279291941e-06,
      "loss": 0.72631204,
      "num_input_tokens_seen": 110442035,
      "step": 5126,
      "time_per_iteration": 3.7529234886169434
    },
    {
      "auxiliary_loss_clip": 0.01127625,
      "auxiliary_loss_mlp": 0.01026385,
      "balance_loss_clip": 1.04045153,
      "balance_loss_mlp": 1.01855266,
      "epoch": 0.6164853003066194,
      "flos": 24572163968640.0,
      "grad_norm": 1.3973676778619388,
      "language_loss": 0.83523113,
      "learning_rate": 1.354324917834358e-06,
      "loss": 0.85677123,
      "num_input_tokens_seen": 110463280,
      "step": 5127,
      "time_per_iteration": 2.7902965545654297
    },
    {
      "auxiliary_loss_clip": 0.01121183,
      "auxiliary_loss_mlp": 0.00887106,
      "balance_loss_clip": 1.04041481,
      "balance_loss_mlp": 1.0005132,
      "epoch": 0.6166055431972585,
      "flos": 21835986474240.0,
      "grad_norm": 1.7385888993436711,
      "language_loss": 0.76710147,
      "learning_rate": 1.353587705687918e-06,
      "loss": 0.78718436,
      "num_input_tokens_seen": 110481455,
      "step": 5128,
      "time_per_iteration": 2.8357303142547607
    },
    {
      "auxiliary_loss_clip": 0.0116275,
      "auxiliary_loss_mlp": 0.01030047,
      "balance_loss_clip": 1.04922009,
      "balance_loss_mlp": 1.02222133,
      "epoch": 0.6167257860878975,
      "flos": 17785262943360.0,
      "grad_norm": 2.57994216853714,
      "language_loss": 0.72748739,
      "learning_rate": 1.3528505916017096e-06,
      "loss": 0.7494154,
      "num_input_tokens_seen": 110499155,
      "step": 5129,
      "time_per_iteration": 3.4280576705932617
    },
    {
      "auxiliary_loss_clip": 0.01166973,
      "auxiliary_loss_mlp": 0.01033723,
      "balance_loss_clip": 1.04735613,
      "balance_loss_mlp": 1.0258193,
      "epoch": 0.6168460289785367,
      "flos": 23214811898880.0,
      "grad_norm": 3.4004096230971257,
      "language_loss": 0.8904525,
      "learning_rate": 1.3521135756875514e-06,
      "loss": 0.91245949,
      "num_input_tokens_seen": 110515470,
      "step": 5130,
      "time_per_iteration": 2.544459819793701
    },
    {
      "auxiliary_loss_clip": 0.01119853,
      "auxiliary_loss_mlp": 0.01025753,
      "balance_loss_clip": 1.04173899,
      "balance_loss_mlp": 1.01784992,
      "epoch": 0.6169662718691757,
      "flos": 26213281482240.0,
      "grad_norm": 1.5137822617460923,
      "language_loss": 0.86213136,
      "learning_rate": 1.3513766580572496e-06,
      "loss": 0.88358742,
      "num_input_tokens_seen": 110538290,
      "step": 5131,
      "time_per_iteration": 2.672719717025757
    },
    {
      "auxiliary_loss_clip": 0.01167033,
      "auxiliary_loss_mlp": 0.01023426,
      "balance_loss_clip": 1.04817891,
      "balance_loss_mlp": 1.01595211,
      "epoch": 0.6170865147598148,
      "flos": 19026120228480.0,
      "grad_norm": 2.077880924552106,
      "language_loss": 0.76847398,
      "learning_rate": 1.3506398388225924e-06,
      "loss": 0.79037863,
      "num_input_tokens_seen": 110555610,
      "step": 5132,
      "time_per_iteration": 2.5199265480041504
    },
    {
      "auxiliary_loss_clip": 0.01177092,
      "auxiliary_loss_mlp": 0.01029197,
      "balance_loss_clip": 1.05091381,
      "balance_loss_mlp": 1.02109706,
      "epoch": 0.617206757650454,
      "flos": 18260361158400.0,
      "grad_norm": 1.7062616108565847,
      "language_loss": 0.71960098,
      "learning_rate": 1.349903118095355e-06,
      "loss": 0.74166381,
      "num_input_tokens_seen": 110574745,
      "step": 5133,
      "time_per_iteration": 3.4783616065979004
    },
    {
      "auxiliary_loss_clip": 0.01173861,
      "auxiliary_loss_mlp": 0.01024571,
      "balance_loss_clip": 1.05088198,
      "balance_loss_mlp": 1.01728082,
      "epoch": 0.617327000541093,
      "flos": 18186959715840.0,
      "grad_norm": 1.7398205216503861,
      "language_loss": 0.73409259,
      "learning_rate": 1.349166495987298e-06,
      "loss": 0.75607693,
      "num_input_tokens_seen": 110593310,
      "step": 5134,
      "time_per_iteration": 2.6367111206054688
    },
    {
      "auxiliary_loss_clip": 0.01055118,
      "auxiliary_loss_mlp": 0.01008584,
      "balance_loss_clip": 1.0131768,
      "balance_loss_mlp": 1.00737417,
      "epoch": 0.6174472434317321,
      "flos": 61833796122240.0,
      "grad_norm": 0.8203729057879933,
      "language_loss": 0.60840076,
      "learning_rate": 1.348429972610166e-06,
      "loss": 0.62903774,
      "num_input_tokens_seen": 110657615,
      "step": 5135,
      "time_per_iteration": 3.363649368286133
    },
    {
      "auxiliary_loss_clip": 0.0103754,
      "auxiliary_loss_mlp": 0.01007157,
      "balance_loss_clip": 1.01313353,
      "balance_loss_mlp": 1.00598276,
      "epoch": 0.6175674863223712,
      "flos": 71230970494080.0,
      "grad_norm": 0.8591777364802013,
      "language_loss": 0.57875615,
      "learning_rate": 1.3476935480756897e-06,
      "loss": 0.59920311,
      "num_input_tokens_seen": 110714365,
      "step": 5136,
      "time_per_iteration": 3.2542495727539062
    },
    {
      "auxiliary_loss_clip": 0.01141393,
      "auxiliary_loss_mlp": 0.01022824,
      "balance_loss_clip": 1.04519463,
      "balance_loss_mlp": 1.01497447,
      "epoch": 0.6176877292130103,
      "flos": 21835447770240.0,
      "grad_norm": 2.1355476315038686,
      "language_loss": 0.75181282,
      "learning_rate": 1.346957222495583e-06,
      "loss": 0.77345496,
      "num_input_tokens_seen": 110732160,
      "step": 5137,
      "time_per_iteration": 2.688843011856079
    },
    {
      "auxiliary_loss_clip": 0.01167168,
      "auxiliary_loss_mlp": 0.00886943,
      "balance_loss_clip": 1.0519346,
      "balance_loss_mlp": 1.00057936,
      "epoch": 0.6178079721036493,
      "flos": 17741738638080.0,
      "grad_norm": 2.406584507947563,
      "language_loss": 0.71153152,
      "learning_rate": 1.3462209959815466e-06,
      "loss": 0.73207259,
      "num_input_tokens_seen": 110746900,
      "step": 5138,
      "time_per_iteration": 2.660872220993042
    },
    {
      "auxiliary_loss_clip": 0.01163005,
      "auxiliary_loss_mlp": 0.01029243,
      "balance_loss_clip": 1.05037475,
      "balance_loss_mlp": 1.02170038,
      "epoch": 0.6179282149942885,
      "flos": 22633131052800.0,
      "grad_norm": 1.957491622302922,
      "language_loss": 0.74670285,
      "learning_rate": 1.345484868645265e-06,
      "loss": 0.76862538,
      "num_input_tokens_seen": 110765710,
      "step": 5139,
      "time_per_iteration": 2.660966157913208
    },
    {
      "auxiliary_loss_clip": 0.01156868,
      "auxiliary_loss_mlp": 0.01028295,
      "balance_loss_clip": 1.04669571,
      "balance_loss_mlp": 1.02014709,
      "epoch": 0.6180484578849276,
      "flos": 22310330503680.0,
      "grad_norm": 1.8490342175974195,
      "language_loss": 0.78779972,
      "learning_rate": 1.3447488405984088e-06,
      "loss": 0.80965137,
      "num_input_tokens_seen": 110783970,
      "step": 5140,
      "time_per_iteration": 2.7634665966033936
    },
    {
      "auxiliary_loss_clip": 0.01156211,
      "auxiliary_loss_mlp": 0.0102882,
      "balance_loss_clip": 1.04736555,
      "balance_loss_mlp": 1.02032089,
      "epoch": 0.6181687007755666,
      "flos": 35225458905600.0,
      "grad_norm": 2.3158152739929467,
      "language_loss": 0.69876456,
      "learning_rate": 1.3440129119526322e-06,
      "loss": 0.72061491,
      "num_input_tokens_seen": 110806395,
      "step": 5141,
      "time_per_iteration": 2.7573492527008057
    },
    {
      "auxiliary_loss_clip": 0.01069122,
      "auxiliary_loss_mlp": 0.01002633,
      "balance_loss_clip": 1.01056468,
      "balance_loss_mlp": 1.00161958,
      "epoch": 0.6182889436662057,
      "flos": 61547370094080.0,
      "grad_norm": 0.8018415923649325,
      "language_loss": 0.51245683,
      "learning_rate": 1.3432770828195762e-06,
      "loss": 0.5331744,
      "num_input_tokens_seen": 110867380,
      "step": 5142,
      "time_per_iteration": 3.3379130363464355
    },
    {
      "auxiliary_loss_clip": 0.01139854,
      "auxiliary_loss_mlp": 0.01029588,
      "balance_loss_clip": 1.04293084,
      "balance_loss_mlp": 1.0213027,
      "epoch": 0.6184091865568448,
      "flos": 19609991804160.0,
      "grad_norm": 2.147847089072192,
      "language_loss": 0.70688605,
      "learning_rate": 1.3425413533108635e-06,
      "loss": 0.72858047,
      "num_input_tokens_seen": 110885980,
      "step": 5143,
      "time_per_iteration": 2.6739706993103027
    },
    {
      "auxiliary_loss_clip": 0.01139354,
      "auxiliary_loss_mlp": 0.0102976,
      "balance_loss_clip": 1.04731071,
      "balance_loss_mlp": 1.02248788,
      "epoch": 0.6185294294474839,
      "flos": 23586882929280.0,
      "grad_norm": 5.008093051321855,
      "language_loss": 0.70483041,
      "learning_rate": 1.341805723538105e-06,
      "loss": 0.72652149,
      "num_input_tokens_seen": 110906085,
      "step": 5144,
      "time_per_iteration": 2.755251884460449
    },
    {
      "auxiliary_loss_clip": 0.01164958,
      "auxiliary_loss_mlp": 0.01025522,
      "balance_loss_clip": 1.0483315,
      "balance_loss_mlp": 1.01765466,
      "epoch": 0.618649672338123,
      "flos": 26762032535040.0,
      "grad_norm": 1.4695996227065962,
      "language_loss": 0.77466828,
      "learning_rate": 1.3410701936128948e-06,
      "loss": 0.7965731,
      "num_input_tokens_seen": 110928865,
      "step": 5145,
      "time_per_iteration": 2.6829159259796143
    },
    {
      "auxiliary_loss_clip": 0.01167907,
      "auxiliary_loss_mlp": 0.01027187,
      "balance_loss_clip": 1.05126798,
      "balance_loss_mlp": 1.01900315,
      "epoch": 0.6187699152287621,
      "flos": 14456630522880.0,
      "grad_norm": 2.4460469592255345,
      "language_loss": 0.84970385,
      "learning_rate": 1.340334763646812e-06,
      "loss": 0.87165475,
      "num_input_tokens_seen": 110943000,
      "step": 5146,
      "time_per_iteration": 2.672879695892334
    },
    {
      "auxiliary_loss_clip": 0.01179802,
      "auxiliary_loss_mlp": 0.01027453,
      "balance_loss_clip": 1.05096626,
      "balance_loss_mlp": 1.01896203,
      "epoch": 0.6188901581194012,
      "flos": 20084766796800.0,
      "grad_norm": 1.6651087322868876,
      "language_loss": 0.74144042,
      "learning_rate": 1.3395994337514218e-06,
      "loss": 0.76351297,
      "num_input_tokens_seen": 110963170,
      "step": 5147,
      "time_per_iteration": 3.5535552501678467
    },
    {
      "auxiliary_loss_clip": 0.01159565,
      "auxiliary_loss_mlp": 0.01022973,
      "balance_loss_clip": 1.04716825,
      "balance_loss_mlp": 1.0153321,
      "epoch": 0.6190104010100402,
      "flos": 25700728360320.0,
      "grad_norm": 1.6529619207913766,
      "language_loss": 0.78782821,
      "learning_rate": 1.3388642040382725e-06,
      "loss": 0.80965364,
      "num_input_tokens_seen": 110983595,
      "step": 5148,
      "time_per_iteration": 2.60103178024292
    },
    {
      "auxiliary_loss_clip": 0.01149717,
      "auxiliary_loss_mlp": 0.01025923,
      "balance_loss_clip": 1.04212689,
      "balance_loss_mlp": 1.01768005,
      "epoch": 0.6191306439006794,
      "flos": 30442372974720.0,
      "grad_norm": 1.7425752878547407,
      "language_loss": 0.84296286,
      "learning_rate": 1.3381290746188975e-06,
      "loss": 0.86471921,
      "num_input_tokens_seen": 111002965,
      "step": 5149,
      "time_per_iteration": 2.7482614517211914
    },
    {
      "auxiliary_loss_clip": 0.01170533,
      "auxiliary_loss_mlp": 0.01027334,
      "balance_loss_clip": 1.05267906,
      "balance_loss_mlp": 1.01950765,
      "epoch": 0.6192508867913185,
      "flos": 26685793918080.0,
      "grad_norm": 2.140969320360949,
      "language_loss": 0.67222559,
      "learning_rate": 1.3373940456048152e-06,
      "loss": 0.69420427,
      "num_input_tokens_seen": 111022990,
      "step": 5150,
      "time_per_iteration": 2.6450254917144775
    },
    {
      "auxiliary_loss_clip": 0.01175946,
      "auxiliary_loss_mlp": 0.01027344,
      "balance_loss_clip": 1.04985189,
      "balance_loss_mlp": 1.0190649,
      "epoch": 0.6193711296819575,
      "flos": 36722036090880.0,
      "grad_norm": 1.7722529670029221,
      "language_loss": 0.59386414,
      "learning_rate": 1.3366591171075299e-06,
      "loss": 0.61589706,
      "num_input_tokens_seen": 111046495,
      "step": 5151,
      "time_per_iteration": 2.731734275817871
    },
    {
      "auxiliary_loss_clip": 0.01157563,
      "auxiliary_loss_mlp": 0.01025477,
      "balance_loss_clip": 1.04719651,
      "balance_loss_mlp": 1.01770139,
      "epoch": 0.6194913725725967,
      "flos": 25192556697600.0,
      "grad_norm": 2.616773977266143,
      "language_loss": 0.91098577,
      "learning_rate": 1.335924289238529e-06,
      "loss": 0.93281615,
      "num_input_tokens_seen": 111065705,
      "step": 5152,
      "time_per_iteration": 3.8418381214141846
    },
    {
      "auxiliary_loss_clip": 0.01167499,
      "auxiliary_loss_mlp": 0.00886934,
      "balance_loss_clip": 1.05199766,
      "balance_loss_mlp": 1.00049734,
      "epoch": 0.6196116154632357,
      "flos": 21178821196800.0,
      "grad_norm": 2.885077513913782,
      "language_loss": 0.76907182,
      "learning_rate": 1.3351895621092859e-06,
      "loss": 0.78961623,
      "num_input_tokens_seen": 111086050,
      "step": 5153,
      "time_per_iteration": 2.637265205383301
    },
    {
      "auxiliary_loss_clip": 0.01090684,
      "auxiliary_loss_mlp": 0.01028873,
      "balance_loss_clip": 1.0291779,
      "balance_loss_mlp": 1.02102327,
      "epoch": 0.6197318583538748,
      "flos": 16253744803200.0,
      "grad_norm": 2.383531655562672,
      "language_loss": 0.76352698,
      "learning_rate": 1.3344549358312567e-06,
      "loss": 0.78472257,
      "num_input_tokens_seen": 111104450,
      "step": 5154,
      "time_per_iteration": 2.932680368423462
    },
    {
      "auxiliary_loss_clip": 0.01172204,
      "auxiliary_loss_mlp": 0.01029688,
      "balance_loss_clip": 1.05115795,
      "balance_loss_mlp": 1.0220468,
      "epoch": 0.619852101244514,
      "flos": 24425612478720.0,
      "grad_norm": 2.4902075785874622,
      "language_loss": 0.78462309,
      "learning_rate": 1.3337204105158852e-06,
      "loss": 0.806642,
      "num_input_tokens_seen": 111123320,
      "step": 5155,
      "time_per_iteration": 4.056785345077515
    },
    {
      "auxiliary_loss_clip": 0.01132339,
      "auxiliary_loss_mlp": 0.01029855,
      "balance_loss_clip": 1.03653765,
      "balance_loss_mlp": 1.02244592,
      "epoch": 0.619972344135153,
      "flos": 16727298733440.0,
      "grad_norm": 1.8145035419958455,
      "language_loss": 0.73152661,
      "learning_rate": 1.332985986274597e-06,
      "loss": 0.75314856,
      "num_input_tokens_seen": 111140950,
      "step": 5156,
      "time_per_iteration": 2.6773736476898193
    },
    {
      "auxiliary_loss_clip": 0.01122098,
      "auxiliary_loss_mlp": 0.00886665,
      "balance_loss_clip": 1.04401755,
      "balance_loss_mlp": 1.00062609,
      "epoch": 0.6200925870257921,
      "flos": 12495190498560.0,
      "grad_norm": 1.9589600085044085,
      "language_loss": 0.74861133,
      "learning_rate": 1.3322516632188047e-06,
      "loss": 0.76869899,
      "num_input_tokens_seen": 111157845,
      "step": 5157,
      "time_per_iteration": 2.794431447982788
    },
    {
      "auxiliary_loss_clip": 0.01144001,
      "auxiliary_loss_mlp": 0.0103177,
      "balance_loss_clip": 1.04429913,
      "balance_loss_mlp": 1.02380705,
      "epoch": 0.6202128299164312,
      "flos": 26539350168960.0,
      "grad_norm": 1.579594008846222,
      "language_loss": 0.67057908,
      "learning_rate": 1.3315174414599045e-06,
      "loss": 0.6923368,
      "num_input_tokens_seen": 111179165,
      "step": 5158,
      "time_per_iteration": 2.7367987632751465
    },
    {
      "auxiliary_loss_clip": 0.01159803,
      "auxiliary_loss_mlp": 0.01025772,
      "balance_loss_clip": 1.04637909,
      "balance_loss_mlp": 1.01824367,
      "epoch": 0.6203330728070703,
      "flos": 18770508069120.0,
      "grad_norm": 1.7973912024607466,
      "language_loss": 0.75258636,
      "learning_rate": 1.3307833211092768e-06,
      "loss": 0.77444214,
      "num_input_tokens_seen": 111197830,
      "step": 5159,
      "time_per_iteration": 2.6580138206481934
    },
    {
      "auxiliary_loss_clip": 0.01182198,
      "auxiliary_loss_mlp": 0.01031699,
      "balance_loss_clip": 1.05494094,
      "balance_loss_mlp": 1.02363467,
      "epoch": 0.6204533156977093,
      "flos": 20629782835200.0,
      "grad_norm": 1.8822339858279917,
      "language_loss": 0.75076842,
      "learning_rate": 1.3300493022782873e-06,
      "loss": 0.77290738,
      "num_input_tokens_seen": 111218400,
      "step": 5160,
      "time_per_iteration": 3.509181022644043
    },
    {
      "auxiliary_loss_clip": 0.01127326,
      "auxiliary_loss_mlp": 0.00887247,
      "balance_loss_clip": 1.04360473,
      "balance_loss_mlp": 1.00048912,
      "epoch": 0.6205735585883485,
      "flos": 17348050598400.0,
      "grad_norm": 2.1352524541225097,
      "language_loss": 0.72446334,
      "learning_rate": 1.3293153850782855e-06,
      "loss": 0.74460906,
      "num_input_tokens_seen": 111236720,
      "step": 5161,
      "time_per_iteration": 2.848388910293579
    },
    {
      "auxiliary_loss_clip": 0.01138291,
      "auxiliary_loss_mlp": 0.01029226,
      "balance_loss_clip": 1.04310679,
      "balance_loss_mlp": 1.0206902,
      "epoch": 0.6206938014789876,
      "flos": 22965017742720.0,
      "grad_norm": 1.889026573545959,
      "language_loss": 0.70888048,
      "learning_rate": 1.3285815696206069e-06,
      "loss": 0.73055565,
      "num_input_tokens_seen": 111258265,
      "step": 5162,
      "time_per_iteration": 2.724639415740967
    },
    {
      "auxiliary_loss_clip": 0.01147269,
      "auxiliary_loss_mlp": 0.01033464,
      "balance_loss_clip": 1.04114091,
      "balance_loss_mlp": 1.02480304,
      "epoch": 0.6208140443696266,
      "flos": 23983192661760.0,
      "grad_norm": 2.0299358410921666,
      "language_loss": 0.76809615,
      "learning_rate": 1.32784785601657e-06,
      "loss": 0.7899034,
      "num_input_tokens_seen": 111277675,
      "step": 5163,
      "time_per_iteration": 2.713137149810791
    },
    {
      "auxiliary_loss_clip": 0.01159247,
      "auxiliary_loss_mlp": 0.01025383,
      "balance_loss_clip": 1.04476643,
      "balance_loss_mlp": 1.01719916,
      "epoch": 0.6209342872602658,
      "flos": 35077291303680.0,
      "grad_norm": 1.7597999320749218,
      "language_loss": 0.7370398,
      "learning_rate": 1.3271142443774798e-06,
      "loss": 0.75888616,
      "num_input_tokens_seen": 111299910,
      "step": 5164,
      "time_per_iteration": 2.8094797134399414
    },
    {
      "auxiliary_loss_clip": 0.01155184,
      "auxiliary_loss_mlp": 0.01025522,
      "balance_loss_clip": 1.04765987,
      "balance_loss_mlp": 1.01815486,
      "epoch": 0.6210545301509048,
      "flos": 26979327861120.0,
      "grad_norm": 1.7186420014943453,
      "language_loss": 0.81724632,
      "learning_rate": 1.3263807348146228e-06,
      "loss": 0.83905339,
      "num_input_tokens_seen": 111319765,
      "step": 5165,
      "time_per_iteration": 2.6767590045928955
    },
    {
      "auxiliary_loss_clip": 0.01155049,
      "auxiliary_loss_mlp": 0.01027832,
      "balance_loss_clip": 1.04372513,
      "balance_loss_mlp": 1.01848555,
      "epoch": 0.6211747730415439,
      "flos": 33618240852480.0,
      "grad_norm": 2.8211905539722006,
      "language_loss": 0.73103732,
      "learning_rate": 1.3256473274392733e-06,
      "loss": 0.75286615,
      "num_input_tokens_seen": 111341110,
      "step": 5166,
      "time_per_iteration": 2.766388177871704
    },
    {
      "auxiliary_loss_clip": 0.01179034,
      "auxiliary_loss_mlp": 0.01029348,
      "balance_loss_clip": 1.0529995,
      "balance_loss_mlp": 1.02171278,
      "epoch": 0.6212950159321831,
      "flos": 34167099646080.0,
      "grad_norm": 1.6710989047760043,
      "language_loss": 0.70365041,
      "learning_rate": 1.3249140223626873e-06,
      "loss": 0.72573423,
      "num_input_tokens_seen": 111362730,
      "step": 5167,
      "time_per_iteration": 2.6886417865753174
    },
    {
      "auxiliary_loss_clip": 0.01164827,
      "auxiliary_loss_mlp": 0.01027614,
      "balance_loss_clip": 1.04933739,
      "balance_loss_mlp": 1.02002084,
      "epoch": 0.6214152588228221,
      "flos": 27965758135680.0,
      "grad_norm": 2.393091522228224,
      "language_loss": 0.753443,
      "learning_rate": 1.3241808196961077e-06,
      "loss": 0.77536738,
      "num_input_tokens_seen": 111383855,
      "step": 5168,
      "time_per_iteration": 2.664903402328491
    },
    {
      "auxiliary_loss_clip": 0.01145012,
      "auxiliary_loss_mlp": 0.01027513,
      "balance_loss_clip": 1.04573429,
      "balance_loss_mlp": 1.01994359,
      "epoch": 0.6215355017134612,
      "flos": 20230204965120.0,
      "grad_norm": 1.77859331447436,
      "language_loss": 0.7077378,
      "learning_rate": 1.3234477195507608e-06,
      "loss": 0.72946304,
      "num_input_tokens_seen": 111402685,
      "step": 5169,
      "time_per_iteration": 2.6121413707733154
    },
    {
      "auxiliary_loss_clip": 0.01149543,
      "auxiliary_loss_mlp": 0.01029447,
      "balance_loss_clip": 1.04889536,
      "balance_loss_mlp": 1.02116179,
      "epoch": 0.6216557446041003,
      "flos": 41428129219200.0,
      "grad_norm": 1.9240668430681294,
      "language_loss": 0.62414408,
      "learning_rate": 1.322714722037857e-06,
      "loss": 0.64593393,
      "num_input_tokens_seen": 111424130,
      "step": 5170,
      "time_per_iteration": 2.8644490242004395
    },
    {
      "auxiliary_loss_clip": 0.01156299,
      "auxiliary_loss_mlp": 0.01030555,
      "balance_loss_clip": 1.0458014,
      "balance_loss_mlp": 1.02242529,
      "epoch": 0.6217759874947394,
      "flos": 27928770105600.0,
      "grad_norm": 1.9151179017036195,
      "language_loss": 0.77380055,
      "learning_rate": 1.321981827268591e-06,
      "loss": 0.79566908,
      "num_input_tokens_seen": 111444785,
      "step": 5171,
      "time_per_iteration": 2.711768388748169
    },
    {
      "auxiliary_loss_clip": 0.01160117,
      "auxiliary_loss_mlp": 0.01023368,
      "balance_loss_clip": 1.0463835,
      "balance_loss_mlp": 1.01575041,
      "epoch": 0.6218962303853784,
      "flos": 21765673601280.0,
      "grad_norm": 1.9075610732509882,
      "language_loss": 0.81458867,
      "learning_rate": 1.3212490353541426e-06,
      "loss": 0.83642352,
      "num_input_tokens_seen": 111467045,
      "step": 5172,
      "time_per_iteration": 2.8493080139160156
    },
    {
      "auxiliary_loss_clip": 0.01178497,
      "auxiliary_loss_mlp": 0.01027231,
      "balance_loss_clip": 1.05147231,
      "balance_loss_mlp": 1.01894045,
      "epoch": 0.6220164732760175,
      "flos": 21246260981760.0,
      "grad_norm": 1.8472784444778994,
      "language_loss": 0.80259305,
      "learning_rate": 1.3205163464056762e-06,
      "loss": 0.82465035,
      "num_input_tokens_seen": 111483650,
      "step": 5173,
      "time_per_iteration": 3.6112868785858154
    },
    {
      "auxiliary_loss_clip": 0.0116593,
      "auxiliary_loss_mlp": 0.01025338,
      "balance_loss_clip": 1.04888117,
      "balance_loss_mlp": 1.0177865,
      "epoch": 0.6221367161666567,
      "flos": 26136360506880.0,
      "grad_norm": 2.1976821657442716,
      "language_loss": 0.73187947,
      "learning_rate": 1.319783760534339e-06,
      "loss": 0.75379217,
      "num_input_tokens_seen": 111502895,
      "step": 5174,
      "time_per_iteration": 2.6759493350982666
    },
    {
      "auxiliary_loss_clip": 0.01167708,
      "auxiliary_loss_mlp": 0.01030186,
      "balance_loss_clip": 1.04898143,
      "balance_loss_mlp": 1.02244949,
      "epoch": 0.6222569590572957,
      "flos": 16284196558080.0,
      "grad_norm": 2.0639871426957193,
      "language_loss": 0.75561392,
      "learning_rate": 1.319051277851266e-06,
      "loss": 0.7775929,
      "num_input_tokens_seen": 111519180,
      "step": 5175,
      "time_per_iteration": 2.624955415725708
    },
    {
      "auxiliary_loss_clip": 0.01169434,
      "auxiliary_loss_mlp": 0.01024236,
      "balance_loss_clip": 1.04817963,
      "balance_loss_mlp": 1.01651692,
      "epoch": 0.6223772019479348,
      "flos": 18223840005120.0,
      "grad_norm": 1.9229846120621255,
      "language_loss": 0.83790386,
      "learning_rate": 1.3183188984675716e-06,
      "loss": 0.85984051,
      "num_input_tokens_seen": 111537545,
      "step": 5176,
      "time_per_iteration": 2.581172466278076
    },
    {
      "auxiliary_loss_clip": 0.01156791,
      "auxiliary_loss_mlp": 0.01031162,
      "balance_loss_clip": 1.04946232,
      "balance_loss_mlp": 1.02325869,
      "epoch": 0.6224974448385739,
      "flos": 27489797994240.0,
      "grad_norm": 2.642303836835238,
      "language_loss": 0.7191397,
      "learning_rate": 1.3175866224943586e-06,
      "loss": 0.74101925,
      "num_input_tokens_seen": 111556265,
      "step": 5177,
      "time_per_iteration": 2.7255823612213135
    },
    {
      "auxiliary_loss_clip": 0.01163578,
      "auxiliary_loss_mlp": 0.01028318,
      "balance_loss_clip": 1.04875207,
      "balance_loss_mlp": 1.01994371,
      "epoch": 0.622617687729213,
      "flos": 19791951125760.0,
      "grad_norm": 2.0473281355436272,
      "language_loss": 0.73739839,
      "learning_rate": 1.316854450042712e-06,
      "loss": 0.75931728,
      "num_input_tokens_seen": 111574205,
      "step": 5178,
      "time_per_iteration": 3.6691784858703613
    },
    {
      "auxiliary_loss_clip": 0.01173288,
      "auxiliary_loss_mlp": 0.01032988,
      "balance_loss_clip": 1.05167091,
      "balance_loss_mlp": 1.02476227,
      "epoch": 0.622737930619852,
      "flos": 23038886062080.0,
      "grad_norm": 2.1645543089613475,
      "language_loss": 0.74468064,
      "learning_rate": 1.3161223812237024e-06,
      "loss": 0.76674342,
      "num_input_tokens_seen": 111593560,
      "step": 5179,
      "time_per_iteration": 2.5968573093414307
    },
    {
      "auxiliary_loss_clip": 0.0117583,
      "auxiliary_loss_mlp": 0.01024155,
      "balance_loss_clip": 1.04890442,
      "balance_loss_mlp": 1.01656759,
      "epoch": 0.6228581735104912,
      "flos": 12634271959680.0,
      "grad_norm": 2.304472323443494,
      "language_loss": 0.85387158,
      "learning_rate": 1.3153904161483842e-06,
      "loss": 0.87587142,
      "num_input_tokens_seen": 111608860,
      "step": 5180,
      "time_per_iteration": 2.6181814670562744
    },
    {
      "auxiliary_loss_clip": 0.0114376,
      "auxiliary_loss_mlp": 0.01027541,
      "balance_loss_clip": 1.04418111,
      "balance_loss_mlp": 1.01927996,
      "epoch": 0.6229784164011303,
      "flos": 23802813538560.0,
      "grad_norm": 2.0495152796120997,
      "language_loss": 0.85721147,
      "learning_rate": 1.3146585549277953e-06,
      "loss": 0.87892449,
      "num_input_tokens_seen": 111627500,
      "step": 5181,
      "time_per_iteration": 3.508429765701294
    },
    {
      "auxiliary_loss_clip": 0.01166753,
      "auxiliary_loss_mlp": 0.01029717,
      "balance_loss_clip": 1.04909134,
      "balance_loss_mlp": 1.02152753,
      "epoch": 0.6230986592917693,
      "flos": 22414219614720.0,
      "grad_norm": 1.9697200672799016,
      "language_loss": 0.78508461,
      "learning_rate": 1.3139267976729591e-06,
      "loss": 0.80704927,
      "num_input_tokens_seen": 111647690,
      "step": 5182,
      "time_per_iteration": 2.681835651397705
    },
    {
      "auxiliary_loss_clip": 0.01172143,
      "auxiliary_loss_mlp": 0.01027717,
      "balance_loss_clip": 1.0510807,
      "balance_loss_mlp": 1.01976562,
      "epoch": 0.6232189021824085,
      "flos": 34528217028480.0,
      "grad_norm": 1.6433989478870328,
      "language_loss": 0.71755004,
      "learning_rate": 1.3131951444948815e-06,
      "loss": 0.73954856,
      "num_input_tokens_seen": 111667090,
      "step": 5183,
      "time_per_iteration": 2.7724342346191406
    },
    {
      "auxiliary_loss_clip": 0.01166879,
      "auxiliary_loss_mlp": 0.01034271,
      "balance_loss_clip": 1.05328822,
      "balance_loss_mlp": 1.02611113,
      "epoch": 0.6233391450730476,
      "flos": 22237000888320.0,
      "grad_norm": 1.7302061535967974,
      "language_loss": 0.76426232,
      "learning_rate": 1.3124635955045546e-06,
      "loss": 0.78627378,
      "num_input_tokens_seen": 111686905,
      "step": 5184,
      "time_per_iteration": 2.687525510787964
    },
    {
      "auxiliary_loss_clip": 0.0112594,
      "auxiliary_loss_mlp": 0.00886658,
      "balance_loss_clip": 1.03947604,
      "balance_loss_mlp": 1.0004456,
      "epoch": 0.6234593879636866,
      "flos": 20332693445760.0,
      "grad_norm": 2.0595061944440776,
      "language_loss": 0.84442592,
      "learning_rate": 1.3117321508129537e-06,
      "loss": 0.8645519,
      "num_input_tokens_seen": 111704985,
      "step": 5185,
      "time_per_iteration": 3.6405222415924072
    },
    {
      "auxiliary_loss_clip": 0.0116144,
      "auxiliary_loss_mlp": 0.01030332,
      "balance_loss_clip": 1.04986691,
      "balance_loss_mlp": 1.02258372,
      "epoch": 0.6235796308543258,
      "flos": 20664903358080.0,
      "grad_norm": 1.595428102492239,
      "language_loss": 0.76521063,
      "learning_rate": 1.3110008105310388e-06,
      "loss": 0.78712833,
      "num_input_tokens_seen": 111724805,
      "step": 5186,
      "time_per_iteration": 2.6395435333251953
    },
    {
      "auxiliary_loss_clip": 0.01181061,
      "auxiliary_loss_mlp": 0.01026872,
      "balance_loss_clip": 1.05056906,
      "balance_loss_mlp": 1.01913548,
      "epoch": 0.6236998737449648,
      "flos": 26618641441920.0,
      "grad_norm": 1.7132074919062197,
      "language_loss": 0.7796874,
      "learning_rate": 1.3102695747697526e-06,
      "loss": 0.80176675,
      "num_input_tokens_seen": 111747675,
      "step": 5187,
      "time_per_iteration": 2.737067222595215
    },
    {
      "auxiliary_loss_clip": 0.01131967,
      "auxiliary_loss_mlp": 0.01033021,
      "balance_loss_clip": 1.04613137,
      "balance_loss_mlp": 1.02463508,
      "epoch": 0.6238201166356039,
      "flos": 12674599954560.0,
      "grad_norm": 2.22752669608109,
      "language_loss": 0.90758389,
      "learning_rate": 1.3095384436400237e-06,
      "loss": 0.92923379,
      "num_input_tokens_seen": 111759205,
      "step": 5188,
      "time_per_iteration": 2.785978317260742
    },
    {
      "auxiliary_loss_clip": 0.01162851,
      "auxiliary_loss_mlp": 0.01030595,
      "balance_loss_clip": 1.04466248,
      "balance_loss_mlp": 1.02246523,
      "epoch": 0.623940359526243,
      "flos": 10452160730880.0,
      "grad_norm": 2.0537905513200796,
      "language_loss": 0.8209247,
      "learning_rate": 1.3088074172527633e-06,
      "loss": 0.84285915,
      "num_input_tokens_seen": 111776335,
      "step": 5189,
      "time_per_iteration": 2.705364465713501
    },
    {
      "auxiliary_loss_clip": 0.01161054,
      "auxiliary_loss_mlp": 0.01024449,
      "balance_loss_clip": 1.04666638,
      "balance_loss_mlp": 1.0166707,
      "epoch": 0.6240606024168821,
      "flos": 29059525226880.0,
      "grad_norm": 2.2014273221067473,
      "language_loss": 0.71554112,
      "learning_rate": 1.3080764957188684e-06,
      "loss": 0.73739624,
      "num_input_tokens_seen": 111796580,
      "step": 5190,
      "time_per_iteration": 2.7122867107391357
    },
    {
      "auxiliary_loss_clip": 0.01141525,
      "auxiliary_loss_mlp": 0.01024661,
      "balance_loss_clip": 1.04205859,
      "balance_loss_mlp": 1.01619148,
      "epoch": 0.6241808453075212,
      "flos": 22018089450240.0,
      "grad_norm": 1.8423191244861783,
      "language_loss": 0.70715129,
      "learning_rate": 1.3073456791492192e-06,
      "loss": 0.72881317,
      "num_input_tokens_seen": 111816290,
      "step": 5191,
      "time_per_iteration": 2.7285308837890625
    },
    {
      "auxiliary_loss_clip": 0.01161288,
      "auxiliary_loss_mlp": 0.01031113,
      "balance_loss_clip": 1.04646933,
      "balance_loss_mlp": 1.02286971,
      "epoch": 0.6243010881981603,
      "flos": 21138708683520.0,
      "grad_norm": 3.41039363556158,
      "language_loss": 0.78143668,
      "learning_rate": 1.3066149676546801e-06,
      "loss": 0.8033607,
      "num_input_tokens_seen": 111834470,
      "step": 5192,
      "time_per_iteration": 2.670050859451294
    },
    {
      "auxiliary_loss_clip": 0.0115342,
      "auxiliary_loss_mlp": 0.01029801,
      "balance_loss_clip": 1.04910183,
      "balance_loss_mlp": 1.021415,
      "epoch": 0.6244213310887994,
      "flos": 22344948236160.0,
      "grad_norm": 1.8713486622244937,
      "language_loss": 0.66137522,
      "learning_rate": 1.3058843613460985e-06,
      "loss": 0.68320745,
      "num_input_tokens_seen": 111852410,
      "step": 5193,
      "time_per_iteration": 2.6731791496276855
    },
    {
      "auxiliary_loss_clip": 0.01156856,
      "auxiliary_loss_mlp": 0.01026058,
      "balance_loss_clip": 1.04671776,
      "balance_loss_mlp": 1.0178442,
      "epoch": 0.6245415739794384,
      "flos": 15231978524160.0,
      "grad_norm": 2.760947099852179,
      "language_loss": 0.74453753,
      "learning_rate": 1.3051538603343075e-06,
      "loss": 0.76636666,
      "num_input_tokens_seen": 111870340,
      "step": 5194,
      "time_per_iteration": 2.7228140830993652
    },
    {
      "auxiliary_loss_clip": 0.01168493,
      "auxiliary_loss_mlp": 0.01027763,
      "balance_loss_clip": 1.05121708,
      "balance_loss_mlp": 1.01963854,
      "epoch": 0.6246618168700776,
      "flos": 18879891960960.0,
      "grad_norm": 1.9871475823858622,
      "language_loss": 0.68054575,
      "learning_rate": 1.3044234647301235e-06,
      "loss": 0.70250833,
      "num_input_tokens_seen": 111888365,
      "step": 5195,
      "time_per_iteration": 2.6219394207000732
    },
    {
      "auxiliary_loss_clip": 0.01162539,
      "auxiliary_loss_mlp": 0.01026199,
      "balance_loss_clip": 1.04902935,
      "balance_loss_mlp": 1.01844454,
      "epoch": 0.6247820597607167,
      "flos": 14319201087360.0,
      "grad_norm": 1.9257827439792263,
      "language_loss": 0.72276127,
      "learning_rate": 1.303693174644347e-06,
      "loss": 0.74464869,
      "num_input_tokens_seen": 111905840,
      "step": 5196,
      "time_per_iteration": 2.613086223602295
    },
    {
      "auxiliary_loss_clip": 0.01148411,
      "auxiliary_loss_mlp": 0.0102688,
      "balance_loss_clip": 1.04410887,
      "balance_loss_mlp": 1.01898813,
      "epoch": 0.6249023026513557,
      "flos": 22637979388800.0,
      "grad_norm": 3.520294840451632,
      "language_loss": 0.80469525,
      "learning_rate": 1.3029629901877625e-06,
      "loss": 0.8264482,
      "num_input_tokens_seen": 111925215,
      "step": 5197,
      "time_per_iteration": 2.6258182525634766
    },
    {
      "auxiliary_loss_clip": 0.01178129,
      "auxiliary_loss_mlp": 0.01031273,
      "balance_loss_clip": 1.05224824,
      "balance_loss_mlp": 1.02292204,
      "epoch": 0.6250225455419949,
      "flos": 20266690204800.0,
      "grad_norm": 3.8970631875593416,
      "language_loss": 0.76934451,
      "learning_rate": 1.3022329114711376e-06,
      "loss": 0.79143852,
      "num_input_tokens_seen": 111943925,
      "step": 5198,
      "time_per_iteration": 2.669090747833252
    },
    {
      "auxiliary_loss_clip": 0.01155809,
      "auxiliary_loss_mlp": 0.01026636,
      "balance_loss_clip": 1.04760337,
      "balance_loss_mlp": 1.0182023,
      "epoch": 0.6251427884326339,
      "flos": 23437853400960.0,
      "grad_norm": 1.7809584125894127,
      "language_loss": 0.69419205,
      "learning_rate": 1.3015029386052256e-06,
      "loss": 0.71601653,
      "num_input_tokens_seen": 111964095,
      "step": 5199,
      "time_per_iteration": 3.5524260997772217
    },
    {
      "auxiliary_loss_clip": 0.01158387,
      "auxiliary_loss_mlp": 0.01027507,
      "balance_loss_clip": 1.04625726,
      "balance_loss_mlp": 1.0199728,
      "epoch": 0.625263031323273,
      "flos": 31723055464320.0,
      "grad_norm": 2.0007298940173484,
      "language_loss": 0.72971308,
      "learning_rate": 1.3007730717007622e-06,
      "loss": 0.75157201,
      "num_input_tokens_seen": 111984910,
      "step": 5200,
      "time_per_iteration": 2.747126817703247
    },
    {
      "auxiliary_loss_clip": 0.01181542,
      "auxiliary_loss_mlp": 0.01031299,
      "balance_loss_clip": 1.05270541,
      "balance_loss_mlp": 1.02258456,
      "epoch": 0.6253832742139122,
      "flos": 24134341092480.0,
      "grad_norm": 2.6870475889416077,
      "language_loss": 0.7575562,
      "learning_rate": 1.3000433108684676e-06,
      "loss": 0.77968454,
      "num_input_tokens_seen": 112005410,
      "step": 5201,
      "time_per_iteration": 2.6247684955596924
    },
    {
      "auxiliary_loss_clip": 0.01165062,
      "auxiliary_loss_mlp": 0.01028756,
      "balance_loss_clip": 1.04964232,
      "balance_loss_mlp": 1.02118635,
      "epoch": 0.6255035171045512,
      "flos": 27668812400640.0,
      "grad_norm": 2.183151329717523,
      "language_loss": 0.80346239,
      "learning_rate": 1.2993136562190467e-06,
      "loss": 0.82540059,
      "num_input_tokens_seen": 112024530,
      "step": 5202,
      "time_per_iteration": 2.7045464515686035
    },
    {
      "auxiliary_loss_clip": 0.01159508,
      "auxiliary_loss_mlp": 0.01030532,
      "balance_loss_clip": 1.04702306,
      "balance_loss_mlp": 1.02213979,
      "epoch": 0.6256237599951903,
      "flos": 20227798753920.0,
      "grad_norm": 2.1756674497446657,
      "language_loss": 0.70638615,
      "learning_rate": 1.2985841078631871e-06,
      "loss": 0.72828656,
      "num_input_tokens_seen": 112043850,
      "step": 5203,
      "time_per_iteration": 2.6770172119140625
    },
    {
      "auxiliary_loss_clip": 0.01127418,
      "auxiliary_loss_mlp": 0.01029633,
      "balance_loss_clip": 1.04054117,
      "balance_loss_mlp": 1.02138352,
      "epoch": 0.6257440028858293,
      "flos": 24170574936960.0,
      "grad_norm": 1.8337554610950642,
      "language_loss": 0.78397429,
      "learning_rate": 1.2978546659115608e-06,
      "loss": 0.80554485,
      "num_input_tokens_seen": 112061930,
      "step": 5204,
      "time_per_iteration": 3.7906064987182617
    },
    {
      "auxiliary_loss_clip": 0.01161553,
      "auxiliary_loss_mlp": 0.01035812,
      "balance_loss_clip": 1.04678202,
      "balance_loss_mlp": 1.02776527,
      "epoch": 0.6258642457764685,
      "flos": 15851940289920.0,
      "grad_norm": 1.982055506113471,
      "language_loss": 0.85296291,
      "learning_rate": 1.2971253304748228e-06,
      "loss": 0.87493658,
      "num_input_tokens_seen": 112079645,
      "step": 5205,
      "time_per_iteration": 2.696986198425293
    },
    {
      "auxiliary_loss_clip": 0.01174058,
      "auxiliary_loss_mlp": 0.01031253,
      "balance_loss_clip": 1.0532831,
      "balance_loss_mlp": 1.02222848,
      "epoch": 0.6259844886671075,
      "flos": 11911354836480.0,
      "grad_norm": 1.7529571167260527,
      "language_loss": 0.74881577,
      "learning_rate": 1.296396101663614e-06,
      "loss": 0.7708689,
      "num_input_tokens_seen": 112096205,
      "step": 5206,
      "time_per_iteration": 2.6484923362731934
    },
    {
      "auxiliary_loss_clip": 0.01169532,
      "auxiliary_loss_mlp": 0.01027083,
      "balance_loss_clip": 1.04867578,
      "balance_loss_mlp": 1.01952469,
      "epoch": 0.6261047315577466,
      "flos": 15887958652800.0,
      "grad_norm": 2.712206390763067,
      "language_loss": 0.84274548,
      "learning_rate": 1.2956669795885565e-06,
      "loss": 0.86471164,
      "num_input_tokens_seen": 112112835,
      "step": 5207,
      "time_per_iteration": 3.4619555473327637
    },
    {
      "auxiliary_loss_clip": 0.01142121,
      "auxiliary_loss_mlp": 0.01030967,
      "balance_loss_clip": 1.04693162,
      "balance_loss_mlp": 1.02260447,
      "epoch": 0.6262249744483858,
      "flos": 31248926916480.0,
      "grad_norm": 3.486390795227301,
      "language_loss": 0.67967057,
      "learning_rate": 1.294937964360259e-06,
      "loss": 0.70140147,
      "num_input_tokens_seen": 112133105,
      "step": 5208,
      "time_per_iteration": 2.834280490875244
    },
    {
      "auxiliary_loss_clip": 0.01163058,
      "auxiliary_loss_mlp": 0.01028342,
      "balance_loss_clip": 1.04595816,
      "balance_loss_mlp": 1.0200336,
      "epoch": 0.6263452173390248,
      "flos": 27198598435200.0,
      "grad_norm": 2.3618835363516952,
      "language_loss": 0.71551013,
      "learning_rate": 1.2942090560893108e-06,
      "loss": 0.73742414,
      "num_input_tokens_seen": 112152510,
      "step": 5209,
      "time_per_iteration": 2.671571731567383
    },
    {
      "auxiliary_loss_clip": 0.01178728,
      "auxiliary_loss_mlp": 0.01029073,
      "balance_loss_clip": 1.05264688,
      "balance_loss_mlp": 1.02173603,
      "epoch": 0.6264654602296639,
      "flos": 37342069683840.0,
      "grad_norm": 1.8625210808800037,
      "language_loss": 0.60656571,
      "learning_rate": 1.2934802548862882e-06,
      "loss": 0.62864375,
      "num_input_tokens_seen": 112175295,
      "step": 5210,
      "time_per_iteration": 2.7103183269500732
    },
    {
      "auxiliary_loss_clip": 0.01153954,
      "auxiliary_loss_mlp": 0.01025654,
      "balance_loss_clip": 1.04653287,
      "balance_loss_mlp": 1.01758349,
      "epoch": 0.626585703120303,
      "flos": 14756952136320.0,
      "grad_norm": 1.9676703884517075,
      "language_loss": 0.82938504,
      "learning_rate": 1.292751560861749e-06,
      "loss": 0.85118109,
      "num_input_tokens_seen": 112190200,
      "step": 5211,
      "time_per_iteration": 3.561147689819336
    },
    {
      "auxiliary_loss_clip": 0.01178947,
      "auxiliary_loss_mlp": 0.01024771,
      "balance_loss_clip": 1.05063486,
      "balance_loss_mlp": 1.01632488,
      "epoch": 0.6267059460109421,
      "flos": 22347318533760.0,
      "grad_norm": 1.803570735056768,
      "language_loss": 0.79950815,
      "learning_rate": 1.2920229741262354e-06,
      "loss": 0.82154536,
      "num_input_tokens_seen": 112208205,
      "step": 5212,
      "time_per_iteration": 2.6314704418182373
    },
    {
      "auxiliary_loss_clip": 0.01154318,
      "auxiliary_loss_mlp": 0.01026644,
      "balance_loss_clip": 1.04424608,
      "balance_loss_mlp": 1.01890779,
      "epoch": 0.6268261889015811,
      "flos": 17748813617280.0,
      "grad_norm": 5.215244550308125,
      "language_loss": 0.75168723,
      "learning_rate": 1.2912944947902739e-06,
      "loss": 0.77349687,
      "num_input_tokens_seen": 112224690,
      "step": 5213,
      "time_per_iteration": 2.6218113899230957
    },
    {
      "auxiliary_loss_clip": 0.01163999,
      "auxiliary_loss_mlp": 0.01030777,
      "balance_loss_clip": 1.04738438,
      "balance_loss_mlp": 1.02218175,
      "epoch": 0.6269464317922203,
      "flos": 32846484211200.0,
      "grad_norm": 2.033142200824062,
      "language_loss": 0.71687591,
      "learning_rate": 1.2905661229643742e-06,
      "loss": 0.73882365,
      "num_input_tokens_seen": 112244450,
      "step": 5214,
      "time_per_iteration": 2.7429606914520264
    },
    {
      "auxiliary_loss_clip": 0.01176578,
      "auxiliary_loss_mlp": 0.01025746,
      "balance_loss_clip": 1.0490135,
      "balance_loss_mlp": 1.01811349,
      "epoch": 0.6270666746828594,
      "flos": 17929192740480.0,
      "grad_norm": 2.4889511206089985,
      "language_loss": 0.84261608,
      "learning_rate": 1.2898378587590299e-06,
      "loss": 0.8646394,
      "num_input_tokens_seen": 112261050,
      "step": 5215,
      "time_per_iteration": 2.5458264350891113
    },
    {
      "auxiliary_loss_clip": 0.01166286,
      "auxiliary_loss_mlp": 0.01027569,
      "balance_loss_clip": 1.05107152,
      "balance_loss_mlp": 1.01943278,
      "epoch": 0.6271869175734984,
      "flos": 17457326749440.0,
      "grad_norm": 1.78737031908472,
      "language_loss": 0.87342536,
      "learning_rate": 1.2891097022847173e-06,
      "loss": 0.89536393,
      "num_input_tokens_seen": 112278395,
      "step": 5216,
      "time_per_iteration": 2.5924155712127686
    },
    {
      "auxiliary_loss_clip": 0.0115749,
      "auxiliary_loss_mlp": 0.01034047,
      "balance_loss_clip": 1.04772556,
      "balance_loss_mlp": 1.02563643,
      "epoch": 0.6273071604641376,
      "flos": 26868615166080.0,
      "grad_norm": 2.0205433515882074,
      "language_loss": 0.66605628,
      "learning_rate": 1.2883816536518978e-06,
      "loss": 0.68797165,
      "num_input_tokens_seen": 112299535,
      "step": 5217,
      "time_per_iteration": 2.740194082260132
    },
    {
      "auxiliary_loss_clip": 0.01164971,
      "auxiliary_loss_mlp": 0.01030065,
      "balance_loss_clip": 1.04770017,
      "balance_loss_mlp": 1.0226922,
      "epoch": 0.6274274033547766,
      "flos": 26062384446720.0,
      "grad_norm": 1.7391862470838115,
      "language_loss": 0.81886047,
      "learning_rate": 1.2876537129710155e-06,
      "loss": 0.84081078,
      "num_input_tokens_seen": 112317265,
      "step": 5218,
      "time_per_iteration": 2.7065093517303467
    },
    {
      "auxiliary_loss_clip": 0.01155068,
      "auxiliary_loss_mlp": 0.01033593,
      "balance_loss_clip": 1.0497613,
      "balance_loss_mlp": 1.02504003,
      "epoch": 0.6275476462454157,
      "flos": 20266259241600.0,
      "grad_norm": 2.00179215278641,
      "language_loss": 0.75629389,
      "learning_rate": 1.286925880352499e-06,
      "loss": 0.77818048,
      "num_input_tokens_seen": 112336125,
      "step": 5219,
      "time_per_iteration": 2.771174192428589
    },
    {
      "auxiliary_loss_clip": 0.01152001,
      "auxiliary_loss_mlp": 0.01028901,
      "balance_loss_clip": 1.04457068,
      "balance_loss_mlp": 1.02089643,
      "epoch": 0.6276678891360549,
      "flos": 26320402817280.0,
      "grad_norm": 5.2068141796508565,
      "language_loss": 0.71219325,
      "learning_rate": 1.2861981559067592e-06,
      "loss": 0.73400223,
      "num_input_tokens_seen": 112356730,
      "step": 5220,
      "time_per_iteration": 2.6656150817871094
    },
    {
      "auxiliary_loss_clip": 0.01130881,
      "auxiliary_loss_mlp": 0.01023356,
      "balance_loss_clip": 1.04360914,
      "balance_loss_mlp": 1.01581621,
      "epoch": 0.6277881320266939,
      "flos": 13912512324480.0,
      "grad_norm": 1.9510924254115345,
      "language_loss": 0.80443311,
      "learning_rate": 1.2854705397441917e-06,
      "loss": 0.82597548,
      "num_input_tokens_seen": 112372270,
      "step": 5221,
      "time_per_iteration": 2.7148993015289307
    },
    {
      "auxiliary_loss_clip": 0.011427,
      "auxiliary_loss_mlp": 0.01024336,
      "balance_loss_clip": 1.04268348,
      "balance_loss_mlp": 1.01578248,
      "epoch": 0.627908374917333,
      "flos": 27048922462080.0,
      "grad_norm": 2.126431446364808,
      "language_loss": 0.7732287,
      "learning_rate": 1.2847430319751747e-06,
      "loss": 0.79489899,
      "num_input_tokens_seen": 112390365,
      "step": 5222,
      "time_per_iteration": 2.71661639213562
    },
    {
      "auxiliary_loss_clip": 0.01164865,
      "auxiliary_loss_mlp": 0.01031705,
      "balance_loss_clip": 1.04934287,
      "balance_loss_mlp": 1.02375424,
      "epoch": 0.6280286178079721,
      "flos": 23769201386880.0,
      "grad_norm": 2.3846022847423285,
      "language_loss": 0.67233658,
      "learning_rate": 1.2840156327100712e-06,
      "loss": 0.69430232,
      "num_input_tokens_seen": 112407490,
      "step": 5223,
      "time_per_iteration": 2.6368188858032227
    },
    {
      "auxiliary_loss_clip": 0.01176529,
      "auxiliary_loss_mlp": 0.01029121,
      "balance_loss_clip": 1.0505805,
      "balance_loss_mlp": 1.02089858,
      "epoch": 0.6281488606986112,
      "flos": 26359150613760.0,
      "grad_norm": 1.6225048891351432,
      "language_loss": 0.72337866,
      "learning_rate": 1.2832883420592272e-06,
      "loss": 0.74543512,
      "num_input_tokens_seen": 112426385,
      "step": 5224,
      "time_per_iteration": 2.6280298233032227
    },
    {
      "auxiliary_loss_clip": 0.01153181,
      "auxiliary_loss_mlp": 0.010227,
      "balance_loss_clip": 1.04701006,
      "balance_loss_mlp": 1.0148437,
      "epoch": 0.6282691035892503,
      "flos": 36137194848000.0,
      "grad_norm": 2.384809903937574,
      "language_loss": 0.64258415,
      "learning_rate": 1.282561160132972e-06,
      "loss": 0.664343,
      "num_input_tokens_seen": 112446905,
      "step": 5225,
      "time_per_iteration": 3.648876905441284
    },
    {
      "auxiliary_loss_clip": 0.01162648,
      "auxiliary_loss_mlp": 0.01032343,
      "balance_loss_clip": 1.04360485,
      "balance_loss_mlp": 1.02389741,
      "epoch": 0.6283893464798894,
      "flos": 26537231266560.0,
      "grad_norm": 5.314497547682659,
      "language_loss": 0.81100458,
      "learning_rate": 1.2818340870416186e-06,
      "loss": 0.83295453,
      "num_input_tokens_seen": 112468040,
      "step": 5226,
      "time_per_iteration": 2.7800378799438477
    },
    {
      "auxiliary_loss_clip": 0.01154125,
      "auxiliary_loss_mlp": 0.010368,
      "balance_loss_clip": 1.04303193,
      "balance_loss_mlp": 1.02829432,
      "epoch": 0.6285095893705285,
      "flos": 22237216369920.0,
      "grad_norm": 2.2143926800763496,
      "language_loss": 0.7603429,
      "learning_rate": 1.2811071228954626e-06,
      "loss": 0.78225219,
      "num_input_tokens_seen": 112486675,
      "step": 5227,
      "time_per_iteration": 2.7088606357574463
    },
    {
      "auxiliary_loss_clip": 0.01158955,
      "auxiliary_loss_mlp": 0.01035274,
      "balance_loss_clip": 1.04999661,
      "balance_loss_mlp": 1.02732885,
      "epoch": 0.6286298322611675,
      "flos": 26542259170560.0,
      "grad_norm": 1.8699539201509359,
      "language_loss": 0.81128442,
      "learning_rate": 1.2803802678047846e-06,
      "loss": 0.83322668,
      "num_input_tokens_seen": 112506825,
      "step": 5228,
      "time_per_iteration": 2.772892475128174
    },
    {
      "auxiliary_loss_clip": 0.01161987,
      "auxiliary_loss_mlp": 0.01029719,
      "balance_loss_clip": 1.04869747,
      "balance_loss_mlp": 1.0215888,
      "epoch": 0.6287500751518067,
      "flos": 21795227516160.0,
      "grad_norm": 3.1898450062005304,
      "language_loss": 0.74071741,
      "learning_rate": 1.279653521879848e-06,
      "loss": 0.76263452,
      "num_input_tokens_seen": 112526890,
      "step": 5229,
      "time_per_iteration": 2.665717124938965
    },
    {
      "auxiliary_loss_clip": 0.01109892,
      "auxiliary_loss_mlp": 0.01028982,
      "balance_loss_clip": 1.04010534,
      "balance_loss_mlp": 1.02151322,
      "epoch": 0.6288703180424458,
      "flos": 20009605587840.0,
      "grad_norm": 2.0214492052112627,
      "language_loss": 0.83851343,
      "learning_rate": 1.2789268852308997e-06,
      "loss": 0.85990214,
      "num_input_tokens_seen": 112542100,
      "step": 5230,
      "time_per_iteration": 3.8693044185638428
    },
    {
      "auxiliary_loss_clip": 0.01160588,
      "auxiliary_loss_mlp": 0.01027353,
      "balance_loss_clip": 1.04714799,
      "balance_loss_mlp": 1.01894259,
      "epoch": 0.6289905609330848,
      "flos": 22124923476480.0,
      "grad_norm": 1.7096643314686497,
      "language_loss": 0.70557368,
      "learning_rate": 1.2782003579681688e-06,
      "loss": 0.72745311,
      "num_input_tokens_seen": 112561630,
      "step": 5231,
      "time_per_iteration": 3.1275720596313477
    },
    {
      "auxiliary_loss_clip": 0.01180079,
      "auxiliary_loss_mlp": 0.01026696,
      "balance_loss_clip": 1.05106831,
      "balance_loss_mlp": 1.01882768,
      "epoch": 0.629110803823724,
      "flos": 25518481729920.0,
      "grad_norm": 1.5874053454768322,
      "language_loss": 0.7437923,
      "learning_rate": 1.2774739402018701e-06,
      "loss": 0.76586002,
      "num_input_tokens_seen": 112582465,
      "step": 5232,
      "time_per_iteration": 2.6023576259613037
    },
    {
      "auxiliary_loss_clip": 0.01164791,
      "auxiliary_loss_mlp": 0.01024522,
      "balance_loss_clip": 1.04889214,
      "balance_loss_mlp": 1.01609373,
      "epoch": 0.629231046714363,
      "flos": 20886616056960.0,
      "grad_norm": 1.5448302270054592,
      "language_loss": 0.7287671,
      "learning_rate": 1.2767476320422002e-06,
      "loss": 0.75066018,
      "num_input_tokens_seen": 112602390,
      "step": 5233,
      "time_per_iteration": 3.556837320327759
    },
    {
      "auxiliary_loss_clip": 0.01054688,
      "auxiliary_loss_mlp": 0.01002562,
      "balance_loss_clip": 1.00940883,
      "balance_loss_mlp": 1.00112557,
      "epoch": 0.6293512896050021,
      "flos": 65050027908480.0,
      "grad_norm": 0.676109830238301,
      "language_loss": 0.5721823,
      "learning_rate": 1.2760214335993392e-06,
      "loss": 0.59275472,
      "num_input_tokens_seen": 112669035,
      "step": 5234,
      "time_per_iteration": 3.416621685028076
    },
    {
      "auxiliary_loss_clip": 0.01160917,
      "auxiliary_loss_mlp": 0.01026974,
      "balance_loss_clip": 1.0478642,
      "balance_loss_mlp": 1.01912403,
      "epoch": 0.6294715324956413,
      "flos": 34677857088000.0,
      "grad_norm": 1.8995222338638569,
      "language_loss": 0.59064722,
      "learning_rate": 1.2752953449834514e-06,
      "loss": 0.61252618,
      "num_input_tokens_seen": 112691485,
      "step": 5235,
      "time_per_iteration": 2.718733072280884
    },
    {
      "auxiliary_loss_clip": 0.01176929,
      "auxiliary_loss_mlp": 0.01023215,
      "balance_loss_clip": 1.05129743,
      "balance_loss_mlp": 1.01537752,
      "epoch": 0.6295917753862803,
      "flos": 22784207656320.0,
      "grad_norm": 1.572886558278842,
      "language_loss": 0.80200481,
      "learning_rate": 1.2745693663046836e-06,
      "loss": 0.8240062,
      "num_input_tokens_seen": 112710555,
      "step": 5236,
      "time_per_iteration": 2.674281597137451
    },
    {
      "auxiliary_loss_clip": 0.01161296,
      "auxiliary_loss_mlp": 0.0102615,
      "balance_loss_clip": 1.04763186,
      "balance_loss_mlp": 1.01878011,
      "epoch": 0.6297120182769194,
      "flos": 20850454039680.0,
      "grad_norm": 1.6926966379123751,
      "language_loss": 0.80621666,
      "learning_rate": 1.2738434976731662e-06,
      "loss": 0.82809114,
      "num_input_tokens_seen": 112728740,
      "step": 5237,
      "time_per_iteration": 3.8272738456726074
    },
    {
      "auxiliary_loss_clip": 0.01160959,
      "auxiliary_loss_mlp": 0.01033755,
      "balance_loss_clip": 1.05043387,
      "balance_loss_mlp": 1.02531791,
      "epoch": 0.6298322611675584,
      "flos": 19497662997120.0,
      "grad_norm": 2.117490045162329,
      "language_loss": 0.75038028,
      "learning_rate": 1.2731177391990125e-06,
      "loss": 0.77232742,
      "num_input_tokens_seen": 112748665,
      "step": 5238,
      "time_per_iteration": 2.7680628299713135
    },
    {
      "auxiliary_loss_clip": 0.01156726,
      "auxiliary_loss_mlp": 0.01029558,
      "balance_loss_clip": 1.04458869,
      "balance_loss_mlp": 1.021523,
      "epoch": 0.6299525040581976,
      "flos": 12604466649600.0,
      "grad_norm": 2.549324758636585,
      "language_loss": 0.81867361,
      "learning_rate": 1.2723920909923203e-06,
      "loss": 0.84053648,
      "num_input_tokens_seen": 112764410,
      "step": 5239,
      "time_per_iteration": 2.6732845306396484
    },
    {
      "auxiliary_loss_clip": 0.01069215,
      "auxiliary_loss_mlp": 0.01001783,
      "balance_loss_clip": 1.01023519,
      "balance_loss_mlp": 1.00059092,
      "epoch": 0.6300727469488366,
      "flos": 57725685636480.0,
      "grad_norm": 0.8479259996631326,
      "language_loss": 0.60360545,
      "learning_rate": 1.2716665531631688e-06,
      "loss": 0.62431544,
      "num_input_tokens_seen": 112818695,
      "step": 5240,
      "time_per_iteration": 3.125013589859009
    },
    {
      "auxiliary_loss_clip": 0.01172301,
      "auxiliary_loss_mlp": 0.0103197,
      "balance_loss_clip": 1.04823959,
      "balance_loss_mlp": 1.02380991,
      "epoch": 0.6301929898394757,
      "flos": 22527302607360.0,
      "grad_norm": 1.6634841034986096,
      "language_loss": 0.77292049,
      "learning_rate": 1.270941125821623e-06,
      "loss": 0.79496318,
      "num_input_tokens_seen": 112839120,
      "step": 5241,
      "time_per_iteration": 2.655339002609253
    },
    {
      "auxiliary_loss_clip": 0.01164299,
      "auxiliary_loss_mlp": 0.01026101,
      "balance_loss_clip": 1.04698801,
      "balance_loss_mlp": 1.01804852,
      "epoch": 0.6303132327301149,
      "flos": 28293550675200.0,
      "grad_norm": 1.6103213033437358,
      "language_loss": 0.75457925,
      "learning_rate": 1.2702158090777278e-06,
      "loss": 0.7764833,
      "num_input_tokens_seen": 112860210,
      "step": 5242,
      "time_per_iteration": 2.6650969982147217
    },
    {
      "auxiliary_loss_clip": 0.01143591,
      "auxiliary_loss_mlp": 0.01029425,
      "balance_loss_clip": 1.04378247,
      "balance_loss_mlp": 1.02183747,
      "epoch": 0.6304334756207539,
      "flos": 25264521596160.0,
      "grad_norm": 1.9166730754558183,
      "language_loss": 0.74802893,
      "learning_rate": 1.2694906030415148e-06,
      "loss": 0.76975906,
      "num_input_tokens_seen": 112877955,
      "step": 5243,
      "time_per_iteration": 2.761284351348877
    },
    {
      "auxiliary_loss_clip": 0.01164665,
      "auxiliary_loss_mlp": 0.01029661,
      "balance_loss_clip": 1.04647422,
      "balance_loss_mlp": 1.02083921,
      "epoch": 0.630553718511393,
      "flos": 18033548728320.0,
      "grad_norm": 2.7871699357592354,
      "language_loss": 0.82751364,
      "learning_rate": 1.2687655078229958e-06,
      "loss": 0.84945691,
      "num_input_tokens_seen": 112892285,
      "step": 5244,
      "time_per_iteration": 2.673035144805908
    },
    {
      "auxiliary_loss_clip": 0.01155285,
      "auxiliary_loss_mlp": 0.01024438,
      "balance_loss_clip": 1.04921556,
      "balance_loss_mlp": 1.0166688,
      "epoch": 0.6306739614020321,
      "flos": 27304103658240.0,
      "grad_norm": 2.1543138258481958,
      "language_loss": 0.68808639,
      "learning_rate": 1.2680405235321678e-06,
      "loss": 0.70988357,
      "num_input_tokens_seen": 112913620,
      "step": 5245,
      "time_per_iteration": 2.7172744274139404
    },
    {
      "auxiliary_loss_clip": 0.01161323,
      "auxiliary_loss_mlp": 0.008871,
      "balance_loss_clip": 1.05032873,
      "balance_loss_mlp": 1.00060511,
      "epoch": 0.6307942042926712,
      "flos": 15341434243200.0,
      "grad_norm": 3.3740438412765426,
      "language_loss": 0.78599483,
      "learning_rate": 1.267315650279011e-06,
      "loss": 0.80647898,
      "num_input_tokens_seen": 112932090,
      "step": 5246,
      "time_per_iteration": 2.6639349460601807
    },
    {
      "auxiliary_loss_clip": 0.01144085,
      "auxiliary_loss_mlp": 0.01028945,
      "balance_loss_clip": 1.04819095,
      "balance_loss_mlp": 1.02108371,
      "epoch": 0.6309144471833102,
      "flos": 19606400444160.0,
      "grad_norm": 2.173336056757073,
      "language_loss": 0.73992097,
      "learning_rate": 1.2665908881734874e-06,
      "loss": 0.76165128,
      "num_input_tokens_seen": 112950925,
      "step": 5247,
      "time_per_iteration": 2.720013380050659
    },
    {
      "auxiliary_loss_clip": 0.01167696,
      "auxiliary_loss_mlp": 0.0102546,
      "balance_loss_clip": 1.04975188,
      "balance_loss_mlp": 1.01842427,
      "epoch": 0.6310346900739494,
      "flos": 17493345112320.0,
      "grad_norm": 2.0600848832198486,
      "language_loss": 0.85059559,
      "learning_rate": 1.2658662373255432e-06,
      "loss": 0.87252724,
      "num_input_tokens_seen": 112969315,
      "step": 5248,
      "time_per_iteration": 2.6428329944610596
    },
    {
      "auxiliary_loss_clip": 0.01056216,
      "auxiliary_loss_mlp": 0.01001324,
      "balance_loss_clip": 1.00930917,
      "balance_loss_mlp": 1.00012636,
      "epoch": 0.6311549329645885,
      "flos": 55070164131840.0,
      "grad_norm": 0.7084576983860547,
      "language_loss": 0.52281547,
      "learning_rate": 1.2651416978451063e-06,
      "loss": 0.54339087,
      "num_input_tokens_seen": 113034700,
      "step": 5249,
      "time_per_iteration": 3.3287034034729004
    },
    {
      "auxiliary_loss_clip": 0.01180164,
      "auxiliary_loss_mlp": 0.01031598,
      "balance_loss_clip": 1.05127597,
      "balance_loss_mlp": 1.0236702,
      "epoch": 0.6312751758552275,
      "flos": 41902545075840.0,
      "grad_norm": 3.299726324024712,
      "language_loss": 0.6478498,
      "learning_rate": 1.2644172698420903e-06,
      "loss": 0.66996741,
      "num_input_tokens_seen": 113056805,
      "step": 5250,
      "time_per_iteration": 2.7723824977874756
    },
    {
      "auxiliary_loss_clip": 0.0114883,
      "auxiliary_loss_mlp": 0.01030539,
      "balance_loss_clip": 1.0457108,
      "balance_loss_mlp": 1.02201581,
      "epoch": 0.6313954187458667,
      "flos": 19646800266240.0,
      "grad_norm": 1.9469981034076091,
      "language_loss": 0.84756362,
      "learning_rate": 1.2636929534263892e-06,
      "loss": 0.86935729,
      "num_input_tokens_seen": 113075790,
      "step": 5251,
      "time_per_iteration": 3.622157096862793
    },
    {
      "auxiliary_loss_clip": 0.01148883,
      "auxiliary_loss_mlp": 0.0102683,
      "balance_loss_clip": 1.04089832,
      "balance_loss_mlp": 1.01880097,
      "epoch": 0.6315156616365057,
      "flos": 22894273906560.0,
      "grad_norm": 1.695238215451722,
      "language_loss": 0.77470064,
      "learning_rate": 1.2629687487078821e-06,
      "loss": 0.79645777,
      "num_input_tokens_seen": 113094600,
      "step": 5252,
      "time_per_iteration": 2.7082316875457764
    },
    {
      "auxiliary_loss_clip": 0.0116791,
      "auxiliary_loss_mlp": 0.01022801,
      "balance_loss_clip": 1.04574084,
      "balance_loss_mlp": 1.01476073,
      "epoch": 0.6316359045271448,
      "flos": 23726251699200.0,
      "grad_norm": 10.017526110987943,
      "language_loss": 0.76280761,
      "learning_rate": 1.2622446557964293e-06,
      "loss": 0.78471476,
      "num_input_tokens_seen": 113112605,
      "step": 5253,
      "time_per_iteration": 2.6032204627990723
    },
    {
      "auxiliary_loss_clip": 0.01155889,
      "auxiliary_loss_mlp": 0.01021148,
      "balance_loss_clip": 1.04294872,
      "balance_loss_mlp": 1.01315475,
      "epoch": 0.631756147417784,
      "flos": 33108417164160.0,
      "grad_norm": 2.2726015563731763,
      "language_loss": 0.7153486,
      "learning_rate": 1.261520674801876e-06,
      "loss": 0.73711896,
      "num_input_tokens_seen": 113133200,
      "step": 5254,
      "time_per_iteration": 2.7489094734191895
    },
    {
      "auxiliary_loss_clip": 0.0115585,
      "auxiliary_loss_mlp": 0.01032351,
      "balance_loss_clip": 1.0491004,
      "balance_loss_mlp": 1.02396441,
      "epoch": 0.631876390308423,
      "flos": 31248424126080.0,
      "grad_norm": 1.9153605127023117,
      "language_loss": 0.72328049,
      "learning_rate": 1.2607968058340488e-06,
      "loss": 0.74516243,
      "num_input_tokens_seen": 113152895,
      "step": 5255,
      "time_per_iteration": 2.7391130924224854
    },
    {
      "auxiliary_loss_clip": 0.01155158,
      "auxiliary_loss_mlp": 0.01029782,
      "balance_loss_clip": 1.04701495,
      "balance_loss_mlp": 1.02186668,
      "epoch": 0.6319966331990621,
      "flos": 24681152810880.0,
      "grad_norm": 2.029781413484384,
      "language_loss": 0.73443407,
      "learning_rate": 1.2600730490027583e-06,
      "loss": 0.75628346,
      "num_input_tokens_seen": 113173135,
      "step": 5256,
      "time_per_iteration": 3.7021069526672363
    },
    {
      "auxiliary_loss_clip": 0.01143872,
      "auxiliary_loss_mlp": 0.01027336,
      "balance_loss_clip": 1.04359007,
      "balance_loss_mlp": 1.01993942,
      "epoch": 0.6321168760897012,
      "flos": 17491764913920.0,
      "grad_norm": 1.6080142360847873,
      "language_loss": 0.80638707,
      "learning_rate": 1.2593494044177984e-06,
      "loss": 0.82809913,
      "num_input_tokens_seen": 113191440,
      "step": 5257,
      "time_per_iteration": 2.7276928424835205
    },
    {
      "auxiliary_loss_clip": 0.01178299,
      "auxiliary_loss_mlp": 0.010287,
      "balance_loss_clip": 1.04777431,
      "balance_loss_mlp": 1.01941967,
      "epoch": 0.6322371189803403,
      "flos": 18295373940480.0,
      "grad_norm": 2.4302260615621596,
      "language_loss": 0.80267251,
      "learning_rate": 1.2586258721889448e-06,
      "loss": 0.8247425,
      "num_input_tokens_seen": 113208790,
      "step": 5258,
      "time_per_iteration": 2.658379554748535
    },
    {
      "auxiliary_loss_clip": 0.01128067,
      "auxiliary_loss_mlp": 0.01025933,
      "balance_loss_clip": 1.04269934,
      "balance_loss_mlp": 1.01800013,
      "epoch": 0.6323573618709794,
      "flos": 20157270399360.0,
      "grad_norm": 1.87745372538099,
      "language_loss": 0.81933773,
      "learning_rate": 1.2579024524259573e-06,
      "loss": 0.84087771,
      "num_input_tokens_seen": 113225050,
      "step": 5259,
      "time_per_iteration": 3.4714300632476807
    },
    {
      "auxiliary_loss_clip": 0.01152518,
      "auxiliary_loss_mlp": 0.01031776,
      "balance_loss_clip": 1.04285121,
      "balance_loss_mlp": 1.02304351,
      "epoch": 0.6324776047616185,
      "flos": 20042391726720.0,
      "grad_norm": 3.0490882049442285,
      "language_loss": 0.91157573,
      "learning_rate": 1.2571791452385768e-06,
      "loss": 0.93341863,
      "num_input_tokens_seen": 113242315,
      "step": 5260,
      "time_per_iteration": 2.7307560443878174
    },
    {
      "auxiliary_loss_clip": 0.0116,
      "auxiliary_loss_mlp": 0.01025337,
      "balance_loss_clip": 1.04933059,
      "balance_loss_mlp": 1.01805925,
      "epoch": 0.6325978476522576,
      "flos": 30848235724800.0,
      "grad_norm": 1.6423195896743403,
      "language_loss": 0.77500951,
      "learning_rate": 1.2564559507365301e-06,
      "loss": 0.79686284,
      "num_input_tokens_seen": 113264720,
      "step": 5261,
      "time_per_iteration": 2.7602787017822266
    },
    {
      "auxiliary_loss_clip": 0.01160122,
      "auxiliary_loss_mlp": 0.01027076,
      "balance_loss_clip": 1.04779923,
      "balance_loss_mlp": 1.01895833,
      "epoch": 0.6327180905428966,
      "flos": 24535104111360.0,
      "grad_norm": 2.5434006415617985,
      "language_loss": 0.78689039,
      "learning_rate": 1.2557328690295244e-06,
      "loss": 0.80876237,
      "num_input_tokens_seen": 113282910,
      "step": 5262,
      "time_per_iteration": 2.700218915939331
    },
    {
      "auxiliary_loss_clip": 0.01153657,
      "auxiliary_loss_mlp": 0.01029534,
      "balance_loss_clip": 1.04781091,
      "balance_loss_mlp": 1.02102864,
      "epoch": 0.6328383334335358,
      "flos": 21575274583680.0,
      "grad_norm": 1.728754392945307,
      "language_loss": 0.76380622,
      "learning_rate": 1.255009900227251e-06,
      "loss": 0.78563809,
      "num_input_tokens_seen": 113301935,
      "step": 5263,
      "time_per_iteration": 3.601442575454712
    },
    {
      "auxiliary_loss_clip": 0.01174042,
      "auxiliary_loss_mlp": 0.01022012,
      "balance_loss_clip": 1.05029869,
      "balance_loss_mlp": 1.01424551,
      "epoch": 0.6329585763241748,
      "flos": 22929861306240.0,
      "grad_norm": 2.2478625490219524,
      "language_loss": 0.79962909,
      "learning_rate": 1.254287044439383e-06,
      "loss": 0.82158965,
      "num_input_tokens_seen": 113321540,
      "step": 5264,
      "time_per_iteration": 2.6905641555786133
    },
    {
      "auxiliary_loss_clip": 0.01068894,
      "auxiliary_loss_mlp": 0.01001262,
      "balance_loss_clip": 1.00974369,
      "balance_loss_mlp": 1.00006437,
      "epoch": 0.6330788192148139,
      "flos": 70936897847040.0,
      "grad_norm": 0.7722894227984102,
      "language_loss": 0.54437995,
      "learning_rate": 1.2535643017755776e-06,
      "loss": 0.5650816,
      "num_input_tokens_seen": 113383730,
      "step": 5265,
      "time_per_iteration": 3.2493789196014404
    },
    {
      "auxiliary_loss_clip": 0.01149324,
      "auxiliary_loss_mlp": 0.0102391,
      "balance_loss_clip": 1.04451847,
      "balance_loss_mlp": 1.01623893,
      "epoch": 0.6331990621054531,
      "flos": 21244501215360.0,
      "grad_norm": 2.4323394140899057,
      "language_loss": 0.71706635,
      "learning_rate": 1.2528416723454737e-06,
      "loss": 0.73879868,
      "num_input_tokens_seen": 113400400,
      "step": 5266,
      "time_per_iteration": 2.7065584659576416
    },
    {
      "auxiliary_loss_clip": 0.0117688,
      "auxiliary_loss_mlp": 0.01024603,
      "balance_loss_clip": 1.05144739,
      "balance_loss_mlp": 1.01686907,
      "epoch": 0.6333193049960921,
      "flos": 34459412526720.0,
      "grad_norm": 1.4562963270144895,
      "language_loss": 0.71496767,
      "learning_rate": 1.2521191562586945e-06,
      "loss": 0.73698246,
      "num_input_tokens_seen": 113424050,
      "step": 5267,
      "time_per_iteration": 2.7063839435577393
    },
    {
      "auxiliary_loss_clip": 0.01174739,
      "auxiliary_loss_mlp": 0.00886718,
      "balance_loss_clip": 1.04920316,
      "balance_loss_mlp": 1.00059044,
      "epoch": 0.6334395478867312,
      "flos": 18329883932160.0,
      "grad_norm": 2.1114279131232894,
      "language_loss": 0.76757038,
      "learning_rate": 1.2513967536248445e-06,
      "loss": 0.78818494,
      "num_input_tokens_seen": 113440370,
      "step": 5268,
      "time_per_iteration": 2.562615156173706
    },
    {
      "auxiliary_loss_clip": 0.01165371,
      "auxiliary_loss_mlp": 0.01023769,
      "balance_loss_clip": 1.05054224,
      "balance_loss_mlp": 1.01585388,
      "epoch": 0.6335597907773702,
      "flos": 23623152687360.0,
      "grad_norm": 1.8591423684994128,
      "language_loss": 0.807796,
      "learning_rate": 1.2506744645535117e-06,
      "loss": 0.82968736,
      "num_input_tokens_seen": 113460800,
      "step": 5269,
      "time_per_iteration": 2.6861305236816406
    },
    {
      "auxiliary_loss_clip": 0.01146968,
      "auxiliary_loss_mlp": 0.01026545,
      "balance_loss_clip": 1.0400486,
      "balance_loss_mlp": 1.01889133,
      "epoch": 0.6336800336680094,
      "flos": 22710913954560.0,
      "grad_norm": 2.847388171356296,
      "language_loss": 0.59970379,
      "learning_rate": 1.249952289154267e-06,
      "loss": 0.62143886,
      "num_input_tokens_seen": 113480840,
      "step": 5270,
      "time_per_iteration": 2.6685519218444824
    },
    {
      "auxiliary_loss_clip": 0.01113898,
      "auxiliary_loss_mlp": 0.01031251,
      "balance_loss_clip": 1.04010987,
      "balance_loss_mlp": 1.02346659,
      "epoch": 0.6338002765586485,
      "flos": 23622757637760.0,
      "grad_norm": 2.5064392184991338,
      "language_loss": 0.76335073,
      "learning_rate": 1.2492302275366635e-06,
      "loss": 0.7848022,
      "num_input_tokens_seen": 113500515,
      "step": 5271,
      "time_per_iteration": 2.836592197418213
    },
    {
      "auxiliary_loss_clip": 0.01160602,
      "auxiliary_loss_mlp": 0.01030197,
      "balance_loss_clip": 1.04632485,
      "balance_loss_mlp": 1.02219176,
      "epoch": 0.6339205194492875,
      "flos": 26505450708480.0,
      "grad_norm": 2.1326297224785584,
      "language_loss": 0.65488189,
      "learning_rate": 1.2485082798102377e-06,
      "loss": 0.67678988,
      "num_input_tokens_seen": 113520930,
      "step": 5272,
      "time_per_iteration": 2.7457079887390137
    },
    {
      "auxiliary_loss_clip": 0.01153262,
      "auxiliary_loss_mlp": 0.01032818,
      "balance_loss_clip": 1.04382837,
      "balance_loss_mlp": 1.02509975,
      "epoch": 0.6340407623399267,
      "flos": 18544306170240.0,
      "grad_norm": 2.16677947402006,
      "language_loss": 0.68332946,
      "learning_rate": 1.2477864460845084e-06,
      "loss": 0.7051903,
      "num_input_tokens_seen": 113537330,
      "step": 5273,
      "time_per_iteration": 2.7149107456207275
    },
    {
      "auxiliary_loss_clip": 0.0115653,
      "auxiliary_loss_mlp": 0.0103125,
      "balance_loss_clip": 1.04575288,
      "balance_loss_mlp": 1.02292323,
      "epoch": 0.6341610052305657,
      "flos": 17712579772800.0,
      "grad_norm": 2.617247296307076,
      "language_loss": 0.73553562,
      "learning_rate": 1.2470647264689776e-06,
      "loss": 0.75741339,
      "num_input_tokens_seen": 113555810,
      "step": 5274,
      "time_per_iteration": 2.633680582046509
    },
    {
      "auxiliary_loss_clip": 0.01133718,
      "auxiliary_loss_mlp": 0.0102886,
      "balance_loss_clip": 1.04040647,
      "balance_loss_mlp": 1.02056885,
      "epoch": 0.6342812481212048,
      "flos": 23587026583680.0,
      "grad_norm": 3.3469412801545464,
      "language_loss": 0.71475327,
      "learning_rate": 1.2463431210731282e-06,
      "loss": 0.73637915,
      "num_input_tokens_seen": 113575395,
      "step": 5275,
      "time_per_iteration": 2.8002543449401855
    },
    {
      "auxiliary_loss_clip": 0.01147293,
      "auxiliary_loss_mlp": 0.01027719,
      "balance_loss_clip": 1.04222322,
      "balance_loss_mlp": 1.01977396,
      "epoch": 0.634401491011844,
      "flos": 17821927751040.0,
      "grad_norm": 2.320586551609828,
      "language_loss": 0.76003003,
      "learning_rate": 1.2456216300064289e-06,
      "loss": 0.78178012,
      "num_input_tokens_seen": 113592945,
      "step": 5276,
      "time_per_iteration": 2.7233104705810547
    },
    {
      "auxiliary_loss_clip": 0.01149198,
      "auxiliary_loss_mlp": 0.01027611,
      "balance_loss_clip": 1.04352975,
      "balance_loss_mlp": 1.02016902,
      "epoch": 0.634521733902483,
      "flos": 21358158825600.0,
      "grad_norm": 1.6603150748894842,
      "language_loss": 0.78506082,
      "learning_rate": 1.244900253378328e-06,
      "loss": 0.80682892,
      "num_input_tokens_seen": 113613000,
      "step": 5277,
      "time_per_iteration": 3.58054518699646
    },
    {
      "auxiliary_loss_clip": 0.01116072,
      "auxiliary_loss_mlp": 0.01027546,
      "balance_loss_clip": 1.04547858,
      "balance_loss_mlp": 1.01991034,
      "epoch": 0.6346419767931221,
      "flos": 16545052103040.0,
      "grad_norm": 3.451675566725475,
      "language_loss": 0.69240874,
      "learning_rate": 1.2441789912982583e-06,
      "loss": 0.7138449,
      "num_input_tokens_seen": 113630085,
      "step": 5278,
      "time_per_iteration": 3.0216026306152344
    },
    {
      "auxiliary_loss_clip": 0.01171422,
      "auxiliary_loss_mlp": 0.01031237,
      "balance_loss_clip": 1.05035853,
      "balance_loss_mlp": 1.02314925,
      "epoch": 0.6347622196837612,
      "flos": 24350989973760.0,
      "grad_norm": 1.746000460123354,
      "language_loss": 0.6505686,
      "learning_rate": 1.2434578438756346e-06,
      "loss": 0.6725952,
      "num_input_tokens_seen": 113650515,
      "step": 5279,
      "time_per_iteration": 3.043715715408325
    },
    {
      "auxiliary_loss_clip": 0.01167853,
      "auxiliary_loss_mlp": 0.0102873,
      "balance_loss_clip": 1.04675364,
      "balance_loss_mlp": 1.02135682,
      "epoch": 0.6348824625744003,
      "flos": 64523178195840.0,
      "grad_norm": 1.8301639215363985,
      "language_loss": 0.78199637,
      "learning_rate": 1.242736811219855e-06,
      "loss": 0.80396223,
      "num_input_tokens_seen": 113676475,
      "step": 5280,
      "time_per_iteration": 3.0512869358062744
    },
    {
      "auxiliary_loss_clip": 0.0116254,
      "auxiliary_loss_mlp": 0.01026361,
      "balance_loss_clip": 1.04840398,
      "balance_loss_mlp": 1.01860094,
      "epoch": 0.6350027054650393,
      "flos": 28622133313920.0,
      "grad_norm": 1.746765270905799,
      "language_loss": 0.82181156,
      "learning_rate": 1.2420158934402988e-06,
      "loss": 0.84370053,
      "num_input_tokens_seen": 113697090,
      "step": 5281,
      "time_per_iteration": 2.7023768424987793
    },
    {
      "auxiliary_loss_clip": 0.01131886,
      "auxiliary_loss_mlp": 0.01028413,
      "balance_loss_clip": 1.0402956,
      "balance_loss_mlp": 1.02067065,
      "epoch": 0.6351229483556785,
      "flos": 23002544476800.0,
      "grad_norm": 2.050583823942742,
      "language_loss": 0.84822887,
      "learning_rate": 1.2412950906463286e-06,
      "loss": 0.8698318,
      "num_input_tokens_seen": 113714395,
      "step": 5282,
      "time_per_iteration": 3.827547311782837
    },
    {
      "auxiliary_loss_clip": 0.01138297,
      "auxiliary_loss_mlp": 0.01023574,
      "balance_loss_clip": 1.04526949,
      "balance_loss_mlp": 1.01601017,
      "epoch": 0.6352431912463176,
      "flos": 21939300967680.0,
      "grad_norm": 1.8291097796308777,
      "language_loss": 0.90147543,
      "learning_rate": 1.2405744029472902e-06,
      "loss": 0.92309403,
      "num_input_tokens_seen": 113733880,
      "step": 5283,
      "time_per_iteration": 2.9039502143859863
    },
    {
      "auxiliary_loss_clip": 0.01153111,
      "auxiliary_loss_mlp": 0.01027608,
      "balance_loss_clip": 1.0446949,
      "balance_loss_mlp": 1.02000833,
      "epoch": 0.6353634341369566,
      "flos": 13735257684480.0,
      "grad_norm": 1.7947150466765394,
      "language_loss": 0.76038456,
      "learning_rate": 1.2398538304525108e-06,
      "loss": 0.78219175,
      "num_input_tokens_seen": 113752505,
      "step": 5284,
      "time_per_iteration": 2.754775285720825
    },
    {
      "auxiliary_loss_clip": 0.01141671,
      "auxiliary_loss_mlp": 0.01029889,
      "balance_loss_clip": 1.04464197,
      "balance_loss_mlp": 1.02100825,
      "epoch": 0.6354836770275958,
      "flos": 19316170552320.0,
      "grad_norm": 3.5042186345712496,
      "language_loss": 0.75979555,
      "learning_rate": 1.2391333732713016e-06,
      "loss": 0.78151113,
      "num_input_tokens_seen": 113770310,
      "step": 5285,
      "time_per_iteration": 3.486011266708374
    },
    {
      "auxiliary_loss_clip": 0.01144996,
      "auxiliary_loss_mlp": 0.01031526,
      "balance_loss_clip": 1.0421207,
      "balance_loss_mlp": 1.02335382,
      "epoch": 0.6356039199182348,
      "flos": 21613375935360.0,
      "grad_norm": 3.0457610155035706,
      "language_loss": 0.78325903,
      "learning_rate": 1.2384130315129543e-06,
      "loss": 0.80502427,
      "num_input_tokens_seen": 113788635,
      "step": 5286,
      "time_per_iteration": 2.8126280307769775
    },
    {
      "auxiliary_loss_clip": 0.01108079,
      "auxiliary_loss_mlp": 0.01026715,
      "balance_loss_clip": 1.03901565,
      "balance_loss_mlp": 1.01939523,
      "epoch": 0.6357241628088739,
      "flos": 18111978074880.0,
      "grad_norm": 2.898535940926593,
      "language_loss": 0.7351554,
      "learning_rate": 1.2376928052867447e-06,
      "loss": 0.75650334,
      "num_input_tokens_seen": 113807755,
      "step": 5287,
      "time_per_iteration": 3.0173189640045166
    },
    {
      "auxiliary_loss_clip": 0.01158375,
      "auxiliary_loss_mlp": 0.01029529,
      "balance_loss_clip": 1.04912353,
      "balance_loss_mlp": 1.02086878,
      "epoch": 0.6358444056995131,
      "flos": 24935256599040.0,
      "grad_norm": 4.527945931821731,
      "language_loss": 0.77147639,
      "learning_rate": 1.2369726947019299e-06,
      "loss": 0.79335546,
      "num_input_tokens_seen": 113828230,
      "step": 5288,
      "time_per_iteration": 2.906921625137329
    },
    {
      "auxiliary_loss_clip": 0.0116636,
      "auxiliary_loss_mlp": 0.01023725,
      "balance_loss_clip": 1.04726815,
      "balance_loss_mlp": 1.01621532,
      "epoch": 0.6359646485901521,
      "flos": 23293348986240.0,
      "grad_norm": 2.2286221392904353,
      "language_loss": 0.67196047,
      "learning_rate": 1.2362526998677511e-06,
      "loss": 0.69386131,
      "num_input_tokens_seen": 113844595,
      "step": 5289,
      "time_per_iteration": 4.342755556106567
    },
    {
      "auxiliary_loss_clip": 0.01159848,
      "auxiliary_loss_mlp": 0.01025891,
      "balance_loss_clip": 1.04489732,
      "balance_loss_mlp": 1.01827979,
      "epoch": 0.6360848914807912,
      "flos": 20887442069760.0,
      "grad_norm": 1.8944943497707252,
      "language_loss": 0.84332776,
      "learning_rate": 1.2355328208934301e-06,
      "loss": 0.86518526,
      "num_input_tokens_seen": 113863470,
      "step": 5290,
      "time_per_iteration": 2.700270414352417
    },
    {
      "auxiliary_loss_clip": 0.01168053,
      "auxiliary_loss_mlp": 0.00886629,
      "balance_loss_clip": 1.04690433,
      "balance_loss_mlp": 1.00061214,
      "epoch": 0.6362051343714303,
      "flos": 18479775386880.0,
      "grad_norm": 1.6717537791186707,
      "language_loss": 0.7257151,
      "learning_rate": 1.2348130578881728e-06,
      "loss": 0.74626189,
      "num_input_tokens_seen": 113881690,
      "step": 5291,
      "time_per_iteration": 2.675672769546509
    },
    {
      "auxiliary_loss_clip": 0.01180861,
      "auxiliary_loss_mlp": 0.01029286,
      "balance_loss_clip": 1.05143642,
      "balance_loss_mlp": 1.02094734,
      "epoch": 0.6363253772620694,
      "flos": 24389594115840.0,
      "grad_norm": 2.1442379533675746,
      "language_loss": 0.76358992,
      "learning_rate": 1.2340934109611664e-06,
      "loss": 0.78569138,
      "num_input_tokens_seen": 113902450,
      "step": 5292,
      "time_per_iteration": 2.6315274238586426
    },
    {
      "auxiliary_loss_clip": 0.01162296,
      "auxiliary_loss_mlp": 0.01026042,
      "balance_loss_clip": 1.04781711,
      "balance_loss_mlp": 1.01774478,
      "epoch": 0.6364456201527084,
      "flos": 25958243940480.0,
      "grad_norm": 2.245880025129379,
      "language_loss": 0.68691188,
      "learning_rate": 1.2333738802215798e-06,
      "loss": 0.70879531,
      "num_input_tokens_seen": 113922670,
      "step": 5293,
      "time_per_iteration": 2.7401621341705322
    },
    {
      "auxiliary_loss_clip": 0.01133742,
      "auxiliary_loss_mlp": 0.01031931,
      "balance_loss_clip": 1.04204941,
      "balance_loss_mlp": 1.02377129,
      "epoch": 0.6365658630433476,
      "flos": 20740711011840.0,
      "grad_norm": 2.077546832473693,
      "language_loss": 0.80939734,
      "learning_rate": 1.2326544657785668e-06,
      "loss": 0.83105409,
      "num_input_tokens_seen": 113942360,
      "step": 5294,
      "time_per_iteration": 2.826274871826172
    },
    {
      "auxiliary_loss_clip": 0.01140243,
      "auxiliary_loss_mlp": 0.01033737,
      "balance_loss_clip": 1.04501319,
      "balance_loss_mlp": 1.02569604,
      "epoch": 0.6366861059339867,
      "flos": 21434146047360.0,
      "grad_norm": 2.4330703774151687,
      "language_loss": 0.7488997,
      "learning_rate": 1.2319351677412608e-06,
      "loss": 0.77063954,
      "num_input_tokens_seen": 113959405,
      "step": 5295,
      "time_per_iteration": 2.6886281967163086
    },
    {
      "auxiliary_loss_clip": 0.01156436,
      "auxiliary_loss_mlp": 0.01027672,
      "balance_loss_clip": 1.0473361,
      "balance_loss_mlp": 1.02038264,
      "epoch": 0.6368063488246257,
      "flos": 22267093507200.0,
      "grad_norm": 2.123021836724459,
      "language_loss": 0.74149513,
      "learning_rate": 1.2312159862187796e-06,
      "loss": 0.76333624,
      "num_input_tokens_seen": 113977815,
      "step": 5296,
      "time_per_iteration": 2.7180819511413574
    },
    {
      "auxiliary_loss_clip": 0.01180593,
      "auxiliary_loss_mlp": 0.01024449,
      "balance_loss_clip": 1.05210257,
      "balance_loss_mlp": 1.01643252,
      "epoch": 0.6369265917152649,
      "flos": 22420719976320.0,
      "grad_norm": 1.662826946919204,
      "language_loss": 0.75900364,
      "learning_rate": 1.2304969213202217e-06,
      "loss": 0.78105402,
      "num_input_tokens_seen": 113999075,
      "step": 5297,
      "time_per_iteration": 2.5840065479278564
    },
    {
      "auxiliary_loss_clip": 0.01153542,
      "auxiliary_loss_mlp": 0.01028024,
      "balance_loss_clip": 1.046592,
      "balance_loss_mlp": 1.01989436,
      "epoch": 0.6370468346059039,
      "flos": 24718176754560.0,
      "grad_norm": 2.233630122449678,
      "language_loss": 0.79152501,
      "learning_rate": 1.2297779731546692e-06,
      "loss": 0.81334066,
      "num_input_tokens_seen": 114018170,
      "step": 5298,
      "time_per_iteration": 2.700279712677002
    },
    {
      "auxiliary_loss_clip": 0.01155549,
      "auxiliary_loss_mlp": 0.01028499,
      "balance_loss_clip": 1.04988718,
      "balance_loss_mlp": 1.02083397,
      "epoch": 0.637167077496543,
      "flos": 25296589463040.0,
      "grad_norm": 2.039699909230564,
      "language_loss": 0.78212869,
      "learning_rate": 1.2290591418311853e-06,
      "loss": 0.8039692,
      "num_input_tokens_seen": 114035565,
      "step": 5299,
      "time_per_iteration": 2.7041897773742676
    },
    {
      "auxiliary_loss_clip": 0.01167211,
      "auxiliary_loss_mlp": 0.01025303,
      "balance_loss_clip": 1.0497725,
      "balance_loss_mlp": 1.01721442,
      "epoch": 0.637287320387182,
      "flos": 27671110871040.0,
      "grad_norm": 1.7729617206832138,
      "language_loss": 0.71875191,
      "learning_rate": 1.2283404274588172e-06,
      "loss": 0.74067706,
      "num_input_tokens_seen": 114054510,
      "step": 5300,
      "time_per_iteration": 2.783731698989868
    },
    {
      "auxiliary_loss_clip": 0.0102003,
      "auxiliary_loss_mlp": 0.01001415,
      "balance_loss_clip": 1.00866151,
      "balance_loss_mlp": 1.00041342,
      "epoch": 0.6374075632778212,
      "flos": 63173406873600.0,
      "grad_norm": 0.7497948432140674,
      "language_loss": 0.52761918,
      "learning_rate": 1.227621830146592e-06,
      "loss": 0.54783368,
      "num_input_tokens_seen": 114109875,
      "step": 5301,
      "time_per_iteration": 3.2578020095825195
    },
    {
      "auxiliary_loss_clip": 0.01148957,
      "auxiliary_loss_mlp": 0.01033176,
      "balance_loss_clip": 1.04574478,
      "balance_loss_mlp": 1.02533174,
      "epoch": 0.6375278061684603,
      "flos": 25558127366400.0,
      "grad_norm": 1.806728064812836,
      "language_loss": 0.79188156,
      "learning_rate": 1.2269033500035217e-06,
      "loss": 0.81370282,
      "num_input_tokens_seen": 114130010,
      "step": 5302,
      "time_per_iteration": 2.8121719360351562
    },
    {
      "auxiliary_loss_clip": 0.01149596,
      "auxiliary_loss_mlp": 0.01031481,
      "balance_loss_clip": 1.04676044,
      "balance_loss_mlp": 1.02405763,
      "epoch": 0.6376480490590993,
      "flos": 25666362023040.0,
      "grad_norm": 2.6863301039193384,
      "language_loss": 0.73506802,
      "learning_rate": 1.2261849871385988e-06,
      "loss": 0.75687879,
      "num_input_tokens_seen": 114151115,
      "step": 5303,
      "time_per_iteration": 4.05299711227417
    },
    {
      "auxiliary_loss_clip": 0.01177894,
      "auxiliary_loss_mlp": 0.01029099,
      "balance_loss_clip": 1.04945254,
      "balance_loss_mlp": 1.02080202,
      "epoch": 0.6377682919497385,
      "flos": 31537684350720.0,
      "grad_norm": 2.3943274976260867,
      "language_loss": 0.62453842,
      "learning_rate": 1.2254667416607972e-06,
      "loss": 0.64660835,
      "num_input_tokens_seen": 114172715,
      "step": 5304,
      "time_per_iteration": 2.7018115520477295
    },
    {
      "auxiliary_loss_clip": 0.01166413,
      "auxiliary_loss_mlp": 0.0103454,
      "balance_loss_clip": 1.04964113,
      "balance_loss_mlp": 1.0264461,
      "epoch": 0.6378885348403776,
      "flos": 23039209284480.0,
      "grad_norm": 2.4050221092286455,
      "language_loss": 0.82839429,
      "learning_rate": 1.2247486136790756e-06,
      "loss": 0.85040379,
      "num_input_tokens_seen": 114192195,
      "step": 5305,
      "time_per_iteration": 2.6649856567382812
    },
    {
      "auxiliary_loss_clip": 0.01173157,
      "auxiliary_loss_mlp": 0.01034239,
      "balance_loss_clip": 1.05172813,
      "balance_loss_mlp": 1.02680969,
      "epoch": 0.6380087777310166,
      "flos": 18697070712960.0,
      "grad_norm": 2.206253582632107,
      "language_loss": 0.8044256,
      "learning_rate": 1.2240306033023726e-06,
      "loss": 0.82649958,
      "num_input_tokens_seen": 114210020,
      "step": 5306,
      "time_per_iteration": 2.6118476390838623
    },
    {
      "auxiliary_loss_clip": 0.01148176,
      "auxiliary_loss_mlp": 0.01024378,
      "balance_loss_clip": 1.04161036,
      "balance_loss_mlp": 1.01631343,
      "epoch": 0.6381290206216558,
      "flos": 23331558078720.0,
      "grad_norm": 1.7729872798040227,
      "language_loss": 0.72478437,
      "learning_rate": 1.223312710639611e-06,
      "loss": 0.74650991,
      "num_input_tokens_seen": 114228740,
      "step": 5307,
      "time_per_iteration": 2.7297332286834717
    },
    {
      "auxiliary_loss_clip": 0.01157124,
      "auxiliary_loss_mlp": 0.0102752,
      "balance_loss_clip": 1.04910088,
      "balance_loss_mlp": 1.01847851,
      "epoch": 0.6382492635122948,
      "flos": 18880466578560.0,
      "grad_norm": 1.9096093171256316,
      "language_loss": 0.86801791,
      "learning_rate": 1.2225949357996928e-06,
      "loss": 0.88986433,
      "num_input_tokens_seen": 114246865,
      "step": 5308,
      "time_per_iteration": 3.6729471683502197
    },
    {
      "auxiliary_loss_clip": 0.01165447,
      "auxiliary_loss_mlp": 0.01027674,
      "balance_loss_clip": 1.05116212,
      "balance_loss_mlp": 1.01966035,
      "epoch": 0.6383695064029339,
      "flos": 27819134818560.0,
      "grad_norm": 2.4992125012879223,
      "language_loss": 0.80221033,
      "learning_rate": 1.221877278891505e-06,
      "loss": 0.82414156,
      "num_input_tokens_seen": 114266120,
      "step": 5309,
      "time_per_iteration": 2.748269557952881
    },
    {
      "auxiliary_loss_clip": 0.01173293,
      "auxiliary_loss_mlp": 0.01028975,
      "balance_loss_clip": 1.0493722,
      "balance_loss_mlp": 1.02061272,
      "epoch": 0.638489749293573,
      "flos": 26395635853440.0,
      "grad_norm": 2.118270584373032,
      "language_loss": 0.71310091,
      "learning_rate": 1.221159740023915e-06,
      "loss": 0.73512352,
      "num_input_tokens_seen": 114285950,
      "step": 5310,
      "time_per_iteration": 2.6932764053344727
    },
    {
      "auxiliary_loss_clip": 0.01157855,
      "auxiliary_loss_mlp": 0.00886946,
      "balance_loss_clip": 1.04777455,
      "balance_loss_mlp": 1.00076056,
      "epoch": 0.6386099921842121,
      "flos": 23988328306560.0,
      "grad_norm": 2.769631597687719,
      "language_loss": 0.72801185,
      "learning_rate": 1.2204423193057735e-06,
      "loss": 0.74845982,
      "num_input_tokens_seen": 114304780,
      "step": 5311,
      "time_per_iteration": 3.554685592651367
    },
    {
      "auxiliary_loss_clip": 0.01058454,
      "auxiliary_loss_mlp": 0.0100201,
      "balance_loss_clip": 1.01094317,
      "balance_loss_mlp": 1.00091922,
      "epoch": 0.6387302350748512,
      "flos": 71731169337600.0,
      "grad_norm": 1.0016397512190232,
      "language_loss": 0.63305044,
      "learning_rate": 1.2197250168459122e-06,
      "loss": 0.65365505,
      "num_input_tokens_seen": 114361180,
      "step": 5312,
      "time_per_iteration": 3.2999534606933594
    },
    {
      "auxiliary_loss_clip": 0.01169987,
      "auxiliary_loss_mlp": 0.01029807,
      "balance_loss_clip": 1.04904687,
      "balance_loss_mlp": 1.02190924,
      "epoch": 0.6388504779654903,
      "flos": 14535778141440.0,
      "grad_norm": 2.112571396186232,
      "language_loss": 0.74695331,
      "learning_rate": 1.2190078327531454e-06,
      "loss": 0.7689513,
      "num_input_tokens_seen": 114377425,
      "step": 5313,
      "time_per_iteration": 2.6459734439849854
    },
    {
      "auxiliary_loss_clip": 0.01166679,
      "auxiliary_loss_mlp": 0.01026718,
      "balance_loss_clip": 1.04681635,
      "balance_loss_mlp": 1.01885056,
      "epoch": 0.6389707208561294,
      "flos": 22346133384960.0,
      "grad_norm": 1.8158672353546297,
      "language_loss": 0.73130822,
      "learning_rate": 1.2182907671362697e-06,
      "loss": 0.75324225,
      "num_input_tokens_seen": 114398120,
      "step": 5314,
      "time_per_iteration": 2.6261026859283447
    },
    {
      "auxiliary_loss_clip": 0.01166198,
      "auxiliary_loss_mlp": 0.0102378,
      "balance_loss_clip": 1.05027401,
      "balance_loss_mlp": 1.01615369,
      "epoch": 0.6390909637467684,
      "flos": 19426883247360.0,
      "grad_norm": 2.341315484225066,
      "language_loss": 0.78825611,
      "learning_rate": 1.2175738201040626e-06,
      "loss": 0.81015587,
      "num_input_tokens_seen": 114415160,
      "step": 5315,
      "time_per_iteration": 3.5871474742889404
    },
    {
      "auxiliary_loss_clip": 0.0116898,
      "auxiliary_loss_mlp": 0.0103395,
      "balance_loss_clip": 1.04991841,
      "balance_loss_mlp": 1.02538443,
      "epoch": 0.6392112066374076,
      "flos": 24090852700800.0,
      "grad_norm": 2.4339230044840368,
      "language_loss": 0.78786075,
      "learning_rate": 1.2168569917652855e-06,
      "loss": 0.80989009,
      "num_input_tokens_seen": 114435015,
      "step": 5316,
      "time_per_iteration": 2.62518048286438
    },
    {
      "auxiliary_loss_clip": 0.01168065,
      "auxiliary_loss_mlp": 0.01028696,
      "balance_loss_clip": 1.05017996,
      "balance_loss_mlp": 1.02061021,
      "epoch": 0.6393314495280467,
      "flos": 26795141896320.0,
      "grad_norm": 1.571371656338514,
      "language_loss": 0.63929802,
      "learning_rate": 1.2161402822286797e-06,
      "loss": 0.66126561,
      "num_input_tokens_seen": 114455700,
      "step": 5317,
      "time_per_iteration": 2.673657178878784
    },
    {
      "auxiliary_loss_clip": 0.01148703,
      "auxiliary_loss_mlp": 0.0102572,
      "balance_loss_clip": 1.04633951,
      "balance_loss_mlp": 1.01790619,
      "epoch": 0.6394516924186857,
      "flos": 20260692633600.0,
      "grad_norm": 2.427043625137331,
      "language_loss": 0.78860468,
      "learning_rate": 1.2154236916029703e-06,
      "loss": 0.81034893,
      "num_input_tokens_seen": 114473675,
      "step": 5318,
      "time_per_iteration": 2.7037270069122314
    },
    {
      "auxiliary_loss_clip": 0.01137293,
      "auxiliary_loss_mlp": 0.01027332,
      "balance_loss_clip": 1.03994513,
      "balance_loss_mlp": 1.01953006,
      "epoch": 0.6395719353093249,
      "flos": 18368847210240.0,
      "grad_norm": 2.1410792711404305,
      "language_loss": 0.74073988,
      "learning_rate": 1.2147072199968627e-06,
      "loss": 0.76238608,
      "num_input_tokens_seen": 114492310,
      "step": 5319,
      "time_per_iteration": 2.702239990234375
    },
    {
      "auxiliary_loss_clip": 0.0116467,
      "auxiliary_loss_mlp": 0.01025728,
      "balance_loss_clip": 1.04924941,
      "balance_loss_mlp": 1.01828361,
      "epoch": 0.6396921781999639,
      "flos": 17566315591680.0,
      "grad_norm": 1.760553617606011,
      "language_loss": 0.72144985,
      "learning_rate": 1.2139908675190454e-06,
      "loss": 0.74335384,
      "num_input_tokens_seen": 114511520,
      "step": 5320,
      "time_per_iteration": 2.6353421211242676
    },
    {
      "auxiliary_loss_clip": 0.01117628,
      "auxiliary_loss_mlp": 0.01029037,
      "balance_loss_clip": 1.03945541,
      "balance_loss_mlp": 1.02065611,
      "epoch": 0.639812421090603,
      "flos": 21251252972160.0,
      "grad_norm": 2.5818287002033657,
      "language_loss": 0.74937302,
      "learning_rate": 1.2132746342781883e-06,
      "loss": 0.77083963,
      "num_input_tokens_seen": 114532680,
      "step": 5321,
      "time_per_iteration": 2.9039719104766846
    },
    {
      "auxiliary_loss_clip": 0.01176777,
      "auxiliary_loss_mlp": 0.01035388,
      "balance_loss_clip": 1.04960704,
      "balance_loss_mlp": 1.0272398,
      "epoch": 0.6399326639812422,
      "flos": 11180967684480.0,
      "grad_norm": 2.309988863186415,
      "language_loss": 0.79594147,
      "learning_rate": 1.2125585203829442e-06,
      "loss": 0.81806314,
      "num_input_tokens_seen": 114548320,
      "step": 5322,
      "time_per_iteration": 2.794004201889038
    },
    {
      "auxiliary_loss_clip": 0.01136928,
      "auxiliary_loss_mlp": 0.01028544,
      "balance_loss_clip": 1.04584408,
      "balance_loss_mlp": 1.02073038,
      "epoch": 0.6400529068718812,
      "flos": 23911048195200.0,
      "grad_norm": 1.8073165184032232,
      "language_loss": 0.74261278,
      "learning_rate": 1.211842525941946e-06,
      "loss": 0.76426744,
      "num_input_tokens_seen": 114568115,
      "step": 5323,
      "time_per_iteration": 2.7250726222991943
    },
    {
      "auxiliary_loss_clip": 0.01134916,
      "auxiliary_loss_mlp": 0.01023929,
      "balance_loss_clip": 1.04571652,
      "balance_loss_mlp": 1.01626372,
      "epoch": 0.6401731497625203,
      "flos": 44018724890880.0,
      "grad_norm": 1.7962276193697513,
      "language_loss": 0.78879309,
      "learning_rate": 1.2111266510638105e-06,
      "loss": 0.81038153,
      "num_input_tokens_seen": 114591040,
      "step": 5324,
      "time_per_iteration": 2.969031572341919
    },
    {
      "auxiliary_loss_clip": 0.01121747,
      "auxiliary_loss_mlp": 0.01027863,
      "balance_loss_clip": 1.04116213,
      "balance_loss_mlp": 1.02026892,
      "epoch": 0.6402933926531594,
      "flos": 20662209838080.0,
      "grad_norm": 1.7074555026369767,
      "language_loss": 0.8015328,
      "learning_rate": 1.2104108958571346e-06,
      "loss": 0.82302886,
      "num_input_tokens_seen": 114609310,
      "step": 5325,
      "time_per_iteration": 2.774096965789795
    },
    {
      "auxiliary_loss_clip": 0.01162691,
      "auxiliary_loss_mlp": 0.01028232,
      "balance_loss_clip": 1.04871631,
      "balance_loss_mlp": 1.0206027,
      "epoch": 0.6404136355437985,
      "flos": 24863327614080.0,
      "grad_norm": 1.4263583410844722,
      "language_loss": 0.75628042,
      "learning_rate": 1.2096952604304975e-06,
      "loss": 0.77818966,
      "num_input_tokens_seen": 114629740,
      "step": 5326,
      "time_per_iteration": 2.722132921218872
    },
    {
      "auxiliary_loss_clip": 0.01169785,
      "auxiliary_loss_mlp": 0.01024707,
      "balance_loss_clip": 1.04783499,
      "balance_loss_mlp": 1.01661253,
      "epoch": 0.6405338784344375,
      "flos": 40479548901120.0,
      "grad_norm": 1.883123831598037,
      "language_loss": 0.70091873,
      "learning_rate": 1.2089797448924616e-06,
      "loss": 0.72286367,
      "num_input_tokens_seen": 114653615,
      "step": 5327,
      "time_per_iteration": 2.8373732566833496
    },
    {
      "auxiliary_loss_clip": 0.01142104,
      "auxiliary_loss_mlp": 0.01029039,
      "balance_loss_clip": 1.04124761,
      "balance_loss_mlp": 1.0209806,
      "epoch": 0.6406541213250767,
      "flos": 20886041439360.0,
      "grad_norm": 2.0159491062484727,
      "language_loss": 0.65591824,
      "learning_rate": 1.2082643493515692e-06,
      "loss": 0.67762965,
      "num_input_tokens_seen": 114671935,
      "step": 5328,
      "time_per_iteration": 2.700897216796875
    },
    {
      "auxiliary_loss_clip": 0.01168522,
      "auxiliary_loss_mlp": 0.0102581,
      "balance_loss_clip": 1.04967666,
      "balance_loss_mlp": 1.01840985,
      "epoch": 0.6407743642157158,
      "flos": 23295970679040.0,
      "grad_norm": 1.7912428634954287,
      "language_loss": 0.81851935,
      "learning_rate": 1.207549073916346e-06,
      "loss": 0.84046268,
      "num_input_tokens_seen": 114692870,
      "step": 5329,
      "time_per_iteration": 3.7485294342041016
    },
    {
      "auxiliary_loss_clip": 0.01148788,
      "auxiliary_loss_mlp": 0.01029449,
      "balance_loss_clip": 1.04697537,
      "balance_loss_mlp": 1.02142644,
      "epoch": 0.6408946071063548,
      "flos": 15012636122880.0,
      "grad_norm": 2.0658062862931583,
      "language_loss": 0.77984202,
      "learning_rate": 1.2068339186952976e-06,
      "loss": 0.80162442,
      "num_input_tokens_seen": 114710410,
      "step": 5330,
      "time_per_iteration": 2.6121938228607178
    },
    {
      "auxiliary_loss_clip": 0.011709,
      "auxiliary_loss_mlp": 0.01027021,
      "balance_loss_clip": 1.0494628,
      "balance_loss_mlp": 1.01887882,
      "epoch": 0.6410148499969939,
      "flos": 22528595496960.0,
      "grad_norm": 2.0260720696231806,
      "language_loss": 0.73263788,
      "learning_rate": 1.2061188837969136e-06,
      "loss": 0.75461709,
      "num_input_tokens_seen": 114730020,
      "step": 5331,
      "time_per_iteration": 2.6476712226867676
    },
    {
      "auxiliary_loss_clip": 0.01140828,
      "auxiliary_loss_mlp": 0.01025986,
      "balance_loss_clip": 1.04022074,
      "balance_loss_mlp": 1.01692653,
      "epoch": 0.641135092887633,
      "flos": 12422004537600.0,
      "grad_norm": 3.24675580659655,
      "language_loss": 0.83918273,
      "learning_rate": 1.2054039693296631e-06,
      "loss": 0.86085093,
      "num_input_tokens_seen": 114748015,
      "step": 5332,
      "time_per_iteration": 2.6490767002105713
    },
    {
      "auxiliary_loss_clip": 0.01139943,
      "auxiliary_loss_mlp": 0.01024833,
      "balance_loss_clip": 1.0414747,
      "balance_loss_mlp": 1.01741827,
      "epoch": 0.6412553357782721,
      "flos": 22127329687680.0,
      "grad_norm": 2.0682362919578563,
      "language_loss": 0.81710142,
      "learning_rate": 1.2046891754019992e-06,
      "loss": 0.83874923,
      "num_input_tokens_seen": 114768625,
      "step": 5333,
      "time_per_iteration": 3.5758962631225586
    },
    {
      "auxiliary_loss_clip": 0.01168851,
      "auxiliary_loss_mlp": 0.01022941,
      "balance_loss_clip": 1.04909575,
      "balance_loss_mlp": 1.01567531,
      "epoch": 0.6413755786689112,
      "flos": 15888605097600.0,
      "grad_norm": 1.8446939547228625,
      "language_loss": 0.8267324,
      "learning_rate": 1.2039745021223548e-06,
      "loss": 0.84865034,
      "num_input_tokens_seen": 114786045,
      "step": 5334,
      "time_per_iteration": 2.6298649311065674
    },
    {
      "auxiliary_loss_clip": 0.01040194,
      "auxiliary_loss_mlp": 0.01001028,
      "balance_loss_clip": 1.00954437,
      "balance_loss_mlp": 0.99986547,
      "epoch": 0.6414958215595503,
      "flos": 68039159955840.0,
      "grad_norm": 0.7854742324469435,
      "language_loss": 0.57028556,
      "learning_rate": 1.2032599495991456e-06,
      "loss": 0.59069788,
      "num_input_tokens_seen": 114850785,
      "step": 5335,
      "time_per_iteration": 3.383140802383423
    },
    {
      "auxiliary_loss_clip": 0.01165793,
      "auxiliary_loss_mlp": 0.0102638,
      "balance_loss_clip": 1.04869366,
      "balance_loss_mlp": 1.01813626,
      "epoch": 0.6416160644501894,
      "flos": 44091300320640.0,
      "grad_norm": 2.1875361217212665,
      "language_loss": 0.69438565,
      "learning_rate": 1.2025455179407685e-06,
      "loss": 0.7163074,
      "num_input_tokens_seen": 114871945,
      "step": 5336,
      "time_per_iteration": 3.7647571563720703
    },
    {
      "auxiliary_loss_clip": 0.01164065,
      "auxiliary_loss_mlp": 0.00887022,
      "balance_loss_clip": 1.04884386,
      "balance_loss_mlp": 1.00070405,
      "epoch": 0.6417363073408284,
      "flos": 20959837931520.0,
      "grad_norm": 2.0056684891729453,
      "language_loss": 0.73716044,
      "learning_rate": 1.2018312072556022e-06,
      "loss": 0.75767124,
      "num_input_tokens_seen": 114890445,
      "step": 5337,
      "time_per_iteration": 2.661221742630005
    },
    {
      "auxiliary_loss_clip": 0.01172992,
      "auxiliary_loss_mlp": 0.00886651,
      "balance_loss_clip": 1.04730141,
      "balance_loss_mlp": 1.00067759,
      "epoch": 0.6418565502314676,
      "flos": 22455122227200.0,
      "grad_norm": 1.7260221349245854,
      "language_loss": 0.74291748,
      "learning_rate": 1.2011170176520077e-06,
      "loss": 0.76351392,
      "num_input_tokens_seen": 114911360,
      "step": 5338,
      "time_per_iteration": 2.596245765686035
    },
    {
      "auxiliary_loss_clip": 0.01107763,
      "auxiliary_loss_mlp": 0.01025333,
      "balance_loss_clip": 1.03789759,
      "balance_loss_mlp": 1.01756001,
      "epoch": 0.6419767931221066,
      "flos": 25045502417280.0,
      "grad_norm": 1.5275789849355212,
      "language_loss": 0.81265062,
      "learning_rate": 1.2004029492383256e-06,
      "loss": 0.83398163,
      "num_input_tokens_seen": 114932700,
      "step": 5339,
      "time_per_iteration": 2.833192825317383
    },
    {
      "auxiliary_loss_clip": 0.01166087,
      "auxiliary_loss_mlp": 0.01027755,
      "balance_loss_clip": 1.04977202,
      "balance_loss_mlp": 1.02008069,
      "epoch": 0.6420970360127457,
      "flos": 19463691709440.0,
      "grad_norm": 1.934828531929087,
      "language_loss": 0.73262537,
      "learning_rate": 1.1996890021228814e-06,
      "loss": 0.75456381,
      "num_input_tokens_seen": 114949475,
      "step": 5340,
      "time_per_iteration": 3.729665994644165
    },
    {
      "auxiliary_loss_clip": 0.0115368,
      "auxiliary_loss_mlp": 0.01022983,
      "balance_loss_clip": 1.04554081,
      "balance_loss_mlp": 1.01469815,
      "epoch": 0.6422172789033849,
      "flos": 40406147458560.0,
      "grad_norm": 1.9068376193267371,
      "language_loss": 0.69782382,
      "learning_rate": 1.1989751764139785e-06,
      "loss": 0.71959043,
      "num_input_tokens_seen": 114973125,
      "step": 5341,
      "time_per_iteration": 2.9563100337982178
    },
    {
      "auxiliary_loss_clip": 0.01132953,
      "auxiliary_loss_mlp": 0.01024369,
      "balance_loss_clip": 1.03773665,
      "balance_loss_mlp": 1.01656044,
      "epoch": 0.6423375217940239,
      "flos": 27672870637440.0,
      "grad_norm": 1.9525482322492451,
      "language_loss": 0.83018255,
      "learning_rate": 1.1982614722199044e-06,
      "loss": 0.85175574,
      "num_input_tokens_seen": 114994300,
      "step": 5342,
      "time_per_iteration": 2.8379690647125244
    },
    {
      "auxiliary_loss_clip": 0.01158522,
      "auxiliary_loss_mlp": 0.01029613,
      "balance_loss_clip": 1.04435468,
      "balance_loss_mlp": 1.02170396,
      "epoch": 0.642457764684663,
      "flos": 18369242259840.0,
      "grad_norm": 1.9677412475567886,
      "language_loss": 0.78010464,
      "learning_rate": 1.1975478896489276e-06,
      "loss": 0.80198598,
      "num_input_tokens_seen": 115012135,
      "step": 5343,
      "time_per_iteration": 2.646458148956299
    },
    {
      "auxiliary_loss_clip": 0.01170864,
      "auxiliary_loss_mlp": 0.01027732,
      "balance_loss_clip": 1.04625177,
      "balance_loss_mlp": 1.01992333,
      "epoch": 0.6425780075753021,
      "flos": 19750509809280.0,
      "grad_norm": 2.638013651851258,
      "language_loss": 0.76486117,
      "learning_rate": 1.1968344288092981e-06,
      "loss": 0.78684711,
      "num_input_tokens_seen": 115028715,
      "step": 5344,
      "time_per_iteration": 2.605114698410034
    },
    {
      "auxiliary_loss_clip": 0.01167145,
      "auxiliary_loss_mlp": 0.0088708,
      "balance_loss_clip": 1.04884291,
      "balance_loss_mlp": 1.00077748,
      "epoch": 0.6426982504659412,
      "flos": 20558536208640.0,
      "grad_norm": 2.044417396642025,
      "language_loss": 0.64908272,
      "learning_rate": 1.1961210898092468e-06,
      "loss": 0.66962492,
      "num_input_tokens_seen": 115047665,
      "step": 5345,
      "time_per_iteration": 2.682559013366699
    },
    {
      "auxiliary_loss_clip": 0.01160679,
      "auxiliary_loss_mlp": 0.01030475,
      "balance_loss_clip": 1.04662371,
      "balance_loss_mlp": 1.02259517,
      "epoch": 0.6428184933565803,
      "flos": 17851984456320.0,
      "grad_norm": 2.022110863099614,
      "language_loss": 0.79247177,
      "learning_rate": 1.1954078727569874e-06,
      "loss": 0.81438327,
      "num_input_tokens_seen": 115064965,
      "step": 5346,
      "time_per_iteration": 2.681793689727783
    },
    {
      "auxiliary_loss_clip": 0.01153017,
      "auxiliary_loss_mlp": 0.00886708,
      "balance_loss_clip": 1.04548967,
      "balance_loss_mlp": 1.0006839,
      "epoch": 0.6429387362472194,
      "flos": 22456953820800.0,
      "grad_norm": 1.7425937328347731,
      "language_loss": 0.77687466,
      "learning_rate": 1.1946947777607141e-06,
      "loss": 0.79727191,
      "num_input_tokens_seen": 115086100,
      "step": 5347,
      "time_per_iteration": 2.7212440967559814
    },
    {
      "auxiliary_loss_clip": 0.01129113,
      "auxiliary_loss_mlp": 0.01029457,
      "balance_loss_clip": 1.04236364,
      "balance_loss_mlp": 1.02141583,
      "epoch": 0.6430589791378585,
      "flos": 24752579005440.0,
      "grad_norm": 2.1996220630576553,
      "language_loss": 0.80430615,
      "learning_rate": 1.1939818049286024e-06,
      "loss": 0.82589185,
      "num_input_tokens_seen": 115104260,
      "step": 5348,
      "time_per_iteration": 2.771045446395874
    },
    {
      "auxiliary_loss_clip": 0.01115515,
      "auxiliary_loss_mlp": 0.01032645,
      "balance_loss_clip": 1.03984141,
      "balance_loss_mlp": 1.02429414,
      "epoch": 0.6431792220284975,
      "flos": 24901249397760.0,
      "grad_norm": 1.6279825975960847,
      "language_loss": 0.7587052,
      "learning_rate": 1.1932689543688101e-06,
      "loss": 0.78018683,
      "num_input_tokens_seen": 115125365,
      "step": 5349,
      "time_per_iteration": 2.793858766555786
    },
    {
      "auxiliary_loss_clip": 0.01155537,
      "auxiliary_loss_mlp": 0.01029848,
      "balance_loss_clip": 1.04824352,
      "balance_loss_mlp": 1.0214076,
      "epoch": 0.6432994649191367,
      "flos": 21032305620480.0,
      "grad_norm": 1.9859707799139958,
      "language_loss": 0.72786921,
      "learning_rate": 1.1925562261894756e-06,
      "loss": 0.74972308,
      "num_input_tokens_seen": 115144445,
      "step": 5350,
      "time_per_iteration": 2.6987249851226807
    },
    {
      "auxiliary_loss_clip": 0.01151731,
      "auxiliary_loss_mlp": 0.01023921,
      "balance_loss_clip": 1.04531014,
      "balance_loss_mlp": 1.01610124,
      "epoch": 0.6434197078097758,
      "flos": 30884433655680.0,
      "grad_norm": 1.7802848688714488,
      "language_loss": 0.77369642,
      "learning_rate": 1.1918436204987207e-06,
      "loss": 0.79545295,
      "num_input_tokens_seen": 115166305,
      "step": 5351,
      "time_per_iteration": 2.722055673599243
    },
    {
      "auxiliary_loss_clip": 0.01159862,
      "auxiliary_loss_mlp": 0.01026904,
      "balance_loss_clip": 1.04655159,
      "balance_loss_mlp": 1.01959014,
      "epoch": 0.6435399507004148,
      "flos": 15012492468480.0,
      "grad_norm": 2.2252019044295075,
      "language_loss": 0.8179822,
      "learning_rate": 1.191131137404645e-06,
      "loss": 0.83984989,
      "num_input_tokens_seen": 115183045,
      "step": 5352,
      "time_per_iteration": 2.6515445709228516
    },
    {
      "auxiliary_loss_clip": 0.011368,
      "auxiliary_loss_mlp": 0.01030283,
      "balance_loss_clip": 1.04423499,
      "balance_loss_mlp": 1.02220619,
      "epoch": 0.643660193591054,
      "flos": 19901981462400.0,
      "grad_norm": 2.601475602463879,
      "language_loss": 0.7696954,
      "learning_rate": 1.190418777015333e-06,
      "loss": 0.79136622,
      "num_input_tokens_seen": 115201955,
      "step": 5353,
      "time_per_iteration": 2.810514450073242
    },
    {
      "auxiliary_loss_clip": 0.01155961,
      "auxiliary_loss_mlp": 0.01022928,
      "balance_loss_clip": 1.04740691,
      "balance_loss_mlp": 1.0150187,
      "epoch": 0.643780436481693,
      "flos": 24133622820480.0,
      "grad_norm": 1.5459170442989616,
      "language_loss": 0.73607582,
      "learning_rate": 1.1897065394388487e-06,
      "loss": 0.75786471,
      "num_input_tokens_seen": 115222395,
      "step": 5354,
      "time_per_iteration": 2.715954542160034
    },
    {
      "auxiliary_loss_clip": 0.01157616,
      "auxiliary_loss_mlp": 0.01030046,
      "balance_loss_clip": 1.0516367,
      "balance_loss_mlp": 1.02157664,
      "epoch": 0.6439006793723321,
      "flos": 23148808657920.0,
      "grad_norm": 2.3052411061629403,
      "language_loss": 0.76583809,
      "learning_rate": 1.1889944247832385e-06,
      "loss": 0.78771472,
      "num_input_tokens_seen": 115242635,
      "step": 5355,
      "time_per_iteration": 3.709831714630127
    },
    {
      "auxiliary_loss_clip": 0.01167125,
      "auxiliary_loss_mlp": 0.01032615,
      "balance_loss_clip": 1.04556084,
      "balance_loss_mlp": 1.02480102,
      "epoch": 0.6440209222629713,
      "flos": 23617909301760.0,
      "grad_norm": 2.626738624020173,
      "language_loss": 0.70462912,
      "learning_rate": 1.1882824331565283e-06,
      "loss": 0.72662652,
      "num_input_tokens_seen": 115262095,
      "step": 5356,
      "time_per_iteration": 2.6810379028320312
    },
    {
      "auxiliary_loss_clip": 0.01140225,
      "auxiliary_loss_mlp": 0.01025608,
      "balance_loss_clip": 1.04156399,
      "balance_loss_mlp": 1.01811528,
      "epoch": 0.6441411651536103,
      "flos": 16544872535040.0,
      "grad_norm": 2.83808853170867,
      "language_loss": 0.8935554,
      "learning_rate": 1.1875705646667287e-06,
      "loss": 0.91521376,
      "num_input_tokens_seen": 115279985,
      "step": 5357,
      "time_per_iteration": 2.6825597286224365
    },
    {
      "auxiliary_loss_clip": 0.01159223,
      "auxiliary_loss_mlp": 0.01028494,
      "balance_loss_clip": 1.04335093,
      "balance_loss_mlp": 1.02033973,
      "epoch": 0.6442614080442494,
      "flos": 25410965345280.0,
      "grad_norm": 1.8276834774526223,
      "language_loss": 0.75404269,
      "learning_rate": 1.1868588194218282e-06,
      "loss": 0.77591985,
      "num_input_tokens_seen": 115300365,
      "step": 5358,
      "time_per_iteration": 2.7162837982177734
    },
    {
      "auxiliary_loss_clip": 0.01159083,
      "auxiliary_loss_mlp": 0.01030429,
      "balance_loss_clip": 1.04357934,
      "balance_loss_mlp": 1.02303851,
      "epoch": 0.6443816509348885,
      "flos": 28294017552000.0,
      "grad_norm": 1.6093690440856279,
      "language_loss": 0.74052131,
      "learning_rate": 1.1861471975297979e-06,
      "loss": 0.76241648,
      "num_input_tokens_seen": 115322060,
      "step": 5359,
      "time_per_iteration": 3.71840238571167
    },
    {
      "auxiliary_loss_clip": 0.01141932,
      "auxiliary_loss_mlp": 0.01024447,
      "balance_loss_clip": 1.04602373,
      "balance_loss_mlp": 1.01617992,
      "epoch": 0.6445018938255276,
      "flos": 36690075964800.0,
      "grad_norm": 1.7878140223234076,
      "language_loss": 0.708969,
      "learning_rate": 1.185435699098591e-06,
      "loss": 0.73063272,
      "num_input_tokens_seen": 115348255,
      "step": 5360,
      "time_per_iteration": 2.892103672027588
    },
    {
      "auxiliary_loss_clip": 0.01160287,
      "auxiliary_loss_mlp": 0.01029741,
      "balance_loss_clip": 1.04626393,
      "balance_loss_mlp": 1.0214026,
      "epoch": 0.6446221367161666,
      "flos": 14501411804160.0,
      "grad_norm": 2.204821408924487,
      "language_loss": 0.78164339,
      "learning_rate": 1.1847243242361403e-06,
      "loss": 0.80354369,
      "num_input_tokens_seen": 115366845,
      "step": 5361,
      "time_per_iteration": 2.6433794498443604
    },
    {
      "auxiliary_loss_clip": 0.01156671,
      "auxiliary_loss_mlp": 0.01024622,
      "balance_loss_clip": 1.04472733,
      "balance_loss_mlp": 1.01655507,
      "epoch": 0.6447423796068057,
      "flos": 24609367480320.0,
      "grad_norm": 1.6264007408456227,
      "language_loss": 0.77773076,
      "learning_rate": 1.1840130730503624e-06,
      "loss": 0.79954374,
      "num_input_tokens_seen": 115388125,
      "step": 5362,
      "time_per_iteration": 3.5929877758026123
    },
    {
      "auxiliary_loss_clip": 0.01174936,
      "auxiliary_loss_mlp": 0.01022452,
      "balance_loss_clip": 1.04895186,
      "balance_loss_mlp": 1.01431024,
      "epoch": 0.6448626224974449,
      "flos": 25047298097280.0,
      "grad_norm": 2.08543039251515,
      "language_loss": 0.74995971,
      "learning_rate": 1.1833019456491518e-06,
      "loss": 0.77193356,
      "num_input_tokens_seen": 115409655,
      "step": 5363,
      "time_per_iteration": 2.643777847290039
    },
    {
      "auxiliary_loss_clip": 0.01165374,
      "auxiliary_loss_mlp": 0.01032425,
      "balance_loss_clip": 1.04836488,
      "balance_loss_mlp": 1.02480125,
      "epoch": 0.6449828653880839,
      "flos": 22530355263360.0,
      "grad_norm": 2.090276998185701,
      "language_loss": 0.78976023,
      "learning_rate": 1.1825909421403871e-06,
      "loss": 0.81173825,
      "num_input_tokens_seen": 115428750,
      "step": 5364,
      "time_per_iteration": 2.6975629329681396
    },
    {
      "auxiliary_loss_clip": 0.01165838,
      "auxiliary_loss_mlp": 0.01026443,
      "balance_loss_clip": 1.04691458,
      "balance_loss_mlp": 1.0186348,
      "epoch": 0.645103108278723,
      "flos": 25695736369920.0,
      "grad_norm": 1.926434774283075,
      "language_loss": 0.76567125,
      "learning_rate": 1.181880062631926e-06,
      "loss": 0.78759408,
      "num_input_tokens_seen": 115448085,
      "step": 5365,
      "time_per_iteration": 2.6780014038085938
    },
    {
      "auxiliary_loss_clip": 0.01152074,
      "auxiliary_loss_mlp": 0.01026594,
      "balance_loss_clip": 1.04796863,
      "balance_loss_mlp": 1.01836896,
      "epoch": 0.6452233511693621,
      "flos": 27450331925760.0,
      "grad_norm": 2.202004072761841,
      "language_loss": 0.84619141,
      "learning_rate": 1.1811693072316093e-06,
      "loss": 0.8679781,
      "num_input_tokens_seen": 115465765,
      "step": 5366,
      "time_per_iteration": 3.707902669906616
    },
    {
      "auxiliary_loss_clip": 0.01173825,
      "auxiliary_loss_mlp": 0.00886975,
      "balance_loss_clip": 1.04734123,
      "balance_loss_mlp": 1.00064635,
      "epoch": 0.6453435940600012,
      "flos": 19208618254080.0,
      "grad_norm": 2.394310658662854,
      "language_loss": 0.84053493,
      "learning_rate": 1.1804586760472574e-06,
      "loss": 0.86114299,
      "num_input_tokens_seen": 115482230,
      "step": 5367,
      "time_per_iteration": 2.600522518157959
    },
    {
      "auxiliary_loss_clip": 0.01144378,
      "auxiliary_loss_mlp": 0.01025599,
      "balance_loss_clip": 1.04470468,
      "balance_loss_mlp": 1.01815438,
      "epoch": 0.6454638369506402,
      "flos": 25737680476800.0,
      "grad_norm": 3.976902842385581,
      "language_loss": 0.79967475,
      "learning_rate": 1.1797481691866736e-06,
      "loss": 0.8213746,
      "num_input_tokens_seen": 115499455,
      "step": 5368,
      "time_per_iteration": 2.7678117752075195
    },
    {
      "auxiliary_loss_clip": 0.0114803,
      "auxiliary_loss_mlp": 0.01027336,
      "balance_loss_clip": 1.04674256,
      "balance_loss_mlp": 1.01979589,
      "epoch": 0.6455840798412794,
      "flos": 20989176364800.0,
      "grad_norm": 2.2398061386919235,
      "language_loss": 0.83187854,
      "learning_rate": 1.1790377867576393e-06,
      "loss": 0.85363221,
      "num_input_tokens_seen": 115517205,
      "step": 5369,
      "time_per_iteration": 2.7609453201293945
    },
    {
      "auxiliary_loss_clip": 0.01158284,
      "auxiliary_loss_mlp": 0.01026947,
      "balance_loss_clip": 1.0450995,
      "balance_loss_mlp": 1.01952624,
      "epoch": 0.6457043227319185,
      "flos": 26067556005120.0,
      "grad_norm": 1.825115968476334,
      "language_loss": 0.76798052,
      "learning_rate": 1.1783275288679203e-06,
      "loss": 0.78983283,
      "num_input_tokens_seen": 115534370,
      "step": 5370,
      "time_per_iteration": 2.7604219913482666
    },
    {
      "auxiliary_loss_clip": 0.01065044,
      "auxiliary_loss_mlp": 0.01001177,
      "balance_loss_clip": 1.01030827,
      "balance_loss_mlp": 1.00001514,
      "epoch": 0.6458245656225575,
      "flos": 60370831088640.0,
      "grad_norm": 0.842015551458284,
      "language_loss": 0.57136989,
      "learning_rate": 1.177617395625262e-06,
      "loss": 0.59203207,
      "num_input_tokens_seen": 115592345,
      "step": 5371,
      "time_per_iteration": 3.169463634490967
    },
    {
      "auxiliary_loss_clip": 0.01164784,
      "auxiliary_loss_mlp": 0.01024501,
      "balance_loss_clip": 1.04748392,
      "balance_loss_mlp": 1.01694894,
      "epoch": 0.6459448085131967,
      "flos": 23076771932160.0,
      "grad_norm": 2.046093677209309,
      "language_loss": 0.75753945,
      "learning_rate": 1.1769073871373908e-06,
      "loss": 0.7794323,
      "num_input_tokens_seen": 115612550,
      "step": 5372,
      "time_per_iteration": 2.655935049057007
    },
    {
      "auxiliary_loss_clip": 0.01143227,
      "auxiliary_loss_mlp": 0.01024612,
      "balance_loss_clip": 1.04242468,
      "balance_loss_mlp": 1.01646972,
      "epoch": 0.6460650514038357,
      "flos": 22598190097920.0,
      "grad_norm": 1.5930988789810392,
      "language_loss": 0.83715385,
      "learning_rate": 1.176197503512015e-06,
      "loss": 0.85883224,
      "num_input_tokens_seen": 115632265,
      "step": 5373,
      "time_per_iteration": 2.658843755722046
    },
    {
      "auxiliary_loss_clip": 0.01152568,
      "auxiliary_loss_mlp": 0.01026097,
      "balance_loss_clip": 1.0459919,
      "balance_loss_mlp": 1.01846814,
      "epoch": 0.6461852942944748,
      "flos": 20266726118400.0,
      "grad_norm": 2.0492531058064385,
      "language_loss": 0.8209002,
      "learning_rate": 1.1754877448568223e-06,
      "loss": 0.84268689,
      "num_input_tokens_seen": 115651720,
      "step": 5374,
      "time_per_iteration": 2.7450296878814697
    },
    {
      "auxiliary_loss_clip": 0.01156751,
      "auxiliary_loss_mlp": 0.01026456,
      "balance_loss_clip": 1.04711151,
      "balance_loss_mlp": 1.0187428,
      "epoch": 0.646305537185114,
      "flos": 23367109564800.0,
      "grad_norm": 2.125131651506488,
      "language_loss": 0.89900815,
      "learning_rate": 1.1747781112794837e-06,
      "loss": 0.92084026,
      "num_input_tokens_seen": 115668215,
      "step": 5375,
      "time_per_iteration": 2.6668386459350586
    },
    {
      "auxiliary_loss_clip": 0.01143084,
      "auxiliary_loss_mlp": 0.01028134,
      "balance_loss_clip": 1.04457879,
      "balance_loss_mlp": 1.02049828,
      "epoch": 0.646425780075753,
      "flos": 24277480790400.0,
      "grad_norm": 1.7061798287804244,
      "language_loss": 0.83169377,
      "learning_rate": 1.1740686028876487e-06,
      "loss": 0.85340595,
      "num_input_tokens_seen": 115687080,
      "step": 5376,
      "time_per_iteration": 2.7680628299713135
    },
    {
      "auxiliary_loss_clip": 0.01161216,
      "auxiliary_loss_mlp": 0.01025212,
      "balance_loss_clip": 1.04850411,
      "balance_loss_mlp": 1.01741552,
      "epoch": 0.6465460229663921,
      "flos": 20813968800000.0,
      "grad_norm": 2.2908308672901243,
      "language_loss": 0.74622345,
      "learning_rate": 1.1733592197889507e-06,
      "loss": 0.76808769,
      "num_input_tokens_seen": 115703990,
      "step": 5377,
      "time_per_iteration": 2.599133253097534
    },
    {
      "auxiliary_loss_clip": 0.01161314,
      "auxiliary_loss_mlp": 0.01022744,
      "balance_loss_clip": 1.04823303,
      "balance_loss_mlp": 1.01550245,
      "epoch": 0.6466662658570312,
      "flos": 22853299466880.0,
      "grad_norm": 1.863437550652118,
      "language_loss": 0.72533584,
      "learning_rate": 1.1726499620910014e-06,
      "loss": 0.74717641,
      "num_input_tokens_seen": 115724270,
      "step": 5378,
      "time_per_iteration": 2.676380157470703
    },
    {
      "auxiliary_loss_clip": 0.01162593,
      "auxiliary_loss_mlp": 0.01027803,
      "balance_loss_clip": 1.04694819,
      "balance_loss_mlp": 1.01975083,
      "epoch": 0.6467865087476703,
      "flos": 15304553953920.0,
      "grad_norm": 2.0593214565495517,
      "language_loss": 0.77992141,
      "learning_rate": 1.1719408299013955e-06,
      "loss": 0.80182534,
      "num_input_tokens_seen": 115742995,
      "step": 5379,
      "time_per_iteration": 2.599059581756592
    },
    {
      "auxiliary_loss_clip": 0.01174335,
      "auxiliary_loss_mlp": 0.01023084,
      "balance_loss_clip": 1.05021381,
      "balance_loss_mlp": 1.01572895,
      "epoch": 0.6469067516383094,
      "flos": 19573650218880.0,
      "grad_norm": 4.2223031374973665,
      "language_loss": 0.75452256,
      "learning_rate": 1.1712318233277067e-06,
      "loss": 0.77649671,
      "num_input_tokens_seen": 115762015,
      "step": 5380,
      "time_per_iteration": 2.630478858947754
    },
    {
      "auxiliary_loss_clip": 0.01064439,
      "auxiliary_loss_mlp": 0.01002544,
      "balance_loss_clip": 1.01052654,
      "balance_loss_mlp": 1.00135767,
      "epoch": 0.6470269945289485,
      "flos": 65098002522240.0,
      "grad_norm": 0.7498807674029002,
      "language_loss": 0.57836133,
      "learning_rate": 1.1705229424774916e-06,
      "loss": 0.59903115,
      "num_input_tokens_seen": 115816285,
      "step": 5381,
      "time_per_iteration": 3.9729461669921875
    },
    {
      "auxiliary_loss_clip": 0.01153557,
      "auxiliary_loss_mlp": 0.0103026,
      "balance_loss_clip": 1.04526114,
      "balance_loss_mlp": 1.02207589,
      "epoch": 0.6471472374195876,
      "flos": 30696943639680.0,
      "grad_norm": 1.543000735325002,
      "language_loss": 0.64234757,
      "learning_rate": 1.1698141874582867e-06,
      "loss": 0.66418576,
      "num_input_tokens_seen": 115837330,
      "step": 5382,
      "time_per_iteration": 2.7611024379730225
    },
    {
      "auxiliary_loss_clip": 0.01173347,
      "auxiliary_loss_mlp": 0.01032764,
      "balance_loss_clip": 1.04962206,
      "balance_loss_mlp": 1.02550459,
      "epoch": 0.6472674803102266,
      "flos": 20521835487360.0,
      "grad_norm": 3.4693343459886,
      "language_loss": 0.72430766,
      "learning_rate": 1.169105558377609e-06,
      "loss": 0.74636877,
      "num_input_tokens_seen": 115857420,
      "step": 5383,
      "time_per_iteration": 2.6376664638519287
    },
    {
      "auxiliary_loss_clip": 0.01136446,
      "auxiliary_loss_mlp": 0.00887183,
      "balance_loss_clip": 1.04802048,
      "balance_loss_mlp": 1.00073409,
      "epoch": 0.6473877232008658,
      "flos": 24715447320960.0,
      "grad_norm": 2.0465061227826826,
      "language_loss": 0.78562891,
      "learning_rate": 1.1683970553429587e-06,
      "loss": 0.80586517,
      "num_input_tokens_seen": 115878875,
      "step": 5384,
      "time_per_iteration": 2.7565369606018066
    },
    {
      "auxiliary_loss_clip": 0.01148986,
      "auxiliary_loss_mlp": 0.01028179,
      "balance_loss_clip": 1.04492033,
      "balance_loss_mlp": 1.020293,
      "epoch": 0.6475079660915048,
      "flos": 15885552441600.0,
      "grad_norm": 2.212714738011422,
      "language_loss": 0.82344759,
      "learning_rate": 1.1676886784618128e-06,
      "loss": 0.84521925,
      "num_input_tokens_seen": 115895540,
      "step": 5385,
      "time_per_iteration": 3.630479335784912
    },
    {
      "auxiliary_loss_clip": 0.01164953,
      "auxiliary_loss_mlp": 0.01028194,
      "balance_loss_clip": 1.04876149,
      "balance_loss_mlp": 1.01928949,
      "epoch": 0.6476282089821439,
      "flos": 17381590922880.0,
      "grad_norm": 2.2179119434014045,
      "language_loss": 0.84164369,
      "learning_rate": 1.1669804278416332e-06,
      "loss": 0.86357516,
      "num_input_tokens_seen": 115910265,
      "step": 5386,
      "time_per_iteration": 2.621973752975464
    },
    {
      "auxiliary_loss_clip": 0.01160174,
      "auxiliary_loss_mlp": 0.01030621,
      "balance_loss_clip": 1.0471195,
      "balance_loss_mlp": 1.02237177,
      "epoch": 0.6477484518727831,
      "flos": 20194078861440.0,
      "grad_norm": 5.38455022468183,
      "language_loss": 0.70845079,
      "learning_rate": 1.1662723035898602e-06,
      "loss": 0.73035872,
      "num_input_tokens_seen": 115930025,
      "step": 5387,
      "time_per_iteration": 2.638004779815674
    },
    {
      "auxiliary_loss_clip": 0.01166273,
      "auxiliary_loss_mlp": 0.01024135,
      "balance_loss_clip": 1.04908299,
      "balance_loss_mlp": 1.01649928,
      "epoch": 0.6478686947634221,
      "flos": 25410426641280.0,
      "grad_norm": 2.225719856353839,
      "language_loss": 0.81787151,
      "learning_rate": 1.165564305813915e-06,
      "loss": 0.83977556,
      "num_input_tokens_seen": 115949025,
      "step": 5388,
      "time_per_iteration": 3.4541540145874023
    },
    {
      "auxiliary_loss_clip": 0.01164734,
      "auxiliary_loss_mlp": 0.01027286,
      "balance_loss_clip": 1.04777133,
      "balance_loss_mlp": 1.01994252,
      "epoch": 0.6479889376540612,
      "flos": 20083581648000.0,
      "grad_norm": 1.8844139451149333,
      "language_loss": 0.81418836,
      "learning_rate": 1.1648564346212019e-06,
      "loss": 0.83610857,
      "num_input_tokens_seen": 115968145,
      "step": 5389,
      "time_per_iteration": 2.602409839630127
    },
    {
      "auxiliary_loss_clip": 0.01162105,
      "auxiliary_loss_mlp": 0.01025492,
      "balance_loss_clip": 1.05003262,
      "balance_loss_mlp": 1.01800561,
      "epoch": 0.6481091805447003,
      "flos": 26758082039040.0,
      "grad_norm": 2.0623242381407128,
      "language_loss": 0.76392937,
      "learning_rate": 1.164148690119104e-06,
      "loss": 0.78580534,
      "num_input_tokens_seen": 115989425,
      "step": 5390,
      "time_per_iteration": 2.718822479248047
    },
    {
      "auxiliary_loss_clip": 0.01173581,
      "auxiliary_loss_mlp": 0.01023402,
      "balance_loss_clip": 1.04873288,
      "balance_loss_mlp": 1.01602912,
      "epoch": 0.6482294234353394,
      "flos": 23952094462080.0,
      "grad_norm": 1.7149041844488224,
      "language_loss": 0.74049795,
      "learning_rate": 1.163441072414985e-06,
      "loss": 0.7624678,
      "num_input_tokens_seen": 116009630,
      "step": 5391,
      "time_per_iteration": 2.5961902141571045
    },
    {
      "auxiliary_loss_clip": 0.01167942,
      "auxiliary_loss_mlp": 0.01027495,
      "balance_loss_clip": 1.05172157,
      "balance_loss_mlp": 1.01955533,
      "epoch": 0.6483496663259785,
      "flos": 26209833776640.0,
      "grad_norm": 1.8155146015855936,
      "language_loss": 0.69518912,
      "learning_rate": 1.16273358161619e-06,
      "loss": 0.71714354,
      "num_input_tokens_seen": 116029965,
      "step": 5392,
      "time_per_iteration": 3.5811054706573486
    },
    {
      "auxiliary_loss_clip": 0.01165383,
      "auxiliary_loss_mlp": 0.01030272,
      "balance_loss_clip": 1.04807925,
      "balance_loss_mlp": 1.02207685,
      "epoch": 0.6484699092166175,
      "flos": 20922239370240.0,
      "grad_norm": 1.853792633385692,
      "language_loss": 0.83401889,
      "learning_rate": 1.1620262178300446e-06,
      "loss": 0.85597545,
      "num_input_tokens_seen": 116048580,
      "step": 5393,
      "time_per_iteration": 2.677093982696533
    },
    {
      "auxiliary_loss_clip": 0.01148945,
      "auxiliary_loss_mlp": 0.01026632,
      "balance_loss_clip": 1.04511714,
      "balance_loss_mlp": 1.01889873,
      "epoch": 0.6485901521072567,
      "flos": 33072865678080.0,
      "grad_norm": 2.230283618579677,
      "language_loss": 0.76011324,
      "learning_rate": 1.1613189811638563e-06,
      "loss": 0.78186899,
      "num_input_tokens_seen": 116070305,
      "step": 5394,
      "time_per_iteration": 2.767639636993408
    },
    {
      "auxiliary_loss_clip": 0.01167736,
      "auxiliary_loss_mlp": 0.01029575,
      "balance_loss_clip": 1.05057812,
      "balance_loss_mlp": 1.0217725,
      "epoch": 0.6487103949978957,
      "flos": 22274060745600.0,
      "grad_norm": 1.7395578232592013,
      "language_loss": 0.77873355,
      "learning_rate": 1.1606118717249117e-06,
      "loss": 0.80070662,
      "num_input_tokens_seen": 116090405,
      "step": 5395,
      "time_per_iteration": 2.685054302215576
    },
    {
      "auxiliary_loss_clip": 0.01178082,
      "auxiliary_loss_mlp": 0.01031608,
      "balance_loss_clip": 1.04894257,
      "balance_loss_mlp": 1.02345383,
      "epoch": 0.6488306378885348,
      "flos": 22930400010240.0,
      "grad_norm": 1.8545384305732235,
      "language_loss": 0.67471641,
      "learning_rate": 1.1599048896204787e-06,
      "loss": 0.69681334,
      "num_input_tokens_seen": 116110285,
      "step": 5396,
      "time_per_iteration": 2.625521421432495
    },
    {
      "auxiliary_loss_clip": 0.01148181,
      "auxiliary_loss_mlp": 0.0102586,
      "balance_loss_clip": 1.04377151,
      "balance_loss_mlp": 1.01786149,
      "epoch": 0.648950880779174,
      "flos": 20376110010240.0,
      "grad_norm": 2.030881917026901,
      "language_loss": 0.80363172,
      "learning_rate": 1.1591980349578061e-06,
      "loss": 0.8253721,
      "num_input_tokens_seen": 116128955,
      "step": 5397,
      "time_per_iteration": 2.698533535003662
    },
    {
      "auxiliary_loss_clip": 0.01051622,
      "auxiliary_loss_mlp": 0.01002434,
      "balance_loss_clip": 1.01035404,
      "balance_loss_mlp": 1.00132585,
      "epoch": 0.649071123669813,
      "flos": 59930889310080.0,
      "grad_norm": 0.7389502913151877,
      "language_loss": 0.54316294,
      "learning_rate": 1.158491307844123e-06,
      "loss": 0.56370354,
      "num_input_tokens_seen": 116188875,
      "step": 5398,
      "time_per_iteration": 3.2939324378967285
    },
    {
      "auxiliary_loss_clip": 0.01156514,
      "auxiliary_loss_mlp": 0.01025008,
      "balance_loss_clip": 1.04852557,
      "balance_loss_mlp": 1.01737905,
      "epoch": 0.6491913665604521,
      "flos": 20446566537600.0,
      "grad_norm": 3.2216363361214526,
      "language_loss": 0.83974457,
      "learning_rate": 1.1577847083866387e-06,
      "loss": 0.86155981,
      "num_input_tokens_seen": 116207910,
      "step": 5399,
      "time_per_iteration": 2.6824159622192383
    },
    {
      "auxiliary_loss_clip": 0.01144308,
      "auxiliary_loss_mlp": 0.01029263,
      "balance_loss_clip": 1.04360938,
      "balance_loss_mlp": 1.02109122,
      "epoch": 0.6493116094510912,
      "flos": 16946820702720.0,
      "grad_norm": 2.2791597743365974,
      "language_loss": 0.7198692,
      "learning_rate": 1.1570782366925453e-06,
      "loss": 0.74160492,
      "num_input_tokens_seen": 116226425,
      "step": 5400,
      "time_per_iteration": 2.7359158992767334
    },
    {
      "auxiliary_loss_clip": 0.01155031,
      "auxiliary_loss_mlp": 0.01024676,
      "balance_loss_clip": 1.04257798,
      "balance_loss_mlp": 1.01674318,
      "epoch": 0.6494318523417303,
      "flos": 18802935072000.0,
      "grad_norm": 1.8641058630879817,
      "language_loss": 0.75515842,
      "learning_rate": 1.1563718928690132e-06,
      "loss": 0.77695549,
      "num_input_tokens_seen": 116243860,
      "step": 5401,
      "time_per_iteration": 2.649522542953491
    },
    {
      "auxiliary_loss_clip": 0.01146211,
      "auxiliary_loss_mlp": 0.01029762,
      "balance_loss_clip": 1.0478797,
      "balance_loss_mlp": 1.02160847,
      "epoch": 0.6495520952323693,
      "flos": 18982847318400.0,
      "grad_norm": 2.3608285721983897,
      "language_loss": 0.71167791,
      "learning_rate": 1.1556656770231942e-06,
      "loss": 0.73343766,
      "num_input_tokens_seen": 116260055,
      "step": 5402,
      "time_per_iteration": 2.666278839111328
    },
    {
      "auxiliary_loss_clip": 0.01165608,
      "auxiliary_loss_mlp": 0.01021712,
      "balance_loss_clip": 1.04496849,
      "balance_loss_mlp": 1.01398718,
      "epoch": 0.6496723381230085,
      "flos": 22745388032640.0,
      "grad_norm": 1.6848695726713963,
      "language_loss": 0.76377547,
      "learning_rate": 1.1549595892622207e-06,
      "loss": 0.7856487,
      "num_input_tokens_seen": 116278825,
      "step": 5403,
      "time_per_iteration": 2.697993516921997
    },
    {
      "auxiliary_loss_clip": 0.01036414,
      "auxiliary_loss_mlp": 0.0100373,
      "balance_loss_clip": 1.00721848,
      "balance_loss_mlp": 1.00263333,
      "epoch": 0.6497925810136476,
      "flos": 62145283887360.0,
      "grad_norm": 0.8212872369294971,
      "language_loss": 0.58971512,
      "learning_rate": 1.1542536296932047e-06,
      "loss": 0.6101166,
      "num_input_tokens_seen": 116342360,
      "step": 5404,
      "time_per_iteration": 3.340024471282959
    },
    {
      "auxiliary_loss_clip": 0.01152924,
      "auxiliary_loss_mlp": 0.0103008,
      "balance_loss_clip": 1.04314899,
      "balance_loss_mlp": 1.02195597,
      "epoch": 0.6499128239042866,
      "flos": 20156731695360.0,
      "grad_norm": 1.8020655482236654,
      "language_loss": 0.69855773,
      "learning_rate": 1.1535477984232414e-06,
      "loss": 0.7203877,
      "num_input_tokens_seen": 116362235,
      "step": 5405,
      "time_per_iteration": 2.868134021759033
    },
    {
      "auxiliary_loss_clip": 0.0114,
      "auxiliary_loss_mlp": 0.01025795,
      "balance_loss_clip": 1.04086959,
      "balance_loss_mlp": 1.01771283,
      "epoch": 0.6500330667949258,
      "flos": 24462420940800.0,
      "grad_norm": 1.9397783781756708,
      "language_loss": 0.77176261,
      "learning_rate": 1.152842095559404e-06,
      "loss": 0.79342055,
      "num_input_tokens_seen": 116382895,
      "step": 5406,
      "time_per_iteration": 2.7466416358947754
    },
    {
      "auxiliary_loss_clip": 0.01160639,
      "auxiliary_loss_mlp": 0.01023485,
      "balance_loss_clip": 1.04585564,
      "balance_loss_mlp": 1.01610029,
      "epoch": 0.6501533096855648,
      "flos": 25477399549440.0,
      "grad_norm": 1.897360485163069,
      "language_loss": 0.76778507,
      "learning_rate": 1.1521365212087474e-06,
      "loss": 0.78962624,
      "num_input_tokens_seen": 116402880,
      "step": 5407,
      "time_per_iteration": 3.673330068588257
    },
    {
      "auxiliary_loss_clip": 0.01164046,
      "auxiliary_loss_mlp": 0.01021825,
      "balance_loss_clip": 1.04595637,
      "balance_loss_mlp": 1.01412988,
      "epoch": 0.6502735525762039,
      "flos": 44819245347840.0,
      "grad_norm": 1.6046957483841242,
      "language_loss": 0.7030651,
      "learning_rate": 1.1514310754783062e-06,
      "loss": 0.72492385,
      "num_input_tokens_seen": 116425830,
      "step": 5408,
      "time_per_iteration": 2.790925979614258
    },
    {
      "auxiliary_loss_clip": 0.01160259,
      "auxiliary_loss_mlp": 0.01026298,
      "balance_loss_clip": 1.04754674,
      "balance_loss_mlp": 1.01826882,
      "epoch": 0.6503937954668431,
      "flos": 28658546726400.0,
      "grad_norm": 2.0657810595934394,
      "language_loss": 0.73285431,
      "learning_rate": 1.1507257584750964e-06,
      "loss": 0.75471985,
      "num_input_tokens_seen": 116446010,
      "step": 5409,
      "time_per_iteration": 2.75484037399292
    },
    {
      "auxiliary_loss_clip": 0.01178089,
      "auxiliary_loss_mlp": 0.0102861,
      "balance_loss_clip": 1.05104923,
      "balance_loss_mlp": 1.02034843,
      "epoch": 0.6505140383574821,
      "flos": 20922562592640.0,
      "grad_norm": 2.6874206051769476,
      "language_loss": 0.77440774,
      "learning_rate": 1.150020570306113e-06,
      "loss": 0.7964747,
      "num_input_tokens_seen": 116465150,
      "step": 5410,
      "time_per_iteration": 2.6252431869506836
    },
    {
      "auxiliary_loss_clip": 0.01148442,
      "auxiliary_loss_mlp": 0.01026213,
      "balance_loss_clip": 1.04222322,
      "balance_loss_mlp": 1.01833344,
      "epoch": 0.6506342812481212,
      "flos": 20595236929920.0,
      "grad_norm": 2.1003654454573994,
      "language_loss": 0.7490356,
      "learning_rate": 1.1493155110783338e-06,
      "loss": 0.77078223,
      "num_input_tokens_seen": 116483675,
      "step": 5411,
      "time_per_iteration": 3.6262331008911133
    },
    {
      "auxiliary_loss_clip": 0.01165889,
      "auxiliary_loss_mlp": 0.01026513,
      "balance_loss_clip": 1.04858375,
      "balance_loss_mlp": 1.01903582,
      "epoch": 0.6507545241387603,
      "flos": 30226478279040.0,
      "grad_norm": 3.9297815896220616,
      "language_loss": 0.71007919,
      "learning_rate": 1.1486105808987155e-06,
      "loss": 0.73200321,
      "num_input_tokens_seen": 116505165,
      "step": 5412,
      "time_per_iteration": 2.700742721557617
    },
    {
      "auxiliary_loss_clip": 0.01169589,
      "auxiliary_loss_mlp": 0.01027302,
      "balance_loss_clip": 1.05004394,
      "balance_loss_mlp": 1.01921916,
      "epoch": 0.6508747670293994,
      "flos": 17128241320320.0,
      "grad_norm": 1.8705679552407284,
      "language_loss": 0.81196964,
      "learning_rate": 1.1479057798741947e-06,
      "loss": 0.8339386,
      "num_input_tokens_seen": 116523220,
      "step": 5413,
      "time_per_iteration": 2.6182310581207275
    },
    {
      "auxiliary_loss_clip": 0.01051735,
      "auxiliary_loss_mlp": 0.01003837,
      "balance_loss_clip": 1.01053572,
      "balance_loss_mlp": 1.00272846,
      "epoch": 0.6509950099200384,
      "flos": 68559826573440.0,
      "grad_norm": 0.792982120646764,
      "language_loss": 0.53344584,
      "learning_rate": 1.14720110811169e-06,
      "loss": 0.55400157,
      "num_input_tokens_seen": 116580450,
      "step": 5414,
      "time_per_iteration": 4.057904005050659
    },
    {
      "auxiliary_loss_clip": 0.01169559,
      "auxiliary_loss_mlp": 0.01032401,
      "balance_loss_clip": 1.04843879,
      "balance_loss_mlp": 1.02407479,
      "epoch": 0.6511152528106776,
      "flos": 22347462188160.0,
      "grad_norm": 2.2232203492861746,
      "language_loss": 0.76576054,
      "learning_rate": 1.146496565718098e-06,
      "loss": 0.78778017,
      "num_input_tokens_seen": 116601020,
      "step": 5415,
      "time_per_iteration": 2.6455726623535156
    },
    {
      "auxiliary_loss_clip": 0.01156801,
      "auxiliary_loss_mlp": 0.01030579,
      "balance_loss_clip": 1.04703879,
      "balance_loss_mlp": 1.02196574,
      "epoch": 0.6512354957013167,
      "flos": 20522158709760.0,
      "grad_norm": 2.0968762165462786,
      "language_loss": 0.75761777,
      "learning_rate": 1.1457921528002996e-06,
      "loss": 0.77949154,
      "num_input_tokens_seen": 116619455,
      "step": 5416,
      "time_per_iteration": 2.6727495193481445
    },
    {
      "auxiliary_loss_clip": 0.01176787,
      "auxiliary_loss_mlp": 0.00887286,
      "balance_loss_clip": 1.05015111,
      "balance_loss_mlp": 1.00070405,
      "epoch": 0.6513557385919557,
      "flos": 32337342881280.0,
      "grad_norm": 2.2492662630021005,
      "language_loss": 0.72155285,
      "learning_rate": 1.1450878694651522e-06,
      "loss": 0.74219358,
      "num_input_tokens_seen": 116640020,
      "step": 5417,
      "time_per_iteration": 2.7377398014068604
    },
    {
      "auxiliary_loss_clip": 0.01138754,
      "auxiliary_loss_mlp": 0.01027993,
      "balance_loss_clip": 1.04221165,
      "balance_loss_mlp": 1.01989841,
      "epoch": 0.6514759814825949,
      "flos": 12093206417280.0,
      "grad_norm": 2.921297248713322,
      "language_loss": 0.63256681,
      "learning_rate": 1.1443837158194954e-06,
      "loss": 0.65423429,
      "num_input_tokens_seen": 116655165,
      "step": 5418,
      "time_per_iteration": 3.682042121887207
    },
    {
      "auxiliary_loss_clip": 0.01147794,
      "auxiliary_loss_mlp": 0.01027666,
      "balance_loss_clip": 1.04901505,
      "balance_loss_mlp": 1.01888621,
      "epoch": 0.651596224373234,
      "flos": 22526907557760.0,
      "grad_norm": 2.1988496179947044,
      "language_loss": 0.74667406,
      "learning_rate": 1.1436796919701484e-06,
      "loss": 0.76842868,
      "num_input_tokens_seen": 116673880,
      "step": 5419,
      "time_per_iteration": 2.7462241649627686
    },
    {
      "auxiliary_loss_clip": 0.01153789,
      "auxiliary_loss_mlp": 0.01024788,
      "balance_loss_clip": 1.04663801,
      "balance_loss_mlp": 1.01638329,
      "epoch": 0.651716467263873,
      "flos": 27818955250560.0,
      "grad_norm": 3.470218290166127,
      "language_loss": 0.61951244,
      "learning_rate": 1.1429757980239115e-06,
      "loss": 0.64129829,
      "num_input_tokens_seen": 116694305,
      "step": 5420,
      "time_per_iteration": 2.6657824516296387
    },
    {
      "auxiliary_loss_clip": 0.01177838,
      "auxiliary_loss_mlp": 0.01024458,
      "balance_loss_clip": 1.049263,
      "balance_loss_mlp": 1.01633966,
      "epoch": 0.6518367101545122,
      "flos": 24316300414080.0,
      "grad_norm": 5.663086722884877,
      "language_loss": 0.81279683,
      "learning_rate": 1.1422720340875636e-06,
      "loss": 0.83481979,
      "num_input_tokens_seen": 116713055,
      "step": 5421,
      "time_per_iteration": 2.6442556381225586
    },
    {
      "auxiliary_loss_clip": 0.01171569,
      "auxiliary_loss_mlp": 0.01029354,
      "balance_loss_clip": 1.0483005,
      "balance_loss_mlp": 1.02103353,
      "epoch": 0.6519569530451512,
      "flos": 20011939971840.0,
      "grad_norm": 2.7758431031416597,
      "language_loss": 0.79159993,
      "learning_rate": 1.1415684002678671e-06,
      "loss": 0.81360912,
      "num_input_tokens_seen": 116731815,
      "step": 5422,
      "time_per_iteration": 2.6338412761688232
    },
    {
      "auxiliary_loss_clip": 0.01157439,
      "auxiliary_loss_mlp": 0.01031826,
      "balance_loss_clip": 1.0443505,
      "balance_loss_mlp": 1.02329016,
      "epoch": 0.6520771959357903,
      "flos": 21576064682880.0,
      "grad_norm": 2.417171582045297,
      "language_loss": 0.77560842,
      "learning_rate": 1.1408648966715617e-06,
      "loss": 0.79750103,
      "num_input_tokens_seen": 116749335,
      "step": 5423,
      "time_per_iteration": 2.7098171710968018
    },
    {
      "auxiliary_loss_clip": 0.01155116,
      "auxiliary_loss_mlp": 0.01028541,
      "balance_loss_clip": 1.04231393,
      "balance_loss_mlp": 1.01979661,
      "epoch": 0.6521974388264293,
      "flos": 22711021695360.0,
      "grad_norm": 2.84254491990468,
      "language_loss": 0.7266171,
      "learning_rate": 1.1401615234053683e-06,
      "loss": 0.74845368,
      "num_input_tokens_seen": 116768155,
      "step": 5424,
      "time_per_iteration": 2.7139127254486084
    },
    {
      "auxiliary_loss_clip": 0.01159652,
      "auxiliary_loss_mlp": 0.01026584,
      "balance_loss_clip": 1.04664207,
      "balance_loss_mlp": 1.01803684,
      "epoch": 0.6523176817170685,
      "flos": 23002939526400.0,
      "grad_norm": 2.7776607705674374,
      "language_loss": 0.76020086,
      "learning_rate": 1.1394582805759885e-06,
      "loss": 0.78206325,
      "num_input_tokens_seen": 116787435,
      "step": 5425,
      "time_per_iteration": 2.6675820350646973
    },
    {
      "auxiliary_loss_clip": 0.01165811,
      "auxiliary_loss_mlp": 0.01028257,
      "balance_loss_clip": 1.04962695,
      "balance_loss_mlp": 1.02064252,
      "epoch": 0.6524379246077076,
      "flos": 21688249835520.0,
      "grad_norm": 2.891833391114008,
      "language_loss": 0.75478739,
      "learning_rate": 1.1387551682901022e-06,
      "loss": 0.77672809,
      "num_input_tokens_seen": 116808040,
      "step": 5426,
      "time_per_iteration": 2.7323265075683594
    },
    {
      "auxiliary_loss_clip": 0.01142331,
      "auxiliary_loss_mlp": 0.01026356,
      "balance_loss_clip": 1.04325914,
      "balance_loss_mlp": 1.01823831,
      "epoch": 0.6525581674983466,
      "flos": 19390936711680.0,
      "grad_norm": 2.6993328812746014,
      "language_loss": 0.7099545,
      "learning_rate": 1.138052186654373e-06,
      "loss": 0.73164135,
      "num_input_tokens_seen": 116825510,
      "step": 5427,
      "time_per_iteration": 2.683637857437134
    },
    {
      "auxiliary_loss_clip": 0.01158036,
      "auxiliary_loss_mlp": 0.01033335,
      "balance_loss_clip": 1.04563332,
      "balance_loss_mlp": 1.02471638,
      "epoch": 0.6526784103889858,
      "flos": 17165444832000.0,
      "grad_norm": 2.2631891434472173,
      "language_loss": 0.88101226,
      "learning_rate": 1.1373493357754417e-06,
      "loss": 0.90292597,
      "num_input_tokens_seen": 116844415,
      "step": 5428,
      "time_per_iteration": 2.7691478729248047
    },
    {
      "auxiliary_loss_clip": 0.01175197,
      "auxiliary_loss_mlp": 0.01025663,
      "balance_loss_clip": 1.04843795,
      "balance_loss_mlp": 1.01789093,
      "epoch": 0.6527986532796248,
      "flos": 18989168112000.0,
      "grad_norm": 1.9075666945685017,
      "language_loss": 0.76970923,
      "learning_rate": 1.1366466157599303e-06,
      "loss": 0.79171777,
      "num_input_tokens_seen": 116863690,
      "step": 5429,
      "time_per_iteration": 2.626497983932495
    },
    {
      "auxiliary_loss_clip": 0.01131484,
      "auxiliary_loss_mlp": 0.0088722,
      "balance_loss_clip": 1.03994906,
      "balance_loss_mlp": 1.00066566,
      "epoch": 0.6529188961702639,
      "flos": 14238581011200.0,
      "grad_norm": 1.997909240043808,
      "language_loss": 0.76466697,
      "learning_rate": 1.1359440267144412e-06,
      "loss": 0.78485405,
      "num_input_tokens_seen": 116881145,
      "step": 5430,
      "time_per_iteration": 2.7495615482330322
    },
    {
      "auxiliary_loss_clip": 0.01168325,
      "auxiliary_loss_mlp": 0.01030879,
      "balance_loss_clip": 1.04761255,
      "balance_loss_mlp": 1.02278805,
      "epoch": 0.653039139060903,
      "flos": 36682929158400.0,
      "grad_norm": 1.7686492798030653,
      "language_loss": 0.74115604,
      "learning_rate": 1.1352415687455556e-06,
      "loss": 0.76314807,
      "num_input_tokens_seen": 116902405,
      "step": 5431,
      "time_per_iteration": 2.7878034114837646
    },
    {
      "auxiliary_loss_clip": 0.01167674,
      "auxiliary_loss_mlp": 0.01026621,
      "balance_loss_clip": 1.04958534,
      "balance_loss_mlp": 1.01838374,
      "epoch": 0.6531593819515421,
      "flos": 25376275785600.0,
      "grad_norm": 2.2964779060952982,
      "language_loss": 0.63529646,
      "learning_rate": 1.1345392419598362e-06,
      "loss": 0.65723944,
      "num_input_tokens_seen": 116921285,
      "step": 5432,
      "time_per_iteration": 2.697086811065674
    },
    {
      "auxiliary_loss_clip": 0.01158545,
      "auxiliary_loss_mlp": 0.0102243,
      "balance_loss_clip": 1.0445962,
      "balance_loss_mlp": 1.01487803,
      "epoch": 0.6532796248421812,
      "flos": 21178533888000.0,
      "grad_norm": 1.601708488367635,
      "language_loss": 0.71647829,
      "learning_rate": 1.1338370464638263e-06,
      "loss": 0.73828804,
      "num_input_tokens_seen": 116940685,
      "step": 5433,
      "time_per_iteration": 3.61025333404541
    },
    {
      "auxiliary_loss_clip": 0.01173043,
      "auxiliary_loss_mlp": 0.01028777,
      "balance_loss_clip": 1.04652548,
      "balance_loss_mlp": 1.02083135,
      "epoch": 0.6533998677328203,
      "flos": 17675950878720.0,
      "grad_norm": 2.3050157404246043,
      "language_loss": 0.63877702,
      "learning_rate": 1.1331349823640474e-06,
      "loss": 0.66079521,
      "num_input_tokens_seen": 116958115,
      "step": 5434,
      "time_per_iteration": 2.5797224044799805
    },
    {
      "auxiliary_loss_clip": 0.01165346,
      "auxiliary_loss_mlp": 0.00886035,
      "balance_loss_clip": 1.04724264,
      "balance_loss_mlp": 1.0005964,
      "epoch": 0.6535201106234594,
      "flos": 28400384701440.0,
      "grad_norm": 2.165065069352073,
      "language_loss": 0.78305578,
      "learning_rate": 1.132433049767003e-06,
      "loss": 0.80356956,
      "num_input_tokens_seen": 116976030,
      "step": 5435,
      "time_per_iteration": 2.72016978263855
    },
    {
      "auxiliary_loss_clip": 0.01153881,
      "auxiliary_loss_mlp": 0.01027533,
      "balance_loss_clip": 1.04641402,
      "balance_loss_mlp": 1.02024376,
      "epoch": 0.6536403535140984,
      "flos": 23586667447680.0,
      "grad_norm": 1.6482126365160399,
      "language_loss": 0.81180286,
      "learning_rate": 1.1317312487791748e-06,
      "loss": 0.83361703,
      "num_input_tokens_seen": 116997680,
      "step": 5436,
      "time_per_iteration": 2.719468355178833
    },
    {
      "auxiliary_loss_clip": 0.01158951,
      "auxiliary_loss_mlp": 0.01028184,
      "balance_loss_clip": 1.04526377,
      "balance_loss_mlp": 1.01971996,
      "epoch": 0.6537605964047376,
      "flos": 21579476474880.0,
      "grad_norm": 2.081741760227203,
      "language_loss": 0.73067707,
      "learning_rate": 1.1310295795070253e-06,
      "loss": 0.7525484,
      "num_input_tokens_seen": 117017620,
      "step": 5437,
      "time_per_iteration": 3.7613508701324463
    },
    {
      "auxiliary_loss_clip": 0.01141207,
      "auxiliary_loss_mlp": 0.01024155,
      "balance_loss_clip": 1.04380488,
      "balance_loss_mlp": 1.01641846,
      "epoch": 0.6538808392953767,
      "flos": 26833997433600.0,
      "grad_norm": 1.8173482678565032,
      "language_loss": 0.81249064,
      "learning_rate": 1.1303280420569982e-06,
      "loss": 0.83414423,
      "num_input_tokens_seen": 117039505,
      "step": 5438,
      "time_per_iteration": 2.8882668018341064
    },
    {
      "auxiliary_loss_clip": 0.01160881,
      "auxiliary_loss_mlp": 0.01032541,
      "balance_loss_clip": 1.0468992,
      "balance_loss_mlp": 1.02424955,
      "epoch": 0.6540010821860157,
      "flos": 30738241301760.0,
      "grad_norm": 1.66432823668487,
      "language_loss": 0.77227652,
      "learning_rate": 1.1296266365355158e-06,
      "loss": 0.79421073,
      "num_input_tokens_seen": 117062890,
      "step": 5439,
      "time_per_iteration": 2.717048168182373
    },
    {
      "auxiliary_loss_clip": 0.01149137,
      "auxiliary_loss_mlp": 0.01024111,
      "balance_loss_clip": 1.04505038,
      "balance_loss_mlp": 1.01635671,
      "epoch": 0.6541213250766549,
      "flos": 26907147480960.0,
      "grad_norm": 1.9934473487678541,
      "language_loss": 0.73748934,
      "learning_rate": 1.1289253630489806e-06,
      "loss": 0.75922185,
      "num_input_tokens_seen": 117083940,
      "step": 5440,
      "time_per_iteration": 3.598712682723999
    },
    {
      "auxiliary_loss_clip": 0.01170157,
      "auxiliary_loss_mlp": 0.01027787,
      "balance_loss_clip": 1.04616952,
      "balance_loss_mlp": 1.01949024,
      "epoch": 0.6542415679672939,
      "flos": 19172384409600.0,
      "grad_norm": 2.2211914377133524,
      "language_loss": 0.72254944,
      "learning_rate": 1.1282242217037753e-06,
      "loss": 0.74452889,
      "num_input_tokens_seen": 117101440,
      "step": 5441,
      "time_per_iteration": 2.597872495651245
    },
    {
      "auxiliary_loss_clip": 0.01129237,
      "auxiliary_loss_mlp": 0.01030006,
      "balance_loss_clip": 1.03814077,
      "balance_loss_mlp": 1.02120185,
      "epoch": 0.654361810857933,
      "flos": 48173517100800.0,
      "grad_norm": 1.9201383234131184,
      "language_loss": 0.61530846,
      "learning_rate": 1.127523212606262e-06,
      "loss": 0.6369009,
      "num_input_tokens_seen": 117124265,
      "step": 5442,
      "time_per_iteration": 2.9544436931610107
    },
    {
      "auxiliary_loss_clip": 0.01163511,
      "auxiliary_loss_mlp": 0.01028115,
      "balance_loss_clip": 1.04638362,
      "balance_loss_mlp": 1.01962698,
      "epoch": 0.6544820537485722,
      "flos": 26943165843840.0,
      "grad_norm": 1.634107687376666,
      "language_loss": 0.73246133,
      "learning_rate": 1.1268223358627835e-06,
      "loss": 0.7543776,
      "num_input_tokens_seen": 117146755,
      "step": 5443,
      "time_per_iteration": 2.6891186237335205
    },
    {
      "auxiliary_loss_clip": 0.01175307,
      "auxiliary_loss_mlp": 0.01025144,
      "balance_loss_clip": 1.04789209,
      "balance_loss_mlp": 1.01703787,
      "epoch": 0.6546022966392112,
      "flos": 20886328748160.0,
      "grad_norm": 1.7032425972996792,
      "language_loss": 0.71774912,
      "learning_rate": 1.126121591579663e-06,
      "loss": 0.7397536,
      "num_input_tokens_seen": 117165960,
      "step": 5444,
      "time_per_iteration": 3.5313596725463867
    },
    {
      "auxiliary_loss_clip": 0.01165485,
      "auxiliary_loss_mlp": 0.01025886,
      "balance_loss_clip": 1.04994535,
      "balance_loss_mlp": 1.01808977,
      "epoch": 0.6547225395298503,
      "flos": 24936693143040.0,
      "grad_norm": 1.7839695535046303,
      "language_loss": 0.69156671,
      "learning_rate": 1.1254209798632018e-06,
      "loss": 0.71348047,
      "num_input_tokens_seen": 117186980,
      "step": 5445,
      "time_per_iteration": 2.671807289123535
    },
    {
      "auxiliary_loss_clip": 0.01117758,
      "auxiliary_loss_mlp": 0.01025093,
      "balance_loss_clip": 1.0406723,
      "balance_loss_mlp": 1.01717126,
      "epoch": 0.6548427824204894,
      "flos": 22565942663040.0,
      "grad_norm": 1.8038911329417906,
      "language_loss": 0.84648108,
      "learning_rate": 1.124720500819683e-06,
      "loss": 0.86790961,
      "num_input_tokens_seen": 117205135,
      "step": 5446,
      "time_per_iteration": 2.731947898864746
    },
    {
      "auxiliary_loss_clip": 0.0117537,
      "auxiliary_loss_mlp": 0.01029667,
      "balance_loss_clip": 1.0487231,
      "balance_loss_mlp": 1.02154851,
      "epoch": 0.6549630253111285,
      "flos": 18442500048000.0,
      "grad_norm": 1.8805909024194083,
      "language_loss": 0.82101554,
      "learning_rate": 1.1240201545553682e-06,
      "loss": 0.84306586,
      "num_input_tokens_seen": 117222935,
      "step": 5447,
      "time_per_iteration": 2.6142616271972656
    },
    {
      "auxiliary_loss_clip": 0.01145246,
      "auxiliary_loss_mlp": 0.0102638,
      "balance_loss_clip": 1.04542041,
      "balance_loss_mlp": 1.01768327,
      "epoch": 0.6550832682017675,
      "flos": 25187313312000.0,
      "grad_norm": 1.6807100503618717,
      "language_loss": 0.72990346,
      "learning_rate": 1.1233199411764987e-06,
      "loss": 0.7516197,
      "num_input_tokens_seen": 117242370,
      "step": 5448,
      "time_per_iteration": 2.7245848178863525
    },
    {
      "auxiliary_loss_clip": 0.01132078,
      "auxiliary_loss_mlp": 0.01027444,
      "balance_loss_clip": 1.04141426,
      "balance_loss_mlp": 1.01949871,
      "epoch": 0.6552035110924067,
      "flos": 22748153379840.0,
      "grad_norm": 1.9306024105261674,
      "language_loss": 0.69227761,
      "learning_rate": 1.1226198607892978e-06,
      "loss": 0.71387285,
      "num_input_tokens_seen": 117262930,
      "step": 5449,
      "time_per_iteration": 2.724179267883301
    },
    {
      "auxiliary_loss_clip": 0.01138227,
      "auxiliary_loss_mlp": 0.01025448,
      "balance_loss_clip": 1.04515481,
      "balance_loss_mlp": 1.01823878,
      "epoch": 0.6553237539830458,
      "flos": 21799178012160.0,
      "grad_norm": 1.7932969138037413,
      "language_loss": 0.80144662,
      "learning_rate": 1.1219199134999664e-06,
      "loss": 0.82308334,
      "num_input_tokens_seen": 117281430,
      "step": 5450,
      "time_per_iteration": 2.7299211025238037
    },
    {
      "auxiliary_loss_clip": 0.01159218,
      "auxiliary_loss_mlp": 0.01034529,
      "balance_loss_clip": 1.0459373,
      "balance_loss_mlp": 1.02610695,
      "epoch": 0.6554439968736848,
      "flos": 20887226588160.0,
      "grad_norm": 2.5189241275380243,
      "language_loss": 0.79158318,
      "learning_rate": 1.1212200994146863e-06,
      "loss": 0.81352067,
      "num_input_tokens_seen": 117299185,
      "step": 5451,
      "time_per_iteration": 2.7148072719573975
    },
    {
      "auxiliary_loss_clip": 0.01141673,
      "auxiliary_loss_mlp": 0.01027611,
      "balance_loss_clip": 1.03920841,
      "balance_loss_mlp": 1.01965332,
      "epoch": 0.655564239764324,
      "flos": 16139045698560.0,
      "grad_norm": 1.8256855088844968,
      "language_loss": 0.75983107,
      "learning_rate": 1.120520418639618e-06,
      "loss": 0.78152394,
      "num_input_tokens_seen": 117317720,
      "step": 5452,
      "time_per_iteration": 2.6998419761657715
    },
    {
      "auxiliary_loss_clip": 0.01169615,
      "auxiliary_loss_mlp": 0.01028782,
      "balance_loss_clip": 1.05116713,
      "balance_loss_mlp": 1.02074146,
      "epoch": 0.655684482654963,
      "flos": 29570354496000.0,
      "grad_norm": 2.7436257566897346,
      "language_loss": 0.83543706,
      "learning_rate": 1.119820871280903e-06,
      "loss": 0.85742104,
      "num_input_tokens_seen": 117338795,
      "step": 5453,
      "time_per_iteration": 2.750518321990967
    },
    {
      "auxiliary_loss_clip": 0.01163638,
      "auxiliary_loss_mlp": 0.01033184,
      "balance_loss_clip": 1.04692316,
      "balance_loss_mlp": 1.0250895,
      "epoch": 0.6558047255456021,
      "flos": 29789409588480.0,
      "grad_norm": 1.9941537940288316,
      "language_loss": 0.73039687,
      "learning_rate": 1.1191214574446614e-06,
      "loss": 0.75236511,
      "num_input_tokens_seen": 117359040,
      "step": 5454,
      "time_per_iteration": 2.6981654167175293
    },
    {
      "auxiliary_loss_clip": 0.01148602,
      "auxiliary_loss_mlp": 0.0103113,
      "balance_loss_clip": 1.04390371,
      "balance_loss_mlp": 1.02314293,
      "epoch": 0.6559249684362413,
      "flos": 29059166090880.0,
      "grad_norm": 1.9699896071263627,
      "language_loss": 0.80105549,
      "learning_rate": 1.118422177236995e-06,
      "loss": 0.82285279,
      "num_input_tokens_seen": 117380865,
      "step": 5455,
      "time_per_iteration": 2.740494728088379
    },
    {
      "auxiliary_loss_clip": 0.01161269,
      "auxiliary_loss_mlp": 0.01031033,
      "balance_loss_clip": 1.04714,
      "balance_loss_mlp": 1.02270055,
      "epoch": 0.6560452113268803,
      "flos": 20225464369920.0,
      "grad_norm": 1.8087780894920653,
      "language_loss": 0.85679698,
      "learning_rate": 1.1177230307639835e-06,
      "loss": 0.87871993,
      "num_input_tokens_seen": 117398405,
      "step": 5456,
      "time_per_iteration": 2.6232008934020996
    },
    {
      "auxiliary_loss_clip": 0.01142766,
      "auxiliary_loss_mlp": 0.01028934,
      "balance_loss_clip": 1.04436398,
      "balance_loss_mlp": 1.01994574,
      "epoch": 0.6561654542175194,
      "flos": 25045538330880.0,
      "grad_norm": 1.742176698958696,
      "language_loss": 0.78382409,
      "learning_rate": 1.1170240181316865e-06,
      "loss": 0.80554104,
      "num_input_tokens_seen": 117419850,
      "step": 5457,
      "time_per_iteration": 2.7105112075805664
    },
    {
      "auxiliary_loss_clip": 0.01142605,
      "auxiliary_loss_mlp": 0.01026059,
      "balance_loss_clip": 1.04137444,
      "balance_loss_mlp": 1.0179528,
      "epoch": 0.6562856971081584,
      "flos": 22856711258880.0,
      "grad_norm": 2.257197609505099,
      "language_loss": 0.79444849,
      "learning_rate": 1.1163251394461442e-06,
      "loss": 0.81613517,
      "num_input_tokens_seen": 117438330,
      "step": 5458,
      "time_per_iteration": 2.7046902179718018
    },
    {
      "auxiliary_loss_clip": 0.01162028,
      "auxiliary_loss_mlp": 0.01026301,
      "balance_loss_clip": 1.04705155,
      "balance_loss_mlp": 1.01819789,
      "epoch": 0.6564059399987976,
      "flos": 18872565586560.0,
      "grad_norm": 1.8641840168642003,
      "language_loss": 0.82066852,
      "learning_rate": 1.1156263948133746e-06,
      "loss": 0.84255183,
      "num_input_tokens_seen": 117454985,
      "step": 5459,
      "time_per_iteration": 3.5445828437805176
    },
    {
      "auxiliary_loss_clip": 0.01130201,
      "auxiliary_loss_mlp": 0.00887473,
      "balance_loss_clip": 1.04401278,
      "balance_loss_mlp": 1.00064802,
      "epoch": 0.6565261828894366,
      "flos": 25484187219840.0,
      "grad_norm": 1.8208553260252265,
      "language_loss": 0.7787053,
      "learning_rate": 1.1149277843393787e-06,
      "loss": 0.79888201,
      "num_input_tokens_seen": 117476145,
      "step": 5460,
      "time_per_iteration": 2.8022382259368896
    },
    {
      "auxiliary_loss_clip": 0.01125724,
      "auxiliary_loss_mlp": 0.0088683,
      "balance_loss_clip": 1.03804862,
      "balance_loss_mlp": 1.00058639,
      "epoch": 0.6566464257800757,
      "flos": 19683500987520.0,
      "grad_norm": 2.7352297137854693,
      "language_loss": 0.6316976,
      "learning_rate": 1.1142293081301342e-06,
      "loss": 0.65182316,
      "num_input_tokens_seen": 117494025,
      "step": 5461,
      "time_per_iteration": 2.841405153274536
    },
    {
      "auxiliary_loss_clip": 0.0115257,
      "auxiliary_loss_mlp": 0.01020009,
      "balance_loss_clip": 1.04655206,
      "balance_loss_mlp": 1.01290989,
      "epoch": 0.6567666686707149,
      "flos": 23514127931520.0,
      "grad_norm": 1.807618986293075,
      "language_loss": 0.6802128,
      "learning_rate": 1.1135309662915995e-06,
      "loss": 0.70193851,
      "num_input_tokens_seen": 117514190,
      "step": 5462,
      "time_per_iteration": 2.7232701778411865
    },
    {
      "auxiliary_loss_clip": 0.01143108,
      "auxiliary_loss_mlp": 0.01022353,
      "balance_loss_clip": 1.04189539,
      "balance_loss_mlp": 1.01434839,
      "epoch": 0.6568869115613539,
      "flos": 32781342896640.0,
      "grad_norm": 2.169446750078643,
      "language_loss": 0.60545897,
      "learning_rate": 1.112832758929712e-06,
      "loss": 0.62711358,
      "num_input_tokens_seen": 117536800,
      "step": 5463,
      "time_per_iteration": 4.151476144790649
    },
    {
      "auxiliary_loss_clip": 0.01165215,
      "auxiliary_loss_mlp": 0.01028142,
      "balance_loss_clip": 1.04821455,
      "balance_loss_mlp": 1.01962495,
      "epoch": 0.657007154451993,
      "flos": 18442428220800.0,
      "grad_norm": 1.8891926555263767,
      "language_loss": 0.74996126,
      "learning_rate": 1.11213468615039e-06,
      "loss": 0.77189481,
      "num_input_tokens_seen": 117556230,
      "step": 5464,
      "time_per_iteration": 2.645665407180786
    },
    {
      "auxiliary_loss_clip": 0.01126486,
      "auxiliary_loss_mlp": 0.01026636,
      "balance_loss_clip": 1.040797,
      "balance_loss_mlp": 1.01836848,
      "epoch": 0.6571273973426321,
      "flos": 25156717902720.0,
      "grad_norm": 1.7067154214868496,
      "language_loss": 0.74951404,
      "learning_rate": 1.1114367480595292e-06,
      "loss": 0.77104533,
      "num_input_tokens_seen": 117577310,
      "step": 5465,
      "time_per_iteration": 3.706460952758789
    },
    {
      "auxiliary_loss_clip": 0.01123305,
      "auxiliary_loss_mlp": 0.0102468,
      "balance_loss_clip": 1.04158354,
      "balance_loss_mlp": 1.01609683,
      "epoch": 0.6572476402332712,
      "flos": 17529830352000.0,
      "grad_norm": 1.9007867992464627,
      "language_loss": 0.81134516,
      "learning_rate": 1.1107389447630086e-06,
      "loss": 0.83282495,
      "num_input_tokens_seen": 117596010,
      "step": 5466,
      "time_per_iteration": 2.7749621868133545
    },
    {
      "auxiliary_loss_clip": 0.01150479,
      "auxiliary_loss_mlp": 0.00886802,
      "balance_loss_clip": 1.04289675,
      "balance_loss_mlp": 1.00067663,
      "epoch": 0.6573678831239103,
      "flos": 17014260487680.0,
      "grad_norm": 2.1824691461560035,
      "language_loss": 0.78174102,
      "learning_rate": 1.1100412763666818e-06,
      "loss": 0.80211377,
      "num_input_tokens_seen": 117611270,
      "step": 5467,
      "time_per_iteration": 2.661540985107422
    },
    {
      "auxiliary_loss_clip": 0.01159939,
      "auxiliary_loss_mlp": 0.01030764,
      "balance_loss_clip": 1.04850054,
      "balance_loss_mlp": 1.02263999,
      "epoch": 0.6574881260145494,
      "flos": 23910078528000.0,
      "grad_norm": 1.5471589905600471,
      "language_loss": 0.80233502,
      "learning_rate": 1.1093437429763865e-06,
      "loss": 0.82424212,
      "num_input_tokens_seen": 117631535,
      "step": 5468,
      "time_per_iteration": 2.734567880630493
    },
    {
      "auxiliary_loss_clip": 0.01166211,
      "auxiliary_loss_mlp": 0.01023503,
      "balance_loss_clip": 1.04818988,
      "balance_loss_mlp": 1.0159632,
      "epoch": 0.6576083689051885,
      "flos": 11218458504960.0,
      "grad_norm": 2.2756364034915952,
      "language_loss": 0.73765826,
      "learning_rate": 1.1086463446979361e-06,
      "loss": 0.75955546,
      "num_input_tokens_seen": 117649885,
      "step": 5469,
      "time_per_iteration": 2.6152896881103516
    },
    {
      "auxiliary_loss_clip": 0.01168898,
      "auxiliary_loss_mlp": 0.01029069,
      "balance_loss_clip": 1.05045676,
      "balance_loss_mlp": 1.02123988,
      "epoch": 0.6577286117958275,
      "flos": 22455553190400.0,
      "grad_norm": 2.011435688275536,
      "language_loss": 0.77575344,
      "learning_rate": 1.1079490816371277e-06,
      "loss": 0.79773313,
      "num_input_tokens_seen": 117669650,
      "step": 5470,
      "time_per_iteration": 3.6059279441833496
    },
    {
      "auxiliary_loss_clip": 0.01166647,
      "auxiliary_loss_mlp": 0.00887464,
      "balance_loss_clip": 1.04684138,
      "balance_loss_mlp": 1.00066376,
      "epoch": 0.6578488546864667,
      "flos": 21872184405120.0,
      "grad_norm": 2.185647425189632,
      "language_loss": 0.7452811,
      "learning_rate": 1.1072519538997352e-06,
      "loss": 0.76582223,
      "num_input_tokens_seen": 117688790,
      "step": 5471,
      "time_per_iteration": 2.6467225551605225
    },
    {
      "auxiliary_loss_clip": 0.01159788,
      "auxiliary_loss_mlp": 0.01025371,
      "balance_loss_clip": 1.04421139,
      "balance_loss_mlp": 1.0175631,
      "epoch": 0.6579690975771058,
      "flos": 23543753673600.0,
      "grad_norm": 2.119078967562483,
      "language_loss": 0.82316017,
      "learning_rate": 1.1065549615915095e-06,
      "loss": 0.84501177,
      "num_input_tokens_seen": 117708620,
      "step": 5472,
      "time_per_iteration": 2.6577699184417725
    },
    {
      "auxiliary_loss_clip": 0.01167583,
      "auxiliary_loss_mlp": 0.01028732,
      "balance_loss_clip": 1.05157936,
      "balance_loss_mlp": 1.02046776,
      "epoch": 0.6580893404677448,
      "flos": 32743995730560.0,
      "grad_norm": 2.73034998951929,
      "language_loss": 0.78536022,
      "learning_rate": 1.105858104818187e-06,
      "loss": 0.8073234,
      "num_input_tokens_seen": 117729775,
      "step": 5473,
      "time_per_iteration": 2.7399864196777344
    },
    {
      "auxiliary_loss_clip": 0.01171459,
      "auxiliary_loss_mlp": 0.01029994,
      "balance_loss_clip": 1.04861557,
      "balance_loss_mlp": 1.02122068,
      "epoch": 0.658209583358384,
      "flos": 15888138220800.0,
      "grad_norm": 3.183574448141046,
      "language_loss": 0.74881667,
      "learning_rate": 1.105161383685478e-06,
      "loss": 0.77083123,
      "num_input_tokens_seen": 117746160,
      "step": 5474,
      "time_per_iteration": 2.572725772857666
    },
    {
      "auxiliary_loss_clip": 0.01054786,
      "auxiliary_loss_mlp": 0.01001801,
      "balance_loss_clip": 1.01621819,
      "balance_loss_mlp": 1.00073993,
      "epoch": 0.658329826249023,
      "flos": 62695902447360.0,
      "grad_norm": 0.7674588001076722,
      "language_loss": 0.56333929,
      "learning_rate": 1.1044647982990771e-06,
      "loss": 0.58390516,
      "num_input_tokens_seen": 117808045,
      "step": 5475,
      "time_per_iteration": 3.3105034828186035
    },
    {
      "auxiliary_loss_clip": 0.01160397,
      "auxiliary_loss_mlp": 0.01028046,
      "balance_loss_clip": 1.04962969,
      "balance_loss_mlp": 1.02008891,
      "epoch": 0.6584500691396621,
      "flos": 31722624501120.0,
      "grad_norm": 2.125827400980687,
      "language_loss": 0.64602721,
      "learning_rate": 1.1037683487646536e-06,
      "loss": 0.66791165,
      "num_input_tokens_seen": 117828330,
      "step": 5476,
      "time_per_iteration": 2.726382255554199
    },
    {
      "auxiliary_loss_clip": 0.01155508,
      "auxiliary_loss_mlp": 0.00886523,
      "balance_loss_clip": 1.04919791,
      "balance_loss_mlp": 1.00070572,
      "epoch": 0.6585703120303013,
      "flos": 18406086635520.0,
      "grad_norm": 1.9813687699968008,
      "language_loss": 0.77122104,
      "learning_rate": 1.1030720351878583e-06,
      "loss": 0.79164141,
      "num_input_tokens_seen": 117846450,
      "step": 5477,
      "time_per_iteration": 2.6560497283935547
    },
    {
      "auxiliary_loss_clip": 0.01065319,
      "auxiliary_loss_mlp": 0.01001813,
      "balance_loss_clip": 1.01685917,
      "balance_loss_mlp": 1.00067472,
      "epoch": 0.6586905549209403,
      "flos": 58309880434560.0,
      "grad_norm": 0.899993937454307,
      "language_loss": 0.57605827,
      "learning_rate": 1.102375857674323e-06,
      "loss": 0.59672952,
      "num_input_tokens_seen": 117908365,
      "step": 5478,
      "time_per_iteration": 3.2116811275482178
    },
    {
      "auxiliary_loss_clip": 0.01154985,
      "auxiliary_loss_mlp": 0.0102495,
      "balance_loss_clip": 1.04467058,
      "balance_loss_mlp": 1.01676643,
      "epoch": 0.6588107978115794,
      "flos": 22782627457920.0,
      "grad_norm": 1.8360422519147819,
      "language_loss": 0.90289998,
      "learning_rate": 1.1016798163296561e-06,
      "loss": 0.92469931,
      "num_input_tokens_seen": 117927565,
      "step": 5479,
      "time_per_iteration": 2.6567580699920654
    },
    {
      "auxiliary_loss_clip": 0.01167772,
      "auxiliary_loss_mlp": 0.01026668,
      "balance_loss_clip": 1.04679894,
      "balance_loss_mlp": 1.01942563,
      "epoch": 0.6589310407022185,
      "flos": 20667525050880.0,
      "grad_norm": 2.1235179734962726,
      "language_loss": 0.66001475,
      "learning_rate": 1.1009839112594471e-06,
      "loss": 0.68195915,
      "num_input_tokens_seen": 117945590,
      "step": 5480,
      "time_per_iteration": 2.667302131652832
    },
    {
      "auxiliary_loss_clip": 0.01169667,
      "auxiliary_loss_mlp": 0.01027325,
      "balance_loss_clip": 1.04907811,
      "balance_loss_mlp": 1.01902533,
      "epoch": 0.6590512835928576,
      "flos": 25630595055360.0,
      "grad_norm": 3.6198856443150897,
      "language_loss": 0.71734583,
      "learning_rate": 1.1002881425692638e-06,
      "loss": 0.73931575,
      "num_input_tokens_seen": 117966020,
      "step": 5481,
      "time_per_iteration": 2.7430918216705322
    },
    {
      "auxiliary_loss_clip": 0.01159721,
      "auxiliary_loss_mlp": 0.01028925,
      "balance_loss_clip": 1.04599905,
      "balance_loss_mlp": 1.02012777,
      "epoch": 0.6591715264834966,
      "flos": 23726108044800.0,
      "grad_norm": 2.6263961613648643,
      "language_loss": 0.75612676,
      "learning_rate": 1.0995925103646532e-06,
      "loss": 0.77801323,
      "num_input_tokens_seen": 117984620,
      "step": 5482,
      "time_per_iteration": 2.7425119876861572
    },
    {
      "auxiliary_loss_clip": 0.01139521,
      "auxiliary_loss_mlp": 0.01030057,
      "balance_loss_clip": 1.04491973,
      "balance_loss_mlp": 1.02214801,
      "epoch": 0.6592917693741358,
      "flos": 35773850822400.0,
      "grad_norm": 1.5301576419541623,
      "language_loss": 0.6669786,
      "learning_rate": 1.0988970147511437e-06,
      "loss": 0.68867439,
      "num_input_tokens_seen": 118006500,
      "step": 5483,
      "time_per_iteration": 2.8300111293792725
    },
    {
      "auxiliary_loss_clip": 0.01159868,
      "auxiliary_loss_mlp": 0.01029449,
      "balance_loss_clip": 1.05020785,
      "balance_loss_mlp": 1.02150929,
      "epoch": 0.6594120122647749,
      "flos": 21396834794880.0,
      "grad_norm": 4.019488604937722,
      "language_loss": 0.80503654,
      "learning_rate": 1.0982016558342405e-06,
      "loss": 0.82692969,
      "num_input_tokens_seen": 118025470,
      "step": 5484,
      "time_per_iteration": 2.703420639038086
    },
    {
      "auxiliary_loss_clip": 0.01179308,
      "auxiliary_loss_mlp": 0.01025949,
      "balance_loss_clip": 1.05131316,
      "balance_loss_mlp": 1.0174787,
      "epoch": 0.6595322551554139,
      "flos": 19351829779200.0,
      "grad_norm": 1.8722404337577427,
      "language_loss": 0.70887667,
      "learning_rate": 1.0975064337194291e-06,
      "loss": 0.73092926,
      "num_input_tokens_seen": 118043515,
      "step": 5485,
      "time_per_iteration": 3.5215415954589844
    },
    {
      "auxiliary_loss_clip": 0.0113919,
      "auxiliary_loss_mlp": 0.01029659,
      "balance_loss_clip": 1.0417974,
      "balance_loss_mlp": 1.0221312,
      "epoch": 0.6596524980460531,
      "flos": 16837113588480.0,
      "grad_norm": 4.956230248208013,
      "language_loss": 0.70529163,
      "learning_rate": 1.0968113485121743e-06,
      "loss": 0.72698015,
      "num_input_tokens_seen": 118063105,
      "step": 5486,
      "time_per_iteration": 2.6781411170959473
    },
    {
      "auxiliary_loss_clip": 0.01168961,
      "auxiliary_loss_mlp": 0.0088753,
      "balance_loss_clip": 1.04784858,
      "balance_loss_mlp": 1.00052094,
      "epoch": 0.6597727409366921,
      "flos": 21798567480960.0,
      "grad_norm": 1.8847974183316833,
      "language_loss": 0.80126953,
      "learning_rate": 1.0961164003179185e-06,
      "loss": 0.82183444,
      "num_input_tokens_seen": 118081615,
      "step": 5487,
      "time_per_iteration": 2.6842551231384277
    },
    {
      "auxiliary_loss_clip": 0.01143772,
      "auxiliary_loss_mlp": 0.01027795,
      "balance_loss_clip": 1.04334068,
      "balance_loss_mlp": 1.01939631,
      "epoch": 0.6598929838273312,
      "flos": 23730704985600.0,
      "grad_norm": 2.3390270507060293,
      "language_loss": 0.84190959,
      "learning_rate": 1.0954215892420884e-06,
      "loss": 0.86362529,
      "num_input_tokens_seen": 118102315,
      "step": 5488,
      "time_per_iteration": 3.718846321105957
    },
    {
      "auxiliary_loss_clip": 0.01150738,
      "auxiliary_loss_mlp": 0.01030823,
      "balance_loss_clip": 1.0463146,
      "balance_loss_mlp": 1.02277052,
      "epoch": 0.6600132267179702,
      "flos": 19974520978560.0,
      "grad_norm": 1.8700180914242317,
      "language_loss": 0.70577717,
      "learning_rate": 1.094726915390082e-06,
      "loss": 0.72759283,
      "num_input_tokens_seen": 118120650,
      "step": 5489,
      "time_per_iteration": 2.6699132919311523
    },
    {
      "auxiliary_loss_clip": 0.01169245,
      "auxiliary_loss_mlp": 0.01028255,
      "balance_loss_clip": 1.05092239,
      "balance_loss_mlp": 1.01987422,
      "epoch": 0.6601334696086094,
      "flos": 22342649765760.0,
      "grad_norm": 2.928035203733415,
      "language_loss": 0.70062071,
      "learning_rate": 1.0940323788672836e-06,
      "loss": 0.72259569,
      "num_input_tokens_seen": 118139825,
      "step": 5490,
      "time_per_iteration": 2.6502084732055664
    },
    {
      "auxiliary_loss_clip": 0.01163457,
      "auxiliary_loss_mlp": 0.01027212,
      "balance_loss_clip": 1.04861152,
      "balance_loss_mlp": 1.01880205,
      "epoch": 0.6602537124992485,
      "flos": 25703098657920.0,
      "grad_norm": 1.6536262320727309,
      "language_loss": 0.73732525,
      "learning_rate": 1.0933379797790522e-06,
      "loss": 0.75923193,
      "num_input_tokens_seen": 118159240,
      "step": 5491,
      "time_per_iteration": 3.5633697509765625
    },
    {
      "auxiliary_loss_clip": 0.01176016,
      "auxiliary_loss_mlp": 0.01028723,
      "balance_loss_clip": 1.05001199,
      "balance_loss_mlp": 1.01984811,
      "epoch": 0.6603739553898875,
      "flos": 25848572739840.0,
      "grad_norm": 3.2216118163434144,
      "language_loss": 0.71319509,
      "learning_rate": 1.0926437182307293e-06,
      "loss": 0.73524249,
      "num_input_tokens_seen": 118178050,
      "step": 5492,
      "time_per_iteration": 2.659065008163452
    },
    {
      "auxiliary_loss_clip": 0.01158751,
      "auxiliary_loss_mlp": 0.01024259,
      "balance_loss_clip": 1.04466152,
      "balance_loss_mlp": 1.01642132,
      "epoch": 0.6604941982805267,
      "flos": 24570296461440.0,
      "grad_norm": 1.8175973070333225,
      "language_loss": 0.78096098,
      "learning_rate": 1.0919495943276338e-06,
      "loss": 0.80279106,
      "num_input_tokens_seen": 118199070,
      "step": 5493,
      "time_per_iteration": 2.6811037063598633
    },
    {
      "auxiliary_loss_clip": 0.01148567,
      "auxiliary_loss_mlp": 0.01027184,
      "balance_loss_clip": 1.04188323,
      "balance_loss_mlp": 1.01871419,
      "epoch": 0.6606144411711657,
      "flos": 13261775581440.0,
      "grad_norm": 6.741616068309619,
      "language_loss": 0.77024078,
      "learning_rate": 1.0912556081750611e-06,
      "loss": 0.79199827,
      "num_input_tokens_seen": 118217000,
      "step": 5494,
      "time_per_iteration": 2.682370662689209
    },
    {
      "auxiliary_loss_clip": 0.01152847,
      "auxiliary_loss_mlp": 0.01028483,
      "balance_loss_clip": 1.04728103,
      "balance_loss_mlp": 1.02048969,
      "epoch": 0.6607346840618048,
      "flos": 25155281358720.0,
      "grad_norm": 1.6624351337934182,
      "language_loss": 0.76259387,
      "learning_rate": 1.0905617598782909e-06,
      "loss": 0.78440714,
      "num_input_tokens_seen": 118237205,
      "step": 5495,
      "time_per_iteration": 2.6516647338867188
    },
    {
      "auxiliary_loss_clip": 0.0112968,
      "auxiliary_loss_mlp": 0.01028358,
      "balance_loss_clip": 1.04065466,
      "balance_loss_mlp": 1.02039528,
      "epoch": 0.660854926952444,
      "flos": 17638029095040.0,
      "grad_norm": 2.5339002242533253,
      "language_loss": 0.81259155,
      "learning_rate": 1.0898680495425775e-06,
      "loss": 0.83417189,
      "num_input_tokens_seen": 118255495,
      "step": 5496,
      "time_per_iteration": 3.5621182918548584
    },
    {
      "auxiliary_loss_clip": 0.01161067,
      "auxiliary_loss_mlp": 0.01028037,
      "balance_loss_clip": 1.04713786,
      "balance_loss_mlp": 1.02013922,
      "epoch": 0.660975169843083,
      "flos": 16836000266880.0,
      "grad_norm": 1.9040694043237953,
      "language_loss": 0.80318445,
      "learning_rate": 1.0891744772731594e-06,
      "loss": 0.82507551,
      "num_input_tokens_seen": 118273310,
      "step": 5497,
      "time_per_iteration": 2.639721393585205
    },
    {
      "auxiliary_loss_clip": 0.01168818,
      "auxiliary_loss_mlp": 0.01027539,
      "balance_loss_clip": 1.04906631,
      "balance_loss_mlp": 1.01972187,
      "epoch": 0.6610954127337221,
      "flos": 26870410846080.0,
      "grad_norm": 1.7205952381252603,
      "language_loss": 0.65825403,
      "learning_rate": 1.088481043175248e-06,
      "loss": 0.68021762,
      "num_input_tokens_seen": 118293880,
      "step": 5498,
      "time_per_iteration": 2.668752431869507
    },
    {
      "auxiliary_loss_clip": 0.01145261,
      "auxiliary_loss_mlp": 0.01027275,
      "balance_loss_clip": 1.04234838,
      "balance_loss_mlp": 1.01926982,
      "epoch": 0.6612156556243612,
      "flos": 26465697331200.0,
      "grad_norm": 1.6415820316352747,
      "language_loss": 0.75542808,
      "learning_rate": 1.0877877473540368e-06,
      "loss": 0.77715349,
      "num_input_tokens_seen": 118314465,
      "step": 5499,
      "time_per_iteration": 2.7428176403045654
    },
    {
      "auxiliary_loss_clip": 0.01177712,
      "auxiliary_loss_mlp": 0.01028823,
      "balance_loss_clip": 1.05080843,
      "balance_loss_mlp": 1.02060366,
      "epoch": 0.6613358985150003,
      "flos": 19791915212160.0,
      "grad_norm": 2.0717309135653688,
      "language_loss": 0.72532225,
      "learning_rate": 1.0870945899147002e-06,
      "loss": 0.74738759,
      "num_input_tokens_seen": 118331110,
      "step": 5500,
      "time_per_iteration": 2.561964988708496
    },
    {
      "auxiliary_loss_clip": 0.01166567,
      "auxiliary_loss_mlp": 0.01026155,
      "balance_loss_clip": 1.05001831,
      "balance_loss_mlp": 1.01865721,
      "epoch": 0.6614561414056394,
      "flos": 26831627136000.0,
      "grad_norm": 1.8567361850081638,
      "language_loss": 0.76157951,
      "learning_rate": 1.0864015709623879e-06,
      "loss": 0.78350669,
      "num_input_tokens_seen": 118351980,
      "step": 5501,
      "time_per_iteration": 2.6979806423187256
    },
    {
      "auxiliary_loss_clip": 0.01169803,
      "auxiliary_loss_mlp": 0.01026248,
      "balance_loss_clip": 1.04805326,
      "balance_loss_mlp": 1.01773024,
      "epoch": 0.6615763842962785,
      "flos": 22894597128960.0,
      "grad_norm": 2.2175726924227015,
      "language_loss": 0.8000958,
      "learning_rate": 1.0857086906022313e-06,
      "loss": 0.82205629,
      "num_input_tokens_seen": 118370315,
      "step": 5502,
      "time_per_iteration": 2.60435152053833
    },
    {
      "auxiliary_loss_clip": 0.01115513,
      "auxiliary_loss_mlp": 0.01025964,
      "balance_loss_clip": 1.04201221,
      "balance_loss_mlp": 1.01768494,
      "epoch": 0.6616966271869176,
      "flos": 24790321221120.0,
      "grad_norm": 2.1259926327370553,
      "language_loss": 0.73137748,
      "learning_rate": 1.0850159489393388e-06,
      "loss": 0.75279224,
      "num_input_tokens_seen": 118389575,
      "step": 5503,
      "time_per_iteration": 2.790513515472412
    },
    {
      "auxiliary_loss_clip": 0.01139873,
      "auxiliary_loss_mlp": 0.0102838,
      "balance_loss_clip": 1.0401895,
      "balance_loss_mlp": 1.01981485,
      "epoch": 0.6618168700775566,
      "flos": 17202109639680.0,
      "grad_norm": 2.7081589240565798,
      "language_loss": 0.82035267,
      "learning_rate": 1.0843233460787992e-06,
      "loss": 0.84203517,
      "num_input_tokens_seen": 118406790,
      "step": 5504,
      "time_per_iteration": 2.655442237854004
    },
    {
      "auxiliary_loss_clip": 0.01134788,
      "auxiliary_loss_mlp": 0.01029278,
      "balance_loss_clip": 1.04590964,
      "balance_loss_mlp": 1.02126729,
      "epoch": 0.6619371129681958,
      "flos": 25447091448960.0,
      "grad_norm": 1.8696826985289805,
      "language_loss": 0.78034687,
      "learning_rate": 1.0836308821256805e-06,
      "loss": 0.80198753,
      "num_input_tokens_seen": 118427590,
      "step": 5505,
      "time_per_iteration": 2.753875494003296
    },
    {
      "auxiliary_loss_clip": 0.01161491,
      "auxiliary_loss_mlp": 0.01027347,
      "balance_loss_clip": 1.04749668,
      "balance_loss_mlp": 1.01991439,
      "epoch": 0.6620573558588349,
      "flos": 18040444139520.0,
      "grad_norm": 2.0648064406723647,
      "language_loss": 0.78109598,
      "learning_rate": 1.0829385571850282e-06,
      "loss": 0.80298436,
      "num_input_tokens_seen": 118444570,
      "step": 5506,
      "time_per_iteration": 2.6130685806274414
    },
    {
      "auxiliary_loss_clip": 0.01179338,
      "auxiliary_loss_mlp": 0.01030239,
      "balance_loss_clip": 1.04917359,
      "balance_loss_mlp": 1.02136397,
      "epoch": 0.6621775987494739,
      "flos": 17785586165760.0,
      "grad_norm": 3.3394785030744334,
      "language_loss": 0.83601421,
      "learning_rate": 1.0822463713618679e-06,
      "loss": 0.85811001,
      "num_input_tokens_seen": 118461425,
      "step": 5507,
      "time_per_iteration": 2.6030290126800537
    },
    {
      "auxiliary_loss_clip": 0.01149657,
      "auxiliary_loss_mlp": 0.01026982,
      "balance_loss_clip": 1.0451777,
      "balance_loss_mlp": 1.01953411,
      "epoch": 0.6622978416401131,
      "flos": 17492590926720.0,
      "grad_norm": 5.076971574542501,
      "language_loss": 0.85134935,
      "learning_rate": 1.0815543247612034e-06,
      "loss": 0.87311578,
      "num_input_tokens_seen": 118478495,
      "step": 5508,
      "time_per_iteration": 2.74082088470459
    },
    {
      "auxiliary_loss_clip": 0.0115219,
      "auxiliary_loss_mlp": 0.01027607,
      "balance_loss_clip": 1.04050708,
      "balance_loss_mlp": 1.01965022,
      "epoch": 0.6624180845307521,
      "flos": 21648352803840.0,
      "grad_norm": 1.6376930486208892,
      "language_loss": 0.8299467,
      "learning_rate": 1.0808624174880168e-06,
      "loss": 0.85174465,
      "num_input_tokens_seen": 118499145,
      "step": 5509,
      "time_per_iteration": 2.7228009700775146
    },
    {
      "auxiliary_loss_clip": 0.01173473,
      "auxiliary_loss_mlp": 0.0102949,
      "balance_loss_clip": 1.04967332,
      "balance_loss_mlp": 1.02216506,
      "epoch": 0.6625383274213912,
      "flos": 23805902108160.0,
      "grad_norm": 1.6293438651876133,
      "language_loss": 0.80085135,
      "learning_rate": 1.080170649647272e-06,
      "loss": 0.82288098,
      "num_input_tokens_seen": 118518950,
      "step": 5510,
      "time_per_iteration": 2.5903496742248535
    },
    {
      "auxiliary_loss_clip": 0.01172048,
      "auxiliary_loss_mlp": 0.01026307,
      "balance_loss_clip": 1.04760623,
      "balance_loss_mlp": 1.01846945,
      "epoch": 0.6626585703120303,
      "flos": 33262941473280.0,
      "grad_norm": 1.9275894277603303,
      "language_loss": 0.67594844,
      "learning_rate": 1.0794790213439068e-06,
      "loss": 0.697932,
      "num_input_tokens_seen": 118545850,
      "step": 5511,
      "time_per_iteration": 4.230513095855713
    },
    {
      "auxiliary_loss_clip": 0.01138207,
      "auxiliary_loss_mlp": 0.01032452,
      "balance_loss_clip": 1.04372823,
      "balance_loss_mlp": 1.02391684,
      "epoch": 0.6627788132026694,
      "flos": 22085780630400.0,
      "grad_norm": 2.7043217725272304,
      "language_loss": 0.78893685,
      "learning_rate": 1.078787532682843e-06,
      "loss": 0.81064349,
      "num_input_tokens_seen": 118563325,
      "step": 5512,
      "time_per_iteration": 2.8083345890045166
    },
    {
      "auxiliary_loss_clip": 0.01164309,
      "auxiliary_loss_mlp": 0.01026982,
      "balance_loss_clip": 1.04820657,
      "balance_loss_mlp": 1.01941514,
      "epoch": 0.6628990560933085,
      "flos": 36173608260480.0,
      "grad_norm": 2.4600686449706664,
      "language_loss": 0.75706685,
      "learning_rate": 1.0780961837689773e-06,
      "loss": 0.77897978,
      "num_input_tokens_seen": 118582835,
      "step": 5513,
      "time_per_iteration": 2.7986443042755127
    },
    {
      "auxiliary_loss_clip": 0.01148846,
      "auxiliary_loss_mlp": 0.01024975,
      "balance_loss_clip": 1.04747677,
      "balance_loss_mlp": 1.01736379,
      "epoch": 0.6630192989839476,
      "flos": 18513567106560.0,
      "grad_norm": 1.6968027427203018,
      "language_loss": 0.7013765,
      "learning_rate": 1.0774049747071883e-06,
      "loss": 0.72311467,
      "num_input_tokens_seen": 118600715,
      "step": 5514,
      "time_per_iteration": 3.575856924057007
    },
    {
      "auxiliary_loss_clip": 0.01137513,
      "auxiliary_loss_mlp": 0.01024825,
      "balance_loss_clip": 1.04834557,
      "balance_loss_mlp": 1.01716006,
      "epoch": 0.6631395418745867,
      "flos": 35809510049280.0,
      "grad_norm": 1.9343275709428795,
      "language_loss": 0.68085361,
      "learning_rate": 1.076713905602332e-06,
      "loss": 0.70247698,
      "num_input_tokens_seen": 118621290,
      "step": 5515,
      "time_per_iteration": 2.885429859161377
    },
    {
      "auxiliary_loss_clip": 0.01172125,
      "auxiliary_loss_mlp": 0.01029316,
      "balance_loss_clip": 1.05158401,
      "balance_loss_mlp": 1.02177644,
      "epoch": 0.6632597847652257,
      "flos": 20047742853120.0,
      "grad_norm": 1.8262600345482858,
      "language_loss": 0.81116045,
      "learning_rate": 1.07602297655924e-06,
      "loss": 0.83317488,
      "num_input_tokens_seen": 118639610,
      "step": 5516,
      "time_per_iteration": 2.615389108657837
    },
    {
      "auxiliary_loss_clip": 0.01175525,
      "auxiliary_loss_mlp": 0.01029808,
      "balance_loss_clip": 1.05080366,
      "balance_loss_mlp": 1.02223468,
      "epoch": 0.6633800276558649,
      "flos": 21214480423680.0,
      "grad_norm": 1.7897171591955305,
      "language_loss": 0.81087136,
      "learning_rate": 1.0753321876827292e-06,
      "loss": 0.83292466,
      "num_input_tokens_seen": 118658895,
      "step": 5517,
      "time_per_iteration": 3.4604005813598633
    },
    {
      "auxiliary_loss_clip": 0.01174437,
      "auxiliary_loss_mlp": 0.01024151,
      "balance_loss_clip": 1.04767311,
      "balance_loss_mlp": 1.01619422,
      "epoch": 0.663500270546504,
      "flos": 23987753688960.0,
      "grad_norm": 2.4600382539499366,
      "language_loss": 0.74432814,
      "learning_rate": 1.0746415390775893e-06,
      "loss": 0.76631403,
      "num_input_tokens_seen": 118677025,
      "step": 5518,
      "time_per_iteration": 2.611541986465454
    },
    {
      "auxiliary_loss_clip": 0.01176561,
      "auxiliary_loss_mlp": 0.01026038,
      "balance_loss_clip": 1.05096173,
      "balance_loss_mlp": 1.01872468,
      "epoch": 0.663620513437143,
      "flos": 17932389050880.0,
      "grad_norm": 1.7502668769146577,
      "language_loss": 0.76428312,
      "learning_rate": 1.0739510308485939e-06,
      "loss": 0.78630912,
      "num_input_tokens_seen": 118694240,
      "step": 5519,
      "time_per_iteration": 2.6413466930389404
    },
    {
      "auxiliary_loss_clip": 0.01057685,
      "auxiliary_loss_mlp": 0.01001092,
      "balance_loss_clip": 1.0129993,
      "balance_loss_mlp": 0.99989384,
      "epoch": 0.6637407563277821,
      "flos": 57840241086720.0,
      "grad_norm": 0.8119427016513759,
      "language_loss": 0.62488312,
      "learning_rate": 1.07326066310049e-06,
      "loss": 0.64547086,
      "num_input_tokens_seen": 118758365,
      "step": 5520,
      "time_per_iteration": 3.3198697566986084
    },
    {
      "auxiliary_loss_clip": 0.01143223,
      "auxiliary_loss_mlp": 0.01028332,
      "balance_loss_clip": 1.04411638,
      "balance_loss_mlp": 1.01977897,
      "epoch": 0.6638609992184212,
      "flos": 27306007079040.0,
      "grad_norm": 2.0826909815383394,
      "language_loss": 0.79402798,
      "learning_rate": 1.0725704359380059e-06,
      "loss": 0.81574357,
      "num_input_tokens_seen": 118778220,
      "step": 5521,
      "time_per_iteration": 3.6982452869415283
    },
    {
      "auxiliary_loss_clip": 0.01177246,
      "auxiliary_loss_mlp": 0.01028835,
      "balance_loss_clip": 1.05067229,
      "balance_loss_mlp": 1.02100921,
      "epoch": 0.6639812421090603,
      "flos": 18624854419200.0,
      "grad_norm": 1.7576395204446102,
      "language_loss": 0.72394216,
      "learning_rate": 1.0718803494658497e-06,
      "loss": 0.74600303,
      "num_input_tokens_seen": 118797110,
      "step": 5522,
      "time_per_iteration": 2.587186813354492
    },
    {
      "auxiliary_loss_clip": 0.01097437,
      "auxiliary_loss_mlp": 0.01027613,
      "balance_loss_clip": 1.03589904,
      "balance_loss_mlp": 1.0198822,
      "epoch": 0.6641014849996993,
      "flos": 15924479806080.0,
      "grad_norm": 2.0890002362958358,
      "language_loss": 0.83775151,
      "learning_rate": 1.071190403788707e-06,
      "loss": 0.85900211,
      "num_input_tokens_seen": 118812415,
      "step": 5523,
      "time_per_iteration": 3.0049374103546143
    },
    {
      "auxiliary_loss_clip": 0.01154324,
      "auxiliary_loss_mlp": 0.01027855,
      "balance_loss_clip": 1.04821086,
      "balance_loss_mlp": 1.01947427,
      "epoch": 0.6642217278903385,
      "flos": 26505486622080.0,
      "grad_norm": 1.8037347923472644,
      "language_loss": 0.75789094,
      "learning_rate": 1.0705005990112415e-06,
      "loss": 0.77971268,
      "num_input_tokens_seen": 118832195,
      "step": 5524,
      "time_per_iteration": 2.923595428466797
    },
    {
      "auxiliary_loss_clip": 0.01127745,
      "auxiliary_loss_mlp": 0.01029537,
      "balance_loss_clip": 1.04546356,
      "balance_loss_mlp": 1.02122831,
      "epoch": 0.6643419707809776,
      "flos": 15377308951680.0,
      "grad_norm": 2.7824019103467443,
      "language_loss": 0.74600357,
      "learning_rate": 1.0698109352380957e-06,
      "loss": 0.7675764,
      "num_input_tokens_seen": 118849795,
      "step": 5525,
      "time_per_iteration": 2.7093844413757324
    },
    {
      "auxiliary_loss_clip": 0.01173079,
      "auxiliary_loss_mlp": 0.01028551,
      "balance_loss_clip": 1.04794097,
      "balance_loss_mlp": 1.02069569,
      "epoch": 0.6644622136716166,
      "flos": 25117610970240.0,
      "grad_norm": 2.207368696921295,
      "language_loss": 0.77939248,
      "learning_rate": 1.0691214125738909e-06,
      "loss": 0.80140877,
      "num_input_tokens_seen": 118870000,
      "step": 5526,
      "time_per_iteration": 2.616770029067993
    },
    {
      "auxiliary_loss_clip": 0.01069295,
      "auxiliary_loss_mlp": 0.01002055,
      "balance_loss_clip": 1.01181602,
      "balance_loss_mlp": 1.00102985,
      "epoch": 0.6645824565622558,
      "flos": 66201717680640.0,
      "grad_norm": 0.7873692145842041,
      "language_loss": 0.57487261,
      "learning_rate": 1.0684320311232287e-06,
      "loss": 0.59558618,
      "num_input_tokens_seen": 118932905,
      "step": 5527,
      "time_per_iteration": 3.25624418258667
    },
    {
      "auxiliary_loss_clip": 0.01148089,
      "auxiliary_loss_mlp": 0.01024239,
      "balance_loss_clip": 1.04295087,
      "balance_loss_mlp": 1.01655543,
      "epoch": 0.6647026994528948,
      "flos": 25082131311360.0,
      "grad_norm": 1.7716033943899936,
      "language_loss": 0.8145541,
      "learning_rate": 1.0677427909906865e-06,
      "loss": 0.83627737,
      "num_input_tokens_seen": 118953355,
      "step": 5528,
      "time_per_iteration": 2.628262996673584
    },
    {
      "auxiliary_loss_clip": 0.01177863,
      "auxiliary_loss_mlp": 0.01026287,
      "balance_loss_clip": 1.0489161,
      "balance_loss_mlp": 1.01847303,
      "epoch": 0.6648229423435339,
      "flos": 18222187979520.0,
      "grad_norm": 4.157471743792509,
      "language_loss": 0.72081196,
      "learning_rate": 1.0670536922808216e-06,
      "loss": 0.74285352,
      "num_input_tokens_seen": 118973480,
      "step": 5529,
      "time_per_iteration": 2.6219491958618164
    },
    {
      "auxiliary_loss_clip": 0.01156746,
      "auxiliary_loss_mlp": 0.01029517,
      "balance_loss_clip": 1.04813218,
      "balance_loss_mlp": 1.02155948,
      "epoch": 0.6649431852341731,
      "flos": 18296882311680.0,
      "grad_norm": 2.5200905888486167,
      "language_loss": 0.71802348,
      "learning_rate": 1.06636473509817e-06,
      "loss": 0.73988605,
      "num_input_tokens_seen": 118989860,
      "step": 5530,
      "time_per_iteration": 2.6335361003875732
    },
    {
      "auxiliary_loss_clip": 0.01151933,
      "auxiliary_loss_mlp": 0.00887587,
      "balance_loss_clip": 1.04560339,
      "balance_loss_mlp": 1.0006367,
      "epoch": 0.6650634281248121,
      "flos": 17019575700480.0,
      "grad_norm": 2.0303591763070377,
      "language_loss": 0.80783987,
      "learning_rate": 1.0656759195472447e-06,
      "loss": 0.82823503,
      "num_input_tokens_seen": 119007150,
      "step": 5531,
      "time_per_iteration": 2.659259796142578
    },
    {
      "auxiliary_loss_clip": 0.01055175,
      "auxiliary_loss_mlp": 0.0100281,
      "balance_loss_clip": 1.01087427,
      "balance_loss_mlp": 1.00176096,
      "epoch": 0.6651836710154512,
      "flos": 69294810666240.0,
      "grad_norm": 0.7806903702802006,
      "language_loss": 0.59754872,
      "learning_rate": 1.0649872457325414e-06,
      "loss": 0.6181286,
      "num_input_tokens_seen": 119068435,
      "step": 5532,
      "time_per_iteration": 3.2078752517700195
    },
    {
      "auxiliary_loss_clip": 0.01065031,
      "auxiliary_loss_mlp": 0.0100099,
      "balance_loss_clip": 1.01125383,
      "balance_loss_mlp": 0.99989301,
      "epoch": 0.6653039139060903,
      "flos": 66883444882560.0,
      "grad_norm": 0.854577182100671,
      "language_loss": 0.55164623,
      "learning_rate": 1.0642987137585278e-06,
      "loss": 0.57230651,
      "num_input_tokens_seen": 119127960,
      "step": 5533,
      "time_per_iteration": 3.1786043643951416
    },
    {
      "auxiliary_loss_clip": 0.0115329,
      "auxiliary_loss_mlp": 0.01028878,
      "balance_loss_clip": 1.04573512,
      "balance_loss_mlp": 1.02089429,
      "epoch": 0.6654241567967294,
      "flos": 21470056669440.0,
      "grad_norm": 1.9311607843791063,
      "language_loss": 0.82639492,
      "learning_rate": 1.0636103237296561e-06,
      "loss": 0.84821659,
      "num_input_tokens_seen": 119146885,
      "step": 5534,
      "time_per_iteration": 2.7473371028900146
    },
    {
      "auxiliary_loss_clip": 0.01166261,
      "auxiliary_loss_mlp": 0.01027132,
      "balance_loss_clip": 1.05258095,
      "balance_loss_mlp": 1.01990187,
      "epoch": 0.6655443996873684,
      "flos": 25119514391040.0,
      "grad_norm": 1.9870236154195942,
      "language_loss": 0.84533489,
      "learning_rate": 1.062922075750353e-06,
      "loss": 0.8672688,
      "num_input_tokens_seen": 119166900,
      "step": 5535,
      "time_per_iteration": 2.7603821754455566
    },
    {
      "auxiliary_loss_clip": 0.01146834,
      "auxiliary_loss_mlp": 0.01022807,
      "balance_loss_clip": 1.04259896,
      "balance_loss_mlp": 1.01555943,
      "epoch": 0.6656646425780076,
      "flos": 17457326749440.0,
      "grad_norm": 2.5242153151368667,
      "language_loss": 0.71979344,
      "learning_rate": 1.0622339699250267e-06,
      "loss": 0.74148989,
      "num_input_tokens_seen": 119184820,
      "step": 5536,
      "time_per_iteration": 2.742424964904785
    },
    {
      "auxiliary_loss_clip": 0.01147911,
      "auxiliary_loss_mlp": 0.01025165,
      "balance_loss_clip": 1.04462624,
      "balance_loss_mlp": 1.01774991,
      "epoch": 0.6657848854686467,
      "flos": 23434190213760.0,
      "grad_norm": 1.866615273817088,
      "language_loss": 0.79691529,
      "learning_rate": 1.0615460063580624e-06,
      "loss": 0.81864607,
      "num_input_tokens_seen": 119203295,
      "step": 5537,
      "time_per_iteration": 3.67921781539917
    },
    {
      "auxiliary_loss_clip": 0.01158591,
      "auxiliary_loss_mlp": 0.01023188,
      "balance_loss_clip": 1.0464468,
      "balance_loss_mlp": 1.01571345,
      "epoch": 0.6659051283592857,
      "flos": 11509909459200.0,
      "grad_norm": 1.7886251033177274,
      "language_loss": 0.72664529,
      "learning_rate": 1.060858185153821e-06,
      "loss": 0.74846309,
      "num_input_tokens_seen": 119221395,
      "step": 5538,
      "time_per_iteration": 2.633920907974243
    },
    {
      "auxiliary_loss_clip": 0.01159112,
      "auxiliary_loss_mlp": 0.01025584,
      "balance_loss_clip": 1.04591691,
      "balance_loss_mlp": 1.01716805,
      "epoch": 0.6660253712499249,
      "flos": 20594554571520.0,
      "grad_norm": 3.3056271057724884,
      "language_loss": 0.76653326,
      "learning_rate": 1.0601705064166474e-06,
      "loss": 0.78838021,
      "num_input_tokens_seen": 119239790,
      "step": 5539,
      "time_per_iteration": 2.6938180923461914
    },
    {
      "auxiliary_loss_clip": 0.01151058,
      "auxiliary_loss_mlp": 0.01033904,
      "balance_loss_clip": 1.04692078,
      "balance_loss_mlp": 1.02633989,
      "epoch": 0.666145614140564,
      "flos": 21251504367360.0,
      "grad_norm": 2.900301197354783,
      "language_loss": 0.73404098,
      "learning_rate": 1.0594829702508596e-06,
      "loss": 0.75589061,
      "num_input_tokens_seen": 119257505,
      "step": 5540,
      "time_per_iteration": 3.7751708030700684
    },
    {
      "auxiliary_loss_clip": 0.0114561,
      "auxiliary_loss_mlp": 0.01025205,
      "balance_loss_clip": 1.04293728,
      "balance_loss_mlp": 1.01779568,
      "epoch": 0.666265857031203,
      "flos": 33726188200320.0,
      "grad_norm": 2.5215829594975516,
      "language_loss": 0.5528127,
      "learning_rate": 1.0587955767607592e-06,
      "loss": 0.57452089,
      "num_input_tokens_seen": 119279365,
      "step": 5541,
      "time_per_iteration": 2.8824737071990967
    },
    {
      "auxiliary_loss_clip": 0.01175402,
      "auxiliary_loss_mlp": 0.01026003,
      "balance_loss_clip": 1.04874349,
      "balance_loss_mlp": 1.01833212,
      "epoch": 0.6663860999218422,
      "flos": 17456644391040.0,
      "grad_norm": 2.520331752049905,
      "language_loss": 0.76854295,
      "learning_rate": 1.0581083260506206e-06,
      "loss": 0.79055703,
      "num_input_tokens_seen": 119296150,
      "step": 5542,
      "time_per_iteration": 2.599846601486206
    },
    {
      "auxiliary_loss_clip": 0.01153812,
      "auxiliary_loss_mlp": 0.01025419,
      "balance_loss_clip": 1.04518604,
      "balance_loss_mlp": 1.01742005,
      "epoch": 0.6665063428124812,
      "flos": 17676740977920.0,
      "grad_norm": 2.3065134236107827,
      "language_loss": 0.76235008,
      "learning_rate": 1.0574212182246993e-06,
      "loss": 0.78414237,
      "num_input_tokens_seen": 119314845,
      "step": 5543,
      "time_per_iteration": 3.5714070796966553
    },
    {
      "auxiliary_loss_clip": 0.01161097,
      "auxiliary_loss_mlp": 0.01025892,
      "balance_loss_clip": 1.04527855,
      "balance_loss_mlp": 1.01689196,
      "epoch": 0.6666265857031203,
      "flos": 27673265687040.0,
      "grad_norm": 2.5745834568640493,
      "language_loss": 0.76108336,
      "learning_rate": 1.0567342533872303e-06,
      "loss": 0.78295326,
      "num_input_tokens_seen": 119334875,
      "step": 5544,
      "time_per_iteration": 2.694981813430786
    },
    {
      "auxiliary_loss_clip": 0.01158022,
      "auxiliary_loss_mlp": 0.01022255,
      "balance_loss_clip": 1.04811645,
      "balance_loss_mlp": 1.01467347,
      "epoch": 0.6667468285937594,
      "flos": 25046831220480.0,
      "grad_norm": 1.6172667638969962,
      "language_loss": 0.81077111,
      "learning_rate": 1.0560474316424255e-06,
      "loss": 0.83257389,
      "num_input_tokens_seen": 119354635,
      "step": 5545,
      "time_per_iteration": 2.726982593536377
    },
    {
      "auxiliary_loss_clip": 0.01156126,
      "auxiliary_loss_mlp": 0.01028295,
      "balance_loss_clip": 1.04493952,
      "balance_loss_mlp": 1.02001572,
      "epoch": 0.6668670714843985,
      "flos": 22780472641920.0,
      "grad_norm": 2.35877421205638,
      "language_loss": 0.73712569,
      "learning_rate": 1.0553607530944746e-06,
      "loss": 0.7589699,
      "num_input_tokens_seen": 119372690,
      "step": 5546,
      "time_per_iteration": 2.7662997245788574
    },
    {
      "auxiliary_loss_clip": 0.0114697,
      "auxiliary_loss_mlp": 0.01031262,
      "balance_loss_clip": 1.04247487,
      "balance_loss_mlp": 1.02271509,
      "epoch": 0.6669873143750376,
      "flos": 22163886754560.0,
      "grad_norm": 1.8837245174256592,
      "language_loss": 0.89789355,
      "learning_rate": 1.0546742178475463e-06,
      "loss": 0.91967589,
      "num_input_tokens_seen": 119391685,
      "step": 5547,
      "time_per_iteration": 3.7298338413238525
    },
    {
      "auxiliary_loss_clip": 0.01142341,
      "auxiliary_loss_mlp": 0.01027776,
      "balance_loss_clip": 1.04464352,
      "balance_loss_mlp": 1.02044415,
      "epoch": 0.6671075572656767,
      "flos": 20514832335360.0,
      "grad_norm": 1.952343359882292,
      "language_loss": 0.87115228,
      "learning_rate": 1.0539878260057868e-06,
      "loss": 0.89285344,
      "num_input_tokens_seen": 119410725,
      "step": 5548,
      "time_per_iteration": 2.719223737716675
    },
    {
      "auxiliary_loss_clip": 0.01165176,
      "auxiliary_loss_mlp": 0.01030705,
      "balance_loss_clip": 1.048599,
      "balance_loss_mlp": 1.02202082,
      "epoch": 0.6672278001563158,
      "flos": 17931203902080.0,
      "grad_norm": 2.7828309946422474,
      "language_loss": 0.68811679,
      "learning_rate": 1.0533015776733226e-06,
      "loss": 0.71007562,
      "num_input_tokens_seen": 119426875,
      "step": 5549,
      "time_per_iteration": 2.630070686340332
    },
    {
      "auxiliary_loss_clip": 0.01153918,
      "auxiliary_loss_mlp": 0.01029614,
      "balance_loss_clip": 1.04699802,
      "balance_loss_mlp": 1.02095389,
      "epoch": 0.6673480430469548,
      "flos": 22342146975360.0,
      "grad_norm": 2.0642224662888444,
      "language_loss": 0.78528613,
      "learning_rate": 1.0526154729542566e-06,
      "loss": 0.80712146,
      "num_input_tokens_seen": 119446935,
      "step": 5550,
      "time_per_iteration": 2.621145009994507
    },
    {
      "auxiliary_loss_clip": 0.01148365,
      "auxiliary_loss_mlp": 0.01031028,
      "balance_loss_clip": 1.04857743,
      "balance_loss_mlp": 1.02256393,
      "epoch": 0.6674682859375939,
      "flos": 20703830722560.0,
      "grad_norm": 2.684458920407609,
      "language_loss": 0.80183637,
      "learning_rate": 1.0519295119526699e-06,
      "loss": 0.82363027,
      "num_input_tokens_seen": 119463240,
      "step": 5551,
      "time_per_iteration": 2.72237229347229
    },
    {
      "auxiliary_loss_clip": 0.01160193,
      "auxiliary_loss_mlp": 0.01029633,
      "balance_loss_clip": 1.04717982,
      "balance_loss_mlp": 1.02114511,
      "epoch": 0.667588528828233,
      "flos": 26206673379840.0,
      "grad_norm": 2.954837521963298,
      "language_loss": 0.82770205,
      "learning_rate": 1.0512436947726227e-06,
      "loss": 0.84960037,
      "num_input_tokens_seen": 119484655,
      "step": 5552,
      "time_per_iteration": 2.704860210418701
    },
    {
      "auxiliary_loss_clip": 0.0114879,
      "auxiliary_loss_mlp": 0.01026117,
      "balance_loss_clip": 1.04486132,
      "balance_loss_mlp": 1.01777875,
      "epoch": 0.6677087717188721,
      "flos": 23071025756160.0,
      "grad_norm": 2.4712932643217562,
      "language_loss": 0.65615499,
      "learning_rate": 1.0505580215181517e-06,
      "loss": 0.67790401,
      "num_input_tokens_seen": 119502895,
      "step": 5553,
      "time_per_iteration": 2.740471601486206
    },
    {
      "auxiliary_loss_clip": 0.01041641,
      "auxiliary_loss_mlp": 0.01003828,
      "balance_loss_clip": 1.01081169,
      "balance_loss_mlp": 1.00274968,
      "epoch": 0.6678290146095112,
      "flos": 70941315219840.0,
      "grad_norm": 0.787399363672871,
      "language_loss": 0.56637102,
      "learning_rate": 1.0498724922932753e-06,
      "loss": 0.58682567,
      "num_input_tokens_seen": 119561010,
      "step": 5554,
      "time_per_iteration": 3.2024810314178467
    },
    {
      "auxiliary_loss_clip": 0.0118266,
      "auxiliary_loss_mlp": 0.01035671,
      "balance_loss_clip": 1.05363345,
      "balance_loss_mlp": 1.0269208,
      "epoch": 0.6679492575001503,
      "flos": 18661088263680.0,
      "grad_norm": 2.01000675419669,
      "language_loss": 0.86417615,
      "learning_rate": 1.0491871072019851e-06,
      "loss": 0.88635945,
      "num_input_tokens_seen": 119578900,
      "step": 5555,
      "time_per_iteration": 2.6027095317840576
    },
    {
      "auxiliary_loss_clip": 0.01149445,
      "auxiliary_loss_mlp": 0.01025879,
      "balance_loss_clip": 1.04181206,
      "balance_loss_mlp": 1.01758802,
      "epoch": 0.6680695003907894,
      "flos": 29711985822720.0,
      "grad_norm": 1.7244852472038668,
      "language_loss": 0.63885307,
      "learning_rate": 1.0485018663482555e-06,
      "loss": 0.66060627,
      "num_input_tokens_seen": 119598920,
      "step": 5556,
      "time_per_iteration": 2.81779146194458
    },
    {
      "auxiliary_loss_clip": 0.01163098,
      "auxiliary_loss_mlp": 0.01036366,
      "balance_loss_clip": 1.04913378,
      "balance_loss_mlp": 1.02750874,
      "epoch": 0.6681897432814284,
      "flos": 28218964083840.0,
      "grad_norm": 2.7114117633001618,
      "language_loss": 0.7047385,
      "learning_rate": 1.0478167698360354e-06,
      "loss": 0.72673309,
      "num_input_tokens_seen": 119618220,
      "step": 5557,
      "time_per_iteration": 2.7215640544891357
    },
    {
      "auxiliary_loss_clip": 0.01157749,
      "auxiliary_loss_mlp": 0.01028613,
      "balance_loss_clip": 1.04452515,
      "balance_loss_mlp": 1.02080822,
      "epoch": 0.6683099861720676,
      "flos": 25046543911680.0,
      "grad_norm": 2.036822675980731,
      "language_loss": 0.70158076,
      "learning_rate": 1.0471318177692556e-06,
      "loss": 0.7234444,
      "num_input_tokens_seen": 119638520,
      "step": 5558,
      "time_per_iteration": 2.7819459438323975
    },
    {
      "auxiliary_loss_clip": 0.01139278,
      "auxiliary_loss_mlp": 0.01025886,
      "balance_loss_clip": 1.04273224,
      "balance_loss_mlp": 1.01822686,
      "epoch": 0.6684302290627067,
      "flos": 22996977868800.0,
      "grad_norm": 2.801547088145937,
      "language_loss": 0.75495869,
      "learning_rate": 1.046447010251821e-06,
      "loss": 0.77661037,
      "num_input_tokens_seen": 119655850,
      "step": 5559,
      "time_per_iteration": 2.7632057666778564
    },
    {
      "auxiliary_loss_clip": 0.01156205,
      "auxiliary_loss_mlp": 0.01024371,
      "balance_loss_clip": 1.04863667,
      "balance_loss_mlp": 1.01727772,
      "epoch": 0.6685504719533457,
      "flos": 26573824247040.0,
      "grad_norm": 1.929608441359969,
      "language_loss": 0.75804901,
      "learning_rate": 1.0457623473876157e-06,
      "loss": 0.77985477,
      "num_input_tokens_seen": 119675355,
      "step": 5560,
      "time_per_iteration": 2.6971583366394043
    },
    {
      "auxiliary_loss_clip": 0.01173217,
      "auxiliary_loss_mlp": 0.01030879,
      "balance_loss_clip": 1.04858124,
      "balance_loss_mlp": 1.02313077,
      "epoch": 0.6686707148439849,
      "flos": 28986087870720.0,
      "grad_norm": 3.620207459551563,
      "language_loss": 0.70948702,
      "learning_rate": 1.0450778292805046e-06,
      "loss": 0.73152798,
      "num_input_tokens_seen": 119695340,
      "step": 5561,
      "time_per_iteration": 2.6614692211151123
    },
    {
      "auxiliary_loss_clip": 0.01169374,
      "auxiliary_loss_mlp": 0.01027616,
      "balance_loss_clip": 1.04704905,
      "balance_loss_mlp": 1.01978445,
      "epoch": 0.6687909577346239,
      "flos": 23623152687360.0,
      "grad_norm": 2.3611441228581582,
      "language_loss": 0.78519762,
      "learning_rate": 1.0443934560343267e-06,
      "loss": 0.80716753,
      "num_input_tokens_seen": 119716750,
      "step": 5562,
      "time_per_iteration": 2.695490598678589
    },
    {
      "auxiliary_loss_clip": 0.01132874,
      "auxiliary_loss_mlp": 0.01022198,
      "balance_loss_clip": 1.04200602,
      "balance_loss_mlp": 1.01447964,
      "epoch": 0.668911200625263,
      "flos": 23148593176320.0,
      "grad_norm": 2.0599134863772774,
      "language_loss": 0.78225267,
      "learning_rate": 1.0437092277529034e-06,
      "loss": 0.80380338,
      "num_input_tokens_seen": 119736005,
      "step": 5563,
      "time_per_iteration": 3.6523659229278564
    },
    {
      "auxiliary_loss_clip": 0.01153115,
      "auxiliary_loss_mlp": 0.0102495,
      "balance_loss_clip": 1.0458169,
      "balance_loss_mlp": 1.01772928,
      "epoch": 0.6690314435159022,
      "flos": 18551919853440.0,
      "grad_norm": 1.949828870759138,
      "language_loss": 0.73531795,
      "learning_rate": 1.0430251445400292e-06,
      "loss": 0.75709867,
      "num_input_tokens_seen": 119754050,
      "step": 5564,
      "time_per_iteration": 2.6525418758392334
    },
    {
      "auxiliary_loss_clip": 0.01109695,
      "auxiliary_loss_mlp": 0.01023436,
      "balance_loss_clip": 1.04192603,
      "balance_loss_mlp": 1.01568723,
      "epoch": 0.6691516864065412,
      "flos": 31759540704000.0,
      "grad_norm": 2.153117210344631,
      "language_loss": 0.62366295,
      "learning_rate": 1.0423412064994787e-06,
      "loss": 0.64499426,
      "num_input_tokens_seen": 119774820,
      "step": 5565,
      "time_per_iteration": 3.0868985652923584
    },
    {
      "auxiliary_loss_clip": 0.01145874,
      "auxiliary_loss_mlp": 0.01025926,
      "balance_loss_clip": 1.04220963,
      "balance_loss_mlp": 1.01832068,
      "epoch": 0.6692719292971803,
      "flos": 34933864296960.0,
      "grad_norm": 1.8843379708625907,
      "language_loss": 0.73881721,
      "learning_rate": 1.0416574137350064e-06,
      "loss": 0.76053524,
      "num_input_tokens_seen": 119795525,
      "step": 5566,
      "time_per_iteration": 4.042416095733643
    },
    {
      "auxiliary_loss_clip": 0.01157928,
      "auxiliary_loss_mlp": 0.01027096,
      "balance_loss_clip": 1.04527092,
      "balance_loss_mlp": 1.01908839,
      "epoch": 0.6693921721878194,
      "flos": 20449188230400.0,
      "grad_norm": 2.056716282868532,
      "language_loss": 0.81297034,
      "learning_rate": 1.0409737663503428e-06,
      "loss": 0.83482057,
      "num_input_tokens_seen": 119813905,
      "step": 5567,
      "time_per_iteration": 2.642951250076294
    },
    {
      "auxiliary_loss_clip": 0.01163902,
      "auxiliary_loss_mlp": 0.01029309,
      "balance_loss_clip": 1.04533839,
      "balance_loss_mlp": 1.02120876,
      "epoch": 0.6695124150784585,
      "flos": 16614538963200.0,
      "grad_norm": 1.7286475617279478,
      "language_loss": 0.82926297,
      "learning_rate": 1.040290264449196e-06,
      "loss": 0.85119504,
      "num_input_tokens_seen": 119832010,
      "step": 5568,
      "time_per_iteration": 2.7014718055725098
    },
    {
      "auxiliary_loss_clip": 0.01161773,
      "auxiliary_loss_mlp": 0.01027666,
      "balance_loss_clip": 1.04908192,
      "balance_loss_mlp": 1.01988173,
      "epoch": 0.6696326579690975,
      "flos": 26652145852800.0,
      "grad_norm": 1.9114286945271899,
      "language_loss": 0.63889098,
      "learning_rate": 1.0396069081352532e-06,
      "loss": 0.66078544,
      "num_input_tokens_seen": 119851165,
      "step": 5569,
      "time_per_iteration": 3.8621344566345215
    },
    {
      "auxiliary_loss_clip": 0.0106961,
      "auxiliary_loss_mlp": 0.01001738,
      "balance_loss_clip": 1.01198864,
      "balance_loss_mlp": 1.0007422,
      "epoch": 0.6697529008597367,
      "flos": 66964603662720.0,
      "grad_norm": 0.7785316798316956,
      "language_loss": 0.56013381,
      "learning_rate": 1.0389236975121782e-06,
      "loss": 0.58084732,
      "num_input_tokens_seen": 119906015,
      "step": 5570,
      "time_per_iteration": 3.0919432640075684
    },
    {
      "auxiliary_loss_clip": 0.01176508,
      "auxiliary_loss_mlp": 0.01030076,
      "balance_loss_clip": 1.04899514,
      "balance_loss_mlp": 1.02211261,
      "epoch": 0.6698731437503758,
      "flos": 20886939279360.0,
      "grad_norm": 2.2387176294546753,
      "language_loss": 0.71224034,
      "learning_rate": 1.0382406326836147e-06,
      "loss": 0.73430622,
      "num_input_tokens_seen": 119925160,
      "step": 5571,
      "time_per_iteration": 2.6085317134857178
    },
    {
      "auxiliary_loss_clip": 0.01168441,
      "auxiliary_loss_mlp": 0.01031909,
      "balance_loss_clip": 1.04660583,
      "balance_loss_mlp": 1.02410102,
      "epoch": 0.6699933866410148,
      "flos": 20409470766720.0,
      "grad_norm": 2.262809795733494,
      "language_loss": 0.76321971,
      "learning_rate": 1.0375577137531828e-06,
      "loss": 0.78522325,
      "num_input_tokens_seen": 119943720,
      "step": 5572,
      "time_per_iteration": 2.633626699447632
    },
    {
      "auxiliary_loss_clip": 0.01161378,
      "auxiliary_loss_mlp": 0.01029642,
      "balance_loss_clip": 1.04807687,
      "balance_loss_mlp": 1.02149367,
      "epoch": 0.670113629531654,
      "flos": 29023075900800.0,
      "grad_norm": 1.5762812470694503,
      "language_loss": 0.71532381,
      "learning_rate": 1.0368749408244802e-06,
      "loss": 0.737234,
      "num_input_tokens_seen": 119966640,
      "step": 5573,
      "time_per_iteration": 3.7645702362060547
    },
    {
      "auxiliary_loss_clip": 0.01159311,
      "auxiliary_loss_mlp": 0.01025495,
      "balance_loss_clip": 1.04721713,
      "balance_loss_mlp": 1.01771116,
      "epoch": 0.670233872422293,
      "flos": 19791699730560.0,
      "grad_norm": 1.7186730596349824,
      "language_loss": 0.78803527,
      "learning_rate": 1.0361923140010836e-06,
      "loss": 0.80988336,
      "num_input_tokens_seen": 119985125,
      "step": 5574,
      "time_per_iteration": 2.6586930751800537
    },
    {
      "auxiliary_loss_clip": 0.01168817,
      "auxiliary_loss_mlp": 0.01027676,
      "balance_loss_clip": 1.04628158,
      "balance_loss_mlp": 1.01997471,
      "epoch": 0.6703541153129321,
      "flos": 24243689070720.0,
      "grad_norm": 1.9712418597146253,
      "language_loss": 0.63853723,
      "learning_rate": 1.0355098333865455e-06,
      "loss": 0.6605022,
      "num_input_tokens_seen": 120004355,
      "step": 5575,
      "time_per_iteration": 2.7009544372558594
    },
    {
      "auxiliary_loss_clip": 0.01160922,
      "auxiliary_loss_mlp": 0.01023958,
      "balance_loss_clip": 1.04892886,
      "balance_loss_mlp": 1.01629329,
      "epoch": 0.6704743582035713,
      "flos": 26688523351680.0,
      "grad_norm": 1.7904326140553104,
      "language_loss": 0.69630003,
      "learning_rate": 1.0348274990844006e-06,
      "loss": 0.71814883,
      "num_input_tokens_seen": 120027115,
      "step": 5576,
      "time_per_iteration": 2.7193479537963867
    },
    {
      "auxiliary_loss_clip": 0.01161469,
      "auxiliary_loss_mlp": 0.01030389,
      "balance_loss_clip": 1.04730773,
      "balance_loss_mlp": 1.02209759,
      "epoch": 0.6705946010942103,
      "flos": 23514379326720.0,
      "grad_norm": 2.1239423505818937,
      "language_loss": 0.72997189,
      "learning_rate": 1.034145311198155e-06,
      "loss": 0.75189054,
      "num_input_tokens_seen": 120047130,
      "step": 5577,
      "time_per_iteration": 2.662161111831665
    },
    {
      "auxiliary_loss_clip": 0.01172236,
      "auxiliary_loss_mlp": 0.01026585,
      "balance_loss_clip": 1.04784894,
      "balance_loss_mlp": 1.01860356,
      "epoch": 0.6707148439848494,
      "flos": 24061011477120.0,
      "grad_norm": 1.704332742925871,
      "language_loss": 0.63679564,
      "learning_rate": 1.0334632698312989e-06,
      "loss": 0.65878379,
      "num_input_tokens_seen": 120067925,
      "step": 5578,
      "time_per_iteration": 2.5955541133880615
    },
    {
      "auxiliary_loss_clip": 0.01148532,
      "auxiliary_loss_mlp": 0.01031012,
      "balance_loss_clip": 1.04521942,
      "balance_loss_mlp": 1.02277517,
      "epoch": 0.6708350868754885,
      "flos": 22528667324160.0,
      "grad_norm": 1.8189852275237335,
      "language_loss": 0.75569135,
      "learning_rate": 1.032781375087295e-06,
      "loss": 0.7774868,
      "num_input_tokens_seen": 120087825,
      "step": 5579,
      "time_per_iteration": 2.728015661239624
    },
    {
      "auxiliary_loss_clip": 0.01160566,
      "auxiliary_loss_mlp": 0.01028491,
      "balance_loss_clip": 1.05001271,
      "balance_loss_mlp": 1.02088249,
      "epoch": 0.6709553297661276,
      "flos": 25227749047680.0,
      "grad_norm": 1.576178163022474,
      "language_loss": 0.67585826,
      "learning_rate": 1.0320996270695891e-06,
      "loss": 0.6977489,
      "num_input_tokens_seen": 120108895,
      "step": 5580,
      "time_per_iteration": 2.7030091285705566
    },
    {
      "auxiliary_loss_clip": 0.01145633,
      "auxiliary_loss_mlp": 0.010269,
      "balance_loss_clip": 1.04242003,
      "balance_loss_mlp": 1.01885951,
      "epoch": 0.6710755726567667,
      "flos": 20448757267200.0,
      "grad_norm": 1.8576545831718136,
      "language_loss": 0.73223382,
      "learning_rate": 1.0314180258815998e-06,
      "loss": 0.75395918,
      "num_input_tokens_seen": 120127535,
      "step": 5581,
      "time_per_iteration": 2.779573678970337
    },
    {
      "auxiliary_loss_clip": 0.01133485,
      "auxiliary_loss_mlp": 0.01022926,
      "balance_loss_clip": 1.04006314,
      "balance_loss_mlp": 1.01551104,
      "epoch": 0.6711958155474057,
      "flos": 25995411538560.0,
      "grad_norm": 1.8007893453085273,
      "language_loss": 0.73874378,
      "learning_rate": 1.0307365716267247e-06,
      "loss": 0.76030791,
      "num_input_tokens_seen": 120147980,
      "step": 5582,
      "time_per_iteration": 2.7388358116149902
    },
    {
      "auxiliary_loss_clip": 0.01164647,
      "auxiliary_loss_mlp": 0.01025221,
      "balance_loss_clip": 1.04772985,
      "balance_loss_mlp": 1.0170846,
      "epoch": 0.6713160584380449,
      "flos": 19937712516480.0,
      "grad_norm": 4.016074409266886,
      "language_loss": 0.78347623,
      "learning_rate": 1.0300552644083423e-06,
      "loss": 0.80537492,
      "num_input_tokens_seen": 120166905,
      "step": 5583,
      "time_per_iteration": 2.6047611236572266
    },
    {
      "auxiliary_loss_clip": 0.01148719,
      "auxiliary_loss_mlp": 0.0103369,
      "balance_loss_clip": 1.04512191,
      "balance_loss_mlp": 1.02522039,
      "epoch": 0.6714363013286839,
      "flos": 18223373128320.0,
      "grad_norm": 3.053456817691865,
      "language_loss": 0.72891825,
      "learning_rate": 1.0293741043298036e-06,
      "loss": 0.75074232,
      "num_input_tokens_seen": 120185255,
      "step": 5584,
      "time_per_iteration": 2.7051775455474854
    },
    {
      "auxiliary_loss_clip": 0.01150833,
      "auxiliary_loss_mlp": 0.01032886,
      "balance_loss_clip": 1.04843855,
      "balance_loss_mlp": 1.02528012,
      "epoch": 0.671556544219323,
      "flos": 25812374808960.0,
      "grad_norm": 3.5531215600985133,
      "language_loss": 0.71505332,
      "learning_rate": 1.0286930914944436e-06,
      "loss": 0.73689055,
      "num_input_tokens_seen": 120205070,
      "step": 5585,
      "time_per_iteration": 2.701545476913452
    },
    {
      "auxiliary_loss_clip": 0.01175482,
      "auxiliary_loss_mlp": 0.01025289,
      "balance_loss_clip": 1.04780936,
      "balance_loss_mlp": 1.01681936,
      "epoch": 0.6716767871099621,
      "flos": 15850431918720.0,
      "grad_norm": 2.7734290384225515,
      "language_loss": 0.77767128,
      "learning_rate": 1.0280122260055684e-06,
      "loss": 0.79967898,
      "num_input_tokens_seen": 120220780,
      "step": 5586,
      "time_per_iteration": 2.6023693084716797
    },
    {
      "auxiliary_loss_clip": 0.01176911,
      "auxiliary_loss_mlp": 0.01029882,
      "balance_loss_clip": 1.04926455,
      "balance_loss_mlp": 1.02114987,
      "epoch": 0.6717970300006012,
      "flos": 19756112330880.0,
      "grad_norm": 2.365459230680812,
      "language_loss": 0.82488823,
      "learning_rate": 1.0273315079664652e-06,
      "loss": 0.84695613,
      "num_input_tokens_seen": 120238735,
      "step": 5587,
      "time_per_iteration": 2.5870628356933594
    },
    {
      "auxiliary_loss_clip": 0.01168761,
      "auxiliary_loss_mlp": 0.01027175,
      "balance_loss_clip": 1.04838169,
      "balance_loss_mlp": 1.01921761,
      "epoch": 0.6719172728912403,
      "flos": 25485049146240.0,
      "grad_norm": 2.7163848825394767,
      "language_loss": 0.74607849,
      "learning_rate": 1.0266509374803992e-06,
      "loss": 0.76803786,
      "num_input_tokens_seen": 120259895,
      "step": 5588,
      "time_per_iteration": 2.705317497253418
    },
    {
      "auxiliary_loss_clip": 0.01177791,
      "auxiliary_loss_mlp": 0.00887191,
      "balance_loss_clip": 1.04991388,
      "balance_loss_mlp": 1.00069189,
      "epoch": 0.6720375157818794,
      "flos": 15880344969600.0,
      "grad_norm": 2.3930858872011482,
      "language_loss": 0.84662223,
      "learning_rate": 1.0259705146506123e-06,
      "loss": 0.86727202,
      "num_input_tokens_seen": 120274790,
      "step": 5589,
      "time_per_iteration": 3.5631163120269775
    },
    {
      "auxiliary_loss_clip": 0.01168015,
      "auxiliary_loss_mlp": 0.0102747,
      "balance_loss_clip": 1.04877198,
      "balance_loss_mlp": 1.01946545,
      "epoch": 0.6721577586725185,
      "flos": 32010843231360.0,
      "grad_norm": 2.1524318197893137,
      "language_loss": 0.7780658,
      "learning_rate": 1.025290239580324e-06,
      "loss": 0.80002069,
      "num_input_tokens_seen": 120295460,
      "step": 5590,
      "time_per_iteration": 2.7154128551483154
    },
    {
      "auxiliary_loss_clip": 0.01135886,
      "auxiliary_loss_mlp": 0.01028339,
      "balance_loss_clip": 1.04142046,
      "balance_loss_mlp": 1.02046561,
      "epoch": 0.6722780015631575,
      "flos": 20737873837440.0,
      "grad_norm": 1.625566686364027,
      "language_loss": 0.75365579,
      "learning_rate": 1.0246101123727313e-06,
      "loss": 0.77529806,
      "num_input_tokens_seen": 120314440,
      "step": 5591,
      "time_per_iteration": 2.890292167663574
    },
    {
      "auxiliary_loss_clip": 0.01167919,
      "auxiliary_loss_mlp": 0.01025729,
      "balance_loss_clip": 1.04789174,
      "balance_loss_mlp": 1.01851666,
      "epoch": 0.6723982444537967,
      "flos": 16909617191040.0,
      "grad_norm": 1.9079771357909787,
      "language_loss": 0.78738701,
      "learning_rate": 1.0239301331310085e-06,
      "loss": 0.80932355,
      "num_input_tokens_seen": 120332060,
      "step": 5592,
      "time_per_iteration": 3.6546168327331543
    },
    {
      "auxiliary_loss_clip": 0.01163958,
      "auxiliary_loss_mlp": 0.01029687,
      "balance_loss_clip": 1.04710174,
      "balance_loss_mlp": 1.02190816,
      "epoch": 0.6725184873444358,
      "flos": 20667812359680.0,
      "grad_norm": 1.6491677959012652,
      "language_loss": 0.8854453,
      "learning_rate": 1.0232503019583088e-06,
      "loss": 0.90738177,
      "num_input_tokens_seen": 120351670,
      "step": 5593,
      "time_per_iteration": 2.6963934898376465
    },
    {
      "auxiliary_loss_clip": 0.01159968,
      "auxiliary_loss_mlp": 0.0102575,
      "balance_loss_clip": 1.04670143,
      "balance_loss_mlp": 1.01757836,
      "epoch": 0.6726387302350748,
      "flos": 23727616416000.0,
      "grad_norm": 1.9430757439204955,
      "language_loss": 0.69391859,
      "learning_rate": 1.0225706189577619e-06,
      "loss": 0.71577579,
      "num_input_tokens_seen": 120370195,
      "step": 5594,
      "time_per_iteration": 2.6875879764556885
    },
    {
      "auxiliary_loss_clip": 0.01165986,
      "auxiliary_loss_mlp": 0.01031441,
      "balance_loss_clip": 1.04725087,
      "balance_loss_mlp": 1.0228579,
      "epoch": 0.672758973125714,
      "flos": 15188274650880.0,
      "grad_norm": 2.1323147009420387,
      "language_loss": 0.74748373,
      "learning_rate": 1.021891084232475e-06,
      "loss": 0.76945806,
      "num_input_tokens_seen": 120388130,
      "step": 5595,
      "time_per_iteration": 3.484588861465454
    },
    {
      "auxiliary_loss_clip": 0.01165451,
      "auxiliary_loss_mlp": 0.01026381,
      "balance_loss_clip": 1.0469557,
      "balance_loss_mlp": 1.01840043,
      "epoch": 0.672879216016353,
      "flos": 18077252601600.0,
      "grad_norm": 2.3605593060312122,
      "language_loss": 0.79886234,
      "learning_rate": 1.0212116978855325e-06,
      "loss": 0.82078069,
      "num_input_tokens_seen": 120406145,
      "step": 5596,
      "time_per_iteration": 2.667083978652954
    },
    {
      "auxiliary_loss_clip": 0.01144239,
      "auxiliary_loss_mlp": 0.01023955,
      "balance_loss_clip": 1.04433155,
      "balance_loss_mlp": 1.01586652,
      "epoch": 0.6729994589069921,
      "flos": 23476349802240.0,
      "grad_norm": 1.7185653606590852,
      "language_loss": 0.78797042,
      "learning_rate": 1.020532460019997e-06,
      "loss": 0.80965239,
      "num_input_tokens_seen": 120425395,
      "step": 5597,
      "time_per_iteration": 2.6924407482147217
    },
    {
      "auxiliary_loss_clip": 0.01122088,
      "auxiliary_loss_mlp": 0.01030459,
      "balance_loss_clip": 1.04112947,
      "balance_loss_mlp": 1.02173901,
      "epoch": 0.6731197017976313,
      "flos": 26322018929280.0,
      "grad_norm": 1.7303617347771993,
      "language_loss": 0.70713747,
      "learning_rate": 1.0198533707389096e-06,
      "loss": 0.72866291,
      "num_input_tokens_seen": 120446270,
      "step": 5598,
      "time_per_iteration": 3.018500566482544
    },
    {
      "auxiliary_loss_clip": 0.01163537,
      "auxiliary_loss_mlp": 0.00886673,
      "balance_loss_clip": 1.04915547,
      "balance_loss_mlp": 1.00058186,
      "epoch": 0.6732399446882703,
      "flos": 21616428591360.0,
      "grad_norm": 3.043446325279242,
      "language_loss": 0.73083884,
      "learning_rate": 1.0191744301452853e-06,
      "loss": 0.75134093,
      "num_input_tokens_seen": 120465570,
      "step": 5599,
      "time_per_iteration": 2.8099138736724854
    },
    {
      "auxiliary_loss_clip": 0.01171469,
      "auxiliary_loss_mlp": 0.01024055,
      "balance_loss_clip": 1.04665732,
      "balance_loss_mlp": 1.01678896,
      "epoch": 0.6733601875789094,
      "flos": 25880173729920.0,
      "grad_norm": 1.6902992249074071,
      "language_loss": 0.70170254,
      "learning_rate": 1.0184956383421208e-06,
      "loss": 0.72365773,
      "num_input_tokens_seen": 120484220,
      "step": 5600,
      "time_per_iteration": 3.7798268795013428
    },
    {
      "auxiliary_loss_clip": 0.01168467,
      "auxiliary_loss_mlp": 0.01030335,
      "balance_loss_clip": 1.04860997,
      "balance_loss_mlp": 1.02292597,
      "epoch": 0.6734804304695485,
      "flos": 22929573997440.0,
      "grad_norm": 2.5034956620705358,
      "language_loss": 0.65678978,
      "learning_rate": 1.017816995432387e-06,
      "loss": 0.67877781,
      "num_input_tokens_seen": 120503320,
      "step": 5601,
      "time_per_iteration": 2.78924560546875
    },
    {
      "auxiliary_loss_clip": 0.01156105,
      "auxiliary_loss_mlp": 0.0103338,
      "balance_loss_clip": 1.04649472,
      "balance_loss_mlp": 1.02485597,
      "epoch": 0.6736006733601876,
      "flos": 18697968552960.0,
      "grad_norm": 2.090195852609719,
      "language_loss": 0.74243987,
      "learning_rate": 1.0171385015190353e-06,
      "loss": 0.76433468,
      "num_input_tokens_seen": 120523180,
      "step": 5602,
      "time_per_iteration": 2.678419589996338
    },
    {
      "auxiliary_loss_clip": 0.01148926,
      "auxiliary_loss_mlp": 0.0088669,
      "balance_loss_clip": 1.04644608,
      "balance_loss_mlp": 1.00051069,
      "epoch": 0.6737209162508266,
      "flos": 19427745173760.0,
      "grad_norm": 2.284281949562273,
      "language_loss": 0.7287569,
      "learning_rate": 1.0164601567049908e-06,
      "loss": 0.74911302,
      "num_input_tokens_seen": 120541710,
      "step": 5603,
      "time_per_iteration": 2.7674477100372314
    },
    {
      "auxiliary_loss_clip": 0.01154791,
      "auxiliary_loss_mlp": 0.01032883,
      "balance_loss_clip": 1.04612112,
      "balance_loss_mlp": 1.02512252,
      "epoch": 0.6738411591414658,
      "flos": 20158060498560.0,
      "grad_norm": 1.736937086345057,
      "language_loss": 0.80553079,
      "learning_rate": 1.015781961093158e-06,
      "loss": 0.82740754,
      "num_input_tokens_seen": 120561030,
      "step": 5604,
      "time_per_iteration": 2.717564344406128
    },
    {
      "auxiliary_loss_clip": 0.01158519,
      "auxiliary_loss_mlp": 0.01025266,
      "balance_loss_clip": 1.04379702,
      "balance_loss_mlp": 1.0174216,
      "epoch": 0.6739614020321049,
      "flos": 21653847584640.0,
      "grad_norm": 2.0974404959494466,
      "language_loss": 0.77369779,
      "learning_rate": 1.0151039147864197e-06,
      "loss": 0.79553562,
      "num_input_tokens_seen": 120581005,
      "step": 5605,
      "time_per_iteration": 2.6685643196105957
    },
    {
      "auxiliary_loss_clip": 0.01111735,
      "auxiliary_loss_mlp": 0.01029522,
      "balance_loss_clip": 1.04397321,
      "balance_loss_mlp": 1.02109647,
      "epoch": 0.6740816449227439,
      "flos": 19171702051200.0,
      "grad_norm": 2.0045006863930928,
      "language_loss": 0.65978855,
      "learning_rate": 1.0144260178876336e-06,
      "loss": 0.6812011,
      "num_input_tokens_seen": 120600350,
      "step": 5606,
      "time_per_iteration": 3.389092206954956
    },
    {
      "auxiliary_loss_clip": 0.01161157,
      "auxiliary_loss_mlp": 0.01028118,
      "balance_loss_clip": 1.04585552,
      "balance_loss_mlp": 1.02063203,
      "epoch": 0.6742018878133831,
      "flos": 21097015971840.0,
      "grad_norm": 2.201401133579112,
      "language_loss": 0.67580283,
      "learning_rate": 1.0137482704996388e-06,
      "loss": 0.69769555,
      "num_input_tokens_seen": 120614700,
      "step": 5607,
      "time_per_iteration": 2.7307145595550537
    },
    {
      "auxiliary_loss_clip": 0.01150347,
      "auxiliary_loss_mlp": 0.0103436,
      "balance_loss_clip": 1.04572248,
      "balance_loss_mlp": 1.02550268,
      "epoch": 0.6743221307040221,
      "flos": 23549966726400.0,
      "grad_norm": 2.0459184938546304,
      "language_loss": 0.78946,
      "learning_rate": 1.0130706727252461e-06,
      "loss": 0.81130707,
      "num_input_tokens_seen": 120631755,
      "step": 5608,
      "time_per_iteration": 2.730264902114868
    },
    {
      "auxiliary_loss_clip": 0.01153091,
      "auxiliary_loss_mlp": 0.01030961,
      "balance_loss_clip": 1.04681444,
      "balance_loss_mlp": 1.02301002,
      "epoch": 0.6744423735946612,
      "flos": 16249542912000.0,
      "grad_norm": 2.797691018231435,
      "language_loss": 0.684699,
      "learning_rate": 1.0123932246672468e-06,
      "loss": 0.70653951,
      "num_input_tokens_seen": 120645900,
      "step": 5609,
      "time_per_iteration": 2.70456600189209
    },
    {
      "auxiliary_loss_clip": 0.01041387,
      "auxiliary_loss_mlp": 0.00876105,
      "balance_loss_clip": 1.00982809,
      "balance_loss_mlp": 1.00089109,
      "epoch": 0.6745626164853004,
      "flos": 57843257829120.0,
      "grad_norm": 0.749761653689198,
      "language_loss": 0.5576818,
      "learning_rate": 1.0117159264284114e-06,
      "loss": 0.57685673,
      "num_input_tokens_seen": 120709070,
      "step": 5610,
      "time_per_iteration": 3.348975419998169
    },
    {
      "auxiliary_loss_clip": 0.01156052,
      "auxiliary_loss_mlp": 0.01028607,
      "balance_loss_clip": 1.04513693,
      "balance_loss_mlp": 1.02019644,
      "epoch": 0.6746828593759394,
      "flos": 20485027025280.0,
      "grad_norm": 1.684923539127744,
      "language_loss": 0.77269351,
      "learning_rate": 1.0110387781114837e-06,
      "loss": 0.79454005,
      "num_input_tokens_seen": 120727685,
      "step": 5611,
      "time_per_iteration": 2.9152307510375977
    },
    {
      "auxiliary_loss_clip": 0.01176047,
      "auxiliary_loss_mlp": 0.01026332,
      "balance_loss_clip": 1.05021751,
      "balance_loss_mlp": 1.01823759,
      "epoch": 0.6748031022665785,
      "flos": 19208223204480.0,
      "grad_norm": 2.077749541814471,
      "language_loss": 0.77170742,
      "learning_rate": 1.0103617798191872e-06,
      "loss": 0.79373121,
      "num_input_tokens_seen": 120747160,
      "step": 5612,
      "time_per_iteration": 2.5822553634643555
    },
    {
      "auxiliary_loss_clip": 0.01151493,
      "auxiliary_loss_mlp": 0.01028745,
      "balance_loss_clip": 1.04663324,
      "balance_loss_mlp": 1.02066898,
      "epoch": 0.6749233451572175,
      "flos": 15195026407680.0,
      "grad_norm": 2.2563609667147637,
      "language_loss": 0.82506716,
      "learning_rate": 1.0096849316542217e-06,
      "loss": 0.84686947,
      "num_input_tokens_seen": 120763710,
      "step": 5613,
      "time_per_iteration": 2.701626777648926
    },
    {
      "auxiliary_loss_clip": 0.01102949,
      "auxiliary_loss_mlp": 0.01032043,
      "balance_loss_clip": 1.03869402,
      "balance_loss_mlp": 1.02385962,
      "epoch": 0.6750435880478567,
      "flos": 26499489050880.0,
      "grad_norm": 2.744708853574561,
      "language_loss": 0.74709761,
      "learning_rate": 1.0090082337192643e-06,
      "loss": 0.76844752,
      "num_input_tokens_seen": 120783355,
      "step": 5614,
      "time_per_iteration": 4.142142057418823
    },
    {
      "auxiliary_loss_clip": 0.0111786,
      "auxiliary_loss_mlp": 0.01029557,
      "balance_loss_clip": 1.03577423,
      "balance_loss_mlp": 1.02186763,
      "epoch": 0.6751638309384957,
      "flos": 23404313076480.0,
      "grad_norm": 2.3883549515288585,
      "language_loss": 0.78163046,
      "learning_rate": 1.0083316861169705e-06,
      "loss": 0.80310464,
      "num_input_tokens_seen": 120802090,
      "step": 5615,
      "time_per_iteration": 3.002593994140625
    },
    {
      "auxiliary_loss_clip": 0.01151212,
      "auxiliary_loss_mlp": 0.01028792,
      "balance_loss_clip": 1.04346323,
      "balance_loss_mlp": 1.02083766,
      "epoch": 0.6752840738291348,
      "flos": 23441408847360.0,
      "grad_norm": 1.998598176092513,
      "language_loss": 0.71688718,
      "learning_rate": 1.0076552889499713e-06,
      "loss": 0.73868716,
      "num_input_tokens_seen": 120822855,
      "step": 5616,
      "time_per_iteration": 2.7649736404418945
    },
    {
      "auxiliary_loss_clip": 0.01162598,
      "auxiliary_loss_mlp": 0.01026354,
      "balance_loss_clip": 1.04820406,
      "balance_loss_mlp": 1.01882601,
      "epoch": 0.675404316719774,
      "flos": 30335826257280.0,
      "grad_norm": 5.939231848914989,
      "language_loss": 0.73280615,
      "learning_rate": 1.006979042320876e-06,
      "loss": 0.75469565,
      "num_input_tokens_seen": 120843070,
      "step": 5617,
      "time_per_iteration": 3.9968323707580566
    },
    {
      "auxiliary_loss_clip": 0.01150956,
      "auxiliary_loss_mlp": 0.01026146,
      "balance_loss_clip": 1.04394603,
      "balance_loss_mlp": 1.01843333,
      "epoch": 0.675524559610413,
      "flos": 23622613983360.0,
      "grad_norm": 1.828579634161249,
      "language_loss": 0.628824,
      "learning_rate": 1.0063029463322702e-06,
      "loss": 0.65059495,
      "num_input_tokens_seen": 120863345,
      "step": 5618,
      "time_per_iteration": 2.8236947059631348
    },
    {
      "auxiliary_loss_clip": 0.01128268,
      "auxiliary_loss_mlp": 0.00887007,
      "balance_loss_clip": 1.03962612,
      "balance_loss_mlp": 1.00059342,
      "epoch": 0.6756448025010521,
      "flos": 21248631279360.0,
      "grad_norm": 1.9726148898884832,
      "language_loss": 0.7530216,
      "learning_rate": 1.0056270010867164e-06,
      "loss": 0.77317435,
      "num_input_tokens_seen": 120880915,
      "step": 5619,
      "time_per_iteration": 2.739438772201538
    },
    {
      "auxiliary_loss_clip": 0.0115857,
      "auxiliary_loss_mlp": 0.01024846,
      "balance_loss_clip": 1.04441333,
      "balance_loss_mlp": 1.01706195,
      "epoch": 0.6757650453916912,
      "flos": 21646521210240.0,
      "grad_norm": 2.546176455665013,
      "language_loss": 0.78785729,
      "learning_rate": 1.004951206686758e-06,
      "loss": 0.80969143,
      "num_input_tokens_seen": 120899190,
      "step": 5620,
      "time_per_iteration": 2.699054718017578
    },
    {
      "auxiliary_loss_clip": 0.01159771,
      "auxiliary_loss_mlp": 0.01028927,
      "balance_loss_clip": 1.04579544,
      "balance_loss_mlp": 1.02030194,
      "epoch": 0.6758852882823303,
      "flos": 21795658479360.0,
      "grad_norm": 1.9766591414464165,
      "language_loss": 0.71795022,
      "learning_rate": 1.0042755632349087e-06,
      "loss": 0.73983717,
      "num_input_tokens_seen": 120916080,
      "step": 5621,
      "time_per_iteration": 3.7541849613189697
    },
    {
      "auxiliary_loss_clip": 0.01146276,
      "auxiliary_loss_mlp": 0.0102973,
      "balance_loss_clip": 1.04546702,
      "balance_loss_mlp": 1.02164149,
      "epoch": 0.6760055311729694,
      "flos": 27088783580160.0,
      "grad_norm": 2.028867590730308,
      "language_loss": 0.62789416,
      "learning_rate": 1.0036000708336653e-06,
      "loss": 0.64965427,
      "num_input_tokens_seen": 120935210,
      "step": 5622,
      "time_per_iteration": 2.8140969276428223
    },
    {
      "auxiliary_loss_clip": 0.01161181,
      "auxiliary_loss_mlp": 0.01031294,
      "balance_loss_clip": 1.04730773,
      "balance_loss_mlp": 1.02296984,
      "epoch": 0.6761257740636085,
      "flos": 17999792922240.0,
      "grad_norm": 2.32054463610082,
      "language_loss": 0.79625452,
      "learning_rate": 1.0029247295854984e-06,
      "loss": 0.81817925,
      "num_input_tokens_seen": 120951830,
      "step": 5623,
      "time_per_iteration": 2.808347463607788
    },
    {
      "auxiliary_loss_clip": 0.01153132,
      "auxiliary_loss_mlp": 0.01025738,
      "balance_loss_clip": 1.04693878,
      "balance_loss_mlp": 1.01818049,
      "epoch": 0.6762460169542476,
      "flos": 15121912273920.0,
      "grad_norm": 2.0317757246119443,
      "language_loss": 0.71676028,
      "learning_rate": 1.0022495395928588e-06,
      "loss": 0.73854899,
      "num_input_tokens_seen": 120970310,
      "step": 5624,
      "time_per_iteration": 2.6580231189727783
    },
    {
      "auxiliary_loss_clip": 0.01068391,
      "auxiliary_loss_mlp": 0.01002329,
      "balance_loss_clip": 1.01101267,
      "balance_loss_mlp": 1.00132143,
      "epoch": 0.6763662598448866,
      "flos": 67886970030720.0,
      "grad_norm": 0.7957589585064317,
      "language_loss": 0.62358904,
      "learning_rate": 1.0015745009581697e-06,
      "loss": 0.64429623,
      "num_input_tokens_seen": 121031915,
      "step": 5625,
      "time_per_iteration": 4.18700385093689
    },
    {
      "auxiliary_loss_clip": 0.01164597,
      "auxiliary_loss_mlp": 0.01025494,
      "balance_loss_clip": 1.04886603,
      "balance_loss_mlp": 1.01742339,
      "epoch": 0.6764865027355258,
      "flos": 20631829910400.0,
      "grad_norm": 1.666072561094276,
      "language_loss": 0.66751796,
      "learning_rate": 1.0008996137838343e-06,
      "loss": 0.68941885,
      "num_input_tokens_seen": 121050890,
      "step": 5626,
      "time_per_iteration": 2.631298542022705
    },
    {
      "auxiliary_loss_clip": 0.01180028,
      "auxiliary_loss_mlp": 0.01032424,
      "balance_loss_clip": 1.04981744,
      "balance_loss_mlp": 1.02450871,
      "epoch": 0.6766067456261649,
      "flos": 21215809226880.0,
      "grad_norm": 2.141553432778826,
      "language_loss": 0.80172187,
      "learning_rate": 1.000224878172234e-06,
      "loss": 0.8238464,
      "num_input_tokens_seen": 121070015,
      "step": 5627,
      "time_per_iteration": 2.610678195953369
    },
    {
      "auxiliary_loss_clip": 0.01169588,
      "auxiliary_loss_mlp": 0.01026995,
      "balance_loss_clip": 1.04869354,
      "balance_loss_mlp": 1.01941049,
      "epoch": 0.6767269885168039,
      "flos": 19938251220480.0,
      "grad_norm": 3.73183240229857,
      "language_loss": 0.7281056,
      "learning_rate": 9.99550294225724e-07,
      "loss": 0.75007141,
      "num_input_tokens_seen": 121089170,
      "step": 5628,
      "time_per_iteration": 2.714033603668213
    },
    {
      "auxiliary_loss_clip": 0.01136194,
      "auxiliary_loss_mlp": 0.0103102,
      "balance_loss_clip": 1.03835297,
      "balance_loss_mlp": 1.02252698,
      "epoch": 0.6768472314074431,
      "flos": 20814076540800.0,
      "grad_norm": 2.4582876483048,
      "language_loss": 0.72774184,
      "learning_rate": 9.988758620466402e-07,
      "loss": 0.74941397,
      "num_input_tokens_seen": 121108040,
      "step": 5629,
      "time_per_iteration": 2.7563912868499756
    },
    {
      "auxiliary_loss_clip": 0.01132812,
      "auxiliary_loss_mlp": 0.01026774,
      "balance_loss_clip": 1.04155481,
      "balance_loss_mlp": 1.01980662,
      "epoch": 0.6769674742980821,
      "flos": 23186012169600.0,
      "grad_norm": 1.6392303072219967,
      "language_loss": 0.75973135,
      "learning_rate": 9.982015817372917e-07,
      "loss": 0.78132719,
      "num_input_tokens_seen": 121128480,
      "step": 5630,
      "time_per_iteration": 2.945441246032715
    },
    {
      "auxiliary_loss_clip": 0.01137732,
      "auxiliary_loss_mlp": 0.0103058,
      "balance_loss_clip": 1.04440522,
      "balance_loss_mlp": 1.02240264,
      "epoch": 0.6770877171887212,
      "flos": 24242934885120.0,
      "grad_norm": 2.0507104155260363,
      "language_loss": 0.82017958,
      "learning_rate": 9.975274533999657e-07,
      "loss": 0.84186268,
      "num_input_tokens_seen": 121148010,
      "step": 5631,
      "time_per_iteration": 2.890920877456665
    },
    {
      "auxiliary_loss_clip": 0.01174437,
      "auxiliary_loss_mlp": 0.01024936,
      "balance_loss_clip": 1.04771531,
      "balance_loss_mlp": 1.01688886,
      "epoch": 0.6772079600793603,
      "flos": 18141567903360.0,
      "grad_norm": 2.768924435600514,
      "language_loss": 0.84038961,
      "learning_rate": 9.96853477136929e-07,
      "loss": 0.86238337,
      "num_input_tokens_seen": 121162755,
      "step": 5632,
      "time_per_iteration": 2.601869583129883
    },
    {
      "auxiliary_loss_clip": 0.01137655,
      "auxiliary_loss_mlp": 0.01026133,
      "balance_loss_clip": 1.04033184,
      "balance_loss_mlp": 1.01806831,
      "epoch": 0.6773282029699994,
      "flos": 22452069571200.0,
      "grad_norm": 2.1322928041299973,
      "language_loss": 0.75118136,
      "learning_rate": 9.96179653050422e-07,
      "loss": 0.77281928,
      "num_input_tokens_seen": 121182915,
      "step": 5633,
      "time_per_iteration": 2.7408158779144287
    },
    {
      "auxiliary_loss_clip": 0.01138691,
      "auxiliary_loss_mlp": 0.01029777,
      "balance_loss_clip": 1.04458439,
      "balance_loss_mlp": 1.02153349,
      "epoch": 0.6774484458606385,
      "flos": 18693730748160.0,
      "grad_norm": 2.329455528041979,
      "language_loss": 0.74040645,
      "learning_rate": 9.955059812426635e-07,
      "loss": 0.76209116,
      "num_input_tokens_seen": 121200445,
      "step": 5634,
      "time_per_iteration": 2.70798659324646
    },
    {
      "auxiliary_loss_clip": 0.01177511,
      "auxiliary_loss_mlp": 0.01035603,
      "balance_loss_clip": 1.05134749,
      "balance_loss_mlp": 1.02735412,
      "epoch": 0.6775686887512776,
      "flos": 25994046821760.0,
      "grad_norm": 2.4093827638074856,
      "language_loss": 0.82729185,
      "learning_rate": 9.948324618158493e-07,
      "loss": 0.84942299,
      "num_input_tokens_seen": 121220785,
      "step": 5635,
      "time_per_iteration": 2.654540777206421
    },
    {
      "auxiliary_loss_clip": 0.01165359,
      "auxiliary_loss_mlp": 0.01035723,
      "balance_loss_clip": 1.04520798,
      "balance_loss_mlp": 1.02733088,
      "epoch": 0.6776889316419167,
      "flos": 13587987922560.0,
      "grad_norm": 4.282429456435771,
      "language_loss": 0.77730417,
      "learning_rate": 9.941590948721502e-07,
      "loss": 0.79931504,
      "num_input_tokens_seen": 121237985,
      "step": 5636,
      "time_per_iteration": 2.624565362930298
    },
    {
      "auxiliary_loss_clip": 0.01150305,
      "auxiliary_loss_mlp": 0.01024489,
      "balance_loss_clip": 1.04675114,
      "balance_loss_mlp": 1.01703238,
      "epoch": 0.6778091745325557,
      "flos": 27601121220480.0,
      "grad_norm": 2.1260893569671073,
      "language_loss": 0.76285571,
      "learning_rate": 9.934858805137188e-07,
      "loss": 0.78460366,
      "num_input_tokens_seen": 121258635,
      "step": 5637,
      "time_per_iteration": 2.745117425918579
    },
    {
      "auxiliary_loss_clip": 0.01163512,
      "auxiliary_loss_mlp": 0.01030205,
      "balance_loss_clip": 1.05049539,
      "balance_loss_mlp": 1.0223192,
      "epoch": 0.6779294174231949,
      "flos": 18734058743040.0,
      "grad_norm": 1.6713536421906348,
      "language_loss": 0.80793148,
      "learning_rate": 9.92812818842677e-07,
      "loss": 0.82986867,
      "num_input_tokens_seen": 121277810,
      "step": 5638,
      "time_per_iteration": 2.631335496902466
    },
    {
      "auxiliary_loss_clip": 0.01159415,
      "auxiliary_loss_mlp": 0.0103067,
      "balance_loss_clip": 1.04481578,
      "balance_loss_mlp": 1.02205753,
      "epoch": 0.678049660313834,
      "flos": 45873797765760.0,
      "grad_norm": 2.398130001417171,
      "language_loss": 0.63987726,
      "learning_rate": 9.921399099611306e-07,
      "loss": 0.66177809,
      "num_input_tokens_seen": 121298975,
      "step": 5639,
      "time_per_iteration": 2.8667449951171875
    },
    {
      "auxiliary_loss_clip": 0.01158755,
      "auxiliary_loss_mlp": 0.01027369,
      "balance_loss_clip": 1.046803,
      "balance_loss_mlp": 1.01968622,
      "epoch": 0.678169903204473,
      "flos": 19974556892160.0,
      "grad_norm": 1.5524305318498006,
      "language_loss": 0.69053888,
      "learning_rate": 9.914671539711588e-07,
      "loss": 0.71240008,
      "num_input_tokens_seen": 121318495,
      "step": 5640,
      "time_per_iteration": 3.632277727127075
    },
    {
      "auxiliary_loss_clip": 0.01110812,
      "auxiliary_loss_mlp": 0.00887553,
      "balance_loss_clip": 1.0403471,
      "balance_loss_mlp": 1.00063419,
      "epoch": 0.6782901460951122,
      "flos": 21395613732480.0,
      "grad_norm": 2.065962623389931,
      "language_loss": 0.78079343,
      "learning_rate": 9.90794550974817e-07,
      "loss": 0.80077714,
      "num_input_tokens_seen": 121338890,
      "step": 5641,
      "time_per_iteration": 3.0999999046325684
    },
    {
      "auxiliary_loss_clip": 0.01142537,
      "auxiliary_loss_mlp": 0.01032096,
      "balance_loss_clip": 1.04375124,
      "balance_loss_mlp": 1.02364993,
      "epoch": 0.6784103889857512,
      "flos": 21434002392960.0,
      "grad_norm": 4.019241966216794,
      "language_loss": 0.81765223,
      "learning_rate": 9.901221010741407e-07,
      "loss": 0.83939862,
      "num_input_tokens_seen": 121358210,
      "step": 5642,
      "time_per_iteration": 2.861522674560547
    },
    {
      "auxiliary_loss_clip": 0.01169723,
      "auxiliary_loss_mlp": 0.01035305,
      "balance_loss_clip": 1.0482173,
      "balance_loss_mlp": 1.02697194,
      "epoch": 0.6785306318763903,
      "flos": 32671923091200.0,
      "grad_norm": 1.89310113515975,
      "language_loss": 0.74879086,
      "learning_rate": 9.894498043711375e-07,
      "loss": 0.77084106,
      "num_input_tokens_seen": 121379955,
      "step": 5643,
      "time_per_iteration": 4.145330429077148
    },
    {
      "auxiliary_loss_clip": 0.01153939,
      "auxiliary_loss_mlp": 0.01029387,
      "balance_loss_clip": 1.04543102,
      "balance_loss_mlp": 1.0217402,
      "epoch": 0.6786508747670293,
      "flos": 25632139340160.0,
      "grad_norm": 2.0533216826836633,
      "language_loss": 0.69460976,
      "learning_rate": 9.887776609677962e-07,
      "loss": 0.71644306,
      "num_input_tokens_seen": 121401325,
      "step": 5644,
      "time_per_iteration": 2.784085512161255
    },
    {
      "auxiliary_loss_clip": 0.01134066,
      "auxiliary_loss_mlp": 0.01028897,
      "balance_loss_clip": 1.04002631,
      "balance_loss_mlp": 1.02107692,
      "epoch": 0.6787711176576685,
      "flos": 19171881619200.0,
      "grad_norm": 2.929376939555384,
      "language_loss": 0.7238934,
      "learning_rate": 9.88105670966079e-07,
      "loss": 0.74552304,
      "num_input_tokens_seen": 121419785,
      "step": 5645,
      "time_per_iteration": 2.7842013835906982
    },
    {
      "auxiliary_loss_clip": 0.01125671,
      "auxiliary_loss_mlp": 0.01031948,
      "balance_loss_clip": 1.04394436,
      "balance_loss_mlp": 1.02394855,
      "epoch": 0.6788913605483076,
      "flos": 13985159581440.0,
      "grad_norm": 2.239556069560648,
      "language_loss": 0.79013228,
      "learning_rate": 9.874338344679283e-07,
      "loss": 0.81170851,
      "num_input_tokens_seen": 121435630,
      "step": 5646,
      "time_per_iteration": 2.7301740646362305
    },
    {
      "auxiliary_loss_clip": 0.01172226,
      "auxiliary_loss_mlp": 0.01027719,
      "balance_loss_clip": 1.04910088,
      "balance_loss_mlp": 1.01995909,
      "epoch": 0.6790116034389466,
      "flos": 22017586659840.0,
      "grad_norm": 1.800760724237481,
      "language_loss": 0.73888326,
      "learning_rate": 9.86762151575259e-07,
      "loss": 0.76088274,
      "num_input_tokens_seen": 121455625,
      "step": 5647,
      "time_per_iteration": 3.5339932441711426
    },
    {
      "auxiliary_loss_clip": 0.01137771,
      "auxiliary_loss_mlp": 0.008859,
      "balance_loss_clip": 1.04467547,
      "balance_loss_mlp": 1.00053835,
      "epoch": 0.6791318463295858,
      "flos": 20922454851840.0,
      "grad_norm": 1.4500721462894741,
      "language_loss": 0.80211914,
      "learning_rate": 9.860906223899651e-07,
      "loss": 0.82235587,
      "num_input_tokens_seen": 121475020,
      "step": 5648,
      "time_per_iteration": 2.750885009765625
    },
    {
      "auxiliary_loss_clip": 0.01160561,
      "auxiliary_loss_mlp": 0.01029789,
      "balance_loss_clip": 1.04639482,
      "balance_loss_mlp": 1.02162886,
      "epoch": 0.6792520892202248,
      "flos": 28512749422080.0,
      "grad_norm": 1.8124812667312524,
      "language_loss": 0.75735813,
      "learning_rate": 9.854192470139184e-07,
      "loss": 0.77926159,
      "num_input_tokens_seen": 121496500,
      "step": 5649,
      "time_per_iteration": 2.781831741333008
    },
    {
      "auxiliary_loss_clip": 0.01158421,
      "auxiliary_loss_mlp": 0.01029411,
      "balance_loss_clip": 1.05043364,
      "balance_loss_mlp": 1.0215013,
      "epoch": 0.6793723321108639,
      "flos": 20011904058240.0,
      "grad_norm": 2.164505942784563,
      "language_loss": 0.71834886,
      "learning_rate": 9.847480255489645e-07,
      "loss": 0.74022722,
      "num_input_tokens_seen": 121515525,
      "step": 5650,
      "time_per_iteration": 2.657414197921753
    },
    {
      "auxiliary_loss_clip": 0.0115987,
      "auxiliary_loss_mlp": 0.01023006,
      "balance_loss_clip": 1.04537642,
      "balance_loss_mlp": 1.01566291,
      "epoch": 0.6794925750015031,
      "flos": 26649488246400.0,
      "grad_norm": 1.6469459123784733,
      "language_loss": 0.68731576,
      "learning_rate": 9.840769580969295e-07,
      "loss": 0.70914453,
      "num_input_tokens_seen": 121535965,
      "step": 5651,
      "time_per_iteration": 3.6744868755340576
    },
    {
      "auxiliary_loss_clip": 0.01156839,
      "auxiliary_loss_mlp": 0.010263,
      "balance_loss_clip": 1.04523468,
      "balance_loss_mlp": 1.01830077,
      "epoch": 0.6796128178921421,
      "flos": 21580374314880.0,
      "grad_norm": 2.165705005847517,
      "language_loss": 0.79942685,
      "learning_rate": 9.834060447596114e-07,
      "loss": 0.82125819,
      "num_input_tokens_seen": 121555235,
      "step": 5652,
      "time_per_iteration": 2.680680513381958
    },
    {
      "auxiliary_loss_clip": 0.01166158,
      "auxiliary_loss_mlp": 0.01030355,
      "balance_loss_clip": 1.045753,
      "balance_loss_mlp": 1.02244496,
      "epoch": 0.6797330607827812,
      "flos": 22492002516480.0,
      "grad_norm": 1.951728297184549,
      "language_loss": 0.78321058,
      "learning_rate": 9.827352856387868e-07,
      "loss": 0.80517566,
      "num_input_tokens_seen": 121574945,
      "step": 5653,
      "time_per_iteration": 2.670581340789795
    },
    {
      "auxiliary_loss_clip": 0.01042228,
      "auxiliary_loss_mlp": 0.01004319,
      "balance_loss_clip": 1.01433563,
      "balance_loss_mlp": 1.00337684,
      "epoch": 0.6798533036734203,
      "flos": 66306648286080.0,
      "grad_norm": 0.7833191238628944,
      "language_loss": 0.64258683,
      "learning_rate": 9.820646808362118e-07,
      "loss": 0.66305232,
      "num_input_tokens_seen": 121641200,
      "step": 5654,
      "time_per_iteration": 3.494029998779297
    },
    {
      "auxiliary_loss_clip": 0.01154589,
      "auxiliary_loss_mlp": 0.01028402,
      "balance_loss_clip": 1.04938006,
      "balance_loss_mlp": 1.02057552,
      "epoch": 0.6799735465640594,
      "flos": 16180163792640.0,
      "grad_norm": 2.874160834247839,
      "language_loss": 0.7262246,
      "learning_rate": 9.813942304536154e-07,
      "loss": 0.7480545,
      "num_input_tokens_seen": 121659170,
      "step": 5655,
      "time_per_iteration": 3.163597822189331
    },
    {
      "auxiliary_loss_clip": 0.01155976,
      "auxiliary_loss_mlp": 0.01023888,
      "balance_loss_clip": 1.04594922,
      "balance_loss_mlp": 1.01642001,
      "epoch": 0.6800937894546984,
      "flos": 22125749489280.0,
      "grad_norm": 1.8280587959232664,
      "language_loss": 0.63884836,
      "learning_rate": 9.807239345927043e-07,
      "loss": 0.66064703,
      "num_input_tokens_seen": 121679180,
      "step": 5656,
      "time_per_iteration": 2.7443478107452393
    },
    {
      "auxiliary_loss_clip": 0.01158187,
      "auxiliary_loss_mlp": 0.01027212,
      "balance_loss_clip": 1.04424667,
      "balance_loss_mlp": 1.01906991,
      "epoch": 0.6802140323453376,
      "flos": 31612953300480.0,
      "grad_norm": 2.149372637481361,
      "language_loss": 0.71911007,
      "learning_rate": 9.80053793355162e-07,
      "loss": 0.74096406,
      "num_input_tokens_seen": 121697875,
      "step": 5657,
      "time_per_iteration": 2.7840747833251953
    },
    {
      "auxiliary_loss_clip": 0.01130147,
      "auxiliary_loss_mlp": 0.01024796,
      "balance_loss_clip": 1.04058552,
      "balance_loss_mlp": 1.01714253,
      "epoch": 0.6803342752359767,
      "flos": 17712938908800.0,
      "grad_norm": 2.0707821311807937,
      "language_loss": 0.75001097,
      "learning_rate": 9.793838068426472e-07,
      "loss": 0.77156037,
      "num_input_tokens_seen": 121715570,
      "step": 5658,
      "time_per_iteration": 2.7510311603546143
    },
    {
      "auxiliary_loss_clip": 0.01176597,
      "auxiliary_loss_mlp": 0.01028535,
      "balance_loss_clip": 1.05096149,
      "balance_loss_mlp": 1.02085781,
      "epoch": 0.6804545181266157,
      "flos": 11326800902400.0,
      "grad_norm": 2.3398492571133183,
      "language_loss": 0.61433864,
      "learning_rate": 9.78713975156799e-07,
      "loss": 0.63638997,
      "num_input_tokens_seen": 121731435,
      "step": 5659,
      "time_per_iteration": 2.61128306388855
    },
    {
      "auxiliary_loss_clip": 0.01144782,
      "auxiliary_loss_mlp": 0.01028315,
      "balance_loss_clip": 1.04491639,
      "balance_loss_mlp": 1.02013683,
      "epoch": 0.6805747610172549,
      "flos": 29350976181120.0,
      "grad_norm": 1.7593163065542485,
      "language_loss": 0.71964014,
      "learning_rate": 9.780442983992273e-07,
      "loss": 0.7413711,
      "num_input_tokens_seen": 121749950,
      "step": 5660,
      "time_per_iteration": 2.7481813430786133
    },
    {
      "auxiliary_loss_clip": 0.01149255,
      "auxiliary_loss_mlp": 0.01027171,
      "balance_loss_clip": 1.04448521,
      "balance_loss_mlp": 1.01905918,
      "epoch": 0.680695003907894,
      "flos": 37631868612480.0,
      "grad_norm": 2.2150800069098104,
      "language_loss": 0.71741432,
      "learning_rate": 9.773747766715238e-07,
      "loss": 0.73917854,
      "num_input_tokens_seen": 121770770,
      "step": 5661,
      "time_per_iteration": 2.809431552886963
    },
    {
      "auxiliary_loss_clip": 0.01158396,
      "auxiliary_loss_mlp": 0.010278,
      "balance_loss_clip": 1.04600573,
      "balance_loss_mlp": 1.01973581,
      "epoch": 0.680815246798533,
      "flos": 22127365601280.0,
      "grad_norm": 1.6860585557258425,
      "language_loss": 0.80176449,
      "learning_rate": 9.767054100752536e-07,
      "loss": 0.8236264,
      "num_input_tokens_seen": 121790720,
      "step": 5662,
      "time_per_iteration": 2.69409441947937
    },
    {
      "auxiliary_loss_clip": 0.0114891,
      "auxiliary_loss_mlp": 0.01027932,
      "balance_loss_clip": 1.04523563,
      "balance_loss_mlp": 1.01999283,
      "epoch": 0.6809354896891722,
      "flos": 17201822330880.0,
      "grad_norm": 1.9649879202132232,
      "language_loss": 0.814569,
      "learning_rate": 9.760361987119584e-07,
      "loss": 0.83633745,
      "num_input_tokens_seen": 121808455,
      "step": 5663,
      "time_per_iteration": 2.654919385910034
    },
    {
      "auxiliary_loss_clip": 0.01153551,
      "auxiliary_loss_mlp": 0.01022956,
      "balance_loss_clip": 1.04662347,
      "balance_loss_mlp": 1.01439083,
      "epoch": 0.6810557325798112,
      "flos": 12458166554880.0,
      "grad_norm": 2.0125627346168367,
      "language_loss": 0.67773199,
      "learning_rate": 9.753671426831592e-07,
      "loss": 0.6994971,
      "num_input_tokens_seen": 121824470,
      "step": 5664,
      "time_per_iteration": 2.6629457473754883
    },
    {
      "auxiliary_loss_clip": 0.01154679,
      "auxiliary_loss_mlp": 0.01031771,
      "balance_loss_clip": 1.04302824,
      "balance_loss_mlp": 1.02320027,
      "epoch": 0.6811759754704503,
      "flos": 22156165330560.0,
      "grad_norm": 1.8967474373039774,
      "language_loss": 0.79678577,
      "learning_rate": 9.746982420903483e-07,
      "loss": 0.81865025,
      "num_input_tokens_seen": 121842665,
      "step": 5665,
      "time_per_iteration": 2.648092269897461
    },
    {
      "auxiliary_loss_clip": 0.0115899,
      "auxiliary_loss_mlp": 0.01024425,
      "balance_loss_clip": 1.04693973,
      "balance_loss_mlp": 1.01689672,
      "epoch": 0.6812962183610894,
      "flos": 17525377065600.0,
      "grad_norm": 2.0267601653132323,
      "language_loss": 0.74926841,
      "learning_rate": 9.740294970349993e-07,
      "loss": 0.77110261,
      "num_input_tokens_seen": 121859080,
      "step": 5666,
      "time_per_iteration": 3.5392189025878906
    },
    {
      "auxiliary_loss_clip": 0.01055256,
      "auxiliary_loss_mlp": 0.0100228,
      "balance_loss_clip": 1.01037037,
      "balance_loss_mlp": 1.00121331,
      "epoch": 0.6814164612517285,
      "flos": 60274480855680.0,
      "grad_norm": 0.9064863277571822,
      "language_loss": 0.60850894,
      "learning_rate": 9.733609076185594e-07,
      "loss": 0.62908435,
      "num_input_tokens_seen": 121915485,
      "step": 5667,
      "time_per_iteration": 3.1798224449157715
    },
    {
      "auxiliary_loss_clip": 0.01166147,
      "auxiliary_loss_mlp": 0.01029089,
      "balance_loss_clip": 1.04943871,
      "balance_loss_mlp": 1.02086926,
      "epoch": 0.6815367041423676,
      "flos": 19317750750720.0,
      "grad_norm": 1.912149161585172,
      "language_loss": 0.83914405,
      "learning_rate": 9.72692473942455e-07,
      "loss": 0.86109638,
      "num_input_tokens_seen": 121932710,
      "step": 5668,
      "time_per_iteration": 2.6598620414733887
    },
    {
      "auxiliary_loss_clip": 0.01138147,
      "auxiliary_loss_mlp": 0.01032394,
      "balance_loss_clip": 1.04390872,
      "balance_loss_mlp": 1.02436519,
      "epoch": 0.6816569470330067,
      "flos": 22161696024960.0,
      "grad_norm": 1.8211283292248017,
      "language_loss": 0.77533364,
      "learning_rate": 9.720241961080849e-07,
      "loss": 0.79703903,
      "num_input_tokens_seen": 121952025,
      "step": 5669,
      "time_per_iteration": 3.77230167388916
    },
    {
      "auxiliary_loss_clip": 0.01172684,
      "auxiliary_loss_mlp": 0.01022841,
      "balance_loss_clip": 1.04676652,
      "balance_loss_mlp": 1.01558709,
      "epoch": 0.6817771899236458,
      "flos": 41463501137280.0,
      "grad_norm": 2.035873257765912,
      "language_loss": 0.73233992,
      "learning_rate": 9.713560742168259e-07,
      "loss": 0.75429517,
      "num_input_tokens_seen": 121974650,
      "step": 5670,
      "time_per_iteration": 2.75728702545166
    },
    {
      "auxiliary_loss_clip": 0.01144823,
      "auxiliary_loss_mlp": 0.0102722,
      "balance_loss_clip": 1.04426587,
      "balance_loss_mlp": 1.01973093,
      "epoch": 0.6818974328142848,
      "flos": 21106138026240.0,
      "grad_norm": 2.0481184839832176,
      "language_loss": 0.71429253,
      "learning_rate": 9.706881083700333e-07,
      "loss": 0.736013,
      "num_input_tokens_seen": 121994335,
      "step": 5671,
      "time_per_iteration": 2.7737252712249756
    },
    {
      "auxiliary_loss_clip": 0.0112398,
      "auxiliary_loss_mlp": 0.01032263,
      "balance_loss_clip": 1.04478872,
      "balance_loss_mlp": 1.02380466,
      "epoch": 0.682017675704924,
      "flos": 20441897769600.0,
      "grad_norm": 2.4033504119325677,
      "language_loss": 0.82633537,
      "learning_rate": 9.700202986690357e-07,
      "loss": 0.84789777,
      "num_input_tokens_seen": 122012635,
      "step": 5672,
      "time_per_iteration": 3.704972743988037
    },
    {
      "auxiliary_loss_clip": 0.01161651,
      "auxiliary_loss_mlp": 0.00887462,
      "balance_loss_clip": 1.04570007,
      "balance_loss_mlp": 1.00052977,
      "epoch": 0.682137918595563,
      "flos": 20044438801920.0,
      "grad_norm": 2.0796835554475552,
      "language_loss": 0.66620392,
      "learning_rate": 9.693526452151413e-07,
      "loss": 0.6866951,
      "num_input_tokens_seen": 122031685,
      "step": 5673,
      "time_per_iteration": 2.8407485485076904
    },
    {
      "auxiliary_loss_clip": 0.01150704,
      "auxiliary_loss_mlp": 0.01029771,
      "balance_loss_clip": 1.04326236,
      "balance_loss_mlp": 1.02186108,
      "epoch": 0.6822581614862021,
      "flos": 31684559063040.0,
      "grad_norm": 1.6870801505958313,
      "language_loss": 0.7534368,
      "learning_rate": 9.686851481096305e-07,
      "loss": 0.77524149,
      "num_input_tokens_seen": 122052995,
      "step": 5674,
      "time_per_iteration": 2.8234386444091797
    },
    {
      "auxiliary_loss_clip": 0.01121318,
      "auxiliary_loss_mlp": 0.01032837,
      "balance_loss_clip": 1.04020095,
      "balance_loss_mlp": 1.02468264,
      "epoch": 0.6823784043768413,
      "flos": 23477570864640.0,
      "grad_norm": 2.8600122294306094,
      "language_loss": 0.71670091,
      "learning_rate": 9.68017807453762e-07,
      "loss": 0.73824251,
      "num_input_tokens_seen": 122071740,
      "step": 5675,
      "time_per_iteration": 2.766087293624878
    },
    {
      "auxiliary_loss_clip": 0.01158126,
      "auxiliary_loss_mlp": 0.00887034,
      "balance_loss_clip": 1.04803205,
      "balance_loss_mlp": 1.000507,
      "epoch": 0.6824986472674803,
      "flos": 14137134024960.0,
      "grad_norm": 1.8581844504736822,
      "language_loss": 0.73451662,
      "learning_rate": 9.673506233487721e-07,
      "loss": 0.75496817,
      "num_input_tokens_seen": 122089705,
      "step": 5676,
      "time_per_iteration": 2.695873498916626
    },
    {
      "auxiliary_loss_clip": 0.01155989,
      "auxiliary_loss_mlp": 0.00886454,
      "balance_loss_clip": 1.0461942,
      "balance_loss_mlp": 1.00045359,
      "epoch": 0.6826188901581194,
      "flos": 21504997624320.0,
      "grad_norm": 1.671141347830405,
      "language_loss": 0.86321914,
      "learning_rate": 9.666835958958717e-07,
      "loss": 0.88364363,
      "num_input_tokens_seen": 122109025,
      "step": 5677,
      "time_per_iteration": 3.712129592895508
    },
    {
      "auxiliary_loss_clip": 0.01174196,
      "auxiliary_loss_mlp": 0.01028679,
      "balance_loss_clip": 1.04927957,
      "balance_loss_mlp": 1.0213269,
      "epoch": 0.6827391330487584,
      "flos": 20810126044800.0,
      "grad_norm": 2.3310754803785505,
      "language_loss": 0.80704343,
      "learning_rate": 9.660167251962484e-07,
      "loss": 0.82907218,
      "num_input_tokens_seen": 122127385,
      "step": 5678,
      "time_per_iteration": 2.6241605281829834
    },
    {
      "auxiliary_loss_clip": 0.01146947,
      "auxiliary_loss_mlp": 0.01027874,
      "balance_loss_clip": 1.04271686,
      "balance_loss_mlp": 1.02066171,
      "epoch": 0.6828593759393976,
      "flos": 21688788539520.0,
      "grad_norm": 1.7029341935028544,
      "language_loss": 0.77948612,
      "learning_rate": 9.653500113510654e-07,
      "loss": 0.80123425,
      "num_input_tokens_seen": 122146500,
      "step": 5679,
      "time_per_iteration": 2.7376818656921387
    },
    {
      "auxiliary_loss_clip": 0.01148433,
      "auxiliary_loss_mlp": 0.01023654,
      "balance_loss_clip": 1.0435183,
      "balance_loss_mlp": 1.01523805,
      "epoch": 0.6829796188300367,
      "flos": 25337707557120.0,
      "grad_norm": 2.7550035552134067,
      "language_loss": 0.6751892,
      "learning_rate": 9.646834544614627e-07,
      "loss": 0.69691002,
      "num_input_tokens_seen": 122167000,
      "step": 5680,
      "time_per_iteration": 2.6987686157226562
    },
    {
      "auxiliary_loss_clip": 0.01149061,
      "auxiliary_loss_mlp": 0.01026596,
      "balance_loss_clip": 1.04743695,
      "balance_loss_mlp": 1.01868677,
      "epoch": 0.6830998617206757,
      "flos": 20704800389760.0,
      "grad_norm": 2.2237450872840223,
      "language_loss": 0.76599038,
      "learning_rate": 9.64017054628558e-07,
      "loss": 0.78774703,
      "num_input_tokens_seen": 122185825,
      "step": 5681,
      "time_per_iteration": 2.7293882369995117
    },
    {
      "auxiliary_loss_clip": 0.0113695,
      "auxiliary_loss_mlp": 0.0102689,
      "balance_loss_clip": 1.041291,
      "balance_loss_mlp": 1.01864362,
      "epoch": 0.6832201046113149,
      "flos": 21726638496000.0,
      "grad_norm": 1.8593031529814947,
      "language_loss": 0.78677839,
      "learning_rate": 9.63350811953441e-07,
      "loss": 0.80841678,
      "num_input_tokens_seen": 122206200,
      "step": 5682,
      "time_per_iteration": 2.8606033325195312
    },
    {
      "auxiliary_loss_clip": 0.01146256,
      "auxiliary_loss_mlp": 0.01032883,
      "balance_loss_clip": 1.04490471,
      "balance_loss_mlp": 1.02555752,
      "epoch": 0.6833403475019539,
      "flos": 19536554448000.0,
      "grad_norm": 2.4042864319845045,
      "language_loss": 0.70908618,
      "learning_rate": 9.626847265371826e-07,
      "loss": 0.73087752,
      "num_input_tokens_seen": 122225520,
      "step": 5683,
      "time_per_iteration": 2.794642210006714
    },
    {
      "auxiliary_loss_clip": 0.01148228,
      "auxiliary_loss_mlp": 0.01028074,
      "balance_loss_clip": 1.04399776,
      "balance_loss_mlp": 1.02008152,
      "epoch": 0.683460590392593,
      "flos": 19352153001600.0,
      "grad_norm": 2.136813216141717,
      "language_loss": 0.78652549,
      "learning_rate": 9.620187984808262e-07,
      "loss": 0.80828851,
      "num_input_tokens_seen": 122244320,
      "step": 5684,
      "time_per_iteration": 2.6757826805114746
    },
    {
      "auxiliary_loss_clip": 0.01155425,
      "auxiliary_loss_mlp": 0.00886737,
      "balance_loss_clip": 1.0473063,
      "balance_loss_mlp": 1.00042081,
      "epoch": 0.6835808332832322,
      "flos": 23288500650240.0,
      "grad_norm": 1.977461778289975,
      "language_loss": 0.85922128,
      "learning_rate": 9.613530278853919e-07,
      "loss": 0.8796429,
      "num_input_tokens_seen": 122264295,
      "step": 5685,
      "time_per_iteration": 2.7242941856384277
    },
    {
      "auxiliary_loss_clip": 0.01160778,
      "auxiliary_loss_mlp": 0.01034174,
      "balance_loss_clip": 1.04706085,
      "balance_loss_mlp": 1.02591228,
      "epoch": 0.6837010761738712,
      "flos": 21653416621440.0,
      "grad_norm": 1.6720399984506225,
      "language_loss": 0.74164182,
      "learning_rate": 9.60687414851879e-07,
      "loss": 0.76359129,
      "num_input_tokens_seen": 122285300,
      "step": 5686,
      "time_per_iteration": 2.640190601348877
    },
    {
      "auxiliary_loss_clip": 0.01157864,
      "auxiliary_loss_mlp": 0.01034401,
      "balance_loss_clip": 1.04684174,
      "balance_loss_mlp": 1.02602696,
      "epoch": 0.6838213190645103,
      "flos": 17566387418880.0,
      "grad_norm": 2.559245672872083,
      "language_loss": 0.77160585,
      "learning_rate": 9.600219594812575e-07,
      "loss": 0.7935285,
      "num_input_tokens_seen": 122303240,
      "step": 5687,
      "time_per_iteration": 2.6315226554870605
    },
    {
      "auxiliary_loss_clip": 0.0117347,
      "auxiliary_loss_mlp": 0.01023434,
      "balance_loss_clip": 1.04912686,
      "balance_loss_mlp": 1.0162487,
      "epoch": 0.6839415619551494,
      "flos": 23112538899840.0,
      "grad_norm": 1.6371338980111807,
      "language_loss": 0.72750854,
      "learning_rate": 9.593566618744786e-07,
      "loss": 0.74947762,
      "num_input_tokens_seen": 122323390,
      "step": 5688,
      "time_per_iteration": 2.602480173110962
    },
    {
      "auxiliary_loss_clip": 0.01173181,
      "auxiliary_loss_mlp": 0.01027902,
      "balance_loss_clip": 1.04752159,
      "balance_loss_mlp": 1.02060306,
      "epoch": 0.6840618048457885,
      "flos": 22127868391680.0,
      "grad_norm": 2.1949422159882674,
      "language_loss": 0.74133158,
      "learning_rate": 9.58691522132466e-07,
      "loss": 0.7633425,
      "num_input_tokens_seen": 122342200,
      "step": 5689,
      "time_per_iteration": 2.6715753078460693
    },
    {
      "auxiliary_loss_clip": 0.0115877,
      "auxiliary_loss_mlp": 0.0103183,
      "balance_loss_clip": 1.04868937,
      "balance_loss_mlp": 1.02338064,
      "epoch": 0.6841820477364275,
      "flos": 22015898720640.0,
      "grad_norm": 2.121321549179899,
      "language_loss": 0.84704494,
      "learning_rate": 9.58026540356123e-07,
      "loss": 0.86895096,
      "num_input_tokens_seen": 122360465,
      "step": 5690,
      "time_per_iteration": 2.6859569549560547
    },
    {
      "auxiliary_loss_clip": 0.01165167,
      "auxiliary_loss_mlp": 0.01025486,
      "balance_loss_clip": 1.04651892,
      "balance_loss_mlp": 1.01789832,
      "epoch": 0.6843022906270667,
      "flos": 24900531125760.0,
      "grad_norm": 1.845641288131757,
      "language_loss": 0.86459744,
      "learning_rate": 9.573617166463246e-07,
      "loss": 0.88650393,
      "num_input_tokens_seen": 122381680,
      "step": 5691,
      "time_per_iteration": 3.621988296508789
    },
    {
      "auxiliary_loss_clip": 0.01155815,
      "auxiliary_loss_mlp": 0.01028238,
      "balance_loss_clip": 1.04393244,
      "balance_loss_mlp": 1.02053142,
      "epoch": 0.6844225335177058,
      "flos": 19969924037760.0,
      "grad_norm": 1.9108043917659676,
      "language_loss": 0.6018151,
      "learning_rate": 9.56697051103924e-07,
      "loss": 0.62365562,
      "num_input_tokens_seen": 122399120,
      "step": 5692,
      "time_per_iteration": 2.6698668003082275
    },
    {
      "auxiliary_loss_clip": 0.01152734,
      "auxiliary_loss_mlp": 0.01022424,
      "balance_loss_clip": 1.04469633,
      "balance_loss_mlp": 1.01549172,
      "epoch": 0.6845427764083448,
      "flos": 25883334126720.0,
      "grad_norm": 2.3186966875282007,
      "language_loss": 0.81137562,
      "learning_rate": 9.560325438297522e-07,
      "loss": 0.83312714,
      "num_input_tokens_seen": 122417430,
      "step": 5693,
      "time_per_iteration": 2.7067410945892334
    },
    {
      "auxiliary_loss_clip": 0.011521,
      "auxiliary_loss_mlp": 0.01029828,
      "balance_loss_clip": 1.04647636,
      "balance_loss_mlp": 1.02173948,
      "epoch": 0.684663019298984,
      "flos": 18880143356160.0,
      "grad_norm": 10.0297758313521,
      "language_loss": 0.86832899,
      "learning_rate": 9.553681949246127e-07,
      "loss": 0.89014828,
      "num_input_tokens_seen": 122435055,
      "step": 5694,
      "time_per_iteration": 2.6822166442871094
    },
    {
      "auxiliary_loss_clip": 0.01149885,
      "auxiliary_loss_mlp": 0.01026645,
      "balance_loss_clip": 1.04458237,
      "balance_loss_mlp": 1.01926637,
      "epoch": 0.684783262189623,
      "flos": 54193725302400.0,
      "grad_norm": 2.0594856101705377,
      "language_loss": 0.75595534,
      "learning_rate": 9.547040044892886e-07,
      "loss": 0.77772069,
      "num_input_tokens_seen": 122462570,
      "step": 5695,
      "time_per_iteration": 3.950085163116455
    },
    {
      "auxiliary_loss_clip": 0.01062866,
      "auxiliary_loss_mlp": 0.01001566,
      "balance_loss_clip": 1.01012206,
      "balance_loss_mlp": 1.00051677,
      "epoch": 0.6849035050802621,
      "flos": 63970264143360.0,
      "grad_norm": 0.8593925071924865,
      "language_loss": 0.60238802,
      "learning_rate": 9.540399726245354e-07,
      "loss": 0.62303233,
      "num_input_tokens_seen": 122519275,
      "step": 5696,
      "time_per_iteration": 3.0987284183502197
    },
    {
      "auxiliary_loss_clip": 0.01149265,
      "auxiliary_loss_mlp": 0.01029336,
      "balance_loss_clip": 1.04278731,
      "balance_loss_mlp": 1.02136064,
      "epoch": 0.6850237479709013,
      "flos": 25224121774080.0,
      "grad_norm": 1.8771192116384927,
      "language_loss": 0.69171602,
      "learning_rate": 9.533760994310859e-07,
      "loss": 0.71350205,
      "num_input_tokens_seen": 122539675,
      "step": 5697,
      "time_per_iteration": 3.6301772594451904
    },
    {
      "auxiliary_loss_clip": 0.01176243,
      "auxiliary_loss_mlp": 0.0102606,
      "balance_loss_clip": 1.04974532,
      "balance_loss_mlp": 1.01790023,
      "epoch": 0.6851439908615403,
      "flos": 19354128249600.0,
      "grad_norm": 2.1879950507999286,
      "language_loss": 0.7533915,
      "learning_rate": 9.527123850096508e-07,
      "loss": 0.77541459,
      "num_input_tokens_seen": 122558035,
      "step": 5698,
      "time_per_iteration": 2.618034839630127
    },
    {
      "auxiliary_loss_clip": 0.01167304,
      "auxiliary_loss_mlp": 0.0102962,
      "balance_loss_clip": 1.04637527,
      "balance_loss_mlp": 1.0212456,
      "epoch": 0.6852642337521794,
      "flos": 23182133500800.0,
      "grad_norm": 1.7684769139403855,
      "language_loss": 0.71538341,
      "learning_rate": 9.520488294609142e-07,
      "loss": 0.73735261,
      "num_input_tokens_seen": 122576815,
      "step": 5699,
      "time_per_iteration": 2.634993076324463
    },
    {
      "auxiliary_loss_clip": 0.0104473,
      "auxiliary_loss_mlp": 0.01001972,
      "balance_loss_clip": 1.01242614,
      "balance_loss_mlp": 1.00088108,
      "epoch": 0.6853844766428185,
      "flos": 62647206583680.0,
      "grad_norm": 0.7377361541243632,
      "language_loss": 0.53856611,
      "learning_rate": 9.513854328855368e-07,
      "loss": 0.55903316,
      "num_input_tokens_seen": 122634690,
      "step": 5700,
      "time_per_iteration": 3.3802826404571533
    },
    {
      "auxiliary_loss_clip": 0.01170317,
      "auxiliary_loss_mlp": 0.01027486,
      "balance_loss_clip": 1.04774594,
      "balance_loss_mlp": 1.01963067,
      "epoch": 0.6855047195334576,
      "flos": 23437242869760.0,
      "grad_norm": 2.1223836650096657,
      "language_loss": 0.81506836,
      "learning_rate": 9.507221953841558e-07,
      "loss": 0.83704644,
      "num_input_tokens_seen": 122652320,
      "step": 5701,
      "time_per_iteration": 2.811652898788452
    },
    {
      "auxiliary_loss_clip": 0.01166272,
      "auxiliary_loss_mlp": 0.01031531,
      "balance_loss_clip": 1.05002069,
      "balance_loss_mlp": 1.02380013,
      "epoch": 0.6856249624240967,
      "flos": 20664831530880.0,
      "grad_norm": 1.5994702268053145,
      "language_loss": 0.77856159,
      "learning_rate": 9.500591170573824e-07,
      "loss": 0.80053961,
      "num_input_tokens_seen": 122672340,
      "step": 5702,
      "time_per_iteration": 2.6602964401245117
    },
    {
      "auxiliary_loss_clip": 0.01129372,
      "auxiliary_loss_mlp": 0.01025478,
      "balance_loss_clip": 1.04243004,
      "balance_loss_mlp": 1.01812875,
      "epoch": 0.6857452053147358,
      "flos": 17087302794240.0,
      "grad_norm": 2.052800214808524,
      "language_loss": 0.74195403,
      "learning_rate": 9.493961980058078e-07,
      "loss": 0.76350248,
      "num_input_tokens_seen": 122689935,
      "step": 5703,
      "time_per_iteration": 3.7194831371307373
    },
    {
      "auxiliary_loss_clip": 0.0110999,
      "auxiliary_loss_mlp": 0.01023775,
      "balance_loss_clip": 1.03880382,
      "balance_loss_mlp": 1.01609254,
      "epoch": 0.6858654482053749,
      "flos": 30847266057600.0,
      "grad_norm": 1.858907174360161,
      "language_loss": 0.67083859,
      "learning_rate": 9.48733438329993e-07,
      "loss": 0.69217622,
      "num_input_tokens_seen": 122710200,
      "step": 5704,
      "time_per_iteration": 2.815817356109619
    },
    {
      "auxiliary_loss_clip": 0.01171322,
      "auxiliary_loss_mlp": 0.00886343,
      "balance_loss_clip": 1.04788947,
      "balance_loss_mlp": 1.00047219,
      "epoch": 0.6859856910960139,
      "flos": 28877314510080.0,
      "grad_norm": 1.7480127253902833,
      "language_loss": 0.74630463,
      "learning_rate": 9.480708381304807e-07,
      "loss": 0.76688135,
      "num_input_tokens_seen": 122731495,
      "step": 5705,
      "time_per_iteration": 2.686636447906494
    },
    {
      "auxiliary_loss_clip": 0.01129909,
      "auxiliary_loss_mlp": 0.01027034,
      "balance_loss_clip": 1.04420304,
      "balance_loss_mlp": 1.01899898,
      "epoch": 0.6861059339866531,
      "flos": 19354523299200.0,
      "grad_norm": 2.126645420635281,
      "language_loss": 0.83328712,
      "learning_rate": 9.474083975077858e-07,
      "loss": 0.85485649,
      "num_input_tokens_seen": 122748620,
      "step": 5706,
      "time_per_iteration": 2.6971633434295654
    },
    {
      "auxiliary_loss_clip": 0.01156907,
      "auxiliary_loss_mlp": 0.0102495,
      "balance_loss_clip": 1.04515243,
      "balance_loss_mlp": 1.01730847,
      "epoch": 0.6862261768772921,
      "flos": 22199976944640.0,
      "grad_norm": 3.79563844239079,
      "language_loss": 0.80424297,
      "learning_rate": 9.467461165623994e-07,
      "loss": 0.82606149,
      "num_input_tokens_seen": 122767670,
      "step": 5707,
      "time_per_iteration": 2.6641578674316406
    },
    {
      "auxiliary_loss_clip": 0.01165824,
      "auxiliary_loss_mlp": 0.01027188,
      "balance_loss_clip": 1.04521942,
      "balance_loss_mlp": 1.01950479,
      "epoch": 0.6863464197679312,
      "flos": 26285677344000.0,
      "grad_norm": 2.0116748656224095,
      "language_loss": 0.79536581,
      "learning_rate": 9.46083995394791e-07,
      "loss": 0.81729591,
      "num_input_tokens_seen": 122785480,
      "step": 5708,
      "time_per_iteration": 2.6135220527648926
    },
    {
      "auxiliary_loss_clip": 0.01164452,
      "auxiliary_loss_mlp": 0.00886106,
      "balance_loss_clip": 1.04774141,
      "balance_loss_mlp": 1.00042951,
      "epoch": 0.6864666626585703,
      "flos": 37815228564480.0,
      "grad_norm": 3.304674106036112,
      "language_loss": 0.63547009,
      "learning_rate": 9.454220341054012e-07,
      "loss": 0.65597564,
      "num_input_tokens_seen": 122810265,
      "step": 5709,
      "time_per_iteration": 2.796834707260132
    },
    {
      "auxiliary_loss_clip": 0.01144198,
      "auxiliary_loss_mlp": 0.01026167,
      "balance_loss_clip": 1.04440784,
      "balance_loss_mlp": 1.01871085,
      "epoch": 0.6865869055492094,
      "flos": 19391152193280.0,
      "grad_norm": 2.301831935742844,
      "language_loss": 0.80552721,
      "learning_rate": 9.447602327946512e-07,
      "loss": 0.82723081,
      "num_input_tokens_seen": 122828905,
      "step": 5710,
      "time_per_iteration": 2.6958038806915283
    },
    {
      "auxiliary_loss_clip": 0.01151265,
      "auxiliary_loss_mlp": 0.01026846,
      "balance_loss_clip": 1.04381597,
      "balance_loss_mlp": 1.01879299,
      "epoch": 0.6867071484398485,
      "flos": 20375966355840.0,
      "grad_norm": 1.9130308003558378,
      "language_loss": 0.76698899,
      "learning_rate": 9.440985915629338e-07,
      "loss": 0.78877008,
      "num_input_tokens_seen": 122846235,
      "step": 5711,
      "time_per_iteration": 2.701463222503662
    },
    {
      "auxiliary_loss_clip": 0.01171415,
      "auxiliary_loss_mlp": 0.01026497,
      "balance_loss_clip": 1.04959571,
      "balance_loss_mlp": 1.01919508,
      "epoch": 0.6868273913304875,
      "flos": 15889143801600.0,
      "grad_norm": 2.1051310471215507,
      "language_loss": 0.73163342,
      "learning_rate": 9.434371105106223e-07,
      "loss": 0.75361252,
      "num_input_tokens_seen": 122863835,
      "step": 5712,
      "time_per_iteration": 2.5742697715759277
    },
    {
      "auxiliary_loss_clip": 0.01138639,
      "auxiliary_loss_mlp": 0.01027358,
      "balance_loss_clip": 1.04233027,
      "balance_loss_mlp": 1.01977062,
      "epoch": 0.6869476342211267,
      "flos": 24462492768000.0,
      "grad_norm": 2.0098623029843012,
      "language_loss": 0.70881176,
      "learning_rate": 9.427757897380602e-07,
      "loss": 0.73047173,
      "num_input_tokens_seen": 122883235,
      "step": 5713,
      "time_per_iteration": 2.732487916946411
    },
    {
      "auxiliary_loss_clip": 0.01140459,
      "auxiliary_loss_mlp": 0.01025616,
      "balance_loss_clip": 1.04630721,
      "balance_loss_mlp": 1.01802206,
      "epoch": 0.6870678771117658,
      "flos": 18442571875200.0,
      "grad_norm": 3.2614599172949994,
      "language_loss": 0.84898019,
      "learning_rate": 9.421146293455695e-07,
      "loss": 0.87064099,
      "num_input_tokens_seen": 122898975,
      "step": 5714,
      "time_per_iteration": 2.6951441764831543
    },
    {
      "auxiliary_loss_clip": 0.01151078,
      "auxiliary_loss_mlp": 0.01028374,
      "balance_loss_clip": 1.0432713,
      "balance_loss_mlp": 1.01986253,
      "epoch": 0.6871881200024048,
      "flos": 22200371994240.0,
      "grad_norm": 1.7976637935157105,
      "language_loss": 0.68440449,
      "learning_rate": 9.414536294334489e-07,
      "loss": 0.70619893,
      "num_input_tokens_seen": 122918995,
      "step": 5715,
      "time_per_iteration": 2.696622133255005
    },
    {
      "auxiliary_loss_clip": 0.01154129,
      "auxiliary_loss_mlp": 0.01026442,
      "balance_loss_clip": 1.04206681,
      "balance_loss_mlp": 1.0191648,
      "epoch": 0.687308362893044,
      "flos": 22127724737280.0,
      "grad_norm": 1.8398787896093183,
      "language_loss": 0.69347608,
      "learning_rate": 9.407927901019708e-07,
      "loss": 0.71528178,
      "num_input_tokens_seen": 122938125,
      "step": 5716,
      "time_per_iteration": 2.6797614097595215
    },
    {
      "auxiliary_loss_clip": 0.01165353,
      "auxiliary_loss_mlp": 0.01025765,
      "balance_loss_clip": 1.04766297,
      "balance_loss_mlp": 1.01883888,
      "epoch": 0.687428605783683,
      "flos": 25040546340480.0,
      "grad_norm": 1.9339350992045943,
      "language_loss": 0.76846397,
      "learning_rate": 9.401321114513854e-07,
      "loss": 0.79037511,
      "num_input_tokens_seen": 122957020,
      "step": 5717,
      "time_per_iteration": 3.8664748668670654
    },
    {
      "auxiliary_loss_clip": 0.01173194,
      "auxiliary_loss_mlp": 0.0102845,
      "balance_loss_clip": 1.04837799,
      "balance_loss_mlp": 1.02101707,
      "epoch": 0.6875488486743221,
      "flos": 23770063313280.0,
      "grad_norm": 1.737147559825475,
      "language_loss": 0.75724602,
      "learning_rate": 9.394715935819155e-07,
      "loss": 0.77926248,
      "num_input_tokens_seen": 122977410,
      "step": 5718,
      "time_per_iteration": 2.6321682929992676
    },
    {
      "auxiliary_loss_clip": 0.01167106,
      "auxiliary_loss_mlp": 0.01028522,
      "balance_loss_clip": 1.04616261,
      "balance_loss_mlp": 1.02069545,
      "epoch": 0.6876690915649613,
      "flos": 25516937445120.0,
      "grad_norm": 2.3438726387721687,
      "language_loss": 0.62685305,
      "learning_rate": 9.388112365937608e-07,
      "loss": 0.64880931,
      "num_input_tokens_seen": 122996875,
      "step": 5719,
      "time_per_iteration": 2.650388240814209
    },
    {
      "auxiliary_loss_clip": 0.01142592,
      "auxiliary_loss_mlp": 0.01027198,
      "balance_loss_clip": 1.04374743,
      "balance_loss_mlp": 1.01955032,
      "epoch": 0.6877893344556003,
      "flos": 19427996568960.0,
      "grad_norm": 2.0375214640669332,
      "language_loss": 0.82912147,
      "learning_rate": 9.381510405870985e-07,
      "loss": 0.85081941,
      "num_input_tokens_seen": 123015890,
      "step": 5720,
      "time_per_iteration": 2.7370190620422363
    },
    {
      "auxiliary_loss_clip": 0.01160261,
      "auxiliary_loss_mlp": 0.01024875,
      "balance_loss_clip": 1.04575014,
      "balance_loss_mlp": 1.01719189,
      "epoch": 0.6879095773462394,
      "flos": 18661303745280.0,
      "grad_norm": 2.187537180333727,
      "language_loss": 0.77855271,
      "learning_rate": 9.374910056620791e-07,
      "loss": 0.80040407,
      "num_input_tokens_seen": 123034955,
      "step": 5721,
      "time_per_iteration": 3.6119744777679443
    },
    {
      "auxiliary_loss_clip": 0.01166909,
      "auxiliary_loss_mlp": 0.0103052,
      "balance_loss_clip": 1.04861665,
      "balance_loss_mlp": 1.02269363,
      "epoch": 0.6880298202368785,
      "flos": 20883132437760.0,
      "grad_norm": 1.6880876140200132,
      "language_loss": 0.80890399,
      "learning_rate": 9.368311319188293e-07,
      "loss": 0.83087832,
      "num_input_tokens_seen": 123052770,
      "step": 5722,
      "time_per_iteration": 2.667767286300659
    },
    {
      "auxiliary_loss_clip": 0.01140971,
      "auxiliary_loss_mlp": 0.01027527,
      "balance_loss_clip": 1.04149818,
      "balance_loss_mlp": 1.01971889,
      "epoch": 0.6881500631275176,
      "flos": 30153292318080.0,
      "grad_norm": 1.7371632454832495,
      "language_loss": 0.79082024,
      "learning_rate": 9.361714194574515e-07,
      "loss": 0.81250519,
      "num_input_tokens_seen": 123075105,
      "step": 5723,
      "time_per_iteration": 3.629795789718628
    },
    {
      "auxiliary_loss_clip": 0.01068119,
      "auxiliary_loss_mlp": 0.01001254,
      "balance_loss_clip": 1.01080287,
      "balance_loss_mlp": 1.00027013,
      "epoch": 0.6882703060181566,
      "flos": 66181537215360.0,
      "grad_norm": 0.7300968825299103,
      "language_loss": 0.58315742,
      "learning_rate": 9.355118683780228e-07,
      "loss": 0.60385108,
      "num_input_tokens_seen": 123145175,
      "step": 5724,
      "time_per_iteration": 3.308988332748413
    },
    {
      "auxiliary_loss_clip": 0.01170339,
      "auxiliary_loss_mlp": 0.01032341,
      "balance_loss_clip": 1.04626012,
      "balance_loss_mlp": 1.02442551,
      "epoch": 0.6883905489087958,
      "flos": 18214646123520.0,
      "grad_norm": 2.060914470337369,
      "language_loss": 0.79008693,
      "learning_rate": 9.348524787805987e-07,
      "loss": 0.8121137,
      "num_input_tokens_seen": 123160365,
      "step": 5725,
      "time_per_iteration": 2.594348192214966
    },
    {
      "auxiliary_loss_clip": 0.01143751,
      "auxiliary_loss_mlp": 0.01025366,
      "balance_loss_clip": 1.03943753,
      "balance_loss_mlp": 1.01721239,
      "epoch": 0.6885107917994349,
      "flos": 14056262553600.0,
      "grad_norm": 2.941976600816758,
      "language_loss": 0.84979689,
      "learning_rate": 9.341932507652053e-07,
      "loss": 0.87148803,
      "num_input_tokens_seen": 123174855,
      "step": 5726,
      "time_per_iteration": 2.6913299560546875
    },
    {
      "auxiliary_loss_clip": 0.01148471,
      "auxiliary_loss_mlp": 0.01025113,
      "balance_loss_clip": 1.04115438,
      "balance_loss_mlp": 1.01694715,
      "epoch": 0.6886310346900739,
      "flos": 28690722334080.0,
      "grad_norm": 2.170451973163761,
      "language_loss": 0.78887689,
      "learning_rate": 9.335341844318489e-07,
      "loss": 0.8106128,
      "num_input_tokens_seen": 123194995,
      "step": 5727,
      "time_per_iteration": 2.706749439239502
    },
    {
      "auxiliary_loss_clip": 0.01152676,
      "auxiliary_loss_mlp": 0.01027917,
      "balance_loss_clip": 1.04633427,
      "balance_loss_mlp": 1.01994228,
      "epoch": 0.6887512775807131,
      "flos": 24535319592960.0,
      "grad_norm": 1.7108788622172337,
      "language_loss": 0.73382616,
      "learning_rate": 9.328752798805091e-07,
      "loss": 0.75563204,
      "num_input_tokens_seen": 123213465,
      "step": 5728,
      "time_per_iteration": 2.7023513317108154
    },
    {
      "auxiliary_loss_clip": 0.01163465,
      "auxiliary_loss_mlp": 0.01029939,
      "balance_loss_clip": 1.04740882,
      "balance_loss_mlp": 1.02233386,
      "epoch": 0.6888715204713521,
      "flos": 22414363269120.0,
      "grad_norm": 3.2547111447795554,
      "language_loss": 0.76726985,
      "learning_rate": 9.322165372111399e-07,
      "loss": 0.78920388,
      "num_input_tokens_seen": 123231610,
      "step": 5729,
      "time_per_iteration": 3.6212198734283447
    },
    {
      "auxiliary_loss_clip": 0.01139347,
      "auxiliary_loss_mlp": 0.01029265,
      "balance_loss_clip": 1.04606056,
      "balance_loss_mlp": 1.02184451,
      "epoch": 0.6889917633619912,
      "flos": 22054323294720.0,
      "grad_norm": 2.12592066646956,
      "language_loss": 0.75976515,
      "learning_rate": 9.315579565236747e-07,
      "loss": 0.78145123,
      "num_input_tokens_seen": 123250715,
      "step": 5730,
      "time_per_iteration": 2.698195457458496
    },
    {
      "auxiliary_loss_clip": 0.01150959,
      "auxiliary_loss_mlp": 0.01030651,
      "balance_loss_clip": 1.04748297,
      "balance_loss_mlp": 1.02289629,
      "epoch": 0.6891120062526304,
      "flos": 23949724164480.0,
      "grad_norm": 1.9279294569190124,
      "language_loss": 0.74209219,
      "learning_rate": 9.308995379180162e-07,
      "loss": 0.76390827,
      "num_input_tokens_seen": 123270270,
      "step": 5731,
      "time_per_iteration": 2.692246437072754
    },
    {
      "auxiliary_loss_clip": 0.01063881,
      "auxiliary_loss_mlp": 0.01001252,
      "balance_loss_clip": 1.01070297,
      "balance_loss_mlp": 1.00018525,
      "epoch": 0.6892322491432694,
      "flos": 64117354337280.0,
      "grad_norm": 0.7320797132426857,
      "language_loss": 0.59490275,
      "learning_rate": 9.302412814940488e-07,
      "loss": 0.61555409,
      "num_input_tokens_seen": 123333045,
      "step": 5732,
      "time_per_iteration": 3.250798225402832
    },
    {
      "auxiliary_loss_clip": 0.01148862,
      "auxiliary_loss_mlp": 0.01030573,
      "balance_loss_clip": 1.04200721,
      "balance_loss_mlp": 1.02264881,
      "epoch": 0.6893524920339085,
      "flos": 23002436736000.0,
      "grad_norm": 3.2302579080385962,
      "language_loss": 0.7138654,
      "learning_rate": 9.295831873516276e-07,
      "loss": 0.73565978,
      "num_input_tokens_seen": 123352320,
      "step": 5733,
      "time_per_iteration": 2.715197801589966
    },
    {
      "auxiliary_loss_clip": 0.01174739,
      "auxiliary_loss_mlp": 0.01026224,
      "balance_loss_clip": 1.05027008,
      "balance_loss_mlp": 1.01895845,
      "epoch": 0.6894727349245476,
      "flos": 21396260177280.0,
      "grad_norm": 2.127276624800802,
      "language_loss": 0.76211828,
      "learning_rate": 9.289252555905873e-07,
      "loss": 0.78412795,
      "num_input_tokens_seen": 123372400,
      "step": 5734,
      "time_per_iteration": 2.5930025577545166
    },
    {
      "auxiliary_loss_clip": 0.0116254,
      "auxiliary_loss_mlp": 0.01033446,
      "balance_loss_clip": 1.04742432,
      "balance_loss_mlp": 1.02597737,
      "epoch": 0.6895929778151867,
      "flos": 19865316654720.0,
      "grad_norm": 2.3333257706387838,
      "language_loss": 0.75824964,
      "learning_rate": 9.282674863107334e-07,
      "loss": 0.78020948,
      "num_input_tokens_seen": 123390215,
      "step": 5735,
      "time_per_iteration": 2.6526358127593994
    },
    {
      "auxiliary_loss_clip": 0.01160515,
      "auxiliary_loss_mlp": 0.01024945,
      "balance_loss_clip": 1.04737055,
      "balance_loss_mlp": 1.01795602,
      "epoch": 0.6897132207058257,
      "flos": 18179166464640.0,
      "grad_norm": 2.8508094085820495,
      "language_loss": 0.76049972,
      "learning_rate": 9.276098796118488e-07,
      "loss": 0.78235435,
      "num_input_tokens_seen": 123406700,
      "step": 5736,
      "time_per_iteration": 2.622255802154541
    },
    {
      "auxiliary_loss_clip": 0.01155189,
      "auxiliary_loss_mlp": 0.01028295,
      "balance_loss_clip": 1.04750204,
      "balance_loss_mlp": 1.02039146,
      "epoch": 0.6898334635964649,
      "flos": 32561641359360.0,
      "grad_norm": 2.5654599346807596,
      "language_loss": 0.66456008,
      "learning_rate": 9.269524355936938e-07,
      "loss": 0.68639493,
      "num_input_tokens_seen": 123429880,
      "step": 5737,
      "time_per_iteration": 2.765104055404663
    },
    {
      "auxiliary_loss_clip": 0.01145503,
      "auxiliary_loss_mlp": 0.01027216,
      "balance_loss_clip": 1.04146171,
      "balance_loss_mlp": 1.02002811,
      "epoch": 0.689953706487104,
      "flos": 22819004956800.0,
      "grad_norm": 1.9947312656070442,
      "language_loss": 0.85065365,
      "learning_rate": 9.262951543560002e-07,
      "loss": 0.87238079,
      "num_input_tokens_seen": 123449105,
      "step": 5738,
      "time_per_iteration": 2.737116813659668
    },
    {
      "auxiliary_loss_clip": 0.0115157,
      "auxiliary_loss_mlp": 0.01027584,
      "balance_loss_clip": 1.04698062,
      "balance_loss_mlp": 1.01892889,
      "epoch": 0.690073949377743,
      "flos": 18515362786560.0,
      "grad_norm": 2.1882775544704067,
      "language_loss": 0.86040533,
      "learning_rate": 9.256380359984795e-07,
      "loss": 0.88219684,
      "num_input_tokens_seen": 123466215,
      "step": 5739,
      "time_per_iteration": 2.651602268218994
    },
    {
      "auxiliary_loss_clip": 0.01139875,
      "auxiliary_loss_mlp": 0.01024299,
      "balance_loss_clip": 1.03830338,
      "balance_loss_mlp": 1.01680636,
      "epoch": 0.6901941922683821,
      "flos": 34857194716800.0,
      "grad_norm": 2.0549855882096453,
      "language_loss": 0.74661058,
      "learning_rate": 9.249810806208139e-07,
      "loss": 0.76825231,
      "num_input_tokens_seen": 123485480,
      "step": 5740,
      "time_per_iteration": 2.872330665588379
    },
    {
      "auxiliary_loss_clip": 0.01128503,
      "auxiliary_loss_mlp": 0.0088641,
      "balance_loss_clip": 1.03625357,
      "balance_loss_mlp": 1.00044155,
      "epoch": 0.6903144351590212,
      "flos": 16253672976000.0,
      "grad_norm": 2.3641796106543462,
      "language_loss": 0.80150372,
      "learning_rate": 9.243242883226627e-07,
      "loss": 0.82165289,
      "num_input_tokens_seen": 123504575,
      "step": 5741,
      "time_per_iteration": 2.729959487915039
    },
    {
      "auxiliary_loss_clip": 0.01163637,
      "auxiliary_loss_mlp": 0.01027718,
      "balance_loss_clip": 1.04305339,
      "balance_loss_mlp": 1.01992774,
      "epoch": 0.6904346780496603,
      "flos": 28035137255040.0,
      "grad_norm": 2.875904930390831,
      "language_loss": 0.69619322,
      "learning_rate": 9.236676592036628e-07,
      "loss": 0.71810675,
      "num_input_tokens_seen": 123524250,
      "step": 5742,
      "time_per_iteration": 2.7084410190582275
    },
    {
      "auxiliary_loss_clip": 0.01152584,
      "auxiliary_loss_mlp": 0.01030796,
      "balance_loss_clip": 1.05003679,
      "balance_loss_mlp": 1.02295792,
      "epoch": 0.6905549209402994,
      "flos": 23624266008960.0,
      "grad_norm": 1.8629447239645924,
      "language_loss": 0.73863113,
      "learning_rate": 9.230111933634228e-07,
      "loss": 0.76046491,
      "num_input_tokens_seen": 123545845,
      "step": 5743,
      "time_per_iteration": 3.6309304237365723
    },
    {
      "auxiliary_loss_clip": 0.01166649,
      "auxiliary_loss_mlp": 0.01032986,
      "balance_loss_clip": 1.04822969,
      "balance_loss_mlp": 1.02480817,
      "epoch": 0.6906751638309385,
      "flos": 23114945111040.0,
      "grad_norm": 3.5879490185303795,
      "language_loss": 0.80863822,
      "learning_rate": 9.223548909015288e-07,
      "loss": 0.83063459,
      "num_input_tokens_seen": 123567535,
      "step": 5744,
      "time_per_iteration": 2.723651647567749
    },
    {
      "auxiliary_loss_clip": 0.01126744,
      "auxiliary_loss_mlp": 0.01022874,
      "balance_loss_clip": 1.04154778,
      "balance_loss_mlp": 1.0153935,
      "epoch": 0.6907954067215776,
      "flos": 27305468375040.0,
      "grad_norm": 3.023978993173629,
      "language_loss": 0.72150725,
      "learning_rate": 9.216987519175407e-07,
      "loss": 0.74300349,
      "num_input_tokens_seen": 123587710,
      "step": 5745,
      "time_per_iteration": 2.77178692817688
    },
    {
      "auxiliary_loss_clip": 0.0116099,
      "auxiliary_loss_mlp": 0.01031077,
      "balance_loss_clip": 1.048733,
      "balance_loss_mlp": 1.02313137,
      "epoch": 0.6909156496122166,
      "flos": 21689399070720.0,
      "grad_norm": 1.6334234054982955,
      "language_loss": 0.68565041,
      "learning_rate": 9.210427765109942e-07,
      "loss": 0.70757103,
      "num_input_tokens_seen": 123607385,
      "step": 5746,
      "time_per_iteration": 3.5776243209838867
    },
    {
      "auxiliary_loss_clip": 0.01153631,
      "auxiliary_loss_mlp": 0.0102521,
      "balance_loss_clip": 1.04287922,
      "balance_loss_mlp": 1.01665688,
      "epoch": 0.6910358925028558,
      "flos": 22561453463040.0,
      "grad_norm": 2.0850560499748223,
      "language_loss": 0.81547523,
      "learning_rate": 9.20386964781402e-07,
      "loss": 0.83726358,
      "num_input_tokens_seen": 123625405,
      "step": 5747,
      "time_per_iteration": 2.7003281116485596
    },
    {
      "auxiliary_loss_clip": 0.0114992,
      "auxiliary_loss_mlp": 0.01025079,
      "balance_loss_clip": 1.04397535,
      "balance_loss_mlp": 1.01738429,
      "epoch": 0.6911561353934949,
      "flos": 22054107813120.0,
      "grad_norm": 1.9329131786216553,
      "language_loss": 0.83895415,
      "learning_rate": 9.197313168282472e-07,
      "loss": 0.86070412,
      "num_input_tokens_seen": 123642850,
      "step": 5748,
      "time_per_iteration": 2.6149370670318604
    },
    {
      "auxiliary_loss_clip": 0.01155442,
      "auxiliary_loss_mlp": 0.01026599,
      "balance_loss_clip": 1.04189086,
      "balance_loss_mlp": 1.01873159,
      "epoch": 0.6912763782841339,
      "flos": 24206557386240.0,
      "grad_norm": 2.3731531728139705,
      "language_loss": 0.72041148,
      "learning_rate": 9.190758327509935e-07,
      "loss": 0.74223191,
      "num_input_tokens_seen": 123661595,
      "step": 5749,
      "time_per_iteration": 3.480743169784546
    },
    {
      "auxiliary_loss_clip": 0.01047547,
      "auxiliary_loss_mlp": 0.00876007,
      "balance_loss_clip": 1.01002967,
      "balance_loss_mlp": 1.00077748,
      "epoch": 0.6913966211747731,
      "flos": 52329641091840.0,
      "grad_norm": 0.9312923705767746,
      "language_loss": 0.64433527,
      "learning_rate": 9.184205126490767e-07,
      "loss": 0.66357076,
      "num_input_tokens_seen": 123710490,
      "step": 5750,
      "time_per_iteration": 3.1311519145965576
    },
    {
      "auxiliary_loss_clip": 0.01048569,
      "auxiliary_loss_mlp": 0.0087612,
      "balance_loss_clip": 1.00889695,
      "balance_loss_mlp": 1.00084925,
      "epoch": 0.6915168640654121,
      "flos": 66741274851840.0,
      "grad_norm": 1.0856445653326623,
      "language_loss": 0.59545904,
      "learning_rate": 9.177653566219075e-07,
      "loss": 0.61470592,
      "num_input_tokens_seen": 123765215,
      "step": 5751,
      "time_per_iteration": 3.1414287090301514
    },
    {
      "auxiliary_loss_clip": 0.01145563,
      "auxiliary_loss_mlp": 0.01028581,
      "balance_loss_clip": 1.04122162,
      "balance_loss_mlp": 1.02060556,
      "epoch": 0.6916371069560512,
      "flos": 18296523175680.0,
      "grad_norm": 2.1788495331743256,
      "language_loss": 0.76265514,
      "learning_rate": 9.171103647688744e-07,
      "loss": 0.78439653,
      "num_input_tokens_seen": 123783955,
      "step": 5752,
      "time_per_iteration": 2.835601806640625
    },
    {
      "auxiliary_loss_clip": 0.0110801,
      "auxiliary_loss_mlp": 0.01026737,
      "balance_loss_clip": 1.03851676,
      "balance_loss_mlp": 1.01947737,
      "epoch": 0.6917573498466904,
      "flos": 19645794685440.0,
      "grad_norm": 1.8585190961449072,
      "language_loss": 0.69525194,
      "learning_rate": 9.164555371893367e-07,
      "loss": 0.71659935,
      "num_input_tokens_seen": 123803885,
      "step": 5753,
      "time_per_iteration": 2.922523260116577
    },
    {
      "auxiliary_loss_clip": 0.01163009,
      "auxiliary_loss_mlp": 0.00886292,
      "balance_loss_clip": 1.04754066,
      "balance_loss_mlp": 1.00048494,
      "epoch": 0.6918775927373294,
      "flos": 14210319985920.0,
      "grad_norm": 1.8047702305171955,
      "language_loss": 0.75185573,
      "learning_rate": 9.158008739826333e-07,
      "loss": 0.77234876,
      "num_input_tokens_seen": 123821485,
      "step": 5754,
      "time_per_iteration": 3.923006772994995
    },
    {
      "auxiliary_loss_clip": 0.01151788,
      "auxiliary_loss_mlp": 0.0102952,
      "balance_loss_clip": 1.04848886,
      "balance_loss_mlp": 1.02125335,
      "epoch": 0.6919978356279685,
      "flos": 23985455218560.0,
      "grad_norm": 1.7296318604011556,
      "language_loss": 0.86813772,
      "learning_rate": 9.151463752480744e-07,
      "loss": 0.88995075,
      "num_input_tokens_seen": 123840215,
      "step": 5755,
      "time_per_iteration": 2.715672016143799
    },
    {
      "auxiliary_loss_clip": 0.01135387,
      "auxiliary_loss_mlp": 0.01026813,
      "balance_loss_clip": 1.04240584,
      "balance_loss_mlp": 1.01920748,
      "epoch": 0.6921180785186076,
      "flos": 23622937205760.0,
      "grad_norm": 1.4224102516139765,
      "language_loss": 0.8032757,
      "learning_rate": 9.144920410849493e-07,
      "loss": 0.82489765,
      "num_input_tokens_seen": 123861450,
      "step": 5756,
      "time_per_iteration": 2.7391343116760254
    },
    {
      "auxiliary_loss_clip": 0.01156728,
      "auxiliary_loss_mlp": 0.01024978,
      "balance_loss_clip": 1.04434443,
      "balance_loss_mlp": 1.01678193,
      "epoch": 0.6922383214092467,
      "flos": 21142623265920.0,
      "grad_norm": 2.0107858531633807,
      "language_loss": 0.80321079,
      "learning_rate": 9.138378715925176e-07,
      "loss": 0.82502782,
      "num_input_tokens_seen": 123880545,
      "step": 5757,
      "time_per_iteration": 2.7078399658203125
    },
    {
      "auxiliary_loss_clip": 0.0114157,
      "auxiliary_loss_mlp": 0.01026505,
      "balance_loss_clip": 1.04109216,
      "balance_loss_mlp": 1.01810694,
      "epoch": 0.6923585642998857,
      "flos": 21470667200640.0,
      "grad_norm": 5.077996117897756,
      "language_loss": 0.81107074,
      "learning_rate": 9.131838668700167e-07,
      "loss": 0.83275151,
      "num_input_tokens_seen": 123900615,
      "step": 5758,
      "time_per_iteration": 2.6619997024536133
    },
    {
      "auxiliary_loss_clip": 0.01142875,
      "auxiliary_loss_mlp": 0.01027633,
      "balance_loss_clip": 1.04140556,
      "balance_loss_mlp": 1.01908517,
      "epoch": 0.6924788071905249,
      "flos": 21105204272640.0,
      "grad_norm": 1.7380911061071112,
      "language_loss": 0.86382878,
      "learning_rate": 9.125300270166598e-07,
      "loss": 0.88553381,
      "num_input_tokens_seen": 123921220,
      "step": 5759,
      "time_per_iteration": 2.782914400100708
    },
    {
      "auxiliary_loss_clip": 0.01149498,
      "auxiliary_loss_mlp": 0.01024899,
      "balance_loss_clip": 1.0420717,
      "balance_loss_mlp": 1.01778269,
      "epoch": 0.692599050081164,
      "flos": 26250018117120.0,
      "grad_norm": 1.898207810019459,
      "language_loss": 0.85944104,
      "learning_rate": 9.118763521316324e-07,
      "loss": 0.88118505,
      "num_input_tokens_seen": 123941795,
      "step": 5760,
      "time_per_iteration": 2.783386707305908
    },
    {
      "auxiliary_loss_clip": 0.01171834,
      "auxiliary_loss_mlp": 0.0088633,
      "balance_loss_clip": 1.04784906,
      "balance_loss_mlp": 1.00041902,
      "epoch": 0.692719292971803,
      "flos": 20885215426560.0,
      "grad_norm": 1.6364727937688057,
      "language_loss": 0.76131332,
      "learning_rate": 9.112228423140987e-07,
      "loss": 0.78189492,
      "num_input_tokens_seen": 123960715,
      "step": 5761,
      "time_per_iteration": 2.6494839191436768
    },
    {
      "auxiliary_loss_clip": 0.01155485,
      "auxiliary_loss_mlp": 0.01030387,
      "balance_loss_clip": 1.04415298,
      "balance_loss_mlp": 1.02222157,
      "epoch": 0.6928395358624422,
      "flos": 25921938268800.0,
      "grad_norm": 4.664108282383393,
      "language_loss": 0.86448926,
      "learning_rate": 9.105694976631932e-07,
      "loss": 0.88634801,
      "num_input_tokens_seen": 123978625,
      "step": 5762,
      "time_per_iteration": 2.669672966003418
    },
    {
      "auxiliary_loss_clip": 0.0116329,
      "auxiliary_loss_mlp": 0.01029994,
      "balance_loss_clip": 1.04729271,
      "balance_loss_mlp": 1.02198911,
      "epoch": 0.6929597787530812,
      "flos": 23586559706880.0,
      "grad_norm": 2.152157705389729,
      "language_loss": 0.7299276,
      "learning_rate": 9.099163182780283e-07,
      "loss": 0.75186044,
      "num_input_tokens_seen": 123996780,
      "step": 5763,
      "time_per_iteration": 2.6375362873077393
    },
    {
      "auxiliary_loss_clip": 0.01150453,
      "auxiliary_loss_mlp": 0.01024283,
      "balance_loss_clip": 1.04517913,
      "balance_loss_mlp": 1.01612878,
      "epoch": 0.6930800216437203,
      "flos": 18255656476800.0,
      "grad_norm": 3.0623843096659913,
      "language_loss": 0.48824942,
      "learning_rate": 9.092633042576916e-07,
      "loss": 0.50999677,
      "num_input_tokens_seen": 124014045,
      "step": 5764,
      "time_per_iteration": 2.6608726978302
    },
    {
      "auxiliary_loss_clip": 0.01149398,
      "auxiliary_loss_mlp": 0.0102371,
      "balance_loss_clip": 1.04702246,
      "balance_loss_mlp": 1.01588964,
      "epoch": 0.6932002645343595,
      "flos": 29168621809920.0,
      "grad_norm": 2.6108992045558943,
      "language_loss": 0.56345189,
      "learning_rate": 9.086104557012446e-07,
      "loss": 0.58518296,
      "num_input_tokens_seen": 124034615,
      "step": 5765,
      "time_per_iteration": 2.722687005996704
    },
    {
      "auxiliary_loss_clip": 0.01153662,
      "auxiliary_loss_mlp": 0.01023322,
      "balance_loss_clip": 1.04347765,
      "balance_loss_mlp": 1.01568711,
      "epoch": 0.6933205074249985,
      "flos": 23842746483840.0,
      "grad_norm": 4.940658743249124,
      "language_loss": 0.65284944,
      "learning_rate": 9.079577727077239e-07,
      "loss": 0.6746192,
      "num_input_tokens_seen": 124053445,
      "step": 5766,
      "time_per_iteration": 2.702446460723877
    },
    {
      "auxiliary_loss_clip": 0.01161993,
      "auxiliary_loss_mlp": 0.01026441,
      "balance_loss_clip": 1.04727662,
      "balance_loss_mlp": 1.01814997,
      "epoch": 0.6934407503156376,
      "flos": 24166696268160.0,
      "grad_norm": 2.278460449779592,
      "language_loss": 0.72258532,
      "learning_rate": 9.073052553761404e-07,
      "loss": 0.74446964,
      "num_input_tokens_seen": 124072810,
      "step": 5767,
      "time_per_iteration": 2.6362900733947754
    },
    {
      "auxiliary_loss_clip": 0.01134152,
      "auxiliary_loss_mlp": 0.01029828,
      "balance_loss_clip": 1.04242802,
      "balance_loss_mlp": 1.02114391,
      "epoch": 0.6935609932062767,
      "flos": 20631327120000.0,
      "grad_norm": 1.8413136538780903,
      "language_loss": 0.78183657,
      "learning_rate": 9.066529038054805e-07,
      "loss": 0.80347645,
      "num_input_tokens_seen": 124092875,
      "step": 5768,
      "time_per_iteration": 2.7485830783843994
    },
    {
      "auxiliary_loss_clip": 0.01151558,
      "auxiliary_loss_mlp": 0.01029463,
      "balance_loss_clip": 1.04446709,
      "balance_loss_mlp": 1.0223043,
      "epoch": 0.6936812360969158,
      "flos": 18254184019200.0,
      "grad_norm": 1.938323867249878,
      "language_loss": 0.74181223,
      "learning_rate": 9.060007180947071e-07,
      "loss": 0.7636224,
      "num_input_tokens_seen": 124110930,
      "step": 5769,
      "time_per_iteration": 3.559896469116211
    },
    {
      "auxiliary_loss_clip": 0.01133933,
      "auxiliary_loss_mlp": 0.01029842,
      "balance_loss_clip": 1.03909659,
      "balance_loss_mlp": 1.02168846,
      "epoch": 0.6938014789875548,
      "flos": 31317336368640.0,
      "grad_norm": 1.961064694209537,
      "language_loss": 0.73511553,
      "learning_rate": 9.053486983427534e-07,
      "loss": 0.75675327,
      "num_input_tokens_seen": 124132180,
      "step": 5770,
      "time_per_iteration": 2.8360440731048584
    },
    {
      "auxiliary_loss_clip": 0.01153153,
      "auxiliary_loss_mlp": 0.01029338,
      "balance_loss_clip": 1.04175067,
      "balance_loss_mlp": 1.02213228,
      "epoch": 0.6939217218781939,
      "flos": 17528429721600.0,
      "grad_norm": 4.294218461482811,
      "language_loss": 0.70335376,
      "learning_rate": 9.046968446485326e-07,
      "loss": 0.72517872,
      "num_input_tokens_seen": 124150585,
      "step": 5771,
      "time_per_iteration": 2.5834221839904785
    },
    {
      "auxiliary_loss_clip": 0.01164675,
      "auxiliary_loss_mlp": 0.01032757,
      "balance_loss_clip": 1.04655027,
      "balance_loss_mlp": 1.02443933,
      "epoch": 0.6940419647688331,
      "flos": 18551776199040.0,
      "grad_norm": 2.4244581294578733,
      "language_loss": 0.7029627,
      "learning_rate": 9.040451571109295e-07,
      "loss": 0.72493702,
      "num_input_tokens_seen": 124166205,
      "step": 5772,
      "time_per_iteration": 2.6280832290649414
    },
    {
      "auxiliary_loss_clip": 0.01047933,
      "auxiliary_loss_mlp": 0.01004052,
      "balance_loss_clip": 1.01314592,
      "balance_loss_mlp": 1.00297916,
      "epoch": 0.6941622076594721,
      "flos": 66926286829440.0,
      "grad_norm": 0.841301759565104,
      "language_loss": 0.60379249,
      "learning_rate": 9.033936358288042e-07,
      "loss": 0.62431234,
      "num_input_tokens_seen": 124219940,
      "step": 5773,
      "time_per_iteration": 4.180323839187622
    },
    {
      "auxiliary_loss_clip": 0.01173041,
      "auxiliary_loss_mlp": 0.01024459,
      "balance_loss_clip": 1.04827261,
      "balance_loss_mlp": 1.01689529,
      "epoch": 0.6942824505501112,
      "flos": 26578062051840.0,
      "grad_norm": 1.6345874523126203,
      "language_loss": 0.82083535,
      "learning_rate": 9.027422809009937e-07,
      "loss": 0.84281033,
      "num_input_tokens_seen": 124239885,
      "step": 5774,
      "time_per_iteration": 2.6168413162231445
    },
    {
      "auxiliary_loss_clip": 0.01164142,
      "auxiliary_loss_mlp": 0.01026866,
      "balance_loss_clip": 1.04543829,
      "balance_loss_mlp": 1.01877141,
      "epoch": 0.6944026934407503,
      "flos": 21248308056960.0,
      "grad_norm": 1.6849086362235575,
      "language_loss": 0.8329258,
      "learning_rate": 9.020910924263054e-07,
      "loss": 0.85483593,
      "num_input_tokens_seen": 124258410,
      "step": 5775,
      "time_per_iteration": 3.4345316886901855
    },
    {
      "auxiliary_loss_clip": 0.01048263,
      "auxiliary_loss_mlp": 0.01004892,
      "balance_loss_clip": 1.01465261,
      "balance_loss_mlp": 1.00371802,
      "epoch": 0.6945229363313894,
      "flos": 70677191537280.0,
      "grad_norm": 0.8162210955225626,
      "language_loss": 0.58126688,
      "learning_rate": 9.014400705035261e-07,
      "loss": 0.60179842,
      "num_input_tokens_seen": 124315315,
      "step": 5776,
      "time_per_iteration": 3.320824384689331
    },
    {
      "auxiliary_loss_clip": 0.01174288,
      "auxiliary_loss_mlp": 0.01031618,
      "balance_loss_clip": 1.05148935,
      "balance_loss_mlp": 1.02372611,
      "epoch": 0.6946431792220285,
      "flos": 18952934267520.0,
      "grad_norm": 2.1431417837122564,
      "language_loss": 0.77150226,
      "learning_rate": 9.00789215231414e-07,
      "loss": 0.79356128,
      "num_input_tokens_seen": 124333710,
      "step": 5777,
      "time_per_iteration": 2.552661895751953
    },
    {
      "auxiliary_loss_clip": 0.01142754,
      "auxiliary_loss_mlp": 0.00886962,
      "balance_loss_clip": 1.04148769,
      "balance_loss_mlp": 1.00051832,
      "epoch": 0.6947634221126676,
      "flos": 20338834671360.0,
      "grad_norm": 1.9050005602299767,
      "language_loss": 0.81710887,
      "learning_rate": 9.001385267087056e-07,
      "loss": 0.83740604,
      "num_input_tokens_seen": 124352855,
      "step": 5778,
      "time_per_iteration": 2.7146012783050537
    },
    {
      "auxiliary_loss_clip": 0.01168695,
      "auxiliary_loss_mlp": 0.01025786,
      "balance_loss_clip": 1.04917669,
      "balance_loss_mlp": 1.01835632,
      "epoch": 0.6948836650033067,
      "flos": 21833723917440.0,
      "grad_norm": 1.4954381795530844,
      "language_loss": 0.70478606,
      "learning_rate": 8.994880050341072e-07,
      "loss": 0.72673094,
      "num_input_tokens_seen": 124372960,
      "step": 5779,
      "time_per_iteration": 2.5752952098846436
    },
    {
      "auxiliary_loss_clip": 0.01148814,
      "auxiliary_loss_mlp": 0.01029569,
      "balance_loss_clip": 1.04541421,
      "balance_loss_mlp": 1.02132869,
      "epoch": 0.6950039078939457,
      "flos": 23657519024640.0,
      "grad_norm": 9.66622318631396,
      "language_loss": 0.77014077,
      "learning_rate": 8.988376503063026e-07,
      "loss": 0.7919246,
      "num_input_tokens_seen": 124394220,
      "step": 5780,
      "time_per_iteration": 3.543144941329956
    },
    {
      "auxiliary_loss_clip": 0.01140544,
      "auxiliary_loss_mlp": 0.01025521,
      "balance_loss_clip": 1.0419507,
      "balance_loss_mlp": 1.01767159,
      "epoch": 0.6951241507845849,
      "flos": 21792462168960.0,
      "grad_norm": 2.377001419548333,
      "language_loss": 0.81728101,
      "learning_rate": 8.981874626239521e-07,
      "loss": 0.83894169,
      "num_input_tokens_seen": 124412795,
      "step": 5781,
      "time_per_iteration": 2.63753604888916
    },
    {
      "auxiliary_loss_clip": 0.01166668,
      "auxiliary_loss_mlp": 0.01031556,
      "balance_loss_clip": 1.05111873,
      "balance_loss_mlp": 1.02365875,
      "epoch": 0.695244393675224,
      "flos": 14647568244480.0,
      "grad_norm": 1.9545148682941569,
      "language_loss": 0.88233507,
      "learning_rate": 8.975374420856872e-07,
      "loss": 0.90431726,
      "num_input_tokens_seen": 124429690,
      "step": 5782,
      "time_per_iteration": 2.6162660121917725
    },
    {
      "auxiliary_loss_clip": 0.01132234,
      "auxiliary_loss_mlp": 0.01026496,
      "balance_loss_clip": 1.04015231,
      "balance_loss_mlp": 1.01889622,
      "epoch": 0.695364636565863,
      "flos": 16873203778560.0,
      "grad_norm": 2.3185483304961476,
      "language_loss": 0.73420751,
      "learning_rate": 8.968875887901157e-07,
      "loss": 0.75579488,
      "num_input_tokens_seen": 124447070,
      "step": 5783,
      "time_per_iteration": 2.7054100036621094
    },
    {
      "auxiliary_loss_clip": 0.01152328,
      "auxiliary_loss_mlp": 0.01030616,
      "balance_loss_clip": 1.04267192,
      "balance_loss_mlp": 1.02298617,
      "epoch": 0.6954848794565022,
      "flos": 19354523299200.0,
      "grad_norm": 3.957430463063432,
      "language_loss": 0.6287539,
      "learning_rate": 8.9623790283582e-07,
      "loss": 0.65058327,
      "num_input_tokens_seen": 124464950,
      "step": 5784,
      "time_per_iteration": 2.6608400344848633
    },
    {
      "auxiliary_loss_clip": 0.01145842,
      "auxiliary_loss_mlp": 0.01030562,
      "balance_loss_clip": 1.04547262,
      "balance_loss_mlp": 1.02252686,
      "epoch": 0.6956051223471412,
      "flos": 18990209606400.0,
      "grad_norm": 2.1369067465609612,
      "language_loss": 0.76247722,
      "learning_rate": 8.955883843213561e-07,
      "loss": 0.78424126,
      "num_input_tokens_seen": 124483965,
      "step": 5785,
      "time_per_iteration": 2.7688162326812744
    },
    {
      "auxiliary_loss_clip": 0.01170905,
      "auxiliary_loss_mlp": 0.01026474,
      "balance_loss_clip": 1.04814577,
      "balance_loss_mlp": 1.01826,
      "epoch": 0.6957253652377803,
      "flos": 16107229226880.0,
      "grad_norm": 4.242930709118749,
      "language_loss": 0.87042534,
      "learning_rate": 8.949390333452569e-07,
      "loss": 0.89239907,
      "num_input_tokens_seen": 124501910,
      "step": 5786,
      "time_per_iteration": 2.6359848976135254
    },
    {
      "auxiliary_loss_clip": 0.01172982,
      "auxiliary_loss_mlp": 0.01027908,
      "balance_loss_clip": 1.04954386,
      "balance_loss_mlp": 1.02002263,
      "epoch": 0.6958456081284194,
      "flos": 29388646569600.0,
      "grad_norm": 2.9427314338770807,
      "language_loss": 0.67927325,
      "learning_rate": 8.942898500060279e-07,
      "loss": 0.7012822,
      "num_input_tokens_seen": 124521625,
      "step": 5787,
      "time_per_iteration": 2.6889333724975586
    },
    {
      "auxiliary_loss_clip": 0.0114462,
      "auxiliary_loss_mlp": 0.01025645,
      "balance_loss_clip": 1.04552627,
      "balance_loss_mlp": 1.01732373,
      "epoch": 0.6959658510190585,
      "flos": 25154850395520.0,
      "grad_norm": 2.4020289232409517,
      "language_loss": 0.7206192,
      "learning_rate": 8.936408344021493e-07,
      "loss": 0.74232185,
      "num_input_tokens_seen": 124538540,
      "step": 5788,
      "time_per_iteration": 2.7684133052825928
    },
    {
      "auxiliary_loss_clip": 0.0116705,
      "auxiliary_loss_mlp": 0.0103208,
      "balance_loss_clip": 1.05016637,
      "balance_loss_mlp": 1.02388453,
      "epoch": 0.6960860939096976,
      "flos": 42814388759040.0,
      "grad_norm": 2.1029253316919805,
      "language_loss": 0.71348429,
      "learning_rate": 8.929919866320765e-07,
      "loss": 0.7354756,
      "num_input_tokens_seen": 124559355,
      "step": 5789,
      "time_per_iteration": 2.846987009048462
    },
    {
      "auxiliary_loss_clip": 0.01150698,
      "auxiliary_loss_mlp": 0.00886816,
      "balance_loss_clip": 1.04415894,
      "balance_loss_mlp": 1.00043917,
      "epoch": 0.6962063368003367,
      "flos": 17566566986880.0,
      "grad_norm": 2.240694547504825,
      "language_loss": 0.81439912,
      "learning_rate": 8.923433067942385e-07,
      "loss": 0.83477426,
      "num_input_tokens_seen": 124577920,
      "step": 5790,
      "time_per_iteration": 2.711617946624756
    },
    {
      "auxiliary_loss_clip": 0.01150743,
      "auxiliary_loss_mlp": 0.01024863,
      "balance_loss_clip": 1.04402065,
      "balance_loss_mlp": 1.01719761,
      "epoch": 0.6963265796909758,
      "flos": 21251648021760.0,
      "grad_norm": 1.9097764033883144,
      "language_loss": 0.68870443,
      "learning_rate": 8.916947949870417e-07,
      "loss": 0.71046048,
      "num_input_tokens_seen": 124597585,
      "step": 5791,
      "time_per_iteration": 2.952406406402588
    },
    {
      "auxiliary_loss_clip": 0.01064181,
      "auxiliary_loss_mlp": 0.01000971,
      "balance_loss_clip": 1.0112884,
      "balance_loss_mlp": 0.99988002,
      "epoch": 0.6964468225816148,
      "flos": 68828295801600.0,
      "grad_norm": 0.7354553264272755,
      "language_loss": 0.58073473,
      "learning_rate": 8.910464513088615e-07,
      "loss": 0.60138619,
      "num_input_tokens_seen": 124661625,
      "step": 5792,
      "time_per_iteration": 3.32094669342041
    },
    {
      "auxiliary_loss_clip": 0.01145969,
      "auxiliary_loss_mlp": 0.01032957,
      "balance_loss_clip": 1.04402542,
      "balance_loss_mlp": 1.02503538,
      "epoch": 0.696567065472254,
      "flos": 18950887192320.0,
      "grad_norm": 1.9246009672735993,
      "language_loss": 0.78273356,
      "learning_rate": 8.903982758580542e-07,
      "loss": 0.80452281,
      "num_input_tokens_seen": 124680565,
      "step": 5793,
      "time_per_iteration": 2.751302719116211
    },
    {
      "auxiliary_loss_clip": 0.01148227,
      "auxiliary_loss_mlp": 0.01028791,
      "balance_loss_clip": 1.04392076,
      "balance_loss_mlp": 1.02112603,
      "epoch": 0.696687308362893,
      "flos": 22856675345280.0,
      "grad_norm": 2.278014889082488,
      "language_loss": 0.79877394,
      "learning_rate": 8.897502687329457e-07,
      "loss": 0.82054412,
      "num_input_tokens_seen": 124700365,
      "step": 5794,
      "time_per_iteration": 2.7873945236206055
    },
    {
      "auxiliary_loss_clip": 0.01139153,
      "auxiliary_loss_mlp": 0.01031817,
      "balance_loss_clip": 1.04254484,
      "balance_loss_mlp": 1.02374637,
      "epoch": 0.6968075512535321,
      "flos": 24972926987520.0,
      "grad_norm": 2.034005681280742,
      "language_loss": 0.80433857,
      "learning_rate": 8.891024300318382e-07,
      "loss": 0.82604825,
      "num_input_tokens_seen": 124718935,
      "step": 5795,
      "time_per_iteration": 3.649705410003662
    },
    {
      "auxiliary_loss_clip": 0.01135722,
      "auxiliary_loss_mlp": 0.01026481,
      "balance_loss_clip": 1.04305696,
      "balance_loss_mlp": 1.01875007,
      "epoch": 0.6969277941441713,
      "flos": 21030438113280.0,
      "grad_norm": 2.151768409682618,
      "language_loss": 0.7601161,
      "learning_rate": 8.884547598530103e-07,
      "loss": 0.7817381,
      "num_input_tokens_seen": 124739505,
      "step": 5796,
      "time_per_iteration": 2.8623204231262207
    },
    {
      "auxiliary_loss_clip": 0.01107658,
      "auxiliary_loss_mlp": 0.01030686,
      "balance_loss_clip": 1.03858447,
      "balance_loss_mlp": 1.02288926,
      "epoch": 0.6970480370348103,
      "flos": 21579404647680.0,
      "grad_norm": 1.8183912720212423,
      "language_loss": 0.75341189,
      "learning_rate": 8.8780725829471e-07,
      "loss": 0.77479529,
      "num_input_tokens_seen": 124757410,
      "step": 5797,
      "time_per_iteration": 2.9909698963165283
    },
    {
      "auxiliary_loss_clip": 0.01173819,
      "auxiliary_loss_mlp": 0.01023635,
      "balance_loss_clip": 1.04841614,
      "balance_loss_mlp": 1.01565361,
      "epoch": 0.6971682799254494,
      "flos": 22419175691520.0,
      "grad_norm": 1.904948913751663,
      "language_loss": 0.77854574,
      "learning_rate": 8.87159925455165e-07,
      "loss": 0.80052024,
      "num_input_tokens_seen": 124777240,
      "step": 5798,
      "time_per_iteration": 2.715254068374634
    },
    {
      "auxiliary_loss_clip": 0.01139092,
      "auxiliary_loss_mlp": 0.0102779,
      "balance_loss_clip": 1.04267228,
      "balance_loss_mlp": 1.01979136,
      "epoch": 0.6972885228160886,
      "flos": 20005834659840.0,
      "grad_norm": 2.258165667036463,
      "language_loss": 0.73385859,
      "learning_rate": 8.865127614325738e-07,
      "loss": 0.75552744,
      "num_input_tokens_seen": 124795670,
      "step": 5799,
      "time_per_iteration": 3.886838436126709
    },
    {
      "auxiliary_loss_clip": 0.01147799,
      "auxiliary_loss_mlp": 0.01022865,
      "balance_loss_clip": 1.04401207,
      "balance_loss_mlp": 1.01416874,
      "epoch": 0.6974087657067276,
      "flos": 37853437656960.0,
      "grad_norm": 1.8093847787857797,
      "language_loss": 0.66614628,
      "learning_rate": 8.85865766325113e-07,
      "loss": 0.68785298,
      "num_input_tokens_seen": 124819600,
      "step": 5800,
      "time_per_iteration": 3.6929142475128174
    },
    {
      "auxiliary_loss_clip": 0.01150674,
      "auxiliary_loss_mlp": 0.01023263,
      "balance_loss_clip": 1.04533458,
      "balance_loss_mlp": 1.01510859,
      "epoch": 0.6975290085973667,
      "flos": 29489267543040.0,
      "grad_norm": 2.186414924212863,
      "language_loss": 0.7148149,
      "learning_rate": 8.852189402309287e-07,
      "loss": 0.73655427,
      "num_input_tokens_seen": 124838785,
      "step": 5801,
      "time_per_iteration": 2.7424776554107666
    },
    {
      "auxiliary_loss_clip": 0.01164867,
      "auxiliary_loss_mlp": 0.01029507,
      "balance_loss_clip": 1.04855549,
      "balance_loss_mlp": 1.02117407,
      "epoch": 0.6976492514880057,
      "flos": 12895630295040.0,
      "grad_norm": 3.14634269173871,
      "language_loss": 0.74497414,
      "learning_rate": 8.845722832481441e-07,
      "loss": 0.76691782,
      "num_input_tokens_seen": 124854215,
      "step": 5802,
      "time_per_iteration": 2.7022979259490967
    },
    {
      "auxiliary_loss_clip": 0.01162388,
      "auxiliary_loss_mlp": 0.01030415,
      "balance_loss_clip": 1.04595399,
      "balance_loss_mlp": 1.02262485,
      "epoch": 0.6977694943786449,
      "flos": 24352929308160.0,
      "grad_norm": 2.1239690173185366,
      "language_loss": 0.77216458,
      "learning_rate": 8.83925795474858e-07,
      "loss": 0.7940926,
      "num_input_tokens_seen": 124874340,
      "step": 5803,
      "time_per_iteration": 2.6442010402679443
    },
    {
      "auxiliary_loss_clip": 0.01142727,
      "auxiliary_loss_mlp": 0.01026265,
      "balance_loss_clip": 1.04664397,
      "balance_loss_mlp": 1.01798606,
      "epoch": 0.6978897372692839,
      "flos": 29898470257920.0,
      "grad_norm": 2.41191944139578,
      "language_loss": 0.59233838,
      "learning_rate": 8.832794770091414e-07,
      "loss": 0.61402833,
      "num_input_tokens_seen": 124895175,
      "step": 5804,
      "time_per_iteration": 2.8418593406677246
    },
    {
      "auxiliary_loss_clip": 0.01158066,
      "auxiliary_loss_mlp": 0.01030812,
      "balance_loss_clip": 1.04493272,
      "balance_loss_mlp": 1.0229826,
      "epoch": 0.698009980159923,
      "flos": 21761579450880.0,
      "grad_norm": 2.509430036466546,
      "language_loss": 0.82222164,
      "learning_rate": 8.826333279490401e-07,
      "loss": 0.84411037,
      "num_input_tokens_seen": 124915810,
      "step": 5805,
      "time_per_iteration": 2.705780506134033
    },
    {
      "auxiliary_loss_clip": 0.01156983,
      "auxiliary_loss_mlp": 0.01025212,
      "balance_loss_clip": 1.04698467,
      "balance_loss_mlp": 1.01751709,
      "epoch": 0.6981302230505622,
      "flos": 19857164267520.0,
      "grad_norm": 2.4024511075340853,
      "language_loss": 0.6810292,
      "learning_rate": 8.819873483925748e-07,
      "loss": 0.70285118,
      "num_input_tokens_seen": 124932930,
      "step": 5806,
      "time_per_iteration": 3.66919207572937
    },
    {
      "auxiliary_loss_clip": 0.01151041,
      "auxiliary_loss_mlp": 0.00886391,
      "balance_loss_clip": 1.04807079,
      "balance_loss_mlp": 1.00045061,
      "epoch": 0.6982504659412012,
      "flos": 22198648141440.0,
      "grad_norm": 1.8603958886327951,
      "language_loss": 0.74809372,
      "learning_rate": 8.81341538437739e-07,
      "loss": 0.76846802,
      "num_input_tokens_seen": 124951220,
      "step": 5807,
      "time_per_iteration": 2.8365795612335205
    },
    {
      "auxiliary_loss_clip": 0.01158181,
      "auxiliary_loss_mlp": 0.01027544,
      "balance_loss_clip": 1.04431427,
      "balance_loss_mlp": 1.01963437,
      "epoch": 0.6983707088318403,
      "flos": 35588479708800.0,
      "grad_norm": 1.6625518810862006,
      "language_loss": 0.68310452,
      "learning_rate": 8.80695898182503e-07,
      "loss": 0.70496172,
      "num_input_tokens_seen": 124972200,
      "step": 5808,
      "time_per_iteration": 2.83263897895813
    },
    {
      "auxiliary_loss_clip": 0.0105554,
      "auxiliary_loss_mlp": 0.01001901,
      "balance_loss_clip": 1.01142836,
      "balance_loss_mlp": 1.00085163,
      "epoch": 0.6984909517224794,
      "flos": 65440052760960.0,
      "grad_norm": 0.8331051186804646,
      "language_loss": 0.65043187,
      "learning_rate": 8.800504277248093e-07,
      "loss": 0.6710062,
      "num_input_tokens_seen": 125036950,
      "step": 5809,
      "time_per_iteration": 3.23539400100708
    },
    {
      "auxiliary_loss_clip": 0.01143105,
      "auxiliary_loss_mlp": 0.0088601,
      "balance_loss_clip": 1.0497458,
      "balance_loss_mlp": 1.00055075,
      "epoch": 0.6986111946131185,
      "flos": 18546927863040.0,
      "grad_norm": 1.9263295175341348,
      "language_loss": 0.75355482,
      "learning_rate": 8.794051271625753e-07,
      "loss": 0.77384597,
      "num_input_tokens_seen": 125054585,
      "step": 5810,
      "time_per_iteration": 2.736236333847046
    },
    {
      "auxiliary_loss_clip": 0.01151897,
      "auxiliary_loss_mlp": 0.01027083,
      "balance_loss_clip": 1.04455101,
      "balance_loss_mlp": 1.01958442,
      "epoch": 0.6987314375037575,
      "flos": 23039173370880.0,
      "grad_norm": 1.6910026061251278,
      "language_loss": 0.83400083,
      "learning_rate": 8.787599965936925e-07,
      "loss": 0.85579062,
      "num_input_tokens_seen": 125075515,
      "step": 5811,
      "time_per_iteration": 2.727149486541748
    },
    {
      "auxiliary_loss_clip": 0.01138383,
      "auxiliary_loss_mlp": 0.01029388,
      "balance_loss_clip": 1.04471254,
      "balance_loss_mlp": 1.02193713,
      "epoch": 0.6988516803943967,
      "flos": 38400393029760.0,
      "grad_norm": 1.9749639499542249,
      "language_loss": 0.72216737,
      "learning_rate": 8.781150361160261e-07,
      "loss": 0.74384511,
      "num_input_tokens_seen": 125097425,
      "step": 5812,
      "time_per_iteration": 2.9282524585723877
    },
    {
      "auxiliary_loss_clip": 0.01150998,
      "auxiliary_loss_mlp": 0.0102878,
      "balance_loss_clip": 1.04623008,
      "balance_loss_mlp": 1.02115345,
      "epoch": 0.6989719232850358,
      "flos": 24096993926400.0,
      "grad_norm": 1.6067799632760198,
      "language_loss": 0.73243082,
      "learning_rate": 8.774702458274181e-07,
      "loss": 0.75422859,
      "num_input_tokens_seen": 125117830,
      "step": 5813,
      "time_per_iteration": 2.7443416118621826
    },
    {
      "auxiliary_loss_clip": 0.01160572,
      "auxiliary_loss_mlp": 0.01025576,
      "balance_loss_clip": 1.04668713,
      "balance_loss_mlp": 1.01757097,
      "epoch": 0.6990921661756748,
      "flos": 14866838818560.0,
      "grad_norm": 3.648751739964324,
      "language_loss": 0.71025097,
      "learning_rate": 8.768256258256799e-07,
      "loss": 0.73211247,
      "num_input_tokens_seen": 125134455,
      "step": 5814,
      "time_per_iteration": 2.675323009490967
    },
    {
      "auxiliary_loss_clip": 0.01166312,
      "auxiliary_loss_mlp": 0.01024093,
      "balance_loss_clip": 1.04787838,
      "balance_loss_mlp": 1.01602888,
      "epoch": 0.699212409066314,
      "flos": 20193719725440.0,
      "grad_norm": 1.6800264722401008,
      "language_loss": 0.7370441,
      "learning_rate": 8.76181176208602e-07,
      "loss": 0.75894815,
      "num_input_tokens_seen": 125152555,
      "step": 5815,
      "time_per_iteration": 2.6539061069488525
    },
    {
      "auxiliary_loss_clip": 0.01119486,
      "auxiliary_loss_mlp": 0.01027201,
      "balance_loss_clip": 1.03752649,
      "balance_loss_mlp": 1.01882064,
      "epoch": 0.699332651956953,
      "flos": 19427888828160.0,
      "grad_norm": 1.7300490544428182,
      "language_loss": 0.73697519,
      "learning_rate": 8.755368970739461e-07,
      "loss": 0.75844204,
      "num_input_tokens_seen": 125171915,
      "step": 5816,
      "time_per_iteration": 2.815131664276123
    },
    {
      "auxiliary_loss_clip": 0.01152066,
      "auxiliary_loss_mlp": 0.01027673,
      "balance_loss_clip": 1.04314566,
      "balance_loss_mlp": 1.01909018,
      "epoch": 0.6994528948475921,
      "flos": 16143714466560.0,
      "grad_norm": 2.346735296254773,
      "language_loss": 0.61353338,
      "learning_rate": 8.748927885194479e-07,
      "loss": 0.6353308,
      "num_input_tokens_seen": 125190220,
      "step": 5817,
      "time_per_iteration": 2.6654105186462402
    },
    {
      "auxiliary_loss_clip": 0.01046911,
      "auxiliary_loss_mlp": 0.01002044,
      "balance_loss_clip": 1.01496124,
      "balance_loss_mlp": 1.00098348,
      "epoch": 0.6995731377382313,
      "flos": 64952420699520.0,
      "grad_norm": 0.7953081856372922,
      "language_loss": 0.57403517,
      "learning_rate": 8.742488506428209e-07,
      "loss": 0.59452468,
      "num_input_tokens_seen": 125249310,
      "step": 5818,
      "time_per_iteration": 3.282484769821167
    },
    {
      "auxiliary_loss_clip": 0.01155724,
      "auxiliary_loss_mlp": 0.00885587,
      "balance_loss_clip": 1.04483974,
      "balance_loss_mlp": 1.00044918,
      "epoch": 0.6996933806288703,
      "flos": 24900136076160.0,
      "grad_norm": 7.513563997571986,
      "language_loss": 0.78565681,
      "learning_rate": 8.736050835417466e-07,
      "loss": 0.80606985,
      "num_input_tokens_seen": 125269350,
      "step": 5819,
      "time_per_iteration": 2.7741026878356934
    },
    {
      "auxiliary_loss_clip": 0.01166143,
      "auxiliary_loss_mlp": 0.01026024,
      "balance_loss_clip": 1.04679275,
      "balance_loss_mlp": 1.01783395,
      "epoch": 0.6998136235195094,
      "flos": 20777806782720.0,
      "grad_norm": 2.289057423052037,
      "language_loss": 0.62077951,
      "learning_rate": 8.729614873138862e-07,
      "loss": 0.64270115,
      "num_input_tokens_seen": 125286985,
      "step": 5820,
      "time_per_iteration": 2.796661138534546
    },
    {
      "auxiliary_loss_clip": 0.01141566,
      "auxiliary_loss_mlp": 0.01030451,
      "balance_loss_clip": 1.04659545,
      "balance_loss_mlp": 1.02294958,
      "epoch": 0.6999338664101485,
      "flos": 23733470332800.0,
      "grad_norm": 2.736509558178246,
      "language_loss": 0.77851516,
      "learning_rate": 8.723180620568716e-07,
      "loss": 0.80023527,
      "num_input_tokens_seen": 125306240,
      "step": 5821,
      "time_per_iteration": 3.707103967666626
    },
    {
      "auxiliary_loss_clip": 0.01157384,
      "auxiliary_loss_mlp": 0.01025082,
      "balance_loss_clip": 1.04473257,
      "balance_loss_mlp": 1.01793873,
      "epoch": 0.7000541093007876,
      "flos": 19864598382720.0,
      "grad_norm": 2.3336724382239016,
      "language_loss": 0.84994614,
      "learning_rate": 8.716748078683116e-07,
      "loss": 0.87177074,
      "num_input_tokens_seen": 125323015,
      "step": 5822,
      "time_per_iteration": 2.7333357334136963
    },
    {
      "auxiliary_loss_clip": 0.01107383,
      "auxiliary_loss_mlp": 0.0103159,
      "balance_loss_clip": 1.03971744,
      "balance_loss_mlp": 1.02277446,
      "epoch": 0.7001743521914267,
      "flos": 29679056029440.0,
      "grad_norm": 2.252393120646028,
      "language_loss": 0.68245548,
      "learning_rate": 8.710317248457855e-07,
      "loss": 0.70384526,
      "num_input_tokens_seen": 125342630,
      "step": 5823,
      "time_per_iteration": 2.9522414207458496
    },
    {
      "auxiliary_loss_clip": 0.01152101,
      "auxiliary_loss_mlp": 0.01026002,
      "balance_loss_clip": 1.04821837,
      "balance_loss_mlp": 1.01837301,
      "epoch": 0.7002945950820658,
      "flos": 27489762080640.0,
      "grad_norm": 1.7890669859572759,
      "language_loss": 0.7216391,
      "learning_rate": 8.703888130868482e-07,
      "loss": 0.74342012,
      "num_input_tokens_seen": 125364480,
      "step": 5824,
      "time_per_iteration": 2.8045661449432373
    },
    {
      "auxiliary_loss_clip": 0.01141681,
      "auxiliary_loss_mlp": 0.01025983,
      "balance_loss_clip": 1.04401588,
      "balance_loss_mlp": 1.01839232,
      "epoch": 0.7004148379727049,
      "flos": 22158463800960.0,
      "grad_norm": 2.641913747464447,
      "language_loss": 0.82324791,
      "learning_rate": 8.697460726890307e-07,
      "loss": 0.84492451,
      "num_input_tokens_seen": 125381625,
      "step": 5825,
      "time_per_iteration": 3.8382527828216553
    },
    {
      "auxiliary_loss_clip": 0.01141806,
      "auxiliary_loss_mlp": 0.00886209,
      "balance_loss_clip": 1.04094398,
      "balance_loss_mlp": 1.0004977,
      "epoch": 0.7005350808633439,
      "flos": 19423758764160.0,
      "grad_norm": 2.011763724135852,
      "language_loss": 0.90657896,
      "learning_rate": 8.691035037498354e-07,
      "loss": 0.92685914,
      "num_input_tokens_seen": 125397615,
      "step": 5826,
      "time_per_iteration": 3.628920555114746
    },
    {
      "auxiliary_loss_clip": 0.01148613,
      "auxiliary_loss_mlp": 0.01027844,
      "balance_loss_clip": 1.04187596,
      "balance_loss_mlp": 1.02006507,
      "epoch": 0.7006553237539831,
      "flos": 23476708938240.0,
      "grad_norm": 1.6933740689491967,
      "language_loss": 0.72221732,
      "learning_rate": 8.684611063667391e-07,
      "loss": 0.7439819,
      "num_input_tokens_seen": 125418080,
      "step": 5827,
      "time_per_iteration": 2.8932530879974365
    },
    {
      "auxiliary_loss_clip": 0.0116113,
      "auxiliary_loss_mlp": 0.01025823,
      "balance_loss_clip": 1.04439402,
      "balance_loss_mlp": 1.01796734,
      "epoch": 0.7007755666446221,
      "flos": 31212872640000.0,
      "grad_norm": 1.8309096256118167,
      "language_loss": 0.76897979,
      "learning_rate": 8.678188806371935e-07,
      "loss": 0.79084933,
      "num_input_tokens_seen": 125440115,
      "step": 5828,
      "time_per_iteration": 2.8316993713378906
    },
    {
      "auxiliary_loss_clip": 0.0116255,
      "auxiliary_loss_mlp": 0.01022523,
      "balance_loss_clip": 1.045555,
      "balance_loss_mlp": 1.01554632,
      "epoch": 0.7008958095352612,
      "flos": 18149899858560.0,
      "grad_norm": 1.6626741769734494,
      "language_loss": 0.85299802,
      "learning_rate": 8.671768266586228e-07,
      "loss": 0.87484878,
      "num_input_tokens_seen": 125458240,
      "step": 5829,
      "time_per_iteration": 2.8232688903808594
    },
    {
      "auxiliary_loss_clip": 0.01143494,
      "auxiliary_loss_mlp": 0.01027581,
      "balance_loss_clip": 1.04492688,
      "balance_loss_mlp": 1.01996362,
      "epoch": 0.7010160524259004,
      "flos": 27452307173760.0,
      "grad_norm": 1.6550123297678832,
      "language_loss": 0.78050601,
      "learning_rate": 8.665349445284275e-07,
      "loss": 0.80221671,
      "num_input_tokens_seen": 125477980,
      "step": 5830,
      "time_per_iteration": 2.872466564178467
    },
    {
      "auxiliary_loss_clip": 0.01141295,
      "auxiliary_loss_mlp": 0.01028899,
      "balance_loss_clip": 1.04256773,
      "balance_loss_mlp": 1.02192509,
      "epoch": 0.7011362953165394,
      "flos": 23842064125440.0,
      "grad_norm": 1.6066336613968912,
      "language_loss": 0.80982554,
      "learning_rate": 8.658932343439799e-07,
      "loss": 0.83152747,
      "num_input_tokens_seen": 125497765,
      "step": 5831,
      "time_per_iteration": 2.7929799556732178
    },
    {
      "auxiliary_loss_clip": 0.01172259,
      "auxiliary_loss_mlp": 0.01028374,
      "balance_loss_clip": 1.04828095,
      "balance_loss_mlp": 1.02085733,
      "epoch": 0.7012565382071785,
      "flos": 24823430582400.0,
      "grad_norm": 2.110532940533885,
      "language_loss": 0.77977145,
      "learning_rate": 8.65251696202627e-07,
      "loss": 0.80177772,
      "num_input_tokens_seen": 125514145,
      "step": 5832,
      "time_per_iteration": 3.6909384727478027
    },
    {
      "auxiliary_loss_clip": 0.01145765,
      "auxiliary_loss_mlp": 0.01022924,
      "balance_loss_clip": 1.04542398,
      "balance_loss_mlp": 1.01483572,
      "epoch": 0.7013767810978175,
      "flos": 21397445326080.0,
      "grad_norm": 2.030904249156006,
      "language_loss": 0.88383293,
      "learning_rate": 8.646103302016896e-07,
      "loss": 0.90551984,
      "num_input_tokens_seen": 125533115,
      "step": 5833,
      "time_per_iteration": 2.8183422088623047
    },
    {
      "auxiliary_loss_clip": 0.01145155,
      "auxiliary_loss_mlp": 0.01023107,
      "balance_loss_clip": 1.04320264,
      "balance_loss_mlp": 1.01507783,
      "epoch": 0.7014970239884567,
      "flos": 16687150306560.0,
      "grad_norm": 1.7454069727072539,
      "language_loss": 0.88660544,
      "learning_rate": 8.639691364384614e-07,
      "loss": 0.908288,
      "num_input_tokens_seen": 125550740,
      "step": 5834,
      "time_per_iteration": 3.0560832023620605
    },
    {
      "auxiliary_loss_clip": 0.01158687,
      "auxiliary_loss_mlp": 0.01032804,
      "balance_loss_clip": 1.04737723,
      "balance_loss_mlp": 1.02462041,
      "epoch": 0.7016172668790958,
      "flos": 12568268718720.0,
      "grad_norm": 2.0523764770501254,
      "language_loss": 0.73010468,
      "learning_rate": 8.633281150102136e-07,
      "loss": 0.75201964,
      "num_input_tokens_seen": 125567590,
      "step": 5835,
      "time_per_iteration": 2.7937936782836914
    },
    {
      "auxiliary_loss_clip": 0.01152173,
      "auxiliary_loss_mlp": 0.01029066,
      "balance_loss_clip": 1.04518127,
      "balance_loss_mlp": 1.02147198,
      "epoch": 0.7017375097697348,
      "flos": 17452729808640.0,
      "grad_norm": 2.6336317027120013,
      "language_loss": 0.68177807,
      "learning_rate": 8.626872660141855e-07,
      "loss": 0.70359051,
      "num_input_tokens_seen": 125585500,
      "step": 5836,
      "time_per_iteration": 2.677546739578247
    },
    {
      "auxiliary_loss_clip": 0.01135625,
      "auxiliary_loss_mlp": 0.01027358,
      "balance_loss_clip": 1.04494405,
      "balance_loss_mlp": 1.01953793,
      "epoch": 0.701857752660374,
      "flos": 18513028402560.0,
      "grad_norm": 1.7177017806040797,
      "language_loss": 0.74756318,
      "learning_rate": 8.620465895475957e-07,
      "loss": 0.76919299,
      "num_input_tokens_seen": 125603720,
      "step": 5837,
      "time_per_iteration": 2.7394847869873047
    },
    {
      "auxiliary_loss_clip": 0.01131863,
      "auxiliary_loss_mlp": 0.01025137,
      "balance_loss_clip": 1.04545975,
      "balance_loss_mlp": 1.01779377,
      "epoch": 0.701977995551013,
      "flos": 24425971614720.0,
      "grad_norm": 1.61118214719573,
      "language_loss": 0.756675,
      "learning_rate": 8.614060857076333e-07,
      "loss": 0.77824497,
      "num_input_tokens_seen": 125624390,
      "step": 5838,
      "time_per_iteration": 2.9002034664154053
    },
    {
      "auxiliary_loss_clip": 0.01147738,
      "auxiliary_loss_mlp": 0.01027041,
      "balance_loss_clip": 1.04394484,
      "balance_loss_mlp": 1.01908934,
      "epoch": 0.7020982384416521,
      "flos": 23002759958400.0,
      "grad_norm": 5.2928665379146445,
      "language_loss": 0.74643552,
      "learning_rate": 8.60765754591462e-07,
      "loss": 0.76818329,
      "num_input_tokens_seen": 125644085,
      "step": 5839,
      "time_per_iteration": 2.7355682849884033
    },
    {
      "auxiliary_loss_clip": 0.011709,
      "auxiliary_loss_mlp": 0.01025481,
      "balance_loss_clip": 1.04666686,
      "balance_loss_mlp": 1.01756597,
      "epoch": 0.7022184813322913,
      "flos": 20449080489600.0,
      "grad_norm": 1.8272749084258662,
      "language_loss": 0.72562927,
      "learning_rate": 8.601255962962211e-07,
      "loss": 0.7475931,
      "num_input_tokens_seen": 125663095,
      "step": 5840,
      "time_per_iteration": 2.5859642028808594
    },
    {
      "auxiliary_loss_clip": 0.01170159,
      "auxiliary_loss_mlp": 0.01032705,
      "balance_loss_clip": 1.04724932,
      "balance_loss_mlp": 1.02454495,
      "epoch": 0.7023387242229303,
      "flos": 19790514581760.0,
      "grad_norm": 3.3091706498429536,
      "language_loss": 0.72088063,
      "learning_rate": 8.594856109190194e-07,
      "loss": 0.74290919,
      "num_input_tokens_seen": 125680125,
      "step": 5841,
      "time_per_iteration": 2.691279888153076
    },
    {
      "auxiliary_loss_clip": 0.011723,
      "auxiliary_loss_mlp": 0.01025416,
      "balance_loss_clip": 1.04800093,
      "balance_loss_mlp": 1.01789403,
      "epoch": 0.7024589671135694,
      "flos": 33259278286080.0,
      "grad_norm": 3.1608723202850846,
      "language_loss": 0.69252884,
      "learning_rate": 8.588457985569446e-07,
      "loss": 0.71450603,
      "num_input_tokens_seen": 125703035,
      "step": 5842,
      "time_per_iteration": 2.747281789779663
    },
    {
      "auxiliary_loss_clip": 0.01173395,
      "auxiliary_loss_mlp": 0.01030259,
      "balance_loss_clip": 1.04713082,
      "balance_loss_mlp": 1.02234364,
      "epoch": 0.7025792100042085,
      "flos": 19098982967040.0,
      "grad_norm": 2.0770311986134025,
      "language_loss": 0.71782935,
      "learning_rate": 8.582061593070542e-07,
      "loss": 0.7398659,
      "num_input_tokens_seen": 125723765,
      "step": 5843,
      "time_per_iteration": 2.634589195251465
    },
    {
      "auxiliary_loss_clip": 0.01175262,
      "auxiliary_loss_mlp": 0.00886313,
      "balance_loss_clip": 1.04966354,
      "balance_loss_mlp": 1.00050867,
      "epoch": 0.7026994528948476,
      "flos": 18952611045120.0,
      "grad_norm": 3.554804721556651,
      "language_loss": 0.77272701,
      "learning_rate": 8.57566693266383e-07,
      "loss": 0.79334283,
      "num_input_tokens_seen": 125741455,
      "step": 5844,
      "time_per_iteration": 2.596503973007202
    },
    {
      "auxiliary_loss_clip": 0.01156073,
      "auxiliary_loss_mlp": 0.00886613,
      "balance_loss_clip": 1.04372859,
      "balance_loss_mlp": 1.00044513,
      "epoch": 0.7028196957854866,
      "flos": 19536662188800.0,
      "grad_norm": 2.3675754978661474,
      "language_loss": 0.69652694,
      "learning_rate": 8.569274005319354e-07,
      "loss": 0.71695387,
      "num_input_tokens_seen": 125759855,
      "step": 5845,
      "time_per_iteration": 2.6934120655059814
    },
    {
      "auxiliary_loss_clip": 0.01159336,
      "auxiliary_loss_mlp": 0.01028014,
      "balance_loss_clip": 1.04654408,
      "balance_loss_mlp": 1.02008677,
      "epoch": 0.7029399386761258,
      "flos": 20845318394880.0,
      "grad_norm": 1.6722229639489608,
      "language_loss": 0.79557872,
      "learning_rate": 8.562882812006913e-07,
      "loss": 0.81745219,
      "num_input_tokens_seen": 125777345,
      "step": 5846,
      "time_per_iteration": 2.603159189224243
    },
    {
      "auxiliary_loss_clip": 0.01171899,
      "auxiliary_loss_mlp": 0.01027426,
      "balance_loss_clip": 1.04742777,
      "balance_loss_mlp": 1.01992512,
      "epoch": 0.7030601815667649,
      "flos": 22055005653120.0,
      "grad_norm": 2.419452640142216,
      "language_loss": 0.77673757,
      "learning_rate": 8.556493353696066e-07,
      "loss": 0.79873085,
      "num_input_tokens_seen": 125796345,
      "step": 5847,
      "time_per_iteration": 3.5445241928100586
    },
    {
      "auxiliary_loss_clip": 0.01167961,
      "auxiliary_loss_mlp": 0.00887839,
      "balance_loss_clip": 1.04812574,
      "balance_loss_mlp": 1.00048697,
      "epoch": 0.7031804244574039,
      "flos": 27198742089600.0,
      "grad_norm": 2.5742124262858823,
      "language_loss": 0.676929,
      "learning_rate": 8.550105631356077e-07,
      "loss": 0.697487,
      "num_input_tokens_seen": 125816070,
      "step": 5848,
      "time_per_iteration": 2.7246930599212646
    },
    {
      "auxiliary_loss_clip": 0.01140068,
      "auxiliary_loss_mlp": 0.01035094,
      "balance_loss_clip": 1.0418458,
      "balance_loss_mlp": 1.02745223,
      "epoch": 0.7033006673480431,
      "flos": 22379853277440.0,
      "grad_norm": 2.05654525525415,
      "language_loss": 0.76942348,
      "learning_rate": 8.543719645955961e-07,
      "loss": 0.79117513,
      "num_input_tokens_seen": 125834400,
      "step": 5849,
      "time_per_iteration": 2.805119037628174
    },
    {
      "auxiliary_loss_clip": 0.01153902,
      "auxiliary_loss_mlp": 0.01025848,
      "balance_loss_clip": 1.04524708,
      "balance_loss_mlp": 1.01789069,
      "epoch": 0.7034209102386821,
      "flos": 24715986024960.0,
      "grad_norm": 1.6071584435864827,
      "language_loss": 0.74524051,
      "learning_rate": 8.537335398464467e-07,
      "loss": 0.76703799,
      "num_input_tokens_seen": 125854720,
      "step": 5850,
      "time_per_iteration": 3.7424027919769287
    },
    {
      "auxiliary_loss_clip": 0.01152259,
      "auxiliary_loss_mlp": 0.01027254,
      "balance_loss_clip": 1.04293549,
      "balance_loss_mlp": 1.01867652,
      "epoch": 0.7035411531293212,
      "flos": 22556174163840.0,
      "grad_norm": 2.6233876357199826,
      "language_loss": 0.85378659,
      "learning_rate": 8.53095288985007e-07,
      "loss": 0.87558174,
      "num_input_tokens_seen": 125868455,
      "step": 5851,
      "time_per_iteration": 2.7282137870788574
    },
    {
      "auxiliary_loss_clip": 0.01171209,
      "auxiliary_loss_mlp": 0.01029677,
      "balance_loss_clip": 1.04875243,
      "balance_loss_mlp": 1.02247655,
      "epoch": 0.7036613960199604,
      "flos": 22674967418880.0,
      "grad_norm": 1.6510483519511596,
      "language_loss": 0.82414174,
      "learning_rate": 8.524572121081009e-07,
      "loss": 0.84615052,
      "num_input_tokens_seen": 125888555,
      "step": 5852,
      "time_per_iteration": 3.5167319774627686
    },
    {
      "auxiliary_loss_clip": 0.01167633,
      "auxiliary_loss_mlp": 0.01027896,
      "balance_loss_clip": 1.04664457,
      "balance_loss_mlp": 1.02011132,
      "epoch": 0.7037816389105994,
      "flos": 22492146170880.0,
      "grad_norm": 2.1038039798391566,
      "language_loss": 0.62077606,
      "learning_rate": 8.518193093125232e-07,
      "loss": 0.64273131,
      "num_input_tokens_seen": 125907610,
      "step": 5853,
      "time_per_iteration": 2.663740873336792
    },
    {
      "auxiliary_loss_clip": 0.01157789,
      "auxiliary_loss_mlp": 0.01028075,
      "balance_loss_clip": 1.04536629,
      "balance_loss_mlp": 1.02075815,
      "epoch": 0.7039018818012385,
      "flos": 27087490690560.0,
      "grad_norm": 1.686945301255204,
      "language_loss": 0.81014693,
      "learning_rate": 8.511815806950436e-07,
      "loss": 0.83200562,
      "num_input_tokens_seen": 125928640,
      "step": 5854,
      "time_per_iteration": 2.7214736938476562
    },
    {
      "auxiliary_loss_clip": 0.0116174,
      "auxiliary_loss_mlp": 0.01024298,
      "balance_loss_clip": 1.0453198,
      "balance_loss_mlp": 1.01690054,
      "epoch": 0.7040221246918776,
      "flos": 17749819198080.0,
      "grad_norm": 1.9502073300727936,
      "language_loss": 0.77844429,
      "learning_rate": 8.505440263524044e-07,
      "loss": 0.80030465,
      "num_input_tokens_seen": 125947485,
      "step": 5855,
      "time_per_iteration": 2.6519386768341064
    },
    {
      "auxiliary_loss_clip": 0.01166449,
      "auxiliary_loss_mlp": 0.01023144,
      "balance_loss_clip": 1.04699707,
      "balance_loss_mlp": 1.01453066,
      "epoch": 0.7041423675825167,
      "flos": 16279851012480.0,
      "grad_norm": 3.0006772138501576,
      "language_loss": 0.87946242,
      "learning_rate": 8.49906646381322e-07,
      "loss": 0.90135837,
      "num_input_tokens_seen": 125960320,
      "step": 5856,
      "time_per_iteration": 2.6086204051971436
    },
    {
      "auxiliary_loss_clip": 0.01149777,
      "auxiliary_loss_mlp": 0.01024867,
      "balance_loss_clip": 1.04741406,
      "balance_loss_mlp": 1.0174017,
      "epoch": 0.7042626104731557,
      "flos": 25483181639040.0,
      "grad_norm": 1.909471304637564,
      "language_loss": 0.71773106,
      "learning_rate": 8.492694408784884e-07,
      "loss": 0.73947752,
      "num_input_tokens_seen": 125980575,
      "step": 5857,
      "time_per_iteration": 2.8228108882904053
    },
    {
      "auxiliary_loss_clip": 0.01167308,
      "auxiliary_loss_mlp": 0.01032753,
      "balance_loss_clip": 1.04698277,
      "balance_loss_mlp": 1.02554703,
      "epoch": 0.7043828533637949,
      "flos": 17857622891520.0,
      "grad_norm": 2.428858463612925,
      "language_loss": 0.62721205,
      "learning_rate": 8.486324099405642e-07,
      "loss": 0.6492126,
      "num_input_tokens_seen": 125997420,
      "step": 5858,
      "time_per_iteration": 3.616459369659424
    },
    {
      "auxiliary_loss_clip": 0.01164879,
      "auxiliary_loss_mlp": 0.01025593,
      "balance_loss_clip": 1.04694438,
      "balance_loss_mlp": 1.01808333,
      "epoch": 0.704503096254434,
      "flos": 29494259533440.0,
      "grad_norm": 1.6343435002643942,
      "language_loss": 0.74808276,
      "learning_rate": 8.479955536641887e-07,
      "loss": 0.76998746,
      "num_input_tokens_seen": 126018915,
      "step": 5859,
      "time_per_iteration": 2.7096590995788574
    },
    {
      "auxiliary_loss_clip": 0.01147123,
      "auxiliary_loss_mlp": 0.01025285,
      "balance_loss_clip": 1.04239345,
      "balance_loss_mlp": 1.01737595,
      "epoch": 0.704623339145073,
      "flos": 30920739327360.0,
      "grad_norm": 1.8430752261707464,
      "language_loss": 0.66219997,
      "learning_rate": 8.473588721459716e-07,
      "loss": 0.68392402,
      "num_input_tokens_seen": 126038825,
      "step": 5860,
      "time_per_iteration": 2.7760279178619385
    },
    {
      "auxiliary_loss_clip": 0.01169214,
      "auxiliary_loss_mlp": 0.01029688,
      "balance_loss_clip": 1.05257714,
      "balance_loss_mlp": 1.02085483,
      "epoch": 0.7047435820357122,
      "flos": 23914747296000.0,
      "grad_norm": 2.6846297557888334,
      "language_loss": 0.70378274,
      "learning_rate": 8.467223654824967e-07,
      "loss": 0.72577178,
      "num_input_tokens_seen": 126058280,
      "step": 5861,
      "time_per_iteration": 2.7214293479919434
    },
    {
      "auxiliary_loss_clip": 0.0115895,
      "auxiliary_loss_mlp": 0.01026489,
      "balance_loss_clip": 1.04602861,
      "balance_loss_mlp": 1.01818562,
      "epoch": 0.7048638249263512,
      "flos": 46494010926720.0,
      "grad_norm": 1.7233818654561381,
      "language_loss": 0.62134922,
      "learning_rate": 8.460860337703233e-07,
      "loss": 0.64320362,
      "num_input_tokens_seen": 126078885,
      "step": 5862,
      "time_per_iteration": 2.8669512271881104
    },
    {
      "auxiliary_loss_clip": 0.01129125,
      "auxiliary_loss_mlp": 0.01028663,
      "balance_loss_clip": 1.03929138,
      "balance_loss_mlp": 1.0202651,
      "epoch": 0.7049840678169903,
      "flos": 21689219502720.0,
      "grad_norm": 2.27785130813085,
      "language_loss": 0.70724887,
      "learning_rate": 8.454498771059797e-07,
      "loss": 0.72882676,
      "num_input_tokens_seen": 126098260,
      "step": 5863,
      "time_per_iteration": 2.9779000282287598
    },
    {
      "auxiliary_loss_clip": 0.01128787,
      "auxiliary_loss_mlp": 0.01024191,
      "balance_loss_clip": 1.04224062,
      "balance_loss_mlp": 1.01612616,
      "epoch": 0.7051043107076294,
      "flos": 18405081054720.0,
      "grad_norm": 2.138908458749176,
      "language_loss": 0.83129227,
      "learning_rate": 8.448138955859725e-07,
      "loss": 0.85282207,
      "num_input_tokens_seen": 126114845,
      "step": 5864,
      "time_per_iteration": 2.750333547592163
    },
    {
      "auxiliary_loss_clip": 0.01156135,
      "auxiliary_loss_mlp": 0.01030995,
      "balance_loss_clip": 1.04756188,
      "balance_loss_mlp": 1.02293038,
      "epoch": 0.7052245535982685,
      "flos": 19319043640320.0,
      "grad_norm": 1.9703036660926967,
      "language_loss": 0.90121055,
      "learning_rate": 8.44178089306778e-07,
      "loss": 0.92308187,
      "num_input_tokens_seen": 126132780,
      "step": 5865,
      "time_per_iteration": 2.7308390140533447
    },
    {
      "auxiliary_loss_clip": 0.01173399,
      "auxiliary_loss_mlp": 0.01023816,
      "balance_loss_clip": 1.04925013,
      "balance_loss_mlp": 1.01596618,
      "epoch": 0.7053447964889076,
      "flos": 19062138591360.0,
      "grad_norm": 1.9263326149174713,
      "language_loss": 0.77117455,
      "learning_rate": 8.4354245836485e-07,
      "loss": 0.79314667,
      "num_input_tokens_seen": 126151225,
      "step": 5866,
      "time_per_iteration": 2.673448085784912
    },
    {
      "auxiliary_loss_clip": 0.01145896,
      "auxiliary_loss_mlp": 0.01027017,
      "balance_loss_clip": 1.04384506,
      "balance_loss_mlp": 1.01941729,
      "epoch": 0.7054650393795466,
      "flos": 27379228953600.0,
      "grad_norm": 1.7989514034634446,
      "language_loss": 0.72714341,
      "learning_rate": 8.429070028566108e-07,
      "loss": 0.74887252,
      "num_input_tokens_seen": 126172535,
      "step": 5867,
      "time_per_iteration": 2.8810150623321533
    },
    {
      "auxiliary_loss_clip": 0.01164256,
      "auxiliary_loss_mlp": 0.0102747,
      "balance_loss_clip": 1.04785299,
      "balance_loss_mlp": 1.01963151,
      "epoch": 0.7055852822701858,
      "flos": 16102201322880.0,
      "grad_norm": 1.8187988474169128,
      "language_loss": 0.74795413,
      "learning_rate": 8.422717228784586e-07,
      "loss": 0.76987135,
      "num_input_tokens_seen": 126189410,
      "step": 5868,
      "time_per_iteration": 2.6568603515625
    },
    {
      "auxiliary_loss_clip": 0.0113513,
      "auxiliary_loss_mlp": 0.01023517,
      "balance_loss_clip": 1.04573143,
      "balance_loss_mlp": 1.01581061,
      "epoch": 0.7057055251608249,
      "flos": 11692299744000.0,
      "grad_norm": 1.7575557458348177,
      "language_loss": 0.68920618,
      "learning_rate": 8.416366185267663e-07,
      "loss": 0.71079266,
      "num_input_tokens_seen": 126206910,
      "step": 5869,
      "time_per_iteration": 2.713848114013672
    },
    {
      "auxiliary_loss_clip": 0.01162433,
      "auxiliary_loss_mlp": 0.01030477,
      "balance_loss_clip": 1.04496479,
      "balance_loss_mlp": 1.02272832,
      "epoch": 0.7058257680514639,
      "flos": 22711560399360.0,
      "grad_norm": 1.777703638761273,
      "language_loss": 0.7790575,
      "learning_rate": 8.410016898978778e-07,
      "loss": 0.80098665,
      "num_input_tokens_seen": 126224385,
      "step": 5870,
      "time_per_iteration": 2.657711982727051
    },
    {
      "auxiliary_loss_clip": 0.0113253,
      "auxiliary_loss_mlp": 0.01027896,
      "balance_loss_clip": 1.04309785,
      "balance_loss_mlp": 1.02066636,
      "epoch": 0.7059460109421031,
      "flos": 17529543043200.0,
      "grad_norm": 3.252681773835699,
      "language_loss": 0.78989685,
      "learning_rate": 8.403669370881115e-07,
      "loss": 0.81150115,
      "num_input_tokens_seen": 126243120,
      "step": 5871,
      "time_per_iteration": 2.927319049835205
    },
    {
      "auxiliary_loss_clip": 0.01173286,
      "auxiliary_loss_mlp": 0.01031551,
      "balance_loss_clip": 1.04871547,
      "balance_loss_mlp": 1.02406192,
      "epoch": 0.7060662538327421,
      "flos": 23544687427200.0,
      "grad_norm": 1.7512177683508505,
      "language_loss": 0.78721136,
      "learning_rate": 8.397323601937587e-07,
      "loss": 0.80925977,
      "num_input_tokens_seen": 126263020,
      "step": 5872,
      "time_per_iteration": 2.6307897567749023
    },
    {
      "auxiliary_loss_clip": 0.01141932,
      "auxiliary_loss_mlp": 0.01023143,
      "balance_loss_clip": 1.04640555,
      "balance_loss_mlp": 1.01542139,
      "epoch": 0.7061864967233812,
      "flos": 30260736875520.0,
      "grad_norm": 2.0128967925786916,
      "language_loss": 0.77252901,
      "learning_rate": 8.390979593110838e-07,
      "loss": 0.79417974,
      "num_input_tokens_seen": 126285150,
      "step": 5873,
      "time_per_iteration": 3.7830047607421875
    },
    {
      "auxiliary_loss_clip": 0.01157697,
      "auxiliary_loss_mlp": 0.01024063,
      "balance_loss_clip": 1.04667473,
      "balance_loss_mlp": 1.0167737,
      "epoch": 0.7063067396140204,
      "flos": 20701460424960.0,
      "grad_norm": 2.1427361949917136,
      "language_loss": 0.81703228,
      "learning_rate": 8.384637345363262e-07,
      "loss": 0.8388499,
      "num_input_tokens_seen": 126304340,
      "step": 5874,
      "time_per_iteration": 2.8094191551208496
    },
    {
      "auxiliary_loss_clip": 0.01148056,
      "auxiliary_loss_mlp": 0.01030741,
      "balance_loss_clip": 1.04176378,
      "balance_loss_mlp": 1.02287889,
      "epoch": 0.7064269825046594,
      "flos": 32266168081920.0,
      "grad_norm": 4.873760193439707,
      "language_loss": 0.76752031,
      "learning_rate": 8.378296859656964e-07,
      "loss": 0.78930831,
      "num_input_tokens_seen": 126325495,
      "step": 5875,
      "time_per_iteration": 2.817078113555908
    },
    {
      "auxiliary_loss_clip": 0.01156521,
      "auxiliary_loss_mlp": 0.0103279,
      "balance_loss_clip": 1.0469327,
      "balance_loss_mlp": 1.02480888,
      "epoch": 0.7065472253952985,
      "flos": 30227124723840.0,
      "grad_norm": 2.530872651944488,
      "language_loss": 0.68324125,
      "learning_rate": 8.371958136953792e-07,
      "loss": 0.70513439,
      "num_input_tokens_seen": 126345525,
      "step": 5876,
      "time_per_iteration": 4.170544624328613
    },
    {
      "auxiliary_loss_clip": 0.01151883,
      "auxiliary_loss_mlp": 0.01027342,
      "balance_loss_clip": 1.04376817,
      "balance_loss_mlp": 1.01884866,
      "epoch": 0.7066674682859376,
      "flos": 16216720859520.0,
      "grad_norm": 3.3945398771624693,
      "language_loss": 0.66467571,
      "learning_rate": 8.365621178215326e-07,
      "loss": 0.68646795,
      "num_input_tokens_seen": 126361995,
      "step": 5877,
      "time_per_iteration": 2.718735456466675
    },
    {
      "auxiliary_loss_clip": 0.01157354,
      "auxiliary_loss_mlp": 0.01027184,
      "balance_loss_clip": 1.04518485,
      "balance_loss_mlp": 1.01957846,
      "epoch": 0.7067877111765767,
      "flos": 14830461319680.0,
      "grad_norm": 2.078388857679316,
      "language_loss": 0.75121862,
      "learning_rate": 8.359285984402871e-07,
      "loss": 0.77306402,
      "num_input_tokens_seen": 126379260,
      "step": 5878,
      "time_per_iteration": 3.598423719406128
    },
    {
      "auxiliary_loss_clip": 0.01153168,
      "auxiliary_loss_mlp": 0.01023673,
      "balance_loss_clip": 1.04763293,
      "balance_loss_mlp": 1.01630628,
      "epoch": 0.7069079540672157,
      "flos": 25440196037760.0,
      "grad_norm": 5.041717976105342,
      "language_loss": 0.73643988,
      "learning_rate": 8.352952556477489e-07,
      "loss": 0.75820827,
      "num_input_tokens_seen": 126397170,
      "step": 5879,
      "time_per_iteration": 2.801312208175659
    },
    {
      "auxiliary_loss_clip": 0.01164947,
      "auxiliary_loss_mlp": 0.01031813,
      "balance_loss_clip": 1.04918718,
      "balance_loss_mlp": 1.02358139,
      "epoch": 0.7070281969578549,
      "flos": 24607751368320.0,
      "grad_norm": 2.1999894427769395,
      "language_loss": 0.76644528,
      "learning_rate": 8.34662089539993e-07,
      "loss": 0.78841293,
      "num_input_tokens_seen": 126416680,
      "step": 5880,
      "time_per_iteration": 2.7354736328125
    },
    {
      "auxiliary_loss_clip": 0.0117254,
      "auxiliary_loss_mlp": 0.01029014,
      "balance_loss_clip": 1.04921627,
      "balance_loss_mlp": 1.02141404,
      "epoch": 0.707148439848494,
      "flos": 26724469887360.0,
      "grad_norm": 2.086871914384304,
      "language_loss": 0.79420072,
      "learning_rate": 8.340291002130722e-07,
      "loss": 0.81621623,
      "num_input_tokens_seen": 126435870,
      "step": 5881,
      "time_per_iteration": 2.710419178009033
    },
    {
      "auxiliary_loss_clip": 0.01178268,
      "auxiliary_loss_mlp": 0.01025892,
      "balance_loss_clip": 1.05244517,
      "balance_loss_mlp": 1.01767254,
      "epoch": 0.707268682739133,
      "flos": 15085750256640.0,
      "grad_norm": 2.254525445071719,
      "language_loss": 0.7996043,
      "learning_rate": 8.3339628776301e-07,
      "loss": 0.82164586,
      "num_input_tokens_seen": 126454010,
      "step": 5882,
      "time_per_iteration": 2.648693561553955
    },
    {
      "auxiliary_loss_clip": 0.01171981,
      "auxiliary_loss_mlp": 0.01023988,
      "balance_loss_clip": 1.04730749,
      "balance_loss_mlp": 1.01636207,
      "epoch": 0.7073889256297722,
      "flos": 34313148345600.0,
      "grad_norm": 2.006987879840869,
      "language_loss": 0.56975675,
      "learning_rate": 8.327636522858033e-07,
      "loss": 0.59171647,
      "num_input_tokens_seen": 126473615,
      "step": 5883,
      "time_per_iteration": 2.773693561553955
    },
    {
      "auxiliary_loss_clip": 0.01138886,
      "auxiliary_loss_mlp": 0.01026149,
      "balance_loss_clip": 1.04765403,
      "balance_loss_mlp": 1.01846051,
      "epoch": 0.7075091685204112,
      "flos": 20083940784000.0,
      "grad_norm": 1.806784384915942,
      "language_loss": 0.76877248,
      "learning_rate": 8.321311938774225e-07,
      "loss": 0.7904228,
      "num_input_tokens_seen": 126492705,
      "step": 5884,
      "time_per_iteration": 3.8244245052337646
    },
    {
      "auxiliary_loss_clip": 0.01176475,
      "auxiliary_loss_mlp": 0.01037992,
      "balance_loss_clip": 1.04879487,
      "balance_loss_mlp": 1.02897954,
      "epoch": 0.7076294114110503,
      "flos": 20777124424320.0,
      "grad_norm": 1.943757870086007,
      "language_loss": 0.79484165,
      "learning_rate": 8.314989126338104e-07,
      "loss": 0.81698626,
      "num_input_tokens_seen": 126512715,
      "step": 5885,
      "time_per_iteration": 2.6511588096618652
    },
    {
      "auxiliary_loss_clip": 0.01166745,
      "auxiliary_loss_mlp": 0.01027228,
      "balance_loss_clip": 1.04695261,
      "balance_loss_mlp": 1.01929808,
      "epoch": 0.7077496543016895,
      "flos": 17967689141760.0,
      "grad_norm": 1.7014378691951646,
      "language_loss": 0.84585321,
      "learning_rate": 8.308668086508847e-07,
      "loss": 0.86779296,
      "num_input_tokens_seen": 126530795,
      "step": 5886,
      "time_per_iteration": 2.6900672912597656
    },
    {
      "auxiliary_loss_clip": 0.01145158,
      "auxiliary_loss_mlp": 0.01023028,
      "balance_loss_clip": 1.04038334,
      "balance_loss_mlp": 1.01482654,
      "epoch": 0.7078698971923285,
      "flos": 45478098564480.0,
      "grad_norm": 1.6965547388662694,
      "language_loss": 0.73758554,
      "learning_rate": 8.302348820245342e-07,
      "loss": 0.75926739,
      "num_input_tokens_seen": 126553360,
      "step": 5887,
      "time_per_iteration": 2.94572114944458
    },
    {
      "auxiliary_loss_clip": 0.01143832,
      "auxiliary_loss_mlp": 0.01031048,
      "balance_loss_clip": 1.04359984,
      "balance_loss_mlp": 1.02204168,
      "epoch": 0.7079901400829676,
      "flos": 26943704547840.0,
      "grad_norm": 3.6983911071800657,
      "language_loss": 0.70240295,
      "learning_rate": 8.296031328506232e-07,
      "loss": 0.72415173,
      "num_input_tokens_seen": 126573110,
      "step": 5888,
      "time_per_iteration": 2.8157074451446533
    },
    {
      "auxiliary_loss_clip": 0.0115791,
      "auxiliary_loss_mlp": 0.01029643,
      "balance_loss_clip": 1.04757333,
      "balance_loss_mlp": 1.02181101,
      "epoch": 0.7081103829736067,
      "flos": 24423206267520.0,
      "grad_norm": 2.0209911510966676,
      "language_loss": 0.75894153,
      "learning_rate": 8.289715612249857e-07,
      "loss": 0.78081703,
      "num_input_tokens_seen": 126593725,
      "step": 5889,
      "time_per_iteration": 2.787613868713379
    },
    {
      "auxiliary_loss_clip": 0.0115192,
      "auxiliary_loss_mlp": 0.01029786,
      "balance_loss_clip": 1.04615927,
      "balance_loss_mlp": 1.02185273,
      "epoch": 0.7082306258642458,
      "flos": 18543300589440.0,
      "grad_norm": 2.7036199125570883,
      "language_loss": 0.77619731,
      "learning_rate": 8.283401672434305e-07,
      "loss": 0.7980144,
      "num_input_tokens_seen": 126608950,
      "step": 5890,
      "time_per_iteration": 2.7255289554595947
    },
    {
      "auxiliary_loss_clip": 0.01151132,
      "auxiliary_loss_mlp": 0.01026215,
      "balance_loss_clip": 1.04751039,
      "balance_loss_mlp": 1.01893425,
      "epoch": 0.7083508687548848,
      "flos": 23477534951040.0,
      "grad_norm": 1.8534341702413213,
      "language_loss": 0.70138681,
      "learning_rate": 8.277089510017412e-07,
      "loss": 0.72316027,
      "num_input_tokens_seen": 126629755,
      "step": 5891,
      "time_per_iteration": 2.7643496990203857
    },
    {
      "auxiliary_loss_clip": 0.01151981,
      "auxiliary_loss_mlp": 0.01027273,
      "balance_loss_clip": 1.04781401,
      "balance_loss_mlp": 1.01981616,
      "epoch": 0.708471111645524,
      "flos": 22419463000320.0,
      "grad_norm": 1.6783328823338202,
      "language_loss": 0.82118064,
      "learning_rate": 8.270779125956719e-07,
      "loss": 0.84297317,
      "num_input_tokens_seen": 126650135,
      "step": 5892,
      "time_per_iteration": 2.709496021270752
    },
    {
      "auxiliary_loss_clip": 0.01132309,
      "auxiliary_loss_mlp": 0.01031125,
      "balance_loss_clip": 1.0446198,
      "balance_loss_mlp": 1.02294695,
      "epoch": 0.7085913545361631,
      "flos": 20922885815040.0,
      "grad_norm": 2.569678807402354,
      "language_loss": 0.80044746,
      "learning_rate": 8.264470521209505e-07,
      "loss": 0.8220818,
      "num_input_tokens_seen": 126668500,
      "step": 5893,
      "time_per_iteration": 2.8170909881591797
    },
    {
      "auxiliary_loss_clip": 0.0115732,
      "auxiliary_loss_mlp": 0.01029871,
      "balance_loss_clip": 1.04570818,
      "balance_loss_mlp": 1.02195549,
      "epoch": 0.7087115974268021,
      "flos": 15012384727680.0,
      "grad_norm": 2.0517271164151745,
      "language_loss": 0.76511508,
      "learning_rate": 8.258163696732785e-07,
      "loss": 0.78698707,
      "num_input_tokens_seen": 126686090,
      "step": 5894,
      "time_per_iteration": 2.6673595905303955
    },
    {
      "auxiliary_loss_clip": 0.01158436,
      "auxiliary_loss_mlp": 0.01026246,
      "balance_loss_clip": 1.04667091,
      "balance_loss_mlp": 1.01809812,
      "epoch": 0.7088318403174413,
      "flos": 21539040739200.0,
      "grad_norm": 15.882536093625912,
      "language_loss": 0.76926267,
      "learning_rate": 8.251858653483288e-07,
      "loss": 0.7911095,
      "num_input_tokens_seen": 126704255,
      "step": 5895,
      "time_per_iteration": 2.6773030757904053
    },
    {
      "auxiliary_loss_clip": 0.01167912,
      "auxiliary_loss_mlp": 0.01030693,
      "balance_loss_clip": 1.04946744,
      "balance_loss_mlp": 1.02268767,
      "epoch": 0.7089520832080803,
      "flos": 15516785462400.0,
      "grad_norm": 2.115003087209956,
      "language_loss": 0.85716569,
      "learning_rate": 8.245555392417501e-07,
      "loss": 0.87915182,
      "num_input_tokens_seen": 126718910,
      "step": 5896,
      "time_per_iteration": 2.6834609508514404
    },
    {
      "auxiliary_loss_clip": 0.01122872,
      "auxiliary_loss_mlp": 0.01025453,
      "balance_loss_clip": 1.04121196,
      "balance_loss_mlp": 1.01809144,
      "epoch": 0.7090723260987194,
      "flos": 20412667077120.0,
      "grad_norm": 1.748579799179696,
      "language_loss": 0.78555059,
      "learning_rate": 8.239253914491613e-07,
      "loss": 0.80703384,
      "num_input_tokens_seen": 126737235,
      "step": 5897,
      "time_per_iteration": 2.789152145385742
    },
    {
      "auxiliary_loss_clip": 0.0114121,
      "auxiliary_loss_mlp": 0.01029712,
      "balance_loss_clip": 1.0454452,
      "balance_loss_mlp": 1.02141809,
      "epoch": 0.7091925689893585,
      "flos": 25668337271040.0,
      "grad_norm": 1.8344308052857214,
      "language_loss": 0.75270402,
      "learning_rate": 8.232954220661556e-07,
      "loss": 0.77441323,
      "num_input_tokens_seen": 126759970,
      "step": 5898,
      "time_per_iteration": 2.7655019760131836
    },
    {
      "auxiliary_loss_clip": 0.01175869,
      "auxiliary_loss_mlp": 0.01024215,
      "balance_loss_clip": 1.05352569,
      "balance_loss_mlp": 1.01637697,
      "epoch": 0.7093128118799976,
      "flos": 24206629213440.0,
      "grad_norm": 2.5089432265311338,
      "language_loss": 0.70619297,
      "learning_rate": 8.226656311882989e-07,
      "loss": 0.72819382,
      "num_input_tokens_seen": 126779280,
      "step": 5899,
      "time_per_iteration": 3.557035207748413
    },
    {
      "auxiliary_loss_clip": 0.01165331,
      "auxiliary_loss_mlp": 0.01026069,
      "balance_loss_clip": 1.05198193,
      "balance_loss_mlp": 1.01913738,
      "epoch": 0.7094330547706367,
      "flos": 16646786398080.0,
      "grad_norm": 2.6982777206854376,
      "language_loss": 0.77114236,
      "learning_rate": 8.22036018911129e-07,
      "loss": 0.79305643,
      "num_input_tokens_seen": 126797310,
      "step": 5900,
      "time_per_iteration": 2.675783634185791
    },
    {
      "auxiliary_loss_clip": 0.01176276,
      "auxiliary_loss_mlp": 0.01022232,
      "balance_loss_clip": 1.04942548,
      "balance_loss_mlp": 1.01406622,
      "epoch": 0.7095532976612757,
      "flos": 16283370545280.0,
      "grad_norm": 2.2405195530676845,
      "language_loss": 0.80392319,
      "learning_rate": 8.214065853301599e-07,
      "loss": 0.82590824,
      "num_input_tokens_seen": 126812840,
      "step": 5901,
      "time_per_iteration": 2.5866878032684326
    },
    {
      "auxiliary_loss_clip": 0.01064096,
      "auxiliary_loss_mlp": 0.01003452,
      "balance_loss_clip": 1.01154673,
      "balance_loss_mlp": 1.00242043,
      "epoch": 0.7096735405519149,
      "flos": 70722080559360.0,
      "grad_norm": 0.8236071867578851,
      "language_loss": 0.58209199,
      "learning_rate": 8.207773305408734e-07,
      "loss": 0.60276741,
      "num_input_tokens_seen": 126880060,
      "step": 5902,
      "time_per_iteration": 4.4341230392456055
    },
    {
      "auxiliary_loss_clip": 0.01142623,
      "auxiliary_loss_mlp": 0.01027561,
      "balance_loss_clip": 1.04253197,
      "balance_loss_mlp": 1.01946115,
      "epoch": 0.709793783442554,
      "flos": 23621500661760.0,
      "grad_norm": 2.188800718883521,
      "language_loss": 0.79439592,
      "learning_rate": 8.201482546387288e-07,
      "loss": 0.81609786,
      "num_input_tokens_seen": 126899535,
      "step": 5903,
      "time_per_iteration": 2.855086326599121
    },
    {
      "auxiliary_loss_clip": 0.01164952,
      "auxiliary_loss_mlp": 0.01031141,
      "balance_loss_clip": 1.04942298,
      "balance_loss_mlp": 1.02307642,
      "epoch": 0.709914026333193,
      "flos": 25993472204160.0,
      "grad_norm": 1.6524116554032546,
      "language_loss": 0.92003071,
      "learning_rate": 8.195193577191553e-07,
      "loss": 0.94199169,
      "num_input_tokens_seen": 126921365,
      "step": 5904,
      "time_per_iteration": 3.6157050132751465
    },
    {
      "auxiliary_loss_clip": 0.01161664,
      "auxiliary_loss_mlp": 0.00886747,
      "balance_loss_clip": 1.04565942,
      "balance_loss_mlp": 1.00048065,
      "epoch": 0.7100342692238322,
      "flos": 24861531934080.0,
      "grad_norm": 1.9201678556779198,
      "language_loss": 0.84856302,
      "learning_rate": 8.188906398775579e-07,
      "loss": 0.86904716,
      "num_input_tokens_seen": 126941910,
      "step": 5905,
      "time_per_iteration": 2.796046257019043
    },
    {
      "auxiliary_loss_clip": 0.01175228,
      "auxiliary_loss_mlp": 0.0088764,
      "balance_loss_clip": 1.04872572,
      "balance_loss_mlp": 1.00057614,
      "epoch": 0.7101545121144712,
      "flos": 24932203943040.0,
      "grad_norm": 1.8982726720826777,
      "language_loss": 0.6866613,
      "learning_rate": 8.18262101209311e-07,
      "loss": 0.70728999,
      "num_input_tokens_seen": 126961120,
      "step": 5906,
      "time_per_iteration": 2.696988821029663
    },
    {
      "auxiliary_loss_clip": 0.01168457,
      "auxiliary_loss_mlp": 0.01024848,
      "balance_loss_clip": 1.04722762,
      "balance_loss_mlp": 1.01747453,
      "epoch": 0.7102747550051103,
      "flos": 23768842250880.0,
      "grad_norm": 2.0657340876113457,
      "language_loss": 0.7006219,
      "learning_rate": 8.176337418097626e-07,
      "loss": 0.72255498,
      "num_input_tokens_seen": 126981590,
      "step": 5907,
      "time_per_iteration": 2.747123956680298
    },
    {
      "auxiliary_loss_clip": 0.01163562,
      "auxiliary_loss_mlp": 0.00886756,
      "balance_loss_clip": 1.04877734,
      "balance_loss_mlp": 1.00053489,
      "epoch": 0.7103949978957494,
      "flos": 15303907509120.0,
      "grad_norm": 2.415890527895017,
      "language_loss": 0.80331528,
      "learning_rate": 8.170055617742364e-07,
      "loss": 0.82381845,
      "num_input_tokens_seen": 126998870,
      "step": 5908,
      "time_per_iteration": 2.7009057998657227
    },
    {
      "auxiliary_loss_clip": 0.0114736,
      "auxiliary_loss_mlp": 0.01031331,
      "balance_loss_clip": 1.0449903,
      "balance_loss_mlp": 1.02298629,
      "epoch": 0.7105152407863885,
      "flos": 22638805401600.0,
      "grad_norm": 2.2087635855457517,
      "language_loss": 0.70595628,
      "learning_rate": 8.163775611980252e-07,
      "loss": 0.72774315,
      "num_input_tokens_seen": 127017980,
      "step": 5909,
      "time_per_iteration": 2.900424003601074
    },
    {
      "auxiliary_loss_clip": 0.01152933,
      "auxiliary_loss_mlp": 0.01026727,
      "balance_loss_clip": 1.04584002,
      "balance_loss_mlp": 1.01910973,
      "epoch": 0.7106354836770276,
      "flos": 17238594879360.0,
      "grad_norm": 1.6465193210251508,
      "language_loss": 0.78730285,
      "learning_rate": 8.157497401763982e-07,
      "loss": 0.80909944,
      "num_input_tokens_seen": 127035645,
      "step": 5910,
      "time_per_iteration": 3.631096839904785
    },
    {
      "auxiliary_loss_clip": 0.01161116,
      "auxiliary_loss_mlp": 0.01031411,
      "balance_loss_clip": 1.04638767,
      "balance_loss_mlp": 1.02411556,
      "epoch": 0.7107557265676667,
      "flos": 20193647898240.0,
      "grad_norm": 1.8835835140619204,
      "language_loss": 0.77697134,
      "learning_rate": 8.151220988045935e-07,
      "loss": 0.79889655,
      "num_input_tokens_seen": 127054900,
      "step": 5911,
      "time_per_iteration": 2.6347858905792236
    },
    {
      "auxiliary_loss_clip": 0.01165705,
      "auxiliary_loss_mlp": 0.01031668,
      "balance_loss_clip": 1.04932666,
      "balance_loss_mlp": 1.02382421,
      "epoch": 0.7108759694583058,
      "flos": 21507080613120.0,
      "grad_norm": 1.669665718582317,
      "language_loss": 0.82556713,
      "learning_rate": 8.144946371778234e-07,
      "loss": 0.84754086,
      "num_input_tokens_seen": 127075010,
      "step": 5912,
      "time_per_iteration": 2.82367205619812
    },
    {
      "auxiliary_loss_clip": 0.01153824,
      "auxiliary_loss_mlp": 0.00886627,
      "balance_loss_clip": 1.04793453,
      "balance_loss_mlp": 1.00060177,
      "epoch": 0.7109962123489448,
      "flos": 24061909317120.0,
      "grad_norm": 1.7184981252327511,
      "language_loss": 0.78520906,
      "learning_rate": 8.138673553912751e-07,
      "loss": 0.80561352,
      "num_input_tokens_seen": 127095570,
      "step": 5913,
      "time_per_iteration": 2.754070281982422
    },
    {
      "auxiliary_loss_clip": 0.01135849,
      "auxiliary_loss_mlp": 0.01029626,
      "balance_loss_clip": 1.04290891,
      "balance_loss_mlp": 1.02153158,
      "epoch": 0.711116455239584,
      "flos": 30480474326400.0,
      "grad_norm": 4.358433972921106,
      "language_loss": 0.56747103,
      "learning_rate": 8.132402535401059e-07,
      "loss": 0.58912575,
      "num_input_tokens_seen": 127116825,
      "step": 5914,
      "time_per_iteration": 2.8935608863830566
    },
    {
      "auxiliary_loss_clip": 0.01161839,
      "auxiliary_loss_mlp": 0.01024802,
      "balance_loss_clip": 1.04904389,
      "balance_loss_mlp": 1.01676106,
      "epoch": 0.711236698130223,
      "flos": 25045610158080.0,
      "grad_norm": 1.8106800105756087,
      "language_loss": 0.74341345,
      "learning_rate": 8.126133317194465e-07,
      "loss": 0.76527989,
      "num_input_tokens_seen": 127137015,
      "step": 5915,
      "time_per_iteration": 2.7507786750793457
    },
    {
      "auxiliary_loss_clip": 0.01131666,
      "auxiliary_loss_mlp": 0.01032999,
      "balance_loss_clip": 1.03876412,
      "balance_loss_mlp": 1.02433801,
      "epoch": 0.7113569410208621,
      "flos": 24206701040640.0,
      "grad_norm": 1.8859208335618727,
      "language_loss": 0.74475074,
      "learning_rate": 8.11986590024401e-07,
      "loss": 0.76639736,
      "num_input_tokens_seen": 127156755,
      "step": 5916,
      "time_per_iteration": 2.8136377334594727
    },
    {
      "auxiliary_loss_clip": 0.01158155,
      "auxiliary_loss_mlp": 0.01030566,
      "balance_loss_clip": 1.04732513,
      "balance_loss_mlp": 1.02252495,
      "epoch": 0.7114771839115013,
      "flos": 35439306526080.0,
      "grad_norm": 1.6268897721746025,
      "language_loss": 0.68978822,
      "learning_rate": 8.113600285500442e-07,
      "loss": 0.71167541,
      "num_input_tokens_seen": 127176965,
      "step": 5917,
      "time_per_iteration": 2.8477671146392822
    },
    {
      "auxiliary_loss_clip": 0.01175688,
      "auxiliary_loss_mlp": 0.01022892,
      "balance_loss_clip": 1.04995561,
      "balance_loss_mlp": 1.01472616,
      "epoch": 0.7115974268021403,
      "flos": 21099458096640.0,
      "grad_norm": 1.7406510532611452,
      "language_loss": 0.74196136,
      "learning_rate": 8.107336473914268e-07,
      "loss": 0.76394713,
      "num_input_tokens_seen": 127195595,
      "step": 5918,
      "time_per_iteration": 2.71353816986084
    },
    {
      "auxiliary_loss_clip": 0.01057077,
      "auxiliary_loss_mlp": 0.01000129,
      "balance_loss_clip": 1.01351023,
      "balance_loss_mlp": 0.99908012,
      "epoch": 0.7117176696927794,
      "flos": 56752866616320.0,
      "grad_norm": 0.7731171865869116,
      "language_loss": 0.55668789,
      "learning_rate": 8.101074466435694e-07,
      "loss": 0.5772599,
      "num_input_tokens_seen": 127255070,
      "step": 5919,
      "time_per_iteration": 3.1794800758361816
    },
    {
      "auxiliary_loss_clip": 0.01155926,
      "auxiliary_loss_mlp": 0.01027585,
      "balance_loss_clip": 1.04385507,
      "balance_loss_mlp": 1.01928198,
      "epoch": 0.7118379125834186,
      "flos": 15925269905280.0,
      "grad_norm": 2.0380003586676874,
      "language_loss": 0.67805815,
      "learning_rate": 8.094814264014662e-07,
      "loss": 0.6998933,
      "num_input_tokens_seen": 127273825,
      "step": 5920,
      "time_per_iteration": 2.645707368850708
    },
    {
      "auxiliary_loss_clip": 0.0117723,
      "auxiliary_loss_mlp": 0.01032253,
      "balance_loss_clip": 1.0496341,
      "balance_loss_mlp": 1.02373528,
      "epoch": 0.7119581554740576,
      "flos": 20193360589440.0,
      "grad_norm": 2.2343090247343027,
      "language_loss": 0.81097716,
      "learning_rate": 8.088555867600844e-07,
      "loss": 0.83307195,
      "num_input_tokens_seen": 127289990,
      "step": 5921,
      "time_per_iteration": 2.6475014686584473
    },
    {
      "auxiliary_loss_clip": 0.01144384,
      "auxiliary_loss_mlp": 0.01025729,
      "balance_loss_clip": 1.04529285,
      "balance_loss_mlp": 1.01855004,
      "epoch": 0.7120783983646967,
      "flos": 34715383822080.0,
      "grad_norm": 2.4093098913224336,
      "language_loss": 0.60379291,
      "learning_rate": 8.08229927814362e-07,
      "loss": 0.625494,
      "num_input_tokens_seen": 127312880,
      "step": 5922,
      "time_per_iteration": 2.8903145790100098
    },
    {
      "auxiliary_loss_clip": 0.01143747,
      "auxiliary_loss_mlp": 0.01020479,
      "balance_loss_clip": 1.04351842,
      "balance_loss_mlp": 1.01312411,
      "epoch": 0.7121986412553358,
      "flos": 26359114700160.0,
      "grad_norm": 1.6794937305293507,
      "language_loss": 0.64640933,
      "learning_rate": 8.076044496592134e-07,
      "loss": 0.6680516,
      "num_input_tokens_seen": 127334730,
      "step": 5923,
      "time_per_iteration": 2.7871854305267334
    },
    {
      "auxiliary_loss_clip": 0.01154702,
      "auxiliary_loss_mlp": 0.01026756,
      "balance_loss_clip": 1.0492394,
      "balance_loss_mlp": 1.01878071,
      "epoch": 0.7123188841459749,
      "flos": 11145344371200.0,
      "grad_norm": 2.193452435639057,
      "language_loss": 0.78062558,
      "learning_rate": 8.069791523895204e-07,
      "loss": 0.80244017,
      "num_input_tokens_seen": 127351180,
      "step": 5924,
      "time_per_iteration": 2.6810169219970703
    },
    {
      "auxiliary_loss_clip": 0.01134026,
      "auxiliary_loss_mlp": 0.01027369,
      "balance_loss_clip": 1.04157424,
      "balance_loss_mlp": 1.01948929,
      "epoch": 0.7124391270366139,
      "flos": 20811670329600.0,
      "grad_norm": 2.0941150604393624,
      "language_loss": 0.77206826,
      "learning_rate": 8.063540361001422e-07,
      "loss": 0.79368222,
      "num_input_tokens_seen": 127369750,
      "step": 5925,
      "time_per_iteration": 3.6552515029907227
    },
    {
      "auxiliary_loss_clip": 0.01137455,
      "auxiliary_loss_mlp": 0.0102958,
      "balance_loss_clip": 1.0443182,
      "balance_loss_mlp": 1.02044821,
      "epoch": 0.7125593699272531,
      "flos": 17603734584960.0,
      "grad_norm": 4.926760408804742,
      "language_loss": 0.79920077,
      "learning_rate": 8.057291008859069e-07,
      "loss": 0.82087111,
      "num_input_tokens_seen": 127387910,
      "step": 5926,
      "time_per_iteration": 2.7113115787506104
    },
    {
      "auxiliary_loss_clip": 0.01160982,
      "auxiliary_loss_mlp": 0.01029425,
      "balance_loss_clip": 1.04633379,
      "balance_loss_mlp": 1.02147949,
      "epoch": 0.7126796128178922,
      "flos": 28654057526400.0,
      "grad_norm": 1.8986684933044164,
      "language_loss": 0.68540037,
      "learning_rate": 8.051043468416187e-07,
      "loss": 0.70730448,
      "num_input_tokens_seen": 127409160,
      "step": 5927,
      "time_per_iteration": 2.730762243270874
    },
    {
      "auxiliary_loss_clip": 0.01174015,
      "auxiliary_loss_mlp": 0.01026548,
      "balance_loss_clip": 1.05072272,
      "balance_loss_mlp": 1.01903141,
      "epoch": 0.7127998557085312,
      "flos": 16034438315520.0,
      "grad_norm": 2.2207582732114695,
      "language_loss": 0.82141948,
      "learning_rate": 8.044797740620506e-07,
      "loss": 0.8434251,
      "num_input_tokens_seen": 127427765,
      "step": 5928,
      "time_per_iteration": 3.7514355182647705
    },
    {
      "auxiliary_loss_clip": 0.01131891,
      "auxiliary_loss_mlp": 0.0102756,
      "balance_loss_clip": 1.04488444,
      "balance_loss_mlp": 1.01978171,
      "epoch": 0.7129200985991703,
      "flos": 23403271582080.0,
      "grad_norm": 2.1592377987090488,
      "language_loss": 0.78623635,
      "learning_rate": 8.038553826419494e-07,
      "loss": 0.80783087,
      "num_input_tokens_seen": 127446475,
      "step": 5929,
      "time_per_iteration": 2.840265989303589
    },
    {
      "auxiliary_loss_clip": 0.01171967,
      "auxiliary_loss_mlp": 0.01025767,
      "balance_loss_clip": 1.04782605,
      "balance_loss_mlp": 1.01789284,
      "epoch": 0.7130403414898094,
      "flos": 21397445326080.0,
      "grad_norm": 2.283756466489514,
      "language_loss": 0.81085837,
      "learning_rate": 8.032311726760364e-07,
      "loss": 0.83283561,
      "num_input_tokens_seen": 127467695,
      "step": 5930,
      "time_per_iteration": 3.7014875411987305
    },
    {
      "auxiliary_loss_clip": 0.01137885,
      "auxiliary_loss_mlp": 0.0103255,
      "balance_loss_clip": 1.04467058,
      "balance_loss_mlp": 1.02435386,
      "epoch": 0.7131605843804485,
      "flos": 74739045306240.0,
      "grad_norm": 2.1396223787775046,
      "language_loss": 0.69489968,
      "learning_rate": 8.026071442590022e-07,
      "loss": 0.71660399,
      "num_input_tokens_seen": 127494590,
      "step": 5931,
      "time_per_iteration": 3.180464029312134
    },
    {
      "auxiliary_loss_clip": 0.01167152,
      "auxiliary_loss_mlp": 0.01027544,
      "balance_loss_clip": 1.05176008,
      "balance_loss_mlp": 1.02002227,
      "epoch": 0.7132808272710875,
      "flos": 18368739469440.0,
      "grad_norm": 2.864122798601315,
      "language_loss": 0.80571604,
      "learning_rate": 8.019832974855134e-07,
      "loss": 0.82766306,
      "num_input_tokens_seen": 127512550,
      "step": 5932,
      "time_per_iteration": 2.636902093887329
    },
    {
      "auxiliary_loss_clip": 0.01144134,
      "auxiliary_loss_mlp": 0.01029216,
      "balance_loss_clip": 1.0459888,
      "balance_loss_mlp": 1.0216347,
      "epoch": 0.7134010701617267,
      "flos": 23253380127360.0,
      "grad_norm": 2.531704325444519,
      "language_loss": 0.82765043,
      "learning_rate": 8.013596324502052e-07,
      "loss": 0.84938383,
      "num_input_tokens_seen": 127531015,
      "step": 5933,
      "time_per_iteration": 2.7306222915649414
    },
    {
      "auxiliary_loss_clip": 0.01160645,
      "auxiliary_loss_mlp": 0.01025189,
      "balance_loss_clip": 1.04945529,
      "balance_loss_mlp": 1.01799512,
      "epoch": 0.7135213130523658,
      "flos": 23653137565440.0,
      "grad_norm": 1.8203801091786675,
      "language_loss": 0.78909743,
      "learning_rate": 8.007361492476872e-07,
      "loss": 0.81095576,
      "num_input_tokens_seen": 127550340,
      "step": 5934,
      "time_per_iteration": 2.7891287803649902
    },
    {
      "auxiliary_loss_clip": 0.01150747,
      "auxiliary_loss_mlp": 0.01026489,
      "balance_loss_clip": 1.04328871,
      "balance_loss_mlp": 1.0188446,
      "epoch": 0.7136415559430048,
      "flos": 24790644443520.0,
      "grad_norm": 3.227287754305667,
      "language_loss": 0.79104185,
      "learning_rate": 8.001128479725426e-07,
      "loss": 0.81281424,
      "num_input_tokens_seen": 127572245,
      "step": 5935,
      "time_per_iteration": 2.7217419147491455
    },
    {
      "auxiliary_loss_clip": 0.01127611,
      "auxiliary_loss_mlp": 0.01029067,
      "balance_loss_clip": 1.04029834,
      "balance_loss_mlp": 1.02176213,
      "epoch": 0.713761798833644,
      "flos": 18296954138880.0,
      "grad_norm": 1.592244459762974,
      "language_loss": 0.80884099,
      "learning_rate": 7.994897287193248e-07,
      "loss": 0.8304078,
      "num_input_tokens_seen": 127591625,
      "step": 5936,
      "time_per_iteration": 3.7670798301696777
    },
    {
      "auxiliary_loss_clip": 0.01167316,
      "auxiliary_loss_mlp": 0.01020866,
      "balance_loss_clip": 1.04732704,
      "balance_loss_mlp": 1.01369858,
      "epoch": 0.713882041724283,
      "flos": 15558262692480.0,
      "grad_norm": 3.114871940118007,
      "language_loss": 0.83462429,
      "learning_rate": 7.988667915825605e-07,
      "loss": 0.85650611,
      "num_input_tokens_seen": 127608690,
      "step": 5937,
      "time_per_iteration": 2.6854562759399414
    },
    {
      "auxiliary_loss_clip": 0.01157713,
      "auxiliary_loss_mlp": 0.01030097,
      "balance_loss_clip": 1.04940832,
      "balance_loss_mlp": 1.02197242,
      "epoch": 0.7140022846149221,
      "flos": 24061011477120.0,
      "grad_norm": 2.154944211823553,
      "language_loss": 0.75498194,
      "learning_rate": 7.982440366567491e-07,
      "loss": 0.77686006,
      "num_input_tokens_seen": 127627180,
      "step": 5938,
      "time_per_iteration": 2.707097053527832
    },
    {
      "auxiliary_loss_clip": 0.01157457,
      "auxiliary_loss_mlp": 0.01029008,
      "balance_loss_clip": 1.04546571,
      "balance_loss_mlp": 1.02179623,
      "epoch": 0.7141225275055613,
      "flos": 27891710248320.0,
      "grad_norm": 7.0905947147809405,
      "language_loss": 0.75289553,
      "learning_rate": 7.97621464036361e-07,
      "loss": 0.77476013,
      "num_input_tokens_seen": 127648940,
      "step": 5939,
      "time_per_iteration": 2.8059816360473633
    },
    {
      "auxiliary_loss_clip": 0.01165861,
      "auxiliary_loss_mlp": 0.01025568,
      "balance_loss_clip": 1.0463779,
      "balance_loss_mlp": 1.01795018,
      "epoch": 0.7142427703962003,
      "flos": 19682603147520.0,
      "grad_norm": 1.5828902853986113,
      "language_loss": 0.6807813,
      "learning_rate": 7.969990738158417e-07,
      "loss": 0.70269561,
      "num_input_tokens_seen": 127667350,
      "step": 5940,
      "time_per_iteration": 2.6697001457214355
    },
    {
      "auxiliary_loss_clip": 0.01167247,
      "auxiliary_loss_mlp": 0.01027971,
      "balance_loss_clip": 1.05018067,
      "balance_loss_mlp": 1.02050281,
      "epoch": 0.7143630132868394,
      "flos": 21032377447680.0,
      "grad_norm": 3.778523458333485,
      "language_loss": 0.85528553,
      "learning_rate": 7.963768660896062e-07,
      "loss": 0.87723768,
      "num_input_tokens_seen": 127685760,
      "step": 5941,
      "time_per_iteration": 2.6994755268096924
    },
    {
      "auxiliary_loss_clip": 0.01166684,
      "auxiliary_loss_mlp": 0.01026549,
      "balance_loss_clip": 1.04780185,
      "balance_loss_mlp": 1.0196408,
      "epoch": 0.7144832561774785,
      "flos": 24129923719680.0,
      "grad_norm": 2.4587143647229897,
      "language_loss": 0.82505423,
      "learning_rate": 7.957548409520432e-07,
      "loss": 0.84698653,
      "num_input_tokens_seen": 127704985,
      "step": 5942,
      "time_per_iteration": 2.678906202316284
    },
    {
      "auxiliary_loss_clip": 0.01147488,
      "auxiliary_loss_mlp": 0.01025885,
      "balance_loss_clip": 1.04496467,
      "balance_loss_mlp": 1.01855016,
      "epoch": 0.7146034990681176,
      "flos": 16325817442560.0,
      "grad_norm": 1.8462183061243242,
      "language_loss": 0.84065765,
      "learning_rate": 7.951329984975135e-07,
      "loss": 0.86239141,
      "num_input_tokens_seen": 127721925,
      "step": 5943,
      "time_per_iteration": 2.6964004039764404
    },
    {
      "auxiliary_loss_clip": 0.0105599,
      "auxiliary_loss_mlp": 0.01001409,
      "balance_loss_clip": 1.01194215,
      "balance_loss_mlp": 1.00036037,
      "epoch": 0.7147237419587567,
      "flos": 69627164232960.0,
      "grad_norm": 0.7174748654288894,
      "language_loss": 0.54277265,
      "learning_rate": 7.94511338820349e-07,
      "loss": 0.56334662,
      "num_input_tokens_seen": 127784230,
      "step": 5944,
      "time_per_iteration": 3.3704776763916016
    },
    {
      "auxiliary_loss_clip": 0.01153524,
      "auxiliary_loss_mlp": 0.00886955,
      "balance_loss_clip": 1.04677045,
      "balance_loss_mlp": 1.00054896,
      "epoch": 0.7148439848493958,
      "flos": 22266806198400.0,
      "grad_norm": 2.060103069080145,
      "language_loss": 0.78406572,
      "learning_rate": 7.938898620148575e-07,
      "loss": 0.80447054,
      "num_input_tokens_seen": 127801990,
      "step": 5945,
      "time_per_iteration": 2.667790651321411
    },
    {
      "auxiliary_loss_clip": 0.01156267,
      "auxiliary_loss_mlp": 0.01025878,
      "balance_loss_clip": 1.04748368,
      "balance_loss_mlp": 1.01867127,
      "epoch": 0.7149642277400349,
      "flos": 17931383470080.0,
      "grad_norm": 1.9942545189520444,
      "language_loss": 0.71173674,
      "learning_rate": 7.932685681753135e-07,
      "loss": 0.73355818,
      "num_input_tokens_seen": 127819270,
      "step": 5946,
      "time_per_iteration": 2.6704163551330566
    },
    {
      "auxiliary_loss_clip": 0.01169707,
      "auxiliary_loss_mlp": 0.01021304,
      "balance_loss_clip": 1.0486877,
      "balance_loss_mlp": 1.01393735,
      "epoch": 0.7150844706306739,
      "flos": 31681937370240.0,
      "grad_norm": 2.4114481415878397,
      "language_loss": 0.62495863,
      "learning_rate": 7.92647457395969e-07,
      "loss": 0.64686877,
      "num_input_tokens_seen": 127841095,
      "step": 5947,
      "time_per_iteration": 2.6923766136169434
    },
    {
      "auxiliary_loss_clip": 0.01129623,
      "auxiliary_loss_mlp": 0.01024925,
      "balance_loss_clip": 1.03765798,
      "balance_loss_mlp": 1.01749516,
      "epoch": 0.7152047135213131,
      "flos": 10926217451520.0,
      "grad_norm": 2.3248107800093014,
      "language_loss": 0.74062926,
      "learning_rate": 7.920265297710444e-07,
      "loss": 0.76217473,
      "num_input_tokens_seen": 127858485,
      "step": 5948,
      "time_per_iteration": 2.7240970134735107
    },
    {
      "auxiliary_loss_clip": 0.01167176,
      "auxiliary_loss_mlp": 0.01027821,
      "balance_loss_clip": 1.0487864,
      "balance_loss_mlp": 1.02054954,
      "epoch": 0.7153249564119522,
      "flos": 20995640812800.0,
      "grad_norm": 1.943566148144135,
      "language_loss": 0.73378074,
      "learning_rate": 7.914057853947363e-07,
      "loss": 0.75573075,
      "num_input_tokens_seen": 127877665,
      "step": 5949,
      "time_per_iteration": 2.6266496181488037
    },
    {
      "auxiliary_loss_clip": 0.01138482,
      "auxiliary_loss_mlp": 0.01029166,
      "balance_loss_clip": 1.04099798,
      "balance_loss_mlp": 1.02091718,
      "epoch": 0.7154451993025912,
      "flos": 24243114453120.0,
      "grad_norm": 1.7382558025803885,
      "language_loss": 0.62464941,
      "learning_rate": 7.907852243612089e-07,
      "loss": 0.64632595,
      "num_input_tokens_seen": 127898070,
      "step": 5950,
      "time_per_iteration": 2.7944769859313965
    },
    {
      "auxiliary_loss_clip": 0.01152757,
      "auxiliary_loss_mlp": 0.01026942,
      "balance_loss_clip": 1.04576707,
      "balance_loss_mlp": 1.01903296,
      "epoch": 0.7155654421932304,
      "flos": 23330947547520.0,
      "grad_norm": 1.7864607619518262,
      "language_loss": 0.72300047,
      "learning_rate": 7.901648467646009e-07,
      "loss": 0.74479747,
      "num_input_tokens_seen": 127917010,
      "step": 5951,
      "time_per_iteration": 3.6724817752838135
    },
    {
      "auxiliary_loss_clip": 0.01175323,
      "auxiliary_loss_mlp": 0.0102876,
      "balance_loss_clip": 1.04960585,
      "balance_loss_mlp": 1.02091599,
      "epoch": 0.7156856850838694,
      "flos": 22711883621760.0,
      "grad_norm": 2.27466230258008,
      "language_loss": 0.72508818,
      "learning_rate": 7.895446526990244e-07,
      "loss": 0.74712896,
      "num_input_tokens_seen": 127937025,
      "step": 5952,
      "time_per_iteration": 2.6009726524353027
    },
    {
      "auxiliary_loss_clip": 0.01145911,
      "auxiliary_loss_mlp": 0.01032241,
      "balance_loss_clip": 1.04340279,
      "balance_loss_mlp": 1.02489734,
      "epoch": 0.7158059279745085,
      "flos": 19865424395520.0,
      "grad_norm": 1.545625746697214,
      "language_loss": 0.75798076,
      "learning_rate": 7.889246422585609e-07,
      "loss": 0.77976227,
      "num_input_tokens_seen": 127956410,
      "step": 5953,
      "time_per_iteration": 2.756842613220215
    },
    {
      "auxiliary_loss_clip": 0.01175947,
      "auxiliary_loss_mlp": 0.01031487,
      "balance_loss_clip": 1.05055761,
      "balance_loss_mlp": 1.02371716,
      "epoch": 0.7159261708651476,
      "flos": 24134772055680.0,
      "grad_norm": 1.749109457258284,
      "language_loss": 0.73417139,
      "learning_rate": 7.883048155372675e-07,
      "loss": 0.75624567,
      "num_input_tokens_seen": 127974925,
      "step": 5954,
      "time_per_iteration": 3.6459157466888428
    },
    {
      "auxiliary_loss_clip": 0.01160078,
      "auxiliary_loss_mlp": 0.01031066,
      "balance_loss_clip": 1.04670393,
      "balance_loss_mlp": 1.02273345,
      "epoch": 0.7160464137557867,
      "flos": 16983198201600.0,
      "grad_norm": 2.7062229943886065,
      "language_loss": 0.7181924,
      "learning_rate": 7.876851726291698e-07,
      "loss": 0.74010384,
      "num_input_tokens_seen": 127993225,
      "step": 5955,
      "time_per_iteration": 2.7068538665771484
    },
    {
      "auxiliary_loss_clip": 0.01147172,
      "auxiliary_loss_mlp": 0.01028502,
      "balance_loss_clip": 1.04243541,
      "balance_loss_mlp": 1.02022862,
      "epoch": 0.7161666566464258,
      "flos": 25228251838080.0,
      "grad_norm": 1.8006103979530494,
      "language_loss": 0.78448784,
      "learning_rate": 7.870657136282666e-07,
      "loss": 0.80624455,
      "num_input_tokens_seen": 128012085,
      "step": 5956,
      "time_per_iteration": 3.5809221267700195
    },
    {
      "auxiliary_loss_clip": 0.01158036,
      "auxiliary_loss_mlp": 0.01031361,
      "balance_loss_clip": 1.04603529,
      "balance_loss_mlp": 1.02327275,
      "epoch": 0.7162868995370649,
      "flos": 26468390851200.0,
      "grad_norm": 1.5647363317138638,
      "language_loss": 0.81798339,
      "learning_rate": 7.86446438628531e-07,
      "loss": 0.83987731,
      "num_input_tokens_seen": 128033155,
      "step": 5957,
      "time_per_iteration": 2.6893184185028076
    },
    {
      "auxiliary_loss_clip": 0.01067492,
      "auxiliary_loss_mlp": 0.01001109,
      "balance_loss_clip": 1.01085973,
      "balance_loss_mlp": 1.00001228,
      "epoch": 0.716407142427704,
      "flos": 69998912040960.0,
      "grad_norm": 0.7722585462825691,
      "language_loss": 0.56896019,
      "learning_rate": 7.858273477239059e-07,
      "loss": 0.5896461,
      "num_input_tokens_seen": 128101575,
      "step": 5958,
      "time_per_iteration": 3.2513272762298584
    },
    {
      "auxiliary_loss_clip": 0.01125651,
      "auxiliary_loss_mlp": 0.01028395,
      "balance_loss_clip": 1.04289126,
      "balance_loss_mlp": 1.02061009,
      "epoch": 0.716527385318343,
      "flos": 20740459616640.0,
      "grad_norm": 1.701206086014224,
      "language_loss": 0.71292424,
      "learning_rate": 7.852084410083067e-07,
      "loss": 0.73446476,
      "num_input_tokens_seen": 128120395,
      "step": 5959,
      "time_per_iteration": 2.7418806552886963
    },
    {
      "auxiliary_loss_clip": 0.0114908,
      "auxiliary_loss_mlp": 0.01032476,
      "balance_loss_clip": 1.04635167,
      "balance_loss_mlp": 1.02506733,
      "epoch": 0.7166476282089821,
      "flos": 25371966153600.0,
      "grad_norm": 1.595429207497664,
      "language_loss": 0.63623995,
      "learning_rate": 7.84589718575621e-07,
      "loss": 0.65805554,
      "num_input_tokens_seen": 128140840,
      "step": 5960,
      "time_per_iteration": 2.771817445755005
    },
    {
      "auxiliary_loss_clip": 0.01154691,
      "auxiliary_loss_mlp": 0.01028355,
      "balance_loss_clip": 1.04187965,
      "balance_loss_mlp": 1.02004659,
      "epoch": 0.7167678710996213,
      "flos": 24133730561280.0,
      "grad_norm": 2.5230753621993243,
      "language_loss": 0.69351906,
      "learning_rate": 7.83971180519708e-07,
      "loss": 0.71534956,
      "num_input_tokens_seen": 128159695,
      "step": 5961,
      "time_per_iteration": 2.6722660064697266
    },
    {
      "auxiliary_loss_clip": 0.01175111,
      "auxiliary_loss_mlp": 0.01033837,
      "balance_loss_clip": 1.04940605,
      "balance_loss_mlp": 1.02581394,
      "epoch": 0.7168881139902603,
      "flos": 30226586019840.0,
      "grad_norm": 2.266412983441559,
      "language_loss": 0.75633079,
      "learning_rate": 7.833528269344008e-07,
      "loss": 0.77842021,
      "num_input_tokens_seen": 128179600,
      "step": 5962,
      "time_per_iteration": 3.58760666847229
    },
    {
      "auxiliary_loss_clip": 0.01141132,
      "auxiliary_loss_mlp": 0.01038041,
      "balance_loss_clip": 1.04452264,
      "balance_loss_mlp": 1.02936816,
      "epoch": 0.7170083568808994,
      "flos": 14606414236800.0,
      "grad_norm": 2.9641262970843605,
      "language_loss": 0.77593827,
      "learning_rate": 7.827346579135023e-07,
      "loss": 0.79773003,
      "num_input_tokens_seen": 128196940,
      "step": 5963,
      "time_per_iteration": 2.759326457977295
    },
    {
      "auxiliary_loss_clip": 0.01153689,
      "auxiliary_loss_mlp": 0.01029344,
      "balance_loss_clip": 1.04748166,
      "balance_loss_mlp": 1.02089489,
      "epoch": 0.7171285997715385,
      "flos": 23331091201920.0,
      "grad_norm": 2.92571993268643,
      "language_loss": 0.8292042,
      "learning_rate": 7.821166735507885e-07,
      "loss": 0.85103452,
      "num_input_tokens_seen": 128215970,
      "step": 5964,
      "time_per_iteration": 2.717334270477295
    },
    {
      "auxiliary_loss_clip": 0.01172388,
      "auxiliary_loss_mlp": 0.01028689,
      "balance_loss_clip": 1.04914343,
      "balance_loss_mlp": 1.02068985,
      "epoch": 0.7172488426621776,
      "flos": 16543543731840.0,
      "grad_norm": 1.6459100390843378,
      "language_loss": 0.68460524,
      "learning_rate": 7.81498873940007e-07,
      "loss": 0.70661604,
      "num_input_tokens_seen": 128233185,
      "step": 5965,
      "time_per_iteration": 2.606571674346924
    },
    {
      "auxiliary_loss_clip": 0.01170368,
      "auxiliary_loss_mlp": 0.01024179,
      "balance_loss_clip": 1.04647517,
      "balance_loss_mlp": 1.01576257,
      "epoch": 0.7173690855528166,
      "flos": 26541612725760.0,
      "grad_norm": 3.86093274657321,
      "language_loss": 0.77291054,
      "learning_rate": 7.808812591748768e-07,
      "loss": 0.79485601,
      "num_input_tokens_seen": 128253565,
      "step": 5966,
      "time_per_iteration": 2.6785712242126465
    },
    {
      "auxiliary_loss_clip": 0.01142929,
      "auxiliary_loss_mlp": 0.01028787,
      "balance_loss_clip": 1.04557264,
      "balance_loss_mlp": 1.02047229,
      "epoch": 0.7174893284434558,
      "flos": 22784099915520.0,
      "grad_norm": 2.006786646982721,
      "language_loss": 0.64683473,
      "learning_rate": 7.802638293490915e-07,
      "loss": 0.66855186,
      "num_input_tokens_seen": 128273210,
      "step": 5967,
      "time_per_iteration": 2.7516231536865234
    },
    {
      "auxiliary_loss_clip": 0.01158385,
      "auxiliary_loss_mlp": 0.01033457,
      "balance_loss_clip": 1.04681921,
      "balance_loss_mlp": 1.02541304,
      "epoch": 0.7176095713340949,
      "flos": 23293564467840.0,
      "grad_norm": 1.702327335770659,
      "language_loss": 0.76893407,
      "learning_rate": 7.796465845563123e-07,
      "loss": 0.79085255,
      "num_input_tokens_seen": 128292085,
      "step": 5968,
      "time_per_iteration": 2.674229145050049
    },
    {
      "auxiliary_loss_clip": 0.01152567,
      "auxiliary_loss_mlp": 0.0088673,
      "balance_loss_clip": 1.04623282,
      "balance_loss_mlp": 1.00050807,
      "epoch": 0.7177298142247339,
      "flos": 25591631777280.0,
      "grad_norm": 1.9500506122602095,
      "language_loss": 0.79495549,
      "learning_rate": 7.790295248901766e-07,
      "loss": 0.81534851,
      "num_input_tokens_seen": 128313215,
      "step": 5969,
      "time_per_iteration": 2.754761219024658
    },
    {
      "auxiliary_loss_clip": 0.0116334,
      "auxiliary_loss_mlp": 0.01032155,
      "balance_loss_clip": 1.04715323,
      "balance_loss_mlp": 1.02394736,
      "epoch": 0.7178500571153731,
      "flos": 31652778504960.0,
      "grad_norm": 2.3464201584697943,
      "language_loss": 0.62423646,
      "learning_rate": 7.784126504442902e-07,
      "loss": 0.64619148,
      "num_input_tokens_seen": 128336445,
      "step": 5970,
      "time_per_iteration": 2.78031325340271
    },
    {
      "auxiliary_loss_clip": 0.01134104,
      "auxiliary_loss_mlp": 0.01027424,
      "balance_loss_clip": 1.04389954,
      "balance_loss_mlp": 1.01935983,
      "epoch": 0.7179703000060121,
      "flos": 19427242383360.0,
      "grad_norm": 1.379808738804562,
      "language_loss": 0.67769176,
      "learning_rate": 7.777959613122351e-07,
      "loss": 0.69930708,
      "num_input_tokens_seen": 128356270,
      "step": 5971,
      "time_per_iteration": 2.8011441230773926
    },
    {
      "auxiliary_loss_clip": 0.01147056,
      "auxiliary_loss_mlp": 0.01026282,
      "balance_loss_clip": 1.04615426,
      "balance_loss_mlp": 1.01907325,
      "epoch": 0.7180905428966512,
      "flos": 28839249072000.0,
      "grad_norm": 2.5753347270671494,
      "language_loss": 0.78066772,
      "learning_rate": 7.771794575875604e-07,
      "loss": 0.80240113,
      "num_input_tokens_seen": 128378140,
      "step": 5972,
      "time_per_iteration": 2.767469644546509
    },
    {
      "auxiliary_loss_clip": 0.01162815,
      "auxiliary_loss_mlp": 0.01023601,
      "balance_loss_clip": 1.04796898,
      "balance_loss_mlp": 1.01517272,
      "epoch": 0.7182107857872904,
      "flos": 20047563285120.0,
      "grad_norm": 2.1614006848095477,
      "language_loss": 0.77948415,
      "learning_rate": 7.765631393637888e-07,
      "loss": 0.80134827,
      "num_input_tokens_seen": 128396335,
      "step": 5973,
      "time_per_iteration": 2.6619179248809814
    },
    {
      "auxiliary_loss_clip": 0.01159655,
      "auxiliary_loss_mlp": 0.01026986,
      "balance_loss_clip": 1.04575062,
      "balance_loss_mlp": 1.01885033,
      "epoch": 0.7183310286779294,
      "flos": 22747686503040.0,
      "grad_norm": 3.783411436590466,
      "language_loss": 0.49180031,
      "learning_rate": 7.75947006734417e-07,
      "loss": 0.51366669,
      "num_input_tokens_seen": 128414115,
      "step": 5974,
      "time_per_iteration": 2.72265625
    },
    {
      "auxiliary_loss_clip": 0.01175378,
      "auxiliary_loss_mlp": 0.01023981,
      "balance_loss_clip": 1.049263,
      "balance_loss_mlp": 1.01616669,
      "epoch": 0.7184512715685685,
      "flos": 17158262112000.0,
      "grad_norm": 2.2219407776469255,
      "language_loss": 0.82886624,
      "learning_rate": 7.753310597929101e-07,
      "loss": 0.85085982,
      "num_input_tokens_seen": 128430755,
      "step": 5975,
      "time_per_iteration": 2.5825955867767334
    },
    {
      "auxiliary_loss_clip": 0.0106691,
      "auxiliary_loss_mlp": 0.01001677,
      "balance_loss_clip": 1.01037467,
      "balance_loss_mlp": 1.00060403,
      "epoch": 0.7185715144592076,
      "flos": 65509611448320.0,
      "grad_norm": 0.7555202771819852,
      "language_loss": 0.55064476,
      "learning_rate": 7.747152986327095e-07,
      "loss": 0.57133067,
      "num_input_tokens_seen": 128491300,
      "step": 5976,
      "time_per_iteration": 3.1157386302948
    },
    {
      "auxiliary_loss_clip": 0.01140459,
      "auxiliary_loss_mlp": 0.01026624,
      "balance_loss_clip": 1.04377794,
      "balance_loss_mlp": 1.01904833,
      "epoch": 0.7186917573498467,
      "flos": 16180522928640.0,
      "grad_norm": 2.310805233097486,
      "language_loss": 0.67627829,
      "learning_rate": 7.740997233472228e-07,
      "loss": 0.69794905,
      "num_input_tokens_seen": 128508920,
      "step": 5977,
      "time_per_iteration": 3.660827159881592
    },
    {
      "auxiliary_loss_clip": 0.01154579,
      "auxiliary_loss_mlp": 0.01022786,
      "balance_loss_clip": 1.04576504,
      "balance_loss_mlp": 1.01561546,
      "epoch": 0.7188120002404857,
      "flos": 29242274647680.0,
      "grad_norm": 2.634425922678173,
      "language_loss": 0.70566171,
      "learning_rate": 7.734843340298329e-07,
      "loss": 0.72743535,
      "num_input_tokens_seen": 128528745,
      "step": 5978,
      "time_per_iteration": 2.7890396118164062
    },
    {
      "auxiliary_loss_clip": 0.01157784,
      "auxiliary_loss_mlp": 0.01027513,
      "balance_loss_clip": 1.04359007,
      "balance_loss_mlp": 1.0192157,
      "epoch": 0.7189322431311249,
      "flos": 33401161008000.0,
      "grad_norm": 1.9664869291227212,
      "language_loss": 0.74953008,
      "learning_rate": 7.72869130773895e-07,
      "loss": 0.77138305,
      "num_input_tokens_seen": 128549345,
      "step": 5979,
      "time_per_iteration": 2.878331184387207
    },
    {
      "auxiliary_loss_clip": 0.01062912,
      "auxiliary_loss_mlp": 0.01001909,
      "balance_loss_clip": 1.01012921,
      "balance_loss_mlp": 1.00081825,
      "epoch": 0.719052486021764,
      "flos": 61351263792000.0,
      "grad_norm": 0.7916133635116044,
      "language_loss": 0.59377849,
      "learning_rate": 7.722541136727343e-07,
      "loss": 0.61442667,
      "num_input_tokens_seen": 128605360,
      "step": 5980,
      "time_per_iteration": 3.140228271484375
    },
    {
      "auxiliary_loss_clip": 0.01163832,
      "auxiliary_loss_mlp": 0.01028145,
      "balance_loss_clip": 1.04745221,
      "balance_loss_mlp": 1.02029514,
      "epoch": 0.719172728912403,
      "flos": 15596795007360.0,
      "grad_norm": 2.7490349882149623,
      "language_loss": 0.80496621,
      "learning_rate": 7.716392828196483e-07,
      "loss": 0.82688594,
      "num_input_tokens_seen": 128623160,
      "step": 5981,
      "time_per_iteration": 3.72424578666687
    },
    {
      "auxiliary_loss_clip": 0.01164073,
      "auxiliary_loss_mlp": 0.01030773,
      "balance_loss_clip": 1.04793251,
      "balance_loss_mlp": 1.02226186,
      "epoch": 0.7192929718030422,
      "flos": 15553162961280.0,
      "grad_norm": 3.410523862000824,
      "language_loss": 0.77134573,
      "learning_rate": 7.710246383079064e-07,
      "loss": 0.79329419,
      "num_input_tokens_seen": 128638545,
      "step": 5982,
      "time_per_iteration": 3.4728522300720215
    },
    {
      "auxiliary_loss_clip": 0.0115546,
      "auxiliary_loss_mlp": 0.01024879,
      "balance_loss_clip": 1.04281497,
      "balance_loss_mlp": 1.01742816,
      "epoch": 0.7194132146936812,
      "flos": 21862487733120.0,
      "grad_norm": 2.390007687453607,
      "language_loss": 0.91796023,
      "learning_rate": 7.704101802307492e-07,
      "loss": 0.93976367,
      "num_input_tokens_seen": 128650845,
      "step": 5983,
      "time_per_iteration": 2.725602149963379
    },
    {
      "auxiliary_loss_clip": 0.01137545,
      "auxiliary_loss_mlp": 0.01027573,
      "balance_loss_clip": 1.04416561,
      "balance_loss_mlp": 1.01952386,
      "epoch": 0.7195334575843203,
      "flos": 27338900958720.0,
      "grad_norm": 7.80790474158692,
      "language_loss": 0.86837447,
      "learning_rate": 7.697959086813912e-07,
      "loss": 0.89002562,
      "num_input_tokens_seen": 128667010,
      "step": 5984,
      "time_per_iteration": 2.876856803894043
    },
    {
      "auxiliary_loss_clip": 0.01136404,
      "auxiliary_loss_mlp": 0.01033983,
      "balance_loss_clip": 1.04126132,
      "balance_loss_mlp": 1.02674127,
      "epoch": 0.7196537004749595,
      "flos": 18770615809920.0,
      "grad_norm": 1.7362221471063508,
      "language_loss": 0.80252016,
      "learning_rate": 7.691818237530145e-07,
      "loss": 0.824224,
      "num_input_tokens_seen": 128685870,
      "step": 5985,
      "time_per_iteration": 2.8165321350097656
    },
    {
      "auxiliary_loss_clip": 0.01148592,
      "auxiliary_loss_mlp": 0.01027907,
      "balance_loss_clip": 1.04456437,
      "balance_loss_mlp": 1.0197885,
      "epoch": 0.7197739433655985,
      "flos": 24531009960960.0,
      "grad_norm": 1.897507903862593,
      "language_loss": 0.77427053,
      "learning_rate": 7.685679255387774e-07,
      "loss": 0.79603547,
      "num_input_tokens_seen": 128704185,
      "step": 5986,
      "time_per_iteration": 2.8103954792022705
    },
    {
      "auxiliary_loss_clip": 0.0115077,
      "auxiliary_loss_mlp": 0.01034774,
      "balance_loss_clip": 1.04615915,
      "balance_loss_mlp": 1.02755284,
      "epoch": 0.7198941862562376,
      "flos": 18040587793920.0,
      "grad_norm": 2.4226051570341878,
      "language_loss": 0.76818275,
      "learning_rate": 7.679542141318065e-07,
      "loss": 0.79003823,
      "num_input_tokens_seen": 128721290,
      "step": 5987,
      "time_per_iteration": 2.6845500469207764
    },
    {
      "auxiliary_loss_clip": 0.01139518,
      "auxiliary_loss_mlp": 0.01030782,
      "balance_loss_clip": 1.04137421,
      "balance_loss_mlp": 1.02301216,
      "epoch": 0.7200144291468767,
      "flos": 29022393542400.0,
      "grad_norm": 1.7635665217372045,
      "language_loss": 0.75701463,
      "learning_rate": 7.673406896252013e-07,
      "loss": 0.77871764,
      "num_input_tokens_seen": 128742665,
      "step": 5988,
      "time_per_iteration": 3.685762405395508
    },
    {
      "auxiliary_loss_clip": 0.01141437,
      "auxiliary_loss_mlp": 0.01032572,
      "balance_loss_clip": 1.041412,
      "balance_loss_mlp": 1.02402496,
      "epoch": 0.7201346720375158,
      "flos": 25374264624000.0,
      "grad_norm": 1.8721069652492548,
      "language_loss": 0.78348601,
      "learning_rate": 7.667273521120347e-07,
      "loss": 0.80522609,
      "num_input_tokens_seen": 128762225,
      "step": 5989,
      "time_per_iteration": 2.7366578578948975
    },
    {
      "auxiliary_loss_clip": 0.01147659,
      "auxiliary_loss_mlp": 0.01025568,
      "balance_loss_clip": 1.04566431,
      "balance_loss_mlp": 1.0175451,
      "epoch": 0.7202549149281549,
      "flos": 14355614499840.0,
      "grad_norm": 2.289742789120991,
      "language_loss": 0.79812968,
      "learning_rate": 7.661142016853468e-07,
      "loss": 0.81986189,
      "num_input_tokens_seen": 128779585,
      "step": 5990,
      "time_per_iteration": 2.682905912399292
    },
    {
      "auxiliary_loss_clip": 0.01134227,
      "auxiliary_loss_mlp": 0.01026458,
      "balance_loss_clip": 1.04360783,
      "balance_loss_mlp": 1.01813769,
      "epoch": 0.7203751578187939,
      "flos": 23001682550400.0,
      "grad_norm": 2.1594169897119455,
      "language_loss": 0.74945438,
      "learning_rate": 7.655012384381543e-07,
      "loss": 0.77106124,
      "num_input_tokens_seen": 128799070,
      "step": 5991,
      "time_per_iteration": 2.7524633407592773
    },
    {
      "auxiliary_loss_clip": 0.01152869,
      "auxiliary_loss_mlp": 0.01030821,
      "balance_loss_clip": 1.04996705,
      "balance_loss_mlp": 1.02271485,
      "epoch": 0.7204954007094331,
      "flos": 23692424065920.0,
      "grad_norm": 1.8327947797629847,
      "language_loss": 0.81715572,
      "learning_rate": 7.648884624634415e-07,
      "loss": 0.8389926,
      "num_input_tokens_seen": 128817620,
      "step": 5992,
      "time_per_iteration": 2.721238374710083
    },
    {
      "auxiliary_loss_clip": 0.01164086,
      "auxiliary_loss_mlp": 0.01031695,
      "balance_loss_clip": 1.04989302,
      "balance_loss_mlp": 1.02402997,
      "epoch": 0.7206156436000721,
      "flos": 16253026531200.0,
      "grad_norm": 2.596038428669748,
      "language_loss": 0.89014685,
      "learning_rate": 7.642758738541683e-07,
      "loss": 0.91210473,
      "num_input_tokens_seen": 128834200,
      "step": 5993,
      "time_per_iteration": 2.861100673675537
    },
    {
      "auxiliary_loss_clip": 0.01061746,
      "auxiliary_loss_mlp": 0.0100103,
      "balance_loss_clip": 1.01069546,
      "balance_loss_mlp": 1.00004697,
      "epoch": 0.7207358864907112,
      "flos": 54377806504320.0,
      "grad_norm": 0.7585775245794373,
      "language_loss": 0.60735977,
      "learning_rate": 7.636634727032621e-07,
      "loss": 0.6279875,
      "num_input_tokens_seen": 128891305,
      "step": 5994,
      "time_per_iteration": 3.1039154529571533
    },
    {
      "auxiliary_loss_clip": 0.01143162,
      "auxiliary_loss_mlp": 0.01028969,
      "balance_loss_clip": 1.04023576,
      "balance_loss_mlp": 1.02051091,
      "epoch": 0.7208561293813504,
      "flos": 19135540033920.0,
      "grad_norm": 3.081120399001422,
      "language_loss": 0.78439218,
      "learning_rate": 7.630512591036231e-07,
      "loss": 0.80611348,
      "num_input_tokens_seen": 128910615,
      "step": 5995,
      "time_per_iteration": 2.8239283561706543
    },
    {
      "auxiliary_loss_clip": 0.01167056,
      "auxiliary_loss_mlp": 0.0103025,
      "balance_loss_clip": 1.04856038,
      "balance_loss_mlp": 1.02228141,
      "epoch": 0.7209763722719894,
      "flos": 17748526308480.0,
      "grad_norm": 2.629657693296027,
      "language_loss": 0.64729083,
      "learning_rate": 7.624392331481255e-07,
      "loss": 0.66926384,
      "num_input_tokens_seen": 128928270,
      "step": 5996,
      "time_per_iteration": 2.694941520690918
    },
    {
      "auxiliary_loss_clip": 0.01060802,
      "auxiliary_loss_mlp": 0.0100108,
      "balance_loss_clip": 1.01065755,
      "balance_loss_mlp": 1.0001204,
      "epoch": 0.7210966151626285,
      "flos": 66819488716800.0,
      "grad_norm": 0.7472436823045782,
      "language_loss": 0.51843303,
      "learning_rate": 7.618273949296115e-07,
      "loss": 0.53905183,
      "num_input_tokens_seen": 128987780,
      "step": 5997,
      "time_per_iteration": 3.1776509284973145
    },
    {
      "auxiliary_loss_clip": 0.01146691,
      "auxiliary_loss_mlp": 0.01024649,
      "balance_loss_clip": 1.04261065,
      "balance_loss_mlp": 1.0166384,
      "epoch": 0.7212168580532676,
      "flos": 21141869080320.0,
      "grad_norm": 2.480865824540666,
      "language_loss": 0.68762058,
      "learning_rate": 7.612157445408987e-07,
      "loss": 0.70933402,
      "num_input_tokens_seen": 129005590,
      "step": 5998,
      "time_per_iteration": 2.7847864627838135
    },
    {
      "auxiliary_loss_clip": 0.01156474,
      "auxiliary_loss_mlp": 0.01026694,
      "balance_loss_clip": 1.04726446,
      "balance_loss_mlp": 1.01884389,
      "epoch": 0.7213371009439067,
      "flos": 22345738335360.0,
      "grad_norm": 2.8841903414430767,
      "language_loss": 0.74602735,
      "learning_rate": 7.606042820747716e-07,
      "loss": 0.76785898,
      "num_input_tokens_seen": 129021995,
      "step": 5999,
      "time_per_iteration": 2.750917911529541
    },
    {
      "auxiliary_loss_clip": 0.01160479,
      "auxiliary_loss_mlp": 0.01028604,
      "balance_loss_clip": 1.0488472,
      "balance_loss_mlp": 1.02109981,
      "epoch": 0.7214573438345457,
      "flos": 18515901490560.0,
      "grad_norm": 1.9210423799124834,
      "language_loss": 0.85698199,
      "learning_rate": 7.599930076239889e-07,
      "loss": 0.87887275,
      "num_input_tokens_seen": 129039280,
      "step": 6000,
      "time_per_iteration": 2.728680372238159
    },
    {
      "auxiliary_loss_clip": 0.01139307,
      "auxiliary_loss_mlp": 0.00886649,
      "balance_loss_clip": 1.04583371,
      "balance_loss_mlp": 1.00055563,
      "epoch": 0.7215775867251849,
      "flos": 35736108606720.0,
      "grad_norm": 2.023096826336068,
      "language_loss": 0.70662808,
      "learning_rate": 7.593819212812818e-07,
      "loss": 0.72688764,
      "num_input_tokens_seen": 129060860,
      "step": 6001,
      "time_per_iteration": 2.9728167057037354
    },
    {
      "auxiliary_loss_clip": 0.01162911,
      "auxiliary_loss_mlp": 0.01025558,
      "balance_loss_clip": 1.04817605,
      "balance_loss_mlp": 1.01777923,
      "epoch": 0.721697829615824,
      "flos": 20372410909440.0,
      "grad_norm": 1.736042013770383,
      "language_loss": 0.71762091,
      "learning_rate": 7.587710231393508e-07,
      "loss": 0.73950559,
      "num_input_tokens_seen": 129079215,
      "step": 6002,
      "time_per_iteration": 2.6927998065948486
    },
    {
      "auxiliary_loss_clip": 0.01104151,
      "auxiliary_loss_mlp": 0.01025887,
      "balance_loss_clip": 1.03835046,
      "balance_loss_mlp": 1.0182457,
      "epoch": 0.721818072506463,
      "flos": 20229809915520.0,
      "grad_norm": 2.4005791962167295,
      "language_loss": 0.83970273,
      "learning_rate": 7.581603132908685e-07,
      "loss": 0.86100304,
      "num_input_tokens_seen": 129097185,
      "step": 6003,
      "time_per_iteration": 3.713407278060913
    },
    {
      "auxiliary_loss_clip": 0.01137076,
      "auxiliary_loss_mlp": 0.01028761,
      "balance_loss_clip": 1.04285514,
      "balance_loss_mlp": 1.02018428,
      "epoch": 0.7219383153971022,
      "flos": 18186887888640.0,
      "grad_norm": 1.95908685516072,
      "language_loss": 0.78751802,
      "learning_rate": 7.575497918284795e-07,
      "loss": 0.80917645,
      "num_input_tokens_seen": 129114730,
      "step": 6004,
      "time_per_iteration": 2.7683510780334473
    },
    {
      "auxiliary_loss_clip": 0.01177612,
      "auxiliary_loss_mlp": 0.01027369,
      "balance_loss_clip": 1.0496223,
      "balance_loss_mlp": 1.01940608,
      "epoch": 0.7220585582877412,
      "flos": 17342124854400.0,
      "grad_norm": 2.706769196757615,
      "language_loss": 0.74544871,
      "learning_rate": 7.569394588447984e-07,
      "loss": 0.76749861,
      "num_input_tokens_seen": 129131745,
      "step": 6005,
      "time_per_iteration": 2.593752384185791
    },
    {
      "auxiliary_loss_clip": 0.01155042,
      "auxiliary_loss_mlp": 0.01026464,
      "balance_loss_clip": 1.04390526,
      "balance_loss_mlp": 1.01831591,
      "epoch": 0.7221788011783803,
      "flos": 16976338704000.0,
      "grad_norm": 2.416656126197892,
      "language_loss": 0.78264207,
      "learning_rate": 7.563293144324146e-07,
      "loss": 0.80445707,
      "num_input_tokens_seen": 129147295,
      "step": 6006,
      "time_per_iteration": 3.708228588104248
    },
    {
      "auxiliary_loss_clip": 0.01173246,
      "auxiliary_loss_mlp": 0.01024052,
      "balance_loss_clip": 1.05003142,
      "balance_loss_mlp": 1.01703024,
      "epoch": 0.7222990440690195,
      "flos": 26286359702400.0,
      "grad_norm": 1.8786745192015526,
      "language_loss": 0.80349863,
      "learning_rate": 7.557193586838834e-07,
      "loss": 0.82547152,
      "num_input_tokens_seen": 129162660,
      "step": 6007,
      "time_per_iteration": 2.7404489517211914
    },
    {
      "auxiliary_loss_clip": 0.01157781,
      "auxiliary_loss_mlp": 0.0102485,
      "balance_loss_clip": 1.04537749,
      "balance_loss_mlp": 1.01684546,
      "epoch": 0.7224192869596585,
      "flos": 17601687509760.0,
      "grad_norm": 2.4348521505799603,
      "language_loss": 0.70602047,
      "learning_rate": 7.551095916917371e-07,
      "loss": 0.72784674,
      "num_input_tokens_seen": 129179990,
      "step": 6008,
      "time_per_iteration": 3.5619592666625977
    },
    {
      "auxiliary_loss_clip": 0.01154365,
      "auxiliary_loss_mlp": 0.0103532,
      "balance_loss_clip": 1.04293561,
      "balance_loss_mlp": 1.02655196,
      "epoch": 0.7225395298502976,
      "flos": 12932331016320.0,
      "grad_norm": 3.552545550897946,
      "language_loss": 0.66347581,
      "learning_rate": 7.545000135484758e-07,
      "loss": 0.68537265,
      "num_input_tokens_seen": 129197425,
      "step": 6009,
      "time_per_iteration": 2.8388471603393555
    },
    {
      "auxiliary_loss_clip": 0.0117386,
      "auxiliary_loss_mlp": 0.00887386,
      "balance_loss_clip": 1.04960871,
      "balance_loss_mlp": 1.00058603,
      "epoch": 0.7226597727409367,
      "flos": 29643899592960.0,
      "grad_norm": 2.759404986446874,
      "language_loss": 0.62902975,
      "learning_rate": 7.538906243465714e-07,
      "loss": 0.64964223,
      "num_input_tokens_seen": 129217560,
      "step": 6010,
      "time_per_iteration": 2.7092080116271973
    },
    {
      "auxiliary_loss_clip": 0.01175978,
      "auxiliary_loss_mlp": 0.01032098,
      "balance_loss_clip": 1.05111086,
      "balance_loss_mlp": 1.02356279,
      "epoch": 0.7227800156315758,
      "flos": 13771635183360.0,
      "grad_norm": 2.502368912305074,
      "language_loss": 0.78738093,
      "learning_rate": 7.5328142417847e-07,
      "loss": 0.80946171,
      "num_input_tokens_seen": 129234325,
      "step": 6011,
      "time_per_iteration": 2.7043774127960205
    },
    {
      "auxiliary_loss_clip": 0.01159847,
      "auxiliary_loss_mlp": 0.01029349,
      "balance_loss_clip": 1.04473996,
      "balance_loss_mlp": 1.02153194,
      "epoch": 0.7229002585222148,
      "flos": 20301882554880.0,
      "grad_norm": 1.589498569274159,
      "language_loss": 0.69200778,
      "learning_rate": 7.526724131365838e-07,
      "loss": 0.71389973,
      "num_input_tokens_seen": 129255280,
      "step": 6012,
      "time_per_iteration": 2.794574737548828
    },
    {
      "auxiliary_loss_clip": 0.01155045,
      "auxiliary_loss_mlp": 0.01036793,
      "balance_loss_clip": 1.04776812,
      "balance_loss_mlp": 1.02810836,
      "epoch": 0.723020501412854,
      "flos": 16581250033920.0,
      "grad_norm": 2.2154264454867385,
      "language_loss": 0.7053526,
      "learning_rate": 7.520635913133017e-07,
      "loss": 0.72727096,
      "num_input_tokens_seen": 129273910,
      "step": 6013,
      "time_per_iteration": 3.6912031173706055
    },
    {
      "auxiliary_loss_clip": 0.01169603,
      "auxiliary_loss_mlp": 0.01027855,
      "balance_loss_clip": 1.04831541,
      "balance_loss_mlp": 1.01937294,
      "epoch": 0.7231407443034931,
      "flos": 28548300908160.0,
      "grad_norm": 1.9889410748264715,
      "language_loss": 0.82464862,
      "learning_rate": 7.514549588009798e-07,
      "loss": 0.84662318,
      "num_input_tokens_seen": 129294785,
      "step": 6014,
      "time_per_iteration": 2.759713649749756
    },
    {
      "auxiliary_loss_clip": 0.01157858,
      "auxiliary_loss_mlp": 0.01029903,
      "balance_loss_clip": 1.04855633,
      "balance_loss_mlp": 1.02204752,
      "epoch": 0.7232609871941321,
      "flos": 30008536508160.0,
      "grad_norm": 2.867883807046137,
      "language_loss": 0.70713568,
      "learning_rate": 7.508465156919492e-07,
      "loss": 0.72901326,
      "num_input_tokens_seen": 129318295,
      "step": 6015,
      "time_per_iteration": 2.8744657039642334
    },
    {
      "auxiliary_loss_clip": 0.01153018,
      "auxiliary_loss_mlp": 0.01021342,
      "balance_loss_clip": 1.04485059,
      "balance_loss_mlp": 1.01287186,
      "epoch": 0.7233812300847713,
      "flos": 16654005031680.0,
      "grad_norm": 3.064744551331608,
      "language_loss": 0.6130597,
      "learning_rate": 7.502382620785083e-07,
      "loss": 0.6348033,
      "num_input_tokens_seen": 129334845,
      "step": 6016,
      "time_per_iteration": 2.825350284576416
    },
    {
      "auxiliary_loss_clip": 0.01044221,
      "auxiliary_loss_mlp": 0.0100521,
      "balance_loss_clip": 1.01094651,
      "balance_loss_mlp": 1.0041548,
      "epoch": 0.7235014729754103,
      "flos": 67258784050560.0,
      "grad_norm": 0.8208611151914402,
      "language_loss": 0.62491572,
      "learning_rate": 7.496301980529289e-07,
      "loss": 0.64541,
      "num_input_tokens_seen": 129398055,
      "step": 6017,
      "time_per_iteration": 3.3706936836242676
    },
    {
      "auxiliary_loss_clip": 0.01176988,
      "auxiliary_loss_mlp": 0.01024203,
      "balance_loss_clip": 1.05038869,
      "balance_loss_mlp": 1.01658273,
      "epoch": 0.7236217158660494,
      "flos": 26943237671040.0,
      "grad_norm": 2.05757700009544,
      "language_loss": 0.74594474,
      "learning_rate": 7.490223237074547e-07,
      "loss": 0.76795661,
      "num_input_tokens_seen": 129417765,
      "step": 6018,
      "time_per_iteration": 2.868915319442749
    },
    {
      "auxiliary_loss_clip": 0.01142649,
      "auxiliary_loss_mlp": 0.01030435,
      "balance_loss_clip": 1.04265893,
      "balance_loss_mlp": 1.02328825,
      "epoch": 0.7237419587566886,
      "flos": 29423372042880.0,
      "grad_norm": 3.413121173854305,
      "language_loss": 0.66052985,
      "learning_rate": 7.484146391342989e-07,
      "loss": 0.68226069,
      "num_input_tokens_seen": 129437560,
      "step": 6019,
      "time_per_iteration": 2.8608217239379883
    },
    {
      "auxiliary_loss_clip": 0.01149676,
      "auxiliary_loss_mlp": 0.01028689,
      "balance_loss_clip": 1.04414511,
      "balance_loss_mlp": 1.0210892,
      "epoch": 0.7238622016473276,
      "flos": 17821496787840.0,
      "grad_norm": 2.199144265568084,
      "language_loss": 0.56960696,
      "learning_rate": 7.478071444256484e-07,
      "loss": 0.59139061,
      "num_input_tokens_seen": 129455320,
      "step": 6020,
      "time_per_iteration": 2.811685562133789
    },
    {
      "auxiliary_loss_clip": 0.01155827,
      "auxiliary_loss_mlp": 0.01026892,
      "balance_loss_clip": 1.04475975,
      "balance_loss_mlp": 1.0185771,
      "epoch": 0.7239824445379667,
      "flos": 25739117020800.0,
      "grad_norm": 1.7125227550272493,
      "language_loss": 0.79251969,
      "learning_rate": 7.471998396736579e-07,
      "loss": 0.81434691,
      "num_input_tokens_seen": 129475700,
      "step": 6021,
      "time_per_iteration": 2.857560634613037
    },
    {
      "auxiliary_loss_clip": 0.01145124,
      "auxiliary_loss_mlp": 0.01028385,
      "balance_loss_clip": 1.04400861,
      "balance_loss_mlp": 1.02005184,
      "epoch": 0.7241026874286057,
      "flos": 23148916398720.0,
      "grad_norm": 1.7268210002300932,
      "language_loss": 0.76103765,
      "learning_rate": 7.465927249704549e-07,
      "loss": 0.78277278,
      "num_input_tokens_seen": 129493585,
      "step": 6022,
      "time_per_iteration": 2.8339178562164307
    },
    {
      "auxiliary_loss_clip": 0.01162084,
      "auxiliary_loss_mlp": 0.01023265,
      "balance_loss_clip": 1.04608989,
      "balance_loss_mlp": 1.01577318,
      "epoch": 0.7242229303192449,
      "flos": 20266905686400.0,
      "grad_norm": 1.947330362641074,
      "language_loss": 0.77756828,
      "learning_rate": 7.459858004081398e-07,
      "loss": 0.79942179,
      "num_input_tokens_seen": 129511555,
      "step": 6023,
      "time_per_iteration": 2.8250274658203125
    },
    {
      "auxiliary_loss_clip": 0.01040138,
      "auxiliary_loss_mlp": 0.01002287,
      "balance_loss_clip": 1.01034856,
      "balance_loss_mlp": 1.0013392,
      "epoch": 0.724343173209884,
      "flos": 62311659684480.0,
      "grad_norm": 0.6577653309688739,
      "language_loss": 0.58034253,
      "learning_rate": 7.453790660787815e-07,
      "loss": 0.60076678,
      "num_input_tokens_seen": 129579650,
      "step": 6024,
      "time_per_iteration": 3.418915271759033
    },
    {
      "auxiliary_loss_clip": 0.01160751,
      "auxiliary_loss_mlp": 0.01033704,
      "balance_loss_clip": 1.05026722,
      "balance_loss_mlp": 1.02456617,
      "epoch": 0.724463416100523,
      "flos": 35006403813120.0,
      "grad_norm": 2.032806899144313,
      "language_loss": 0.63482255,
      "learning_rate": 7.447725220744214e-07,
      "loss": 0.65676707,
      "num_input_tokens_seen": 129601895,
      "step": 6025,
      "time_per_iteration": 2.913288116455078
    },
    {
      "auxiliary_loss_clip": 0.01175402,
      "auxiliary_loss_mlp": 0.01022405,
      "balance_loss_clip": 1.0481751,
      "balance_loss_mlp": 1.01423287,
      "epoch": 0.7245836589911622,
      "flos": 21871968923520.0,
      "grad_norm": 2.267715333877345,
      "language_loss": 0.77335984,
      "learning_rate": 7.441661684870717e-07,
      "loss": 0.79533792,
      "num_input_tokens_seen": 129622150,
      "step": 6026,
      "time_per_iteration": 2.709702730178833
    },
    {
      "auxiliary_loss_clip": 0.01175642,
      "auxiliary_loss_mlp": 0.01029893,
      "balance_loss_clip": 1.05019462,
      "balance_loss_mlp": 1.02237058,
      "epoch": 0.7247039018818012,
      "flos": 23006494972800.0,
      "grad_norm": 1.549670205434055,
      "language_loss": 0.81694585,
      "learning_rate": 7.435600054087152e-07,
      "loss": 0.83900124,
      "num_input_tokens_seen": 129644315,
      "step": 6027,
      "time_per_iteration": 2.6986474990844727
    },
    {
      "auxiliary_loss_clip": 0.01175649,
      "auxiliary_loss_mlp": 0.01036695,
      "balance_loss_clip": 1.05019963,
      "balance_loss_mlp": 1.02848172,
      "epoch": 0.7248241447724403,
      "flos": 31722588587520.0,
      "grad_norm": 2.202570305381069,
      "language_loss": 0.74441743,
      "learning_rate": 7.42954032931308e-07,
      "loss": 0.76654088,
      "num_input_tokens_seen": 129665355,
      "step": 6028,
      "time_per_iteration": 2.7387168407440186
    },
    {
      "auxiliary_loss_clip": 0.01154781,
      "auxiliary_loss_mlp": 0.010271,
      "balance_loss_clip": 1.04569793,
      "balance_loss_mlp": 1.01843905,
      "epoch": 0.7249443876630794,
      "flos": 34896984007680.0,
      "grad_norm": 1.8564486240692404,
      "language_loss": 0.74325979,
      "learning_rate": 7.423482511467733e-07,
      "loss": 0.76507854,
      "num_input_tokens_seen": 129686125,
      "step": 6029,
      "time_per_iteration": 3.753048896789551
    },
    {
      "auxiliary_loss_clip": 0.01114473,
      "auxiliary_loss_mlp": 0.01032041,
      "balance_loss_clip": 1.04015636,
      "balance_loss_mlp": 1.0242362,
      "epoch": 0.7250646305537185,
      "flos": 26359294268160.0,
      "grad_norm": 2.185059926772621,
      "language_loss": 0.65101665,
      "learning_rate": 7.417426601470099e-07,
      "loss": 0.67248178,
      "num_input_tokens_seen": 129706485,
      "step": 6030,
      "time_per_iteration": 2.9378437995910645
    },
    {
      "auxiliary_loss_clip": 0.01164558,
      "auxiliary_loss_mlp": 0.0103122,
      "balance_loss_clip": 1.04753828,
      "balance_loss_mlp": 1.02261281,
      "epoch": 0.7251848734443576,
      "flos": 30081614728320.0,
      "grad_norm": 2.1035147729325323,
      "language_loss": 0.78475374,
      "learning_rate": 7.411372600238841e-07,
      "loss": 0.80671155,
      "num_input_tokens_seen": 129727100,
      "step": 6031,
      "time_per_iteration": 2.740100622177124
    },
    {
      "auxiliary_loss_clip": 0.01175127,
      "auxiliary_loss_mlp": 0.01028075,
      "balance_loss_clip": 1.04898024,
      "balance_loss_mlp": 1.020136,
      "epoch": 0.7253051163349967,
      "flos": 17785262943360.0,
      "grad_norm": 3.0803608522478325,
      "language_loss": 0.73881567,
      "learning_rate": 7.405320508692346e-07,
      "loss": 0.76084769,
      "num_input_tokens_seen": 129745840,
      "step": 6032,
      "time_per_iteration": 4.030164003372192
    },
    {
      "auxiliary_loss_clip": 0.01171371,
      "auxiliary_loss_mlp": 0.01028778,
      "balance_loss_clip": 1.04952395,
      "balance_loss_mlp": 1.02103496,
      "epoch": 0.7254253592256358,
      "flos": 12641346938880.0,
      "grad_norm": 2.0268888297237737,
      "language_loss": 0.75150013,
      "learning_rate": 7.399270327748727e-07,
      "loss": 0.77350152,
      "num_input_tokens_seen": 129763500,
      "step": 6033,
      "time_per_iteration": 2.6901798248291016
    },
    {
      "auxiliary_loss_clip": 0.01146799,
      "auxiliary_loss_mlp": 0.00885977,
      "balance_loss_clip": 1.04484975,
      "balance_loss_mlp": 1.00050163,
      "epoch": 0.7255456021162748,
      "flos": 27199208966400.0,
      "grad_norm": 1.8692820510546437,
      "language_loss": 0.74280941,
      "learning_rate": 7.39322205832577e-07,
      "loss": 0.76313716,
      "num_input_tokens_seen": 129784390,
      "step": 6034,
      "time_per_iteration": 3.6443514823913574
    },
    {
      "auxiliary_loss_clip": 0.01150348,
      "auxiliary_loss_mlp": 0.01032705,
      "balance_loss_clip": 1.04563951,
      "balance_loss_mlp": 1.02453947,
      "epoch": 0.725665845006914,
      "flos": 21288205088640.0,
      "grad_norm": 2.1242633733462832,
      "language_loss": 0.80981171,
      "learning_rate": 7.387175701341009e-07,
      "loss": 0.83164227,
      "num_input_tokens_seen": 129803060,
      "step": 6035,
      "time_per_iteration": 2.6217284202575684
    },
    {
      "auxiliary_loss_clip": 0.01166752,
      "auxiliary_loss_mlp": 0.01023517,
      "balance_loss_clip": 1.04794145,
      "balance_loss_mlp": 1.01553583,
      "epoch": 0.7257860878975531,
      "flos": 16033684129920.0,
      "grad_norm": 2.309836190903033,
      "language_loss": 0.72647929,
      "learning_rate": 7.381131257711659e-07,
      "loss": 0.74838197,
      "num_input_tokens_seen": 129820165,
      "step": 6036,
      "time_per_iteration": 2.6788692474365234
    },
    {
      "auxiliary_loss_clip": 0.01150517,
      "auxiliary_loss_mlp": 0.01027275,
      "balance_loss_clip": 1.04887414,
      "balance_loss_mlp": 1.01970863,
      "epoch": 0.7259063307881921,
      "flos": 12129943052160.0,
      "grad_norm": 2.346248105715407,
      "language_loss": 0.83478373,
      "learning_rate": 7.375088728354677e-07,
      "loss": 0.85656166,
      "num_input_tokens_seen": 129835195,
      "step": 6037,
      "time_per_iteration": 2.664285182952881
    },
    {
      "auxiliary_loss_clip": 0.01149777,
      "auxiliary_loss_mlp": 0.01023544,
      "balance_loss_clip": 1.04480934,
      "balance_loss_mlp": 1.01564002,
      "epoch": 0.7260265736788313,
      "flos": 30443845432320.0,
      "grad_norm": 2.0271695744005385,
      "language_loss": 0.6744892,
      "learning_rate": 7.369048114186691e-07,
      "loss": 0.69622242,
      "num_input_tokens_seen": 129856240,
      "step": 6038,
      "time_per_iteration": 2.845264434814453
    },
    {
      "auxiliary_loss_clip": 0.01155205,
      "auxiliary_loss_mlp": 0.00886172,
      "balance_loss_clip": 1.0472039,
      "balance_loss_mlp": 1.00057518,
      "epoch": 0.7261468165694703,
      "flos": 21142264129920.0,
      "grad_norm": 2.1398077134707254,
      "language_loss": 0.82951045,
      "learning_rate": 7.363009416124055e-07,
      "loss": 0.84992421,
      "num_input_tokens_seen": 129875565,
      "step": 6039,
      "time_per_iteration": 2.724121570587158
    },
    {
      "auxiliary_loss_clip": 0.01146896,
      "auxiliary_loss_mlp": 0.01031112,
      "balance_loss_clip": 1.04458928,
      "balance_loss_mlp": 1.02274323,
      "epoch": 0.7262670594601094,
      "flos": 22306308180480.0,
      "grad_norm": 2.243074325623026,
      "language_loss": 0.6331715,
      "learning_rate": 7.356972635082852e-07,
      "loss": 0.65495157,
      "num_input_tokens_seen": 129894420,
      "step": 6040,
      "time_per_iteration": 3.640209674835205
    },
    {
      "auxiliary_loss_clip": 0.01132713,
      "auxiliary_loss_mlp": 0.01026557,
      "balance_loss_clip": 1.04507709,
      "balance_loss_mlp": 1.01786673,
      "epoch": 0.7263873023507486,
      "flos": 25335049950720.0,
      "grad_norm": 1.697976905329845,
      "language_loss": 0.75067437,
      "learning_rate": 7.35093777197884e-07,
      "loss": 0.7722671,
      "num_input_tokens_seen": 129914490,
      "step": 6041,
      "time_per_iteration": 2.8112399578094482
    },
    {
      "auxiliary_loss_clip": 0.01153286,
      "auxiliary_loss_mlp": 0.0102913,
      "balance_loss_clip": 1.04663706,
      "balance_loss_mlp": 1.02112484,
      "epoch": 0.7265075452413876,
      "flos": 23878621192320.0,
      "grad_norm": 2.1101853236668497,
      "language_loss": 0.85881174,
      "learning_rate": 7.344904827727525e-07,
      "loss": 0.88063586,
      "num_input_tokens_seen": 129931670,
      "step": 6042,
      "time_per_iteration": 2.716661214828491
    },
    {
      "auxiliary_loss_clip": 0.01140986,
      "auxiliary_loss_mlp": 0.01022969,
      "balance_loss_clip": 1.04032135,
      "balance_loss_mlp": 1.01566696,
      "epoch": 0.7266277881320267,
      "flos": 28724549967360.0,
      "grad_norm": 2.3712182490175904,
      "language_loss": 0.73320377,
      "learning_rate": 7.338873803244076e-07,
      "loss": 0.75484335,
      "num_input_tokens_seen": 129946905,
      "step": 6043,
      "time_per_iteration": 2.824002265930176
    },
    {
      "auxiliary_loss_clip": 0.01152392,
      "auxiliary_loss_mlp": 0.01024509,
      "balance_loss_clip": 1.0490098,
      "balance_loss_mlp": 1.01641178,
      "epoch": 0.7267480310226658,
      "flos": 24863507182080.0,
      "grad_norm": 1.7360928726083327,
      "language_loss": 0.80994821,
      "learning_rate": 7.332844699443401e-07,
      "loss": 0.83171719,
      "num_input_tokens_seen": 129965505,
      "step": 6044,
      "time_per_iteration": 2.73132061958313
    },
    {
      "auxiliary_loss_clip": 0.01131187,
      "auxiliary_loss_mlp": 0.01028435,
      "balance_loss_clip": 1.04443192,
      "balance_loss_mlp": 1.02092528,
      "epoch": 0.7268682739133049,
      "flos": 27198490694400.0,
      "grad_norm": 1.8865636078094008,
      "language_loss": 0.75622511,
      "learning_rate": 7.326817517240121e-07,
      "loss": 0.7778213,
      "num_input_tokens_seen": 129987210,
      "step": 6045,
      "time_per_iteration": 2.8150832653045654
    },
    {
      "auxiliary_loss_clip": 0.01163735,
      "auxiliary_loss_mlp": 0.00885799,
      "balance_loss_clip": 1.04560852,
      "balance_loss_mlp": 1.00055504,
      "epoch": 0.7269885168039439,
      "flos": 33508138688640.0,
      "grad_norm": 1.8430582486497467,
      "language_loss": 0.83700854,
      "learning_rate": 7.320792257548545e-07,
      "loss": 0.85750389,
      "num_input_tokens_seen": 130008385,
      "step": 6046,
      "time_per_iteration": 2.7275164127349854
    },
    {
      "auxiliary_loss_clip": 0.01158149,
      "auxiliary_loss_mlp": 0.01028461,
      "balance_loss_clip": 1.0464443,
      "balance_loss_mlp": 1.02029514,
      "epoch": 0.7271087596945831,
      "flos": 24313750548480.0,
      "grad_norm": 2.0890673034984375,
      "language_loss": 0.7641806,
      "learning_rate": 7.314768921282704e-07,
      "loss": 0.78604674,
      "num_input_tokens_seen": 130029040,
      "step": 6047,
      "time_per_iteration": 2.7552618980407715
    },
    {
      "auxiliary_loss_clip": 0.01166711,
      "auxiliary_loss_mlp": 0.01025511,
      "balance_loss_clip": 1.04773366,
      "balance_loss_mlp": 1.0179379,
      "epoch": 0.7272290025852222,
      "flos": 23805147922560.0,
      "grad_norm": 2.5600386701073874,
      "language_loss": 0.72436237,
      "learning_rate": 7.30874750935633e-07,
      "loss": 0.7462846,
      "num_input_tokens_seen": 130048725,
      "step": 6048,
      "time_per_iteration": 2.6735570430755615
    },
    {
      "auxiliary_loss_clip": 0.01147453,
      "auxiliary_loss_mlp": 0.01023961,
      "balance_loss_clip": 1.04724252,
      "balance_loss_mlp": 1.01606905,
      "epoch": 0.7273492454758612,
      "flos": 16720367408640.0,
      "grad_norm": 2.9196781200749045,
      "language_loss": 0.79426622,
      "learning_rate": 7.30272802268286e-07,
      "loss": 0.81598037,
      "num_input_tokens_seen": 130065720,
      "step": 6049,
      "time_per_iteration": 2.6401801109313965
    },
    {
      "auxiliary_loss_clip": 0.01103863,
      "auxiliary_loss_mlp": 0.0102428,
      "balance_loss_clip": 1.04019403,
      "balance_loss_mlp": 1.01685941,
      "epoch": 0.7274694883665004,
      "flos": 28031330413440.0,
      "grad_norm": 1.655412739089244,
      "language_loss": 0.76306808,
      "learning_rate": 7.29671046217547e-07,
      "loss": 0.7843495,
      "num_input_tokens_seen": 130084830,
      "step": 6050,
      "time_per_iteration": 2.833801031112671
    },
    {
      "auxiliary_loss_clip": 0.01147598,
      "auxiliary_loss_mlp": 0.01030295,
      "balance_loss_clip": 1.04598725,
      "balance_loss_mlp": 1.02246261,
      "epoch": 0.7275897312571394,
      "flos": 30372706546560.0,
      "grad_norm": 1.802985699542914,
      "language_loss": 0.81925118,
      "learning_rate": 7.290694828746988e-07,
      "loss": 0.84103018,
      "num_input_tokens_seen": 130104495,
      "step": 6051,
      "time_per_iteration": 2.873776435852051
    },
    {
      "auxiliary_loss_clip": 0.01149696,
      "auxiliary_loss_mlp": 0.01022937,
      "balance_loss_clip": 1.04465497,
      "balance_loss_mlp": 1.01531959,
      "epoch": 0.7277099741477785,
      "flos": 19204775498880.0,
      "grad_norm": 5.343300273770234,
      "language_loss": 0.8618716,
      "learning_rate": 7.284681123310004e-07,
      "loss": 0.88359791,
      "num_input_tokens_seen": 130123210,
      "step": 6052,
      "time_per_iteration": 2.8251452445983887
    },
    {
      "auxiliary_loss_clip": 0.01162978,
      "auxiliary_loss_mlp": 0.01027126,
      "balance_loss_clip": 1.04716063,
      "balance_loss_mlp": 1.01908565,
      "epoch": 0.7278302170384175,
      "flos": 20667884186880.0,
      "grad_norm": 2.182452589023147,
      "language_loss": 0.79630637,
      "learning_rate": 7.27866934677678e-07,
      "loss": 0.81820738,
      "num_input_tokens_seen": 130142880,
      "step": 6053,
      "time_per_iteration": 2.725238561630249
    },
    {
      "auxiliary_loss_clip": 0.01135022,
      "auxiliary_loss_mlp": 0.01027118,
      "balance_loss_clip": 1.04429173,
      "balance_loss_mlp": 1.01913095,
      "epoch": 0.7279504599290567,
      "flos": 19093200877440.0,
      "grad_norm": 1.6339069714750898,
      "language_loss": 0.78157604,
      "learning_rate": 7.272659500059297e-07,
      "loss": 0.80319744,
      "num_input_tokens_seen": 130160220,
      "step": 6054,
      "time_per_iteration": 2.739095687866211
    },
    {
      "auxiliary_loss_clip": 0.01160683,
      "auxiliary_loss_mlp": 0.0104005,
      "balance_loss_clip": 1.04733539,
      "balance_loss_mlp": 1.03166986,
      "epoch": 0.7280707028196958,
      "flos": 19062174504960.0,
      "grad_norm": 2.5234375041854396,
      "language_loss": 0.80453581,
      "learning_rate": 7.266651584069264e-07,
      "loss": 0.82654315,
      "num_input_tokens_seen": 130177885,
      "step": 6055,
      "time_per_iteration": 3.5466060638427734
    },
    {
      "auxiliary_loss_clip": 0.01167774,
      "auxiliary_loss_mlp": 0.01040809,
      "balance_loss_clip": 1.04983902,
      "balance_loss_mlp": 1.03260159,
      "epoch": 0.7281909457103348,
      "flos": 37196308293120.0,
      "grad_norm": 1.7588056086441157,
      "language_loss": 0.56967312,
      "learning_rate": 7.260645599718045e-07,
      "loss": 0.59175897,
      "num_input_tokens_seen": 130204240,
      "step": 6056,
      "time_per_iteration": 2.792607307434082
    },
    {
      "auxiliary_loss_clip": 0.011566,
      "auxiliary_loss_mlp": 0.01023044,
      "balance_loss_clip": 1.04753649,
      "balance_loss_mlp": 1.01446104,
      "epoch": 0.728311188600974,
      "flos": 20667094087680.0,
      "grad_norm": 2.751431846451218,
      "language_loss": 0.67161322,
      "learning_rate": 7.254641547916767e-07,
      "loss": 0.69340962,
      "num_input_tokens_seen": 130221735,
      "step": 6057,
      "time_per_iteration": 2.705805778503418
    },
    {
      "auxiliary_loss_clip": 0.01176299,
      "auxiliary_loss_mlp": 0.01028339,
      "balance_loss_clip": 1.05185056,
      "balance_loss_mlp": 1.02049482,
      "epoch": 0.728431431491613,
      "flos": 28840685616000.0,
      "grad_norm": 1.7191186850102862,
      "language_loss": 0.69297981,
      "learning_rate": 7.248639429576226e-07,
      "loss": 0.71502614,
      "num_input_tokens_seen": 130241190,
      "step": 6058,
      "time_per_iteration": 3.689833164215088
    },
    {
      "auxiliary_loss_clip": 0.01167599,
      "auxiliary_loss_mlp": 0.01027081,
      "balance_loss_clip": 1.04928565,
      "balance_loss_mlp": 1.01843226,
      "epoch": 0.7285516743822521,
      "flos": 25991856092160.0,
      "grad_norm": 1.6178005348809164,
      "language_loss": 0.71739322,
      "learning_rate": 7.242639245606959e-07,
      "loss": 0.73934001,
      "num_input_tokens_seen": 130260980,
      "step": 6059,
      "time_per_iteration": 2.7745015621185303
    },
    {
      "auxiliary_loss_clip": 0.01160256,
      "auxiliary_loss_mlp": 0.01025651,
      "balance_loss_clip": 1.04501259,
      "balance_loss_mlp": 1.01697898,
      "epoch": 0.7286719172728913,
      "flos": 16399721675520.0,
      "grad_norm": 1.574093327528345,
      "language_loss": 0.82277238,
      "learning_rate": 7.236640996919168e-07,
      "loss": 0.84463155,
      "num_input_tokens_seen": 130280025,
      "step": 6060,
      "time_per_iteration": 3.551629066467285
    },
    {
      "auxiliary_loss_clip": 0.01166085,
      "auxiliary_loss_mlp": 0.01020399,
      "balance_loss_clip": 1.0483129,
      "balance_loss_mlp": 1.01291287,
      "epoch": 0.7287921601635303,
      "flos": 22018161277440.0,
      "grad_norm": 1.7867545365679787,
      "language_loss": 0.70506704,
      "learning_rate": 7.230644684422782e-07,
      "loss": 0.72693187,
      "num_input_tokens_seen": 130300255,
      "step": 6061,
      "time_per_iteration": 2.6657683849334717
    },
    {
      "auxiliary_loss_clip": 0.01141244,
      "auxiliary_loss_mlp": 0.01026201,
      "balance_loss_clip": 1.04391026,
      "balance_loss_mlp": 1.01793337,
      "epoch": 0.7289124030541694,
      "flos": 24600927784320.0,
      "grad_norm": 1.942683666344436,
      "language_loss": 0.81929719,
      "learning_rate": 7.224650309027451e-07,
      "loss": 0.84097171,
      "num_input_tokens_seen": 130320005,
      "step": 6062,
      "time_per_iteration": 2.785088062286377
    },
    {
      "auxiliary_loss_clip": 0.01168017,
      "auxiliary_loss_mlp": 0.01031252,
      "balance_loss_clip": 1.05032229,
      "balance_loss_mlp": 1.02384889,
      "epoch": 0.7290326459448085,
      "flos": 21393638484480.0,
      "grad_norm": 1.7631614610430824,
      "language_loss": 0.68588984,
      "learning_rate": 7.218657871642506e-07,
      "loss": 0.70788246,
      "num_input_tokens_seen": 130338810,
      "step": 6063,
      "time_per_iteration": 2.626587152481079
    },
    {
      "auxiliary_loss_clip": 0.01175652,
      "auxiliary_loss_mlp": 0.01030415,
      "balance_loss_clip": 1.04911876,
      "balance_loss_mlp": 1.02260399,
      "epoch": 0.7291528888354476,
      "flos": 18587686821120.0,
      "grad_norm": 2.0996381646069007,
      "language_loss": 0.61972839,
      "learning_rate": 7.212667373177012e-07,
      "loss": 0.64178908,
      "num_input_tokens_seen": 130353805,
      "step": 6064,
      "time_per_iteration": 2.576078414916992
    },
    {
      "auxiliary_loss_clip": 0.01144867,
      "auxiliary_loss_mlp": 0.0102335,
      "balance_loss_clip": 1.0453155,
      "balance_loss_mlp": 1.01597095,
      "epoch": 0.7292731317260867,
      "flos": 18951066760320.0,
      "grad_norm": 1.878957041764204,
      "language_loss": 0.75366092,
      "learning_rate": 7.206678814539704e-07,
      "loss": 0.77534306,
      "num_input_tokens_seen": 130372105,
      "step": 6065,
      "time_per_iteration": 3.677344799041748
    },
    {
      "auxiliary_loss_clip": 0.0114334,
      "auxiliary_loss_mlp": 0.01026376,
      "balance_loss_clip": 1.04353535,
      "balance_loss_mlp": 1.01943827,
      "epoch": 0.7293933746167258,
      "flos": 21067569797760.0,
      "grad_norm": 1.835411617562783,
      "language_loss": 0.72906816,
      "learning_rate": 7.20069219663904e-07,
      "loss": 0.75076532,
      "num_input_tokens_seen": 130391990,
      "step": 6066,
      "time_per_iteration": 2.7518646717071533
    },
    {
      "auxiliary_loss_clip": 0.01167767,
      "auxiliary_loss_mlp": 0.01024174,
      "balance_loss_clip": 1.0469588,
      "balance_loss_mlp": 1.01636016,
      "epoch": 0.7295136175073649,
      "flos": 22453326547200.0,
      "grad_norm": 1.9359278559577902,
      "language_loss": 0.79320145,
      "learning_rate": 7.1947075203832e-07,
      "loss": 0.81512088,
      "num_input_tokens_seen": 130411970,
      "step": 6067,
      "time_per_iteration": 2.66410493850708
    },
    {
      "auxiliary_loss_clip": 0.01067824,
      "auxiliary_loss_mlp": 0.01002043,
      "balance_loss_clip": 1.01137662,
      "balance_loss_mlp": 1.0010891,
      "epoch": 0.7296338603980039,
      "flos": 56125506648960.0,
      "grad_norm": 0.8596199568560793,
      "language_loss": 0.60094655,
      "learning_rate": 7.188724786680049e-07,
      "loss": 0.62164521,
      "num_input_tokens_seen": 130472440,
      "step": 6068,
      "time_per_iteration": 3.1902554035186768
    },
    {
      "auxiliary_loss_clip": 0.01151816,
      "auxiliary_loss_mlp": 0.01028345,
      "balance_loss_clip": 1.04380441,
      "balance_loss_mlp": 1.02068591,
      "epoch": 0.7297541032886431,
      "flos": 25228287751680.0,
      "grad_norm": 1.6765965320087701,
      "language_loss": 0.75663692,
      "learning_rate": 7.182743996437162e-07,
      "loss": 0.77843857,
      "num_input_tokens_seen": 130491975,
      "step": 6069,
      "time_per_iteration": 2.754791021347046
    },
    {
      "auxiliary_loss_clip": 0.01149224,
      "auxiliary_loss_mlp": 0.01029527,
      "balance_loss_clip": 1.04283023,
      "balance_loss_mlp": 1.02068162,
      "epoch": 0.7298743461792822,
      "flos": 26467600752000.0,
      "grad_norm": 2.0222292998538163,
      "language_loss": 0.68612885,
      "learning_rate": 7.176765150561819e-07,
      "loss": 0.70791638,
      "num_input_tokens_seen": 130510580,
      "step": 6070,
      "time_per_iteration": 2.740980386734009
    },
    {
      "auxiliary_loss_clip": 0.01173993,
      "auxiliary_loss_mlp": 0.01027575,
      "balance_loss_clip": 1.04720545,
      "balance_loss_mlp": 1.01957011,
      "epoch": 0.7299945890699212,
      "flos": 19569053278080.0,
      "grad_norm": 2.0542465193686583,
      "language_loss": 0.79667574,
      "learning_rate": 7.170788249961002e-07,
      "loss": 0.81869143,
      "num_input_tokens_seen": 130529090,
      "step": 6071,
      "time_per_iteration": 2.622587203979492
    },
    {
      "auxiliary_loss_clip": 0.01172419,
      "auxiliary_loss_mlp": 0.01029092,
      "balance_loss_clip": 1.04793453,
      "balance_loss_mlp": 1.02121854,
      "epoch": 0.7301148319605604,
      "flos": 22928963466240.0,
      "grad_norm": 1.8177444171878667,
      "language_loss": 0.88192511,
      "learning_rate": 7.164813295541418e-07,
      "loss": 0.90394026,
      "num_input_tokens_seen": 130548655,
      "step": 6072,
      "time_per_iteration": 2.685516119003296
    },
    {
      "auxiliary_loss_clip": 0.01157275,
      "auxiliary_loss_mlp": 0.01030698,
      "balance_loss_clip": 1.04606318,
      "balance_loss_mlp": 1.02241945,
      "epoch": 0.7302350748511994,
      "flos": 25369703596800.0,
      "grad_norm": 1.6129027216141372,
      "language_loss": 0.70345843,
      "learning_rate": 7.15884028820944e-07,
      "loss": 0.7253381,
      "num_input_tokens_seen": 130567710,
      "step": 6073,
      "time_per_iteration": 2.7853548526763916
    },
    {
      "auxiliary_loss_clip": 0.01140494,
      "auxiliary_loss_mlp": 0.01027994,
      "balance_loss_clip": 1.04424727,
      "balance_loss_mlp": 1.01951826,
      "epoch": 0.7303553177418385,
      "flos": 27819170732160.0,
      "grad_norm": 2.9790587006010303,
      "language_loss": 0.60328996,
      "learning_rate": 7.152869228871185e-07,
      "loss": 0.62497485,
      "num_input_tokens_seen": 130590195,
      "step": 6074,
      "time_per_iteration": 2.753969669342041
    },
    {
      "auxiliary_loss_clip": 0.01153389,
      "auxiliary_loss_mlp": 0.01029449,
      "balance_loss_clip": 1.0471462,
      "balance_loss_mlp": 1.02128291,
      "epoch": 0.7304755606324776,
      "flos": 24426510318720.0,
      "grad_norm": 2.911496155507901,
      "language_loss": 0.71869302,
      "learning_rate": 7.146900118432457e-07,
      "loss": 0.74052143,
      "num_input_tokens_seen": 130609940,
      "step": 6075,
      "time_per_iteration": 2.7383172512054443
    },
    {
      "auxiliary_loss_clip": 0.01112852,
      "auxiliary_loss_mlp": 0.01028401,
      "balance_loss_clip": 1.03466153,
      "balance_loss_mlp": 1.02084923,
      "epoch": 0.7305958035231167,
      "flos": 23840483927040.0,
      "grad_norm": 1.6863692012043934,
      "language_loss": 0.86040044,
      "learning_rate": 7.140932957798753e-07,
      "loss": 0.88181293,
      "num_input_tokens_seen": 130628380,
      "step": 6076,
      "time_per_iteration": 2.86395525932312
    },
    {
      "auxiliary_loss_clip": 0.01156599,
      "auxiliary_loss_mlp": 0.01031187,
      "balance_loss_clip": 1.04404747,
      "balance_loss_mlp": 1.0235461,
      "epoch": 0.7307160464137558,
      "flos": 16726939597440.0,
      "grad_norm": 2.4559122804204567,
      "language_loss": 0.71317685,
      "learning_rate": 7.134967747875309e-07,
      "loss": 0.73505467,
      "num_input_tokens_seen": 130646590,
      "step": 6077,
      "time_per_iteration": 2.599616527557373
    },
    {
      "auxiliary_loss_clip": 0.01159513,
      "auxiliary_loss_mlp": 0.01028438,
      "balance_loss_clip": 1.04610288,
      "balance_loss_mlp": 1.01932466,
      "epoch": 0.7308362893043949,
      "flos": 21798280172160.0,
      "grad_norm": 1.9912951776475898,
      "language_loss": 0.81711251,
      "learning_rate": 7.129004489567014e-07,
      "loss": 0.83899206,
      "num_input_tokens_seen": 130664070,
      "step": 6078,
      "time_per_iteration": 2.6999473571777344
    },
    {
      "auxiliary_loss_clip": 0.01148943,
      "auxiliary_loss_mlp": 0.01025471,
      "balance_loss_clip": 1.04501665,
      "balance_loss_mlp": 1.01831281,
      "epoch": 0.730956532195034,
      "flos": 10707377840640.0,
      "grad_norm": 3.458113415086892,
      "language_loss": 0.78368056,
      "learning_rate": 7.123043183778512e-07,
      "loss": 0.80542475,
      "num_input_tokens_seen": 130681400,
      "step": 6079,
      "time_per_iteration": 2.679827928543091
    },
    {
      "auxiliary_loss_clip": 0.01151056,
      "auxiliary_loss_mlp": 0.01030614,
      "balance_loss_clip": 1.04671741,
      "balance_loss_mlp": 1.02254939,
      "epoch": 0.731076775085673,
      "flos": 19791987039360.0,
      "grad_norm": 1.619064071119752,
      "language_loss": 0.65596366,
      "learning_rate": 7.117083831414114e-07,
      "loss": 0.67778039,
      "num_input_tokens_seen": 130700675,
      "step": 6080,
      "time_per_iteration": 2.845499038696289
    },
    {
      "auxiliary_loss_clip": 0.01170979,
      "auxiliary_loss_mlp": 0.01028968,
      "balance_loss_clip": 1.04819536,
      "balance_loss_mlp": 1.02165711,
      "epoch": 0.7311970179763122,
      "flos": 20447033414400.0,
      "grad_norm": 1.8775902129252147,
      "language_loss": 0.69667053,
      "learning_rate": 7.11112643337787e-07,
      "loss": 0.71867001,
      "num_input_tokens_seen": 130719720,
      "step": 6081,
      "time_per_iteration": 3.544224739074707
    },
    {
      "auxiliary_loss_clip": 0.01153547,
      "auxiliary_loss_mlp": 0.01024306,
      "balance_loss_clip": 1.04609215,
      "balance_loss_mlp": 1.01584792,
      "epoch": 0.7313172608669513,
      "flos": 18513818501760.0,
      "grad_norm": 2.4931755221777854,
      "language_loss": 0.7679792,
      "learning_rate": 7.10517099057349e-07,
      "loss": 0.78975773,
      "num_input_tokens_seen": 130736670,
      "step": 6082,
      "time_per_iteration": 2.675772190093994
    },
    {
      "auxiliary_loss_clip": 0.01156289,
      "auxiliary_loss_mlp": 0.01034074,
      "balance_loss_clip": 1.04591107,
      "balance_loss_mlp": 1.02558064,
      "epoch": 0.7314375037575903,
      "flos": 16180738410240.0,
      "grad_norm": 2.3372025725889265,
      "language_loss": 0.60789877,
      "learning_rate": 7.099217503904411e-07,
      "loss": 0.62980241,
      "num_input_tokens_seen": 130754525,
      "step": 6083,
      "time_per_iteration": 2.646383047103882
    },
    {
      "auxiliary_loss_clip": 0.01157125,
      "auxiliary_loss_mlp": 0.01023207,
      "balance_loss_clip": 1.04665875,
      "balance_loss_mlp": 1.01545286,
      "epoch": 0.7315577466482295,
      "flos": 17967940536960.0,
      "grad_norm": 2.2297455091657845,
      "language_loss": 0.90056002,
      "learning_rate": 7.093265974273788e-07,
      "loss": 0.9223634,
      "num_input_tokens_seen": 130772420,
      "step": 6084,
      "time_per_iteration": 3.5642526149749756
    },
    {
      "auxiliary_loss_clip": 0.01165552,
      "auxiliary_loss_mlp": 0.01028186,
      "balance_loss_clip": 1.04602957,
      "balance_loss_mlp": 1.02032471,
      "epoch": 0.7316779895388685,
      "flos": 18405440190720.0,
      "grad_norm": 1.8840374389000836,
      "language_loss": 0.71946502,
      "learning_rate": 7.087316402584447e-07,
      "loss": 0.74140239,
      "num_input_tokens_seen": 130791245,
      "step": 6085,
      "time_per_iteration": 3.5256521701812744
    },
    {
      "auxiliary_loss_clip": 0.01173019,
      "auxiliary_loss_mlp": 0.01024931,
      "balance_loss_clip": 1.04828715,
      "balance_loss_mlp": 1.01716471,
      "epoch": 0.7317982324295076,
      "flos": 17928294900480.0,
      "grad_norm": 1.804541898515488,
      "language_loss": 0.86249006,
      "learning_rate": 7.081368789738953e-07,
      "loss": 0.88446957,
      "num_input_tokens_seen": 130808445,
      "step": 6086,
      "time_per_iteration": 2.567425489425659
    },
    {
      "auxiliary_loss_clip": 0.01146976,
      "auxiliary_loss_mlp": 0.01025605,
      "balance_loss_clip": 1.04107642,
      "balance_loss_mlp": 1.01818419,
      "epoch": 0.7319184753201466,
      "flos": 27229840289280.0,
      "grad_norm": 2.051755863030984,
      "language_loss": 0.77726698,
      "learning_rate": 7.075423136639537e-07,
      "loss": 0.79899275,
      "num_input_tokens_seen": 130827700,
      "step": 6087,
      "time_per_iteration": 2.7285959720611572
    },
    {
      "auxiliary_loss_clip": 0.01140437,
      "auxiliary_loss_mlp": 0.01026545,
      "balance_loss_clip": 1.0444963,
      "balance_loss_mlp": 1.01836741,
      "epoch": 0.7320387182107858,
      "flos": 37448544574080.0,
      "grad_norm": 2.1539796015550032,
      "language_loss": 0.75104034,
      "learning_rate": 7.069479444188149e-07,
      "loss": 0.7727102,
      "num_input_tokens_seen": 130848290,
      "step": 6088,
      "time_per_iteration": 2.82578444480896
    },
    {
      "auxiliary_loss_clip": 0.01146435,
      "auxiliary_loss_mlp": 0.01025706,
      "balance_loss_clip": 1.04491305,
      "balance_loss_mlp": 1.01793647,
      "epoch": 0.7321589611014249,
      "flos": 17859023521920.0,
      "grad_norm": 1.9467080978349625,
      "language_loss": 0.82338536,
      "learning_rate": 7.063537713286453e-07,
      "loss": 0.84510684,
      "num_input_tokens_seen": 130865970,
      "step": 6089,
      "time_per_iteration": 2.6635334491729736
    },
    {
      "auxiliary_loss_clip": 0.01161151,
      "auxiliary_loss_mlp": 0.01025674,
      "balance_loss_clip": 1.04635286,
      "balance_loss_mlp": 1.01770759,
      "epoch": 0.7322792039920639,
      "flos": 26100593539200.0,
      "grad_norm": 1.9155392049367628,
      "language_loss": 0.81140852,
      "learning_rate": 7.057597944835803e-07,
      "loss": 0.83327681,
      "num_input_tokens_seen": 130885245,
      "step": 6090,
      "time_per_iteration": 2.7557497024536133
    },
    {
      "auxiliary_loss_clip": 0.0115042,
      "auxiliary_loss_mlp": 0.01024114,
      "balance_loss_clip": 1.04405284,
      "balance_loss_mlp": 1.01659203,
      "epoch": 0.7323994468827031,
      "flos": 25369093065600.0,
      "grad_norm": 1.6384467781387977,
      "language_loss": 0.74856669,
      "learning_rate": 7.051660139737253e-07,
      "loss": 0.77031201,
      "num_input_tokens_seen": 130903465,
      "step": 6091,
      "time_per_iteration": 3.713282823562622
    },
    {
      "auxiliary_loss_clip": 0.01164681,
      "auxiliary_loss_mlp": 0.00886536,
      "balance_loss_clip": 1.0503608,
      "balance_loss_mlp": 1.00049889,
      "epoch": 0.7325196897733421,
      "flos": 26907075653760.0,
      "grad_norm": 2.0810020219376977,
      "language_loss": 0.76389122,
      "learning_rate": 7.045724298891565e-07,
      "loss": 0.78440344,
      "num_input_tokens_seen": 130922935,
      "step": 6092,
      "time_per_iteration": 2.709738254547119
    },
    {
      "auxiliary_loss_clip": 0.01164469,
      "auxiliary_loss_mlp": 0.01026833,
      "balance_loss_clip": 1.05022025,
      "balance_loss_mlp": 1.01960254,
      "epoch": 0.7326399326639812,
      "flos": 25775781828480.0,
      "grad_norm": 1.863406910803895,
      "language_loss": 0.68873751,
      "learning_rate": 7.039790423199192e-07,
      "loss": 0.71065056,
      "num_input_tokens_seen": 130942575,
      "step": 6093,
      "time_per_iteration": 2.6253890991210938
    },
    {
      "auxiliary_loss_clip": 0.01158066,
      "auxiliary_loss_mlp": 0.01024947,
      "balance_loss_clip": 1.04784155,
      "balance_loss_mlp": 1.01711452,
      "epoch": 0.7327601755546204,
      "flos": 21032269706880.0,
      "grad_norm": 2.4745677840833684,
      "language_loss": 0.77879339,
      "learning_rate": 7.033858513560322e-07,
      "loss": 0.80062348,
      "num_input_tokens_seen": 130958870,
      "step": 6094,
      "time_per_iteration": 2.681133508682251
    },
    {
      "auxiliary_loss_clip": 0.01168142,
      "auxiliary_loss_mlp": 0.0102527,
      "balance_loss_clip": 1.0507822,
      "balance_loss_mlp": 1.01793826,
      "epoch": 0.7328804184452594,
      "flos": 16289224462080.0,
      "grad_norm": 2.3913611287161314,
      "language_loss": 0.76392186,
      "learning_rate": 7.027928570874794e-07,
      "loss": 0.78585601,
      "num_input_tokens_seen": 130977060,
      "step": 6095,
      "time_per_iteration": 2.565798759460449
    },
    {
      "auxiliary_loss_clip": 0.01172943,
      "auxiliary_loss_mlp": 0.01024799,
      "balance_loss_clip": 1.0485065,
      "balance_loss_mlp": 1.01703894,
      "epoch": 0.7330006613358985,
      "flos": 17858233422720.0,
      "grad_norm": 1.8629151479399289,
      "language_loss": 0.85415614,
      "learning_rate": 7.022000596042194e-07,
      "loss": 0.87613356,
      "num_input_tokens_seen": 130994160,
      "step": 6096,
      "time_per_iteration": 2.556412696838379
    },
    {
      "auxiliary_loss_clip": 0.01145116,
      "auxiliary_loss_mlp": 0.01027445,
      "balance_loss_clip": 1.04158545,
      "balance_loss_mlp": 1.02015555,
      "epoch": 0.7331209042265376,
      "flos": 22492074343680.0,
      "grad_norm": 2.5328674269778984,
      "language_loss": 0.81822181,
      "learning_rate": 7.016074589961784e-07,
      "loss": 0.83994734,
      "num_input_tokens_seen": 131012725,
      "step": 6097,
      "time_per_iteration": 2.6954104900360107
    },
    {
      "auxiliary_loss_clip": 0.01151608,
      "auxiliary_loss_mlp": 0.01029575,
      "balance_loss_clip": 1.04623175,
      "balance_loss_mlp": 1.02197552,
      "epoch": 0.7332411471171767,
      "flos": 33072757937280.0,
      "grad_norm": 1.85310029729457,
      "language_loss": 0.66983664,
      "learning_rate": 7.01015055353253e-07,
      "loss": 0.69164848,
      "num_input_tokens_seen": 131035150,
      "step": 6098,
      "time_per_iteration": 2.8426926136016846
    },
    {
      "auxiliary_loss_clip": 0.01125686,
      "auxiliary_loss_mlp": 0.0102583,
      "balance_loss_clip": 1.04270434,
      "balance_loss_mlp": 1.01747346,
      "epoch": 0.7333613900078157,
      "flos": 22743017735040.0,
      "grad_norm": 2.509469783130221,
      "language_loss": 0.77780652,
      "learning_rate": 7.004228487653123e-07,
      "loss": 0.79932165,
      "num_input_tokens_seen": 131055955,
      "step": 6099,
      "time_per_iteration": 2.7681632041931152
    },
    {
      "auxiliary_loss_clip": 0.01141879,
      "auxiliary_loss_mlp": 0.01025197,
      "balance_loss_clip": 1.04049098,
      "balance_loss_mlp": 1.01724315,
      "epoch": 0.7334816328984549,
      "flos": 22346133384960.0,
      "grad_norm": 1.9923333139356076,
      "language_loss": 0.7843197,
      "learning_rate": 6.998308393221906e-07,
      "loss": 0.80599052,
      "num_input_tokens_seen": 131074360,
      "step": 6100,
      "time_per_iteration": 2.6741480827331543
    },
    {
      "auxiliary_loss_clip": 0.01145871,
      "auxiliary_loss_mlp": 0.01029574,
      "balance_loss_clip": 1.04452872,
      "balance_loss_mlp": 1.02172959,
      "epoch": 0.733601875789094,
      "flos": 20736149984640.0,
      "grad_norm": 2.2358994664576013,
      "language_loss": 0.71161014,
      "learning_rate": 6.992390271136977e-07,
      "loss": 0.73336464,
      "num_input_tokens_seen": 131090070,
      "step": 6101,
      "time_per_iteration": 2.7448811531066895
    },
    {
      "auxiliary_loss_clip": 0.01155767,
      "auxiliary_loss_mlp": 0.01024213,
      "balance_loss_clip": 1.04529834,
      "balance_loss_mlp": 1.01654482,
      "epoch": 0.733722118679733,
      "flos": 22564362464640.0,
      "grad_norm": 3.368815641558077,
      "language_loss": 0.85455281,
      "learning_rate": 6.986474122296094e-07,
      "loss": 0.87635255,
      "num_input_tokens_seen": 131109185,
      "step": 6102,
      "time_per_iteration": 2.6887001991271973
    },
    {
      "auxiliary_loss_clip": 0.01176924,
      "auxiliary_loss_mlp": 0.01025947,
      "balance_loss_clip": 1.05073738,
      "balance_loss_mlp": 1.0175848,
      "epoch": 0.7338423615703722,
      "flos": 20084192179200.0,
      "grad_norm": 2.9894759712642234,
      "language_loss": 0.72534013,
      "learning_rate": 6.980559947596751e-07,
      "loss": 0.74736893,
      "num_input_tokens_seen": 131127725,
      "step": 6103,
      "time_per_iteration": 2.582836866378784
    },
    {
      "auxiliary_loss_clip": 0.01135982,
      "auxiliary_loss_mlp": 0.01028536,
      "balance_loss_clip": 1.04294395,
      "balance_loss_mlp": 1.02070999,
      "epoch": 0.7339626044610112,
      "flos": 21687675217920.0,
      "grad_norm": 1.9372200832404172,
      "language_loss": 0.75857055,
      "learning_rate": 6.974647747936109e-07,
      "loss": 0.78021568,
      "num_input_tokens_seen": 131146110,
      "step": 6104,
      "time_per_iteration": 2.724820137023926
    },
    {
      "auxiliary_loss_clip": 0.01173468,
      "auxiliary_loss_mlp": 0.00886615,
      "balance_loss_clip": 1.04839635,
      "balance_loss_mlp": 1.00051987,
      "epoch": 0.7340828473516503,
      "flos": 15268248282240.0,
      "grad_norm": 2.200752213736431,
      "language_loss": 0.82496196,
      "learning_rate": 6.968737524211039e-07,
      "loss": 0.84556276,
      "num_input_tokens_seen": 131162920,
      "step": 6105,
      "time_per_iteration": 2.5714898109436035
    },
    {
      "auxiliary_loss_clip": 0.01164778,
      "auxiliary_loss_mlp": 0.01026904,
      "balance_loss_clip": 1.04982328,
      "balance_loss_mlp": 1.01941752,
      "epoch": 0.7342030902422895,
      "flos": 22930112701440.0,
      "grad_norm": 2.127728413040892,
      "language_loss": 0.80028844,
      "learning_rate": 6.962829277318132e-07,
      "loss": 0.82220525,
      "num_input_tokens_seen": 131182515,
      "step": 6106,
      "time_per_iteration": 2.6376357078552246
    },
    {
      "auxiliary_loss_clip": 0.01166239,
      "auxiliary_loss_mlp": 0.01023092,
      "balance_loss_clip": 1.04994559,
      "balance_loss_mlp": 1.01581442,
      "epoch": 0.7343233331329285,
      "flos": 25847890381440.0,
      "grad_norm": 1.8556140601902793,
      "language_loss": 0.83572507,
      "learning_rate": 6.956923008153652e-07,
      "loss": 0.85761839,
      "num_input_tokens_seen": 131202280,
      "step": 6107,
      "time_per_iteration": 3.625185966491699
    },
    {
      "auxiliary_loss_clip": 0.01163943,
      "auxiliary_loss_mlp": 0.01024016,
      "balance_loss_clip": 1.04541922,
      "balance_loss_mlp": 1.01680374,
      "epoch": 0.7344435760235676,
      "flos": 18478985287680.0,
      "grad_norm": 2.799349609740004,
      "language_loss": 0.84560919,
      "learning_rate": 6.951018717613593e-07,
      "loss": 0.8674888,
      "num_input_tokens_seen": 131221295,
      "step": 6108,
      "time_per_iteration": 2.665555238723755
    },
    {
      "auxiliary_loss_clip": 0.01161016,
      "auxiliary_loss_mlp": 0.01029423,
      "balance_loss_clip": 1.04730558,
      "balance_loss_mlp": 1.02167392,
      "epoch": 0.7345638189142067,
      "flos": 17640040256640.0,
      "grad_norm": 1.921076792581813,
      "language_loss": 0.783544,
      "learning_rate": 6.945116406593614e-07,
      "loss": 0.80544841,
      "num_input_tokens_seen": 131240150,
      "step": 6109,
      "time_per_iteration": 2.5834152698516846
    },
    {
      "auxiliary_loss_clip": 0.01136949,
      "auxiliary_loss_mlp": 0.01029769,
      "balance_loss_clip": 1.04300904,
      "balance_loss_mlp": 1.02241373,
      "epoch": 0.7346840618048458,
      "flos": 20260225756800.0,
      "grad_norm": 3.93017653766938,
      "language_loss": 0.7442522,
      "learning_rate": 6.939216075989089e-07,
      "loss": 0.76591939,
      "num_input_tokens_seen": 131258080,
      "step": 6110,
      "time_per_iteration": 3.677774667739868
    },
    {
      "auxiliary_loss_clip": 0.01150614,
      "auxiliary_loss_mlp": 0.01025306,
      "balance_loss_clip": 1.0444932,
      "balance_loss_mlp": 1.01759267,
      "epoch": 0.7348043046954849,
      "flos": 29023183641600.0,
      "grad_norm": 5.663414965661439,
      "language_loss": 0.65869391,
      "learning_rate": 6.933317726695109e-07,
      "loss": 0.68045318,
      "num_input_tokens_seen": 131279310,
      "step": 6111,
      "time_per_iteration": 3.540823221206665
    },
    {
      "auxiliary_loss_clip": 0.01138141,
      "auxiliary_loss_mlp": 0.01025647,
      "balance_loss_clip": 1.04314315,
      "balance_loss_mlp": 1.01824999,
      "epoch": 0.734924547586124,
      "flos": 17931203902080.0,
      "grad_norm": 2.4494890252306885,
      "language_loss": 0.79546684,
      "learning_rate": 6.92742135960644e-07,
      "loss": 0.8171047,
      "num_input_tokens_seen": 131297010,
      "step": 6112,
      "time_per_iteration": 2.6495144367218018
    },
    {
      "auxiliary_loss_clip": 0.01060938,
      "auxiliary_loss_mlp": 0.01004167,
      "balance_loss_clip": 1.00965559,
      "balance_loss_mlp": 1.0031414,
      "epoch": 0.7350447904767631,
      "flos": 63588319850880.0,
      "grad_norm": 0.819223179013223,
      "language_loss": 0.5563032,
      "learning_rate": 6.921526975617556e-07,
      "loss": 0.57695425,
      "num_input_tokens_seen": 131356470,
      "step": 6113,
      "time_per_iteration": 3.24006724357605
    },
    {
      "auxiliary_loss_clip": 0.01158431,
      "auxiliary_loss_mlp": 0.01027437,
      "balance_loss_clip": 1.04550719,
      "balance_loss_mlp": 1.01905656,
      "epoch": 0.7351650333674021,
      "flos": 21580015178880.0,
      "grad_norm": 1.832355221077269,
      "language_loss": 0.75424582,
      "learning_rate": 6.915634575622631e-07,
      "loss": 0.77610445,
      "num_input_tokens_seen": 131374985,
      "step": 6114,
      "time_per_iteration": 2.641218662261963
    },
    {
      "auxiliary_loss_clip": 0.01174384,
      "auxiliary_loss_mlp": 0.01027371,
      "balance_loss_clip": 1.04933667,
      "balance_loss_mlp": 1.01950932,
      "epoch": 0.7352852762580413,
      "flos": 18186349184640.0,
      "grad_norm": 1.893334430540466,
      "language_loss": 0.70729327,
      "learning_rate": 6.909744160515532e-07,
      "loss": 0.72931087,
      "num_input_tokens_seen": 131393125,
      "step": 6115,
      "time_per_iteration": 2.606696128845215
    },
    {
      "auxiliary_loss_clip": 0.01152099,
      "auxiliary_loss_mlp": 0.01026964,
      "balance_loss_clip": 1.04579926,
      "balance_loss_mlp": 1.01929569,
      "epoch": 0.7354055191486804,
      "flos": 38910073063680.0,
      "grad_norm": 1.6502281393271478,
      "language_loss": 0.69272172,
      "learning_rate": 6.903855731189849e-07,
      "loss": 0.71451235,
      "num_input_tokens_seen": 131415760,
      "step": 6116,
      "time_per_iteration": 2.802093982696533
    },
    {
      "auxiliary_loss_clip": 0.01161105,
      "auxiliary_loss_mlp": 0.01028053,
      "balance_loss_clip": 1.04654503,
      "balance_loss_mlp": 1.0200597,
      "epoch": 0.7355257620393194,
      "flos": 16289978647680.0,
      "grad_norm": 2.496543786217161,
      "language_loss": 0.81886303,
      "learning_rate": 6.897969288538825e-07,
      "loss": 0.84075463,
      "num_input_tokens_seen": 131433705,
      "step": 6117,
      "time_per_iteration": 3.5417277812957764
    },
    {
      "auxiliary_loss_clip": 0.01149268,
      "auxiliary_loss_mlp": 0.01023263,
      "balance_loss_clip": 1.04544663,
      "balance_loss_mlp": 1.01544333,
      "epoch": 0.7356460049299585,
      "flos": 18114240631680.0,
      "grad_norm": 1.976012173905106,
      "language_loss": 0.81283617,
      "learning_rate": 6.892084833455452e-07,
      "loss": 0.83456147,
      "num_input_tokens_seen": 131453275,
      "step": 6118,
      "time_per_iteration": 2.6319830417633057
    },
    {
      "auxiliary_loss_clip": 0.01162197,
      "auxiliary_loss_mlp": 0.01027068,
      "balance_loss_clip": 1.04845548,
      "balance_loss_mlp": 1.01911712,
      "epoch": 0.7357662478205976,
      "flos": 21325193118720.0,
      "grad_norm": 2.1522033762822224,
      "language_loss": 0.84002221,
      "learning_rate": 6.886202366832384e-07,
      "loss": 0.86191481,
      "num_input_tokens_seen": 131474960,
      "step": 6119,
      "time_per_iteration": 2.6142842769622803
    },
    {
      "auxiliary_loss_clip": 0.01133494,
      "auxiliary_loss_mlp": 0.01027023,
      "balance_loss_clip": 1.044559,
      "balance_loss_mlp": 1.01964402,
      "epoch": 0.7358864907112367,
      "flos": 14246841139200.0,
      "grad_norm": 1.8417680182796659,
      "language_loss": 0.73865062,
      "learning_rate": 6.880321889561987e-07,
      "loss": 0.76025581,
      "num_input_tokens_seen": 131492935,
      "step": 6120,
      "time_per_iteration": 2.7026267051696777
    },
    {
      "auxiliary_loss_clip": 0.01137729,
      "auxiliary_loss_mlp": 0.01023477,
      "balance_loss_clip": 1.04360318,
      "balance_loss_mlp": 1.01459575,
      "epoch": 0.7360067336018757,
      "flos": 22309684058880.0,
      "grad_norm": 2.1251522841452077,
      "language_loss": 0.65692663,
      "learning_rate": 6.874443402536338e-07,
      "loss": 0.67853868,
      "num_input_tokens_seen": 131512025,
      "step": 6121,
      "time_per_iteration": 2.7153449058532715
    },
    {
      "auxiliary_loss_clip": 0.01159125,
      "auxiliary_loss_mlp": 0.01024232,
      "balance_loss_clip": 1.048311,
      "balance_loss_mlp": 1.01607823,
      "epoch": 0.7361269764925149,
      "flos": 25554607833600.0,
      "grad_norm": 1.7091039840837026,
      "language_loss": 0.80436736,
      "learning_rate": 6.868566906647177e-07,
      "loss": 0.82620096,
      "num_input_tokens_seen": 131532975,
      "step": 6122,
      "time_per_iteration": 2.7432804107666016
    },
    {
      "auxiliary_loss_clip": 0.01163201,
      "auxiliary_loss_mlp": 0.01025413,
      "balance_loss_clip": 1.04598761,
      "balance_loss_mlp": 1.0172472,
      "epoch": 0.736247219383154,
      "flos": 20376505059840.0,
      "grad_norm": 1.7991386583379125,
      "language_loss": 0.83566767,
      "learning_rate": 6.862692402785984e-07,
      "loss": 0.85755384,
      "num_input_tokens_seen": 131553225,
      "step": 6123,
      "time_per_iteration": 2.6686477661132812
    },
    {
      "auxiliary_loss_clip": 0.01045851,
      "auxiliary_loss_mlp": 0.01003924,
      "balance_loss_clip": 1.01289022,
      "balance_loss_mlp": 1.00296402,
      "epoch": 0.736367462273793,
      "flos": 70339525735680.0,
      "grad_norm": 0.683094051394974,
      "language_loss": 0.49643025,
      "learning_rate": 6.856819891843899e-07,
      "loss": 0.51692802,
      "num_input_tokens_seen": 131617930,
      "step": 6124,
      "time_per_iteration": 3.412524700164795
    },
    {
      "auxiliary_loss_clip": 0.01125656,
      "auxiliary_loss_mlp": 0.01028425,
      "balance_loss_clip": 1.04354417,
      "balance_loss_mlp": 1.01994944,
      "epoch": 0.7364877051644322,
      "flos": 22412711243520.0,
      "grad_norm": 1.9752604521483428,
      "language_loss": 0.72340244,
      "learning_rate": 6.8509493747118e-07,
      "loss": 0.74494326,
      "num_input_tokens_seen": 131636740,
      "step": 6125,
      "time_per_iteration": 2.7784037590026855
    },
    {
      "auxiliary_loss_clip": 0.01176506,
      "auxiliary_loss_mlp": 0.01025306,
      "balance_loss_clip": 1.05296433,
      "balance_loss_mlp": 1.01693189,
      "epoch": 0.7366079480550712,
      "flos": 12130266274560.0,
      "grad_norm": 2.013250636224176,
      "language_loss": 0.8790952,
      "learning_rate": 6.845080852280221e-07,
      "loss": 0.90111327,
      "num_input_tokens_seen": 131653810,
      "step": 6126,
      "time_per_iteration": 2.5737242698669434
    },
    {
      "auxiliary_loss_clip": 0.01144951,
      "auxiliary_loss_mlp": 0.0102313,
      "balance_loss_clip": 1.04341125,
      "balance_loss_mlp": 1.01561356,
      "epoch": 0.7367281909457103,
      "flos": 15049336844160.0,
      "grad_norm": 1.638244431514815,
      "language_loss": 0.74644351,
      "learning_rate": 6.839214325439409e-07,
      "loss": 0.76812434,
      "num_input_tokens_seen": 131671505,
      "step": 6127,
      "time_per_iteration": 2.7168819904327393
    },
    {
      "auxiliary_loss_clip": 0.01149812,
      "auxiliary_loss_mlp": 0.01028531,
      "balance_loss_clip": 1.04831123,
      "balance_loss_mlp": 1.02090478,
      "epoch": 0.7368484338363495,
      "flos": 23510752053120.0,
      "grad_norm": 1.6993930763943665,
      "language_loss": 0.7171967,
      "learning_rate": 6.833349795079327e-07,
      "loss": 0.73898011,
      "num_input_tokens_seen": 131690615,
      "step": 6128,
      "time_per_iteration": 2.7128400802612305
    },
    {
      "auxiliary_loss_clip": 0.01144329,
      "auxiliary_loss_mlp": 0.01021597,
      "balance_loss_clip": 1.04629016,
      "balance_loss_mlp": 1.01393509,
      "epoch": 0.7369686767269885,
      "flos": 27417833095680.0,
      "grad_norm": 1.5728099230277424,
      "language_loss": 0.68744475,
      "learning_rate": 6.827487262089613e-07,
      "loss": 0.709104,
      "num_input_tokens_seen": 131711120,
      "step": 6129,
      "time_per_iteration": 2.785304069519043
    },
    {
      "auxiliary_loss_clip": 0.01051511,
      "auxiliary_loss_mlp": 0.01001969,
      "balance_loss_clip": 1.01171005,
      "balance_loss_mlp": 1.00093746,
      "epoch": 0.7370889196176276,
      "flos": 70293343824000.0,
      "grad_norm": 0.9527842134169173,
      "language_loss": 0.56758392,
      "learning_rate": 6.821626727359606e-07,
      "loss": 0.58811873,
      "num_input_tokens_seen": 131776680,
      "step": 6130,
      "time_per_iteration": 3.283957004547119
    },
    {
      "auxiliary_loss_clip": 0.01150347,
      "auxiliary_loss_mlp": 0.01030556,
      "balance_loss_clip": 1.04609883,
      "balance_loss_mlp": 1.02253294,
      "epoch": 0.7372091625082667,
      "flos": 18040839189120.0,
      "grad_norm": 2.3138217070681484,
      "language_loss": 0.76897413,
      "learning_rate": 6.815768191778348e-07,
      "loss": 0.79078317,
      "num_input_tokens_seen": 131794760,
      "step": 6131,
      "time_per_iteration": 2.660506248474121
    },
    {
      "auxiliary_loss_clip": 0.01159984,
      "auxiliary_loss_mlp": 0.01028925,
      "balance_loss_clip": 1.0466845,
      "balance_loss_mlp": 1.0204612,
      "epoch": 0.7373294053989058,
      "flos": 33726331854720.0,
      "grad_norm": 2.1964581283610394,
      "language_loss": 0.72574896,
      "learning_rate": 6.809911656234569e-07,
      "loss": 0.74763799,
      "num_input_tokens_seen": 131816735,
      "step": 6132,
      "time_per_iteration": 2.698699712753296
    },
    {
      "auxiliary_loss_clip": 0.01146842,
      "auxiliary_loss_mlp": 0.01023922,
      "balance_loss_clip": 1.04193568,
      "balance_loss_mlp": 1.01621473,
      "epoch": 0.7374496482895448,
      "flos": 21506326427520.0,
      "grad_norm": 2.8519411785548057,
      "language_loss": 0.78180736,
      "learning_rate": 6.804057121616707e-07,
      "loss": 0.80351496,
      "num_input_tokens_seen": 131834940,
      "step": 6133,
      "time_per_iteration": 3.531092882156372
    },
    {
      "auxiliary_loss_clip": 0.01165792,
      "auxiliary_loss_mlp": 0.01025887,
      "balance_loss_clip": 1.04729533,
      "balance_loss_mlp": 1.01761365,
      "epoch": 0.737569891180184,
      "flos": 24936908624640.0,
      "grad_norm": 2.9378919478770804,
      "language_loss": 0.71831769,
      "learning_rate": 6.798204588812888e-07,
      "loss": 0.74023449,
      "num_input_tokens_seen": 131854355,
      "step": 6134,
      "time_per_iteration": 2.651592969894409
    },
    {
      "auxiliary_loss_clip": 0.01114876,
      "auxiliary_loss_mlp": 0.00886499,
      "balance_loss_clip": 1.03801525,
      "balance_loss_mlp": 1.00057387,
      "epoch": 0.7376901340708231,
      "flos": 20664544222080.0,
      "grad_norm": 2.1321968859961293,
      "language_loss": 0.75912344,
      "learning_rate": 6.792354058710937e-07,
      "loss": 0.77913725,
      "num_input_tokens_seen": 131871825,
      "step": 6135,
      "time_per_iteration": 2.842456102371216
    },
    {
      "auxiliary_loss_clip": 0.01168346,
      "auxiliary_loss_mlp": 0.01031198,
      "balance_loss_clip": 1.04772449,
      "balance_loss_mlp": 1.02368212,
      "epoch": 0.7378103769614621,
      "flos": 23805794367360.0,
      "grad_norm": 1.9614155380456433,
      "language_loss": 0.65349221,
      "learning_rate": 6.786505532198374e-07,
      "loss": 0.67548764,
      "num_input_tokens_seen": 131890770,
      "step": 6136,
      "time_per_iteration": 3.5876355171203613
    },
    {
      "auxiliary_loss_clip": 0.01173427,
      "auxiliary_loss_mlp": 0.0102841,
      "balance_loss_clip": 1.04861999,
      "balance_loss_mlp": 1.02025008,
      "epoch": 0.7379306198521013,
      "flos": 22237216369920.0,
      "grad_norm": 1.7471966434563881,
      "language_loss": 0.85070896,
      "learning_rate": 6.780659010162411e-07,
      "loss": 0.87272739,
      "num_input_tokens_seen": 131909720,
      "step": 6137,
      "time_per_iteration": 3.491406202316284
    },
    {
      "auxiliary_loss_clip": 0.01148054,
      "auxiliary_loss_mlp": 0.01028508,
      "balance_loss_clip": 1.04595017,
      "balance_loss_mlp": 1.02107525,
      "epoch": 0.7380508627427403,
      "flos": 14903108576640.0,
      "grad_norm": 2.1507520134636877,
      "language_loss": 0.83205694,
      "learning_rate": 6.774814493489975e-07,
      "loss": 0.85382259,
      "num_input_tokens_seen": 131927395,
      "step": 6138,
      "time_per_iteration": 2.7289395332336426
    },
    {
      "auxiliary_loss_clip": 0.01157525,
      "auxiliary_loss_mlp": 0.01024381,
      "balance_loss_clip": 1.04520881,
      "balance_loss_mlp": 1.0171926,
      "epoch": 0.7381711056333794,
      "flos": 21685843624320.0,
      "grad_norm": 1.91396648632622,
      "language_loss": 0.66111803,
      "learning_rate": 6.768971983067655e-07,
      "loss": 0.68293715,
      "num_input_tokens_seen": 131947725,
      "step": 6139,
      "time_per_iteration": 2.6406333446502686
    },
    {
      "auxiliary_loss_clip": 0.01066386,
      "auxiliary_loss_mlp": 0.01000761,
      "balance_loss_clip": 1.01009083,
      "balance_loss_mlp": 0.99972403,
      "epoch": 0.7382913485240186,
      "flos": 52404263596800.0,
      "grad_norm": 1.0076620213059317,
      "language_loss": 0.67749345,
      "learning_rate": 6.763131479781772e-07,
      "loss": 0.69816494,
      "num_input_tokens_seen": 131997485,
      "step": 6140,
      "time_per_iteration": 2.978001356124878
    },
    {
      "auxiliary_loss_clip": 0.01148425,
      "auxiliary_loss_mlp": 0.01022996,
      "balance_loss_clip": 1.04736984,
      "balance_loss_mlp": 1.0152061,
      "epoch": 0.7384115914146576,
      "flos": 21798818876160.0,
      "grad_norm": 1.9866224764537792,
      "language_loss": 0.76114857,
      "learning_rate": 6.757292984518316e-07,
      "loss": 0.78286278,
      "num_input_tokens_seen": 132016885,
      "step": 6141,
      "time_per_iteration": 2.685840129852295
    },
    {
      "auxiliary_loss_clip": 0.01062847,
      "auxiliary_loss_mlp": 0.01000793,
      "balance_loss_clip": 1.01147676,
      "balance_loss_mlp": 0.99979144,
      "epoch": 0.7385318343052967,
      "flos": 61494331662720.0,
      "grad_norm": 0.7439613000563737,
      "language_loss": 0.56420416,
      "learning_rate": 6.751456498162981e-07,
      "loss": 0.58484054,
      "num_input_tokens_seen": 132075920,
      "step": 6142,
      "time_per_iteration": 3.083293914794922
    },
    {
      "auxiliary_loss_clip": 0.01160607,
      "auxiliary_loss_mlp": 0.0102195,
      "balance_loss_clip": 1.04334462,
      "balance_loss_mlp": 1.01490438,
      "epoch": 0.7386520771959358,
      "flos": 17013757697280.0,
      "grad_norm": 1.942036388724152,
      "language_loss": 0.85487878,
      "learning_rate": 6.745622021601174e-07,
      "loss": 0.87670434,
      "num_input_tokens_seen": 132092945,
      "step": 6143,
      "time_per_iteration": 2.6322643756866455
    },
    {
      "auxiliary_loss_clip": 0.01146384,
      "auxiliary_loss_mlp": 0.01026093,
      "balance_loss_clip": 1.044433,
      "balance_loss_mlp": 1.01830304,
      "epoch": 0.7387723200865749,
      "flos": 18770759464320.0,
      "grad_norm": 2.0723462792351146,
      "language_loss": 0.69787878,
      "learning_rate": 6.739789555717954e-07,
      "loss": 0.71960354,
      "num_input_tokens_seen": 132109920,
      "step": 6144,
      "time_per_iteration": 3.5765185356140137
    },
    {
      "auxiliary_loss_clip": 0.01171135,
      "auxiliary_loss_mlp": 0.01025639,
      "balance_loss_clip": 1.04742956,
      "balance_loss_mlp": 1.01833487,
      "epoch": 0.738892562977214,
      "flos": 22525542840960.0,
      "grad_norm": 2.2227775673388055,
      "language_loss": 0.7686094,
      "learning_rate": 6.733959101398124e-07,
      "loss": 0.79057717,
      "num_input_tokens_seen": 132128050,
      "step": 6145,
      "time_per_iteration": 2.579566240310669
    },
    {
      "auxiliary_loss_clip": 0.01152514,
      "auxiliary_loss_mlp": 0.01025516,
      "balance_loss_clip": 1.04515457,
      "balance_loss_mlp": 1.01816678,
      "epoch": 0.7390128058678531,
      "flos": 21501478091520.0,
      "grad_norm": 1.646292657827374,
      "language_loss": 0.81507075,
      "learning_rate": 6.728130659526143e-07,
      "loss": 0.83685106,
      "num_input_tokens_seen": 132145860,
      "step": 6146,
      "time_per_iteration": 2.702287197113037
    },
    {
      "auxiliary_loss_clip": 0.01154786,
      "auxiliary_loss_mlp": 0.01033214,
      "balance_loss_clip": 1.04610729,
      "balance_loss_mlp": 1.02535224,
      "epoch": 0.7391330487584922,
      "flos": 25776176878080.0,
      "grad_norm": 2.38089961924645,
      "language_loss": 0.70864773,
      "learning_rate": 6.7223042309862e-07,
      "loss": 0.7305277,
      "num_input_tokens_seen": 132166060,
      "step": 6147,
      "time_per_iteration": 2.671938180923462
    },
    {
      "auxiliary_loss_clip": 0.01159214,
      "auxiliary_loss_mlp": 0.01021946,
      "balance_loss_clip": 1.04499352,
      "balance_loss_mlp": 1.01482642,
      "epoch": 0.7392532916491312,
      "flos": 28366736636160.0,
      "grad_norm": 2.02402078774467,
      "language_loss": 0.73625636,
      "learning_rate": 6.716479816662144e-07,
      "loss": 0.75806797,
      "num_input_tokens_seen": 132187790,
      "step": 6148,
      "time_per_iteration": 2.7086424827575684
    },
    {
      "auxiliary_loss_clip": 0.01157961,
      "auxiliary_loss_mlp": 0.01025487,
      "balance_loss_clip": 1.04502165,
      "balance_loss_mlp": 1.01773214,
      "epoch": 0.7393735345397703,
      "flos": 23585877348480.0,
      "grad_norm": 2.0680227721114877,
      "language_loss": 0.72675288,
      "learning_rate": 6.710657417437531e-07,
      "loss": 0.74858725,
      "num_input_tokens_seen": 132207495,
      "step": 6149,
      "time_per_iteration": 2.704378366470337
    },
    {
      "auxiliary_loss_clip": 0.01155607,
      "auxiliary_loss_mlp": 0.01028821,
      "balance_loss_clip": 1.04619372,
      "balance_loss_mlp": 1.02104819,
      "epoch": 0.7394937774304094,
      "flos": 19974772373760.0,
      "grad_norm": 2.710942301018131,
      "language_loss": 0.79782611,
      "learning_rate": 6.704837034195628e-07,
      "loss": 0.81967044,
      "num_input_tokens_seen": 132225960,
      "step": 6150,
      "time_per_iteration": 2.651897668838501
    },
    {
      "auxiliary_loss_clip": 0.01155545,
      "auxiliary_loss_mlp": 0.01029098,
      "balance_loss_clip": 1.04485929,
      "balance_loss_mlp": 1.02042532,
      "epoch": 0.7396140203210485,
      "flos": 23478037741440.0,
      "grad_norm": 3.107831242007296,
      "language_loss": 0.84775549,
      "learning_rate": 6.699018667819376e-07,
      "loss": 0.86960196,
      "num_input_tokens_seen": 132245360,
      "step": 6151,
      "time_per_iteration": 2.643972158432007
    },
    {
      "auxiliary_loss_clip": 0.01159731,
      "auxiliary_loss_mlp": 0.01031227,
      "balance_loss_clip": 1.04675984,
      "balance_loss_mlp": 1.02358031,
      "epoch": 0.7397342632116876,
      "flos": 25555433846400.0,
      "grad_norm": 1.6068564211978476,
      "language_loss": 0.73008204,
      "learning_rate": 6.693202319191415e-07,
      "loss": 0.75199157,
      "num_input_tokens_seen": 132267095,
      "step": 6152,
      "time_per_iteration": 2.6728501319885254
    },
    {
      "auxiliary_loss_clip": 0.01176273,
      "auxiliary_loss_mlp": 0.01029154,
      "balance_loss_clip": 1.05313849,
      "balance_loss_mlp": 1.02067256,
      "epoch": 0.7398545061023267,
      "flos": 24755021130240.0,
      "grad_norm": 2.47036141346426,
      "language_loss": 0.74773741,
      "learning_rate": 6.687387989194084e-07,
      "loss": 0.76979172,
      "num_input_tokens_seen": 132286610,
      "step": 6153,
      "time_per_iteration": 2.5905349254608154
    },
    {
      "auxiliary_loss_clip": 0.01146082,
      "auxiliary_loss_mlp": 0.01029575,
      "balance_loss_clip": 1.04406118,
      "balance_loss_mlp": 1.02205348,
      "epoch": 0.7399747489929658,
      "flos": 16508602776960.0,
      "grad_norm": 1.9413114630247008,
      "language_loss": 0.7900486,
      "learning_rate": 6.681575678709404e-07,
      "loss": 0.81180525,
      "num_input_tokens_seen": 132305300,
      "step": 6154,
      "time_per_iteration": 2.696732759475708
    },
    {
      "auxiliary_loss_clip": 0.01162282,
      "auxiliary_loss_mlp": 0.01024967,
      "balance_loss_clip": 1.0480907,
      "balance_loss_mlp": 1.01705742,
      "epoch": 0.7400949918836048,
      "flos": 24097065753600.0,
      "grad_norm": 1.8142427809190023,
      "language_loss": 0.7066223,
      "learning_rate": 6.67576538861911e-07,
      "loss": 0.72849476,
      "num_input_tokens_seen": 132323875,
      "step": 6155,
      "time_per_iteration": 2.674136161804199
    },
    {
      "auxiliary_loss_clip": 0.01153268,
      "auxiliary_loss_mlp": 0.01028696,
      "balance_loss_clip": 1.04597843,
      "balance_loss_mlp": 1.02098942,
      "epoch": 0.740215234774244,
      "flos": 21802517976960.0,
      "grad_norm": 1.5782935514999947,
      "language_loss": 0.82116485,
      "learning_rate": 6.669957119804612e-07,
      "loss": 0.84298456,
      "num_input_tokens_seen": 132345510,
      "step": 6156,
      "time_per_iteration": 2.7237720489501953
    },
    {
      "auxiliary_loss_clip": 0.01160047,
      "auxiliary_loss_mlp": 0.0102756,
      "balance_loss_clip": 1.04493701,
      "balance_loss_mlp": 1.0193913,
      "epoch": 0.7403354776648831,
      "flos": 18733196816640.0,
      "grad_norm": 3.798109330982374,
      "language_loss": 0.72536677,
      "learning_rate": 6.66415087314702e-07,
      "loss": 0.74724287,
      "num_input_tokens_seen": 132360465,
      "step": 6157,
      "time_per_iteration": 2.6707284450531006
    },
    {
      "auxiliary_loss_clip": 0.01154057,
      "auxiliary_loss_mlp": 0.01027595,
      "balance_loss_clip": 1.04336834,
      "balance_loss_mlp": 1.02013898,
      "epoch": 0.7404557205555221,
      "flos": 16909581277440.0,
      "grad_norm": 2.4889529922410176,
      "language_loss": 0.72683722,
      "learning_rate": 6.65834664952714e-07,
      "loss": 0.74865377,
      "num_input_tokens_seen": 132377915,
      "step": 6158,
      "time_per_iteration": 2.6186702251434326
    },
    {
      "auxiliary_loss_clip": 0.01147845,
      "auxiliary_loss_mlp": 0.01020013,
      "balance_loss_clip": 1.04502845,
      "balance_loss_mlp": 1.01250565,
      "epoch": 0.7405759634461613,
      "flos": 21214408596480.0,
      "grad_norm": 1.8036611815751056,
      "language_loss": 0.75961381,
      "learning_rate": 6.652544449825457e-07,
      "loss": 0.78129244,
      "num_input_tokens_seen": 132398170,
      "step": 6159,
      "time_per_iteration": 2.77636456489563
    },
    {
      "auxiliary_loss_clip": 0.01163211,
      "auxiliary_loss_mlp": 0.01027274,
      "balance_loss_clip": 1.04631042,
      "balance_loss_mlp": 1.01966834,
      "epoch": 0.7406962063368003,
      "flos": 20480106862080.0,
      "grad_norm": 2.0513265953507553,
      "language_loss": 0.76622975,
      "learning_rate": 6.646744274922182e-07,
      "loss": 0.78813457,
      "num_input_tokens_seen": 132416615,
      "step": 6160,
      "time_per_iteration": 3.547952890396118
    },
    {
      "auxiliary_loss_clip": 0.01154849,
      "auxiliary_loss_mlp": 0.01028973,
      "balance_loss_clip": 1.04525781,
      "balance_loss_mlp": 1.02128983,
      "epoch": 0.7408164492274394,
      "flos": 19791915212160.0,
      "grad_norm": 5.442446179797429,
      "language_loss": 0.75922692,
      "learning_rate": 6.640946125697171e-07,
      "loss": 0.78106517,
      "num_input_tokens_seen": 132434145,
      "step": 6161,
      "time_per_iteration": 2.6895155906677246
    },
    {
      "auxiliary_loss_clip": 0.01163311,
      "auxiliary_loss_mlp": 0.01028308,
      "balance_loss_clip": 1.04657507,
      "balance_loss_mlp": 1.02026176,
      "epoch": 0.7409366921180786,
      "flos": 29204855654400.0,
      "grad_norm": 3.3211317984810385,
      "language_loss": 0.75894552,
      "learning_rate": 6.635150003030017e-07,
      "loss": 0.78086174,
      "num_input_tokens_seen": 132452670,
      "step": 6162,
      "time_per_iteration": 3.5992536544799805
    },
    {
      "auxiliary_loss_clip": 0.01134812,
      "auxiliary_loss_mlp": 0.01027646,
      "balance_loss_clip": 1.04117012,
      "balance_loss_mlp": 1.01987982,
      "epoch": 0.7410569350087176,
      "flos": 22930004960640.0,
      "grad_norm": 4.763820663005287,
      "language_loss": 0.85659778,
      "learning_rate": 6.629355907799981e-07,
      "loss": 0.87822235,
      "num_input_tokens_seen": 132472475,
      "step": 6163,
      "time_per_iteration": 3.5362846851348877
    },
    {
      "auxiliary_loss_clip": 0.01167296,
      "auxiliary_loss_mlp": 0.01028495,
      "balance_loss_clip": 1.04794264,
      "balance_loss_mlp": 1.02056205,
      "epoch": 0.7411771778993567,
      "flos": 30440397726720.0,
      "grad_norm": 1.9188770471014587,
      "language_loss": 0.69077289,
      "learning_rate": 6.623563840886015e-07,
      "loss": 0.71273082,
      "num_input_tokens_seen": 132493400,
      "step": 6164,
      "time_per_iteration": 2.6023714542388916
    },
    {
      "auxiliary_loss_clip": 0.01157218,
      "auxiliary_loss_mlp": 0.01025535,
      "balance_loss_clip": 1.04354739,
      "balance_loss_mlp": 1.01786709,
      "epoch": 0.7412974207899958,
      "flos": 20522050968960.0,
      "grad_norm": 1.8888307640490187,
      "language_loss": 0.69669652,
      "learning_rate": 6.617773803166795e-07,
      "loss": 0.7185241,
      "num_input_tokens_seen": 132511725,
      "step": 6165,
      "time_per_iteration": 2.503322124481201
    },
    {
      "auxiliary_loss_clip": 0.0115789,
      "auxiliary_loss_mlp": 0.00887169,
      "balance_loss_clip": 1.04605317,
      "balance_loss_mlp": 1.00055385,
      "epoch": 0.7414176636806349,
      "flos": 22090700793600.0,
      "grad_norm": 2.2099894307571866,
      "language_loss": 0.81833315,
      "learning_rate": 6.611985795520634e-07,
      "loss": 0.83878368,
      "num_input_tokens_seen": 132530270,
      "step": 6166,
      "time_per_iteration": 2.5749149322509766
    },
    {
      "auxiliary_loss_clip": 0.01151748,
      "auxiliary_loss_mlp": 0.01029464,
      "balance_loss_clip": 1.0446707,
      "balance_loss_mlp": 1.02162564,
      "epoch": 0.7415379065712739,
      "flos": 25155245445120.0,
      "grad_norm": 2.641226528959393,
      "language_loss": 0.77743328,
      "learning_rate": 6.606199818825588e-07,
      "loss": 0.79924536,
      "num_input_tokens_seen": 132550725,
      "step": 6167,
      "time_per_iteration": 2.6938140392303467
    },
    {
      "auxiliary_loss_clip": 0.01157772,
      "auxiliary_loss_mlp": 0.01022825,
      "balance_loss_clip": 1.04334331,
      "balance_loss_mlp": 1.01476097,
      "epoch": 0.7416581494619131,
      "flos": 16871731320960.0,
      "grad_norm": 2.069880273156257,
      "language_loss": 0.81693292,
      "learning_rate": 6.600415873959377e-07,
      "loss": 0.83873892,
      "num_input_tokens_seen": 132568600,
      "step": 6168,
      "time_per_iteration": 2.578573703765869
    },
    {
      "auxiliary_loss_clip": 0.01119842,
      "auxiliary_loss_mlp": 0.00885893,
      "balance_loss_clip": 1.03652906,
      "balance_loss_mlp": 1.00047946,
      "epoch": 0.7417783923525522,
      "flos": 28438881102720.0,
      "grad_norm": 2.035490064467344,
      "language_loss": 0.64490056,
      "learning_rate": 6.594633961799437e-07,
      "loss": 0.66495794,
      "num_input_tokens_seen": 132587640,
      "step": 6169,
      "time_per_iteration": 2.709105968475342
    },
    {
      "auxiliary_loss_clip": 0.01153222,
      "auxiliary_loss_mlp": 0.01031093,
      "balance_loss_clip": 1.04619265,
      "balance_loss_mlp": 1.02402687,
      "epoch": 0.7418986352431912,
      "flos": 20084299920000.0,
      "grad_norm": 8.452845211523517,
      "language_loss": 0.81609201,
      "learning_rate": 6.588854083222857e-07,
      "loss": 0.83793515,
      "num_input_tokens_seen": 132607075,
      "step": 6170,
      "time_per_iteration": 3.413022756576538
    },
    {
      "auxiliary_loss_clip": 0.01154487,
      "auxiliary_loss_mlp": 0.01025044,
      "balance_loss_clip": 1.04493999,
      "balance_loss_mlp": 1.01715255,
      "epoch": 0.7420188781338304,
      "flos": 18259571059200.0,
      "grad_norm": 14.982809038471562,
      "language_loss": 0.80958629,
      "learning_rate": 6.583076239106444e-07,
      "loss": 0.83138156,
      "num_input_tokens_seen": 132625580,
      "step": 6171,
      "time_per_iteration": 2.595973253250122
    },
    {
      "auxiliary_loss_clip": 0.0115985,
      "auxiliary_loss_mlp": 0.01023358,
      "balance_loss_clip": 1.04657435,
      "balance_loss_mlp": 1.01504874,
      "epoch": 0.7421391210244694,
      "flos": 13771994319360.0,
      "grad_norm": 2.153194461536808,
      "language_loss": 0.75485003,
      "learning_rate": 6.577300430326707e-07,
      "loss": 0.77668214,
      "num_input_tokens_seen": 132640525,
      "step": 6172,
      "time_per_iteration": 2.5687432289123535
    },
    {
      "auxiliary_loss_clip": 0.0114133,
      "auxiliary_loss_mlp": 0.01029905,
      "balance_loss_clip": 1.04569888,
      "balance_loss_mlp": 1.02240062,
      "epoch": 0.7422593639151085,
      "flos": 15961683317760.0,
      "grad_norm": 2.1241427421943477,
      "language_loss": 0.71879047,
      "learning_rate": 6.571526657759821e-07,
      "loss": 0.74050283,
      "num_input_tokens_seen": 132656265,
      "step": 6173,
      "time_per_iteration": 2.709986925125122
    },
    {
      "auxiliary_loss_clip": 0.0115793,
      "auxiliary_loss_mlp": 0.01028292,
      "balance_loss_clip": 1.04535389,
      "balance_loss_mlp": 1.02032876,
      "epoch": 0.7423796068057477,
      "flos": 30114400867200.0,
      "grad_norm": 4.913307083733413,
      "language_loss": 0.70509923,
      "learning_rate": 6.565754922281663e-07,
      "loss": 0.72696149,
      "num_input_tokens_seen": 132678510,
      "step": 6174,
      "time_per_iteration": 2.604740858078003
    },
    {
      "auxiliary_loss_clip": 0.01152393,
      "auxiliary_loss_mlp": 0.0102882,
      "balance_loss_clip": 1.04415441,
      "balance_loss_mlp": 1.02054048,
      "epoch": 0.7424998496963867,
      "flos": 20521907314560.0,
      "grad_norm": 1.900468194379099,
      "language_loss": 0.78691912,
      "learning_rate": 6.559985224767801e-07,
      "loss": 0.80873132,
      "num_input_tokens_seen": 132696385,
      "step": 6175,
      "time_per_iteration": 2.6115164756774902
    },
    {
      "auxiliary_loss_clip": 0.01150762,
      "auxiliary_loss_mlp": 0.01024631,
      "balance_loss_clip": 1.04608226,
      "balance_loss_mlp": 1.01685238,
      "epoch": 0.7426200925870258,
      "flos": 21871573873920.0,
      "grad_norm": 5.431275128577492,
      "language_loss": 0.75509965,
      "learning_rate": 6.55421756609349e-07,
      "loss": 0.77685356,
      "num_input_tokens_seen": 132714640,
      "step": 6176,
      "time_per_iteration": 2.6007518768310547
    },
    {
      "auxiliary_loss_clip": 0.01161367,
      "auxiliary_loss_mlp": 0.01032688,
      "balance_loss_clip": 1.04936004,
      "balance_loss_mlp": 1.02461743,
      "epoch": 0.7427403354776649,
      "flos": 26432049265920.0,
      "grad_norm": 1.9343421179956741,
      "language_loss": 0.78608125,
      "learning_rate": 6.54845194713369e-07,
      "loss": 0.80802178,
      "num_input_tokens_seen": 132735590,
      "step": 6177,
      "time_per_iteration": 2.660676956176758
    },
    {
      "auxiliary_loss_clip": 0.01161098,
      "auxiliary_loss_mlp": 0.01036111,
      "balance_loss_clip": 1.0487299,
      "balance_loss_mlp": 1.02777219,
      "epoch": 0.742860578368304,
      "flos": 19898390102400.0,
      "grad_norm": 2.0661901127507107,
      "language_loss": 0.80235779,
      "learning_rate": 6.542688368763034e-07,
      "loss": 0.82432985,
      "num_input_tokens_seen": 132753995,
      "step": 6178,
      "time_per_iteration": 2.619245767593384
    },
    {
      "auxiliary_loss_clip": 0.01160464,
      "auxiliary_loss_mlp": 0.01032658,
      "balance_loss_clip": 1.04737616,
      "balance_loss_mlp": 1.02444482,
      "epoch": 0.742980821258943,
      "flos": 24827201510400.0,
      "grad_norm": 3.3178135639857778,
      "language_loss": 0.76862538,
      "learning_rate": 6.536926831855854e-07,
      "loss": 0.79055667,
      "num_input_tokens_seen": 132773160,
      "step": 6179,
      "time_per_iteration": 2.6830482482910156
    },
    {
      "auxiliary_loss_clip": 0.01151182,
      "auxiliary_loss_mlp": 0.01021746,
      "balance_loss_clip": 1.04639411,
      "balance_loss_mlp": 1.01473355,
      "epoch": 0.7431010641495821,
      "flos": 25228646887680.0,
      "grad_norm": 2.8732614887038705,
      "language_loss": 0.72762716,
      "learning_rate": 6.531167337286165e-07,
      "loss": 0.74935645,
      "num_input_tokens_seen": 132793180,
      "step": 6180,
      "time_per_iteration": 2.7392194271087646
    },
    {
      "auxiliary_loss_clip": 0.01152902,
      "auxiliary_loss_mlp": 0.01034484,
      "balance_loss_clip": 1.04796219,
      "balance_loss_mlp": 1.02644372,
      "epoch": 0.7432213070402213,
      "flos": 21762369550080.0,
      "grad_norm": 1.456413826312734,
      "language_loss": 0.79623735,
      "learning_rate": 6.52540988592768e-07,
      "loss": 0.81811118,
      "num_input_tokens_seen": 132814200,
      "step": 6181,
      "time_per_iteration": 2.722546100616455
    },
    {
      "auxiliary_loss_clip": 0.0115758,
      "auxiliary_loss_mlp": 0.01028604,
      "balance_loss_clip": 1.04694855,
      "balance_loss_mlp": 1.02137685,
      "epoch": 0.7433415499308603,
      "flos": 14793832425600.0,
      "grad_norm": 2.335282322072124,
      "language_loss": 0.83521253,
      "learning_rate": 6.519654478653814e-07,
      "loss": 0.85707438,
      "num_input_tokens_seen": 132832565,
      "step": 6182,
      "time_per_iteration": 2.7076282501220703
    },
    {
      "auxiliary_loss_clip": 0.01059877,
      "auxiliary_loss_mlp": 0.00999831,
      "balance_loss_clip": 1.01194572,
      "balance_loss_mlp": 0.99881214,
      "epoch": 0.7434617928214994,
      "flos": 67155577297920.0,
      "grad_norm": 0.7517426401313324,
      "language_loss": 0.56087637,
      "learning_rate": 6.51390111633763e-07,
      "loss": 0.58147347,
      "num_input_tokens_seen": 132897840,
      "step": 6183,
      "time_per_iteration": 3.2576210498809814
    },
    {
      "auxiliary_loss_clip": 0.01123898,
      "auxiliary_loss_mlp": 0.01025733,
      "balance_loss_clip": 1.03945172,
      "balance_loss_mlp": 1.01847959,
      "epoch": 0.7435820357121385,
      "flos": 27377576928000.0,
      "grad_norm": 2.0430740034933486,
      "language_loss": 0.76025569,
      "learning_rate": 6.508149799851932e-07,
      "loss": 0.78175211,
      "num_input_tokens_seen": 132919505,
      "step": 6184,
      "time_per_iteration": 2.8574607372283936
    },
    {
      "auxiliary_loss_clip": 0.01148881,
      "auxiliary_loss_mlp": 0.01022724,
      "balance_loss_clip": 1.04529631,
      "balance_loss_mlp": 1.01498771,
      "epoch": 0.7437022786027776,
      "flos": 23987645948160.0,
      "grad_norm": 2.0160511354420154,
      "language_loss": 0.61336601,
      "learning_rate": 6.502400530069183e-07,
      "loss": 0.63508207,
      "num_input_tokens_seen": 132939390,
      "step": 6185,
      "time_per_iteration": 3.7313618659973145
    },
    {
      "auxiliary_loss_clip": 0.011452,
      "auxiliary_loss_mlp": 0.01028062,
      "balance_loss_clip": 1.04577518,
      "balance_loss_mlp": 1.0189786,
      "epoch": 0.7438225214934167,
      "flos": 21866761451520.0,
      "grad_norm": 1.632508199011314,
      "language_loss": 0.68304694,
      "learning_rate": 6.496653307861535e-07,
      "loss": 0.70477957,
      "num_input_tokens_seen": 132960060,
      "step": 6186,
      "time_per_iteration": 2.7181363105773926
    },
    {
      "auxiliary_loss_clip": 0.01168519,
      "auxiliary_loss_mlp": 0.01029867,
      "balance_loss_clip": 1.04713297,
      "balance_loss_mlp": 1.02175474,
      "epoch": 0.7439427643840558,
      "flos": 20230097224320.0,
      "grad_norm": 1.878729939181089,
      "language_loss": 0.66182506,
      "learning_rate": 6.490908134100857e-07,
      "loss": 0.68380898,
      "num_input_tokens_seen": 132978525,
      "step": 6187,
      "time_per_iteration": 3.5642075538635254
    },
    {
      "auxiliary_loss_clip": 0.01168224,
      "auxiliary_loss_mlp": 0.010303,
      "balance_loss_clip": 1.04867148,
      "balance_loss_mlp": 1.02252126,
      "epoch": 0.7440630072746949,
      "flos": 20849915335680.0,
      "grad_norm": 2.1038390024389755,
      "language_loss": 0.69595945,
      "learning_rate": 6.48516500965866e-07,
      "loss": 0.71794474,
      "num_input_tokens_seen": 132998460,
      "step": 6188,
      "time_per_iteration": 3.461524248123169
    },
    {
      "auxiliary_loss_clip": 0.01167902,
      "auxiliary_loss_mlp": 0.01025239,
      "balance_loss_clip": 1.04705215,
      "balance_loss_mlp": 1.01771069,
      "epoch": 0.7441832501653339,
      "flos": 26503762769280.0,
      "grad_norm": 1.633688186535029,
      "language_loss": 0.8168596,
      "learning_rate": 6.479423935406192e-07,
      "loss": 0.83879101,
      "num_input_tokens_seen": 133018445,
      "step": 6189,
      "time_per_iteration": 2.731588363647461
    },
    {
      "auxiliary_loss_clip": 0.01049704,
      "auxiliary_loss_mlp": 0.010011,
      "balance_loss_clip": 1.01253128,
      "balance_loss_mlp": 1.00022948,
      "epoch": 0.7443034930559731,
      "flos": 68602848088320.0,
      "grad_norm": 0.8075969487788615,
      "language_loss": 0.61978722,
      "learning_rate": 6.473684912214357e-07,
      "loss": 0.64029527,
      "num_input_tokens_seen": 133082005,
      "step": 6190,
      "time_per_iteration": 3.4201881885528564
    },
    {
      "auxiliary_loss_clip": 0.01164059,
      "auxiliary_loss_mlp": 0.01029424,
      "balance_loss_clip": 1.04886341,
      "balance_loss_mlp": 1.02174091,
      "epoch": 0.7444237359466122,
      "flos": 18654982951680.0,
      "grad_norm": 1.8476194334062457,
      "language_loss": 0.69885838,
      "learning_rate": 6.467947940953778e-07,
      "loss": 0.72079325,
      "num_input_tokens_seen": 133100530,
      "step": 6191,
      "time_per_iteration": 2.6704442501068115
    },
    {
      "auxiliary_loss_clip": 0.01153196,
      "auxiliary_loss_mlp": 0.01026436,
      "balance_loss_clip": 1.04541063,
      "balance_loss_mlp": 1.0191108,
      "epoch": 0.7445439788372512,
      "flos": 22817604326400.0,
      "grad_norm": 2.4678279250256554,
      "language_loss": 0.72410977,
      "learning_rate": 6.462213022494732e-07,
      "loss": 0.74590605,
      "num_input_tokens_seen": 133119775,
      "step": 6192,
      "time_per_iteration": 2.7522714138031006
    },
    {
      "auxiliary_loss_clip": 0.01063748,
      "auxiliary_loss_mlp": 0.01000458,
      "balance_loss_clip": 1.0117085,
      "balance_loss_mlp": 0.99941462,
      "epoch": 0.7446642217278904,
      "flos": 67045690615680.0,
      "grad_norm": 0.7686954991865713,
      "language_loss": 0.61001742,
      "learning_rate": 6.456480157707201e-07,
      "loss": 0.63065946,
      "num_input_tokens_seen": 133184550,
      "step": 6193,
      "time_per_iteration": 3.16166615486145
    },
    {
      "auxiliary_loss_clip": 0.01138394,
      "auxiliary_loss_mlp": 0.01030851,
      "balance_loss_clip": 1.04376101,
      "balance_loss_mlp": 1.0232569,
      "epoch": 0.7447844646185294,
      "flos": 17417465631360.0,
      "grad_norm": 1.9769457479625483,
      "language_loss": 0.8512364,
      "learning_rate": 6.450749347460866e-07,
      "loss": 0.87292886,
      "num_input_tokens_seen": 133201525,
      "step": 6194,
      "time_per_iteration": 2.7022390365600586
    },
    {
      "auxiliary_loss_clip": 0.01174882,
      "auxiliary_loss_mlp": 0.01030608,
      "balance_loss_clip": 1.04945564,
      "balance_loss_mlp": 1.02254355,
      "epoch": 0.7449047075091685,
      "flos": 26615876094720.0,
      "grad_norm": 1.6683875379452726,
      "language_loss": 0.79000604,
      "learning_rate": 6.445020592625083e-07,
      "loss": 0.81206089,
      "num_input_tokens_seen": 133222175,
      "step": 6195,
      "time_per_iteration": 2.6067843437194824
    },
    {
      "auxiliary_loss_clip": 0.01171648,
      "auxiliary_loss_mlp": 0.01031535,
      "balance_loss_clip": 1.04771233,
      "balance_loss_mlp": 1.02363181,
      "epoch": 0.7450249503998077,
      "flos": 14170458867840.0,
      "grad_norm": 4.708420323281414,
      "language_loss": 0.80053777,
      "learning_rate": 6.4392938940689e-07,
      "loss": 0.82256961,
      "num_input_tokens_seen": 133237590,
      "step": 6196,
      "time_per_iteration": 3.384941577911377
    },
    {
      "auxiliary_loss_clip": 0.01130752,
      "auxiliary_loss_mlp": 0.00887206,
      "balance_loss_clip": 1.04380834,
      "balance_loss_mlp": 1.00057948,
      "epoch": 0.7451451932904467,
      "flos": 19606687752960.0,
      "grad_norm": 2.378593035870264,
      "language_loss": 0.71157163,
      "learning_rate": 6.433569252661049e-07,
      "loss": 0.7317512,
      "num_input_tokens_seen": 133255590,
      "step": 6197,
      "time_per_iteration": 2.788963556289673
    },
    {
      "auxiliary_loss_clip": 0.01136531,
      "auxiliary_loss_mlp": 0.01029264,
      "balance_loss_clip": 1.04324937,
      "balance_loss_mlp": 1.02228403,
      "epoch": 0.7452654361810858,
      "flos": 12495405980160.0,
      "grad_norm": 1.8648199480647971,
      "language_loss": 0.71565008,
      "learning_rate": 6.427846669269952e-07,
      "loss": 0.73730797,
      "num_input_tokens_seen": 133273210,
      "step": 6198,
      "time_per_iteration": 2.819664716720581
    },
    {
      "auxiliary_loss_clip": 0.0117609,
      "auxiliary_loss_mlp": 0.01028838,
      "balance_loss_clip": 1.05272794,
      "balance_loss_mlp": 1.02121413,
      "epoch": 0.7453856790717249,
      "flos": 22127329687680.0,
      "grad_norm": 2.139102761090783,
      "language_loss": 0.82393408,
      "learning_rate": 6.422126144763729e-07,
      "loss": 0.84598339,
      "num_input_tokens_seen": 133292600,
      "step": 6199,
      "time_per_iteration": 2.7362563610076904
    },
    {
      "auxiliary_loss_clip": 0.01137678,
      "auxiliary_loss_mlp": 0.00887682,
      "balance_loss_clip": 1.0398407,
      "balance_loss_mlp": 1.00056195,
      "epoch": 0.745505921962364,
      "flos": 20010682995840.0,
      "grad_norm": 4.350967539335214,
      "language_loss": 0.76871657,
      "learning_rate": 6.416407680010174e-07,
      "loss": 0.78897023,
      "num_input_tokens_seen": 133306960,
      "step": 6200,
      "time_per_iteration": 2.720033645629883
    },
    {
      "auxiliary_loss_clip": 0.01150386,
      "auxiliary_loss_mlp": 0.01024869,
      "balance_loss_clip": 1.04629195,
      "balance_loss_mlp": 1.01698327,
      "epoch": 0.745626164853003,
      "flos": 24677884673280.0,
      "grad_norm": 2.016811156710441,
      "language_loss": 0.81418836,
      "learning_rate": 6.410691275876774e-07,
      "loss": 0.8359409,
      "num_input_tokens_seen": 133326380,
      "step": 6201,
      "time_per_iteration": 2.8491358757019043
    },
    {
      "auxiliary_loss_clip": 0.01164366,
      "auxiliary_loss_mlp": 0.01034884,
      "balance_loss_clip": 1.04882956,
      "balance_loss_mlp": 1.02721834,
      "epoch": 0.7457464077436422,
      "flos": 14538830797440.0,
      "grad_norm": 2.8329630821019927,
      "language_loss": 0.7655198,
      "learning_rate": 6.404976933230704e-07,
      "loss": 0.7875123,
      "num_input_tokens_seen": 133342900,
      "step": 6202,
      "time_per_iteration": 2.826756715774536
    },
    {
      "auxiliary_loss_clip": 0.01156682,
      "auxiliary_loss_mlp": 0.01027732,
      "balance_loss_clip": 1.04510307,
      "balance_loss_mlp": 1.01960206,
      "epoch": 0.7458666506342813,
      "flos": 34021194600960.0,
      "grad_norm": 1.8780652674541,
      "language_loss": 0.7247231,
      "learning_rate": 6.399264652938813e-07,
      "loss": 0.74656731,
      "num_input_tokens_seen": 133363805,
      "step": 6203,
      "time_per_iteration": 2.8495428562164307
    },
    {
      "auxiliary_loss_clip": 0.01151279,
      "auxiliary_loss_mlp": 0.01025654,
      "balance_loss_clip": 1.04535723,
      "balance_loss_mlp": 1.01757121,
      "epoch": 0.7459868935249203,
      "flos": 24279025075200.0,
      "grad_norm": 2.1230543446174583,
      "language_loss": 0.74684823,
      "learning_rate": 6.393554435867679e-07,
      "loss": 0.76861763,
      "num_input_tokens_seen": 133384655,
      "step": 6204,
      "time_per_iteration": 2.7508678436279297
    },
    {
      "auxiliary_loss_clip": 0.01140157,
      "auxiliary_loss_mlp": 0.01029807,
      "balance_loss_clip": 1.04306197,
      "balance_loss_mlp": 1.02139103,
      "epoch": 0.7461071364155595,
      "flos": 21908777385600.0,
      "grad_norm": 2.238824427229041,
      "language_loss": 0.83915752,
      "learning_rate": 6.387846282883502e-07,
      "loss": 0.86085713,
      "num_input_tokens_seen": 133401185,
      "step": 6205,
      "time_per_iteration": 2.7057743072509766
    },
    {
      "auxiliary_loss_clip": 0.01171722,
      "auxiliary_loss_mlp": 0.01024987,
      "balance_loss_clip": 1.04913974,
      "balance_loss_mlp": 1.01713705,
      "epoch": 0.7462273793061985,
      "flos": 22889712879360.0,
      "grad_norm": 1.9482603562135894,
      "language_loss": 0.76788944,
      "learning_rate": 6.38214019485223e-07,
      "loss": 0.78985655,
      "num_input_tokens_seen": 133420010,
      "step": 6206,
      "time_per_iteration": 2.656750440597534
    },
    {
      "auxiliary_loss_clip": 0.01117721,
      "auxiliary_loss_mlp": 0.01024072,
      "balance_loss_clip": 1.03819811,
      "balance_loss_mlp": 1.01661527,
      "epoch": 0.7463476221968376,
      "flos": 19968451580160.0,
      "grad_norm": 1.8390557957739846,
      "language_loss": 0.71616727,
      "learning_rate": 6.376436172639461e-07,
      "loss": 0.73758519,
      "num_input_tokens_seen": 133437855,
      "step": 6207,
      "time_per_iteration": 2.862374782562256
    },
    {
      "auxiliary_loss_clip": 0.01116596,
      "auxiliary_loss_mlp": 0.01026892,
      "balance_loss_clip": 1.04029298,
      "balance_loss_mlp": 1.01885152,
      "epoch": 0.7464678650874768,
      "flos": 16836610798080.0,
      "grad_norm": 2.565632014956815,
      "language_loss": 0.64797509,
      "learning_rate": 6.370734217110487e-07,
      "loss": 0.66940999,
      "num_input_tokens_seen": 133456600,
      "step": 6208,
      "time_per_iteration": 2.8428125381469727
    },
    {
      "auxiliary_loss_clip": 0.01161155,
      "auxiliary_loss_mlp": 0.01032545,
      "balance_loss_clip": 1.05130649,
      "balance_loss_mlp": 1.02473354,
      "epoch": 0.7465881079781158,
      "flos": 48100869843840.0,
      "grad_norm": 1.4222149764072847,
      "language_loss": 0.64437342,
      "learning_rate": 6.36503432913031e-07,
      "loss": 0.66631043,
      "num_input_tokens_seen": 133479745,
      "step": 6209,
      "time_per_iteration": 2.9070820808410645
    },
    {
      "auxiliary_loss_clip": 0.01162606,
      "auxiliary_loss_mlp": 0.01026149,
      "balance_loss_clip": 1.04749429,
      "balance_loss_mlp": 1.01789117,
      "epoch": 0.7467083508687549,
      "flos": 19677359761920.0,
      "grad_norm": 2.163949315277533,
      "language_loss": 0.68978268,
      "learning_rate": 6.359336509563569e-07,
      "loss": 0.71167028,
      "num_input_tokens_seen": 133495765,
      "step": 6210,
      "time_per_iteration": 2.6765758991241455
    },
    {
      "auxiliary_loss_clip": 0.0113322,
      "auxiliary_loss_mlp": 0.01027272,
      "balance_loss_clip": 1.04305935,
      "balance_loss_mlp": 1.0195235,
      "epoch": 0.7468285937593939,
      "flos": 17895436934400.0,
      "grad_norm": 1.6927500369802635,
      "language_loss": 0.8082974,
      "learning_rate": 6.353640759274641e-07,
      "loss": 0.82990229,
      "num_input_tokens_seen": 133514655,
      "step": 6211,
      "time_per_iteration": 3.680225372314453
    },
    {
      "auxiliary_loss_clip": 0.01158732,
      "auxiliary_loss_mlp": 0.01028909,
      "balance_loss_clip": 1.04312706,
      "balance_loss_mlp": 1.0203681,
      "epoch": 0.7469488366500331,
      "flos": 23141446369920.0,
      "grad_norm": 3.9119073910810513,
      "language_loss": 0.74802423,
      "learning_rate": 6.347947079127556e-07,
      "loss": 0.76990068,
      "num_input_tokens_seen": 133532555,
      "step": 6212,
      "time_per_iteration": 2.709108591079712
    },
    {
      "auxiliary_loss_clip": 0.01146166,
      "auxiliary_loss_mlp": 0.0102726,
      "balance_loss_clip": 1.04382682,
      "balance_loss_mlp": 1.01973224,
      "epoch": 0.7470690795406721,
      "flos": 16690849407360.0,
      "grad_norm": 1.894007813308554,
      "language_loss": 0.76959157,
      "learning_rate": 6.342255469986053e-07,
      "loss": 0.79132581,
      "num_input_tokens_seen": 133551300,
      "step": 6213,
      "time_per_iteration": 2.734537363052368
    },
    {
      "auxiliary_loss_clip": 0.01172706,
      "auxiliary_loss_mlp": 0.01025208,
      "balance_loss_clip": 1.04979932,
      "balance_loss_mlp": 1.01731646,
      "epoch": 0.7471893224313112,
      "flos": 25192700352000.0,
      "grad_norm": 1.8993392459559941,
      "language_loss": 0.76548946,
      "learning_rate": 6.336565932713533e-07,
      "loss": 0.78746861,
      "num_input_tokens_seen": 133570725,
      "step": 6214,
      "time_per_iteration": 4.588003635406494
    },
    {
      "auxiliary_loss_clip": 0.01149805,
      "auxiliary_loss_mlp": 0.01024559,
      "balance_loss_clip": 1.04735553,
      "balance_loss_mlp": 1.01664913,
      "epoch": 0.7473095653219504,
      "flos": 22526225199360.0,
      "grad_norm": 1.9409054764671245,
      "language_loss": 0.77950406,
      "learning_rate": 6.330878468173088e-07,
      "loss": 0.80124778,
      "num_input_tokens_seen": 133590790,
      "step": 6215,
      "time_per_iteration": 2.701237916946411
    },
    {
      "auxiliary_loss_clip": 0.01154378,
      "auxiliary_loss_mlp": 0.01023088,
      "balance_loss_clip": 1.04466224,
      "balance_loss_mlp": 1.01536274,
      "epoch": 0.7474298082125894,
      "flos": 18113989236480.0,
      "grad_norm": 1.6780491716299684,
      "language_loss": 0.7271415,
      "learning_rate": 6.32519307722752e-07,
      "loss": 0.74891615,
      "num_input_tokens_seen": 133608685,
      "step": 6216,
      "time_per_iteration": 2.7182493209838867
    },
    {
      "auxiliary_loss_clip": 0.01044355,
      "auxiliary_loss_mlp": 0.01003679,
      "balance_loss_clip": 1.0121671,
      "balance_loss_mlp": 1.00267744,
      "epoch": 0.7475500511032285,
      "flos": 62086535193600.0,
      "grad_norm": 0.8872514911078224,
      "language_loss": 0.55009359,
      "learning_rate": 6.31950976073929e-07,
      "loss": 0.57057393,
      "num_input_tokens_seen": 133662775,
      "step": 6217,
      "time_per_iteration": 3.2765650749206543
    },
    {
      "auxiliary_loss_clip": 0.01125544,
      "auxiliary_loss_mlp": 0.01030658,
      "balance_loss_clip": 1.04050434,
      "balance_loss_mlp": 1.02297485,
      "epoch": 0.7476702939938676,
      "flos": 17785586165760.0,
      "grad_norm": 2.083808034095037,
      "language_loss": 0.80775625,
      "learning_rate": 6.31382851957055e-07,
      "loss": 0.82931828,
      "num_input_tokens_seen": 133679595,
      "step": 6218,
      "time_per_iteration": 2.783831834793091
    },
    {
      "auxiliary_loss_clip": 0.01142665,
      "auxiliary_loss_mlp": 0.00887001,
      "balance_loss_clip": 1.04708624,
      "balance_loss_mlp": 1.00055361,
      "epoch": 0.7477905368845067,
      "flos": 27927944092800.0,
      "grad_norm": 1.9357920166702738,
      "language_loss": 0.71835381,
      "learning_rate": 6.308149354583143e-07,
      "loss": 0.7386505,
      "num_input_tokens_seen": 133699000,
      "step": 6219,
      "time_per_iteration": 2.852456569671631
    },
    {
      "auxiliary_loss_clip": 0.01168586,
      "auxiliary_loss_mlp": 0.01028154,
      "balance_loss_clip": 1.04823112,
      "balance_loss_mlp": 1.01985669,
      "epoch": 0.7479107797751458,
      "flos": 26870374932480.0,
      "grad_norm": 1.7756751482159145,
      "language_loss": 0.81870139,
      "learning_rate": 6.302472266638586e-07,
      "loss": 0.84066874,
      "num_input_tokens_seen": 133719540,
      "step": 6220,
      "time_per_iteration": 2.724691152572632
    },
    {
      "auxiliary_loss_clip": 0.01178408,
      "auxiliary_loss_mlp": 0.01031311,
      "balance_loss_clip": 1.0504415,
      "balance_loss_mlp": 1.02287126,
      "epoch": 0.7480310226657849,
      "flos": 33943375785600.0,
      "grad_norm": 2.1951013133921373,
      "language_loss": 0.69850779,
      "learning_rate": 6.296797256598101e-07,
      "loss": 0.72060502,
      "num_input_tokens_seen": 133741020,
      "step": 6221,
      "time_per_iteration": 2.760826587677002
    },
    {
      "auxiliary_loss_clip": 0.01134464,
      "auxiliary_loss_mlp": 0.01026383,
      "balance_loss_clip": 1.04245293,
      "balance_loss_mlp": 1.01899195,
      "epoch": 0.748151265556424,
      "flos": 24826555065600.0,
      "grad_norm": 2.22132318413012,
      "language_loss": 0.81404608,
      "learning_rate": 6.291124325322576e-07,
      "loss": 0.8356545,
      "num_input_tokens_seen": 133761145,
      "step": 6222,
      "time_per_iteration": 3.6460609436035156
    },
    {
      "auxiliary_loss_clip": 0.01160155,
      "auxiliary_loss_mlp": 0.01027046,
      "balance_loss_clip": 1.0468955,
      "balance_loss_mlp": 1.01952374,
      "epoch": 0.748271508447063,
      "flos": 38399351535360.0,
      "grad_norm": 1.7194484655818625,
      "language_loss": 0.62280732,
      "learning_rate": 6.285453473672595e-07,
      "loss": 0.64467931,
      "num_input_tokens_seen": 133783715,
      "step": 6223,
      "time_per_iteration": 2.854048252105713
    },
    {
      "auxiliary_loss_clip": 0.01169676,
      "auxiliary_loss_mlp": 0.01024093,
      "balance_loss_clip": 1.0468297,
      "balance_loss_mlp": 1.01609421,
      "epoch": 0.7483917513377022,
      "flos": 21541842000000.0,
      "grad_norm": 1.9065973734507815,
      "language_loss": 0.75649178,
      "learning_rate": 6.279784702508415e-07,
      "loss": 0.77842951,
      "num_input_tokens_seen": 133804465,
      "step": 6224,
      "time_per_iteration": 2.6562252044677734
    },
    {
      "auxiliary_loss_clip": 0.01053397,
      "auxiliary_loss_mlp": 0.01001333,
      "balance_loss_clip": 1.01016998,
      "balance_loss_mlp": 1.00036705,
      "epoch": 0.7485119942283412,
      "flos": 62314532772480.0,
      "grad_norm": 0.7855889606052933,
      "language_loss": 0.58592892,
      "learning_rate": 6.274118012689979e-07,
      "loss": 0.60647631,
      "num_input_tokens_seen": 133866365,
      "step": 6225,
      "time_per_iteration": 3.417862892150879
    },
    {
      "auxiliary_loss_clip": 0.01145571,
      "auxiliary_loss_mlp": 0.01029288,
      "balance_loss_clip": 1.04469824,
      "balance_loss_mlp": 1.0213722,
      "epoch": 0.7486322371189803,
      "flos": 29937613104000.0,
      "grad_norm": 1.63666947010377,
      "language_loss": 0.68483508,
      "learning_rate": 6.268453405076943e-07,
      "loss": 0.70658362,
      "num_input_tokens_seen": 133888760,
      "step": 6226,
      "time_per_iteration": 2.766157388687134
    },
    {
      "auxiliary_loss_clip": 0.01154685,
      "auxiliary_loss_mlp": 0.01026755,
      "balance_loss_clip": 1.04650915,
      "balance_loss_mlp": 1.01928663,
      "epoch": 0.7487524800096195,
      "flos": 18949414734720.0,
      "grad_norm": 1.9626826095202132,
      "language_loss": 0.82407308,
      "learning_rate": 6.262790880528592e-07,
      "loss": 0.84588748,
      "num_input_tokens_seen": 133906380,
      "step": 6227,
      "time_per_iteration": 2.7603330612182617
    },
    {
      "auxiliary_loss_clip": 0.01153016,
      "auxiliary_loss_mlp": 0.01033714,
      "balance_loss_clip": 1.04266691,
      "balance_loss_mlp": 1.0255363,
      "epoch": 0.7488727229002585,
      "flos": 18697393935360.0,
      "grad_norm": 3.0030435709064505,
      "language_loss": 0.79297942,
      "learning_rate": 6.257130439903951e-07,
      "loss": 0.81484675,
      "num_input_tokens_seen": 133922875,
      "step": 6228,
      "time_per_iteration": 2.748629093170166
    },
    {
      "auxiliary_loss_clip": 0.01175878,
      "auxiliary_loss_mlp": 0.01022249,
      "balance_loss_clip": 1.05099297,
      "balance_loss_mlp": 1.01470852,
      "epoch": 0.7489929657908976,
      "flos": 23623368168960.0,
      "grad_norm": 2.2406002735971082,
      "language_loss": 0.81613576,
      "learning_rate": 6.251472084061695e-07,
      "loss": 0.838117,
      "num_input_tokens_seen": 133941795,
      "step": 6229,
      "time_per_iteration": 2.644355297088623
    },
    {
      "auxiliary_loss_clip": 0.01159654,
      "auxiliary_loss_mlp": 0.01030031,
      "balance_loss_clip": 1.04773808,
      "balance_loss_mlp": 1.02269924,
      "epoch": 0.7491132086815367,
      "flos": 20551533056640.0,
      "grad_norm": 2.094919451095839,
      "language_loss": 0.89391601,
      "learning_rate": 6.245815813860191e-07,
      "loss": 0.91581285,
      "num_input_tokens_seen": 133957305,
      "step": 6230,
      "time_per_iteration": 2.680063009262085
    },
    {
      "auxiliary_loss_clip": 0.01172174,
      "auxiliary_loss_mlp": 0.01028194,
      "balance_loss_clip": 1.04729271,
      "balance_loss_mlp": 1.01968265,
      "epoch": 0.7492334515721758,
      "flos": 23003011353600.0,
      "grad_norm": 2.3386464850518562,
      "language_loss": 0.70365143,
      "learning_rate": 6.240161630157495e-07,
      "loss": 0.72565508,
      "num_input_tokens_seen": 133976660,
      "step": 6231,
      "time_per_iteration": 2.610008955001831
    },
    {
      "auxiliary_loss_clip": 0.01175141,
      "auxiliary_loss_mlp": 0.01029397,
      "balance_loss_clip": 1.04955089,
      "balance_loss_mlp": 1.0215832,
      "epoch": 0.7493536944628149,
      "flos": 16398823835520.0,
      "grad_norm": 2.176808260588153,
      "language_loss": 0.7016505,
      "learning_rate": 6.23450953381133e-07,
      "loss": 0.72369593,
      "num_input_tokens_seen": 133994750,
      "step": 6232,
      "time_per_iteration": 2.7051703929901123
    },
    {
      "auxiliary_loss_clip": 0.01145552,
      "auxiliary_loss_mlp": 0.01020404,
      "balance_loss_clip": 1.04301751,
      "balance_loss_mlp": 1.01286411,
      "epoch": 0.749473937353454,
      "flos": 15338561155200.0,
      "grad_norm": 2.060724553652338,
      "language_loss": 0.68069774,
      "learning_rate": 6.228859525679131e-07,
      "loss": 0.70235729,
      "num_input_tokens_seen": 134009165,
      "step": 6233,
      "time_per_iteration": 2.7510135173797607
    },
    {
      "auxiliary_loss_clip": 0.01165345,
      "auxiliary_loss_mlp": 0.01026024,
      "balance_loss_clip": 1.04856753,
      "balance_loss_mlp": 1.01865649,
      "epoch": 0.7495941802440931,
      "flos": 18951138587520.0,
      "grad_norm": 2.275676183077584,
      "language_loss": 0.79763663,
      "learning_rate": 6.223211606617986e-07,
      "loss": 0.81955028,
      "num_input_tokens_seen": 134027585,
      "step": 6234,
      "time_per_iteration": 2.70461106300354
    },
    {
      "auxiliary_loss_clip": 0.01163111,
      "auxiliary_loss_mlp": 0.0102752,
      "balance_loss_clip": 1.05102062,
      "balance_loss_mlp": 1.02105594,
      "epoch": 0.7497144231347321,
      "flos": 22492469393280.0,
      "grad_norm": 1.76490701213681,
      "language_loss": 0.83990729,
      "learning_rate": 6.217565777484701e-07,
      "loss": 0.8618136,
      "num_input_tokens_seen": 134046680,
      "step": 6235,
      "time_per_iteration": 2.783494234085083
    },
    {
      "auxiliary_loss_clip": 0.01152687,
      "auxiliary_loss_mlp": 0.00886589,
      "balance_loss_clip": 1.04791617,
      "balance_loss_mlp": 1.00055599,
      "epoch": 0.7498346660253713,
      "flos": 24243509502720.0,
      "grad_norm": 4.688933329947834,
      "language_loss": 0.7976402,
      "learning_rate": 6.211922039135722e-07,
      "loss": 0.81803304,
      "num_input_tokens_seen": 134066825,
      "step": 6236,
      "time_per_iteration": 2.7841103076934814
    },
    {
      "auxiliary_loss_clip": 0.01174231,
      "auxiliary_loss_mlp": 0.01024503,
      "balance_loss_clip": 1.05022717,
      "balance_loss_mlp": 1.01698399,
      "epoch": 0.7499549089160104,
      "flos": 24387080163840.0,
      "grad_norm": 1.9857448327587184,
      "language_loss": 0.8091163,
      "learning_rate": 6.206280392427201e-07,
      "loss": 0.83110368,
      "num_input_tokens_seen": 134086410,
      "step": 6237,
      "time_per_iteration": 3.557493209838867
    },
    {
      "auxiliary_loss_clip": 0.01156853,
      "auxiliary_loss_mlp": 0.01027341,
      "balance_loss_clip": 1.04582512,
      "balance_loss_mlp": 1.01947904,
      "epoch": 0.7500751518066494,
      "flos": 34057320704640.0,
      "grad_norm": 1.52030536230359,
      "language_loss": 0.73667932,
      "learning_rate": 6.200640838214983e-07,
      "loss": 0.75852126,
      "num_input_tokens_seen": 134109185,
      "step": 6238,
      "time_per_iteration": 2.8246378898620605
    },
    {
      "auxiliary_loss_clip": 0.01171815,
      "auxiliary_loss_mlp": 0.01026325,
      "balance_loss_clip": 1.04912376,
      "balance_loss_mlp": 1.01856399,
      "epoch": 0.7501953946972886,
      "flos": 18843586289280.0,
      "grad_norm": 1.9759522173294046,
      "language_loss": 0.67059672,
      "learning_rate": 6.195003377354578e-07,
      "loss": 0.6925782,
      "num_input_tokens_seen": 134128455,
      "step": 6239,
      "time_per_iteration": 2.678832769393921
    },
    {
      "auxiliary_loss_clip": 0.01158011,
      "auxiliary_loss_mlp": 0.01027296,
      "balance_loss_clip": 1.04426086,
      "balance_loss_mlp": 1.01960695,
      "epoch": 0.7503156375879276,
      "flos": 20257675891200.0,
      "grad_norm": 2.5601791525106132,
      "language_loss": 0.73576796,
      "learning_rate": 6.189368010701183e-07,
      "loss": 0.75762099,
      "num_input_tokens_seen": 134145515,
      "step": 6240,
      "time_per_iteration": 4.958562612533569
    },
    {
      "auxiliary_loss_clip": 0.01168065,
      "auxiliary_loss_mlp": 0.01028633,
      "balance_loss_clip": 1.0466013,
      "balance_loss_mlp": 1.02056825,
      "epoch": 0.7504358804785667,
      "flos": 13480040574720.0,
      "grad_norm": 3.9632685084704313,
      "language_loss": 0.76254928,
      "learning_rate": 6.183734739109683e-07,
      "loss": 0.78451622,
      "num_input_tokens_seen": 134163335,
      "step": 6241,
      "time_per_iteration": 2.880725145339966
    },
    {
      "auxiliary_loss_clip": 0.0117096,
      "auxiliary_loss_mlp": 0.01030318,
      "balance_loss_clip": 1.04887009,
      "balance_loss_mlp": 1.02253366,
      "epoch": 0.7505561233692057,
      "flos": 29461042431360.0,
      "grad_norm": 2.1764529780172346,
      "language_loss": 0.68920577,
      "learning_rate": 6.178103563434629e-07,
      "loss": 0.71121848,
      "num_input_tokens_seen": 134182335,
      "step": 6242,
      "time_per_iteration": 2.707014560699463
    },
    {
      "auxiliary_loss_clip": 0.01171687,
      "auxiliary_loss_mlp": 0.0102779,
      "balance_loss_clip": 1.0470897,
      "balance_loss_mlp": 1.01968384,
      "epoch": 0.7506763662598449,
      "flos": 20302457172480.0,
      "grad_norm": 2.0750248405458587,
      "language_loss": 0.83855921,
      "learning_rate": 6.172474484530283e-07,
      "loss": 0.86055398,
      "num_input_tokens_seen": 134201070,
      "step": 6243,
      "time_per_iteration": 2.6963696479797363
    },
    {
      "auxiliary_loss_clip": 0.01141404,
      "auxiliary_loss_mlp": 0.01025087,
      "balance_loss_clip": 1.04227304,
      "balance_loss_mlp": 1.01717138,
      "epoch": 0.750796609150484,
      "flos": 37230961939200.0,
      "grad_norm": 1.6539135459935446,
      "language_loss": 0.76048118,
      "learning_rate": 6.166847503250563e-07,
      "loss": 0.78214604,
      "num_input_tokens_seen": 134223310,
      "step": 6244,
      "time_per_iteration": 2.890303611755371
    },
    {
      "auxiliary_loss_clip": 0.01153007,
      "auxiliary_loss_mlp": 0.01025193,
      "balance_loss_clip": 1.045555,
      "balance_loss_mlp": 1.01738429,
      "epoch": 0.750916852041123,
      "flos": 19609417186560.0,
      "grad_norm": 2.4689634015572235,
      "language_loss": 0.78965306,
      "learning_rate": 6.161222620449078e-07,
      "loss": 0.81143498,
      "num_input_tokens_seen": 134242085,
      "step": 6245,
      "time_per_iteration": 2.652749538421631
    },
    {
      "auxiliary_loss_clip": 0.0114804,
      "auxiliary_loss_mlp": 0.01029459,
      "balance_loss_clip": 1.04657531,
      "balance_loss_mlp": 1.02164483,
      "epoch": 0.7510370949317622,
      "flos": 25112690807040.0,
      "grad_norm": 2.4223032568509417,
      "language_loss": 0.80163729,
      "learning_rate": 6.155599836979117e-07,
      "loss": 0.82341224,
      "num_input_tokens_seen": 134260770,
      "step": 6246,
      "time_per_iteration": 2.791419267654419
    },
    {
      "auxiliary_loss_clip": 0.01132419,
      "auxiliary_loss_mlp": 0.01032738,
      "balance_loss_clip": 1.04094279,
      "balance_loss_mlp": 1.0247333,
      "epoch": 0.7511573378224012,
      "flos": 19062282245760.0,
      "grad_norm": 2.558668102135451,
      "language_loss": 0.81855923,
      "learning_rate": 6.149979153693649e-07,
      "loss": 0.8402108,
      "num_input_tokens_seen": 134278025,
      "step": 6247,
      "time_per_iteration": 2.726025342941284
    },
    {
      "auxiliary_loss_clip": 0.01160094,
      "auxiliary_loss_mlp": 0.01030997,
      "balance_loss_clip": 1.04686022,
      "balance_loss_mlp": 1.02301013,
      "epoch": 0.7512775807130403,
      "flos": 19937676602880.0,
      "grad_norm": 2.784184672614972,
      "language_loss": 0.76771331,
      "learning_rate": 6.144360571445343e-07,
      "loss": 0.78962421,
      "num_input_tokens_seen": 134297170,
      "step": 6248,
      "time_per_iteration": 3.414247989654541
    },
    {
      "auxiliary_loss_clip": 0.01163259,
      "auxiliary_loss_mlp": 0.01029438,
      "balance_loss_clip": 1.05019307,
      "balance_loss_mlp": 1.02140355,
      "epoch": 0.7513978236036795,
      "flos": 20739920912640.0,
      "grad_norm": 1.8059691244426896,
      "language_loss": 0.79922181,
      "learning_rate": 6.138744091086509e-07,
      "loss": 0.82114881,
      "num_input_tokens_seen": 134316755,
      "step": 6249,
      "time_per_iteration": 2.6850593090057373
    },
    {
      "auxiliary_loss_clip": 0.01148716,
      "auxiliary_loss_mlp": 0.01033318,
      "balance_loss_clip": 1.04829669,
      "balance_loss_mlp": 1.02564073,
      "epoch": 0.7515180664943185,
      "flos": 27563163523200.0,
      "grad_norm": 3.1337022351298263,
      "language_loss": 0.72840714,
      "learning_rate": 6.133129713469183e-07,
      "loss": 0.75022745,
      "num_input_tokens_seen": 134335960,
      "step": 6250,
      "time_per_iteration": 2.7695260047912598
    },
    {
      "auxiliary_loss_clip": 0.01151724,
      "auxiliary_loss_mlp": 0.01024759,
      "balance_loss_clip": 1.04344296,
      "balance_loss_mlp": 1.01695073,
      "epoch": 0.7516383093849576,
      "flos": 33803181002880.0,
      "grad_norm": 1.9200504984090925,
      "language_loss": 0.63978148,
      "learning_rate": 6.127517439445053e-07,
      "loss": 0.66154629,
      "num_input_tokens_seen": 134356805,
      "step": 6251,
      "time_per_iteration": 2.8032920360565186
    },
    {
      "auxiliary_loss_clip": 0.0113024,
      "auxiliary_loss_mlp": 0.01027866,
      "balance_loss_clip": 1.04526258,
      "balance_loss_mlp": 1.02087426,
      "epoch": 0.7517585522755967,
      "flos": 29746172592000.0,
      "grad_norm": 2.263402008391792,
      "language_loss": 0.81603312,
      "learning_rate": 6.121907269865498e-07,
      "loss": 0.83761418,
      "num_input_tokens_seen": 134376295,
      "step": 6252,
      "time_per_iteration": 2.8136579990386963
    },
    {
      "auxiliary_loss_clip": 0.01047551,
      "auxiliary_loss_mlp": 0.01000921,
      "balance_loss_clip": 1.01325917,
      "balance_loss_mlp": 0.99994963,
      "epoch": 0.7518787951662358,
      "flos": 69807974319360.0,
      "grad_norm": 0.9366840188424869,
      "language_loss": 0.67244899,
      "learning_rate": 6.116299205581577e-07,
      "loss": 0.69293374,
      "num_input_tokens_seen": 134431125,
      "step": 6253,
      "time_per_iteration": 3.2501864433288574
    },
    {
      "auxiliary_loss_clip": 0.01177957,
      "auxiliary_loss_mlp": 0.0102583,
      "balance_loss_clip": 1.05019581,
      "balance_loss_mlp": 1.01814699,
      "epoch": 0.7519990380568748,
      "flos": 34203225749760.0,
      "grad_norm": 2.837272079466499,
      "language_loss": 0.6810323,
      "learning_rate": 6.110693247444018e-07,
      "loss": 0.70307016,
      "num_input_tokens_seen": 134452960,
      "step": 6254,
      "time_per_iteration": 2.780904531478882
    },
    {
      "auxiliary_loss_clip": 0.01134801,
      "auxiliary_loss_mlp": 0.0102485,
      "balance_loss_clip": 1.04277432,
      "balance_loss_mlp": 1.01715779,
      "epoch": 0.752119280947514,
      "flos": 21725704742400.0,
      "grad_norm": 2.070335677552077,
      "language_loss": 0.82430238,
      "learning_rate": 6.105089396303258e-07,
      "loss": 0.84589887,
      "num_input_tokens_seen": 134471350,
      "step": 6255,
      "time_per_iteration": 2.7125093936920166
    },
    {
      "auxiliary_loss_clip": 0.01153195,
      "auxiliary_loss_mlp": 0.01028169,
      "balance_loss_clip": 1.04515195,
      "balance_loss_mlp": 1.02088547,
      "epoch": 0.7522395238381531,
      "flos": 32742774668160.0,
      "grad_norm": 2.1676379117838236,
      "language_loss": 0.75649118,
      "learning_rate": 6.099487653009383e-07,
      "loss": 0.77830482,
      "num_input_tokens_seen": 134490695,
      "step": 6256,
      "time_per_iteration": 2.798266649246216
    },
    {
      "auxiliary_loss_clip": 0.01162973,
      "auxiliary_loss_mlp": 0.01030323,
      "balance_loss_clip": 1.04761446,
      "balance_loss_mlp": 1.02319729,
      "epoch": 0.7523597667287921,
      "flos": 23476026579840.0,
      "grad_norm": 2.986132100589765,
      "language_loss": 0.83235258,
      "learning_rate": 6.093888018412192e-07,
      "loss": 0.8542856,
      "num_input_tokens_seen": 134506885,
      "step": 6257,
      "time_per_iteration": 2.7081003189086914
    },
    {
      "auxiliary_loss_clip": 0.01063661,
      "auxiliary_loss_mlp": 0.01001037,
      "balance_loss_clip": 1.01164937,
      "balance_loss_mlp": 1.00005996,
      "epoch": 0.7524800096194313,
      "flos": 67346730501120.0,
      "grad_norm": 0.7066871720766261,
      "language_loss": 0.54637682,
      "learning_rate": 6.088290493361125e-07,
      "loss": 0.56702387,
      "num_input_tokens_seen": 134571770,
      "step": 6258,
      "time_per_iteration": 3.466525077819824
    },
    {
      "auxiliary_loss_clip": 0.01125562,
      "auxiliary_loss_mlp": 0.01024007,
      "balance_loss_clip": 1.04130423,
      "balance_loss_mlp": 1.01632404,
      "epoch": 0.7526002525100703,
      "flos": 13006055681280.0,
      "grad_norm": 2.0701004751746566,
      "language_loss": 0.71933317,
      "learning_rate": 6.082695078705322e-07,
      "loss": 0.74082887,
      "num_input_tokens_seen": 134589250,
      "step": 6259,
      "time_per_iteration": 2.7350616455078125
    },
    {
      "auxiliary_loss_clip": 0.01156269,
      "auxiliary_loss_mlp": 0.010338,
      "balance_loss_clip": 1.04574776,
      "balance_loss_mlp": 1.02513671,
      "epoch": 0.7527204954007094,
      "flos": 21397229844480.0,
      "grad_norm": 2.133755185569212,
      "language_loss": 0.68501776,
      "learning_rate": 6.077101775293618e-07,
      "loss": 0.70691848,
      "num_input_tokens_seen": 134608075,
      "step": 6260,
      "time_per_iteration": 2.6554999351501465
    },
    {
      "auxiliary_loss_clip": 0.01163506,
      "auxiliary_loss_mlp": 0.01029825,
      "balance_loss_clip": 1.04592514,
      "balance_loss_mlp": 1.02183175,
      "epoch": 0.7528407382913486,
      "flos": 18947188091520.0,
      "grad_norm": 2.243771160460782,
      "language_loss": 0.82372296,
      "learning_rate": 6.071510583974504e-07,
      "loss": 0.84565628,
      "num_input_tokens_seen": 134623260,
      "step": 6261,
      "time_per_iteration": 2.6100218296051025
    },
    {
      "auxiliary_loss_clip": 0.01171562,
      "auxiliary_loss_mlp": 0.01028542,
      "balance_loss_clip": 1.047387,
      "balance_loss_mlp": 1.02070367,
      "epoch": 0.7529609811819876,
      "flos": 15231798956160.0,
      "grad_norm": 2.2176547515232428,
      "language_loss": 0.72204566,
      "learning_rate": 6.065921505596161e-07,
      "loss": 0.74404669,
      "num_input_tokens_seen": 134641540,
      "step": 6262,
      "time_per_iteration": 2.5866270065307617
    },
    {
      "auxiliary_loss_clip": 0.01143595,
      "auxiliary_loss_mlp": 0.01029794,
      "balance_loss_clip": 1.04620671,
      "balance_loss_mlp": 1.02233171,
      "epoch": 0.7530812240726267,
      "flos": 19354487385600.0,
      "grad_norm": 1.5451620176652274,
      "language_loss": 0.76759291,
      "learning_rate": 6.060334541006445e-07,
      "loss": 0.78932679,
      "num_input_tokens_seen": 134660035,
      "step": 6263,
      "time_per_iteration": 3.705672264099121
    },
    {
      "auxiliary_loss_clip": 0.01146,
      "auxiliary_loss_mlp": 0.01022906,
      "balance_loss_clip": 1.04135609,
      "balance_loss_mlp": 1.0159502,
      "epoch": 0.7532014669632658,
      "flos": 27748247328000.0,
      "grad_norm": 2.61993402436174,
      "language_loss": 0.69068193,
      "learning_rate": 6.05474969105289e-07,
      "loss": 0.71237099,
      "num_input_tokens_seen": 134683025,
      "step": 6264,
      "time_per_iteration": 2.7791342735290527
    },
    {
      "auxiliary_loss_clip": 0.01165198,
      "auxiliary_loss_mlp": 0.01037547,
      "balance_loss_clip": 1.04887986,
      "balance_loss_mlp": 1.0291903,
      "epoch": 0.7533217098539049,
      "flos": 14137421333760.0,
      "grad_norm": 2.593883444868472,
      "language_loss": 0.73584831,
      "learning_rate": 6.049166956582725e-07,
      "loss": 0.75787574,
      "num_input_tokens_seen": 134701290,
      "step": 6265,
      "time_per_iteration": 2.620217800140381
    },
    {
      "auxiliary_loss_clip": 0.01159002,
      "auxiliary_loss_mlp": 0.01030061,
      "balance_loss_clip": 1.0468514,
      "balance_loss_mlp": 1.02199626,
      "epoch": 0.753441952744544,
      "flos": 26429068437120.0,
      "grad_norm": 2.434396605473668,
      "language_loss": 0.87265736,
      "learning_rate": 6.043586338442841e-07,
      "loss": 0.89454794,
      "num_input_tokens_seen": 134720345,
      "step": 6266,
      "time_per_iteration": 4.617817401885986
    },
    {
      "auxiliary_loss_clip": 0.01170064,
      "auxiliary_loss_mlp": 0.01025297,
      "balance_loss_clip": 1.04888606,
      "balance_loss_mlp": 1.01806092,
      "epoch": 0.7535621956351831,
      "flos": 23878621192320.0,
      "grad_norm": 1.3723373957230454,
      "language_loss": 0.73208398,
      "learning_rate": 6.038007837479815e-07,
      "loss": 0.75403762,
      "num_input_tokens_seen": 134741450,
      "step": 6267,
      "time_per_iteration": 2.6943180561065674
    },
    {
      "auxiliary_loss_clip": 0.01163095,
      "auxiliary_loss_mlp": 0.01030058,
      "balance_loss_clip": 1.04889691,
      "balance_loss_mlp": 1.02248204,
      "epoch": 0.7536824385258222,
      "flos": 21795873960960.0,
      "grad_norm": 1.8356893120598836,
      "language_loss": 0.641478,
      "learning_rate": 6.032431454539897e-07,
      "loss": 0.66340959,
      "num_input_tokens_seen": 134760295,
      "step": 6268,
      "time_per_iteration": 2.665651559829712
    },
    {
      "auxiliary_loss_clip": 0.01145283,
      "auxiliary_loss_mlp": 0.01028316,
      "balance_loss_clip": 1.0447166,
      "balance_loss_mlp": 1.02074373,
      "epoch": 0.7538026814164612,
      "flos": 28911644933760.0,
      "grad_norm": 1.9385287796417312,
      "language_loss": 0.81806803,
      "learning_rate": 6.026857190469014e-07,
      "loss": 0.83980405,
      "num_input_tokens_seen": 134782050,
      "step": 6269,
      "time_per_iteration": 2.794234275817871
    },
    {
      "auxiliary_loss_clip": 0.01154131,
      "auxiliary_loss_mlp": 0.01022681,
      "balance_loss_clip": 1.0463748,
      "balance_loss_mlp": 1.01538885,
      "epoch": 0.7539229243071004,
      "flos": 21104701482240.0,
      "grad_norm": 1.9907543989700387,
      "language_loss": 0.73901796,
      "learning_rate": 6.0212850461128e-07,
      "loss": 0.76078606,
      "num_input_tokens_seen": 134801170,
      "step": 6270,
      "time_per_iteration": 2.705493927001953
    },
    {
      "auxiliary_loss_clip": 0.01152372,
      "auxiliary_loss_mlp": 0.01022771,
      "balance_loss_clip": 1.04261923,
      "balance_loss_mlp": 1.01468313,
      "epoch": 0.7540431671977395,
      "flos": 15158469340800.0,
      "grad_norm": 2.1209649779338884,
      "language_loss": 0.74695599,
      "learning_rate": 6.015715022316516e-07,
      "loss": 0.76870745,
      "num_input_tokens_seen": 134819150,
      "step": 6271,
      "time_per_iteration": 2.697524309158325
    },
    {
      "auxiliary_loss_clip": 0.01134968,
      "auxiliary_loss_mlp": 0.01027372,
      "balance_loss_clip": 1.04131842,
      "balance_loss_mlp": 1.01907492,
      "epoch": 0.7541634100883785,
      "flos": 18770579896320.0,
      "grad_norm": 2.9225110849746367,
      "language_loss": 0.77712619,
      "learning_rate": 6.010147119925154e-07,
      "loss": 0.79874957,
      "num_input_tokens_seen": 134836905,
      "step": 6272,
      "time_per_iteration": 2.7609848976135254
    },
    {
      "auxiliary_loss_clip": 0.01136149,
      "auxiliary_loss_mlp": 0.0102666,
      "balance_loss_clip": 1.04363799,
      "balance_loss_mlp": 1.01952267,
      "epoch": 0.7542836529790176,
      "flos": 20594770053120.0,
      "grad_norm": 3.5805029591551665,
      "language_loss": 0.66533142,
      "learning_rate": 6.004581339783348e-07,
      "loss": 0.68695956,
      "num_input_tokens_seen": 134855225,
      "step": 6273,
      "time_per_iteration": 2.7179832458496094
    },
    {
      "auxiliary_loss_clip": 0.01164472,
      "auxiliary_loss_mlp": 0.01031209,
      "balance_loss_clip": 1.04553127,
      "balance_loss_mlp": 1.02294159,
      "epoch": 0.7544038958696567,
      "flos": 19095104298240.0,
      "grad_norm": 3.582129391373619,
      "language_loss": 0.68524599,
      "learning_rate": 5.999017682735425e-07,
      "loss": 0.70720279,
      "num_input_tokens_seen": 134871615,
      "step": 6274,
      "time_per_iteration": 3.588240623474121
    },
    {
      "auxiliary_loss_clip": 0.01132975,
      "auxiliary_loss_mlp": 0.01031691,
      "balance_loss_clip": 1.0418123,
      "balance_loss_mlp": 1.02406788,
      "epoch": 0.7545241387602958,
      "flos": 31723306859520.0,
      "grad_norm": 1.8557795126889007,
      "language_loss": 0.66174906,
      "learning_rate": 5.993456149625387e-07,
      "loss": 0.68339574,
      "num_input_tokens_seen": 134892765,
      "step": 6275,
      "time_per_iteration": 2.877161979675293
    },
    {
      "auxiliary_loss_clip": 0.01138625,
      "auxiliary_loss_mlp": 0.01026066,
      "balance_loss_clip": 1.04529405,
      "balance_loss_mlp": 1.01796913,
      "epoch": 0.7546443816509348,
      "flos": 20296495514880.0,
      "grad_norm": 1.713988318391244,
      "language_loss": 0.82280874,
      "learning_rate": 5.987896741296909e-07,
      "loss": 0.84445566,
      "num_input_tokens_seen": 134910505,
      "step": 6276,
      "time_per_iteration": 2.753955125808716
    },
    {
      "auxiliary_loss_clip": 0.01154834,
      "auxiliary_loss_mlp": 0.01026673,
      "balance_loss_clip": 1.04850411,
      "balance_loss_mlp": 1.01876378,
      "epoch": 0.754764624541574,
      "flos": 23696159080320.0,
      "grad_norm": 2.2697387295511144,
      "language_loss": 0.78393823,
      "learning_rate": 5.982339458593361e-07,
      "loss": 0.80575335,
      "num_input_tokens_seen": 134930445,
      "step": 6277,
      "time_per_iteration": 2.6649529933929443
    },
    {
      "auxiliary_loss_clip": 0.01157502,
      "auxiliary_loss_mlp": 0.00886256,
      "balance_loss_clip": 1.04617715,
      "balance_loss_mlp": 1.00055301,
      "epoch": 0.7548848674322131,
      "flos": 25337204766720.0,
      "grad_norm": 1.6008084810607817,
      "language_loss": 0.83727419,
      "learning_rate": 5.976784302357767e-07,
      "loss": 0.85771179,
      "num_input_tokens_seen": 134951010,
      "step": 6278,
      "time_per_iteration": 2.699754238128662
    },
    {
      "auxiliary_loss_clip": 0.01166321,
      "auxiliary_loss_mlp": 0.01033025,
      "balance_loss_clip": 1.04770446,
      "balance_loss_mlp": 1.02583098,
      "epoch": 0.7550051103228521,
      "flos": 19573147428480.0,
      "grad_norm": 2.0634018229610387,
      "language_loss": 0.73211718,
      "learning_rate": 5.971231273432855e-07,
      "loss": 0.75411063,
      "num_input_tokens_seen": 134970495,
      "step": 6279,
      "time_per_iteration": 2.6216025352478027
    },
    {
      "auxiliary_loss_clip": 0.01062087,
      "auxiliary_loss_mlp": 0.01001178,
      "balance_loss_clip": 1.01142192,
      "balance_loss_mlp": 1.00017631,
      "epoch": 0.7551253532134913,
      "flos": 64150068648960.0,
      "grad_norm": 0.8062299648713358,
      "language_loss": 0.54508811,
      "learning_rate": 5.965680372661e-07,
      "loss": 0.56572074,
      "num_input_tokens_seen": 135028060,
      "step": 6280,
      "time_per_iteration": 3.1660430431365967
    },
    {
      "auxiliary_loss_clip": 0.01153762,
      "auxiliary_loss_mlp": 0.0102632,
      "balance_loss_clip": 1.04632413,
      "balance_loss_mlp": 1.01925969,
      "epoch": 0.7552455961041303,
      "flos": 26067986968320.0,
      "grad_norm": 1.9129075115845358,
      "language_loss": 0.56371975,
      "learning_rate": 5.960131600884266e-07,
      "loss": 0.58552057,
      "num_input_tokens_seen": 135047330,
      "step": 6281,
      "time_per_iteration": 2.711466073989868
    },
    {
      "auxiliary_loss_clip": 0.01147362,
      "auxiliary_loss_mlp": 0.0103097,
      "balance_loss_clip": 1.04541576,
      "balance_loss_mlp": 1.02339435,
      "epoch": 0.7553658389947694,
      "flos": 24498223822080.0,
      "grad_norm": 1.7587699574462323,
      "language_loss": 0.75721538,
      "learning_rate": 5.954584958944413e-07,
      "loss": 0.77899867,
      "num_input_tokens_seen": 135065995,
      "step": 6282,
      "time_per_iteration": 2.744541883468628
    },
    {
      "auxiliary_loss_clip": 0.0114591,
      "auxiliary_loss_mlp": 0.00886143,
      "balance_loss_clip": 1.04296494,
      "balance_loss_mlp": 1.00050592,
      "epoch": 0.7554860818854086,
      "flos": 21799465320960.0,
      "grad_norm": 2.221039084782658,
      "language_loss": 0.81966335,
      "learning_rate": 5.949040447682854e-07,
      "loss": 0.83998388,
      "num_input_tokens_seen": 135085820,
      "step": 6283,
      "time_per_iteration": 2.7139110565185547
    },
    {
      "auxiliary_loss_clip": 0.01159401,
      "auxiliary_loss_mlp": 0.01023197,
      "balance_loss_clip": 1.04621434,
      "balance_loss_mlp": 1.01566613,
      "epoch": 0.7556063247760476,
      "flos": 16362123114240.0,
      "grad_norm": 2.429881636510158,
      "language_loss": 0.68719387,
      "learning_rate": 5.943498067940686e-07,
      "loss": 0.7090199,
      "num_input_tokens_seen": 135102845,
      "step": 6284,
      "time_per_iteration": 2.6448781490325928
    },
    {
      "auxiliary_loss_clip": 0.01148563,
      "auxiliary_loss_mlp": 0.01031225,
      "balance_loss_clip": 1.04925263,
      "balance_loss_mlp": 1.02390218,
      "epoch": 0.7557265676666867,
      "flos": 27235155502080.0,
      "grad_norm": 2.282531836565916,
      "language_loss": 0.81623048,
      "learning_rate": 5.937957820558686e-07,
      "loss": 0.83802837,
      "num_input_tokens_seen": 135122190,
      "step": 6285,
      "time_per_iteration": 2.720487594604492
    },
    {
      "auxiliary_loss_clip": 0.01059633,
      "auxiliary_loss_mlp": 0.01000351,
      "balance_loss_clip": 1.01184654,
      "balance_loss_mlp": 0.99942702,
      "epoch": 0.7558468105573258,
      "flos": 62189131415040.0,
      "grad_norm": 0.8497189056346308,
      "language_loss": 0.653063,
      "learning_rate": 5.932419706377296e-07,
      "loss": 0.67366284,
      "num_input_tokens_seen": 135180495,
      "step": 6286,
      "time_per_iteration": 3.3046860694885254
    },
    {
      "auxiliary_loss_clip": 0.01141586,
      "auxiliary_loss_mlp": 0.0103551,
      "balance_loss_clip": 1.04816461,
      "balance_loss_mlp": 1.02761197,
      "epoch": 0.7559670534479649,
      "flos": 33249078823680.0,
      "grad_norm": 5.032932924140048,
      "language_loss": 0.73972791,
      "learning_rate": 5.92688372623666e-07,
      "loss": 0.76149887,
      "num_input_tokens_seen": 135199200,
      "step": 6287,
      "time_per_iteration": 2.898200035095215
    },
    {
      "auxiliary_loss_clip": 0.01163199,
      "auxiliary_loss_mlp": 0.01025774,
      "balance_loss_clip": 1.0456326,
      "balance_loss_mlp": 1.01828134,
      "epoch": 0.7560872963386039,
      "flos": 14064379027200.0,
      "grad_norm": 2.241949373212729,
      "language_loss": 0.74038732,
      "learning_rate": 5.921349880976574e-07,
      "loss": 0.76227701,
      "num_input_tokens_seen": 135217035,
      "step": 6288,
      "time_per_iteration": 3.6039512157440186
    },
    {
      "auxiliary_loss_clip": 0.01155833,
      "auxiliary_loss_mlp": 0.00887014,
      "balance_loss_clip": 1.04489136,
      "balance_loss_mlp": 1.00059128,
      "epoch": 0.7562075392292431,
      "flos": 20412307941120.0,
      "grad_norm": 1.918673327285502,
      "language_loss": 0.81815386,
      "learning_rate": 5.915818171436515e-07,
      "loss": 0.83858228,
      "num_input_tokens_seen": 135236370,
      "step": 6289,
      "time_per_iteration": 2.675118923187256
    },
    {
      "auxiliary_loss_clip": 0.01152197,
      "auxiliary_loss_mlp": 0.0102819,
      "balance_loss_clip": 1.04217887,
      "balance_loss_mlp": 1.02007771,
      "epoch": 0.7563277821198822,
      "flos": 20376792368640.0,
      "grad_norm": 1.8601537039041571,
      "language_loss": 0.74505651,
      "learning_rate": 5.910288598455642e-07,
      "loss": 0.76686037,
      "num_input_tokens_seen": 135255720,
      "step": 6290,
      "time_per_iteration": 2.7088773250579834
    },
    {
      "auxiliary_loss_clip": 0.01168273,
      "auxiliary_loss_mlp": 0.01029953,
      "balance_loss_clip": 1.04770136,
      "balance_loss_mlp": 1.02166224,
      "epoch": 0.7564480250105212,
      "flos": 18588261438720.0,
      "grad_norm": 2.334970545101898,
      "language_loss": 0.74629462,
      "learning_rate": 5.90476116287278e-07,
      "loss": 0.76827693,
      "num_input_tokens_seen": 135273320,
      "step": 6291,
      "time_per_iteration": 2.654965400695801
    },
    {
      "auxiliary_loss_clip": 0.01158581,
      "auxiliary_loss_mlp": 0.01030508,
      "balance_loss_clip": 1.05093622,
      "balance_loss_mlp": 1.02274179,
      "epoch": 0.7565682679011604,
      "flos": 21215521918080.0,
      "grad_norm": 1.6723553292799556,
      "language_loss": 0.67731249,
      "learning_rate": 5.899235865526456e-07,
      "loss": 0.69920337,
      "num_input_tokens_seen": 135292615,
      "step": 6292,
      "time_per_iteration": 5.0846710205078125
    },
    {
      "auxiliary_loss_clip": 0.01137601,
      "auxiliary_loss_mlp": 0.01025066,
      "balance_loss_clip": 1.04567909,
      "balance_loss_mlp": 1.01788998,
      "epoch": 0.7566885107917994,
      "flos": 20449008662400.0,
      "grad_norm": 1.7851589953765072,
      "language_loss": 0.82254738,
      "learning_rate": 5.893712707254825e-07,
      "loss": 0.84417403,
      "num_input_tokens_seen": 135310075,
      "step": 6293,
      "time_per_iteration": 2.8173093795776367
    },
    {
      "auxiliary_loss_clip": 0.01129912,
      "auxiliary_loss_mlp": 0.01028264,
      "balance_loss_clip": 1.03974771,
      "balance_loss_mlp": 1.01985955,
      "epoch": 0.7568087536824385,
      "flos": 19025832919680.0,
      "grad_norm": 2.4747799765426426,
      "language_loss": 0.66022521,
      "learning_rate": 5.888191688895769e-07,
      "loss": 0.68180692,
      "num_input_tokens_seen": 135327335,
      "step": 6294,
      "time_per_iteration": 2.75591778755188
    },
    {
      "auxiliary_loss_clip": 0.01172421,
      "auxiliary_loss_mlp": 0.01032465,
      "balance_loss_clip": 1.04740548,
      "balance_loss_mlp": 1.02448094,
      "epoch": 0.7569289965730777,
      "flos": 15225442248960.0,
      "grad_norm": 2.031608167128705,
      "language_loss": 0.62188756,
      "learning_rate": 5.882672811286813e-07,
      "loss": 0.6439364,
      "num_input_tokens_seen": 135343615,
      "step": 6295,
      "time_per_iteration": 2.597838878631592
    },
    {
      "auxiliary_loss_clip": 0.01174455,
      "auxiliary_loss_mlp": 0.01028659,
      "balance_loss_clip": 1.04834533,
      "balance_loss_mlp": 1.02029037,
      "epoch": 0.7570492394637167,
      "flos": 20769367086720.0,
      "grad_norm": 2.1309959825087654,
      "language_loss": 0.69497859,
      "learning_rate": 5.877156075265166e-07,
      "loss": 0.71700978,
      "num_input_tokens_seen": 135359880,
      "step": 6296,
      "time_per_iteration": 2.6134250164031982
    },
    {
      "auxiliary_loss_clip": 0.01150192,
      "auxiliary_loss_mlp": 0.0102721,
      "balance_loss_clip": 1.04334235,
      "balance_loss_mlp": 1.01974177,
      "epoch": 0.7571694823543558,
      "flos": 15664091137920.0,
      "grad_norm": 6.0357346932190605,
      "language_loss": 0.70093858,
      "learning_rate": 5.871641481667715e-07,
      "loss": 0.72271264,
      "num_input_tokens_seen": 135374325,
      "step": 6297,
      "time_per_iteration": 2.7714316844940186
    },
    {
      "auxiliary_loss_clip": 0.01138015,
      "auxiliary_loss_mlp": 0.01030766,
      "balance_loss_clip": 1.04437602,
      "balance_loss_mlp": 1.02261198,
      "epoch": 0.7572897252449949,
      "flos": 25409241492480.0,
      "grad_norm": 1.5873951994052269,
      "language_loss": 0.84458613,
      "learning_rate": 5.866129031331011e-07,
      "loss": 0.86627394,
      "num_input_tokens_seen": 135393980,
      "step": 6298,
      "time_per_iteration": 2.793412685394287
    },
    {
      "auxiliary_loss_clip": 0.01154158,
      "auxiliary_loss_mlp": 0.0102265,
      "balance_loss_clip": 1.04545426,
      "balance_loss_mlp": 1.01465654,
      "epoch": 0.757409968135634,
      "flos": 24279348297600.0,
      "grad_norm": 2.17274505133485,
      "language_loss": 0.83367139,
      "learning_rate": 5.8606187250913e-07,
      "loss": 0.85543942,
      "num_input_tokens_seen": 135412030,
      "step": 6299,
      "time_per_iteration": 2.628798723220825
    },
    {
      "auxiliary_loss_clip": 0.01163611,
      "auxiliary_loss_mlp": 0.00886887,
      "balance_loss_clip": 1.04970145,
      "balance_loss_mlp": 1.00064969,
      "epoch": 0.757530211026273,
      "flos": 24133766474880.0,
      "grad_norm": 1.9102423602649603,
      "language_loss": 0.83988565,
      "learning_rate": 5.855110563784482e-07,
      "loss": 0.86039066,
      "num_input_tokens_seen": 135430565,
      "step": 6300,
      "time_per_iteration": 3.6285512447357178
    },
    {
      "auxiliary_loss_clip": 0.01156907,
      "auxiliary_loss_mlp": 0.00886563,
      "balance_loss_clip": 1.04642165,
      "balance_loss_mlp": 1.00060165,
      "epoch": 0.7576504539169122,
      "flos": 23951807153280.0,
      "grad_norm": 3.8329057040809333,
      "language_loss": 0.64068556,
      "learning_rate": 5.849604548246156e-07,
      "loss": 0.6611203,
      "num_input_tokens_seen": 135451675,
      "step": 6301,
      "time_per_iteration": 2.6382598876953125
    },
    {
      "auxiliary_loss_clip": 0.01157076,
      "auxiliary_loss_mlp": 0.00886869,
      "balance_loss_clip": 1.04500818,
      "balance_loss_mlp": 1.00061572,
      "epoch": 0.7577706968075513,
      "flos": 21251360712960.0,
      "grad_norm": 2.3165096122064384,
      "language_loss": 0.80514199,
      "learning_rate": 5.844100679311565e-07,
      "loss": 0.82558143,
      "num_input_tokens_seen": 135470635,
      "step": 6302,
      "time_per_iteration": 2.7707812786102295
    },
    {
      "auxiliary_loss_clip": 0.01151944,
      "auxiliary_loss_mlp": 0.01024578,
      "balance_loss_clip": 1.04601979,
      "balance_loss_mlp": 1.01611423,
      "epoch": 0.7578909396981903,
      "flos": 18296595002880.0,
      "grad_norm": 5.7477298800586425,
      "language_loss": 0.76178282,
      "learning_rate": 5.838598957815637e-07,
      "loss": 0.78354806,
      "num_input_tokens_seen": 135487865,
      "step": 6303,
      "time_per_iteration": 2.6453347206115723
    },
    {
      "auxiliary_loss_clip": 0.01149533,
      "auxiliary_loss_mlp": 0.01027839,
      "balance_loss_clip": 1.0459137,
      "balance_loss_mlp": 1.02047801,
      "epoch": 0.7580111825888295,
      "flos": 25373869574400.0,
      "grad_norm": 2.2336948525893074,
      "language_loss": 0.85532165,
      "learning_rate": 5.833099384592996e-07,
      "loss": 0.87709534,
      "num_input_tokens_seen": 135508440,
      "step": 6304,
      "time_per_iteration": 2.6900293827056885
    },
    {
      "auxiliary_loss_clip": 0.01151088,
      "auxiliary_loss_mlp": 0.01030095,
      "balance_loss_clip": 1.04719496,
      "balance_loss_mlp": 1.02246618,
      "epoch": 0.7581314254794685,
      "flos": 23768662682880.0,
      "grad_norm": 2.474505062805523,
      "language_loss": 0.71768975,
      "learning_rate": 5.827601960477913e-07,
      "loss": 0.73950154,
      "num_input_tokens_seen": 135526365,
      "step": 6305,
      "time_per_iteration": 2.6600723266601562
    },
    {
      "auxiliary_loss_clip": 0.01160142,
      "auxiliary_loss_mlp": 0.01025425,
      "balance_loss_clip": 1.04576921,
      "balance_loss_mlp": 1.01782513,
      "epoch": 0.7582516683701076,
      "flos": 22054610603520.0,
      "grad_norm": 1.7818453170268442,
      "language_loss": 0.70719528,
      "learning_rate": 5.822106686304344e-07,
      "loss": 0.72905093,
      "num_input_tokens_seen": 135545655,
      "step": 6306,
      "time_per_iteration": 2.638484477996826
    },
    {
      "auxiliary_loss_clip": 0.01146825,
      "auxiliary_loss_mlp": 0.01028355,
      "balance_loss_clip": 1.04340196,
      "balance_loss_mlp": 1.02071404,
      "epoch": 0.7583719112607467,
      "flos": 31649725848960.0,
      "grad_norm": 1.9125240161920187,
      "language_loss": 0.58376974,
      "learning_rate": 5.816613562905919e-07,
      "loss": 0.60552156,
      "num_input_tokens_seen": 135566840,
      "step": 6307,
      "time_per_iteration": 2.757298707962036
    },
    {
      "auxiliary_loss_clip": 0.01138594,
      "auxiliary_loss_mlp": 0.01025303,
      "balance_loss_clip": 1.04664397,
      "balance_loss_mlp": 1.01795363,
      "epoch": 0.7584921541513858,
      "flos": 33068376478080.0,
      "grad_norm": 1.4635184694096173,
      "language_loss": 0.69905233,
      "learning_rate": 5.811122591115933e-07,
      "loss": 0.72069132,
      "num_input_tokens_seen": 135587825,
      "step": 6308,
      "time_per_iteration": 2.8352341651916504
    },
    {
      "auxiliary_loss_clip": 0.01143106,
      "auxiliary_loss_mlp": 0.01024059,
      "balance_loss_clip": 1.04733109,
      "balance_loss_mlp": 1.01643014,
      "epoch": 0.7586123970420249,
      "flos": 23326350606720.0,
      "grad_norm": 2.275531866840692,
      "language_loss": 0.71137762,
      "learning_rate": 5.805633771767376e-07,
      "loss": 0.73304927,
      "num_input_tokens_seen": 135605220,
      "step": 6309,
      "time_per_iteration": 2.718918561935425
    },
    {
      "auxiliary_loss_clip": 0.01152723,
      "auxiliary_loss_mlp": 0.01025906,
      "balance_loss_clip": 1.0468514,
      "balance_loss_mlp": 1.01845205,
      "epoch": 0.7587326399326639,
      "flos": 18334229477760.0,
      "grad_norm": 1.6328004900710125,
      "language_loss": 0.77970648,
      "learning_rate": 5.800147105692888e-07,
      "loss": 0.80149275,
      "num_input_tokens_seen": 135624795,
      "step": 6310,
      "time_per_iteration": 2.6400609016418457
    },
    {
      "auxiliary_loss_clip": 0.01164789,
      "auxiliary_loss_mlp": 0.0102456,
      "balance_loss_clip": 1.04598117,
      "balance_loss_mlp": 1.01747906,
      "epoch": 0.7588528828233031,
      "flos": 17275080119040.0,
      "grad_norm": 1.911875199254635,
      "language_loss": 0.79037952,
      "learning_rate": 5.794662593724795e-07,
      "loss": 0.81227303,
      "num_input_tokens_seen": 135643800,
      "step": 6311,
      "time_per_iteration": 2.6707990169525146
    },
    {
      "auxiliary_loss_clip": 0.01175733,
      "auxiliary_loss_mlp": 0.01027323,
      "balance_loss_clip": 1.05123973,
      "balance_loss_mlp": 1.01942515,
      "epoch": 0.7589731257139422,
      "flos": 17713621267200.0,
      "grad_norm": 2.1776957264993206,
      "language_loss": 0.75067544,
      "learning_rate": 5.789180236695091e-07,
      "loss": 0.77270591,
      "num_input_tokens_seen": 135660655,
      "step": 6312,
      "time_per_iteration": 2.5726537704467773
    },
    {
      "auxiliary_loss_clip": 0.0115835,
      "auxiliary_loss_mlp": 0.01030689,
      "balance_loss_clip": 1.04823065,
      "balance_loss_mlp": 1.02329254,
      "epoch": 0.7590933686045812,
      "flos": 15961072786560.0,
      "grad_norm": 2.2420904101000896,
      "language_loss": 0.84987926,
      "learning_rate": 5.78370003543544e-07,
      "loss": 0.87176967,
      "num_input_tokens_seen": 135679410,
      "step": 6313,
      "time_per_iteration": 2.622312545776367
    },
    {
      "auxiliary_loss_clip": 0.01165064,
      "auxiliary_loss_mlp": 0.00886783,
      "balance_loss_clip": 1.04843044,
      "balance_loss_mlp": 1.0006088,
      "epoch": 0.7592136114952204,
      "flos": 21068072588160.0,
      "grad_norm": 2.003720107659338,
      "language_loss": 0.83618051,
      "learning_rate": 5.778221990777203e-07,
      "loss": 0.85669899,
      "num_input_tokens_seen": 135697150,
      "step": 6314,
      "time_per_iteration": 2.602442979812622
    },
    {
      "auxiliary_loss_clip": 0.01154199,
      "auxiliary_loss_mlp": 0.01032038,
      "balance_loss_clip": 1.04778743,
      "balance_loss_mlp": 1.02420568,
      "epoch": 0.7593338543858594,
      "flos": 25297666871040.0,
      "grad_norm": 2.0067748227077624,
      "language_loss": 0.82373106,
      "learning_rate": 5.772746103551372e-07,
      "loss": 0.84559345,
      "num_input_tokens_seen": 135712545,
      "step": 6315,
      "time_per_iteration": 3.7596068382263184
    },
    {
      "auxiliary_loss_clip": 0.01150564,
      "auxiliary_loss_mlp": 0.01026343,
      "balance_loss_clip": 1.04592538,
      "balance_loss_mlp": 1.01846862,
      "epoch": 0.7594540972764985,
      "flos": 31832367528960.0,
      "grad_norm": 1.9379273234473056,
      "language_loss": 0.71707821,
      "learning_rate": 5.767272374588648e-07,
      "loss": 0.73884726,
      "num_input_tokens_seen": 135733950,
      "step": 6316,
      "time_per_iteration": 2.7473177909851074
    },
    {
      "auxiliary_loss_clip": 0.0116208,
      "auxiliary_loss_mlp": 0.01022955,
      "balance_loss_clip": 1.04876554,
      "balance_loss_mlp": 1.0154748,
      "epoch": 0.7595743401671377,
      "flos": 37597250880000.0,
      "grad_norm": 1.5728808658677624,
      "language_loss": 0.77771688,
      "learning_rate": 5.76180080471939e-07,
      "loss": 0.79956722,
      "num_input_tokens_seen": 135757120,
      "step": 6317,
      "time_per_iteration": 3.754882574081421
    },
    {
      "auxiliary_loss_clip": 0.01176639,
      "auxiliary_loss_mlp": 0.01028194,
      "balance_loss_clip": 1.0495379,
      "balance_loss_mlp": 1.01982594,
      "epoch": 0.7596945830577767,
      "flos": 18287724343680.0,
      "grad_norm": 2.050036293705036,
      "language_loss": 0.72399437,
      "learning_rate": 5.756331394773631e-07,
      "loss": 0.74604273,
      "num_input_tokens_seen": 135773335,
      "step": 6318,
      "time_per_iteration": 3.404940605163574
    },
    {
      "auxiliary_loss_clip": 0.01121993,
      "auxiliary_loss_mlp": 0.00887199,
      "balance_loss_clip": 1.03974867,
      "balance_loss_mlp": 1.00058556,
      "epoch": 0.7598148259484158,
      "flos": 22233122219520.0,
      "grad_norm": 2.0320600351036906,
      "language_loss": 0.76006418,
      "learning_rate": 5.750864145581071e-07,
      "loss": 0.78015614,
      "num_input_tokens_seen": 135792555,
      "step": 6319,
      "time_per_iteration": 2.87864351272583
    },
    {
      "auxiliary_loss_clip": 0.01172701,
      "auxiliary_loss_mlp": 0.01028025,
      "balance_loss_clip": 1.04985023,
      "balance_loss_mlp": 1.02000785,
      "epoch": 0.7599350688390549,
      "flos": 27161718145920.0,
      "grad_norm": 2.198304390737698,
      "language_loss": 0.86043257,
      "learning_rate": 5.745399057971085e-07,
      "loss": 0.88243979,
      "num_input_tokens_seen": 135813690,
      "step": 6320,
      "time_per_iteration": 2.6222338676452637
    },
    {
      "auxiliary_loss_clip": 0.01167198,
      "auxiliary_loss_mlp": 0.01033071,
      "balance_loss_clip": 1.04846609,
      "balance_loss_mlp": 1.02542365,
      "epoch": 0.760055311729694,
      "flos": 15560704817280.0,
      "grad_norm": 2.3200994572330047,
      "language_loss": 0.75340044,
      "learning_rate": 5.739936132772738e-07,
      "loss": 0.77540314,
      "num_input_tokens_seen": 135832255,
      "step": 6321,
      "time_per_iteration": 2.6441256999969482
    },
    {
      "auxiliary_loss_clip": 0.01171433,
      "auxiliary_loss_mlp": 0.01026662,
      "balance_loss_clip": 1.04731607,
      "balance_loss_mlp": 1.01830506,
      "epoch": 0.760175554620333,
      "flos": 25155496840320.0,
      "grad_norm": 2.0103001560386065,
      "language_loss": 0.74771571,
      "learning_rate": 5.734475370814733e-07,
      "loss": 0.76969659,
      "num_input_tokens_seen": 135851935,
      "step": 6322,
      "time_per_iteration": 2.605652332305908
    },
    {
      "auxiliary_loss_clip": 0.01163247,
      "auxiliary_loss_mlp": 0.01024752,
      "balance_loss_clip": 1.04503703,
      "balance_loss_mlp": 1.01689649,
      "epoch": 0.7602957975109722,
      "flos": 24353791234560.0,
      "grad_norm": 1.5626819712378062,
      "language_loss": 0.78539509,
      "learning_rate": 5.729016772925483e-07,
      "loss": 0.80727506,
      "num_input_tokens_seen": 135873510,
      "step": 6323,
      "time_per_iteration": 2.6687474250793457
    },
    {
      "auxiliary_loss_clip": 0.0113071,
      "auxiliary_loss_mlp": 0.01023922,
      "balance_loss_clip": 1.04467809,
      "balance_loss_mlp": 1.01622736,
      "epoch": 0.7604160404016113,
      "flos": 25192664438400.0,
      "grad_norm": 1.9599857898933541,
      "language_loss": 0.70861351,
      "learning_rate": 5.723560339933038e-07,
      "loss": 0.73015982,
      "num_input_tokens_seen": 135893845,
      "step": 6324,
      "time_per_iteration": 2.7357256412506104
    },
    {
      "auxiliary_loss_clip": 0.01162655,
      "auxiliary_loss_mlp": 0.00886808,
      "balance_loss_clip": 1.04705811,
      "balance_loss_mlp": 1.00064278,
      "epoch": 0.7605362832922503,
      "flos": 29861841363840.0,
      "grad_norm": 2.034948517086134,
      "language_loss": 0.65495485,
      "learning_rate": 5.71810607266513e-07,
      "loss": 0.67544949,
      "num_input_tokens_seen": 135912430,
      "step": 6325,
      "time_per_iteration": 2.693737268447876
    },
    {
      "auxiliary_loss_clip": 0.01166307,
      "auxiliary_loss_mlp": 0.01028273,
      "balance_loss_clip": 1.04803336,
      "balance_loss_mlp": 1.02110887,
      "epoch": 0.7606565261828895,
      "flos": 13917935278080.0,
      "grad_norm": 1.7655159486229222,
      "language_loss": 0.60470665,
      "learning_rate": 5.712653971949184e-07,
      "loss": 0.62665242,
      "num_input_tokens_seen": 135930550,
      "step": 6326,
      "time_per_iteration": 3.5322844982147217
    },
    {
      "auxiliary_loss_clip": 0.01158459,
      "auxiliary_loss_mlp": 0.01027131,
      "balance_loss_clip": 1.04636681,
      "balance_loss_mlp": 1.0186429,
      "epoch": 0.7607767690735285,
      "flos": 18551273408640.0,
      "grad_norm": 2.6148209748847764,
      "language_loss": 0.7540682,
      "learning_rate": 5.707204038612268e-07,
      "loss": 0.77592409,
      "num_input_tokens_seen": 135947980,
      "step": 6327,
      "time_per_iteration": 2.6131508350372314
    },
    {
      "auxiliary_loss_clip": 0.01163778,
      "auxiliary_loss_mlp": 0.01030946,
      "balance_loss_clip": 1.05254698,
      "balance_loss_mlp": 1.02259541,
      "epoch": 0.7608970119641676,
      "flos": 20922993555840.0,
      "grad_norm": 21.725427191180565,
      "language_loss": 0.73870391,
      "learning_rate": 5.701756273481138e-07,
      "loss": 0.76065117,
      "num_input_tokens_seen": 135965400,
      "step": 6328,
      "time_per_iteration": 2.674023389816284
    },
    {
      "auxiliary_loss_clip": 0.0115768,
      "auxiliary_loss_mlp": 0.01028601,
      "balance_loss_clip": 1.04555106,
      "balance_loss_mlp": 1.02130532,
      "epoch": 0.7610172548548068,
      "flos": 23807302738560.0,
      "grad_norm": 1.5765933820245928,
      "language_loss": 0.74200225,
      "learning_rate": 5.696310677382212e-07,
      "loss": 0.76386505,
      "num_input_tokens_seen": 135986795,
      "step": 6329,
      "time_per_iteration": 2.7215943336486816
    },
    {
      "auxiliary_loss_clip": 0.0104724,
      "auxiliary_loss_mlp": 0.01002247,
      "balance_loss_clip": 1.00955784,
      "balance_loss_mlp": 1.00138855,
      "epoch": 0.7611374977454458,
      "flos": 66496580426880.0,
      "grad_norm": 0.8706386634874997,
      "language_loss": 0.61687279,
      "learning_rate": 5.690867251141576e-07,
      "loss": 0.63736773,
      "num_input_tokens_seen": 136053450,
      "step": 6330,
      "time_per_iteration": 3.444178819656372
    },
    {
      "auxiliary_loss_clip": 0.01170526,
      "auxiliary_loss_mlp": 0.01027985,
      "balance_loss_clip": 1.04728937,
      "balance_loss_mlp": 1.01926458,
      "epoch": 0.7612577406360849,
      "flos": 15633136592640.0,
      "grad_norm": 2.778288362877919,
      "language_loss": 0.91443717,
      "learning_rate": 5.685425995585013e-07,
      "loss": 0.93642223,
      "num_input_tokens_seen": 136071375,
      "step": 6331,
      "time_per_iteration": 2.653944969177246
    },
    {
      "auxiliary_loss_clip": 0.010584,
      "auxiliary_loss_mlp": 0.01001898,
      "balance_loss_clip": 1.01167607,
      "balance_loss_mlp": 1.00086641,
      "epoch": 0.761377983526724,
      "flos": 60526253237760.0,
      "grad_norm": 0.7551961720046682,
      "language_loss": 0.58997011,
      "learning_rate": 5.679986911537935e-07,
      "loss": 0.61057317,
      "num_input_tokens_seen": 136138905,
      "step": 6332,
      "time_per_iteration": 3.327355146408081
    },
    {
      "auxiliary_loss_clip": 0.01121683,
      "auxiliary_loss_mlp": 0.01026218,
      "balance_loss_clip": 1.04210544,
      "balance_loss_mlp": 1.01871073,
      "epoch": 0.7614982264173631,
      "flos": 35772522019200.0,
      "grad_norm": 1.8435211692588924,
      "language_loss": 0.67051703,
      "learning_rate": 5.674549999825462e-07,
      "loss": 0.69199604,
      "num_input_tokens_seen": 136161720,
      "step": 6333,
      "time_per_iteration": 2.851423740386963
    },
    {
      "auxiliary_loss_clip": 0.01062431,
      "auxiliary_loss_mlp": 0.01000707,
      "balance_loss_clip": 1.01088679,
      "balance_loss_mlp": 0.99977112,
      "epoch": 0.7616184693080021,
      "flos": 67925502345600.0,
      "grad_norm": 0.9322756002925908,
      "language_loss": 0.71427298,
      "learning_rate": 5.669115261272363e-07,
      "loss": 0.73490441,
      "num_input_tokens_seen": 136222040,
      "step": 6334,
      "time_per_iteration": 3.1863443851470947
    },
    {
      "auxiliary_loss_clip": 0.01164101,
      "auxiliary_loss_mlp": 0.01027492,
      "balance_loss_clip": 1.04819512,
      "balance_loss_mlp": 1.01934409,
      "epoch": 0.7617387121986413,
      "flos": 20521979141760.0,
      "grad_norm": 2.1803980668949396,
      "language_loss": 0.72494996,
      "learning_rate": 5.663682696703081e-07,
      "loss": 0.74686587,
      "num_input_tokens_seen": 136240305,
      "step": 6335,
      "time_per_iteration": 2.6461689472198486
    },
    {
      "auxiliary_loss_clip": 0.01172456,
      "auxiliary_loss_mlp": 0.01025808,
      "balance_loss_clip": 1.04900908,
      "balance_loss_mlp": 1.01857233,
      "epoch": 0.7618589550892804,
      "flos": 18624495283200.0,
      "grad_norm": 2.126739263271237,
      "language_loss": 0.81831253,
      "learning_rate": 5.658252306941746e-07,
      "loss": 0.84029514,
      "num_input_tokens_seen": 136259625,
      "step": 6336,
      "time_per_iteration": 2.5619254112243652
    },
    {
      "auxiliary_loss_clip": 0.01137002,
      "auxiliary_loss_mlp": 0.01027867,
      "balance_loss_clip": 1.04435277,
      "balance_loss_mlp": 1.01997232,
      "epoch": 0.7619791979799194,
      "flos": 17453735389440.0,
      "grad_norm": 3.4568027330051656,
      "language_loss": 0.75752687,
      "learning_rate": 5.65282409281212e-07,
      "loss": 0.77917564,
      "num_input_tokens_seen": 136277090,
      "step": 6337,
      "time_per_iteration": 2.7632765769958496
    },
    {
      "auxiliary_loss_clip": 0.01149573,
      "auxiliary_loss_mlp": 0.01030466,
      "balance_loss_clip": 1.04425001,
      "balance_loss_mlp": 1.02258658,
      "epoch": 0.7620994408705585,
      "flos": 14137421333760.0,
      "grad_norm": 2.2340274422369992,
      "language_loss": 0.70378095,
      "learning_rate": 5.64739805513768e-07,
      "loss": 0.72558135,
      "num_input_tokens_seen": 136294635,
      "step": 6338,
      "time_per_iteration": 2.619784355163574
    },
    {
      "auxiliary_loss_clip": 0.01059205,
      "auxiliary_loss_mlp": 0.00876092,
      "balance_loss_clip": 1.01264954,
      "balance_loss_mlp": 1.00085568,
      "epoch": 0.7622196837611976,
      "flos": 70708792527360.0,
      "grad_norm": 0.7846425392583026,
      "language_loss": 0.55703521,
      "learning_rate": 5.641974194741541e-07,
      "loss": 0.57638824,
      "num_input_tokens_seen": 136350320,
      "step": 6339,
      "time_per_iteration": 3.1497738361358643
    },
    {
      "auxiliary_loss_clip": 0.01047914,
      "auxiliary_loss_mlp": 0.01004233,
      "balance_loss_clip": 1.01404083,
      "balance_loss_mlp": 1.00311852,
      "epoch": 0.7623399266518367,
      "flos": 60684150447360.0,
      "grad_norm": 0.7669232102589144,
      "language_loss": 0.63676691,
      "learning_rate": 5.636552512446502e-07,
      "loss": 0.65728843,
      "num_input_tokens_seen": 136411375,
      "step": 6340,
      "time_per_iteration": 3.1562740802764893
    },
    {
      "auxiliary_loss_clip": 0.01159476,
      "auxiliary_loss_mlp": 0.01027143,
      "balance_loss_clip": 1.04656923,
      "balance_loss_mlp": 1.01895952,
      "epoch": 0.7624601695424758,
      "flos": 26468893641600.0,
      "grad_norm": 2.16864670773548,
      "language_loss": 0.77846014,
      "learning_rate": 5.631133009075027e-07,
      "loss": 0.80032629,
      "num_input_tokens_seen": 136430560,
      "step": 6341,
      "time_per_iteration": 3.654719352722168
    },
    {
      "auxiliary_loss_clip": 0.01163211,
      "auxiliary_loss_mlp": 0.00886245,
      "balance_loss_clip": 1.04730439,
      "balance_loss_mlp": 1.00057316,
      "epoch": 0.7625804124331149,
      "flos": 19135755515520.0,
      "grad_norm": 1.8875528560774042,
      "language_loss": 0.69061613,
      "learning_rate": 5.625715685449242e-07,
      "loss": 0.71111065,
      "num_input_tokens_seen": 136448665,
      "step": 6342,
      "time_per_iteration": 2.7087061405181885
    },
    {
      "auxiliary_loss_clip": 0.01143928,
      "auxiliary_loss_mlp": 0.01030857,
      "balance_loss_clip": 1.04824114,
      "balance_loss_mlp": 1.02344227,
      "epoch": 0.762700655323754,
      "flos": 26213101914240.0,
      "grad_norm": 2.301514102261582,
      "language_loss": 0.71767426,
      "learning_rate": 5.620300542390966e-07,
      "loss": 0.73942202,
      "num_input_tokens_seen": 136469710,
      "step": 6343,
      "time_per_iteration": 3.766922950744629
    },
    {
      "auxiliary_loss_clip": 0.011498,
      "auxiliary_loss_mlp": 0.01022062,
      "balance_loss_clip": 1.04371929,
      "balance_loss_mlp": 1.01505816,
      "epoch": 0.762820898214393,
      "flos": 22382582711040.0,
      "grad_norm": 1.676452448116197,
      "language_loss": 0.848894,
      "learning_rate": 5.614887580721659e-07,
      "loss": 0.87061262,
      "num_input_tokens_seen": 136489855,
      "step": 6344,
      "time_per_iteration": 3.4775149822235107
    },
    {
      "auxiliary_loss_clip": 0.01139893,
      "auxiliary_loss_mlp": 0.01026165,
      "balance_loss_clip": 1.04923081,
      "balance_loss_mlp": 1.01803446,
      "epoch": 0.7629411411050322,
      "flos": 15700504550400.0,
      "grad_norm": 2.0213986920847336,
      "language_loss": 0.73537624,
      "learning_rate": 5.609476801262481e-07,
      "loss": 0.75703681,
      "num_input_tokens_seen": 136504715,
      "step": 6345,
      "time_per_iteration": 2.701165199279785
    },
    {
      "auxiliary_loss_clip": 0.01135821,
      "auxiliary_loss_mlp": 0.01030476,
      "balance_loss_clip": 1.04227257,
      "balance_loss_mlp": 1.02300191,
      "epoch": 0.7630613839956712,
      "flos": 13770342293760.0,
      "grad_norm": 2.1506204411527396,
      "language_loss": 0.64109832,
      "learning_rate": 5.604068204834223e-07,
      "loss": 0.66276133,
      "num_input_tokens_seen": 136521610,
      "step": 6346,
      "time_per_iteration": 2.6431517601013184
    },
    {
      "auxiliary_loss_clip": 0.01130382,
      "auxiliary_loss_mlp": 0.00887342,
      "balance_loss_clip": 1.04271662,
      "balance_loss_mlp": 1.00055623,
      "epoch": 0.7631816268863103,
      "flos": 14569569861120.0,
      "grad_norm": 3.3807838648008524,
      "language_loss": 0.77184713,
      "learning_rate": 5.598661792257367e-07,
      "loss": 0.79202437,
      "num_input_tokens_seen": 136538655,
      "step": 6347,
      "time_per_iteration": 2.6817376613616943
    },
    {
      "auxiliary_loss_clip": 0.01162804,
      "auxiliary_loss_mlp": 0.01033744,
      "balance_loss_clip": 1.04687357,
      "balance_loss_mlp": 1.02611482,
      "epoch": 0.7633018697769495,
      "flos": 19062210418560.0,
      "grad_norm": 2.143359090462286,
      "language_loss": 0.75702465,
      "learning_rate": 5.593257564352071e-07,
      "loss": 0.77899015,
      "num_input_tokens_seen": 136557095,
      "step": 6348,
      "time_per_iteration": 2.589473009109497
    },
    {
      "auxiliary_loss_clip": 0.01161806,
      "auxiliary_loss_mlp": 0.01026545,
      "balance_loss_clip": 1.04783487,
      "balance_loss_mlp": 1.0187186,
      "epoch": 0.7634221126675885,
      "flos": 22052958577920.0,
      "grad_norm": 1.7922065003259038,
      "language_loss": 0.75558144,
      "learning_rate": 5.58785552193815e-07,
      "loss": 0.77746499,
      "num_input_tokens_seen": 136577340,
      "step": 6349,
      "time_per_iteration": 2.681732416152954
    },
    {
      "auxiliary_loss_clip": 0.01172778,
      "auxiliary_loss_mlp": 0.01031434,
      "balance_loss_clip": 1.04768109,
      "balance_loss_mlp": 1.02357781,
      "epoch": 0.7635423555582276,
      "flos": 29382720825600.0,
      "grad_norm": 1.8280006254356733,
      "language_loss": 0.75665724,
      "learning_rate": 5.582455665835086e-07,
      "loss": 0.7786994,
      "num_input_tokens_seen": 136597635,
      "step": 6350,
      "time_per_iteration": 2.65786075592041
    },
    {
      "auxiliary_loss_clip": 0.01159561,
      "auxiliary_loss_mlp": 0.01028529,
      "balance_loss_clip": 1.04373372,
      "balance_loss_mlp": 1.02044618,
      "epoch": 0.7636625984488667,
      "flos": 17784903807360.0,
      "grad_norm": 2.593190066908741,
      "language_loss": 0.72630095,
      "learning_rate": 5.577057996862036e-07,
      "loss": 0.74818188,
      "num_input_tokens_seen": 136615260,
      "step": 6351,
      "time_per_iteration": 2.6652891635894775
    },
    {
      "auxiliary_loss_clip": 0.01170392,
      "auxiliary_loss_mlp": 0.01026373,
      "balance_loss_clip": 1.0489291,
      "balance_loss_mlp": 1.0191462,
      "epoch": 0.7637828413395058,
      "flos": 23734583654400.0,
      "grad_norm": 1.6250025354007012,
      "language_loss": 0.76134938,
      "learning_rate": 5.571662515837814e-07,
      "loss": 0.78331703,
      "num_input_tokens_seen": 136637220,
      "step": 6352,
      "time_per_iteration": 3.5595338344573975
    },
    {
      "auxiliary_loss_clip": 0.01152252,
      "auxiliary_loss_mlp": 0.01023988,
      "balance_loss_clip": 1.04448605,
      "balance_loss_mlp": 1.01704991,
      "epoch": 0.7639030842301449,
      "flos": 36283279461120.0,
      "grad_norm": 1.7341560219147003,
      "language_loss": 0.83624065,
      "learning_rate": 5.566269223580926e-07,
      "loss": 0.85800302,
      "num_input_tokens_seen": 136658930,
      "step": 6353,
      "time_per_iteration": 2.738095283508301
    },
    {
      "auxiliary_loss_clip": 0.01165097,
      "auxiliary_loss_mlp": 0.01024968,
      "balance_loss_clip": 1.04643428,
      "balance_loss_mlp": 1.01757431,
      "epoch": 0.764023327120784,
      "flos": 28878104609280.0,
      "grad_norm": 1.822618503942604,
      "language_loss": 0.75401342,
      "learning_rate": 5.560878120909511e-07,
      "loss": 0.77591407,
      "num_input_tokens_seen": 136681530,
      "step": 6354,
      "time_per_iteration": 2.6715478897094727
    },
    {
      "auxiliary_loss_clip": 0.01063611,
      "auxiliary_loss_mlp": 0.01001478,
      "balance_loss_clip": 1.01191616,
      "balance_loss_mlp": 1.00052452,
      "epoch": 0.7641435700114231,
      "flos": 64789711067520.0,
      "grad_norm": 0.8470525750742542,
      "language_loss": 0.58571446,
      "learning_rate": 5.55548920864141e-07,
      "loss": 0.60636532,
      "num_input_tokens_seen": 136742185,
      "step": 6355,
      "time_per_iteration": 3.2451775074005127
    },
    {
      "auxiliary_loss_clip": 0.01164067,
      "auxiliary_loss_mlp": 0.01026315,
      "balance_loss_clip": 1.05025029,
      "balance_loss_mlp": 1.01870346,
      "epoch": 0.7642638129020621,
      "flos": 16835784785280.0,
      "grad_norm": 1.9012071487400097,
      "language_loss": 0.77757835,
      "learning_rate": 5.550102487594113e-07,
      "loss": 0.79948223,
      "num_input_tokens_seen": 136760855,
      "step": 6356,
      "time_per_iteration": 2.6388936042785645
    },
    {
      "auxiliary_loss_clip": 0.01136516,
      "auxiliary_loss_mlp": 0.008865,
      "balance_loss_clip": 1.04044175,
      "balance_loss_mlp": 1.00070679,
      "epoch": 0.7643840557927013,
      "flos": 30408940391040.0,
      "grad_norm": 1.6169939616436,
      "language_loss": 0.71724278,
      "learning_rate": 5.54471795858477e-07,
      "loss": 0.73747295,
      "num_input_tokens_seen": 136780925,
      "step": 6357,
      "time_per_iteration": 2.8499183654785156
    },
    {
      "auxiliary_loss_clip": 0.01141426,
      "auxiliary_loss_mlp": 0.01027011,
      "balance_loss_clip": 1.04003263,
      "balance_loss_mlp": 1.01914585,
      "epoch": 0.7645042986833404,
      "flos": 16983234115200.0,
      "grad_norm": 2.6168351883380567,
      "language_loss": 0.82439846,
      "learning_rate": 5.539335622430235e-07,
      "loss": 0.84608281,
      "num_input_tokens_seen": 136799545,
      "step": 6358,
      "time_per_iteration": 2.6576499938964844
    },
    {
      "auxiliary_loss_clip": 0.01157554,
      "auxiliary_loss_mlp": 0.01027903,
      "balance_loss_clip": 1.04534578,
      "balance_loss_mlp": 1.02035701,
      "epoch": 0.7646245415739794,
      "flos": 17311493531520.0,
      "grad_norm": 1.9669366067764895,
      "language_loss": 0.74797922,
      "learning_rate": 5.533955479946975e-07,
      "loss": 0.7698338,
      "num_input_tokens_seen": 136818325,
      "step": 6359,
      "time_per_iteration": 2.6187620162963867
    },
    {
      "auxiliary_loss_clip": 0.01041687,
      "auxiliary_loss_mlp": 0.00876014,
      "balance_loss_clip": 1.01224577,
      "balance_loss_mlp": 1.00109828,
      "epoch": 0.7647447844646186,
      "flos": 70402332666240.0,
      "grad_norm": 0.8550153613524507,
      "language_loss": 0.65760183,
      "learning_rate": 5.528577531951173e-07,
      "loss": 0.67677879,
      "num_input_tokens_seen": 136878730,
      "step": 6360,
      "time_per_iteration": 3.2398667335510254
    },
    {
      "auxiliary_loss_clip": 0.01156742,
      "auxiliary_loss_mlp": 0.01025069,
      "balance_loss_clip": 1.04538751,
      "balance_loss_mlp": 1.01791084,
      "epoch": 0.7648650273552576,
      "flos": 17675914965120.0,
      "grad_norm": 2.660679491377742,
      "language_loss": 0.73680508,
      "learning_rate": 5.523201779258653e-07,
      "loss": 0.75862324,
      "num_input_tokens_seen": 136897705,
      "step": 6361,
      "time_per_iteration": 2.6622416973114014
    },
    {
      "auxiliary_loss_clip": 0.01170867,
      "auxiliary_loss_mlp": 0.01020798,
      "balance_loss_clip": 1.04668379,
      "balance_loss_mlp": 1.01340151,
      "epoch": 0.7649852702458967,
      "flos": 22162019247360.0,
      "grad_norm": 1.792239824096859,
      "language_loss": 0.84193039,
      "learning_rate": 5.517828222684912e-07,
      "loss": 0.86384702,
      "num_input_tokens_seen": 136918360,
      "step": 6362,
      "time_per_iteration": 2.664170026779175
    },
    {
      "auxiliary_loss_clip": 0.01053006,
      "auxiliary_loss_mlp": 0.01000321,
      "balance_loss_clip": 1.01170921,
      "balance_loss_mlp": 0.99935549,
      "epoch": 0.7651055131365359,
      "flos": 69848338227840.0,
      "grad_norm": 0.7751301554394535,
      "language_loss": 0.59019035,
      "learning_rate": 5.512456863045117e-07,
      "loss": 0.61072361,
      "num_input_tokens_seen": 136979050,
      "step": 6363,
      "time_per_iteration": 3.2261157035827637
    },
    {
      "auxiliary_loss_clip": 0.01171057,
      "auxiliary_loss_mlp": 0.01023718,
      "balance_loss_clip": 1.04652047,
      "balance_loss_mlp": 1.01595783,
      "epoch": 0.7652257560271749,
      "flos": 19464014931840.0,
      "grad_norm": 1.9350632206178657,
      "language_loss": 0.74155164,
      "learning_rate": 5.507087701154089e-07,
      "loss": 0.76349932,
      "num_input_tokens_seen": 136998970,
      "step": 6364,
      "time_per_iteration": 2.566126585006714
    },
    {
      "auxiliary_loss_clip": 0.01136794,
      "auxiliary_loss_mlp": 0.0102484,
      "balance_loss_clip": 1.04258585,
      "balance_loss_mlp": 1.01708233,
      "epoch": 0.765345998917814,
      "flos": 15961108700160.0,
      "grad_norm": 1.9699836563312583,
      "language_loss": 0.75047636,
      "learning_rate": 5.50172073782634e-07,
      "loss": 0.7720927,
      "num_input_tokens_seen": 137016950,
      "step": 6365,
      "time_per_iteration": 2.7902615070343018
    },
    {
      "auxiliary_loss_clip": 0.01144971,
      "auxiliary_loss_mlp": 0.01022301,
      "balance_loss_clip": 1.04803479,
      "balance_loss_mlp": 1.01525259,
      "epoch": 0.7654662418084531,
      "flos": 23659853408640.0,
      "grad_norm": 1.7484913074596065,
      "language_loss": 0.87984431,
      "learning_rate": 5.496355973876023e-07,
      "loss": 0.90151703,
      "num_input_tokens_seen": 137036205,
      "step": 6366,
      "time_per_iteration": 2.7188034057617188
    },
    {
      "auxiliary_loss_clip": 0.01139072,
      "auxiliary_loss_mlp": 0.00887911,
      "balance_loss_clip": 1.041291,
      "balance_loss_mlp": 1.00063813,
      "epoch": 0.7655864846990922,
      "flos": 41463608878080.0,
      "grad_norm": 1.7857052914560192,
      "language_loss": 0.71201247,
      "learning_rate": 5.490993410116984e-07,
      "loss": 0.73228234,
      "num_input_tokens_seen": 137059195,
      "step": 6367,
      "time_per_iteration": 3.791532516479492
    },
    {
      "auxiliary_loss_clip": 0.01136638,
      "auxiliary_loss_mlp": 0.01027968,
      "balance_loss_clip": 1.04415727,
      "balance_loss_mlp": 1.02012396,
      "epoch": 0.7657067275897312,
      "flos": 43142684088960.0,
      "grad_norm": 1.614154327707524,
      "language_loss": 0.69419223,
      "learning_rate": 5.485633047362704e-07,
      "loss": 0.71583831,
      "num_input_tokens_seen": 137081200,
      "step": 6368,
      "time_per_iteration": 2.8667798042297363
    },
    {
      "auxiliary_loss_clip": 0.01176334,
      "auxiliary_loss_mlp": 0.01031497,
      "balance_loss_clip": 1.05114555,
      "balance_loss_mlp": 1.02364087,
      "epoch": 0.7658269704803703,
      "flos": 17311780840320.0,
      "grad_norm": 2.267188543290844,
      "language_loss": 0.78381455,
      "learning_rate": 5.480274886426341e-07,
      "loss": 0.80589283,
      "num_input_tokens_seen": 137097840,
      "step": 6369,
      "time_per_iteration": 3.6141209602355957
    },
    {
      "auxiliary_loss_clip": 0.01159624,
      "auxiliary_loss_mlp": 0.0102521,
      "balance_loss_clip": 1.04908586,
      "balance_loss_mlp": 1.01781034,
      "epoch": 0.7659472133710095,
      "flos": 12568160977920.0,
      "grad_norm": 2.0884654080438136,
      "language_loss": 0.77830732,
      "learning_rate": 5.474918928120744e-07,
      "loss": 0.8001557,
      "num_input_tokens_seen": 137114335,
      "step": 6370,
      "time_per_iteration": 3.576974391937256
    },
    {
      "auxiliary_loss_clip": 0.01160881,
      "auxiliary_loss_mlp": 0.01023202,
      "balance_loss_clip": 1.04778457,
      "balance_loss_mlp": 1.0154717,
      "epoch": 0.7660674562616485,
      "flos": 22707430335360.0,
      "grad_norm": 2.3769030779926723,
      "language_loss": 0.87146759,
      "learning_rate": 5.469565173258392e-07,
      "loss": 0.8933084,
      "num_input_tokens_seen": 137132850,
      "step": 6371,
      "time_per_iteration": 2.6306536197662354
    },
    {
      "auxiliary_loss_clip": 0.01177176,
      "auxiliary_loss_mlp": 0.01027332,
      "balance_loss_clip": 1.04973817,
      "balance_loss_mlp": 1.01941907,
      "epoch": 0.7661876991522876,
      "flos": 17056455989760.0,
      "grad_norm": 1.9733432551688581,
      "language_loss": 0.63609123,
      "learning_rate": 5.464213622651454e-07,
      "loss": 0.65813637,
      "num_input_tokens_seen": 137150665,
      "step": 6372,
      "time_per_iteration": 2.5630297660827637
    },
    {
      "auxiliary_loss_clip": 0.01150041,
      "auxiliary_loss_mlp": 0.01031497,
      "balance_loss_clip": 1.04570055,
      "balance_loss_mlp": 1.02357519,
      "epoch": 0.7663079420429267,
      "flos": 20084228092800.0,
      "grad_norm": 1.8896417713675158,
      "language_loss": 0.84470212,
      "learning_rate": 5.458864277111753e-07,
      "loss": 0.86651754,
      "num_input_tokens_seen": 137168500,
      "step": 6373,
      "time_per_iteration": 2.722702980041504
    },
    {
      "auxiliary_loss_clip": 0.01148485,
      "auxiliary_loss_mlp": 0.00886557,
      "balance_loss_clip": 1.04544067,
      "balance_loss_mlp": 1.00055575,
      "epoch": 0.7664281849335658,
      "flos": 12677473042560.0,
      "grad_norm": 2.3652045895650904,
      "language_loss": 0.69036645,
      "learning_rate": 5.453517137450769e-07,
      "loss": 0.71071684,
      "num_input_tokens_seen": 137185075,
      "step": 6374,
      "time_per_iteration": 2.6232972145080566
    },
    {
      "auxiliary_loss_clip": 0.01164277,
      "auxiliary_loss_mlp": 0.01025189,
      "balance_loss_clip": 1.04934621,
      "balance_loss_mlp": 1.01689196,
      "epoch": 0.7665484278242048,
      "flos": 22345271458560.0,
      "grad_norm": 1.7944434830562679,
      "language_loss": 0.76091647,
      "learning_rate": 5.448172204479684e-07,
      "loss": 0.78281111,
      "num_input_tokens_seen": 137204355,
      "step": 6375,
      "time_per_iteration": 2.604576587677002
    },
    {
      "auxiliary_loss_clip": 0.01171338,
      "auxiliary_loss_mlp": 0.01028465,
      "balance_loss_clip": 1.04809809,
      "balance_loss_mlp": 1.02065682,
      "epoch": 0.766668670714844,
      "flos": 23617909301760.0,
      "grad_norm": 2.0019615719725983,
      "language_loss": 0.74441385,
      "learning_rate": 5.442829479009294e-07,
      "loss": 0.76641184,
      "num_input_tokens_seen": 137223135,
      "step": 6376,
      "time_per_iteration": 2.5978713035583496
    },
    {
      "auxiliary_loss_clip": 0.01170871,
      "auxiliary_loss_mlp": 0.0102935,
      "balance_loss_clip": 1.04764378,
      "balance_loss_mlp": 1.02119577,
      "epoch": 0.7667889136054831,
      "flos": 19427134642560.0,
      "grad_norm": 1.8360531319320281,
      "language_loss": 0.71888387,
      "learning_rate": 5.437488961850103e-07,
      "loss": 0.74088609,
      "num_input_tokens_seen": 137242935,
      "step": 6377,
      "time_per_iteration": 2.6107115745544434
    },
    {
      "auxiliary_loss_clip": 0.01132449,
      "auxiliary_loss_mlp": 0.01028309,
      "balance_loss_clip": 1.04272425,
      "balance_loss_mlp": 1.02070928,
      "epoch": 0.7669091564961221,
      "flos": 26866352609280.0,
      "grad_norm": 1.8251183186541873,
      "language_loss": 0.75339818,
      "learning_rate": 5.432150653812258e-07,
      "loss": 0.7750057,
      "num_input_tokens_seen": 137262970,
      "step": 6378,
      "time_per_iteration": 3.620673656463623
    },
    {
      "auxiliary_loss_clip": 0.01158712,
      "auxiliary_loss_mlp": 0.01023116,
      "balance_loss_clip": 1.04670954,
      "balance_loss_mlp": 1.01531386,
      "epoch": 0.7670293993867613,
      "flos": 12385303816320.0,
      "grad_norm": 6.64082226589768,
      "language_loss": 0.82474834,
      "learning_rate": 5.42681455570557e-07,
      "loss": 0.84656656,
      "num_input_tokens_seen": 137279500,
      "step": 6379,
      "time_per_iteration": 2.5864315032958984
    },
    {
      "auxiliary_loss_clip": 0.01169185,
      "auxiliary_loss_mlp": 0.01022762,
      "balance_loss_clip": 1.04690838,
      "balance_loss_mlp": 1.01550758,
      "epoch": 0.7671496422774003,
      "flos": 21762944167680.0,
      "grad_norm": 2.189576522268737,
      "language_loss": 0.64870536,
      "learning_rate": 5.42148066833954e-07,
      "loss": 0.67062485,
      "num_input_tokens_seen": 137298745,
      "step": 6380,
      "time_per_iteration": 2.58793568611145
    },
    {
      "auxiliary_loss_clip": 0.01173773,
      "auxiliary_loss_mlp": 0.01032826,
      "balance_loss_clip": 1.05048585,
      "balance_loss_mlp": 1.02519655,
      "epoch": 0.7672698851680394,
      "flos": 21069221823360.0,
      "grad_norm": 1.9828201997605324,
      "language_loss": 0.7528922,
      "learning_rate": 5.416148992523289e-07,
      "loss": 0.77495819,
      "num_input_tokens_seen": 137317320,
      "step": 6381,
      "time_per_iteration": 2.5892579555511475
    },
    {
      "auxiliary_loss_clip": 0.0111601,
      "auxiliary_loss_mlp": 0.01028388,
      "balance_loss_clip": 1.04175436,
      "balance_loss_mlp": 1.02069855,
      "epoch": 0.7673901280586786,
      "flos": 16976697840000.0,
      "grad_norm": 1.8140158378339413,
      "language_loss": 0.78512973,
      "learning_rate": 5.410819529065644e-07,
      "loss": 0.80657375,
      "num_input_tokens_seen": 137335275,
      "step": 6382,
      "time_per_iteration": 2.8843984603881836
    },
    {
      "auxiliary_loss_clip": 0.01135541,
      "auxiliary_loss_mlp": 0.01031057,
      "balance_loss_clip": 1.04249406,
      "balance_loss_mlp": 1.02311802,
      "epoch": 0.7675103709493176,
      "flos": 29242669697280.0,
      "grad_norm": 2.040369678195277,
      "language_loss": 0.65046412,
      "learning_rate": 5.405492278775079e-07,
      "loss": 0.67213011,
      "num_input_tokens_seen": 137355055,
      "step": 6383,
      "time_per_iteration": 3.0015268325805664
    },
    {
      "auxiliary_loss_clip": 0.01155102,
      "auxiliary_loss_mlp": 0.01027723,
      "balance_loss_clip": 1.04553008,
      "balance_loss_mlp": 1.01915812,
      "epoch": 0.7676306138399567,
      "flos": 29023004073600.0,
      "grad_norm": 2.047859042501235,
      "language_loss": 0.80155712,
      "learning_rate": 5.400167242459732e-07,
      "loss": 0.82338536,
      "num_input_tokens_seen": 137374015,
      "step": 6384,
      "time_per_iteration": 2.789787530899048
    },
    {
      "auxiliary_loss_clip": 0.01160697,
      "auxiliary_loss_mlp": 0.0102606,
      "balance_loss_clip": 1.0470593,
      "balance_loss_mlp": 1.01814413,
      "epoch": 0.7677508567305958,
      "flos": 22565116650240.0,
      "grad_norm": 1.6769079987383397,
      "language_loss": 0.8063668,
      "learning_rate": 5.394844420927405e-07,
      "loss": 0.82823437,
      "num_input_tokens_seen": 137393625,
      "step": 6385,
      "time_per_iteration": 2.660101890563965
    },
    {
      "auxiliary_loss_clip": 0.0117209,
      "auxiliary_loss_mlp": 0.01027453,
      "balance_loss_clip": 1.0484544,
      "balance_loss_mlp": 1.01925683,
      "epoch": 0.7678710996212349,
      "flos": 25411432222080.0,
      "grad_norm": 2.1858314083225,
      "language_loss": 0.73328644,
      "learning_rate": 5.389523814985562e-07,
      "loss": 0.75528193,
      "num_input_tokens_seen": 137413045,
      "step": 6386,
      "time_per_iteration": 2.5869300365448
    },
    {
      "auxiliary_loss_clip": 0.01129552,
      "auxiliary_loss_mlp": 0.01031693,
      "balance_loss_clip": 1.04048324,
      "balance_loss_mlp": 1.02358139,
      "epoch": 0.767991342511874,
      "flos": 26756825063040.0,
      "grad_norm": 2.1133756666152457,
      "language_loss": 0.76465374,
      "learning_rate": 5.384205425441344e-07,
      "loss": 0.78626621,
      "num_input_tokens_seen": 137433955,
      "step": 6387,
      "time_per_iteration": 2.7935032844543457
    },
    {
      "auxiliary_loss_clip": 0.01155983,
      "auxiliary_loss_mlp": 0.01029309,
      "balance_loss_clip": 1.04756308,
      "balance_loss_mlp": 1.02157187,
      "epoch": 0.7681115854025131,
      "flos": 26359509749760.0,
      "grad_norm": 1.5714138116468326,
      "language_loss": 0.84246278,
      "learning_rate": 5.378889253101537e-07,
      "loss": 0.86431575,
      "num_input_tokens_seen": 137454510,
      "step": 6388,
      "time_per_iteration": 2.683889627456665
    },
    {
      "auxiliary_loss_clip": 0.01161713,
      "auxiliary_loss_mlp": 0.01028084,
      "balance_loss_clip": 1.04506683,
      "balance_loss_mlp": 1.02047515,
      "epoch": 0.7682318282931522,
      "flos": 23257043314560.0,
      "grad_norm": 1.6097022623992974,
      "language_loss": 0.80959296,
      "learning_rate": 5.373575298772617e-07,
      "loss": 0.83149099,
      "num_input_tokens_seen": 137473630,
      "step": 6389,
      "time_per_iteration": 2.6697194576263428
    },
    {
      "auxiliary_loss_clip": 0.01061792,
      "auxiliary_loss_mlp": 0.0100243,
      "balance_loss_clip": 1.01050723,
      "balance_loss_mlp": 1.00144029,
      "epoch": 0.7683520711837912,
      "flos": 70072457137920.0,
      "grad_norm": 0.7539040707480054,
      "language_loss": 0.61313689,
      "learning_rate": 5.368263563260689e-07,
      "loss": 0.63377911,
      "num_input_tokens_seen": 137538765,
      "step": 6390,
      "time_per_iteration": 3.3045666217803955
    },
    {
      "auxiliary_loss_clip": 0.01161726,
      "auxiliary_loss_mlp": 0.010308,
      "balance_loss_clip": 1.04459715,
      "balance_loss_mlp": 1.0226047,
      "epoch": 0.7684723140744304,
      "flos": 18624890332800.0,
      "grad_norm": 1.5116379275180918,
      "language_loss": 0.6422658,
      "learning_rate": 5.362954047371537e-07,
      "loss": 0.66419107,
      "num_input_tokens_seen": 137557875,
      "step": 6391,
      "time_per_iteration": 2.5981485843658447
    },
    {
      "auxiliary_loss_clip": 0.01144668,
      "auxiliary_loss_mlp": 0.01037281,
      "balance_loss_clip": 1.05030656,
      "balance_loss_mlp": 1.02890658,
      "epoch": 0.7685925569650695,
      "flos": 27452989532160.0,
      "grad_norm": 1.75561566437813,
      "language_loss": 0.71917278,
      "learning_rate": 5.357646751910627e-07,
      "loss": 0.74099231,
      "num_input_tokens_seen": 137579055,
      "step": 6392,
      "time_per_iteration": 2.7391364574432373
    },
    {
      "auxiliary_loss_clip": 0.01148321,
      "auxiliary_loss_mlp": 0.01028529,
      "balance_loss_clip": 1.0436697,
      "balance_loss_mlp": 1.02058983,
      "epoch": 0.7687127998557085,
      "flos": 24535714642560.0,
      "grad_norm": 2.290378220406888,
      "language_loss": 0.79870582,
      "learning_rate": 5.352341677683061e-07,
      "loss": 0.82047427,
      "num_input_tokens_seen": 137600355,
      "step": 6393,
      "time_per_iteration": 3.8681585788726807
    },
    {
      "auxiliary_loss_clip": 0.0114902,
      "auxiliary_loss_mlp": 0.01026778,
      "balance_loss_clip": 1.04317808,
      "balance_loss_mlp": 1.01923156,
      "epoch": 0.7688330427463477,
      "flos": 25155963717120.0,
      "grad_norm": 1.8588382390025666,
      "language_loss": 0.79205203,
      "learning_rate": 5.347038825493617e-07,
      "loss": 0.81380999,
      "num_input_tokens_seen": 137621885,
      "step": 6394,
      "time_per_iteration": 3.738504409790039
    },
    {
      "auxiliary_loss_clip": 0.01150662,
      "auxiliary_loss_mlp": 0.01029451,
      "balance_loss_clip": 1.04914451,
      "balance_loss_mlp": 1.02188122,
      "epoch": 0.7689532856369867,
      "flos": 21211284113280.0,
      "grad_norm": 1.9778015218738574,
      "language_loss": 0.6876812,
      "learning_rate": 5.341738196146732e-07,
      "loss": 0.70948237,
      "num_input_tokens_seen": 137640230,
      "step": 6395,
      "time_per_iteration": 2.7617027759552
    },
    {
      "auxiliary_loss_clip": 0.01157221,
      "auxiliary_loss_mlp": 0.01027666,
      "balance_loss_clip": 1.04398203,
      "balance_loss_mlp": 1.01901722,
      "epoch": 0.7690735285276258,
      "flos": 25119083427840.0,
      "grad_norm": 9.245587240055185,
      "language_loss": 0.73481226,
      "learning_rate": 5.336439790446503e-07,
      "loss": 0.75666118,
      "num_input_tokens_seen": 137659330,
      "step": 6396,
      "time_per_iteration": 3.466494560241699
    },
    {
      "auxiliary_loss_clip": 0.01138122,
      "auxiliary_loss_mlp": 0.01027616,
      "balance_loss_clip": 1.04028022,
      "balance_loss_mlp": 1.01983154,
      "epoch": 0.769193771418265,
      "flos": 54744020640000.0,
      "grad_norm": 1.867029192695805,
      "language_loss": 0.62818098,
      "learning_rate": 5.331143609196711e-07,
      "loss": 0.64983833,
      "num_input_tokens_seen": 137683145,
      "step": 6397,
      "time_per_iteration": 3.00907039642334
    },
    {
      "auxiliary_loss_clip": 0.01164969,
      "auxiliary_loss_mlp": 0.01026276,
      "balance_loss_clip": 1.0500083,
      "balance_loss_mlp": 1.01809204,
      "epoch": 0.769314014308904,
      "flos": 37341890115840.0,
      "grad_norm": 1.7065128978325694,
      "language_loss": 0.76957357,
      "learning_rate": 5.325849653200758e-07,
      "loss": 0.79148602,
      "num_input_tokens_seen": 137707095,
      "step": 6398,
      "time_per_iteration": 2.7467892169952393
    },
    {
      "auxiliary_loss_clip": 0.01173713,
      "auxiliary_loss_mlp": 0.01027407,
      "balance_loss_clip": 1.04976869,
      "balance_loss_mlp": 1.01980793,
      "epoch": 0.7694342571995431,
      "flos": 20631686256000.0,
      "grad_norm": 1.8579114225536906,
      "language_loss": 0.76421076,
      "learning_rate": 5.32055792326175e-07,
      "loss": 0.78622198,
      "num_input_tokens_seen": 137725520,
      "step": 6399,
      "time_per_iteration": 2.6007864475250244
    },
    {
      "auxiliary_loss_clip": 0.01157612,
      "auxiliary_loss_mlp": 0.01022615,
      "balance_loss_clip": 1.04871452,
      "balance_loss_mlp": 1.01437163,
      "epoch": 0.7695545000901821,
      "flos": 24207706621440.0,
      "grad_norm": 1.785277027302745,
      "language_loss": 0.72608262,
      "learning_rate": 5.315268420182437e-07,
      "loss": 0.74788499,
      "num_input_tokens_seen": 137744195,
      "step": 6400,
      "time_per_iteration": 2.669374942779541
    },
    {
      "auxiliary_loss_clip": 0.01150197,
      "auxiliary_loss_mlp": 0.00886611,
      "balance_loss_clip": 1.04563522,
      "balance_loss_mlp": 1.00058866,
      "epoch": 0.7696747429808213,
      "flos": 28001273708160.0,
      "grad_norm": 1.9066997896346558,
      "language_loss": 0.76663184,
      "learning_rate": 5.309981144765221e-07,
      "loss": 0.78699994,
      "num_input_tokens_seen": 137764340,
      "step": 6401,
      "time_per_iteration": 2.744053363800049
    },
    {
      "auxiliary_loss_clip": 0.01138506,
      "auxiliary_loss_mlp": 0.01023804,
      "balance_loss_clip": 1.04056001,
      "balance_loss_mlp": 1.01632404,
      "epoch": 0.7697949858714603,
      "flos": 11509550323200.0,
      "grad_norm": 2.390408120022908,
      "language_loss": 0.7544564,
      "learning_rate": 5.304696097812196e-07,
      "loss": 0.77607942,
      "num_input_tokens_seen": 137780940,
      "step": 6402,
      "time_per_iteration": 2.8048105239868164
    },
    {
      "auxiliary_loss_clip": 0.01152285,
      "auxiliary_loss_mlp": 0.01026976,
      "balance_loss_clip": 1.04480064,
      "balance_loss_mlp": 1.01891494,
      "epoch": 0.7699152287620994,
      "flos": 26688271956480.0,
      "grad_norm": 3.256399659089131,
      "language_loss": 0.6053648,
      "learning_rate": 5.299413280125078e-07,
      "loss": 0.62715739,
      "num_input_tokens_seen": 137799250,
      "step": 6403,
      "time_per_iteration": 2.7234866619110107
    },
    {
      "auxiliary_loss_clip": 0.01153817,
      "auxiliary_loss_mlp": 0.0102269,
      "balance_loss_clip": 1.04639053,
      "balance_loss_mlp": 1.01498914,
      "epoch": 0.7700354716527386,
      "flos": 16544944362240.0,
      "grad_norm": 2.075739397299474,
      "language_loss": 0.72983092,
      "learning_rate": 5.294132692505284e-07,
      "loss": 0.75159597,
      "num_input_tokens_seen": 137817660,
      "step": 6404,
      "time_per_iteration": 3.5812861919403076
    },
    {
      "auxiliary_loss_clip": 0.01123461,
      "auxiliary_loss_mlp": 0.01029729,
      "balance_loss_clip": 1.04000258,
      "balance_loss_mlp": 1.02141452,
      "epoch": 0.7701557145433776,
      "flos": 19242733196160.0,
      "grad_norm": 2.0381869526603418,
      "language_loss": 0.79253757,
      "learning_rate": 5.288854335753861e-07,
      "loss": 0.81406951,
      "num_input_tokens_seen": 137835920,
      "step": 6405,
      "time_per_iteration": 2.758613109588623
    },
    {
      "auxiliary_loss_clip": 0.01165696,
      "auxiliary_loss_mlp": 0.01027584,
      "balance_loss_clip": 1.04744101,
      "balance_loss_mlp": 1.01984131,
      "epoch": 0.7702759574340167,
      "flos": 31685744211840.0,
      "grad_norm": 1.5748043552154487,
      "language_loss": 0.75710499,
      "learning_rate": 5.283578210671551e-07,
      "loss": 0.77903777,
      "num_input_tokens_seen": 137858160,
      "step": 6406,
      "time_per_iteration": 2.7227823734283447
    },
    {
      "auxiliary_loss_clip": 0.01158556,
      "auxiliary_loss_mlp": 0.01030002,
      "balance_loss_clip": 1.04771221,
      "balance_loss_mlp": 1.02210426,
      "epoch": 0.7703962003246558,
      "flos": 16800089644800.0,
      "grad_norm": 2.050375393483411,
      "language_loss": 0.76781142,
      "learning_rate": 5.278304318058719e-07,
      "loss": 0.78969705,
      "num_input_tokens_seen": 137876015,
      "step": 6407,
      "time_per_iteration": 2.6272263526916504
    },
    {
      "auxiliary_loss_clip": 0.01118547,
      "auxiliary_loss_mlp": 0.01024854,
      "balance_loss_clip": 1.0378108,
      "balance_loss_mlp": 1.01637793,
      "epoch": 0.7705164432152949,
      "flos": 35736072693120.0,
      "grad_norm": 1.7683029461050037,
      "language_loss": 0.78838408,
      "learning_rate": 5.273032658715411e-07,
      "loss": 0.80981815,
      "num_input_tokens_seen": 137898825,
      "step": 6408,
      "time_per_iteration": 2.8898496627807617
    },
    {
      "auxiliary_loss_clip": 0.01129604,
      "auxiliary_loss_mlp": 0.01025821,
      "balance_loss_clip": 1.04279423,
      "balance_loss_mlp": 1.01807809,
      "epoch": 0.7706366861059339,
      "flos": 23365960329600.0,
      "grad_norm": 1.929657404503869,
      "language_loss": 0.76517874,
      "learning_rate": 5.267763233441347e-07,
      "loss": 0.78673297,
      "num_input_tokens_seen": 137919455,
      "step": 6409,
      "time_per_iteration": 2.7654848098754883
    },
    {
      "auxiliary_loss_clip": 0.01167713,
      "auxiliary_loss_mlp": 0.01026362,
      "balance_loss_clip": 1.05021143,
      "balance_loss_mlp": 1.01823473,
      "epoch": 0.7707569289965731,
      "flos": 22929897219840.0,
      "grad_norm": 2.2949873683845365,
      "language_loss": 0.69915885,
      "learning_rate": 5.26249604303588e-07,
      "loss": 0.72109962,
      "num_input_tokens_seen": 137937960,
      "step": 6410,
      "time_per_iteration": 2.6529924869537354
    },
    {
      "auxiliary_loss_clip": 0.01174305,
      "auxiliary_loss_mlp": 0.01023006,
      "balance_loss_clip": 1.04907262,
      "balance_loss_mlp": 1.01538253,
      "epoch": 0.7708771718872122,
      "flos": 17420661941760.0,
      "grad_norm": 2.2033194403457306,
      "language_loss": 0.77868903,
      "learning_rate": 5.257231088298057e-07,
      "loss": 0.80066216,
      "num_input_tokens_seen": 137956370,
      "step": 6411,
      "time_per_iteration": 2.614736318588257
    },
    {
      "auxiliary_loss_clip": 0.01046017,
      "auxiliary_loss_mlp": 0.01001673,
      "balance_loss_clip": 1.01077294,
      "balance_loss_mlp": 1.00073087,
      "epoch": 0.7709974147778512,
      "flos": 72241316248320.0,
      "grad_norm": 0.8302882151305138,
      "language_loss": 0.53877443,
      "learning_rate": 5.25196837002655e-07,
      "loss": 0.55925131,
      "num_input_tokens_seen": 138016080,
      "step": 6412,
      "time_per_iteration": 3.320255994796753
    },
    {
      "auxiliary_loss_clip": 0.01150057,
      "auxiliary_loss_mlp": 0.0103937,
      "balance_loss_clip": 1.04602683,
      "balance_loss_mlp": 1.03101373,
      "epoch": 0.7711176576684904,
      "flos": 39859694876160.0,
      "grad_norm": 1.9714014912253028,
      "language_loss": 0.68177998,
      "learning_rate": 5.24670788901971e-07,
      "loss": 0.70367426,
      "num_input_tokens_seen": 138039170,
      "step": 6413,
      "time_per_iteration": 2.8464417457580566
    },
    {
      "auxiliary_loss_clip": 0.01153121,
      "auxiliary_loss_mlp": 0.01032908,
      "balance_loss_clip": 1.04655254,
      "balance_loss_mlp": 1.02423561,
      "epoch": 0.7712379005591294,
      "flos": 36976391274240.0,
      "grad_norm": 2.531350747869754,
      "language_loss": 0.68813503,
      "learning_rate": 5.241449646075557e-07,
      "loss": 0.70999539,
      "num_input_tokens_seen": 138062395,
      "step": 6414,
      "time_per_iteration": 2.7734415531158447
    },
    {
      "auxiliary_loss_clip": 0.01170238,
      "auxiliary_loss_mlp": 0.01033028,
      "balance_loss_clip": 1.04834914,
      "balance_loss_mlp": 1.02471364,
      "epoch": 0.7713581434497685,
      "flos": 22776773541120.0,
      "grad_norm": 2.067275482022024,
      "language_loss": 0.7269488,
      "learning_rate": 5.236193641991762e-07,
      "loss": 0.74898148,
      "num_input_tokens_seen": 138080325,
      "step": 6415,
      "time_per_iteration": 2.652683973312378
    },
    {
      "auxiliary_loss_clip": 0.0114936,
      "auxiliary_loss_mlp": 0.01025262,
      "balance_loss_clip": 1.04583216,
      "balance_loss_mlp": 1.01744819,
      "epoch": 0.7714783863404077,
      "flos": 24097460803200.0,
      "grad_norm": 2.1494428583283853,
      "language_loss": 0.69846344,
      "learning_rate": 5.23093987756565e-07,
      "loss": 0.7202096,
      "num_input_tokens_seen": 138099020,
      "step": 6416,
      "time_per_iteration": 2.7017037868499756
    },
    {
      "auxiliary_loss_clip": 0.01149411,
      "auxiliary_loss_mlp": 0.01030564,
      "balance_loss_clip": 1.04181814,
      "balance_loss_mlp": 1.02108657,
      "epoch": 0.7715986292310467,
      "flos": 21063655215360.0,
      "grad_norm": 1.786249544648775,
      "language_loss": 0.75317454,
      "learning_rate": 5.225688353594217e-07,
      "loss": 0.77497435,
      "num_input_tokens_seen": 138118650,
      "step": 6417,
      "time_per_iteration": 2.8174734115600586
    },
    {
      "auxiliary_loss_clip": 0.01161317,
      "auxiliary_loss_mlp": 0.00886717,
      "balance_loss_clip": 1.0494709,
      "balance_loss_mlp": 1.00059879,
      "epoch": 0.7717188721216858,
      "flos": 20594877793920.0,
      "grad_norm": 2.29473800094496,
      "language_loss": 0.77381301,
      "learning_rate": 5.220439070874108e-07,
      "loss": 0.79429334,
      "num_input_tokens_seen": 138137890,
      "step": 6418,
      "time_per_iteration": 2.684671401977539
    },
    {
      "auxiliary_loss_clip": 0.01163913,
      "auxiliary_loss_mlp": 0.01026976,
      "balance_loss_clip": 1.05014145,
      "balance_loss_mlp": 1.0194335,
      "epoch": 0.7718391150123249,
      "flos": 26250951870720.0,
      "grad_norm": 1.6528514973088657,
      "language_loss": 0.70877695,
      "learning_rate": 5.215192030201652e-07,
      "loss": 0.73068577,
      "num_input_tokens_seen": 138158880,
      "step": 6419,
      "time_per_iteration": 3.7866461277008057
    },
    {
      "auxiliary_loss_clip": 0.0112891,
      "auxiliary_loss_mlp": 0.01024583,
      "balance_loss_clip": 1.03897727,
      "balance_loss_mlp": 1.01694202,
      "epoch": 0.771959357902964,
      "flos": 22049762267520.0,
      "grad_norm": 1.8253307619384413,
      "language_loss": 0.86118257,
      "learning_rate": 5.209947232372798e-07,
      "loss": 0.88271755,
      "num_input_tokens_seen": 138176370,
      "step": 6420,
      "time_per_iteration": 3.7156543731689453
    },
    {
      "auxiliary_loss_clip": 0.01166651,
      "auxiliary_loss_mlp": 0.00887208,
      "balance_loss_clip": 1.04659772,
      "balance_loss_mlp": 1.00058889,
      "epoch": 0.772079600793603,
      "flos": 30446000248320.0,
      "grad_norm": 1.8134082826099454,
      "language_loss": 0.81297892,
      "learning_rate": 5.204704678183196e-07,
      "loss": 0.83351755,
      "num_input_tokens_seen": 138195105,
      "step": 6421,
      "time_per_iteration": 2.754178762435913
    },
    {
      "auxiliary_loss_clip": 0.01174373,
      "auxiliary_loss_mlp": 0.01027889,
      "balance_loss_clip": 1.04969585,
      "balance_loss_mlp": 1.02032566,
      "epoch": 0.7721998436842422,
      "flos": 12969857750400.0,
      "grad_norm": 2.608653174374004,
      "language_loss": 0.85070366,
      "learning_rate": 5.19946436842813e-07,
      "loss": 0.87272632,
      "num_input_tokens_seen": 138212235,
      "step": 6422,
      "time_per_iteration": 3.508518695831299
    },
    {
      "auxiliary_loss_clip": 0.01142721,
      "auxiliary_loss_mlp": 0.01026949,
      "balance_loss_clip": 1.04363632,
      "balance_loss_mlp": 1.01939714,
      "epoch": 0.7723200865748813,
      "flos": 32635509678720.0,
      "grad_norm": 1.5120159966075686,
      "language_loss": 0.6823082,
      "learning_rate": 5.194226303902546e-07,
      "loss": 0.70400488,
      "num_input_tokens_seen": 138231970,
      "step": 6423,
      "time_per_iteration": 2.8248653411865234
    },
    {
      "auxiliary_loss_clip": 0.01148752,
      "auxiliary_loss_mlp": 0.01026347,
      "balance_loss_clip": 1.04433537,
      "balance_loss_mlp": 1.01816952,
      "epoch": 0.7724403294655203,
      "flos": 21105707063040.0,
      "grad_norm": 1.6371430143022103,
      "language_loss": 0.70796591,
      "learning_rate": 5.188990485401072e-07,
      "loss": 0.7297169,
      "num_input_tokens_seen": 138251175,
      "step": 6424,
      "time_per_iteration": 2.7011663913726807
    },
    {
      "auxiliary_loss_clip": 0.01163469,
      "auxiliary_loss_mlp": 0.01030489,
      "balance_loss_clip": 1.04733443,
      "balance_loss_mlp": 1.02252603,
      "epoch": 0.7725605723561595,
      "flos": 22090736707200.0,
      "grad_norm": 1.7647797483175671,
      "language_loss": 0.85968494,
      "learning_rate": 5.183756913717954e-07,
      "loss": 0.88162452,
      "num_input_tokens_seen": 138270950,
      "step": 6425,
      "time_per_iteration": 2.664464235305786
    },
    {
      "auxiliary_loss_clip": 0.01151253,
      "auxiliary_loss_mlp": 0.01030572,
      "balance_loss_clip": 1.04778671,
      "balance_loss_mlp": 1.02235305,
      "epoch": 0.7726808152467985,
      "flos": 34495610457600.0,
      "grad_norm": 2.2319158432456745,
      "language_loss": 0.73221076,
      "learning_rate": 5.178525589647136e-07,
      "loss": 0.75402898,
      "num_input_tokens_seen": 138292590,
      "step": 6426,
      "time_per_iteration": 2.781242609024048
    },
    {
      "auxiliary_loss_clip": 0.01158055,
      "auxiliary_loss_mlp": 0.01023088,
      "balance_loss_clip": 1.04461169,
      "balance_loss_mlp": 1.01569676,
      "epoch": 0.7728010581374376,
      "flos": 22306344094080.0,
      "grad_norm": 2.5444016517215102,
      "language_loss": 0.78699207,
      "learning_rate": 5.173296513982197e-07,
      "loss": 0.80880356,
      "num_input_tokens_seen": 138311115,
      "step": 6427,
      "time_per_iteration": 2.6646220684051514
    },
    {
      "auxiliary_loss_clip": 0.01156859,
      "auxiliary_loss_mlp": 0.01031148,
      "balance_loss_clip": 1.04734421,
      "balance_loss_mlp": 1.02302432,
      "epoch": 0.7729213010280768,
      "flos": 27126453968640.0,
      "grad_norm": 2.551794300682554,
      "language_loss": 0.64942753,
      "learning_rate": 5.168069687516398e-07,
      "loss": 0.67130756,
      "num_input_tokens_seen": 138330885,
      "step": 6428,
      "time_per_iteration": 2.7803196907043457
    },
    {
      "auxiliary_loss_clip": 0.01155203,
      "auxiliary_loss_mlp": 0.01024374,
      "balance_loss_clip": 1.04885459,
      "balance_loss_mlp": 1.01690531,
      "epoch": 0.7730415439187158,
      "flos": 18150223080960.0,
      "grad_norm": 4.314925028834137,
      "language_loss": 0.7208842,
      "learning_rate": 5.16284511104263e-07,
      "loss": 0.74268007,
      "num_input_tokens_seen": 138350020,
      "step": 6429,
      "time_per_iteration": 2.650322437286377
    },
    {
      "auxiliary_loss_clip": 0.01154923,
      "auxiliary_loss_mlp": 0.01027329,
      "balance_loss_clip": 1.04778504,
      "balance_loss_mlp": 1.01893723,
      "epoch": 0.7731617868093549,
      "flos": 11947480940160.0,
      "grad_norm": 2.516332871537922,
      "language_loss": 0.8076694,
      "learning_rate": 5.157622785353457e-07,
      "loss": 0.82949191,
      "num_input_tokens_seen": 138368135,
      "step": 6430,
      "time_per_iteration": 3.5473735332489014
    },
    {
      "auxiliary_loss_clip": 0.01061857,
      "auxiliary_loss_mlp": 0.01001676,
      "balance_loss_clip": 1.01093197,
      "balance_loss_mlp": 1.00072241,
      "epoch": 0.7732820296999939,
      "flos": 64201027069440.0,
      "grad_norm": 0.647996182358634,
      "language_loss": 0.6035291,
      "learning_rate": 5.152402711241113e-07,
      "loss": 0.6241644,
      "num_input_tokens_seen": 138436040,
      "step": 6431,
      "time_per_iteration": 3.27321720123291
    },
    {
      "auxiliary_loss_clip": 0.01139792,
      "auxiliary_loss_mlp": 0.01027783,
      "balance_loss_clip": 1.04189038,
      "balance_loss_mlp": 1.0206784,
      "epoch": 0.7734022725906331,
      "flos": 25302191984640.0,
      "grad_norm": 1.6451074880390848,
      "language_loss": 0.83001989,
      "learning_rate": 5.147184889497465e-07,
      "loss": 0.85169566,
      "num_input_tokens_seen": 138455510,
      "step": 6432,
      "time_per_iteration": 2.7124581336975098
    },
    {
      "auxiliary_loss_clip": 0.01133662,
      "auxiliary_loss_mlp": 0.01025521,
      "balance_loss_clip": 1.04398417,
      "balance_loss_mlp": 1.0177604,
      "epoch": 0.7735225154812722,
      "flos": 17347440067200.0,
      "grad_norm": 2.378145773848346,
      "language_loss": 0.79977667,
      "learning_rate": 5.141969320914072e-07,
      "loss": 0.82136852,
      "num_input_tokens_seen": 138473015,
      "step": 6433,
      "time_per_iteration": 2.6842994689941406
    },
    {
      "auxiliary_loss_clip": 0.0117685,
      "auxiliary_loss_mlp": 0.01023893,
      "balance_loss_clip": 1.05135918,
      "balance_loss_mlp": 1.01579547,
      "epoch": 0.7736427583719112,
      "flos": 32630086725120.0,
      "grad_norm": 3.0425343361500126,
      "language_loss": 0.62286144,
      "learning_rate": 5.136756006282113e-07,
      "loss": 0.64486885,
      "num_input_tokens_seen": 138491680,
      "step": 6434,
      "time_per_iteration": 2.662140369415283
    },
    {
      "auxiliary_loss_clip": 0.01177843,
      "auxiliary_loss_mlp": 0.01032806,
      "balance_loss_clip": 1.05120134,
      "balance_loss_mlp": 1.02506328,
      "epoch": 0.7737630012625504,
      "flos": 19860073269120.0,
      "grad_norm": 2.4327173316046125,
      "language_loss": 0.85203481,
      "learning_rate": 5.131544946392446e-07,
      "loss": 0.87414134,
      "num_input_tokens_seen": 138506960,
      "step": 6435,
      "time_per_iteration": 2.6078641414642334
    },
    {
      "auxiliary_loss_clip": 0.01156362,
      "auxiliary_loss_mlp": 0.01028806,
      "balance_loss_clip": 1.04989481,
      "balance_loss_mlp": 1.02034259,
      "epoch": 0.7738832441531894,
      "flos": 36022639397760.0,
      "grad_norm": 2.0576193954463577,
      "language_loss": 0.63767886,
      "learning_rate": 5.126336142035592e-07,
      "loss": 0.65953058,
      "num_input_tokens_seen": 138526995,
      "step": 6436,
      "time_per_iteration": 2.777812957763672
    },
    {
      "auxiliary_loss_clip": 0.01151804,
      "auxiliary_loss_mlp": 0.01025781,
      "balance_loss_clip": 1.04362893,
      "balance_loss_mlp": 1.01798439,
      "epoch": 0.7740034870438285,
      "flos": 13405274415360.0,
      "grad_norm": 2.6733515308598066,
      "language_loss": 0.71817046,
      "learning_rate": 5.121129594001721e-07,
      "loss": 0.73994625,
      "num_input_tokens_seen": 138541260,
      "step": 6437,
      "time_per_iteration": 2.6265041828155518
    },
    {
      "auxiliary_loss_clip": 0.01163183,
      "auxiliary_loss_mlp": 0.01029491,
      "balance_loss_clip": 1.04933977,
      "balance_loss_mlp": 1.0219276,
      "epoch": 0.7741237299344677,
      "flos": 22086714384000.0,
      "grad_norm": 1.5223271190013523,
      "language_loss": 0.81086153,
      "learning_rate": 5.115925303080661e-07,
      "loss": 0.83278823,
      "num_input_tokens_seen": 138560970,
      "step": 6438,
      "time_per_iteration": 2.5888662338256836
    },
    {
      "auxiliary_loss_clip": 0.01154353,
      "auxiliary_loss_mlp": 0.01027526,
      "balance_loss_clip": 1.04675436,
      "balance_loss_mlp": 1.02026582,
      "epoch": 0.7742439728251067,
      "flos": 19864777950720.0,
      "grad_norm": 2.0315446831567114,
      "language_loss": 0.7951926,
      "learning_rate": 5.110723270061899e-07,
      "loss": 0.81701136,
      "num_input_tokens_seen": 138577460,
      "step": 6439,
      "time_per_iteration": 2.7734181880950928
    },
    {
      "auxiliary_loss_clip": 0.01168077,
      "auxiliary_loss_mlp": 0.01021384,
      "balance_loss_clip": 1.04721642,
      "balance_loss_mlp": 1.01439512,
      "epoch": 0.7743642157157458,
      "flos": 16690167048960.0,
      "grad_norm": 2.271824197034552,
      "language_loss": 0.79551244,
      "learning_rate": 5.105523495734572e-07,
      "loss": 0.81740701,
      "num_input_tokens_seen": 138594860,
      "step": 6440,
      "time_per_iteration": 2.5768113136291504
    },
    {
      "auxiliary_loss_clip": 0.01173495,
      "auxiliary_loss_mlp": 0.01029844,
      "balance_loss_clip": 1.0479629,
      "balance_loss_mlp": 1.02191114,
      "epoch": 0.7744844586063849,
      "flos": 20304360593280.0,
      "grad_norm": 2.0202837648019485,
      "language_loss": 0.75297076,
      "learning_rate": 5.100325980887499e-07,
      "loss": 0.77500415,
      "num_input_tokens_seen": 138614785,
      "step": 6441,
      "time_per_iteration": 2.583909749984741
    },
    {
      "auxiliary_loss_clip": 0.01163313,
      "auxiliary_loss_mlp": 0.01026134,
      "balance_loss_clip": 1.04768753,
      "balance_loss_mlp": 1.0182662,
      "epoch": 0.774604701497024,
      "flos": 22966705681920.0,
      "grad_norm": 1.7785311662693795,
      "language_loss": 0.8296355,
      "learning_rate": 5.095130726309116e-07,
      "loss": 0.85152996,
      "num_input_tokens_seen": 138634960,
      "step": 6442,
      "time_per_iteration": 2.6419310569763184
    },
    {
      "auxiliary_loss_clip": 0.01065304,
      "auxiliary_loss_mlp": 0.01000977,
      "balance_loss_clip": 1.00983,
      "balance_loss_mlp": 1.00005329,
      "epoch": 0.774724944387663,
      "flos": 60288523073280.0,
      "grad_norm": 0.7928823270849816,
      "language_loss": 0.58965135,
      "learning_rate": 5.089937732787559e-07,
      "loss": 0.61031413,
      "num_input_tokens_seen": 138699520,
      "step": 6443,
      "time_per_iteration": 3.214198350906372
    },
    {
      "auxiliary_loss_clip": 0.01141126,
      "auxiliary_loss_mlp": 0.01025338,
      "balance_loss_clip": 1.04227114,
      "balance_loss_mlp": 1.01720214,
      "epoch": 0.7748451872783022,
      "flos": 26761026954240.0,
      "grad_norm": 3.462805491931323,
      "language_loss": 0.66956389,
      "learning_rate": 5.084747001110592e-07,
      "loss": 0.69122851,
      "num_input_tokens_seen": 138719145,
      "step": 6444,
      "time_per_iteration": 2.7478599548339844
    },
    {
      "auxiliary_loss_clip": 0.01158312,
      "auxiliary_loss_mlp": 0.00886275,
      "balance_loss_clip": 1.04881024,
      "balance_loss_mlp": 1.00054932,
      "epoch": 0.7749654301689413,
      "flos": 30338627518080.0,
      "grad_norm": 1.7535401418283452,
      "language_loss": 0.70468855,
      "learning_rate": 5.07955853206564e-07,
      "loss": 0.72513449,
      "num_input_tokens_seen": 138743850,
      "step": 6445,
      "time_per_iteration": 3.696279764175415
    },
    {
      "auxiliary_loss_clip": 0.0116782,
      "auxiliary_loss_mlp": 0.0102396,
      "balance_loss_clip": 1.04888916,
      "balance_loss_mlp": 1.01634204,
      "epoch": 0.7750856730595803,
      "flos": 43179851687040.0,
      "grad_norm": 1.6896495346079456,
      "language_loss": 0.70949709,
      "learning_rate": 5.074372326439807e-07,
      "loss": 0.73141491,
      "num_input_tokens_seen": 138766860,
      "step": 6446,
      "time_per_iteration": 3.843571186065674
    },
    {
      "auxiliary_loss_clip": 0.0114585,
      "auxiliary_loss_mlp": 0.01026083,
      "balance_loss_clip": 1.04537427,
      "balance_loss_mlp": 1.01807809,
      "epoch": 0.7752059159502195,
      "flos": 17640040256640.0,
      "grad_norm": 2.231841955829381,
      "language_loss": 0.73842883,
      "learning_rate": 5.069188385019814e-07,
      "loss": 0.76014817,
      "num_input_tokens_seen": 138784560,
      "step": 6447,
      "time_per_iteration": 3.55497407913208
    },
    {
      "auxiliary_loss_clip": 0.01139799,
      "auxiliary_loss_mlp": 0.01025172,
      "balance_loss_clip": 1.04041159,
      "balance_loss_mlp": 1.01789439,
      "epoch": 0.7753261588408585,
      "flos": 12677688524160.0,
      "grad_norm": 2.667814248355817,
      "language_loss": 0.61315465,
      "learning_rate": 5.064006708592077e-07,
      "loss": 0.63480431,
      "num_input_tokens_seen": 138800805,
      "step": 6448,
      "time_per_iteration": 2.6652393341064453
    },
    {
      "auxiliary_loss_clip": 0.01149116,
      "auxiliary_loss_mlp": 0.01028971,
      "balance_loss_clip": 1.04776192,
      "balance_loss_mlp": 1.02168703,
      "epoch": 0.7754464017314976,
      "flos": 16690741666560.0,
      "grad_norm": 2.18274407348329,
      "language_loss": 0.75338352,
      "learning_rate": 5.058827297942641e-07,
      "loss": 0.77516437,
      "num_input_tokens_seen": 138815910,
      "step": 6449,
      "time_per_iteration": 2.7246177196502686
    },
    {
      "auxiliary_loss_clip": 0.01162372,
      "auxiliary_loss_mlp": 0.01024986,
      "balance_loss_clip": 1.04727042,
      "balance_loss_mlp": 1.01719618,
      "epoch": 0.7755666446221368,
      "flos": 19718944732800.0,
      "grad_norm": 3.2915547432788297,
      "language_loss": 0.75252825,
      "learning_rate": 5.053650153857237e-07,
      "loss": 0.77440178,
      "num_input_tokens_seen": 138834920,
      "step": 6450,
      "time_per_iteration": 2.632265329360962
    },
    {
      "auxiliary_loss_clip": 0.01164867,
      "auxiliary_loss_mlp": 0.01024966,
      "balance_loss_clip": 1.04947329,
      "balance_loss_mlp": 1.01778924,
      "epoch": 0.7756868875127758,
      "flos": 18693623007360.0,
      "grad_norm": 3.061263645436382,
      "language_loss": 0.69867909,
      "learning_rate": 5.048475277121214e-07,
      "loss": 0.72057748,
      "num_input_tokens_seen": 138852135,
      "step": 6451,
      "time_per_iteration": 2.628512144088745
    },
    {
      "auxiliary_loss_clip": 0.01164458,
      "auxiliary_loss_mlp": 0.01023994,
      "balance_loss_clip": 1.04750633,
      "balance_loss_mlp": 1.01608431,
      "epoch": 0.7758071304034149,
      "flos": 28404191543040.0,
      "grad_norm": 1.9040092003616895,
      "language_loss": 0.76959109,
      "learning_rate": 5.043302668519598e-07,
      "loss": 0.79147565,
      "num_input_tokens_seen": 138871470,
      "step": 6452,
      "time_per_iteration": 2.6842594146728516
    },
    {
      "auxiliary_loss_clip": 0.01164842,
      "auxiliary_loss_mlp": 0.01026305,
      "balance_loss_clip": 1.04630375,
      "balance_loss_mlp": 1.01876473,
      "epoch": 0.775927373294054,
      "flos": 20595344670720.0,
      "grad_norm": 2.507300707961665,
      "language_loss": 0.71648341,
      "learning_rate": 5.038132328837079e-07,
      "loss": 0.73839486,
      "num_input_tokens_seen": 138889860,
      "step": 6453,
      "time_per_iteration": 2.6288201808929443
    },
    {
      "auxiliary_loss_clip": 0.01163623,
      "auxiliary_loss_mlp": 0.01027059,
      "balance_loss_clip": 1.04663599,
      "balance_loss_mlp": 1.01956081,
      "epoch": 0.7760476161846931,
      "flos": 22526368853760.0,
      "grad_norm": 4.423065247748586,
      "language_loss": 0.73897552,
      "learning_rate": 5.032964258857993e-07,
      "loss": 0.76088232,
      "num_input_tokens_seen": 138909955,
      "step": 6454,
      "time_per_iteration": 2.6003832817077637
    },
    {
      "auxiliary_loss_clip": 0.01160813,
      "auxiliary_loss_mlp": 0.01027044,
      "balance_loss_clip": 1.04357255,
      "balance_loss_mlp": 1.01903367,
      "epoch": 0.7761678590753321,
      "flos": 48651488403840.0,
      "grad_norm": 2.000501766456342,
      "language_loss": 0.6843636,
      "learning_rate": 5.027798459366329e-07,
      "loss": 0.7062422,
      "num_input_tokens_seen": 138935320,
      "step": 6455,
      "time_per_iteration": 2.8567638397216797
    },
    {
      "auxiliary_loss_clip": 0.01166752,
      "auxiliary_loss_mlp": 0.01026136,
      "balance_loss_clip": 1.04736352,
      "balance_loss_mlp": 1.01807153,
      "epoch": 0.7762881019659713,
      "flos": 26177047637760.0,
      "grad_norm": 1.7713201182035898,
      "language_loss": 0.6350807,
      "learning_rate": 5.02263493114573e-07,
      "loss": 0.6570096,
      "num_input_tokens_seen": 138957115,
      "step": 6456,
      "time_per_iteration": 3.4897072315216064
    },
    {
      "auxiliary_loss_clip": 0.01169411,
      "auxiliary_loss_mlp": 0.01026531,
      "balance_loss_clip": 1.04603028,
      "balance_loss_mlp": 1.01900899,
      "epoch": 0.7764083448566104,
      "flos": 20588341518720.0,
      "grad_norm": 54.876288486345075,
      "language_loss": 0.76731324,
      "learning_rate": 5.017473674979502e-07,
      "loss": 0.78927261,
      "num_input_tokens_seen": 138973140,
      "step": 6457,
      "time_per_iteration": 2.562958240509033
    },
    {
      "auxiliary_loss_clip": 0.01042677,
      "auxiliary_loss_mlp": 0.01002113,
      "balance_loss_clip": 1.01231015,
      "balance_loss_mlp": 1.00124872,
      "epoch": 0.7765285877472494,
      "flos": 67293078560640.0,
      "grad_norm": 0.7506842960035802,
      "language_loss": 0.58257115,
      "learning_rate": 5.01231469165061e-07,
      "loss": 0.60301912,
      "num_input_tokens_seen": 139028965,
      "step": 6458,
      "time_per_iteration": 3.1559345722198486
    },
    {
      "auxiliary_loss_clip": 0.01061242,
      "auxiliary_loss_mlp": 0.01001116,
      "balance_loss_clip": 1.01090372,
      "balance_loss_mlp": 1.00018585,
      "epoch": 0.7766488306378886,
      "flos": 61344476121600.0,
      "grad_norm": 0.8363615789515606,
      "language_loss": 0.56902146,
      "learning_rate": 5.007157981941663e-07,
      "loss": 0.58964503,
      "num_input_tokens_seen": 139094325,
      "step": 6459,
      "time_per_iteration": 3.319601058959961
    },
    {
      "auxiliary_loss_clip": 0.01057336,
      "auxiliary_loss_mlp": 0.01000596,
      "balance_loss_clip": 1.01147449,
      "balance_loss_mlp": 0.99962407,
      "epoch": 0.7767690735285276,
      "flos": 62946199393920.0,
      "grad_norm": 0.879833318172728,
      "language_loss": 0.67429972,
      "learning_rate": 5.002003546634928e-07,
      "loss": 0.69487906,
      "num_input_tokens_seen": 139150425,
      "step": 6460,
      "time_per_iteration": 3.1675326824188232
    },
    {
      "auxiliary_loss_clip": 0.01131733,
      "auxiliary_loss_mlp": 0.01030928,
      "balance_loss_clip": 1.04431272,
      "balance_loss_mlp": 1.02328098,
      "epoch": 0.7768893164191667,
      "flos": 20886400575360.0,
      "grad_norm": 1.6160943471915334,
      "language_loss": 0.76011533,
      "learning_rate": 4.996851386512331e-07,
      "loss": 0.78174192,
      "num_input_tokens_seen": 139169130,
      "step": 6461,
      "time_per_iteration": 2.8125529289245605
    },
    {
      "auxiliary_loss_clip": 0.01151531,
      "auxiliary_loss_mlp": 0.01026336,
      "balance_loss_clip": 1.0461297,
      "balance_loss_mlp": 1.01809812,
      "epoch": 0.7770095593098058,
      "flos": 20704584908160.0,
      "grad_norm": 1.8640102690308966,
      "language_loss": 0.82785773,
      "learning_rate": 4.991701502355444e-07,
      "loss": 0.84963644,
      "num_input_tokens_seen": 139189595,
      "step": 6462,
      "time_per_iteration": 2.686882972717285
    },
    {
      "auxiliary_loss_clip": 0.01168638,
      "auxiliary_loss_mlp": 0.01023126,
      "balance_loss_clip": 1.04940307,
      "balance_loss_mlp": 1.01574719,
      "epoch": 0.7771298022004449,
      "flos": 24717709877760.0,
      "grad_norm": 2.0161885046514474,
      "language_loss": 0.760885,
      "learning_rate": 4.986553894945518e-07,
      "loss": 0.7828027,
      "num_input_tokens_seen": 139210805,
      "step": 6463,
      "time_per_iteration": 2.659841299057007
    },
    {
      "auxiliary_loss_clip": 0.01139669,
      "auxiliary_loss_mlp": 0.01024921,
      "balance_loss_clip": 1.04359388,
      "balance_loss_mlp": 1.01784635,
      "epoch": 0.777250045091084,
      "flos": 25009232659200.0,
      "grad_norm": 2.117724111820903,
      "language_loss": 0.86401051,
      "learning_rate": 4.981408565063416e-07,
      "loss": 0.88565642,
      "num_input_tokens_seen": 139230750,
      "step": 6464,
      "time_per_iteration": 2.8705906867980957
    },
    {
      "auxiliary_loss_clip": 0.01175643,
      "auxiliary_loss_mlp": 0.01025124,
      "balance_loss_clip": 1.04921019,
      "balance_loss_mlp": 1.0172087,
      "epoch": 0.777370287981723,
      "flos": 20119887319680.0,
      "grad_norm": 1.9150527085755438,
      "language_loss": 0.76406205,
      "learning_rate": 4.976265513489701e-07,
      "loss": 0.78606975,
      "num_input_tokens_seen": 139250720,
      "step": 6465,
      "time_per_iteration": 2.5814836025238037
    },
    {
      "auxiliary_loss_clip": 0.01162363,
      "auxiliary_loss_mlp": 0.01029781,
      "balance_loss_clip": 1.0458827,
      "balance_loss_mlp": 1.0217284,
      "epoch": 0.7774905308723622,
      "flos": 21718809331200.0,
      "grad_norm": 1.7712097249502756,
      "language_loss": 0.80316061,
      "learning_rate": 4.971124741004562e-07,
      "loss": 0.82508206,
      "num_input_tokens_seen": 139269720,
      "step": 6466,
      "time_per_iteration": 2.6476476192474365
    },
    {
      "auxiliary_loss_clip": 0.01161985,
      "auxiliary_loss_mlp": 0.01022806,
      "balance_loss_clip": 1.04511344,
      "balance_loss_mlp": 1.01463974,
      "epoch": 0.7776107737630013,
      "flos": 16034115093120.0,
      "grad_norm": 2.3948529877406126,
      "language_loss": 0.76109123,
      "learning_rate": 4.965986248387846e-07,
      "loss": 0.78293914,
      "num_input_tokens_seen": 139288035,
      "step": 6467,
      "time_per_iteration": 2.645714521408081
    },
    {
      "auxiliary_loss_clip": 0.01156549,
      "auxiliary_loss_mlp": 0.0102143,
      "balance_loss_clip": 1.04544246,
      "balance_loss_mlp": 1.01373255,
      "epoch": 0.7777310166536403,
      "flos": 24790895838720.0,
      "grad_norm": 1.8667798498117225,
      "language_loss": 0.77108854,
      "learning_rate": 4.960850036419073e-07,
      "loss": 0.79286838,
      "num_input_tokens_seen": 139307135,
      "step": 6468,
      "time_per_iteration": 2.721508264541626
    },
    {
      "auxiliary_loss_clip": 0.0114911,
      "auxiliary_loss_mlp": 0.01022031,
      "balance_loss_clip": 1.04594386,
      "balance_loss_mlp": 1.01440799,
      "epoch": 0.7778512595442795,
      "flos": 17272530253440.0,
      "grad_norm": 1.6567438961196257,
      "language_loss": 0.78646749,
      "learning_rate": 4.955716105877378e-07,
      "loss": 0.8081789,
      "num_input_tokens_seen": 139325905,
      "step": 6469,
      "time_per_iteration": 2.6760053634643555
    },
    {
      "auxiliary_loss_clip": 0.01165201,
      "auxiliary_loss_mlp": 0.00886946,
      "balance_loss_clip": 1.04653096,
      "balance_loss_mlp": 1.00063181,
      "epoch": 0.7779715024349185,
      "flos": 17748418567680.0,
      "grad_norm": 1.904377174273734,
      "language_loss": 0.82991296,
      "learning_rate": 4.950584457541598e-07,
      "loss": 0.85043442,
      "num_input_tokens_seen": 139344370,
      "step": 6470,
      "time_per_iteration": 2.627627372741699
    },
    {
      "auxiliary_loss_clip": 0.01164068,
      "auxiliary_loss_mlp": 0.01029229,
      "balance_loss_clip": 1.04569554,
      "balance_loss_mlp": 1.0206933,
      "epoch": 0.7780917453255576,
      "flos": 24316875031680.0,
      "grad_norm": 8.890375712943385,
      "language_loss": 0.81878197,
      "learning_rate": 4.945455092190183e-07,
      "loss": 0.84071493,
      "num_input_tokens_seen": 139365625,
      "step": 6471,
      "time_per_iteration": 4.670794248580933
    },
    {
      "auxiliary_loss_clip": 0.01065181,
      "auxiliary_loss_mlp": 0.01001574,
      "balance_loss_clip": 1.00974536,
      "balance_loss_mlp": 1.00066209,
      "epoch": 0.7782119882161967,
      "flos": 56364601530240.0,
      "grad_norm": 0.7155672677260663,
      "language_loss": 0.55948633,
      "learning_rate": 4.940328010601271e-07,
      "loss": 0.58015388,
      "num_input_tokens_seen": 139430540,
      "step": 6472,
      "time_per_iteration": 3.219270944595337
    },
    {
      "auxiliary_loss_clip": 0.01163261,
      "auxiliary_loss_mlp": 0.01032189,
      "balance_loss_clip": 1.05158925,
      "balance_loss_mlp": 1.02371943,
      "epoch": 0.7783322311068358,
      "flos": 46789986994560.0,
      "grad_norm": 1.9256800521489508,
      "language_loss": 0.76729524,
      "learning_rate": 4.935203213552621e-07,
      "loss": 0.78924972,
      "num_input_tokens_seen": 139454280,
      "step": 6473,
      "time_per_iteration": 2.895317554473877
    },
    {
      "auxiliary_loss_clip": 0.01152806,
      "auxiliary_loss_mlp": 0.01025201,
      "balance_loss_clip": 1.04508376,
      "balance_loss_mlp": 1.01697528,
      "epoch": 0.7784524739974749,
      "flos": 19057864872960.0,
      "grad_norm": 2.1302487787335136,
      "language_loss": 0.67311656,
      "learning_rate": 4.930080701821662e-07,
      "loss": 0.69489664,
      "num_input_tokens_seen": 139471745,
      "step": 6474,
      "time_per_iteration": 3.607820987701416
    },
    {
      "auxiliary_loss_clip": 0.01154969,
      "auxiliary_loss_mlp": 0.01024344,
      "balance_loss_clip": 1.04702818,
      "balance_loss_mlp": 1.01639879,
      "epoch": 0.778572716888114,
      "flos": 24791111320320.0,
      "grad_norm": 2.393452100605388,
      "language_loss": 0.77131313,
      "learning_rate": 4.92496047618548e-07,
      "loss": 0.79310626,
      "num_input_tokens_seen": 139491505,
      "step": 6475,
      "time_per_iteration": 2.753490686416626
    },
    {
      "auxiliary_loss_clip": 0.01165058,
      "auxiliary_loss_mlp": 0.01028454,
      "balance_loss_clip": 1.05027294,
      "balance_loss_mlp": 1.02056193,
      "epoch": 0.7786929597787531,
      "flos": 20078086867200.0,
      "grad_norm": 1.831394650140949,
      "language_loss": 0.77589083,
      "learning_rate": 4.919842537420811e-07,
      "loss": 0.79782593,
      "num_input_tokens_seen": 139508620,
      "step": 6476,
      "time_per_iteration": 2.6905813217163086
    },
    {
      "auxiliary_loss_clip": 0.01154879,
      "auxiliary_loss_mlp": 0.01031234,
      "balance_loss_clip": 1.0479511,
      "balance_loss_mlp": 1.02371824,
      "epoch": 0.7788132026693921,
      "flos": 21872220318720.0,
      "grad_norm": 1.6608685060867083,
      "language_loss": 0.79320502,
      "learning_rate": 4.91472688630404e-07,
      "loss": 0.8150661,
      "num_input_tokens_seen": 139529360,
      "step": 6477,
      "time_per_iteration": 2.6723668575286865
    },
    {
      "auxiliary_loss_clip": 0.01167995,
      "auxiliary_loss_mlp": 0.01024393,
      "balance_loss_clip": 1.04702806,
      "balance_loss_mlp": 1.01643562,
      "epoch": 0.7789334455600313,
      "flos": 11181937351680.0,
      "grad_norm": 1.7574900921278274,
      "language_loss": 0.73802149,
      "learning_rate": 4.909613523611202e-07,
      "loss": 0.75994539,
      "num_input_tokens_seen": 139546240,
      "step": 6478,
      "time_per_iteration": 2.6638269424438477
    },
    {
      "auxiliary_loss_clip": 0.01130969,
      "auxiliary_loss_mlp": 0.0088753,
      "balance_loss_clip": 1.04024196,
      "balance_loss_mlp": 1.00056577,
      "epoch": 0.7790536884506704,
      "flos": 28695427015680.0,
      "grad_norm": 2.8504189700286857,
      "language_loss": 0.74837524,
      "learning_rate": 4.904502450117991e-07,
      "loss": 0.76856023,
      "num_input_tokens_seen": 139567200,
      "step": 6479,
      "time_per_iteration": 2.84230899810791
    },
    {
      "auxiliary_loss_clip": 0.01150377,
      "auxiliary_loss_mlp": 0.01028581,
      "balance_loss_clip": 1.04822922,
      "balance_loss_mlp": 1.02067423,
      "epoch": 0.7791739313413094,
      "flos": 11072302064640.0,
      "grad_norm": 2.5922359328874016,
      "language_loss": 0.73000622,
      "learning_rate": 4.899393666599762e-07,
      "loss": 0.75179577,
      "num_input_tokens_seen": 139583775,
      "step": 6480,
      "time_per_iteration": 2.6233880519866943
    },
    {
      "auxiliary_loss_clip": 0.01171929,
      "auxiliary_loss_mlp": 0.01027824,
      "balance_loss_clip": 1.0471797,
      "balance_loss_mlp": 1.02057052,
      "epoch": 0.7792941742319486,
      "flos": 14679276975360.0,
      "grad_norm": 2.1273382599298785,
      "language_loss": 0.72509384,
      "learning_rate": 4.894287173831506e-07,
      "loss": 0.74709141,
      "num_input_tokens_seen": 139599735,
      "step": 6481,
      "time_per_iteration": 2.5348854064941406
    },
    {
      "auxiliary_loss_clip": 0.01153857,
      "auxiliary_loss_mlp": 0.01024625,
      "balance_loss_clip": 1.04337502,
      "balance_loss_mlp": 1.01635134,
      "epoch": 0.7794144171225876,
      "flos": 23258874908160.0,
      "grad_norm": 3.4158401698330727,
      "language_loss": 0.84601492,
      "learning_rate": 4.889182972587877e-07,
      "loss": 0.86779976,
      "num_input_tokens_seen": 139619030,
      "step": 6482,
      "time_per_iteration": 3.5394279956817627
    },
    {
      "auxiliary_loss_clip": 0.01154805,
      "auxiliary_loss_mlp": 0.01032833,
      "balance_loss_clip": 1.04687142,
      "balance_loss_mlp": 1.02538812,
      "epoch": 0.7795346600132267,
      "flos": 21507080613120.0,
      "grad_norm": 1.8743918625072593,
      "language_loss": 0.66373336,
      "learning_rate": 4.884081063643177e-07,
      "loss": 0.68560976,
      "num_input_tokens_seen": 139637690,
      "step": 6483,
      "time_per_iteration": 2.683629274368286
    },
    {
      "auxiliary_loss_clip": 0.01046902,
      "auxiliary_loss_mlp": 0.01001134,
      "balance_loss_clip": 1.01018977,
      "balance_loss_mlp": 1.00035322,
      "epoch": 0.7796549029038659,
      "flos": 70052273694720.0,
      "grad_norm": 0.8530500010841142,
      "language_loss": 0.52450275,
      "learning_rate": 4.878981447771353e-07,
      "loss": 0.54498303,
      "num_input_tokens_seen": 139692070,
      "step": 6484,
      "time_per_iteration": 3.2890217304229736
    },
    {
      "auxiliary_loss_clip": 0.01138915,
      "auxiliary_loss_mlp": 0.01027151,
      "balance_loss_clip": 1.0456605,
      "balance_loss_mlp": 1.01917577,
      "epoch": 0.7797751457945049,
      "flos": 23989405714560.0,
      "grad_norm": 2.9416838770383484,
      "language_loss": 0.72779936,
      "learning_rate": 4.873884125746035e-07,
      "loss": 0.74945998,
      "num_input_tokens_seen": 139713745,
      "step": 6485,
      "time_per_iteration": 2.742748737335205
    },
    {
      "auxiliary_loss_clip": 0.01146794,
      "auxiliary_loss_mlp": 0.01027386,
      "balance_loss_clip": 1.04336929,
      "balance_loss_mlp": 1.02001929,
      "epoch": 0.779895388685144,
      "flos": 22674751937280.0,
      "grad_norm": 2.1791375797829304,
      "language_loss": 0.72137278,
      "learning_rate": 4.868789098340456e-07,
      "loss": 0.74311453,
      "num_input_tokens_seen": 139731650,
      "step": 6486,
      "time_per_iteration": 2.6426312923431396
    },
    {
      "auxiliary_loss_clip": 0.0114668,
      "auxiliary_loss_mlp": 0.01028396,
      "balance_loss_clip": 1.04596949,
      "balance_loss_mlp": 1.02066219,
      "epoch": 0.7800156315757831,
      "flos": 23768698596480.0,
      "grad_norm": 8.731815981729213,
      "language_loss": 0.72948861,
      "learning_rate": 4.863696366327543e-07,
      "loss": 0.7512393,
      "num_input_tokens_seen": 139750820,
      "step": 6487,
      "time_per_iteration": 2.7005155086517334
    },
    {
      "auxiliary_loss_clip": 0.01162679,
      "auxiliary_loss_mlp": 0.01025954,
      "balance_loss_clip": 1.04435945,
      "balance_loss_mlp": 1.01786852,
      "epoch": 0.7801358744664222,
      "flos": 26429714881920.0,
      "grad_norm": 1.6985697939727662,
      "language_loss": 0.7806868,
      "learning_rate": 4.85860593047986e-07,
      "loss": 0.80257308,
      "num_input_tokens_seen": 139770885,
      "step": 6488,
      "time_per_iteration": 2.701152801513672
    },
    {
      "auxiliary_loss_clip": 0.01134369,
      "auxiliary_loss_mlp": 0.01029303,
      "balance_loss_clip": 1.0379194,
      "balance_loss_mlp": 1.02094078,
      "epoch": 0.7802561173570612,
      "flos": 26322162583680.0,
      "grad_norm": 2.547184870004588,
      "language_loss": 0.75167406,
      "learning_rate": 4.853517791569613e-07,
      "loss": 0.77331078,
      "num_input_tokens_seen": 139793065,
      "step": 6489,
      "time_per_iteration": 2.7571067810058594
    },
    {
      "auxiliary_loss_clip": 0.01154675,
      "auxiliary_loss_mlp": 0.00887401,
      "balance_loss_clip": 1.04358625,
      "balance_loss_mlp": 1.00058854,
      "epoch": 0.7803763602477004,
      "flos": 40333751596800.0,
      "grad_norm": 2.0067589306683766,
      "language_loss": 0.66457522,
      "learning_rate": 4.848431950368684e-07,
      "loss": 0.68499601,
      "num_input_tokens_seen": 139815625,
      "step": 6490,
      "time_per_iteration": 2.846710205078125
    },
    {
      "auxiliary_loss_clip": 0.01064722,
      "auxiliary_loss_mlp": 0.00876063,
      "balance_loss_clip": 1.00945437,
      "balance_loss_mlp": 1.00096762,
      "epoch": 0.7804966031383395,
      "flos": 67001448038400.0,
      "grad_norm": 0.7032226908213405,
      "language_loss": 0.55776441,
      "learning_rate": 4.843348407648569e-07,
      "loss": 0.57717228,
      "num_input_tokens_seen": 139876905,
      "step": 6491,
      "time_per_iteration": 3.158236503601074
    },
    {
      "auxiliary_loss_clip": 0.01162785,
      "auxiliary_loss_mlp": 0.01023915,
      "balance_loss_clip": 1.04269385,
      "balance_loss_mlp": 1.01566577,
      "epoch": 0.7806168460289785,
      "flos": 17740733057280.0,
      "grad_norm": 2.328578753030038,
      "language_loss": 0.83788639,
      "learning_rate": 4.838267164180457e-07,
      "loss": 0.85975337,
      "num_input_tokens_seen": 139892575,
      "step": 6492,
      "time_per_iteration": 2.638479709625244
    },
    {
      "auxiliary_loss_clip": 0.01176388,
      "auxiliary_loss_mlp": 0.01026971,
      "balance_loss_clip": 1.04886329,
      "balance_loss_mlp": 1.01868606,
      "epoch": 0.7807370889196176,
      "flos": 23946240545280.0,
      "grad_norm": 1.889267264304459,
      "language_loss": 0.83520424,
      "learning_rate": 4.833188220735156e-07,
      "loss": 0.85723782,
      "num_input_tokens_seen": 139912245,
      "step": 6493,
      "time_per_iteration": 2.703674793243408
    },
    {
      "auxiliary_loss_clip": 0.0116198,
      "auxiliary_loss_mlp": 0.01025752,
      "balance_loss_clip": 1.0459007,
      "balance_loss_mlp": 1.01791441,
      "epoch": 0.7808573318102567,
      "flos": 18989024457600.0,
      "grad_norm": 3.47261616041002,
      "language_loss": 0.7487483,
      "learning_rate": 4.828111578083152e-07,
      "loss": 0.77062559,
      "num_input_tokens_seen": 139929150,
      "step": 6494,
      "time_per_iteration": 2.662477493286133
    },
    {
      "auxiliary_loss_clip": 0.01152249,
      "auxiliary_loss_mlp": 0.01024973,
      "balance_loss_clip": 1.04799914,
      "balance_loss_mlp": 1.01734996,
      "epoch": 0.7809775747008958,
      "flos": 23980750536960.0,
      "grad_norm": 3.098471308928791,
      "language_loss": 0.80973661,
      "learning_rate": 4.823037236994556e-07,
      "loss": 0.83150876,
      "num_input_tokens_seen": 139947315,
      "step": 6495,
      "time_per_iteration": 2.6590487957000732
    },
    {
      "auxiliary_loss_clip": 0.01060583,
      "auxiliary_loss_mlp": 0.01001224,
      "balance_loss_clip": 1.00932074,
      "balance_loss_mlp": 1.00025892,
      "epoch": 0.7810978175915348,
      "flos": 68535875180160.0,
      "grad_norm": 0.7142227679862855,
      "language_loss": 0.56342268,
      "learning_rate": 4.817965198239136e-07,
      "loss": 0.58404076,
      "num_input_tokens_seen": 140013775,
      "step": 6496,
      "time_per_iteration": 3.19866681098938
    },
    {
      "auxiliary_loss_clip": 0.01142131,
      "auxiliary_loss_mlp": 0.01032482,
      "balance_loss_clip": 1.04237533,
      "balance_loss_mlp": 1.02451897,
      "epoch": 0.781218060482174,
      "flos": 19642131498240.0,
      "grad_norm": 2.802343646574761,
      "language_loss": 0.74735343,
      "learning_rate": 4.812895462586331e-07,
      "loss": 0.76909959,
      "num_input_tokens_seen": 140031600,
      "step": 6497,
      "time_per_iteration": 4.790074825286865
    },
    {
      "auxiliary_loss_clip": 0.01146771,
      "auxiliary_loss_mlp": 0.01027526,
      "balance_loss_clip": 1.04474616,
      "balance_loss_mlp": 1.01932144,
      "epoch": 0.7813383033728131,
      "flos": 25627865621760.0,
      "grad_norm": 1.8604943955581283,
      "language_loss": 0.82103622,
      "learning_rate": 4.807828030805207e-07,
      "loss": 0.84277916,
      "num_input_tokens_seen": 140050590,
      "step": 6498,
      "time_per_iteration": 2.7422523498535156
    },
    {
      "auxiliary_loss_clip": 0.01160756,
      "auxiliary_loss_mlp": 0.01027474,
      "balance_loss_clip": 1.04775906,
      "balance_loss_mlp": 1.01990986,
      "epoch": 0.7814585462634521,
      "flos": 20485924865280.0,
      "grad_norm": 2.033329000213782,
      "language_loss": 0.68073916,
      "learning_rate": 4.802762903664495e-07,
      "loss": 0.70262146,
      "num_input_tokens_seen": 140069770,
      "step": 6499,
      "time_per_iteration": 2.6171138286590576
    },
    {
      "auxiliary_loss_clip": 0.01161236,
      "auxiliary_loss_mlp": 0.01029048,
      "balance_loss_clip": 1.04903328,
      "balance_loss_mlp": 1.02055407,
      "epoch": 0.7815787891540913,
      "flos": 22304297018880.0,
      "grad_norm": 2.3406358941236913,
      "language_loss": 0.73440683,
      "learning_rate": 4.797700081932565e-07,
      "loss": 0.75630975,
      "num_input_tokens_seen": 140087635,
      "step": 6500,
      "time_per_iteration": 3.6483571529388428
    },
    {
      "auxiliary_loss_clip": 0.01117675,
      "auxiliary_loss_mlp": 0.01025517,
      "balance_loss_clip": 1.03959751,
      "balance_loss_mlp": 1.01828718,
      "epoch": 0.7816990320447303,
      "flos": 22600668136320.0,
      "grad_norm": 3.186152458656987,
      "language_loss": 0.81602764,
      "learning_rate": 4.792639566377442e-07,
      "loss": 0.8374595,
      "num_input_tokens_seen": 140105045,
      "step": 6501,
      "time_per_iteration": 2.793393611907959
    },
    {
      "auxiliary_loss_clip": 0.01156147,
      "auxiliary_loss_mlp": 0.01028504,
      "balance_loss_clip": 1.04428089,
      "balance_loss_mlp": 1.02097583,
      "epoch": 0.7818192749353694,
      "flos": 24935974871040.0,
      "grad_norm": 1.6982314618784975,
      "language_loss": 0.77093709,
      "learning_rate": 4.78758135776681e-07,
      "loss": 0.79278356,
      "num_input_tokens_seen": 140124900,
      "step": 6502,
      "time_per_iteration": 2.693880558013916
    },
    {
      "auxiliary_loss_clip": 0.01155789,
      "auxiliary_loss_mlp": 0.01028717,
      "balance_loss_clip": 1.04701805,
      "balance_loss_mlp": 1.02107,
      "epoch": 0.7819395178260086,
      "flos": 23733039369600.0,
      "grad_norm": 2.438059401033289,
      "language_loss": 0.79092568,
      "learning_rate": 4.782525456867989e-07,
      "loss": 0.81277072,
      "num_input_tokens_seen": 140143755,
      "step": 6503,
      "time_per_iteration": 2.7479329109191895
    },
    {
      "auxiliary_loss_clip": 0.01146435,
      "auxiliary_loss_mlp": 0.01029847,
      "balance_loss_clip": 1.04535103,
      "balance_loss_mlp": 1.02162135,
      "epoch": 0.7820597607166476,
      "flos": 23221671396480.0,
      "grad_norm": 1.8089562594438917,
      "language_loss": 0.83499533,
      "learning_rate": 4.777471864447959e-07,
      "loss": 0.85675812,
      "num_input_tokens_seen": 140164495,
      "step": 6504,
      "time_per_iteration": 2.7280921936035156
    },
    {
      "auxiliary_loss_clip": 0.01155176,
      "auxiliary_loss_mlp": 0.01027326,
      "balance_loss_clip": 1.0441184,
      "balance_loss_mlp": 1.02001882,
      "epoch": 0.7821800036072867,
      "flos": 22309540404480.0,
      "grad_norm": 2.0685483858950744,
      "language_loss": 0.80936539,
      "learning_rate": 4.772420581273344e-07,
      "loss": 0.83119041,
      "num_input_tokens_seen": 140181980,
      "step": 6505,
      "time_per_iteration": 2.7593228816986084
    },
    {
      "auxiliary_loss_clip": 0.01160717,
      "auxiliary_loss_mlp": 0.0102624,
      "balance_loss_clip": 1.04803586,
      "balance_loss_mlp": 1.01871777,
      "epoch": 0.7823002464979258,
      "flos": 21544176384000.0,
      "grad_norm": 2.0603804516443534,
      "language_loss": 0.7640487,
      "learning_rate": 4.7673716081104134e-07,
      "loss": 0.78591824,
      "num_input_tokens_seen": 140202155,
      "step": 6506,
      "time_per_iteration": 2.7280845642089844
    },
    {
      "auxiliary_loss_clip": 0.01163223,
      "auxiliary_loss_mlp": 0.0102852,
      "balance_loss_clip": 1.04932106,
      "balance_loss_mlp": 1.02125168,
      "epoch": 0.7824204893885649,
      "flos": 24535642815360.0,
      "grad_norm": 1.7893976581052646,
      "language_loss": 0.84356964,
      "learning_rate": 4.762324945725109e-07,
      "loss": 0.86548704,
      "num_input_tokens_seen": 140221600,
      "step": 6507,
      "time_per_iteration": 2.631387948989868
    },
    {
      "auxiliary_loss_clip": 0.01151646,
      "auxiliary_loss_mlp": 0.01032123,
      "balance_loss_clip": 1.04787314,
      "balance_loss_mlp": 1.02450538,
      "epoch": 0.782540732279204,
      "flos": 27415211402880.0,
      "grad_norm": 1.6567321896796783,
      "language_loss": 0.75792861,
      "learning_rate": 4.7572805948829844e-07,
      "loss": 0.77976632,
      "num_input_tokens_seen": 140241860,
      "step": 6508,
      "time_per_iteration": 3.567737102508545
    },
    {
      "auxiliary_loss_clip": 0.01137509,
      "auxiliary_loss_mlp": 0.01026152,
      "balance_loss_clip": 1.04205942,
      "balance_loss_mlp": 1.01855516,
      "epoch": 0.7826609751698431,
      "flos": 24353216616960.0,
      "grad_norm": 4.984970708915671,
      "language_loss": 0.70985734,
      "learning_rate": 4.7522385563492795e-07,
      "loss": 0.73149401,
      "num_input_tokens_seen": 140262160,
      "step": 6509,
      "time_per_iteration": 2.7777090072631836
    },
    {
      "auxiliary_loss_clip": 0.01147436,
      "auxiliary_loss_mlp": 0.01026564,
      "balance_loss_clip": 1.04551888,
      "balance_loss_mlp": 1.01854706,
      "epoch": 0.7827812180604822,
      "flos": 23988543788160.0,
      "grad_norm": 1.9864443617666698,
      "language_loss": 0.70367086,
      "learning_rate": 4.747198830888863e-07,
      "loss": 0.72541094,
      "num_input_tokens_seen": 140282030,
      "step": 6510,
      "time_per_iteration": 2.733318328857422
    },
    {
      "auxiliary_loss_clip": 0.0115011,
      "auxiliary_loss_mlp": 0.0102705,
      "balance_loss_clip": 1.04615974,
      "balance_loss_mlp": 1.01883674,
      "epoch": 0.7829014609511212,
      "flos": 27454318335360.0,
      "grad_norm": 2.130345578129429,
      "language_loss": 0.68657345,
      "learning_rate": 4.742161419266251e-07,
      "loss": 0.70834506,
      "num_input_tokens_seen": 140301190,
      "step": 6511,
      "time_per_iteration": 2.7667508125305176
    },
    {
      "auxiliary_loss_clip": 0.01168677,
      "auxiliary_loss_mlp": 0.01026725,
      "balance_loss_clip": 1.04818487,
      "balance_loss_mlp": 1.01846361,
      "epoch": 0.7830217038417604,
      "flos": 29204532432000.0,
      "grad_norm": 2.7164759788910664,
      "language_loss": 0.65143991,
      "learning_rate": 4.7371263222456304e-07,
      "loss": 0.67339385,
      "num_input_tokens_seen": 140318510,
      "step": 6512,
      "time_per_iteration": 2.6461308002471924
    },
    {
      "auxiliary_loss_clip": 0.01057089,
      "auxiliary_loss_mlp": 0.00999938,
      "balance_loss_clip": 1.01073658,
      "balance_loss_mlp": 0.9990021,
      "epoch": 0.7831419467323995,
      "flos": 60950895822720.0,
      "grad_norm": 0.7994908010199722,
      "language_loss": 0.61267453,
      "learning_rate": 4.7320935405908004e-07,
      "loss": 0.63324481,
      "num_input_tokens_seen": 140379380,
      "step": 6513,
      "time_per_iteration": 3.196948289871216
    },
    {
      "auxiliary_loss_clip": 0.01177335,
      "auxiliary_loss_mlp": 0.01030062,
      "balance_loss_clip": 1.05052924,
      "balance_loss_mlp": 1.02240276,
      "epoch": 0.7832621896230385,
      "flos": 19682531320320.0,
      "grad_norm": 2.454299109550826,
      "language_loss": 0.8399359,
      "learning_rate": 4.7270630750652475e-07,
      "loss": 0.86200988,
      "num_input_tokens_seen": 140395335,
      "step": 6514,
      "time_per_iteration": 2.623156785964966
    },
    {
      "auxiliary_loss_clip": 0.0116023,
      "auxiliary_loss_mlp": 0.0102483,
      "balance_loss_clip": 1.0453037,
      "balance_loss_mlp": 1.0175581,
      "epoch": 0.7833824325136777,
      "flos": 25009232659200.0,
      "grad_norm": 2.3772724131748717,
      "language_loss": 0.80762732,
      "learning_rate": 4.7220349264320746e-07,
      "loss": 0.82947791,
      "num_input_tokens_seen": 140414420,
      "step": 6515,
      "time_per_iteration": 2.6840085983276367
    },
    {
      "auxiliary_loss_clip": 0.010595,
      "auxiliary_loss_mlp": 0.0100005,
      "balance_loss_clip": 1.00959158,
      "balance_loss_mlp": 0.99906081,
      "epoch": 0.7835026754043167,
      "flos": 68800142517120.0,
      "grad_norm": 0.736185998758197,
      "language_loss": 0.54907322,
      "learning_rate": 4.71700909545407e-07,
      "loss": 0.56966877,
      "num_input_tokens_seen": 140477365,
      "step": 6516,
      "time_per_iteration": 3.229144811630249
    },
    {
      "auxiliary_loss_clip": 0.01164709,
      "auxiliary_loss_mlp": 0.01026614,
      "balance_loss_clip": 1.04672134,
      "balance_loss_mlp": 1.01884186,
      "epoch": 0.7836229182949558,
      "flos": 19864598382720.0,
      "grad_norm": 1.875569762728763,
      "language_loss": 0.77198994,
      "learning_rate": 4.711985582893627e-07,
      "loss": 0.79390317,
      "num_input_tokens_seen": 140495885,
      "step": 6517,
      "time_per_iteration": 2.575183391571045
    },
    {
      "auxiliary_loss_clip": 0.01137331,
      "auxiliary_loss_mlp": 0.01027072,
      "balance_loss_clip": 1.0428021,
      "balance_loss_mlp": 1.0190258,
      "epoch": 0.783743161185595,
      "flos": 22965843755520.0,
      "grad_norm": 1.7483639084668698,
      "language_loss": 0.71493745,
      "learning_rate": 4.706964389512811e-07,
      "loss": 0.73658144,
      "num_input_tokens_seen": 140515920,
      "step": 6518,
      "time_per_iteration": 2.7340502738952637
    },
    {
      "auxiliary_loss_clip": 0.01172599,
      "auxiliary_loss_mlp": 0.01033187,
      "balance_loss_clip": 1.05031765,
      "balance_loss_mlp": 1.02545595,
      "epoch": 0.783863404076234,
      "flos": 12458489777280.0,
      "grad_norm": 1.9998224880266267,
      "language_loss": 0.87649018,
      "learning_rate": 4.701945516073345e-07,
      "loss": 0.89854801,
      "num_input_tokens_seen": 140533395,
      "step": 6519,
      "time_per_iteration": 2.5816144943237305
    },
    {
      "auxiliary_loss_clip": 0.01143205,
      "auxiliary_loss_mlp": 0.01025879,
      "balance_loss_clip": 1.04675817,
      "balance_loss_mlp": 1.01866126,
      "epoch": 0.7839836469668731,
      "flos": 24243940465920.0,
      "grad_norm": 1.8956697719899924,
      "language_loss": 0.75122368,
      "learning_rate": 4.696928963336577e-07,
      "loss": 0.77291453,
      "num_input_tokens_seen": 140552825,
      "step": 6520,
      "time_per_iteration": 2.732175350189209
    },
    {
      "auxiliary_loss_clip": 0.01057081,
      "auxiliary_loss_mlp": 0.01000824,
      "balance_loss_clip": 1.01065302,
      "balance_loss_mlp": 0.99986476,
      "epoch": 0.7841038898575122,
      "flos": 62121978938880.0,
      "grad_norm": 0.8505825428079105,
      "language_loss": 0.60931957,
      "learning_rate": 4.6919147320635224e-07,
      "loss": 0.62989867,
      "num_input_tokens_seen": 140615535,
      "step": 6521,
      "time_per_iteration": 3.1285526752471924
    },
    {
      "auxiliary_loss_clip": 0.01164876,
      "auxiliary_loss_mlp": 0.0102225,
      "balance_loss_clip": 1.04651642,
      "balance_loss_mlp": 1.01434052,
      "epoch": 0.7842241327481513,
      "flos": 20193899293440.0,
      "grad_norm": 3.582018659894448,
      "language_loss": 0.72904712,
      "learning_rate": 4.6869028230148286e-07,
      "loss": 0.75091833,
      "num_input_tokens_seen": 140633330,
      "step": 6522,
      "time_per_iteration": 3.6604528427124023
    },
    {
      "auxiliary_loss_clip": 0.01136576,
      "auxiliary_loss_mlp": 0.01027862,
      "balance_loss_clip": 1.03953981,
      "balance_loss_mlp": 1.01967847,
      "epoch": 0.7843443756387903,
      "flos": 28074531496320.0,
      "grad_norm": 2.134080041723775,
      "language_loss": 0.59516597,
      "learning_rate": 4.6818932369507957e-07,
      "loss": 0.61681038,
      "num_input_tokens_seen": 140652830,
      "step": 6523,
      "time_per_iteration": 3.722841262817383
    },
    {
      "auxiliary_loss_clip": 0.01163535,
      "auxiliary_loss_mlp": 0.01030198,
      "balance_loss_clip": 1.04972196,
      "balance_loss_mlp": 1.02231228,
      "epoch": 0.7844646185294295,
      "flos": 21323397438720.0,
      "grad_norm": 2.0456576900521863,
      "language_loss": 0.88976192,
      "learning_rate": 4.676885974631386e-07,
      "loss": 0.91169918,
      "num_input_tokens_seen": 140671190,
      "step": 6524,
      "time_per_iteration": 2.665754556655884
    },
    {
      "auxiliary_loss_clip": 0.01163629,
      "auxiliary_loss_mlp": 0.01032119,
      "balance_loss_clip": 1.04777122,
      "balance_loss_mlp": 1.02400672,
      "epoch": 0.7845848614200686,
      "flos": 23656585271040.0,
      "grad_norm": 1.889580411043609,
      "language_loss": 0.81224871,
      "learning_rate": 4.67188103681619e-07,
      "loss": 0.8342061,
      "num_input_tokens_seen": 140690975,
      "step": 6525,
      "time_per_iteration": 2.656937599182129
    },
    {
      "auxiliary_loss_clip": 0.01161087,
      "auxiliary_loss_mlp": 0.00886617,
      "balance_loss_clip": 1.04989731,
      "balance_loss_mlp": 1.00053108,
      "epoch": 0.7847051043107076,
      "flos": 23402194174080.0,
      "grad_norm": 3.9824625774720688,
      "language_loss": 0.68974984,
      "learning_rate": 4.666878424264453e-07,
      "loss": 0.71022689,
      "num_input_tokens_seen": 140710930,
      "step": 6526,
      "time_per_iteration": 3.571251153945923
    },
    {
      "auxiliary_loss_clip": 0.01147217,
      "auxiliary_loss_mlp": 0.01031702,
      "balance_loss_clip": 1.04699016,
      "balance_loss_mlp": 1.02458477,
      "epoch": 0.7848253472013467,
      "flos": 19022277473280.0,
      "grad_norm": 1.6134397901261308,
      "language_loss": 0.73914295,
      "learning_rate": 4.661878137735069e-07,
      "loss": 0.76093209,
      "num_input_tokens_seen": 140729120,
      "step": 6527,
      "time_per_iteration": 2.6636803150177
    },
    {
      "auxiliary_loss_clip": 0.01154932,
      "auxiliary_loss_mlp": 0.010313,
      "balance_loss_clip": 1.04704142,
      "balance_loss_mlp": 1.02324724,
      "epoch": 0.7849455900919858,
      "flos": 21179180332800.0,
      "grad_norm": 2.841298570442314,
      "language_loss": 0.74717695,
      "learning_rate": 4.656880177986571e-07,
      "loss": 0.76903927,
      "num_input_tokens_seen": 140747665,
      "step": 6528,
      "time_per_iteration": 2.715120315551758
    },
    {
      "auxiliary_loss_clip": 0.01156282,
      "auxiliary_loss_mlp": 0.0102951,
      "balance_loss_clip": 1.04390907,
      "balance_loss_mlp": 1.0207901,
      "epoch": 0.7850658329826249,
      "flos": 19536482620800.0,
      "grad_norm": 2.679382258050459,
      "language_loss": 0.81439912,
      "learning_rate": 4.6518845457771607e-07,
      "loss": 0.83625698,
      "num_input_tokens_seen": 140766525,
      "step": 6529,
      "time_per_iteration": 2.7167487144470215
    },
    {
      "auxiliary_loss_clip": 0.01156206,
      "auxiliary_loss_mlp": 0.00886436,
      "balance_loss_clip": 1.04548407,
      "balance_loss_mlp": 1.00057864,
      "epoch": 0.7851860758732639,
      "flos": 12495334152960.0,
      "grad_norm": 3.041763566786251,
      "language_loss": 0.79231894,
      "learning_rate": 4.646891241864652e-07,
      "loss": 0.81274533,
      "num_input_tokens_seen": 140785090,
      "step": 6530,
      "time_per_iteration": 2.6801323890686035
    },
    {
      "auxiliary_loss_clip": 0.01158919,
      "auxiliary_loss_mlp": 0.01033724,
      "balance_loss_clip": 1.04442823,
      "balance_loss_mlp": 1.02472425,
      "epoch": 0.7853063187639031,
      "flos": 22960959505920.0,
      "grad_norm": 2.2219958541156237,
      "language_loss": 0.73412555,
      "learning_rate": 4.6419002670065397e-07,
      "loss": 0.75605196,
      "num_input_tokens_seen": 140804670,
      "step": 6531,
      "time_per_iteration": 2.6863677501678467
    },
    {
      "auxiliary_loss_clip": 0.01148306,
      "auxiliary_loss_mlp": 0.01026471,
      "balance_loss_clip": 1.04618955,
      "balance_loss_mlp": 1.01878798,
      "epoch": 0.7854265616545422,
      "flos": 17347260499200.0,
      "grad_norm": 2.2539692588859994,
      "language_loss": 0.86506796,
      "learning_rate": 4.6369116219599445e-07,
      "loss": 0.88681573,
      "num_input_tokens_seen": 140820655,
      "step": 6532,
      "time_per_iteration": 2.7064390182495117
    },
    {
      "auxiliary_loss_clip": 0.01142318,
      "auxiliary_loss_mlp": 0.01021848,
      "balance_loss_clip": 1.04322028,
      "balance_loss_mlp": 1.01450181,
      "epoch": 0.7855468045451812,
      "flos": 23838293197440.0,
      "grad_norm": 1.8999387555492167,
      "language_loss": 0.79011863,
      "learning_rate": 4.631925307481637e-07,
      "loss": 0.81176031,
      "num_input_tokens_seen": 140840470,
      "step": 6533,
      "time_per_iteration": 2.7458817958831787
    },
    {
      "auxiliary_loss_clip": 0.01154785,
      "auxiliary_loss_mlp": 0.01026597,
      "balance_loss_clip": 1.04859054,
      "balance_loss_mlp": 1.01847315,
      "epoch": 0.7856670474358204,
      "flos": 25666792986240.0,
      "grad_norm": 2.3575181066890405,
      "language_loss": 0.75737345,
      "learning_rate": 4.6269413243280533e-07,
      "loss": 0.77918726,
      "num_input_tokens_seen": 140859890,
      "step": 6534,
      "time_per_iteration": 3.609079599380493
    },
    {
      "auxiliary_loss_clip": 0.01153409,
      "auxiliary_loss_mlp": 0.01022893,
      "balance_loss_clip": 1.04492903,
      "balance_loss_mlp": 1.0149771,
      "epoch": 0.7857872903264594,
      "flos": 18144656472960.0,
      "grad_norm": 2.470768387526396,
      "language_loss": 0.73808861,
      "learning_rate": 4.621959673255236e-07,
      "loss": 0.75985163,
      "num_input_tokens_seen": 140876190,
      "step": 6535,
      "time_per_iteration": 2.7267026901245117
    },
    {
      "auxiliary_loss_clip": 0.0113623,
      "auxiliary_loss_mlp": 0.0102648,
      "balance_loss_clip": 1.04507065,
      "balance_loss_mlp": 1.01898217,
      "epoch": 0.7859075332170985,
      "flos": 14386138081920.0,
      "grad_norm": 2.229844685471241,
      "language_loss": 0.90497738,
      "learning_rate": 4.6169803550189135e-07,
      "loss": 0.92660445,
      "num_input_tokens_seen": 140891885,
      "step": 6536,
      "time_per_iteration": 2.6676552295684814
    },
    {
      "auxiliary_loss_clip": 0.01126063,
      "auxiliary_loss_mlp": 0.01022674,
      "balance_loss_clip": 1.04107964,
      "balance_loss_mlp": 1.01522684,
      "epoch": 0.7860277761077377,
      "flos": 19864059678720.0,
      "grad_norm": 1.9330442980955824,
      "language_loss": 0.77667832,
      "learning_rate": 4.6120033703744355e-07,
      "loss": 0.79816568,
      "num_input_tokens_seen": 140910780,
      "step": 6537,
      "time_per_iteration": 2.7769553661346436
    },
    {
      "auxiliary_loss_clip": 0.01143841,
      "auxiliary_loss_mlp": 0.01031336,
      "balance_loss_clip": 1.04297066,
      "balance_loss_mlp": 1.02346802,
      "epoch": 0.7861480189983767,
      "flos": 26396174557440.0,
      "grad_norm": 2.025868205797061,
      "language_loss": 0.78434271,
      "learning_rate": 4.607028720076822e-07,
      "loss": 0.80609447,
      "num_input_tokens_seen": 140927460,
      "step": 6538,
      "time_per_iteration": 2.681150197982788
    },
    {
      "auxiliary_loss_clip": 0.01160837,
      "auxiliary_loss_mlp": 0.01024761,
      "balance_loss_clip": 1.04588675,
      "balance_loss_mlp": 1.01706576,
      "epoch": 0.7862682618890158,
      "flos": 24236578177920.0,
      "grad_norm": 1.9377991189142378,
      "language_loss": 0.73586857,
      "learning_rate": 4.6020564048807074e-07,
      "loss": 0.75772452,
      "num_input_tokens_seen": 140945135,
      "step": 6539,
      "time_per_iteration": 2.657548666000366
    },
    {
      "auxiliary_loss_clip": 0.01165423,
      "auxiliary_loss_mlp": 0.01031935,
      "balance_loss_clip": 1.04748344,
      "balance_loss_mlp": 1.02298224,
      "epoch": 0.7863885047796549,
      "flos": 47551508259840.0,
      "grad_norm": 2.193894215369285,
      "language_loss": 0.71922427,
      "learning_rate": 4.5970864255403883e-07,
      "loss": 0.74119788,
      "num_input_tokens_seen": 140966660,
      "step": 6540,
      "time_per_iteration": 2.8253724575042725
    },
    {
      "auxiliary_loss_clip": 0.01153453,
      "auxiliary_loss_mlp": 0.01025248,
      "balance_loss_clip": 1.04574883,
      "balance_loss_mlp": 1.01774943,
      "epoch": 0.786508747670294,
      "flos": 24389234979840.0,
      "grad_norm": 1.8110006921037616,
      "language_loss": 0.81803769,
      "learning_rate": 4.59211878280982e-07,
      "loss": 0.83982468,
      "num_input_tokens_seen": 140986175,
      "step": 6541,
      "time_per_iteration": 2.6432621479034424
    },
    {
      "auxiliary_loss_clip": 0.01156561,
      "auxiliary_loss_mlp": 0.01026397,
      "balance_loss_clip": 1.04814303,
      "balance_loss_mlp": 1.01880348,
      "epoch": 0.786628990560933,
      "flos": 18041234238720.0,
      "grad_norm": 2.1167873740363694,
      "language_loss": 0.69854248,
      "learning_rate": 4.587153477442578e-07,
      "loss": 0.72037208,
      "num_input_tokens_seen": 141002490,
      "step": 6542,
      "time_per_iteration": 2.6151583194732666
    },
    {
      "auxiliary_loss_clip": 0.01178533,
      "auxiliary_loss_mlp": 0.0103323,
      "balance_loss_clip": 1.05068839,
      "balance_loss_mlp": 1.02490354,
      "epoch": 0.7867492334515722,
      "flos": 25848860048640.0,
      "grad_norm": 2.2198928167553826,
      "language_loss": 0.81250727,
      "learning_rate": 4.582190510191899e-07,
      "loss": 0.83462489,
      "num_input_tokens_seen": 141021150,
      "step": 6543,
      "time_per_iteration": 2.6625561714172363
    },
    {
      "auxiliary_loss_clip": 0.01139656,
      "auxiliary_loss_mlp": 0.01031293,
      "balance_loss_clip": 1.04505897,
      "balance_loss_mlp": 1.02325881,
      "epoch": 0.7868694763422113,
      "flos": 16580819070720.0,
      "grad_norm": 2.4036687531250496,
      "language_loss": 0.87234843,
      "learning_rate": 4.5772298818106625e-07,
      "loss": 0.89405787,
      "num_input_tokens_seen": 141036940,
      "step": 6544,
      "time_per_iteration": 2.6709747314453125
    },
    {
      "auxiliary_loss_clip": 0.01148308,
      "auxiliary_loss_mlp": 0.01031576,
      "balance_loss_clip": 1.04530573,
      "balance_loss_mlp": 1.02337503,
      "epoch": 0.7869897192328503,
      "flos": 29386276272000.0,
      "grad_norm": 2.3991963431227927,
      "language_loss": 0.71938348,
      "learning_rate": 4.572271593051384e-07,
      "loss": 0.74118239,
      "num_input_tokens_seen": 141054295,
      "step": 6545,
      "time_per_iteration": 2.7517857551574707
    },
    {
      "auxiliary_loss_clip": 0.01127433,
      "auxiliary_loss_mlp": 0.01031248,
      "balance_loss_clip": 1.04502606,
      "balance_loss_mlp": 1.02316594,
      "epoch": 0.7871099621234895,
      "flos": 17128923678720.0,
      "grad_norm": 2.373188600671459,
      "language_loss": 0.78652138,
      "learning_rate": 4.567315644666245e-07,
      "loss": 0.80810821,
      "num_input_tokens_seen": 141073090,
      "step": 6546,
      "time_per_iteration": 2.7614457607269287
    },
    {
      "auxiliary_loss_clip": 0.01139529,
      "auxiliary_loss_mlp": 0.01033708,
      "balance_loss_clip": 1.04700208,
      "balance_loss_mlp": 1.02565587,
      "epoch": 0.7872302050141285,
      "flos": 23440187784960.0,
      "grad_norm": 2.8876716218681464,
      "language_loss": 0.84433156,
      "learning_rate": 4.5623620374070507e-07,
      "loss": 0.86606395,
      "num_input_tokens_seen": 141092405,
      "step": 6547,
      "time_per_iteration": 2.7251529693603516
    },
    {
      "auxiliary_loss_clip": 0.01045689,
      "auxiliary_loss_mlp": 0.01003233,
      "balance_loss_clip": 1.00963593,
      "balance_loss_mlp": 1.00226152,
      "epoch": 0.7873504479047676,
      "flos": 65959752689280.0,
      "grad_norm": 0.7597965818849801,
      "language_loss": 0.5833776,
      "learning_rate": 4.557410772025263e-07,
      "loss": 0.60386682,
      "num_input_tokens_seen": 141154355,
      "step": 6548,
      "time_per_iteration": 4.291051626205444
    },
    {
      "auxiliary_loss_clip": 0.01149491,
      "auxiliary_loss_mlp": 0.0103124,
      "balance_loss_clip": 1.04413807,
      "balance_loss_mlp": 1.02281153,
      "epoch": 0.7874706907954068,
      "flos": 23258336204160.0,
      "grad_norm": 2.911911575141768,
      "language_loss": 0.661237,
      "learning_rate": 4.5524618492719803e-07,
      "loss": 0.68304431,
      "num_input_tokens_seen": 141173575,
      "step": 6549,
      "time_per_iteration": 3.692110776901245
    },
    {
      "auxiliary_loss_clip": 0.01161932,
      "auxiliary_loss_mlp": 0.01025659,
      "balance_loss_clip": 1.04550171,
      "balance_loss_mlp": 1.0183934,
      "epoch": 0.7875909336860458,
      "flos": 28767786963840.0,
      "grad_norm": 2.059774409281586,
      "language_loss": 0.79099798,
      "learning_rate": 4.54751526989795e-07,
      "loss": 0.8128739,
      "num_input_tokens_seen": 141195415,
      "step": 6550,
      "time_per_iteration": 2.7007832527160645
    },
    {
      "auxiliary_loss_clip": 0.01164751,
      "auxiliary_loss_mlp": 0.01029541,
      "balance_loss_clip": 1.04664421,
      "balance_loss_mlp": 1.02179205,
      "epoch": 0.7877111765766849,
      "flos": 18697286194560.0,
      "grad_norm": 1.9920680889527593,
      "language_loss": 0.79272735,
      "learning_rate": 4.5425710346535775e-07,
      "loss": 0.81467021,
      "num_input_tokens_seen": 141213360,
      "step": 6551,
      "time_per_iteration": 2.585675001144409
    },
    {
      "auxiliary_loss_clip": 0.01164088,
      "auxiliary_loss_mlp": 0.01026914,
      "balance_loss_clip": 1.04667282,
      "balance_loss_mlp": 1.01936531,
      "epoch": 0.787831419467324,
      "flos": 27592968833280.0,
      "grad_norm": 1.8942270230411753,
      "language_loss": 0.8169592,
      "learning_rate": 4.537629144288877e-07,
      "loss": 0.83886921,
      "num_input_tokens_seen": 141230815,
      "step": 6552,
      "time_per_iteration": 3.549968719482422
    },
    {
      "auxiliary_loss_clip": 0.01142918,
      "auxiliary_loss_mlp": 0.01022837,
      "balance_loss_clip": 1.04153419,
      "balance_loss_mlp": 1.01501703,
      "epoch": 0.7879516623579631,
      "flos": 18150187167360.0,
      "grad_norm": 2.0226041972043984,
      "language_loss": 0.74698728,
      "learning_rate": 4.5326895995535477e-07,
      "loss": 0.76864481,
      "num_input_tokens_seen": 141249715,
      "step": 6553,
      "time_per_iteration": 2.7984423637390137
    },
    {
      "auxiliary_loss_clip": 0.01161687,
      "auxiliary_loss_mlp": 0.01025892,
      "balance_loss_clip": 1.04752541,
      "balance_loss_mlp": 1.01819754,
      "epoch": 0.7880719052486022,
      "flos": 20339193807360.0,
      "grad_norm": 2.7346066714868162,
      "language_loss": 0.85112238,
      "learning_rate": 4.527752401196907e-07,
      "loss": 0.87299812,
      "num_input_tokens_seen": 141267730,
      "step": 6554,
      "time_per_iteration": 2.688901662826538
    },
    {
      "auxiliary_loss_clip": 0.01146919,
      "auxiliary_loss_mlp": 0.01026469,
      "balance_loss_clip": 1.04451036,
      "balance_loss_mlp": 1.01816583,
      "epoch": 0.7881921481392413,
      "flos": 21653237053440.0,
      "grad_norm": 1.7326115649821132,
      "language_loss": 0.66972142,
      "learning_rate": 4.5228175499679254e-07,
      "loss": 0.69145525,
      "num_input_tokens_seen": 141287315,
      "step": 6555,
      "time_per_iteration": 2.644585371017456
    },
    {
      "auxiliary_loss_clip": 0.01059209,
      "auxiliary_loss_mlp": 0.01002983,
      "balance_loss_clip": 1.00929189,
      "balance_loss_mlp": 1.00202334,
      "epoch": 0.7883123910298804,
      "flos": 68565860058240.0,
      "grad_norm": 0.8110179740217697,
      "language_loss": 0.54486883,
      "learning_rate": 4.5178850466152174e-07,
      "loss": 0.56549072,
      "num_input_tokens_seen": 141346145,
      "step": 6556,
      "time_per_iteration": 3.3175923824310303
    },
    {
      "auxiliary_loss_clip": 0.01146851,
      "auxiliary_loss_mlp": 0.01027254,
      "balance_loss_clip": 1.04307222,
      "balance_loss_mlp": 1.01996469,
      "epoch": 0.7884326339205194,
      "flos": 19318217627520.0,
      "grad_norm": 1.9891937103345414,
      "language_loss": 0.81933194,
      "learning_rate": 4.512954891887031e-07,
      "loss": 0.84107298,
      "num_input_tokens_seen": 141364445,
      "step": 6557,
      "time_per_iteration": 2.6575653553009033
    },
    {
      "auxiliary_loss_clip": 0.01145656,
      "auxiliary_loss_mlp": 0.0102283,
      "balance_loss_clip": 1.04481161,
      "balance_loss_mlp": 1.01485753,
      "epoch": 0.7885528768111585,
      "flos": 17784903807360.0,
      "grad_norm": 2.140212186346204,
      "language_loss": 0.83802128,
      "learning_rate": 4.5080270865312806e-07,
      "loss": 0.8597061,
      "num_input_tokens_seen": 141381640,
      "step": 6558,
      "time_per_iteration": 2.644929885864258
    },
    {
      "auxiliary_loss_clip": 0.01163442,
      "auxiliary_loss_mlp": 0.01024138,
      "balance_loss_clip": 1.04660535,
      "balance_loss_mlp": 1.01666391,
      "epoch": 0.7886731197017977,
      "flos": 18807639753600.0,
      "grad_norm": 2.16865543960388,
      "language_loss": 0.71348226,
      "learning_rate": 4.5031016312954985e-07,
      "loss": 0.735358,
      "num_input_tokens_seen": 141399955,
      "step": 6559,
      "time_per_iteration": 2.6130964756011963
    },
    {
      "auxiliary_loss_clip": 0.01174055,
      "auxiliary_loss_mlp": 0.01032372,
      "balance_loss_clip": 1.05203032,
      "balance_loss_mlp": 1.0246532,
      "epoch": 0.7887933625924367,
      "flos": 33365358126720.0,
      "grad_norm": 1.9081245563855616,
      "language_loss": 0.74159425,
      "learning_rate": 4.498178526926886e-07,
      "loss": 0.76365852,
      "num_input_tokens_seen": 141420820,
      "step": 6560,
      "time_per_iteration": 3.590404510498047
    },
    {
      "auxiliary_loss_clip": 0.01174188,
      "auxiliary_loss_mlp": 0.01028834,
      "balance_loss_clip": 1.05082512,
      "balance_loss_mlp": 1.02106106,
      "epoch": 0.7889136054830758,
      "flos": 17019360218880.0,
      "grad_norm": 3.0203938583941157,
      "language_loss": 0.72222805,
      "learning_rate": 4.4932577741722635e-07,
      "loss": 0.74425828,
      "num_input_tokens_seen": 141439350,
      "step": 6561,
      "time_per_iteration": 2.612575054168701
    },
    {
      "auxiliary_loss_clip": 0.01150132,
      "auxiliary_loss_mlp": 0.01026961,
      "balance_loss_clip": 1.04477966,
      "balance_loss_mlp": 1.01939404,
      "epoch": 0.7890338483737149,
      "flos": 29424629018880.0,
      "grad_norm": 1.5998062083101616,
      "language_loss": 0.74289942,
      "learning_rate": 4.4883393737780985e-07,
      "loss": 0.76467037,
      "num_input_tokens_seen": 141460300,
      "step": 6562,
      "time_per_iteration": 2.705676555633545
    },
    {
      "auxiliary_loss_clip": 0.01154899,
      "auxiliary_loss_mlp": 0.01028581,
      "balance_loss_clip": 1.0434866,
      "balance_loss_mlp": 1.02085614,
      "epoch": 0.789154091264354,
      "flos": 19971576063360.0,
      "grad_norm": 1.9963525085921396,
      "language_loss": 0.78545666,
      "learning_rate": 4.4834233264905254e-07,
      "loss": 0.80729145,
      "num_input_tokens_seen": 141477315,
      "step": 6563,
      "time_per_iteration": 2.6273109912872314
    },
    {
      "auxiliary_loss_clip": 0.01137507,
      "auxiliary_loss_mlp": 0.01032111,
      "balance_loss_clip": 1.04314363,
      "balance_loss_mlp": 1.0240612,
      "epoch": 0.789274334154993,
      "flos": 14537825216640.0,
      "grad_norm": 2.1928886211677927,
      "language_loss": 0.71960974,
      "learning_rate": 4.478509633055294e-07,
      "loss": 0.74130589,
      "num_input_tokens_seen": 141495025,
      "step": 6564,
      "time_per_iteration": 2.672847032546997
    },
    {
      "auxiliary_loss_clip": 0.01155517,
      "auxiliary_loss_mlp": 0.01029776,
      "balance_loss_clip": 1.04474366,
      "balance_loss_mlp": 1.02205086,
      "epoch": 0.7893945770456322,
      "flos": 21827403123840.0,
      "grad_norm": 2.766605231285366,
      "language_loss": 0.80076617,
      "learning_rate": 4.473598294217813e-07,
      "loss": 0.82261908,
      "num_input_tokens_seen": 141510450,
      "step": 6565,
      "time_per_iteration": 2.723726749420166
    },
    {
      "auxiliary_loss_clip": 0.01161551,
      "auxiliary_loss_mlp": 0.01025724,
      "balance_loss_clip": 1.04885495,
      "balance_loss_mlp": 1.01852417,
      "epoch": 0.7895148199362713,
      "flos": 20740639184640.0,
      "grad_norm": 2.3706641440309477,
      "language_loss": 0.71892875,
      "learning_rate": 4.468689310723124e-07,
      "loss": 0.74080157,
      "num_input_tokens_seen": 141528265,
      "step": 6566,
      "time_per_iteration": 2.6118247509002686
    },
    {
      "auxiliary_loss_clip": 0.01147034,
      "auxiliary_loss_mlp": 0.01023359,
      "balance_loss_clip": 1.04365611,
      "balance_loss_mlp": 1.01562262,
      "epoch": 0.7896350628269103,
      "flos": 16690669839360.0,
      "grad_norm": 1.8104831388239444,
      "language_loss": 0.7830441,
      "learning_rate": 4.463782683315913e-07,
      "loss": 0.804748,
      "num_input_tokens_seen": 141547270,
      "step": 6567,
      "time_per_iteration": 2.735623598098755
    },
    {
      "auxiliary_loss_clip": 0.01171883,
      "auxiliary_loss_mlp": 0.01028555,
      "balance_loss_clip": 1.04876089,
      "balance_loss_mlp": 1.02067542,
      "epoch": 0.7897553057175495,
      "flos": 22638374438400.0,
      "grad_norm": 1.8520476245531194,
      "language_loss": 0.73792309,
      "learning_rate": 4.458878412740523e-07,
      "loss": 0.75992751,
      "num_input_tokens_seen": 141566050,
      "step": 6568,
      "time_per_iteration": 2.61008358001709
    },
    {
      "auxiliary_loss_clip": 0.01161356,
      "auxiliary_loss_mlp": 0.01023998,
      "balance_loss_clip": 1.0478785,
      "balance_loss_mlp": 1.01645219,
      "epoch": 0.7898755486081885,
      "flos": 14537573821440.0,
      "grad_norm": 2.401192598590545,
      "language_loss": 0.77651775,
      "learning_rate": 4.453976499740919e-07,
      "loss": 0.79837132,
      "num_input_tokens_seen": 141583695,
      "step": 6569,
      "time_per_iteration": 2.7718472480773926
    },
    {
      "auxiliary_loss_clip": 0.01162236,
      "auxiliary_loss_mlp": 0.01030075,
      "balance_loss_clip": 1.04791999,
      "balance_loss_mlp": 1.02234459,
      "epoch": 0.7899957914988276,
      "flos": 17238487138560.0,
      "grad_norm": 1.862101295730802,
      "language_loss": 0.7784372,
      "learning_rate": 4.4490769450607215e-07,
      "loss": 0.80036032,
      "num_input_tokens_seen": 141601320,
      "step": 6570,
      "time_per_iteration": 2.582526206970215
    },
    {
      "auxiliary_loss_clip": 0.01139104,
      "auxiliary_loss_mlp": 0.01025822,
      "balance_loss_clip": 1.04057705,
      "balance_loss_mlp": 1.01782918,
      "epoch": 0.7901160343894668,
      "flos": 41279351086080.0,
      "grad_norm": 2.2062591955260182,
      "language_loss": 0.72654808,
      "learning_rate": 4.4441797494431845e-07,
      "loss": 0.74819732,
      "num_input_tokens_seen": 141623125,
      "step": 6571,
      "time_per_iteration": 2.8583617210388184
    },
    {
      "auxiliary_loss_clip": 0.01160477,
      "auxiliary_loss_mlp": 0.01027703,
      "balance_loss_clip": 1.04870439,
      "balance_loss_mlp": 1.01996684,
      "epoch": 0.7902362772801058,
      "flos": 16837005847680.0,
      "grad_norm": 2.001138913526877,
      "language_loss": 0.77926123,
      "learning_rate": 4.439284913631207e-07,
      "loss": 0.80114305,
      "num_input_tokens_seen": 141640335,
      "step": 6572,
      "time_per_iteration": 2.623748540878296
    },
    {
      "auxiliary_loss_clip": 0.01146272,
      "auxiliary_loss_mlp": 0.01031411,
      "balance_loss_clip": 1.04709721,
      "balance_loss_mlp": 1.02348948,
      "epoch": 0.7903565201707449,
      "flos": 27125987091840.0,
      "grad_norm": 4.9533102620072365,
      "language_loss": 0.83601058,
      "learning_rate": 4.434392438367347e-07,
      "loss": 0.85778743,
      "num_input_tokens_seen": 141659760,
      "step": 6573,
      "time_per_iteration": 2.696509838104248
    },
    {
      "auxiliary_loss_clip": 0.01168314,
      "auxiliary_loss_mlp": 0.01022141,
      "balance_loss_clip": 1.04798245,
      "balance_loss_mlp": 1.01449955,
      "epoch": 0.790476763061384,
      "flos": 31025167142400.0,
      "grad_norm": 1.9754759691732162,
      "language_loss": 0.74464393,
      "learning_rate": 4.4295023243937677e-07,
      "loss": 0.76654851,
      "num_input_tokens_seen": 141679965,
      "step": 6574,
      "time_per_iteration": 3.6245808601379395
    },
    {
      "auxiliary_loss_clip": 0.01163595,
      "auxiliary_loss_mlp": 0.01022811,
      "balance_loss_clip": 1.04772305,
      "balance_loss_mlp": 1.01434708,
      "epoch": 0.7905970059520231,
      "flos": 22089084681600.0,
      "grad_norm": 1.814669733369106,
      "language_loss": 0.80380672,
      "learning_rate": 4.4246145724523123e-07,
      "loss": 0.82567084,
      "num_input_tokens_seen": 141697710,
      "step": 6575,
      "time_per_iteration": 3.6273531913757324
    },
    {
      "auxiliary_loss_clip": 0.01144618,
      "auxiliary_loss_mlp": 0.01025016,
      "balance_loss_clip": 1.04658473,
      "balance_loss_mlp": 1.01738334,
      "epoch": 0.7907172488426621,
      "flos": 20558141159040.0,
      "grad_norm": 2.482667693335574,
      "language_loss": 0.77465266,
      "learning_rate": 4.41972918328444e-07,
      "loss": 0.79634905,
      "num_input_tokens_seen": 141715145,
      "step": 6576,
      "time_per_iteration": 2.716045379638672
    },
    {
      "auxiliary_loss_clip": 0.01160305,
      "auxiliary_loss_mlp": 0.01031713,
      "balance_loss_clip": 1.04821312,
      "balance_loss_mlp": 1.02337456,
      "epoch": 0.7908374917333013,
      "flos": 30081542901120.0,
      "grad_norm": 2.361278050459792,
      "language_loss": 0.77378201,
      "learning_rate": 4.4148461576312646e-07,
      "loss": 0.79570222,
      "num_input_tokens_seen": 141734810,
      "step": 6577,
      "time_per_iteration": 2.7190988063812256
    },
    {
      "auxiliary_loss_clip": 0.01163728,
      "auxiliary_loss_mlp": 0.0102383,
      "balance_loss_clip": 1.049546,
      "balance_loss_mlp": 1.01667714,
      "epoch": 0.7909577346239404,
      "flos": 20996359084800.0,
      "grad_norm": 1.4367383912472507,
      "language_loss": 0.7463088,
      "learning_rate": 4.4099654962335343e-07,
      "loss": 0.76818442,
      "num_input_tokens_seen": 141755260,
      "step": 6578,
      "time_per_iteration": 3.6460280418395996
    },
    {
      "auxiliary_loss_clip": 0.01158862,
      "auxiliary_loss_mlp": 0.01027981,
      "balance_loss_clip": 1.04738939,
      "balance_loss_mlp": 1.0202179,
      "epoch": 0.7910779775145794,
      "flos": 26247935128320.0,
      "grad_norm": 1.7806562073535925,
      "language_loss": 0.75355351,
      "learning_rate": 4.405087199831636e-07,
      "loss": 0.77542198,
      "num_input_tokens_seen": 141775500,
      "step": 6579,
      "time_per_iteration": 2.7669811248779297
    },
    {
      "auxiliary_loss_clip": 0.0115614,
      "auxiliary_loss_mlp": 0.00886667,
      "balance_loss_clip": 1.04510653,
      "balance_loss_mlp": 1.00061679,
      "epoch": 0.7911982204052186,
      "flos": 22564434291840.0,
      "grad_norm": 2.1413392098398485,
      "language_loss": 0.67188936,
      "learning_rate": 4.400211269165619e-07,
      "loss": 0.69231737,
      "num_input_tokens_seen": 141791955,
      "step": 6580,
      "time_per_iteration": 2.6356701850891113
    },
    {
      "auxiliary_loss_clip": 0.0117592,
      "auxiliary_loss_mlp": 0.01028422,
      "balance_loss_clip": 1.05373859,
      "balance_loss_mlp": 1.02109623,
      "epoch": 0.7913184632958576,
      "flos": 23112538899840.0,
      "grad_norm": 1.492003432101683,
      "language_loss": 0.76669657,
      "learning_rate": 4.3953377049751416e-07,
      "loss": 0.78873992,
      "num_input_tokens_seen": 141812380,
      "step": 6581,
      "time_per_iteration": 2.6228904724121094
    },
    {
      "auxiliary_loss_clip": 0.01158418,
      "auxiliary_loss_mlp": 0.01032756,
      "balance_loss_clip": 1.04753411,
      "balance_loss_mlp": 1.02453709,
      "epoch": 0.7914387061864967,
      "flos": 12311758719360.0,
      "grad_norm": 2.2351805427339477,
      "language_loss": 0.78010345,
      "learning_rate": 4.390466507999537e-07,
      "loss": 0.80201513,
      "num_input_tokens_seen": 141828130,
      "step": 6582,
      "time_per_iteration": 2.6550967693328857
    },
    {
      "auxiliary_loss_clip": 0.01141224,
      "auxiliary_loss_mlp": 0.01024575,
      "balance_loss_clip": 1.04350591,
      "balance_loss_mlp": 1.01680219,
      "epoch": 0.7915589490771359,
      "flos": 17603267708160.0,
      "grad_norm": 2.406290135902846,
      "language_loss": 0.7630043,
      "learning_rate": 4.385597678977748e-07,
      "loss": 0.78466231,
      "num_input_tokens_seen": 141846965,
      "step": 6583,
      "time_per_iteration": 2.6939005851745605
    },
    {
      "auxiliary_loss_clip": 0.01148435,
      "auxiliary_loss_mlp": 0.01024036,
      "balance_loss_clip": 1.04244184,
      "balance_loss_mlp": 1.01579285,
      "epoch": 0.7916791919677749,
      "flos": 25591272641280.0,
      "grad_norm": 1.656050977813685,
      "language_loss": 0.75538039,
      "learning_rate": 4.3807312186483726e-07,
      "loss": 0.77710503,
      "num_input_tokens_seen": 141867685,
      "step": 6584,
      "time_per_iteration": 2.747495174407959
    },
    {
      "auxiliary_loss_clip": 0.01160255,
      "auxiliary_loss_mlp": 0.0102866,
      "balance_loss_clip": 1.04953098,
      "balance_loss_mlp": 1.02108097,
      "epoch": 0.791799434858414,
      "flos": 18844340474880.0,
      "grad_norm": 1.8631311959608965,
      "language_loss": 0.78568053,
      "learning_rate": 4.375867127749655e-07,
      "loss": 0.80756974,
      "num_input_tokens_seen": 141885960,
      "step": 6585,
      "time_per_iteration": 2.593879461288452
    },
    {
      "auxiliary_loss_clip": 0.01147013,
      "auxiliary_loss_mlp": 0.01026847,
      "balance_loss_clip": 1.04798877,
      "balance_loss_mlp": 1.01900315,
      "epoch": 0.7919196777490531,
      "flos": 25812015672960.0,
      "grad_norm": 1.898822528815033,
      "language_loss": 0.67515588,
      "learning_rate": 4.3710054070194744e-07,
      "loss": 0.69689441,
      "num_input_tokens_seen": 141905655,
      "step": 6586,
      "time_per_iteration": 3.6120054721832275
    },
    {
      "auxiliary_loss_clip": 0.01173359,
      "auxiliary_loss_mlp": 0.00886936,
      "balance_loss_clip": 1.04880226,
      "balance_loss_mlp": 1.0006063,
      "epoch": 0.7920399206396922,
      "flos": 11947624594560.0,
      "grad_norm": 2.596168736982075,
      "language_loss": 0.66987211,
      "learning_rate": 4.3661460571953455e-07,
      "loss": 0.69047505,
      "num_input_tokens_seen": 141922390,
      "step": 6587,
      "time_per_iteration": 2.581594944000244
    },
    {
      "auxiliary_loss_clip": 0.01161229,
      "auxiliary_loss_mlp": 0.0102797,
      "balance_loss_clip": 1.04283381,
      "balance_loss_mlp": 1.02057028,
      "epoch": 0.7921601635303313,
      "flos": 21579907438080.0,
      "grad_norm": 1.7709353299271853,
      "language_loss": 0.68722177,
      "learning_rate": 4.36128907901443e-07,
      "loss": 0.70911372,
      "num_input_tokens_seen": 141941985,
      "step": 6588,
      "time_per_iteration": 2.7037720680236816
    },
    {
      "auxiliary_loss_clip": 0.01144996,
      "auxiliary_loss_mlp": 0.01025109,
      "balance_loss_clip": 1.04365253,
      "balance_loss_mlp": 1.01756334,
      "epoch": 0.7922804064209703,
      "flos": 18113989236480.0,
      "grad_norm": 2.8050550393488254,
      "language_loss": 0.72828013,
      "learning_rate": 4.356434473213519e-07,
      "loss": 0.74998116,
      "num_input_tokens_seen": 141959435,
      "step": 6589,
      "time_per_iteration": 2.638986587524414
    },
    {
      "auxiliary_loss_clip": 0.01154201,
      "auxiliary_loss_mlp": 0.01029748,
      "balance_loss_clip": 1.04931962,
      "balance_loss_mlp": 1.02213597,
      "epoch": 0.7924006493116095,
      "flos": 21652806090240.0,
      "grad_norm": 1.6394885708517766,
      "language_loss": 0.79562819,
      "learning_rate": 4.351582240529068e-07,
      "loss": 0.81746769,
      "num_input_tokens_seen": 141980265,
      "step": 6590,
      "time_per_iteration": 2.7559988498687744
    },
    {
      "auxiliary_loss_clip": 0.01056759,
      "auxiliary_loss_mlp": 0.01000563,
      "balance_loss_clip": 1.00922394,
      "balance_loss_mlp": 0.99958509,
      "epoch": 0.7925208922022485,
      "flos": 64242755694720.0,
      "grad_norm": 0.7193180795487439,
      "language_loss": 0.58195937,
      "learning_rate": 4.346732381697149e-07,
      "loss": 0.60253263,
      "num_input_tokens_seen": 142044395,
      "step": 6591,
      "time_per_iteration": 3.3085362911224365
    },
    {
      "auxiliary_loss_clip": 0.01147964,
      "auxiliary_loss_mlp": 0.01029356,
      "balance_loss_clip": 1.04686511,
      "balance_loss_mlp": 1.02144074,
      "epoch": 0.7926411350928876,
      "flos": 16941541403520.0,
      "grad_norm": 2.343394868824234,
      "language_loss": 0.81417048,
      "learning_rate": 4.3418848974534825e-07,
      "loss": 0.8359437,
      "num_input_tokens_seen": 142061335,
      "step": 6592,
      "time_per_iteration": 2.633125066757202
    },
    {
      "auxiliary_loss_clip": 0.01150068,
      "auxiliary_loss_mlp": 0.01027318,
      "balance_loss_clip": 1.04621506,
      "balance_loss_mlp": 1.01979566,
      "epoch": 0.7927613779835267,
      "flos": 34459987144320.0,
      "grad_norm": 1.744150245289901,
      "language_loss": 0.68688226,
      "learning_rate": 4.3370397885334276e-07,
      "loss": 0.70865613,
      "num_input_tokens_seen": 142081965,
      "step": 6593,
      "time_per_iteration": 2.8696768283843994
    },
    {
      "auxiliary_loss_clip": 0.01158974,
      "auxiliary_loss_mlp": 0.0103325,
      "balance_loss_clip": 1.04831803,
      "balance_loss_mlp": 1.02534628,
      "epoch": 0.7928816208741658,
      "flos": 18951174501120.0,
      "grad_norm": 1.7971052386609496,
      "language_loss": 0.75204504,
      "learning_rate": 4.3321970556719777e-07,
      "loss": 0.77396727,
      "num_input_tokens_seen": 142100260,
      "step": 6594,
      "time_per_iteration": 2.6133999824523926
    },
    {
      "auxiliary_loss_clip": 0.01174393,
      "auxiliary_loss_mlp": 0.01028,
      "balance_loss_clip": 1.05048788,
      "balance_loss_mlp": 1.01975036,
      "epoch": 0.7930018637648049,
      "flos": 18623022825600.0,
      "grad_norm": 3.3097938513360714,
      "language_loss": 0.72365761,
      "learning_rate": 4.3273566996037856e-07,
      "loss": 0.74568152,
      "num_input_tokens_seen": 142116955,
      "step": 6595,
      "time_per_iteration": 2.618314504623413
    },
    {
      "auxiliary_loss_clip": 0.01154046,
      "auxiliary_loss_mlp": 0.01024874,
      "balance_loss_clip": 1.04625201,
      "balance_loss_mlp": 1.0176146,
      "epoch": 0.793122106655444,
      "flos": 24530650824960.0,
      "grad_norm": 2.0934901063652758,
      "language_loss": 0.80369663,
      "learning_rate": 4.322518721063113e-07,
      "loss": 0.82548583,
      "num_input_tokens_seen": 142135505,
      "step": 6596,
      "time_per_iteration": 2.671740770339966
    },
    {
      "auxiliary_loss_clip": 0.01162733,
      "auxiliary_loss_mlp": 0.01026925,
      "balance_loss_clip": 1.04914904,
      "balance_loss_mlp": 1.01823497,
      "epoch": 0.7932423495460831,
      "flos": 34421203434240.0,
      "grad_norm": 2.089010164991161,
      "language_loss": 0.70116574,
      "learning_rate": 4.3176831207838906e-07,
      "loss": 0.72306234,
      "num_input_tokens_seen": 142158915,
      "step": 6597,
      "time_per_iteration": 2.751502275466919
    },
    {
      "auxiliary_loss_clip": 0.01160646,
      "auxiliary_loss_mlp": 0.01032452,
      "balance_loss_clip": 1.0497911,
      "balance_loss_mlp": 1.0246973,
      "epoch": 0.7933625924367221,
      "flos": 26980333441920.0,
      "grad_norm": 2.1386800871411205,
      "language_loss": 0.74497056,
      "learning_rate": 4.3128498994996685e-07,
      "loss": 0.76690155,
      "num_input_tokens_seen": 142178390,
      "step": 6598,
      "time_per_iteration": 2.7421748638153076
    },
    {
      "auxiliary_loss_clip": 0.01168284,
      "auxiliary_loss_mlp": 0.01031264,
      "balance_loss_clip": 1.04939222,
      "balance_loss_mlp": 1.022627,
      "epoch": 0.7934828353273613,
      "flos": 29568630643200.0,
      "grad_norm": 2.252840488712681,
      "language_loss": 0.70935595,
      "learning_rate": 4.308019057943646e-07,
      "loss": 0.73135144,
      "num_input_tokens_seen": 142200115,
      "step": 6599,
      "time_per_iteration": 2.680372714996338
    },
    {
      "auxiliary_loss_clip": 0.01144115,
      "auxiliary_loss_mlp": 0.01025696,
      "balance_loss_clip": 1.04528642,
      "balance_loss_mlp": 1.01811171,
      "epoch": 0.7936030782180004,
      "flos": 28615381557120.0,
      "grad_norm": 1.5917710113334802,
      "language_loss": 0.74332666,
      "learning_rate": 4.3031905968486535e-07,
      "loss": 0.76502478,
      "num_input_tokens_seen": 142220945,
      "step": 6600,
      "time_per_iteration": 3.7350051403045654
    },
    {
      "auxiliary_loss_clip": 0.01133295,
      "auxiliary_loss_mlp": 0.01031574,
      "balance_loss_clip": 1.04732537,
      "balance_loss_mlp": 1.02343225,
      "epoch": 0.7937233211086394,
      "flos": 16392574869120.0,
      "grad_norm": 2.620029697983889,
      "language_loss": 0.68540168,
      "learning_rate": 4.298364516947162e-07,
      "loss": 0.70705044,
      "num_input_tokens_seen": 142238175,
      "step": 6601,
      "time_per_iteration": 3.74721097946167
    },
    {
      "auxiliary_loss_clip": 0.01134119,
      "auxiliary_loss_mlp": 0.01026254,
      "balance_loss_clip": 1.04343367,
      "balance_loss_mlp": 1.01864207,
      "epoch": 0.7938435639992786,
      "flos": 22013420682240.0,
      "grad_norm": 2.9018208735484152,
      "language_loss": 0.65913874,
      "learning_rate": 4.293540818971295e-07,
      "loss": 0.6807425,
      "num_input_tokens_seen": 142255980,
      "step": 6602,
      "time_per_iteration": 2.7704732418060303
    },
    {
      "auxiliary_loss_clip": 0.01167943,
      "auxiliary_loss_mlp": 0.01030818,
      "balance_loss_clip": 1.04695809,
      "balance_loss_mlp": 1.02326035,
      "epoch": 0.7939638068899176,
      "flos": 22197032029440.0,
      "grad_norm": 2.054516055498794,
      "language_loss": 0.76427442,
      "learning_rate": 4.2887195036527934e-07,
      "loss": 0.78626204,
      "num_input_tokens_seen": 142274785,
      "step": 6603,
      "time_per_iteration": 2.658503532409668
    },
    {
      "auxiliary_loss_clip": 0.01154195,
      "auxiliary_loss_mlp": 0.01024112,
      "balance_loss_clip": 1.04338169,
      "balance_loss_mlp": 1.01605916,
      "epoch": 0.7940840497805567,
      "flos": 17745186343680.0,
      "grad_norm": 2.222506296780704,
      "language_loss": 0.73816979,
      "learning_rate": 4.28390057172306e-07,
      "loss": 0.7599529,
      "num_input_tokens_seen": 142291290,
      "step": 6604,
      "time_per_iteration": 3.479661703109741
    },
    {
      "auxiliary_loss_clip": 0.0113634,
      "auxiliary_loss_mlp": 0.01030712,
      "balance_loss_clip": 1.04108,
      "balance_loss_mlp": 1.02208757,
      "epoch": 0.7942042926711959,
      "flos": 23805435231360.0,
      "grad_norm": 2.2379297996217256,
      "language_loss": 0.72360861,
      "learning_rate": 4.279084023913111e-07,
      "loss": 0.74527919,
      "num_input_tokens_seen": 142309165,
      "step": 6605,
      "time_per_iteration": 2.773064613342285
    },
    {
      "auxiliary_loss_clip": 0.01162483,
      "auxiliary_loss_mlp": 0.01028686,
      "balance_loss_clip": 1.04762566,
      "balance_loss_mlp": 1.02150416,
      "epoch": 0.7943245355618349,
      "flos": 19244959839360.0,
      "grad_norm": 3.4340485281738578,
      "language_loss": 0.69548857,
      "learning_rate": 4.2742698609536096e-07,
      "loss": 0.71740025,
      "num_input_tokens_seen": 142327475,
      "step": 6606,
      "time_per_iteration": 2.5965476036071777
    },
    {
      "auxiliary_loss_clip": 0.01159576,
      "auxiliary_loss_mlp": 0.01029283,
      "balance_loss_clip": 1.04868984,
      "balance_loss_mlp": 1.0214746,
      "epoch": 0.794444778452474,
      "flos": 25007616547200.0,
      "grad_norm": 2.3938155648951867,
      "language_loss": 0.78553283,
      "learning_rate": 4.2694580835748706e-07,
      "loss": 0.80742139,
      "num_input_tokens_seen": 142347335,
      "step": 6607,
      "time_per_iteration": 2.7598328590393066
    },
    {
      "auxiliary_loss_clip": 0.01152666,
      "auxiliary_loss_mlp": 0.01025539,
      "balance_loss_clip": 1.04515052,
      "balance_loss_mlp": 1.01755786,
      "epoch": 0.7945650213431131,
      "flos": 23221491828480.0,
      "grad_norm": 1.890374772018572,
      "language_loss": 0.73953235,
      "learning_rate": 4.264648692506836e-07,
      "loss": 0.76131439,
      "num_input_tokens_seen": 142366125,
      "step": 6608,
      "time_per_iteration": 2.6471951007843018
    },
    {
      "auxiliary_loss_clip": 0.01149388,
      "auxiliary_loss_mlp": 0.01026553,
      "balance_loss_clip": 1.04547501,
      "balance_loss_mlp": 1.01824975,
      "epoch": 0.7946852642337522,
      "flos": 26062887237120.0,
      "grad_norm": 1.7813869636968342,
      "language_loss": 0.72294188,
      "learning_rate": 4.2598416884790824e-07,
      "loss": 0.74470127,
      "num_input_tokens_seen": 142385175,
      "step": 6609,
      "time_per_iteration": 2.7113795280456543
    },
    {
      "auxiliary_loss_clip": 0.01163355,
      "auxiliary_loss_mlp": 0.01029183,
      "balance_loss_clip": 1.04592323,
      "balance_loss_mlp": 1.02127349,
      "epoch": 0.7948055071243912,
      "flos": 23769704177280.0,
      "grad_norm": 1.9452943247360133,
      "language_loss": 0.81020522,
      "learning_rate": 4.255037072220828e-07,
      "loss": 0.83213055,
      "num_input_tokens_seen": 142406545,
      "step": 6610,
      "time_per_iteration": 2.6803836822509766
    },
    {
      "auxiliary_loss_clip": 0.01169603,
      "auxiliary_loss_mlp": 0.01028817,
      "balance_loss_clip": 1.04798603,
      "balance_loss_mlp": 1.0211575,
      "epoch": 0.7949257500150304,
      "flos": 21980814111360.0,
      "grad_norm": 1.717145199316722,
      "language_loss": 0.71952868,
      "learning_rate": 4.2502348444609293e-07,
      "loss": 0.74151289,
      "num_input_tokens_seen": 142426165,
      "step": 6611,
      "time_per_iteration": 3.5161192417144775
    },
    {
      "auxiliary_loss_clip": 0.01129322,
      "auxiliary_loss_mlp": 0.01022883,
      "balance_loss_clip": 1.03899562,
      "balance_loss_mlp": 1.01581407,
      "epoch": 0.7950459929056695,
      "flos": 25774129802880.0,
      "grad_norm": 2.085372377369631,
      "language_loss": 0.694965,
      "learning_rate": 4.2454350059278844e-07,
      "loss": 0.71648705,
      "num_input_tokens_seen": 142447225,
      "step": 6612,
      "time_per_iteration": 2.846914291381836
    },
    {
      "auxiliary_loss_clip": 0.01144835,
      "auxiliary_loss_mlp": 0.01028551,
      "balance_loss_clip": 1.0394628,
      "balance_loss_mlp": 1.02067971,
      "epoch": 0.7951662357963085,
      "flos": 22158068751360.0,
      "grad_norm": 2.38140495067355,
      "language_loss": 0.84428334,
      "learning_rate": 4.240637557349824e-07,
      "loss": 0.86601722,
      "num_input_tokens_seen": 142464440,
      "step": 6613,
      "time_per_iteration": 2.685851812362671
    },
    {
      "auxiliary_loss_clip": 0.01142224,
      "auxiliary_loss_mlp": 0.01026973,
      "balance_loss_clip": 1.04467773,
      "balance_loss_mlp": 1.01913476,
      "epoch": 0.7952864786869477,
      "flos": 24641938137600.0,
      "grad_norm": 3.3495281251815867,
      "language_loss": 0.6666081,
      "learning_rate": 4.235842499454516e-07,
      "loss": 0.68830007,
      "num_input_tokens_seen": 142484355,
      "step": 6614,
      "time_per_iteration": 2.711911678314209
    },
    {
      "auxiliary_loss_clip": 0.01155808,
      "auxiliary_loss_mlp": 0.0102559,
      "balance_loss_clip": 1.04683268,
      "balance_loss_mlp": 1.01785636,
      "epoch": 0.7954067215775867,
      "flos": 21830922656640.0,
      "grad_norm": 1.6034572869696335,
      "language_loss": 0.82601285,
      "learning_rate": 4.2310498329693687e-07,
      "loss": 0.84782684,
      "num_input_tokens_seen": 142505255,
      "step": 6615,
      "time_per_iteration": 2.6551225185394287
    },
    {
      "auxiliary_loss_clip": 0.01167464,
      "auxiliary_loss_mlp": 0.01024855,
      "balance_loss_clip": 1.04881954,
      "balance_loss_mlp": 1.01723123,
      "epoch": 0.7955269644682258,
      "flos": 24060652341120.0,
      "grad_norm": 1.6560232388894627,
      "language_loss": 0.80792677,
      "learning_rate": 4.2262595586214164e-07,
      "loss": 0.82985002,
      "num_input_tokens_seen": 142526350,
      "step": 6616,
      "time_per_iteration": 2.7625632286071777
    },
    {
      "auxiliary_loss_clip": 0.0116634,
      "auxiliary_loss_mlp": 0.01027811,
      "balance_loss_clip": 1.0474329,
      "balance_loss_mlp": 1.01956737,
      "epoch": 0.795647207358865,
      "flos": 25010741030400.0,
      "grad_norm": 1.5992768671746926,
      "language_loss": 0.76850671,
      "learning_rate": 4.221471677137358e-07,
      "loss": 0.79044819,
      "num_input_tokens_seen": 142547165,
      "step": 6617,
      "time_per_iteration": 2.622274160385132
    },
    {
      "auxiliary_loss_clip": 0.01143732,
      "auxiliary_loss_mlp": 0.01027363,
      "balance_loss_clip": 1.04668319,
      "balance_loss_mlp": 1.01963782,
      "epoch": 0.795767450249504,
      "flos": 14648358343680.0,
      "grad_norm": 1.580184812569187,
      "language_loss": 0.70089507,
      "learning_rate": 4.216686189243492e-07,
      "loss": 0.72260594,
      "num_input_tokens_seen": 142565955,
      "step": 6618,
      "time_per_iteration": 2.6495022773742676
    },
    {
      "auxiliary_loss_clip": 0.01140617,
      "auxiliary_loss_mlp": 0.01029124,
      "balance_loss_clip": 1.04588175,
      "balance_loss_mlp": 1.0211308,
      "epoch": 0.7958876931401431,
      "flos": 18547897530240.0,
      "grad_norm": 1.6511563894539933,
      "language_loss": 0.73058438,
      "learning_rate": 4.211903095665785e-07,
      "loss": 0.75228179,
      "num_input_tokens_seen": 142585340,
      "step": 6619,
      "time_per_iteration": 2.6720433235168457
    },
    {
      "auxiliary_loss_clip": 0.01156415,
      "auxiliary_loss_mlp": 0.01025742,
      "balance_loss_clip": 1.04626012,
      "balance_loss_mlp": 1.01813006,
      "epoch": 0.7960079360307821,
      "flos": 21543960902400.0,
      "grad_norm": 1.8611200899883646,
      "language_loss": 0.75048316,
      "learning_rate": 4.2071223971298277e-07,
      "loss": 0.77230471,
      "num_input_tokens_seen": 142602525,
      "step": 6620,
      "time_per_iteration": 2.642507553100586
    },
    {
      "auxiliary_loss_clip": 0.01164537,
      "auxiliary_loss_mlp": 0.01026569,
      "balance_loss_clip": 1.04653358,
      "balance_loss_mlp": 1.01817679,
      "epoch": 0.7961281789214213,
      "flos": 25481745095040.0,
      "grad_norm": 5.0616438517471956,
      "language_loss": 0.61780715,
      "learning_rate": 4.2023440943608433e-07,
      "loss": 0.63971823,
      "num_input_tokens_seen": 142622490,
      "step": 6621,
      "time_per_iteration": 2.7427351474761963
    },
    {
      "auxiliary_loss_clip": 0.01163358,
      "auxiliary_loss_mlp": 0.01027213,
      "balance_loss_clip": 1.04603231,
      "balance_loss_mlp": 1.02006352,
      "epoch": 0.7962484218120603,
      "flos": 21944436612480.0,
      "grad_norm": 1.4690257025191902,
      "language_loss": 0.77885419,
      "learning_rate": 4.1975681880837023e-07,
      "loss": 0.80075985,
      "num_input_tokens_seen": 142642495,
      "step": 6622,
      "time_per_iteration": 2.669290065765381
    },
    {
      "auxiliary_loss_clip": 0.01139348,
      "auxiliary_loss_mlp": 0.01021729,
      "balance_loss_clip": 1.04176307,
      "balance_loss_mlp": 1.01413274,
      "epoch": 0.7963686647026994,
      "flos": 18876264687360.0,
      "grad_norm": 1.7087798062972683,
      "language_loss": 0.82432908,
      "learning_rate": 4.192794679022895e-07,
      "loss": 0.84593987,
      "num_input_tokens_seen": 142660820,
      "step": 6623,
      "time_per_iteration": 2.776337146759033
    },
    {
      "auxiliary_loss_clip": 0.01163523,
      "auxiliary_loss_mlp": 0.01027955,
      "balance_loss_clip": 1.04584312,
      "balance_loss_mlp": 1.02057624,
      "epoch": 0.7964889075933386,
      "flos": 29716582763520.0,
      "grad_norm": 1.8581371025524396,
      "language_loss": 0.71714312,
      "learning_rate": 4.1880235679025743e-07,
      "loss": 0.7390579,
      "num_input_tokens_seen": 142680915,
      "step": 6624,
      "time_per_iteration": 2.7517096996307373
    },
    {
      "auxiliary_loss_clip": 0.01125531,
      "auxiliary_loss_mlp": 0.01029763,
      "balance_loss_clip": 1.03989959,
      "balance_loss_mlp": 1.02210069,
      "epoch": 0.7966091504839776,
      "flos": 29491458272640.0,
      "grad_norm": 1.8838663566821587,
      "language_loss": 0.6331318,
      "learning_rate": 4.1832548554464986e-07,
      "loss": 0.65468478,
      "num_input_tokens_seen": 142699210,
      "step": 6625,
      "time_per_iteration": 2.831611394882202
    },
    {
      "auxiliary_loss_clip": 0.01053976,
      "auxiliary_loss_mlp": 0.01002359,
      "balance_loss_clip": 1.00913978,
      "balance_loss_mlp": 1.00145328,
      "epoch": 0.7967293933746167,
      "flos": 67288697101440.0,
      "grad_norm": 0.744908761896394,
      "language_loss": 0.58732992,
      "learning_rate": 4.178488542378098e-07,
      "loss": 0.60789329,
      "num_input_tokens_seen": 142756790,
      "step": 6626,
      "time_per_iteration": 4.048635244369507
    },
    {
      "auxiliary_loss_clip": 0.01175746,
      "auxiliary_loss_mlp": 0.01021238,
      "balance_loss_clip": 1.04840827,
      "balance_loss_mlp": 1.01342702,
      "epoch": 0.7968496362652558,
      "flos": 25554679660800.0,
      "grad_norm": 1.6687914111608095,
      "language_loss": 0.88972872,
      "learning_rate": 4.173724629420401e-07,
      "loss": 0.91169852,
      "num_input_tokens_seen": 142778150,
      "step": 6627,
      "time_per_iteration": 3.7195756435394287
    },
    {
      "auxiliary_loss_clip": 0.01159079,
      "auxiliary_loss_mlp": 0.01025071,
      "balance_loss_clip": 1.04769063,
      "balance_loss_mlp": 1.01721525,
      "epoch": 0.7969698791558949,
      "flos": 14501088581760.0,
      "grad_norm": 3.072494153380848,
      "language_loss": 0.68356121,
      "learning_rate": 4.168963117296087e-07,
      "loss": 0.70540267,
      "num_input_tokens_seen": 142795485,
      "step": 6628,
      "time_per_iteration": 2.651413917541504
    },
    {
      "auxiliary_loss_clip": 0.01174657,
      "auxiliary_loss_mlp": 0.01027516,
      "balance_loss_clip": 1.05082679,
      "balance_loss_mlp": 1.01967192,
      "epoch": 0.797090122046534,
      "flos": 22127545169280.0,
      "grad_norm": 2.9813106677109467,
      "language_loss": 0.75597608,
      "learning_rate": 4.1642040067274876e-07,
      "loss": 0.77799785,
      "num_input_tokens_seen": 142815155,
      "step": 6629,
      "time_per_iteration": 3.5331268310546875
    },
    {
      "auxiliary_loss_clip": 0.01155879,
      "auxiliary_loss_mlp": 0.01024112,
      "balance_loss_clip": 1.04458821,
      "balance_loss_mlp": 1.01666498,
      "epoch": 0.7972103649371731,
      "flos": 19897671830400.0,
      "grad_norm": 1.8230082508050076,
      "language_loss": 0.72529817,
      "learning_rate": 4.1594472984365493e-07,
      "loss": 0.74709803,
      "num_input_tokens_seen": 142833840,
      "step": 6630,
      "time_per_iteration": 2.6680521965026855
    },
    {
      "auxiliary_loss_clip": 0.01155835,
      "auxiliary_loss_mlp": 0.01024262,
      "balance_loss_clip": 1.04491758,
      "balance_loss_mlp": 1.01622725,
      "epoch": 0.7973306078278122,
      "flos": 36058621847040.0,
      "grad_norm": 1.8470486035005447,
      "language_loss": 0.77900988,
      "learning_rate": 4.154692993144862e-07,
      "loss": 0.80081087,
      "num_input_tokens_seen": 142853610,
      "step": 6631,
      "time_per_iteration": 2.7803738117218018
    },
    {
      "auxiliary_loss_clip": 0.01172617,
      "auxiliary_loss_mlp": 0.00886692,
      "balance_loss_clip": 1.04843819,
      "balance_loss_mlp": 1.00049734,
      "epoch": 0.7974508507184512,
      "flos": 21360600950400.0,
      "grad_norm": 2.0065983266694065,
      "language_loss": 0.71705782,
      "learning_rate": 4.1499410915736476e-07,
      "loss": 0.73765087,
      "num_input_tokens_seen": 142872540,
      "step": 6632,
      "time_per_iteration": 2.5817205905914307
    },
    {
      "auxiliary_loss_clip": 0.01060905,
      "auxiliary_loss_mlp": 0.010008,
      "balance_loss_clip": 1.01033211,
      "balance_loss_mlp": 0.99980432,
      "epoch": 0.7975710936090904,
      "flos": 68253115317120.0,
      "grad_norm": 0.7634597296853362,
      "language_loss": 0.64203048,
      "learning_rate": 4.145191594443762e-07,
      "loss": 0.66264749,
      "num_input_tokens_seen": 142936895,
      "step": 6633,
      "time_per_iteration": 3.3606863021850586
    },
    {
      "auxiliary_loss_clip": 0.01141799,
      "auxiliary_loss_mlp": 0.01029269,
      "balance_loss_clip": 1.04547369,
      "balance_loss_mlp": 1.02105546,
      "epoch": 0.7976913364997295,
      "flos": 22492433479680.0,
      "grad_norm": 2.2290487347183383,
      "language_loss": 0.70819974,
      "learning_rate": 4.140444502475713e-07,
      "loss": 0.72991037,
      "num_input_tokens_seen": 142956445,
      "step": 6634,
      "time_per_iteration": 2.766423225402832
    },
    {
      "auxiliary_loss_clip": 0.01159811,
      "auxiliary_loss_mlp": 0.01026202,
      "balance_loss_clip": 1.04589641,
      "balance_loss_mlp": 1.01862609,
      "epoch": 0.7978115793903685,
      "flos": 15263220378240.0,
      "grad_norm": 8.284272397056643,
      "language_loss": 0.70263851,
      "learning_rate": 4.1356998163896216e-07,
      "loss": 0.72449863,
      "num_input_tokens_seen": 142973495,
      "step": 6635,
      "time_per_iteration": 2.6024789810180664
    },
    {
      "auxiliary_loss_clip": 0.01151378,
      "auxiliary_loss_mlp": 0.01025473,
      "balance_loss_clip": 1.04658699,
      "balance_loss_mlp": 1.01837969,
      "epoch": 0.7979318222810077,
      "flos": 19719232041600.0,
      "grad_norm": 2.0888689425322258,
      "language_loss": 0.74770248,
      "learning_rate": 4.130957536905255e-07,
      "loss": 0.76947093,
      "num_input_tokens_seen": 142991510,
      "step": 6636,
      "time_per_iteration": 2.629256248474121
    },
    {
      "auxiliary_loss_clip": 0.01160549,
      "auxiliary_loss_mlp": 0.01027734,
      "balance_loss_clip": 1.04516506,
      "balance_loss_mlp": 1.02013433,
      "epoch": 0.7980520651716467,
      "flos": 15560273854080.0,
      "grad_norm": 2.1869834686824396,
      "language_loss": 0.712565,
      "learning_rate": 4.1262176647420134e-07,
      "loss": 0.73444784,
      "num_input_tokens_seen": 143009675,
      "step": 6637,
      "time_per_iteration": 3.5617623329162598
    },
    {
      "auxiliary_loss_clip": 0.01159732,
      "auxiliary_loss_mlp": 0.01025354,
      "balance_loss_clip": 1.04632664,
      "balance_loss_mlp": 1.01749229,
      "epoch": 0.7981723080622858,
      "flos": 22309432663680.0,
      "grad_norm": 1.8340740113970055,
      "language_loss": 0.79818726,
      "learning_rate": 4.121480200618923e-07,
      "loss": 0.82003808,
      "num_input_tokens_seen": 143029330,
      "step": 6638,
      "time_per_iteration": 2.731950521469116
    },
    {
      "auxiliary_loss_clip": 0.01147505,
      "auxiliary_loss_mlp": 0.01037508,
      "balance_loss_clip": 1.04514778,
      "balance_loss_mlp": 1.02924109,
      "epoch": 0.798292550952925,
      "flos": 22929573997440.0,
      "grad_norm": 1.8491930771476093,
      "language_loss": 0.80133063,
      "learning_rate": 4.116745145254674e-07,
      "loss": 0.82318079,
      "num_input_tokens_seen": 143048865,
      "step": 6639,
      "time_per_iteration": 2.6898751258850098
    },
    {
      "auxiliary_loss_clip": 0.01048453,
      "auxiliary_loss_mlp": 0.01003116,
      "balance_loss_clip": 1.00997305,
      "balance_loss_mlp": 1.00211513,
      "epoch": 0.798412793843564,
      "flos": 64497936890880.0,
      "grad_norm": 0.7673326563689347,
      "language_loss": 0.57987225,
      "learning_rate": 4.1120124993675476e-07,
      "loss": 0.60038793,
      "num_input_tokens_seen": 143113295,
      "step": 6640,
      "time_per_iteration": 3.305063247680664
    },
    {
      "auxiliary_loss_clip": 0.01160913,
      "auxiliary_loss_mlp": 0.01030612,
      "balance_loss_clip": 1.04572868,
      "balance_loss_mlp": 1.02241063,
      "epoch": 0.7985330367342031,
      "flos": 13586910514560.0,
      "grad_norm": 1.9538871390692003,
      "language_loss": 0.62148798,
      "learning_rate": 4.107282263675498e-07,
      "loss": 0.64340317,
      "num_input_tokens_seen": 143130965,
      "step": 6641,
      "time_per_iteration": 2.6258127689361572
    },
    {
      "auxiliary_loss_clip": 0.01050937,
      "auxiliary_loss_mlp": 0.00875734,
      "balance_loss_clip": 1.00960052,
      "balance_loss_mlp": 1.00091195,
      "epoch": 0.7986532796248422,
      "flos": 67698797656320.0,
      "grad_norm": 0.76201701280278,
      "language_loss": 0.52470964,
      "learning_rate": 4.1025544388960907e-07,
      "loss": 0.54397637,
      "num_input_tokens_seen": 143192005,
      "step": 6642,
      "time_per_iteration": 3.273942708969116
    },
    {
      "auxiliary_loss_clip": 0.01159275,
      "auxiliary_loss_mlp": 0.01023061,
      "balance_loss_clip": 1.04732859,
      "balance_loss_mlp": 1.01576805,
      "epoch": 0.7987735225154813,
      "flos": 22455373622400.0,
      "grad_norm": 1.9796352327223536,
      "language_loss": 0.71543211,
      "learning_rate": 4.097829025746538e-07,
      "loss": 0.73725539,
      "num_input_tokens_seen": 143213550,
      "step": 6643,
      "time_per_iteration": 2.6840786933898926
    },
    {
      "auxiliary_loss_clip": 0.01058657,
      "auxiliary_loss_mlp": 0.01000469,
      "balance_loss_clip": 1.00961816,
      "balance_loss_mlp": 0.99953955,
      "epoch": 0.7988937654061203,
      "flos": 68864098682880.0,
      "grad_norm": 0.6576122166355597,
      "language_loss": 0.61014354,
      "learning_rate": 4.0931060249436757e-07,
      "loss": 0.6307348,
      "num_input_tokens_seen": 143277390,
      "step": 6644,
      "time_per_iteration": 3.25057053565979
    },
    {
      "auxiliary_loss_clip": 0.01162736,
      "auxiliary_loss_mlp": 0.01025833,
      "balance_loss_clip": 1.05008149,
      "balance_loss_mlp": 1.01793551,
      "epoch": 0.7990140082967595,
      "flos": 20806893820800.0,
      "grad_norm": 2.3431315251784373,
      "language_loss": 0.69263107,
      "learning_rate": 4.088385437203978e-07,
      "loss": 0.71451676,
      "num_input_tokens_seen": 143294400,
      "step": 6645,
      "time_per_iteration": 2.6772444248199463
    },
    {
      "auxiliary_loss_clip": 0.0117142,
      "auxiliary_loss_mlp": 0.01025413,
      "balance_loss_clip": 1.0465641,
      "balance_loss_mlp": 1.01722932,
      "epoch": 0.7991342511873986,
      "flos": 18985289443200.0,
      "grad_norm": 3.158073266129749,
      "language_loss": 0.77643532,
      "learning_rate": 4.083667263243564e-07,
      "loss": 0.79840362,
      "num_input_tokens_seen": 143312745,
      "step": 6646,
      "time_per_iteration": 2.550020694732666
    },
    {
      "auxiliary_loss_clip": 0.0115745,
      "auxiliary_loss_mlp": 0.01023551,
      "balance_loss_clip": 1.04682136,
      "balance_loss_mlp": 1.01592803,
      "epoch": 0.7992544940780376,
      "flos": 20816805974400.0,
      "grad_norm": 3.163764069283876,
      "language_loss": 0.7155515,
      "learning_rate": 4.0789515037781653e-07,
      "loss": 0.73736155,
      "num_input_tokens_seen": 143333470,
      "step": 6647,
      "time_per_iteration": 2.668053150177002
    },
    {
      "auxiliary_loss_clip": 0.01169175,
      "auxiliary_loss_mlp": 0.01028823,
      "balance_loss_clip": 1.04936337,
      "balance_loss_mlp": 1.02133369,
      "epoch": 0.7993747369686768,
      "flos": 12640772321280.0,
      "grad_norm": 1.7101354334915568,
      "language_loss": 0.82808709,
      "learning_rate": 4.0742381595231755e-07,
      "loss": 0.85006714,
      "num_input_tokens_seen": 143350195,
      "step": 6648,
      "time_per_iteration": 2.6006104946136475
    },
    {
      "auxiliary_loss_clip": 0.01147682,
      "auxiliary_loss_mlp": 0.01032175,
      "balance_loss_clip": 1.0446564,
      "balance_loss_mlp": 1.02433121,
      "epoch": 0.7994949798593158,
      "flos": 20078769225600.0,
      "grad_norm": 2.166866716065256,
      "language_loss": 0.78397202,
      "learning_rate": 4.06952723119359e-07,
      "loss": 0.80577058,
      "num_input_tokens_seen": 143370070,
      "step": 6649,
      "time_per_iteration": 2.717400312423706
    },
    {
      "auxiliary_loss_clip": 0.01147133,
      "auxiliary_loss_mlp": 0.0103704,
      "balance_loss_clip": 1.04777217,
      "balance_loss_mlp": 1.02920759,
      "epoch": 0.7996152227499549,
      "flos": 38654209509120.0,
      "grad_norm": 2.43850677304646,
      "language_loss": 0.67104673,
      "learning_rate": 4.0648187195040504e-07,
      "loss": 0.69288844,
      "num_input_tokens_seen": 143392275,
      "step": 6650,
      "time_per_iteration": 2.814114570617676
    },
    {
      "auxiliary_loss_clip": 0.01053745,
      "auxiliary_loss_mlp": 0.01001079,
      "balance_loss_clip": 1.00899243,
      "balance_loss_mlp": 1.00016117,
      "epoch": 0.799735465640594,
      "flos": 70243821947520.0,
      "grad_norm": 0.9033496100123556,
      "language_loss": 0.67584151,
      "learning_rate": 4.060112625168848e-07,
      "loss": 0.69638973,
      "num_input_tokens_seen": 143457385,
      "step": 6651,
      "time_per_iteration": 4.244852066040039
    },
    {
      "auxiliary_loss_clip": 0.01173241,
      "auxiliary_loss_mlp": 0.01028152,
      "balance_loss_clip": 1.04929912,
      "balance_loss_mlp": 1.02047789,
      "epoch": 0.7998557085312331,
      "flos": 24240995550720.0,
      "grad_norm": 3.3594663969501286,
      "language_loss": 0.73801893,
      "learning_rate": 4.055408948901886e-07,
      "loss": 0.76003283,
      "num_input_tokens_seen": 143478785,
      "step": 6652,
      "time_per_iteration": 2.661741256713867
    },
    {
      "auxiliary_loss_clip": 0.01166116,
      "auxiliary_loss_mlp": 0.01023981,
      "balance_loss_clip": 1.04725242,
      "balance_loss_mlp": 1.01626825,
      "epoch": 0.7999759514218722,
      "flos": 27564025449600.0,
      "grad_norm": 2.3475209674962856,
      "language_loss": 0.70929062,
      "learning_rate": 4.050707691416708e-07,
      "loss": 0.73119152,
      "num_input_tokens_seen": 143500095,
      "step": 6653,
      "time_per_iteration": 3.7283124923706055
    },
    {
      "auxiliary_loss_clip": 0.0105365,
      "auxiliary_loss_mlp": 0.01002058,
      "balance_loss_clip": 1.00891709,
      "balance_loss_mlp": 1.00112236,
      "epoch": 0.8000961943125112,
      "flos": 67337428878720.0,
      "grad_norm": 0.6707702529756765,
      "language_loss": 0.5976119,
      "learning_rate": 4.046008853426495e-07,
      "loss": 0.61816895,
      "num_input_tokens_seen": 143563410,
      "step": 6654,
      "time_per_iteration": 3.2557919025421143
    },
    {
      "auxiliary_loss_clip": 0.01137058,
      "auxiliary_loss_mlp": 0.01021607,
      "balance_loss_clip": 1.0427438,
      "balance_loss_mlp": 1.01358986,
      "epoch": 0.8002164372031504,
      "flos": 28733815676160.0,
      "grad_norm": 1.6763756275393982,
      "language_loss": 0.624906,
      "learning_rate": 4.0413124356440464e-07,
      "loss": 0.64649266,
      "num_input_tokens_seen": 143587455,
      "step": 6655,
      "time_per_iteration": 3.769069194793701
    },
    {
      "auxiliary_loss_clip": 0.01136217,
      "auxiliary_loss_mlp": 0.01025708,
      "balance_loss_clip": 1.0417521,
      "balance_loss_mlp": 1.01737499,
      "epoch": 0.8003366800937894,
      "flos": 17639429725440.0,
      "grad_norm": 2.0608170419637672,
      "language_loss": 0.82437098,
      "learning_rate": 4.0366184387818223e-07,
      "loss": 0.84599024,
      "num_input_tokens_seen": 143605915,
      "step": 6656,
      "time_per_iteration": 2.8668057918548584
    },
    {
      "auxiliary_loss_clip": 0.01178704,
      "auxiliary_loss_mlp": 0.01031595,
      "balance_loss_clip": 1.05046439,
      "balance_loss_mlp": 1.0232383,
      "epoch": 0.8004569229844285,
      "flos": 25995303797760.0,
      "grad_norm": 2.0267965053510153,
      "language_loss": 0.8521589,
      "learning_rate": 4.0319268635518797e-07,
      "loss": 0.87426192,
      "num_input_tokens_seen": 143626490,
      "step": 6657,
      "time_per_iteration": 254.02528953552246
    },
    {
      "auxiliary_loss_clip": 0.01162872,
      "auxiliary_loss_mlp": 0.0102504,
      "balance_loss_clip": 1.04612839,
      "balance_loss_mlp": 1.01755393,
      "epoch": 0.8005771658750677,
      "flos": 20812352688000.0,
      "grad_norm": 2.1287298429743107,
      "language_loss": 0.75199771,
      "learning_rate": 4.027237710665943e-07,
      "loss": 0.77387679,
      "num_input_tokens_seen": 143644955,
      "step": 6658,
      "time_per_iteration": 2.630051851272583
    },
    {
      "auxiliary_loss_clip": 0.01144987,
      "auxiliary_loss_mlp": 0.01023654,
      "balance_loss_clip": 1.04121101,
      "balance_loss_mlp": 1.01595902,
      "epoch": 0.8006974087657067,
      "flos": 25812626204160.0,
      "grad_norm": 2.1174279487297665,
      "language_loss": 0.69497132,
      "learning_rate": 4.022550980835344e-07,
      "loss": 0.7166577,
      "num_input_tokens_seen": 143667200,
      "step": 6659,
      "time_per_iteration": 2.7354605197906494
    },
    {
      "auxiliary_loss_clip": 0.01141544,
      "auxiliary_loss_mlp": 0.01027142,
      "balance_loss_clip": 1.04129446,
      "balance_loss_mlp": 1.01942372,
      "epoch": 0.8008176516563458,
      "flos": 17164690646400.0,
      "grad_norm": 2.1513521656335324,
      "language_loss": 0.79646301,
      "learning_rate": 4.017866674771051e-07,
      "loss": 0.81814986,
      "num_input_tokens_seen": 143684685,
      "step": 6660,
      "time_per_iteration": 2.6943559646606445
    },
    {
      "auxiliary_loss_clip": 0.01126439,
      "auxiliary_loss_mlp": 0.01034834,
      "balance_loss_clip": 1.04052401,
      "balance_loss_mlp": 1.02676928,
      "epoch": 0.8009378945469849,
      "flos": 24207311571840.0,
      "grad_norm": 2.2822410768720114,
      "language_loss": 0.74413872,
      "learning_rate": 4.013184793183688e-07,
      "loss": 0.76575136,
      "num_input_tokens_seen": 143706780,
      "step": 6661,
      "time_per_iteration": 2.775378704071045
    },
    {
      "auxiliary_loss_clip": 0.0115993,
      "auxiliary_loss_mlp": 0.01023798,
      "balance_loss_clip": 1.04463196,
      "balance_loss_mlp": 1.01624572,
      "epoch": 0.801058137437624,
      "flos": 19787318271360.0,
      "grad_norm": 1.8349103249492364,
      "language_loss": 0.72921586,
      "learning_rate": 4.008505336783472e-07,
      "loss": 0.75105315,
      "num_input_tokens_seen": 143724505,
      "step": 6662,
      "time_per_iteration": 2.6173055171966553
    },
    {
      "auxiliary_loss_clip": 0.01152029,
      "auxiliary_loss_mlp": 0.01024755,
      "balance_loss_clip": 1.04446638,
      "balance_loss_mlp": 1.01739419,
      "epoch": 0.801178380328263,
      "flos": 18659400324480.0,
      "grad_norm": 1.9714534090382538,
      "language_loss": 0.80877268,
      "learning_rate": 4.003828306280284e-07,
      "loss": 0.83054054,
      "num_input_tokens_seen": 143742180,
      "step": 6663,
      "time_per_iteration": 3.622257947921753
    },
    {
      "auxiliary_loss_clip": 0.01165794,
      "auxiliary_loss_mlp": 0.01025388,
      "balance_loss_clip": 1.04938173,
      "balance_loss_mlp": 1.01793706,
      "epoch": 0.8012986232189022,
      "flos": 15706573948800.0,
      "grad_norm": 1.6492364074044963,
      "language_loss": 0.78144515,
      "learning_rate": 3.999153702383626e-07,
      "loss": 0.80335701,
      "num_input_tokens_seen": 143760070,
      "step": 6664,
      "time_per_iteration": 2.606762647628784
    },
    {
      "auxiliary_loss_clip": 0.01165447,
      "auxiliary_loss_mlp": 0.01023704,
      "balance_loss_clip": 1.04566729,
      "balance_loss_mlp": 1.01560926,
      "epoch": 0.8014188661095413,
      "flos": 28584139703040.0,
      "grad_norm": 1.8402981193377217,
      "language_loss": 0.73603177,
      "learning_rate": 3.9944815258026263e-07,
      "loss": 0.75792325,
      "num_input_tokens_seen": 143781890,
      "step": 6665,
      "time_per_iteration": 2.710245370864868
    },
    {
      "auxiliary_loss_clip": 0.01166743,
      "auxiliary_loss_mlp": 0.01027114,
      "balance_loss_clip": 1.04733896,
      "balance_loss_mlp": 1.01960361,
      "epoch": 0.8015391090001803,
      "flos": 29310360877440.0,
      "grad_norm": 1.9977697209761458,
      "language_loss": 0.8302862,
      "learning_rate": 3.989811777246057e-07,
      "loss": 0.85222477,
      "num_input_tokens_seen": 143802060,
      "step": 6666,
      "time_per_iteration": 2.673898220062256
    },
    {
      "auxiliary_loss_clip": 0.01064178,
      "auxiliary_loss_mlp": 0.01000993,
      "balance_loss_clip": 1.00889552,
      "balance_loss_mlp": 1.0000515,
      "epoch": 0.8016593518908195,
      "flos": 70397340675840.0,
      "grad_norm": 0.8453521057026983,
      "language_loss": 0.66255075,
      "learning_rate": 3.985144457422305e-07,
      "loss": 0.68320245,
      "num_input_tokens_seen": 143856345,
      "step": 6667,
      "time_per_iteration": 3.1281046867370605
    },
    {
      "auxiliary_loss_clip": 0.01173947,
      "auxiliary_loss_mlp": 0.01029317,
      "balance_loss_clip": 1.04979134,
      "balance_loss_mlp": 1.02159846,
      "epoch": 0.8017795947814585,
      "flos": 26026114688640.0,
      "grad_norm": 2.4157394174859386,
      "language_loss": 0.7634865,
      "learning_rate": 3.9804795670394096e-07,
      "loss": 0.78551912,
      "num_input_tokens_seen": 143876470,
      "step": 6668,
      "time_per_iteration": 2.623837947845459
    },
    {
      "auxiliary_loss_clip": 0.01146067,
      "auxiliary_loss_mlp": 0.01025343,
      "balance_loss_clip": 1.04421902,
      "balance_loss_mlp": 1.01801181,
      "epoch": 0.8018998376720976,
      "flos": 22087181260800.0,
      "grad_norm": 2.896865235771075,
      "language_loss": 0.70465887,
      "learning_rate": 3.975817106805022e-07,
      "loss": 0.72637296,
      "num_input_tokens_seen": 143895170,
      "step": 6669,
      "time_per_iteration": 2.656928777694702
    },
    {
      "auxiliary_loss_clip": 0.01143428,
      "auxiliary_loss_mlp": 0.01031975,
      "balance_loss_clip": 1.04397905,
      "balance_loss_mlp": 1.02336192,
      "epoch": 0.8020200805627368,
      "flos": 34568545023360.0,
      "grad_norm": 2.5490820659623217,
      "language_loss": 0.65201336,
      "learning_rate": 3.97115707742645e-07,
      "loss": 0.67376745,
      "num_input_tokens_seen": 143915845,
      "step": 6670,
      "time_per_iteration": 2.8592543601989746
    },
    {
      "auxiliary_loss_clip": 0.01157731,
      "auxiliary_loss_mlp": 0.01025491,
      "balance_loss_clip": 1.04801917,
      "balance_loss_mlp": 1.01758397,
      "epoch": 0.8021403234533758,
      "flos": 20120354196480.0,
      "grad_norm": 2.2436455588823634,
      "language_loss": 0.65183318,
      "learning_rate": 3.966499479610599e-07,
      "loss": 0.67366546,
      "num_input_tokens_seen": 143933940,
      "step": 6671,
      "time_per_iteration": 2.6354258060455322
    },
    {
      "auxiliary_loss_clip": 0.01142745,
      "auxiliary_loss_mlp": 0.01027186,
      "balance_loss_clip": 1.04758787,
      "balance_loss_mlp": 1.01957715,
      "epoch": 0.8022605663440149,
      "flos": 27746200252800.0,
      "grad_norm": 1.6747724285091465,
      "language_loss": 0.64971185,
      "learning_rate": 3.9618443140640225e-07,
      "loss": 0.67141116,
      "num_input_tokens_seen": 143952850,
      "step": 6672,
      "time_per_iteration": 2.7532994747161865
    },
    {
      "auxiliary_loss_clip": 0.01038919,
      "auxiliary_loss_mlp": 0.01000727,
      "balance_loss_clip": 1.00887692,
      "balance_loss_mlp": 0.99979705,
      "epoch": 0.802380809234654,
      "flos": 60244998768000.0,
      "grad_norm": 0.6861446277799331,
      "language_loss": 0.5127728,
      "learning_rate": 3.957191581492918e-07,
      "loss": 0.53316927,
      "num_input_tokens_seen": 144013610,
      "step": 6673,
      "time_per_iteration": 3.362480401992798
    },
    {
      "auxiliary_loss_clip": 0.01146857,
      "auxiliary_loss_mlp": 0.01027231,
      "balance_loss_clip": 1.04499698,
      "balance_loss_mlp": 1.01942301,
      "epoch": 0.8025010521252931,
      "flos": 15080722352640.0,
      "grad_norm": 2.6367386309669247,
      "language_loss": 0.71307027,
      "learning_rate": 3.952541282603097e-07,
      "loss": 0.73481119,
      "num_input_tokens_seen": 144028715,
      "step": 6674,
      "time_per_iteration": 2.81150221824646
    },
    {
      "auxiliary_loss_clip": 0.01163108,
      "auxiliary_loss_mlp": 0.01025556,
      "balance_loss_clip": 1.0491091,
      "balance_loss_mlp": 1.01742268,
      "epoch": 0.8026212950159322,
      "flos": 22163527618560.0,
      "grad_norm": 1.8891592350201205,
      "language_loss": 0.83518535,
      "learning_rate": 3.9478934181000013e-07,
      "loss": 0.857072,
      "num_input_tokens_seen": 144048740,
      "step": 6675,
      "time_per_iteration": 2.632201671600342
    },
    {
      "auxiliary_loss_clip": 0.01173349,
      "auxiliary_loss_mlp": 0.01023759,
      "balance_loss_clip": 1.04752302,
      "balance_loss_mlp": 1.01556921,
      "epoch": 0.8027415379065713,
      "flos": 17675986792320.0,
      "grad_norm": 2.7504614916455354,
      "language_loss": 0.84509581,
      "learning_rate": 3.943247988688714e-07,
      "loss": 0.86706692,
      "num_input_tokens_seen": 144067435,
      "step": 6676,
      "time_per_iteration": 2.552889585494995
    },
    {
      "auxiliary_loss_clip": 0.01161548,
      "auxiliary_loss_mlp": 0.01024594,
      "balance_loss_clip": 1.04487252,
      "balance_loss_mlp": 1.01669002,
      "epoch": 0.8028617807972104,
      "flos": 21979593048960.0,
      "grad_norm": 1.6603765464165734,
      "language_loss": 0.72025299,
      "learning_rate": 3.938604995073933e-07,
      "loss": 0.74211437,
      "num_input_tokens_seen": 144085905,
      "step": 6677,
      "time_per_iteration": 3.6034984588623047
    },
    {
      "auxiliary_loss_clip": 0.01156656,
      "auxiliary_loss_mlp": 0.01029805,
      "balance_loss_clip": 1.04485679,
      "balance_loss_mlp": 1.02249753,
      "epoch": 0.8029820236878494,
      "flos": 26428457905920.0,
      "grad_norm": 1.7846319861836282,
      "language_loss": 0.65330637,
      "learning_rate": 3.9339644379600157e-07,
      "loss": 0.67517102,
      "num_input_tokens_seen": 144105735,
      "step": 6678,
      "time_per_iteration": 3.829251527786255
    },
    {
      "auxiliary_loss_clip": 0.0116548,
      "auxiliary_loss_mlp": 0.01024463,
      "balance_loss_clip": 1.04833102,
      "balance_loss_mlp": 1.01720297,
      "epoch": 0.8031022665784886,
      "flos": 17676489582720.0,
      "grad_norm": 1.7564069870456342,
      "language_loss": 0.71337104,
      "learning_rate": 3.929326318050907e-07,
      "loss": 0.73527044,
      "num_input_tokens_seen": 144123405,
      "step": 6679,
      "time_per_iteration": 2.6221046447753906
    },
    {
      "auxiliary_loss_clip": 0.01168241,
      "auxiliary_loss_mlp": 0.01022013,
      "balance_loss_clip": 1.04572487,
      "balance_loss_mlp": 1.01462817,
      "epoch": 0.8032225094691277,
      "flos": 15450279431040.0,
      "grad_norm": 1.9939081707974313,
      "language_loss": 0.79051584,
      "learning_rate": 3.924690636050225e-07,
      "loss": 0.81241834,
      "num_input_tokens_seen": 144140815,
      "step": 6680,
      "time_per_iteration": 2.566903591156006
    },
    {
      "auxiliary_loss_clip": 0.01165943,
      "auxiliary_loss_mlp": 0.01028962,
      "balance_loss_clip": 1.04885769,
      "balance_loss_mlp": 1.02118349,
      "epoch": 0.8033427523597667,
      "flos": 26179202453760.0,
      "grad_norm": 1.7588320469930008,
      "language_loss": 0.72725701,
      "learning_rate": 3.9200573926611915e-07,
      "loss": 0.74920607,
      "num_input_tokens_seen": 144162230,
      "step": 6681,
      "time_per_iteration": 3.5612754821777344
    },
    {
      "auxiliary_loss_clip": 0.01161184,
      "auxiliary_loss_mlp": 0.0102942,
      "balance_loss_clip": 1.04935372,
      "balance_loss_mlp": 1.02164125,
      "epoch": 0.8034629952504058,
      "flos": 21324905809920.0,
      "grad_norm": 1.8951349252905398,
      "language_loss": 0.72678185,
      "learning_rate": 3.9154265885866613e-07,
      "loss": 0.74868786,
      "num_input_tokens_seen": 144181540,
      "step": 6682,
      "time_per_iteration": 2.599076271057129
    },
    {
      "auxiliary_loss_clip": 0.01163689,
      "auxiliary_loss_mlp": 0.01023645,
      "balance_loss_clip": 1.04797482,
      "balance_loss_mlp": 1.01556289,
      "epoch": 0.8035832381410449,
      "flos": 21651585027840.0,
      "grad_norm": 2.396309851145828,
      "language_loss": 0.7495259,
      "learning_rate": 3.9107982245291394e-07,
      "loss": 0.77139926,
      "num_input_tokens_seen": 144199665,
      "step": 6683,
      "time_per_iteration": 2.620856285095215
    },
    {
      "auxiliary_loss_clip": 0.01143546,
      "auxiliary_loss_mlp": 0.010233,
      "balance_loss_clip": 1.04579568,
      "balance_loss_mlp": 1.01597118,
      "epoch": 0.803703481031684,
      "flos": 20518818744960.0,
      "grad_norm": 1.7144384701624478,
      "language_loss": 0.77340901,
      "learning_rate": 3.9061723011907245e-07,
      "loss": 0.79507744,
      "num_input_tokens_seen": 144219020,
      "step": 6684,
      "time_per_iteration": 2.730989456176758
    },
    {
      "auxiliary_loss_clip": 0.0115133,
      "auxiliary_loss_mlp": 0.01030042,
      "balance_loss_clip": 1.04536927,
      "balance_loss_mlp": 1.0221386,
      "epoch": 0.803823723922323,
      "flos": 22854807838080.0,
      "grad_norm": 1.8146296693044357,
      "language_loss": 0.79477578,
      "learning_rate": 3.901548819273179e-07,
      "loss": 0.81658953,
      "num_input_tokens_seen": 144239035,
      "step": 6685,
      "time_per_iteration": 2.646202564239502
    },
    {
      "auxiliary_loss_clip": 0.01165142,
      "auxiliary_loss_mlp": 0.0103041,
      "balance_loss_clip": 1.04943347,
      "balance_loss_mlp": 1.0226078,
      "epoch": 0.8039439668129622,
      "flos": 21362145235200.0,
      "grad_norm": 4.682873708300747,
      "language_loss": 0.692285,
      "learning_rate": 3.896927779477881e-07,
      "loss": 0.71424055,
      "num_input_tokens_seen": 144258295,
      "step": 6686,
      "time_per_iteration": 2.6856040954589844
    },
    {
      "auxiliary_loss_clip": 0.01142861,
      "auxiliary_loss_mlp": 0.01028201,
      "balance_loss_clip": 1.04359496,
      "balance_loss_mlp": 1.02065241,
      "epoch": 0.8040642097036013,
      "flos": 23802382575360.0,
      "grad_norm": 2.8069160251616436,
      "language_loss": 0.66873115,
      "learning_rate": 3.892309182505833e-07,
      "loss": 0.69044179,
      "num_input_tokens_seen": 144276110,
      "step": 6687,
      "time_per_iteration": 2.7186312675476074
    },
    {
      "auxiliary_loss_clip": 0.01171748,
      "auxiliary_loss_mlp": 0.01025104,
      "balance_loss_clip": 1.04788923,
      "balance_loss_mlp": 1.01764178,
      "epoch": 0.8041844525942403,
      "flos": 25922046009600.0,
      "grad_norm": 2.0461482370974378,
      "language_loss": 0.86121786,
      "learning_rate": 3.887693029057675e-07,
      "loss": 0.8831864,
      "num_input_tokens_seen": 144295620,
      "step": 6688,
      "time_per_iteration": 2.6612932682037354
    },
    {
      "auxiliary_loss_clip": 0.01154099,
      "auxiliary_loss_mlp": 0.0102727,
      "balance_loss_clip": 1.04537463,
      "balance_loss_mlp": 1.02030182,
      "epoch": 0.8043046954848795,
      "flos": 25191120153600.0,
      "grad_norm": 1.8796367485037933,
      "language_loss": 0.81303775,
      "learning_rate": 3.8830793198336684e-07,
      "loss": 0.83485144,
      "num_input_tokens_seen": 144315210,
      "step": 6689,
      "time_per_iteration": 3.7494959831237793
    },
    {
      "auxiliary_loss_clip": 0.01169414,
      "auxiliary_loss_mlp": 0.01028421,
      "balance_loss_clip": 1.04752755,
      "balance_loss_mlp": 1.02067244,
      "epoch": 0.8044249383755185,
      "flos": 41719185123840.0,
      "grad_norm": 1.678369080963437,
      "language_loss": 0.70689881,
      "learning_rate": 3.878468055533721e-07,
      "loss": 0.72887707,
      "num_input_tokens_seen": 144337750,
      "step": 6690,
      "time_per_iteration": 2.764497756958008
    },
    {
      "auxiliary_loss_clip": 0.01149812,
      "auxiliary_loss_mlp": 0.01030626,
      "balance_loss_clip": 1.0459249,
      "balance_loss_mlp": 1.02260923,
      "epoch": 0.8045451812661576,
      "flos": 20631434860800.0,
      "grad_norm": 2.2529065966521586,
      "language_loss": 0.84964919,
      "learning_rate": 3.8738592368573464e-07,
      "loss": 0.87145364,
      "num_input_tokens_seen": 144355305,
      "step": 6691,
      "time_per_iteration": 2.715200185775757
    },
    {
      "auxiliary_loss_clip": 0.01137367,
      "auxiliary_loss_mlp": 0.0102765,
      "balance_loss_clip": 1.04504013,
      "balance_loss_mlp": 1.01971626,
      "epoch": 0.8046654241567968,
      "flos": 29711806254720.0,
      "grad_norm": 1.9501997714728196,
      "language_loss": 0.88053524,
      "learning_rate": 3.8692528645037137e-07,
      "loss": 0.90218544,
      "num_input_tokens_seen": 144374485,
      "step": 6692,
      "time_per_iteration": 2.764739513397217
    },
    {
      "auxiliary_loss_clip": 0.01170394,
      "auxiliary_loss_mlp": 0.01031627,
      "balance_loss_clip": 1.04759312,
      "balance_loss_mlp": 1.02444792,
      "epoch": 0.8047856670474358,
      "flos": 17671389851520.0,
      "grad_norm": 2.136132878845818,
      "language_loss": 0.78038663,
      "learning_rate": 3.8646489391715907e-07,
      "loss": 0.80240679,
      "num_input_tokens_seen": 144388780,
      "step": 6693,
      "time_per_iteration": 2.565337896347046
    },
    {
      "auxiliary_loss_clip": 0.01155035,
      "auxiliary_loss_mlp": 0.01030234,
      "balance_loss_clip": 1.04561496,
      "balance_loss_mlp": 1.02219903,
      "epoch": 0.8049059099380749,
      "flos": 17120699464320.0,
      "grad_norm": 8.736876082345862,
      "language_loss": 0.87814498,
      "learning_rate": 3.8600474615593903e-07,
      "loss": 0.89999771,
      "num_input_tokens_seen": 144403395,
      "step": 6694,
      "time_per_iteration": 2.6194827556610107
    },
    {
      "auxiliary_loss_clip": 0.01046562,
      "auxiliary_loss_mlp": 0.01000867,
      "balance_loss_clip": 1.00899744,
      "balance_loss_mlp": 0.99988919,
      "epoch": 0.805026152828714,
      "flos": 62212903240320.0,
      "grad_norm": 0.7977621866938482,
      "language_loss": 0.59594899,
      "learning_rate": 3.8554484323651605e-07,
      "loss": 0.61642331,
      "num_input_tokens_seen": 144465265,
      "step": 6695,
      "time_per_iteration": 3.2900233268737793
    },
    {
      "auxiliary_loss_clip": 0.01159592,
      "auxiliary_loss_mlp": 0.00886316,
      "balance_loss_clip": 1.04673672,
      "balance_loss_mlp": 1.00052059,
      "epoch": 0.8051463957193531,
      "flos": 21688608971520.0,
      "grad_norm": 1.7463753076505153,
      "language_loss": 0.79428756,
      "learning_rate": 3.85085185228657e-07,
      "loss": 0.81474662,
      "num_input_tokens_seen": 144484235,
      "step": 6696,
      "time_per_iteration": 2.6560938358306885
    },
    {
      "auxiliary_loss_clip": 0.01145152,
      "auxiliary_loss_mlp": 0.01028463,
      "balance_loss_clip": 1.04401934,
      "balance_loss_mlp": 1.0206902,
      "epoch": 0.8052666386099921,
      "flos": 32051458535040.0,
      "grad_norm": 2.5874744420983173,
      "language_loss": 0.73230332,
      "learning_rate": 3.8462577220209114e-07,
      "loss": 0.75403947,
      "num_input_tokens_seen": 144504610,
      "step": 6697,
      "time_per_iteration": 2.75358510017395
    },
    {
      "auxiliary_loss_clip": 0.01064096,
      "auxiliary_loss_mlp": 0.01000904,
      "balance_loss_clip": 1.00896597,
      "balance_loss_mlp": 0.99998015,
      "epoch": 0.8053868815006313,
      "flos": 67157875768320.0,
      "grad_norm": 0.7027787816841192,
      "language_loss": 0.58995748,
      "learning_rate": 3.8416660422651127e-07,
      "loss": 0.6106075,
      "num_input_tokens_seen": 144574260,
      "step": 6698,
      "time_per_iteration": 3.272031307220459
    },
    {
      "auxiliary_loss_clip": 0.0114469,
      "auxiliary_loss_mlp": 0.01028159,
      "balance_loss_clip": 1.04142702,
      "balance_loss_mlp": 1.01945126,
      "epoch": 0.8055071243912704,
      "flos": 23837000307840.0,
      "grad_norm": 1.7942323499216344,
      "language_loss": 0.68056715,
      "learning_rate": 3.837076813715723e-07,
      "loss": 0.70229566,
      "num_input_tokens_seen": 144594145,
      "step": 6699,
      "time_per_iteration": 2.7288520336151123
    },
    {
      "auxiliary_loss_clip": 0.01141299,
      "auxiliary_loss_mlp": 0.010259,
      "balance_loss_clip": 1.0420351,
      "balance_loss_mlp": 1.01766288,
      "epoch": 0.8056273672819094,
      "flos": 21324510760320.0,
      "grad_norm": 1.9760464338465165,
      "language_loss": 0.7546705,
      "learning_rate": 3.832490037068941e-07,
      "loss": 0.77634245,
      "num_input_tokens_seen": 144612935,
      "step": 6700,
      "time_per_iteration": 2.749220371246338
    },
    {
      "auxiliary_loss_clip": 0.01120455,
      "auxiliary_loss_mlp": 0.01025459,
      "balance_loss_clip": 1.04216456,
      "balance_loss_mlp": 1.0181303,
      "epoch": 0.8057476101725486,
      "flos": 25768383626880.0,
      "grad_norm": 2.212026299713604,
      "language_loss": 0.76437688,
      "learning_rate": 3.827905713020554e-07,
      "loss": 0.78583598,
      "num_input_tokens_seen": 144630580,
      "step": 6701,
      "time_per_iteration": 2.8818233013153076
    },
    {
      "auxiliary_loss_clip": 0.01146114,
      "auxiliary_loss_mlp": 0.01032792,
      "balance_loss_clip": 1.0411315,
      "balance_loss_mlp": 1.02419686,
      "epoch": 0.8058678530631876,
      "flos": 24535283679360.0,
      "grad_norm": 2.365491332898211,
      "language_loss": 0.69007301,
      "learning_rate": 3.823323842266017e-07,
      "loss": 0.71186209,
      "num_input_tokens_seen": 144649975,
      "step": 6702,
      "time_per_iteration": 2.7010769844055176
    },
    {
      "auxiliary_loss_clip": 0.01162194,
      "auxiliary_loss_mlp": 0.01023308,
      "balance_loss_clip": 1.04353154,
      "balance_loss_mlp": 1.01588178,
      "epoch": 0.8059880959538267,
      "flos": 24753728240640.0,
      "grad_norm": 2.45015596496072,
      "language_loss": 0.73349661,
      "learning_rate": 3.818744425500393e-07,
      "loss": 0.75535166,
      "num_input_tokens_seen": 144667990,
      "step": 6703,
      "time_per_iteration": 3.749086380004883
    },
    {
      "auxiliary_loss_clip": 0.01136754,
      "auxiliary_loss_mlp": 0.01033275,
      "balance_loss_clip": 1.04089451,
      "balance_loss_mlp": 1.02512145,
      "epoch": 0.8061083388444659,
      "flos": 22196349671040.0,
      "grad_norm": 1.7596961040640973,
      "language_loss": 0.80733693,
      "learning_rate": 3.8141674634183675e-07,
      "loss": 0.82903719,
      "num_input_tokens_seen": 144687020,
      "step": 6704,
      "time_per_iteration": 2.717855215072632
    },
    {
      "auxiliary_loss_clip": 0.0113669,
      "auxiliary_loss_mlp": 0.01032939,
      "balance_loss_clip": 1.04794765,
      "balance_loss_mlp": 1.02540541,
      "epoch": 0.8062285817351049,
      "flos": 30044195735040.0,
      "grad_norm": 1.865837661312799,
      "language_loss": 0.66053694,
      "learning_rate": 3.809592956714278e-07,
      "loss": 0.68223321,
      "num_input_tokens_seen": 144710255,
      "step": 6705,
      "time_per_iteration": 3.799056053161621
    },
    {
      "auxiliary_loss_clip": 0.01170015,
      "auxiliary_loss_mlp": 0.01030542,
      "balance_loss_clip": 1.05054951,
      "balance_loss_mlp": 1.02236462,
      "epoch": 0.806348824625744,
      "flos": 22782591544320.0,
      "grad_norm": 1.7659070312599214,
      "language_loss": 0.74401999,
      "learning_rate": 3.805020906082057e-07,
      "loss": 0.76602554,
      "num_input_tokens_seen": 144728830,
      "step": 6706,
      "time_per_iteration": 2.6705243587493896
    },
    {
      "auxiliary_loss_clip": 0.01155617,
      "auxiliary_loss_mlp": 0.01027242,
      "balance_loss_clip": 1.04600334,
      "balance_loss_mlp": 1.01933229,
      "epoch": 0.8064690675163831,
      "flos": 23404600385280.0,
      "grad_norm": 2.191385409617759,
      "language_loss": 0.81027538,
      "learning_rate": 3.8004513122152917e-07,
      "loss": 0.83210397,
      "num_input_tokens_seen": 144747140,
      "step": 6707,
      "time_per_iteration": 3.63862681388855
    },
    {
      "auxiliary_loss_clip": 0.01142535,
      "auxiliary_loss_mlp": 0.01031015,
      "balance_loss_clip": 1.04548502,
      "balance_loss_mlp": 1.02386868,
      "epoch": 0.8065893104070222,
      "flos": 24060903736320.0,
      "grad_norm": 1.671122774060837,
      "language_loss": 0.67556208,
      "learning_rate": 3.79588417580718e-07,
      "loss": 0.69729757,
      "num_input_tokens_seen": 144765250,
      "step": 6708,
      "time_per_iteration": 2.7100467681884766
    },
    {
      "auxiliary_loss_clip": 0.01164337,
      "auxiliary_loss_mlp": 0.010283,
      "balance_loss_clip": 1.04832125,
      "balance_loss_mlp": 1.02061105,
      "epoch": 0.8067095532976613,
      "flos": 22305410340480.0,
      "grad_norm": 1.958858361692716,
      "language_loss": 0.7684952,
      "learning_rate": 3.791319497550558e-07,
      "loss": 0.79042161,
      "num_input_tokens_seen": 144783080,
      "step": 6709,
      "time_per_iteration": 2.581381320953369
    },
    {
      "auxiliary_loss_clip": 0.01153627,
      "auxiliary_loss_mlp": 0.00886347,
      "balance_loss_clip": 1.04842925,
      "balance_loss_mlp": 1.00061476,
      "epoch": 0.8068297961883004,
      "flos": 17129498296320.0,
      "grad_norm": 2.129023834583049,
      "language_loss": 0.70901513,
      "learning_rate": 3.78675727813788e-07,
      "loss": 0.72941494,
      "num_input_tokens_seen": 144800645,
      "step": 6710,
      "time_per_iteration": 2.7003889083862305
    },
    {
      "auxiliary_loss_clip": 0.0115209,
      "auxiliary_loss_mlp": 0.01027879,
      "balance_loss_clip": 1.04615808,
      "balance_loss_mlp": 1.02004743,
      "epoch": 0.8069500390789395,
      "flos": 22018843635840.0,
      "grad_norm": 1.8711826245507142,
      "language_loss": 0.73587191,
      "learning_rate": 3.782197518261225e-07,
      "loss": 0.75767159,
      "num_input_tokens_seen": 144820085,
      "step": 6711,
      "time_per_iteration": 2.6865952014923096
    },
    {
      "auxiliary_loss_clip": 0.01157012,
      "auxiliary_loss_mlp": 0.01027498,
      "balance_loss_clip": 1.04576194,
      "balance_loss_mlp": 1.02020216,
      "epoch": 0.8070702819695785,
      "flos": 19244241567360.0,
      "grad_norm": 2.258122963137241,
      "language_loss": 0.95553946,
      "learning_rate": 3.777640218612319e-07,
      "loss": 0.97738457,
      "num_input_tokens_seen": 144838070,
      "step": 6712,
      "time_per_iteration": 2.7326605319976807
    },
    {
      "auxiliary_loss_clip": 0.01160862,
      "auxiliary_loss_mlp": 0.01022056,
      "balance_loss_clip": 1.04823017,
      "balance_loss_mlp": 1.01464379,
      "epoch": 0.8071905248602176,
      "flos": 21544320038400.0,
      "grad_norm": 1.9969259019845318,
      "language_loss": 0.71922964,
      "learning_rate": 3.773085379882488e-07,
      "loss": 0.74105883,
      "num_input_tokens_seen": 144857125,
      "step": 6713,
      "time_per_iteration": 2.631216049194336
    },
    {
      "auxiliary_loss_clip": 0.01162432,
      "auxiliary_loss_mlp": 0.00887161,
      "balance_loss_clip": 1.04420733,
      "balance_loss_mlp": 1.00056672,
      "epoch": 0.8073107677508568,
      "flos": 37268309105280.0,
      "grad_norm": 1.7368805398493712,
      "language_loss": 0.76414394,
      "learning_rate": 3.768533002762715e-07,
      "loss": 0.78463984,
      "num_input_tokens_seen": 144880660,
      "step": 6714,
      "time_per_iteration": 2.8137762546539307
    },
    {
      "auxiliary_loss_clip": 0.01153398,
      "auxiliary_loss_mlp": 0.01030879,
      "balance_loss_clip": 1.04503131,
      "balance_loss_mlp": 1.02329683,
      "epoch": 0.8074310106414958,
      "flos": 28366269759360.0,
      "grad_norm": 1.8314473184794824,
      "language_loss": 0.77182835,
      "learning_rate": 3.763983087943572e-07,
      "loss": 0.79367113,
      "num_input_tokens_seen": 144900050,
      "step": 6715,
      "time_per_iteration": 3.7422542572021484
    },
    {
      "auxiliary_loss_clip": 0.01154321,
      "auxiliary_loss_mlp": 0.00885824,
      "balance_loss_clip": 1.04454684,
      "balance_loss_mlp": 1.00056505,
      "epoch": 0.8075512535321349,
      "flos": 24281646768000.0,
      "grad_norm": 1.6995511975510758,
      "language_loss": 0.80985337,
      "learning_rate": 3.759435636115282e-07,
      "loss": 0.83025479,
      "num_input_tokens_seen": 144920835,
      "step": 6716,
      "time_per_iteration": 2.654588222503662
    },
    {
      "auxiliary_loss_clip": 0.01118475,
      "auxiliary_loss_mlp": 0.00886776,
      "balance_loss_clip": 1.04306102,
      "balance_loss_mlp": 1.0006187,
      "epoch": 0.807671496422774,
      "flos": 26030855283840.0,
      "grad_norm": 1.734923718840395,
      "language_loss": 0.72829342,
      "learning_rate": 3.7548906479676967e-07,
      "loss": 0.74834585,
      "num_input_tokens_seen": 144940430,
      "step": 6717,
      "time_per_iteration": 2.7901272773742676
    },
    {
      "auxiliary_loss_clip": 0.01163923,
      "auxiliary_loss_mlp": 0.01024788,
      "balance_loss_clip": 1.04512632,
      "balance_loss_mlp": 1.01739097,
      "epoch": 0.8077917393134131,
      "flos": 23730740899200.0,
      "grad_norm": 2.0151712608697108,
      "language_loss": 0.71267641,
      "learning_rate": 3.7503481241902855e-07,
      "loss": 0.73456353,
      "num_input_tokens_seen": 144960405,
      "step": 6718,
      "time_per_iteration": 2.6296229362487793
    },
    {
      "auxiliary_loss_clip": 0.01154674,
      "auxiliary_loss_mlp": 0.00886536,
      "balance_loss_clip": 1.04753029,
      "balance_loss_mlp": 1.00056601,
      "epoch": 0.8079119822040521,
      "flos": 18402028398720.0,
      "grad_norm": 3.3882389357518443,
      "language_loss": 0.79917753,
      "learning_rate": 3.745808065472145e-07,
      "loss": 0.81958956,
      "num_input_tokens_seen": 144977700,
      "step": 6719,
      "time_per_iteration": 2.632253408432007
    },
    {
      "auxiliary_loss_clip": 0.01158144,
      "auxiliary_loss_mlp": 0.01022318,
      "balance_loss_clip": 1.05014157,
      "balance_loss_mlp": 1.01549602,
      "epoch": 0.8080322250946913,
      "flos": 23621787970560.0,
      "grad_norm": 1.6714908985954318,
      "language_loss": 0.76093602,
      "learning_rate": 3.741270472501994e-07,
      "loss": 0.78274065,
      "num_input_tokens_seen": 144998340,
      "step": 6720,
      "time_per_iteration": 2.6423888206481934
    },
    {
      "auxiliary_loss_clip": 0.01151714,
      "auxiliary_loss_mlp": 0.01028118,
      "balance_loss_clip": 1.04711509,
      "balance_loss_mlp": 1.02075934,
      "epoch": 0.8081524679853304,
      "flos": 22820692896000.0,
      "grad_norm": 1.6642104219300196,
      "language_loss": 0.72917867,
      "learning_rate": 3.736735345968183e-07,
      "loss": 0.75097704,
      "num_input_tokens_seen": 145017950,
      "step": 6721,
      "time_per_iteration": 2.6974709033966064
    },
    {
      "auxiliary_loss_clip": 0.01164854,
      "auxiliary_loss_mlp": 0.01024884,
      "balance_loss_clip": 1.04911494,
      "balance_loss_mlp": 1.01751637,
      "epoch": 0.8082727108759694,
      "flos": 17640004343040.0,
      "grad_norm": 1.5661999608546107,
      "language_loss": 0.78803372,
      "learning_rate": 3.7322026865586986e-07,
      "loss": 0.80993104,
      "num_input_tokens_seen": 145036985,
      "step": 6722,
      "time_per_iteration": 2.7356276512145996
    },
    {
      "auxiliary_loss_clip": 0.01170383,
      "auxiliary_loss_mlp": 0.0102928,
      "balance_loss_clip": 1.04996192,
      "balance_loss_mlp": 1.02146888,
      "epoch": 0.8083929537666086,
      "flos": 25958172113280.0,
      "grad_norm": 2.7617075755697895,
      "language_loss": 0.73126787,
      "learning_rate": 3.7276724949611206e-07,
      "loss": 0.75326449,
      "num_input_tokens_seen": 145057095,
      "step": 6723,
      "time_per_iteration": 2.62253475189209
    },
    {
      "auxiliary_loss_clip": 0.01156436,
      "auxiliary_loss_mlp": 0.01029313,
      "balance_loss_clip": 1.04691839,
      "balance_loss_mlp": 1.02142155,
      "epoch": 0.8085131966572476,
      "flos": 27089178629760.0,
      "grad_norm": 1.9452359298466952,
      "language_loss": 0.75012565,
      "learning_rate": 3.723144771862694e-07,
      "loss": 0.77198315,
      "num_input_tokens_seen": 145077735,
      "step": 6724,
      "time_per_iteration": 2.7054853439331055
    },
    {
      "auxiliary_loss_clip": 0.01147394,
      "auxiliary_loss_mlp": 0.01023471,
      "balance_loss_clip": 1.04297495,
      "balance_loss_mlp": 1.01518011,
      "epoch": 0.8086334395478867,
      "flos": 23988543788160.0,
      "grad_norm": 1.5276464457775945,
      "language_loss": 0.77073288,
      "learning_rate": 3.718619517950263e-07,
      "loss": 0.79244149,
      "num_input_tokens_seen": 145098330,
      "step": 6725,
      "time_per_iteration": 2.6867945194244385
    },
    {
      "auxiliary_loss_clip": 0.01172556,
      "auxiliary_loss_mlp": 0.01031115,
      "balance_loss_clip": 1.05002499,
      "balance_loss_mlp": 1.02382219,
      "epoch": 0.8087536824385259,
      "flos": 20405879406720.0,
      "grad_norm": 1.780823427211669,
      "language_loss": 0.7671448,
      "learning_rate": 3.714096733910301e-07,
      "loss": 0.78918147,
      "num_input_tokens_seen": 145115855,
      "step": 6726,
      "time_per_iteration": 2.6149582862854004
    },
    {
      "auxiliary_loss_clip": 0.01173415,
      "auxiliary_loss_mlp": 0.0103082,
      "balance_loss_clip": 1.04986095,
      "balance_loss_mlp": 1.02215958,
      "epoch": 0.8088739253291649,
      "flos": 25919639798400.0,
      "grad_norm": 8.99854073499646,
      "language_loss": 0.70222843,
      "learning_rate": 3.709576420428926e-07,
      "loss": 0.7242707,
      "num_input_tokens_seen": 145136655,
      "step": 6727,
      "time_per_iteration": 2.639967918395996
    },
    {
      "auxiliary_loss_clip": 0.011552,
      "auxiliary_loss_mlp": 0.01024339,
      "balance_loss_clip": 1.04413056,
      "balance_loss_mlp": 1.01751685,
      "epoch": 0.808994168219804,
      "flos": 28402072640640.0,
      "grad_norm": 2.220197625645055,
      "language_loss": 0.73533469,
      "learning_rate": 3.7050585781918463e-07,
      "loss": 0.75713003,
      "num_input_tokens_seen": 145156955,
      "step": 6728,
      "time_per_iteration": 2.7344255447387695
    },
    {
      "auxiliary_loss_clip": 0.01164628,
      "auxiliary_loss_mlp": 0.01026537,
      "balance_loss_clip": 1.04623616,
      "balance_loss_mlp": 1.01834178,
      "epoch": 0.8091144111104431,
      "flos": 17421056991360.0,
      "grad_norm": 2.0749148158843402,
      "language_loss": 0.69175553,
      "learning_rate": 3.700543207884428e-07,
      "loss": 0.71366721,
      "num_input_tokens_seen": 145173865,
      "step": 6729,
      "time_per_iteration": 3.527707099914551
    },
    {
      "auxiliary_loss_clip": 0.01160196,
      "auxiliary_loss_mlp": 0.01024445,
      "balance_loss_clip": 1.04748178,
      "balance_loss_mlp": 1.01682782,
      "epoch": 0.8092346540010822,
      "flos": 32153803361280.0,
      "grad_norm": 1.8726604272640848,
      "language_loss": 0.71251494,
      "learning_rate": 3.6960303101916466e-07,
      "loss": 0.73436129,
      "num_input_tokens_seen": 145193780,
      "step": 6730,
      "time_per_iteration": 3.757061004638672
    },
    {
      "auxiliary_loss_clip": 0.01063656,
      "auxiliary_loss_mlp": 0.00875942,
      "balance_loss_clip": 1.00870073,
      "balance_loss_mlp": 1.00082731,
      "epoch": 0.8093548968917212,
      "flos": 58035093390720.0,
      "grad_norm": 0.744999036586321,
      "language_loss": 0.55491012,
      "learning_rate": 3.6915198857981047e-07,
      "loss": 0.57430613,
      "num_input_tokens_seen": 145258980,
      "step": 6731,
      "time_per_iteration": 3.2727253437042236
    },
    {
      "auxiliary_loss_clip": 0.01138464,
      "auxiliary_loss_mlp": 0.01025264,
      "balance_loss_clip": 1.04272044,
      "balance_loss_mlp": 1.01740241,
      "epoch": 0.8094751397823604,
      "flos": 27381599251200.0,
      "grad_norm": 1.654027107302609,
      "language_loss": 0.67764461,
      "learning_rate": 3.687011935388027e-07,
      "loss": 0.69928193,
      "num_input_tokens_seen": 145281875,
      "step": 6732,
      "time_per_iteration": 2.7706961631774902
    },
    {
      "auxiliary_loss_clip": 0.01161297,
      "auxiliary_loss_mlp": 0.0102323,
      "balance_loss_clip": 1.04697227,
      "balance_loss_mlp": 1.01588714,
      "epoch": 0.8095953826729995,
      "flos": 24061083304320.0,
      "grad_norm": 2.2967264145468236,
      "language_loss": 0.72646713,
      "learning_rate": 3.6825064596452646e-07,
      "loss": 0.74831241,
      "num_input_tokens_seen": 145302220,
      "step": 6733,
      "time_per_iteration": 3.5013585090637207
    },
    {
      "auxiliary_loss_clip": 0.01161408,
      "auxiliary_loss_mlp": 0.01020981,
      "balance_loss_clip": 1.0445348,
      "balance_loss_mlp": 1.01364946,
      "epoch": 0.8097156255636385,
      "flos": 23951412103680.0,
      "grad_norm": 2.036864512181048,
      "language_loss": 0.706321,
      "learning_rate": 3.678003459253305e-07,
      "loss": 0.72814488,
      "num_input_tokens_seen": 145323070,
      "step": 6734,
      "time_per_iteration": 2.6763479709625244
    },
    {
      "auxiliary_loss_clip": 0.01141812,
      "auxiliary_loss_mlp": 0.01023888,
      "balance_loss_clip": 1.04519331,
      "balance_loss_mlp": 1.0165689,
      "epoch": 0.8098358684542777,
      "flos": 21799142098560.0,
      "grad_norm": 2.2321001639762335,
      "language_loss": 0.74013364,
      "learning_rate": 3.673502934895236e-07,
      "loss": 0.76179063,
      "num_input_tokens_seen": 145342575,
      "step": 6735,
      "time_per_iteration": 2.664121627807617
    },
    {
      "auxiliary_loss_clip": 0.01063461,
      "auxiliary_loss_mlp": 0.01000155,
      "balance_loss_clip": 1.00851035,
      "balance_loss_mlp": 0.99921912,
      "epoch": 0.8099561113449167,
      "flos": 68809515966720.0,
      "grad_norm": 0.6883445337228931,
      "language_loss": 0.57923555,
      "learning_rate": 3.669004887253802e-07,
      "loss": 0.59987164,
      "num_input_tokens_seen": 145408865,
      "step": 6736,
      "time_per_iteration": 3.3494486808776855
    },
    {
      "auxiliary_loss_clip": 0.01158656,
      "auxiliary_loss_mlp": 0.01026922,
      "balance_loss_clip": 1.04772806,
      "balance_loss_mlp": 1.01993001,
      "epoch": 0.8100763542355558,
      "flos": 23586056916480.0,
      "grad_norm": 1.6151819785209085,
      "language_loss": 0.78904831,
      "learning_rate": 3.664509317011335e-07,
      "loss": 0.81090415,
      "num_input_tokens_seen": 145429200,
      "step": 6737,
      "time_per_iteration": 2.746742010116577
    },
    {
      "auxiliary_loss_clip": 0.0116246,
      "auxiliary_loss_mlp": 0.01027537,
      "balance_loss_clip": 1.04865193,
      "balance_loss_mlp": 1.01939464,
      "epoch": 0.810196597126195,
      "flos": 31650408207360.0,
      "grad_norm": 2.156583422492417,
      "language_loss": 0.7392801,
      "learning_rate": 3.6600162248498134e-07,
      "loss": 0.76118004,
      "num_input_tokens_seen": 145452830,
      "step": 6738,
      "time_per_iteration": 2.729374885559082
    },
    {
      "auxiliary_loss_clip": 0.01105703,
      "auxiliary_loss_mlp": 0.01021493,
      "balance_loss_clip": 1.03796482,
      "balance_loss_mlp": 1.01440287,
      "epoch": 0.810316840016834,
      "flos": 24900459298560.0,
      "grad_norm": 1.8501915662799007,
      "language_loss": 0.75729877,
      "learning_rate": 3.6555256114508426e-07,
      "loss": 0.77857071,
      "num_input_tokens_seen": 145472625,
      "step": 6739,
      "time_per_iteration": 2.826449155807495
    },
    {
      "auxiliary_loss_clip": 0.01151675,
      "auxiliary_loss_mlp": 0.01028772,
      "balance_loss_clip": 1.04087329,
      "balance_loss_mlp": 1.0208745,
      "epoch": 0.8104370829074731,
      "flos": 27965003950080.0,
      "grad_norm": 1.860878039534582,
      "language_loss": 0.72984183,
      "learning_rate": 3.651037477495642e-07,
      "loss": 0.75164628,
      "num_input_tokens_seen": 145494075,
      "step": 6740,
      "time_per_iteration": 2.752251625061035
    },
    {
      "auxiliary_loss_clip": 0.01171609,
      "auxiliary_loss_mlp": 0.01026834,
      "balance_loss_clip": 1.04748297,
      "balance_loss_mlp": 1.01916897,
      "epoch": 0.8105573257981122,
      "flos": 24640752988800.0,
      "grad_norm": 1.8803068273924215,
      "language_loss": 0.68028617,
      "learning_rate": 3.6465518236650584e-07,
      "loss": 0.70227057,
      "num_input_tokens_seen": 145514220,
      "step": 6741,
      "time_per_iteration": 3.659266710281372
    },
    {
      "auxiliary_loss_clip": 0.01142586,
      "auxiliary_loss_mlp": 0.0102541,
      "balance_loss_clip": 1.04345894,
      "balance_loss_mlp": 1.01813173,
      "epoch": 0.8106775686887513,
      "flos": 26358935132160.0,
      "grad_norm": 1.7411371384455347,
      "language_loss": 0.78412342,
      "learning_rate": 3.642068650639558e-07,
      "loss": 0.80580342,
      "num_input_tokens_seen": 145533965,
      "step": 6742,
      "time_per_iteration": 2.7490897178649902
    },
    {
      "auxiliary_loss_clip": 0.01145372,
      "auxiliary_loss_mlp": 0.01025671,
      "balance_loss_clip": 1.04084635,
      "balance_loss_mlp": 1.01813984,
      "epoch": 0.8107978115793903,
      "flos": 27271892136960.0,
      "grad_norm": 3.195364000563016,
      "language_loss": 0.6441198,
      "learning_rate": 3.6375879590992334e-07,
      "loss": 0.66583019,
      "num_input_tokens_seen": 145554310,
      "step": 6743,
      "time_per_iteration": 2.786247730255127
    },
    {
      "auxiliary_loss_clip": 0.01148733,
      "auxiliary_loss_mlp": 0.01026327,
      "balance_loss_clip": 1.04507899,
      "balance_loss_mlp": 1.01892745,
      "epoch": 0.8109180544700295,
      "flos": 24934322845440.0,
      "grad_norm": 1.6290111854032294,
      "language_loss": 0.80794704,
      "learning_rate": 3.6331097497238173e-07,
      "loss": 0.82969761,
      "num_input_tokens_seen": 145573755,
      "step": 6744,
      "time_per_iteration": 2.787731409072876
    },
    {
      "auxiliary_loss_clip": 0.01140855,
      "auxiliary_loss_mlp": 0.01028265,
      "balance_loss_clip": 1.04401159,
      "balance_loss_mlp": 1.02070975,
      "epoch": 0.8110382973606686,
      "flos": 21105383840640.0,
      "grad_norm": 1.9143254596796984,
      "language_loss": 0.79997891,
      "learning_rate": 3.628634023192627e-07,
      "loss": 0.82167006,
      "num_input_tokens_seen": 145594000,
      "step": 6745,
      "time_per_iteration": 2.722872495651245
    },
    {
      "auxiliary_loss_clip": 0.01162641,
      "auxiliary_loss_mlp": 0.01023657,
      "balance_loss_clip": 1.04540753,
      "balance_loss_mlp": 1.01607776,
      "epoch": 0.8111585402513076,
      "flos": 15414081500160.0,
      "grad_norm": 2.5914432144186397,
      "language_loss": 0.75230467,
      "learning_rate": 3.624160780184644e-07,
      "loss": 0.77416766,
      "num_input_tokens_seen": 145611215,
      "step": 6746,
      "time_per_iteration": 2.629473924636841
    },
    {
      "auxiliary_loss_clip": 0.01146009,
      "auxiliary_loss_mlp": 0.01024442,
      "balance_loss_clip": 1.04386008,
      "balance_loss_mlp": 1.0160023,
      "epoch": 0.8112787831419467,
      "flos": 24095736950400.0,
      "grad_norm": 1.7728396641867872,
      "language_loss": 0.74534011,
      "learning_rate": 3.6196900213784496e-07,
      "loss": 0.7670446,
      "num_input_tokens_seen": 145630530,
      "step": 6747,
      "time_per_iteration": 2.6769955158233643
    },
    {
      "auxiliary_loss_clip": 0.01164427,
      "auxiliary_loss_mlp": 0.01028127,
      "balance_loss_clip": 1.04727435,
      "balance_loss_mlp": 1.02022898,
      "epoch": 0.8113990260325858,
      "flos": 20483374999680.0,
      "grad_norm": 1.8964693794019174,
      "language_loss": 0.86579579,
      "learning_rate": 3.6152217474522527e-07,
      "loss": 0.88772136,
      "num_input_tokens_seen": 145647345,
      "step": 6748,
      "time_per_iteration": 2.617687225341797
    },
    {
      "auxiliary_loss_clip": 0.0116663,
      "auxiliary_loss_mlp": 0.01031001,
      "balance_loss_clip": 1.05184066,
      "balance_loss_mlp": 1.02408731,
      "epoch": 0.8115192689232249,
      "flos": 24901141656960.0,
      "grad_norm": 1.6969491709725855,
      "language_loss": 0.72827291,
      "learning_rate": 3.6107559590838975e-07,
      "loss": 0.75024927,
      "num_input_tokens_seen": 145666330,
      "step": 6749,
      "time_per_iteration": 2.636277675628662
    },
    {
      "auxiliary_loss_clip": 0.01116742,
      "auxiliary_loss_mlp": 0.01028142,
      "balance_loss_clip": 1.03793573,
      "balance_loss_mlp": 1.02053654,
      "epoch": 0.811639511813864,
      "flos": 24057204635520.0,
      "grad_norm": 2.7687340975388692,
      "language_loss": 0.66540635,
      "learning_rate": 3.606292656950822e-07,
      "loss": 0.68685514,
      "num_input_tokens_seen": 145684740,
      "step": 6750,
      "time_per_iteration": 2.799077033996582
    },
    {
      "auxiliary_loss_clip": 0.01147659,
      "auxiliary_loss_mlp": 0.01025445,
      "balance_loss_clip": 1.04289198,
      "balance_loss_mlp": 1.01739883,
      "epoch": 0.8117597547045031,
      "flos": 23185150243200.0,
      "grad_norm": 2.1530286270881414,
      "language_loss": 0.86522633,
      "learning_rate": 3.601831841730121e-07,
      "loss": 0.88695741,
      "num_input_tokens_seen": 145702660,
      "step": 6751,
      "time_per_iteration": 2.640775203704834
    },
    {
      "auxiliary_loss_clip": 0.01162639,
      "auxiliary_loss_mlp": 0.0102463,
      "balance_loss_clip": 1.04805326,
      "balance_loss_mlp": 1.01736462,
      "epoch": 0.8118799975951422,
      "flos": 23040250778880.0,
      "grad_norm": 1.8248617625306502,
      "language_loss": 0.72990668,
      "learning_rate": 3.5973735140984916e-07,
      "loss": 0.75177932,
      "num_input_tokens_seen": 145722830,
      "step": 6752,
      "time_per_iteration": 2.691915512084961
    },
    {
      "auxiliary_loss_clip": 0.01130163,
      "auxiliary_loss_mlp": 0.00886844,
      "balance_loss_clip": 1.03953171,
      "balance_loss_mlp": 1.0005722,
      "epoch": 0.8120002404857812,
      "flos": 24639962889600.0,
      "grad_norm": 2.0394892431118055,
      "language_loss": 0.79907799,
      "learning_rate": 3.5929176747322607e-07,
      "loss": 0.81924814,
      "num_input_tokens_seen": 145741935,
      "step": 6753,
      "time_per_iteration": 2.7532143592834473
    },
    {
      "auxiliary_loss_clip": 0.01055347,
      "auxiliary_loss_mlp": 0.01000658,
      "balance_loss_clip": 1.00854838,
      "balance_loss_mlp": 0.99961489,
      "epoch": 0.8121204833764204,
      "flos": 57415742156160.0,
      "grad_norm": 0.8075844638866272,
      "language_loss": 0.56173414,
      "learning_rate": 3.588464324307372e-07,
      "loss": 0.58229417,
      "num_input_tokens_seen": 145805560,
      "step": 6754,
      "time_per_iteration": 3.333888053894043
    },
    {
      "auxiliary_loss_clip": 0.01162797,
      "auxiliary_loss_mlp": 0.01027195,
      "balance_loss_clip": 1.04457605,
      "balance_loss_mlp": 1.01984262,
      "epoch": 0.8122407262670595,
      "flos": 19464589549440.0,
      "grad_norm": 2.0493289220004476,
      "language_loss": 0.75286531,
      "learning_rate": 3.584013463499391e-07,
      "loss": 0.77476525,
      "num_input_tokens_seen": 145824180,
      "step": 6755,
      "time_per_iteration": 3.58994197845459
    },
    {
      "auxiliary_loss_clip": 0.01052894,
      "auxiliary_loss_mlp": 0.01000987,
      "balance_loss_clip": 1.00909042,
      "balance_loss_mlp": 0.99995565,
      "epoch": 0.8123609691576985,
      "flos": 56425325472000.0,
      "grad_norm": 0.7364610297797246,
      "language_loss": 0.64463478,
      "learning_rate": 3.579565092983521e-07,
      "loss": 0.66517359,
      "num_input_tokens_seen": 145885300,
      "step": 6756,
      "time_per_iteration": 4.142894506454468
    },
    {
      "auxiliary_loss_clip": 0.01174671,
      "auxiliary_loss_mlp": 0.01028723,
      "balance_loss_clip": 1.05088258,
      "balance_loss_mlp": 1.02059877,
      "epoch": 0.8124812120483377,
      "flos": 20631973564800.0,
      "grad_norm": 2.287786492318294,
      "language_loss": 0.83713096,
      "learning_rate": 3.575119213434565e-07,
      "loss": 0.85916495,
      "num_input_tokens_seen": 145903815,
      "step": 6757,
      "time_per_iteration": 2.60813045501709
    },
    {
      "auxiliary_loss_clip": 0.01162402,
      "auxiliary_loss_mlp": 0.01028623,
      "balance_loss_clip": 1.04896402,
      "balance_loss_mlp": 1.02087426,
      "epoch": 0.8126014549389767,
      "flos": 22492397566080.0,
      "grad_norm": 1.8991101222192681,
      "language_loss": 0.81859446,
      "learning_rate": 3.5706758255269765e-07,
      "loss": 0.84050465,
      "num_input_tokens_seen": 145922270,
      "step": 6758,
      "time_per_iteration": 2.6664137840270996
    },
    {
      "auxiliary_loss_clip": 0.01156791,
      "auxiliary_loss_mlp": 0.01028481,
      "balance_loss_clip": 1.04631782,
      "balance_loss_mlp": 1.0209465,
      "epoch": 0.8127216978296158,
      "flos": 23287961946240.0,
      "grad_norm": 1.5807211923168558,
      "language_loss": 0.69502008,
      "learning_rate": 3.566234929934795e-07,
      "loss": 0.71687281,
      "num_input_tokens_seen": 145941470,
      "step": 6759,
      "time_per_iteration": 3.6513123512268066
    },
    {
      "auxiliary_loss_clip": 0.01159582,
      "auxiliary_loss_mlp": 0.01027874,
      "balance_loss_clip": 1.04795432,
      "balance_loss_mlp": 1.01992261,
      "epoch": 0.812841940720255,
      "flos": 25154994049920.0,
      "grad_norm": 2.335716680324422,
      "language_loss": 0.71607584,
      "learning_rate": 3.561796527331706e-07,
      "loss": 0.73795038,
      "num_input_tokens_seen": 145963145,
      "step": 6760,
      "time_per_iteration": 2.688199043273926
    },
    {
      "auxiliary_loss_clip": 0.01143367,
      "auxiliary_loss_mlp": 0.01027743,
      "balance_loss_clip": 1.04197216,
      "balance_loss_mlp": 1.01973784,
      "epoch": 0.812962183610894,
      "flos": 26648446752000.0,
      "grad_norm": 1.812606702787036,
      "language_loss": 0.77455211,
      "learning_rate": 3.5573606183910163e-07,
      "loss": 0.79626322,
      "num_input_tokens_seen": 145983150,
      "step": 6761,
      "time_per_iteration": 2.853541135787964
    },
    {
      "auxiliary_loss_clip": 0.011673,
      "auxiliary_loss_mlp": 0.01026951,
      "balance_loss_clip": 1.04496002,
      "balance_loss_mlp": 1.01870811,
      "epoch": 0.8130824265015331,
      "flos": 24966965329920.0,
      "grad_norm": 3.637552066938713,
      "language_loss": 0.78715897,
      "learning_rate": 3.5529272037856493e-07,
      "loss": 0.80910146,
      "num_input_tokens_seen": 146001365,
      "step": 6762,
      "time_per_iteration": 2.6441969871520996
    },
    {
      "auxiliary_loss_clip": 0.01040205,
      "auxiliary_loss_mlp": 0.0100339,
      "balance_loss_clip": 1.00870824,
      "balance_loss_mlp": 1.00239491,
      "epoch": 0.8132026693921722,
      "flos": 67622918175360.0,
      "grad_norm": 0.7853323920860033,
      "language_loss": 0.53858709,
      "learning_rate": 3.548496284188149e-07,
      "loss": 0.55902302,
      "num_input_tokens_seen": 146061570,
      "step": 6763,
      "time_per_iteration": 3.5248427391052246
    },
    {
      "auxiliary_loss_clip": 0.01128996,
      "auxiliary_loss_mlp": 0.01025464,
      "balance_loss_clip": 1.04545283,
      "balance_loss_mlp": 1.01838279,
      "epoch": 0.8133229122828113,
      "flos": 19495149045120.0,
      "grad_norm": 2.365574045679762,
      "language_loss": 0.79497212,
      "learning_rate": 3.544067860270681e-07,
      "loss": 0.81651676,
      "num_input_tokens_seen": 146079145,
      "step": 6764,
      "time_per_iteration": 2.8870391845703125
    },
    {
      "auxiliary_loss_clip": 0.01146982,
      "auxiliary_loss_mlp": 0.01026589,
      "balance_loss_clip": 1.04327559,
      "balance_loss_mlp": 1.01855421,
      "epoch": 0.8134431551734503,
      "flos": 20668135582080.0,
      "grad_norm": 2.0507380306416314,
      "language_loss": 0.70854557,
      "learning_rate": 3.539641932705029e-07,
      "loss": 0.73028129,
      "num_input_tokens_seen": 146097625,
      "step": 6765,
      "time_per_iteration": 2.771775245666504
    },
    {
      "auxiliary_loss_clip": 0.01175767,
      "auxiliary_loss_mlp": 0.01028355,
      "balance_loss_clip": 1.04887223,
      "balance_loss_mlp": 1.02051091,
      "epoch": 0.8135633980640895,
      "flos": 21507332008320.0,
      "grad_norm": 2.069315096286585,
      "language_loss": 0.77355671,
      "learning_rate": 3.53521850216262e-07,
      "loss": 0.79559791,
      "num_input_tokens_seen": 146117195,
      "step": 6766,
      "time_per_iteration": 2.598317861557007
    },
    {
      "auxiliary_loss_clip": 0.01173172,
      "auxiliary_loss_mlp": 0.01029964,
      "balance_loss_clip": 1.05016792,
      "balance_loss_mlp": 1.0221734,
      "epoch": 0.8136836409547286,
      "flos": 20554442058240.0,
      "grad_norm": 2.589716666063956,
      "language_loss": 0.76967412,
      "learning_rate": 3.530797569314461e-07,
      "loss": 0.79170549,
      "num_input_tokens_seen": 146136220,
      "step": 6767,
      "time_per_iteration": 3.871502637863159
    },
    {
      "auxiliary_loss_clip": 0.01172894,
      "auxiliary_loss_mlp": 0.01022634,
      "balance_loss_clip": 1.04854202,
      "balance_loss_mlp": 1.01506722,
      "epoch": 0.8138038838453676,
      "flos": 20299045380480.0,
      "grad_norm": 1.9642166998727706,
      "language_loss": 0.77563679,
      "learning_rate": 3.5263791348312235e-07,
      "loss": 0.79759204,
      "num_input_tokens_seen": 146155415,
      "step": 6768,
      "time_per_iteration": 2.627755880355835
    },
    {
      "auxiliary_loss_clip": 0.01149826,
      "auxiliary_loss_mlp": 0.01026238,
      "balance_loss_clip": 1.04293144,
      "balance_loss_mlp": 1.01881146,
      "epoch": 0.8139241267360068,
      "flos": 29789840551680.0,
      "grad_norm": 1.9838898061803933,
      "language_loss": 0.70702243,
      "learning_rate": 3.521963199383171e-07,
      "loss": 0.72878307,
      "num_input_tokens_seen": 146178370,
      "step": 6769,
      "time_per_iteration": 2.734356164932251
    },
    {
      "auxiliary_loss_clip": 0.01130183,
      "auxiliary_loss_mlp": 0.01028857,
      "balance_loss_clip": 1.04095483,
      "balance_loss_mlp": 1.02080131,
      "epoch": 0.8140443696266458,
      "flos": 19713270384000.0,
      "grad_norm": 2.424567788481723,
      "language_loss": 0.76434326,
      "learning_rate": 3.517549763640197e-07,
      "loss": 0.78593367,
      "num_input_tokens_seen": 146196010,
      "step": 6770,
      "time_per_iteration": 2.77779483795166
    },
    {
      "auxiliary_loss_clip": 0.01160628,
      "auxiliary_loss_mlp": 0.00886497,
      "balance_loss_clip": 1.04988432,
      "balance_loss_mlp": 1.00050545,
      "epoch": 0.8141646125172849,
      "flos": 27160568910720.0,
      "grad_norm": 2.502336786593079,
      "language_loss": 0.71393687,
      "learning_rate": 3.513138828271829e-07,
      "loss": 0.73440814,
      "num_input_tokens_seen": 146215880,
      "step": 6771,
      "time_per_iteration": 2.672268867492676
    },
    {
      "auxiliary_loss_clip": 0.01135002,
      "auxiliary_loss_mlp": 0.0102772,
      "balance_loss_clip": 1.04122019,
      "balance_loss_mlp": 1.02009046,
      "epoch": 0.8142848554079241,
      "flos": 39673102700160.0,
      "grad_norm": 2.0751076639855413,
      "language_loss": 0.70196927,
      "learning_rate": 3.508730393947179e-07,
      "loss": 0.72359657,
      "num_input_tokens_seen": 146239135,
      "step": 6772,
      "time_per_iteration": 2.8480491638183594
    },
    {
      "auxiliary_loss_clip": 0.01138993,
      "auxiliary_loss_mlp": 0.01024397,
      "balance_loss_clip": 1.04404449,
      "balance_loss_mlp": 1.01668382,
      "epoch": 0.8144050982985631,
      "flos": 22237288197120.0,
      "grad_norm": 2.4224977792152353,
      "language_loss": 0.7190932,
      "learning_rate": 3.504324461335024e-07,
      "loss": 0.74072707,
      "num_input_tokens_seen": 146259245,
      "step": 6773,
      "time_per_iteration": 2.705322265625
    },
    {
      "auxiliary_loss_clip": 0.01122963,
      "auxiliary_loss_mlp": 0.01025065,
      "balance_loss_clip": 1.03769994,
      "balance_loss_mlp": 1.01732266,
      "epoch": 0.8145253411892022,
      "flos": 23038239617280.0,
      "grad_norm": 2.2060029824939136,
      "language_loss": 0.88263541,
      "learning_rate": 3.499921031103732e-07,
      "loss": 0.90411568,
      "num_input_tokens_seen": 146280015,
      "step": 6774,
      "time_per_iteration": 2.86344838142395
    },
    {
      "auxiliary_loss_clip": 0.0115391,
      "auxiliary_loss_mlp": 0.01032271,
      "balance_loss_clip": 1.04288387,
      "balance_loss_mlp": 1.02488017,
      "epoch": 0.8146455840798413,
      "flos": 24827668387200.0,
      "grad_norm": 2.008360455315155,
      "language_loss": 0.78120792,
      "learning_rate": 3.4955201039212987e-07,
      "loss": 0.80306977,
      "num_input_tokens_seen": 146300935,
      "step": 6775,
      "time_per_iteration": 2.813901424407959
    },
    {
      "auxiliary_loss_clip": 0.01168748,
      "auxiliary_loss_mlp": 0.0103028,
      "balance_loss_clip": 1.04913568,
      "balance_loss_mlp": 1.02248371,
      "epoch": 0.8147658269704804,
      "flos": 19974520978560.0,
      "grad_norm": 2.2197584843287648,
      "language_loss": 0.65367162,
      "learning_rate": 3.4911216804553465e-07,
      "loss": 0.67566186,
      "num_input_tokens_seen": 146319835,
      "step": 6776,
      "time_per_iteration": 2.7210426330566406
    },
    {
      "auxiliary_loss_clip": 0.01152875,
      "auxiliary_loss_mlp": 0.01032021,
      "balance_loss_clip": 1.04530501,
      "balance_loss_mlp": 1.0235815,
      "epoch": 0.8148860698611194,
      "flos": 21178031097600.0,
      "grad_norm": 1.9308600090856223,
      "language_loss": 0.70844144,
      "learning_rate": 3.4867257613731017e-07,
      "loss": 0.73029041,
      "num_input_tokens_seen": 146339030,
      "step": 6777,
      "time_per_iteration": 2.751896858215332
    },
    {
      "auxiliary_loss_clip": 0.01151349,
      "auxiliary_loss_mlp": 0.01028492,
      "balance_loss_clip": 1.04365909,
      "balance_loss_mlp": 1.02104783,
      "epoch": 0.8150063127517585,
      "flos": 19606903234560.0,
      "grad_norm": 1.8434565185711558,
      "language_loss": 0.85830188,
      "learning_rate": 3.4823323473414343e-07,
      "loss": 0.88010031,
      "num_input_tokens_seen": 146358550,
      "step": 6778,
      "time_per_iteration": 2.6996493339538574
    },
    {
      "auxiliary_loss_clip": 0.01148501,
      "auxiliary_loss_mlp": 0.01026363,
      "balance_loss_clip": 1.04245806,
      "balance_loss_mlp": 1.01764941,
      "epoch": 0.8151265556423977,
      "flos": 22638374438400.0,
      "grad_norm": 5.481510063763584,
      "language_loss": 0.76108944,
      "learning_rate": 3.477941439026812e-07,
      "loss": 0.78283811,
      "num_input_tokens_seen": 146376770,
      "step": 6779,
      "time_per_iteration": 2.7654006481170654
    },
    {
      "auxiliary_loss_clip": 0.01156507,
      "auxiliary_loss_mlp": 0.01026813,
      "balance_loss_clip": 1.04863,
      "balance_loss_mlp": 1.01942754,
      "epoch": 0.8152467985330367,
      "flos": 17968048277760.0,
      "grad_norm": 2.7333148275991053,
      "language_loss": 0.7290076,
      "learning_rate": 3.473553037095349e-07,
      "loss": 0.75084084,
      "num_input_tokens_seen": 146395795,
      "step": 6780,
      "time_per_iteration": 3.553267478942871
    },
    {
      "auxiliary_loss_clip": 0.01144314,
      "auxiliary_loss_mlp": 0.01029905,
      "balance_loss_clip": 1.04206598,
      "balance_loss_mlp": 1.02306223,
      "epoch": 0.8153670414236758,
      "flos": 24969012405120.0,
      "grad_norm": 1.8723580592336428,
      "language_loss": 0.83141911,
      "learning_rate": 3.469167142212743e-07,
      "loss": 0.85316128,
      "num_input_tokens_seen": 146417640,
      "step": 6781,
      "time_per_iteration": 2.7031195163726807
    },
    {
      "auxiliary_loss_clip": 0.01165367,
      "auxiliary_loss_mlp": 0.01027165,
      "balance_loss_clip": 1.04867411,
      "balance_loss_mlp": 1.01915956,
      "epoch": 0.8154872843143149,
      "flos": 31066069754880.0,
      "grad_norm": 2.976063677256379,
      "language_loss": 0.63590872,
      "learning_rate": 3.4647837550443337e-07,
      "loss": 0.65783405,
      "num_input_tokens_seen": 146436205,
      "step": 6782,
      "time_per_iteration": 3.777792453765869
    },
    {
      "auxiliary_loss_clip": 0.01145521,
      "auxiliary_loss_mlp": 0.01025868,
      "balance_loss_clip": 1.04436827,
      "balance_loss_mlp": 1.01836419,
      "epoch": 0.815607527204954,
      "flos": 19391654983680.0,
      "grad_norm": 3.7823211564152417,
      "language_loss": 0.74401259,
      "learning_rate": 3.460402876255086e-07,
      "loss": 0.76572651,
      "num_input_tokens_seen": 146453595,
      "step": 6783,
      "time_per_iteration": 2.6545584201812744
    },
    {
      "auxiliary_loss_clip": 0.01164827,
      "auxiliary_loss_mlp": 0.0102604,
      "balance_loss_clip": 1.04696512,
      "balance_loss_mlp": 1.01775789,
      "epoch": 0.815727770095593,
      "flos": 26140418743680.0,
      "grad_norm": 2.09184798015134,
      "language_loss": 0.71591198,
      "learning_rate": 3.456024506509574e-07,
      "loss": 0.73782063,
      "num_input_tokens_seen": 146474515,
      "step": 6784,
      "time_per_iteration": 2.653672695159912
    },
    {
      "auxiliary_loss_clip": 0.01165346,
      "auxiliary_loss_mlp": 0.00886567,
      "balance_loss_clip": 1.04975784,
      "balance_loss_mlp": 1.00056839,
      "epoch": 0.8158480129862322,
      "flos": 25337527989120.0,
      "grad_norm": 1.6228417431785038,
      "language_loss": 0.73913938,
      "learning_rate": 3.4516486464719873e-07,
      "loss": 0.75965852,
      "num_input_tokens_seen": 146493905,
      "step": 6785,
      "time_per_iteration": 3.3510735034942627
    },
    {
      "auxiliary_loss_clip": 0.01127585,
      "auxiliary_loss_mlp": 0.01023863,
      "balance_loss_clip": 1.04070091,
      "balance_loss_mlp": 1.01576233,
      "epoch": 0.8159682558768713,
      "flos": 34423645559040.0,
      "grad_norm": 1.565137757960785,
      "language_loss": 0.61606276,
      "learning_rate": 3.4472752968061445e-07,
      "loss": 0.63757718,
      "num_input_tokens_seen": 146518335,
      "step": 6786,
      "time_per_iteration": 2.8923559188842773
    },
    {
      "auxiliary_loss_clip": 0.01162599,
      "auxiliary_loss_mlp": 0.0102833,
      "balance_loss_clip": 1.04540384,
      "balance_loss_mlp": 1.02047443,
      "epoch": 0.8160884987675103,
      "flos": 18653223185280.0,
      "grad_norm": 2.0782482172719834,
      "language_loss": 0.73814505,
      "learning_rate": 3.442904458175475e-07,
      "loss": 0.76005435,
      "num_input_tokens_seen": 146535655,
      "step": 6787,
      "time_per_iteration": 2.5037941932678223
    },
    {
      "auxiliary_loss_clip": 0.01158278,
      "auxiliary_loss_mlp": 0.01026367,
      "balance_loss_clip": 1.04467416,
      "balance_loss_mlp": 1.01876163,
      "epoch": 0.8162087416581495,
      "flos": 31430527102080.0,
      "grad_norm": 1.531285275157969,
      "language_loss": 0.76221782,
      "learning_rate": 3.438536131243044e-07,
      "loss": 0.78406429,
      "num_input_tokens_seen": 146556815,
      "step": 6788,
      "time_per_iteration": 2.6056013107299805
    },
    {
      "auxiliary_loss_clip": 0.01155086,
      "auxiliary_loss_mlp": 0.01026024,
      "balance_loss_clip": 1.04561591,
      "balance_loss_mlp": 1.01753664,
      "epoch": 0.8163289845487885,
      "flos": 37593910915200.0,
      "grad_norm": 5.082319181011749,
      "language_loss": 0.62593746,
      "learning_rate": 3.434170316671503e-07,
      "loss": 0.64774859,
      "num_input_tokens_seen": 146581845,
      "step": 6789,
      "time_per_iteration": 2.7989578247070312
    },
    {
      "auxiliary_loss_clip": 0.01140358,
      "auxiliary_loss_mlp": 0.01022184,
      "balance_loss_clip": 1.048702,
      "balance_loss_mlp": 1.01486409,
      "epoch": 0.8164492274394276,
      "flos": 13953989554560.0,
      "grad_norm": 2.2203972097342413,
      "language_loss": 0.89271367,
      "learning_rate": 3.4298070151231583e-07,
      "loss": 0.91433907,
      "num_input_tokens_seen": 146597245,
      "step": 6790,
      "time_per_iteration": 2.6493020057678223
    },
    {
      "auxiliary_loss_clip": 0.01155571,
      "auxiliary_loss_mlp": 0.01024554,
      "balance_loss_clip": 1.04469121,
      "balance_loss_mlp": 1.01678181,
      "epoch": 0.8165694703300668,
      "flos": 28986554747520.0,
      "grad_norm": 2.533768736837284,
      "language_loss": 0.60055119,
      "learning_rate": 3.425446227259916e-07,
      "loss": 0.62235248,
      "num_input_tokens_seen": 146618210,
      "step": 6791,
      "time_per_iteration": 2.76522159576416
    },
    {
      "auxiliary_loss_clip": 0.01154274,
      "auxiliary_loss_mlp": 0.01024815,
      "balance_loss_clip": 1.04436374,
      "balance_loss_mlp": 1.01797211,
      "epoch": 0.8166897132207058,
      "flos": 25118365155840.0,
      "grad_norm": 2.103611751324106,
      "language_loss": 0.82444149,
      "learning_rate": 3.421087953743296e-07,
      "loss": 0.84623235,
      "num_input_tokens_seen": 146637975,
      "step": 6792,
      "time_per_iteration": 2.765613317489624
    },
    {
      "auxiliary_loss_clip": 0.01161419,
      "auxiliary_loss_mlp": 0.01027724,
      "balance_loss_clip": 1.04444158,
      "balance_loss_mlp": 1.01982355,
      "epoch": 0.8168099561113449,
      "flos": 23148593176320.0,
      "grad_norm": 2.1626722002409173,
      "language_loss": 0.80148351,
      "learning_rate": 3.416732195234464e-07,
      "loss": 0.82337499,
      "num_input_tokens_seen": 146658030,
      "step": 6793,
      "time_per_iteration": 3.4921882152557373
    },
    {
      "auxiliary_loss_clip": 0.01161824,
      "auxiliary_loss_mlp": 0.01023752,
      "balance_loss_clip": 1.04474163,
      "balance_loss_mlp": 1.0163548,
      "epoch": 0.816930199001984,
      "flos": 18407666833920.0,
      "grad_norm": 1.4643055436161627,
      "language_loss": 0.79484642,
      "learning_rate": 3.4123789523941613e-07,
      "loss": 0.81670219,
      "num_input_tokens_seen": 146677855,
      "step": 6794,
      "time_per_iteration": 2.578603744506836
    },
    {
      "auxiliary_loss_clip": 0.01155747,
      "auxiliary_loss_mlp": 0.01029236,
      "balance_loss_clip": 1.04455984,
      "balance_loss_mlp": 1.02134407,
      "epoch": 0.8170504418926231,
      "flos": 21251324799360.0,
      "grad_norm": 1.6103286299016777,
      "language_loss": 0.63396227,
      "learning_rate": 3.4080282258827884e-07,
      "loss": 0.65581208,
      "num_input_tokens_seen": 146696230,
      "step": 6795,
      "time_per_iteration": 2.6204354763031006
    },
    {
      "auxiliary_loss_clip": 0.01163439,
      "auxiliary_loss_mlp": 0.01027949,
      "balance_loss_clip": 1.04604411,
      "balance_loss_mlp": 1.02071869,
      "epoch": 0.8171706847832622,
      "flos": 19099234362240.0,
      "grad_norm": 2.037103724652554,
      "language_loss": 0.72449666,
      "learning_rate": 3.403680016360342e-07,
      "loss": 0.74641055,
      "num_input_tokens_seen": 146714835,
      "step": 6796,
      "time_per_iteration": 2.585409164428711
    },
    {
      "auxiliary_loss_clip": 0.01158805,
      "auxiliary_loss_mlp": 0.01027397,
      "balance_loss_clip": 1.04786396,
      "balance_loss_mlp": 1.01933205,
      "epoch": 0.8172909276739013,
      "flos": 21470128496640.0,
      "grad_norm": 1.570729353192476,
      "language_loss": 0.67692757,
      "learning_rate": 3.3993343244864403e-07,
      "loss": 0.6987896,
      "num_input_tokens_seen": 146734425,
      "step": 6797,
      "time_per_iteration": 2.6403965950012207
    },
    {
      "auxiliary_loss_clip": 0.01160967,
      "auxiliary_loss_mlp": 0.01022217,
      "balance_loss_clip": 1.04742932,
      "balance_loss_mlp": 1.01468623,
      "epoch": 0.8174111705645404,
      "flos": 27599792417280.0,
      "grad_norm": 1.631983699163124,
      "language_loss": 0.73060167,
      "learning_rate": 3.394991150920323e-07,
      "loss": 0.75243354,
      "num_input_tokens_seen": 146757545,
      "step": 6798,
      "time_per_iteration": 2.7561488151550293
    },
    {
      "auxiliary_loss_clip": 0.01133476,
      "auxiliary_loss_mlp": 0.00887461,
      "balance_loss_clip": 1.04152846,
      "balance_loss_mlp": 1.00061882,
      "epoch": 0.8175314134551794,
      "flos": 14064594508800.0,
      "grad_norm": 13.041756077191803,
      "language_loss": 0.74350858,
      "learning_rate": 3.3906504963208396e-07,
      "loss": 0.76371801,
      "num_input_tokens_seen": 146774240,
      "step": 6799,
      "time_per_iteration": 2.655719518661499
    },
    {
      "auxiliary_loss_clip": 0.01128682,
      "auxiliary_loss_mlp": 0.01028402,
      "balance_loss_clip": 1.04537916,
      "balance_loss_mlp": 1.02020001,
      "epoch": 0.8176516563458186,
      "flos": 22708076780160.0,
      "grad_norm": 2.134447359025465,
      "language_loss": 0.66469991,
      "learning_rate": 3.3863123613464774e-07,
      "loss": 0.68627077,
      "num_input_tokens_seen": 146793140,
      "step": 6800,
      "time_per_iteration": 2.7672061920166016
    },
    {
      "auxiliary_loss_clip": 0.0115222,
      "auxiliary_loss_mlp": 0.01026053,
      "balance_loss_clip": 1.04010129,
      "balance_loss_mlp": 1.01878762,
      "epoch": 0.8177718992364577,
      "flos": 21945406279680.0,
      "grad_norm": 2.534448745015747,
      "language_loss": 0.74854481,
      "learning_rate": 3.381976746655317e-07,
      "loss": 0.77032751,
      "num_input_tokens_seen": 146812895,
      "step": 6801,
      "time_per_iteration": 2.6312484741210938
    },
    {
      "auxiliary_loss_clip": 0.01130869,
      "auxiliary_loss_mlp": 0.01024695,
      "balance_loss_clip": 1.0472188,
      "balance_loss_mlp": 1.01710117,
      "epoch": 0.8178921421270967,
      "flos": 22017443005440.0,
      "grad_norm": 2.5137434124346303,
      "language_loss": 0.67523026,
      "learning_rate": 3.3776436529050756e-07,
      "loss": 0.69678593,
      "num_input_tokens_seen": 146832445,
      "step": 6802,
      "time_per_iteration": 2.768019199371338
    },
    {
      "auxiliary_loss_clip": 0.01170467,
      "auxiliary_loss_mlp": 0.01028133,
      "balance_loss_clip": 1.04782748,
      "balance_loss_mlp": 1.01989579,
      "epoch": 0.8180123850177359,
      "flos": 33183111496320.0,
      "grad_norm": 1.6755365381859646,
      "language_loss": 0.72648531,
      "learning_rate": 3.373313080753073e-07,
      "loss": 0.74847132,
      "num_input_tokens_seen": 146856505,
      "step": 6803,
      "time_per_iteration": 2.696876287460327
    },
    {
      "auxiliary_loss_clip": 0.01155324,
      "auxiliary_loss_mlp": 0.01024982,
      "balance_loss_clip": 1.04375792,
      "balance_loss_mlp": 1.01746857,
      "epoch": 0.8181326279083749,
      "flos": 22091167670400.0,
      "grad_norm": 1.59548560150553,
      "language_loss": 0.77542973,
      "learning_rate": 3.3689850308562527e-07,
      "loss": 0.79723287,
      "num_input_tokens_seen": 146876950,
      "step": 6804,
      "time_per_iteration": 2.664541244506836
    },
    {
      "auxiliary_loss_clip": 0.01123186,
      "auxiliary_loss_mlp": 0.01028441,
      "balance_loss_clip": 1.04313374,
      "balance_loss_mlp": 1.0213306,
      "epoch": 0.818252870799014,
      "flos": 15705747936000.0,
      "grad_norm": 3.173096401293085,
      "language_loss": 0.78084707,
      "learning_rate": 3.364659503871183e-07,
      "loss": 0.8023634,
      "num_input_tokens_seen": 146894885,
      "step": 6805,
      "time_per_iteration": 2.753676414489746
    },
    {
      "auxiliary_loss_clip": 0.01136994,
      "auxiliary_loss_mlp": 0.01023473,
      "balance_loss_clip": 1.03951466,
      "balance_loss_mlp": 1.01629329,
      "epoch": 0.8183731136896532,
      "flos": 18770687637120.0,
      "grad_norm": 1.8625219756783598,
      "language_loss": 0.83953518,
      "learning_rate": 3.3603365004540417e-07,
      "loss": 0.86113989,
      "num_input_tokens_seen": 146913180,
      "step": 6806,
      "time_per_iteration": 2.7190704345703125
    },
    {
      "auxiliary_loss_clip": 0.01172228,
      "auxiliary_loss_mlp": 0.01022017,
      "balance_loss_clip": 1.05007041,
      "balance_loss_mlp": 1.01430392,
      "epoch": 0.8184933565802922,
      "flos": 26541792293760.0,
      "grad_norm": 2.4224306424514843,
      "language_loss": 0.76888591,
      "learning_rate": 3.356016021260624e-07,
      "loss": 0.79082835,
      "num_input_tokens_seen": 146933510,
      "step": 6807,
      "time_per_iteration": 3.5889108180999756
    },
    {
      "auxiliary_loss_clip": 0.01161036,
      "auxiliary_loss_mlp": 0.01024682,
      "balance_loss_clip": 1.04740393,
      "balance_loss_mlp": 1.01669478,
      "epoch": 0.8186135994709313,
      "flos": 17530117660800.0,
      "grad_norm": 4.27355326527788,
      "language_loss": 0.65691507,
      "learning_rate": 3.35169806694634e-07,
      "loss": 0.67877233,
      "num_input_tokens_seen": 146951760,
      "step": 6808,
      "time_per_iteration": 2.604050636291504
    },
    {
      "auxiliary_loss_clip": 0.01044707,
      "auxiliary_loss_mlp": 0.01004324,
      "balance_loss_clip": 1.00759459,
      "balance_loss_mlp": 1.00337589,
      "epoch": 0.8187338423615703,
      "flos": 63480300675840.0,
      "grad_norm": 0.7313193987954846,
      "language_loss": 0.60626137,
      "learning_rate": 3.3473826381662186e-07,
      "loss": 0.62675166,
      "num_input_tokens_seen": 147022900,
      "step": 6809,
      "time_per_iteration": 4.4056572914123535
    },
    {
      "auxiliary_loss_clip": 0.01155601,
      "auxiliary_loss_mlp": 0.01027058,
      "balance_loss_clip": 1.04552484,
      "balance_loss_mlp": 1.01989651,
      "epoch": 0.8188540852522095,
      "flos": 17529974006400.0,
      "grad_norm": 2.017884868394563,
      "language_loss": 0.81849086,
      "learning_rate": 3.3430697355749216e-07,
      "loss": 0.84031749,
      "num_input_tokens_seen": 147040590,
      "step": 6810,
      "time_per_iteration": 2.6284923553466797
    },
    {
      "auxiliary_loss_clip": 0.01125621,
      "auxiliary_loss_mlp": 0.01022606,
      "balance_loss_clip": 1.04042196,
      "balance_loss_mlp": 1.01487505,
      "epoch": 0.8189743281428485,
      "flos": 14392530702720.0,
      "grad_norm": 2.271857776781478,
      "language_loss": 0.75404739,
      "learning_rate": 3.3387593598266907e-07,
      "loss": 0.77552962,
      "num_input_tokens_seen": 147057200,
      "step": 6811,
      "time_per_iteration": 3.600950002670288
    },
    {
      "auxiliary_loss_clip": 0.01135151,
      "auxiliary_loss_mlp": 0.01028987,
      "balance_loss_clip": 1.04034781,
      "balance_loss_mlp": 1.02085078,
      "epoch": 0.8190945710334876,
      "flos": 25080479285760.0,
      "grad_norm": 1.7491709215374238,
      "language_loss": 0.78309631,
      "learning_rate": 3.3344515115754225e-07,
      "loss": 0.80473769,
      "num_input_tokens_seen": 147076180,
      "step": 6812,
      "time_per_iteration": 2.7363548278808594
    },
    {
      "auxiliary_loss_clip": 0.0114703,
      "auxiliary_loss_mlp": 0.01030688,
      "balance_loss_clip": 1.04269433,
      "balance_loss_mlp": 1.02303505,
      "epoch": 0.8192148139241268,
      "flos": 21507152440320.0,
      "grad_norm": 2.1340163357832744,
      "language_loss": 0.80100667,
      "learning_rate": 3.33014619147461e-07,
      "loss": 0.82278383,
      "num_input_tokens_seen": 147094205,
      "step": 6813,
      "time_per_iteration": 2.687868118286133
    },
    {
      "auxiliary_loss_clip": 0.01152477,
      "auxiliary_loss_mlp": 0.01025956,
      "balance_loss_clip": 1.04758358,
      "balance_loss_mlp": 1.01855564,
      "epoch": 0.8193350568147658,
      "flos": 23952166289280.0,
      "grad_norm": 1.7464586297866498,
      "language_loss": 0.71397609,
      "learning_rate": 3.325843400177362e-07,
      "loss": 0.73576045,
      "num_input_tokens_seen": 147115545,
      "step": 6814,
      "time_per_iteration": 2.7074928283691406
    },
    {
      "auxiliary_loss_clip": 0.0116412,
      "auxiliary_loss_mlp": 0.00887182,
      "balance_loss_clip": 1.04574585,
      "balance_loss_mlp": 1.00066304,
      "epoch": 0.8194552997054049,
      "flos": 20559469962240.0,
      "grad_norm": 2.0096168168354254,
      "language_loss": 0.73887324,
      "learning_rate": 3.32154313833642e-07,
      "loss": 0.75938624,
      "num_input_tokens_seen": 147135700,
      "step": 6815,
      "time_per_iteration": 2.637820243835449
    },
    {
      "auxiliary_loss_clip": 0.01171978,
      "auxiliary_loss_mlp": 0.01024043,
      "balance_loss_clip": 1.04722691,
      "balance_loss_mlp": 1.01576352,
      "epoch": 0.819575542596044,
      "flos": 26031753123840.0,
      "grad_norm": 2.8744776676360324,
      "language_loss": 0.59409904,
      "learning_rate": 3.3172454066041164e-07,
      "loss": 0.61605924,
      "num_input_tokens_seen": 147155205,
      "step": 6816,
      "time_per_iteration": 2.567592144012451
    },
    {
      "auxiliary_loss_clip": 0.01121373,
      "auxiliary_loss_mlp": 0.00885561,
      "balance_loss_clip": 1.04223084,
      "balance_loss_mlp": 1.00050199,
      "epoch": 0.8196957854866831,
      "flos": 29096944220160.0,
      "grad_norm": 2.8206428176200418,
      "language_loss": 0.76133847,
      "learning_rate": 3.3129502056324234e-07,
      "loss": 0.78140783,
      "num_input_tokens_seen": 147176570,
      "step": 6817,
      "time_per_iteration": 2.8141791820526123
    },
    {
      "auxiliary_loss_clip": 0.01032357,
      "auxiliary_loss_mlp": 0.01000337,
      "balance_loss_clip": 1.01262522,
      "balance_loss_mlp": 0.99938929,
      "epoch": 0.8198160283773221,
      "flos": 69033631898880.0,
      "grad_norm": 0.7896702012917559,
      "language_loss": 0.59739745,
      "learning_rate": 3.3086575360729165e-07,
      "loss": 0.61772442,
      "num_input_tokens_seen": 147234105,
      "step": 6818,
      "time_per_iteration": 3.3379461765289307
    },
    {
      "auxiliary_loss_clip": 0.01150948,
      "auxiliary_loss_mlp": 0.01028795,
      "balance_loss_clip": 1.04595876,
      "balance_loss_mlp": 1.02107656,
      "epoch": 0.8199362712679613,
      "flos": 16618058496000.0,
      "grad_norm": 1.8072009514051397,
      "language_loss": 0.71318573,
      "learning_rate": 3.3043673985767906e-07,
      "loss": 0.73498321,
      "num_input_tokens_seen": 147253170,
      "step": 6819,
      "time_per_iteration": 3.897815704345703
    },
    {
      "auxiliary_loss_clip": 0.01130598,
      "auxiliary_loss_mlp": 0.01028257,
      "balance_loss_clip": 1.03969479,
      "balance_loss_mlp": 1.0203476,
      "epoch": 0.8200565141586004,
      "flos": 21757664868480.0,
      "grad_norm": 1.7541120593439108,
      "language_loss": 0.77940536,
      "learning_rate": 3.3000797937948564e-07,
      "loss": 0.80099398,
      "num_input_tokens_seen": 147271465,
      "step": 6820,
      "time_per_iteration": 2.75105881690979
    },
    {
      "auxiliary_loss_clip": 0.0104673,
      "auxiliary_loss_mlp": 0.01001299,
      "balance_loss_clip": 1.00870824,
      "balance_loss_mlp": 1.00033307,
      "epoch": 0.8201767570492394,
      "flos": 69807112392960.0,
      "grad_norm": 0.9381160397095807,
      "language_loss": 0.64998579,
      "learning_rate": 3.295794722377534e-07,
      "loss": 0.67046607,
      "num_input_tokens_seen": 147335070,
      "step": 6821,
      "time_per_iteration": 3.2911055088043213
    },
    {
      "auxiliary_loss_clip": 0.01168561,
      "auxiliary_loss_mlp": 0.01028726,
      "balance_loss_clip": 1.0462482,
      "balance_loss_mlp": 1.02105534,
      "epoch": 0.8202969999398786,
      "flos": 23111892455040.0,
      "grad_norm": 2.033214881724732,
      "language_loss": 0.80076057,
      "learning_rate": 3.291512184974876e-07,
      "loss": 0.8227334,
      "num_input_tokens_seen": 147355460,
      "step": 6822,
      "time_per_iteration": 2.6690781116485596
    },
    {
      "auxiliary_loss_clip": 0.01146358,
      "auxiliary_loss_mlp": 0.01026103,
      "balance_loss_clip": 1.03962672,
      "balance_loss_mlp": 1.01838744,
      "epoch": 0.8204172428305176,
      "flos": 28220616109440.0,
      "grad_norm": 1.7995522378243727,
      "language_loss": 0.66756207,
      "learning_rate": 3.2872321822365346e-07,
      "loss": 0.68928665,
      "num_input_tokens_seen": 147375675,
      "step": 6823,
      "time_per_iteration": 2.7632577419281006
    },
    {
      "auxiliary_loss_clip": 0.01159893,
      "auxiliary_loss_mlp": 0.01022807,
      "balance_loss_clip": 1.04702234,
      "balance_loss_mlp": 1.0155592,
      "epoch": 0.8205374857211567,
      "flos": 20887011106560.0,
      "grad_norm": 3.1081779082901044,
      "language_loss": 0.73298895,
      "learning_rate": 3.282954714811783e-07,
      "loss": 0.75481606,
      "num_input_tokens_seen": 147394580,
      "step": 6824,
      "time_per_iteration": 2.6527252197265625
    },
    {
      "auxiliary_loss_clip": 0.01137411,
      "auxiliary_loss_mlp": 0.01027934,
      "balance_loss_clip": 1.03967285,
      "balance_loss_mlp": 1.02010822,
      "epoch": 0.8206577286117959,
      "flos": 13152140294400.0,
      "grad_norm": 2.068301647425963,
      "language_loss": 0.70882028,
      "learning_rate": 3.2786797833495093e-07,
      "loss": 0.73047376,
      "num_input_tokens_seen": 147409935,
      "step": 6825,
      "time_per_iteration": 2.626325845718384
    },
    {
      "auxiliary_loss_clip": 0.01170219,
      "auxiliary_loss_mlp": 0.01028399,
      "balance_loss_clip": 1.04762959,
      "balance_loss_mlp": 1.02107096,
      "epoch": 0.8207779715024349,
      "flos": 25265634917760.0,
      "grad_norm": 1.94916161856925,
      "language_loss": 0.72671771,
      "learning_rate": 3.274407388498213e-07,
      "loss": 0.74870396,
      "num_input_tokens_seen": 147428065,
      "step": 6826,
      "time_per_iteration": 2.669706106185913
    },
    {
      "auxiliary_loss_clip": 0.01136428,
      "auxiliary_loss_mlp": 0.01026472,
      "balance_loss_clip": 1.04096031,
      "balance_loss_mlp": 1.01862836,
      "epoch": 0.820898214393074,
      "flos": 19610243199360.0,
      "grad_norm": 3.1739168531607684,
      "language_loss": 0.74447823,
      "learning_rate": 3.270137530906021e-07,
      "loss": 0.7661072,
      "num_input_tokens_seen": 147447300,
      "step": 6827,
      "time_per_iteration": 2.683042287826538
    },
    {
      "auxiliary_loss_clip": 0.01123528,
      "auxiliary_loss_mlp": 0.01020681,
      "balance_loss_clip": 1.04393303,
      "balance_loss_mlp": 1.01335597,
      "epoch": 0.8210184572837131,
      "flos": 15596615439360.0,
      "grad_norm": 1.868722708906841,
      "language_loss": 0.83456886,
      "learning_rate": 3.265870211220665e-07,
      "loss": 0.85601097,
      "num_input_tokens_seen": 147465135,
      "step": 6828,
      "time_per_iteration": 2.767613649368286
    },
    {
      "auxiliary_loss_clip": 0.0113743,
      "auxiliary_loss_mlp": 0.01031555,
      "balance_loss_clip": 1.04336095,
      "balance_loss_mlp": 1.0233115,
      "epoch": 0.8211387001743522,
      "flos": 20813932886400.0,
      "grad_norm": 1.9188990465942684,
      "language_loss": 0.81301314,
      "learning_rate": 3.2616054300894934e-07,
      "loss": 0.83470297,
      "num_input_tokens_seen": 147484585,
      "step": 6829,
      "time_per_iteration": 2.6753768920898438
    },
    {
      "auxiliary_loss_clip": 0.01138887,
      "auxiliary_loss_mlp": 0.01029859,
      "balance_loss_clip": 1.04153633,
      "balance_loss_mlp": 1.02193713,
      "epoch": 0.8212589430649913,
      "flos": 27704579368320.0,
      "grad_norm": 2.4161415005348092,
      "language_loss": 0.84185684,
      "learning_rate": 3.2573431881594693e-07,
      "loss": 0.86354423,
      "num_input_tokens_seen": 147504130,
      "step": 6830,
      "time_per_iteration": 2.730090379714966
    },
    {
      "auxiliary_loss_clip": 0.01117304,
      "auxiliary_loss_mlp": 0.01023069,
      "balance_loss_clip": 1.0371201,
      "balance_loss_mlp": 1.0157553,
      "epoch": 0.8213791859556304,
      "flos": 22455625017600.0,
      "grad_norm": 2.5007762934622666,
      "language_loss": 0.65711343,
      "learning_rate": 3.2530834860771663e-07,
      "loss": 0.67851716,
      "num_input_tokens_seen": 147523510,
      "step": 6831,
      "time_per_iteration": 2.872140645980835
    },
    {
      "auxiliary_loss_clip": 0.01162637,
      "auxiliary_loss_mlp": 0.01031304,
      "balance_loss_clip": 1.04738402,
      "balance_loss_mlp": 1.02327526,
      "epoch": 0.8214994288462695,
      "flos": 16654471908480.0,
      "grad_norm": 2.036586743793264,
      "language_loss": 0.74260741,
      "learning_rate": 3.248826324488794e-07,
      "loss": 0.76454681,
      "num_input_tokens_seen": 147540805,
      "step": 6832,
      "time_per_iteration": 3.5931246280670166
    },
    {
      "auxiliary_loss_clip": 0.01172712,
      "auxiliary_loss_mlp": 0.0102882,
      "balance_loss_clip": 1.05128288,
      "balance_loss_mlp": 1.02114916,
      "epoch": 0.8216196717369085,
      "flos": 25221787390080.0,
      "grad_norm": 2.0486044108083146,
      "language_loss": 0.88018858,
      "learning_rate": 3.244571704040138e-07,
      "loss": 0.90220386,
      "num_input_tokens_seen": 147560965,
      "step": 6833,
      "time_per_iteration": 2.671630859375
    },
    {
      "auxiliary_loss_clip": 0.01156746,
      "auxiliary_loss_mlp": 0.01027185,
      "balance_loss_clip": 1.0434382,
      "balance_loss_mlp": 1.01943064,
      "epoch": 0.8217399146275477,
      "flos": 25371930240000.0,
      "grad_norm": 1.8590964932607723,
      "language_loss": 0.7407977,
      "learning_rate": 3.2403196253766374e-07,
      "loss": 0.76263702,
      "num_input_tokens_seen": 147580045,
      "step": 6834,
      "time_per_iteration": 3.7138452529907227
    },
    {
      "auxiliary_loss_clip": 0.01160792,
      "auxiliary_loss_mlp": 0.0102975,
      "balance_loss_clip": 1.04679453,
      "balance_loss_mlp": 1.02147138,
      "epoch": 0.8218601575181868,
      "flos": 25629625388160.0,
      "grad_norm": 3.003074122311925,
      "language_loss": 0.7953496,
      "learning_rate": 3.2360700891433254e-07,
      "loss": 0.81725508,
      "num_input_tokens_seen": 147599070,
      "step": 6835,
      "time_per_iteration": 2.643071174621582
    },
    {
      "auxiliary_loss_clip": 0.01041252,
      "auxiliary_loss_mlp": 0.01002115,
      "balance_loss_clip": 1.00965953,
      "balance_loss_mlp": 1.000965,
      "epoch": 0.8219804004088258,
      "flos": 67660229427840.0,
      "grad_norm": 0.794589205528385,
      "language_loss": 0.57279062,
      "learning_rate": 3.231823095984847e-07,
      "loss": 0.59322429,
      "num_input_tokens_seen": 147653710,
      "step": 6836,
      "time_per_iteration": 4.090702533721924
    },
    {
      "auxiliary_loss_clip": 0.01150199,
      "auxiliary_loss_mlp": 0.01023884,
      "balance_loss_clip": 1.04497957,
      "balance_loss_mlp": 1.0161469,
      "epoch": 0.822100643299465,
      "flos": 19464266327040.0,
      "grad_norm": 2.1251526704124815,
      "language_loss": 0.75830197,
      "learning_rate": 3.2275786465454814e-07,
      "loss": 0.78004283,
      "num_input_tokens_seen": 147670360,
      "step": 6837,
      "time_per_iteration": 2.688108205795288
    },
    {
      "auxiliary_loss_clip": 0.01139847,
      "auxiliary_loss_mlp": 0.01024692,
      "balance_loss_clip": 1.04257846,
      "balance_loss_mlp": 1.01763737,
      "epoch": 0.822220886190104,
      "flos": 24681368292480.0,
      "grad_norm": 2.619322807531883,
      "language_loss": 0.75923234,
      "learning_rate": 3.2233367414690917e-07,
      "loss": 0.78087783,
      "num_input_tokens_seen": 147692550,
      "step": 6838,
      "time_per_iteration": 2.765449047088623
    },
    {
      "auxiliary_loss_clip": 0.01135861,
      "auxiliary_loss_mlp": 0.01024696,
      "balance_loss_clip": 1.03901064,
      "balance_loss_mlp": 1.01760352,
      "epoch": 0.8223411290807431,
      "flos": 27819062991360.0,
      "grad_norm": 2.1434115915600387,
      "language_loss": 0.84795433,
      "learning_rate": 3.219097381399183e-07,
      "loss": 0.86955994,
      "num_input_tokens_seen": 147709725,
      "step": 6839,
      "time_per_iteration": 2.791687250137329
    },
    {
      "auxiliary_loss_clip": 0.01159361,
      "auxiliary_loss_mlp": 0.01028131,
      "balance_loss_clip": 1.04637969,
      "balance_loss_mlp": 1.02071929,
      "epoch": 0.8224613719713821,
      "flos": 23218546913280.0,
      "grad_norm": 1.9555503386402906,
      "language_loss": 0.81177181,
      "learning_rate": 3.2148605669788584e-07,
      "loss": 0.83364671,
      "num_input_tokens_seen": 147729615,
      "step": 6840,
      "time_per_iteration": 2.671119451522827
    },
    {
      "auxiliary_loss_clip": 0.01153339,
      "auxiliary_loss_mlp": 0.01028725,
      "balance_loss_clip": 1.04648721,
      "balance_loss_mlp": 1.02081537,
      "epoch": 0.8225816148620213,
      "flos": 15706250726400.0,
      "grad_norm": 3.6046796145061064,
      "language_loss": 0.7709102,
      "learning_rate": 3.2106262988508405e-07,
      "loss": 0.79273081,
      "num_input_tokens_seen": 147747665,
      "step": 6841,
      "time_per_iteration": 2.7662837505340576
    },
    {
      "auxiliary_loss_clip": 0.011527,
      "auxiliary_loss_mlp": 0.01028199,
      "balance_loss_clip": 1.04567337,
      "balance_loss_mlp": 1.01964617,
      "epoch": 0.8227018577526604,
      "flos": 18515111391360.0,
      "grad_norm": 1.9290550906555826,
      "language_loss": 0.74295807,
      "learning_rate": 3.206394577657465e-07,
      "loss": 0.76476705,
      "num_input_tokens_seen": 147765445,
      "step": 6842,
      "time_per_iteration": 2.651320219039917
    },
    {
      "auxiliary_loss_clip": 0.01166281,
      "auxiliary_loss_mlp": 0.01027065,
      "balance_loss_clip": 1.04731154,
      "balance_loss_mlp": 1.01832104,
      "epoch": 0.8228221006432994,
      "flos": 22236785406720.0,
      "grad_norm": 2.255651988333447,
      "language_loss": 0.72883874,
      "learning_rate": 3.202165404040675e-07,
      "loss": 0.75077224,
      "num_input_tokens_seen": 147783365,
      "step": 6843,
      "time_per_iteration": 2.7095251083374023
    },
    {
      "auxiliary_loss_clip": 0.01119886,
      "auxiliary_loss_mlp": 0.01033954,
      "balance_loss_clip": 1.0402379,
      "balance_loss_mlp": 1.02596653,
      "epoch": 0.8229423435339386,
      "flos": 24097532630400.0,
      "grad_norm": 2.4022316837746187,
      "language_loss": 0.74547124,
      "learning_rate": 3.1979387786420396e-07,
      "loss": 0.76700962,
      "num_input_tokens_seen": 147803605,
      "step": 6844,
      "time_per_iteration": 3.60050368309021
    },
    {
      "auxiliary_loss_clip": 0.01150137,
      "auxiliary_loss_mlp": 0.01028475,
      "balance_loss_clip": 1.04038668,
      "balance_loss_mlp": 1.02148294,
      "epoch": 0.8230625864245776,
      "flos": 23878549365120.0,
      "grad_norm": 1.8193133688545475,
      "language_loss": 0.81828713,
      "learning_rate": 3.1937147021027346e-07,
      "loss": 0.84007323,
      "num_input_tokens_seen": 147822060,
      "step": 6845,
      "time_per_iteration": 2.721696138381958
    },
    {
      "auxiliary_loss_clip": 0.01159945,
      "auxiliary_loss_mlp": 0.01022535,
      "balance_loss_clip": 1.04658687,
      "balance_loss_mlp": 1.01551652,
      "epoch": 0.8231828293152167,
      "flos": 16581106379520.0,
      "grad_norm": 2.7756449258775566,
      "language_loss": 0.76401198,
      "learning_rate": 3.189493175063547e-07,
      "loss": 0.78583676,
      "num_input_tokens_seen": 147839295,
      "step": 6846,
      "time_per_iteration": 2.697415590286255
    },
    {
      "auxiliary_loss_clip": 0.01153793,
      "auxiliary_loss_mlp": 0.01028503,
      "balance_loss_clip": 1.04614747,
      "balance_loss_mlp": 1.0207361,
      "epoch": 0.8233030722058559,
      "flos": 18880071528960.0,
      "grad_norm": 1.8353385866831842,
      "language_loss": 0.67245936,
      "learning_rate": 3.1852741981648776e-07,
      "loss": 0.69428229,
      "num_input_tokens_seen": 147857945,
      "step": 6847,
      "time_per_iteration": 2.640432357788086
    },
    {
      "auxiliary_loss_clip": 0.01130672,
      "auxiliary_loss_mlp": 0.01023916,
      "balance_loss_clip": 1.04249167,
      "balance_loss_mlp": 1.01583934,
      "epoch": 0.8234233150964949,
      "flos": 28439024757120.0,
      "grad_norm": 1.8726836070378858,
      "language_loss": 0.69886559,
      "learning_rate": 3.1810577720467404e-07,
      "loss": 0.72041142,
      "num_input_tokens_seen": 147879675,
      "step": 6848,
      "time_per_iteration": 2.818955659866333
    },
    {
      "auxiliary_loss_clip": 0.01154095,
      "auxiliary_loss_mlp": 0.01028905,
      "balance_loss_clip": 1.04536033,
      "balance_loss_mlp": 1.02107251,
      "epoch": 0.823543557987134,
      "flos": 33765941577600.0,
      "grad_norm": 1.585133906569333,
      "language_loss": 0.56822062,
      "learning_rate": 3.176843897348769e-07,
      "loss": 0.59005058,
      "num_input_tokens_seen": 147902870,
      "step": 6849,
      "time_per_iteration": 2.7332346439361572
    },
    {
      "auxiliary_loss_clip": 0.01148801,
      "auxiliary_loss_mlp": 0.01028397,
      "balance_loss_clip": 1.0456953,
      "balance_loss_mlp": 1.02025461,
      "epoch": 0.8236638008777731,
      "flos": 17092366611840.0,
      "grad_norm": 4.722985792726304,
      "language_loss": 0.75508809,
      "learning_rate": 3.1726325747102034e-07,
      "loss": 0.77686006,
      "num_input_tokens_seen": 147921245,
      "step": 6850,
      "time_per_iteration": 2.65403151512146
    },
    {
      "auxiliary_loss_clip": 0.01120941,
      "auxiliary_loss_mlp": 0.01025965,
      "balance_loss_clip": 1.03442776,
      "balance_loss_mlp": 1.01767445,
      "epoch": 0.8237840437684122,
      "flos": 61639982334720.0,
      "grad_norm": 1.5525793363954148,
      "language_loss": 0.6414302,
      "learning_rate": 3.1684238047698974e-07,
      "loss": 0.66289926,
      "num_input_tokens_seen": 147949515,
      "step": 6851,
      "time_per_iteration": 3.0802814960479736
    },
    {
      "auxiliary_loss_clip": 0.0115645,
      "auxiliary_loss_mlp": 0.01029469,
      "balance_loss_clip": 1.04568863,
      "balance_loss_mlp": 1.02161956,
      "epoch": 0.8239042866590512,
      "flos": 27309023821440.0,
      "grad_norm": 1.8460919755150726,
      "language_loss": 0.5337019,
      "learning_rate": 3.1642175881663155e-07,
      "loss": 0.55556107,
      "num_input_tokens_seen": 147969245,
      "step": 6852,
      "time_per_iteration": 2.7701356410980225
    },
    {
      "auxiliary_loss_clip": 0.01169312,
      "auxiliary_loss_mlp": 0.0102751,
      "balance_loss_clip": 1.0471034,
      "balance_loss_mlp": 1.02023816,
      "epoch": 0.8240245295496904,
      "flos": 21726351187200.0,
      "grad_norm": 2.0495650603321125,
      "language_loss": 0.83889711,
      "learning_rate": 3.160013925537537e-07,
      "loss": 0.86086535,
      "num_input_tokens_seen": 147990080,
      "step": 6853,
      "time_per_iteration": 2.611154317855835
    },
    {
      "auxiliary_loss_clip": 0.01145828,
      "auxiliary_loss_mlp": 0.01028752,
      "balance_loss_clip": 1.04427528,
      "balance_loss_mlp": 1.02108657,
      "epoch": 0.8241447724403295,
      "flos": 20009318279040.0,
      "grad_norm": 2.3734456148120486,
      "language_loss": 0.75632757,
      "learning_rate": 3.155812817521266e-07,
      "loss": 0.77807331,
      "num_input_tokens_seen": 148010455,
      "step": 6854,
      "time_per_iteration": 2.6756062507629395
    },
    {
      "auxiliary_loss_clip": 0.01155389,
      "auxiliary_loss_mlp": 0.01023516,
      "balance_loss_clip": 1.04744291,
      "balance_loss_mlp": 1.01601195,
      "epoch": 0.8242650153309685,
      "flos": 22272983337600.0,
      "grad_norm": 2.0585761699600753,
      "language_loss": 0.78061128,
      "learning_rate": 3.151614264754787e-07,
      "loss": 0.80240035,
      "num_input_tokens_seen": 148028400,
      "step": 6855,
      "time_per_iteration": 2.6537024974823
    },
    {
      "auxiliary_loss_clip": 0.0117049,
      "auxiliary_loss_mlp": 0.01024952,
      "balance_loss_clip": 1.04592693,
      "balance_loss_mlp": 1.01734018,
      "epoch": 0.8243852582216077,
      "flos": 22309971367680.0,
      "grad_norm": 2.0349458758550725,
      "language_loss": 0.79227662,
      "learning_rate": 3.147418267875035e-07,
      "loss": 0.81423104,
      "num_input_tokens_seen": 148046530,
      "step": 6856,
      "time_per_iteration": 2.647956132888794
    },
    {
      "auxiliary_loss_clip": 0.01116783,
      "auxiliary_loss_mlp": 0.00886681,
      "balance_loss_clip": 1.03629827,
      "balance_loss_mlp": 1.00059605,
      "epoch": 0.8245055011122467,
      "flos": 24645421756800.0,
      "grad_norm": 2.090628535527352,
      "language_loss": 0.6597541,
      "learning_rate": 3.1432248275185315e-07,
      "loss": 0.67978871,
      "num_input_tokens_seen": 148067040,
      "step": 6857,
      "time_per_iteration": 2.8115007877349854
    },
    {
      "auxiliary_loss_clip": 0.0116002,
      "auxiliary_loss_mlp": 0.01030806,
      "balance_loss_clip": 1.04719281,
      "balance_loss_mlp": 1.02293789,
      "epoch": 0.8246257440028858,
      "flos": 17487275713920.0,
      "grad_norm": 2.980118360885646,
      "language_loss": 0.76989222,
      "learning_rate": 3.139033944321412e-07,
      "loss": 0.7918005,
      "num_input_tokens_seen": 148084400,
      "step": 6858,
      "time_per_iteration": 2.5983097553253174
    },
    {
      "auxiliary_loss_clip": 0.01161989,
      "auxiliary_loss_mlp": 0.01029561,
      "balance_loss_clip": 1.04408598,
      "balance_loss_mlp": 1.02187228,
      "epoch": 0.824745986893525,
      "flos": 25010130499200.0,
      "grad_norm": 2.106503636998245,
      "language_loss": 0.7892856,
      "learning_rate": 3.1348456189194507e-07,
      "loss": 0.81120116,
      "num_input_tokens_seen": 148104860,
      "step": 6859,
      "time_per_iteration": 3.8986008167266846
    },
    {
      "auxiliary_loss_clip": 0.01132276,
      "auxiliary_loss_mlp": 0.01024248,
      "balance_loss_clip": 1.04004288,
      "balance_loss_mlp": 1.0169971,
      "epoch": 0.824866229784164,
      "flos": 18772698798720.0,
      "grad_norm": 1.8406062341844762,
      "language_loss": 0.82812548,
      "learning_rate": 3.1306598519479876e-07,
      "loss": 0.84969074,
      "num_input_tokens_seen": 148124680,
      "step": 6860,
      "time_per_iteration": 3.788024663925171
    },
    {
      "auxiliary_loss_clip": 0.01150634,
      "auxiliary_loss_mlp": 0.01030102,
      "balance_loss_clip": 1.04615307,
      "balance_loss_mlp": 1.02279437,
      "epoch": 0.8249864726748031,
      "flos": 23842171866240.0,
      "grad_norm": 1.9207713026988673,
      "language_loss": 0.78462815,
      "learning_rate": 3.1264766440420177e-07,
      "loss": 0.80643553,
      "num_input_tokens_seen": 148147150,
      "step": 6861,
      "time_per_iteration": 2.7061893939971924
    },
    {
      "auxiliary_loss_clip": 0.01156888,
      "auxiliary_loss_mlp": 0.01029313,
      "balance_loss_clip": 1.04581678,
      "balance_loss_mlp": 1.02221739,
      "epoch": 0.8251067155654422,
      "flos": 20303103617280.0,
      "grad_norm": 2.015377144527973,
      "language_loss": 0.68864119,
      "learning_rate": 3.122295995836124e-07,
      "loss": 0.71050322,
      "num_input_tokens_seen": 148167020,
      "step": 6862,
      "time_per_iteration": 3.4734556674957275
    },
    {
      "auxiliary_loss_clip": 0.01160715,
      "auxiliary_loss_mlp": 0.01021331,
      "balance_loss_clip": 1.04205298,
      "balance_loss_mlp": 1.01347566,
      "epoch": 0.8252269584560813,
      "flos": 25009699536000.0,
      "grad_norm": 1.9511991080068452,
      "language_loss": 0.77311754,
      "learning_rate": 3.118117907964508e-07,
      "loss": 0.79493797,
      "num_input_tokens_seen": 148188965,
      "step": 6863,
      "time_per_iteration": 2.6938538551330566
    },
    {
      "auxiliary_loss_clip": 0.01150681,
      "auxiliary_loss_mlp": 0.01029394,
      "balance_loss_clip": 1.04498434,
      "balance_loss_mlp": 1.02257228,
      "epoch": 0.8253472013467203,
      "flos": 17128564542720.0,
      "grad_norm": 2.127240631711618,
      "language_loss": 0.80374724,
      "learning_rate": 3.1139423810609856e-07,
      "loss": 0.82554799,
      "num_input_tokens_seen": 148205660,
      "step": 6864,
      "time_per_iteration": 2.748849868774414
    },
    {
      "auxiliary_loss_clip": 0.01169023,
      "auxiliary_loss_mlp": 0.01024649,
      "balance_loss_clip": 1.04540801,
      "balance_loss_mlp": 1.0171206,
      "epoch": 0.8254674442373595,
      "flos": 22414794232320.0,
      "grad_norm": 2.0397095432757117,
      "language_loss": 0.75448155,
      "learning_rate": 3.1097694157589714e-07,
      "loss": 0.77641821,
      "num_input_tokens_seen": 148225545,
      "step": 6865,
      "time_per_iteration": 2.6608288288116455
    },
    {
      "auxiliary_loss_clip": 0.01158824,
      "auxiliary_loss_mlp": 0.01030121,
      "balance_loss_clip": 1.0472275,
      "balance_loss_mlp": 1.02229798,
      "epoch": 0.8255876871279986,
      "flos": 24786765774720.0,
      "grad_norm": 7.674793848527211,
      "language_loss": 0.75975847,
      "learning_rate": 3.105599012691511e-07,
      "loss": 0.78164792,
      "num_input_tokens_seen": 148243975,
      "step": 6866,
      "time_per_iteration": 2.634760618209839
    },
    {
      "auxiliary_loss_clip": 0.0115837,
      "auxiliary_loss_mlp": 0.0102404,
      "balance_loss_clip": 1.04666197,
      "balance_loss_mlp": 1.01668525,
      "epoch": 0.8257079300186376,
      "flos": 27455431656960.0,
      "grad_norm": 1.8337524106566818,
      "language_loss": 0.82330143,
      "learning_rate": 3.101431172491249e-07,
      "loss": 0.84512556,
      "num_input_tokens_seen": 148265520,
      "step": 6867,
      "time_per_iteration": 2.709228515625
    },
    {
      "auxiliary_loss_clip": 0.01144072,
      "auxiliary_loss_mlp": 0.00886566,
      "balance_loss_clip": 1.04165769,
      "balance_loss_mlp": 1.00056958,
      "epoch": 0.8258281729092768,
      "flos": 16471866142080.0,
      "grad_norm": 2.093868870371431,
      "language_loss": 0.7198596,
      "learning_rate": 3.097265895790444e-07,
      "loss": 0.74016607,
      "num_input_tokens_seen": 148283730,
      "step": 6868,
      "time_per_iteration": 2.7203357219696045
    },
    {
      "auxiliary_loss_clip": 0.01140749,
      "auxiliary_loss_mlp": 0.01029685,
      "balance_loss_clip": 1.04226673,
      "balance_loss_mlp": 1.02210307,
      "epoch": 0.8259484157999158,
      "flos": 21433822824960.0,
      "grad_norm": 2.231241032580509,
      "language_loss": 0.83398235,
      "learning_rate": 3.093103183220962e-07,
      "loss": 0.85568666,
      "num_input_tokens_seen": 148303775,
      "step": 6869,
      "time_per_iteration": 2.7590034008026123
    },
    {
      "auxiliary_loss_clip": 0.01057695,
      "auxiliary_loss_mlp": 0.01000758,
      "balance_loss_clip": 1.00823295,
      "balance_loss_mlp": 0.99975652,
      "epoch": 0.8260686586905549,
      "flos": 58322342453760.0,
      "grad_norm": 0.8203110751738042,
      "language_loss": 0.5936507,
      "learning_rate": 3.0889430354142796e-07,
      "loss": 0.61423516,
      "num_input_tokens_seen": 148365285,
      "step": 6870,
      "time_per_iteration": 4.155937194824219
    },
    {
      "auxiliary_loss_clip": 0.01144704,
      "auxiliary_loss_mlp": 0.01025121,
      "balance_loss_clip": 1.04084587,
      "balance_loss_mlp": 1.01770616,
      "epoch": 0.826188901581194,
      "flos": 27527288814720.0,
      "grad_norm": 1.9726490087490154,
      "language_loss": 0.699651,
      "learning_rate": 3.084785453001497e-07,
      "loss": 0.72134936,
      "num_input_tokens_seen": 148386200,
      "step": 6871,
      "time_per_iteration": 2.780792474746704
    },
    {
      "auxiliary_loss_clip": 0.0115331,
      "auxiliary_loss_mlp": 0.00886824,
      "balance_loss_clip": 1.0471189,
      "balance_loss_mlp": 1.0005914,
      "epoch": 0.8263091444718331,
      "flos": 23696051339520.0,
      "grad_norm": 2.0402378790626954,
      "language_loss": 0.82096529,
      "learning_rate": 3.080630436613314e-07,
      "loss": 0.84136665,
      "num_input_tokens_seen": 148403970,
      "step": 6872,
      "time_per_iteration": 2.7544972896575928
    },
    {
      "auxiliary_loss_clip": 0.01151483,
      "auxiliary_loss_mlp": 0.01022665,
      "balance_loss_clip": 1.04236019,
      "balance_loss_mlp": 1.01513112,
      "epoch": 0.8264293873624722,
      "flos": 17165157523200.0,
      "grad_norm": 3.080331427957786,
      "language_loss": 0.85726917,
      "learning_rate": 3.076477986880039e-07,
      "loss": 0.87901062,
      "num_input_tokens_seen": 148421765,
      "step": 6873,
      "time_per_iteration": 2.731328010559082
    },
    {
      "auxiliary_loss_clip": 0.01153958,
      "auxiliary_loss_mlp": 0.01025386,
      "balance_loss_clip": 1.04705954,
      "balance_loss_mlp": 1.01781654,
      "epoch": 0.8265496302531112,
      "flos": 24098645952000.0,
      "grad_norm": 2.286759050794711,
      "language_loss": 0.69504046,
      "learning_rate": 3.0723281044315986e-07,
      "loss": 0.71683395,
      "num_input_tokens_seen": 148443720,
      "step": 6874,
      "time_per_iteration": 2.8061630725860596
    },
    {
      "auxiliary_loss_clip": 0.01164967,
      "auxiliary_loss_mlp": 0.01023297,
      "balance_loss_clip": 1.04381537,
      "balance_loss_mlp": 1.01600742,
      "epoch": 0.8266698731437504,
      "flos": 14099894599680.0,
      "grad_norm": 2.0362728240897585,
      "language_loss": 0.76645958,
      "learning_rate": 3.068180789897521e-07,
      "loss": 0.78834224,
      "num_input_tokens_seen": 148462130,
      "step": 6875,
      "time_per_iteration": 2.6172101497650146
    },
    {
      "auxiliary_loss_clip": 0.01165308,
      "auxiliary_loss_mlp": 0.01028509,
      "balance_loss_clip": 1.04650772,
      "balance_loss_mlp": 1.0207839,
      "epoch": 0.8267901160343895,
      "flos": 30777563715840.0,
      "grad_norm": 1.4640753885077848,
      "language_loss": 0.81433856,
      "learning_rate": 3.064036043906966e-07,
      "loss": 0.83627677,
      "num_input_tokens_seen": 148485570,
      "step": 6876,
      "time_per_iteration": 2.7384746074676514
    },
    {
      "auxiliary_loss_clip": 0.01149157,
      "auxiliary_loss_mlp": 0.01029505,
      "balance_loss_clip": 1.04295182,
      "balance_loss_mlp": 1.02183425,
      "epoch": 0.8269103589250285,
      "flos": 40624915242240.0,
      "grad_norm": 2.367660062133759,
      "language_loss": 0.67590004,
      "learning_rate": 3.059893867088668e-07,
      "loss": 0.69768667,
      "num_input_tokens_seen": 148509715,
      "step": 6877,
      "time_per_iteration": 2.782196521759033
    },
    {
      "auxiliary_loss_clip": 0.01159784,
      "auxiliary_loss_mlp": 0.01024388,
      "balance_loss_clip": 1.04771674,
      "balance_loss_mlp": 1.01672328,
      "epoch": 0.8270306018156677,
      "flos": 30263645877120.0,
      "grad_norm": 1.9317810553829171,
      "language_loss": 0.67035198,
      "learning_rate": 3.055754260071004e-07,
      "loss": 0.69219363,
      "num_input_tokens_seen": 148532010,
      "step": 6878,
      "time_per_iteration": 2.7703299522399902
    },
    {
      "auxiliary_loss_clip": 0.01160501,
      "auxiliary_loss_mlp": 0.01024592,
      "balance_loss_clip": 1.04569268,
      "balance_loss_mlp": 1.01713562,
      "epoch": 0.8271508447063067,
      "flos": 25226599812480.0,
      "grad_norm": 1.9169069404077284,
      "language_loss": 0.73485291,
      "learning_rate": 3.051617223481948e-07,
      "loss": 0.75670385,
      "num_input_tokens_seen": 148553330,
      "step": 6879,
      "time_per_iteration": 2.6609458923339844
    },
    {
      "auxiliary_loss_clip": 0.01154127,
      "auxiliary_loss_mlp": 0.01026676,
      "balance_loss_clip": 1.04452837,
      "balance_loss_mlp": 1.01831365,
      "epoch": 0.8272710875969458,
      "flos": 17566602900480.0,
      "grad_norm": 1.9035756709538156,
      "language_loss": 0.75149286,
      "learning_rate": 3.047482757949078e-07,
      "loss": 0.77330089,
      "num_input_tokens_seen": 148570960,
      "step": 6880,
      "time_per_iteration": 2.684300422668457
    },
    {
      "auxiliary_loss_clip": 0.0113779,
      "auxiliary_loss_mlp": 0.0088604,
      "balance_loss_clip": 1.04178536,
      "balance_loss_mlp": 1.00043273,
      "epoch": 0.827391330487585,
      "flos": 19755465886080.0,
      "grad_norm": 2.005021204862028,
      "language_loss": 0.85842472,
      "learning_rate": 3.043350864099605e-07,
      "loss": 0.87866306,
      "num_input_tokens_seen": 148589520,
      "step": 6881,
      "time_per_iteration": 2.6893398761749268
    },
    {
      "auxiliary_loss_clip": 0.01162984,
      "auxiliary_loss_mlp": 0.01027639,
      "balance_loss_clip": 1.04465294,
      "balance_loss_mlp": 1.0198667,
      "epoch": 0.827511573378224,
      "flos": 16835174254080.0,
      "grad_norm": 2.1319128210391973,
      "language_loss": 0.80814016,
      "learning_rate": 3.039221542560315e-07,
      "loss": 0.83004642,
      "num_input_tokens_seen": 148606085,
      "step": 6882,
      "time_per_iteration": 2.588552951812744
    },
    {
      "auxiliary_loss_clip": 0.01159784,
      "auxiliary_loss_mlp": 0.01025166,
      "balance_loss_clip": 1.04680073,
      "balance_loss_mlp": 1.0170002,
      "epoch": 0.8276318162688631,
      "flos": 18369242259840.0,
      "grad_norm": 2.3637098639347225,
      "language_loss": 0.73259211,
      "learning_rate": 3.0350947939576356e-07,
      "loss": 0.75444162,
      "num_input_tokens_seen": 148625240,
      "step": 6883,
      "time_per_iteration": 2.621833324432373
    },
    {
      "auxiliary_loss_clip": 0.01166262,
      "auxiliary_loss_mlp": 0.01024962,
      "balance_loss_clip": 1.04727173,
      "balance_loss_mlp": 1.01627219,
      "epoch": 0.8277520591595022,
      "flos": 19352691705600.0,
      "grad_norm": 2.037611805196151,
      "language_loss": 0.72545362,
      "learning_rate": 3.0309706189175876e-07,
      "loss": 0.74736583,
      "num_input_tokens_seen": 148645075,
      "step": 6884,
      "time_per_iteration": 2.671145439147949
    },
    {
      "auxiliary_loss_clip": 0.01053955,
      "auxiliary_loss_mlp": 0.01002102,
      "balance_loss_clip": 1.00874019,
      "balance_loss_mlp": 1.0010767,
      "epoch": 0.8278723020501413,
      "flos": 67918858329600.0,
      "grad_norm": 0.7886743262351027,
      "language_loss": 0.57344079,
      "learning_rate": 3.0268490180658045e-07,
      "loss": 0.59400129,
      "num_input_tokens_seen": 148707855,
      "step": 6885,
      "time_per_iteration": 4.129733085632324
    },
    {
      "auxiliary_loss_clip": 0.01176016,
      "auxiliary_loss_mlp": 0.01025609,
      "balance_loss_clip": 1.05075765,
      "balance_loss_mlp": 1.01791668,
      "epoch": 0.8279925449407803,
      "flos": 18185738653440.0,
      "grad_norm": 2.5454673809000075,
      "language_loss": 0.7871449,
      "learning_rate": 3.0227299920275305e-07,
      "loss": 0.80916119,
      "num_input_tokens_seen": 148724170,
      "step": 6886,
      "time_per_iteration": 2.662663698196411
    },
    {
      "auxiliary_loss_clip": 0.01146113,
      "auxiliary_loss_mlp": 0.01032784,
      "balance_loss_clip": 1.04617715,
      "balance_loss_mlp": 1.02388501,
      "epoch": 0.8281127878314195,
      "flos": 20631434860800.0,
      "grad_norm": 2.116631801374703,
      "language_loss": 0.85667062,
      "learning_rate": 3.018613541427613e-07,
      "loss": 0.87845957,
      "num_input_tokens_seen": 148743690,
      "step": 6887,
      "time_per_iteration": 3.6798272132873535
    },
    {
      "auxiliary_loss_clip": 0.01170573,
      "auxiliary_loss_mlp": 0.01024814,
      "balance_loss_clip": 1.04722285,
      "balance_loss_mlp": 1.01728582,
      "epoch": 0.8282330307220586,
      "flos": 18004282122240.0,
      "grad_norm": 1.9518863165418732,
      "language_loss": 0.73701775,
      "learning_rate": 3.0144996668905243e-07,
      "loss": 0.75897169,
      "num_input_tokens_seen": 148761070,
      "step": 6888,
      "time_per_iteration": 3.533264398574829
    },
    {
      "auxiliary_loss_clip": 0.01122149,
      "auxiliary_loss_mlp": 0.00886238,
      "balance_loss_clip": 1.03760362,
      "balance_loss_mlp": 1.00056612,
      "epoch": 0.8283532736126976,
      "flos": 20084120352000.0,
      "grad_norm": 2.063169660434949,
      "language_loss": 0.82305801,
      "learning_rate": 3.010388369040331e-07,
      "loss": 0.84314191,
      "num_input_tokens_seen": 148779730,
      "step": 6889,
      "time_per_iteration": 2.957385540008545
    },
    {
      "auxiliary_loss_clip": 0.01163863,
      "auxiliary_loss_mlp": 0.01027397,
      "balance_loss_clip": 1.0483669,
      "balance_loss_mlp": 1.01966643,
      "epoch": 0.8284735165033368,
      "flos": 31868421805440.0,
      "grad_norm": 1.8075773740703032,
      "language_loss": 0.82613546,
      "learning_rate": 3.0062796485007156e-07,
      "loss": 0.84804803,
      "num_input_tokens_seen": 148800670,
      "step": 6890,
      "time_per_iteration": 2.8878684043884277
    },
    {
      "auxiliary_loss_clip": 0.01171644,
      "auxiliary_loss_mlp": 0.00886596,
      "balance_loss_clip": 1.04829502,
      "balance_loss_mlp": 1.00057518,
      "epoch": 0.8285937593939758,
      "flos": 26651319840000.0,
      "grad_norm": 2.8453877348989733,
      "language_loss": 0.6559695,
      "learning_rate": 3.002173505894965e-07,
      "loss": 0.67655194,
      "num_input_tokens_seen": 148819820,
      "step": 6891,
      "time_per_iteration": 2.6753411293029785
    },
    {
      "auxiliary_loss_clip": 0.01164225,
      "auxiliary_loss_mlp": 0.01030855,
      "balance_loss_clip": 1.04436374,
      "balance_loss_mlp": 1.02299881,
      "epoch": 0.8287140022846149,
      "flos": 20193683811840.0,
      "grad_norm": 2.471568928652359,
      "language_loss": 0.62019444,
      "learning_rate": 2.998069941845973e-07,
      "loss": 0.64214528,
      "num_input_tokens_seen": 148838890,
      "step": 6892,
      "time_per_iteration": 2.609178066253662
    },
    {
      "auxiliary_loss_clip": 0.01063182,
      "auxiliary_loss_mlp": 0.01001381,
      "balance_loss_clip": 1.00812602,
      "balance_loss_mlp": 1.00036752,
      "epoch": 0.8288342451752541,
      "flos": 70755980019840.0,
      "grad_norm": 0.7071809870943522,
      "language_loss": 0.57468688,
      "learning_rate": 2.993968956976258e-07,
      "loss": 0.5953325,
      "num_input_tokens_seen": 148906635,
      "step": 6893,
      "time_per_iteration": 3.2878079414367676
    },
    {
      "auxiliary_loss_clip": 0.01175535,
      "auxiliary_loss_mlp": 0.01032418,
      "balance_loss_clip": 1.04758954,
      "balance_loss_mlp": 1.02340555,
      "epoch": 0.8289544880658931,
      "flos": 24572235795840.0,
      "grad_norm": 9.325218063155097,
      "language_loss": 0.70237708,
      "learning_rate": 2.9898705519079313e-07,
      "loss": 0.72445655,
      "num_input_tokens_seen": 148925740,
      "step": 6894,
      "time_per_iteration": 2.645341157913208
    },
    {
      "auxiliary_loss_clip": 0.01143939,
      "auxiliary_loss_mlp": 0.01028199,
      "balance_loss_clip": 1.04350281,
      "balance_loss_mlp": 1.02057552,
      "epoch": 0.8290747309565322,
      "flos": 22273378387200.0,
      "grad_norm": 1.7078138428571221,
      "language_loss": 0.74884129,
      "learning_rate": 2.985774727262715e-07,
      "loss": 0.77056265,
      "num_input_tokens_seen": 148944585,
      "step": 6895,
      "time_per_iteration": 2.7310101985931396
    },
    {
      "auxiliary_loss_clip": 0.01168015,
      "auxiliary_loss_mlp": 0.01026707,
      "balance_loss_clip": 1.04618907,
      "balance_loss_mlp": 1.01925635,
      "epoch": 0.8291949738471713,
      "flos": 23255570856960.0,
      "grad_norm": 3.7700152422547286,
      "language_loss": 0.81632382,
      "learning_rate": 2.981681483661949e-07,
      "loss": 0.83827102,
      "num_input_tokens_seen": 148964170,
      "step": 6896,
      "time_per_iteration": 3.5234947204589844
    },
    {
      "auxiliary_loss_clip": 0.01164809,
      "auxiliary_loss_mlp": 0.01030788,
      "balance_loss_clip": 1.04986954,
      "balance_loss_mlp": 1.02350163,
      "epoch": 0.8293152167378104,
      "flos": 52555768185600.0,
      "grad_norm": 1.6276550651467832,
      "language_loss": 0.70906723,
      "learning_rate": 2.9775908217265633e-07,
      "loss": 0.73102319,
      "num_input_tokens_seen": 148989405,
      "step": 6897,
      "time_per_iteration": 2.901681423187256
    },
    {
      "auxiliary_loss_clip": 0.01031203,
      "auxiliary_loss_mlp": 0.01003399,
      "balance_loss_clip": 1.00835729,
      "balance_loss_mlp": 1.00249338,
      "epoch": 0.8294354596284494,
      "flos": 63356156294400.0,
      "grad_norm": 0.82792756356191,
      "language_loss": 0.50325012,
      "learning_rate": 2.9735027420771253e-07,
      "loss": 0.52359605,
      "num_input_tokens_seen": 149049740,
      "step": 6898,
      "time_per_iteration": 3.2917487621307373
    },
    {
      "auxiliary_loss_clip": 0.01147996,
      "auxiliary_loss_mlp": 0.0102533,
      "balance_loss_clip": 1.04832196,
      "balance_loss_mlp": 1.01873493,
      "epoch": 0.8295557025190886,
      "flos": 24827021942400.0,
      "grad_norm": 1.8925953111418976,
      "language_loss": 0.71489078,
      "learning_rate": 2.969417245333774e-07,
      "loss": 0.73662406,
      "num_input_tokens_seen": 149069120,
      "step": 6899,
      "time_per_iteration": 2.698173761367798
    },
    {
      "auxiliary_loss_clip": 0.01138352,
      "auxiliary_loss_mlp": 0.0102993,
      "balance_loss_clip": 1.04517388,
      "balance_loss_mlp": 1.02240765,
      "epoch": 0.8296759454097277,
      "flos": 25118580637440.0,
      "grad_norm": 2.2177346595003593,
      "language_loss": 0.77799082,
      "learning_rate": 2.9653343321162915e-07,
      "loss": 0.79967368,
      "num_input_tokens_seen": 149088630,
      "step": 6900,
      "time_per_iteration": 2.792294502258301
    },
    {
      "auxiliary_loss_clip": 0.01146863,
      "auxiliary_loss_mlp": 0.01030912,
      "balance_loss_clip": 1.04810572,
      "balance_loss_mlp": 1.02314591,
      "epoch": 0.8297961883003667,
      "flos": 24132581326080.0,
      "grad_norm": 2.246674397969517,
      "language_loss": 0.64971972,
      "learning_rate": 2.9612540030440446e-07,
      "loss": 0.67149746,
      "num_input_tokens_seen": 149109175,
      "step": 6901,
      "time_per_iteration": 2.7889575958251953
    },
    {
      "auxiliary_loss_clip": 0.01051119,
      "auxiliary_loss_mlp": 0.01000505,
      "balance_loss_clip": 1.00806975,
      "balance_loss_mlp": 0.99949771,
      "epoch": 0.8299164311910058,
      "flos": 67446561375360.0,
      "grad_norm": 0.8512449248864693,
      "language_loss": 0.64085329,
      "learning_rate": 2.9571762587360206e-07,
      "loss": 0.66136956,
      "num_input_tokens_seen": 149165560,
      "step": 6902,
      "time_per_iteration": 3.1793434619903564
    },
    {
      "auxiliary_loss_clip": 0.01126387,
      "auxiliary_loss_mlp": 0.01024744,
      "balance_loss_clip": 1.03477025,
      "balance_loss_mlp": 1.01711786,
      "epoch": 0.8300366740816449,
      "flos": 25228682801280.0,
      "grad_norm": 1.5712633706623598,
      "language_loss": 0.73962271,
      "learning_rate": 2.953101099810806e-07,
      "loss": 0.76113403,
      "num_input_tokens_seen": 149185165,
      "step": 6903,
      "time_per_iteration": 2.8082990646362305
    },
    {
      "auxiliary_loss_clip": 0.01156383,
      "auxiliary_loss_mlp": 0.01028932,
      "balance_loss_clip": 1.04706609,
      "balance_loss_mlp": 1.02138638,
      "epoch": 0.830156916972284,
      "flos": 18041018757120.0,
      "grad_norm": 2.5482873833533524,
      "language_loss": 0.82759094,
      "learning_rate": 2.9490285268865965e-07,
      "loss": 0.84944409,
      "num_input_tokens_seen": 149202655,
      "step": 6904,
      "time_per_iteration": 2.593862533569336
    },
    {
      "auxiliary_loss_clip": 0.01167739,
      "auxiliary_loss_mlp": 0.01028647,
      "balance_loss_clip": 1.04923654,
      "balance_loss_mlp": 1.02069569,
      "epoch": 0.830277159862923,
      "flos": 26322485806080.0,
      "grad_norm": 6.312412944694296,
      "language_loss": 0.79691195,
      "learning_rate": 2.9449585405812085e-07,
      "loss": 0.81887579,
      "num_input_tokens_seen": 149220035,
      "step": 6905,
      "time_per_iteration": 2.7635560035705566
    },
    {
      "auxiliary_loss_clip": 0.01146379,
      "auxiliary_loss_mlp": 0.01025427,
      "balance_loss_clip": 1.04426956,
      "balance_loss_mlp": 1.01763701,
      "epoch": 0.8303974027535622,
      "flos": 19938861751680.0,
      "grad_norm": 1.7870149413467429,
      "language_loss": 0.73945904,
      "learning_rate": 2.940891141512043e-07,
      "loss": 0.76117718,
      "num_input_tokens_seen": 149238055,
      "step": 6906,
      "time_per_iteration": 2.687649965286255
    },
    {
      "auxiliary_loss_clip": 0.01150143,
      "auxiliary_loss_mlp": 0.01030396,
      "balance_loss_clip": 1.04457855,
      "balance_loss_mlp": 1.02259421,
      "epoch": 0.8305176456442013,
      "flos": 17165552572800.0,
      "grad_norm": 2.473366694986126,
      "language_loss": 0.72084761,
      "learning_rate": 2.9368263302961385e-07,
      "loss": 0.74265295,
      "num_input_tokens_seen": 149256755,
      "step": 6907,
      "time_per_iteration": 2.6680989265441895
    },
    {
      "auxiliary_loss_clip": 0.01121139,
      "auxiliary_loss_mlp": 0.01024836,
      "balance_loss_clip": 1.03770375,
      "balance_loss_mlp": 1.01645541,
      "epoch": 0.8306378885348403,
      "flos": 25627614226560.0,
      "grad_norm": 1.8144565017394603,
      "language_loss": 0.80096292,
      "learning_rate": 2.9327641075501075e-07,
      "loss": 0.82242274,
      "num_input_tokens_seen": 149275745,
      "step": 6908,
      "time_per_iteration": 2.7856781482696533
    },
    {
      "auxiliary_loss_clip": 0.01143719,
      "auxiliary_loss_mlp": 0.01031381,
      "balance_loss_clip": 1.04087877,
      "balance_loss_mlp": 1.02389145,
      "epoch": 0.8307581314254795,
      "flos": 33947864985600.0,
      "grad_norm": 3.1801485716078375,
      "language_loss": 0.66690856,
      "learning_rate": 2.9287044738901866e-07,
      "loss": 0.68865961,
      "num_input_tokens_seen": 149293730,
      "step": 6909,
      "time_per_iteration": 2.749972105026245
    },
    {
      "auxiliary_loss_clip": 0.0116205,
      "auxiliary_loss_mlp": 0.00885774,
      "balance_loss_clip": 1.04550147,
      "balance_loss_mlp": 1.00054157,
      "epoch": 0.8308783743161186,
      "flos": 17562724231680.0,
      "grad_norm": 2.0626354294213156,
      "language_loss": 0.90908718,
      "learning_rate": 2.9246474299322274e-07,
      "loss": 0.92956543,
      "num_input_tokens_seen": 149309290,
      "step": 6910,
      "time_per_iteration": 2.5978360176086426
    },
    {
      "auxiliary_loss_clip": 0.01042745,
      "auxiliary_loss_mlp": 0.01001786,
      "balance_loss_clip": 1.00838017,
      "balance_loss_mlp": 1.00081432,
      "epoch": 0.8309986172067576,
      "flos": 69412885649280.0,
      "grad_norm": 0.899674356115402,
      "language_loss": 0.63126832,
      "learning_rate": 2.920592976291678e-07,
      "loss": 0.65171361,
      "num_input_tokens_seen": 149366620,
      "step": 6911,
      "time_per_iteration": 4.2292869091033936
    },
    {
      "auxiliary_loss_clip": 0.01159191,
      "auxiliary_loss_mlp": 0.01027183,
      "balance_loss_clip": 1.04540908,
      "balance_loss_mlp": 1.01929688,
      "epoch": 0.8311188600973968,
      "flos": 22309755886080.0,
      "grad_norm": 2.1222647637237273,
      "language_loss": 0.80900437,
      "learning_rate": 2.916541113583595e-07,
      "loss": 0.83086812,
      "num_input_tokens_seen": 149385120,
      "step": 6912,
      "time_per_iteration": 3.734070301055908
    },
    {
      "auxiliary_loss_clip": 0.01148268,
      "auxiliary_loss_mlp": 0.01026199,
      "balance_loss_clip": 1.04716587,
      "balance_loss_mlp": 1.01785421,
      "epoch": 0.8312391029880358,
      "flos": 18770077105920.0,
      "grad_norm": 2.678913056030249,
      "language_loss": 0.66745436,
      "learning_rate": 2.912491842422642e-07,
      "loss": 0.68919909,
      "num_input_tokens_seen": 149402825,
      "step": 6913,
      "time_per_iteration": 2.685404062271118
    },
    {
      "auxiliary_loss_clip": 0.01161926,
      "auxiliary_loss_mlp": 0.01030861,
      "balance_loss_clip": 1.0462116,
      "balance_loss_mlp": 1.02318954,
      "epoch": 0.8313593458786749,
      "flos": 20376648714240.0,
      "grad_norm": 1.7714696162947783,
      "language_loss": 0.70705771,
      "learning_rate": 2.9084451634230857e-07,
      "loss": 0.72898555,
      "num_input_tokens_seen": 149422125,
      "step": 6914,
      "time_per_iteration": 3.6485824584960938
    },
    {
      "auxiliary_loss_clip": 0.01140917,
      "auxiliary_loss_mlp": 0.01024324,
      "balance_loss_clip": 1.04324174,
      "balance_loss_mlp": 1.01675367,
      "epoch": 0.831479588769314,
      "flos": 32124069878400.0,
      "grad_norm": 3.0664242176701655,
      "language_loss": 0.71281183,
      "learning_rate": 2.9044010771988125e-07,
      "loss": 0.73446423,
      "num_input_tokens_seen": 149441940,
      "step": 6915,
      "time_per_iteration": 2.8037590980529785
    },
    {
      "auxiliary_loss_clip": 0.0114573,
      "auxiliary_loss_mlp": 0.01027755,
      "balance_loss_clip": 1.04388583,
      "balance_loss_mlp": 1.01982737,
      "epoch": 0.8315998316599531,
      "flos": 45185929338240.0,
      "grad_norm": 1.8550018294811106,
      "language_loss": 0.72091639,
      "learning_rate": 2.900359584363303e-07,
      "loss": 0.74265122,
      "num_input_tokens_seen": 149465045,
      "step": 6916,
      "time_per_iteration": 2.9300649166107178
    },
    {
      "auxiliary_loss_clip": 0.0112951,
      "auxiliary_loss_mlp": 0.01026118,
      "balance_loss_clip": 1.04429793,
      "balance_loss_mlp": 1.01847076,
      "epoch": 0.8317200745505922,
      "flos": 18363747479040.0,
      "grad_norm": 2.121147672135637,
      "language_loss": 0.84647799,
      "learning_rate": 2.8963206855296494e-07,
      "loss": 0.86803436,
      "num_input_tokens_seen": 149481285,
      "step": 6917,
      "time_per_iteration": 2.7022147178649902
    },
    {
      "auxiliary_loss_clip": 0.011616,
      "auxiliary_loss_mlp": 0.01028786,
      "balance_loss_clip": 1.04528642,
      "balance_loss_mlp": 1.02175236,
      "epoch": 0.8318403174412313,
      "flos": 24206557386240.0,
      "grad_norm": 1.8017624221054742,
      "language_loss": 0.76901555,
      "learning_rate": 2.892284381310548e-07,
      "loss": 0.79091942,
      "num_input_tokens_seen": 149502700,
      "step": 6918,
      "time_per_iteration": 2.631835460662842
    },
    {
      "auxiliary_loss_clip": 0.01151701,
      "auxiliary_loss_mlp": 0.01024483,
      "balance_loss_clip": 1.04663193,
      "balance_loss_mlp": 1.0159241,
      "epoch": 0.8319605603318704,
      "flos": 22418780641920.0,
      "grad_norm": 2.573308673741872,
      "language_loss": 0.72436231,
      "learning_rate": 2.888250672318302e-07,
      "loss": 0.74612415,
      "num_input_tokens_seen": 149520100,
      "step": 6919,
      "time_per_iteration": 2.6760005950927734
    },
    {
      "auxiliary_loss_clip": 0.01173855,
      "auxiliary_loss_mlp": 0.01031412,
      "balance_loss_clip": 1.05002403,
      "balance_loss_mlp": 1.02400351,
      "epoch": 0.8320808032225094,
      "flos": 37414501459200.0,
      "grad_norm": 1.492497811391999,
      "language_loss": 0.68582386,
      "learning_rate": 2.884219559164831e-07,
      "loss": 0.70787656,
      "num_input_tokens_seen": 149543245,
      "step": 6920,
      "time_per_iteration": 2.7296531200408936
    },
    {
      "auxiliary_loss_clip": 0.01161348,
      "auxiliary_loss_mlp": 0.01029748,
      "balance_loss_clip": 1.04733145,
      "balance_loss_mlp": 1.02215707,
      "epoch": 0.8322010461131486,
      "flos": 12787395638400.0,
      "grad_norm": 2.1378038006011284,
      "language_loss": 0.81235206,
      "learning_rate": 2.880191042461635e-07,
      "loss": 0.83426297,
      "num_input_tokens_seen": 149559185,
      "step": 6921,
      "time_per_iteration": 3.56669545173645
    },
    {
      "auxiliary_loss_clip": 0.01139431,
      "auxiliary_loss_mlp": 0.01027115,
      "balance_loss_clip": 1.04189384,
      "balance_loss_mlp": 1.02016473,
      "epoch": 0.8323212890037877,
      "flos": 15815455050240.0,
      "grad_norm": 1.685323674320332,
      "language_loss": 0.8043704,
      "learning_rate": 2.876165122819849e-07,
      "loss": 0.8260358,
      "num_input_tokens_seen": 149577165,
      "step": 6922,
      "time_per_iteration": 2.7414133548736572
    },
    {
      "auxiliary_loss_clip": 0.01169382,
      "auxiliary_loss_mlp": 0.01028297,
      "balance_loss_clip": 1.04764533,
      "balance_loss_mlp": 1.02047658,
      "epoch": 0.8324415318944267,
      "flos": 21719276208000.0,
      "grad_norm": 1.6466636891134456,
      "language_loss": 0.79329216,
      "learning_rate": 2.872141800850201e-07,
      "loss": 0.81526899,
      "num_input_tokens_seen": 149594340,
      "step": 6923,
      "time_per_iteration": 2.6063597202301025
    },
    {
      "auxiliary_loss_clip": 0.01169729,
      "auxiliary_loss_mlp": 0.01023202,
      "balance_loss_clip": 1.0468111,
      "balance_loss_mlp": 1.01584995,
      "epoch": 0.8325617747850659,
      "flos": 34198700636160.0,
      "grad_norm": 1.7060129270644033,
      "language_loss": 0.72985804,
      "learning_rate": 2.868121077163024e-07,
      "loss": 0.7517873,
      "num_input_tokens_seen": 149613895,
      "step": 6924,
      "time_per_iteration": 2.729712724685669
    },
    {
      "auxiliary_loss_clip": 0.01163518,
      "auxiliary_loss_mlp": 0.01031338,
      "balance_loss_clip": 1.04548526,
      "balance_loss_mlp": 1.02358937,
      "epoch": 0.8326820176757049,
      "flos": 18369457741440.0,
      "grad_norm": 1.7596925343831773,
      "language_loss": 0.722458,
      "learning_rate": 2.864102952368257e-07,
      "loss": 0.74440652,
      "num_input_tokens_seen": 149631820,
      "step": 6925,
      "time_per_iteration": 2.6031723022460938
    },
    {
      "auxiliary_loss_clip": 0.01118266,
      "auxiliary_loss_mlp": 0.01025737,
      "balance_loss_clip": 1.0368017,
      "balance_loss_mlp": 1.01851332,
      "epoch": 0.832802260566344,
      "flos": 35991325716480.0,
      "grad_norm": 1.6243395939331364,
      "language_loss": 0.59296107,
      "learning_rate": 2.860087427075444e-07,
      "loss": 0.61440116,
      "num_input_tokens_seen": 149656070,
      "step": 6926,
      "time_per_iteration": 2.8586440086364746
    },
    {
      "auxiliary_loss_clip": 0.01146346,
      "auxiliary_loss_mlp": 0.01027368,
      "balance_loss_clip": 1.04287577,
      "balance_loss_mlp": 1.02012038,
      "epoch": 0.8329225034569832,
      "flos": 14244434928000.0,
      "grad_norm": 2.3734107729626306,
      "language_loss": 0.86548328,
      "learning_rate": 2.856074501893744e-07,
      "loss": 0.88722044,
      "num_input_tokens_seen": 149671270,
      "step": 6927,
      "time_per_iteration": 2.794881582260132
    },
    {
      "auxiliary_loss_clip": 0.01165727,
      "auxiliary_loss_mlp": 0.01027547,
      "balance_loss_clip": 1.04914451,
      "balance_loss_mlp": 1.01940513,
      "epoch": 0.8330427463476222,
      "flos": 18077468083200.0,
      "grad_norm": 2.1858097208962315,
      "language_loss": 0.81363124,
      "learning_rate": 2.8520641774319054e-07,
      "loss": 0.83556402,
      "num_input_tokens_seen": 149689360,
      "step": 6928,
      "time_per_iteration": 2.6156883239746094
    },
    {
      "auxiliary_loss_clip": 0.01154199,
      "auxiliary_loss_mlp": 0.01023608,
      "balance_loss_clip": 1.04152083,
      "balance_loss_mlp": 1.01558471,
      "epoch": 0.8331629892382613,
      "flos": 18040839189120.0,
      "grad_norm": 2.2178125386276926,
      "language_loss": 0.75865865,
      "learning_rate": 2.848056454298309e-07,
      "loss": 0.78043675,
      "num_input_tokens_seen": 149706685,
      "step": 6929,
      "time_per_iteration": 2.648493766784668
    },
    {
      "auxiliary_loss_clip": 0.0115395,
      "auxiliary_loss_mlp": 0.01027423,
      "balance_loss_clip": 1.04786468,
      "balance_loss_mlp": 1.01949549,
      "epoch": 0.8332832321289004,
      "flos": 17457398576640.0,
      "grad_norm": 1.9955039574709614,
      "language_loss": 0.65449572,
      "learning_rate": 2.844051333100905e-07,
      "loss": 0.67630941,
      "num_input_tokens_seen": 149724230,
      "step": 6930,
      "time_per_iteration": 2.63089919090271
    },
    {
      "auxiliary_loss_clip": 0.01149785,
      "auxiliary_loss_mlp": 0.01025376,
      "balance_loss_clip": 1.04601669,
      "balance_loss_mlp": 1.0179193,
      "epoch": 0.8334034750195395,
      "flos": 15084852416640.0,
      "grad_norm": 1.8844762830044393,
      "language_loss": 0.8393271,
      "learning_rate": 2.840048814447269e-07,
      "loss": 0.86107868,
      "num_input_tokens_seen": 149742395,
      "step": 6931,
      "time_per_iteration": 2.7596607208251953
    },
    {
      "auxiliary_loss_clip": 0.01143292,
      "auxiliary_loss_mlp": 0.01025917,
      "balance_loss_clip": 1.04192317,
      "balance_loss_mlp": 1.01790619,
      "epoch": 0.8335237179101785,
      "flos": 19427170556160.0,
      "grad_norm": 2.491850388515441,
      "language_loss": 0.74072123,
      "learning_rate": 2.836048898944587e-07,
      "loss": 0.76241332,
      "num_input_tokens_seen": 149760820,
      "step": 6932,
      "time_per_iteration": 2.613689422607422
    },
    {
      "auxiliary_loss_clip": 0.01150107,
      "auxiliary_loss_mlp": 0.01027549,
      "balance_loss_clip": 1.04334569,
      "balance_loss_mlp": 1.02031279,
      "epoch": 0.8336439608008177,
      "flos": 21762046327680.0,
      "grad_norm": 3.21380357816092,
      "language_loss": 0.73154664,
      "learning_rate": 2.832051587199642e-07,
      "loss": 0.7533232,
      "num_input_tokens_seen": 149778075,
      "step": 6933,
      "time_per_iteration": 2.653329372406006
    },
    {
      "auxiliary_loss_clip": 0.01058229,
      "auxiliary_loss_mlp": 0.0100135,
      "balance_loss_clip": 1.00774527,
      "balance_loss_mlp": 1.00036108,
      "epoch": 0.8337642036914568,
      "flos": 59702783990400.0,
      "grad_norm": 0.8025971875237546,
      "language_loss": 0.57707953,
      "learning_rate": 2.828056879818821e-07,
      "loss": 0.59767532,
      "num_input_tokens_seen": 149837150,
      "step": 6934,
      "time_per_iteration": 3.1736536026000977
    },
    {
      "auxiliary_loss_clip": 0.01138878,
      "auxiliary_loss_mlp": 0.01022904,
      "balance_loss_clip": 1.03857756,
      "balance_loss_mlp": 1.01609468,
      "epoch": 0.8338844465820958,
      "flos": 27162185022720.0,
      "grad_norm": 1.8114467156698528,
      "language_loss": 0.83471036,
      "learning_rate": 2.824064777408117e-07,
      "loss": 0.85632819,
      "num_input_tokens_seen": 149856940,
      "step": 6935,
      "time_per_iteration": 2.7501518726348877
    },
    {
      "auxiliary_loss_clip": 0.01160844,
      "auxiliary_loss_mlp": 0.01027451,
      "balance_loss_clip": 1.04838538,
      "balance_loss_mlp": 1.0194819,
      "epoch": 0.8340046894727349,
      "flos": 30481264425600.0,
      "grad_norm": 1.9566450399489574,
      "language_loss": 0.75715137,
      "learning_rate": 2.8200752805731263e-07,
      "loss": 0.77903432,
      "num_input_tokens_seen": 149879930,
      "step": 6936,
      "time_per_iteration": 2.7046403884887695
    },
    {
      "auxiliary_loss_clip": 0.01161288,
      "auxiliary_loss_mlp": 0.01030478,
      "balance_loss_clip": 1.04874694,
      "balance_loss_mlp": 1.02295923,
      "epoch": 0.834124932363374,
      "flos": 27126166659840.0,
      "grad_norm": 1.649666804452771,
      "language_loss": 0.80780703,
      "learning_rate": 2.8160883899190625e-07,
      "loss": 0.82972467,
      "num_input_tokens_seen": 149903200,
      "step": 6937,
      "time_per_iteration": 3.615973472595215
    },
    {
      "auxiliary_loss_clip": 0.01133076,
      "auxiliary_loss_mlp": 0.01027848,
      "balance_loss_clip": 1.04376006,
      "balance_loss_mlp": 1.01975083,
      "epoch": 0.8342451752540131,
      "flos": 24569865498240.0,
      "grad_norm": 2.598524329673273,
      "language_loss": 0.73362052,
      "learning_rate": 2.8121041060507234e-07,
      "loss": 0.75522977,
      "num_input_tokens_seen": 149922230,
      "step": 6938,
      "time_per_iteration": 3.7511022090911865
    },
    {
      "auxiliary_loss_clip": 0.01164365,
      "auxiliary_loss_mlp": 0.01027572,
      "balance_loss_clip": 1.0452652,
      "balance_loss_mlp": 1.01968074,
      "epoch": 0.8343654181446521,
      "flos": 26615085995520.0,
      "grad_norm": 1.8224844949525587,
      "language_loss": 0.7171886,
      "learning_rate": 2.808122429572528e-07,
      "loss": 0.73910797,
      "num_input_tokens_seen": 149942435,
      "step": 6939,
      "time_per_iteration": 2.7401022911071777
    },
    {
      "auxiliary_loss_clip": 0.01148565,
      "auxiliary_loss_mlp": 0.01025702,
      "balance_loss_clip": 1.04247355,
      "balance_loss_mlp": 1.0180161,
      "epoch": 0.8344856610352913,
      "flos": 20777268078720.0,
      "grad_norm": 3.3193415604956393,
      "language_loss": 0.75390595,
      "learning_rate": 2.804143361088489e-07,
      "loss": 0.77564859,
      "num_input_tokens_seen": 149961615,
      "step": 6940,
      "time_per_iteration": 2.7536427974700928
    },
    {
      "auxiliary_loss_clip": 0.01145357,
      "auxiliary_loss_mlp": 0.01029924,
      "balance_loss_clip": 1.04429817,
      "balance_loss_mlp": 1.02122188,
      "epoch": 0.8346059039259304,
      "flos": 26095960684800.0,
      "grad_norm": 3.5485982434475782,
      "language_loss": 0.78110427,
      "learning_rate": 2.8001669012022277e-07,
      "loss": 0.80285704,
      "num_input_tokens_seen": 149979585,
      "step": 6941,
      "time_per_iteration": 3.6800472736358643
    },
    {
      "auxiliary_loss_clip": 0.01160757,
      "auxiliary_loss_mlp": 0.01030959,
      "balance_loss_clip": 1.05023658,
      "balance_loss_mlp": 1.02307367,
      "epoch": 0.8347261468165694,
      "flos": 29027708755200.0,
      "grad_norm": 2.1884134680863023,
      "language_loss": 0.69211018,
      "learning_rate": 2.7961930505169795e-07,
      "loss": 0.71402729,
      "num_input_tokens_seen": 150003830,
      "step": 6942,
      "time_per_iteration": 2.7421951293945312
    },
    {
      "auxiliary_loss_clip": 0.01163272,
      "auxiliary_loss_mlp": 0.00887016,
      "balance_loss_clip": 1.04678273,
      "balance_loss_mlp": 1.00050879,
      "epoch": 0.8348463897072086,
      "flos": 26396461866240.0,
      "grad_norm": 1.783077711388484,
      "language_loss": 0.76550484,
      "learning_rate": 2.792221809635558e-07,
      "loss": 0.78600776,
      "num_input_tokens_seen": 150024460,
      "step": 6943,
      "time_per_iteration": 2.7052180767059326
    },
    {
      "auxiliary_loss_clip": 0.01116145,
      "auxiliary_loss_mlp": 0.01026367,
      "balance_loss_clip": 1.04121661,
      "balance_loss_mlp": 1.01904178,
      "epoch": 0.8349666325978476,
      "flos": 23367720096000.0,
      "grad_norm": 2.278237944636068,
      "language_loss": 0.74467134,
      "learning_rate": 2.788253179160411e-07,
      "loss": 0.76609647,
      "num_input_tokens_seen": 150045620,
      "step": 6944,
      "time_per_iteration": 2.9231841564178467
    },
    {
      "auxiliary_loss_clip": 0.0115218,
      "auxiliary_loss_mlp": 0.01028056,
      "balance_loss_clip": 1.04609156,
      "balance_loss_mlp": 1.02092767,
      "epoch": 0.8350868754884867,
      "flos": 12896528135040.0,
      "grad_norm": 2.007235197037094,
      "language_loss": 0.65264064,
      "learning_rate": 2.7842871596935725e-07,
      "loss": 0.67444301,
      "num_input_tokens_seen": 150064135,
      "step": 6945,
      "time_per_iteration": 2.827585458755493
    },
    {
      "auxiliary_loss_clip": 0.01167308,
      "auxiliary_loss_mlp": 0.01023238,
      "balance_loss_clip": 1.04727125,
      "balance_loss_mlp": 1.01551902,
      "epoch": 0.8352071183791259,
      "flos": 26505522535680.0,
      "grad_norm": 1.8146251100881172,
      "language_loss": 0.69166708,
      "learning_rate": 2.780323751836682e-07,
      "loss": 0.7135725,
      "num_input_tokens_seen": 150085350,
      "step": 6946,
      "time_per_iteration": 2.682767152786255
    },
    {
      "auxiliary_loss_clip": 0.01150118,
      "auxiliary_loss_mlp": 0.00886263,
      "balance_loss_clip": 1.04214859,
      "balance_loss_mlp": 1.00050187,
      "epoch": 0.8353273612697649,
      "flos": 20668063754880.0,
      "grad_norm": 1.4517387804453181,
      "language_loss": 0.78758669,
      "learning_rate": 2.7763629561909876e-07,
      "loss": 0.8079505,
      "num_input_tokens_seen": 150106180,
      "step": 6947,
      "time_per_iteration": 3.5801210403442383
    },
    {
      "auxiliary_loss_clip": 0.01167599,
      "auxiliary_loss_mlp": 0.01025735,
      "balance_loss_clip": 1.04494238,
      "balance_loss_mlp": 1.01808739,
      "epoch": 0.835447604160404,
      "flos": 19754137082880.0,
      "grad_norm": 1.9939102745736557,
      "language_loss": 0.77223706,
      "learning_rate": 2.772404773357335e-07,
      "loss": 0.79417038,
      "num_input_tokens_seen": 150125585,
      "step": 6948,
      "time_per_iteration": 2.663782835006714
    },
    {
      "auxiliary_loss_clip": 0.01134501,
      "auxiliary_loss_mlp": 0.01025982,
      "balance_loss_clip": 1.04182768,
      "balance_loss_mlp": 1.01822782,
      "epoch": 0.8355678470510431,
      "flos": 23435842239360.0,
      "grad_norm": 1.8344270537342273,
      "language_loss": 0.78227723,
      "learning_rate": 2.7684492039361853e-07,
      "loss": 0.803882,
      "num_input_tokens_seen": 150144810,
      "step": 6949,
      "time_per_iteration": 2.7631280422210693
    },
    {
      "auxiliary_loss_clip": 0.01171328,
      "auxiliary_loss_mlp": 0.01027381,
      "balance_loss_clip": 1.04829741,
      "balance_loss_mlp": 1.01932287,
      "epoch": 0.8356880899416822,
      "flos": 21214588164480.0,
      "grad_norm": 1.7491041803990885,
      "language_loss": 0.83625233,
      "learning_rate": 2.764496248527586e-07,
      "loss": 0.85823947,
      "num_input_tokens_seen": 150163785,
      "step": 6950,
      "time_per_iteration": 2.642461061477661
    },
    {
      "auxiliary_loss_clip": 0.01150294,
      "auxiliary_loss_mlp": 0.01027109,
      "balance_loss_clip": 1.04279327,
      "balance_loss_mlp": 1.01922917,
      "epoch": 0.8358083328323213,
      "flos": 28037543466240.0,
      "grad_norm": 2.2482927664302386,
      "language_loss": 0.78322959,
      "learning_rate": 2.760545907731211e-07,
      "loss": 0.80500358,
      "num_input_tokens_seen": 150184360,
      "step": 6951,
      "time_per_iteration": 2.751410484313965
    },
    {
      "auxiliary_loss_clip": 0.01162503,
      "auxiliary_loss_mlp": 0.01031366,
      "balance_loss_clip": 1.04529965,
      "balance_loss_mlp": 1.02317679,
      "epoch": 0.8359285757229604,
      "flos": 27783655159680.0,
      "grad_norm": 2.3633655179617112,
      "language_loss": 0.68399858,
      "learning_rate": 2.75659818214631e-07,
      "loss": 0.70593727,
      "num_input_tokens_seen": 150205465,
      "step": 6952,
      "time_per_iteration": 2.712475061416626
    },
    {
      "auxiliary_loss_clip": 0.01155415,
      "auxiliary_loss_mlp": 0.01026095,
      "balance_loss_clip": 1.0452404,
      "balance_loss_mlp": 1.01851368,
      "epoch": 0.8360488186135995,
      "flos": 21435115714560.0,
      "grad_norm": 1.9951963767818863,
      "language_loss": 0.78246784,
      "learning_rate": 2.752653072371749e-07,
      "loss": 0.8042829,
      "num_input_tokens_seen": 150224900,
      "step": 6953,
      "time_per_iteration": 2.687404155731201
    },
    {
      "auxiliary_loss_clip": 0.0113599,
      "auxiliary_loss_mlp": 0.01025934,
      "balance_loss_clip": 1.04434156,
      "balance_loss_mlp": 1.01829541,
      "epoch": 0.8361690615042385,
      "flos": 27632327160960.0,
      "grad_norm": 1.797333665233698,
      "language_loss": 0.7480588,
      "learning_rate": 2.7487105790060105e-07,
      "loss": 0.769678,
      "num_input_tokens_seen": 150244310,
      "step": 6954,
      "time_per_iteration": 2.7576093673706055
    },
    {
      "auxiliary_loss_clip": 0.01162065,
      "auxiliary_loss_mlp": 0.01025135,
      "balance_loss_clip": 1.04552531,
      "balance_loss_mlp": 1.01814055,
      "epoch": 0.8362893043948777,
      "flos": 39202529598720.0,
      "grad_norm": 1.9418487249486995,
      "language_loss": 0.69386482,
      "learning_rate": 2.7447707026471587e-07,
      "loss": 0.71573681,
      "num_input_tokens_seen": 150267285,
      "step": 6955,
      "time_per_iteration": 2.8866467475891113
    },
    {
      "auxiliary_loss_clip": 0.01139745,
      "auxiliary_loss_mlp": 0.0102639,
      "balance_loss_clip": 1.04124713,
      "balance_loss_mlp": 1.01893091,
      "epoch": 0.8364095472855168,
      "flos": 24785329230720.0,
      "grad_norm": 1.9714382975152749,
      "language_loss": 0.79792511,
      "learning_rate": 2.740833443892874e-07,
      "loss": 0.81958652,
      "num_input_tokens_seen": 150285455,
      "step": 6956,
      "time_per_iteration": 2.7301025390625
    },
    {
      "auxiliary_loss_clip": 0.01150284,
      "auxiliary_loss_mlp": 0.01026895,
      "balance_loss_clip": 1.0439806,
      "balance_loss_mlp": 1.01929808,
      "epoch": 0.8365297901761558,
      "flos": 22743412784640.0,
      "grad_norm": 1.926306954278966,
      "language_loss": 0.79890925,
      "learning_rate": 2.7368988033404327e-07,
      "loss": 0.8206811,
      "num_input_tokens_seen": 150302970,
      "step": 6957,
      "time_per_iteration": 2.723839044570923
    },
    {
      "auxiliary_loss_clip": 0.01144045,
      "auxiliary_loss_mlp": 0.01024886,
      "balance_loss_clip": 1.04462206,
      "balance_loss_mlp": 1.01826692,
      "epoch": 0.836650033066795,
      "flos": 28396003242240.0,
      "grad_norm": 1.518978326043055,
      "language_loss": 0.84643197,
      "learning_rate": 2.732966781586712e-07,
      "loss": 0.86812127,
      "num_input_tokens_seen": 150322715,
      "step": 6958,
      "time_per_iteration": 2.7188479900360107
    },
    {
      "auxiliary_loss_clip": 0.01155033,
      "auxiliary_loss_mlp": 0.01021113,
      "balance_loss_clip": 1.04390621,
      "balance_loss_mlp": 1.01384127,
      "epoch": 0.836770275957434,
      "flos": 22236857233920.0,
      "grad_norm": 1.7428597981405343,
      "language_loss": 0.66850221,
      "learning_rate": 2.729037379228205e-07,
      "loss": 0.69026369,
      "num_input_tokens_seen": 150342900,
      "step": 6959,
      "time_per_iteration": 2.664771795272827
    },
    {
      "auxiliary_loss_clip": 0.01152596,
      "auxiliary_loss_mlp": 0.01021387,
      "balance_loss_clip": 1.04856694,
      "balance_loss_mlp": 1.01325727,
      "epoch": 0.8368905188480731,
      "flos": 22491930689280.0,
      "grad_norm": 1.5170975309491084,
      "language_loss": 0.80622864,
      "learning_rate": 2.725110596860998e-07,
      "loss": 0.82796848,
      "num_input_tokens_seen": 150363580,
      "step": 6960,
      "time_per_iteration": 2.754263401031494
    },
    {
      "auxiliary_loss_clip": 0.01133539,
      "auxiliary_loss_mlp": 0.01025457,
      "balance_loss_clip": 1.0455606,
      "balance_loss_mlp": 1.01817393,
      "epoch": 0.8370107617387123,
      "flos": 13370405287680.0,
      "grad_norm": 2.116277735087013,
      "language_loss": 0.69989145,
      "learning_rate": 2.7211864350807776e-07,
      "loss": 0.72148144,
      "num_input_tokens_seen": 150381780,
      "step": 6961,
      "time_per_iteration": 2.73468017578125
    },
    {
      "auxiliary_loss_clip": 0.01170962,
      "auxiliary_loss_mlp": 0.01022814,
      "balance_loss_clip": 1.04669833,
      "balance_loss_mlp": 1.0152055,
      "epoch": 0.8371310046293513,
      "flos": 25261289372160.0,
      "grad_norm": 2.0216753429288032,
      "language_loss": 0.74080038,
      "learning_rate": 2.717264894482836e-07,
      "loss": 0.76273811,
      "num_input_tokens_seen": 150402120,
      "step": 6962,
      "time_per_iteration": 2.6717307567596436
    },
    {
      "auxiliary_loss_clip": 0.0116673,
      "auxiliary_loss_mlp": 0.01029233,
      "balance_loss_clip": 1.04880095,
      "balance_loss_mlp": 1.02126932,
      "epoch": 0.8372512475199904,
      "flos": 19792705311360.0,
      "grad_norm": 2.686170411402528,
      "language_loss": 0.81096226,
      "learning_rate": 2.7133459756620646e-07,
      "loss": 0.83292186,
      "num_input_tokens_seen": 150419315,
      "step": 6963,
      "time_per_iteration": 3.535799026489258
    },
    {
      "auxiliary_loss_clip": 0.01156901,
      "auxiliary_loss_mlp": 0.01026877,
      "balance_loss_clip": 1.04683959,
      "balance_loss_mlp": 1.01922369,
      "epoch": 0.8373714904106295,
      "flos": 19391224020480.0,
      "grad_norm": 2.0521090390773216,
      "language_loss": 0.73634052,
      "learning_rate": 2.7094296792129733e-07,
      "loss": 0.75817823,
      "num_input_tokens_seen": 150438915,
      "step": 6964,
      "time_per_iteration": 3.6252706050872803
    },
    {
      "auxiliary_loss_clip": 0.01163084,
      "auxiliary_loss_mlp": 0.01022159,
      "balance_loss_clip": 1.04740679,
      "balance_loss_mlp": 1.01487577,
      "epoch": 0.8374917333012686,
      "flos": 14975935401600.0,
      "grad_norm": 1.9107667694263504,
      "language_loss": 0.75379956,
      "learning_rate": 2.7055160057296424e-07,
      "loss": 0.77565199,
      "num_input_tokens_seen": 150456155,
      "step": 6965,
      "time_per_iteration": 2.602465867996216
    },
    {
      "auxiliary_loss_clip": 0.01141743,
      "auxiliary_loss_mlp": 0.01025184,
      "balance_loss_clip": 1.0432713,
      "balance_loss_mlp": 1.01658344,
      "epoch": 0.8376119761919076,
      "flos": 30331839847680.0,
      "grad_norm": 2.28686025486897,
      "language_loss": 0.72443837,
      "learning_rate": 2.7016049558057896e-07,
      "loss": 0.74610758,
      "num_input_tokens_seen": 150478115,
      "step": 6966,
      "time_per_iteration": 3.6081690788269043
    },
    {
      "auxiliary_loss_clip": 0.01162653,
      "auxiliary_loss_mlp": 0.01027628,
      "balance_loss_clip": 1.04871869,
      "balance_loss_mlp": 1.01985002,
      "epoch": 0.8377322190825467,
      "flos": 29423336129280.0,
      "grad_norm": 2.0132619517985435,
      "language_loss": 0.70848751,
      "learning_rate": 2.6976965300347074e-07,
      "loss": 0.73039037,
      "num_input_tokens_seen": 150500725,
      "step": 6967,
      "time_per_iteration": 2.7414910793304443
    },
    {
      "auxiliary_loss_clip": 0.0114641,
      "auxiliary_loss_mlp": 0.01022636,
      "balance_loss_clip": 1.0421015,
      "balance_loss_mlp": 1.01513755,
      "epoch": 0.8378524619731859,
      "flos": 26687086807680.0,
      "grad_norm": 3.546215282034802,
      "language_loss": 0.69417387,
      "learning_rate": 2.693790729009309e-07,
      "loss": 0.7158643,
      "num_input_tokens_seen": 150522335,
      "step": 6968,
      "time_per_iteration": 2.721372127532959
    },
    {
      "auxiliary_loss_clip": 0.0115307,
      "auxiliary_loss_mlp": 0.010219,
      "balance_loss_clip": 1.04528427,
      "balance_loss_mlp": 1.01478958,
      "epoch": 0.8379727048638249,
      "flos": 20703866636160.0,
      "grad_norm": 1.6858243713603471,
      "language_loss": 0.88580918,
      "learning_rate": 2.6898875533220946e-07,
      "loss": 0.90755892,
      "num_input_tokens_seen": 150541640,
      "step": 6969,
      "time_per_iteration": 2.6985082626342773
    },
    {
      "auxiliary_loss_clip": 0.01168199,
      "auxiliary_loss_mlp": 0.0102272,
      "balance_loss_clip": 1.04887402,
      "balance_loss_mlp": 1.01537395,
      "epoch": 0.838092947754464,
      "flos": 20084084438400.0,
      "grad_norm": 1.6717156023353763,
      "language_loss": 0.81792808,
      "learning_rate": 2.685987003565171e-07,
      "loss": 0.83983731,
      "num_input_tokens_seen": 150559680,
      "step": 6970,
      "time_per_iteration": 2.6147382259368896
    },
    {
      "auxiliary_loss_clip": 0.01132081,
      "auxiliary_loss_mlp": 0.01027343,
      "balance_loss_clip": 1.04461575,
      "balance_loss_mlp": 1.01976109,
      "epoch": 0.8382131906451031,
      "flos": 18113270964480.0,
      "grad_norm": 2.42831967105554,
      "language_loss": 0.75224268,
      "learning_rate": 2.6820890803302566e-07,
      "loss": 0.77383691,
      "num_input_tokens_seen": 150575205,
      "step": 6971,
      "time_per_iteration": 2.7833216190338135
    },
    {
      "auxiliary_loss_clip": 0.01150163,
      "auxiliary_loss_mlp": 0.01022172,
      "balance_loss_clip": 1.04691935,
      "balance_loss_mlp": 1.01485264,
      "epoch": 0.8383334335357422,
      "flos": 17092653920640.0,
      "grad_norm": 2.9036907808027106,
      "language_loss": 0.81756902,
      "learning_rate": 2.6781937842086557e-07,
      "loss": 0.83929241,
      "num_input_tokens_seen": 150593995,
      "step": 6972,
      "time_per_iteration": 2.675384044647217
    },
    {
      "auxiliary_loss_clip": 0.01164751,
      "auxiliary_loss_mlp": 0.01030388,
      "balance_loss_clip": 1.04723537,
      "balance_loss_mlp": 1.02294946,
      "epoch": 0.8384536764263812,
      "flos": 20704728562560.0,
      "grad_norm": 1.8939346412290965,
      "language_loss": 0.67282498,
      "learning_rate": 2.6743011157912933e-07,
      "loss": 0.69477636,
      "num_input_tokens_seen": 150613715,
      "step": 6973,
      "time_per_iteration": 3.5603840351104736
    },
    {
      "auxiliary_loss_clip": 0.01129946,
      "auxiliary_loss_mlp": 0.01026912,
      "balance_loss_clip": 1.03935313,
      "balance_loss_mlp": 1.01918733,
      "epoch": 0.8385739193170204,
      "flos": 28986842056320.0,
      "grad_norm": 2.3112682400217124,
      "language_loss": 0.65038776,
      "learning_rate": 2.6704110756686725e-07,
      "loss": 0.6719563,
      "num_input_tokens_seen": 150634540,
      "step": 6974,
      "time_per_iteration": 2.82783842086792
    },
    {
      "auxiliary_loss_clip": 0.01146274,
      "auxiliary_loss_mlp": 0.00886641,
      "balance_loss_clip": 1.04119778,
      "balance_loss_mlp": 1.00049758,
      "epoch": 0.8386941622076595,
      "flos": 23438068882560.0,
      "grad_norm": 3.3584631107804395,
      "language_loss": 0.8402617,
      "learning_rate": 2.6665236644309085e-07,
      "loss": 0.86059082,
      "num_input_tokens_seen": 150654850,
      "step": 6975,
      "time_per_iteration": 2.6995849609375
    },
    {
      "auxiliary_loss_clip": 0.01162171,
      "auxiliary_loss_mlp": 0.01023788,
      "balance_loss_clip": 1.04512811,
      "balance_loss_mlp": 1.01606345,
      "epoch": 0.8388144050982985,
      "flos": 23002724044800.0,
      "grad_norm": 1.8591507438722443,
      "language_loss": 0.79821712,
      "learning_rate": 2.662638882667727e-07,
      "loss": 0.8200767,
      "num_input_tokens_seen": 150673790,
      "step": 6976,
      "time_per_iteration": 2.674459934234619
    },
    {
      "auxiliary_loss_clip": 0.01173965,
      "auxiliary_loss_mlp": 0.01029705,
      "balance_loss_clip": 1.04750752,
      "balance_loss_mlp": 1.02187896,
      "epoch": 0.8389346479889377,
      "flos": 24280353878400.0,
      "grad_norm": 1.8773147741418579,
      "language_loss": 0.73061287,
      "learning_rate": 2.658756730968443e-07,
      "loss": 0.75264955,
      "num_input_tokens_seen": 150692255,
      "step": 6977,
      "time_per_iteration": 2.6094002723693848
    },
    {
      "auxiliary_loss_clip": 0.01156799,
      "auxiliary_loss_mlp": 0.01027183,
      "balance_loss_clip": 1.04794967,
      "balance_loss_mlp": 1.0197506,
      "epoch": 0.8390548908795767,
      "flos": 21215019127680.0,
      "grad_norm": 2.024225951923626,
      "language_loss": 0.88477695,
      "learning_rate": 2.654877209921975e-07,
      "loss": 0.90661681,
      "num_input_tokens_seen": 150709790,
      "step": 6978,
      "time_per_iteration": 2.7161591053009033
    },
    {
      "auxiliary_loss_clip": 0.01137525,
      "auxiliary_loss_mlp": 0.01026957,
      "balance_loss_clip": 1.0397532,
      "balance_loss_mlp": 1.01838005,
      "epoch": 0.8391751337702158,
      "flos": 35627299332480.0,
      "grad_norm": 3.18515207007986,
      "language_loss": 0.63117152,
      "learning_rate": 2.651000320116843e-07,
      "loss": 0.6528163,
      "num_input_tokens_seen": 150730675,
      "step": 6979,
      "time_per_iteration": 2.856391668319702
    },
    {
      "auxiliary_loss_clip": 0.01137002,
      "auxiliary_loss_mlp": 0.00887065,
      "balance_loss_clip": 1.04245043,
      "balance_loss_mlp": 1.00057697,
      "epoch": 0.839295376660855,
      "flos": 21325229032320.0,
      "grad_norm": 1.9704673910399961,
      "language_loss": 0.76338267,
      "learning_rate": 2.647126062141163e-07,
      "loss": 0.78362328,
      "num_input_tokens_seen": 150749750,
      "step": 6980,
      "time_per_iteration": 2.7456166744232178
    },
    {
      "auxiliary_loss_clip": 0.01151062,
      "auxiliary_loss_mlp": 0.01029314,
      "balance_loss_clip": 1.04079413,
      "balance_loss_mlp": 1.02190495,
      "epoch": 0.839415619551494,
      "flos": 18442535961600.0,
      "grad_norm": 1.8086531033058442,
      "language_loss": 0.8421998,
      "learning_rate": 2.643254436582669e-07,
      "loss": 0.86400354,
      "num_input_tokens_seen": 150769240,
      "step": 6981,
      "time_per_iteration": 2.6268768310546875
    },
    {
      "auxiliary_loss_clip": 0.0113736,
      "auxiliary_loss_mlp": 0.01023735,
      "balance_loss_clip": 1.04483378,
      "balance_loss_mlp": 1.01613593,
      "epoch": 0.8395358624421331,
      "flos": 23221958705280.0,
      "grad_norm": 3.5638104610939143,
      "language_loss": 0.82746994,
      "learning_rate": 2.6393854440286743e-07,
      "loss": 0.84908092,
      "num_input_tokens_seen": 150788410,
      "step": 6982,
      "time_per_iteration": 2.89513897895813
    },
    {
      "auxiliary_loss_clip": 0.01172494,
      "auxiliary_loss_mlp": 0.01024591,
      "balance_loss_clip": 1.05070353,
      "balance_loss_mlp": 1.01728058,
      "epoch": 0.8396561053327722,
      "flos": 24381657210240.0,
      "grad_norm": 1.8933050828908973,
      "language_loss": 0.70236999,
      "learning_rate": 2.6355190850661045e-07,
      "loss": 0.72434092,
      "num_input_tokens_seen": 150805245,
      "step": 6983,
      "time_per_iteration": 2.5835611820220947
    },
    {
      "auxiliary_loss_clip": 0.01149448,
      "auxiliary_loss_mlp": 0.01030204,
      "balance_loss_clip": 1.04507041,
      "balance_loss_mlp": 1.02297401,
      "epoch": 0.8397763482234113,
      "flos": 22237755073920.0,
      "grad_norm": 1.8406330234344652,
      "language_loss": 0.86439466,
      "learning_rate": 2.631655360281486e-07,
      "loss": 0.88619119,
      "num_input_tokens_seen": 150824920,
      "step": 6984,
      "time_per_iteration": 2.7308971881866455
    },
    {
      "auxiliary_loss_clip": 0.01167336,
      "auxiliary_loss_mlp": 0.00886807,
      "balance_loss_clip": 1.04744554,
      "balance_loss_mlp": 1.00062346,
      "epoch": 0.8398965911140504,
      "flos": 22163743100160.0,
      "grad_norm": 3.881969570387927,
      "language_loss": 0.65607405,
      "learning_rate": 2.6277942702609323e-07,
      "loss": 0.67661548,
      "num_input_tokens_seen": 150844400,
      "step": 6985,
      "time_per_iteration": 2.6938693523406982
    },
    {
      "auxiliary_loss_clip": 0.01145582,
      "auxiliary_loss_mlp": 0.01025744,
      "balance_loss_clip": 1.04663765,
      "balance_loss_mlp": 1.01807928,
      "epoch": 0.8400168340046895,
      "flos": 21542775753600.0,
      "grad_norm": 4.279698091838703,
      "language_loss": 0.87287015,
      "learning_rate": 2.623935815590186e-07,
      "loss": 0.8945834,
      "num_input_tokens_seen": 150862780,
      "step": 6986,
      "time_per_iteration": 2.7698893547058105
    },
    {
      "auxiliary_loss_clip": 0.01152319,
      "auxiliary_loss_mlp": 0.01029581,
      "balance_loss_clip": 1.04659402,
      "balance_loss_mlp": 1.02182651,
      "epoch": 0.8401370768953286,
      "flos": 22491966602880.0,
      "grad_norm": 1.8247443996296007,
      "language_loss": 0.81052154,
      "learning_rate": 2.6200799968545516e-07,
      "loss": 0.8323406,
      "num_input_tokens_seen": 150883075,
      "step": 6987,
      "time_per_iteration": 2.8341612815856934
    },
    {
      "auxiliary_loss_clip": 0.01048536,
      "auxiliary_loss_mlp": 0.01001801,
      "balance_loss_clip": 1.00832021,
      "balance_loss_mlp": 1.00081718,
      "epoch": 0.8402573197859676,
      "flos": 59238890818560.0,
      "grad_norm": 0.7890512358804638,
      "language_loss": 0.56416589,
      "learning_rate": 2.616226814638969e-07,
      "loss": 0.58466923,
      "num_input_tokens_seen": 150948180,
      "step": 6988,
      "time_per_iteration": 3.2923576831817627
    },
    {
      "auxiliary_loss_clip": 0.01153316,
      "auxiliary_loss_mlp": 0.01029409,
      "balance_loss_clip": 1.04618311,
      "balance_loss_mlp": 1.02147591,
      "epoch": 0.8403775626766068,
      "flos": 22674608282880.0,
      "grad_norm": 2.5893633587214113,
      "language_loss": 0.77433276,
      "learning_rate": 2.612376269527954e-07,
      "loss": 0.79615998,
      "num_input_tokens_seen": 150967885,
      "step": 6989,
      "time_per_iteration": 3.6315841674804688
    },
    {
      "auxiliary_loss_clip": 0.01148393,
      "auxiliary_loss_mlp": 0.01026411,
      "balance_loss_clip": 1.04582191,
      "balance_loss_mlp": 1.01821876,
      "epoch": 0.8404978055672458,
      "flos": 19609704495360.0,
      "grad_norm": 2.630062220145498,
      "language_loss": 0.67646909,
      "learning_rate": 2.608528362105635e-07,
      "loss": 0.69821715,
      "num_input_tokens_seen": 150987255,
      "step": 6990,
      "time_per_iteration": 3.553699493408203
    },
    {
      "auxiliary_loss_clip": 0.01142712,
      "auxiliary_loss_mlp": 0.01033547,
      "balance_loss_clip": 1.04003859,
      "balance_loss_mlp": 1.02622437,
      "epoch": 0.8406180484578849,
      "flos": 27526929678720.0,
      "grad_norm": 7.238520002356727,
      "language_loss": 0.73262286,
      "learning_rate": 2.6046830929557374e-07,
      "loss": 0.75438541,
      "num_input_tokens_seen": 151006905,
      "step": 6991,
      "time_per_iteration": 2.7307980060577393
    },
    {
      "auxiliary_loss_clip": 0.01136182,
      "auxiliary_loss_mlp": 0.01025731,
      "balance_loss_clip": 1.04187667,
      "balance_loss_mlp": 1.01808405,
      "epoch": 0.8407382913485241,
      "flos": 22127473342080.0,
      "grad_norm": 2.2205989001459363,
      "language_loss": 0.8499186,
      "learning_rate": 2.6008404626615776e-07,
      "loss": 0.8715378,
      "num_input_tokens_seen": 151025405,
      "step": 6992,
      "time_per_iteration": 3.7054004669189453
    },
    {
      "auxiliary_loss_clip": 0.01166867,
      "auxiliary_loss_mlp": 0.0102809,
      "balance_loss_clip": 1.04851198,
      "balance_loss_mlp": 1.0203656,
      "epoch": 0.8408585342391631,
      "flos": 13918473982080.0,
      "grad_norm": 2.7030291527942345,
      "language_loss": 0.73653728,
      "learning_rate": 2.597000471806092e-07,
      "loss": 0.75848687,
      "num_input_tokens_seen": 151041970,
      "step": 6993,
      "time_per_iteration": 2.7153494358062744
    },
    {
      "auxiliary_loss_clip": 0.0115036,
      "auxiliary_loss_mlp": 0.01029574,
      "balance_loss_clip": 1.0492245,
      "balance_loss_mlp": 1.02156627,
      "epoch": 0.8409787771298022,
      "flos": 20187865808640.0,
      "grad_norm": 2.013342944280938,
      "language_loss": 0.73305202,
      "learning_rate": 2.593163120971793e-07,
      "loss": 0.75485134,
      "num_input_tokens_seen": 151060835,
      "step": 6994,
      "time_per_iteration": 2.6949799060821533
    },
    {
      "auxiliary_loss_clip": 0.01122288,
      "auxiliary_loss_mlp": 0.01023029,
      "balance_loss_clip": 1.03797317,
      "balance_loss_mlp": 1.01505971,
      "epoch": 0.8410990200204413,
      "flos": 23142523777920.0,
      "grad_norm": 2.078539402375269,
      "language_loss": 0.69130552,
      "learning_rate": 2.5893284107408165e-07,
      "loss": 0.71275872,
      "num_input_tokens_seen": 151078205,
      "step": 6995,
      "time_per_iteration": 2.7801589965820312
    },
    {
      "auxiliary_loss_clip": 0.01130507,
      "auxiliary_loss_mlp": 0.01029669,
      "balance_loss_clip": 1.04185891,
      "balance_loss_mlp": 1.02164936,
      "epoch": 0.8412192629110804,
      "flos": 24027219757440.0,
      "grad_norm": 1.7984510717368885,
      "language_loss": 0.77700865,
      "learning_rate": 2.5854963416948726e-07,
      "loss": 0.79861039,
      "num_input_tokens_seen": 151100470,
      "step": 6996,
      "time_per_iteration": 2.8102803230285645
    },
    {
      "auxiliary_loss_clip": 0.01129082,
      "auxiliary_loss_mlp": 0.01024984,
      "balance_loss_clip": 1.03583598,
      "balance_loss_mlp": 1.01714611,
      "epoch": 0.8413395058017195,
      "flos": 25591703604480.0,
      "grad_norm": 1.71061566145874,
      "language_loss": 0.69434392,
      "learning_rate": 2.5816669144152816e-07,
      "loss": 0.71588457,
      "num_input_tokens_seen": 151121650,
      "step": 6997,
      "time_per_iteration": 2.8448803424835205
    },
    {
      "auxiliary_loss_clip": 0.01062802,
      "auxiliary_loss_mlp": 0.01001147,
      "balance_loss_clip": 1.00776577,
      "balance_loss_mlp": 1.00021172,
      "epoch": 0.8414597486923585,
      "flos": 63635396624640.0,
      "grad_norm": 0.8474296607433978,
      "language_loss": 0.66302609,
      "learning_rate": 2.5778401294829777e-07,
      "loss": 0.68366563,
      "num_input_tokens_seen": 151180390,
      "step": 6998,
      "time_per_iteration": 3.298369884490967
    },
    {
      "auxiliary_loss_clip": 0.01160117,
      "auxiliary_loss_mlp": 0.00886763,
      "balance_loss_clip": 1.04867351,
      "balance_loss_mlp": 1.00053012,
      "epoch": 0.8415799915829977,
      "flos": 19098731571840.0,
      "grad_norm": 1.7569662628292095,
      "language_loss": 0.64823747,
      "learning_rate": 2.574015987478473e-07,
      "loss": 0.66870624,
      "num_input_tokens_seen": 151198520,
      "step": 6999,
      "time_per_iteration": 3.585249423980713
    },
    {
      "auxiliary_loss_clip": 0.01157406,
      "auxiliary_loss_mlp": 0.0102842,
      "balance_loss_clip": 1.04523849,
      "balance_loss_mlp": 1.02098155,
      "epoch": 0.8417002344736367,
      "flos": 19821612781440.0,
      "grad_norm": 2.326484937794121,
      "language_loss": 0.8702755,
      "learning_rate": 2.570194488981887e-07,
      "loss": 0.89213371,
      "num_input_tokens_seen": 151215065,
      "step": 7000,
      "time_per_iteration": 2.763068437576294
    },
    {
      "auxiliary_loss_clip": 0.01062792,
      "auxiliary_loss_mlp": 0.01000721,
      "balance_loss_clip": 1.0078491,
      "balance_loss_mlp": 0.99980301,
      "epoch": 0.8418204773642758,
      "flos": 62161516834560.0,
      "grad_norm": 0.8591303978061128,
      "language_loss": 0.6031301,
      "learning_rate": 2.566375634572939e-07,
      "loss": 0.62376523,
      "num_input_tokens_seen": 151275705,
      "step": 7001,
      "time_per_iteration": 3.1034507751464844
    },
    {
      "auxiliary_loss_clip": 0.01143588,
      "auxiliary_loss_mlp": 0.01028253,
      "balance_loss_clip": 1.03948712,
      "balance_loss_mlp": 1.02082336,
      "epoch": 0.841940720254915,
      "flos": 17092905315840.0,
      "grad_norm": 1.8189908213848156,
      "language_loss": 0.76362336,
      "learning_rate": 2.562559424830943e-07,
      "loss": 0.7853418,
      "num_input_tokens_seen": 151293665,
      "step": 7002,
      "time_per_iteration": 2.7500293254852295
    },
    {
      "auxiliary_loss_clip": 0.0114678,
      "auxiliary_loss_mlp": 0.01032746,
      "balance_loss_clip": 1.04249144,
      "balance_loss_mlp": 1.02493501,
      "epoch": 0.842060963145554,
      "flos": 16283586026880.0,
      "grad_norm": 2.596540097891948,
      "language_loss": 0.70447725,
      "learning_rate": 2.5587458603348256e-07,
      "loss": 0.72627252,
      "num_input_tokens_seen": 151310955,
      "step": 7003,
      "time_per_iteration": 2.7032132148742676
    },
    {
      "auxiliary_loss_clip": 0.01135663,
      "auxiliary_loss_mlp": 0.01027888,
      "balance_loss_clip": 1.04166651,
      "balance_loss_mlp": 1.01985335,
      "epoch": 0.8421812060361931,
      "flos": 21908238681600.0,
      "grad_norm": 3.3086450639090454,
      "language_loss": 0.83889663,
      "learning_rate": 2.554934941663085e-07,
      "loss": 0.8605321,
      "num_input_tokens_seen": 151328490,
      "step": 7004,
      "time_per_iteration": 2.798191785812378
    },
    {
      "auxiliary_loss_clip": 0.01139004,
      "auxiliary_loss_mlp": 0.01031076,
      "balance_loss_clip": 1.04163122,
      "balance_loss_mlp": 1.02317238,
      "epoch": 0.8423014489268322,
      "flos": 27777693502080.0,
      "grad_norm": 5.427896385370258,
      "language_loss": 0.73475546,
      "learning_rate": 2.5511266693938484e-07,
      "loss": 0.75645626,
      "num_input_tokens_seen": 151346950,
      "step": 7005,
      "time_per_iteration": 2.791378974914551
    },
    {
      "auxiliary_loss_clip": 0.01149695,
      "auxiliary_loss_mlp": 0.01029469,
      "balance_loss_clip": 1.04617429,
      "balance_loss_mlp": 1.02155924,
      "epoch": 0.8424216918174713,
      "flos": 25117610970240.0,
      "grad_norm": 1.5700655311271552,
      "language_loss": 0.77858615,
      "learning_rate": 2.547321044104822e-07,
      "loss": 0.80037773,
      "num_input_tokens_seen": 151368445,
      "step": 7006,
      "time_per_iteration": 2.746659994125366
    },
    {
      "auxiliary_loss_clip": 0.01173425,
      "auxiliary_loss_mlp": 0.01028388,
      "balance_loss_clip": 1.04848719,
      "balance_loss_mlp": 1.02019882,
      "epoch": 0.8425419347081103,
      "flos": 24748448941440.0,
      "grad_norm": 1.8282744800047266,
      "language_loss": 0.76476544,
      "learning_rate": 2.5435180663733113e-07,
      "loss": 0.78678358,
      "num_input_tokens_seen": 151388745,
      "step": 7007,
      "time_per_iteration": 2.6393163204193115
    },
    {
      "auxiliary_loss_clip": 0.01140532,
      "auxiliary_loss_mlp": 0.01025224,
      "balance_loss_clip": 1.03994155,
      "balance_loss_mlp": 1.01765418,
      "epoch": 0.8426621775987495,
      "flos": 24820916630400.0,
      "grad_norm": 5.9557870175957515,
      "language_loss": 0.71135461,
      "learning_rate": 2.539717736776241e-07,
      "loss": 0.7330122,
      "num_input_tokens_seen": 151404970,
      "step": 7008,
      "time_per_iteration": 2.763556957244873
    },
    {
      "auxiliary_loss_clip": 0.01160105,
      "auxiliary_loss_mlp": 0.01027055,
      "balance_loss_clip": 1.04704189,
      "balance_loss_mlp": 1.01971209,
      "epoch": 0.8427824204893886,
      "flos": 23550074467200.0,
      "grad_norm": 1.3671076509006939,
      "language_loss": 0.76213056,
      "learning_rate": 2.535920055890097e-07,
      "loss": 0.78400218,
      "num_input_tokens_seen": 151426265,
      "step": 7009,
      "time_per_iteration": 2.7219316959381104
    },
    {
      "auxiliary_loss_clip": 0.01127156,
      "auxiliary_loss_mlp": 0.01034442,
      "balance_loss_clip": 1.03951347,
      "balance_loss_mlp": 1.02661622,
      "epoch": 0.8429026633800276,
      "flos": 16143858120960.0,
      "grad_norm": 1.9866547259339356,
      "language_loss": 0.64634556,
      "learning_rate": 2.5321250242910006e-07,
      "loss": 0.66796148,
      "num_input_tokens_seen": 151444180,
      "step": 7010,
      "time_per_iteration": 2.7229745388031006
    },
    {
      "auxiliary_loss_clip": 0.01171576,
      "auxiliary_loss_mlp": 0.01023079,
      "balance_loss_clip": 1.04945302,
      "balance_loss_mlp": 1.0153482,
      "epoch": 0.8430229062706668,
      "flos": 22198540400640.0,
      "grad_norm": 1.8552264166717034,
      "language_loss": 0.8633191,
      "learning_rate": 2.5283326425546493e-07,
      "loss": 0.88526565,
      "num_input_tokens_seen": 151463290,
      "step": 7011,
      "time_per_iteration": 2.623727321624756
    },
    {
      "auxiliary_loss_clip": 0.01138816,
      "auxiliary_loss_mlp": 0.01029303,
      "balance_loss_clip": 1.04832196,
      "balance_loss_mlp": 1.02217436,
      "epoch": 0.8431431491613058,
      "flos": 35330317683840.0,
      "grad_norm": 1.8373258718431262,
      "language_loss": 0.69279736,
      "learning_rate": 2.5245429112563443e-07,
      "loss": 0.71447855,
      "num_input_tokens_seen": 151483965,
      "step": 7012,
      "time_per_iteration": 2.932521104812622
    },
    {
      "auxiliary_loss_clip": 0.01160743,
      "auxiliary_loss_mlp": 0.01033754,
      "balance_loss_clip": 1.04774535,
      "balance_loss_mlp": 1.02694464,
      "epoch": 0.8432633920519449,
      "flos": 25812374808960.0,
      "grad_norm": 2.6931368010026846,
      "language_loss": 0.82020903,
      "learning_rate": 2.5207558309709865e-07,
      "loss": 0.84215403,
      "num_input_tokens_seen": 151503700,
      "step": 7013,
      "time_per_iteration": 2.668044328689575
    },
    {
      "auxiliary_loss_clip": 0.01051386,
      "auxiliary_loss_mlp": 0.00875897,
      "balance_loss_clip": 1.00863242,
      "balance_loss_mlp": 1.0009079,
      "epoch": 0.8433836349425841,
      "flos": 64959531592320.0,
      "grad_norm": 0.6768402263956956,
      "language_loss": 0.56201214,
      "learning_rate": 2.516971402273065e-07,
      "loss": 0.58128494,
      "num_input_tokens_seen": 151569765,
      "step": 7014,
      "time_per_iteration": 3.310756206512451
    },
    {
      "auxiliary_loss_clip": 0.01148089,
      "auxiliary_loss_mlp": 0.01026687,
      "balance_loss_clip": 1.04130507,
      "balance_loss_mlp": 1.01893234,
      "epoch": 0.8435038778332231,
      "flos": 20229989483520.0,
      "grad_norm": 2.8623937179943892,
      "language_loss": 0.6731782,
      "learning_rate": 2.513189625736687e-07,
      "loss": 0.69492596,
      "num_input_tokens_seen": 151586660,
      "step": 7015,
      "time_per_iteration": 3.6246962547302246
    },
    {
      "auxiliary_loss_clip": 0.01148391,
      "auxiliary_loss_mlp": 0.01032224,
      "balance_loss_clip": 1.04578853,
      "balance_loss_mlp": 1.02423728,
      "epoch": 0.8436241207238622,
      "flos": 20992229020800.0,
      "grad_norm": 2.6351350131167632,
      "language_loss": 0.71584636,
      "learning_rate": 2.509410501935534e-07,
      "loss": 0.73765254,
      "num_input_tokens_seen": 151602295,
      "step": 7016,
      "time_per_iteration": 3.6498022079467773
    },
    {
      "auxiliary_loss_clip": 0.01154199,
      "auxiliary_loss_mlp": 0.01025938,
      "balance_loss_clip": 1.04437399,
      "balance_loss_mlp": 1.01837993,
      "epoch": 0.8437443636145013,
      "flos": 14682257804160.0,
      "grad_norm": 2.434143608297834,
      "language_loss": 0.75321954,
      "learning_rate": 2.5056340314429116e-07,
      "loss": 0.77502096,
      "num_input_tokens_seen": 151619760,
      "step": 7017,
      "time_per_iteration": 2.628679037094116
    },
    {
      "auxiliary_loss_clip": 0.01134694,
      "auxiliary_loss_mlp": 0.01024348,
      "balance_loss_clip": 1.04052317,
      "balance_loss_mlp": 1.01719594,
      "epoch": 0.8438646065051404,
      "flos": 21608814908160.0,
      "grad_norm": 2.6340175900083107,
      "language_loss": 0.80448306,
      "learning_rate": 2.5018602148316904e-07,
      "loss": 0.82607353,
      "num_input_tokens_seen": 151635795,
      "step": 7018,
      "time_per_iteration": 3.558633804321289
    },
    {
      "auxiliary_loss_clip": 0.01169346,
      "auxiliary_loss_mlp": 0.01030115,
      "balance_loss_clip": 1.04853654,
      "balance_loss_mlp": 1.02293277,
      "epoch": 0.8439848493957794,
      "flos": 23289937194240.0,
      "grad_norm": 1.7678820030050049,
      "language_loss": 0.80274832,
      "learning_rate": 2.498089052674359e-07,
      "loss": 0.82474297,
      "num_input_tokens_seen": 151653770,
      "step": 7019,
      "time_per_iteration": 2.6362640857696533
    },
    {
      "auxiliary_loss_clip": 0.0116247,
      "auxiliary_loss_mlp": 0.01033782,
      "balance_loss_clip": 1.04860353,
      "balance_loss_mlp": 1.02566433,
      "epoch": 0.8441050922864186,
      "flos": 19719339782400.0,
      "grad_norm": 2.886005673090779,
      "language_loss": 0.75134873,
      "learning_rate": 2.494320545543007e-07,
      "loss": 0.77331126,
      "num_input_tokens_seen": 151673340,
      "step": 7020,
      "time_per_iteration": 2.622389793395996
    },
    {
      "auxiliary_loss_clip": 0.01174313,
      "auxiliary_loss_mlp": 0.01033287,
      "balance_loss_clip": 1.04817283,
      "balance_loss_mlp": 1.02572381,
      "epoch": 0.8442253351770577,
      "flos": 21835268202240.0,
      "grad_norm": 2.868882436242306,
      "language_loss": 0.66836822,
      "learning_rate": 2.490554694009308e-07,
      "loss": 0.69044423,
      "num_input_tokens_seen": 151694205,
      "step": 7021,
      "time_per_iteration": 2.722134828567505
    },
    {
      "auxiliary_loss_clip": 0.01166057,
      "auxiliary_loss_mlp": 0.01026542,
      "balance_loss_clip": 1.04596567,
      "balance_loss_mlp": 1.01897776,
      "epoch": 0.8443455780676967,
      "flos": 34346365447680.0,
      "grad_norm": 1.5584384177557915,
      "language_loss": 0.78443599,
      "learning_rate": 2.4867914986445426e-07,
      "loss": 0.80636191,
      "num_input_tokens_seen": 151716595,
      "step": 7022,
      "time_per_iteration": 2.740840196609497
    },
    {
      "auxiliary_loss_clip": 0.01152582,
      "auxiliary_loss_mlp": 0.01026746,
      "balance_loss_clip": 1.04229581,
      "balance_loss_mlp": 1.01902092,
      "epoch": 0.8444658209583359,
      "flos": 48214599281280.0,
      "grad_norm": 17.988927177235613,
      "language_loss": 0.71627325,
      "learning_rate": 2.483030960019581e-07,
      "loss": 0.73806649,
      "num_input_tokens_seen": 151740525,
      "step": 7023,
      "time_per_iteration": 2.8599653244018555
    },
    {
      "auxiliary_loss_clip": 0.0103757,
      "auxiliary_loss_mlp": 0.01003807,
      "balance_loss_clip": 1.00803614,
      "balance_loss_mlp": 1.00276423,
      "epoch": 0.8445860638489749,
      "flos": 68484773105280.0,
      "grad_norm": 0.7492671801560133,
      "language_loss": 0.55438077,
      "learning_rate": 2.479273078704891e-07,
      "loss": 0.57479453,
      "num_input_tokens_seen": 151793890,
      "step": 7024,
      "time_per_iteration": 3.1828932762145996
    },
    {
      "auxiliary_loss_clip": 0.01030521,
      "auxiliary_loss_mlp": 0.01002962,
      "balance_loss_clip": 1.00757015,
      "balance_loss_mlp": 1.0020144,
      "epoch": 0.844706306739614,
      "flos": 62833331882880.0,
      "grad_norm": 0.7878065464225324,
      "language_loss": 0.64693606,
      "learning_rate": 2.475517855270552e-07,
      "loss": 0.6672709,
      "num_input_tokens_seen": 151853970,
      "step": 7025,
      "time_per_iteration": 4.267781019210815
    },
    {
      "auxiliary_loss_clip": 0.01171473,
      "auxiliary_loss_mlp": 0.01026453,
      "balance_loss_clip": 1.04923701,
      "balance_loss_mlp": 1.01881218,
      "epoch": 0.8448265496302532,
      "flos": 14976114969600.0,
      "grad_norm": 2.15401728686223,
      "language_loss": 0.72960627,
      "learning_rate": 2.4717652902862143e-07,
      "loss": 0.75158554,
      "num_input_tokens_seen": 151872945,
      "step": 7026,
      "time_per_iteration": 2.6544437408447266
    },
    {
      "auxiliary_loss_clip": 0.01156018,
      "auxiliary_loss_mlp": 0.01025115,
      "balance_loss_clip": 1.04479778,
      "balance_loss_mlp": 1.01753902,
      "epoch": 0.8449467925208922,
      "flos": 23441265192960.0,
      "grad_norm": 1.6844908918994657,
      "language_loss": 0.80912775,
      "learning_rate": 2.4680153843211495e-07,
      "loss": 0.83093911,
      "num_input_tokens_seen": 151892875,
      "step": 7027,
      "time_per_iteration": 2.769975185394287
    },
    {
      "auxiliary_loss_clip": 0.01152167,
      "auxiliary_loss_mlp": 0.01024516,
      "balance_loss_clip": 1.04769397,
      "balance_loss_mlp": 1.0169549,
      "epoch": 0.8450670354115313,
      "flos": 22748045639040.0,
      "grad_norm": 1.6687386391955474,
      "language_loss": 0.72411585,
      "learning_rate": 2.464268137944212e-07,
      "loss": 0.74588269,
      "num_input_tokens_seen": 151914170,
      "step": 7028,
      "time_per_iteration": 2.7142155170440674
    },
    {
      "auxiliary_loss_clip": 0.01116987,
      "auxiliary_loss_mlp": 0.01027266,
      "balance_loss_clip": 1.03942609,
      "balance_loss_mlp": 1.01913011,
      "epoch": 0.8451872783021703,
      "flos": 29825571605760.0,
      "grad_norm": 2.067227251942655,
      "language_loss": 0.78489429,
      "learning_rate": 2.46052355172385e-07,
      "loss": 0.80633676,
      "num_input_tokens_seen": 151932210,
      "step": 7029,
      "time_per_iteration": 2.870394229888916
    },
    {
      "auxiliary_loss_clip": 0.01171868,
      "auxiliary_loss_mlp": 0.01035116,
      "balance_loss_clip": 1.04809427,
      "balance_loss_mlp": 1.02671742,
      "epoch": 0.8453075211928095,
      "flos": 21870029589120.0,
      "grad_norm": 1.9435112752555226,
      "language_loss": 0.74317849,
      "learning_rate": 2.456781626228128e-07,
      "loss": 0.7652483,
      "num_input_tokens_seen": 151951715,
      "step": 7030,
      "time_per_iteration": 2.711498260498047
    },
    {
      "auxiliary_loss_clip": 0.01038898,
      "auxiliary_loss_mlp": 0.00875882,
      "balance_loss_clip": 1.00704324,
      "balance_loss_mlp": 1.00090551,
      "epoch": 0.8454277640834486,
      "flos": 58751869288320.0,
      "grad_norm": 0.9091190489027251,
      "language_loss": 0.66255379,
      "learning_rate": 2.453042362024675e-07,
      "loss": 0.6817016,
      "num_input_tokens_seen": 152004960,
      "step": 7031,
      "time_per_iteration": 3.332003116607666
    },
    {
      "auxiliary_loss_clip": 0.01169509,
      "auxiliary_loss_mlp": 0.01024638,
      "balance_loss_clip": 1.04685175,
      "balance_loss_mlp": 1.01691651,
      "epoch": 0.8455480069740876,
      "flos": 27090076469760.0,
      "grad_norm": 1.4886377321531834,
      "language_loss": 0.73122787,
      "learning_rate": 2.449305759680751e-07,
      "loss": 0.75316936,
      "num_input_tokens_seen": 152026285,
      "step": 7032,
      "time_per_iteration": 2.6380794048309326
    },
    {
      "auxiliary_loss_clip": 0.01138787,
      "auxiliary_loss_mlp": 0.01026542,
      "balance_loss_clip": 1.04589987,
      "balance_loss_mlp": 1.01884127,
      "epoch": 0.8456682498647268,
      "flos": 27198670262400.0,
      "grad_norm": 1.4392212821445851,
      "language_loss": 0.75189322,
      "learning_rate": 2.445571819763188e-07,
      "loss": 0.77354652,
      "num_input_tokens_seen": 152048585,
      "step": 7033,
      "time_per_iteration": 2.7439982891082764
    },
    {
      "auxiliary_loss_clip": 0.01169399,
      "auxiliary_loss_mlp": 0.01026866,
      "balance_loss_clip": 1.04721296,
      "balance_loss_mlp": 1.0194273,
      "epoch": 0.8457884927553658,
      "flos": 20631901737600.0,
      "grad_norm": 1.922486698582448,
      "language_loss": 0.58676052,
      "learning_rate": 2.4418405428384227e-07,
      "loss": 0.60872316,
      "num_input_tokens_seen": 152068795,
      "step": 7034,
      "time_per_iteration": 2.6012208461761475
    },
    {
      "auxiliary_loss_clip": 0.01169186,
      "auxiliary_loss_mlp": 0.00886765,
      "balance_loss_clip": 1.04683268,
      "balance_loss_mlp": 1.00056541,
      "epoch": 0.8459087356460049,
      "flos": 15299023259520.0,
      "grad_norm": 1.6205292237869209,
      "language_loss": 0.71729451,
      "learning_rate": 2.4381119294724864e-07,
      "loss": 0.737854,
      "num_input_tokens_seen": 152086240,
      "step": 7035,
      "time_per_iteration": 2.600574254989624
    },
    {
      "auxiliary_loss_clip": 0.0117161,
      "auxiliary_loss_mlp": 0.010274,
      "balance_loss_clip": 1.04761744,
      "balance_loss_mlp": 1.01969624,
      "epoch": 0.846028978536644,
      "flos": 18843155326080.0,
      "grad_norm": 3.310454555127814,
      "language_loss": 0.54027343,
      "learning_rate": 2.434385980231004e-07,
      "loss": 0.56226355,
      "num_input_tokens_seen": 152105080,
      "step": 7036,
      "time_per_iteration": 2.7120180130004883
    },
    {
      "auxiliary_loss_clip": 0.01160509,
      "auxiliary_loss_mlp": 0.0102748,
      "balance_loss_clip": 1.04556561,
      "balance_loss_mlp": 1.01937377,
      "epoch": 0.8461492214272831,
      "flos": 52661740285440.0,
      "grad_norm": 1.4619768338317003,
      "language_loss": 0.65511185,
      "learning_rate": 2.4306626956792043e-07,
      "loss": 0.67699176,
      "num_input_tokens_seen": 152130025,
      "step": 7037,
      "time_per_iteration": 2.8587746620178223
    },
    {
      "auxiliary_loss_clip": 0.01160359,
      "auxiliary_loss_mlp": 0.01023851,
      "balance_loss_clip": 1.04462028,
      "balance_loss_mlp": 1.01600146,
      "epoch": 0.8462694643179222,
      "flos": 18588405093120.0,
      "grad_norm": 1.7038865977418227,
      "language_loss": 0.7534917,
      "learning_rate": 2.4269420763819017e-07,
      "loss": 0.77533382,
      "num_input_tokens_seen": 152148070,
      "step": 7038,
      "time_per_iteration": 2.586080312728882
    },
    {
      "auxiliary_loss_clip": 0.01157488,
      "auxiliary_loss_mlp": 0.01022845,
      "balance_loss_clip": 1.04479837,
      "balance_loss_mlp": 1.01540303,
      "epoch": 0.8463897072085613,
      "flos": 24387080163840.0,
      "grad_norm": 2.9513360830637962,
      "language_loss": 0.83726835,
      "learning_rate": 2.4232241229035223e-07,
      "loss": 0.85907167,
      "num_input_tokens_seen": 152165825,
      "step": 7039,
      "time_per_iteration": 2.6202993392944336
    },
    {
      "auxiliary_loss_clip": 0.01058588,
      "auxiliary_loss_mlp": 0.01001042,
      "balance_loss_clip": 1.00774634,
      "balance_loss_mlp": 1.00008225,
      "epoch": 0.8465099500992004,
      "flos": 68702140258560.0,
      "grad_norm": 0.7459491622090274,
      "language_loss": 0.56702721,
      "learning_rate": 2.419508835808064e-07,
      "loss": 0.58762354,
      "num_input_tokens_seen": 152222380,
      "step": 7040,
      "time_per_iteration": 3.176034450531006
    },
    {
      "auxiliary_loss_clip": 0.01152967,
      "auxiliary_loss_mlp": 0.01025949,
      "balance_loss_clip": 1.04695809,
      "balance_loss_mlp": 1.01788425,
      "epoch": 0.8466301929898394,
      "flos": 13735724561280.0,
      "grad_norm": 2.0422267764500615,
      "language_loss": 0.62949455,
      "learning_rate": 2.415796215659134e-07,
      "loss": 0.65128368,
      "num_input_tokens_seen": 152239085,
      "step": 7041,
      "time_per_iteration": 2.6779727935791016
    },
    {
      "auxiliary_loss_clip": 0.01143682,
      "auxiliary_loss_mlp": 0.01029122,
      "balance_loss_clip": 1.04004765,
      "balance_loss_mlp": 1.02197576,
      "epoch": 0.8467504358804786,
      "flos": 19241260738560.0,
      "grad_norm": 2.172732540974891,
      "language_loss": 0.76838899,
      "learning_rate": 2.412086263019939e-07,
      "loss": 0.79011703,
      "num_input_tokens_seen": 152257110,
      "step": 7042,
      "time_per_iteration": 5.011329889297485
    },
    {
      "auxiliary_loss_clip": 0.01167824,
      "auxiliary_loss_mlp": 0.01027633,
      "balance_loss_clip": 1.04886651,
      "balance_loss_mlp": 1.02053702,
      "epoch": 0.8468706787711177,
      "flos": 21324115710720.0,
      "grad_norm": 2.076941735996314,
      "language_loss": 0.79961908,
      "learning_rate": 2.408378978453276e-07,
      "loss": 0.82157362,
      "num_input_tokens_seen": 152277230,
      "step": 7043,
      "time_per_iteration": 2.5901715755462646
    },
    {
      "auxiliary_loss_clip": 0.01057963,
      "auxiliary_loss_mlp": 0.01000925,
      "balance_loss_clip": 1.00755858,
      "balance_loss_mlp": 0.99994749,
      "epoch": 0.8469909216617567,
      "flos": 64877439058560.0,
      "grad_norm": 0.8472225969725274,
      "language_loss": 0.63921976,
      "learning_rate": 2.404674362521533e-07,
      "loss": 0.65980864,
      "num_input_tokens_seen": 152335725,
      "step": 7044,
      "time_per_iteration": 3.0960614681243896
    },
    {
      "auxiliary_loss_clip": 0.01159036,
      "auxiliary_loss_mlp": 0.01030675,
      "balance_loss_clip": 1.04720426,
      "balance_loss_mlp": 1.02339399,
      "epoch": 0.8471111645523959,
      "flos": 19280583152640.0,
      "grad_norm": 2.135775209380333,
      "language_loss": 0.74881291,
      "learning_rate": 2.4009724157866997e-07,
      "loss": 0.77071011,
      "num_input_tokens_seen": 152352785,
      "step": 7045,
      "time_per_iteration": 3.4429798126220703
    },
    {
      "auxiliary_loss_clip": 0.011689,
      "auxiliary_loss_mlp": 0.01020827,
      "balance_loss_clip": 1.04773831,
      "balance_loss_mlp": 1.01396382,
      "epoch": 0.8472314074430349,
      "flos": 22015826893440.0,
      "grad_norm": 2.0236886366092457,
      "language_loss": 0.76551765,
      "learning_rate": 2.3972731388103564e-07,
      "loss": 0.78741491,
      "num_input_tokens_seen": 152371265,
      "step": 7046,
      "time_per_iteration": 2.6399803161621094
    },
    {
      "auxiliary_loss_clip": 0.01023855,
      "auxiliary_loss_mlp": 0.01002982,
      "balance_loss_clip": 1.0064373,
      "balance_loss_mlp": 1.00198674,
      "epoch": 0.847351650333674,
      "flos": 57882580243200.0,
      "grad_norm": 0.8064397077185534,
      "language_loss": 0.62299466,
      "learning_rate": 2.393576532153687e-07,
      "loss": 0.64326298,
      "num_input_tokens_seen": 152435050,
      "step": 7047,
      "time_per_iteration": 3.45277738571167
    },
    {
      "auxiliary_loss_clip": 0.01054482,
      "auxiliary_loss_mlp": 0.01001126,
      "balance_loss_clip": 1.00796938,
      "balance_loss_mlp": 1.00017822,
      "epoch": 0.8474718932243132,
      "flos": 41284238313600.0,
      "grad_norm": 0.9553108945828013,
      "language_loss": 0.57768577,
      "learning_rate": 2.389882596377453e-07,
      "loss": 0.59824187,
      "num_input_tokens_seen": 152489315,
      "step": 7048,
      "time_per_iteration": 3.4355266094207764
    },
    {
      "auxiliary_loss_clip": 0.01167663,
      "auxiliary_loss_mlp": 0.01022764,
      "balance_loss_clip": 1.04565811,
      "balance_loss_mlp": 1.01496816,
      "epoch": 0.8475921361149522,
      "flos": 38180906974080.0,
      "grad_norm": 1.772407916983746,
      "language_loss": 0.76392424,
      "learning_rate": 2.386191332042031e-07,
      "loss": 0.78582853,
      "num_input_tokens_seen": 152511210,
      "step": 7049,
      "time_per_iteration": 2.7418925762176514
    },
    {
      "auxiliary_loss_clip": 0.0117332,
      "auxiliary_loss_mlp": 0.0102736,
      "balance_loss_clip": 1.04781151,
      "balance_loss_mlp": 1.01949835,
      "epoch": 0.8477123790055913,
      "flos": 25375054723200.0,
      "grad_norm": 1.703792571763092,
      "language_loss": 0.72609919,
      "learning_rate": 2.3825027397073794e-07,
      "loss": 0.748106,
      "num_input_tokens_seen": 152531685,
      "step": 7050,
      "time_per_iteration": 2.5952067375183105
    },
    {
      "auxiliary_loss_clip": 0.01159268,
      "auxiliary_loss_mlp": 0.01031537,
      "balance_loss_clip": 1.04882169,
      "balance_loss_mlp": 1.0235678,
      "epoch": 0.8478326218962304,
      "flos": 30225185389440.0,
      "grad_norm": 4.274128553900757,
      "language_loss": 0.66709846,
      "learning_rate": 2.3788168199330515e-07,
      "loss": 0.68900651,
      "num_input_tokens_seen": 152553245,
      "step": 7051,
      "time_per_iteration": 3.7055599689483643
    },
    {
      "auxiliary_loss_clip": 0.01135653,
      "auxiliary_loss_mlp": 0.01028332,
      "balance_loss_clip": 1.03917658,
      "balance_loss_mlp": 1.02120578,
      "epoch": 0.8479528647868695,
      "flos": 38213800853760.0,
      "grad_norm": 1.6771453918147232,
      "language_loss": 0.72508174,
      "learning_rate": 2.3751335732782074e-07,
      "loss": 0.74672157,
      "num_input_tokens_seen": 152574505,
      "step": 7052,
      "time_per_iteration": 2.781508684158325
    },
    {
      "auxiliary_loss_clip": 0.01161084,
      "auxiliary_loss_mlp": 0.01026894,
      "balance_loss_clip": 1.0489763,
      "balance_loss_mlp": 1.01981902,
      "epoch": 0.8480731076775085,
      "flos": 20957790856320.0,
      "grad_norm": 2.062098253200296,
      "language_loss": 0.79500782,
      "learning_rate": 2.371453000301582e-07,
      "loss": 0.81688762,
      "num_input_tokens_seen": 152593190,
      "step": 7053,
      "time_per_iteration": 2.647451639175415
    },
    {
      "auxiliary_loss_clip": 0.01139084,
      "auxiliary_loss_mlp": 0.01027295,
      "balance_loss_clip": 1.04323983,
      "balance_loss_mlp": 1.01956415,
      "epoch": 0.8481933505681477,
      "flos": 32596510487040.0,
      "grad_norm": 1.8705877717532537,
      "language_loss": 0.74481559,
      "learning_rate": 2.3677751015615222e-07,
      "loss": 0.76647937,
      "num_input_tokens_seen": 152615265,
      "step": 7054,
      "time_per_iteration": 2.84024977684021
    },
    {
      "auxiliary_loss_clip": 0.01140122,
      "auxiliary_loss_mlp": 0.01025781,
      "balance_loss_clip": 1.0423162,
      "balance_loss_mlp": 1.018062,
      "epoch": 0.8483135934587868,
      "flos": 20741177888640.0,
      "grad_norm": 2.182809998057388,
      "language_loss": 0.85067546,
      "learning_rate": 2.3640998776159593e-07,
      "loss": 0.87233448,
      "num_input_tokens_seen": 152632770,
      "step": 7055,
      "time_per_iteration": 2.6452085971832275
    },
    {
      "auxiliary_loss_clip": 0.01153165,
      "auxiliary_loss_mlp": 0.01029233,
      "balance_loss_clip": 1.04614186,
      "balance_loss_mlp": 1.02211034,
      "epoch": 0.8484338363494258,
      "flos": 21653057485440.0,
      "grad_norm": 1.709076462153538,
      "language_loss": 0.81464607,
      "learning_rate": 2.3604273290224253e-07,
      "loss": 0.83647007,
      "num_input_tokens_seen": 152653485,
      "step": 7056,
      "time_per_iteration": 2.693535327911377
    },
    {
      "auxiliary_loss_clip": 0.01154952,
      "auxiliary_loss_mlp": 0.0102386,
      "balance_loss_clip": 1.04744864,
      "balance_loss_mlp": 1.01596785,
      "epoch": 0.848554079240065,
      "flos": 15013964926080.0,
      "grad_norm": 3.5770172131713234,
      "language_loss": 0.74489135,
      "learning_rate": 2.356757456338039e-07,
      "loss": 0.76667953,
      "num_input_tokens_seen": 152670970,
      "step": 7057,
      "time_per_iteration": 2.6843185424804688
    },
    {
      "auxiliary_loss_clip": 0.01049371,
      "auxiliary_loss_mlp": 0.01001523,
      "balance_loss_clip": 1.01068091,
      "balance_loss_mlp": 1.00065887,
      "epoch": 0.848674322130704,
      "flos": 68060453742720.0,
      "grad_norm": 0.7499944406715173,
      "language_loss": 0.59018731,
      "learning_rate": 2.3530902601195147e-07,
      "loss": 0.61069626,
      "num_input_tokens_seen": 152739460,
      "step": 7058,
      "time_per_iteration": 3.3616864681243896
    },
    {
      "auxiliary_loss_clip": 0.01161802,
      "auxiliary_loss_mlp": 0.01028135,
      "balance_loss_clip": 1.04655313,
      "balance_loss_mlp": 1.02014244,
      "epoch": 0.8487945650213431,
      "flos": 18475788977280.0,
      "grad_norm": 2.4425252683331222,
      "language_loss": 0.78559017,
      "learning_rate": 2.34942574092317e-07,
      "loss": 0.80748957,
      "num_input_tokens_seen": 152754710,
      "step": 7059,
      "time_per_iteration": 2.599156141281128
    },
    {
      "auxiliary_loss_clip": 0.01164855,
      "auxiliary_loss_mlp": 0.01026008,
      "balance_loss_clip": 1.04693615,
      "balance_loss_mlp": 1.01820612,
      "epoch": 0.8489148079119821,
      "flos": 23473189405440.0,
      "grad_norm": 1.7461582501626225,
      "language_loss": 0.76356816,
      "learning_rate": 2.3457638993049045e-07,
      "loss": 0.78547674,
      "num_input_tokens_seen": 152772700,
      "step": 7060,
      "time_per_iteration": 2.630885601043701
    },
    {
      "auxiliary_loss_clip": 0.01127831,
      "auxiliary_loss_mlp": 0.01026682,
      "balance_loss_clip": 1.04571211,
      "balance_loss_mlp": 1.01808715,
      "epoch": 0.8490350508026213,
      "flos": 19937604775680.0,
      "grad_norm": 2.139902469584457,
      "language_loss": 0.6415152,
      "learning_rate": 2.3421047358202252e-07,
      "loss": 0.66306031,
      "num_input_tokens_seen": 152791550,
      "step": 7061,
      "time_per_iteration": 2.7053911685943604
    },
    {
      "auxiliary_loss_clip": 0.01162973,
      "auxiliary_loss_mlp": 0.01023373,
      "balance_loss_clip": 1.0463655,
      "balance_loss_mlp": 1.01606584,
      "epoch": 0.8491552936932604,
      "flos": 24279958828800.0,
      "grad_norm": 6.718214775625119,
      "language_loss": 0.83515537,
      "learning_rate": 2.3384482510242144e-07,
      "loss": 0.85701883,
      "num_input_tokens_seen": 152809410,
      "step": 7062,
      "time_per_iteration": 2.7005867958068848
    },
    {
      "auxiliary_loss_clip": 0.01169856,
      "auxiliary_loss_mlp": 0.01030488,
      "balance_loss_clip": 1.04576874,
      "balance_loss_mlp": 1.02281725,
      "epoch": 0.8492755365838994,
      "flos": 22522526098560.0,
      "grad_norm": 3.1742966880665047,
      "language_loss": 0.76907653,
      "learning_rate": 2.3347944454715575e-07,
      "loss": 0.79108,
      "num_input_tokens_seen": 152825800,
      "step": 7063,
      "time_per_iteration": 2.657243490219116
    },
    {
      "auxiliary_loss_clip": 0.01173923,
      "auxiliary_loss_mlp": 0.01027511,
      "balance_loss_clip": 1.04888582,
      "balance_loss_mlp": 1.01913047,
      "epoch": 0.8493957794745386,
      "flos": 26980441182720.0,
      "grad_norm": 1.872488169026968,
      "language_loss": 0.67253244,
      "learning_rate": 2.331143319716542e-07,
      "loss": 0.69454682,
      "num_input_tokens_seen": 152845330,
      "step": 7064,
      "time_per_iteration": 2.65252423286438
    },
    {
      "auxiliary_loss_clip": 0.01147071,
      "auxiliary_loss_mlp": 0.01028366,
      "balance_loss_clip": 1.04337502,
      "balance_loss_mlp": 1.02034914,
      "epoch": 0.8495160223651776,
      "flos": 29861985018240.0,
      "grad_norm": 1.978850623172874,
      "language_loss": 0.658144,
      "learning_rate": 2.3274948743130363e-07,
      "loss": 0.67989838,
      "num_input_tokens_seen": 152865165,
      "step": 7065,
      "time_per_iteration": 2.778506278991699
    },
    {
      "auxiliary_loss_clip": 0.01168717,
      "auxiliary_loss_mlp": 0.01026241,
      "balance_loss_clip": 1.04582512,
      "balance_loss_mlp": 1.01852822,
      "epoch": 0.8496362652558167,
      "flos": 23075443128960.0,
      "grad_norm": 1.6472723156254125,
      "language_loss": 0.79395187,
      "learning_rate": 2.3238491098145085e-07,
      "loss": 0.81590152,
      "num_input_tokens_seen": 152884695,
      "step": 7066,
      "time_per_iteration": 2.622873544692993
    },
    {
      "auxiliary_loss_clip": 0.01163286,
      "auxiliary_loss_mlp": 0.01029208,
      "balance_loss_clip": 1.04859006,
      "balance_loss_mlp": 1.02131057,
      "epoch": 0.8497565081464559,
      "flos": 14609107756800.0,
      "grad_norm": 2.2814151400669362,
      "language_loss": 0.7322135,
      "learning_rate": 2.3202060267740141e-07,
      "loss": 0.75413841,
      "num_input_tokens_seen": 152902220,
      "step": 7067,
      "time_per_iteration": 3.6413137912750244
    },
    {
      "auxiliary_loss_clip": 0.0112523,
      "auxiliary_loss_mlp": 0.01022228,
      "balance_loss_clip": 1.03819156,
      "balance_loss_mlp": 1.01463437,
      "epoch": 0.8498767510370949,
      "flos": 21136446126720.0,
      "grad_norm": 2.1046222114111868,
      "language_loss": 0.77202296,
      "learning_rate": 2.3165656257442044e-07,
      "loss": 0.79349756,
      "num_input_tokens_seen": 152920740,
      "step": 7068,
      "time_per_iteration": 3.7968335151672363
    },
    {
      "auxiliary_loss_clip": 0.0115749,
      "auxiliary_loss_mlp": 0.01028765,
      "balance_loss_clip": 1.04647124,
      "balance_loss_mlp": 1.02120733,
      "epoch": 0.849996993927734,
      "flos": 23654538195840.0,
      "grad_norm": 1.961718145902824,
      "language_loss": 0.90384471,
      "learning_rate": 2.31292790727734e-07,
      "loss": 0.92570728,
      "num_input_tokens_seen": 152938305,
      "step": 7069,
      "time_per_iteration": 2.6188793182373047
    },
    {
      "auxiliary_loss_clip": 0.01166885,
      "auxiliary_loss_mlp": 0.01026054,
      "balance_loss_clip": 1.04468966,
      "balance_loss_mlp": 1.01848471,
      "epoch": 0.8501172368183731,
      "flos": 20558069331840.0,
      "grad_norm": 2.2454418098892606,
      "language_loss": 0.80605465,
      "learning_rate": 2.3092928719252392e-07,
      "loss": 0.82798409,
      "num_input_tokens_seen": 152956705,
      "step": 7070,
      "time_per_iteration": 2.61350679397583
    },
    {
      "auxiliary_loss_clip": 0.01159499,
      "auxiliary_loss_mlp": 0.0103338,
      "balance_loss_clip": 1.04625821,
      "balance_loss_mlp": 1.02575052,
      "epoch": 0.8502374797090122,
      "flos": 22272624201600.0,
      "grad_norm": 2.4986866617463948,
      "language_loss": 0.78247529,
      "learning_rate": 2.3056605202393475e-07,
      "loss": 0.80440408,
      "num_input_tokens_seen": 152974265,
      "step": 7071,
      "time_per_iteration": 3.4363372325897217
    },
    {
      "auxiliary_loss_clip": 0.01153915,
      "auxiliary_loss_mlp": 0.008867,
      "balance_loss_clip": 1.04159021,
      "balance_loss_mlp": 1.00055218,
      "epoch": 0.8503577225996513,
      "flos": 23659817495040.0,
      "grad_norm": 2.017847516630156,
      "language_loss": 0.66579634,
      "learning_rate": 2.3020308527706888e-07,
      "loss": 0.68620253,
      "num_input_tokens_seen": 152993680,
      "step": 7072,
      "time_per_iteration": 2.6561062335968018
    },
    {
      "auxiliary_loss_clip": 0.01154591,
      "auxiliary_loss_mlp": 0.01026536,
      "balance_loss_clip": 1.04291177,
      "balance_loss_mlp": 1.0192883,
      "epoch": 0.8504779654902904,
      "flos": 26758513002240.0,
      "grad_norm": 1.729089924976595,
      "language_loss": 0.88885868,
      "learning_rate": 2.2984038700698715e-07,
      "loss": 0.91066998,
      "num_input_tokens_seen": 153012990,
      "step": 7073,
      "time_per_iteration": 2.7001893520355225
    },
    {
      "auxiliary_loss_clip": 0.01158535,
      "auxiliary_loss_mlp": 0.01026229,
      "balance_loss_clip": 1.04803395,
      "balance_loss_mlp": 1.01893079,
      "epoch": 0.8505982083809295,
      "flos": 26468247196800.0,
      "grad_norm": 2.23488864273347,
      "language_loss": 0.79182732,
      "learning_rate": 2.2947795726871222e-07,
      "loss": 0.81367499,
      "num_input_tokens_seen": 153034015,
      "step": 7074,
      "time_per_iteration": 2.684793472290039
    },
    {
      "auxiliary_loss_clip": 0.01158889,
      "auxiliary_loss_mlp": 0.0088592,
      "balance_loss_clip": 1.04952979,
      "balance_loss_mlp": 1.0005424,
      "epoch": 0.8507184512715685,
      "flos": 20303390926080.0,
      "grad_norm": 3.141262674074165,
      "language_loss": 0.85465431,
      "learning_rate": 2.2911579611722253e-07,
      "loss": 0.8751024,
      "num_input_tokens_seen": 153053160,
      "step": 7075,
      "time_per_iteration": 2.6319289207458496
    },
    {
      "auxiliary_loss_clip": 0.01148814,
      "auxiliary_loss_mlp": 0.0103139,
      "balance_loss_clip": 1.04412794,
      "balance_loss_mlp": 1.02415752,
      "epoch": 0.8508386941622077,
      "flos": 19025186474880.0,
      "grad_norm": 2.084174423289986,
      "language_loss": 0.8732208,
      "learning_rate": 2.2875390360745905e-07,
      "loss": 0.89502287,
      "num_input_tokens_seen": 153072565,
      "step": 7076,
      "time_per_iteration": 2.6766128540039062
    },
    {
      "auxiliary_loss_clip": 0.01149031,
      "auxiliary_loss_mlp": 0.01024228,
      "balance_loss_clip": 1.04393733,
      "balance_loss_mlp": 1.01653266,
      "epoch": 0.8509589370528468,
      "flos": 16433405654400.0,
      "grad_norm": 1.7937151095436548,
      "language_loss": 0.77415717,
      "learning_rate": 2.2839227979432008e-07,
      "loss": 0.79588974,
      "num_input_tokens_seen": 153090215,
      "step": 7077,
      "time_per_iteration": 3.6437108516693115
    },
    {
      "auxiliary_loss_clip": 0.0115258,
      "auxiliary_loss_mlp": 0.01024809,
      "balance_loss_clip": 1.04508281,
      "balance_loss_mlp": 1.01763868,
      "epoch": 0.8510791799434858,
      "flos": 18259714713600.0,
      "grad_norm": 2.2403107849446795,
      "language_loss": 0.84907383,
      "learning_rate": 2.2803092473266373e-07,
      "loss": 0.8708477,
      "num_input_tokens_seen": 153107740,
      "step": 7078,
      "time_per_iteration": 2.6027791500091553
    },
    {
      "auxiliary_loss_clip": 0.01173934,
      "auxiliary_loss_mlp": 0.01028127,
      "balance_loss_clip": 1.04978454,
      "balance_loss_mlp": 1.02036071,
      "epoch": 0.851199422834125,
      "flos": 23441372933760.0,
      "grad_norm": 2.1703730307552007,
      "language_loss": 0.86574483,
      "learning_rate": 2.2766983847730724e-07,
      "loss": 0.88776541,
      "num_input_tokens_seen": 153127410,
      "step": 7079,
      "time_per_iteration": 2.815622568130493
    },
    {
      "auxiliary_loss_clip": 0.01150643,
      "auxiliary_loss_mlp": 0.0102873,
      "balance_loss_clip": 1.04300952,
      "balance_loss_mlp": 1.02098703,
      "epoch": 0.851319665724764,
      "flos": 16289404030080.0,
      "grad_norm": 1.8627407181951956,
      "language_loss": 0.66507673,
      "learning_rate": 2.2730902108302663e-07,
      "loss": 0.68687046,
      "num_input_tokens_seen": 153144325,
      "step": 7080,
      "time_per_iteration": 2.7079408168792725
    },
    {
      "auxiliary_loss_clip": 0.01144443,
      "auxiliary_loss_mlp": 0.01030198,
      "balance_loss_clip": 1.04164422,
      "balance_loss_mlp": 1.02249146,
      "epoch": 0.8514399086154031,
      "flos": 18989347680000.0,
      "grad_norm": 1.6195955340451547,
      "language_loss": 0.68565333,
      "learning_rate": 2.269484726045583e-07,
      "loss": 0.70739973,
      "num_input_tokens_seen": 153163240,
      "step": 7081,
      "time_per_iteration": 2.6816539764404297
    },
    {
      "auxiliary_loss_clip": 0.0114719,
      "auxiliary_loss_mlp": 0.01028235,
      "balance_loss_clip": 1.0451771,
      "balance_loss_mlp": 1.02071309,
      "epoch": 0.8515601515060423,
      "flos": 24571194301440.0,
      "grad_norm": 1.7719955732232986,
      "language_loss": 0.79221272,
      "learning_rate": 2.2658819309659672e-07,
      "loss": 0.81396705,
      "num_input_tokens_seen": 153183440,
      "step": 7082,
      "time_per_iteration": 2.7665858268737793
    },
    {
      "auxiliary_loss_clip": 0.01148814,
      "auxiliary_loss_mlp": 0.01024896,
      "balance_loss_clip": 1.04701233,
      "balance_loss_mlp": 1.0179255,
      "epoch": 0.8516803943966813,
      "flos": 19529443555200.0,
      "grad_norm": 4.824190278250481,
      "language_loss": 0.84972048,
      "learning_rate": 2.2622818261379706e-07,
      "loss": 0.87145758,
      "num_input_tokens_seen": 153200460,
      "step": 7083,
      "time_per_iteration": 2.655116319656372
    },
    {
      "auxiliary_loss_clip": 0.01149067,
      "auxiliary_loss_mlp": 0.01027957,
      "balance_loss_clip": 1.04333425,
      "balance_loss_mlp": 1.0199995,
      "epoch": 0.8518006372873204,
      "flos": 20265792364800.0,
      "grad_norm": 3.158242795168525,
      "language_loss": 0.75008965,
      "learning_rate": 2.2586844121077142e-07,
      "loss": 0.77185994,
      "num_input_tokens_seen": 153218970,
      "step": 7084,
      "time_per_iteration": 2.700821876525879
    },
    {
      "auxiliary_loss_clip": 0.01134961,
      "auxiliary_loss_mlp": 0.01024565,
      "balance_loss_clip": 1.03942502,
      "balance_loss_mlp": 1.01691186,
      "epoch": 0.8519208801779595,
      "flos": 24133227770880.0,
      "grad_norm": 1.9866409577136526,
      "language_loss": 0.72098929,
      "learning_rate": 2.2550896894209215e-07,
      "loss": 0.74258459,
      "num_input_tokens_seen": 153238485,
      "step": 7085,
      "time_per_iteration": 2.7622230052948
    },
    {
      "auxiliary_loss_clip": 0.01035361,
      "auxiliary_loss_mlp": 0.01002449,
      "balance_loss_clip": 1.00954103,
      "balance_loss_mlp": 1.00131702,
      "epoch": 0.8520411230685986,
      "flos": 63035223252480.0,
      "grad_norm": 0.679833334648859,
      "language_loss": 0.56569457,
      "learning_rate": 2.2514976586229184e-07,
      "loss": 0.58607268,
      "num_input_tokens_seen": 153306430,
      "step": 7086,
      "time_per_iteration": 3.5628719329833984
    },
    {
      "auxiliary_loss_clip": 0.01058599,
      "auxiliary_loss_mlp": 0.01000779,
      "balance_loss_clip": 1.00891793,
      "balance_loss_mlp": 0.9998312,
      "epoch": 0.8521613659592376,
      "flos": 65836865283840.0,
      "grad_norm": 0.7874457615093943,
      "language_loss": 0.54710674,
      "learning_rate": 2.247908320258609e-07,
      "loss": 0.56770051,
      "num_input_tokens_seen": 153366520,
      "step": 7087,
      "time_per_iteration": 3.2278928756713867
    },
    {
      "auxiliary_loss_clip": 0.01123943,
      "auxiliary_loss_mlp": 0.01028767,
      "balance_loss_clip": 1.04250121,
      "balance_loss_mlp": 1.02053523,
      "epoch": 0.8522816088498768,
      "flos": 23112323418240.0,
      "grad_norm": 2.1839164443069037,
      "language_loss": 0.79423898,
      "learning_rate": 2.2443216748724914e-07,
      "loss": 0.8157661,
      "num_input_tokens_seen": 153387230,
      "step": 7088,
      "time_per_iteration": 2.749204397201538
    },
    {
      "auxiliary_loss_clip": 0.01164988,
      "auxiliary_loss_mlp": 0.00886669,
      "balance_loss_clip": 1.04777026,
      "balance_loss_mlp": 1.00060701,
      "epoch": 0.8524018517405159,
      "flos": 31758140073600.0,
      "grad_norm": 2.617695017993812,
      "language_loss": 0.74378788,
      "learning_rate": 2.2407377230086588e-07,
      "loss": 0.76430452,
      "num_input_tokens_seen": 153409585,
      "step": 7089,
      "time_per_iteration": 2.77158522605896
    },
    {
      "auxiliary_loss_clip": 0.01136521,
      "auxiliary_loss_mlp": 0.01028383,
      "balance_loss_clip": 1.04323363,
      "balance_loss_mlp": 1.02036047,
      "epoch": 0.8525220946311549,
      "flos": 18690318956160.0,
      "grad_norm": 2.837247231889547,
      "language_loss": 0.83633405,
      "learning_rate": 2.23715646521079e-07,
      "loss": 0.85798311,
      "num_input_tokens_seen": 153427105,
      "step": 7090,
      "time_per_iteration": 2.734589099884033
    },
    {
      "auxiliary_loss_clip": 0.01164104,
      "auxiliary_loss_mlp": 0.00886845,
      "balance_loss_clip": 1.04580307,
      "balance_loss_mlp": 1.00060582,
      "epoch": 0.852642337521794,
      "flos": 21793216354560.0,
      "grad_norm": 2.1994691214461306,
      "language_loss": 0.84379095,
      "learning_rate": 2.2335779020221724e-07,
      "loss": 0.86430049,
      "num_input_tokens_seen": 153443725,
      "step": 7091,
      "time_per_iteration": 2.6478679180145264
    },
    {
      "auxiliary_loss_clip": 0.01051317,
      "auxiliary_loss_mlp": 0.01002456,
      "balance_loss_clip": 1.00916374,
      "balance_loss_mlp": 1.00152051,
      "epoch": 0.8527625804124331,
      "flos": 69040132260480.0,
      "grad_norm": 0.7999501821848276,
      "language_loss": 0.5639987,
      "learning_rate": 2.2300020339856497e-07,
      "loss": 0.58453643,
      "num_input_tokens_seen": 153506410,
      "step": 7092,
      "time_per_iteration": 3.2349836826324463
    },
    {
      "auxiliary_loss_clip": 0.01150032,
      "auxiliary_loss_mlp": 0.01023205,
      "balance_loss_clip": 1.04618216,
      "balance_loss_mlp": 1.01592147,
      "epoch": 0.8528828233030722,
      "flos": 26979399688320.0,
      "grad_norm": 2.3402350972913424,
      "language_loss": 0.7813471,
      "learning_rate": 2.2264288616436966e-07,
      "loss": 0.80307949,
      "num_input_tokens_seen": 153526665,
      "step": 7093,
      "time_per_iteration": 3.6311798095703125
    },
    {
      "auxiliary_loss_clip": 0.01148187,
      "auxiliary_loss_mlp": 0.01029187,
      "balance_loss_clip": 1.04553652,
      "balance_loss_mlp": 1.02162302,
      "epoch": 0.8530030661937112,
      "flos": 17487598936320.0,
      "grad_norm": 3.364977392161197,
      "language_loss": 0.72577298,
      "learning_rate": 2.222858385538351e-07,
      "loss": 0.74754667,
      "num_input_tokens_seen": 153543465,
      "step": 7094,
      "time_per_iteration": 3.622035026550293
    },
    {
      "auxiliary_loss_clip": 0.01157591,
      "auxiliary_loss_mlp": 0.01028752,
      "balance_loss_clip": 1.04472411,
      "balance_loss_mlp": 1.02160287,
      "epoch": 0.8531233090843504,
      "flos": 22160798184960.0,
      "grad_norm": 1.753225153467789,
      "language_loss": 0.67894506,
      "learning_rate": 2.2192906062112527e-07,
      "loss": 0.70080847,
      "num_input_tokens_seen": 153563340,
      "step": 7095,
      "time_per_iteration": 2.651550531387329
    },
    {
      "auxiliary_loss_clip": 0.0116867,
      "auxiliary_loss_mlp": 0.01027336,
      "balance_loss_clip": 1.04547238,
      "balance_loss_mlp": 1.01946187,
      "epoch": 0.8532435519749895,
      "flos": 37635388145280.0,
      "grad_norm": 1.6600288650271715,
      "language_loss": 0.70779467,
      "learning_rate": 2.2157255242036377e-07,
      "loss": 0.72975469,
      "num_input_tokens_seen": 153587005,
      "step": 7096,
      "time_per_iteration": 2.7323553562164307
    },
    {
      "auxiliary_loss_clip": 0.01138047,
      "auxiliary_loss_mlp": 0.01034831,
      "balance_loss_clip": 1.04419565,
      "balance_loss_mlp": 1.02739871,
      "epoch": 0.8533637948656285,
      "flos": 21398163598080.0,
      "grad_norm": 1.558393645355202,
      "language_loss": 0.74312037,
      "learning_rate": 2.2121631400563135e-07,
      "loss": 0.76484913,
      "num_input_tokens_seen": 153606835,
      "step": 7097,
      "time_per_iteration": 3.5722343921661377
    },
    {
      "auxiliary_loss_clip": 0.01054167,
      "auxiliary_loss_mlp": 0.01000492,
      "balance_loss_clip": 1.01032698,
      "balance_loss_mlp": 0.99967498,
      "epoch": 0.8534840377562677,
      "flos": 53345122490880.0,
      "grad_norm": 0.7746815256437081,
      "language_loss": 0.52934396,
      "learning_rate": 2.208603454309701e-07,
      "loss": 0.54989064,
      "num_input_tokens_seen": 153664925,
      "step": 7098,
      "time_per_iteration": 3.2005293369293213
    },
    {
      "auxiliary_loss_clip": 0.01130771,
      "auxiliary_loss_mlp": 0.01031055,
      "balance_loss_clip": 1.04243207,
      "balance_loss_mlp": 1.02361345,
      "epoch": 0.8536042806469067,
      "flos": 20814148368000.0,
      "grad_norm": 1.8864169484395297,
      "language_loss": 0.70596153,
      "learning_rate": 2.2050464675037994e-07,
      "loss": 0.72757983,
      "num_input_tokens_seen": 153683550,
      "step": 7099,
      "time_per_iteration": 2.7356624603271484
    },
    {
      "auxiliary_loss_clip": 0.01150768,
      "auxiliary_loss_mlp": 0.01030724,
      "balance_loss_clip": 1.04447854,
      "balance_loss_mlp": 1.02298141,
      "epoch": 0.8537245235375458,
      "flos": 24681368292480.0,
      "grad_norm": 1.8226215597232527,
      "language_loss": 0.72628284,
      "learning_rate": 2.2014921801782016e-07,
      "loss": 0.74809778,
      "num_input_tokens_seen": 153703040,
      "step": 7100,
      "time_per_iteration": 2.7560532093048096
    },
    {
      "auxiliary_loss_clip": 0.01150648,
      "auxiliary_loss_mlp": 0.01023864,
      "balance_loss_clip": 1.04007256,
      "balance_loss_mlp": 1.01661587,
      "epoch": 0.853844766428185,
      "flos": 24384817607040.0,
      "grad_norm": 1.8438465622096132,
      "language_loss": 0.7392388,
      "learning_rate": 2.1979405928720872e-07,
      "loss": 0.76098394,
      "num_input_tokens_seen": 153722695,
      "step": 7101,
      "time_per_iteration": 2.739229917526245
    },
    {
      "auxiliary_loss_clip": 0.01156189,
      "auxiliary_loss_mlp": 0.01022711,
      "balance_loss_clip": 1.04625106,
      "balance_loss_mlp": 1.01523089,
      "epoch": 0.853965009318824,
      "flos": 20955707867520.0,
      "grad_norm": 1.6210474160282085,
      "language_loss": 0.79453206,
      "learning_rate": 2.1943917061242257e-07,
      "loss": 0.81632113,
      "num_input_tokens_seen": 153742550,
      "step": 7102,
      "time_per_iteration": 2.7007689476013184
    },
    {
      "auxiliary_loss_clip": 0.0116882,
      "auxiliary_loss_mlp": 0.00887674,
      "balance_loss_clip": 1.04767346,
      "balance_loss_mlp": 1.00054264,
      "epoch": 0.8540852522094631,
      "flos": 24201816791040.0,
      "grad_norm": 1.607715178447004,
      "language_loss": 0.6664505,
      "learning_rate": 2.1908455204729903e-07,
      "loss": 0.68701547,
      "num_input_tokens_seen": 153761700,
      "step": 7103,
      "time_per_iteration": 3.6740429401397705
    },
    {
      "auxiliary_loss_clip": 0.01151648,
      "auxiliary_loss_mlp": 0.01025333,
      "balance_loss_clip": 1.04375505,
      "balance_loss_mlp": 1.01775682,
      "epoch": 0.8542054951001022,
      "flos": 25082921410560.0,
      "grad_norm": 2.8207515548978965,
      "language_loss": 0.78582203,
      "learning_rate": 2.1873020364563265e-07,
      "loss": 0.8075918,
      "num_input_tokens_seen": 153780765,
      "step": 7104,
      "time_per_iteration": 2.740203619003296
    },
    {
      "auxiliary_loss_clip": 0.01159927,
      "auxiliary_loss_mlp": 0.01024488,
      "balance_loss_clip": 1.04772365,
      "balance_loss_mlp": 1.01704931,
      "epoch": 0.8543257379907413,
      "flos": 24316551809280.0,
      "grad_norm": 2.4466354720217547,
      "language_loss": 0.76441622,
      "learning_rate": 2.183761254611789e-07,
      "loss": 0.78626037,
      "num_input_tokens_seen": 153801090,
      "step": 7105,
      "time_per_iteration": 2.637840747833252
    },
    {
      "auxiliary_loss_clip": 0.01162563,
      "auxiliary_loss_mlp": 0.01024782,
      "balance_loss_clip": 1.04879689,
      "balance_loss_mlp": 1.01751912,
      "epoch": 0.8544459808813804,
      "flos": 55286630467200.0,
      "grad_norm": 1.7176883867701,
      "language_loss": 0.70253414,
      "learning_rate": 2.1802231754764987e-07,
      "loss": 0.72440755,
      "num_input_tokens_seen": 153826530,
      "step": 7106,
      "time_per_iteration": 2.90492844581604
    },
    {
      "auxiliary_loss_clip": 0.01151029,
      "auxiliary_loss_mlp": 0.01022767,
      "balance_loss_clip": 1.04325318,
      "balance_loss_mlp": 1.01497626,
      "epoch": 0.8545662237720195,
      "flos": 25776248705280.0,
      "grad_norm": 2.9927303413124187,
      "language_loss": 0.76859403,
      "learning_rate": 2.17668779958718e-07,
      "loss": 0.79033196,
      "num_input_tokens_seen": 153849110,
      "step": 7107,
      "time_per_iteration": 2.726970911026001
    },
    {
      "auxiliary_loss_clip": 0.01172043,
      "auxiliary_loss_mlp": 0.01023392,
      "balance_loss_clip": 1.04939044,
      "balance_loss_mlp": 1.01540482,
      "epoch": 0.8546864666626586,
      "flos": 11108320427520.0,
      "grad_norm": 2.1673862241623634,
      "language_loss": 0.80533695,
      "learning_rate": 2.1731551274801553e-07,
      "loss": 0.82729125,
      "num_input_tokens_seen": 153865550,
      "step": 7108,
      "time_per_iteration": 2.586155414581299
    },
    {
      "auxiliary_loss_clip": 0.01150203,
      "auxiliary_loss_mlp": 0.01024734,
      "balance_loss_clip": 1.04324865,
      "balance_loss_mlp": 1.01699698,
      "epoch": 0.8548067095532976,
      "flos": 25520169669120.0,
      "grad_norm": 3.493526600512111,
      "language_loss": 0.61765468,
      "learning_rate": 2.169625159691324e-07,
      "loss": 0.63940406,
      "num_input_tokens_seen": 153885425,
      "step": 7109,
      "time_per_iteration": 2.7151148319244385
    },
    {
      "auxiliary_loss_clip": 0.01138431,
      "auxiliary_loss_mlp": 0.01024983,
      "balance_loss_clip": 1.04075408,
      "balance_loss_mlp": 1.01687682,
      "epoch": 0.8549269524439368,
      "flos": 24717853532160.0,
      "grad_norm": 1.970339763197462,
      "language_loss": 0.73975283,
      "learning_rate": 2.1660978967561784e-07,
      "loss": 0.76138699,
      "num_input_tokens_seen": 153904760,
      "step": 7110,
      "time_per_iteration": 2.749830722808838
    },
    {
      "auxiliary_loss_clip": 0.01169526,
      "auxiliary_loss_mlp": 0.01024233,
      "balance_loss_clip": 1.04700518,
      "balance_loss_mlp": 1.01678848,
      "epoch": 0.8550471953345758,
      "flos": 19825599191040.0,
      "grad_norm": 2.2562878045216896,
      "language_loss": 0.79149234,
      "learning_rate": 2.1625733392098035e-07,
      "loss": 0.81342995,
      "num_input_tokens_seen": 153920370,
      "step": 7111,
      "time_per_iteration": 2.554213047027588
    },
    {
      "auxiliary_loss_clip": 0.01168345,
      "auxiliary_loss_mlp": 0.01021626,
      "balance_loss_clip": 1.04631817,
      "balance_loss_mlp": 1.01447093,
      "epoch": 0.8551674382252149,
      "flos": 22820441500800.0,
      "grad_norm": 1.6982162316600433,
      "language_loss": 0.79758811,
      "learning_rate": 2.159051487586867e-07,
      "loss": 0.81948781,
      "num_input_tokens_seen": 153940500,
      "step": 7112,
      "time_per_iteration": 2.657691240310669
    },
    {
      "auxiliary_loss_clip": 0.01156858,
      "auxiliary_loss_mlp": 0.01028982,
      "balance_loss_clip": 1.047858,
      "balance_loss_mlp": 1.02084565,
      "epoch": 0.8552876811158541,
      "flos": 20631255292800.0,
      "grad_norm": 2.0935080109996957,
      "language_loss": 0.72508228,
      "learning_rate": 2.155532342421642e-07,
      "loss": 0.74694061,
      "num_input_tokens_seen": 153958500,
      "step": 7113,
      "time_per_iteration": 2.6163330078125
    },
    {
      "auxiliary_loss_clip": 0.01163726,
      "auxiliary_loss_mlp": 0.01033399,
      "balance_loss_clip": 1.0469774,
      "balance_loss_mlp": 1.02518523,
      "epoch": 0.8554079240064931,
      "flos": 23112359331840.0,
      "grad_norm": 1.9076864306838532,
      "language_loss": 0.78569978,
      "learning_rate": 2.1520159042479636e-07,
      "loss": 0.80767101,
      "num_input_tokens_seen": 153976790,
      "step": 7114,
      "time_per_iteration": 2.6423115730285645
    },
    {
      "auxiliary_loss_clip": 0.0116216,
      "auxiliary_loss_mlp": 0.01030501,
      "balance_loss_clip": 1.04887557,
      "balance_loss_mlp": 1.02308607,
      "epoch": 0.8555281668971322,
      "flos": 22128047959680.0,
      "grad_norm": 2.0516618658825245,
      "language_loss": 0.70943755,
      "learning_rate": 2.148502173599287e-07,
      "loss": 0.73136413,
      "num_input_tokens_seen": 153994930,
      "step": 7115,
      "time_per_iteration": 2.6425068378448486
    },
    {
      "auxiliary_loss_clip": 0.01145154,
      "auxiliary_loss_mlp": 0.01027097,
      "balance_loss_clip": 1.04318416,
      "balance_loss_mlp": 1.01951504,
      "epoch": 0.8556484097877713,
      "flos": 31139040234240.0,
      "grad_norm": 2.1564075074540057,
      "language_loss": 0.65705681,
      "learning_rate": 2.1449911510086372e-07,
      "loss": 0.67877936,
      "num_input_tokens_seen": 154014400,
      "step": 7116,
      "time_per_iteration": 2.7551114559173584
    },
    {
      "auxiliary_loss_clip": 0.01157358,
      "auxiliary_loss_mlp": 0.01024391,
      "balance_loss_clip": 1.04532814,
      "balance_loss_mlp": 1.01646972,
      "epoch": 0.8557686526784104,
      "flos": 24316551809280.0,
      "grad_norm": 1.8221116602696705,
      "language_loss": 0.76941758,
      "learning_rate": 2.141482837008628e-07,
      "loss": 0.79123515,
      "num_input_tokens_seen": 154034940,
      "step": 7117,
      "time_per_iteration": 2.677107810974121
    },
    {
      "auxiliary_loss_clip": 0.0115278,
      "auxiliary_loss_mlp": 0.01024373,
      "balance_loss_clip": 1.04345083,
      "balance_loss_mlp": 1.01633275,
      "epoch": 0.8558888955690495,
      "flos": 17712723427200.0,
      "grad_norm": 2.610480166523133,
      "language_loss": 0.72140437,
      "learning_rate": 2.1379772321314826e-07,
      "loss": 0.74317586,
      "num_input_tokens_seen": 154052985,
      "step": 7118,
      "time_per_iteration": 2.5926992893218994
    },
    {
      "auxiliary_loss_clip": 0.01110372,
      "auxiliary_loss_mlp": 0.01030824,
      "balance_loss_clip": 1.03891778,
      "balance_loss_mlp": 1.02300668,
      "epoch": 0.8560091384596886,
      "flos": 19171702051200.0,
      "grad_norm": 1.9722200344100145,
      "language_loss": 0.81494486,
      "learning_rate": 2.1344743369089802e-07,
      "loss": 0.83635682,
      "num_input_tokens_seen": 154068765,
      "step": 7119,
      "time_per_iteration": 3.6760287284851074
    },
    {
      "auxiliary_loss_clip": 0.01149486,
      "auxiliary_loss_mlp": 0.01025303,
      "balance_loss_clip": 1.04465508,
      "balance_loss_mlp": 1.01807332,
      "epoch": 0.8561293813503277,
      "flos": 23914855036800.0,
      "grad_norm": 1.8544954600611048,
      "language_loss": 0.81964076,
      "learning_rate": 2.130974151872522e-07,
      "loss": 0.84138858,
      "num_input_tokens_seen": 154089100,
      "step": 7120,
      "time_per_iteration": 3.5403521060943604
    },
    {
      "auxiliary_loss_clip": 0.01138935,
      "auxiliary_loss_mlp": 0.01025517,
      "balance_loss_clip": 1.04266548,
      "balance_loss_mlp": 1.01771522,
      "epoch": 0.8562496242409667,
      "flos": 22529206028160.0,
      "grad_norm": 1.9877302512380695,
      "language_loss": 0.78452182,
      "learning_rate": 2.1274766775530773e-07,
      "loss": 0.80616629,
      "num_input_tokens_seen": 154108965,
      "step": 7121,
      "time_per_iteration": 2.738788366317749
    },
    {
      "auxiliary_loss_clip": 0.01173914,
      "auxiliary_loss_mlp": 0.01026944,
      "balance_loss_clip": 1.04862523,
      "balance_loss_mlp": 1.01932645,
      "epoch": 0.8563698671316058,
      "flos": 14712745472640.0,
      "grad_norm": 2.0388527782921186,
      "language_loss": 0.79721498,
      "learning_rate": 2.1239819144812077e-07,
      "loss": 0.81922352,
      "num_input_tokens_seen": 154123425,
      "step": 7122,
      "time_per_iteration": 2.588973045349121
    },
    {
      "auxiliary_loss_clip": 0.01130482,
      "auxiliary_loss_mlp": 0.01028921,
      "balance_loss_clip": 1.03893888,
      "balance_loss_mlp": 1.02159882,
      "epoch": 0.856490110022245,
      "flos": 39167768211840.0,
      "grad_norm": 1.8998715845022993,
      "language_loss": 0.69994247,
      "learning_rate": 2.1204898631870716e-07,
      "loss": 0.72153652,
      "num_input_tokens_seen": 154148315,
      "step": 7123,
      "time_per_iteration": 3.677293539047241
    },
    {
      "auxiliary_loss_clip": 0.01152101,
      "auxiliary_loss_mlp": 0.01027497,
      "balance_loss_clip": 1.046808,
      "balance_loss_mlp": 1.02022552,
      "epoch": 0.856610352912884,
      "flos": 29059345658880.0,
      "grad_norm": 1.7086457697990773,
      "language_loss": 0.76186025,
      "learning_rate": 2.1170005242004006e-07,
      "loss": 0.78365624,
      "num_input_tokens_seen": 154169665,
      "step": 7124,
      "time_per_iteration": 2.734708070755005
    },
    {
      "auxiliary_loss_clip": 0.01157625,
      "auxiliary_loss_mlp": 0.01025546,
      "balance_loss_clip": 1.04405451,
      "balance_loss_mlp": 1.01861119,
      "epoch": 0.8567305958035231,
      "flos": 23878333883520.0,
      "grad_norm": 2.0387013762058146,
      "language_loss": 0.78108341,
      "learning_rate": 2.1135138980505384e-07,
      "loss": 0.8029151,
      "num_input_tokens_seen": 154190335,
      "step": 7125,
      "time_per_iteration": 2.6443138122558594
    },
    {
      "auxiliary_loss_clip": 0.01146846,
      "auxiliary_loss_mlp": 0.01026401,
      "balance_loss_clip": 1.04567361,
      "balance_loss_mlp": 1.01903415,
      "epoch": 0.8568508386941622,
      "flos": 22200120599040.0,
      "grad_norm": 1.6075654592332542,
      "language_loss": 0.72188604,
      "learning_rate": 2.110029985266395e-07,
      "loss": 0.74361849,
      "num_input_tokens_seen": 154210040,
      "step": 7126,
      "time_per_iteration": 2.6696486473083496
    },
    {
      "auxiliary_loss_clip": 0.01155542,
      "auxiliary_loss_mlp": 0.01027471,
      "balance_loss_clip": 1.04404616,
      "balance_loss_mlp": 1.01969886,
      "epoch": 0.8569710815848013,
      "flos": 17307507121920.0,
      "grad_norm": 1.6597010996553292,
      "language_loss": 0.74112403,
      "learning_rate": 2.1065487863764787e-07,
      "loss": 0.76295412,
      "num_input_tokens_seen": 154228385,
      "step": 7127,
      "time_per_iteration": 2.6179723739624023
    },
    {
      "auxiliary_loss_clip": 0.0112224,
      "auxiliary_loss_mlp": 0.01024419,
      "balance_loss_clip": 1.03674757,
      "balance_loss_mlp": 1.01711786,
      "epoch": 0.8570913244754403,
      "flos": 23732285184000.0,
      "grad_norm": 1.521858774822448,
      "language_loss": 0.85696226,
      "learning_rate": 2.1030703019088846e-07,
      "loss": 0.87842882,
      "num_input_tokens_seen": 154249015,
      "step": 7128,
      "time_per_iteration": 2.7771761417388916
    },
    {
      "auxiliary_loss_clip": 0.01155579,
      "auxiliary_loss_mlp": 0.01023634,
      "balance_loss_clip": 1.04565978,
      "balance_loss_mlp": 1.01610565,
      "epoch": 0.8572115673660795,
      "flos": 20048748433920.0,
      "grad_norm": 2.7024539869416007,
      "language_loss": 0.70974976,
      "learning_rate": 2.099594532391291e-07,
      "loss": 0.73154187,
      "num_input_tokens_seen": 154267700,
      "step": 7129,
      "time_per_iteration": 3.49806547164917
    },
    {
      "auxiliary_loss_clip": 0.01149649,
      "auxiliary_loss_mlp": 0.01026614,
      "balance_loss_clip": 1.04239082,
      "balance_loss_mlp": 1.0193181,
      "epoch": 0.8573318102567186,
      "flos": 27160389342720.0,
      "grad_norm": 1.5865782465188412,
      "language_loss": 0.78890932,
      "learning_rate": 2.0961214783509806e-07,
      "loss": 0.81067193,
      "num_input_tokens_seen": 154290580,
      "step": 7130,
      "time_per_iteration": 2.6741816997528076
    },
    {
      "auxiliary_loss_clip": 0.01154051,
      "auxiliary_loss_mlp": 0.0102419,
      "balance_loss_clip": 1.04269648,
      "balance_loss_mlp": 1.01704621,
      "epoch": 0.8574520531473576,
      "flos": 24936585402240.0,
      "grad_norm": 1.8911153524896622,
      "language_loss": 0.75128537,
      "learning_rate": 2.0926511403148051e-07,
      "loss": 0.77306777,
      "num_input_tokens_seen": 154309545,
      "step": 7131,
      "time_per_iteration": 2.692117214202881
    },
    {
      "auxiliary_loss_clip": 0.01150962,
      "auxiliary_loss_mlp": 0.01027959,
      "balance_loss_clip": 1.04540968,
      "balance_loss_mlp": 1.02020693,
      "epoch": 0.8575722960379968,
      "flos": 18771154513920.0,
      "grad_norm": 1.8393699829095866,
      "language_loss": 0.76451707,
      "learning_rate": 2.0891835188092143e-07,
      "loss": 0.78630638,
      "num_input_tokens_seen": 154326545,
      "step": 7132,
      "time_per_iteration": 2.722745895385742
    },
    {
      "auxiliary_loss_clip": 0.01150698,
      "auxiliary_loss_mlp": 0.01025331,
      "balance_loss_clip": 1.0445919,
      "balance_loss_mlp": 1.01741576,
      "epoch": 0.8576925389286358,
      "flos": 22200300167040.0,
      "grad_norm": 1.851023252410328,
      "language_loss": 0.81477904,
      "learning_rate": 2.0857186143602434e-07,
      "loss": 0.83653933,
      "num_input_tokens_seen": 154345190,
      "step": 7133,
      "time_per_iteration": 2.7465298175811768
    },
    {
      "auxiliary_loss_clip": 0.01133706,
      "auxiliary_loss_mlp": 0.01025276,
      "balance_loss_clip": 1.040977,
      "balance_loss_mlp": 1.01784945,
      "epoch": 0.8578127818192749,
      "flos": 22894345733760.0,
      "grad_norm": 1.8061463120226946,
      "language_loss": 0.67680043,
      "learning_rate": 2.0822564274935094e-07,
      "loss": 0.69839025,
      "num_input_tokens_seen": 154364615,
      "step": 7134,
      "time_per_iteration": 2.79850172996521
    },
    {
      "auxiliary_loss_clip": 0.01149235,
      "auxiliary_loss_mlp": 0.0102061,
      "balance_loss_clip": 1.04522395,
      "balance_loss_mlp": 1.0124737,
      "epoch": 0.8579330247099141,
      "flos": 34824839541120.0,
      "grad_norm": 1.8429644963848506,
      "language_loss": 0.66791606,
      "learning_rate": 2.078796958734239e-07,
      "loss": 0.68961453,
      "num_input_tokens_seen": 154387335,
      "step": 7135,
      "time_per_iteration": 2.784989356994629
    },
    {
      "auxiliary_loss_clip": 0.01160743,
      "auxiliary_loss_mlp": 0.01024877,
      "balance_loss_clip": 1.04627514,
      "balance_loss_mlp": 1.01737881,
      "epoch": 0.8580532676005531,
      "flos": 19755681367680.0,
      "grad_norm": 1.9438174507273338,
      "language_loss": 0.75064981,
      "learning_rate": 2.0753402086072124e-07,
      "loss": 0.772506,
      "num_input_tokens_seen": 154405965,
      "step": 7136,
      "time_per_iteration": 2.6607353687286377
    },
    {
      "auxiliary_loss_clip": 0.01125786,
      "auxiliary_loss_mlp": 0.01026037,
      "balance_loss_clip": 1.0423758,
      "balance_loss_mlp": 1.01847959,
      "epoch": 0.8581735104911922,
      "flos": 22739318634240.0,
      "grad_norm": 1.9803663538893879,
      "language_loss": 0.75375032,
      "learning_rate": 2.071886177636828e-07,
      "loss": 0.77526855,
      "num_input_tokens_seen": 154422750,
      "step": 7137,
      "time_per_iteration": 2.8161301612854004
    },
    {
      "auxiliary_loss_clip": 0.0115807,
      "auxiliary_loss_mlp": 0.010245,
      "balance_loss_clip": 1.04735386,
      "balance_loss_mlp": 1.01718092,
      "epoch": 0.8582937533818313,
      "flos": 23149131880320.0,
      "grad_norm": 1.9213132966829904,
      "language_loss": 0.83031595,
      "learning_rate": 2.0684348663470575e-07,
      "loss": 0.85214162,
      "num_input_tokens_seen": 154442930,
      "step": 7138,
      "time_per_iteration": 2.6610429286956787
    },
    {
      "auxiliary_loss_clip": 0.01149151,
      "auxiliary_loss_mlp": 0.01032715,
      "balance_loss_clip": 1.04110336,
      "balance_loss_mlp": 1.02462661,
      "epoch": 0.8584139962724704,
      "flos": 19498668577920.0,
      "grad_norm": 1.831588707259775,
      "language_loss": 0.61026204,
      "learning_rate": 2.0649862752614555e-07,
      "loss": 0.63208073,
      "num_input_tokens_seen": 154461640,
      "step": 7139,
      "time_per_iteration": 2.664384126663208
    },
    {
      "auxiliary_loss_clip": 0.010538,
      "auxiliary_loss_mlp": 0.01002617,
      "balance_loss_clip": 1.00859475,
      "balance_loss_mlp": 1.00167489,
      "epoch": 0.8585342391631094,
      "flos": 71276577788160.0,
      "grad_norm": 0.7536380287240932,
      "language_loss": 0.57005239,
      "learning_rate": 2.0615404049031838e-07,
      "loss": 0.59061646,
      "num_input_tokens_seen": 154518610,
      "step": 7140,
      "time_per_iteration": 3.2508625984191895
    },
    {
      "auxiliary_loss_clip": 0.01163456,
      "auxiliary_loss_mlp": 0.01029802,
      "balance_loss_clip": 1.04943788,
      "balance_loss_mlp": 1.02135634,
      "epoch": 0.8586544820537486,
      "flos": 10815432929280.0,
      "grad_norm": 2.3234963471362695,
      "language_loss": 0.78022873,
      "learning_rate": 2.0580972557949616e-07,
      "loss": 0.80216134,
      "num_input_tokens_seen": 154533700,
      "step": 7141,
      "time_per_iteration": 2.6182940006256104
    },
    {
      "auxiliary_loss_clip": 0.01057602,
      "auxiliary_loss_mlp": 0.01002631,
      "balance_loss_clip": 1.00720072,
      "balance_loss_mlp": 1.00163543,
      "epoch": 0.8587747249443877,
      "flos": 64811184422400.0,
      "grad_norm": 0.7985565460600617,
      "language_loss": 0.54225188,
      "learning_rate": 2.054656828459125e-07,
      "loss": 0.56285423,
      "num_input_tokens_seen": 154597810,
      "step": 7142,
      "time_per_iteration": 3.201223134994507
    },
    {
      "auxiliary_loss_clip": 0.01129456,
      "auxiliary_loss_mlp": 0.01030513,
      "balance_loss_clip": 1.04196048,
      "balance_loss_mlp": 1.02261496,
      "epoch": 0.8588949678350267,
      "flos": 26834607964800.0,
      "grad_norm": 1.7170201898550312,
      "language_loss": 0.77180123,
      "learning_rate": 2.051219123417578e-07,
      "loss": 0.79340088,
      "num_input_tokens_seen": 154617870,
      "step": 7143,
      "time_per_iteration": 2.8359875679016113
    },
    {
      "auxiliary_loss_clip": 0.0117186,
      "auxiliary_loss_mlp": 0.01025015,
      "balance_loss_clip": 1.04707074,
      "balance_loss_mlp": 1.01748145,
      "epoch": 0.8590152107256659,
      "flos": 26104256726400.0,
      "grad_norm": 2.317708489949927,
      "language_loss": 0.60159492,
      "learning_rate": 2.0477841411918196e-07,
      "loss": 0.62356365,
      "num_input_tokens_seen": 154637395,
      "step": 7144,
      "time_per_iteration": 2.5710763931274414
    },
    {
      "auxiliary_loss_clip": 0.01156277,
      "auxiliary_loss_mlp": 0.01022985,
      "balance_loss_clip": 1.04463053,
      "balance_loss_mlp": 1.01577878,
      "epoch": 0.859135453616305,
      "flos": 26140885620480.0,
      "grad_norm": 1.8399554137916152,
      "language_loss": 0.74609959,
      "learning_rate": 2.0443518823029326e-07,
      "loss": 0.76789224,
      "num_input_tokens_seen": 154657935,
      "step": 7145,
      "time_per_iteration": 3.675671100616455
    },
    {
      "auxiliary_loss_clip": 0.01133382,
      "auxiliary_loss_mlp": 0.01028689,
      "balance_loss_clip": 1.04166436,
      "balance_loss_mlp": 1.02144694,
      "epoch": 0.859255696506944,
      "flos": 12969319046400.0,
      "grad_norm": 3.2218433757794798,
      "language_loss": 0.76325464,
      "learning_rate": 2.0409223472715854e-07,
      "loss": 0.78487539,
      "num_input_tokens_seen": 154675080,
      "step": 7146,
      "time_per_iteration": 3.6194467544555664
    },
    {
      "auxiliary_loss_clip": 0.01140618,
      "auxiliary_loss_mlp": 0.00885976,
      "balance_loss_clip": 1.04353774,
      "balance_loss_mlp": 1.00062823,
      "epoch": 0.8593759393975832,
      "flos": 18475753063680.0,
      "grad_norm": 2.755986556521587,
      "language_loss": 0.74844527,
      "learning_rate": 2.0374955366180434e-07,
      "loss": 0.76871121,
      "num_input_tokens_seen": 154692720,
      "step": 7147,
      "time_per_iteration": 2.6864473819732666
    },
    {
      "auxiliary_loss_clip": 0.01145946,
      "auxiliary_loss_mlp": 0.01029646,
      "balance_loss_clip": 1.04243314,
      "balance_loss_mlp": 1.02143884,
      "epoch": 0.8594961822882222,
      "flos": 22200156512640.0,
      "grad_norm": 1.8019508500288792,
      "language_loss": 0.72685367,
      "learning_rate": 2.034071450862147e-07,
      "loss": 0.7486096,
      "num_input_tokens_seen": 154710190,
      "step": 7148,
      "time_per_iteration": 3.5354273319244385
    },
    {
      "auxiliary_loss_clip": 0.01152495,
      "auxiliary_loss_mlp": 0.01027281,
      "balance_loss_clip": 1.04236102,
      "balance_loss_mlp": 1.01946688,
      "epoch": 0.8596164251788613,
      "flos": 23294749616640.0,
      "grad_norm": 1.7406984327806458,
      "language_loss": 0.76885569,
      "learning_rate": 2.030650090523327e-07,
      "loss": 0.79065347,
      "num_input_tokens_seen": 154729380,
      "step": 7149,
      "time_per_iteration": 2.6636135578155518
    },
    {
      "auxiliary_loss_clip": 0.0113625,
      "auxiliary_loss_mlp": 0.01027174,
      "balance_loss_clip": 1.04051614,
      "balance_loss_mlp": 1.01934528,
      "epoch": 0.8597366680695004,
      "flos": 31649905416960.0,
      "grad_norm": 1.4996960400040622,
      "language_loss": 0.59594935,
      "learning_rate": 2.0272314561205995e-07,
      "loss": 0.61758363,
      "num_input_tokens_seen": 154749775,
      "step": 7150,
      "time_per_iteration": 2.811465263366699
    },
    {
      "auxiliary_loss_clip": 0.01133606,
      "auxiliary_loss_mlp": 0.01028279,
      "balance_loss_clip": 1.03973854,
      "balance_loss_mlp": 1.02125216,
      "epoch": 0.8598569109601395,
      "flos": 21287738211840.0,
      "grad_norm": 1.8523018763223056,
      "language_loss": 0.72549182,
      "learning_rate": 2.023815548172567e-07,
      "loss": 0.74711066,
      "num_input_tokens_seen": 154769845,
      "step": 7151,
      "time_per_iteration": 2.6798110008239746
    },
    {
      "auxiliary_loss_clip": 0.01159204,
      "auxiliary_loss_mlp": 0.01025568,
      "balance_loss_clip": 1.04428267,
      "balance_loss_mlp": 1.01804578,
      "epoch": 0.8599771538507786,
      "flos": 25447809720960.0,
      "grad_norm": 1.6717514973867194,
      "language_loss": 0.66186202,
      "learning_rate": 2.0204023671974267e-07,
      "loss": 0.68370974,
      "num_input_tokens_seen": 154789230,
      "step": 7152,
      "time_per_iteration": 2.672926664352417
    },
    {
      "auxiliary_loss_clip": 0.01156925,
      "auxiliary_loss_mlp": 0.01022168,
      "balance_loss_clip": 1.04426622,
      "balance_loss_mlp": 1.01463437,
      "epoch": 0.8600973967414177,
      "flos": 16723958768640.0,
      "grad_norm": 2.339025187175658,
      "language_loss": 0.80847394,
      "learning_rate": 2.0169919137129532e-07,
      "loss": 0.83026493,
      "num_input_tokens_seen": 154807670,
      "step": 7153,
      "time_per_iteration": 2.571871042251587
    },
    {
      "auxiliary_loss_clip": 0.01164425,
      "auxiliary_loss_mlp": 0.01029044,
      "balance_loss_clip": 1.04925537,
      "balance_loss_mlp": 1.02093148,
      "epoch": 0.8602176396320568,
      "flos": 25227928615680.0,
      "grad_norm": 2.796007072519158,
      "language_loss": 0.71413749,
      "learning_rate": 2.013584188236508e-07,
      "loss": 0.73607218,
      "num_input_tokens_seen": 154825575,
      "step": 7154,
      "time_per_iteration": 2.739560127258301
    },
    {
      "auxiliary_loss_clip": 0.01172746,
      "auxiliary_loss_mlp": 0.01028162,
      "balance_loss_clip": 1.04776144,
      "balance_loss_mlp": 1.02053833,
      "epoch": 0.8603378825226958,
      "flos": 20412236113920.0,
      "grad_norm": 1.755507502436003,
      "language_loss": 0.79435515,
      "learning_rate": 2.0101791912850396e-07,
      "loss": 0.81636429,
      "num_input_tokens_seen": 154845115,
      "step": 7155,
      "time_per_iteration": 3.586300849914551
    },
    {
      "auxiliary_loss_clip": 0.01153951,
      "auxiliary_loss_mlp": 0.01022585,
      "balance_loss_clip": 1.0471704,
      "balance_loss_mlp": 1.01486301,
      "epoch": 0.8604581254133349,
      "flos": 34930201109760.0,
      "grad_norm": 1.7577396667257232,
      "language_loss": 0.64053154,
      "learning_rate": 2.006776923375082e-07,
      "loss": 0.66229689,
      "num_input_tokens_seen": 154866770,
      "step": 7156,
      "time_per_iteration": 2.7616987228393555
    },
    {
      "auxiliary_loss_clip": 0.01170709,
      "auxiliary_loss_mlp": 0.01024036,
      "balance_loss_clip": 1.04827023,
      "balance_loss_mlp": 1.01684427,
      "epoch": 0.860578368303974,
      "flos": 22596538072320.0,
      "grad_norm": 1.5823841196082744,
      "language_loss": 0.71124589,
      "learning_rate": 2.003377385022764e-07,
      "loss": 0.73319328,
      "num_input_tokens_seen": 154885595,
      "step": 7157,
      "time_per_iteration": 2.6164872646331787
    },
    {
      "auxiliary_loss_clip": 0.01151607,
      "auxiliary_loss_mlp": 0.01030229,
      "balance_loss_clip": 1.04360247,
      "balance_loss_mlp": 1.02281392,
      "epoch": 0.8606986111946131,
      "flos": 21324331192320.0,
      "grad_norm": 2.0078152585498037,
      "language_loss": 0.77465409,
      "learning_rate": 1.9999805767437826e-07,
      "loss": 0.79647243,
      "num_input_tokens_seen": 154904485,
      "step": 7158,
      "time_per_iteration": 2.6508543491363525
    },
    {
      "auxiliary_loss_clip": 0.01142266,
      "auxiliary_loss_mlp": 0.01027177,
      "balance_loss_clip": 1.04120648,
      "balance_loss_mlp": 1.0192678,
      "epoch": 0.8608188540852522,
      "flos": 28877206769280.0,
      "grad_norm": 1.9277334701660411,
      "language_loss": 0.71362448,
      "learning_rate": 1.9965864990534386e-07,
      "loss": 0.73531896,
      "num_input_tokens_seen": 154925010,
      "step": 7159,
      "time_per_iteration": 2.7058498859405518
    },
    {
      "auxiliary_loss_clip": 0.01132171,
      "auxiliary_loss_mlp": 0.01026568,
      "balance_loss_clip": 1.03956199,
      "balance_loss_mlp": 1.01904631,
      "epoch": 0.8609390969758913,
      "flos": 29716187713920.0,
      "grad_norm": 1.6753289232599846,
      "language_loss": 0.77615142,
      "learning_rate": 1.9931951524666092e-07,
      "loss": 0.79773873,
      "num_input_tokens_seen": 154946100,
      "step": 7160,
      "time_per_iteration": 2.7557036876678467
    },
    {
      "auxiliary_loss_clip": 0.0116636,
      "auxiliary_loss_mlp": 0.00886433,
      "balance_loss_clip": 1.04777825,
      "balance_loss_mlp": 1.00053811,
      "epoch": 0.8610593398665304,
      "flos": 21249349551360.0,
      "grad_norm": 1.6066911789058997,
      "language_loss": 0.80995029,
      "learning_rate": 1.9898065374977534e-07,
      "loss": 0.83047819,
      "num_input_tokens_seen": 154966305,
      "step": 7161,
      "time_per_iteration": 2.6624605655670166
    },
    {
      "auxiliary_loss_clip": 0.0113957,
      "auxiliary_loss_mlp": 0.0102225,
      "balance_loss_clip": 1.04190969,
      "balance_loss_mlp": 1.01533544,
      "epoch": 0.8611795827571694,
      "flos": 14830102183680.0,
      "grad_norm": 1.7763399940588231,
      "language_loss": 0.73053932,
      "learning_rate": 1.9864206546609342e-07,
      "loss": 0.75215751,
      "num_input_tokens_seen": 154985145,
      "step": 7162,
      "time_per_iteration": 2.655391216278076
    },
    {
      "auxiliary_loss_clip": 0.01167459,
      "auxiliary_loss_mlp": 0.01023798,
      "balance_loss_clip": 1.04567862,
      "balance_loss_mlp": 1.0162344,
      "epoch": 0.8612998256478086,
      "flos": 24243258107520.0,
      "grad_norm": 2.741813327848086,
      "language_loss": 0.84111232,
      "learning_rate": 1.983037504469771e-07,
      "loss": 0.86302483,
      "num_input_tokens_seen": 155003855,
      "step": 7163,
      "time_per_iteration": 2.6840789318084717
    },
    {
      "auxiliary_loss_clip": 0.01162703,
      "auxiliary_loss_mlp": 0.01030242,
      "balance_loss_clip": 1.04756284,
      "balance_loss_mlp": 1.02258313,
      "epoch": 0.8614200685384477,
      "flos": 21252653602560.0,
      "grad_norm": 2.0645872848349174,
      "language_loss": 0.66615659,
      "learning_rate": 1.9796570874374984e-07,
      "loss": 0.68808603,
      "num_input_tokens_seen": 155023960,
      "step": 7164,
      "time_per_iteration": 2.6199440956115723
    },
    {
      "auxiliary_loss_clip": 0.0115417,
      "auxiliary_loss_mlp": 0.01026406,
      "balance_loss_clip": 1.04428601,
      "balance_loss_mlp": 1.01874638,
      "epoch": 0.8615403114290867,
      "flos": 20007738080640.0,
      "grad_norm": 1.7148931784716346,
      "language_loss": 0.77957159,
      "learning_rate": 1.976279404076917e-07,
      "loss": 0.80137736,
      "num_input_tokens_seen": 155043360,
      "step": 7165,
      "time_per_iteration": 2.6609039306640625
    },
    {
      "auxiliary_loss_clip": 0.0114083,
      "auxiliary_loss_mlp": 0.01023514,
      "balance_loss_clip": 1.04573703,
      "balance_loss_mlp": 1.01602793,
      "epoch": 0.8616605543197259,
      "flos": 29789373674880.0,
      "grad_norm": 1.8130611726533743,
      "language_loss": 0.76267868,
      "learning_rate": 1.9729044549004193e-07,
      "loss": 0.78432214,
      "num_input_tokens_seen": 155064745,
      "step": 7166,
      "time_per_iteration": 2.8669700622558594
    },
    {
      "auxiliary_loss_clip": 0.01157833,
      "auxiliary_loss_mlp": 0.01026083,
      "balance_loss_clip": 1.04623425,
      "balance_loss_mlp": 1.01895094,
      "epoch": 0.8617807972103649,
      "flos": 28911609020160.0,
      "grad_norm": 2.338012396947351,
      "language_loss": 0.70436656,
      "learning_rate": 1.9695322404199822e-07,
      "loss": 0.72620571,
      "num_input_tokens_seen": 155086790,
      "step": 7167,
      "time_per_iteration": 2.7146594524383545
    },
    {
      "auxiliary_loss_clip": 0.01149717,
      "auxiliary_loss_mlp": 0.01024893,
      "balance_loss_clip": 1.04412305,
      "balance_loss_mlp": 1.01697695,
      "epoch": 0.861901040101004,
      "flos": 27673804391040.0,
      "grad_norm": 1.7878072570709058,
      "language_loss": 0.82324094,
      "learning_rate": 1.9661627611471654e-07,
      "loss": 0.84498703,
      "num_input_tokens_seen": 155106585,
      "step": 7168,
      "time_per_iteration": 2.774122476577759
    },
    {
      "auxiliary_loss_clip": 0.01159164,
      "auxiliary_loss_mlp": 0.01025747,
      "balance_loss_clip": 1.04495311,
      "balance_loss_mlp": 1.01807618,
      "epoch": 0.8620212829916432,
      "flos": 49748056755840.0,
      "grad_norm": 2.0314385664673322,
      "language_loss": 0.70529628,
      "learning_rate": 1.9627960175931246e-07,
      "loss": 0.72714543,
      "num_input_tokens_seen": 155131285,
      "step": 7169,
      "time_per_iteration": 2.867867946624756
    },
    {
      "auxiliary_loss_clip": 0.01158694,
      "auxiliary_loss_mlp": 0.01029719,
      "balance_loss_clip": 1.04576159,
      "balance_loss_mlp": 1.02248883,
      "epoch": 0.8621415258822822,
      "flos": 21138672769920.0,
      "grad_norm": 1.7903300427945257,
      "language_loss": 0.74369037,
      "learning_rate": 1.9594320102685847e-07,
      "loss": 0.76557451,
      "num_input_tokens_seen": 155150555,
      "step": 7170,
      "time_per_iteration": 2.65636944770813
    },
    {
      "auxiliary_loss_clip": 0.01140711,
      "auxiliary_loss_mlp": 0.00886143,
      "balance_loss_clip": 1.04285431,
      "balance_loss_mlp": 1.00058186,
      "epoch": 0.8622617687729213,
      "flos": 21689039934720.0,
      "grad_norm": 2.9567937362214636,
      "language_loss": 0.6454218,
      "learning_rate": 1.956070739683864e-07,
      "loss": 0.66569042,
      "num_input_tokens_seen": 155169890,
      "step": 7171,
      "time_per_iteration": 3.602116346359253
    },
    {
      "auxiliary_loss_clip": 0.01125742,
      "auxiliary_loss_mlp": 0.01020491,
      "balance_loss_clip": 1.03932476,
      "balance_loss_mlp": 1.01299226,
      "epoch": 0.8623820116635604,
      "flos": 26250592734720.0,
      "grad_norm": 2.09882711120504,
      "language_loss": 0.74167389,
      "learning_rate": 1.9527122063488678e-07,
      "loss": 0.76313621,
      "num_input_tokens_seen": 155191005,
      "step": 7172,
      "time_per_iteration": 2.6801395416259766
    },
    {
      "auxiliary_loss_clip": 0.01148382,
      "auxiliary_loss_mlp": 0.01024098,
      "balance_loss_clip": 1.04131746,
      "balance_loss_mlp": 1.01662064,
      "epoch": 0.8625022545541995,
      "flos": 19647554451840.0,
      "grad_norm": 1.6183490186258724,
      "language_loss": 0.8016423,
      "learning_rate": 1.9493564107730755e-07,
      "loss": 0.82336706,
      "num_input_tokens_seen": 155211005,
      "step": 7173,
      "time_per_iteration": 3.5732407569885254
    },
    {
      "auxiliary_loss_clip": 0.01144265,
      "auxiliary_loss_mlp": 0.01028588,
      "balance_loss_clip": 1.04086339,
      "balance_loss_mlp": 1.02139127,
      "epoch": 0.8626224974448385,
      "flos": 21908382336000.0,
      "grad_norm": 1.9445675074613338,
      "language_loss": 0.6055398,
      "learning_rate": 1.9460033534655684e-07,
      "loss": 0.62726837,
      "num_input_tokens_seen": 155230365,
      "step": 7174,
      "time_per_iteration": 3.4868412017822266
    },
    {
      "auxiliary_loss_clip": 0.01141343,
      "auxiliary_loss_mlp": 0.01027071,
      "balance_loss_clip": 1.03813076,
      "balance_loss_mlp": 1.01947117,
      "epoch": 0.8627427403354777,
      "flos": 23331198942720.0,
      "grad_norm": 1.801471239818791,
      "language_loss": 0.84488702,
      "learning_rate": 1.9426530349349978e-07,
      "loss": 0.86657119,
      "num_input_tokens_seen": 155250815,
      "step": 7175,
      "time_per_iteration": 2.6929304599761963
    },
    {
      "auxiliary_loss_clip": 0.01158164,
      "auxiliary_loss_mlp": 0.00886408,
      "balance_loss_clip": 1.04424655,
      "balance_loss_mlp": 1.00053883,
      "epoch": 0.8628629832261168,
      "flos": 16362877299840.0,
      "grad_norm": 1.828028802655333,
      "language_loss": 0.64848959,
      "learning_rate": 1.9393054556896038e-07,
      "loss": 0.66893536,
      "num_input_tokens_seen": 155268515,
      "step": 7176,
      "time_per_iteration": 2.641216516494751
    },
    {
      "auxiliary_loss_clip": 0.01139866,
      "auxiliary_loss_mlp": 0.01023608,
      "balance_loss_clip": 1.04049182,
      "balance_loss_mlp": 1.01609766,
      "epoch": 0.8629832261167558,
      "flos": 28103941756800.0,
      "grad_norm": 2.0251078972905563,
      "language_loss": 0.69587529,
      "learning_rate": 1.9359606162372133e-07,
      "loss": 0.71750998,
      "num_input_tokens_seen": 155290120,
      "step": 7177,
      "time_per_iteration": 2.790069103240967
    },
    {
      "auxiliary_loss_clip": 0.01170268,
      "auxiliary_loss_mlp": 0.01028512,
      "balance_loss_clip": 1.04860914,
      "balance_loss_mlp": 1.02118969,
      "epoch": 0.863103469007395,
      "flos": 20230061310720.0,
      "grad_norm": 3.0755029805354464,
      "language_loss": 0.70615435,
      "learning_rate": 1.9326185170852293e-07,
      "loss": 0.72814214,
      "num_input_tokens_seen": 155309085,
      "step": 7178,
      "time_per_iteration": 2.6445705890655518
    },
    {
      "auxiliary_loss_clip": 0.01158325,
      "auxiliary_loss_mlp": 0.01033211,
      "balance_loss_clip": 1.04506588,
      "balance_loss_mlp": 1.02559018,
      "epoch": 0.863223711898034,
      "flos": 24498547044480.0,
      "grad_norm": 1.8701489797072763,
      "language_loss": 0.72409415,
      "learning_rate": 1.9292791587406598e-07,
      "loss": 0.74600947,
      "num_input_tokens_seen": 155327945,
      "step": 7179,
      "time_per_iteration": 2.687732219696045
    },
    {
      "auxiliary_loss_clip": 0.01158503,
      "auxiliary_loss_mlp": 0.00886574,
      "balance_loss_clip": 1.04395187,
      "balance_loss_mlp": 1.000561,
      "epoch": 0.8633439547886731,
      "flos": 17675376261120.0,
      "grad_norm": 2.037385931232192,
      "language_loss": 0.8687523,
      "learning_rate": 1.9259425417100661e-07,
      "loss": 0.88920307,
      "num_input_tokens_seen": 155344060,
      "step": 7180,
      "time_per_iteration": 2.604158401489258
    },
    {
      "auxiliary_loss_clip": 0.01117278,
      "auxiliary_loss_mlp": 0.01027635,
      "balance_loss_clip": 1.03302598,
      "balance_loss_mlp": 1.01943398,
      "epoch": 0.8634641976793123,
      "flos": 12895055677440.0,
      "grad_norm": 4.951767901842211,
      "language_loss": 0.74857771,
      "learning_rate": 1.9226086664996234e-07,
      "loss": 0.77002692,
      "num_input_tokens_seen": 155362305,
      "step": 7181,
      "time_per_iteration": 3.559100866317749
    },
    {
      "auxiliary_loss_clip": 0.01154212,
      "auxiliary_loss_mlp": 0.01023919,
      "balance_loss_clip": 1.04661775,
      "balance_loss_mlp": 1.01608086,
      "epoch": 0.8635844405699513,
      "flos": 23878980328320.0,
      "grad_norm": 2.0387882967666497,
      "language_loss": 0.74029076,
      "learning_rate": 1.9192775336150712e-07,
      "loss": 0.76207209,
      "num_input_tokens_seen": 155382605,
      "step": 7182,
      "time_per_iteration": 2.6884233951568604
    },
    {
      "auxiliary_loss_clip": 0.0105461,
      "auxiliary_loss_mlp": 0.01000666,
      "balance_loss_clip": 1.00876796,
      "balance_loss_mlp": 0.99972451,
      "epoch": 0.8637046834605904,
      "flos": 60453387521280.0,
      "grad_norm": 0.7640807868215724,
      "language_loss": 0.5626179,
      "learning_rate": 1.915949143561739e-07,
      "loss": 0.58317065,
      "num_input_tokens_seen": 155437280,
      "step": 7183,
      "time_per_iteration": 3.1776537895202637
    },
    {
      "auxiliary_loss_clip": 0.01162925,
      "auxiliary_loss_mlp": 0.01030807,
      "balance_loss_clip": 1.04857254,
      "balance_loss_mlp": 1.02310014,
      "epoch": 0.8638249263512295,
      "flos": 20558751690240.0,
      "grad_norm": 2.0904352167322306,
      "language_loss": 0.78057647,
      "learning_rate": 1.9126234968445498e-07,
      "loss": 0.80251378,
      "num_input_tokens_seen": 155456970,
      "step": 7184,
      "time_per_iteration": 2.614745855331421
    },
    {
      "auxiliary_loss_clip": 0.01169278,
      "auxiliary_loss_mlp": 0.01029244,
      "balance_loss_clip": 1.04651928,
      "balance_loss_mlp": 1.02184653,
      "epoch": 0.8639451692418686,
      "flos": 26615768353920.0,
      "grad_norm": 1.8237153030132611,
      "language_loss": 0.67866993,
      "learning_rate": 1.9093005939679884e-07,
      "loss": 0.70065516,
      "num_input_tokens_seen": 155478925,
      "step": 7185,
      "time_per_iteration": 2.6775779724121094
    },
    {
      "auxiliary_loss_clip": 0.01158372,
      "auxiliary_loss_mlp": 0.01024645,
      "balance_loss_clip": 1.04557443,
      "balance_loss_mlp": 1.01720631,
      "epoch": 0.8640654121325076,
      "flos": 15122450977920.0,
      "grad_norm": 1.9728044317123965,
      "language_loss": 0.76625496,
      "learning_rate": 1.9059804354361452e-07,
      "loss": 0.7880851,
      "num_input_tokens_seen": 155496700,
      "step": 7186,
      "time_per_iteration": 2.5866501331329346
    },
    {
      "auxiliary_loss_clip": 0.01142794,
      "auxiliary_loss_mlp": 0.010306,
      "balance_loss_clip": 1.04053664,
      "balance_loss_mlp": 1.02368546,
      "epoch": 0.8641856550231467,
      "flos": 31869068250240.0,
      "grad_norm": 1.6189718332029204,
      "language_loss": 0.70537096,
      "learning_rate": 1.902663021752684e-07,
      "loss": 0.72710484,
      "num_input_tokens_seen": 155518130,
      "step": 7187,
      "time_per_iteration": 2.724175214767456
    },
    {
      "auxiliary_loss_clip": 0.01173894,
      "auxiliary_loss_mlp": 0.01031925,
      "balance_loss_clip": 1.0491544,
      "balance_loss_mlp": 1.02418208,
      "epoch": 0.8643058979137859,
      "flos": 14976545932800.0,
      "grad_norm": 2.2440953290176773,
      "language_loss": 0.8256138,
      "learning_rate": 1.8993483534208556e-07,
      "loss": 0.84767199,
      "num_input_tokens_seen": 155537040,
      "step": 7188,
      "time_per_iteration": 2.572567939758301
    },
    {
      "auxiliary_loss_clip": 0.01141733,
      "auxiliary_loss_mlp": 0.01028116,
      "balance_loss_clip": 1.04251266,
      "balance_loss_mlp": 1.02089763,
      "epoch": 0.8644261408044249,
      "flos": 13115726881920.0,
      "grad_norm": 2.557215436167301,
      "language_loss": 0.74699712,
      "learning_rate": 1.8960364309434884e-07,
      "loss": 0.76869559,
      "num_input_tokens_seen": 155554535,
      "step": 7189,
      "time_per_iteration": 2.64909291267395
    },
    {
      "auxiliary_loss_clip": 0.01117482,
      "auxiliary_loss_mlp": 0.00886332,
      "balance_loss_clip": 1.03991604,
      "balance_loss_mlp": 1.00061631,
      "epoch": 0.864546383695064,
      "flos": 20850920916480.0,
      "grad_norm": 1.8196372873841204,
      "language_loss": 0.78359771,
      "learning_rate": 1.8927272548229967e-07,
      "loss": 0.80363584,
      "num_input_tokens_seen": 155574225,
      "step": 7190,
      "time_per_iteration": 2.7996785640716553
    },
    {
      "auxiliary_loss_clip": 0.01131671,
      "auxiliary_loss_mlp": 0.01034538,
      "balance_loss_clip": 1.04214966,
      "balance_loss_mlp": 1.02731705,
      "epoch": 0.8646666265857031,
      "flos": 21324582587520.0,
      "grad_norm": 1.5686248965455758,
      "language_loss": 0.82904363,
      "learning_rate": 1.8894208255613876e-07,
      "loss": 0.85070568,
      "num_input_tokens_seen": 155593540,
      "step": 7191,
      "time_per_iteration": 2.7819576263427734
    },
    {
      "auxiliary_loss_clip": 0.01172181,
      "auxiliary_loss_mlp": 0.01029084,
      "balance_loss_clip": 1.04900956,
      "balance_loss_mlp": 1.02179432,
      "epoch": 0.8647868694763422,
      "flos": 19750833031680.0,
      "grad_norm": 2.133113976939981,
      "language_loss": 0.78082633,
      "learning_rate": 1.8861171436602397e-07,
      "loss": 0.80283904,
      "num_input_tokens_seen": 155610655,
      "step": 7192,
      "time_per_iteration": 2.5824577808380127
    },
    {
      "auxiliary_loss_clip": 0.01163086,
      "auxiliary_loss_mlp": 0.01026323,
      "balance_loss_clip": 1.04729962,
      "balance_loss_mlp": 1.01824629,
      "epoch": 0.8649071123669813,
      "flos": 26176760328960.0,
      "grad_norm": 2.165022697569775,
      "language_loss": 0.8041153,
      "learning_rate": 1.882816209620719e-07,
      "loss": 0.82600939,
      "num_input_tokens_seen": 155627365,
      "step": 7193,
      "time_per_iteration": 2.649103879928589
    },
    {
      "auxiliary_loss_clip": 0.01155148,
      "auxiliary_loss_mlp": 0.0102829,
      "balance_loss_clip": 1.04791725,
      "balance_loss_mlp": 1.02044642,
      "epoch": 0.8650273552576204,
      "flos": 20302888135680.0,
      "grad_norm": 1.9121884096762884,
      "language_loss": 0.76751912,
      "learning_rate": 1.8795180239435738e-07,
      "loss": 0.78935355,
      "num_input_tokens_seen": 155646220,
      "step": 7194,
      "time_per_iteration": 2.673537015914917
    },
    {
      "auxiliary_loss_clip": 0.01155073,
      "auxiliary_loss_mlp": 0.01029591,
      "balance_loss_clip": 1.04447651,
      "balance_loss_mlp": 1.02202117,
      "epoch": 0.8651475981482595,
      "flos": 23951088881280.0,
      "grad_norm": 3.1906887587813695,
      "language_loss": 0.75748998,
      "learning_rate": 1.8762225871291348e-07,
      "loss": 0.77933663,
      "num_input_tokens_seen": 155662095,
      "step": 7195,
      "time_per_iteration": 2.6824257373809814
    },
    {
      "auxiliary_loss_clip": 0.01168884,
      "auxiliary_loss_mlp": 0.00886396,
      "balance_loss_clip": 1.04595113,
      "balance_loss_mlp": 1.00057888,
      "epoch": 0.8652678410388985,
      "flos": 21684622561920.0,
      "grad_norm": 2.4262107141754012,
      "language_loss": 0.81004471,
      "learning_rate": 1.8729298996773201e-07,
      "loss": 0.83059752,
      "num_input_tokens_seen": 155680845,
      "step": 7196,
      "time_per_iteration": 2.626054525375366
    },
    {
      "auxiliary_loss_clip": 0.01052072,
      "auxiliary_loss_mlp": 0.01001181,
      "balance_loss_clip": 1.00785208,
      "balance_loss_mlp": 1.00026309,
      "epoch": 0.8653880839295377,
      "flos": 65224660855680.0,
      "grad_norm": 0.8281781056396079,
      "language_loss": 0.60944843,
      "learning_rate": 1.8696399620876301e-07,
      "loss": 0.62998092,
      "num_input_tokens_seen": 155737875,
      "step": 7197,
      "time_per_iteration": 4.070869445800781
    },
    {
      "auxiliary_loss_clip": 0.01137868,
      "auxiliary_loss_mlp": 0.01028396,
      "balance_loss_clip": 1.03960431,
      "balance_loss_mlp": 1.01955688,
      "epoch": 0.8655083268201768,
      "flos": 17749172753280.0,
      "grad_norm": 3.107849745849704,
      "language_loss": 0.79340029,
      "learning_rate": 1.866352774859141e-07,
      "loss": 0.81506294,
      "num_input_tokens_seen": 155753100,
      "step": 7198,
      "time_per_iteration": 3.6087265014648438
    },
    {
      "auxiliary_loss_clip": 0.01141881,
      "auxiliary_loss_mlp": 0.01025781,
      "balance_loss_clip": 1.03903878,
      "balance_loss_mlp": 1.01862252,
      "epoch": 0.8656285697108158,
      "flos": 20703974376960.0,
      "grad_norm": 3.317004631729907,
      "language_loss": 0.6953795,
      "learning_rate": 1.8630683384905188e-07,
      "loss": 0.7170561,
      "num_input_tokens_seen": 155772430,
      "step": 7199,
      "time_per_iteration": 2.692984104156494
    },
    {
      "auxiliary_loss_clip": 0.01172506,
      "auxiliary_loss_mlp": 0.00886725,
      "balance_loss_clip": 1.04927611,
      "balance_loss_mlp": 1.0005641,
      "epoch": 0.865748812601455,
      "flos": 18653833716480.0,
      "grad_norm": 2.0454953013341837,
      "language_loss": 0.88540792,
      "learning_rate": 1.8597866534800045e-07,
      "loss": 0.9060002,
      "num_input_tokens_seen": 155787545,
      "step": 7200,
      "time_per_iteration": 3.527202844619751
    },
    {
      "auxiliary_loss_clip": 0.01164789,
      "auxiliary_loss_mlp": 0.00886879,
      "balance_loss_clip": 1.0469687,
      "balance_loss_mlp": 1.00064778,
      "epoch": 0.865869055492094,
      "flos": 70652554807680.0,
      "grad_norm": 1.940943321712298,
      "language_loss": 0.74595946,
      "learning_rate": 1.8565077203254398e-07,
      "loss": 0.76647615,
      "num_input_tokens_seen": 155813005,
      "step": 7201,
      "time_per_iteration": 3.0231103897094727
    },
    {
      "auxiliary_loss_clip": 0.01145745,
      "auxiliary_loss_mlp": 0.01028114,
      "balance_loss_clip": 1.04897439,
      "balance_loss_mlp": 1.01942396,
      "epoch": 0.8659892983827331,
      "flos": 17383961220480.0,
      "grad_norm": 4.01196709532274,
      "language_loss": 0.73225129,
      "learning_rate": 1.8532315395242203e-07,
      "loss": 0.75398993,
      "num_input_tokens_seen": 155829455,
      "step": 7202,
      "time_per_iteration": 2.6656413078308105
    },
    {
      "auxiliary_loss_clip": 0.01143811,
      "auxiliary_loss_mlp": 0.01025104,
      "balance_loss_clip": 1.04236269,
      "balance_loss_mlp": 1.01825571,
      "epoch": 0.8661095412733723,
      "flos": 17895221452800.0,
      "grad_norm": 2.199642575387992,
      "language_loss": 0.72295058,
      "learning_rate": 1.849958111573353e-07,
      "loss": 0.74463975,
      "num_input_tokens_seen": 155848060,
      "step": 7203,
      "time_per_iteration": 2.7198996543884277
    },
    {
      "auxiliary_loss_clip": 0.01166596,
      "auxiliary_loss_mlp": 0.01023839,
      "balance_loss_clip": 1.04620266,
      "balance_loss_mlp": 1.01636434,
      "epoch": 0.8662297841640113,
      "flos": 18224163227520.0,
      "grad_norm": 40.11903323753646,
      "language_loss": 0.64095616,
      "learning_rate": 1.8466874369694074e-07,
      "loss": 0.66286051,
      "num_input_tokens_seen": 155865755,
      "step": 7204,
      "time_per_iteration": 2.545912742614746
    },
    {
      "auxiliary_loss_clip": 0.01141718,
      "auxiliary_loss_mlp": 0.01030439,
      "balance_loss_clip": 1.04020512,
      "balance_loss_mlp": 1.02269006,
      "epoch": 0.8663500270546504,
      "flos": 16362159027840.0,
      "grad_norm": 2.7105205606067346,
      "language_loss": 0.70998597,
      "learning_rate": 1.843419516208542e-07,
      "loss": 0.73170757,
      "num_input_tokens_seen": 155882680,
      "step": 7205,
      "time_per_iteration": 2.6481411457061768
    },
    {
      "auxiliary_loss_clip": 0.0116364,
      "auxiliary_loss_mlp": 0.01029607,
      "balance_loss_clip": 1.04975796,
      "balance_loss_mlp": 1.02108371,
      "epoch": 0.8664702699452895,
      "flos": 17894431353600.0,
      "grad_norm": 2.104131241054259,
      "language_loss": 0.79683757,
      "learning_rate": 1.8401543497865047e-07,
      "loss": 0.81877005,
      "num_input_tokens_seen": 155900680,
      "step": 7206,
      "time_per_iteration": 2.6640923023223877
    },
    {
      "auxiliary_loss_clip": 0.01161665,
      "auxiliary_loss_mlp": 0.00885819,
      "balance_loss_clip": 1.04451978,
      "balance_loss_mlp": 1.00055623,
      "epoch": 0.8665905128359286,
      "flos": 30736373794560.0,
      "grad_norm": 2.462278120920901,
      "language_loss": 0.63949347,
      "learning_rate": 1.836891938198608e-07,
      "loss": 0.65996826,
      "num_input_tokens_seen": 155921105,
      "step": 7207,
      "time_per_iteration": 3.605989456176758
    },
    {
      "auxiliary_loss_clip": 0.0115188,
      "auxiliary_loss_mlp": 0.01033291,
      "balance_loss_clip": 1.04672384,
      "balance_loss_mlp": 1.02522635,
      "epoch": 0.8667107557265676,
      "flos": 18656419495680.0,
      "grad_norm": 2.13263633090366,
      "language_loss": 0.71267271,
      "learning_rate": 1.8336322819397677e-07,
      "loss": 0.73452437,
      "num_input_tokens_seen": 155938640,
      "step": 7208,
      "time_per_iteration": 2.67496395111084
    },
    {
      "auxiliary_loss_clip": 0.01144737,
      "auxiliary_loss_mlp": 0.01030518,
      "balance_loss_clip": 1.04000449,
      "balance_loss_mlp": 1.02274537,
      "epoch": 0.8668309986172068,
      "flos": 20083725302400.0,
      "grad_norm": 1.9353507474981608,
      "language_loss": 0.62846476,
      "learning_rate": 1.8303753815044654e-07,
      "loss": 0.65021729,
      "num_input_tokens_seen": 155957945,
      "step": 7209,
      "time_per_iteration": 2.710718870162964
    },
    {
      "auxiliary_loss_clip": 0.01159411,
      "auxiliary_loss_mlp": 0.01028134,
      "balance_loss_clip": 1.04362452,
      "balance_loss_mlp": 1.02011383,
      "epoch": 0.8669512415078459,
      "flos": 21615099788160.0,
      "grad_norm": 2.665732042727011,
      "language_loss": 0.70602477,
      "learning_rate": 1.827121237386773e-07,
      "loss": 0.72790021,
      "num_input_tokens_seen": 155975390,
      "step": 7210,
      "time_per_iteration": 2.7395365238189697
    },
    {
      "auxiliary_loss_clip": 0.01150472,
      "auxiliary_loss_mlp": 0.01028388,
      "balance_loss_clip": 1.04224491,
      "balance_loss_mlp": 1.02022243,
      "epoch": 0.8670714843984849,
      "flos": 17703601372800.0,
      "grad_norm": 2.326072481638572,
      "language_loss": 0.75329995,
      "learning_rate": 1.8238698500803374e-07,
      "loss": 0.77508855,
      "num_input_tokens_seen": 155988155,
      "step": 7211,
      "time_per_iteration": 2.762723684310913
    },
    {
      "auxiliary_loss_clip": 0.01057612,
      "auxiliary_loss_mlp": 0.01000917,
      "balance_loss_clip": 1.0070467,
      "balance_loss_mlp": 0.99996912,
      "epoch": 0.8671917272891241,
      "flos": 60705483125760.0,
      "grad_norm": 0.7191141219137802,
      "language_loss": 0.56297034,
      "learning_rate": 1.820621220078391e-07,
      "loss": 0.58355564,
      "num_input_tokens_seen": 156052065,
      "step": 7212,
      "time_per_iteration": 3.3533775806427
    },
    {
      "auxiliary_loss_clip": 0.01168625,
      "auxiliary_loss_mlp": 0.0102945,
      "balance_loss_clip": 1.04619777,
      "balance_loss_mlp": 1.02171373,
      "epoch": 0.8673119701797631,
      "flos": 20451881750400.0,
      "grad_norm": 1.648321262671048,
      "language_loss": 0.67779684,
      "learning_rate": 1.8173753478737553e-07,
      "loss": 0.6997776,
      "num_input_tokens_seen": 156072500,
      "step": 7213,
      "time_per_iteration": 2.671773910522461
    },
    {
      "auxiliary_loss_clip": 0.01168722,
      "auxiliary_loss_mlp": 0.01025551,
      "balance_loss_clip": 1.04536223,
      "balance_loss_mlp": 1.01804066,
      "epoch": 0.8674322130704022,
      "flos": 19647410797440.0,
      "grad_norm": 2.0370139490691224,
      "language_loss": 0.79675853,
      "learning_rate": 1.8141322339588205e-07,
      "loss": 0.81870127,
      "num_input_tokens_seen": 156089840,
      "step": 7214,
      "time_per_iteration": 2.5774385929107666
    },
    {
      "auxiliary_loss_clip": 0.01171567,
      "auxiliary_loss_mlp": 0.01025565,
      "balance_loss_clip": 1.04920363,
      "balance_loss_mlp": 1.01805449,
      "epoch": 0.8675524559610414,
      "flos": 26025001367040.0,
      "grad_norm": 2.040202123720426,
      "language_loss": 0.70272326,
      "learning_rate": 1.810891878825569e-07,
      "loss": 0.72469455,
      "num_input_tokens_seen": 156109815,
      "step": 7215,
      "time_per_iteration": 2.660904884338379
    },
    {
      "auxiliary_loss_clip": 0.01149047,
      "auxiliary_loss_mlp": 0.01034088,
      "balance_loss_clip": 1.04207528,
      "balance_loss_mlp": 1.02634525,
      "epoch": 0.8676726988516804,
      "flos": 15049444584960.0,
      "grad_norm": 2.4854297082561922,
      "language_loss": 0.72108006,
      "learning_rate": 1.8076542829655561e-07,
      "loss": 0.74291146,
      "num_input_tokens_seen": 156128620,
      "step": 7216,
      "time_per_iteration": 2.6614925861358643
    },
    {
      "auxiliary_loss_clip": 0.01151547,
      "auxiliary_loss_mlp": 0.0102493,
      "balance_loss_clip": 1.04633927,
      "balance_loss_mlp": 1.01631093,
      "epoch": 0.8677929417423195,
      "flos": 16288111140480.0,
      "grad_norm": 1.9907826725466562,
      "language_loss": 0.79527092,
      "learning_rate": 1.8044194468699203e-07,
      "loss": 0.81703568,
      "num_input_tokens_seen": 156145930,
      "step": 7217,
      "time_per_iteration": 2.6021065711975098
    },
    {
      "auxiliary_loss_clip": 0.01151991,
      "auxiliary_loss_mlp": 0.01027215,
      "balance_loss_clip": 1.04787898,
      "balance_loss_mlp": 1.0187149,
      "epoch": 0.8679131846329585,
      "flos": 18844160906880.0,
      "grad_norm": 2.2395499486613217,
      "language_loss": 0.76377612,
      "learning_rate": 1.8011873710293912e-07,
      "loss": 0.78556824,
      "num_input_tokens_seen": 156164435,
      "step": 7218,
      "time_per_iteration": 2.645905017852783
    },
    {
      "auxiliary_loss_clip": 0.01159946,
      "auxiliary_loss_mlp": 0.01026269,
      "balance_loss_clip": 1.04621446,
      "balance_loss_mlp": 1.01812124,
      "epoch": 0.8680334275235977,
      "flos": 33620718890880.0,
      "grad_norm": 2.154391696217679,
      "language_loss": 0.69630086,
      "learning_rate": 1.7979580559342677e-07,
      "loss": 0.71816301,
      "num_input_tokens_seen": 156185165,
      "step": 7219,
      "time_per_iteration": 2.75791072845459
    },
    {
      "auxiliary_loss_clip": 0.01152436,
      "auxiliary_loss_mlp": 0.01027731,
      "balance_loss_clip": 1.04654098,
      "balance_loss_mlp": 1.02016759,
      "epoch": 0.8681536704142367,
      "flos": 24681152810880.0,
      "grad_norm": 1.6995687553436967,
      "language_loss": 0.66939956,
      "learning_rate": 1.7947315020744358e-07,
      "loss": 0.69120121,
      "num_input_tokens_seen": 156206260,
      "step": 7220,
      "time_per_iteration": 2.7368123531341553
    },
    {
      "auxiliary_loss_clip": 0.01149596,
      "auxiliary_loss_mlp": 0.01023519,
      "balance_loss_clip": 1.04268384,
      "balance_loss_mlp": 1.01620603,
      "epoch": 0.8682739133048758,
      "flos": 20011042131840.0,
      "grad_norm": 1.9132185154324042,
      "language_loss": 0.80168599,
      "learning_rate": 1.7915077099393594e-07,
      "loss": 0.82341707,
      "num_input_tokens_seen": 156222860,
      "step": 7221,
      "time_per_iteration": 2.7254111766815186
    },
    {
      "auxiliary_loss_clip": 0.01159748,
      "auxiliary_loss_mlp": 0.01023217,
      "balance_loss_clip": 1.04302394,
      "balance_loss_mlp": 1.01573658,
      "epoch": 0.868394156195515,
      "flos": 16654759217280.0,
      "grad_norm": 1.8226593726506206,
      "language_loss": 0.7307179,
      "learning_rate": 1.788286680018083e-07,
      "loss": 0.7525475,
      "num_input_tokens_seen": 156241570,
      "step": 7222,
      "time_per_iteration": 2.6233625411987305
    },
    {
      "auxiliary_loss_clip": 0.01154015,
      "auxiliary_loss_mlp": 0.01029315,
      "balance_loss_clip": 1.04497862,
      "balance_loss_mlp": 1.02207875,
      "epoch": 0.868514399086154,
      "flos": 28001381448960.0,
      "grad_norm": 1.7803675176978413,
      "language_loss": 0.72150332,
      "learning_rate": 1.7850684127992443e-07,
      "loss": 0.74333662,
      "num_input_tokens_seen": 156261315,
      "step": 7223,
      "time_per_iteration": 2.698533773422241
    },
    {
      "auxiliary_loss_clip": 0.0114248,
      "auxiliary_loss_mlp": 0.01031847,
      "balance_loss_clip": 1.04583144,
      "balance_loss_mlp": 1.0243901,
      "epoch": 0.8686346419767931,
      "flos": 20084587228800.0,
      "grad_norm": 1.7425524262007626,
      "language_loss": 0.70000052,
      "learning_rate": 1.7818529087710378e-07,
      "loss": 0.72174388,
      "num_input_tokens_seen": 156281670,
      "step": 7224,
      "time_per_iteration": 4.643770456314087
    },
    {
      "auxiliary_loss_clip": 0.01158406,
      "auxiliary_loss_mlp": 0.00885959,
      "balance_loss_clip": 1.04425991,
      "balance_loss_mlp": 1.00057793,
      "epoch": 0.8687548848674322,
      "flos": 18223516782720.0,
      "grad_norm": 1.9630545829313952,
      "language_loss": 0.83955503,
      "learning_rate": 1.7786401684212637e-07,
      "loss": 0.8599987,
      "num_input_tokens_seen": 156300500,
      "step": 7225,
      "time_per_iteration": 2.59757661819458
    },
    {
      "auxiliary_loss_clip": 0.01044291,
      "auxiliary_loss_mlp": 0.01002016,
      "balance_loss_clip": 1.00769091,
      "balance_loss_mlp": 1.00112236,
      "epoch": 0.8688751277580713,
      "flos": 70457885049600.0,
      "grad_norm": 0.7322900725370022,
      "language_loss": 0.55882919,
      "learning_rate": 1.7754301922372883e-07,
      "loss": 0.5792923,
      "num_input_tokens_seen": 156350145,
      "step": 7226,
      "time_per_iteration": 3.914095163345337
    },
    {
      "auxiliary_loss_clip": 0.01125845,
      "auxiliary_loss_mlp": 0.01023697,
      "balance_loss_clip": 1.03874612,
      "balance_loss_mlp": 1.01620507,
      "epoch": 0.8689953706487104,
      "flos": 26906788344960.0,
      "grad_norm": 2.0828458613697407,
      "language_loss": 0.81030911,
      "learning_rate": 1.7722229807060617e-07,
      "loss": 0.83180451,
      "num_input_tokens_seen": 156368725,
      "step": 7227,
      "time_per_iteration": 2.8139891624450684
    },
    {
      "auxiliary_loss_clip": 0.01132457,
      "auxiliary_loss_mlp": 0.01031654,
      "balance_loss_clip": 1.03965759,
      "balance_loss_mlp": 1.02413762,
      "epoch": 0.8691156135393495,
      "flos": 34637385438720.0,
      "grad_norm": 2.1832727916979513,
      "language_loss": 0.82077801,
      "learning_rate": 1.7690185343141172e-07,
      "loss": 0.84241909,
      "num_input_tokens_seen": 156388640,
      "step": 7228,
      "time_per_iteration": 2.7965431213378906
    },
    {
      "auxiliary_loss_clip": 0.01149097,
      "auxiliary_loss_mlp": 0.01020914,
      "balance_loss_clip": 1.0423944,
      "balance_loss_mlp": 1.0137912,
      "epoch": 0.8692358564299886,
      "flos": 18989814556800.0,
      "grad_norm": 2.508029794698776,
      "language_loss": 0.70155632,
      "learning_rate": 1.7658168535475615e-07,
      "loss": 0.72325641,
      "num_input_tokens_seen": 156406425,
      "step": 7229,
      "time_per_iteration": 2.6622421741485596
    },
    {
      "auxiliary_loss_clip": 0.01157762,
      "auxiliary_loss_mlp": 0.01026055,
      "balance_loss_clip": 1.04672348,
      "balance_loss_mlp": 1.01779413,
      "epoch": 0.8693560993206276,
      "flos": 30370839039360.0,
      "grad_norm": 1.6348360163491589,
      "language_loss": 0.64084482,
      "learning_rate": 1.7626179388920948e-07,
      "loss": 0.66268295,
      "num_input_tokens_seen": 156427705,
      "step": 7230,
      "time_per_iteration": 2.7221741676330566
    },
    {
      "auxiliary_loss_clip": 0.01149771,
      "auxiliary_loss_mlp": 0.00886582,
      "balance_loss_clip": 1.04368401,
      "balance_loss_mlp": 1.00057364,
      "epoch": 0.8694763422112668,
      "flos": 27200430028800.0,
      "grad_norm": 1.8885164657393338,
      "language_loss": 0.80410767,
      "learning_rate": 1.7594217908329866e-07,
      "loss": 0.82447124,
      "num_input_tokens_seen": 156449890,
      "step": 7231,
      "time_per_iteration": 2.754952907562256
    },
    {
      "auxiliary_loss_clip": 0.01143468,
      "auxiliary_loss_mlp": 0.01026815,
      "balance_loss_clip": 1.04412222,
      "balance_loss_mlp": 1.01908994,
      "epoch": 0.8695965851019059,
      "flos": 26139161767680.0,
      "grad_norm": 1.8246409837701734,
      "language_loss": 0.73995811,
      "learning_rate": 1.7562284098550895e-07,
      "loss": 0.76166093,
      "num_input_tokens_seen": 156469600,
      "step": 7232,
      "time_per_iteration": 3.6699764728546143
    },
    {
      "auxiliary_loss_clip": 0.01046575,
      "auxiliary_loss_mlp": 0.00999968,
      "balance_loss_clip": 1.01054239,
      "balance_loss_mlp": 0.99905598,
      "epoch": 0.8697168279925449,
      "flos": 67332616456320.0,
      "grad_norm": 0.832828793758012,
      "language_loss": 0.62194419,
      "learning_rate": 1.753037796442838e-07,
      "loss": 0.64240968,
      "num_input_tokens_seen": 156529040,
      "step": 7233,
      "time_per_iteration": 3.248046636581421
    },
    {
      "auxiliary_loss_clip": 0.01170007,
      "auxiliary_loss_mlp": 0.01028984,
      "balance_loss_clip": 1.04630649,
      "balance_loss_mlp": 1.02032351,
      "epoch": 0.8698370708831841,
      "flos": 19718693337600.0,
      "grad_norm": 2.204053592543511,
      "language_loss": 0.75201488,
      "learning_rate": 1.74984995108024e-07,
      "loss": 0.7740047,
      "num_input_tokens_seen": 156546970,
      "step": 7234,
      "time_per_iteration": 2.638627767562866
    },
    {
      "auxiliary_loss_clip": 0.01163575,
      "auxiliary_loss_mlp": 0.01028018,
      "balance_loss_clip": 1.0472976,
      "balance_loss_mlp": 1.02032948,
      "epoch": 0.8699573137738231,
      "flos": 12859971068160.0,
      "grad_norm": 3.702873236218135,
      "language_loss": 0.83090466,
      "learning_rate": 1.7466648742508981e-07,
      "loss": 0.85282052,
      "num_input_tokens_seen": 156563155,
      "step": 7235,
      "time_per_iteration": 2.719759464263916
    },
    {
      "auxiliary_loss_clip": 0.01148822,
      "auxiliary_loss_mlp": 0.01024848,
      "balance_loss_clip": 1.04595017,
      "balance_loss_mlp": 1.01725769,
      "epoch": 0.8700775566644622,
      "flos": 17420733768960.0,
      "grad_norm": 1.8209857574087707,
      "language_loss": 0.84728044,
      "learning_rate": 1.7434825664379837e-07,
      "loss": 0.86901712,
      "num_input_tokens_seen": 156581660,
      "step": 7236,
      "time_per_iteration": 2.669461965560913
    },
    {
      "auxiliary_loss_clip": 0.01159789,
      "auxiliary_loss_mlp": 0.01031073,
      "balance_loss_clip": 1.04471445,
      "balance_loss_mlp": 1.02319336,
      "epoch": 0.8701977995551013,
      "flos": 13735221770880.0,
      "grad_norm": 5.711411575584509,
      "language_loss": 0.86002445,
      "learning_rate": 1.740303028124246e-07,
      "loss": 0.88193309,
      "num_input_tokens_seen": 156597720,
      "step": 7237,
      "time_per_iteration": 2.5540335178375244
    },
    {
      "auxiliary_loss_clip": 0.01108607,
      "auxiliary_loss_mlp": 0.01024478,
      "balance_loss_clip": 1.03542185,
      "balance_loss_mlp": 1.01705694,
      "epoch": 0.8703180424457404,
      "flos": 30555707362560.0,
      "grad_norm": 1.8356448400693663,
      "language_loss": 0.75539935,
      "learning_rate": 1.7371262597920212e-07,
      "loss": 0.77673018,
      "num_input_tokens_seen": 156619780,
      "step": 7238,
      "time_per_iteration": 2.865896701812744
    },
    {
      "auxiliary_loss_clip": 0.01131813,
      "auxiliary_loss_mlp": 0.01028297,
      "balance_loss_clip": 1.04546034,
      "balance_loss_mlp": 1.02048028,
      "epoch": 0.8704382853363795,
      "flos": 19608986223360.0,
      "grad_norm": 1.566737848658332,
      "language_loss": 0.76328707,
      "learning_rate": 1.7339522619232195e-07,
      "loss": 0.78488815,
      "num_input_tokens_seen": 156638160,
      "step": 7239,
      "time_per_iteration": 2.767331123352051
    },
    {
      "auxiliary_loss_clip": 0.01156189,
      "auxiliary_loss_mlp": 0.01027704,
      "balance_loss_clip": 1.04187036,
      "balance_loss_mlp": 1.01988101,
      "epoch": 0.8705585282270186,
      "flos": 26613900846720.0,
      "grad_norm": 4.447140091486964,
      "language_loss": 0.75960684,
      "learning_rate": 1.730781034999338e-07,
      "loss": 0.78144574,
      "num_input_tokens_seen": 156659740,
      "step": 7240,
      "time_per_iteration": 2.7012341022491455
    },
    {
      "auxiliary_loss_clip": 0.01167982,
      "auxiliary_loss_mlp": 0.01027447,
      "balance_loss_clip": 1.04962301,
      "balance_loss_mlp": 1.01966214,
      "epoch": 0.8706787711176577,
      "flos": 34090465979520.0,
      "grad_norm": 1.9036332725114757,
      "language_loss": 0.73391575,
      "learning_rate": 1.7276125795014497e-07,
      "loss": 0.75586998,
      "num_input_tokens_seen": 156678190,
      "step": 7241,
      "time_per_iteration": 2.725492477416992
    },
    {
      "auxiliary_loss_clip": 0.01155522,
      "auxiliary_loss_mlp": 0.010309,
      "balance_loss_clip": 1.0436424,
      "balance_loss_mlp": 1.02276385,
      "epoch": 0.8707990140082967,
      "flos": 14611513968000.0,
      "grad_norm": 3.0493244139993245,
      "language_loss": 0.677531,
      "learning_rate": 1.7244468959102054e-07,
      "loss": 0.69939524,
      "num_input_tokens_seen": 156695245,
      "step": 7242,
      "time_per_iteration": 2.6183485984802246
    },
    {
      "auxiliary_loss_clip": 0.01160907,
      "auxiliary_loss_mlp": 0.0102518,
      "balance_loss_clip": 1.0477736,
      "balance_loss_mlp": 1.01756883,
      "epoch": 0.8709192568989359,
      "flos": 20084156265600.0,
      "grad_norm": 2.512616418340695,
      "language_loss": 0.85292155,
      "learning_rate": 1.7212839847058348e-07,
      "loss": 0.87478238,
      "num_input_tokens_seen": 156710375,
      "step": 7243,
      "time_per_iteration": 2.637378215789795
    },
    {
      "auxiliary_loss_clip": 0.0113151,
      "auxiliary_loss_mlp": 0.0102631,
      "balance_loss_clip": 1.03930473,
      "balance_loss_mlp": 1.01866329,
      "epoch": 0.871039499789575,
      "flos": 16727083251840.0,
      "grad_norm": 3.2826415087631884,
      "language_loss": 0.7348237,
      "learning_rate": 1.718123846368147e-07,
      "loss": 0.7564019,
      "num_input_tokens_seen": 156729420,
      "step": 7244,
      "time_per_iteration": 2.7919676303863525
    },
    {
      "auxiliary_loss_clip": 0.01150746,
      "auxiliary_loss_mlp": 0.00886097,
      "balance_loss_clip": 1.04567456,
      "balance_loss_mlp": 1.0004741,
      "epoch": 0.871159742680214,
      "flos": 21068790860160.0,
      "grad_norm": 2.261136407189419,
      "language_loss": 0.71696872,
      "learning_rate": 1.714966481376543e-07,
      "loss": 0.73733711,
      "num_input_tokens_seen": 156746100,
      "step": 7245,
      "time_per_iteration": 2.6649036407470703
    },
    {
      "auxiliary_loss_clip": 0.01159727,
      "auxiliary_loss_mlp": 0.01028425,
      "balance_loss_clip": 1.04599714,
      "balance_loss_mlp": 1.020679,
      "epoch": 0.8712799855708532,
      "flos": 28256526731520.0,
      "grad_norm": 2.308543093462111,
      "language_loss": 0.83042121,
      "learning_rate": 1.7118118902099797e-07,
      "loss": 0.85230279,
      "num_input_tokens_seen": 156764185,
      "step": 7246,
      "time_per_iteration": 2.6440396308898926
    },
    {
      "auxiliary_loss_clip": 0.01159815,
      "auxiliary_loss_mlp": 0.01024358,
      "balance_loss_clip": 1.04522848,
      "balance_loss_mlp": 1.01751244,
      "epoch": 0.8714002284614922,
      "flos": 22236677665920.0,
      "grad_norm": 1.6278369112378075,
      "language_loss": 0.80933022,
      "learning_rate": 1.7086600733470146e-07,
      "loss": 0.83117199,
      "num_input_tokens_seen": 156784855,
      "step": 7247,
      "time_per_iteration": 2.6869025230407715
    },
    {
      "auxiliary_loss_clip": 0.01157054,
      "auxiliary_loss_mlp": 0.01025429,
      "balance_loss_clip": 1.0452652,
      "balance_loss_mlp": 1.01811862,
      "epoch": 0.8715204713521313,
      "flos": 21431919404160.0,
      "grad_norm": 2.49378222323698,
      "language_loss": 0.77030945,
      "learning_rate": 1.7055110312657738e-07,
      "loss": 0.79213428,
      "num_input_tokens_seen": 156804350,
      "step": 7248,
      "time_per_iteration": 2.666008710861206
    },
    {
      "auxiliary_loss_clip": 0.01145877,
      "auxiliary_loss_mlp": 0.01024457,
      "balance_loss_clip": 1.04423165,
      "balance_loss_mlp": 1.0163095,
      "epoch": 0.8716407142427703,
      "flos": 23440439180160.0,
      "grad_norm": 2.8102227111452356,
      "language_loss": 0.74078202,
      "learning_rate": 1.702364764443962e-07,
      "loss": 0.76248538,
      "num_input_tokens_seen": 156823425,
      "step": 7249,
      "time_per_iteration": 2.7429616451263428
    },
    {
      "auxiliary_loss_clip": 0.01118266,
      "auxiliary_loss_mlp": 0.01023972,
      "balance_loss_clip": 1.03827667,
      "balance_loss_mlp": 1.01661098,
      "epoch": 0.8717609571334095,
      "flos": 27958683156480.0,
      "grad_norm": 3.235685139817828,
      "language_loss": 0.72307384,
      "learning_rate": 1.6992212733588685e-07,
      "loss": 0.74449617,
      "num_input_tokens_seen": 156843090,
      "step": 7250,
      "time_per_iteration": 4.727063417434692
    },
    {
      "auxiliary_loss_clip": 0.01144876,
      "auxiliary_loss_mlp": 0.01030364,
      "balance_loss_clip": 1.04119015,
      "balance_loss_mlp": 1.0227704,
      "epoch": 0.8718812000240486,
      "flos": 25479482538240.0,
      "grad_norm": 2.0007681021866306,
      "language_loss": 0.75171638,
      "learning_rate": 1.6960805584873538e-07,
      "loss": 0.77346873,
      "num_input_tokens_seen": 156861090,
      "step": 7251,
      "time_per_iteration": 2.667881727218628
    },
    {
      "auxiliary_loss_clip": 0.01132312,
      "auxiliary_loss_mlp": 0.01023849,
      "balance_loss_clip": 1.03990281,
      "balance_loss_mlp": 1.01646078,
      "epoch": 0.8720014429146876,
      "flos": 23403056100480.0,
      "grad_norm": 2.009647079539623,
      "language_loss": 0.78188586,
      "learning_rate": 1.6929426203058684e-07,
      "loss": 0.80344748,
      "num_input_tokens_seen": 156881515,
      "step": 7252,
      "time_per_iteration": 3.613219976425171
    },
    {
      "auxiliary_loss_clip": 0.01171346,
      "auxiliary_loss_mlp": 0.00887362,
      "balance_loss_clip": 1.04541612,
      "balance_loss_mlp": 1.00057292,
      "epoch": 0.8721216858053268,
      "flos": 24352821567360.0,
      "grad_norm": 2.422079326973114,
      "language_loss": 0.79946369,
      "learning_rate": 1.689807459290431e-07,
      "loss": 0.82005072,
      "num_input_tokens_seen": 156900170,
      "step": 7253,
      "time_per_iteration": 2.678192615509033
    },
    {
      "auxiliary_loss_clip": 0.01154283,
      "auxiliary_loss_mlp": 0.01031356,
      "balance_loss_clip": 1.0468452,
      "balance_loss_mlp": 1.02369654,
      "epoch": 0.8722419286959658,
      "flos": 33869687034240.0,
      "grad_norm": 1.943651866644227,
      "language_loss": 0.71287155,
      "learning_rate": 1.6866750759166437e-07,
      "loss": 0.73472798,
      "num_input_tokens_seen": 156920150,
      "step": 7254,
      "time_per_iteration": 2.7265777587890625
    },
    {
      "auxiliary_loss_clip": 0.0113535,
      "auxiliary_loss_mlp": 0.01020821,
      "balance_loss_clip": 1.03946865,
      "balance_loss_mlp": 1.0136683,
      "epoch": 0.8723621715866049,
      "flos": 18369385914240.0,
      "grad_norm": 2.175014714837349,
      "language_loss": 0.7713455,
      "learning_rate": 1.6835454706596865e-07,
      "loss": 0.79290724,
      "num_input_tokens_seen": 156937980,
      "step": 7255,
      "time_per_iteration": 2.7373197078704834
    },
    {
      "auxiliary_loss_clip": 0.01172131,
      "auxiliary_loss_mlp": 0.01027506,
      "balance_loss_clip": 1.04944944,
      "balance_loss_mlp": 1.01997209,
      "epoch": 0.8724824144772441,
      "flos": 22013348855040.0,
      "grad_norm": 2.9178816198365674,
      "language_loss": 0.73841286,
      "learning_rate": 1.680418643994317e-07,
      "loss": 0.76040924,
      "num_input_tokens_seen": 156956550,
      "step": 7256,
      "time_per_iteration": 2.6452932357788086
    },
    {
      "auxiliary_loss_clip": 0.01062242,
      "auxiliary_loss_mlp": 0.0100074,
      "balance_loss_clip": 1.00753498,
      "balance_loss_mlp": 0.99978036,
      "epoch": 0.8726026573678831,
      "flos": 66698720213760.0,
      "grad_norm": 0.9543353979481791,
      "language_loss": 0.64534205,
      "learning_rate": 1.6772945963948738e-07,
      "loss": 0.66597182,
      "num_input_tokens_seen": 157014715,
      "step": 7257,
      "time_per_iteration": 3.23032808303833
    },
    {
      "auxiliary_loss_clip": 0.01151851,
      "auxiliary_loss_mlp": 0.01026804,
      "balance_loss_clip": 1.04689574,
      "balance_loss_mlp": 1.01898968,
      "epoch": 0.8727229002585222,
      "flos": 13370908078080.0,
      "grad_norm": 2.619754026898144,
      "language_loss": 0.77433884,
      "learning_rate": 1.6741733283352733e-07,
      "loss": 0.79612541,
      "num_input_tokens_seen": 157032320,
      "step": 7258,
      "time_per_iteration": 2.703672170639038
    },
    {
      "auxiliary_loss_clip": 0.01136295,
      "auxiliary_loss_mlp": 0.01027032,
      "balance_loss_clip": 1.04222345,
      "balance_loss_mlp": 1.01891994,
      "epoch": 0.8728431431491613,
      "flos": 21796987282560.0,
      "grad_norm": 1.5198316823925024,
      "language_loss": 0.83894092,
      "learning_rate": 1.6710548402890102e-07,
      "loss": 0.86057419,
      "num_input_tokens_seen": 157052845,
      "step": 7259,
      "time_per_iteration": 3.5632882118225098
    },
    {
      "auxiliary_loss_clip": 0.01172207,
      "auxiliary_loss_mlp": 0.01023841,
      "balance_loss_clip": 1.04651141,
      "balance_loss_mlp": 1.01625323,
      "epoch": 0.8729633860398004,
      "flos": 36173823742080.0,
      "grad_norm": 1.9303429040584772,
      "language_loss": 0.66894394,
      "learning_rate": 1.6679391327291527e-07,
      "loss": 0.69090444,
      "num_input_tokens_seen": 157074050,
      "step": 7260,
      "time_per_iteration": 2.7409491539001465
    },
    {
      "auxiliary_loss_clip": 0.01152467,
      "auxiliary_loss_mlp": 0.01027711,
      "balance_loss_clip": 1.04371023,
      "balance_loss_mlp": 1.02002788,
      "epoch": 0.8730836289304394,
      "flos": 16359680989440.0,
      "grad_norm": 2.710677949538276,
      "language_loss": 0.68387467,
      "learning_rate": 1.6648262061283492e-07,
      "loss": 0.70567644,
      "num_input_tokens_seen": 157089350,
      "step": 7261,
      "time_per_iteration": 2.652224540710449
    },
    {
      "auxiliary_loss_clip": 0.01139431,
      "auxiliary_loss_mlp": 0.01027669,
      "balance_loss_clip": 1.03892517,
      "balance_loss_mlp": 1.02040911,
      "epoch": 0.8732038718210786,
      "flos": 21215126868480.0,
      "grad_norm": 2.098788303415787,
      "language_loss": 0.73852533,
      "learning_rate": 1.6617160609588353e-07,
      "loss": 0.76019633,
      "num_input_tokens_seen": 157108525,
      "step": 7262,
      "time_per_iteration": 2.7454984188079834
    },
    {
      "auxiliary_loss_clip": 0.01153381,
      "auxiliary_loss_mlp": 0.01029538,
      "balance_loss_clip": 1.04387367,
      "balance_loss_mlp": 1.02195311,
      "epoch": 0.8733241147117177,
      "flos": 16610696208000.0,
      "grad_norm": 2.37177924352537,
      "language_loss": 0.72081941,
      "learning_rate": 1.6586086976924163e-07,
      "loss": 0.74264854,
      "num_input_tokens_seen": 157124025,
      "step": 7263,
      "time_per_iteration": 2.7016289234161377
    },
    {
      "auxiliary_loss_clip": 0.01159674,
      "auxiliary_loss_mlp": 0.01025978,
      "balance_loss_clip": 1.04241395,
      "balance_loss_mlp": 1.01896858,
      "epoch": 0.8734443576023567,
      "flos": 20193935207040.0,
      "grad_norm": 1.775775345748195,
      "language_loss": 0.7844193,
      "learning_rate": 1.6555041168004747e-07,
      "loss": 0.80627578,
      "num_input_tokens_seen": 157143345,
      "step": 7264,
      "time_per_iteration": 2.618995189666748
    },
    {
      "auxiliary_loss_clip": 0.01146009,
      "auxiliary_loss_mlp": 0.01027015,
      "balance_loss_clip": 1.04389048,
      "balance_loss_mlp": 1.01940084,
      "epoch": 0.8735646004929959,
      "flos": 18041162411520.0,
      "grad_norm": 1.8186449953747217,
      "language_loss": 0.68964744,
      "learning_rate": 1.6524023187539715e-07,
      "loss": 0.71137768,
      "num_input_tokens_seen": 157161630,
      "step": 7265,
      "time_per_iteration": 2.604079484939575
    },
    {
      "auxiliary_loss_clip": 0.01150941,
      "auxiliary_loss_mlp": 0.0103053,
      "balance_loss_clip": 1.0438087,
      "balance_loss_mlp": 1.02280498,
      "epoch": 0.873684843383635,
      "flos": 20262344659200.0,
      "grad_norm": 1.8198295095069437,
      "language_loss": 0.74822605,
      "learning_rate": 1.649303304023446e-07,
      "loss": 0.77004075,
      "num_input_tokens_seen": 157181385,
      "step": 7266,
      "time_per_iteration": 2.7249016761779785
    },
    {
      "auxiliary_loss_clip": 0.01137294,
      "auxiliary_loss_mlp": 0.01030756,
      "balance_loss_clip": 1.04644632,
      "balance_loss_mlp": 1.02293015,
      "epoch": 0.873805086274274,
      "flos": 16947287579520.0,
      "grad_norm": 2.23086914253339,
      "language_loss": 0.78936207,
      "learning_rate": 1.6462070730790246e-07,
      "loss": 0.81104267,
      "num_input_tokens_seen": 157200545,
      "step": 7267,
      "time_per_iteration": 2.727174758911133
    },
    {
      "auxiliary_loss_clip": 0.01144249,
      "auxiliary_loss_mlp": 0.01033147,
      "balance_loss_clip": 1.03991652,
      "balance_loss_mlp": 1.02560723,
      "epoch": 0.8739253291649132,
      "flos": 18041270152320.0,
      "grad_norm": 2.485473177599726,
      "language_loss": 0.7848379,
      "learning_rate": 1.6431136263903912e-07,
      "loss": 0.8066119,
      "num_input_tokens_seen": 157219545,
      "step": 7268,
      "time_per_iteration": 2.682694911956787
    },
    {
      "auxiliary_loss_clip": 0.01160939,
      "auxiliary_loss_mlp": 0.00886439,
      "balance_loss_clip": 1.04318404,
      "balance_loss_mlp": 1.00057769,
      "epoch": 0.8740455720555522,
      "flos": 21325085377920.0,
      "grad_norm": 1.743525777994645,
      "language_loss": 0.73356628,
      "learning_rate": 1.6400229644268282e-07,
      "loss": 0.75404012,
      "num_input_tokens_seen": 157237900,
      "step": 7269,
      "time_per_iteration": 2.6999192237854004
    },
    {
      "auxiliary_loss_clip": 0.01135243,
      "auxiliary_loss_mlp": 0.0102594,
      "balance_loss_clip": 1.04493546,
      "balance_loss_mlp": 1.01803946,
      "epoch": 0.8741658149461913,
      "flos": 15158684822400.0,
      "grad_norm": 1.935682363716864,
      "language_loss": 0.80874372,
      "learning_rate": 1.6369350876571852e-07,
      "loss": 0.83035558,
      "num_input_tokens_seen": 157256055,
      "step": 7270,
      "time_per_iteration": 2.649474859237671
    },
    {
      "auxiliary_loss_clip": 0.01127329,
      "auxiliary_loss_mlp": 0.01024208,
      "balance_loss_clip": 1.04035926,
      "balance_loss_mlp": 1.01646519,
      "epoch": 0.8742860578368304,
      "flos": 23039855729280.0,
      "grad_norm": 2.222749142495063,
      "language_loss": 0.81901133,
      "learning_rate": 1.6338499965498874e-07,
      "loss": 0.8405267,
      "num_input_tokens_seen": 157274785,
      "step": 7271,
      "time_per_iteration": 2.845146417617798
    },
    {
      "auxiliary_loss_clip": 0.01134081,
      "auxiliary_loss_mlp": 0.01028845,
      "balance_loss_clip": 1.04027879,
      "balance_loss_mlp": 1.02089953,
      "epoch": 0.8744063007274695,
      "flos": 28145347159680.0,
      "grad_norm": 1.8194467616498513,
      "language_loss": 0.7749548,
      "learning_rate": 1.630767691572943e-07,
      "loss": 0.79658407,
      "num_input_tokens_seen": 157294805,
      "step": 7272,
      "time_per_iteration": 2.763096809387207
    },
    {
      "auxiliary_loss_clip": 0.01052533,
      "auxiliary_loss_mlp": 0.01002427,
      "balance_loss_clip": 1.00749135,
      "balance_loss_mlp": 1.00143766,
      "epoch": 0.8745265436181086,
      "flos": 64034076654720.0,
      "grad_norm": 0.741047684279271,
      "language_loss": 0.53508663,
      "learning_rate": 1.6276881731939306e-07,
      "loss": 0.55563623,
      "num_input_tokens_seen": 157356695,
      "step": 7273,
      "time_per_iteration": 3.3273861408233643
    },
    {
      "auxiliary_loss_clip": 0.01157745,
      "auxiliary_loss_mlp": 0.01025901,
      "balance_loss_clip": 1.04619467,
      "balance_loss_mlp": 1.018713,
      "epoch": 0.8746467865087477,
      "flos": 28658618553600.0,
      "grad_norm": 1.9816078232905343,
      "language_loss": 0.75648558,
      "learning_rate": 1.6246114418800193e-07,
      "loss": 0.7783221,
      "num_input_tokens_seen": 157376975,
      "step": 7274,
      "time_per_iteration": 2.7184245586395264
    },
    {
      "auxiliary_loss_clip": 0.01154192,
      "auxiliary_loss_mlp": 0.01028817,
      "balance_loss_clip": 1.043293,
      "balance_loss_mlp": 1.02120578,
      "epoch": 0.8747670293993868,
      "flos": 23985850268160.0,
      "grad_norm": 1.7160100271783594,
      "language_loss": 0.76702487,
      "learning_rate": 1.6215374980979423e-07,
      "loss": 0.78885496,
      "num_input_tokens_seen": 157397385,
      "step": 7275,
      "time_per_iteration": 2.6485702991485596
    },
    {
      "auxiliary_loss_clip": 0.01158195,
      "auxiliary_loss_mlp": 0.01034546,
      "balance_loss_clip": 1.04746151,
      "balance_loss_mlp": 1.0257957,
      "epoch": 0.8748872722900258,
      "flos": 45221624478720.0,
      "grad_norm": 2.1749541676664217,
      "language_loss": 0.68785489,
      "learning_rate": 1.6184663423140133e-07,
      "loss": 0.70978224,
      "num_input_tokens_seen": 157417685,
      "step": 7276,
      "time_per_iteration": 4.52181077003479
    },
    {
      "auxiliary_loss_clip": 0.01136984,
      "auxiliary_loss_mlp": 0.01026472,
      "balance_loss_clip": 1.04360402,
      "balance_loss_mlp": 1.01812708,
      "epoch": 0.875007515180665,
      "flos": 19754280737280.0,
      "grad_norm": 2.0590925123378967,
      "language_loss": 0.63676941,
      "learning_rate": 1.615397974994126e-07,
      "loss": 0.65840399,
      "num_input_tokens_seen": 157435490,
      "step": 7277,
      "time_per_iteration": 3.579930305480957
    },
    {
      "auxiliary_loss_clip": 0.01167817,
      "auxiliary_loss_mlp": 0.01025158,
      "balance_loss_clip": 1.04760039,
      "balance_loss_mlp": 1.01787448,
      "epoch": 0.875127758071304,
      "flos": 22710734386560.0,
      "grad_norm": 1.5710322420440304,
      "language_loss": 0.80715913,
      "learning_rate": 1.6123323966037438e-07,
      "loss": 0.82908893,
      "num_input_tokens_seen": 157454010,
      "step": 7278,
      "time_per_iteration": 2.6120073795318604
    },
    {
      "auxiliary_loss_clip": 0.01170615,
      "auxiliary_loss_mlp": 0.01024679,
      "balance_loss_clip": 1.04849291,
      "balance_loss_mlp": 1.0172075,
      "epoch": 0.8752480009619431,
      "flos": 23403846199680.0,
      "grad_norm": 1.8782406346435143,
      "language_loss": 0.78692949,
      "learning_rate": 1.6092696076079216e-07,
      "loss": 0.80888247,
      "num_input_tokens_seen": 157472385,
      "step": 7279,
      "time_per_iteration": 2.6708297729492188
    },
    {
      "auxiliary_loss_clip": 0.01129804,
      "auxiliary_loss_mlp": 0.01026575,
      "balance_loss_clip": 1.04229414,
      "balance_loss_mlp": 1.01896977,
      "epoch": 0.8753682438525822,
      "flos": 26213101914240.0,
      "grad_norm": 2.0046239516359994,
      "language_loss": 0.73910832,
      "learning_rate": 1.6062096084712785e-07,
      "loss": 0.76067215,
      "num_input_tokens_seen": 157493735,
      "step": 7280,
      "time_per_iteration": 2.703582286834717
    },
    {
      "auxiliary_loss_clip": 0.01138785,
      "auxiliary_loss_mlp": 0.00887324,
      "balance_loss_clip": 1.03934085,
      "balance_loss_mlp": 1.00058973,
      "epoch": 0.8754884867432213,
      "flos": 23326745656320.0,
      "grad_norm": 1.972782960072444,
      "language_loss": 0.70789373,
      "learning_rate": 1.6031523996580098e-07,
      "loss": 0.72815478,
      "num_input_tokens_seen": 157511295,
      "step": 7281,
      "time_per_iteration": 2.6869053840637207
    },
    {
      "auxiliary_loss_clip": 0.0114737,
      "auxiliary_loss_mlp": 0.01028087,
      "balance_loss_clip": 1.04279065,
      "balance_loss_mlp": 1.0195632,
      "epoch": 0.8756087296338604,
      "flos": 12495226412160.0,
      "grad_norm": 3.9796727791658584,
      "language_loss": 0.66563284,
      "learning_rate": 1.6000979816318981e-07,
      "loss": 0.68738741,
      "num_input_tokens_seen": 157529760,
      "step": 7282,
      "time_per_iteration": 2.6419012546539307
    },
    {
      "auxiliary_loss_clip": 0.01158145,
      "auxiliary_loss_mlp": 0.01030927,
      "balance_loss_clip": 1.04714012,
      "balance_loss_mlp": 1.02339256,
      "epoch": 0.8757289725244994,
      "flos": 18952898353920.0,
      "grad_norm": 2.2745255850530706,
      "language_loss": 0.75003445,
      "learning_rate": 1.5970463548562886e-07,
      "loss": 0.77192515,
      "num_input_tokens_seen": 157548915,
      "step": 7283,
      "time_per_iteration": 2.6264870166778564
    },
    {
      "auxiliary_loss_clip": 0.01147568,
      "auxiliary_loss_mlp": 0.01031546,
      "balance_loss_clip": 1.04432368,
      "balance_loss_mlp": 1.02406597,
      "epoch": 0.8758492154151386,
      "flos": 25265958140160.0,
      "grad_norm": 1.6414719195035565,
      "language_loss": 0.70896327,
      "learning_rate": 1.5939975197941192e-07,
      "loss": 0.73075438,
      "num_input_tokens_seen": 157570570,
      "step": 7284,
      "time_per_iteration": 2.704941749572754
    },
    {
      "auxiliary_loss_clip": 0.01053605,
      "auxiliary_loss_mlp": 0.0100072,
      "balance_loss_clip": 1.00824165,
      "balance_loss_mlp": 0.99971884,
      "epoch": 0.8759694583057777,
      "flos": 65571664193280.0,
      "grad_norm": 0.8210388186409187,
      "language_loss": 0.53340781,
      "learning_rate": 1.5909514769078892e-07,
      "loss": 0.55395114,
      "num_input_tokens_seen": 157635675,
      "step": 7285,
      "time_per_iteration": 4.207255840301514
    },
    {
      "auxiliary_loss_clip": 0.01130643,
      "auxiliary_loss_mlp": 0.01029767,
      "balance_loss_clip": 1.04394746,
      "balance_loss_mlp": 1.02248883,
      "epoch": 0.8760897011964167,
      "flos": 25446193608960.0,
      "grad_norm": 1.5879834490857092,
      "language_loss": 0.77935511,
      "learning_rate": 1.5879082266596867e-07,
      "loss": 0.80095923,
      "num_input_tokens_seen": 157657015,
      "step": 7286,
      "time_per_iteration": 2.735468626022339
    },
    {
      "auxiliary_loss_clip": 0.01144871,
      "auxiliary_loss_mlp": 0.01023809,
      "balance_loss_clip": 1.04052067,
      "balance_loss_mlp": 1.01653409,
      "epoch": 0.8762099440870559,
      "flos": 28984830894720.0,
      "grad_norm": 1.8673822905687958,
      "language_loss": 0.71598369,
      "learning_rate": 1.5848677695111645e-07,
      "loss": 0.73767054,
      "num_input_tokens_seen": 157678615,
      "step": 7287,
      "time_per_iteration": 2.709254026412964
    },
    {
      "auxiliary_loss_clip": 0.01146097,
      "auxiliary_loss_mlp": 0.01029176,
      "balance_loss_clip": 1.04354787,
      "balance_loss_mlp": 1.02146876,
      "epoch": 0.8763301869776949,
      "flos": 21609461352960.0,
      "grad_norm": 2.821986305497734,
      "language_loss": 0.69603586,
      "learning_rate": 1.5818301059235562e-07,
      "loss": 0.71778858,
      "num_input_tokens_seen": 157693790,
      "step": 7288,
      "time_per_iteration": 2.740415573120117
    },
    {
      "auxiliary_loss_clip": 0.01153176,
      "auxiliary_loss_mlp": 0.01030562,
      "balance_loss_clip": 1.04575419,
      "balance_loss_mlp": 1.02261102,
      "epoch": 0.876450429868334,
      "flos": 24644416176000.0,
      "grad_norm": 2.0942677242259835,
      "language_loss": 0.81539965,
      "learning_rate": 1.578795236357684e-07,
      "loss": 0.837237,
      "num_input_tokens_seen": 157715255,
      "step": 7289,
      "time_per_iteration": 2.750472068786621
    },
    {
      "auxiliary_loss_clip": 0.01152276,
      "auxiliary_loss_mlp": 0.0102523,
      "balance_loss_clip": 1.04623532,
      "balance_loss_mlp": 1.01763046,
      "epoch": 0.8765706727589732,
      "flos": 20260046188800.0,
      "grad_norm": 2.2114344625307947,
      "language_loss": 0.85426235,
      "learning_rate": 1.5757631612739218e-07,
      "loss": 0.87603742,
      "num_input_tokens_seen": 157728800,
      "step": 7290,
      "time_per_iteration": 2.7458994388580322
    },
    {
      "auxiliary_loss_clip": 0.01061997,
      "auxiliary_loss_mlp": 0.01000763,
      "balance_loss_clip": 1.0071789,
      "balance_loss_mlp": 0.99982148,
      "epoch": 0.8766909156496122,
      "flos": 71371165276800.0,
      "grad_norm": 0.7771047317485597,
      "language_loss": 0.61540842,
      "learning_rate": 1.572733881132242e-07,
      "loss": 0.63603598,
      "num_input_tokens_seen": 157789445,
      "step": 7291,
      "time_per_iteration": 3.2527823448181152
    },
    {
      "auxiliary_loss_clip": 0.01042153,
      "auxiliary_loss_mlp": 0.01000779,
      "balance_loss_clip": 1.01130652,
      "balance_loss_mlp": 0.99993306,
      "epoch": 0.8768111585402513,
      "flos": 69523490603520.0,
      "grad_norm": 0.793200276713756,
      "language_loss": 0.58488274,
      "learning_rate": 1.5697073963921814e-07,
      "loss": 0.60531211,
      "num_input_tokens_seen": 157848685,
      "step": 7292,
      "time_per_iteration": 3.2334392070770264
    },
    {
      "auxiliary_loss_clip": 0.01161662,
      "auxiliary_loss_mlp": 0.01024925,
      "balance_loss_clip": 1.04595304,
      "balance_loss_mlp": 1.01708078,
      "epoch": 0.8769314014308904,
      "flos": 18838558385280.0,
      "grad_norm": 2.746106655583718,
      "language_loss": 0.85015821,
      "learning_rate": 1.566683707512857e-07,
      "loss": 0.87202406,
      "num_input_tokens_seen": 157866360,
      "step": 7293,
      "time_per_iteration": 2.664708375930786
    },
    {
      "auxiliary_loss_clip": 0.01147649,
      "auxiliary_loss_mlp": 0.01024156,
      "balance_loss_clip": 1.04392791,
      "balance_loss_mlp": 1.01628804,
      "epoch": 0.8770516443215295,
      "flos": 14976402278400.0,
      "grad_norm": 1.859846835983822,
      "language_loss": 0.79185867,
      "learning_rate": 1.5636628149529553e-07,
      "loss": 0.8135767,
      "num_input_tokens_seen": 157884150,
      "step": 7294,
      "time_per_iteration": 2.6455910205841064
    },
    {
      "auxiliary_loss_clip": 0.0115196,
      "auxiliary_loss_mlp": 0.01022575,
      "balance_loss_clip": 1.04489493,
      "balance_loss_mlp": 1.01509166,
      "epoch": 0.8771718872121685,
      "flos": 31649654021760.0,
      "grad_norm": 2.416085009167064,
      "language_loss": 0.7988323,
      "learning_rate": 1.560644719170743e-07,
      "loss": 0.82057762,
      "num_input_tokens_seen": 157905020,
      "step": 7295,
      "time_per_iteration": 2.801393747329712
    },
    {
      "auxiliary_loss_clip": 0.01138751,
      "auxiliary_loss_mlp": 0.01030827,
      "balance_loss_clip": 1.03989935,
      "balance_loss_mlp": 1.02313781,
      "epoch": 0.8772921301028077,
      "flos": 36095466222720.0,
      "grad_norm": 1.7350023939760124,
      "language_loss": 0.7226404,
      "learning_rate": 1.5576294206240692e-07,
      "loss": 0.74433619,
      "num_input_tokens_seen": 157924545,
      "step": 7296,
      "time_per_iteration": 2.7965376377105713
    },
    {
      "auxiliary_loss_clip": 0.01142198,
      "auxiliary_loss_mlp": 0.01027346,
      "balance_loss_clip": 1.0408771,
      "balance_loss_mlp": 1.01970506,
      "epoch": 0.8774123729934468,
      "flos": 57116961849600.0,
      "grad_norm": 2.353357044119883,
      "language_loss": 0.67913866,
      "learning_rate": 1.5546169197703507e-07,
      "loss": 0.70083416,
      "num_input_tokens_seen": 157950820,
      "step": 7297,
      "time_per_iteration": 2.9420664310455322
    },
    {
      "auxiliary_loss_clip": 0.01153666,
      "auxiliary_loss_mlp": 0.01023344,
      "balance_loss_clip": 1.04160309,
      "balance_loss_mlp": 1.01577449,
      "epoch": 0.8775326158840858,
      "flos": 23914495900800.0,
      "grad_norm": 2.9394214248817736,
      "language_loss": 0.7696504,
      "learning_rate": 1.5516072170665774e-07,
      "loss": 0.79142052,
      "num_input_tokens_seen": 157968790,
      "step": 7298,
      "time_per_iteration": 2.7410223484039307
    },
    {
      "auxiliary_loss_clip": 0.01161066,
      "auxiliary_loss_mlp": 0.01029974,
      "balance_loss_clip": 1.04522347,
      "balance_loss_mlp": 1.02232647,
      "epoch": 0.877652858774725,
      "flos": 17123285243520.0,
      "grad_norm": 1.8914266205856307,
      "language_loss": 0.86417782,
      "learning_rate": 1.5486003129693214e-07,
      "loss": 0.88608825,
      "num_input_tokens_seen": 157986155,
      "step": 7299,
      "time_per_iteration": 2.5837464332580566
    },
    {
      "auxiliary_loss_clip": 0.0116355,
      "auxiliary_loss_mlp": 0.0102697,
      "balance_loss_clip": 1.04704928,
      "balance_loss_mlp": 1.01910174,
      "epoch": 0.877773101665364,
      "flos": 16508961912960.0,
      "grad_norm": 1.8348395081756839,
      "language_loss": 0.78289694,
      "learning_rate": 1.545596207934725e-07,
      "loss": 0.80480212,
      "num_input_tokens_seen": 158004640,
      "step": 7300,
      "time_per_iteration": 2.626826763153076
    },
    {
      "auxiliary_loss_clip": 0.01145276,
      "auxiliary_loss_mlp": 0.01026064,
      "balance_loss_clip": 1.04226232,
      "balance_loss_mlp": 1.01874471,
      "epoch": 0.8778933445560031,
      "flos": 22053209973120.0,
      "grad_norm": 1.8944884866434937,
      "language_loss": 0.7748673,
      "learning_rate": 1.5425949024185147e-07,
      "loss": 0.79658067,
      "num_input_tokens_seen": 158024665,
      "step": 7301,
      "time_per_iteration": 2.7080533504486084
    },
    {
      "auxiliary_loss_clip": 0.01151366,
      "auxiliary_loss_mlp": 0.01029842,
      "balance_loss_clip": 1.04210341,
      "balance_loss_mlp": 1.02283847,
      "epoch": 0.8780135874466423,
      "flos": 22564757514240.0,
      "grad_norm": 11.863728615663389,
      "language_loss": 0.67650318,
      "learning_rate": 1.5395963968759818e-07,
      "loss": 0.69831526,
      "num_input_tokens_seen": 158044940,
      "step": 7302,
      "time_per_iteration": 3.607555866241455
    },
    {
      "auxiliary_loss_clip": 0.01151129,
      "auxiliary_loss_mlp": 0.0102954,
      "balance_loss_clip": 1.04198182,
      "balance_loss_mlp": 1.02224493,
      "epoch": 0.8781338303372813,
      "flos": 61531999073280.0,
      "grad_norm": 1.7659125577380024,
      "language_loss": 0.64801204,
      "learning_rate": 1.536600691761998e-07,
      "loss": 0.66981876,
      "num_input_tokens_seen": 158070770,
      "step": 7303,
      "time_per_iteration": 4.1422154903411865
    },
    {
      "auxiliary_loss_clip": 0.01143738,
      "auxiliary_loss_mlp": 0.01026091,
      "balance_loss_clip": 1.04432678,
      "balance_loss_mlp": 1.018682,
      "epoch": 0.8782540732279204,
      "flos": 22674751937280.0,
      "grad_norm": 4.873852407877017,
      "language_loss": 0.71478784,
      "learning_rate": 1.5336077875310084e-07,
      "loss": 0.73648608,
      "num_input_tokens_seen": 158089995,
      "step": 7304,
      "time_per_iteration": 3.5330398082733154
    },
    {
      "auxiliary_loss_clip": 0.01135433,
      "auxiliary_loss_mlp": 0.01028896,
      "balance_loss_clip": 1.04153681,
      "balance_loss_mlp": 1.02063537,
      "epoch": 0.8783743161185595,
      "flos": 16070348937600.0,
      "grad_norm": 2.1343381184982384,
      "language_loss": 0.7403779,
      "learning_rate": 1.5306176846370321e-07,
      "loss": 0.76202118,
      "num_input_tokens_seen": 158108140,
      "step": 7305,
      "time_per_iteration": 2.7718310356140137
    },
    {
      "auxiliary_loss_clip": 0.01156259,
      "auxiliary_loss_mlp": 0.01027901,
      "balance_loss_clip": 1.0420959,
      "balance_loss_mlp": 1.01993203,
      "epoch": 0.8784945590091986,
      "flos": 26067879227520.0,
      "grad_norm": 2.3827413308024155,
      "language_loss": 0.74202585,
      "learning_rate": 1.5276303835336712e-07,
      "loss": 0.7638675,
      "num_input_tokens_seen": 158128680,
      "step": 7306,
      "time_per_iteration": 2.677616834640503
    },
    {
      "auxiliary_loss_clip": 0.01058001,
      "auxiliary_loss_mlp": 0.01001025,
      "balance_loss_clip": 1.00752044,
      "balance_loss_mlp": 0.99999392,
      "epoch": 0.8786148018998376,
      "flos": 62720643939840.0,
      "grad_norm": 0.7616594425205051,
      "language_loss": 0.53512281,
      "learning_rate": 1.524645884674094e-07,
      "loss": 0.55571306,
      "num_input_tokens_seen": 158185610,
      "step": 7307,
      "time_per_iteration": 3.226776599884033
    },
    {
      "auxiliary_loss_clip": 0.01172428,
      "auxiliary_loss_mlp": 0.00887219,
      "balance_loss_clip": 1.04769063,
      "balance_loss_mlp": 1.0006361,
      "epoch": 0.8787350447904768,
      "flos": 21652734263040.0,
      "grad_norm": 2.07804343701229,
      "language_loss": 0.79111385,
      "learning_rate": 1.521664188511047e-07,
      "loss": 0.81171036,
      "num_input_tokens_seen": 158205635,
      "step": 7308,
      "time_per_iteration": 2.6622252464294434
    },
    {
      "auxiliary_loss_clip": 0.01147448,
      "auxiliary_loss_mlp": 0.00886435,
      "balance_loss_clip": 1.04454684,
      "balance_loss_mlp": 1.00053585,
      "epoch": 0.8788552876811159,
      "flos": 25478476957440.0,
      "grad_norm": 2.1611342330150762,
      "language_loss": 0.80226171,
      "learning_rate": 1.518685295496851e-07,
      "loss": 0.82260054,
      "num_input_tokens_seen": 158223495,
      "step": 7309,
      "time_per_iteration": 2.701294422149658
    },
    {
      "auxiliary_loss_clip": 0.01160933,
      "auxiliary_loss_mlp": 0.01029535,
      "balance_loss_clip": 1.04463255,
      "balance_loss_mlp": 1.02222109,
      "epoch": 0.8789755305717549,
      "flos": 22310222762880.0,
      "grad_norm": 1.71518966774942,
      "language_loss": 0.85518593,
      "learning_rate": 1.5157092060833975e-07,
      "loss": 0.87709057,
      "num_input_tokens_seen": 158243145,
      "step": 7310,
      "time_per_iteration": 2.6496827602386475
    },
    {
      "auxiliary_loss_clip": 0.0114671,
      "auxiliary_loss_mlp": 0.01024461,
      "balance_loss_clip": 1.04099047,
      "balance_loss_mlp": 1.01712918,
      "epoch": 0.879095773462394,
      "flos": 29310971408640.0,
      "grad_norm": 1.5771074506512506,
      "language_loss": 0.6576041,
      "learning_rate": 1.5127359207221658e-07,
      "loss": 0.67931575,
      "num_input_tokens_seen": 158262625,
      "step": 7311,
      "time_per_iteration": 3.7283499240875244
    },
    {
      "auxiliary_loss_clip": 0.01109411,
      "auxiliary_loss_mlp": 0.0102506,
      "balance_loss_clip": 1.0345937,
      "balance_loss_mlp": 1.01752007,
      "epoch": 0.8792160163530331,
      "flos": 16690023394560.0,
      "grad_norm": 2.8989365822014905,
      "language_loss": 0.7313875,
      "learning_rate": 1.5097654398641923e-07,
      "loss": 0.75273216,
      "num_input_tokens_seen": 158280530,
      "step": 7312,
      "time_per_iteration": 2.7552108764648438
    },
    {
      "auxiliary_loss_clip": 0.01166593,
      "auxiliary_loss_mlp": 0.01030528,
      "balance_loss_clip": 1.04685807,
      "balance_loss_mlp": 1.0230093,
      "epoch": 0.8793362592436722,
      "flos": 24499301230080.0,
      "grad_norm": 1.278259524218155,
      "language_loss": 0.73080325,
      "learning_rate": 1.5067977639601014e-07,
      "loss": 0.75277454,
      "num_input_tokens_seen": 158303290,
      "step": 7313,
      "time_per_iteration": 2.667513847351074
    },
    {
      "auxiliary_loss_clip": 0.01147987,
      "auxiliary_loss_mlp": 0.01030072,
      "balance_loss_clip": 1.04349351,
      "balance_loss_mlp": 1.02274108,
      "epoch": 0.8794565021343113,
      "flos": 14538399834240.0,
      "grad_norm": 2.1845006070990305,
      "language_loss": 0.71023875,
      "learning_rate": 1.5038328934600864e-07,
      "loss": 0.73201936,
      "num_input_tokens_seen": 158319925,
      "step": 7314,
      "time_per_iteration": 2.658578395843506
    },
    {
      "auxiliary_loss_clip": 0.01151593,
      "auxiliary_loss_mlp": 0.01026763,
      "balance_loss_clip": 1.04474497,
      "balance_loss_mlp": 1.01946163,
      "epoch": 0.8795767450249504,
      "flos": 39530286224640.0,
      "grad_norm": 1.8120502325799022,
      "language_loss": 0.70063639,
      "learning_rate": 1.5008708288139161e-07,
      "loss": 0.72242004,
      "num_input_tokens_seen": 158342285,
      "step": 7315,
      "time_per_iteration": 2.999160051345825
    },
    {
      "auxiliary_loss_clip": 0.01157602,
      "auxiliary_loss_mlp": 0.01024575,
      "balance_loss_clip": 1.04526389,
      "balance_loss_mlp": 1.01693988,
      "epoch": 0.8796969879155895,
      "flos": 22960672197120.0,
      "grad_norm": 2.061178644970152,
      "language_loss": 0.73323554,
      "learning_rate": 1.497911570470931e-07,
      "loss": 0.75505733,
      "num_input_tokens_seen": 158362290,
      "step": 7316,
      "time_per_iteration": 2.657756805419922
    },
    {
      "auxiliary_loss_clip": 0.01133222,
      "auxiliary_loss_mlp": 0.01025953,
      "balance_loss_clip": 1.04287422,
      "balance_loss_mlp": 1.01851761,
      "epoch": 0.8798172308062285,
      "flos": 28362427004160.0,
      "grad_norm": 3.1162039098386995,
      "language_loss": 0.85752606,
      "learning_rate": 1.494955118880048e-07,
      "loss": 0.87911785,
      "num_input_tokens_seen": 158383275,
      "step": 7317,
      "time_per_iteration": 2.8191237449645996
    },
    {
      "auxiliary_loss_clip": 0.01160443,
      "auxiliary_loss_mlp": 0.0102362,
      "balance_loss_clip": 1.04489326,
      "balance_loss_mlp": 1.01643729,
      "epoch": 0.8799374736968677,
      "flos": 23988974751360.0,
      "grad_norm": 2.4706051145030337,
      "language_loss": 0.72489309,
      "learning_rate": 1.4920014744897634e-07,
      "loss": 0.74673378,
      "num_input_tokens_seen": 158402690,
      "step": 7318,
      "time_per_iteration": 2.651341438293457
    },
    {
      "auxiliary_loss_clip": 0.01142433,
      "auxiliary_loss_mlp": 0.01026191,
      "balance_loss_clip": 1.0433073,
      "balance_loss_mlp": 1.01843655,
      "epoch": 0.8800577165875068,
      "flos": 25630271832960.0,
      "grad_norm": 1.8336413413150954,
      "language_loss": 0.86801267,
      "learning_rate": 1.4890506377481392e-07,
      "loss": 0.88969898,
      "num_input_tokens_seen": 158421780,
      "step": 7319,
      "time_per_iteration": 2.7221322059631348
    },
    {
      "auxiliary_loss_clip": 0.01118444,
      "auxiliary_loss_mlp": 0.01028325,
      "balance_loss_clip": 1.03960609,
      "balance_loss_mlp": 1.02116036,
      "epoch": 0.8801779594781458,
      "flos": 23440331439360.0,
      "grad_norm": 1.632279085451515,
      "language_loss": 0.63919437,
      "learning_rate": 1.486102609102815e-07,
      "loss": 0.66066206,
      "num_input_tokens_seen": 158442330,
      "step": 7320,
      "time_per_iteration": 2.7909481525421143
    },
    {
      "auxiliary_loss_clip": 0.01147892,
      "auxiliary_loss_mlp": 0.01026734,
      "balance_loss_clip": 1.04458761,
      "balance_loss_mlp": 1.01943827,
      "epoch": 0.880298202368785,
      "flos": 11508580656000.0,
      "grad_norm": 2.8861634552266966,
      "language_loss": 0.85765719,
      "learning_rate": 1.483157389001004e-07,
      "loss": 0.87940347,
      "num_input_tokens_seen": 158459890,
      "step": 7321,
      "time_per_iteration": 2.63810133934021
    },
    {
      "auxiliary_loss_clip": 0.01145991,
      "auxiliary_loss_mlp": 0.01025635,
      "balance_loss_clip": 1.03908992,
      "balance_loss_mlp": 1.01794636,
      "epoch": 0.880418445259424,
      "flos": 22671447886080.0,
      "grad_norm": 3.2476856047068337,
      "language_loss": 0.79150623,
      "learning_rate": 1.4802149778894933e-07,
      "loss": 0.81322247,
      "num_input_tokens_seen": 158478680,
      "step": 7322,
      "time_per_iteration": 2.7297232151031494
    },
    {
      "auxiliary_loss_clip": 0.01149762,
      "auxiliary_loss_mlp": 0.01022713,
      "balance_loss_clip": 1.04116452,
      "balance_loss_mlp": 1.01522028,
      "epoch": 0.8805386881500631,
      "flos": 20522158709760.0,
      "grad_norm": 1.8303636791732136,
      "language_loss": 0.87577307,
      "learning_rate": 1.4772753762146484e-07,
      "loss": 0.89749777,
      "num_input_tokens_seen": 158497935,
      "step": 7323,
      "time_per_iteration": 2.6280531883239746
    },
    {
      "auxiliary_loss_clip": 0.01154477,
      "auxiliary_loss_mlp": 0.01024305,
      "balance_loss_clip": 1.04315853,
      "balance_loss_mlp": 1.016348,
      "epoch": 0.8806589310407023,
      "flos": 36538891620480.0,
      "grad_norm": 1.493868951880019,
      "language_loss": 0.70495987,
      "learning_rate": 1.474338584422401e-07,
      "loss": 0.72674769,
      "num_input_tokens_seen": 158523145,
      "step": 7324,
      "time_per_iteration": 2.766172170639038
    },
    {
      "auxiliary_loss_clip": 0.01159285,
      "auxiliary_loss_mlp": 0.01021367,
      "balance_loss_clip": 1.04898584,
      "balance_loss_mlp": 1.01426768,
      "epoch": 0.8807791739313413,
      "flos": 23440187784960.0,
      "grad_norm": 1.7391528661119353,
      "language_loss": 0.75588548,
      "learning_rate": 1.4714046029582595e-07,
      "loss": 0.77769196,
      "num_input_tokens_seen": 158542210,
      "step": 7325,
      "time_per_iteration": 2.6311821937561035
    },
    {
      "auxiliary_loss_clip": 0.011429,
      "auxiliary_loss_mlp": 0.01021667,
      "balance_loss_clip": 1.04179168,
      "balance_loss_mlp": 1.01466966,
      "epoch": 0.8808994168219804,
      "flos": 25956843310080.0,
      "grad_norm": 2.2033186798473356,
      "language_loss": 0.75567579,
      "learning_rate": 1.46847343226731e-07,
      "loss": 0.77732146,
      "num_input_tokens_seen": 158563250,
      "step": 7326,
      "time_per_iteration": 2.766799211502075
    },
    {
      "auxiliary_loss_clip": 0.01162336,
      "auxiliary_loss_mlp": 0.01026306,
      "balance_loss_clip": 1.04442918,
      "balance_loss_mlp": 1.01877165,
      "epoch": 0.8810196597126195,
      "flos": 17092079303040.0,
      "grad_norm": 2.043670074209106,
      "language_loss": 0.69566,
      "learning_rate": 1.465545072794203e-07,
      "loss": 0.71754646,
      "num_input_tokens_seen": 158581125,
      "step": 7327,
      "time_per_iteration": 2.6204946041107178
    },
    {
      "auxiliary_loss_clip": 0.01126278,
      "auxiliary_loss_mlp": 0.01025001,
      "balance_loss_clip": 1.0426321,
      "balance_loss_mlp": 1.01751208,
      "epoch": 0.8811399026032586,
      "flos": 23002831785600.0,
      "grad_norm": 1.5929265001861335,
      "language_loss": 0.75774747,
      "learning_rate": 1.4626195249831774e-07,
      "loss": 0.77926028,
      "num_input_tokens_seen": 158602025,
      "step": 7328,
      "time_per_iteration": 4.6397552490234375
    },
    {
      "auxiliary_loss_clip": 0.01159295,
      "auxiliary_loss_mlp": 0.01022538,
      "balance_loss_clip": 1.04590333,
      "balance_loss_mlp": 1.01522136,
      "epoch": 0.8812601454938976,
      "flos": 14463813242880.0,
      "grad_norm": 1.920974187515784,
      "language_loss": 0.71882755,
      "learning_rate": 1.4596967892780244e-07,
      "loss": 0.74064595,
      "num_input_tokens_seen": 158618355,
      "step": 7329,
      "time_per_iteration": 2.6531801223754883
    },
    {
      "auxiliary_loss_clip": 0.01170226,
      "auxiliary_loss_mlp": 0.01023331,
      "balance_loss_clip": 1.04801655,
      "balance_loss_mlp": 1.01632738,
      "epoch": 0.8813803883845368,
      "flos": 22493223578880.0,
      "grad_norm": 1.8667541796532854,
      "language_loss": 0.74582517,
      "learning_rate": 1.4567768661221314e-07,
      "loss": 0.76776075,
      "num_input_tokens_seen": 158638925,
      "step": 7330,
      "time_per_iteration": 3.476879119873047
    },
    {
      "auxiliary_loss_clip": 0.0116523,
      "auxiliary_loss_mlp": 0.00887293,
      "balance_loss_clip": 1.04799342,
      "balance_loss_mlp": 1.00055933,
      "epoch": 0.8815006312751759,
      "flos": 21506901045120.0,
      "grad_norm": 1.9251458094967404,
      "language_loss": 0.74802315,
      "learning_rate": 1.4538597559584442e-07,
      "loss": 0.76854843,
      "num_input_tokens_seen": 158656715,
      "step": 7331,
      "time_per_iteration": 2.7456085681915283
    },
    {
      "auxiliary_loss_clip": 0.01144997,
      "auxiliary_loss_mlp": 0.01023928,
      "balance_loss_clip": 1.04300928,
      "balance_loss_mlp": 1.0158577,
      "epoch": 0.8816208741658149,
      "flos": 22784566792320.0,
      "grad_norm": 1.7755798750275438,
      "language_loss": 0.78714144,
      "learning_rate": 1.4509454592294823e-07,
      "loss": 0.80883068,
      "num_input_tokens_seen": 158677200,
      "step": 7332,
      "time_per_iteration": 2.672065496444702
    },
    {
      "auxiliary_loss_clip": 0.01140155,
      "auxiliary_loss_mlp": 0.00886643,
      "balance_loss_clip": 1.04251647,
      "balance_loss_mlp": 1.00057244,
      "epoch": 0.8817411170564541,
      "flos": 17779409026560.0,
      "grad_norm": 2.565513044456049,
      "language_loss": 0.79063475,
      "learning_rate": 1.448033976377354e-07,
      "loss": 0.81090271,
      "num_input_tokens_seen": 158692185,
      "step": 7333,
      "time_per_iteration": 2.7143170833587646
    },
    {
      "auxiliary_loss_clip": 0.01161437,
      "auxiliary_loss_mlp": 0.01021392,
      "balance_loss_clip": 1.04365718,
      "balance_loss_mlp": 1.01391804,
      "epoch": 0.8818613599470931,
      "flos": 18551812112640.0,
      "grad_norm": 2.0176295870070025,
      "language_loss": 0.74252409,
      "learning_rate": 1.445125307843713e-07,
      "loss": 0.76435244,
      "num_input_tokens_seen": 158710410,
      "step": 7334,
      "time_per_iteration": 2.6295299530029297
    },
    {
      "auxiliary_loss_clip": 0.01158683,
      "auxiliary_loss_mlp": 0.01024808,
      "balance_loss_clip": 1.04714823,
      "balance_loss_mlp": 1.01766109,
      "epoch": 0.8819816028377322,
      "flos": 27599792417280.0,
      "grad_norm": 1.6329018229226908,
      "language_loss": 0.75595891,
      "learning_rate": 1.442219454069813e-07,
      "loss": 0.77779388,
      "num_input_tokens_seen": 158731435,
      "step": 7335,
      "time_per_iteration": 2.68176531791687
    },
    {
      "auxiliary_loss_clip": 0.01137455,
      "auxiliary_loss_mlp": 0.01026016,
      "balance_loss_clip": 1.04210496,
      "balance_loss_mlp": 1.01905751,
      "epoch": 0.8821018457283714,
      "flos": 23404600385280.0,
      "grad_norm": 2.723657489047823,
      "language_loss": 0.66667682,
      "learning_rate": 1.4393164154964676e-07,
      "loss": 0.68831146,
      "num_input_tokens_seen": 158750965,
      "step": 7336,
      "time_per_iteration": 2.7963638305664062
    },
    {
      "auxiliary_loss_clip": 0.01155645,
      "auxiliary_loss_mlp": 0.01024045,
      "balance_loss_clip": 1.04445708,
      "balance_loss_mlp": 1.0167942,
      "epoch": 0.8822220886190104,
      "flos": 29132459792640.0,
      "grad_norm": 1.6897875542366012,
      "language_loss": 0.93993378,
      "learning_rate": 1.4364161925640649e-07,
      "loss": 0.96173066,
      "num_input_tokens_seen": 158772365,
      "step": 7337,
      "time_per_iteration": 3.529606342315674
    },
    {
      "auxiliary_loss_clip": 0.01167928,
      "auxiliary_loss_mlp": 0.01025616,
      "balance_loss_clip": 1.04636896,
      "balance_loss_mlp": 1.01867187,
      "epoch": 0.8823423315096495,
      "flos": 20485422074880.0,
      "grad_norm": 1.9111937020176881,
      "language_loss": 0.84974098,
      "learning_rate": 1.4335187857125663e-07,
      "loss": 0.87167645,
      "num_input_tokens_seen": 158791065,
      "step": 7338,
      "time_per_iteration": 2.6462624073028564
    },
    {
      "auxiliary_loss_clip": 0.01163082,
      "auxiliary_loss_mlp": 0.01023843,
      "balance_loss_clip": 1.04642284,
      "balance_loss_mlp": 1.01645207,
      "epoch": 0.8824625744002886,
      "flos": 24206377818240.0,
      "grad_norm": 1.586932145260556,
      "language_loss": 0.75372571,
      "learning_rate": 1.4306241953815023e-07,
      "loss": 0.77559501,
      "num_input_tokens_seen": 158812125,
      "step": 7339,
      "time_per_iteration": 2.6625354290008545
    },
    {
      "auxiliary_loss_clip": 0.01160945,
      "auxiliary_loss_mlp": 0.01021954,
      "balance_loss_clip": 1.045609,
      "balance_loss_mlp": 1.0145247,
      "epoch": 0.8825828172909277,
      "flos": 24679500785280.0,
      "grad_norm": 1.9529543640156364,
      "language_loss": 0.70894027,
      "learning_rate": 1.4277324220099862e-07,
      "loss": 0.73076922,
      "num_input_tokens_seen": 158834035,
      "step": 7340,
      "time_per_iteration": 2.7088656425476074
    },
    {
      "auxiliary_loss_clip": 0.01136899,
      "auxiliary_loss_mlp": 0.01026818,
      "balance_loss_clip": 1.04127145,
      "balance_loss_mlp": 1.0193975,
      "epoch": 0.8827030601815667,
      "flos": 22456163721600.0,
      "grad_norm": 1.9590857747934005,
      "language_loss": 0.74333185,
      "learning_rate": 1.4248434660366938e-07,
      "loss": 0.76496899,
      "num_input_tokens_seen": 158853510,
      "step": 7341,
      "time_per_iteration": 2.725574016571045
    },
    {
      "auxiliary_loss_clip": 0.0115098,
      "auxiliary_loss_mlp": 0.01031683,
      "balance_loss_clip": 1.04603064,
      "balance_loss_mlp": 1.02375531,
      "epoch": 0.8828233030722058,
      "flos": 19865639877120.0,
      "grad_norm": 1.89616455563104,
      "language_loss": 0.70329857,
      "learning_rate": 1.4219573278998808e-07,
      "loss": 0.72512531,
      "num_input_tokens_seen": 158871970,
      "step": 7342,
      "time_per_iteration": 2.6592624187469482
    },
    {
      "auxiliary_loss_clip": 0.01148855,
      "auxiliary_loss_mlp": 0.01036079,
      "balance_loss_clip": 1.04300952,
      "balance_loss_mlp": 1.02764463,
      "epoch": 0.882943545962845,
      "flos": 39347213581440.0,
      "grad_norm": 2.5913634123196383,
      "language_loss": 0.64837134,
      "learning_rate": 1.4190740080373685e-07,
      "loss": 0.67022073,
      "num_input_tokens_seen": 158892250,
      "step": 7343,
      "time_per_iteration": 2.87922739982605
    },
    {
      "auxiliary_loss_clip": 0.01132016,
      "auxiliary_loss_mlp": 0.01026244,
      "balance_loss_clip": 1.0446738,
      "balance_loss_mlp": 1.0182476,
      "epoch": 0.883063788853484,
      "flos": 19054524908160.0,
      "grad_norm": 2.1271663750988803,
      "language_loss": 0.84253561,
      "learning_rate": 1.4161935068865538e-07,
      "loss": 0.86411822,
      "num_input_tokens_seen": 158907395,
      "step": 7344,
      "time_per_iteration": 2.7613637447357178
    },
    {
      "auxiliary_loss_clip": 0.01170663,
      "auxiliary_loss_mlp": 0.01028906,
      "balance_loss_clip": 1.04708195,
      "balance_loss_mlp": 1.02080619,
      "epoch": 0.8831840317441231,
      "flos": 18733196816640.0,
      "grad_norm": 1.8349269281504474,
      "language_loss": 0.7555095,
      "learning_rate": 1.4133158248844113e-07,
      "loss": 0.7775051,
      "num_input_tokens_seen": 158926300,
      "step": 7345,
      "time_per_iteration": 2.6102020740509033
    },
    {
      "auxiliary_loss_clip": 0.01142048,
      "auxiliary_loss_mlp": 0.01027006,
      "balance_loss_clip": 1.04206002,
      "balance_loss_mlp": 1.01929951,
      "epoch": 0.8833042746347622,
      "flos": 26827712553600.0,
      "grad_norm": 1.895716364857888,
      "language_loss": 0.73205996,
      "learning_rate": 1.4104409624674785e-07,
      "loss": 0.7537505,
      "num_input_tokens_seen": 158946085,
      "step": 7346,
      "time_per_iteration": 2.764050245285034
    },
    {
      "auxiliary_loss_clip": 0.01160836,
      "auxiliary_loss_mlp": 0.01025474,
      "balance_loss_clip": 1.04719663,
      "balance_loss_mlp": 1.01817584,
      "epoch": 0.8834245175254013,
      "flos": 26104077158400.0,
      "grad_norm": 1.7149616984028206,
      "language_loss": 0.78439319,
      "learning_rate": 1.407568920071873e-07,
      "loss": 0.80625635,
      "num_input_tokens_seen": 158964950,
      "step": 7347,
      "time_per_iteration": 2.7799482345581055
    },
    {
      "auxiliary_loss_clip": 0.01174688,
      "auxiliary_loss_mlp": 0.01029589,
      "balance_loss_clip": 1.04921746,
      "balance_loss_mlp": 1.02139354,
      "epoch": 0.8835447604160404,
      "flos": 30629036977920.0,
      "grad_norm": 1.91729988563017,
      "language_loss": 0.6852265,
      "learning_rate": 1.4046996981332782e-07,
      "loss": 0.70726931,
      "num_input_tokens_seen": 158984835,
      "step": 7348,
      "time_per_iteration": 2.678701639175415
    },
    {
      "auxiliary_loss_clip": 0.01141557,
      "auxiliary_loss_mlp": 0.01027248,
      "balance_loss_clip": 1.0418154,
      "balance_loss_mlp": 1.01916003,
      "epoch": 0.8836650033066795,
      "flos": 24718356322560.0,
      "grad_norm": 1.9930458415944488,
      "language_loss": 0.78452623,
      "learning_rate": 1.4018332970869516e-07,
      "loss": 0.80621433,
      "num_input_tokens_seen": 159002775,
      "step": 7349,
      "time_per_iteration": 2.8249523639678955
    },
    {
      "auxiliary_loss_clip": 0.01142638,
      "auxiliary_loss_mlp": 0.01027233,
      "balance_loss_clip": 1.04373908,
      "balance_loss_mlp": 1.0192312,
      "epoch": 0.8837852461973186,
      "flos": 25413371556480.0,
      "grad_norm": 1.7542681274994782,
      "language_loss": 0.85006475,
      "learning_rate": 1.398969717367733e-07,
      "loss": 0.87176347,
      "num_input_tokens_seen": 159024100,
      "step": 7350,
      "time_per_iteration": 2.763397455215454
    },
    {
      "auxiliary_loss_clip": 0.01133863,
      "auxiliary_loss_mlp": 0.01030647,
      "balance_loss_clip": 1.04681861,
      "balance_loss_mlp": 1.02356911,
      "epoch": 0.8839054890879576,
      "flos": 17822574195840.0,
      "grad_norm": 1.7165617012666226,
      "language_loss": 0.76114881,
      "learning_rate": 1.396108959410014e-07,
      "loss": 0.78279388,
      "num_input_tokens_seen": 159043315,
      "step": 7351,
      "time_per_iteration": 2.733963966369629
    },
    {
      "auxiliary_loss_clip": 0.01161205,
      "auxiliary_loss_mlp": 0.00886632,
      "balance_loss_clip": 1.04833639,
      "balance_loss_mlp": 1.00056767,
      "epoch": 0.8840257319785968,
      "flos": 23769021818880.0,
      "grad_norm": 1.5770620638621269,
      "language_loss": 0.81772357,
      "learning_rate": 1.3932510236477745e-07,
      "loss": 0.83820188,
      "num_input_tokens_seen": 159063985,
      "step": 7352,
      "time_per_iteration": 2.646146297454834
    },
    {
      "auxiliary_loss_clip": 0.01157491,
      "auxiliary_loss_mlp": 0.01028398,
      "balance_loss_clip": 1.04209018,
      "balance_loss_mlp": 1.02025008,
      "epoch": 0.8841459748692359,
      "flos": 29059776622080.0,
      "grad_norm": 1.8168394902867093,
      "language_loss": 0.55549508,
      "learning_rate": 1.3903959105145636e-07,
      "loss": 0.57735395,
      "num_input_tokens_seen": 159084475,
      "step": 7353,
      "time_per_iteration": 2.717153310775757
    },
    {
      "auxiliary_loss_clip": 0.01168556,
      "auxiliary_loss_mlp": 0.01023128,
      "balance_loss_clip": 1.04597783,
      "balance_loss_mlp": 1.01611817,
      "epoch": 0.8842662177598749,
      "flos": 24311523905280.0,
      "grad_norm": 1.8283951145457855,
      "language_loss": 0.83105594,
      "learning_rate": 1.387543620443492e-07,
      "loss": 0.85297275,
      "num_input_tokens_seen": 159101320,
      "step": 7354,
      "time_per_iteration": 4.496159553527832
    },
    {
      "auxiliary_loss_clip": 0.01169289,
      "auxiliary_loss_mlp": 0.01024032,
      "balance_loss_clip": 1.04774308,
      "balance_loss_mlp": 1.01673388,
      "epoch": 0.8843864606505141,
      "flos": 25007867942400.0,
      "grad_norm": 1.6359561897551018,
      "language_loss": 0.84065485,
      "learning_rate": 1.3846941538672606e-07,
      "loss": 0.86258805,
      "num_input_tokens_seen": 159120025,
      "step": 7355,
      "time_per_iteration": 3.4627315998077393
    },
    {
      "auxiliary_loss_clip": 0.01138595,
      "auxiliary_loss_mlp": 0.01028647,
      "balance_loss_clip": 1.04577899,
      "balance_loss_mlp": 1.02122617,
      "epoch": 0.8845067035411531,
      "flos": 28183915388160.0,
      "grad_norm": 2.3089300420915215,
      "language_loss": 0.80517101,
      "learning_rate": 1.3818475112181193e-07,
      "loss": 0.8268435,
      "num_input_tokens_seen": 159138820,
      "step": 7356,
      "time_per_iteration": 2.809530258178711
    },
    {
      "auxiliary_loss_clip": 0.01150015,
      "auxiliary_loss_mlp": 0.01025902,
      "balance_loss_clip": 1.04488301,
      "balance_loss_mlp": 1.018785,
      "epoch": 0.8846269464317922,
      "flos": 12853219311360.0,
      "grad_norm": 2.3680173300541365,
      "language_loss": 0.79371512,
      "learning_rate": 1.3790036929279091e-07,
      "loss": 0.81547427,
      "num_input_tokens_seen": 159155975,
      "step": 7357,
      "time_per_iteration": 2.6859774589538574
    },
    {
      "auxiliary_loss_clip": 0.01164731,
      "auxiliary_loss_mlp": 0.00886329,
      "balance_loss_clip": 1.04829788,
      "balance_loss_mlp": 1.00061202,
      "epoch": 0.8847471893224313,
      "flos": 18624351628800.0,
      "grad_norm": 2.641853583126285,
      "language_loss": 0.58904958,
      "learning_rate": 1.3761626994280363e-07,
      "loss": 0.60956013,
      "num_input_tokens_seen": 159173445,
      "step": 7358,
      "time_per_iteration": 2.679556369781494
    },
    {
      "auxiliary_loss_clip": 0.01146743,
      "auxiliary_loss_mlp": 0.01023864,
      "balance_loss_clip": 1.04370666,
      "balance_loss_mlp": 1.0165565,
      "epoch": 0.8848674322130704,
      "flos": 35769433449600.0,
      "grad_norm": 1.7176110419066735,
      "language_loss": 0.73618162,
      "learning_rate": 1.3733245311494735e-07,
      "loss": 0.75788772,
      "num_input_tokens_seen": 159196100,
      "step": 7359,
      "time_per_iteration": 2.844592571258545
    },
    {
      "auxiliary_loss_clip": 0.01164192,
      "auxiliary_loss_mlp": 0.01024206,
      "balance_loss_clip": 1.04907465,
      "balance_loss_mlp": 1.01646948,
      "epoch": 0.8849876751037095,
      "flos": 24243760897920.0,
      "grad_norm": 1.9775107367834037,
      "language_loss": 0.70877945,
      "learning_rate": 1.3704891885227676e-07,
      "loss": 0.73066342,
      "num_input_tokens_seen": 159216145,
      "step": 7360,
      "time_per_iteration": 2.6334757804870605
    },
    {
      "auxiliary_loss_clip": 0.01141634,
      "auxiliary_loss_mlp": 0.01027404,
      "balance_loss_clip": 1.0401299,
      "balance_loss_mlp": 1.01954484,
      "epoch": 0.8851079179943486,
      "flos": 21500580251520.0,
      "grad_norm": 2.1092014120501785,
      "language_loss": 0.77675927,
      "learning_rate": 1.367656671978037e-07,
      "loss": 0.79844964,
      "num_input_tokens_seen": 159233610,
      "step": 7361,
      "time_per_iteration": 2.7191874980926514
    },
    {
      "auxiliary_loss_clip": 0.0115495,
      "auxiliary_loss_mlp": 0.0102626,
      "balance_loss_clip": 1.0423075,
      "balance_loss_mlp": 1.01959348,
      "epoch": 0.8852281608849877,
      "flos": 15300711198720.0,
      "grad_norm": 1.8115353755177626,
      "language_loss": 0.73639029,
      "learning_rate": 1.36482698194498e-07,
      "loss": 0.75820243,
      "num_input_tokens_seen": 159250155,
      "step": 7362,
      "time_per_iteration": 2.6335294246673584
    },
    {
      "auxiliary_loss_clip": 0.01148053,
      "auxiliary_loss_mlp": 0.01027343,
      "balance_loss_clip": 1.04233313,
      "balance_loss_mlp": 1.01905227,
      "epoch": 0.8853484037756267,
      "flos": 23295719283840.0,
      "grad_norm": 11.674367926455275,
      "language_loss": 0.71709037,
      "learning_rate": 1.3620001188528506e-07,
      "loss": 0.73884428,
      "num_input_tokens_seen": 159270875,
      "step": 7363,
      "time_per_iteration": 3.653485059738159
    },
    {
      "auxiliary_loss_clip": 0.01163076,
      "auxiliary_loss_mlp": 0.01023391,
      "balance_loss_clip": 1.04484296,
      "balance_loss_mlp": 1.01573205,
      "epoch": 0.8854686466662659,
      "flos": 25114773795840.0,
      "grad_norm": 7.070929470045534,
      "language_loss": 0.73123503,
      "learning_rate": 1.3591760831304865e-07,
      "loss": 0.75309968,
      "num_input_tokens_seen": 159288565,
      "step": 7364,
      "time_per_iteration": 2.6831469535827637
    },
    {
      "auxiliary_loss_clip": 0.01169118,
      "auxiliary_loss_mlp": 0.01027207,
      "balance_loss_clip": 1.0466125,
      "balance_loss_mlp": 1.01882708,
      "epoch": 0.885588889556905,
      "flos": 21390873137280.0,
      "grad_norm": 1.6239470589000626,
      "language_loss": 0.79276443,
      "learning_rate": 1.356354875206287e-07,
      "loss": 0.81472778,
      "num_input_tokens_seen": 159306400,
      "step": 7365,
      "time_per_iteration": 2.5838351249694824
    },
    {
      "auxiliary_loss_clip": 0.01142204,
      "auxiliary_loss_mlp": 0.01027567,
      "balance_loss_clip": 1.04643846,
      "balance_loss_mlp": 1.01977718,
      "epoch": 0.885709132447544,
      "flos": 26906752431360.0,
      "grad_norm": 2.3229606283205277,
      "language_loss": 0.70152116,
      "learning_rate": 1.3535364955082296e-07,
      "loss": 0.72321886,
      "num_input_tokens_seen": 159326250,
      "step": 7366,
      "time_per_iteration": 2.801609754562378
    },
    {
      "auxiliary_loss_clip": 0.01169546,
      "auxiliary_loss_mlp": 0.01028497,
      "balance_loss_clip": 1.04924679,
      "balance_loss_mlp": 1.02132404,
      "epoch": 0.8858293753381832,
      "flos": 26103394800000.0,
      "grad_norm": 2.0354625929814736,
      "language_loss": 0.64518976,
      "learning_rate": 1.3507209444638613e-07,
      "loss": 0.66717023,
      "num_input_tokens_seen": 159348250,
      "step": 7367,
      "time_per_iteration": 2.666975498199463
    },
    {
      "auxiliary_loss_clip": 0.01161537,
      "auxiliary_loss_mlp": 0.01022848,
      "balance_loss_clip": 1.04729831,
      "balance_loss_mlp": 1.01508713,
      "epoch": 0.8859496182288222,
      "flos": 23292810282240.0,
      "grad_norm": 2.9125780940124884,
      "language_loss": 0.73751092,
      "learning_rate": 1.347908222500298e-07,
      "loss": 0.75935477,
      "num_input_tokens_seen": 159368325,
      "step": 7368,
      "time_per_iteration": 2.658425807952881
    },
    {
      "auxiliary_loss_clip": 0.01125676,
      "auxiliary_loss_mlp": 0.01025195,
      "balance_loss_clip": 1.04149652,
      "balance_loss_mlp": 1.01798272,
      "epoch": 0.8860698611194613,
      "flos": 16872916469760.0,
      "grad_norm": 2.040916963941828,
      "language_loss": 0.69959235,
      "learning_rate": 1.3450983300442276e-07,
      "loss": 0.72110105,
      "num_input_tokens_seen": 159387555,
      "step": 7369,
      "time_per_iteration": 2.6414732933044434
    },
    {
      "auxiliary_loss_clip": 0.01161714,
      "auxiliary_loss_mlp": 0.01026759,
      "balance_loss_clip": 1.04597688,
      "balance_loss_mlp": 1.01887345,
      "epoch": 0.8861901040101005,
      "flos": 24681404206080.0,
      "grad_norm": 2.019647377654079,
      "language_loss": 0.73194021,
      "learning_rate": 1.3422912675219068e-07,
      "loss": 0.75382495,
      "num_input_tokens_seen": 159407310,
      "step": 7370,
      "time_per_iteration": 2.646808385848999
    },
    {
      "auxiliary_loss_clip": 0.01168799,
      "auxiliary_loss_mlp": 0.01024385,
      "balance_loss_clip": 1.04832959,
      "balance_loss_mlp": 1.01720834,
      "epoch": 0.8863103469007395,
      "flos": 24423026699520.0,
      "grad_norm": 1.7132467699721128,
      "language_loss": 0.79106438,
      "learning_rate": 1.339487035359166e-07,
      "loss": 0.81299621,
      "num_input_tokens_seen": 159427680,
      "step": 7371,
      "time_per_iteration": 2.6354920864105225
    },
    {
      "auxiliary_loss_clip": 0.01152345,
      "auxiliary_loss_mlp": 0.00886149,
      "balance_loss_clip": 1.04621613,
      "balance_loss_mlp": 1.00054014,
      "epoch": 0.8864305897913786,
      "flos": 22053964158720.0,
      "grad_norm": 1.8274406902083227,
      "language_loss": 0.84907162,
      "learning_rate": 1.336685633981409e-07,
      "loss": 0.86945653,
      "num_input_tokens_seen": 159448765,
      "step": 7372,
      "time_per_iteration": 2.6821625232696533
    },
    {
      "auxiliary_loss_clip": 0.01161674,
      "auxiliary_loss_mlp": 0.01027328,
      "balance_loss_clip": 1.04568624,
      "balance_loss_mlp": 1.02015448,
      "epoch": 0.8865508326820177,
      "flos": 19099449843840.0,
      "grad_norm": 1.768584368731255,
      "language_loss": 0.752195,
      "learning_rate": 1.333887063813597e-07,
      "loss": 0.77408504,
      "num_input_tokens_seen": 159466870,
      "step": 7373,
      "time_per_iteration": 2.654822587966919
    },
    {
      "auxiliary_loss_clip": 0.0115193,
      "auxiliary_loss_mlp": 0.010255,
      "balance_loss_clip": 1.04264998,
      "balance_loss_mlp": 1.01881528,
      "epoch": 0.8866710755726568,
      "flos": 15414189240960.0,
      "grad_norm": 1.9028339274829442,
      "language_loss": 0.66474593,
      "learning_rate": 1.331091325280278e-07,
      "loss": 0.68652022,
      "num_input_tokens_seen": 159485840,
      "step": 7374,
      "time_per_iteration": 2.6715474128723145
    },
    {
      "auxiliary_loss_clip": 0.01122935,
      "auxiliary_loss_mlp": 0.01026363,
      "balance_loss_clip": 1.04040551,
      "balance_loss_mlp": 1.01865053,
      "epoch": 0.8867913184632958,
      "flos": 20083689388800.0,
      "grad_norm": 1.6631277174425836,
      "language_loss": 0.78500175,
      "learning_rate": 1.3282984188055625e-07,
      "loss": 0.80649471,
      "num_input_tokens_seen": 159505630,
      "step": 7375,
      "time_per_iteration": 2.7126951217651367
    },
    {
      "auxiliary_loss_clip": 0.01167721,
      "auxiliary_loss_mlp": 0.01023994,
      "balance_loss_clip": 1.04506123,
      "balance_loss_mlp": 1.01654339,
      "epoch": 0.8869115613539349,
      "flos": 23365852588800.0,
      "grad_norm": 2.0804744914063393,
      "language_loss": 0.79689378,
      "learning_rate": 1.3255083448131288e-07,
      "loss": 0.81881088,
      "num_input_tokens_seen": 159524675,
      "step": 7376,
      "time_per_iteration": 2.6298203468322754
    },
    {
      "auxiliary_loss_clip": 0.01163659,
      "auxiliary_loss_mlp": 0.01022511,
      "balance_loss_clip": 1.04453039,
      "balance_loss_mlp": 1.01459575,
      "epoch": 0.8870318042445741,
      "flos": 21286840371840.0,
      "grad_norm": 2.953895722837139,
      "language_loss": 0.79206175,
      "learning_rate": 1.3227211037262365e-07,
      "loss": 0.81392336,
      "num_input_tokens_seen": 159541915,
      "step": 7377,
      "time_per_iteration": 2.6383097171783447
    },
    {
      "auxiliary_loss_clip": 0.01133511,
      "auxiliary_loss_mlp": 0.01028965,
      "balance_loss_clip": 1.04001689,
      "balance_loss_mlp": 1.02031016,
      "epoch": 0.8871520471352131,
      "flos": 20010862563840.0,
      "grad_norm": 2.0794370056246287,
      "language_loss": 0.85362279,
      "learning_rate": 1.319936695967696e-07,
      "loss": 0.87524754,
      "num_input_tokens_seen": 159559740,
      "step": 7378,
      "time_per_iteration": 2.703674793243408
    },
    {
      "auxiliary_loss_clip": 0.0117499,
      "auxiliary_loss_mlp": 0.01026595,
      "balance_loss_clip": 1.04778624,
      "balance_loss_mlp": 1.01771414,
      "epoch": 0.8872722900258522,
      "flos": 22601422321920.0,
      "grad_norm": 2.6206635282118906,
      "language_loss": 0.82209122,
      "learning_rate": 1.3171551219599097e-07,
      "loss": 0.84410703,
      "num_input_tokens_seen": 159578265,
      "step": 7379,
      "time_per_iteration": 2.6971967220306396
    },
    {
      "auxiliary_loss_clip": 0.01171857,
      "auxiliary_loss_mlp": 0.01026453,
      "balance_loss_clip": 1.04877925,
      "balance_loss_mlp": 1.01862109,
      "epoch": 0.8873925329164913,
      "flos": 22163276223360.0,
      "grad_norm": 2.4334410740650028,
      "language_loss": 0.78172618,
      "learning_rate": 1.3143763821248377e-07,
      "loss": 0.80370927,
      "num_input_tokens_seen": 159595350,
      "step": 7380,
      "time_per_iteration": 3.5865910053253174
    },
    {
      "auxiliary_loss_clip": 0.01169079,
      "auxiliary_loss_mlp": 0.01021286,
      "balance_loss_clip": 1.04695511,
      "balance_loss_mlp": 1.01404071,
      "epoch": 0.8875127758071304,
      "flos": 19208223204480.0,
      "grad_norm": 1.7135748508545614,
      "language_loss": 0.72237456,
      "learning_rate": 1.3116004768840118e-07,
      "loss": 0.74427819,
      "num_input_tokens_seen": 159613725,
      "step": 7381,
      "time_per_iteration": 3.4422402381896973
    },
    {
      "auxiliary_loss_clip": 0.01170652,
      "auxiliary_loss_mlp": 0.01029786,
      "balance_loss_clip": 1.04690075,
      "balance_loss_mlp": 1.02204394,
      "epoch": 0.8876330186977694,
      "flos": 18110900666880.0,
      "grad_norm": 1.655452959489734,
      "language_loss": 0.74487221,
      "learning_rate": 1.3088274066585348e-07,
      "loss": 0.76687658,
      "num_input_tokens_seen": 159631335,
      "step": 7382,
      "time_per_iteration": 2.585730791091919
    },
    {
      "auxiliary_loss_clip": 0.01146618,
      "auxiliary_loss_mlp": 0.01025412,
      "balance_loss_clip": 1.04151273,
      "balance_loss_mlp": 1.01812553,
      "epoch": 0.8877532615884086,
      "flos": 22009434272640.0,
      "grad_norm": 2.113248062657879,
      "language_loss": 0.90674162,
      "learning_rate": 1.3060571718690749e-07,
      "loss": 0.92846191,
      "num_input_tokens_seen": 159648830,
      "step": 7383,
      "time_per_iteration": 2.7105863094329834
    },
    {
      "auxiliary_loss_clip": 0.01045363,
      "auxiliary_loss_mlp": 0.00875984,
      "balance_loss_clip": 1.00737524,
      "balance_loss_mlp": 1.00085282,
      "epoch": 0.8878735044790477,
      "flos": 72136924346880.0,
      "grad_norm": 0.745470106697151,
      "language_loss": 0.56926751,
      "learning_rate": 1.3032897729358805e-07,
      "loss": 0.58848107,
      "num_input_tokens_seen": 159709785,
      "step": 7384,
      "time_per_iteration": 3.3082082271575928
    },
    {
      "auxiliary_loss_clip": 0.0110891,
      "auxiliary_loss_mlp": 0.00886842,
      "balance_loss_clip": 1.0363667,
      "balance_loss_mlp": 1.00070369,
      "epoch": 0.8879937473696867,
      "flos": 27526355061120.0,
      "grad_norm": 1.8162180229370368,
      "language_loss": 0.79984754,
      "learning_rate": 1.3005252102787645e-07,
      "loss": 0.81980503,
      "num_input_tokens_seen": 159728725,
      "step": 7385,
      "time_per_iteration": 2.814885139465332
    },
    {
      "auxiliary_loss_clip": 0.01164471,
      "auxiliary_loss_mlp": 0.01028487,
      "balance_loss_clip": 1.0466826,
      "balance_loss_mlp": 1.02043414,
      "epoch": 0.8881139902603259,
      "flos": 22234091886720.0,
      "grad_norm": 1.5579770424872372,
      "language_loss": 0.73414868,
      "learning_rate": 1.297763484317105e-07,
      "loss": 0.75607824,
      "num_input_tokens_seen": 159747020,
      "step": 7386,
      "time_per_iteration": 2.6178057193756104
    },
    {
      "auxiliary_loss_clip": 0.01128945,
      "auxiliary_loss_mlp": 0.00886955,
      "balance_loss_clip": 1.04041028,
      "balance_loss_mlp": 1.00059199,
      "epoch": 0.888234233150965,
      "flos": 20299548170880.0,
      "grad_norm": 2.317610793187081,
      "language_loss": 0.70676124,
      "learning_rate": 1.2950045954698551e-07,
      "loss": 0.72692025,
      "num_input_tokens_seen": 159764855,
      "step": 7387,
      "time_per_iteration": 2.7710883617401123
    },
    {
      "auxiliary_loss_clip": 0.01132982,
      "auxiliary_loss_mlp": 0.01028089,
      "balance_loss_clip": 1.04219937,
      "balance_loss_mlp": 1.02102637,
      "epoch": 0.888354476041604,
      "flos": 18147996437760.0,
      "grad_norm": 1.7063483003865603,
      "language_loss": 0.75415206,
      "learning_rate": 1.2922485441555343e-07,
      "loss": 0.77576286,
      "num_input_tokens_seen": 159783935,
      "step": 7388,
      "time_per_iteration": 2.6785504817962646
    },
    {
      "auxiliary_loss_clip": 0.01171048,
      "auxiliary_loss_mlp": 0.01023993,
      "balance_loss_clip": 1.04757893,
      "balance_loss_mlp": 1.01653004,
      "epoch": 0.8884747189322432,
      "flos": 22014282608640.0,
      "grad_norm": 2.124985407855281,
      "language_loss": 0.81362706,
      "learning_rate": 1.2894953307922363e-07,
      "loss": 0.83557749,
      "num_input_tokens_seen": 159802895,
      "step": 7389,
      "time_per_iteration": 3.4953200817108154
    },
    {
      "auxiliary_loss_clip": 0.01135,
      "auxiliary_loss_mlp": 0.01028234,
      "balance_loss_clip": 1.04304004,
      "balance_loss_mlp": 1.02057505,
      "epoch": 0.8885949618228822,
      "flos": 19786779567360.0,
      "grad_norm": 1.8616221261741246,
      "language_loss": 0.8397944,
      "learning_rate": 1.2867449557976208e-07,
      "loss": 0.86142677,
      "num_input_tokens_seen": 159820995,
      "step": 7390,
      "time_per_iteration": 2.6614296436309814
    },
    {
      "auxiliary_loss_clip": 0.01160509,
      "auxiliary_loss_mlp": 0.01026867,
      "balance_loss_clip": 1.04808283,
      "balance_loss_mlp": 1.0194521,
      "epoch": 0.8887152047135213,
      "flos": 20047599198720.0,
      "grad_norm": 2.014280212704007,
      "language_loss": 0.75836623,
      "learning_rate": 1.283997419588916e-07,
      "loss": 0.78024,
      "num_input_tokens_seen": 159840465,
      "step": 7391,
      "time_per_iteration": 2.5933165550231934
    },
    {
      "auxiliary_loss_clip": 0.01163629,
      "auxiliary_loss_mlp": 0.01028892,
      "balance_loss_clip": 1.04545367,
      "balance_loss_mlp": 1.02154875,
      "epoch": 0.8888354476041604,
      "flos": 18588117784320.0,
      "grad_norm": 1.9240271585783495,
      "language_loss": 0.61731774,
      "learning_rate": 1.2812527225829216e-07,
      "loss": 0.63924295,
      "num_input_tokens_seen": 159858690,
      "step": 7392,
      "time_per_iteration": 2.578843355178833
    },
    {
      "auxiliary_loss_clip": 0.01167048,
      "auxiliary_loss_mlp": 0.01032072,
      "balance_loss_clip": 1.04807663,
      "balance_loss_mlp": 1.02379847,
      "epoch": 0.8889556904947995,
      "flos": 21689794120320.0,
      "grad_norm": 1.8612791746792368,
      "language_loss": 0.7623533,
      "learning_rate": 1.2785108651960052e-07,
      "loss": 0.78434443,
      "num_input_tokens_seen": 159880325,
      "step": 7393,
      "time_per_iteration": 2.6685142517089844
    },
    {
      "auxiliary_loss_clip": 0.01161836,
      "auxiliary_loss_mlp": 0.01027719,
      "balance_loss_clip": 1.04414427,
      "balance_loss_mlp": 1.01945806,
      "epoch": 0.8890759333854386,
      "flos": 27381204201600.0,
      "grad_norm": 1.965489559789839,
      "language_loss": 0.8084107,
      "learning_rate": 1.2757718478441094e-07,
      "loss": 0.83030629,
      "num_input_tokens_seen": 159901070,
      "step": 7394,
      "time_per_iteration": 2.6267716884613037
    },
    {
      "auxiliary_loss_clip": 0.01150978,
      "auxiliary_loss_mlp": 0.01023705,
      "balance_loss_clip": 1.04335093,
      "balance_loss_mlp": 1.01629663,
      "epoch": 0.8891961762760777,
      "flos": 24498834353280.0,
      "grad_norm": 2.040900845417264,
      "language_loss": 0.77223408,
      "learning_rate": 1.2730356709427302e-07,
      "loss": 0.7939809,
      "num_input_tokens_seen": 159919750,
      "step": 7395,
      "time_per_iteration": 2.7724173069000244
    },
    {
      "auxiliary_loss_clip": 0.01156195,
      "auxiliary_loss_mlp": 0.01029977,
      "balance_loss_clip": 1.04534185,
      "balance_loss_mlp": 1.02234149,
      "epoch": 0.8893164191667168,
      "flos": 41499770895360.0,
      "grad_norm": 1.6268988540059237,
      "language_loss": 0.60013837,
      "learning_rate": 1.2703023349069542e-07,
      "loss": 0.6220001,
      "num_input_tokens_seen": 159944600,
      "step": 7396,
      "time_per_iteration": 2.791032075881958
    },
    {
      "auxiliary_loss_clip": 0.01157786,
      "auxiliary_loss_mlp": 0.01024519,
      "balance_loss_clip": 1.04681778,
      "balance_loss_mlp": 1.01680017,
      "epoch": 0.8894366620573558,
      "flos": 33583623120000.0,
      "grad_norm": 2.972829384699498,
      "language_loss": 0.61502945,
      "learning_rate": 1.2675718401514223e-07,
      "loss": 0.6368525,
      "num_input_tokens_seen": 159968780,
      "step": 7397,
      "time_per_iteration": 2.7556703090667725
    },
    {
      "auxiliary_loss_clip": 0.0114808,
      "auxiliary_loss_mlp": 0.01030078,
      "balance_loss_clip": 1.04293478,
      "balance_loss_mlp": 1.02239776,
      "epoch": 0.889556904947995,
      "flos": 16909832672640.0,
      "grad_norm": 2.541836630264416,
      "language_loss": 0.74897736,
      "learning_rate": 1.264844187090346e-07,
      "loss": 0.77075893,
      "num_input_tokens_seen": 159985905,
      "step": 7398,
      "time_per_iteration": 2.6518468856811523
    },
    {
      "auxiliary_loss_clip": 0.01147589,
      "auxiliary_loss_mlp": 0.01024078,
      "balance_loss_clip": 1.04423368,
      "balance_loss_mlp": 1.01654959,
      "epoch": 0.889677147838634,
      "flos": 26030855283840.0,
      "grad_norm": 1.8296309049780837,
      "language_loss": 0.7525816,
      "learning_rate": 1.262119376137516e-07,
      "loss": 0.77429831,
      "num_input_tokens_seen": 160006965,
      "step": 7399,
      "time_per_iteration": 2.715855360031128
    },
    {
      "auxiliary_loss_clip": 0.01151238,
      "auxiliary_loss_mlp": 0.01023544,
      "balance_loss_clip": 1.04315472,
      "balance_loss_mlp": 1.0162816,
      "epoch": 0.8897973907292731,
      "flos": 26468283110400.0,
      "grad_norm": 1.5080667194826174,
      "language_loss": 0.84946167,
      "learning_rate": 1.2593974077062707e-07,
      "loss": 0.8712095,
      "num_input_tokens_seen": 160028585,
      "step": 7400,
      "time_per_iteration": 2.7383370399475098
    },
    {
      "auxiliary_loss_clip": 0.01131908,
      "auxiliary_loss_mlp": 0.01024838,
      "balance_loss_clip": 1.04071069,
      "balance_loss_mlp": 1.01707172,
      "epoch": 0.8899176336199123,
      "flos": 26249694894720.0,
      "grad_norm": 2.8179006116668077,
      "language_loss": 0.6373378,
      "learning_rate": 1.2566782822095423e-07,
      "loss": 0.65890521,
      "num_input_tokens_seen": 160048840,
      "step": 7401,
      "time_per_iteration": 2.7751362323760986
    },
    {
      "auxiliary_loss_clip": 0.01147525,
      "auxiliary_loss_mlp": 0.01025236,
      "balance_loss_clip": 1.04579115,
      "balance_loss_mlp": 1.01713002,
      "epoch": 0.8900378765105513,
      "flos": 20811742156800.0,
      "grad_norm": 1.9333935126825192,
      "language_loss": 0.71650982,
      "learning_rate": 1.2539620000598162e-07,
      "loss": 0.73823738,
      "num_input_tokens_seen": 160068175,
      "step": 7402,
      "time_per_iteration": 2.7420597076416016
    },
    {
      "auxiliary_loss_clip": 0.01169279,
      "auxiliary_loss_mlp": 0.01027794,
      "balance_loss_clip": 1.04695582,
      "balance_loss_mlp": 1.01992035,
      "epoch": 0.8901581194011904,
      "flos": 16472333018880.0,
      "grad_norm": 1.7443933542315548,
      "language_loss": 0.79807031,
      "learning_rate": 1.2512485616691492e-07,
      "loss": 0.820041,
      "num_input_tokens_seen": 160085230,
      "step": 7403,
      "time_per_iteration": 2.572683095932007
    },
    {
      "auxiliary_loss_clip": 0.01143669,
      "auxiliary_loss_mlp": 0.01024199,
      "balance_loss_clip": 1.04292941,
      "balance_loss_mlp": 1.01580644,
      "epoch": 0.8902783622918296,
      "flos": 35155253773440.0,
      "grad_norm": 1.9191758589689258,
      "language_loss": 0.8123467,
      "learning_rate": 1.2485379674491681e-07,
      "loss": 0.83402538,
      "num_input_tokens_seen": 160111425,
      "step": 7404,
      "time_per_iteration": 2.8529410362243652
    },
    {
      "auxiliary_loss_clip": 0.01151396,
      "auxiliary_loss_mlp": 0.01029785,
      "balance_loss_clip": 1.04629469,
      "balance_loss_mlp": 1.02207863,
      "epoch": 0.8903986051824686,
      "flos": 17201068145280.0,
      "grad_norm": 3.890356847930616,
      "language_loss": 0.7955544,
      "learning_rate": 1.2458302178110657e-07,
      "loss": 0.81736624,
      "num_input_tokens_seen": 160129790,
      "step": 7405,
      "time_per_iteration": 2.645951509475708
    },
    {
      "auxiliary_loss_clip": 0.01130348,
      "auxiliary_loss_mlp": 0.0102771,
      "balance_loss_clip": 1.04103899,
      "balance_loss_mlp": 1.02031898,
      "epoch": 0.8905188480731077,
      "flos": 25483863997440.0,
      "grad_norm": 2.445793048664231,
      "language_loss": 0.82635909,
      "learning_rate": 1.2431253131656118e-07,
      "loss": 0.84793967,
      "num_input_tokens_seen": 160149265,
      "step": 7406,
      "time_per_iteration": 4.682013511657715
    },
    {
      "auxiliary_loss_clip": 0.01147019,
      "auxiliary_loss_mlp": 0.01028866,
      "balance_loss_clip": 1.04558563,
      "balance_loss_mlp": 1.02092671,
      "epoch": 0.8906390909637467,
      "flos": 23365888502400.0,
      "grad_norm": 2.2390272937802136,
      "language_loss": 0.76862037,
      "learning_rate": 1.240423253923133e-07,
      "loss": 0.79037923,
      "num_input_tokens_seen": 160168870,
      "step": 7407,
      "time_per_iteration": 3.506606340408325
    },
    {
      "auxiliary_loss_clip": 0.01159983,
      "auxiliary_loss_mlp": 0.01026579,
      "balance_loss_clip": 1.0441184,
      "balance_loss_mlp": 1.01858568,
      "epoch": 0.8907593338543859,
      "flos": 21068790860160.0,
      "grad_norm": 1.9224848156109617,
      "language_loss": 0.69491184,
      "learning_rate": 1.237724040493533e-07,
      "loss": 0.7167775,
      "num_input_tokens_seen": 160187495,
      "step": 7408,
      "time_per_iteration": 2.629948377609253
    },
    {
      "auxiliary_loss_clip": 0.01173882,
      "auxiliary_loss_mlp": 0.0102713,
      "balance_loss_clip": 1.04932475,
      "balance_loss_mlp": 1.01945305,
      "epoch": 0.8908795767450249,
      "flos": 21869562712320.0,
      "grad_norm": 2.664733743108282,
      "language_loss": 0.72568202,
      "learning_rate": 1.2350276732862773e-07,
      "loss": 0.74769217,
      "num_input_tokens_seen": 160208520,
      "step": 7409,
      "time_per_iteration": 2.639904737472534
    },
    {
      "auxiliary_loss_clip": 0.01057963,
      "auxiliary_loss_mlp": 0.01002735,
      "balance_loss_clip": 1.00766134,
      "balance_loss_mlp": 1.00163794,
      "epoch": 0.890999819635664,
      "flos": 66307869348480.0,
      "grad_norm": 0.8332645452607056,
      "language_loss": 0.56626141,
      "learning_rate": 1.2323341527103993e-07,
      "loss": 0.58686841,
      "num_input_tokens_seen": 160263720,
      "step": 7410,
      "time_per_iteration": 3.132768392562866
    },
    {
      "auxiliary_loss_clip": 0.01168994,
      "auxiliary_loss_mlp": 0.01020584,
      "balance_loss_clip": 1.04755843,
      "balance_loss_mlp": 1.01319003,
      "epoch": 0.8911200625263032,
      "flos": 26869908055680.0,
      "grad_norm": 1.9632596591162688,
      "language_loss": 0.85438073,
      "learning_rate": 1.2296434791745135e-07,
      "loss": 0.87627649,
      "num_input_tokens_seen": 160282170,
      "step": 7411,
      "time_per_iteration": 2.7399981021881104
    },
    {
      "auxiliary_loss_clip": 0.01163687,
      "auxiliary_loss_mlp": 0.01030474,
      "balance_loss_clip": 1.04677939,
      "balance_loss_mlp": 1.02263021,
      "epoch": 0.8912403054169422,
      "flos": 20885825957760.0,
      "grad_norm": 1.697460417386472,
      "language_loss": 0.76601589,
      "learning_rate": 1.2269556530867875e-07,
      "loss": 0.78795749,
      "num_input_tokens_seen": 160300725,
      "step": 7412,
      "time_per_iteration": 2.691931962966919
    },
    {
      "auxiliary_loss_clip": 0.01176749,
      "auxiliary_loss_mlp": 0.0102732,
      "balance_loss_clip": 1.049739,
      "balance_loss_mlp": 1.01933873,
      "epoch": 0.8913605483075813,
      "flos": 27016567286400.0,
      "grad_norm": 2.835645096420632,
      "language_loss": 0.81819916,
      "learning_rate": 1.2242706748549614e-07,
      "loss": 0.84023988,
      "num_input_tokens_seen": 160318720,
      "step": 7413,
      "time_per_iteration": 2.726794958114624
    },
    {
      "auxiliary_loss_clip": 0.01150858,
      "auxiliary_loss_mlp": 0.01026215,
      "balance_loss_clip": 1.04065204,
      "balance_loss_mlp": 1.01879692,
      "epoch": 0.8914807911982204,
      "flos": 23621500661760.0,
      "grad_norm": 2.1550145173036306,
      "language_loss": 0.82234114,
      "learning_rate": 1.2215885448863473e-07,
      "loss": 0.84411186,
      "num_input_tokens_seen": 160339595,
      "step": 7414,
      "time_per_iteration": 2.754328727722168
    },
    {
      "auxiliary_loss_clip": 0.01149443,
      "auxiliary_loss_mlp": 0.01026465,
      "balance_loss_clip": 1.04580522,
      "balance_loss_mlp": 1.01913619,
      "epoch": 0.8916010340888595,
      "flos": 24462277286400.0,
      "grad_norm": 2.47724727690441,
      "language_loss": 0.80648643,
      "learning_rate": 1.2189092635878152e-07,
      "loss": 0.82824552,
      "num_input_tokens_seen": 160361045,
      "step": 7415,
      "time_per_iteration": 3.577409029006958
    },
    {
      "auxiliary_loss_clip": 0.0113037,
      "auxiliary_loss_mlp": 0.01029785,
      "balance_loss_clip": 1.04032516,
      "balance_loss_mlp": 1.02207804,
      "epoch": 0.8917212769794985,
      "flos": 21215773313280.0,
      "grad_norm": 1.622550263338181,
      "language_loss": 0.77287024,
      "learning_rate": 1.216232831365822e-07,
      "loss": 0.79447174,
      "num_input_tokens_seen": 160379990,
      "step": 7416,
      "time_per_iteration": 2.742053270339966
    },
    {
      "auxiliary_loss_clip": 0.01157906,
      "auxiliary_loss_mlp": 0.0102659,
      "balance_loss_clip": 1.0440011,
      "balance_loss_mlp": 1.01924634,
      "epoch": 0.8918415198701377,
      "flos": 25513992529920.0,
      "grad_norm": 16.639163891350776,
      "language_loss": 0.8097986,
      "learning_rate": 1.2135592486263678e-07,
      "loss": 0.83164358,
      "num_input_tokens_seen": 160399240,
      "step": 7417,
      "time_per_iteration": 2.726870536804199
    },
    {
      "auxiliary_loss_clip": 0.01150709,
      "auxiliary_loss_mlp": 0.01024743,
      "balance_loss_clip": 1.04317474,
      "balance_loss_mlp": 1.01750064,
      "epoch": 0.8919617627607768,
      "flos": 37853006693760.0,
      "grad_norm": 1.4800943487077571,
      "language_loss": 0.61198938,
      "learning_rate": 1.2108885157750415e-07,
      "loss": 0.63374388,
      "num_input_tokens_seen": 160421600,
      "step": 7418,
      "time_per_iteration": 2.776637554168701
    },
    {
      "auxiliary_loss_clip": 0.01138543,
      "auxiliary_loss_mlp": 0.00886964,
      "balance_loss_clip": 1.04573274,
      "balance_loss_mlp": 1.00059366,
      "epoch": 0.8920820056514158,
      "flos": 26213676531840.0,
      "grad_norm": 1.9391904502410577,
      "language_loss": 0.80328745,
      "learning_rate": 1.2082206332169897e-07,
      "loss": 0.82354248,
      "num_input_tokens_seen": 160441695,
      "step": 7419,
      "time_per_iteration": 2.7718429565429688
    },
    {
      "auxiliary_loss_clip": 0.01147605,
      "auxiliary_loss_mlp": 0.01026338,
      "balance_loss_clip": 1.0463469,
      "balance_loss_mlp": 1.01861906,
      "epoch": 0.892202248542055,
      "flos": 17383135207680.0,
      "grad_norm": 2.4932991315342847,
      "language_loss": 0.7355684,
      "learning_rate": 1.2055556013569225e-07,
      "loss": 0.75730789,
      "num_input_tokens_seen": 160457205,
      "step": 7420,
      "time_per_iteration": 2.5875401496887207
    },
    {
      "auxiliary_loss_clip": 0.01153489,
      "auxiliary_loss_mlp": 0.01028444,
      "balance_loss_clip": 1.04489493,
      "balance_loss_mlp": 1.02110386,
      "epoch": 0.892322491432694,
      "flos": 21324223451520.0,
      "grad_norm": 1.6224754909020112,
      "language_loss": 0.82013059,
      "learning_rate": 1.2028934205991315e-07,
      "loss": 0.84194994,
      "num_input_tokens_seen": 160476525,
      "step": 7421,
      "time_per_iteration": 2.643289566040039
    },
    {
      "auxiliary_loss_clip": 0.01159346,
      "auxiliary_loss_mlp": 0.01026318,
      "balance_loss_clip": 1.04438329,
      "balance_loss_mlp": 1.01856959,
      "epoch": 0.8924427343233331,
      "flos": 24029374573440.0,
      "grad_norm": 1.7994294447335046,
      "language_loss": 0.76789343,
      "learning_rate": 1.2002340913474607e-07,
      "loss": 0.78975004,
      "num_input_tokens_seen": 160500160,
      "step": 7422,
      "time_per_iteration": 2.767754077911377
    },
    {
      "auxiliary_loss_clip": 0.01173344,
      "auxiliary_loss_mlp": 0.01031037,
      "balance_loss_clip": 1.04860556,
      "balance_loss_mlp": 1.02296019,
      "epoch": 0.8925629772139723,
      "flos": 30008069631360.0,
      "grad_norm": 1.8950138928170575,
      "language_loss": 0.74007046,
      "learning_rate": 1.1975776140053317e-07,
      "loss": 0.76211423,
      "num_input_tokens_seen": 160520130,
      "step": 7423,
      "time_per_iteration": 2.6925065517425537
    },
    {
      "auxiliary_loss_clip": 0.01132529,
      "auxiliary_loss_mlp": 0.01027208,
      "balance_loss_clip": 1.04313958,
      "balance_loss_mlp": 1.0191226,
      "epoch": 0.8926832201046113,
      "flos": 22601709630720.0,
      "grad_norm": 1.9299777179696351,
      "language_loss": 0.73381221,
      "learning_rate": 1.194923988975729e-07,
      "loss": 0.7554096,
      "num_input_tokens_seen": 160539730,
      "step": 7424,
      "time_per_iteration": 2.7600176334381104
    },
    {
      "auxiliary_loss_clip": 0.01137669,
      "auxiliary_loss_mlp": 0.01024366,
      "balance_loss_clip": 1.04252458,
      "balance_loss_mlp": 1.01678443,
      "epoch": 0.8928034629952504,
      "flos": 13297722117120.0,
      "grad_norm": 5.37584403640713,
      "language_loss": 0.7335695,
      "learning_rate": 1.192273216661206e-07,
      "loss": 0.7551899,
      "num_input_tokens_seen": 160557820,
      "step": 7425,
      "time_per_iteration": 2.7258737087249756
    },
    {
      "auxiliary_loss_clip": 0.0103426,
      "auxiliary_loss_mlp": 0.01000702,
      "balance_loss_clip": 1.00766826,
      "balance_loss_mlp": 0.99967688,
      "epoch": 0.8929237058858895,
      "flos": 54854556744960.0,
      "grad_norm": 0.7675775120407882,
      "language_loss": 0.57527816,
      "learning_rate": 1.189625297463881e-07,
      "loss": 0.59562778,
      "num_input_tokens_seen": 160619510,
      "step": 7426,
      "time_per_iteration": 3.372438430786133
    },
    {
      "auxiliary_loss_clip": 0.01117511,
      "auxiliary_loss_mlp": 0.01028112,
      "balance_loss_clip": 1.03651202,
      "balance_loss_mlp": 1.02055681,
      "epoch": 0.8930439487765286,
      "flos": 28883850785280.0,
      "grad_norm": 1.6885220477191702,
      "language_loss": 0.79431421,
      "learning_rate": 1.1869802317854394e-07,
      "loss": 0.81577039,
      "num_input_tokens_seen": 160643295,
      "step": 7427,
      "time_per_iteration": 3.075273036956787
    },
    {
      "auxiliary_loss_clip": 0.01135084,
      "auxiliary_loss_mlp": 0.01030355,
      "balance_loss_clip": 1.04231715,
      "balance_loss_mlp": 1.02260041,
      "epoch": 0.8931641916671677,
      "flos": 22419283432320.0,
      "grad_norm": 1.7276168813488155,
      "language_loss": 0.71824563,
      "learning_rate": 1.1843380200271425e-07,
      "loss": 0.73990005,
      "num_input_tokens_seen": 160662495,
      "step": 7428,
      "time_per_iteration": 2.789154052734375
    },
    {
      "auxiliary_loss_clip": 0.01137162,
      "auxiliary_loss_mlp": 0.01023092,
      "balance_loss_clip": 1.04277229,
      "balance_loss_mlp": 1.01578176,
      "epoch": 0.8932844345578068,
      "flos": 25843149786240.0,
      "grad_norm": 2.6315970980938452,
      "language_loss": 0.80657387,
      "learning_rate": 1.181698662589805e-07,
      "loss": 0.82817644,
      "num_input_tokens_seen": 160682080,
      "step": 7429,
      "time_per_iteration": 2.7771825790405273
    },
    {
      "auxiliary_loss_clip": 0.01160057,
      "auxiliary_loss_mlp": 0.01027356,
      "balance_loss_clip": 1.04536128,
      "balance_loss_mlp": 1.01960707,
      "epoch": 0.8934046774484459,
      "flos": 22925803069440.0,
      "grad_norm": 1.835842490359102,
      "language_loss": 0.76296115,
      "learning_rate": 1.1790621598738249e-07,
      "loss": 0.78483522,
      "num_input_tokens_seen": 160700395,
      "step": 7430,
      "time_per_iteration": 2.6399130821228027
    },
    {
      "auxiliary_loss_clip": 0.01168875,
      "auxiliary_loss_mlp": 0.01029303,
      "balance_loss_clip": 1.04922438,
      "balance_loss_mlp": 1.02178049,
      "epoch": 0.8935249203390849,
      "flos": 24462097718400.0,
      "grad_norm": 2.342336092080665,
      "language_loss": 0.7485466,
      "learning_rate": 1.1764285122791461e-07,
      "loss": 0.77052844,
      "num_input_tokens_seen": 160721115,
      "step": 7431,
      "time_per_iteration": 2.6251637935638428
    },
    {
      "auxiliary_loss_clip": 0.01159148,
      "auxiliary_loss_mlp": 0.01024468,
      "balance_loss_clip": 1.04441965,
      "balance_loss_mlp": 1.01703858,
      "epoch": 0.8936451632297241,
      "flos": 15742735966080.0,
      "grad_norm": 1.756574916156851,
      "language_loss": 0.77255213,
      "learning_rate": 1.173797720205294e-07,
      "loss": 0.79438829,
      "num_input_tokens_seen": 160739150,
      "step": 7432,
      "time_per_iteration": 4.665749788284302
    },
    {
      "auxiliary_loss_clip": 0.01161904,
      "auxiliary_loss_mlp": 0.01025333,
      "balance_loss_clip": 1.0472939,
      "balance_loss_mlp": 1.01729822,
      "epoch": 0.8937654061203631,
      "flos": 35115500396160.0,
      "grad_norm": 4.015311630915013,
      "language_loss": 0.71438468,
      "learning_rate": 1.1711697840513602e-07,
      "loss": 0.73625708,
      "num_input_tokens_seen": 160758585,
      "step": 7433,
      "time_per_iteration": 3.604792356491089
    },
    {
      "auxiliary_loss_clip": 0.01153436,
      "auxiliary_loss_mlp": 0.01025501,
      "balance_loss_clip": 1.04383862,
      "balance_loss_mlp": 1.01777577,
      "epoch": 0.8938856490110022,
      "flos": 16107444708480.0,
      "grad_norm": 1.994191990482872,
      "language_loss": 0.70828366,
      "learning_rate": 1.1685447042160012e-07,
      "loss": 0.73007298,
      "num_input_tokens_seen": 160776620,
      "step": 7434,
      "time_per_iteration": 2.6297097206115723
    },
    {
      "auxiliary_loss_clip": 0.01171837,
      "auxiliary_loss_mlp": 0.01034964,
      "balance_loss_clip": 1.04700756,
      "balance_loss_mlp": 1.02689362,
      "epoch": 0.8940058919016414,
      "flos": 20704189858560.0,
      "grad_norm": 1.5782766763194782,
      "language_loss": 0.71816492,
      "learning_rate": 1.1659224810974367e-07,
      "loss": 0.74023294,
      "num_input_tokens_seen": 160796580,
      "step": 7435,
      "time_per_iteration": 2.5639922618865967
    },
    {
      "auxiliary_loss_clip": 0.01151279,
      "auxiliary_loss_mlp": 0.01025689,
      "balance_loss_clip": 1.04807115,
      "balance_loss_mlp": 1.01799452,
      "epoch": 0.8941261347922804,
      "flos": 25229041937280.0,
      "grad_norm": 1.5566877988413712,
      "language_loss": 0.68617296,
      "learning_rate": 1.1633031150934591e-07,
      "loss": 0.70794261,
      "num_input_tokens_seen": 160819610,
      "step": 7436,
      "time_per_iteration": 2.7941248416900635
    },
    {
      "auxiliary_loss_clip": 0.01162996,
      "auxiliary_loss_mlp": 0.01036071,
      "balance_loss_clip": 1.04897308,
      "balance_loss_mlp": 1.02851629,
      "epoch": 0.8942463776829195,
      "flos": 19537236806400.0,
      "grad_norm": 2.013609838232569,
      "language_loss": 0.79967535,
      "learning_rate": 1.1606866066014176e-07,
      "loss": 0.821666,
      "num_input_tokens_seen": 160838660,
      "step": 7437,
      "time_per_iteration": 2.6115169525146484
    },
    {
      "auxiliary_loss_clip": 0.01140275,
      "auxiliary_loss_mlp": 0.01024643,
      "balance_loss_clip": 1.04491258,
      "balance_loss_mlp": 1.01631665,
      "epoch": 0.8943666205735585,
      "flos": 22301567585280.0,
      "grad_norm": 2.217520715488294,
      "language_loss": 0.75287718,
      "learning_rate": 1.1580729560182434e-07,
      "loss": 0.77452636,
      "num_input_tokens_seen": 160854515,
      "step": 7438,
      "time_per_iteration": 2.8104681968688965
    },
    {
      "auxiliary_loss_clip": 0.01170235,
      "auxiliary_loss_mlp": 0.00886492,
      "balance_loss_clip": 1.04722583,
      "balance_loss_mlp": 1.0005827,
      "epoch": 0.8944868634641977,
      "flos": 18912893581440.0,
      "grad_norm": 1.8099851494833366,
      "language_loss": 0.70849997,
      "learning_rate": 1.1554621637404171e-07,
      "loss": 0.72906721,
      "num_input_tokens_seen": 160872605,
      "step": 7439,
      "time_per_iteration": 2.5744714736938477
    },
    {
      "auxiliary_loss_clip": 0.01162224,
      "auxiliary_loss_mlp": 0.01026983,
      "balance_loss_clip": 1.04699707,
      "balance_loss_mlp": 1.01993191,
      "epoch": 0.8946071063548368,
      "flos": 14460904241280.0,
      "grad_norm": 2.3314158112619103,
      "language_loss": 0.61610639,
      "learning_rate": 1.1528542301639999e-07,
      "loss": 0.63799846,
      "num_input_tokens_seen": 160889395,
      "step": 7440,
      "time_per_iteration": 2.666858434677124
    },
    {
      "auxiliary_loss_clip": 0.01140442,
      "auxiliary_loss_mlp": 0.01022519,
      "balance_loss_clip": 1.04005432,
      "balance_loss_mlp": 1.01445436,
      "epoch": 0.8947273492454758,
      "flos": 20084084438400.0,
      "grad_norm": 5.158732064144529,
      "language_loss": 0.8265748,
      "learning_rate": 1.1502491556846105e-07,
      "loss": 0.84820437,
      "num_input_tokens_seen": 160907890,
      "step": 7441,
      "time_per_iteration": 3.7503468990325928
    },
    {
      "auxiliary_loss_clip": 0.01149524,
      "auxiliary_loss_mlp": 0.01025146,
      "balance_loss_clip": 1.04474974,
      "balance_loss_mlp": 1.01763833,
      "epoch": 0.894847592136115,
      "flos": 18550555136640.0,
      "grad_norm": 4.481304767878691,
      "language_loss": 0.8133446,
      "learning_rate": 1.1476469406974331e-07,
      "loss": 0.83509123,
      "num_input_tokens_seen": 160923490,
      "step": 7442,
      "time_per_iteration": 2.7070209980010986
    },
    {
      "auxiliary_loss_clip": 0.01168167,
      "auxiliary_loss_mlp": 0.01025407,
      "balance_loss_clip": 1.04839432,
      "balance_loss_mlp": 1.01812017,
      "epoch": 0.894967835026754,
      "flos": 23478468704640.0,
      "grad_norm": 1.7575193099622741,
      "language_loss": 0.76852381,
      "learning_rate": 1.1450475855972341e-07,
      "loss": 0.79045957,
      "num_input_tokens_seen": 160944280,
      "step": 7443,
      "time_per_iteration": 2.680420398712158
    },
    {
      "auxiliary_loss_clip": 0.01147637,
      "auxiliary_loss_mlp": 0.008867,
      "balance_loss_clip": 1.04207563,
      "balance_loss_mlp": 1.0005219,
      "epoch": 0.8950880779173931,
      "flos": 15188310564480.0,
      "grad_norm": 2.1247928394858144,
      "language_loss": 0.70904279,
      "learning_rate": 1.1424510907783158e-07,
      "loss": 0.72938615,
      "num_input_tokens_seen": 160961560,
      "step": 7444,
      "time_per_iteration": 2.6963155269622803
    },
    {
      "auxiliary_loss_clip": 0.01153483,
      "auxiliary_loss_mlp": 0.01022185,
      "balance_loss_clip": 1.04122281,
      "balance_loss_mlp": 1.01490402,
      "epoch": 0.8952083208080323,
      "flos": 22091957769600.0,
      "grad_norm": 1.6089192053582975,
      "language_loss": 0.82662749,
      "learning_rate": 1.1398574566345787e-07,
      "loss": 0.84838414,
      "num_input_tokens_seen": 160982195,
      "step": 7445,
      "time_per_iteration": 2.675574541091919
    },
    {
      "auxiliary_loss_clip": 0.01154594,
      "auxiliary_loss_mlp": 0.01024714,
      "balance_loss_clip": 1.04169667,
      "balance_loss_mlp": 1.0168581,
      "epoch": 0.8953285636986713,
      "flos": 23254026572160.0,
      "grad_norm": 1.9005599128061552,
      "language_loss": 0.8275789,
      "learning_rate": 1.1372666835594702e-07,
      "loss": 0.84937203,
      "num_input_tokens_seen": 161000520,
      "step": 7446,
      "time_per_iteration": 2.583691120147705
    },
    {
      "auxiliary_loss_clip": 0.011494,
      "auxiliary_loss_mlp": 0.01024414,
      "balance_loss_clip": 1.04425704,
      "balance_loss_mlp": 1.01703477,
      "epoch": 0.8954488065893104,
      "flos": 16362661818240.0,
      "grad_norm": 1.9434113293782844,
      "language_loss": 0.71909297,
      "learning_rate": 1.1346787719460071e-07,
      "loss": 0.74083108,
      "num_input_tokens_seen": 161019405,
      "step": 7447,
      "time_per_iteration": 2.5623934268951416
    },
    {
      "auxiliary_loss_clip": 0.01149285,
      "auxiliary_loss_mlp": 0.01023168,
      "balance_loss_clip": 1.04475665,
      "balance_loss_mlp": 1.01535404,
      "epoch": 0.8955690494799495,
      "flos": 18257883120000.0,
      "grad_norm": 1.8095883074790384,
      "language_loss": 0.72167313,
      "learning_rate": 1.1320937221867732e-07,
      "loss": 0.74339759,
      "num_input_tokens_seen": 161036985,
      "step": 7448,
      "time_per_iteration": 2.5396511554718018
    },
    {
      "auxiliary_loss_clip": 0.0114952,
      "auxiliary_loss_mlp": 0.0102867,
      "balance_loss_clip": 1.04252267,
      "balance_loss_mlp": 1.02160668,
      "epoch": 0.8956892923705886,
      "flos": 25447486498560.0,
      "grad_norm": 1.7439289878981978,
      "language_loss": 0.79328907,
      "learning_rate": 1.1295115346739192e-07,
      "loss": 0.81507093,
      "num_input_tokens_seen": 161056985,
      "step": 7449,
      "time_per_iteration": 2.658803939819336
    },
    {
      "auxiliary_loss_clip": 0.01153858,
      "auxiliary_loss_mlp": 0.01027393,
      "balance_loss_clip": 1.04448569,
      "balance_loss_mlp": 1.01934004,
      "epoch": 0.8958095352612276,
      "flos": 52661883939840.0,
      "grad_norm": 2.6094556383549494,
      "language_loss": 0.7272439,
      "learning_rate": 1.1269322097991629e-07,
      "loss": 0.74905646,
      "num_input_tokens_seen": 161080270,
      "step": 7450,
      "time_per_iteration": 2.9158167839050293
    },
    {
      "auxiliary_loss_clip": 0.01162674,
      "auxiliary_loss_mlp": 0.01036757,
      "balance_loss_clip": 1.04635692,
      "balance_loss_mlp": 1.02789366,
      "epoch": 0.8959297781518668,
      "flos": 23186335392000.0,
      "grad_norm": 2.0995398913086407,
      "language_loss": 0.67564952,
      "learning_rate": 1.1243557479537846e-07,
      "loss": 0.69764388,
      "num_input_tokens_seen": 161100160,
      "step": 7451,
      "time_per_iteration": 2.6471853256225586
    },
    {
      "auxiliary_loss_clip": 0.01170799,
      "auxiliary_loss_mlp": 0.01027806,
      "balance_loss_clip": 1.04610455,
      "balance_loss_mlp": 1.01993847,
      "epoch": 0.8960500210425059,
      "flos": 20334309557760.0,
      "grad_norm": 4.529732417355544,
      "language_loss": 0.686396,
      "learning_rate": 1.121782149528634e-07,
      "loss": 0.70838201,
      "num_input_tokens_seen": 161117260,
      "step": 7452,
      "time_per_iteration": 2.5686991214752197
    },
    {
      "auxiliary_loss_clip": 0.01156096,
      "auxiliary_loss_mlp": 0.01021486,
      "balance_loss_clip": 1.04690814,
      "balance_loss_mlp": 1.01422906,
      "epoch": 0.8961702639331449,
      "flos": 19901694153600.0,
      "grad_norm": 2.016348853840751,
      "language_loss": 0.78571737,
      "learning_rate": 1.1192114149141208e-07,
      "loss": 0.80749321,
      "num_input_tokens_seen": 161136895,
      "step": 7453,
      "time_per_iteration": 2.6750826835632324
    },
    {
      "auxiliary_loss_clip": 0.01153585,
      "auxiliary_loss_mlp": 0.01025963,
      "balance_loss_clip": 1.04209065,
      "balance_loss_mlp": 1.01788664,
      "epoch": 0.8962905068237841,
      "flos": 12896348567040.0,
      "grad_norm": 2.348825964267202,
      "language_loss": 0.65232193,
      "learning_rate": 1.1166435445002197e-07,
      "loss": 0.67411745,
      "num_input_tokens_seen": 161154565,
      "step": 7454,
      "time_per_iteration": 2.6401097774505615
    },
    {
      "auxiliary_loss_clip": 0.01163473,
      "auxiliary_loss_mlp": 0.01030875,
      "balance_loss_clip": 1.04793417,
      "balance_loss_mlp": 1.02278697,
      "epoch": 0.8964107497144231,
      "flos": 23440331439360.0,
      "grad_norm": 2.1324186750517327,
      "language_loss": 0.68995547,
      "learning_rate": 1.1140785386764818e-07,
      "loss": 0.71189892,
      "num_input_tokens_seen": 161173265,
      "step": 7455,
      "time_per_iteration": 2.642991065979004
    },
    {
      "auxiliary_loss_clip": 0.01156596,
      "auxiliary_loss_mlp": 0.01030758,
      "balance_loss_clip": 1.04546356,
      "balance_loss_mlp": 1.02389503,
      "epoch": 0.8965309926050622,
      "flos": 19500176949120.0,
      "grad_norm": 2.48026418029366,
      "language_loss": 0.69766569,
      "learning_rate": 1.1115163978320153e-07,
      "loss": 0.71953917,
      "num_input_tokens_seen": 161191995,
      "step": 7456,
      "time_per_iteration": 2.6278297901153564
    },
    {
      "auxiliary_loss_clip": 0.01165774,
      "auxiliary_loss_mlp": 0.00886852,
      "balance_loss_clip": 1.04739547,
      "balance_loss_mlp": 1.00055265,
      "epoch": 0.8966512354957014,
      "flos": 28658008022400.0,
      "grad_norm": 2.059483650217591,
      "language_loss": 0.8257218,
      "learning_rate": 1.1089571223554917e-07,
      "loss": 0.84624803,
      "num_input_tokens_seen": 161212880,
      "step": 7457,
      "time_per_iteration": 2.7276723384857178
    },
    {
      "auxiliary_loss_clip": 0.01160234,
      "auxiliary_loss_mlp": 0.01028595,
      "balance_loss_clip": 1.0433377,
      "balance_loss_mlp": 1.0209775,
      "epoch": 0.8967714783863404,
      "flos": 23370916406400.0,
      "grad_norm": 2.374010725597585,
      "language_loss": 0.85970902,
      "learning_rate": 1.1064007126351537e-07,
      "loss": 0.88159728,
      "num_input_tokens_seen": 161233595,
      "step": 7458,
      "time_per_iteration": 4.602697134017944
    },
    {
      "auxiliary_loss_clip": 0.01147171,
      "auxiliary_loss_mlp": 0.01023133,
      "balance_loss_clip": 1.0459559,
      "balance_loss_mlp": 1.01511002,
      "epoch": 0.8968917212769795,
      "flos": 24535175938560.0,
      "grad_norm": 2.195856174928565,
      "language_loss": 0.76417482,
      "learning_rate": 1.1038471690588003e-07,
      "loss": 0.78587788,
      "num_input_tokens_seen": 161252740,
      "step": 7459,
      "time_per_iteration": 3.5145211219787598
    },
    {
      "auxiliary_loss_clip": 0.01130731,
      "auxiliary_loss_mlp": 0.01026571,
      "balance_loss_clip": 1.04232633,
      "balance_loss_mlp": 1.01932883,
      "epoch": 0.8970119641676186,
      "flos": 23475416048640.0,
      "grad_norm": 1.9438273789106948,
      "language_loss": 0.80383432,
      "learning_rate": 1.1012964920138145e-07,
      "loss": 0.82540727,
      "num_input_tokens_seen": 161272325,
      "step": 7460,
      "time_per_iteration": 2.7219862937927246
    },
    {
      "auxiliary_loss_clip": 0.01143839,
      "auxiliary_loss_mlp": 0.01029759,
      "balance_loss_clip": 1.04076815,
      "balance_loss_mlp": 1.02206993,
      "epoch": 0.8971322070582577,
      "flos": 24538192680960.0,
      "grad_norm": 1.9110916252672143,
      "language_loss": 0.75895929,
      "learning_rate": 1.0987486818871205e-07,
      "loss": 0.7806952,
      "num_input_tokens_seen": 161295915,
      "step": 7461,
      "time_per_iteration": 2.7638332843780518
    },
    {
      "auxiliary_loss_clip": 0.01160681,
      "auxiliary_loss_mlp": 0.00887126,
      "balance_loss_clip": 1.04640639,
      "balance_loss_mlp": 1.00065231,
      "epoch": 0.8972524499488967,
      "flos": 21797454159360.0,
      "grad_norm": 2.8323918568926945,
      "language_loss": 0.73642892,
      "learning_rate": 1.0962037390652245e-07,
      "loss": 0.75690699,
      "num_input_tokens_seen": 161314935,
      "step": 7462,
      "time_per_iteration": 2.624213218688965
    },
    {
      "auxiliary_loss_clip": 0.01149523,
      "auxiliary_loss_mlp": 0.01028709,
      "balance_loss_clip": 1.04333878,
      "balance_loss_mlp": 1.0210619,
      "epoch": 0.8973726928395359,
      "flos": 21726243446400.0,
      "grad_norm": 1.7590112691167825,
      "language_loss": 0.7191025,
      "learning_rate": 1.0936616639341911e-07,
      "loss": 0.74088478,
      "num_input_tokens_seen": 161335225,
      "step": 7463,
      "time_per_iteration": 2.6982414722442627
    },
    {
      "auxiliary_loss_clip": 0.0105092,
      "auxiliary_loss_mlp": 0.01000874,
      "balance_loss_clip": 1.00635159,
      "balance_loss_mlp": 0.99993223,
      "epoch": 0.897492935730175,
      "flos": 53837100097920.0,
      "grad_norm": 0.733015831896593,
      "language_loss": 0.54707444,
      "learning_rate": 1.0911224568796473e-07,
      "loss": 0.56759238,
      "num_input_tokens_seen": 161393420,
      "step": 7464,
      "time_per_iteration": 3.2239325046539307
    },
    {
      "auxiliary_loss_clip": 0.01161185,
      "auxiliary_loss_mlp": 0.01022683,
      "balance_loss_clip": 1.04884076,
      "balance_loss_mlp": 1.01550961,
      "epoch": 0.897613178620814,
      "flos": 18290346036480.0,
      "grad_norm": 2.015261488616097,
      "language_loss": 0.712439,
      "learning_rate": 1.0885861182867984e-07,
      "loss": 0.73427767,
      "num_input_tokens_seen": 161411525,
      "step": 7465,
      "time_per_iteration": 2.646876335144043
    },
    {
      "auxiliary_loss_clip": 0.01155215,
      "auxiliary_loss_mlp": 0.01024569,
      "balance_loss_clip": 1.04559052,
      "balance_loss_mlp": 1.01651597,
      "epoch": 0.8977334215114532,
      "flos": 32993718059520.0,
      "grad_norm": 1.6546491104349677,
      "language_loss": 0.70512795,
      "learning_rate": 1.0860526485403942e-07,
      "loss": 0.72692579,
      "num_input_tokens_seen": 161432800,
      "step": 7466,
      "time_per_iteration": 2.7642838954925537
    },
    {
      "auxiliary_loss_clip": 0.01170129,
      "auxiliary_loss_mlp": 0.01028171,
      "balance_loss_clip": 1.04790163,
      "balance_loss_mlp": 1.02054715,
      "epoch": 0.8978536644020922,
      "flos": 15195636938880.0,
      "grad_norm": 1.6241343595284328,
      "language_loss": 0.76950455,
      "learning_rate": 1.0835220480247675e-07,
      "loss": 0.79148757,
      "num_input_tokens_seen": 161451295,
      "step": 7467,
      "time_per_iteration": 3.5378780364990234
    },
    {
      "auxiliary_loss_clip": 0.01149736,
      "auxiliary_loss_mlp": 0.0102658,
      "balance_loss_clip": 1.04528248,
      "balance_loss_mlp": 1.01911712,
      "epoch": 0.8979739072927313,
      "flos": 18004389863040.0,
      "grad_norm": 1.9273991949506613,
      "language_loss": 0.83445287,
      "learning_rate": 1.0809943171238067e-07,
      "loss": 0.85621601,
      "num_input_tokens_seen": 161469220,
      "step": 7468,
      "time_per_iteration": 2.6902406215667725
    },
    {
      "auxiliary_loss_clip": 0.01155652,
      "auxiliary_loss_mlp": 0.01028815,
      "balance_loss_clip": 1.04451764,
      "balance_loss_mlp": 1.01998734,
      "epoch": 0.8980941501833704,
      "flos": 22271546793600.0,
      "grad_norm": 2.5542545302842434,
      "language_loss": 0.62650633,
      "learning_rate": 1.078469456220965e-07,
      "loss": 0.64835107,
      "num_input_tokens_seen": 161489375,
      "step": 7469,
      "time_per_iteration": 2.6878502368927
    },
    {
      "auxiliary_loss_clip": 0.0116164,
      "auxiliary_loss_mlp": 0.01024579,
      "balance_loss_clip": 1.04454064,
      "balance_loss_mlp": 1.01710498,
      "epoch": 0.8982143930740095,
      "flos": 37560729726720.0,
      "grad_norm": 1.7379852609318285,
      "language_loss": 0.69764221,
      "learning_rate": 1.0759474656992606e-07,
      "loss": 0.71950436,
      "num_input_tokens_seen": 161512145,
      "step": 7470,
      "time_per_iteration": 2.7628865242004395
    },
    {
      "auxiliary_loss_clip": 0.0115493,
      "auxiliary_loss_mlp": 0.01026157,
      "balance_loss_clip": 1.04192805,
      "balance_loss_mlp": 1.01853395,
      "epoch": 0.8983346359646486,
      "flos": 18076893465600.0,
      "grad_norm": 2.175512035964083,
      "language_loss": 0.78164589,
      "learning_rate": 1.0734283459412785e-07,
      "loss": 0.80345678,
      "num_input_tokens_seen": 161528995,
      "step": 7471,
      "time_per_iteration": 2.6187005043029785
    },
    {
      "auxiliary_loss_clip": 0.01135237,
      "auxiliary_loss_mlp": 0.01021963,
      "balance_loss_clip": 1.04113412,
      "balance_loss_mlp": 1.01398218,
      "epoch": 0.8984548788552876,
      "flos": 20558895344640.0,
      "grad_norm": 2.3930153483524763,
      "language_loss": 0.80816519,
      "learning_rate": 1.0709120973291707e-07,
      "loss": 0.82973719,
      "num_input_tokens_seen": 161548775,
      "step": 7472,
      "time_per_iteration": 2.7491166591644287
    },
    {
      "auxiliary_loss_clip": 0.01172142,
      "auxiliary_loss_mlp": 0.01025277,
      "balance_loss_clip": 1.04771972,
      "balance_loss_mlp": 1.01765406,
      "epoch": 0.8985751217459268,
      "flos": 17785442511360.0,
      "grad_norm": 2.489318477701662,
      "language_loss": 0.77408171,
      "learning_rate": 1.0683987202446475e-07,
      "loss": 0.79605585,
      "num_input_tokens_seen": 161566960,
      "step": 7473,
      "time_per_iteration": 2.5415117740631104
    },
    {
      "auxiliary_loss_clip": 0.01163101,
      "auxiliary_loss_mlp": 0.01026352,
      "balance_loss_clip": 1.04523277,
      "balance_loss_mlp": 1.01906228,
      "epoch": 0.8986953646365659,
      "flos": 21617003208960.0,
      "grad_norm": 2.0715437829856964,
      "language_loss": 0.69677097,
      "learning_rate": 1.0658882150689862e-07,
      "loss": 0.71866548,
      "num_input_tokens_seen": 161585820,
      "step": 7474,
      "time_per_iteration": 2.63924241065979
    },
    {
      "auxiliary_loss_clip": 0.01144271,
      "auxiliary_loss_mlp": 0.01025626,
      "balance_loss_clip": 1.04273188,
      "balance_loss_mlp": 1.01776993,
      "epoch": 0.8988156075272049,
      "flos": 14027355083520.0,
      "grad_norm": 2.4294523780536954,
      "language_loss": 0.78733748,
      "learning_rate": 1.0633805821830288e-07,
      "loss": 0.80903649,
      "num_input_tokens_seen": 161602505,
      "step": 7475,
      "time_per_iteration": 2.6828773021698
    },
    {
      "auxiliary_loss_clip": 0.01154883,
      "auxiliary_loss_mlp": 0.01025555,
      "balance_loss_clip": 1.04682338,
      "balance_loss_mlp": 1.0171926,
      "epoch": 0.8989358504178441,
      "flos": 29059202004480.0,
      "grad_norm": 2.3418691481408187,
      "language_loss": 0.82539219,
      "learning_rate": 1.0608758219671753e-07,
      "loss": 0.84719658,
      "num_input_tokens_seen": 161621545,
      "step": 7476,
      "time_per_iteration": 2.727510929107666
    },
    {
      "auxiliary_loss_clip": 0.01156515,
      "auxiliary_loss_mlp": 0.01029129,
      "balance_loss_clip": 1.04519963,
      "balance_loss_mlp": 1.02157092,
      "epoch": 0.8990560933084831,
      "flos": 20230420446720.0,
      "grad_norm": 1.7072891733115947,
      "language_loss": 0.70671451,
      "learning_rate": 1.0583739348014065e-07,
      "loss": 0.72857094,
      "num_input_tokens_seen": 161642630,
      "step": 7477,
      "time_per_iteration": 2.6932032108306885
    },
    {
      "auxiliary_loss_clip": 0.01172247,
      "auxiliary_loss_mlp": 0.01025612,
      "balance_loss_clip": 1.05055714,
      "balance_loss_mlp": 1.01781559,
      "epoch": 0.8991763361991222,
      "flos": 25520672459520.0,
      "grad_norm": 1.768999018257637,
      "language_loss": 0.84442258,
      "learning_rate": 1.0558749210652518e-07,
      "loss": 0.8664012,
      "num_input_tokens_seen": 161662560,
      "step": 7478,
      "time_per_iteration": 2.6621642112731934
    },
    {
      "auxiliary_loss_clip": 0.01147046,
      "auxiliary_loss_mlp": 0.01029881,
      "balance_loss_clip": 1.04433703,
      "balance_loss_mlp": 1.02194798,
      "epoch": 0.8992965790897613,
      "flos": 25119191168640.0,
      "grad_norm": 1.5594027970469513,
      "language_loss": 0.85590625,
      "learning_rate": 1.053378781137808e-07,
      "loss": 0.87767553,
      "num_input_tokens_seen": 161683480,
      "step": 7479,
      "time_per_iteration": 2.734835624694824
    },
    {
      "auxiliary_loss_clip": 0.01157016,
      "auxiliary_loss_mlp": 0.01025657,
      "balance_loss_clip": 1.04668093,
      "balance_loss_mlp": 1.01728225,
      "epoch": 0.8994168219804004,
      "flos": 16070815814400.0,
      "grad_norm": 1.8767482341166226,
      "language_loss": 0.7777164,
      "learning_rate": 1.0508855153977392e-07,
      "loss": 0.79954314,
      "num_input_tokens_seen": 161699945,
      "step": 7480,
      "time_per_iteration": 2.5906975269317627
    },
    {
      "auxiliary_loss_clip": 0.01160907,
      "auxiliary_loss_mlp": 0.01024176,
      "balance_loss_clip": 1.04380965,
      "balance_loss_mlp": 1.01635575,
      "epoch": 0.8995370648710395,
      "flos": 24825764966400.0,
      "grad_norm": 2.4527183196982536,
      "language_loss": 0.67343748,
      "learning_rate": 1.0483951242232669e-07,
      "loss": 0.6952883,
      "num_input_tokens_seen": 161720420,
      "step": 7481,
      "time_per_iteration": 2.7318177223205566
    },
    {
      "auxiliary_loss_clip": 0.01061306,
      "auxiliary_loss_mlp": 0.01002213,
      "balance_loss_clip": 1.00686431,
      "balance_loss_mlp": 1.00124192,
      "epoch": 0.8996573077616786,
      "flos": 63116238378240.0,
      "grad_norm": 0.9746369995426959,
      "language_loss": 0.57705569,
      "learning_rate": 1.0459076079921936e-07,
      "loss": 0.59769088,
      "num_input_tokens_seen": 161773080,
      "step": 7482,
      "time_per_iteration": 3.2305819988250732
    },
    {
      "auxiliary_loss_clip": 0.01146945,
      "auxiliary_loss_mlp": 0.01026746,
      "balance_loss_clip": 1.04545832,
      "balance_loss_mlp": 1.01850224,
      "epoch": 0.8997775506523177,
      "flos": 18219674027520.0,
      "grad_norm": 2.377023867428366,
      "language_loss": 0.85275555,
      "learning_rate": 1.0434229670818618e-07,
      "loss": 0.87449247,
      "num_input_tokens_seen": 161789755,
      "step": 7483,
      "time_per_iteration": 3.614003896713257
    },
    {
      "auxiliary_loss_clip": 0.01145545,
      "auxiliary_loss_mlp": 0.01024658,
      "balance_loss_clip": 1.04451752,
      "balance_loss_mlp": 1.01739192,
      "epoch": 0.8998977935429567,
      "flos": 24166768095360.0,
      "grad_norm": 1.488557246089156,
      "language_loss": 0.80046594,
      "learning_rate": 1.0409412018691944e-07,
      "loss": 0.82216799,
      "num_input_tokens_seen": 161810220,
      "step": 7484,
      "time_per_iteration": 4.497883319854736
    },
    {
      "auxiliary_loss_clip": 0.01146119,
      "auxiliary_loss_mlp": 0.01030247,
      "balance_loss_clip": 1.04490054,
      "balance_loss_mlp": 1.02264106,
      "epoch": 0.9000180364335959,
      "flos": 20773030273920.0,
      "grad_norm": 1.8435809983576592,
      "language_loss": 0.75186962,
      "learning_rate": 1.0384623127306724e-07,
      "loss": 0.77363324,
      "num_input_tokens_seen": 161827565,
      "step": 7485,
      "time_per_iteration": 2.6886682510375977
    },
    {
      "auxiliary_loss_clip": 0.01140071,
      "auxiliary_loss_mlp": 0.01023875,
      "balance_loss_clip": 1.04292214,
      "balance_loss_mlp": 1.01677871,
      "epoch": 0.900138279324235,
      "flos": 19205745166080.0,
      "grad_norm": 1.8251826992385207,
      "language_loss": 0.79256976,
      "learning_rate": 1.0359863000423397e-07,
      "loss": 0.81420916,
      "num_input_tokens_seen": 161845700,
      "step": 7486,
      "time_per_iteration": 2.75492525100708
    },
    {
      "auxiliary_loss_clip": 0.01170669,
      "auxiliary_loss_mlp": 0.01025787,
      "balance_loss_clip": 1.04704213,
      "balance_loss_mlp": 1.01831877,
      "epoch": 0.900258522214874,
      "flos": 28731158069760.0,
      "grad_norm": 1.756552096503507,
      "language_loss": 0.72006845,
      "learning_rate": 1.0335131641798112e-07,
      "loss": 0.74203295,
      "num_input_tokens_seen": 161867660,
      "step": 7487,
      "time_per_iteration": 2.726425886154175
    },
    {
      "auxiliary_loss_clip": 0.01050859,
      "auxiliary_loss_mlp": 0.01001627,
      "balance_loss_clip": 1.00752807,
      "balance_loss_mlp": 1.00058365,
      "epoch": 0.9003787651055132,
      "flos": 58280685655680.0,
      "grad_norm": 0.8084312116842098,
      "language_loss": 0.55595493,
      "learning_rate": 1.0310429055182512e-07,
      "loss": 0.57647979,
      "num_input_tokens_seen": 161921980,
      "step": 7488,
      "time_per_iteration": 3.0657503604888916
    },
    {
      "auxiliary_loss_clip": 0.01146552,
      "auxiliary_loss_mlp": 0.0102495,
      "balance_loss_clip": 1.04414737,
      "balance_loss_mlp": 1.01747882,
      "epoch": 0.9004990079961522,
      "flos": 25556475340800.0,
      "grad_norm": 1.665161393555303,
      "language_loss": 0.73803824,
      "learning_rate": 1.0285755244324024e-07,
      "loss": 0.75975323,
      "num_input_tokens_seen": 161942725,
      "step": 7489,
      "time_per_iteration": 2.8184781074523926
    },
    {
      "auxiliary_loss_clip": 0.01153903,
      "auxiliary_loss_mlp": 0.00885701,
      "balance_loss_clip": 1.04294896,
      "balance_loss_mlp": 1.00052249,
      "epoch": 0.9006192508867913,
      "flos": 23335185352320.0,
      "grad_norm": 1.4871442246090945,
      "language_loss": 0.68743503,
      "learning_rate": 1.0261110212965629e-07,
      "loss": 0.70783103,
      "num_input_tokens_seen": 161964520,
      "step": 7490,
      "time_per_iteration": 2.715076446533203
    },
    {
      "auxiliary_loss_clip": 0.01150458,
      "auxiliary_loss_mlp": 0.01025565,
      "balance_loss_clip": 1.04261327,
      "balance_loss_mlp": 1.01751828,
      "epoch": 0.9007394937774305,
      "flos": 18040300485120.0,
      "grad_norm": 2.5386845135336014,
      "language_loss": 0.79213083,
      "learning_rate": 1.023649396484596e-07,
      "loss": 0.81389099,
      "num_input_tokens_seen": 161983575,
      "step": 7491,
      "time_per_iteration": 2.6840381622314453
    },
    {
      "auxiliary_loss_clip": 0.01172196,
      "auxiliary_loss_mlp": 0.01026897,
      "balance_loss_clip": 1.04881835,
      "balance_loss_mlp": 1.01855838,
      "epoch": 0.9008597366680695,
      "flos": 43068456633600.0,
      "grad_norm": 2.140104860361252,
      "language_loss": 0.67541528,
      "learning_rate": 1.0211906503699275e-07,
      "loss": 0.69740617,
      "num_input_tokens_seen": 162006550,
      "step": 7492,
      "time_per_iteration": 2.7898380756378174
    },
    {
      "auxiliary_loss_clip": 0.01163684,
      "auxiliary_loss_mlp": 0.0103016,
      "balance_loss_clip": 1.04769266,
      "balance_loss_mlp": 1.0222652,
      "epoch": 0.9009799795587086,
      "flos": 14939055112320.0,
      "grad_norm": 2.549843525277727,
      "language_loss": 0.82238156,
      "learning_rate": 1.0187347833255455e-07,
      "loss": 0.84432,
      "num_input_tokens_seen": 162022455,
      "step": 7493,
      "time_per_iteration": 3.581740617752075
    },
    {
      "auxiliary_loss_clip": 0.0116952,
      "auxiliary_loss_mlp": 0.01027463,
      "balance_loss_clip": 1.04840565,
      "balance_loss_mlp": 1.01987505,
      "epoch": 0.9011002224493477,
      "flos": 21579584215680.0,
      "grad_norm": 1.6915359933925695,
      "language_loss": 0.79315764,
      "learning_rate": 1.0162817957240056e-07,
      "loss": 0.81512749,
      "num_input_tokens_seen": 162042350,
      "step": 7494,
      "time_per_iteration": 2.649306535720825
    },
    {
      "auxiliary_loss_clip": 0.01058118,
      "auxiliary_loss_mlp": 0.01001014,
      "balance_loss_clip": 1.00859976,
      "balance_loss_mlp": 1.00002432,
      "epoch": 0.9012204653399868,
      "flos": 71166367883520.0,
      "grad_norm": 0.8802185922538218,
      "language_loss": 0.63010597,
      "learning_rate": 1.0138316879374253e-07,
      "loss": 0.65069729,
      "num_input_tokens_seen": 162111640,
      "step": 7495,
      "time_per_iteration": 3.3553872108459473
    },
    {
      "auxiliary_loss_clip": 0.01151911,
      "auxiliary_loss_mlp": 0.01027597,
      "balance_loss_clip": 1.04649079,
      "balance_loss_mlp": 1.01988733,
      "epoch": 0.9013407082306258,
      "flos": 15594963413760.0,
      "grad_norm": 2.2817888544401272,
      "language_loss": 0.74258155,
      "learning_rate": 1.0113844603374833e-07,
      "loss": 0.76437658,
      "num_input_tokens_seen": 162128165,
      "step": 7496,
      "time_per_iteration": 2.702004909515381
    },
    {
      "auxiliary_loss_clip": 0.01149553,
      "auxiliary_loss_mlp": 0.01026272,
      "balance_loss_clip": 1.04233277,
      "balance_loss_mlp": 1.01819015,
      "epoch": 0.901460951121265,
      "flos": 15049157276160.0,
      "grad_norm": 2.0318897613784586,
      "language_loss": 0.72100651,
      "learning_rate": 1.0089401132954178e-07,
      "loss": 0.74276477,
      "num_input_tokens_seen": 162146145,
      "step": 7497,
      "time_per_iteration": 2.695812463760376
    },
    {
      "auxiliary_loss_clip": 0.01150249,
      "auxiliary_loss_mlp": 0.01032459,
      "balance_loss_clip": 1.04472804,
      "balance_loss_mlp": 1.02482343,
      "epoch": 0.9015811940119041,
      "flos": 22236857233920.0,
      "grad_norm": 1.564157056593329,
      "language_loss": 0.72421539,
      "learning_rate": 1.006498647182037e-07,
      "loss": 0.74604249,
      "num_input_tokens_seen": 162164800,
      "step": 7498,
      "time_per_iteration": 2.755486011505127
    },
    {
      "auxiliary_loss_clip": 0.01118138,
      "auxiliary_loss_mlp": 0.01026939,
      "balance_loss_clip": 1.03736818,
      "balance_loss_mlp": 1.01919663,
      "epoch": 0.9017014369025431,
      "flos": 24973824827520.0,
      "grad_norm": 2.1622420910886264,
      "language_loss": 0.71782619,
      "learning_rate": 1.004060062367713e-07,
      "loss": 0.73927689,
      "num_input_tokens_seen": 162185895,
      "step": 7499,
      "time_per_iteration": 2.9044904708862305
    },
    {
      "auxiliary_loss_clip": 0.01161578,
      "auxiliary_loss_mlp": 0.01026904,
      "balance_loss_clip": 1.04573584,
      "balance_loss_mlp": 1.01982927,
      "epoch": 0.9018216797931822,
      "flos": 18114168804480.0,
      "grad_norm": 1.7769635916419428,
      "language_loss": 0.69494307,
      "learning_rate": 1.0016243592223728e-07,
      "loss": 0.71682787,
      "num_input_tokens_seen": 162206295,
      "step": 7500,
      "time_per_iteration": 2.813122510910034
    },
    {
      "auxiliary_loss_clip": 0.01119707,
      "auxiliary_loss_mlp": 0.01028282,
      "balance_loss_clip": 1.04038596,
      "balance_loss_mlp": 1.02040267,
      "epoch": 0.9019419226838213,
      "flos": 37268452759680.0,
      "grad_norm": 1.7513687921613437,
      "language_loss": 0.65517735,
      "learning_rate": 9.991915381155114e-08,
      "loss": 0.6766572,
      "num_input_tokens_seen": 162229275,
      "step": 7501,
      "time_per_iteration": 2.9304697513580322
    },
    {
      "auxiliary_loss_clip": 0.01163465,
      "auxiliary_loss_mlp": 0.01030878,
      "balance_loss_clip": 1.04548275,
      "balance_loss_mlp": 1.0235827,
      "epoch": 0.9020621655744604,
      "flos": 23441121538560.0,
      "grad_norm": 2.089056483459902,
      "language_loss": 0.74726915,
      "learning_rate": 9.967615994161871e-08,
      "loss": 0.7692126,
      "num_input_tokens_seen": 162248935,
      "step": 7502,
      "time_per_iteration": 2.673755407333374
    },
    {
      "auxiliary_loss_clip": 0.01170046,
      "auxiliary_loss_mlp": 0.0102899,
      "balance_loss_clip": 1.04841363,
      "balance_loss_mlp": 1.02163744,
      "epoch": 0.9021824084650995,
      "flos": 22857465444480.0,
      "grad_norm": 1.9321633841890924,
      "language_loss": 0.78216994,
      "learning_rate": 9.943345434930161e-08,
      "loss": 0.8041603,
      "num_input_tokens_seen": 162269185,
      "step": 7503,
      "time_per_iteration": 2.671954870223999
    },
    {
      "auxiliary_loss_clip": 0.0114215,
      "auxiliary_loss_mlp": 0.01027319,
      "balance_loss_clip": 1.04623437,
      "balance_loss_mlp": 1.01935017,
      "epoch": 0.9023026513557386,
      "flos": 22127581082880.0,
      "grad_norm": 2.1519762365288653,
      "language_loss": 0.68972474,
      "learning_rate": 9.919103707141885e-08,
      "loss": 0.71141946,
      "num_input_tokens_seen": 162288065,
      "step": 7504,
      "time_per_iteration": 2.685917854309082
    },
    {
      "auxiliary_loss_clip": 0.01159909,
      "auxiliary_loss_mlp": 0.0102989,
      "balance_loss_clip": 1.04587007,
      "balance_loss_mlp": 1.02153921,
      "epoch": 0.9024228942463777,
      "flos": 24199087357440.0,
      "grad_norm": 2.0010757104859116,
      "language_loss": 0.76334059,
      "learning_rate": 9.89489081447441e-08,
      "loss": 0.78523856,
      "num_input_tokens_seen": 162305265,
      "step": 7505,
      "time_per_iteration": 2.670966148376465
    },
    {
      "auxiliary_loss_clip": 0.01149122,
      "auxiliary_loss_mlp": 0.01027136,
      "balance_loss_clip": 1.04204559,
      "balance_loss_mlp": 1.01917338,
      "epoch": 0.9025431371370167,
      "flos": 25008262992000.0,
      "grad_norm": 2.3662574143646875,
      "language_loss": 0.83118415,
      "learning_rate": 9.870706760600844e-08,
      "loss": 0.85294676,
      "num_input_tokens_seen": 162325215,
      "step": 7506,
      "time_per_iteration": 2.7175188064575195
    },
    {
      "auxiliary_loss_clip": 0.01142577,
      "auxiliary_loss_mlp": 0.01029246,
      "balance_loss_clip": 1.04823017,
      "balance_loss_mlp": 1.02047241,
      "epoch": 0.9026633800276559,
      "flos": 18952862440320.0,
      "grad_norm": 1.7237609597503116,
      "language_loss": 0.72582662,
      "learning_rate": 9.846551549189918e-08,
      "loss": 0.74754483,
      "num_input_tokens_seen": 162344820,
      "step": 7507,
      "time_per_iteration": 2.7553343772888184
    },
    {
      "auxiliary_loss_clip": 0.01148181,
      "auxiliary_loss_mlp": 0.01025173,
      "balance_loss_clip": 1.04481363,
      "balance_loss_mlp": 1.01722121,
      "epoch": 0.902783622918295,
      "flos": 32416059536640.0,
      "grad_norm": 2.387507149286681,
      "language_loss": 0.68551069,
      "learning_rate": 9.822425183905902e-08,
      "loss": 0.70724416,
      "num_input_tokens_seen": 162365345,
      "step": 7508,
      "time_per_iteration": 2.774733543395996
    },
    {
      "auxiliary_loss_clip": 0.0104691,
      "auxiliary_loss_mlp": 0.01000704,
      "balance_loss_clip": 1.00896001,
      "balance_loss_mlp": 0.99973279,
      "epoch": 0.902903865808934,
      "flos": 63717453244800.0,
      "grad_norm": 0.9226930311132779,
      "language_loss": 0.75120318,
      "learning_rate": 9.798327668408823e-08,
      "loss": 0.77167928,
      "num_input_tokens_seen": 162426980,
      "step": 7509,
      "time_per_iteration": 4.2867677211761475
    },
    {
      "auxiliary_loss_clip": 0.01175059,
      "auxiliary_loss_mlp": 0.01029648,
      "balance_loss_clip": 1.04832315,
      "balance_loss_mlp": 1.02097595,
      "epoch": 0.9030241086995732,
      "flos": 23804034600960.0,
      "grad_norm": 2.315241656812046,
      "language_loss": 0.69049078,
      "learning_rate": 9.774259006354158e-08,
      "loss": 0.71253783,
      "num_input_tokens_seen": 162447050,
      "step": 7510,
      "time_per_iteration": 3.74184513092041
    },
    {
      "auxiliary_loss_clip": 0.01156907,
      "auxiliary_loss_mlp": 0.01023159,
      "balance_loss_clip": 1.04489803,
      "balance_loss_mlp": 1.01575649,
      "epoch": 0.9031443515902122,
      "flos": 26395887248640.0,
      "grad_norm": 2.293938342258909,
      "language_loss": 0.76607573,
      "learning_rate": 9.750219201393184e-08,
      "loss": 0.78787637,
      "num_input_tokens_seen": 162467015,
      "step": 7511,
      "time_per_iteration": 3.6242599487304688
    },
    {
      "auxiliary_loss_clip": 0.01160827,
      "auxiliary_loss_mlp": 0.01025817,
      "balance_loss_clip": 1.04562044,
      "balance_loss_mlp": 1.01800847,
      "epoch": 0.9032645944808513,
      "flos": 24939350749440.0,
      "grad_norm": 2.198130093851463,
      "language_loss": 0.77901959,
      "learning_rate": 9.726208257172697e-08,
      "loss": 0.80088603,
      "num_input_tokens_seen": 162488710,
      "step": 7512,
      "time_per_iteration": 2.6677136421203613
    },
    {
      "auxiliary_loss_clip": 0.01167338,
      "auxiliary_loss_mlp": 0.01022356,
      "balance_loss_clip": 1.046229,
      "balance_loss_mlp": 1.01466751,
      "epoch": 0.9033848373714904,
      "flos": 21178821196800.0,
      "grad_norm": 3.471969642944456,
      "language_loss": 0.74775565,
      "learning_rate": 9.702226177335115e-08,
      "loss": 0.76965261,
      "num_input_tokens_seen": 162507205,
      "step": 7513,
      "time_per_iteration": 2.6000287532806396
    },
    {
      "auxiliary_loss_clip": 0.01150361,
      "auxiliary_loss_mlp": 0.01027758,
      "balance_loss_clip": 1.04527688,
      "balance_loss_mlp": 1.01987815,
      "epoch": 0.9035050802621295,
      "flos": 26286359702400.0,
      "grad_norm": 1.5901256033246836,
      "language_loss": 0.725137,
      "learning_rate": 9.67827296551853e-08,
      "loss": 0.7469182,
      "num_input_tokens_seen": 162528490,
      "step": 7514,
      "time_per_iteration": 2.7213222980499268
    },
    {
      "auxiliary_loss_clip": 0.01140966,
      "auxiliary_loss_mlp": 0.00886041,
      "balance_loss_clip": 1.04070771,
      "balance_loss_mlp": 1.00058103,
      "epoch": 0.9036253231527686,
      "flos": 24204546224640.0,
      "grad_norm": 2.2417346923030483,
      "language_loss": 0.68414575,
      "learning_rate": 9.65434862535659e-08,
      "loss": 0.7044158,
      "num_input_tokens_seen": 162547860,
      "step": 7515,
      "time_per_iteration": 2.732041120529175
    },
    {
      "auxiliary_loss_clip": 0.01154348,
      "auxiliary_loss_mlp": 0.01028673,
      "balance_loss_clip": 1.04418147,
      "balance_loss_mlp": 1.02057278,
      "epoch": 0.9037455660434077,
      "flos": 18072655660800.0,
      "grad_norm": 2.5149624096962877,
      "language_loss": 0.65516388,
      "learning_rate": 9.630453160478635e-08,
      "loss": 0.67699409,
      "num_input_tokens_seen": 162563215,
      "step": 7516,
      "time_per_iteration": 2.731426477432251
    },
    {
      "auxiliary_loss_clip": 0.01129554,
      "auxiliary_loss_mlp": 0.01028074,
      "balance_loss_clip": 1.04023671,
      "balance_loss_mlp": 1.02066481,
      "epoch": 0.9038658089340468,
      "flos": 24060795995520.0,
      "grad_norm": 3.4006962272270598,
      "language_loss": 0.82319665,
      "learning_rate": 9.60658657450959e-08,
      "loss": 0.84477293,
      "num_input_tokens_seen": 162583515,
      "step": 7517,
      "time_per_iteration": 2.761467695236206
    },
    {
      "auxiliary_loss_clip": 0.01138596,
      "auxiliary_loss_mlp": 0.01027022,
      "balance_loss_clip": 1.03937411,
      "balance_loss_mlp": 1.01936316,
      "epoch": 0.9039860518246858,
      "flos": 21834298535040.0,
      "grad_norm": 1.6110640199382817,
      "language_loss": 0.79821253,
      "learning_rate": 9.582748871069979e-08,
      "loss": 0.81986874,
      "num_input_tokens_seen": 162602955,
      "step": 7518,
      "time_per_iteration": 2.7412352561950684
    },
    {
      "auxiliary_loss_clip": 0.0115238,
      "auxiliary_loss_mlp": 0.00885927,
      "balance_loss_clip": 1.04197097,
      "balance_loss_mlp": 1.00050354,
      "epoch": 0.904106294715325,
      "flos": 26614870513920.0,
      "grad_norm": 1.8875879540911455,
      "language_loss": 0.83575892,
      "learning_rate": 9.558940053775954e-08,
      "loss": 0.85614198,
      "num_input_tokens_seen": 162621595,
      "step": 7519,
      "time_per_iteration": 3.637484312057495
    },
    {
      "auxiliary_loss_clip": 0.01161348,
      "auxiliary_loss_mlp": 0.01025969,
      "balance_loss_clip": 1.04687119,
      "balance_loss_mlp": 1.01823807,
      "epoch": 0.904226537605964,
      "flos": 17785693906560.0,
      "grad_norm": 1.8782447912741027,
      "language_loss": 0.67491186,
      "learning_rate": 9.535160126239294e-08,
      "loss": 0.69678509,
      "num_input_tokens_seen": 162638220,
      "step": 7520,
      "time_per_iteration": 2.608269453048706
    },
    {
      "auxiliary_loss_clip": 0.01160901,
      "auxiliary_loss_mlp": 0.0102609,
      "balance_loss_clip": 1.04683149,
      "balance_loss_mlp": 1.01853824,
      "epoch": 0.9043467804966031,
      "flos": 24790428961920.0,
      "grad_norm": 1.6876422177713846,
      "language_loss": 0.70784914,
      "learning_rate": 9.511409092067424e-08,
      "loss": 0.72971916,
      "num_input_tokens_seen": 162658575,
      "step": 7521,
      "time_per_iteration": 2.752119779586792
    },
    {
      "auxiliary_loss_clip": 0.01150877,
      "auxiliary_loss_mlp": 0.01030781,
      "balance_loss_clip": 1.04801762,
      "balance_loss_mlp": 1.02328277,
      "epoch": 0.9044670233872423,
      "flos": 22632125472000.0,
      "grad_norm": 1.9421825059185467,
      "language_loss": 0.67134809,
      "learning_rate": 9.487686954863327e-08,
      "loss": 0.69316471,
      "num_input_tokens_seen": 162678295,
      "step": 7522,
      "time_per_iteration": 2.6884453296661377
    },
    {
      "auxiliary_loss_clip": 0.01160562,
      "auxiliary_loss_mlp": 0.01032123,
      "balance_loss_clip": 1.04792786,
      "balance_loss_mlp": 1.02399254,
      "epoch": 0.9045872662778813,
      "flos": 23771320289280.0,
      "grad_norm": 1.880632318681138,
      "language_loss": 0.77200449,
      "learning_rate": 9.46399371822566e-08,
      "loss": 0.79393137,
      "num_input_tokens_seen": 162698070,
      "step": 7523,
      "time_per_iteration": 2.6607837677001953
    },
    {
      "auxiliary_loss_clip": 0.01170394,
      "auxiliary_loss_mlp": 0.0102276,
      "balance_loss_clip": 1.04668021,
      "balance_loss_mlp": 1.01486826,
      "epoch": 0.9047075091685204,
      "flos": 15191039998080.0,
      "grad_norm": 2.869953230850845,
      "language_loss": 0.7213161,
      "learning_rate": 9.440329385748657e-08,
      "loss": 0.74324763,
      "num_input_tokens_seen": 162715140,
      "step": 7524,
      "time_per_iteration": 2.6441798210144043
    },
    {
      "auxiliary_loss_clip": 0.01140437,
      "auxiliary_loss_mlp": 0.01019944,
      "balance_loss_clip": 1.04339361,
      "balance_loss_mlp": 1.01326227,
      "epoch": 0.9048277520591596,
      "flos": 18003707504640.0,
      "grad_norm": 1.998568727661384,
      "language_loss": 0.71174747,
      "learning_rate": 9.416693961022137e-08,
      "loss": 0.73335123,
      "num_input_tokens_seen": 162733390,
      "step": 7525,
      "time_per_iteration": 2.722161054611206
    },
    {
      "auxiliary_loss_clip": 0.01108245,
      "auxiliary_loss_mlp": 0.01027933,
      "balance_loss_clip": 1.03725553,
      "balance_loss_mlp": 1.02035117,
      "epoch": 0.9049479949497986,
      "flos": 21872471713920.0,
      "grad_norm": 1.8541963287045384,
      "language_loss": 0.77165198,
      "learning_rate": 9.393087447631654e-08,
      "loss": 0.79301375,
      "num_input_tokens_seen": 162751670,
      "step": 7526,
      "time_per_iteration": 2.73870587348938
    },
    {
      "auxiliary_loss_clip": 0.01151782,
      "auxiliary_loss_mlp": 0.01020819,
      "balance_loss_clip": 1.04334521,
      "balance_loss_mlp": 1.0142777,
      "epoch": 0.9050682378404377,
      "flos": 20773928113920.0,
      "grad_norm": 1.5167102668567696,
      "language_loss": 0.72997439,
      "learning_rate": 9.36950984915823e-08,
      "loss": 0.7517004,
      "num_input_tokens_seen": 162770025,
      "step": 7527,
      "time_per_iteration": 2.7096288204193115
    },
    {
      "auxiliary_loss_clip": 0.01174804,
      "auxiliary_loss_mlp": 0.01028265,
      "balance_loss_clip": 1.05067575,
      "balance_loss_mlp": 1.02075481,
      "epoch": 0.9051884807310768,
      "flos": 21580015178880.0,
      "grad_norm": 1.9052365508971623,
      "language_loss": 0.68912578,
      "learning_rate": 9.345961169178607e-08,
      "loss": 0.71115649,
      "num_input_tokens_seen": 162789710,
      "step": 7528,
      "time_per_iteration": 2.5875422954559326
    },
    {
      "auxiliary_loss_clip": 0.01128624,
      "auxiliary_loss_mlp": 0.01024595,
      "balance_loss_clip": 1.04325187,
      "balance_loss_mlp": 1.01687598,
      "epoch": 0.9053087236217159,
      "flos": 21908059113600.0,
      "grad_norm": 1.3898865672599012,
      "language_loss": 0.72869188,
      "learning_rate": 9.322441411265081e-08,
      "loss": 0.75022411,
      "num_input_tokens_seen": 162810695,
      "step": 7529,
      "time_per_iteration": 2.747645616531372
    },
    {
      "auxiliary_loss_clip": 0.01144778,
      "auxiliary_loss_mlp": 0.01025783,
      "balance_loss_clip": 1.04390991,
      "balance_loss_mlp": 1.01817393,
      "epoch": 0.9054289665123549,
      "flos": 17055809544960.0,
      "grad_norm": 2.07304637127219,
      "language_loss": 0.73172271,
      "learning_rate": 9.298950578985554e-08,
      "loss": 0.75342834,
      "num_input_tokens_seen": 162827770,
      "step": 7530,
      "time_per_iteration": 2.61673641204834
    },
    {
      "auxiliary_loss_clip": 0.01157125,
      "auxiliary_loss_mlp": 0.00887184,
      "balance_loss_clip": 1.04692602,
      "balance_loss_mlp": 1.00062275,
      "epoch": 0.905549209402994,
      "flos": 20777268078720.0,
      "grad_norm": 1.780323733312764,
      "language_loss": 0.71126199,
      "learning_rate": 9.275488675903665e-08,
      "loss": 0.73170507,
      "num_input_tokens_seen": 162846715,
      "step": 7531,
      "time_per_iteration": 2.616325616836548
    },
    {
      "auxiliary_loss_clip": 0.01126493,
      "auxiliary_loss_mlp": 0.01027127,
      "balance_loss_clip": 1.04042554,
      "balance_loss_mlp": 1.0195508,
      "epoch": 0.9056694522936332,
      "flos": 21686813291520.0,
      "grad_norm": 2.1417062862307032,
      "language_loss": 0.73774213,
      "learning_rate": 9.252055705578454e-08,
      "loss": 0.7592783,
      "num_input_tokens_seen": 162866215,
      "step": 7532,
      "time_per_iteration": 2.771980047225952
    },
    {
      "auxiliary_loss_clip": 0.01159964,
      "auxiliary_loss_mlp": 0.01028597,
      "balance_loss_clip": 1.04466891,
      "balance_loss_mlp": 1.02185869,
      "epoch": 0.9057896951842722,
      "flos": 29569133433600.0,
      "grad_norm": 1.5909235427516002,
      "language_loss": 0.71797246,
      "learning_rate": 9.228651671564747e-08,
      "loss": 0.73985815,
      "num_input_tokens_seen": 162888245,
      "step": 7533,
      "time_per_iteration": 2.7373838424682617
    },
    {
      "auxiliary_loss_clip": 0.01130299,
      "auxiliary_loss_mlp": 0.01033497,
      "balance_loss_clip": 1.04522443,
      "balance_loss_mlp": 1.02590346,
      "epoch": 0.9059099380749113,
      "flos": 27892248952320.0,
      "grad_norm": 1.5302456897604666,
      "language_loss": 0.77926594,
      "learning_rate": 9.205276577412901e-08,
      "loss": 0.80090392,
      "num_input_tokens_seen": 162911025,
      "step": 7534,
      "time_per_iteration": 2.8747611045837402
    },
    {
      "auxiliary_loss_clip": 0.01157346,
      "auxiliary_loss_mlp": 0.00886851,
      "balance_loss_clip": 1.0446018,
      "balance_loss_mlp": 1.00060081,
      "epoch": 0.9060301809655504,
      "flos": 17748993185280.0,
      "grad_norm": 2.6843527665701434,
      "language_loss": 0.76675725,
      "learning_rate": 9.181930426668905e-08,
      "loss": 0.7871992,
      "num_input_tokens_seen": 162927820,
      "step": 7535,
      "time_per_iteration": 3.5544660091400146
    },
    {
      "auxiliary_loss_clip": 0.0112331,
      "auxiliary_loss_mlp": 0.01036017,
      "balance_loss_clip": 1.03911245,
      "balance_loss_mlp": 1.02834249,
      "epoch": 0.9061504238561895,
      "flos": 31759432963200.0,
      "grad_norm": 1.7378646540750888,
      "language_loss": 0.67671257,
      "learning_rate": 9.158613222874346e-08,
      "loss": 0.69830585,
      "num_input_tokens_seen": 162949445,
      "step": 7536,
      "time_per_iteration": 3.8077564239501953
    },
    {
      "auxiliary_loss_clip": 0.01149925,
      "auxiliary_loss_mlp": 0.01027661,
      "balance_loss_clip": 1.04439306,
      "balance_loss_mlp": 1.02018642,
      "epoch": 0.9062706667468285,
      "flos": 20048066075520.0,
      "grad_norm": 1.7497808584688725,
      "language_loss": 0.81966937,
      "learning_rate": 9.135324969566394e-08,
      "loss": 0.84144521,
      "num_input_tokens_seen": 162968945,
      "step": 7537,
      "time_per_iteration": 3.5250041484832764
    },
    {
      "auxiliary_loss_clip": 0.01166066,
      "auxiliary_loss_mlp": 0.0102202,
      "balance_loss_clip": 1.04845738,
      "balance_loss_mlp": 1.01450372,
      "epoch": 0.9063909096374677,
      "flos": 18437292576000.0,
      "grad_norm": 2.679873668399987,
      "language_loss": 0.75509709,
      "learning_rate": 9.112065670277913e-08,
      "loss": 0.77697802,
      "num_input_tokens_seen": 162985310,
      "step": 7538,
      "time_per_iteration": 2.6471407413482666
    },
    {
      "auxiliary_loss_clip": 0.01144645,
      "auxiliary_loss_mlp": 0.0102459,
      "balance_loss_clip": 1.03986549,
      "balance_loss_mlp": 1.01756525,
      "epoch": 0.9065111525281068,
      "flos": 33547353361920.0,
      "grad_norm": 3.9035609458813725,
      "language_loss": 0.73082942,
      "learning_rate": 9.088835328537303e-08,
      "loss": 0.75252175,
      "num_input_tokens_seen": 163006900,
      "step": 7539,
      "time_per_iteration": 2.8093984127044678
    },
    {
      "auxiliary_loss_clip": 0.01154183,
      "auxiliary_loss_mlp": 0.01032311,
      "balance_loss_clip": 1.04591393,
      "balance_loss_mlp": 1.02449656,
      "epoch": 0.9066313954187458,
      "flos": 23367863750400.0,
      "grad_norm": 2.1254922021083447,
      "language_loss": 0.71666527,
      "learning_rate": 9.065633947868568e-08,
      "loss": 0.73853022,
      "num_input_tokens_seen": 163026505,
      "step": 7540,
      "time_per_iteration": 2.62471604347229
    },
    {
      "auxiliary_loss_clip": 0.0114045,
      "auxiliary_loss_mlp": 0.00885936,
      "balance_loss_clip": 1.04643834,
      "balance_loss_mlp": 1.0005877,
      "epoch": 0.906751638309385,
      "flos": 26249623067520.0,
      "grad_norm": 2.460025956293465,
      "language_loss": 0.80037105,
      "learning_rate": 9.042461531791379e-08,
      "loss": 0.8206349,
      "num_input_tokens_seen": 163044925,
      "step": 7541,
      "time_per_iteration": 2.817812204360962
    },
    {
      "auxiliary_loss_clip": 0.01165757,
      "auxiliary_loss_mlp": 0.01026605,
      "balance_loss_clip": 1.04494083,
      "balance_loss_mlp": 1.01910973,
      "epoch": 0.906871881200024,
      "flos": 16544477485440.0,
      "grad_norm": 1.9820269218760378,
      "language_loss": 0.77761054,
      "learning_rate": 9.019318083820903e-08,
      "loss": 0.79953408,
      "num_input_tokens_seen": 163063505,
      "step": 7542,
      "time_per_iteration": 2.5839555263519287
    },
    {
      "auxiliary_loss_clip": 0.01160706,
      "auxiliary_loss_mlp": 0.01033798,
      "balance_loss_clip": 1.04837894,
      "balance_loss_mlp": 1.02615333,
      "epoch": 0.9069921240906631,
      "flos": 24605129675520.0,
      "grad_norm": 5.722940749338827,
      "language_loss": 0.85237753,
      "learning_rate": 8.996203607468045e-08,
      "loss": 0.87432253,
      "num_input_tokens_seen": 163082505,
      "step": 7543,
      "time_per_iteration": 2.6712214946746826
    },
    {
      "auxiliary_loss_clip": 0.0115382,
      "auxiliary_loss_mlp": 0.01028695,
      "balance_loss_clip": 1.04253542,
      "balance_loss_mlp": 1.02116072,
      "epoch": 0.9071123669813023,
      "flos": 25374731500800.0,
      "grad_norm": 1.6089270071631285,
      "language_loss": 0.75459635,
      "learning_rate": 8.973118106239241e-08,
      "loss": 0.77642149,
      "num_input_tokens_seen": 163105110,
      "step": 7544,
      "time_per_iteration": 2.68927001953125
    },
    {
      "auxiliary_loss_clip": 0.01118075,
      "auxiliary_loss_mlp": 0.01028394,
      "balance_loss_clip": 1.03522444,
      "balance_loss_mlp": 1.02077639,
      "epoch": 0.9072326098719413,
      "flos": 26725798690560.0,
      "grad_norm": 1.9033081949013955,
      "language_loss": 0.95059311,
      "learning_rate": 8.95006158363656e-08,
      "loss": 0.97205782,
      "num_input_tokens_seen": 163125295,
      "step": 7545,
      "time_per_iteration": 3.7863805294036865
    },
    {
      "auxiliary_loss_clip": 0.01159743,
      "auxiliary_loss_mlp": 0.01032363,
      "balance_loss_clip": 1.04635549,
      "balance_loss_mlp": 1.02489138,
      "epoch": 0.9073528527625804,
      "flos": 23878800760320.0,
      "grad_norm": 2.0635884628756433,
      "language_loss": 0.77308202,
      "learning_rate": 8.9270340431576e-08,
      "loss": 0.79500306,
      "num_input_tokens_seen": 163144385,
      "step": 7546,
      "time_per_iteration": 2.6848690509796143
    },
    {
      "auxiliary_loss_clip": 0.01159838,
      "auxiliary_loss_mlp": 0.01026836,
      "balance_loss_clip": 1.04358029,
      "balance_loss_mlp": 1.01959991,
      "epoch": 0.9074730956532195,
      "flos": 37852144767360.0,
      "grad_norm": 2.474742569843534,
      "language_loss": 0.73744112,
      "learning_rate": 8.904035488295658e-08,
      "loss": 0.75930786,
      "num_input_tokens_seen": 163163885,
      "step": 7547,
      "time_per_iteration": 2.756269693374634
    },
    {
      "auxiliary_loss_clip": 0.01056599,
      "auxiliary_loss_mlp": 0.00876126,
      "balance_loss_clip": 1.00750637,
      "balance_loss_mlp": 1.00096405,
      "epoch": 0.9075933385438586,
      "flos": 65173307385600.0,
      "grad_norm": 0.6632935182534057,
      "language_loss": 0.53254789,
      "learning_rate": 8.881065922539632e-08,
      "loss": 0.55187517,
      "num_input_tokens_seen": 163224325,
      "step": 7548,
      "time_per_iteration": 3.140338659286499
    },
    {
      "auxiliary_loss_clip": 0.01136645,
      "auxiliary_loss_mlp": 0.01027666,
      "balance_loss_clip": 1.04379439,
      "balance_loss_mlp": 1.02025092,
      "epoch": 0.9077135814344977,
      "flos": 19931571290880.0,
      "grad_norm": 1.7806673538328388,
      "language_loss": 0.73571575,
      "learning_rate": 8.85812534937389e-08,
      "loss": 0.75735885,
      "num_input_tokens_seen": 163242425,
      "step": 7549,
      "time_per_iteration": 2.698885917663574
    },
    {
      "auxiliary_loss_clip": 0.01168299,
      "auxiliary_loss_mlp": 0.01029774,
      "balance_loss_clip": 1.0483712,
      "balance_loss_mlp": 1.02193594,
      "epoch": 0.9078338243251368,
      "flos": 17529650784000.0,
      "grad_norm": 3.932133916580272,
      "language_loss": 0.67635876,
      "learning_rate": 8.835213772278583e-08,
      "loss": 0.69833946,
      "num_input_tokens_seen": 163259280,
      "step": 7550,
      "time_per_iteration": 2.6795456409454346
    },
    {
      "auxiliary_loss_clip": 0.01134582,
      "auxiliary_loss_mlp": 0.0102481,
      "balance_loss_clip": 1.04557872,
      "balance_loss_mlp": 1.01750839,
      "epoch": 0.9079540672157759,
      "flos": 28803410277120.0,
      "grad_norm": 1.9822875109726148,
      "language_loss": 0.79040015,
      "learning_rate": 8.812331194729373e-08,
      "loss": 0.81199408,
      "num_input_tokens_seen": 163278925,
      "step": 7551,
      "time_per_iteration": 2.852998733520508
    },
    {
      "auxiliary_loss_clip": 0.01173545,
      "auxiliary_loss_mlp": 0.01026469,
      "balance_loss_clip": 1.04972589,
      "balance_loss_mlp": 1.0188576,
      "epoch": 0.9080743101064149,
      "flos": 23513840622720.0,
      "grad_norm": 6.106347203615613,
      "language_loss": 0.71787882,
      "learning_rate": 8.789477620197461e-08,
      "loss": 0.73987889,
      "num_input_tokens_seen": 163298450,
      "step": 7552,
      "time_per_iteration": 2.566396951675415
    },
    {
      "auxiliary_loss_clip": 0.01149226,
      "auxiliary_loss_mlp": 0.01034267,
      "balance_loss_clip": 1.04388559,
      "balance_loss_mlp": 1.02635694,
      "epoch": 0.9081945529970541,
      "flos": 22778102344320.0,
      "grad_norm": 2.5300759603011906,
      "language_loss": 0.78870785,
      "learning_rate": 8.766653052149831e-08,
      "loss": 0.81054282,
      "num_input_tokens_seen": 163313635,
      "step": 7553,
      "time_per_iteration": 2.6908328533172607
    },
    {
      "auxiliary_loss_clip": 0.01151297,
      "auxiliary_loss_mlp": 0.0102452,
      "balance_loss_clip": 1.04559696,
      "balance_loss_mlp": 1.01699758,
      "epoch": 0.9083147958876931,
      "flos": 18873714821760.0,
      "grad_norm": 2.0853046583888233,
      "language_loss": 0.74436086,
      "learning_rate": 8.743857494048823e-08,
      "loss": 0.766119,
      "num_input_tokens_seen": 163330450,
      "step": 7554,
      "time_per_iteration": 2.623593330383301
    },
    {
      "auxiliary_loss_clip": 0.01141454,
      "auxiliary_loss_mlp": 0.01027686,
      "balance_loss_clip": 1.04364562,
      "balance_loss_mlp": 1.02045035,
      "epoch": 0.9084350387783322,
      "flos": 18909374048640.0,
      "grad_norm": 2.211933599603802,
      "language_loss": 0.62826532,
      "learning_rate": 8.721090949352605e-08,
      "loss": 0.6499567,
      "num_input_tokens_seen": 163346690,
      "step": 7555,
      "time_per_iteration": 2.760225296020508
    },
    {
      "auxiliary_loss_clip": 0.0117113,
      "auxiliary_loss_mlp": 0.01028645,
      "balance_loss_clip": 1.04788554,
      "balance_loss_mlp": 1.02071178,
      "epoch": 0.9085552816689714,
      "flos": 20595488325120.0,
      "grad_norm": 3.241088448589252,
      "language_loss": 0.72762078,
      "learning_rate": 8.698353421514793e-08,
      "loss": 0.74961853,
      "num_input_tokens_seen": 163365065,
      "step": 7556,
      "time_per_iteration": 2.608487367630005
    },
    {
      "auxiliary_loss_clip": 0.01159688,
      "auxiliary_loss_mlp": 0.01026883,
      "balance_loss_clip": 1.04775262,
      "balance_loss_mlp": 1.01967692,
      "epoch": 0.9086755245596104,
      "flos": 18113163223680.0,
      "grad_norm": 2.2234677485815686,
      "language_loss": 0.80797607,
      "learning_rate": 8.67564491398467e-08,
      "loss": 0.82984179,
      "num_input_tokens_seen": 163382070,
      "step": 7557,
      "time_per_iteration": 2.6262879371643066
    },
    {
      "auxiliary_loss_clip": 0.01165736,
      "auxiliary_loss_mlp": 0.01024386,
      "balance_loss_clip": 1.04743445,
      "balance_loss_mlp": 1.01652443,
      "epoch": 0.9087957674502495,
      "flos": 19129793857920.0,
      "grad_norm": 4.0201718835481275,
      "language_loss": 0.73786962,
      "learning_rate": 8.652965430207104e-08,
      "loss": 0.75977087,
      "num_input_tokens_seen": 163399975,
      "step": 7558,
      "time_per_iteration": 2.5924999713897705
    },
    {
      "auxiliary_loss_clip": 0.0116322,
      "auxiliary_loss_mlp": 0.01029696,
      "balance_loss_clip": 1.04545403,
      "balance_loss_mlp": 1.02183425,
      "epoch": 0.9089160103408886,
      "flos": 18109930999680.0,
      "grad_norm": 1.8584866581645227,
      "language_loss": 0.65376765,
      "learning_rate": 8.630314973622521e-08,
      "loss": 0.67569685,
      "num_input_tokens_seen": 163417520,
      "step": 7559,
      "time_per_iteration": 2.657567024230957
    },
    {
      "auxiliary_loss_clip": 0.01156807,
      "auxiliary_loss_mlp": 0.01030833,
      "balance_loss_clip": 1.0471648,
      "balance_loss_mlp": 1.02357626,
      "epoch": 0.9090362532315277,
      "flos": 33364855336320.0,
      "grad_norm": 1.9222379463172587,
      "language_loss": 0.70763409,
      "learning_rate": 8.607693547666995e-08,
      "loss": 0.72951043,
      "num_input_tokens_seen": 163440060,
      "step": 7560,
      "time_per_iteration": 2.7208993434906006
    },
    {
      "auxiliary_loss_clip": 0.01047323,
      "auxiliary_loss_mlp": 0.01000842,
      "balance_loss_clip": 1.00868273,
      "balance_loss_mlp": 0.99972105,
      "epoch": 0.9091564961221668,
      "flos": 71480585082240.0,
      "grad_norm": 0.8850663792238053,
      "language_loss": 0.57865429,
      "learning_rate": 8.585101155772201e-08,
      "loss": 0.59913588,
      "num_input_tokens_seen": 163502180,
      "step": 7561,
      "time_per_iteration": 4.278998374938965
    },
    {
      "auxiliary_loss_clip": 0.01142615,
      "auxiliary_loss_mlp": 0.01025493,
      "balance_loss_clip": 1.03986633,
      "balance_loss_mlp": 1.01768517,
      "epoch": 0.9092767390128058,
      "flos": 24712574232960.0,
      "grad_norm": 1.7986172193834753,
      "language_loss": 0.68619168,
      "learning_rate": 8.562537801365377e-08,
      "loss": 0.70787275,
      "num_input_tokens_seen": 163521915,
      "step": 7562,
      "time_per_iteration": 3.688687801361084
    },
    {
      "auxiliary_loss_clip": 0.0117168,
      "auxiliary_loss_mlp": 0.01030114,
      "balance_loss_clip": 1.04672801,
      "balance_loss_mlp": 1.02177548,
      "epoch": 0.909396981903445,
      "flos": 23586487879680.0,
      "grad_norm": 2.4982237378688317,
      "language_loss": 0.69691753,
      "learning_rate": 8.540003487869362e-08,
      "loss": 0.71893549,
      "num_input_tokens_seen": 163543585,
      "step": 7563,
      "time_per_iteration": 3.5779385566711426
    },
    {
      "auxiliary_loss_clip": 0.01130551,
      "auxiliary_loss_mlp": 0.01020802,
      "balance_loss_clip": 1.0422039,
      "balance_loss_mlp": 1.01348853,
      "epoch": 0.909517224794084,
      "flos": 23404169422080.0,
      "grad_norm": 1.7418312769815658,
      "language_loss": 0.79767692,
      "learning_rate": 8.517498218702557e-08,
      "loss": 0.8191905,
      "num_input_tokens_seen": 163561515,
      "step": 7564,
      "time_per_iteration": 2.722858190536499
    },
    {
      "auxiliary_loss_clip": 0.01136732,
      "auxiliary_loss_mlp": 0.01027664,
      "balance_loss_clip": 1.04097474,
      "balance_loss_mlp": 1.02052367,
      "epoch": 0.9096374676847231,
      "flos": 19208618254080.0,
      "grad_norm": 1.7208296219942392,
      "language_loss": 0.69595063,
      "learning_rate": 8.49502199727905e-08,
      "loss": 0.71759462,
      "num_input_tokens_seen": 163579540,
      "step": 7565,
      "time_per_iteration": 2.7716736793518066
    },
    {
      "auxiliary_loss_clip": 0.01153506,
      "auxiliary_loss_mlp": 0.01028564,
      "balance_loss_clip": 1.04136646,
      "balance_loss_mlp": 1.021209,
      "epoch": 0.9097577105753623,
      "flos": 33292495388160.0,
      "grad_norm": 2.217832493930768,
      "language_loss": 0.65830421,
      "learning_rate": 8.472574827008428e-08,
      "loss": 0.68012488,
      "num_input_tokens_seen": 163600425,
      "step": 7566,
      "time_per_iteration": 2.7918448448181152
    },
    {
      "auxiliary_loss_clip": 0.01160836,
      "auxiliary_loss_mlp": 0.01020515,
      "balance_loss_clip": 1.04527402,
      "balance_loss_mlp": 1.01274812,
      "epoch": 0.9098779534660013,
      "flos": 21906443001600.0,
      "grad_norm": 1.570340486590372,
      "language_loss": 0.83754826,
      "learning_rate": 8.450156711295942e-08,
      "loss": 0.85936177,
      "num_input_tokens_seen": 163620595,
      "step": 7567,
      "time_per_iteration": 2.6645357608795166
    },
    {
      "auxiliary_loss_clip": 0.01149783,
      "auxiliary_loss_mlp": 0.01026633,
      "balance_loss_clip": 1.04722321,
      "balance_loss_mlp": 1.01917064,
      "epoch": 0.9099981963566404,
      "flos": 25730354102400.0,
      "grad_norm": 2.0517940536724115,
      "language_loss": 0.86546201,
      "learning_rate": 8.427767653542383e-08,
      "loss": 0.88722616,
      "num_input_tokens_seen": 163635765,
      "step": 7568,
      "time_per_iteration": 2.6791446208953857
    },
    {
      "auxiliary_loss_clip": 0.01127272,
      "auxiliary_loss_mlp": 0.01026227,
      "balance_loss_clip": 1.04149151,
      "balance_loss_mlp": 1.01878524,
      "epoch": 0.9101184392472795,
      "flos": 21069437304960.0,
      "grad_norm": 2.177551316202894,
      "language_loss": 0.69798082,
      "learning_rate": 8.405407657144125e-08,
      "loss": 0.7195158,
      "num_input_tokens_seen": 163654925,
      "step": 7569,
      "time_per_iteration": 2.764752149581909
    },
    {
      "auxiliary_loss_clip": 0.0114485,
      "auxiliary_loss_mlp": 0.01026725,
      "balance_loss_clip": 1.04294896,
      "balance_loss_mlp": 1.01953673,
      "epoch": 0.9102386821379186,
      "flos": 24752614919040.0,
      "grad_norm": 1.922827919084414,
      "language_loss": 0.72443259,
      "learning_rate": 8.383076725493232e-08,
      "loss": 0.74614835,
      "num_input_tokens_seen": 163672245,
      "step": 7570,
      "time_per_iteration": 2.6780433654785156
    },
    {
      "auxiliary_loss_clip": 0.01160569,
      "auxiliary_loss_mlp": 0.01026739,
      "balance_loss_clip": 1.04524839,
      "balance_loss_mlp": 1.0197916,
      "epoch": 0.9103589250285576,
      "flos": 22562818179840.0,
      "grad_norm": 2.2125476092790253,
      "language_loss": 0.68138456,
      "learning_rate": 8.360774861977216e-08,
      "loss": 0.70325762,
      "num_input_tokens_seen": 163691365,
      "step": 7571,
      "time_per_iteration": 3.5589728355407715
    },
    {
      "auxiliary_loss_clip": 0.01150821,
      "auxiliary_loss_mlp": 0.01024332,
      "balance_loss_clip": 1.04068255,
      "balance_loss_mlp": 1.01717973,
      "epoch": 0.9104791679191968,
      "flos": 25373474524800.0,
      "grad_norm": 4.594114332146792,
      "language_loss": 0.74623412,
      "learning_rate": 8.338502069979281e-08,
      "loss": 0.76798564,
      "num_input_tokens_seen": 163711675,
      "step": 7572,
      "time_per_iteration": 2.7525267601013184
    },
    {
      "auxiliary_loss_clip": 0.01161373,
      "auxiliary_loss_mlp": 0.01027754,
      "balance_loss_clip": 1.04276085,
      "balance_loss_mlp": 1.01992762,
      "epoch": 0.9105994108098359,
      "flos": 14426681558400.0,
      "grad_norm": 3.040055054133937,
      "language_loss": 0.79072058,
      "learning_rate": 8.316258352878214e-08,
      "loss": 0.81261182,
      "num_input_tokens_seen": 163728095,
      "step": 7573,
      "time_per_iteration": 2.6382546424865723
    },
    {
      "auxiliary_loss_clip": 0.01163007,
      "auxiliary_loss_mlp": 0.0103296,
      "balance_loss_clip": 1.04484594,
      "balance_loss_mlp": 1.02489805,
      "epoch": 0.9107196537004749,
      "flos": 26718292748160.0,
      "grad_norm": 1.8511307003058164,
      "language_loss": 0.7152465,
      "learning_rate": 8.294043714048338e-08,
      "loss": 0.73720616,
      "num_input_tokens_seen": 163747175,
      "step": 7574,
      "time_per_iteration": 2.6768851280212402
    },
    {
      "auxiliary_loss_clip": 0.01050917,
      "auxiliary_loss_mlp": 0.01000772,
      "balance_loss_clip": 1.00677705,
      "balance_loss_mlp": 0.9997763,
      "epoch": 0.9108398965911141,
      "flos": 66532634703360.0,
      "grad_norm": 0.7574336833495983,
      "language_loss": 0.60454077,
      "learning_rate": 8.271858156859624e-08,
      "loss": 0.6250577,
      "num_input_tokens_seen": 163812545,
      "step": 7575,
      "time_per_iteration": 3.310357093811035
    },
    {
      "auxiliary_loss_clip": 0.0117052,
      "auxiliary_loss_mlp": 0.01027235,
      "balance_loss_clip": 1.04890287,
      "balance_loss_mlp": 1.01932549,
      "epoch": 0.9109601394817531,
      "flos": 25411073086080.0,
      "grad_norm": 1.752361913080972,
      "language_loss": 0.74165773,
      "learning_rate": 8.249701684677557e-08,
      "loss": 0.76363528,
      "num_input_tokens_seen": 163833870,
      "step": 7576,
      "time_per_iteration": 2.6249306201934814
    },
    {
      "auxiliary_loss_clip": 0.01163761,
      "auxiliary_loss_mlp": 0.01029575,
      "balance_loss_clip": 1.0498389,
      "balance_loss_mlp": 1.0222851,
      "epoch": 0.9110803823723922,
      "flos": 22747794243840.0,
      "grad_norm": 1.8690983546583437,
      "language_loss": 0.80985862,
      "learning_rate": 8.227574300863294e-08,
      "loss": 0.831792,
      "num_input_tokens_seen": 163854040,
      "step": 7577,
      "time_per_iteration": 2.7706196308135986
    },
    {
      "auxiliary_loss_clip": 0.0115619,
      "auxiliary_loss_mlp": 0.0102634,
      "balance_loss_clip": 1.04677856,
      "balance_loss_mlp": 1.01773596,
      "epoch": 0.9112006252630314,
      "flos": 48469924131840.0,
      "grad_norm": 1.7474485227293581,
      "language_loss": 0.69971466,
      "learning_rate": 8.205476008773548e-08,
      "loss": 0.72153997,
      "num_input_tokens_seen": 163878040,
      "step": 7578,
      "time_per_iteration": 2.9445559978485107
    },
    {
      "auxiliary_loss_clip": 0.01137499,
      "auxiliary_loss_mlp": 0.01023057,
      "balance_loss_clip": 1.04615068,
      "balance_loss_mlp": 1.01524556,
      "epoch": 0.9113208681536704,
      "flos": 30009649829760.0,
      "grad_norm": 1.978464184594408,
      "language_loss": 0.82405496,
      "learning_rate": 8.183406811760596e-08,
      "loss": 0.84566051,
      "num_input_tokens_seen": 163897770,
      "step": 7579,
      "time_per_iteration": 2.8097264766693115
    },
    {
      "auxiliary_loss_clip": 0.01127789,
      "auxiliary_loss_mlp": 0.01030846,
      "balance_loss_clip": 1.04084349,
      "balance_loss_mlp": 1.02297795,
      "epoch": 0.9114411110443095,
      "flos": 25594971742080.0,
      "grad_norm": 1.5423068490791803,
      "language_loss": 0.740053,
      "learning_rate": 8.161366713172313e-08,
      "loss": 0.76163936,
      "num_input_tokens_seen": 163920160,
      "step": 7580,
      "time_per_iteration": 2.8081424236297607
    },
    {
      "auxiliary_loss_clip": 0.0114325,
      "auxiliary_loss_mlp": 0.01023231,
      "balance_loss_clip": 1.04114366,
      "balance_loss_mlp": 1.015324,
      "epoch": 0.9115613539349486,
      "flos": 18399729928320.0,
      "grad_norm": 2.7400780261739444,
      "language_loss": 0.8457818,
      "learning_rate": 8.139355716352137e-08,
      "loss": 0.8674466,
      "num_input_tokens_seen": 163935000,
      "step": 7581,
      "time_per_iteration": 2.7160019874572754
    },
    {
      "auxiliary_loss_clip": 0.01154183,
      "auxiliary_loss_mlp": 0.01026071,
      "balance_loss_clip": 1.04354489,
      "balance_loss_mlp": 1.01832867,
      "epoch": 0.9116815968255877,
      "flos": 21726171619200.0,
      "grad_norm": 1.5161186227820154,
      "language_loss": 0.69894892,
      "learning_rate": 8.117373824639196e-08,
      "loss": 0.7207514,
      "num_input_tokens_seen": 163955265,
      "step": 7582,
      "time_per_iteration": 2.6701090335845947
    },
    {
      "auxiliary_loss_clip": 0.01061538,
      "auxiliary_loss_mlp": 0.01001204,
      "balance_loss_clip": 1.00690722,
      "balance_loss_mlp": 1.00026226,
      "epoch": 0.9118018397162267,
      "flos": 65363526835200.0,
      "grad_norm": 0.7215840669743632,
      "language_loss": 0.59210825,
      "learning_rate": 8.095421041368067e-08,
      "loss": 0.61273563,
      "num_input_tokens_seen": 164014680,
      "step": 7583,
      "time_per_iteration": 3.1497161388397217
    },
    {
      "auxiliary_loss_clip": 0.01149569,
      "auxiliary_loss_mlp": 0.00886424,
      "balance_loss_clip": 1.0465492,
      "balance_loss_mlp": 1.00057244,
      "epoch": 0.9119220826068659,
      "flos": 20922885815040.0,
      "grad_norm": 2.9652475069407793,
      "language_loss": 0.7050252,
      "learning_rate": 8.073497369868999e-08,
      "loss": 0.72538507,
      "num_input_tokens_seen": 164033140,
      "step": 7584,
      "time_per_iteration": 2.6845762729644775
    },
    {
      "auxiliary_loss_clip": 0.0115852,
      "auxiliary_loss_mlp": 0.01021084,
      "balance_loss_clip": 1.04480505,
      "balance_loss_mlp": 1.01349652,
      "epoch": 0.912042325497505,
      "flos": 28366449327360.0,
      "grad_norm": 1.683663200040085,
      "language_loss": 0.7554009,
      "learning_rate": 8.051602813467772e-08,
      "loss": 0.77719694,
      "num_input_tokens_seen": 164054995,
      "step": 7585,
      "time_per_iteration": 2.7570886611938477
    },
    {
      "auxiliary_loss_clip": 0.01163558,
      "auxiliary_loss_mlp": 0.01025607,
      "balance_loss_clip": 1.04659271,
      "balance_loss_mlp": 1.01851356,
      "epoch": 0.912162568388144,
      "flos": 17566782468480.0,
      "grad_norm": 1.826717551996821,
      "language_loss": 0.71427572,
      "learning_rate": 8.029737375485756e-08,
      "loss": 0.73616743,
      "num_input_tokens_seen": 164074225,
      "step": 7586,
      "time_per_iteration": 2.579766035079956
    },
    {
      "auxiliary_loss_clip": 0.01171319,
      "auxiliary_loss_mlp": 0.01025307,
      "balance_loss_clip": 1.04786205,
      "balance_loss_mlp": 1.01779354,
      "epoch": 0.9122828112787832,
      "flos": 19827897661440.0,
      "grad_norm": 1.7828879976861354,
      "language_loss": 0.72485769,
      "learning_rate": 8.007901059239986e-08,
      "loss": 0.74682391,
      "num_input_tokens_seen": 164093505,
      "step": 7587,
      "time_per_iteration": 3.478454351425171
    },
    {
      "auxiliary_loss_clip": 0.01150906,
      "auxiliary_loss_mlp": 0.01026045,
      "balance_loss_clip": 1.04346633,
      "balance_loss_mlp": 1.01887512,
      "epoch": 0.9124030541694222,
      "flos": 20813789232000.0,
      "grad_norm": 1.9083539405988263,
      "language_loss": 0.7987029,
      "learning_rate": 7.986093868042964e-08,
      "loss": 0.82047242,
      "num_input_tokens_seen": 164113750,
      "step": 7588,
      "time_per_iteration": 3.5394091606140137
    },
    {
      "auxiliary_loss_clip": 0.01157623,
      "auxiliary_loss_mlp": 0.01022541,
      "balance_loss_clip": 1.04476726,
      "balance_loss_mlp": 1.01577568,
      "epoch": 0.9125232970600613,
      "flos": 25192305302400.0,
      "grad_norm": 2.33781991679546,
      "language_loss": 0.67666519,
      "learning_rate": 7.964315805202826e-08,
      "loss": 0.69846678,
      "num_input_tokens_seen": 164134330,
      "step": 7589,
      "time_per_iteration": 3.585829257965088
    },
    {
      "auxiliary_loss_clip": 0.01150174,
      "auxiliary_loss_mlp": 0.01026145,
      "balance_loss_clip": 1.04409003,
      "balance_loss_mlp": 1.0187304,
      "epoch": 0.9126435399507005,
      "flos": 19719591177600.0,
      "grad_norm": 1.9098441158160604,
      "language_loss": 0.73186445,
      "learning_rate": 7.942566874023304e-08,
      "loss": 0.75362772,
      "num_input_tokens_seen": 164153515,
      "step": 7590,
      "time_per_iteration": 2.6224396228790283
    },
    {
      "auxiliary_loss_clip": 0.01148149,
      "auxiliary_loss_mlp": 0.01026038,
      "balance_loss_clip": 1.04182625,
      "balance_loss_mlp": 1.01780105,
      "epoch": 0.9127637828413395,
      "flos": 19573614305280.0,
      "grad_norm": 2.980657002966698,
      "language_loss": 0.69873607,
      "learning_rate": 7.920847077803649e-08,
      "loss": 0.72047794,
      "num_input_tokens_seen": 164171305,
      "step": 7591,
      "time_per_iteration": 2.7168068885803223
    },
    {
      "auxiliary_loss_clip": 0.01119623,
      "auxiliary_loss_mlp": 0.01031944,
      "balance_loss_clip": 1.03632689,
      "balance_loss_mlp": 1.02446043,
      "epoch": 0.9128840257319786,
      "flos": 20230635928320.0,
      "grad_norm": 8.09424577876427,
      "language_loss": 0.82259798,
      "learning_rate": 7.899156419838826e-08,
      "loss": 0.84411371,
      "num_input_tokens_seen": 164190275,
      "step": 7592,
      "time_per_iteration": 2.744112253189087
    },
    {
      "auxiliary_loss_clip": 0.01139217,
      "auxiliary_loss_mlp": 0.01026832,
      "balance_loss_clip": 1.04264712,
      "balance_loss_mlp": 1.01840985,
      "epoch": 0.9130042686226177,
      "flos": 24858658846080.0,
      "grad_norm": 5.722525037806571,
      "language_loss": 0.65576977,
      "learning_rate": 7.87749490341918e-08,
      "loss": 0.67743027,
      "num_input_tokens_seen": 164210550,
      "step": 7593,
      "time_per_iteration": 2.777050495147705
    },
    {
      "auxiliary_loss_clip": 0.01173037,
      "auxiliary_loss_mlp": 0.01032428,
      "balance_loss_clip": 1.04878855,
      "balance_loss_mlp": 1.02374983,
      "epoch": 0.9131245115132568,
      "flos": 23581747284480.0,
      "grad_norm": 2.084110164588574,
      "language_loss": 0.832623,
      "learning_rate": 7.855862531830836e-08,
      "loss": 0.85467768,
      "num_input_tokens_seen": 164226660,
      "step": 7594,
      "time_per_iteration": 2.624061107635498
    },
    {
      "auxiliary_loss_clip": 0.01158668,
      "auxiliary_loss_mlp": 0.01022389,
      "balance_loss_clip": 1.04454684,
      "balance_loss_mlp": 1.01490545,
      "epoch": 0.9132447544038959,
      "flos": 19931607204480.0,
      "grad_norm": 1.6322782503798754,
      "language_loss": 0.72869915,
      "learning_rate": 7.834259308355373e-08,
      "loss": 0.75050974,
      "num_input_tokens_seen": 164245425,
      "step": 7595,
      "time_per_iteration": 2.673510789871216
    },
    {
      "auxiliary_loss_clip": 0.01105156,
      "auxiliary_loss_mlp": 0.01023264,
      "balance_loss_clip": 1.03772283,
      "balance_loss_mlp": 1.01550972,
      "epoch": 0.9133649972945349,
      "flos": 21981747864960.0,
      "grad_norm": 2.0418264271471673,
      "language_loss": 0.74962986,
      "learning_rate": 7.812685236269989e-08,
      "loss": 0.77091408,
      "num_input_tokens_seen": 164264085,
      "step": 7596,
      "time_per_iteration": 2.7802960872650146
    },
    {
      "auxiliary_loss_clip": 0.01038889,
      "auxiliary_loss_mlp": 0.0100159,
      "balance_loss_clip": 1.00564754,
      "balance_loss_mlp": 1.0006249,
      "epoch": 0.9134852401851741,
      "flos": 71240523511680.0,
      "grad_norm": 0.7891798215355942,
      "language_loss": 0.58623546,
      "learning_rate": 7.791140318847445e-08,
      "loss": 0.60664028,
      "num_input_tokens_seen": 164322220,
      "step": 7597,
      "time_per_iteration": 4.1145524978637695
    },
    {
      "auxiliary_loss_clip": 0.01146541,
      "auxiliary_loss_mlp": 0.01026489,
      "balance_loss_clip": 1.04680586,
      "balance_loss_mlp": 1.01962304,
      "epoch": 0.9136054830758131,
      "flos": 23626923615360.0,
      "grad_norm": 1.458531239006907,
      "language_loss": 0.804667,
      "learning_rate": 7.769624559356081e-08,
      "loss": 0.8263973,
      "num_input_tokens_seen": 164345615,
      "step": 7598,
      "time_per_iteration": 2.8206024169921875
    },
    {
      "auxiliary_loss_clip": 0.01158639,
      "auxiliary_loss_mlp": 0.01025397,
      "balance_loss_clip": 1.04485345,
      "balance_loss_mlp": 1.01755309,
      "epoch": 0.9137257259664522,
      "flos": 23438858981760.0,
      "grad_norm": 2.437098077041582,
      "language_loss": 0.74841726,
      "learning_rate": 7.748137961059842e-08,
      "loss": 0.77025759,
      "num_input_tokens_seen": 164359595,
      "step": 7599,
      "time_per_iteration": 2.6700453758239746
    },
    {
      "auxiliary_loss_clip": 0.0116722,
      "auxiliary_loss_mlp": 0.01022666,
      "balance_loss_clip": 1.04686153,
      "balance_loss_mlp": 1.01538253,
      "epoch": 0.9138459688570914,
      "flos": 19127854523520.0,
      "grad_norm": 2.318192577570508,
      "language_loss": 0.65800548,
      "learning_rate": 7.726680527218211e-08,
      "loss": 0.67990434,
      "num_input_tokens_seen": 164376635,
      "step": 7600,
      "time_per_iteration": 2.585968255996704
    },
    {
      "auxiliary_loss_clip": 0.0117166,
      "auxiliary_loss_mlp": 0.0102646,
      "balance_loss_clip": 1.04674327,
      "balance_loss_mlp": 1.01892018,
      "epoch": 0.9139662117477304,
      "flos": 46281240714240.0,
      "grad_norm": 1.6915569039665224,
      "language_loss": 0.75658584,
      "learning_rate": 7.70525226108627e-08,
      "loss": 0.77856702,
      "num_input_tokens_seen": 164400305,
      "step": 7601,
      "time_per_iteration": 2.807948350906372
    },
    {
      "auxiliary_loss_clip": 0.01163849,
      "auxiliary_loss_mlp": 0.01026276,
      "balance_loss_clip": 1.0491426,
      "balance_loss_mlp": 1.01957369,
      "epoch": 0.9140864546383695,
      "flos": 22273198819200.0,
      "grad_norm": 1.7783019870252517,
      "language_loss": 0.79752266,
      "learning_rate": 7.683853165914666e-08,
      "loss": 0.81942391,
      "num_input_tokens_seen": 164418075,
      "step": 7602,
      "time_per_iteration": 2.6561667919158936
    },
    {
      "auxiliary_loss_clip": 0.01134614,
      "auxiliary_loss_mlp": 0.01022044,
      "balance_loss_clip": 1.04313409,
      "balance_loss_mlp": 1.01447976,
      "epoch": 0.9142066975290086,
      "flos": 17530009920000.0,
      "grad_norm": 3.8156697435353863,
      "language_loss": 0.77324283,
      "learning_rate": 7.662483244949602e-08,
      "loss": 0.79480934,
      "num_input_tokens_seen": 164435335,
      "step": 7603,
      "time_per_iteration": 2.8184473514556885
    },
    {
      "auxiliary_loss_clip": 0.01136099,
      "auxiliary_loss_mlp": 0.01027898,
      "balance_loss_clip": 1.04485619,
      "balance_loss_mlp": 1.02111256,
      "epoch": 0.9143269404196477,
      "flos": 17712148809600.0,
      "grad_norm": 2.236940269549411,
      "language_loss": 0.80283123,
      "learning_rate": 7.641142501432951e-08,
      "loss": 0.82447118,
      "num_input_tokens_seen": 164451530,
      "step": 7604,
      "time_per_iteration": 2.678400993347168
    },
    {
      "auxiliary_loss_clip": 0.01145067,
      "auxiliary_loss_mlp": 0.01023725,
      "balance_loss_clip": 1.04220724,
      "balance_loss_mlp": 1.01651263,
      "epoch": 0.9144471833102867,
      "flos": 33323414019840.0,
      "grad_norm": 1.6034375752927001,
      "language_loss": 0.73888141,
      "learning_rate": 7.619830938602013e-08,
      "loss": 0.76056933,
      "num_input_tokens_seen": 164472755,
      "step": 7605,
      "time_per_iteration": 2.829152822494507
    },
    {
      "auxiliary_loss_clip": 0.01153943,
      "auxiliary_loss_mlp": 0.01030687,
      "balance_loss_clip": 1.04402161,
      "balance_loss_mlp": 1.02295637,
      "epoch": 0.9145674262009259,
      "flos": 21068970428160.0,
      "grad_norm": 1.9718486614339057,
      "language_loss": 0.82334983,
      "learning_rate": 7.598548559689777e-08,
      "loss": 0.84519619,
      "num_input_tokens_seen": 164491155,
      "step": 7606,
      "time_per_iteration": 2.7229275703430176
    },
    {
      "auxiliary_loss_clip": 0.01133787,
      "auxiliary_loss_mlp": 0.01026762,
      "balance_loss_clip": 1.04026628,
      "balance_loss_mlp": 1.01932359,
      "epoch": 0.914687669091565,
      "flos": 16800269212800.0,
      "grad_norm": 2.353179464788814,
      "language_loss": 0.81040186,
      "learning_rate": 7.577295367924751e-08,
      "loss": 0.83200735,
      "num_input_tokens_seen": 164507555,
      "step": 7607,
      "time_per_iteration": 2.710683584213257
    },
    {
      "auxiliary_loss_clip": 0.0115792,
      "auxiliary_loss_mlp": 0.01027772,
      "balance_loss_clip": 1.04633355,
      "balance_loss_mlp": 1.01988661,
      "epoch": 0.914807911982204,
      "flos": 25773627012480.0,
      "grad_norm": 2.9205089434102205,
      "language_loss": 0.82166851,
      "learning_rate": 7.556071366531002e-08,
      "loss": 0.84352547,
      "num_input_tokens_seen": 164528525,
      "step": 7608,
      "time_per_iteration": 2.6889069080352783
    },
    {
      "auxiliary_loss_clip": 0.01162175,
      "auxiliary_loss_mlp": 0.0103014,
      "balance_loss_clip": 1.04874229,
      "balance_loss_mlp": 1.02149105,
      "epoch": 0.9149281548728432,
      "flos": 19208043636480.0,
      "grad_norm": 2.1302514655885534,
      "language_loss": 0.79375589,
      "learning_rate": 7.53487655872822e-08,
      "loss": 0.81567907,
      "num_input_tokens_seen": 164547695,
      "step": 7609,
      "time_per_iteration": 2.6573526859283447
    },
    {
      "auxiliary_loss_clip": 0.01134269,
      "auxiliary_loss_mlp": 0.01024535,
      "balance_loss_clip": 1.03982306,
      "balance_loss_mlp": 1.01717997,
      "epoch": 0.9150483977634822,
      "flos": 26870554500480.0,
      "grad_norm": 1.7710321187480116,
      "language_loss": 0.7388013,
      "learning_rate": 7.513710947731656e-08,
      "loss": 0.76038933,
      "num_input_tokens_seen": 164568905,
      "step": 7610,
      "time_per_iteration": 2.755904197692871
    },
    {
      "auxiliary_loss_clip": 0.01143515,
      "auxiliary_loss_mlp": 0.01026382,
      "balance_loss_clip": 1.04342711,
      "balance_loss_mlp": 1.01934004,
      "epoch": 0.9151686406541213,
      "flos": 21908956953600.0,
      "grad_norm": 1.6796445816312522,
      "language_loss": 0.85068107,
      "learning_rate": 7.492574536752095e-08,
      "loss": 0.87238014,
      "num_input_tokens_seen": 164588895,
      "step": 7611,
      "time_per_iteration": 2.6880197525024414
    },
    {
      "auxiliary_loss_clip": 0.01156809,
      "auxiliary_loss_mlp": 0.01031117,
      "balance_loss_clip": 1.04618239,
      "balance_loss_mlp": 1.02333236,
      "epoch": 0.9152888835447605,
      "flos": 27308556944640.0,
      "grad_norm": 3.8395049545171327,
      "language_loss": 0.7853176,
      "learning_rate": 7.471467328995907e-08,
      "loss": 0.80719686,
      "num_input_tokens_seen": 164607705,
      "step": 7612,
      "time_per_iteration": 2.662102460861206
    },
    {
      "auxiliary_loss_clip": 0.01111069,
      "auxiliary_loss_mlp": 0.01023445,
      "balance_loss_clip": 1.0373491,
      "balance_loss_mlp": 1.0159831,
      "epoch": 0.9154091264353995,
      "flos": 13370728510080.0,
      "grad_norm": 2.680021178592632,
      "language_loss": 0.60738993,
      "learning_rate": 7.450389327665018e-08,
      "loss": 0.62873513,
      "num_input_tokens_seen": 164625540,
      "step": 7613,
      "time_per_iteration": 3.984562397003174
    },
    {
      "auxiliary_loss_clip": 0.01142051,
      "auxiliary_loss_mlp": 0.01029696,
      "balance_loss_clip": 1.04589093,
      "balance_loss_mlp": 1.02113628,
      "epoch": 0.9155293693260386,
      "flos": 20193037367040.0,
      "grad_norm": 2.5426400676429455,
      "language_loss": 0.67736739,
      "learning_rate": 7.429340535957029e-08,
      "loss": 0.69908488,
      "num_input_tokens_seen": 164640735,
      "step": 7614,
      "time_per_iteration": 4.178683757781982
    },
    {
      "auxiliary_loss_clip": 0.01155067,
      "auxiliary_loss_mlp": 0.01030948,
      "balance_loss_clip": 1.04558969,
      "balance_loss_mlp": 1.0231334,
      "epoch": 0.9156496122166777,
      "flos": 19354990176000.0,
      "grad_norm": 7.930138349948227,
      "language_loss": 0.70657754,
      "learning_rate": 7.40832095706494e-08,
      "loss": 0.72843778,
      "num_input_tokens_seen": 164657430,
      "step": 7615,
      "time_per_iteration": 3.820554494857788
    },
    {
      "auxiliary_loss_clip": 0.01149655,
      "auxiliary_loss_mlp": 0.01026832,
      "balance_loss_clip": 1.04473376,
      "balance_loss_mlp": 1.01904202,
      "epoch": 0.9157698551073168,
      "flos": 21107287261440.0,
      "grad_norm": 3.107944158543451,
      "language_loss": 0.80298537,
      "learning_rate": 7.387330594177443e-08,
      "loss": 0.82475024,
      "num_input_tokens_seen": 164679505,
      "step": 7616,
      "time_per_iteration": 2.77846360206604
    },
    {
      "auxiliary_loss_clip": 0.01134684,
      "auxiliary_loss_mlp": 0.01025776,
      "balance_loss_clip": 1.04219675,
      "balance_loss_mlp": 1.01828349,
      "epoch": 0.9158900979979558,
      "flos": 25193167228800.0,
      "grad_norm": 2.287527024293607,
      "language_loss": 0.79434347,
      "learning_rate": 7.366369450478749e-08,
      "loss": 0.81594801,
      "num_input_tokens_seen": 164700615,
      "step": 7617,
      "time_per_iteration": 2.774031162261963
    },
    {
      "auxiliary_loss_clip": 0.01135363,
      "auxiliary_loss_mlp": 0.01028834,
      "balance_loss_clip": 1.04219723,
      "balance_loss_mlp": 1.02138996,
      "epoch": 0.916010340888595,
      "flos": 30146648302080.0,
      "grad_norm": 1.8366729933113446,
      "language_loss": 0.66335225,
      "learning_rate": 7.345437529148646e-08,
      "loss": 0.68499428,
      "num_input_tokens_seen": 164719625,
      "step": 7618,
      "time_per_iteration": 2.7769877910614014
    },
    {
      "auxiliary_loss_clip": 0.0114359,
      "auxiliary_loss_mlp": 0.01025093,
      "balance_loss_clip": 1.04350162,
      "balance_loss_mlp": 1.01703739,
      "epoch": 0.9161305837792341,
      "flos": 17091827907840.0,
      "grad_norm": 2.7031066400778725,
      "language_loss": 0.7238636,
      "learning_rate": 7.324534833362483e-08,
      "loss": 0.74555045,
      "num_input_tokens_seen": 164737200,
      "step": 7619,
      "time_per_iteration": 2.718547821044922
    },
    {
      "auxiliary_loss_clip": 0.01149019,
      "auxiliary_loss_mlp": 0.01027497,
      "balance_loss_clip": 1.04407549,
      "balance_loss_mlp": 1.02004015,
      "epoch": 0.9162508266698731,
      "flos": 22893699288960.0,
      "grad_norm": 2.9841038143723586,
      "language_loss": 0.68779874,
      "learning_rate": 7.303661366291192e-08,
      "loss": 0.70956385,
      "num_input_tokens_seen": 164757870,
      "step": 7620,
      "time_per_iteration": 2.8713324069976807
    },
    {
      "auxiliary_loss_clip": 0.01132469,
      "auxiliary_loss_mlp": 0.01027649,
      "balance_loss_clip": 1.0429318,
      "balance_loss_mlp": 1.01977551,
      "epoch": 0.9163710695605123,
      "flos": 19974808287360.0,
      "grad_norm": 2.108956384630502,
      "language_loss": 0.81762648,
      "learning_rate": 7.28281713110126e-08,
      "loss": 0.83922768,
      "num_input_tokens_seen": 164775945,
      "step": 7621,
      "time_per_iteration": 2.752751111984253
    },
    {
      "auxiliary_loss_clip": 0.01144701,
      "auxiliary_loss_mlp": 0.01027182,
      "balance_loss_clip": 1.04386842,
      "balance_loss_mlp": 1.01986217,
      "epoch": 0.9164913124511513,
      "flos": 22783812606720.0,
      "grad_norm": 1.8726563164794625,
      "language_loss": 0.77353412,
      "learning_rate": 7.262002130954759e-08,
      "loss": 0.79525292,
      "num_input_tokens_seen": 164794400,
      "step": 7622,
      "time_per_iteration": 2.7780725955963135
    },
    {
      "auxiliary_loss_clip": 0.01133666,
      "auxiliary_loss_mlp": 0.01025603,
      "balance_loss_clip": 1.04104483,
      "balance_loss_mlp": 1.01827192,
      "epoch": 0.9166115553417904,
      "flos": 24900854348160.0,
      "grad_norm": 1.923861274956868,
      "language_loss": 0.79110885,
      "learning_rate": 7.241216369009296e-08,
      "loss": 0.81270158,
      "num_input_tokens_seen": 164814585,
      "step": 7623,
      "time_per_iteration": 2.7848143577575684
    },
    {
      "auxiliary_loss_clip": 0.01171897,
      "auxiliary_loss_mlp": 0.0102271,
      "balance_loss_clip": 1.046911,
      "balance_loss_mlp": 1.01541996,
      "epoch": 0.9167317982324296,
      "flos": 25702919089920.0,
      "grad_norm": 3.8961456110386394,
      "language_loss": 0.66612887,
      "learning_rate": 7.220459848418037e-08,
      "loss": 0.68807501,
      "num_input_tokens_seen": 164834660,
      "step": 7624,
      "time_per_iteration": 3.5269179344177246
    },
    {
      "auxiliary_loss_clip": 0.0117028,
      "auxiliary_loss_mlp": 0.01034647,
      "balance_loss_clip": 1.04925799,
      "balance_loss_mlp": 1.02698827,
      "epoch": 0.9168520411230686,
      "flos": 15632813370240.0,
      "grad_norm": 1.8709209413551329,
      "language_loss": 0.79645246,
      "learning_rate": 7.199732572329708e-08,
      "loss": 0.81850171,
      "num_input_tokens_seen": 164852560,
      "step": 7625,
      "time_per_iteration": 2.6154489517211914
    },
    {
      "auxiliary_loss_clip": 0.01142648,
      "auxiliary_loss_mlp": 0.01027984,
      "balance_loss_clip": 1.04199314,
      "balance_loss_mlp": 1.02052748,
      "epoch": 0.9169722840137077,
      "flos": 30258151096320.0,
      "grad_norm": 2.230542705443605,
      "language_loss": 0.76096821,
      "learning_rate": 7.179034543888684e-08,
      "loss": 0.78267455,
      "num_input_tokens_seen": 164872065,
      "step": 7626,
      "time_per_iteration": 2.75181245803833
    },
    {
      "auxiliary_loss_clip": 0.01161945,
      "auxiliary_loss_mlp": 0.01022531,
      "balance_loss_clip": 1.04475713,
      "balance_loss_mlp": 1.01540828,
      "epoch": 0.9170925269043467,
      "flos": 22491643380480.0,
      "grad_norm": 2.265046059086771,
      "language_loss": 0.77244884,
      "learning_rate": 7.158365766234808e-08,
      "loss": 0.79429352,
      "num_input_tokens_seen": 164890915,
      "step": 7627,
      "time_per_iteration": 2.724360466003418
    },
    {
      "auxiliary_loss_clip": 0.01133237,
      "auxiliary_loss_mlp": 0.01027004,
      "balance_loss_clip": 1.03948462,
      "balance_loss_mlp": 1.01952982,
      "epoch": 0.9172127697949859,
      "flos": 22893914770560.0,
      "grad_norm": 1.8238276594654081,
      "language_loss": 0.72547901,
      "learning_rate": 7.137726242503527e-08,
      "loss": 0.7470814,
      "num_input_tokens_seen": 164909835,
      "step": 7628,
      "time_per_iteration": 2.7194299697875977
    },
    {
      "auxiliary_loss_clip": 0.01160848,
      "auxiliary_loss_mlp": 0.00886797,
      "balance_loss_clip": 1.04778099,
      "balance_loss_mlp": 1.00059319,
      "epoch": 0.917333012685625,
      "flos": 17451867882240.0,
      "grad_norm": 2.6294756310314242,
      "language_loss": 0.78304577,
      "learning_rate": 7.11711597582585e-08,
      "loss": 0.80352223,
      "num_input_tokens_seen": 164927195,
      "step": 7629,
      "time_per_iteration": 2.6094675064086914
    },
    {
      "auxiliary_loss_clip": 0.01141657,
      "auxiliary_loss_mlp": 0.01022048,
      "balance_loss_clip": 1.03983355,
      "balance_loss_mlp": 1.01501763,
      "epoch": 0.917453255576264,
      "flos": 14318949692160.0,
      "grad_norm": 1.7187687037016732,
      "language_loss": 0.8012315,
      "learning_rate": 7.096534969328271e-08,
      "loss": 0.82286859,
      "num_input_tokens_seen": 164944640,
      "step": 7630,
      "time_per_iteration": 2.6761348247528076
    },
    {
      "auxiliary_loss_clip": 0.01153109,
      "auxiliary_loss_mlp": 0.01027882,
      "balance_loss_clip": 1.04234338,
      "balance_loss_mlp": 1.02055025,
      "epoch": 0.9175734984669032,
      "flos": 20741177888640.0,
      "grad_norm": 2.7341110946892195,
      "language_loss": 0.84065741,
      "learning_rate": 7.075983226132987e-08,
      "loss": 0.86246729,
      "num_input_tokens_seen": 164963570,
      "step": 7631,
      "time_per_iteration": 2.7349188327789307
    },
    {
      "auxiliary_loss_clip": 0.01157982,
      "auxiliary_loss_mlp": 0.00887232,
      "balance_loss_clip": 1.04512644,
      "balance_loss_mlp": 1.00062847,
      "epoch": 0.9176937413575422,
      "flos": 14830497233280.0,
      "grad_norm": 2.8839631248084787,
      "language_loss": 0.79522747,
      "learning_rate": 7.055460749357656e-08,
      "loss": 0.81567967,
      "num_input_tokens_seen": 164979850,
      "step": 7632,
      "time_per_iteration": 2.627530574798584
    },
    {
      "auxiliary_loss_clip": 0.01150642,
      "auxiliary_loss_mlp": 0.0102505,
      "balance_loss_clip": 1.04715753,
      "balance_loss_mlp": 1.0167737,
      "epoch": 0.9178139842481813,
      "flos": 18474603828480.0,
      "grad_norm": 1.6117950581348348,
      "language_loss": 0.70403659,
      "learning_rate": 7.034967542115521e-08,
      "loss": 0.72579348,
      "num_input_tokens_seen": 164998115,
      "step": 7633,
      "time_per_iteration": 2.6866166591644287
    },
    {
      "auxiliary_loss_clip": 0.01150141,
      "auxiliary_loss_mlp": 0.00886528,
      "balance_loss_clip": 1.04257298,
      "balance_loss_mlp": 1.00052321,
      "epoch": 0.9179342271388204,
      "flos": 20047455544320.0,
      "grad_norm": 2.0559522064196396,
      "language_loss": 0.75499469,
      "learning_rate": 7.014503607515388e-08,
      "loss": 0.77536136,
      "num_input_tokens_seen": 165017420,
      "step": 7634,
      "time_per_iteration": 2.6863107681274414
    },
    {
      "auxiliary_loss_clip": 0.01153218,
      "auxiliary_loss_mlp": 0.0103026,
      "balance_loss_clip": 1.04843783,
      "balance_loss_mlp": 1.02274096,
      "epoch": 0.9180544700294595,
      "flos": 24676232647680.0,
      "grad_norm": 2.2853551231937863,
      "language_loss": 0.68535346,
      "learning_rate": 6.994068948661592e-08,
      "loss": 0.70718825,
      "num_input_tokens_seen": 165035575,
      "step": 7635,
      "time_per_iteration": 2.6879971027374268
    },
    {
      "auxiliary_loss_clip": 0.01159554,
      "auxiliary_loss_mlp": 0.01028227,
      "balance_loss_clip": 1.04513144,
      "balance_loss_mlp": 1.02004325,
      "epoch": 0.9181747129200986,
      "flos": 16727478301440.0,
      "grad_norm": 2.05512322606986,
      "language_loss": 0.76529419,
      "learning_rate": 6.973663568654142e-08,
      "loss": 0.78717202,
      "num_input_tokens_seen": 165053280,
      "step": 7636,
      "time_per_iteration": 2.6445255279541016
    },
    {
      "auxiliary_loss_clip": 0.01169669,
      "auxiliary_loss_mlp": 0.01031568,
      "balance_loss_clip": 1.04741085,
      "balance_loss_mlp": 1.02444839,
      "epoch": 0.9182949558107377,
      "flos": 24271626873600.0,
      "grad_norm": 2.0087642805618584,
      "language_loss": 0.65018439,
      "learning_rate": 6.953287470588386e-08,
      "loss": 0.67219675,
      "num_input_tokens_seen": 165071235,
      "step": 7637,
      "time_per_iteration": 2.615614891052246
    },
    {
      "auxiliary_loss_clip": 0.01164388,
      "auxiliary_loss_mlp": 0.01023266,
      "balance_loss_clip": 1.04619539,
      "balance_loss_mlp": 1.0158987,
      "epoch": 0.9184151987013768,
      "flos": 22082117443200.0,
      "grad_norm": 2.2161278467881345,
      "language_loss": 0.85653186,
      "learning_rate": 6.932940657555452e-08,
      "loss": 0.87840843,
      "num_input_tokens_seen": 165087365,
      "step": 7638,
      "time_per_iteration": 2.626603841781616
    },
    {
      "auxiliary_loss_clip": 0.01165834,
      "auxiliary_loss_mlp": 0.01026509,
      "balance_loss_clip": 1.04703271,
      "balance_loss_mlp": 1.0192852,
      "epoch": 0.9185354415920158,
      "flos": 32166732257280.0,
      "grad_norm": 1.8933048723693808,
      "language_loss": 0.76595575,
      "learning_rate": 6.912623132641938e-08,
      "loss": 0.78787923,
      "num_input_tokens_seen": 165112455,
      "step": 7639,
      "time_per_iteration": 2.716662883758545
    },
    {
      "auxiliary_loss_clip": 0.01156103,
      "auxiliary_loss_mlp": 0.01026193,
      "balance_loss_clip": 1.04648745,
      "balance_loss_mlp": 1.01818216,
      "epoch": 0.918655684482655,
      "flos": 20997831542400.0,
      "grad_norm": 1.7598178822693926,
      "language_loss": 0.76564837,
      "learning_rate": 6.892334898929952e-08,
      "loss": 0.78747141,
      "num_input_tokens_seen": 165132700,
      "step": 7640,
      "time_per_iteration": 4.484140157699585
    },
    {
      "auxiliary_loss_clip": 0.01154347,
      "auxiliary_loss_mlp": 0.0102366,
      "balance_loss_clip": 1.04480374,
      "balance_loss_mlp": 1.0161202,
      "epoch": 0.918775927373294,
      "flos": 15560704817280.0,
      "grad_norm": 1.8419293698889283,
      "language_loss": 0.84485579,
      "learning_rate": 6.872075959497236e-08,
      "loss": 0.86663592,
      "num_input_tokens_seen": 165151475,
      "step": 7641,
      "time_per_iteration": 3.4427318572998047
    },
    {
      "auxiliary_loss_clip": 0.0116493,
      "auxiliary_loss_mlp": 0.0102566,
      "balance_loss_clip": 1.04667592,
      "balance_loss_mlp": 1.01801884,
      "epoch": 0.9188961702639331,
      "flos": 29934057657600.0,
      "grad_norm": 1.9190636488322363,
      "language_loss": 0.8261416,
      "learning_rate": 6.85184631741702e-08,
      "loss": 0.84804749,
      "num_input_tokens_seen": 165172040,
      "step": 7642,
      "time_per_iteration": 2.725158929824829
    },
    {
      "auxiliary_loss_clip": 0.01158005,
      "auxiliary_loss_mlp": 0.01025827,
      "balance_loss_clip": 1.04565763,
      "balance_loss_mlp": 1.01850474,
      "epoch": 0.9190164131545723,
      "flos": 20701244943360.0,
      "grad_norm": 1.9423227931377807,
      "language_loss": 0.77371329,
      "learning_rate": 6.831645975758161e-08,
      "loss": 0.7955516,
      "num_input_tokens_seen": 165189980,
      "step": 7643,
      "time_per_iteration": 2.6589548587799072
    },
    {
      "auxiliary_loss_clip": 0.01146123,
      "auxiliary_loss_mlp": 0.01032829,
      "balance_loss_clip": 1.04496038,
      "balance_loss_mlp": 1.02474713,
      "epoch": 0.9191366560452113,
      "flos": 25629912696960.0,
      "grad_norm": 1.9345495106780977,
      "language_loss": 0.67597127,
      "learning_rate": 6.811474937585026e-08,
      "loss": 0.69776076,
      "num_input_tokens_seen": 165209770,
      "step": 7644,
      "time_per_iteration": 2.653730630874634
    },
    {
      "auxiliary_loss_clip": 0.01138312,
      "auxiliary_loss_mlp": 0.01025415,
      "balance_loss_clip": 1.04277194,
      "balance_loss_mlp": 1.01804209,
      "epoch": 0.9192568989358504,
      "flos": 21434325615360.0,
      "grad_norm": 1.7040084862440583,
      "language_loss": 0.79164684,
      "learning_rate": 6.79133320595755e-08,
      "loss": 0.8132841,
      "num_input_tokens_seen": 165229690,
      "step": 7645,
      "time_per_iteration": 2.73816180229187
    },
    {
      "auxiliary_loss_clip": 0.01154106,
      "auxiliary_loss_mlp": 0.01027911,
      "balance_loss_clip": 1.04655874,
      "balance_loss_mlp": 1.02035308,
      "epoch": 0.9193771418264896,
      "flos": 23185078416000.0,
      "grad_norm": 1.7446071459632597,
      "language_loss": 0.75107694,
      "learning_rate": 6.771220783931198e-08,
      "loss": 0.77289712,
      "num_input_tokens_seen": 165249850,
      "step": 7646,
      "time_per_iteration": 2.668818473815918
    },
    {
      "auxiliary_loss_clip": 0.01019744,
      "auxiliary_loss_mlp": 0.00875964,
      "balance_loss_clip": 1.0099256,
      "balance_loss_mlp": 1.00090158,
      "epoch": 0.9194973847171286,
      "flos": 70582963184640.0,
      "grad_norm": 0.8514398930701353,
      "language_loss": 0.64604735,
      "learning_rate": 6.751137674556994e-08,
      "loss": 0.66500443,
      "num_input_tokens_seen": 165310235,
      "step": 7647,
      "time_per_iteration": 3.6863961219787598
    },
    {
      "auxiliary_loss_clip": 0.01161829,
      "auxiliary_loss_mlp": 0.01028268,
      "balance_loss_clip": 1.04339707,
      "balance_loss_mlp": 1.02033138,
      "epoch": 0.9196176276077677,
      "flos": 14720682378240.0,
      "grad_norm": 2.1794441893450713,
      "language_loss": 0.77523607,
      "learning_rate": 6.731083880881572e-08,
      "loss": 0.79713702,
      "num_input_tokens_seen": 165326455,
      "step": 7648,
      "time_per_iteration": 3.797672748565674
    },
    {
      "auxiliary_loss_clip": 0.0115195,
      "auxiliary_loss_mlp": 0.01024977,
      "balance_loss_clip": 1.04669464,
      "balance_loss_mlp": 1.01829004,
      "epoch": 0.9197378704984068,
      "flos": 23294893271040.0,
      "grad_norm": 1.9307105478868134,
      "language_loss": 0.80957174,
      "learning_rate": 6.711059405947072e-08,
      "loss": 0.83134103,
      "num_input_tokens_seen": 165344645,
      "step": 7649,
      "time_per_iteration": 3.700592279434204
    },
    {
      "auxiliary_loss_clip": 0.01138206,
      "auxiliary_loss_mlp": 0.01022448,
      "balance_loss_clip": 1.04562819,
      "balance_loss_mlp": 1.01496196,
      "epoch": 0.9198581133890459,
      "flos": 20302564913280.0,
      "grad_norm": 1.9395051894546846,
      "language_loss": 0.76777244,
      "learning_rate": 6.691064252791156e-08,
      "loss": 0.78937894,
      "num_input_tokens_seen": 165364120,
      "step": 7650,
      "time_per_iteration": 2.7680776119232178
    },
    {
      "auxiliary_loss_clip": 0.01127181,
      "auxiliary_loss_mlp": 0.01028248,
      "balance_loss_clip": 1.04296052,
      "balance_loss_mlp": 1.02017772,
      "epoch": 0.9199783562796849,
      "flos": 17675663569920.0,
      "grad_norm": 1.891466586462038,
      "language_loss": 0.77978575,
      "learning_rate": 6.67109842444713e-08,
      "loss": 0.80134004,
      "num_input_tokens_seen": 165383050,
      "step": 7651,
      "time_per_iteration": 2.777534246444702
    },
    {
      "auxiliary_loss_clip": 0.01158763,
      "auxiliary_loss_mlp": 0.00886909,
      "balance_loss_clip": 1.04724836,
      "balance_loss_mlp": 1.0005995,
      "epoch": 0.9200985991703241,
      "flos": 17676022705920.0,
      "grad_norm": 3.432407416621168,
      "language_loss": 0.76834083,
      "learning_rate": 6.651161923943704e-08,
      "loss": 0.7887975,
      "num_input_tokens_seen": 165400955,
      "step": 7652,
      "time_per_iteration": 2.6570992469787598
    },
    {
      "auxiliary_loss_clip": 0.01154838,
      "auxiliary_loss_mlp": 0.01033647,
      "balance_loss_clip": 1.04313779,
      "balance_loss_mlp": 1.0257138,
      "epoch": 0.9202188420609632,
      "flos": 20996574566400.0,
      "grad_norm": 2.0845347418978086,
      "language_loss": 0.76989996,
      "learning_rate": 6.631254754305326e-08,
      "loss": 0.79178488,
      "num_input_tokens_seen": 165420415,
      "step": 7653,
      "time_per_iteration": 2.681889533996582
    },
    {
      "auxiliary_loss_clip": 0.01169184,
      "auxiliary_loss_mlp": 0.01027861,
      "balance_loss_clip": 1.04493332,
      "balance_loss_mlp": 1.02049994,
      "epoch": 0.9203390849516022,
      "flos": 13918222586880.0,
      "grad_norm": 2.0159844929838733,
      "language_loss": 0.77855897,
      "learning_rate": 6.611376918551848e-08,
      "loss": 0.80052936,
      "num_input_tokens_seen": 165439200,
      "step": 7654,
      "time_per_iteration": 2.5567710399627686
    },
    {
      "auxiliary_loss_clip": 0.01137435,
      "auxiliary_loss_mlp": 0.00886999,
      "balance_loss_clip": 1.04097593,
      "balance_loss_mlp": 1.00058174,
      "epoch": 0.9204593278422414,
      "flos": 21175912195200.0,
      "grad_norm": 1.9102237147433527,
      "language_loss": 0.79716277,
      "learning_rate": 6.591528419698744e-08,
      "loss": 0.81740713,
      "num_input_tokens_seen": 165458985,
      "step": 7655,
      "time_per_iteration": 2.682446002960205
    },
    {
      "auxiliary_loss_clip": 0.01151805,
      "auxiliary_loss_mlp": 0.01026103,
      "balance_loss_clip": 1.04226267,
      "balance_loss_mlp": 1.01877809,
      "epoch": 0.9205795707328804,
      "flos": 14501375890560.0,
      "grad_norm": 2.9544386225075665,
      "language_loss": 0.8335408,
      "learning_rate": 6.571709260756986e-08,
      "loss": 0.85531992,
      "num_input_tokens_seen": 165475630,
      "step": 7656,
      "time_per_iteration": 2.6002490520477295
    },
    {
      "auxiliary_loss_clip": 0.01165003,
      "auxiliary_loss_mlp": 0.01026068,
      "balance_loss_clip": 1.05037701,
      "balance_loss_mlp": 1.01852202,
      "epoch": 0.9206998136235195,
      "flos": 22417559579520.0,
      "grad_norm": 2.4623379785773714,
      "language_loss": 0.75999677,
      "learning_rate": 6.551919444733122e-08,
      "loss": 0.78190744,
      "num_input_tokens_seen": 165493445,
      "step": 7657,
      "time_per_iteration": 2.640745162963867
    },
    {
      "auxiliary_loss_clip": 0.01152017,
      "auxiliary_loss_mlp": 0.01032912,
      "balance_loss_clip": 1.04633832,
      "balance_loss_mlp": 1.02548504,
      "epoch": 0.9208200565141585,
      "flos": 53358407544960.0,
      "grad_norm": 2.1385558994005254,
      "language_loss": 0.65667832,
      "learning_rate": 6.53215897462931e-08,
      "loss": 0.67852759,
      "num_input_tokens_seen": 165517200,
      "step": 7658,
      "time_per_iteration": 2.926523447036743
    },
    {
      "auxiliary_loss_clip": 0.01156564,
      "auxiliary_loss_mlp": 0.01032011,
      "balance_loss_clip": 1.04368377,
      "balance_loss_mlp": 1.02417886,
      "epoch": 0.9209402994047977,
      "flos": 30589139946240.0,
      "grad_norm": 2.034870248565051,
      "language_loss": 0.74860597,
      "learning_rate": 6.512427853443103e-08,
      "loss": 0.77049172,
      "num_input_tokens_seen": 165539280,
      "step": 7659,
      "time_per_iteration": 2.7452473640441895
    },
    {
      "auxiliary_loss_clip": 0.01164424,
      "auxiliary_loss_mlp": 0.01033593,
      "balance_loss_clip": 1.04661894,
      "balance_loss_mlp": 1.02601707,
      "epoch": 0.9210605422954368,
      "flos": 29132711187840.0,
      "grad_norm": 1.698980454300428,
      "language_loss": 0.7573086,
      "learning_rate": 6.492726084167799e-08,
      "loss": 0.77928877,
      "num_input_tokens_seen": 165561395,
      "step": 7660,
      "time_per_iteration": 2.7393250465393066
    },
    {
      "auxiliary_loss_clip": 0.01061539,
      "auxiliary_loss_mlp": 0.01002494,
      "balance_loss_clip": 1.00711298,
      "balance_loss_mlp": 1.00151598,
      "epoch": 0.9211807851860758,
      "flos": 54853838472960.0,
      "grad_norm": 0.8592404363898339,
      "language_loss": 0.57480514,
      "learning_rate": 6.473053669792072e-08,
      "loss": 0.59544551,
      "num_input_tokens_seen": 165616085,
      "step": 7661,
      "time_per_iteration": 3.110565423965454
    },
    {
      "auxiliary_loss_clip": 0.01158496,
      "auxiliary_loss_mlp": 0.01020229,
      "balance_loss_clip": 1.0452044,
      "balance_loss_mlp": 1.01247406,
      "epoch": 0.921301028076715,
      "flos": 19201974238080.0,
      "grad_norm": 2.140727201414087,
      "language_loss": 0.72744298,
      "learning_rate": 6.453410613300248e-08,
      "loss": 0.74923027,
      "num_input_tokens_seen": 165634015,
      "step": 7662,
      "time_per_iteration": 2.6466147899627686
    },
    {
      "auxiliary_loss_clip": 0.01124746,
      "auxiliary_loss_mlp": 0.0102832,
      "balance_loss_clip": 1.04309845,
      "balance_loss_mlp": 1.02117383,
      "epoch": 0.921421270967354,
      "flos": 27526893765120.0,
      "grad_norm": 1.6595163497875907,
      "language_loss": 0.58212221,
      "learning_rate": 6.43379691767214e-08,
      "loss": 0.60365283,
      "num_input_tokens_seen": 165653220,
      "step": 7663,
      "time_per_iteration": 2.839639186859131
    },
    {
      "auxiliary_loss_clip": 0.01042465,
      "auxiliary_loss_mlp": 0.01004968,
      "balance_loss_clip": 1.00921941,
      "balance_loss_mlp": 1.00397861,
      "epoch": 0.9215415138579931,
      "flos": 70209311955840.0,
      "grad_norm": 0.7220712686349084,
      "language_loss": 0.55100554,
      "learning_rate": 6.414212585883105e-08,
      "loss": 0.57147992,
      "num_input_tokens_seen": 165715850,
      "step": 7664,
      "time_per_iteration": 3.3780641555786133
    },
    {
      "auxiliary_loss_clip": 0.01154951,
      "auxiliary_loss_mlp": 0.01025088,
      "balance_loss_clip": 1.04533768,
      "balance_loss_mlp": 1.01747608,
      "epoch": 0.9216617567486323,
      "flos": 35553107790720.0,
      "grad_norm": 1.6409932284079514,
      "language_loss": 0.69695556,
      "learning_rate": 6.394657620904143e-08,
      "loss": 0.7187559,
      "num_input_tokens_seen": 165738960,
      "step": 7665,
      "time_per_iteration": 2.762784719467163
    },
    {
      "auxiliary_loss_clip": 0.01173816,
      "auxiliary_loss_mlp": 0.01028649,
      "balance_loss_clip": 1.04825997,
      "balance_loss_mlp": 1.02070403,
      "epoch": 0.9217819996392713,
      "flos": 29533330552320.0,
      "grad_norm": 3.608234063053557,
      "language_loss": 0.71668005,
      "learning_rate": 6.375132025701657e-08,
      "loss": 0.73870474,
      "num_input_tokens_seen": 165761260,
      "step": 7666,
      "time_per_iteration": 4.558252573013306
    },
    {
      "auxiliary_loss_clip": 0.01173949,
      "auxiliary_loss_mlp": 0.01028945,
      "balance_loss_clip": 1.04953671,
      "balance_loss_mlp": 1.02089524,
      "epoch": 0.9219022425299104,
      "flos": 14574669592320.0,
      "grad_norm": 2.0595835385543655,
      "language_loss": 0.69040859,
      "learning_rate": 6.355635803237724e-08,
      "loss": 0.71243751,
      "num_input_tokens_seen": 165776960,
      "step": 7667,
      "time_per_iteration": 3.4741945266723633
    },
    {
      "auxiliary_loss_clip": 0.01159465,
      "auxiliary_loss_mlp": 0.01028572,
      "balance_loss_clip": 1.04562998,
      "balance_loss_mlp": 1.02117229,
      "epoch": 0.9220224854205495,
      "flos": 18077503996800.0,
      "grad_norm": 4.629641556245661,
      "language_loss": 0.79578513,
      "learning_rate": 6.336168956469867e-08,
      "loss": 0.81766546,
      "num_input_tokens_seen": 165795435,
      "step": 7668,
      "time_per_iteration": 2.5793368816375732
    },
    {
      "auxiliary_loss_clip": 0.01144284,
      "auxiliary_loss_mlp": 0.01024306,
      "balance_loss_clip": 1.04522407,
      "balance_loss_mlp": 1.01711154,
      "epoch": 0.9221427283111886,
      "flos": 24790464875520.0,
      "grad_norm": 1.9132340745484944,
      "language_loss": 0.71770585,
      "learning_rate": 6.316731488351168e-08,
      "loss": 0.73939174,
      "num_input_tokens_seen": 165816625,
      "step": 7669,
      "time_per_iteration": 2.645881414413452
    },
    {
      "auxiliary_loss_clip": 0.0116055,
      "auxiliary_loss_mlp": 0.01029755,
      "balance_loss_clip": 1.04681325,
      "balance_loss_mlp": 1.02206612,
      "epoch": 0.9222629712018277,
      "flos": 13845036625920.0,
      "grad_norm": 1.9301097206500295,
      "language_loss": 0.63469815,
      "learning_rate": 6.297323401830334e-08,
      "loss": 0.65660119,
      "num_input_tokens_seen": 165835410,
      "step": 7670,
      "time_per_iteration": 2.6251678466796875
    },
    {
      "auxiliary_loss_clip": 0.01162549,
      "auxiliary_loss_mlp": 0.0102185,
      "balance_loss_clip": 1.04509258,
      "balance_loss_mlp": 1.01411963,
      "epoch": 0.9223832140924668,
      "flos": 21616177196160.0,
      "grad_norm": 2.596452430906205,
      "language_loss": 0.68424428,
      "learning_rate": 6.277944699851523e-08,
      "loss": 0.70608819,
      "num_input_tokens_seen": 165854930,
      "step": 7671,
      "time_per_iteration": 2.59647274017334
    },
    {
      "auxiliary_loss_clip": 0.01168939,
      "auxiliary_loss_mlp": 0.0102789,
      "balance_loss_clip": 1.04541206,
      "balance_loss_mlp": 1.02046871,
      "epoch": 0.9225034569831059,
      "flos": 21142084561920.0,
      "grad_norm": 2.4253727555563196,
      "language_loss": 0.73527443,
      "learning_rate": 6.25859538535447e-08,
      "loss": 0.75724274,
      "num_input_tokens_seen": 165875725,
      "step": 7672,
      "time_per_iteration": 2.6103134155273438
    },
    {
      "auxiliary_loss_clip": 0.01148293,
      "auxiliary_loss_mlp": 0.01028392,
      "balance_loss_clip": 1.04458487,
      "balance_loss_mlp": 1.02106023,
      "epoch": 0.9226236998737449,
      "flos": 12495046844160.0,
      "grad_norm": 3.5126015990999546,
      "language_loss": 0.78225243,
      "learning_rate": 6.239275461274474e-08,
      "loss": 0.80401933,
      "num_input_tokens_seen": 165892100,
      "step": 7673,
      "time_per_iteration": 2.612440586090088
    },
    {
      "auxiliary_loss_clip": 0.01163217,
      "auxiliary_loss_mlp": 0.01027679,
      "balance_loss_clip": 1.04749131,
      "balance_loss_mlp": 1.01973414,
      "epoch": 0.9227439427643841,
      "flos": 26214071581440.0,
      "grad_norm": 1.716488322575007,
      "language_loss": 0.86092776,
      "learning_rate": 6.219984930542299e-08,
      "loss": 0.8828367,
      "num_input_tokens_seen": 165912840,
      "step": 7674,
      "time_per_iteration": 2.699754238128662
    },
    {
      "auxiliary_loss_clip": 0.01161244,
      "auxiliary_loss_mlp": 0.01026317,
      "balance_loss_clip": 1.04479861,
      "balance_loss_mlp": 1.01862192,
      "epoch": 0.9228641856550232,
      "flos": 17967581400960.0,
      "grad_norm": 2.0485494013472896,
      "language_loss": 0.76102287,
      "learning_rate": 6.200723796084383e-08,
      "loss": 0.78289843,
      "num_input_tokens_seen": 165930935,
      "step": 7675,
      "time_per_iteration": 3.565019130706787
    },
    {
      "auxiliary_loss_clip": 0.01048938,
      "auxiliary_loss_mlp": 0.01002075,
      "balance_loss_clip": 1.00794792,
      "balance_loss_mlp": 1.00095451,
      "epoch": 0.9229844285456622,
      "flos": 70420609710720.0,
      "grad_norm": 0.7606404751469832,
      "language_loss": 0.63031548,
      "learning_rate": 6.181492060822546e-08,
      "loss": 0.65082562,
      "num_input_tokens_seen": 165991110,
      "step": 7676,
      "time_per_iteration": 3.1736788749694824
    },
    {
      "auxiliary_loss_clip": 0.01127742,
      "auxiliary_loss_mlp": 0.01025642,
      "balance_loss_clip": 1.03956699,
      "balance_loss_mlp": 1.01858497,
      "epoch": 0.9231046714363014,
      "flos": 17967832796160.0,
      "grad_norm": 3.5567875993428895,
      "language_loss": 0.81989157,
      "learning_rate": 6.162289727674274e-08,
      "loss": 0.84142542,
      "num_input_tokens_seen": 166008790,
      "step": 7677,
      "time_per_iteration": 2.857309103012085
    },
    {
      "auxiliary_loss_clip": 0.01140481,
      "auxiliary_loss_mlp": 0.01022316,
      "balance_loss_clip": 1.04183722,
      "balance_loss_mlp": 1.01507127,
      "epoch": 0.9232249143269404,
      "flos": 17858233422720.0,
      "grad_norm": 2.586533898005606,
      "language_loss": 0.87351477,
      "learning_rate": 6.143116799552527e-08,
      "loss": 0.89514279,
      "num_input_tokens_seen": 166025035,
      "step": 7678,
      "time_per_iteration": 2.737560272216797
    },
    {
      "auxiliary_loss_clip": 0.01162036,
      "auxiliary_loss_mlp": 0.01024005,
      "balance_loss_clip": 1.04520941,
      "balance_loss_mlp": 1.01638794,
      "epoch": 0.9233451572175795,
      "flos": 23404384903680.0,
      "grad_norm": 2.446848481879817,
      "language_loss": 0.55841565,
      "learning_rate": 6.123973279365802e-08,
      "loss": 0.58027601,
      "num_input_tokens_seen": 166044010,
      "step": 7679,
      "time_per_iteration": 2.6466336250305176
    },
    {
      "auxiliary_loss_clip": 0.01164366,
      "auxiliary_loss_mlp": 0.01023805,
      "balance_loss_clip": 1.04764187,
      "balance_loss_mlp": 1.01638412,
      "epoch": 0.9234654001082186,
      "flos": 17999326045440.0,
      "grad_norm": 1.83098745064706,
      "language_loss": 0.77753782,
      "learning_rate": 6.10485917001824e-08,
      "loss": 0.79941952,
      "num_input_tokens_seen": 166061865,
      "step": 7680,
      "time_per_iteration": 2.5701117515563965
    },
    {
      "auxiliary_loss_clip": 0.01155455,
      "auxiliary_loss_mlp": 0.01023612,
      "balance_loss_clip": 1.04418242,
      "balance_loss_mlp": 1.01599491,
      "epoch": 0.9235856429988577,
      "flos": 24750747411840.0,
      "grad_norm": 1.5338866799487607,
      "language_loss": 0.8104021,
      "learning_rate": 6.085774474409322e-08,
      "loss": 0.83219278,
      "num_input_tokens_seen": 166082425,
      "step": 7681,
      "time_per_iteration": 2.6904942989349365
    },
    {
      "auxiliary_loss_clip": 0.01153425,
      "auxiliary_loss_mlp": 0.01026113,
      "balance_loss_clip": 1.04838765,
      "balance_loss_mlp": 1.0182929,
      "epoch": 0.9237058858894968,
      "flos": 14099894599680.0,
      "grad_norm": 2.473446387019049,
      "language_loss": 0.70385051,
      "learning_rate": 6.066719195434267e-08,
      "loss": 0.7256459,
      "num_input_tokens_seen": 166100225,
      "step": 7682,
      "time_per_iteration": 2.633352279663086
    },
    {
      "auxiliary_loss_clip": 0.01165314,
      "auxiliary_loss_mlp": 0.01032048,
      "balance_loss_clip": 1.04856491,
      "balance_loss_mlp": 1.02426934,
      "epoch": 0.9238261287801359,
      "flos": 28694529175680.0,
      "grad_norm": 1.8467769284644182,
      "language_loss": 0.66370726,
      "learning_rate": 6.047693335983717e-08,
      "loss": 0.68568087,
      "num_input_tokens_seen": 166122570,
      "step": 7683,
      "time_per_iteration": 2.7192606925964355
    },
    {
      "auxiliary_loss_clip": 0.0116297,
      "auxiliary_loss_mlp": 0.01028682,
      "balance_loss_clip": 1.04544783,
      "balance_loss_mlp": 1.02125764,
      "epoch": 0.923946371670775,
      "flos": 23111856541440.0,
      "grad_norm": 2.383874902393952,
      "language_loss": 0.82171726,
      "learning_rate": 6.028696898943853e-08,
      "loss": 0.84363377,
      "num_input_tokens_seen": 166141630,
      "step": 7684,
      "time_per_iteration": 2.7514383792877197
    },
    {
      "auxiliary_loss_clip": 0.01149609,
      "auxiliary_loss_mlp": 0.00887357,
      "balance_loss_clip": 1.04252911,
      "balance_loss_mlp": 1.00062394,
      "epoch": 0.924066614561414,
      "flos": 21867120587520.0,
      "grad_norm": 1.8006398917330908,
      "language_loss": 0.70744789,
      "learning_rate": 6.00972988719648e-08,
      "loss": 0.72781754,
      "num_input_tokens_seen": 166159865,
      "step": 7685,
      "time_per_iteration": 2.71399188041687
    },
    {
      "auxiliary_loss_clip": 0.01143727,
      "auxiliary_loss_mlp": 0.00887116,
      "balance_loss_clip": 1.04312742,
      "balance_loss_mlp": 1.00058901,
      "epoch": 0.9241868574520532,
      "flos": 28511887495680.0,
      "grad_norm": 2.5683754467185014,
      "language_loss": 0.70977277,
      "learning_rate": 5.990792303618807e-08,
      "loss": 0.7300812,
      "num_input_tokens_seen": 166179445,
      "step": 7686,
      "time_per_iteration": 2.761425733566284
    },
    {
      "auxiliary_loss_clip": 0.01139536,
      "auxiliary_loss_mlp": 0.0102768,
      "balance_loss_clip": 1.04252267,
      "balance_loss_mlp": 1.02036619,
      "epoch": 0.9243071003426923,
      "flos": 30518324282880.0,
      "grad_norm": 1.6360221350394593,
      "language_loss": 0.69404733,
      "learning_rate": 5.971884151083695e-08,
      "loss": 0.71571946,
      "num_input_tokens_seen": 166201855,
      "step": 7687,
      "time_per_iteration": 2.792949676513672
    },
    {
      "auxiliary_loss_clip": 0.01151551,
      "auxiliary_loss_mlp": 0.01024628,
      "balance_loss_clip": 1.04366994,
      "balance_loss_mlp": 1.0166949,
      "epoch": 0.9244273432333313,
      "flos": 28658331244800.0,
      "grad_norm": 1.990040896824741,
      "language_loss": 0.74073762,
      "learning_rate": 5.9530054324595124e-08,
      "loss": 0.76249945,
      "num_input_tokens_seen": 166221970,
      "step": 7688,
      "time_per_iteration": 2.7404582500457764
    },
    {
      "auxiliary_loss_clip": 0.0105074,
      "auxiliary_loss_mlp": 0.00876038,
      "balance_loss_clip": 1.00673234,
      "balance_loss_mlp": 1.00080478,
      "epoch": 0.9245475861239704,
      "flos": 66230589237120.0,
      "grad_norm": 0.7173985007314673,
      "language_loss": 0.57548475,
      "learning_rate": 5.934156150610103e-08,
      "loss": 0.59475255,
      "num_input_tokens_seen": 166279335,
      "step": 7689,
      "time_per_iteration": 3.2612545490264893
    },
    {
      "auxiliary_loss_clip": 0.01147326,
      "auxiliary_loss_mlp": 0.01027527,
      "balance_loss_clip": 1.04408705,
      "balance_loss_mlp": 1.02007687,
      "epoch": 0.9246678290146095,
      "flos": 24239918142720.0,
      "grad_norm": 2.403275283961903,
      "language_loss": 0.79125357,
      "learning_rate": 5.915336308394914e-08,
      "loss": 0.81300217,
      "num_input_tokens_seen": 166298170,
      "step": 7690,
      "time_per_iteration": 2.7433102130889893
    },
    {
      "auxiliary_loss_clip": 0.01157888,
      "auxiliary_loss_mlp": 0.01022049,
      "balance_loss_clip": 1.04699183,
      "balance_loss_mlp": 1.01481009,
      "epoch": 0.9247880719052486,
      "flos": 18988808976000.0,
      "grad_norm": 1.577445082835277,
      "language_loss": 0.77009022,
      "learning_rate": 5.89654590866886e-08,
      "loss": 0.79188955,
      "num_input_tokens_seen": 166317670,
      "step": 7691,
      "time_per_iteration": 3.501817464828491
    },
    {
      "auxiliary_loss_clip": 0.01126503,
      "auxiliary_loss_mlp": 0.01026771,
      "balance_loss_clip": 1.0443449,
      "balance_loss_mlp": 1.01861167,
      "epoch": 0.9249083147958876,
      "flos": 24024095274240.0,
      "grad_norm": 1.977326660244416,
      "language_loss": 0.88323402,
      "learning_rate": 5.877784954282483e-08,
      "loss": 0.90476674,
      "num_input_tokens_seen": 166337010,
      "step": 7692,
      "time_per_iteration": 3.7152087688446045
    },
    {
      "auxiliary_loss_clip": 0.01163094,
      "auxiliary_loss_mlp": 0.01024343,
      "balance_loss_clip": 1.04545736,
      "balance_loss_mlp": 1.01652861,
      "epoch": 0.9250285576865268,
      "flos": 30773972355840.0,
      "grad_norm": 1.8125870728809141,
      "language_loss": 0.72468823,
      "learning_rate": 5.8590534480817963e-08,
      "loss": 0.7465626,
      "num_input_tokens_seen": 166358735,
      "step": 7693,
      "time_per_iteration": 3.5004520416259766
    },
    {
      "auxiliary_loss_clip": 0.0117261,
      "auxiliary_loss_mlp": 0.01027622,
      "balance_loss_clip": 1.04962432,
      "balance_loss_mlp": 1.02054358,
      "epoch": 0.9251488005771659,
      "flos": 10633581348480.0,
      "grad_norm": 2.176077810269332,
      "language_loss": 0.72331238,
      "learning_rate": 5.840351392908349e-08,
      "loss": 0.74531472,
      "num_input_tokens_seen": 166374455,
      "step": 7694,
      "time_per_iteration": 2.5285260677337646
    },
    {
      "auxiliary_loss_clip": 0.01158505,
      "auxiliary_loss_mlp": 0.0088597,
      "balance_loss_clip": 1.04458475,
      "balance_loss_mlp": 1.00048637,
      "epoch": 0.9252690434678049,
      "flos": 23586416052480.0,
      "grad_norm": 2.5284355354964143,
      "language_loss": 0.71024877,
      "learning_rate": 5.821678791599205e-08,
      "loss": 0.73069346,
      "num_input_tokens_seen": 166393900,
      "step": 7695,
      "time_per_iteration": 2.6895053386688232
    },
    {
      "auxiliary_loss_clip": 0.01150578,
      "auxiliary_loss_mlp": 0.01026131,
      "balance_loss_clip": 1.04564238,
      "balance_loss_mlp": 1.01787543,
      "epoch": 0.9253892863584441,
      "flos": 21469158829440.0,
      "grad_norm": 2.047999568025585,
      "language_loss": 0.80999982,
      "learning_rate": 5.803035646986965e-08,
      "loss": 0.83176696,
      "num_input_tokens_seen": 166413235,
      "step": 7696,
      "time_per_iteration": 2.810842514038086
    },
    {
      "auxiliary_loss_clip": 0.01172101,
      "auxiliary_loss_mlp": 0.01031489,
      "balance_loss_clip": 1.04706359,
      "balance_loss_mlp": 1.02336502,
      "epoch": 0.9255095292490831,
      "flos": 17456680304640.0,
      "grad_norm": 2.3981522035982104,
      "language_loss": 0.67446494,
      "learning_rate": 5.7844219618998766e-08,
      "loss": 0.69650078,
      "num_input_tokens_seen": 166427560,
      "step": 7697,
      "time_per_iteration": 2.605010986328125
    },
    {
      "auxiliary_loss_clip": 0.01127964,
      "auxiliary_loss_mlp": 0.01026767,
      "balance_loss_clip": 1.0389545,
      "balance_loss_mlp": 1.01869059,
      "epoch": 0.9256297721397222,
      "flos": 24750675584640.0,
      "grad_norm": 1.9717993307904578,
      "language_loss": 0.71341783,
      "learning_rate": 5.765837739161505e-08,
      "loss": 0.73496515,
      "num_input_tokens_seen": 166446680,
      "step": 7698,
      "time_per_iteration": 2.7254040241241455
    },
    {
      "auxiliary_loss_clip": 0.01143814,
      "auxiliary_loss_mlp": 0.01029747,
      "balance_loss_clip": 1.04398239,
      "balance_loss_mlp": 1.02178431,
      "epoch": 0.9257500150303614,
      "flos": 23112215677440.0,
      "grad_norm": 1.7753491485333976,
      "language_loss": 0.74439251,
      "learning_rate": 5.7472829815911504e-08,
      "loss": 0.76612812,
      "num_input_tokens_seen": 166465505,
      "step": 7699,
      "time_per_iteration": 2.7374987602233887
    },
    {
      "auxiliary_loss_clip": 0.0114652,
      "auxiliary_loss_mlp": 0.01023571,
      "balance_loss_clip": 1.04451442,
      "balance_loss_mlp": 1.01595306,
      "epoch": 0.9258702579210004,
      "flos": 22564685687040.0,
      "grad_norm": 3.8072706630070168,
      "language_loss": 0.81397915,
      "learning_rate": 5.7287576920035164e-08,
      "loss": 0.83568013,
      "num_input_tokens_seen": 166484520,
      "step": 7700,
      "time_per_iteration": 2.7123498916625977
    },
    {
      "auxiliary_loss_clip": 0.0113776,
      "auxiliary_loss_mlp": 0.01025819,
      "balance_loss_clip": 1.04320765,
      "balance_loss_mlp": 1.01794517,
      "epoch": 0.9259905008116395,
      "flos": 30004298703360.0,
      "grad_norm": 1.8570248274222483,
      "language_loss": 0.76634622,
      "learning_rate": 5.7102618732088435e-08,
      "loss": 0.78798199,
      "num_input_tokens_seen": 166503850,
      "step": 7701,
      "time_per_iteration": 3.6808688640594482
    },
    {
      "auxiliary_loss_clip": 0.01157397,
      "auxiliary_loss_mlp": 0.0102468,
      "balance_loss_clip": 1.04605532,
      "balance_loss_mlp": 1.01770377,
      "epoch": 0.9261107437022786,
      "flos": 24572128055040.0,
      "grad_norm": 2.273843084756243,
      "language_loss": 0.74842083,
      "learning_rate": 5.6917955280130216e-08,
      "loss": 0.77024162,
      "num_input_tokens_seen": 166525330,
      "step": 7702,
      "time_per_iteration": 2.73459529876709
    },
    {
      "auxiliary_loss_clip": 0.01157853,
      "auxiliary_loss_mlp": 0.01028078,
      "balance_loss_clip": 1.04667592,
      "balance_loss_mlp": 1.02049065,
      "epoch": 0.9262309865929177,
      "flos": 22018448586240.0,
      "grad_norm": 2.125523428096344,
      "language_loss": 0.72130525,
      "learning_rate": 5.6733586592172755e-08,
      "loss": 0.74316454,
      "num_input_tokens_seen": 166544825,
      "step": 7703,
      "time_per_iteration": 2.7716727256774902
    },
    {
      "auxiliary_loss_clip": 0.01143618,
      "auxiliary_loss_mlp": 0.008859,
      "balance_loss_clip": 1.04123282,
      "balance_loss_mlp": 1.00050271,
      "epoch": 0.9263512294835567,
      "flos": 20339481116160.0,
      "grad_norm": 2.0956435517074805,
      "language_loss": 0.80088294,
      "learning_rate": 5.6549512696185244e-08,
      "loss": 0.82117808,
      "num_input_tokens_seen": 166563325,
      "step": 7704,
      "time_per_iteration": 2.7185587882995605
    },
    {
      "auxiliary_loss_clip": 0.0116988,
      "auxiliary_loss_mlp": 0.01027106,
      "balance_loss_clip": 1.04870653,
      "balance_loss_mlp": 1.01946735,
      "epoch": 0.9264714723741959,
      "flos": 21215378263680.0,
      "grad_norm": 1.7177250943138522,
      "language_loss": 0.68394852,
      "learning_rate": 5.636573362009156e-08,
      "loss": 0.70591837,
      "num_input_tokens_seen": 166583385,
      "step": 7705,
      "time_per_iteration": 2.6375174522399902
    },
    {
      "auxiliary_loss_clip": 0.01171757,
      "auxiliary_loss_mlp": 0.01025577,
      "balance_loss_clip": 1.04699636,
      "balance_loss_mlp": 1.01716053,
      "epoch": 0.926591715264835,
      "flos": 18004964480640.0,
      "grad_norm": 2.009759485014505,
      "language_loss": 0.77158225,
      "learning_rate": 5.618224939177074e-08,
      "loss": 0.79355556,
      "num_input_tokens_seen": 166601290,
      "step": 7706,
      "time_per_iteration": 2.5745034217834473
    },
    {
      "auxiliary_loss_clip": 0.01139954,
      "auxiliary_loss_mlp": 0.01026835,
      "balance_loss_clip": 1.04238009,
      "balance_loss_mlp": 1.01934326,
      "epoch": 0.926711958155474,
      "flos": 36167969825280.0,
      "grad_norm": 1.9310195133317796,
      "language_loss": 0.70256102,
      "learning_rate": 5.599906003905719e-08,
      "loss": 0.72422892,
      "num_input_tokens_seen": 166623835,
      "step": 7707,
      "time_per_iteration": 2.8205111026763916
    },
    {
      "auxiliary_loss_clip": 0.01154615,
      "auxiliary_loss_mlp": 0.01027998,
      "balance_loss_clip": 1.04607916,
      "balance_loss_mlp": 1.01980829,
      "epoch": 0.9268322010461132,
      "flos": 21032736583680.0,
      "grad_norm": 7.111193886298035,
      "language_loss": 0.81452787,
      "learning_rate": 5.581616558974023e-08,
      "loss": 0.83635402,
      "num_input_tokens_seen": 166642400,
      "step": 7708,
      "time_per_iteration": 2.6547248363494873
    },
    {
      "auxiliary_loss_clip": 0.01167353,
      "auxiliary_loss_mlp": 0.00886896,
      "balance_loss_clip": 1.04738855,
      "balance_loss_mlp": 1.00062776,
      "epoch": 0.9269524439367522,
      "flos": 22964838174720.0,
      "grad_norm": 1.7382307612140846,
      "language_loss": 0.78909868,
      "learning_rate": 5.5633566071565444e-08,
      "loss": 0.80964118,
      "num_input_tokens_seen": 166661640,
      "step": 7709,
      "time_per_iteration": 2.6831793785095215
    },
    {
      "auxiliary_loss_clip": 0.01125926,
      "auxiliary_loss_mlp": 0.01024162,
      "balance_loss_clip": 1.04018855,
      "balance_loss_mlp": 1.01748061,
      "epoch": 0.9270726868273913,
      "flos": 41975551468800.0,
      "grad_norm": 2.0807816812118536,
      "language_loss": 0.7079097,
      "learning_rate": 5.5451261512232896e-08,
      "loss": 0.72941053,
      "num_input_tokens_seen": 166684320,
      "step": 7710,
      "time_per_iteration": 2.9237070083618164
    },
    {
      "auxiliary_loss_clip": 0.01163358,
      "auxiliary_loss_mlp": 0.0102529,
      "balance_loss_clip": 1.04358387,
      "balance_loss_mlp": 1.01772594,
      "epoch": 0.9271929297180305,
      "flos": 19791771557760.0,
      "grad_norm": 6.175709971505707,
      "language_loss": 0.62634885,
      "learning_rate": 5.5269251939397576e-08,
      "loss": 0.64823532,
      "num_input_tokens_seen": 166703835,
      "step": 7711,
      "time_per_iteration": 2.677241325378418
    },
    {
      "auxiliary_loss_clip": 0.01140486,
      "auxiliary_loss_mlp": 0.0102426,
      "balance_loss_clip": 1.03939629,
      "balance_loss_mlp": 1.01670837,
      "epoch": 0.9273131726086695,
      "flos": 19968343839360.0,
      "grad_norm": 3.2173225790402555,
      "language_loss": 0.76605201,
      "learning_rate": 5.508753738067073e-08,
      "loss": 0.78769946,
      "num_input_tokens_seen": 166723375,
      "step": 7712,
      "time_per_iteration": 2.6809372901916504
    },
    {
      "auxiliary_loss_clip": 0.01162312,
      "auxiliary_loss_mlp": 0.0102843,
      "balance_loss_clip": 1.04434955,
      "balance_loss_mlp": 1.02129567,
      "epoch": 0.9274334154993086,
      "flos": 23258587599360.0,
      "grad_norm": 1.938265781660857,
      "language_loss": 0.79252911,
      "learning_rate": 5.4906117863617875e-08,
      "loss": 0.81443655,
      "num_input_tokens_seen": 166742760,
      "step": 7713,
      "time_per_iteration": 2.6122331619262695
    },
    {
      "auxiliary_loss_clip": 0.01136892,
      "auxiliary_loss_mlp": 0.01025655,
      "balance_loss_clip": 1.04133773,
      "balance_loss_mlp": 1.01862228,
      "epoch": 0.9275536583899477,
      "flos": 31795343585280.0,
      "grad_norm": 6.498525649799901,
      "language_loss": 0.78482759,
      "learning_rate": 5.4724993415760533e-08,
      "loss": 0.80645299,
      "num_input_tokens_seen": 166761115,
      "step": 7714,
      "time_per_iteration": 2.7695398330688477
    },
    {
      "auxiliary_loss_clip": 0.01148393,
      "auxiliary_loss_mlp": 0.00887165,
      "balance_loss_clip": 1.04081535,
      "balance_loss_mlp": 1.00060964,
      "epoch": 0.9276739012805868,
      "flos": 18696998885760.0,
      "grad_norm": 2.668311497668884,
      "language_loss": 0.74659574,
      "learning_rate": 5.454416406457496e-08,
      "loss": 0.76695132,
      "num_input_tokens_seen": 166780210,
      "step": 7715,
      "time_per_iteration": 2.7307944297790527
    },
    {
      "auxiliary_loss_clip": 0.01158164,
      "auxiliary_loss_mlp": 0.01025406,
      "balance_loss_clip": 1.04330802,
      "balance_loss_mlp": 1.01831853,
      "epoch": 0.9277941441712259,
      "flos": 13879079740800.0,
      "grad_norm": 2.322371273867531,
      "language_loss": 0.73522741,
      "learning_rate": 5.436362983749299e-08,
      "loss": 0.75706315,
      "num_input_tokens_seen": 166795380,
      "step": 7716,
      "time_per_iteration": 2.5810534954071045
    },
    {
      "auxiliary_loss_clip": 0.01137301,
      "auxiliary_loss_mlp": 0.01025838,
      "balance_loss_clip": 1.04736853,
      "balance_loss_mlp": 1.01855993,
      "epoch": 0.927914387061865,
      "flos": 23258659426560.0,
      "grad_norm": 2.106742532116278,
      "language_loss": 0.64280772,
      "learning_rate": 5.418339076190137e-08,
      "loss": 0.66443908,
      "num_input_tokens_seen": 166814890,
      "step": 7717,
      "time_per_iteration": 2.7733652591705322
    },
    {
      "auxiliary_loss_clip": 0.01145375,
      "auxiliary_loss_mlp": 0.01025733,
      "balance_loss_clip": 1.04418159,
      "balance_loss_mlp": 1.0183537,
      "epoch": 0.9280346299525041,
      "flos": 18073733068800.0,
      "grad_norm": 1.9642526693571543,
      "language_loss": 0.88478673,
      "learning_rate": 5.400344686514202e-08,
      "loss": 0.90649784,
      "num_input_tokens_seen": 166832475,
      "step": 7718,
      "time_per_iteration": 4.674043893814087
    },
    {
      "auxiliary_loss_clip": 0.01160009,
      "auxiliary_loss_mlp": 0.01024597,
      "balance_loss_clip": 1.04750228,
      "balance_loss_mlp": 1.01671731,
      "epoch": 0.9281548728431431,
      "flos": 22342901160960.0,
      "grad_norm": 5.82615869270427,
      "language_loss": 0.67136347,
      "learning_rate": 5.38237981745131e-08,
      "loss": 0.69320953,
      "num_input_tokens_seen": 166850590,
      "step": 7719,
      "time_per_iteration": 3.539944887161255
    },
    {
      "auxiliary_loss_clip": 0.01164415,
      "auxiliary_loss_mlp": 0.00886667,
      "balance_loss_clip": 1.04641581,
      "balance_loss_mlp": 1.00059772,
      "epoch": 0.9282751157337822,
      "flos": 18843765857280.0,
      "grad_norm": 1.8296277718450327,
      "language_loss": 0.81490493,
      "learning_rate": 5.364444471726592e-08,
      "loss": 0.83541578,
      "num_input_tokens_seen": 166869795,
      "step": 7720,
      "time_per_iteration": 2.606309175491333
    },
    {
      "auxiliary_loss_clip": 0.01157978,
      "auxiliary_loss_mlp": 0.01025829,
      "balance_loss_clip": 1.04411614,
      "balance_loss_mlp": 1.0184319,
      "epoch": 0.9283953586244214,
      "flos": 25556834476800.0,
      "grad_norm": 1.8951042656109283,
      "language_loss": 0.79983258,
      "learning_rate": 5.346538652060939e-08,
      "loss": 0.82167059,
      "num_input_tokens_seen": 166891150,
      "step": 7721,
      "time_per_iteration": 2.7111165523529053
    },
    {
      "auxiliary_loss_clip": 0.01150331,
      "auxiliary_loss_mlp": 0.01028132,
      "balance_loss_clip": 1.04732251,
      "balance_loss_mlp": 1.021173,
      "epoch": 0.9285156015150604,
      "flos": 18223480869120.0,
      "grad_norm": 1.8039208624877676,
      "language_loss": 0.70198423,
      "learning_rate": 5.3286623611705994e-08,
      "loss": 0.72376889,
      "num_input_tokens_seen": 166909195,
      "step": 7722,
      "time_per_iteration": 2.6232962608337402
    },
    {
      "auxiliary_loss_clip": 0.01061226,
      "auxiliary_loss_mlp": 0.01001633,
      "balance_loss_clip": 1.00675738,
      "balance_loss_mlp": 1.00071549,
      "epoch": 0.9286358444056995,
      "flos": 66400017690240.0,
      "grad_norm": 0.8114120021933954,
      "language_loss": 0.60570449,
      "learning_rate": 5.3108156017673824e-08,
      "loss": 0.62633306,
      "num_input_tokens_seen": 166970955,
      "step": 7723,
      "time_per_iteration": 3.2356889247894287
    },
    {
      "auxiliary_loss_clip": 0.01157965,
      "auxiliary_loss_mlp": 0.01031878,
      "balance_loss_clip": 1.04567635,
      "balance_loss_mlp": 1.02380157,
      "epoch": 0.9287560872963386,
      "flos": 22345630594560.0,
      "grad_norm": 1.8656882139492352,
      "language_loss": 0.71730602,
      "learning_rate": 5.2929983765586775e-08,
      "loss": 0.73920441,
      "num_input_tokens_seen": 166989735,
      "step": 7724,
      "time_per_iteration": 2.6521289348602295
    },
    {
      "auxiliary_loss_clip": 0.01170865,
      "auxiliary_loss_mlp": 0.01027279,
      "balance_loss_clip": 1.04811549,
      "balance_loss_mlp": 1.01998973,
      "epoch": 0.9288763301869777,
      "flos": 25700225569920.0,
      "grad_norm": 1.9645688853819048,
      "language_loss": 0.62651932,
      "learning_rate": 5.275210688247278e-08,
      "loss": 0.64850074,
      "num_input_tokens_seen": 167010060,
      "step": 7725,
      "time_per_iteration": 2.6581594944000244
    },
    {
      "auxiliary_loss_clip": 0.01131254,
      "auxiliary_loss_mlp": 0.01022696,
      "balance_loss_clip": 1.04204118,
      "balance_loss_mlp": 1.01513851,
      "epoch": 0.9289965730776167,
      "flos": 12312046028160.0,
      "grad_norm": 2.6713728660466076,
      "language_loss": 0.85046089,
      "learning_rate": 5.257452539531604e-08,
      "loss": 0.87200034,
      "num_input_tokens_seen": 167027130,
      "step": 7726,
      "time_per_iteration": 2.6899523735046387
    },
    {
      "auxiliary_loss_clip": 0.01160008,
      "auxiliary_loss_mlp": 0.01020946,
      "balance_loss_clip": 1.04298091,
      "balance_loss_mlp": 1.01363266,
      "epoch": 0.9291168159682559,
      "flos": 26685973486080.0,
      "grad_norm": 1.908449477095438,
      "language_loss": 0.68443692,
      "learning_rate": 5.2397239331055445e-08,
      "loss": 0.70624638,
      "num_input_tokens_seen": 167049130,
      "step": 7727,
      "time_per_iteration": 3.5675127506256104
    },
    {
      "auxiliary_loss_clip": 0.0114854,
      "auxiliary_loss_mlp": 0.01026743,
      "balance_loss_clip": 1.0461601,
      "balance_loss_mlp": 1.01904488,
      "epoch": 0.929237058858895,
      "flos": 14538256179840.0,
      "grad_norm": 2.083151036159129,
      "language_loss": 0.81134951,
      "learning_rate": 5.2220248716585036e-08,
      "loss": 0.83310235,
      "num_input_tokens_seen": 167066810,
      "step": 7728,
      "time_per_iteration": 2.649723768234253
    },
    {
      "auxiliary_loss_clip": 0.01151902,
      "auxiliary_loss_mlp": 0.01024933,
      "balance_loss_clip": 1.04323649,
      "balance_loss_mlp": 1.01739287,
      "epoch": 0.929357301749534,
      "flos": 23835456023040.0,
      "grad_norm": 2.192529083030882,
      "language_loss": 0.7528258,
      "learning_rate": 5.204355357875445e-08,
      "loss": 0.77459413,
      "num_input_tokens_seen": 167085155,
      "step": 7729,
      "time_per_iteration": 2.685852527618408
    },
    {
      "auxiliary_loss_clip": 0.01147126,
      "auxiliary_loss_mlp": 0.01031392,
      "balance_loss_clip": 1.04247355,
      "balance_loss_mlp": 1.02348208,
      "epoch": 0.9294775446401732,
      "flos": 12969319046400.0,
      "grad_norm": 2.156948573983614,
      "language_loss": 0.7038967,
      "learning_rate": 5.1867153944367584e-08,
      "loss": 0.7256819,
      "num_input_tokens_seen": 167101545,
      "step": 7730,
      "time_per_iteration": 2.678417682647705
    },
    {
      "auxiliary_loss_clip": 0.01146319,
      "auxiliary_loss_mlp": 0.0102143,
      "balance_loss_clip": 1.04337239,
      "balance_loss_mlp": 1.01398575,
      "epoch": 0.9295977875308122,
      "flos": 26211809024640.0,
      "grad_norm": 1.7881856454960636,
      "language_loss": 0.73578554,
      "learning_rate": 5.16910498401848e-08,
      "loss": 0.75746298,
      "num_input_tokens_seen": 167120995,
      "step": 7731,
      "time_per_iteration": 2.749020576477051
    },
    {
      "auxiliary_loss_clip": 0.01169858,
      "auxiliary_loss_mlp": 0.010251,
      "balance_loss_clip": 1.04909384,
      "balance_loss_mlp": 1.01819825,
      "epoch": 0.9297180304214513,
      "flos": 16472297105280.0,
      "grad_norm": 2.073726891771571,
      "language_loss": 0.83325875,
      "learning_rate": 5.151524129292073e-08,
      "loss": 0.85520834,
      "num_input_tokens_seen": 167138890,
      "step": 7732,
      "time_per_iteration": 2.621514081954956
    },
    {
      "auxiliary_loss_clip": 0.01158735,
      "auxiliary_loss_mlp": 0.01026606,
      "balance_loss_clip": 1.04576957,
      "balance_loss_mlp": 1.01926899,
      "epoch": 0.9298382733120905,
      "flos": 24060436859520.0,
      "grad_norm": 2.110149170847514,
      "language_loss": 0.66526532,
      "learning_rate": 5.1339728329245155e-08,
      "loss": 0.68711865,
      "num_input_tokens_seen": 167159455,
      "step": 7733,
      "time_per_iteration": 2.646749496459961
    },
    {
      "auxiliary_loss_clip": 0.0117486,
      "auxiliary_loss_mlp": 0.0102377,
      "balance_loss_clip": 1.04873693,
      "balance_loss_mlp": 1.01572371,
      "epoch": 0.9299585162027295,
      "flos": 22127652910080.0,
      "grad_norm": 3.552835042970616,
      "language_loss": 0.7924881,
      "learning_rate": 5.116451097578367e-08,
      "loss": 0.81447434,
      "num_input_tokens_seen": 167178495,
      "step": 7734,
      "time_per_iteration": 2.575584650039673
    },
    {
      "auxiliary_loss_clip": 0.01140296,
      "auxiliary_loss_mlp": 0.01024296,
      "balance_loss_clip": 1.04291809,
      "balance_loss_mlp": 1.01717019,
      "epoch": 0.9300787590933686,
      "flos": 21471780522240.0,
      "grad_norm": 1.923738219983624,
      "language_loss": 0.74129665,
      "learning_rate": 5.0989589259115895e-08,
      "loss": 0.76294255,
      "num_input_tokens_seen": 167199380,
      "step": 7735,
      "time_per_iteration": 2.684518814086914
    },
    {
      "auxiliary_loss_clip": 0.01156563,
      "auxiliary_loss_mlp": 0.01028698,
      "balance_loss_clip": 1.04272318,
      "balance_loss_mlp": 1.0199002,
      "epoch": 0.9301990019840077,
      "flos": 17779588594560.0,
      "grad_norm": 1.7811892621952787,
      "language_loss": 0.71288007,
      "learning_rate": 5.081496320577816e-08,
      "loss": 0.73473269,
      "num_input_tokens_seen": 167216500,
      "step": 7736,
      "time_per_iteration": 2.6292498111724854
    },
    {
      "auxiliary_loss_clip": 0.01046499,
      "auxiliary_loss_mlp": 0.01002289,
      "balance_loss_clip": 1.00895715,
      "balance_loss_mlp": 1.0013293,
      "epoch": 0.9303192448746468,
      "flos": 58896122307840.0,
      "grad_norm": 0.9190673130086726,
      "language_loss": 0.6121279,
      "learning_rate": 5.0640632842260835e-08,
      "loss": 0.63261569,
      "num_input_tokens_seen": 167276760,
      "step": 7737,
      "time_per_iteration": 3.3137001991271973
    },
    {
      "auxiliary_loss_clip": 0.01139633,
      "auxiliary_loss_mlp": 0.0088588,
      "balance_loss_clip": 1.04448366,
      "balance_loss_mlp": 1.00054634,
      "epoch": 0.9304394877652858,
      "flos": 57663522172800.0,
      "grad_norm": 1.623282384657975,
      "language_loss": 0.72459131,
      "learning_rate": 5.0466598195009426e-08,
      "loss": 0.74484646,
      "num_input_tokens_seen": 167303630,
      "step": 7738,
      "time_per_iteration": 3.0551795959472656
    },
    {
      "auxiliary_loss_clip": 0.01144987,
      "auxiliary_loss_mlp": 0.01023247,
      "balance_loss_clip": 1.04400194,
      "balance_loss_mlp": 1.01642275,
      "epoch": 0.930559730655925,
      "flos": 20996143603200.0,
      "grad_norm": 1.8143846317754821,
      "language_loss": 0.69847399,
      "learning_rate": 5.0292859290425036e-08,
      "loss": 0.72015637,
      "num_input_tokens_seen": 167321500,
      "step": 7739,
      "time_per_iteration": 2.6953539848327637
    },
    {
      "auxiliary_loss_clip": 0.01170958,
      "auxiliary_loss_mlp": 0.01029223,
      "balance_loss_clip": 1.04925537,
      "balance_loss_mlp": 1.02179933,
      "epoch": 0.9306799735465641,
      "flos": 23258264376960.0,
      "grad_norm": 2.641925345466613,
      "language_loss": 0.77811134,
      "learning_rate": 5.011941615486348e-08,
      "loss": 0.8001132,
      "num_input_tokens_seen": 167340615,
      "step": 7740,
      "time_per_iteration": 2.6359949111938477
    },
    {
      "auxiliary_loss_clip": 0.01168566,
      "auxiliary_loss_mlp": 0.01022458,
      "balance_loss_clip": 1.0466001,
      "balance_loss_mlp": 1.01553845,
      "epoch": 0.9308002164372031,
      "flos": 15231547560960.0,
      "grad_norm": 2.1636185056315345,
      "language_loss": 0.84520686,
      "learning_rate": 4.994626881463659e-08,
      "loss": 0.86711705,
      "num_input_tokens_seen": 167356870,
      "step": 7741,
      "time_per_iteration": 2.6460771560668945
    },
    {
      "auxiliary_loss_clip": 0.0111663,
      "auxiliary_loss_mlp": 0.01030126,
      "balance_loss_clip": 1.03842068,
      "balance_loss_mlp": 1.02233541,
      "epoch": 0.9309204593278423,
      "flos": 30847481539200.0,
      "grad_norm": 1.6448568878235745,
      "language_loss": 0.70980251,
      "learning_rate": 4.9773417296009814e-08,
      "loss": 0.73127007,
      "num_input_tokens_seen": 167378390,
      "step": 7742,
      "time_per_iteration": 2.8257319927215576
    },
    {
      "auxiliary_loss_clip": 0.01165461,
      "auxiliary_loss_mlp": 0.01026445,
      "balance_loss_clip": 1.04681122,
      "balance_loss_mlp": 1.01836276,
      "epoch": 0.9310407022184813,
      "flos": 23037269950080.0,
      "grad_norm": 1.6662090223577664,
      "language_loss": 0.65416873,
      "learning_rate": 4.960086162520527e-08,
      "loss": 0.6760878,
      "num_input_tokens_seen": 167398480,
      "step": 7743,
      "time_per_iteration": 3.614891529083252
    },
    {
      "auxiliary_loss_clip": 0.01138581,
      "auxiliary_loss_mlp": 0.01025411,
      "balance_loss_clip": 1.04218841,
      "balance_loss_mlp": 1.01789749,
      "epoch": 0.9311609451091204,
      "flos": 22127976132480.0,
      "grad_norm": 1.811782175116285,
      "language_loss": 0.8241114,
      "learning_rate": 4.942860182839936e-08,
      "loss": 0.84575129,
      "num_input_tokens_seen": 167416825,
      "step": 7744,
      "time_per_iteration": 3.7277183532714844
    },
    {
      "auxiliary_loss_clip": 0.01148556,
      "auxiliary_loss_mlp": 0.010281,
      "balance_loss_clip": 1.04378772,
      "balance_loss_mlp": 1.02069724,
      "epoch": 0.9312811879997596,
      "flos": 21099206701440.0,
      "grad_norm": 3.3380057819684117,
      "language_loss": 0.79385781,
      "learning_rate": 4.925663793172341e-08,
      "loss": 0.81562436,
      "num_input_tokens_seen": 167434785,
      "step": 7745,
      "time_per_iteration": 3.582904100418091
    },
    {
      "auxiliary_loss_clip": 0.01045444,
      "auxiliary_loss_mlp": 0.00876091,
      "balance_loss_clip": 1.00813127,
      "balance_loss_mlp": 1.00084865,
      "epoch": 0.9314014308903986,
      "flos": 67148179096320.0,
      "grad_norm": 0.7836206156791626,
      "language_loss": 0.56468207,
      "learning_rate": 4.908496996126477e-08,
      "loss": 0.58389741,
      "num_input_tokens_seen": 167498245,
      "step": 7746,
      "time_per_iteration": 3.317824363708496
    },
    {
      "auxiliary_loss_clip": 0.01158667,
      "auxiliary_loss_mlp": 0.01025515,
      "balance_loss_clip": 1.04804385,
      "balance_loss_mlp": 1.01810896,
      "epoch": 0.9315216737810377,
      "flos": 22565583527040.0,
      "grad_norm": 1.8377997971158837,
      "language_loss": 0.76419175,
      "learning_rate": 4.89135979430646e-08,
      "loss": 0.78603351,
      "num_input_tokens_seen": 167518290,
      "step": 7747,
      "time_per_iteration": 2.675525426864624
    },
    {
      "auxiliary_loss_clip": 0.01169736,
      "auxiliary_loss_mlp": 0.0102418,
      "balance_loss_clip": 1.04788303,
      "balance_loss_mlp": 1.01624393,
      "epoch": 0.9316419166716768,
      "flos": 23984054588160.0,
      "grad_norm": 1.664370215927656,
      "language_loss": 0.85666877,
      "learning_rate": 4.874252190312078e-08,
      "loss": 0.87860793,
      "num_input_tokens_seen": 167538675,
      "step": 7748,
      "time_per_iteration": 2.616262674331665
    },
    {
      "auxiliary_loss_clip": 0.01163692,
      "auxiliary_loss_mlp": 0.01027404,
      "balance_loss_clip": 1.04508173,
      "balance_loss_mlp": 1.01967287,
      "epoch": 0.9317621595623159,
      "flos": 30230464688640.0,
      "grad_norm": 2.714869217010248,
      "language_loss": 0.65184617,
      "learning_rate": 4.857174186738477e-08,
      "loss": 0.67375714,
      "num_input_tokens_seen": 167562025,
      "step": 7749,
      "time_per_iteration": 2.690021276473999
    },
    {
      "auxiliary_loss_clip": 0.01170185,
      "auxiliary_loss_mlp": 0.01028553,
      "balance_loss_clip": 1.04767454,
      "balance_loss_mlp": 1.02143919,
      "epoch": 0.931882402452955,
      "flos": 15742735966080.0,
      "grad_norm": 3.1879623102504584,
      "language_loss": 0.73276657,
      "learning_rate": 4.840125786176408e-08,
      "loss": 0.75475395,
      "num_input_tokens_seen": 167578230,
      "step": 7750,
      "time_per_iteration": 2.5726869106292725
    },
    {
      "auxiliary_loss_clip": 0.01149046,
      "auxiliary_loss_mlp": 0.01027904,
      "balance_loss_clip": 1.04579997,
      "balance_loss_mlp": 1.02090394,
      "epoch": 0.932002645343594,
      "flos": 28366521154560.0,
      "grad_norm": 2.0448422694388313,
      "language_loss": 0.77395564,
      "learning_rate": 4.823106991212067e-08,
      "loss": 0.79572517,
      "num_input_tokens_seen": 167597470,
      "step": 7751,
      "time_per_iteration": 2.7230372428894043
    },
    {
      "auxiliary_loss_clip": 0.01160291,
      "auxiliary_loss_mlp": 0.01024299,
      "balance_loss_clip": 1.04456604,
      "balance_loss_mlp": 1.01692843,
      "epoch": 0.9321228882342332,
      "flos": 15341146934400.0,
      "grad_norm": 2.0974211311743307,
      "language_loss": 0.83132899,
      "learning_rate": 4.806117804427212e-08,
      "loss": 0.85317492,
      "num_input_tokens_seen": 167615405,
      "step": 7752,
      "time_per_iteration": 2.5829083919525146
    },
    {
      "auxiliary_loss_clip": 0.0115681,
      "auxiliary_loss_mlp": 0.01029318,
      "balance_loss_clip": 1.04616284,
      "balance_loss_mlp": 1.02175117,
      "epoch": 0.9322431311248722,
      "flos": 17895365107200.0,
      "grad_norm": 2.1549236452103058,
      "language_loss": 0.64320081,
      "learning_rate": 4.7891582283990926e-08,
      "loss": 0.66506207,
      "num_input_tokens_seen": 167634130,
      "step": 7753,
      "time_per_iteration": 3.5660436153411865
    },
    {
      "auxiliary_loss_clip": 0.01144008,
      "auxiliary_loss_mlp": 0.01023116,
      "balance_loss_clip": 1.04257011,
      "balance_loss_mlp": 1.01577568,
      "epoch": 0.9323633740155113,
      "flos": 24169713010560.0,
      "grad_norm": 1.5950580175255589,
      "language_loss": 0.72750455,
      "learning_rate": 4.772228265700473e-08,
      "loss": 0.74917579,
      "num_input_tokens_seen": 167654990,
      "step": 7754,
      "time_per_iteration": 2.7101385593414307
    },
    {
      "auxiliary_loss_clip": 0.01163306,
      "auxiliary_loss_mlp": 0.01022982,
      "balance_loss_clip": 1.0461185,
      "balance_loss_mlp": 1.01531959,
      "epoch": 0.9324836169061504,
      "flos": 15043482927360.0,
      "grad_norm": 2.1916770823856617,
      "language_loss": 0.7558217,
      "learning_rate": 4.75532791889961e-08,
      "loss": 0.77768457,
      "num_input_tokens_seen": 167671690,
      "step": 7755,
      "time_per_iteration": 2.5902297496795654
    },
    {
      "auxiliary_loss_clip": 0.01158357,
      "auxiliary_loss_mlp": 0.01031638,
      "balance_loss_clip": 1.0437566,
      "balance_loss_mlp": 1.02409196,
      "epoch": 0.9326038597967895,
      "flos": 18624890332800.0,
      "grad_norm": 1.8899407441584692,
      "language_loss": 0.65396202,
      "learning_rate": 4.738457190560252e-08,
      "loss": 0.6758619,
      "num_input_tokens_seen": 167690800,
      "step": 7756,
      "time_per_iteration": 2.624469518661499
    },
    {
      "auxiliary_loss_clip": 0.01133167,
      "auxiliary_loss_mlp": 0.01027414,
      "balance_loss_clip": 1.04521132,
      "balance_loss_mlp": 1.01975811,
      "epoch": 0.9327241026874286,
      "flos": 18952646958720.0,
      "grad_norm": 2.076776758899032,
      "language_loss": 0.792009,
      "learning_rate": 4.721616083241664e-08,
      "loss": 0.81361485,
      "num_input_tokens_seen": 167709055,
      "step": 7757,
      "time_per_iteration": 2.6676061153411865
    },
    {
      "auxiliary_loss_clip": 0.01154594,
      "auxiliary_loss_mlp": 0.01024913,
      "balance_loss_clip": 1.045048,
      "balance_loss_mlp": 1.0168128,
      "epoch": 0.9328443455780677,
      "flos": 29570282668800.0,
      "grad_norm": 1.7227422600807605,
      "language_loss": 0.77565444,
      "learning_rate": 4.7048045994986684e-08,
      "loss": 0.79744947,
      "num_input_tokens_seen": 167729915,
      "step": 7758,
      "time_per_iteration": 2.701855421066284
    },
    {
      "auxiliary_loss_clip": 0.01166885,
      "auxiliary_loss_mlp": 0.01023843,
      "balance_loss_clip": 1.0476557,
      "balance_loss_mlp": 1.01617193,
      "epoch": 0.9329645884687068,
      "flos": 30081722469120.0,
      "grad_norm": 1.9490578411004569,
      "language_loss": 0.90841818,
      "learning_rate": 4.688022741881559e-08,
      "loss": 0.93032551,
      "num_input_tokens_seen": 167750440,
      "step": 7759,
      "time_per_iteration": 2.7051405906677246
    },
    {
      "auxiliary_loss_clip": 0.01154631,
      "auxiliary_loss_mlp": 0.01029032,
      "balance_loss_clip": 1.04387856,
      "balance_loss_mlp": 1.02159977,
      "epoch": 0.9330848313593458,
      "flos": 21867982513920.0,
      "grad_norm": 1.6204582927173823,
      "language_loss": 0.75306523,
      "learning_rate": 4.671270512936076e-08,
      "loss": 0.77490187,
      "num_input_tokens_seen": 167769600,
      "step": 7760,
      "time_per_iteration": 2.594057559967041
    },
    {
      "auxiliary_loss_clip": 0.01134515,
      "auxiliary_loss_mlp": 0.01024206,
      "balance_loss_clip": 1.04156744,
      "balance_loss_mlp": 1.01684523,
      "epoch": 0.933205074249985,
      "flos": 22127221946880.0,
      "grad_norm": 1.6940535820282425,
      "language_loss": 0.82795876,
      "learning_rate": 4.6545479152035884e-08,
      "loss": 0.84954596,
      "num_input_tokens_seen": 167788770,
      "step": 7761,
      "time_per_iteration": 2.7414896488189697
    },
    {
      "auxiliary_loss_clip": 0.01162269,
      "auxiliary_loss_mlp": 0.01028696,
      "balance_loss_clip": 1.04656053,
      "balance_loss_mlp": 1.0209713,
      "epoch": 0.9333253171406241,
      "flos": 15341254675200.0,
      "grad_norm": 1.950414382331636,
      "language_loss": 0.75926352,
      "learning_rate": 4.637854951220821e-08,
      "loss": 0.78117323,
      "num_input_tokens_seen": 167805555,
      "step": 7762,
      "time_per_iteration": 2.661166191101074
    },
    {
      "auxiliary_loss_clip": 0.01134995,
      "auxiliary_loss_mlp": 0.0102633,
      "balance_loss_clip": 1.04142499,
      "balance_loss_mlp": 1.01869798,
      "epoch": 0.9334455600312631,
      "flos": 15706142985600.0,
      "grad_norm": 2.9541235979342364,
      "language_loss": 0.74829537,
      "learning_rate": 4.621191623520171e-08,
      "loss": 0.76990861,
      "num_input_tokens_seen": 167823985,
      "step": 7763,
      "time_per_iteration": 2.715189218521118
    },
    {
      "auxiliary_loss_clip": 0.01134332,
      "auxiliary_loss_mlp": 0.01027024,
      "balance_loss_clip": 1.04075742,
      "balance_loss_mlp": 1.0197612,
      "epoch": 0.9335658029219023,
      "flos": 22163563532160.0,
      "grad_norm": 2.4391334086194902,
      "language_loss": 0.84642243,
      "learning_rate": 4.604557934629372e-08,
      "loss": 0.86803603,
      "num_input_tokens_seen": 167843060,
      "step": 7764,
      "time_per_iteration": 2.8043038845062256
    },
    {
      "auxiliary_loss_clip": 0.01145717,
      "auxiliary_loss_mlp": 0.01025194,
      "balance_loss_clip": 1.045187,
      "balance_loss_mlp": 1.01784182,
      "epoch": 0.9336860458125413,
      "flos": 20266833859200.0,
      "grad_norm": 1.9154121049329664,
      "language_loss": 0.80364966,
      "learning_rate": 4.587953887071805e-08,
      "loss": 0.82535875,
      "num_input_tokens_seen": 167862880,
      "step": 7765,
      "time_per_iteration": 2.689875841140747
    },
    {
      "auxiliary_loss_clip": 0.01145461,
      "auxiliary_loss_mlp": 0.01024961,
      "balance_loss_clip": 1.04245889,
      "balance_loss_mlp": 1.01728427,
      "epoch": 0.9338062887031804,
      "flos": 20919689504640.0,
      "grad_norm": 1.762205048049149,
      "language_loss": 0.85760289,
      "learning_rate": 4.5713794833662554e-08,
      "loss": 0.87930715,
      "num_input_tokens_seen": 167882095,
      "step": 7766,
      "time_per_iteration": 2.6658389568328857
    },
    {
      "auxiliary_loss_clip": 0.01173611,
      "auxiliary_loss_mlp": 0.01024438,
      "balance_loss_clip": 1.04799318,
      "balance_loss_mlp": 1.01656437,
      "epoch": 0.9339265315938196,
      "flos": 23221635482880.0,
      "grad_norm": 2.101958024318936,
      "language_loss": 0.63402522,
      "learning_rate": 4.5548347260270236e-08,
      "loss": 0.65600574,
      "num_input_tokens_seen": 167901385,
      "step": 7767,
      "time_per_iteration": 2.5980334281921387
    },
    {
      "auxiliary_loss_clip": 0.01137326,
      "auxiliary_loss_mlp": 0.01024038,
      "balance_loss_clip": 1.04391718,
      "balance_loss_mlp": 1.01609278,
      "epoch": 0.9340467744844586,
      "flos": 22820261932800.0,
      "grad_norm": 2.4606467114237316,
      "language_loss": 0.69655931,
      "learning_rate": 4.538319617564012e-08,
      "loss": 0.71817291,
      "num_input_tokens_seen": 167920405,
      "step": 7768,
      "time_per_iteration": 2.6533665657043457
    },
    {
      "auxiliary_loss_clip": 0.01148849,
      "auxiliary_loss_mlp": 0.01027925,
      "balance_loss_clip": 1.04179835,
      "balance_loss_mlp": 1.02024484,
      "epoch": 0.9341670173750977,
      "flos": 23660428026240.0,
      "grad_norm": 1.947205952021681,
      "language_loss": 0.74655759,
      "learning_rate": 4.521834160482485e-08,
      "loss": 0.76832533,
      "num_input_tokens_seen": 167939145,
      "step": 7769,
      "time_per_iteration": 4.612093210220337
    },
    {
      "auxiliary_loss_clip": 0.0116345,
      "auxiliary_loss_mlp": 0.01026702,
      "balance_loss_clip": 1.04598641,
      "balance_loss_mlp": 1.0191083,
      "epoch": 0.9342872602657368,
      "flos": 24824256595200.0,
      "grad_norm": 1.8864132876108755,
      "language_loss": 0.82130331,
      "learning_rate": 4.5053783572832846e-08,
      "loss": 0.84320486,
      "num_input_tokens_seen": 167959325,
      "step": 7770,
      "time_per_iteration": 2.691761016845703
    },
    {
      "auxiliary_loss_clip": 0.01160886,
      "auxiliary_loss_mlp": 0.01028222,
      "balance_loss_clip": 1.04785073,
      "balance_loss_mlp": 1.02055657,
      "epoch": 0.9344075031563759,
      "flos": 25771831332480.0,
      "grad_norm": 1.624648241773563,
      "language_loss": 0.76271075,
      "learning_rate": 4.488952210462771e-08,
      "loss": 0.78460187,
      "num_input_tokens_seen": 167979530,
      "step": 7771,
      "time_per_iteration": 3.517793655395508
    },
    {
      "auxiliary_loss_clip": 0.01169554,
      "auxiliary_loss_mlp": 0.01029896,
      "balance_loss_clip": 1.04843235,
      "balance_loss_mlp": 1.02217078,
      "epoch": 0.9345277460470149,
      "flos": 25551303782400.0,
      "grad_norm": 5.553805003784442,
      "language_loss": 0.86061358,
      "learning_rate": 4.4725557225127495e-08,
      "loss": 0.88260806,
      "num_input_tokens_seen": 167997870,
      "step": 7772,
      "time_per_iteration": 2.6157448291778564
    },
    {
      "auxiliary_loss_clip": 0.01162134,
      "auxiliary_loss_mlp": 0.01025349,
      "balance_loss_clip": 1.04725575,
      "balance_loss_mlp": 1.01847029,
      "epoch": 0.9346479889376541,
      "flos": 34313112432000.0,
      "grad_norm": 1.596352515828251,
      "language_loss": 0.79311389,
      "learning_rate": 4.456188895920565e-08,
      "loss": 0.81498873,
      "num_input_tokens_seen": 168019625,
      "step": 7773,
      "time_per_iteration": 2.7253246307373047
    },
    {
      "auxiliary_loss_clip": 0.01168812,
      "auxiliary_loss_mlp": 0.01025188,
      "balance_loss_clip": 1.04673338,
      "balance_loss_mlp": 1.01813102,
      "epoch": 0.9347682318282932,
      "flos": 19093739581440.0,
      "grad_norm": 2.0771587614419933,
      "language_loss": 0.85321414,
      "learning_rate": 4.439851733169031e-08,
      "loss": 0.87515414,
      "num_input_tokens_seen": 168037415,
      "step": 7774,
      "time_per_iteration": 2.552905321121216
    },
    {
      "auxiliary_loss_clip": 0.01140837,
      "auxiliary_loss_mlp": 0.01023704,
      "balance_loss_clip": 1.04337156,
      "balance_loss_mlp": 1.01606548,
      "epoch": 0.9348884747189322,
      "flos": 26249587153920.0,
      "grad_norm": 3.521259978231894,
      "language_loss": 0.69474566,
      "learning_rate": 4.4235442367365204e-08,
      "loss": 0.71639097,
      "num_input_tokens_seen": 168057725,
      "step": 7775,
      "time_per_iteration": 2.7486116886138916
    },
    {
      "auxiliary_loss_clip": 0.01147903,
      "auxiliary_loss_mlp": 0.01027459,
      "balance_loss_clip": 1.04164171,
      "balance_loss_mlp": 1.01962674,
      "epoch": 0.9350087176095714,
      "flos": 18333080242560.0,
      "grad_norm": 2.07835881544695,
      "language_loss": 0.79186773,
      "learning_rate": 4.4072664090968545e-08,
      "loss": 0.81362128,
      "num_input_tokens_seen": 168076110,
      "step": 7776,
      "time_per_iteration": 2.6199729442596436
    },
    {
      "auxiliary_loss_clip": 0.01149643,
      "auxiliary_loss_mlp": 0.01026795,
      "balance_loss_clip": 1.04105008,
      "balance_loss_mlp": 1.01933289,
      "epoch": 0.9351289605002104,
      "flos": 19318253541120.0,
      "grad_norm": 1.8180925981370044,
      "language_loss": 0.84560925,
      "learning_rate": 4.391018252719347e-08,
      "loss": 0.86737359,
      "num_input_tokens_seen": 168095905,
      "step": 7777,
      "time_per_iteration": 2.695420265197754
    },
    {
      "auxiliary_loss_clip": 0.01151552,
      "auxiliary_loss_mlp": 0.01029917,
      "balance_loss_clip": 1.04303849,
      "balance_loss_mlp": 1.02247238,
      "epoch": 0.9352492033908495,
      "flos": 18799990156800.0,
      "grad_norm": 1.7012565163519207,
      "language_loss": 0.69388223,
      "learning_rate": 4.374799770068849e-08,
      "loss": 0.71569693,
      "num_input_tokens_seen": 168112580,
      "step": 7778,
      "time_per_iteration": 2.6344518661499023
    },
    {
      "auxiliary_loss_clip": 0.01158973,
      "auxiliary_loss_mlp": 0.01028385,
      "balance_loss_clip": 1.04772818,
      "balance_loss_mlp": 1.02132201,
      "epoch": 0.9353694462814887,
      "flos": 29530134241920.0,
      "grad_norm": 1.9433009439135351,
      "language_loss": 0.74534994,
      "learning_rate": 4.358610963605658e-08,
      "loss": 0.76722354,
      "num_input_tokens_seen": 168133030,
      "step": 7779,
      "time_per_iteration": 3.4921066761016846
    },
    {
      "auxiliary_loss_clip": 0.01173826,
      "auxiliary_loss_mlp": 0.01027554,
      "balance_loss_clip": 1.0497849,
      "balance_loss_mlp": 1.01950097,
      "epoch": 0.9354896891721277,
      "flos": 30665450390400.0,
      "grad_norm": 2.509975462172708,
      "language_loss": 0.68903506,
      "learning_rate": 4.342451835785677e-08,
      "loss": 0.71104878,
      "num_input_tokens_seen": 168153940,
      "step": 7780,
      "time_per_iteration": 2.641629457473755
    },
    {
      "auxiliary_loss_clip": 0.01150493,
      "auxiliary_loss_mlp": 0.01025944,
      "balance_loss_clip": 1.04536796,
      "balance_loss_mlp": 1.01909554,
      "epoch": 0.9356099320627668,
      "flos": 19463907191040.0,
      "grad_norm": 1.5725998192418338,
      "language_loss": 0.75084686,
      "learning_rate": 4.3263223890601665e-08,
      "loss": 0.77261126,
      "num_input_tokens_seen": 168172650,
      "step": 7781,
      "time_per_iteration": 2.6367287635803223
    },
    {
      "auxiliary_loss_clip": 0.01158323,
      "auxiliary_loss_mlp": 0.00886578,
      "balance_loss_clip": 1.0479244,
      "balance_loss_mlp": 1.00049663,
      "epoch": 0.9357301749534058,
      "flos": 19098156954240.0,
      "grad_norm": 1.739257686454286,
      "language_loss": 0.79687434,
      "learning_rate": 4.31022262587597e-08,
      "loss": 0.81732333,
      "num_input_tokens_seen": 168191325,
      "step": 7782,
      "time_per_iteration": 2.6122190952301025
    },
    {
      "auxiliary_loss_clip": 0.01163621,
      "auxiliary_loss_mlp": 0.01038472,
      "balance_loss_clip": 1.04932439,
      "balance_loss_mlp": 1.02994227,
      "epoch": 0.935850417844045,
      "flos": 23550361776000.0,
      "grad_norm": 1.5601574170318906,
      "language_loss": 0.65895569,
      "learning_rate": 4.2941525486754225e-08,
      "loss": 0.68097657,
      "num_input_tokens_seen": 168211645,
      "step": 7783,
      "time_per_iteration": 2.628495693206787
    },
    {
      "auxiliary_loss_clip": 0.01137673,
      "auxiliary_loss_mlp": 0.01026837,
      "balance_loss_clip": 1.04409409,
      "balance_loss_mlp": 1.01955283,
      "epoch": 0.935970660734684,
      "flos": 18588333265920.0,
      "grad_norm": 2.0804248612082015,
      "language_loss": 0.79518831,
      "learning_rate": 4.278112159896286e-08,
      "loss": 0.81683344,
      "num_input_tokens_seen": 168229485,
      "step": 7784,
      "time_per_iteration": 2.645918846130371
    },
    {
      "auxiliary_loss_clip": 0.01141674,
      "auxiliary_loss_mlp": 0.01022647,
      "balance_loss_clip": 1.03789401,
      "balance_loss_mlp": 1.01582241,
      "epoch": 0.9360909036253231,
      "flos": 20631255292800.0,
      "grad_norm": 1.836929844368471,
      "language_loss": 0.67504764,
      "learning_rate": 4.2621014619719896e-08,
      "loss": 0.69669086,
      "num_input_tokens_seen": 168247250,
      "step": 7785,
      "time_per_iteration": 2.689378499984741
    },
    {
      "auxiliary_loss_clip": 0.01049651,
      "auxiliary_loss_mlp": 0.01001883,
      "balance_loss_clip": 1.00804543,
      "balance_loss_mlp": 1.00086427,
      "epoch": 0.9362111465159623,
      "flos": 61791421052160.0,
      "grad_norm": 0.7218452967296828,
      "language_loss": 0.58653772,
      "learning_rate": 4.246120457331215e-08,
      "loss": 0.60705304,
      "num_input_tokens_seen": 168309425,
      "step": 7786,
      "time_per_iteration": 3.2638890743255615
    },
    {
      "auxiliary_loss_clip": 0.01144767,
      "auxiliary_loss_mlp": 0.01029531,
      "balance_loss_clip": 1.04635978,
      "balance_loss_mlp": 1.02177668,
      "epoch": 0.9363313894066013,
      "flos": 24170395368960.0,
      "grad_norm": 1.881799902516575,
      "language_loss": 0.7212193,
      "learning_rate": 4.2301691483983325e-08,
      "loss": 0.74296224,
      "num_input_tokens_seen": 168329545,
      "step": 7787,
      "time_per_iteration": 2.702815055847168
    },
    {
      "auxiliary_loss_clip": 0.01162863,
      "auxiliary_loss_mlp": 0.01024024,
      "balance_loss_clip": 1.04658484,
      "balance_loss_mlp": 1.01698804,
      "epoch": 0.9364516322972404,
      "flos": 20120354196480.0,
      "grad_norm": 2.0789562127189543,
      "language_loss": 0.76008087,
      "learning_rate": 4.214247537593163e-08,
      "loss": 0.7819497,
      "num_input_tokens_seen": 168348795,
      "step": 7788,
      "time_per_iteration": 2.6141581535339355
    },
    {
      "auxiliary_loss_clip": 0.01151517,
      "auxiliary_loss_mlp": 0.01023176,
      "balance_loss_clip": 1.04359877,
      "balance_loss_mlp": 1.01567459,
      "epoch": 0.9365718751878795,
      "flos": 20703758895360.0,
      "grad_norm": 2.873219719583418,
      "language_loss": 0.80674893,
      "learning_rate": 4.1983556273309293e-08,
      "loss": 0.82849586,
      "num_input_tokens_seen": 168367545,
      "step": 7789,
      "time_per_iteration": 2.6960201263427734
    },
    {
      "auxiliary_loss_clip": 0.01171064,
      "auxiliary_loss_mlp": 0.01029564,
      "balance_loss_clip": 1.04642737,
      "balance_loss_mlp": 1.02118921,
      "epoch": 0.9366921180785186,
      "flos": 18655270260480.0,
      "grad_norm": 4.151361192903103,
      "language_loss": 0.69112104,
      "learning_rate": 4.182493420022526e-08,
      "loss": 0.71312737,
      "num_input_tokens_seen": 168383215,
      "step": 7790,
      "time_per_iteration": 2.573374032974243
    },
    {
      "auxiliary_loss_clip": 0.01138956,
      "auxiliary_loss_mlp": 0.01024426,
      "balance_loss_clip": 1.04092455,
      "balance_loss_mlp": 1.01779771,
      "epoch": 0.9368123609691577,
      "flos": 25774955815680.0,
      "grad_norm": 4.693911597352024,
      "language_loss": 0.78489828,
      "learning_rate": 4.166660918074139e-08,
      "loss": 0.80653214,
      "num_input_tokens_seen": 168403120,
      "step": 7791,
      "time_per_iteration": 2.7182540893554688
    },
    {
      "auxiliary_loss_clip": 0.0113619,
      "auxiliary_loss_mlp": 0.01025945,
      "balance_loss_clip": 1.04208875,
      "balance_loss_mlp": 1.01826835,
      "epoch": 0.9369326038597968,
      "flos": 25553386771200.0,
      "grad_norm": 1.6033078283254354,
      "language_loss": 0.73309612,
      "learning_rate": 4.15085812388758e-08,
      "loss": 0.75471747,
      "num_input_tokens_seen": 168425340,
      "step": 7792,
      "time_per_iteration": 2.735239267349243
    },
    {
      "auxiliary_loss_clip": 0.0115231,
      "auxiliary_loss_mlp": 0.01025884,
      "balance_loss_clip": 1.04684138,
      "balance_loss_mlp": 1.01837945,
      "epoch": 0.9370528467504359,
      "flos": 23220019370880.0,
      "grad_norm": 1.8167751219904669,
      "language_loss": 0.78336304,
      "learning_rate": 4.135085039860153e-08,
      "loss": 0.80514503,
      "num_input_tokens_seen": 168444740,
      "step": 7793,
      "time_per_iteration": 2.6530864238739014
    },
    {
      "auxiliary_loss_clip": 0.01149305,
      "auxiliary_loss_mlp": 0.01028478,
      "balance_loss_clip": 1.04787278,
      "balance_loss_mlp": 1.02134919,
      "epoch": 0.9371730896410749,
      "flos": 24967468120320.0,
      "grad_norm": 2.3536682872382046,
      "language_loss": 0.79157525,
      "learning_rate": 4.1193416683845906e-08,
      "loss": 0.81335312,
      "num_input_tokens_seen": 168463670,
      "step": 7794,
      "time_per_iteration": 2.724114179611206
    },
    {
      "auxiliary_loss_clip": 0.0114151,
      "auxiliary_loss_mlp": 0.01023802,
      "balance_loss_clip": 1.04390311,
      "balance_loss_mlp": 1.01715255,
      "epoch": 0.9372933325317141,
      "flos": 15553091134080.0,
      "grad_norm": 2.351495475334211,
      "language_loss": 0.83580422,
      "learning_rate": 4.103628011849136e-08,
      "loss": 0.85745734,
      "num_input_tokens_seen": 168479030,
      "step": 7795,
      "time_per_iteration": 3.617084264755249
    },
    {
      "auxiliary_loss_clip": 0.01153852,
      "auxiliary_loss_mlp": 0.01027509,
      "balance_loss_clip": 1.04649568,
      "balance_loss_mlp": 1.01972473,
      "epoch": 0.9374135754223532,
      "flos": 21871861182720.0,
      "grad_norm": 1.9854719312127431,
      "language_loss": 0.75601304,
      "learning_rate": 4.0879440726375506e-08,
      "loss": 0.77782661,
      "num_input_tokens_seen": 168496815,
      "step": 7796,
      "time_per_iteration": 2.732088327407837
    },
    {
      "auxiliary_loss_clip": 0.01144234,
      "auxiliary_loss_mlp": 0.01027127,
      "balance_loss_clip": 1.03907049,
      "balance_loss_mlp": 1.01987338,
      "epoch": 0.9375338183129922,
      "flos": 22631048064000.0,
      "grad_norm": 2.8312910628914896,
      "language_loss": 0.56515098,
      "learning_rate": 4.0722898531291074e-08,
      "loss": 0.58686459,
      "num_input_tokens_seen": 168514055,
      "step": 7797,
      "time_per_iteration": 3.561735153198242
    },
    {
      "auxiliary_loss_clip": 0.01158054,
      "auxiliary_loss_mlp": 0.0102252,
      "balance_loss_clip": 1.04558039,
      "balance_loss_mlp": 1.01553142,
      "epoch": 0.9376540612036314,
      "flos": 26104292640000.0,
      "grad_norm": 5.78189026807869,
      "language_loss": 0.76820248,
      "learning_rate": 4.0566653556985295e-08,
      "loss": 0.79000819,
      "num_input_tokens_seen": 168534600,
      "step": 7798,
      "time_per_iteration": 2.7109627723693848
    },
    {
      "auxiliary_loss_clip": 0.01118306,
      "auxiliary_loss_mlp": 0.01028103,
      "balance_loss_clip": 1.04107606,
      "balance_loss_mlp": 1.02003825,
      "epoch": 0.9377743040942704,
      "flos": 19717580016000.0,
      "grad_norm": 2.44309498099622,
      "language_loss": 0.81858766,
      "learning_rate": 4.0410705827159886e-08,
      "loss": 0.84005177,
      "num_input_tokens_seen": 168551895,
      "step": 7799,
      "time_per_iteration": 2.8436245918273926
    },
    {
      "auxiliary_loss_clip": 0.01146362,
      "auxiliary_loss_mlp": 0.01019704,
      "balance_loss_clip": 1.04057765,
      "balance_loss_mlp": 1.01234245,
      "epoch": 0.9378945469849095,
      "flos": 15267530010240.0,
      "grad_norm": 2.30340789458014,
      "language_loss": 0.71179414,
      "learning_rate": 4.0255055365472356e-08,
      "loss": 0.73345476,
      "num_input_tokens_seen": 168569990,
      "step": 7800,
      "time_per_iteration": 3.234774589538574
    },
    {
      "auxiliary_loss_clip": 0.01118183,
      "auxiliary_loss_mlp": 0.01033958,
      "balance_loss_clip": 1.03493047,
      "balance_loss_mlp": 1.0263319,
      "epoch": 0.9380147898755486,
      "flos": 20591394174720.0,
      "grad_norm": 2.26033120228068,
      "language_loss": 0.74543631,
      "learning_rate": 4.009970219553471e-08,
      "loss": 0.76695776,
      "num_input_tokens_seen": 168586940,
      "step": 7801,
      "time_per_iteration": 2.773871421813965
    },
    {
      "auxiliary_loss_clip": 0.0116553,
      "auxiliary_loss_mlp": 0.01032723,
      "balance_loss_clip": 1.04588795,
      "balance_loss_mlp": 1.02460527,
      "epoch": 0.9381350327661877,
      "flos": 26281116316800.0,
      "grad_norm": 2.875065051313563,
      "language_loss": 0.76509488,
      "learning_rate": 3.99446463409141e-08,
      "loss": 0.78707743,
      "num_input_tokens_seen": 168604795,
      "step": 7802,
      "time_per_iteration": 2.6545963287353516
    },
    {
      "auxiliary_loss_clip": 0.01165716,
      "auxiliary_loss_mlp": 0.01029626,
      "balance_loss_clip": 1.04513443,
      "balance_loss_mlp": 1.02139449,
      "epoch": 0.9382552756568268,
      "flos": 23586344225280.0,
      "grad_norm": 2.692316088673931,
      "language_loss": 0.68789935,
      "learning_rate": 3.978988782513215e-08,
      "loss": 0.70985281,
      "num_input_tokens_seen": 168622290,
      "step": 7803,
      "time_per_iteration": 2.587526559829712
    },
    {
      "auxiliary_loss_clip": 0.01164822,
      "auxiliary_loss_mlp": 0.0102834,
      "balance_loss_clip": 1.04674625,
      "balance_loss_mlp": 1.02045393,
      "epoch": 0.9383755185474659,
      "flos": 28438809275520.0,
      "grad_norm": 1.7445887551525245,
      "language_loss": 0.76243848,
      "learning_rate": 3.963542667166586e-08,
      "loss": 0.78437006,
      "num_input_tokens_seen": 168642395,
      "step": 7804,
      "time_per_iteration": 2.697361707687378
    },
    {
      "auxiliary_loss_clip": 0.0114673,
      "auxiliary_loss_mlp": 0.01031057,
      "balance_loss_clip": 1.0494318,
      "balance_loss_mlp": 1.02303457,
      "epoch": 0.938495761438105,
      "flos": 20449583280000.0,
      "grad_norm": 1.7088120177217605,
      "language_loss": 0.68247426,
      "learning_rate": 3.9481262903946486e-08,
      "loss": 0.70425212,
      "num_input_tokens_seen": 168661840,
      "step": 7805,
      "time_per_iteration": 2.6830217838287354
    },
    {
      "auxiliary_loss_clip": 0.0104284,
      "auxiliary_loss_mlp": 0.01000849,
      "balance_loss_clip": 1.00812864,
      "balance_loss_mlp": 0.99986535,
      "epoch": 0.938616004328744,
      "flos": 69302711658240.0,
      "grad_norm": 0.7787144748238112,
      "language_loss": 0.5451262,
      "learning_rate": 3.932739654536066e-08,
      "loss": 0.56556314,
      "num_input_tokens_seen": 168724540,
      "step": 7806,
      "time_per_iteration": 4.145667791366577
    },
    {
      "auxiliary_loss_clip": 0.01162034,
      "auxiliary_loss_mlp": 0.01026265,
      "balance_loss_clip": 1.04656506,
      "balance_loss_mlp": 1.0192436,
      "epoch": 0.9387362472193832,
      "flos": 18911636605440.0,
      "grad_norm": 2.6178630285012137,
      "language_loss": 0.74375659,
      "learning_rate": 3.917382761925014e-08,
      "loss": 0.7656396,
      "num_input_tokens_seen": 168740375,
      "step": 7807,
      "time_per_iteration": 2.63733172416687
    },
    {
      "auxiliary_loss_clip": 0.01156565,
      "auxiliary_loss_mlp": 0.01024086,
      "balance_loss_clip": 1.04678249,
      "balance_loss_mlp": 1.01649284,
      "epoch": 0.9388564901100223,
      "flos": 26501967089280.0,
      "grad_norm": 1.8209940805283904,
      "language_loss": 0.79024172,
      "learning_rate": 3.9020556148910754e-08,
      "loss": 0.8120482,
      "num_input_tokens_seen": 168759730,
      "step": 7808,
      "time_per_iteration": 2.6006932258605957
    },
    {
      "auxiliary_loss_clip": 0.01053175,
      "auxiliary_loss_mlp": 0.01003653,
      "balance_loss_clip": 1.0071938,
      "balance_loss_mlp": 1.00268793,
      "epoch": 0.9389767330006613,
      "flos": 58941083157120.0,
      "grad_norm": 0.7074618521311996,
      "language_loss": 0.56682545,
      "learning_rate": 3.8867582157593895e-08,
      "loss": 0.5873937,
      "num_input_tokens_seen": 168813935,
      "step": 7809,
      "time_per_iteration": 3.05582332611084
    },
    {
      "auxiliary_loss_clip": 0.01159228,
      "auxiliary_loss_mlp": 0.01027245,
      "balance_loss_clip": 1.04863095,
      "balance_loss_mlp": 1.02056623,
      "epoch": 0.9390969758913005,
      "flos": 31102554994560.0,
      "grad_norm": 4.132584267600109,
      "language_loss": 0.76376492,
      "learning_rate": 3.871490566850544e-08,
      "loss": 0.78562963,
      "num_input_tokens_seen": 168838145,
      "step": 7810,
      "time_per_iteration": 2.6917271614074707
    },
    {
      "auxiliary_loss_clip": 0.01142196,
      "auxiliary_loss_mlp": 0.01024213,
      "balance_loss_clip": 1.04168558,
      "balance_loss_mlp": 1.01663709,
      "epoch": 0.9392172187819395,
      "flos": 22419391173120.0,
      "grad_norm": 1.6349761743283537,
      "language_loss": 0.70880848,
      "learning_rate": 3.856252670480642e-08,
      "loss": 0.73047256,
      "num_input_tokens_seen": 168856805,
      "step": 7811,
      "time_per_iteration": 2.7201178073883057
    },
    {
      "auxiliary_loss_clip": 0.01149317,
      "auxiliary_loss_mlp": 0.01026511,
      "balance_loss_clip": 1.04337192,
      "balance_loss_mlp": 1.01865482,
      "epoch": 0.9393374616725786,
      "flos": 19719483436800.0,
      "grad_norm": 1.7047243595140438,
      "language_loss": 0.81460726,
      "learning_rate": 3.841044528961279e-08,
      "loss": 0.83636558,
      "num_input_tokens_seen": 168874600,
      "step": 7812,
      "time_per_iteration": 2.673454523086548
    },
    {
      "auxiliary_loss_clip": 0.0116937,
      "auxiliary_loss_mlp": 0.01019025,
      "balance_loss_clip": 1.0457077,
      "balance_loss_mlp": 1.01109147,
      "epoch": 0.9394577045632178,
      "flos": 24170215800960.0,
      "grad_norm": 1.8102967987399423,
      "language_loss": 0.78879452,
      "learning_rate": 3.825866144599477e-08,
      "loss": 0.81067848,
      "num_input_tokens_seen": 168893655,
      "step": 7813,
      "time_per_iteration": 2.6019225120544434
    },
    {
      "auxiliary_loss_clip": 0.01149121,
      "auxiliary_loss_mlp": 0.01032374,
      "balance_loss_clip": 1.04251909,
      "balance_loss_mlp": 1.02483404,
      "epoch": 0.9395779474538568,
      "flos": 19023929498880.0,
      "grad_norm": 2.124344737729561,
      "language_loss": 0.75413388,
      "learning_rate": 3.8107175196978145e-08,
      "loss": 0.77594882,
      "num_input_tokens_seen": 168909960,
      "step": 7814,
      "time_per_iteration": 2.6012847423553467
    },
    {
      "auxiliary_loss_clip": 0.01138147,
      "auxiliary_loss_mlp": 0.01026384,
      "balance_loss_clip": 1.0421567,
      "balance_loss_mlp": 1.01938701,
      "epoch": 0.9396981903444959,
      "flos": 14319129260160.0,
      "grad_norm": 2.0158443538023874,
      "language_loss": 0.76788616,
      "learning_rate": 3.7955986565542996e-08,
      "loss": 0.78953147,
      "num_input_tokens_seen": 168928040,
      "step": 7815,
      "time_per_iteration": 2.698162078857422
    },
    {
      "auxiliary_loss_clip": 0.01138153,
      "auxiliary_loss_mlp": 0.01022895,
      "balance_loss_clip": 1.04065514,
      "balance_loss_mlp": 1.01539063,
      "epoch": 0.9398184332351349,
      "flos": 34787564202240.0,
      "grad_norm": 1.90508127151772,
      "language_loss": 0.68222177,
      "learning_rate": 3.780509557462497e-08,
      "loss": 0.70383221,
      "num_input_tokens_seen": 168948240,
      "step": 7816,
      "time_per_iteration": 2.813694715499878
    },
    {
      "auxiliary_loss_clip": 0.01148024,
      "auxiliary_loss_mlp": 0.01023378,
      "balance_loss_clip": 1.04225981,
      "balance_loss_mlp": 1.01561201,
      "epoch": 0.9399386761257741,
      "flos": 25372253462400.0,
      "grad_norm": 1.663970701898895,
      "language_loss": 0.75649804,
      "learning_rate": 3.765450224711375e-08,
      "loss": 0.77821207,
      "num_input_tokens_seen": 168968745,
      "step": 7817,
      "time_per_iteration": 2.781707763671875
    },
    {
      "auxiliary_loss_clip": 0.01144215,
      "auxiliary_loss_mlp": 0.01028413,
      "balance_loss_clip": 1.04363775,
      "balance_loss_mlp": 1.02083755,
      "epoch": 0.9400589190164131,
      "flos": 27304965584640.0,
      "grad_norm": 1.9849164604228409,
      "language_loss": 0.79808539,
      "learning_rate": 3.750420660585396e-08,
      "loss": 0.8198117,
      "num_input_tokens_seen": 168990685,
      "step": 7818,
      "time_per_iteration": 2.7645742893218994
    },
    {
      "auxiliary_loss_clip": 0.01168652,
      "auxiliary_loss_mlp": 0.01025775,
      "balance_loss_clip": 1.04694688,
      "balance_loss_mlp": 1.01843774,
      "epoch": 0.9401791619070522,
      "flos": 23399859790080.0,
      "grad_norm": 1.8423105891884697,
      "language_loss": 0.79455721,
      "learning_rate": 3.735420867364603e-08,
      "loss": 0.81650144,
      "num_input_tokens_seen": 169011665,
      "step": 7819,
      "time_per_iteration": 2.5773439407348633
    },
    {
      "auxiliary_loss_clip": 0.0111277,
      "auxiliary_loss_mlp": 0.01020744,
      "balance_loss_clip": 1.03674078,
      "balance_loss_mlp": 1.01405323,
      "epoch": 0.9402994047976914,
      "flos": 35881403120640.0,
      "grad_norm": 1.7898584519976055,
      "language_loss": 0.61461186,
      "learning_rate": 3.7204508473244186e-08,
      "loss": 0.63594699,
      "num_input_tokens_seen": 169035290,
      "step": 7820,
      "time_per_iteration": 2.902092456817627
    },
    {
      "auxiliary_loss_clip": 0.0111003,
      "auxiliary_loss_mlp": 0.01024429,
      "balance_loss_clip": 1.04119527,
      "balance_loss_mlp": 1.01743746,
      "epoch": 0.9404196476883304,
      "flos": 22236821320320.0,
      "grad_norm": 1.795086033288487,
      "language_loss": 0.69259232,
      "learning_rate": 3.7055106027357395e-08,
      "loss": 0.71393687,
      "num_input_tokens_seen": 169055155,
      "step": 7821,
      "time_per_iteration": 4.804017066955566
    },
    {
      "auxiliary_loss_clip": 0.01156985,
      "auxiliary_loss_mlp": 0.01027291,
      "balance_loss_clip": 1.04616988,
      "balance_loss_mlp": 1.01941109,
      "epoch": 0.9405398905789695,
      "flos": 18915802583040.0,
      "grad_norm": 14.337613437255152,
      "language_loss": 0.72131467,
      "learning_rate": 3.690600135865063e-08,
      "loss": 0.74315739,
      "num_input_tokens_seen": 169072080,
      "step": 7822,
      "time_per_iteration": 2.728548526763916
    },
    {
      "auxiliary_loss_clip": 0.01040935,
      "auxiliary_loss_mlp": 0.01002301,
      "balance_loss_clip": 1.00837064,
      "balance_loss_mlp": 1.00125813,
      "epoch": 0.9406601334696086,
      "flos": 70274130048000.0,
      "grad_norm": 0.7928025825671485,
      "language_loss": 0.58061296,
      "learning_rate": 3.675719448974246e-08,
      "loss": 0.60104531,
      "num_input_tokens_seen": 169137170,
      "step": 7823,
      "time_per_iteration": 4.2237229347229
    },
    {
      "auxiliary_loss_clip": 0.01122682,
      "auxiliary_loss_mlp": 0.00886209,
      "balance_loss_clip": 1.03786254,
      "balance_loss_mlp": 1.00051844,
      "epoch": 0.9407803763602477,
      "flos": 22165071903360.0,
      "grad_norm": 1.8022657154451232,
      "language_loss": 0.60277402,
      "learning_rate": 3.6608685443207054e-08,
      "loss": 0.62286294,
      "num_input_tokens_seen": 169156320,
      "step": 7824,
      "time_per_iteration": 2.7310116291046143
    },
    {
      "auxiliary_loss_clip": 0.01141947,
      "auxiliary_loss_mlp": 0.01024846,
      "balance_loss_clip": 1.04268074,
      "balance_loss_mlp": 1.01750898,
      "epoch": 0.9409006192508867,
      "flos": 18879496911360.0,
      "grad_norm": 2.2660203166451347,
      "language_loss": 0.67069805,
      "learning_rate": 3.646047424157306e-08,
      "loss": 0.69236594,
      "num_input_tokens_seen": 169173295,
      "step": 7825,
      "time_per_iteration": 2.7040271759033203
    },
    {
      "auxiliary_loss_clip": 0.01150033,
      "auxiliary_loss_mlp": 0.01026782,
      "balance_loss_clip": 1.04566109,
      "balance_loss_mlp": 1.01870537,
      "epoch": 0.9410208621415259,
      "flos": 23368258800000.0,
      "grad_norm": 2.5772752156476715,
      "language_loss": 0.69069779,
      "learning_rate": 3.631256090732382e-08,
      "loss": 0.71246594,
      "num_input_tokens_seen": 169193755,
      "step": 7826,
      "time_per_iteration": 2.7064337730407715
    },
    {
      "auxiliary_loss_clip": 0.01142858,
      "auxiliary_loss_mlp": 0.01026778,
      "balance_loss_clip": 1.04559171,
      "balance_loss_mlp": 1.01970935,
      "epoch": 0.941141105032165,
      "flos": 22742227635840.0,
      "grad_norm": 3.4327315316407745,
      "language_loss": 0.82660627,
      "learning_rate": 3.6164945462897833e-08,
      "loss": 0.8483026,
      "num_input_tokens_seen": 169213045,
      "step": 7827,
      "time_per_iteration": 2.780043601989746
    },
    {
      "auxiliary_loss_clip": 0.01157615,
      "auxiliary_loss_mlp": 0.00886244,
      "balance_loss_clip": 1.04553938,
      "balance_loss_mlp": 1.00054812,
      "epoch": 0.941261347922804,
      "flos": 20704908130560.0,
      "grad_norm": 1.7276768955565427,
      "language_loss": 0.75855279,
      "learning_rate": 3.6017627930687856e-08,
      "loss": 0.77899146,
      "num_input_tokens_seen": 169232870,
      "step": 7828,
      "time_per_iteration": 2.686260938644409
    },
    {
      "auxiliary_loss_clip": 0.01125545,
      "auxiliary_loss_mlp": 0.01024271,
      "balance_loss_clip": 1.03818774,
      "balance_loss_mlp": 1.01621842,
      "epoch": 0.9413815908134432,
      "flos": 19421998997760.0,
      "grad_norm": 2.110275818603759,
      "language_loss": 0.7696141,
      "learning_rate": 3.587060833304267e-08,
      "loss": 0.7911123,
      "num_input_tokens_seen": 169251060,
      "step": 7829,
      "time_per_iteration": 2.7497167587280273
    },
    {
      "auxiliary_loss_clip": 0.0116545,
      "auxiliary_loss_mlp": 0.0103005,
      "balance_loss_clip": 1.04847383,
      "balance_loss_mlp": 1.02231383,
      "epoch": 0.9415018337040822,
      "flos": 17493452853120.0,
      "grad_norm": 1.906106731836538,
      "language_loss": 0.64236033,
      "learning_rate": 3.5723886692264225e-08,
      "loss": 0.6643154,
      "num_input_tokens_seen": 169268600,
      "step": 7830,
      "time_per_iteration": 2.6551506519317627
    },
    {
      "auxiliary_loss_clip": 0.01148343,
      "auxiliary_loss_mlp": 0.01027537,
      "balance_loss_clip": 1.04270101,
      "balance_loss_mlp": 1.0199554,
      "epoch": 0.9416220765947213,
      "flos": 31831613343360.0,
      "grad_norm": 2.0817640611661523,
      "language_loss": 0.61887228,
      "learning_rate": 3.557746303061071e-08,
      "loss": 0.64063108,
      "num_input_tokens_seen": 169290355,
      "step": 7831,
      "time_per_iteration": 2.7161471843719482
    },
    {
      "auxiliary_loss_clip": 0.01149932,
      "auxiliary_loss_mlp": 0.01031572,
      "balance_loss_clip": 1.0428021,
      "balance_loss_mlp": 1.02421117,
      "epoch": 0.9417423194853605,
      "flos": 23511973115520.0,
      "grad_norm": 2.2774948723425426,
      "language_loss": 0.72519708,
      "learning_rate": 3.543133737029391e-08,
      "loss": 0.74701202,
      "num_input_tokens_seen": 169310865,
      "step": 7832,
      "time_per_iteration": 3.6114790439605713
    },
    {
      "auxiliary_loss_clip": 0.01162515,
      "auxiliary_loss_mlp": 0.01027031,
      "balance_loss_clip": 1.04448712,
      "balance_loss_mlp": 1.01936603,
      "epoch": 0.9418625623759995,
      "flos": 23915106432000.0,
      "grad_norm": 1.7195398283639873,
      "language_loss": 0.6878624,
      "learning_rate": 3.5285509733481214e-08,
      "loss": 0.70975792,
      "num_input_tokens_seen": 169330590,
      "step": 7833,
      "time_per_iteration": 2.636521339416504
    },
    {
      "auxiliary_loss_clip": 0.01156451,
      "auxiliary_loss_mlp": 0.01026751,
      "balance_loss_clip": 1.04507935,
      "balance_loss_mlp": 1.01880014,
      "epoch": 0.9419828052666386,
      "flos": 18076965292800.0,
      "grad_norm": 1.7372575812136382,
      "language_loss": 0.76430053,
      "learning_rate": 3.513998014229469e-08,
      "loss": 0.78613257,
      "num_input_tokens_seen": 169349540,
      "step": 7834,
      "time_per_iteration": 2.607048988342285
    },
    {
      "auxiliary_loss_clip": 0.01152552,
      "auxiliary_loss_mlp": 0.01025275,
      "balance_loss_clip": 1.04593635,
      "balance_loss_mlp": 1.01770508,
      "epoch": 0.9421030481572777,
      "flos": 17712328377600.0,
      "grad_norm": 2.1349132577761645,
      "language_loss": 0.86064732,
      "learning_rate": 3.499474861881069e-08,
      "loss": 0.88242561,
      "num_input_tokens_seen": 169366765,
      "step": 7835,
      "time_per_iteration": 2.6713006496429443
    },
    {
      "auxiliary_loss_clip": 0.0112175,
      "auxiliary_loss_mlp": 0.01026265,
      "balance_loss_clip": 1.04110682,
      "balance_loss_mlp": 1.01834989,
      "epoch": 0.9422232910479168,
      "flos": 20194114775040.0,
      "grad_norm": 1.942649613151337,
      "language_loss": 0.67897928,
      "learning_rate": 3.4849815185061136e-08,
      "loss": 0.70045948,
      "num_input_tokens_seen": 169386655,
      "step": 7836,
      "time_per_iteration": 2.741708755493164
    },
    {
      "auxiliary_loss_clip": 0.01159499,
      "auxiliary_loss_mlp": 0.01024991,
      "balance_loss_clip": 1.04449761,
      "balance_loss_mlp": 1.01730752,
      "epoch": 0.9423435339385559,
      "flos": 18442571875200.0,
      "grad_norm": 2.5949233094404156,
      "language_loss": 0.75998938,
      "learning_rate": 3.470517986303223e-08,
      "loss": 0.78183424,
      "num_input_tokens_seen": 169405640,
      "step": 7837,
      "time_per_iteration": 2.6646676063537598
    },
    {
      "auxiliary_loss_clip": 0.01140833,
      "auxiliary_loss_mlp": 0.01030159,
      "balance_loss_clip": 1.04641652,
      "balance_loss_mlp": 1.02244282,
      "epoch": 0.942463776829195,
      "flos": 20080636732800.0,
      "grad_norm": 1.7933279237666657,
      "language_loss": 0.79314303,
      "learning_rate": 3.4560842674664856e-08,
      "loss": 0.81485295,
      "num_input_tokens_seen": 169424155,
      "step": 7838,
      "time_per_iteration": 2.689335823059082
    },
    {
      "auxiliary_loss_clip": 0.01161641,
      "auxiliary_loss_mlp": 0.0102325,
      "balance_loss_clip": 1.04351926,
      "balance_loss_mlp": 1.01589489,
      "epoch": 0.9425840197198341,
      "flos": 22636255536000.0,
      "grad_norm": 2.0131205218944763,
      "language_loss": 0.75039828,
      "learning_rate": 3.441680364185506e-08,
      "loss": 0.7722472,
      "num_input_tokens_seen": 169444025,
      "step": 7839,
      "time_per_iteration": 2.634333848953247
    },
    {
      "auxiliary_loss_clip": 0.01157216,
      "auxiliary_loss_mlp": 0.01035445,
      "balance_loss_clip": 1.04827094,
      "balance_loss_mlp": 1.02737486,
      "epoch": 0.9427042626104731,
      "flos": 19937892084480.0,
      "grad_norm": 2.701871541363892,
      "language_loss": 0.75024211,
      "learning_rate": 3.427306278645314e-08,
      "loss": 0.77216876,
      "num_input_tokens_seen": 169462480,
      "step": 7840,
      "time_per_iteration": 2.701070785522461
    },
    {
      "auxiliary_loss_clip": 0.01132205,
      "auxiliary_loss_mlp": 0.01028425,
      "balance_loss_clip": 1.04195893,
      "balance_loss_mlp": 1.02098036,
      "epoch": 0.9428245055011123,
      "flos": 22856998567680.0,
      "grad_norm": 2.048439743632,
      "language_loss": 0.72655398,
      "learning_rate": 3.4129620130264767e-08,
      "loss": 0.74816036,
      "num_input_tokens_seen": 169480840,
      "step": 7841,
      "time_per_iteration": 2.761660575866699
    },
    {
      "auxiliary_loss_clip": 0.01154862,
      "auxiliary_loss_mlp": 0.00885949,
      "balance_loss_clip": 1.04632425,
      "balance_loss_mlp": 1.00055623,
      "epoch": 0.9429447483917514,
      "flos": 20951757371520.0,
      "grad_norm": 2.395569566371037,
      "language_loss": 0.78023702,
      "learning_rate": 3.398647569505009e-08,
      "loss": 0.80064517,
      "num_input_tokens_seen": 169498265,
      "step": 7842,
      "time_per_iteration": 2.6574339866638184
    },
    {
      "auxiliary_loss_clip": 0.01147799,
      "auxiliary_loss_mlp": 0.01027449,
      "balance_loss_clip": 1.04401922,
      "balance_loss_mlp": 1.01957548,
      "epoch": 0.9430649912823904,
      "flos": 18843658116480.0,
      "grad_norm": 6.899560557612683,
      "language_loss": 0.75279832,
      "learning_rate": 3.384362950252373e-08,
      "loss": 0.7745508,
      "num_input_tokens_seen": 169515235,
      "step": 7843,
      "time_per_iteration": 2.6791539192199707
    },
    {
      "auxiliary_loss_clip": 0.01149314,
      "auxiliary_loss_mlp": 0.0102842,
      "balance_loss_clip": 1.04296684,
      "balance_loss_mlp": 1.02139831,
      "epoch": 0.9431852341730296,
      "flos": 32556038837760.0,
      "grad_norm": 2.7761316076409255,
      "language_loss": 0.56997997,
      "learning_rate": 3.3701081574355473e-08,
      "loss": 0.5917573,
      "num_input_tokens_seen": 169537195,
      "step": 7844,
      "time_per_iteration": 2.7924885749816895
    },
    {
      "auxiliary_loss_clip": 0.01052959,
      "auxiliary_loss_mlp": 0.01000917,
      "balance_loss_clip": 1.00766063,
      "balance_loss_mlp": 0.99987406,
      "epoch": 0.9433054770636686,
      "flos": 66904490252160.0,
      "grad_norm": 0.6384341558200035,
      "language_loss": 0.51656342,
      "learning_rate": 3.3558831932169796e-08,
      "loss": 0.53710222,
      "num_input_tokens_seen": 169605865,
      "step": 7845,
      "time_per_iteration": 3.2884490489959717
    },
    {
      "auxiliary_loss_clip": 0.01160244,
      "auxiliary_loss_mlp": 0.01024764,
      "balance_loss_clip": 1.04749846,
      "balance_loss_mlp": 1.01745617,
      "epoch": 0.9434257199543077,
      "flos": 26140346916480.0,
      "grad_norm": 3.0409122636922055,
      "language_loss": 0.88757086,
      "learning_rate": 3.341688059754588e-08,
      "loss": 0.90942091,
      "num_input_tokens_seen": 169621520,
      "step": 7846,
      "time_per_iteration": 3.6363232135772705
    },
    {
      "auxiliary_loss_clip": 0.01148186,
      "auxiliary_loss_mlp": 0.0088572,
      "balance_loss_clip": 1.04263353,
      "balance_loss_mlp": 1.00055313,
      "epoch": 0.9435459628449467,
      "flos": 25003486483200.0,
      "grad_norm": 2.359430331170044,
      "language_loss": 0.77673602,
      "learning_rate": 3.327522759201762e-08,
      "loss": 0.79707515,
      "num_input_tokens_seen": 169641390,
      "step": 7847,
      "time_per_iteration": 3.6085076332092285
    },
    {
      "auxiliary_loss_clip": 0.01136587,
      "auxiliary_loss_mlp": 0.01022486,
      "balance_loss_clip": 1.04181528,
      "balance_loss_mlp": 1.01503515,
      "epoch": 0.9436662057355859,
      "flos": 22163240309760.0,
      "grad_norm": 2.220451883771309,
      "language_loss": 0.66887271,
      "learning_rate": 3.313387293707359e-08,
      "loss": 0.69046342,
      "num_input_tokens_seen": 169660095,
      "step": 7848,
      "time_per_iteration": 2.7027623653411865
    },
    {
      "auxiliary_loss_clip": 0.01135264,
      "auxiliary_loss_mlp": 0.01025549,
      "balance_loss_clip": 1.04226661,
      "balance_loss_mlp": 1.01776195,
      "epoch": 0.943786448626225,
      "flos": 20118522602880.0,
      "grad_norm": 1.8193233719296542,
      "language_loss": 0.68399823,
      "learning_rate": 3.29928166541571e-08,
      "loss": 0.70560634,
      "num_input_tokens_seen": 169679050,
      "step": 7849,
      "time_per_iteration": 3.5657806396484375
    },
    {
      "auxiliary_loss_clip": 0.01141894,
      "auxiliary_loss_mlp": 0.01022155,
      "balance_loss_clip": 1.04351294,
      "balance_loss_mlp": 1.01467502,
      "epoch": 0.943906691516864,
      "flos": 22090808534400.0,
      "grad_norm": 1.9534307621142477,
      "language_loss": 0.806027,
      "learning_rate": 3.2852058764666346e-08,
      "loss": 0.82766747,
      "num_input_tokens_seen": 169698150,
      "step": 7850,
      "time_per_iteration": 2.722252130508423
    },
    {
      "auxiliary_loss_clip": 0.01132869,
      "auxiliary_loss_mlp": 0.01033214,
      "balance_loss_clip": 1.04731619,
      "balance_loss_mlp": 1.02581453,
      "epoch": 0.9440269344075032,
      "flos": 35298501212160.0,
      "grad_norm": 1.8200809470246933,
      "language_loss": 0.68507779,
      "learning_rate": 3.2711599289954264e-08,
      "loss": 0.70673859,
      "num_input_tokens_seen": 169722185,
      "step": 7851,
      "time_per_iteration": 2.857862949371338
    },
    {
      "auxiliary_loss_clip": 0.01123735,
      "auxiliary_loss_mlp": 0.01024122,
      "balance_loss_clip": 1.04301918,
      "balance_loss_mlp": 1.01649261,
      "epoch": 0.9441471772981422,
      "flos": 19238136255360.0,
      "grad_norm": 1.7501962187779554,
      "language_loss": 0.77882421,
      "learning_rate": 3.257143825132847e-08,
      "loss": 0.8003028,
      "num_input_tokens_seen": 169740355,
      "step": 7852,
      "time_per_iteration": 2.8372366428375244
    },
    {
      "auxiliary_loss_clip": 0.01153289,
      "auxiliary_loss_mlp": 0.01021334,
      "balance_loss_clip": 1.04497194,
      "balance_loss_mlp": 1.01428556,
      "epoch": 0.9442674201887813,
      "flos": 25739799379200.0,
      "grad_norm": 1.8198395960392175,
      "language_loss": 0.76070923,
      "learning_rate": 3.243157567005106e-08,
      "loss": 0.78245544,
      "num_input_tokens_seen": 169758535,
      "step": 7853,
      "time_per_iteration": 2.7050344944000244
    },
    {
      "auxiliary_loss_clip": 0.01174696,
      "auxiliary_loss_mlp": 0.01026583,
      "balance_loss_clip": 1.04992294,
      "balance_loss_mlp": 1.01835179,
      "epoch": 0.9443876630794205,
      "flos": 15523321737600.0,
      "grad_norm": 2.656581312542052,
      "language_loss": 0.636482,
      "learning_rate": 3.2292011567339296e-08,
      "loss": 0.65849483,
      "num_input_tokens_seen": 169776340,
      "step": 7854,
      "time_per_iteration": 2.59623646736145
    },
    {
      "auxiliary_loss_clip": 0.0116145,
      "auxiliary_loss_mlp": 0.00886294,
      "balance_loss_clip": 1.04481697,
      "balance_loss_mlp": 1.00057602,
      "epoch": 0.9445079059700595,
      "flos": 13400821128960.0,
      "grad_norm": 1.9473347926202107,
      "language_loss": 0.55609059,
      "learning_rate": 3.21527459643649e-08,
      "loss": 0.57656807,
      "num_input_tokens_seen": 169793225,
      "step": 7855,
      "time_per_iteration": 2.6103627681732178
    },
    {
      "auxiliary_loss_clip": 0.01163329,
      "auxiliary_loss_mlp": 0.01024825,
      "balance_loss_clip": 1.04672492,
      "balance_loss_mlp": 1.01761031,
      "epoch": 0.9446281488606986,
      "flos": 23659242877440.0,
      "grad_norm": 3.08640996244428,
      "language_loss": 0.74174058,
      "learning_rate": 3.2013778882254536e-08,
      "loss": 0.76362216,
      "num_input_tokens_seen": 169812020,
      "step": 7856,
      "time_per_iteration": 2.65120005607605
    },
    {
      "auxiliary_loss_clip": 0.01153539,
      "auxiliary_loss_mlp": 0.01026142,
      "balance_loss_clip": 1.04527593,
      "balance_loss_mlp": 1.01858473,
      "epoch": 0.9447483917513377,
      "flos": 25557337267200.0,
      "grad_norm": 2.2677233908673213,
      "language_loss": 0.75828004,
      "learning_rate": 3.1875110342088676e-08,
      "loss": 0.78007686,
      "num_input_tokens_seen": 169833470,
      "step": 7857,
      "time_per_iteration": 2.724531412124634
    },
    {
      "auxiliary_loss_clip": 0.01146043,
      "auxiliary_loss_mlp": 0.01027275,
      "balance_loss_clip": 1.04636455,
      "balance_loss_mlp": 1.01942754,
      "epoch": 0.9448686346419768,
      "flos": 24535463247360.0,
      "grad_norm": 1.6267174932876078,
      "language_loss": 0.65540385,
      "learning_rate": 3.1736740364904035e-08,
      "loss": 0.67713702,
      "num_input_tokens_seen": 169854000,
      "step": 7858,
      "time_per_iteration": 3.560751438140869
    },
    {
      "auxiliary_loss_clip": 0.01130467,
      "auxiliary_loss_mlp": 0.00886724,
      "balance_loss_clip": 1.04161704,
      "balance_loss_mlp": 1.0004952,
      "epoch": 0.9449888775326158,
      "flos": 14721256995840.0,
      "grad_norm": 2.2054404449378917,
      "language_loss": 0.76944965,
      "learning_rate": 3.159866897169094e-08,
      "loss": 0.78962159,
      "num_input_tokens_seen": 169872200,
      "step": 7859,
      "time_per_iteration": 2.7444469928741455
    },
    {
      "auxiliary_loss_clip": 0.0114823,
      "auxiliary_loss_mlp": 0.01024153,
      "balance_loss_clip": 1.04482365,
      "balance_loss_mlp": 1.01664257,
      "epoch": 0.945109120423255,
      "flos": 15447873219840.0,
      "grad_norm": 2.0370344386128876,
      "language_loss": 0.75401628,
      "learning_rate": 3.146089618339487e-08,
      "loss": 0.77574009,
      "num_input_tokens_seen": 169889055,
      "step": 7860,
      "time_per_iteration": 2.6222481727600098
    },
    {
      "auxiliary_loss_clip": 0.01141881,
      "auxiliary_loss_mlp": 0.01028237,
      "balance_loss_clip": 1.04261065,
      "balance_loss_mlp": 1.02056623,
      "epoch": 0.9452293633138941,
      "flos": 25448097029760.0,
      "grad_norm": 1.9267746374787325,
      "language_loss": 0.67761016,
      "learning_rate": 3.132342202091554e-08,
      "loss": 0.69931138,
      "num_input_tokens_seen": 169909280,
      "step": 7861,
      "time_per_iteration": 2.7448575496673584
    },
    {
      "auxiliary_loss_clip": 0.01172055,
      "auxiliary_loss_mlp": 0.01022167,
      "balance_loss_clip": 1.04820466,
      "balance_loss_mlp": 1.01420975,
      "epoch": 0.9453496062045331,
      "flos": 21215342350080.0,
      "grad_norm": 2.3561828766385924,
      "language_loss": 0.67967469,
      "learning_rate": 3.1186246505107595e-08,
      "loss": 0.70161688,
      "num_input_tokens_seen": 169928420,
      "step": 7862,
      "time_per_iteration": 2.665666341781616
    },
    {
      "auxiliary_loss_clip": 0.01161283,
      "auxiliary_loss_mlp": 0.01031165,
      "balance_loss_clip": 1.04777145,
      "balance_loss_mlp": 1.023983,
      "epoch": 0.9454698490951723,
      "flos": 20010898477440.0,
      "grad_norm": 1.7565251690029802,
      "language_loss": 0.83403188,
      "learning_rate": 3.104936965678084e-08,
      "loss": 0.85595632,
      "num_input_tokens_seen": 169946750,
      "step": 7863,
      "time_per_iteration": 2.648974895477295
    },
    {
      "auxiliary_loss_clip": 0.01161992,
      "auxiliary_loss_mlp": 0.01023929,
      "balance_loss_clip": 1.04523253,
      "balance_loss_mlp": 1.01628816,
      "epoch": 0.9455900919858113,
      "flos": 21069652786560.0,
      "grad_norm": 2.1494879872857884,
      "language_loss": 0.82332933,
      "learning_rate": 3.091279149669956e-08,
      "loss": 0.84518856,
      "num_input_tokens_seen": 169965540,
      "step": 7864,
      "time_per_iteration": 2.7619965076446533
    },
    {
      "auxiliary_loss_clip": 0.01158307,
      "auxiliary_loss_mlp": 0.00886374,
      "balance_loss_clip": 1.04458594,
      "balance_loss_mlp": 1.00054073,
      "epoch": 0.9457103348764504,
      "flos": 20740854666240.0,
      "grad_norm": 3.8742898798273635,
      "language_loss": 0.74000084,
      "learning_rate": 3.0776512045581624e-08,
      "loss": 0.76044762,
      "num_input_tokens_seen": 169984330,
      "step": 7865,
      "time_per_iteration": 2.6455116271972656
    },
    {
      "auxiliary_loss_clip": 0.01144717,
      "auxiliary_loss_mlp": 0.01031444,
      "balance_loss_clip": 1.04476035,
      "balance_loss_mlp": 1.02369547,
      "epoch": 0.9458305777670896,
      "flos": 21428363957760.0,
      "grad_norm": 2.0921576141258846,
      "language_loss": 0.77743042,
      "learning_rate": 3.0640531324101384e-08,
      "loss": 0.79919201,
      "num_input_tokens_seen": 170002095,
      "step": 7866,
      "time_per_iteration": 2.631499767303467
    },
    {
      "auxiliary_loss_clip": 0.01163976,
      "auxiliary_loss_mlp": 0.01026921,
      "balance_loss_clip": 1.05066621,
      "balance_loss_mlp": 1.0193454,
      "epoch": 0.9459508206577286,
      "flos": 20011185786240.0,
      "grad_norm": 3.422891267696109,
      "language_loss": 0.76037943,
      "learning_rate": 3.0504849352886554e-08,
      "loss": 0.78228837,
      "num_input_tokens_seen": 170020240,
      "step": 7867,
      "time_per_iteration": 2.6216423511505127
    },
    {
      "auxiliary_loss_clip": 0.01162194,
      "auxiliary_loss_mlp": 0.01029648,
      "balance_loss_clip": 1.0488162,
      "balance_loss_mlp": 1.02133322,
      "epoch": 0.9460710635483677,
      "flos": 12166428291840.0,
      "grad_norm": 5.762673342312651,
      "language_loss": 0.71504974,
      "learning_rate": 3.036946615252023e-08,
      "loss": 0.73696816,
      "num_input_tokens_seen": 170035770,
      "step": 7868,
      "time_per_iteration": 2.6545417308807373
    },
    {
      "auxiliary_loss_clip": 0.01156991,
      "auxiliary_loss_mlp": 0.01029881,
      "balance_loss_clip": 1.04468513,
      "balance_loss_mlp": 1.02268052,
      "epoch": 0.9461913064390068,
      "flos": 34276196229120.0,
      "grad_norm": 3.5060783638371196,
      "language_loss": 0.66769803,
      "learning_rate": 3.0234381743539984e-08,
      "loss": 0.68956673,
      "num_input_tokens_seen": 170053385,
      "step": 7869,
      "time_per_iteration": 2.719897508621216
    },
    {
      "auxiliary_loss_clip": 0.01156733,
      "auxiliary_loss_mlp": 0.01021578,
      "balance_loss_clip": 1.04416239,
      "balance_loss_mlp": 1.01380515,
      "epoch": 0.9463115493296459,
      "flos": 19463763536640.0,
      "grad_norm": 1.9800021728162958,
      "language_loss": 0.79880369,
      "learning_rate": 3.0099596146437863e-08,
      "loss": 0.82058674,
      "num_input_tokens_seen": 170070490,
      "step": 7870,
      "time_per_iteration": 2.619342565536499
    },
    {
      "auxiliary_loss_clip": 0.01061497,
      "auxiliary_loss_mlp": 0.010014,
      "balance_loss_clip": 1.0068444,
      "balance_loss_mlp": 1.00044084,
      "epoch": 0.946431792220285,
      "flos": 70570824387840.0,
      "grad_norm": 0.7920247211805782,
      "language_loss": 0.60025924,
      "learning_rate": 2.996510938166086e-08,
      "loss": 0.62088823,
      "num_input_tokens_seen": 170133465,
      "step": 7871,
      "time_per_iteration": 3.2571489810943604
    },
    {
      "auxiliary_loss_clip": 0.01159492,
      "auxiliary_loss_mlp": 0.0102745,
      "balance_loss_clip": 1.04657364,
      "balance_loss_mlp": 1.02050614,
      "epoch": 0.9465520351109241,
      "flos": 18947906363520.0,
      "grad_norm": 2.0211439919332186,
      "language_loss": 0.73617649,
      "learning_rate": 2.983092146960997e-08,
      "loss": 0.75804591,
      "num_input_tokens_seen": 170150810,
      "step": 7872,
      "time_per_iteration": 3.5745186805725098
    },
    {
      "auxiliary_loss_clip": 0.01151296,
      "auxiliary_loss_mlp": 0.01026388,
      "balance_loss_clip": 1.04294538,
      "balance_loss_mlp": 1.01816213,
      "epoch": 0.9466722780015632,
      "flos": 19135647774720.0,
      "grad_norm": 2.24159605803501,
      "language_loss": 0.80037737,
      "learning_rate": 2.9697032430642256e-08,
      "loss": 0.82215416,
      "num_input_tokens_seen": 170169025,
      "step": 7873,
      "time_per_iteration": 3.649017810821533
    },
    {
      "auxiliary_loss_clip": 0.01166396,
      "auxiliary_loss_mlp": 0.01021057,
      "balance_loss_clip": 1.04673064,
      "balance_loss_mlp": 1.01396668,
      "epoch": 0.9467925208922022,
      "flos": 17237912520960.0,
      "grad_norm": 4.224472726712968,
      "language_loss": 0.73607194,
      "learning_rate": 2.9563442285067906e-08,
      "loss": 0.75794649,
      "num_input_tokens_seen": 170186070,
      "step": 7874,
      "time_per_iteration": 2.572908401489258
    },
    {
      "auxiliary_loss_clip": 0.01164724,
      "auxiliary_loss_mlp": 0.01028296,
      "balance_loss_clip": 1.04840875,
      "balance_loss_mlp": 1.02035654,
      "epoch": 0.9469127637828414,
      "flos": 29169016859520.0,
      "grad_norm": 1.8290160793333163,
      "language_loss": 0.79306853,
      "learning_rate": 2.943015105315294e-08,
      "loss": 0.81499875,
      "num_input_tokens_seen": 170206265,
      "step": 7875,
      "time_per_iteration": 3.51491117477417
    },
    {
      "auxiliary_loss_clip": 0.01134259,
      "auxiliary_loss_mlp": 0.01028414,
      "balance_loss_clip": 1.04189646,
      "balance_loss_mlp": 1.02017617,
      "epoch": 0.9470330066734804,
      "flos": 26030460234240.0,
      "grad_norm": 3.614650584716682,
      "language_loss": 0.66435015,
      "learning_rate": 2.929715875511718e-08,
      "loss": 0.68597686,
      "num_input_tokens_seen": 170225300,
      "step": 7876,
      "time_per_iteration": 2.7383644580841064
    },
    {
      "auxiliary_loss_clip": 0.01159837,
      "auxiliary_loss_mlp": 0.01025011,
      "balance_loss_clip": 1.04274487,
      "balance_loss_mlp": 1.01781428,
      "epoch": 0.9471532495641195,
      "flos": 23440906056960.0,
      "grad_norm": 1.756439950322596,
      "language_loss": 0.70192647,
      "learning_rate": 2.9164465411135375e-08,
      "loss": 0.72377491,
      "num_input_tokens_seen": 170245070,
      "step": 7877,
      "time_per_iteration": 2.668975353240967
    },
    {
      "auxiliary_loss_clip": 0.01159239,
      "auxiliary_loss_mlp": 0.01028868,
      "balance_loss_clip": 1.04726815,
      "balance_loss_mlp": 1.02150404,
      "epoch": 0.9472734924547586,
      "flos": 15815850099840.0,
      "grad_norm": 1.8819261611226326,
      "language_loss": 0.80874717,
      "learning_rate": 2.9032071041337426e-08,
      "loss": 0.83062828,
      "num_input_tokens_seen": 170263305,
      "step": 7878,
      "time_per_iteration": 2.593182325363159
    },
    {
      "auxiliary_loss_clip": 0.01141744,
      "auxiliary_loss_mlp": 0.0102719,
      "balance_loss_clip": 1.04381979,
      "balance_loss_mlp": 1.01955509,
      "epoch": 0.9473937353453977,
      "flos": 11181793697280.0,
      "grad_norm": 1.6365679193015297,
      "language_loss": 0.72873372,
      "learning_rate": 2.889997566580704e-08,
      "loss": 0.75042307,
      "num_input_tokens_seen": 170281460,
      "step": 7879,
      "time_per_iteration": 2.6768057346343994
    },
    {
      "auxiliary_loss_clip": 0.01169881,
      "auxiliary_loss_mlp": 0.01028374,
      "balance_loss_clip": 1.04621792,
      "balance_loss_mlp": 1.02017236,
      "epoch": 0.9475139782360368,
      "flos": 25775530433280.0,
      "grad_norm": 1.7624431933366778,
      "language_loss": 0.70271057,
      "learning_rate": 2.8768179304583086e-08,
      "loss": 0.72469318,
      "num_input_tokens_seen": 170303515,
      "step": 7880,
      "time_per_iteration": 2.6430163383483887
    },
    {
      "auxiliary_loss_clip": 0.01139569,
      "auxiliary_loss_mlp": 0.0102908,
      "balance_loss_clip": 1.04479206,
      "balance_loss_mlp": 1.02215099,
      "epoch": 0.9476342211266758,
      "flos": 22820046451200.0,
      "grad_norm": 2.0183975654059823,
      "language_loss": 0.73385108,
      "learning_rate": 2.8636681977659117e-08,
      "loss": 0.75553757,
      "num_input_tokens_seen": 170323165,
      "step": 7881,
      "time_per_iteration": 2.7104125022888184
    },
    {
      "auxiliary_loss_clip": 0.01127861,
      "auxiliary_loss_mlp": 0.01027793,
      "balance_loss_clip": 1.04351115,
      "balance_loss_mlp": 1.01962078,
      "epoch": 0.947754464017315,
      "flos": 20193611984640.0,
      "grad_norm": 1.9710212471750095,
      "language_loss": 0.7770595,
      "learning_rate": 2.850548370498318e-08,
      "loss": 0.79861605,
      "num_input_tokens_seen": 170341005,
      "step": 7882,
      "time_per_iteration": 2.730137825012207
    },
    {
      "auxiliary_loss_clip": 0.01159057,
      "auxiliary_loss_mlp": 0.01027181,
      "balance_loss_clip": 1.04425049,
      "balance_loss_mlp": 1.02028477,
      "epoch": 0.9478747069079541,
      "flos": 24717925359360.0,
      "grad_norm": 1.5337037035845797,
      "language_loss": 0.71162528,
      "learning_rate": 2.8374584506457798e-08,
      "loss": 0.73348773,
      "num_input_tokens_seen": 170362280,
      "step": 7883,
      "time_per_iteration": 2.653698444366455
    },
    {
      "auxiliary_loss_clip": 0.0114803,
      "auxiliary_loss_mlp": 0.01025245,
      "balance_loss_clip": 1.04476619,
      "balance_loss_mlp": 1.01759768,
      "epoch": 0.9479949497985931,
      "flos": 21361355136000.0,
      "grad_norm": 3.3279802934197678,
      "language_loss": 0.67707485,
      "learning_rate": 2.824398440193998e-08,
      "loss": 0.6988076,
      "num_input_tokens_seen": 170381080,
      "step": 7884,
      "time_per_iteration": 3.6088366508483887
    },
    {
      "auxiliary_loss_clip": 0.01121854,
      "auxiliary_loss_mlp": 0.01032756,
      "balance_loss_clip": 1.03813016,
      "balance_loss_mlp": 1.02499509,
      "epoch": 0.9481151926892323,
      "flos": 18148606968960.0,
      "grad_norm": 2.1574675862921717,
      "language_loss": 0.71107602,
      "learning_rate": 2.811368341124232e-08,
      "loss": 0.73262203,
      "num_input_tokens_seen": 170400150,
      "step": 7885,
      "time_per_iteration": 2.737431526184082
    },
    {
      "auxiliary_loss_clip": 0.01149696,
      "auxiliary_loss_mlp": 0.01027354,
      "balance_loss_clip": 1.04385924,
      "balance_loss_mlp": 1.01987028,
      "epoch": 0.9482354355798713,
      "flos": 22128012046080.0,
      "grad_norm": 2.229083503843795,
      "language_loss": 0.6803838,
      "learning_rate": 2.7983681554131222e-08,
      "loss": 0.70215422,
      "num_input_tokens_seen": 170420410,
      "step": 7886,
      "time_per_iteration": 2.6913650035858154
    },
    {
      "auxiliary_loss_clip": 0.0115012,
      "auxiliary_loss_mlp": 0.01025611,
      "balance_loss_clip": 1.04345727,
      "balance_loss_mlp": 1.01773751,
      "epoch": 0.9483556784705104,
      "flos": 19063072344960.0,
      "grad_norm": 2.4187258929280953,
      "language_loss": 0.70523608,
      "learning_rate": 2.7853978850327365e-08,
      "loss": 0.72699338,
      "num_input_tokens_seen": 170439580,
      "step": 7887,
      "time_per_iteration": 2.6908581256866455
    },
    {
      "auxiliary_loss_clip": 0.01143254,
      "auxiliary_loss_mlp": 0.01029517,
      "balance_loss_clip": 1.04887402,
      "balance_loss_mlp": 1.02206302,
      "epoch": 0.9484759213611496,
      "flos": 25777110631680.0,
      "grad_norm": 1.7246429218249297,
      "language_loss": 0.87085581,
      "learning_rate": 2.7724575319507225e-08,
      "loss": 0.89258349,
      "num_input_tokens_seen": 170459290,
      "step": 7888,
      "time_per_iteration": 2.7136082649230957
    },
    {
      "auxiliary_loss_clip": 0.01156677,
      "auxiliary_loss_mlp": 0.0102708,
      "balance_loss_clip": 1.04191279,
      "balance_loss_mlp": 1.01991534,
      "epoch": 0.9485961642517886,
      "flos": 20667740532480.0,
      "grad_norm": 1.8229818469131982,
      "language_loss": 0.77137959,
      "learning_rate": 2.759547098130044e-08,
      "loss": 0.79321712,
      "num_input_tokens_seen": 170478020,
      "step": 7889,
      "time_per_iteration": 2.639019012451172
    },
    {
      "auxiliary_loss_clip": 0.01165453,
      "auxiliary_loss_mlp": 0.01025739,
      "balance_loss_clip": 1.04521465,
      "balance_loss_mlp": 1.01797843,
      "epoch": 0.9487164071424277,
      "flos": 22674069578880.0,
      "grad_norm": 1.969040285262657,
      "language_loss": 0.7642653,
      "learning_rate": 2.746666585529267e-08,
      "loss": 0.78617728,
      "num_input_tokens_seen": 170498295,
      "step": 7890,
      "time_per_iteration": 2.6208934783935547
    },
    {
      "auxiliary_loss_clip": 0.01153246,
      "auxiliary_loss_mlp": 0.01023931,
      "balance_loss_clip": 1.04389119,
      "balance_loss_mlp": 1.01646245,
      "epoch": 0.9488366500330668,
      "flos": 38726461716480.0,
      "grad_norm": 2.026252052822101,
      "language_loss": 0.74249041,
      "learning_rate": 2.73381599610234e-08,
      "loss": 0.7642622,
      "num_input_tokens_seen": 170518695,
      "step": 7891,
      "time_per_iteration": 2.859219789505005
    },
    {
      "auxiliary_loss_clip": 0.01154153,
      "auxiliary_loss_mlp": 0.01023886,
      "balance_loss_clip": 1.04277921,
      "balance_loss_mlp": 1.0163939,
      "epoch": 0.9489568929237059,
      "flos": 27890920149120.0,
      "grad_norm": 13.726981737809425,
      "language_loss": 0.71235651,
      "learning_rate": 2.7209953317987033e-08,
      "loss": 0.73413688,
      "num_input_tokens_seen": 170539735,
      "step": 7892,
      "time_per_iteration": 2.6426682472229004
    },
    {
      "auxiliary_loss_clip": 0.01161628,
      "auxiliary_loss_mlp": 0.01025648,
      "balance_loss_clip": 1.0470221,
      "balance_loss_mlp": 1.01827788,
      "epoch": 0.9490771358143449,
      "flos": 33580642291200.0,
      "grad_norm": 6.332021058136089,
      "language_loss": 0.782435,
      "learning_rate": 2.7082045945631793e-08,
      "loss": 0.80430776,
      "num_input_tokens_seen": 170561950,
      "step": 7893,
      "time_per_iteration": 2.7917566299438477
    },
    {
      "auxiliary_loss_clip": 0.01131292,
      "auxiliary_loss_mlp": 0.01027432,
      "balance_loss_clip": 1.04270399,
      "balance_loss_mlp": 1.01996922,
      "epoch": 0.9491973787049841,
      "flos": 14793796512000.0,
      "grad_norm": 1.995614370314248,
      "language_loss": 0.69712436,
      "learning_rate": 2.6954437863361712e-08,
      "loss": 0.71871167,
      "num_input_tokens_seen": 170579865,
      "step": 7894,
      "time_per_iteration": 2.66973614692688
    },
    {
      "auxiliary_loss_clip": 0.01127174,
      "auxiliary_loss_mlp": 0.01026995,
      "balance_loss_clip": 1.04233575,
      "balance_loss_mlp": 1.02012801,
      "epoch": 0.9493176215956232,
      "flos": 25332535998720.0,
      "grad_norm": 2.0340003422454616,
      "language_loss": 0.70758069,
      "learning_rate": 2.6827129090534862e-08,
      "loss": 0.72912234,
      "num_input_tokens_seen": 170600165,
      "step": 7895,
      "time_per_iteration": 2.845548629760742
    },
    {
      "auxiliary_loss_clip": 0.01147664,
      "auxiliary_loss_mlp": 0.01026145,
      "balance_loss_clip": 1.04467726,
      "balance_loss_mlp": 1.01843202,
      "epoch": 0.9494378644862622,
      "flos": 21029971236480.0,
      "grad_norm": 1.9192561926580918,
      "language_loss": 0.78013313,
      "learning_rate": 2.670011964646335e-08,
      "loss": 0.80187118,
      "num_input_tokens_seen": 170618845,
      "step": 7896,
      "time_per_iteration": 2.6818013191223145
    },
    {
      "auxiliary_loss_clip": 0.01117221,
      "auxiliary_loss_mlp": 0.01030843,
      "balance_loss_clip": 1.03490448,
      "balance_loss_mlp": 1.02295101,
      "epoch": 0.9495581073769014,
      "flos": 15195134148480.0,
      "grad_norm": 8.23613517674848,
      "language_loss": 0.68280065,
      "learning_rate": 2.657340955041487e-08,
      "loss": 0.70428133,
      "num_input_tokens_seen": 170637620,
      "step": 7897,
      "time_per_iteration": 2.9010307788848877
    },
    {
      "auxiliary_loss_clip": 0.01149029,
      "auxiliary_loss_mlp": 0.01025103,
      "balance_loss_clip": 1.04771519,
      "balance_loss_mlp": 1.01732183,
      "epoch": 0.9496783502675404,
      "flos": 28616566705920.0,
      "grad_norm": 2.7224210501476684,
      "language_loss": 0.71880895,
      "learning_rate": 2.6446998821611167e-08,
      "loss": 0.74055028,
      "num_input_tokens_seen": 170657815,
      "step": 7898,
      "time_per_iteration": 3.77558970451355
    },
    {
      "auxiliary_loss_clip": 0.01133073,
      "auxiliary_loss_mlp": 0.01022756,
      "balance_loss_clip": 1.0418148,
      "balance_loss_mlp": 1.01536489,
      "epoch": 0.9497985931581795,
      "flos": 14866874732160.0,
      "grad_norm": 3.2589709594599188,
      "language_loss": 0.71819562,
      "learning_rate": 2.6320887479228228e-08,
      "loss": 0.73975396,
      "num_input_tokens_seen": 170674415,
      "step": 7899,
      "time_per_iteration": 3.598369836807251
    },
    {
      "auxiliary_loss_clip": 0.01154116,
      "auxiliary_loss_mlp": 0.01024508,
      "balance_loss_clip": 1.04331946,
      "balance_loss_mlp": 1.01691997,
      "epoch": 0.9499188360488187,
      "flos": 27193319136000.0,
      "grad_norm": 2.144704731923035,
      "language_loss": 0.72650957,
      "learning_rate": 2.619507554239786e-08,
      "loss": 0.74829578,
      "num_input_tokens_seen": 170692975,
      "step": 7900,
      "time_per_iteration": 2.695668935775757
    },
    {
      "auxiliary_loss_clip": 0.01148518,
      "auxiliary_loss_mlp": 0.01025661,
      "balance_loss_clip": 1.04205906,
      "balance_loss_mlp": 1.01789761,
      "epoch": 0.9500390789394577,
      "flos": 24316479982080.0,
      "grad_norm": 1.6880099110045543,
      "language_loss": 0.69786894,
      "learning_rate": 2.606956303020502e-08,
      "loss": 0.71961081,
      "num_input_tokens_seen": 170713780,
      "step": 7901,
      "time_per_iteration": 3.56834077835083
    },
    {
      "auxiliary_loss_clip": 0.01162932,
      "auxiliary_loss_mlp": 0.01024952,
      "balance_loss_clip": 1.04856133,
      "balance_loss_mlp": 1.01807117,
      "epoch": 0.9501593218300968,
      "flos": 14354752573440.0,
      "grad_norm": 1.750609313016339,
      "language_loss": 0.84088445,
      "learning_rate": 2.5944349961690036e-08,
      "loss": 0.86276329,
      "num_input_tokens_seen": 170730800,
      "step": 7902,
      "time_per_iteration": 2.5968823432922363
    },
    {
      "auxiliary_loss_clip": 0.01141587,
      "auxiliary_loss_mlp": 0.01021674,
      "balance_loss_clip": 1.04414058,
      "balance_loss_mlp": 1.01431847,
      "epoch": 0.9502795647207359,
      "flos": 38728113742080.0,
      "grad_norm": 1.6437151415894784,
      "language_loss": 0.73052716,
      "learning_rate": 2.581943635584749e-08,
      "loss": 0.75215977,
      "num_input_tokens_seen": 170753630,
      "step": 7903,
      "time_per_iteration": 2.865015745162964
    },
    {
      "auxiliary_loss_clip": 0.01142004,
      "auxiliary_loss_mlp": 0.01022873,
      "balance_loss_clip": 1.04313338,
      "balance_loss_mlp": 1.01575637,
      "epoch": 0.950399807611375,
      "flos": 40808023799040.0,
      "grad_norm": 1.6090347791207034,
      "language_loss": 0.65523636,
      "learning_rate": 2.569482223162689e-08,
      "loss": 0.67688507,
      "num_input_tokens_seen": 170777605,
      "step": 7904,
      "time_per_iteration": 2.8233351707458496
    },
    {
      "auxiliary_loss_clip": 0.01159894,
      "auxiliary_loss_mlp": 0.01025367,
      "balance_loss_clip": 1.04511952,
      "balance_loss_mlp": 1.01762486,
      "epoch": 0.950520050502014,
      "flos": 23440403266560.0,
      "grad_norm": 1.7679933460220965,
      "language_loss": 0.72396123,
      "learning_rate": 2.5570507607932e-08,
      "loss": 0.74581379,
      "num_input_tokens_seen": 170797520,
      "step": 7905,
      "time_per_iteration": 2.6612963676452637
    },
    {
      "auxiliary_loss_clip": 0.01164928,
      "auxiliary_loss_mlp": 0.01026679,
      "balance_loss_clip": 1.04560041,
      "balance_loss_mlp": 1.01908553,
      "epoch": 0.9506402933926532,
      "flos": 17783718658560.0,
      "grad_norm": 3.8475184789962547,
      "language_loss": 0.6338588,
      "learning_rate": 2.54464925036213e-08,
      "loss": 0.65577489,
      "num_input_tokens_seen": 170814810,
      "step": 7906,
      "time_per_iteration": 2.584766149520874
    },
    {
      "auxiliary_loss_clip": 0.01157845,
      "auxiliary_loss_mlp": 0.01022923,
      "balance_loss_clip": 1.04615903,
      "balance_loss_mlp": 1.01560926,
      "epoch": 0.9507605362832923,
      "flos": 32561928668160.0,
      "grad_norm": 1.7804257366834,
      "language_loss": 0.60633558,
      "learning_rate": 2.532277693750773e-08,
      "loss": 0.62814331,
      "num_input_tokens_seen": 170835735,
      "step": 7907,
      "time_per_iteration": 2.7653331756591797
    },
    {
      "auxiliary_loss_clip": 0.01128625,
      "auxiliary_loss_mlp": 0.01027322,
      "balance_loss_clip": 1.04407215,
      "balance_loss_mlp": 1.01985335,
      "epoch": 0.9508807791739313,
      "flos": 19602054898560.0,
      "grad_norm": 2.0012761601336515,
      "language_loss": 0.75707322,
      "learning_rate": 2.5199360928358948e-08,
      "loss": 0.77863264,
      "num_input_tokens_seen": 170852970,
      "step": 7908,
      "time_per_iteration": 2.69331955909729
    },
    {
      "auxiliary_loss_clip": 0.01150214,
      "auxiliary_loss_mlp": 0.00885628,
      "balance_loss_clip": 1.04338157,
      "balance_loss_mlp": 1.00051904,
      "epoch": 0.9510010220645704,
      "flos": 21471852349440.0,
      "grad_norm": 1.877951615243625,
      "language_loss": 0.86952019,
      "learning_rate": 2.507624449489665e-08,
      "loss": 0.88987863,
      "num_input_tokens_seen": 170871600,
      "step": 7909,
      "time_per_iteration": 2.647966146469116
    },
    {
      "auxiliary_loss_clip": 0.0115404,
      "auxiliary_loss_mlp": 0.01027098,
      "balance_loss_clip": 1.04691362,
      "balance_loss_mlp": 1.01921248,
      "epoch": 0.9511212649552095,
      "flos": 18879999701760.0,
      "grad_norm": 1.9511492289239027,
      "language_loss": 0.64642274,
      "learning_rate": 2.495342765579811e-08,
      "loss": 0.66823411,
      "num_input_tokens_seen": 170890260,
      "step": 7910,
      "time_per_iteration": 3.6183254718780518
    },
    {
      "auxiliary_loss_clip": 0.01127313,
      "auxiliary_loss_mlp": 0.01026197,
      "balance_loss_clip": 1.04199493,
      "balance_loss_mlp": 1.0185436,
      "epoch": 0.9512415078458486,
      "flos": 20810521094400.0,
      "grad_norm": 1.9190198864299062,
      "language_loss": 0.7112937,
      "learning_rate": 2.4830910429693984e-08,
      "loss": 0.73282886,
      "num_input_tokens_seen": 170910220,
      "step": 7911,
      "time_per_iteration": 2.781299114227295
    },
    {
      "auxiliary_loss_clip": 0.01170499,
      "auxiliary_loss_mlp": 0.01024648,
      "balance_loss_clip": 1.04734731,
      "balance_loss_mlp": 1.01733422,
      "epoch": 0.9513617507364877,
      "flos": 18369565482240.0,
      "grad_norm": 2.154885168515142,
      "language_loss": 0.79813176,
      "learning_rate": 2.470869283517052e-08,
      "loss": 0.82008326,
      "num_input_tokens_seen": 170928255,
      "step": 7912,
      "time_per_iteration": 2.5961737632751465
    },
    {
      "auxiliary_loss_clip": 0.01154996,
      "auxiliary_loss_mlp": 0.01029962,
      "balance_loss_clip": 1.04523134,
      "balance_loss_mlp": 1.02238619,
      "epoch": 0.9514819936271268,
      "flos": 25010166412800.0,
      "grad_norm": 1.9032191814736825,
      "language_loss": 0.77056819,
      "learning_rate": 2.458677489076777e-08,
      "loss": 0.79241776,
      "num_input_tokens_seen": 170949265,
      "step": 7913,
      "time_per_iteration": 2.6774587631225586
    },
    {
      "auxiliary_loss_clip": 0.01149499,
      "auxiliary_loss_mlp": 0.01030893,
      "balance_loss_clip": 1.04161096,
      "balance_loss_mlp": 1.02350175,
      "epoch": 0.9516022365177659,
      "flos": 18662129758080.0,
      "grad_norm": 1.8625084121373925,
      "language_loss": 0.82958674,
      "learning_rate": 2.446515661498072e-08,
      "loss": 0.85139072,
      "num_input_tokens_seen": 170968595,
      "step": 7914,
      "time_per_iteration": 2.6454217433929443
    },
    {
      "auxiliary_loss_clip": 0.01118948,
      "auxiliary_loss_mlp": 0.01025651,
      "balance_loss_clip": 1.03933263,
      "balance_loss_mlp": 1.01796222,
      "epoch": 0.9517224794084049,
      "flos": 25372109808000.0,
      "grad_norm": 2.10006535203863,
      "language_loss": 0.74151659,
      "learning_rate": 2.434383802625861e-08,
      "loss": 0.76296258,
      "num_input_tokens_seen": 170987550,
      "step": 7915,
      "time_per_iteration": 2.765439510345459
    },
    {
      "auxiliary_loss_clip": 0.01141014,
      "auxiliary_loss_mlp": 0.0102636,
      "balance_loss_clip": 1.04083252,
      "balance_loss_mlp": 1.01933265,
      "epoch": 0.9518427222990441,
      "flos": 21470918595840.0,
      "grad_norm": 2.444298104639385,
      "language_loss": 0.74006909,
      "learning_rate": 2.4222819143005168e-08,
      "loss": 0.76174289,
      "num_input_tokens_seen": 171007145,
      "step": 7916,
      "time_per_iteration": 2.704427719116211
    },
    {
      "auxiliary_loss_clip": 0.01167639,
      "auxiliary_loss_mlp": 0.01033504,
      "balance_loss_clip": 1.04780507,
      "balance_loss_mlp": 1.02582133,
      "epoch": 0.9519629651896832,
      "flos": 21033634423680.0,
      "grad_norm": 1.8998852660775638,
      "language_loss": 0.80944705,
      "learning_rate": 2.4102099983579706e-08,
      "loss": 0.83145839,
      "num_input_tokens_seen": 171026295,
      "step": 7917,
      "time_per_iteration": 2.558532476425171
    },
    {
      "auxiliary_loss_clip": 0.01159947,
      "auxiliary_loss_mlp": 0.01026726,
      "balance_loss_clip": 1.04494667,
      "balance_loss_mlp": 1.01833391,
      "epoch": 0.9520832080803222,
      "flos": 21689219502720.0,
      "grad_norm": 1.649479963424284,
      "language_loss": 0.77256811,
      "learning_rate": 2.3981680566294236e-08,
      "loss": 0.79443479,
      "num_input_tokens_seen": 171045895,
      "step": 7918,
      "time_per_iteration": 2.6871447563171387
    },
    {
      "auxiliary_loss_clip": 0.01169919,
      "auxiliary_loss_mlp": 0.0102501,
      "balance_loss_clip": 1.05052495,
      "balance_loss_mlp": 1.01747036,
      "epoch": 0.9522034509709614,
      "flos": 23145289125120.0,
      "grad_norm": 1.740622286083344,
      "language_loss": 0.73616689,
      "learning_rate": 2.3861560909416822e-08,
      "loss": 0.75811619,
      "num_input_tokens_seen": 171065445,
      "step": 7919,
      "time_per_iteration": 2.588994026184082
    },
    {
      "auxiliary_loss_clip": 0.01131527,
      "auxiliary_loss_mlp": 0.01029942,
      "balance_loss_clip": 1.04340577,
      "balance_loss_mlp": 1.02281058,
      "epoch": 0.9523236938616004,
      "flos": 24679428958080.0,
      "grad_norm": 1.8498278827621164,
      "language_loss": 0.82419074,
      "learning_rate": 2.3741741031169325e-08,
      "loss": 0.84580547,
      "num_input_tokens_seen": 171085015,
      "step": 7920,
      "time_per_iteration": 2.7402007579803467
    },
    {
      "auxiliary_loss_clip": 0.01128176,
      "auxiliary_loss_mlp": 0.01029076,
      "balance_loss_clip": 1.04156232,
      "balance_loss_mlp": 1.02089822,
      "epoch": 0.9524439367522395,
      "flos": 22672309812480.0,
      "grad_norm": 1.6478613734543692,
      "language_loss": 0.71364415,
      "learning_rate": 2.3622220949728544e-08,
      "loss": 0.73521668,
      "num_input_tokens_seen": 171103900,
      "step": 7921,
      "time_per_iteration": 2.726024627685547
    },
    {
      "auxiliary_loss_clip": 0.01152584,
      "auxiliary_loss_mlp": 0.01027317,
      "balance_loss_clip": 1.04353094,
      "balance_loss_mlp": 1.01952696,
      "epoch": 0.9525641796428787,
      "flos": 34055525024640.0,
      "grad_norm": 2.531613520582463,
      "language_loss": 0.61740291,
      "learning_rate": 2.3503000683225526e-08,
      "loss": 0.63920194,
      "num_input_tokens_seen": 171121615,
      "step": 7922,
      "time_per_iteration": 2.6942741870880127
    },
    {
      "auxiliary_loss_clip": 0.01170056,
      "auxiliary_loss_mlp": 0.01024093,
      "balance_loss_clip": 1.04602671,
      "balance_loss_mlp": 1.01685119,
      "epoch": 0.9526844225335177,
      "flos": 16727083251840.0,
      "grad_norm": 2.0376591245153652,
      "language_loss": 0.8399229,
      "learning_rate": 2.3384080249745585e-08,
      "loss": 0.86186433,
      "num_input_tokens_seen": 171139505,
      "step": 7923,
      "time_per_iteration": 2.6050660610198975
    },
    {
      "auxiliary_loss_clip": 0.01134624,
      "auxiliary_loss_mlp": 0.01021772,
      "balance_loss_clip": 1.04073286,
      "balance_loss_mlp": 1.01460195,
      "epoch": 0.9528046654241568,
      "flos": 36939367330560.0,
      "grad_norm": 2.287931882684372,
      "language_loss": 0.83040696,
      "learning_rate": 2.3265459667329178e-08,
      "loss": 0.85197091,
      "num_input_tokens_seen": 171158995,
      "step": 7924,
      "time_per_iteration": 3.8537888526916504
    },
    {
      "auxiliary_loss_clip": 0.01151205,
      "auxiliary_loss_mlp": 0.0102599,
      "balance_loss_clip": 1.0458734,
      "balance_loss_mlp": 1.01897728,
      "epoch": 0.9529249083147959,
      "flos": 18255010032000.0,
      "grad_norm": 2.2965116222025967,
      "language_loss": 0.86401951,
      "learning_rate": 2.31471389539708e-08,
      "loss": 0.88579148,
      "num_input_tokens_seen": 171176120,
      "step": 7925,
      "time_per_iteration": 3.5768423080444336
    },
    {
      "auxiliary_loss_clip": 0.0116128,
      "auxiliary_loss_mlp": 0.00885435,
      "balance_loss_clip": 1.04697561,
      "balance_loss_mlp": 1.00052786,
      "epoch": 0.953045151205435,
      "flos": 28658438985600.0,
      "grad_norm": 1.9618827606410303,
      "language_loss": 0.72966456,
      "learning_rate": 2.3029118127619872e-08,
      "loss": 0.75013173,
      "num_input_tokens_seen": 171195835,
      "step": 7926,
      "time_per_iteration": 3.5817437171936035
    },
    {
      "auxiliary_loss_clip": 0.0114398,
      "auxiliary_loss_mlp": 0.01027184,
      "balance_loss_clip": 1.04391837,
      "balance_loss_mlp": 1.01914883,
      "epoch": 0.953165394096074,
      "flos": 21835232288640.0,
      "grad_norm": 2.129233321362442,
      "language_loss": 0.86887002,
      "learning_rate": 2.2911397206179628e-08,
      "loss": 0.89058173,
      "num_input_tokens_seen": 171212585,
      "step": 7927,
      "time_per_iteration": 2.6893348693847656
    },
    {
      "auxiliary_loss_clip": 0.01169544,
      "auxiliary_loss_mlp": 0.0103066,
      "balance_loss_clip": 1.04882741,
      "balance_loss_mlp": 1.02322125,
      "epoch": 0.9532856369867132,
      "flos": 19975059682560.0,
      "grad_norm": 1.9195852579451138,
      "language_loss": 0.62595522,
      "learning_rate": 2.279397620750845e-08,
      "loss": 0.64795727,
      "num_input_tokens_seen": 171231630,
      "step": 7928,
      "time_per_iteration": 2.639798641204834
    },
    {
      "auxiliary_loss_clip": 0.01147216,
      "auxiliary_loss_mlp": 0.01026726,
      "balance_loss_clip": 1.04442668,
      "balance_loss_mlp": 1.01973104,
      "epoch": 0.9534058798773523,
      "flos": 15049588239360.0,
      "grad_norm": 18.514988873717957,
      "language_loss": 0.78677982,
      "learning_rate": 2.2676855149419195e-08,
      "loss": 0.80851924,
      "num_input_tokens_seen": 171248800,
      "step": 7929,
      "time_per_iteration": 2.7091033458709717
    },
    {
      "auxiliary_loss_clip": 0.01146673,
      "auxiliary_loss_mlp": 0.01029842,
      "balance_loss_clip": 1.04615974,
      "balance_loss_mlp": 1.02213502,
      "epoch": 0.9535261227679913,
      "flos": 17602800831360.0,
      "grad_norm": 2.302718341874783,
      "language_loss": 0.75530255,
      "learning_rate": 2.2560034049678988e-08,
      "loss": 0.77706766,
      "num_input_tokens_seen": 171263150,
      "step": 7930,
      "time_per_iteration": 2.632857084274292
    },
    {
      "auxiliary_loss_clip": 0.01174525,
      "auxiliary_loss_mlp": 0.01027973,
      "balance_loss_clip": 1.04926026,
      "balance_loss_mlp": 1.01998901,
      "epoch": 0.9536463656586305,
      "flos": 23142954741120.0,
      "grad_norm": 1.7858247567755978,
      "language_loss": 0.75789803,
      "learning_rate": 2.2443512926008988e-08,
      "loss": 0.77992296,
      "num_input_tokens_seen": 171282480,
      "step": 7931,
      "time_per_iteration": 2.568131923675537
    },
    {
      "auxiliary_loss_clip": 0.01143652,
      "auxiliary_loss_mlp": 0.01023456,
      "balance_loss_clip": 1.04225659,
      "balance_loss_mlp": 1.01568317,
      "epoch": 0.9537666085492695,
      "flos": 18625033987200.0,
      "grad_norm": 2.5277279813450666,
      "language_loss": 0.69562948,
      "learning_rate": 2.2327291796085946e-08,
      "loss": 0.71730059,
      "num_input_tokens_seen": 171300840,
      "step": 7932,
      "time_per_iteration": 2.7101023197174072
    },
    {
      "auxiliary_loss_clip": 0.0117146,
      "auxiliary_loss_mlp": 0.01030698,
      "balance_loss_clip": 1.04808962,
      "balance_loss_mlp": 1.02326858,
      "epoch": 0.9538868514399086,
      "flos": 18989347680000.0,
      "grad_norm": 3.6984052728406596,
      "language_loss": 0.77324998,
      "learning_rate": 2.2211370677540197e-08,
      "loss": 0.79527158,
      "num_input_tokens_seen": 171317365,
      "step": 7933,
      "time_per_iteration": 2.568387985229492
    },
    {
      "auxiliary_loss_clip": 0.01170693,
      "auxiliary_loss_mlp": 0.01023683,
      "balance_loss_clip": 1.04693484,
      "balance_loss_mlp": 1.01599693,
      "epoch": 0.9540070943305478,
      "flos": 16800556521600.0,
      "grad_norm": 4.769498951494512,
      "language_loss": 0.78511423,
      "learning_rate": 2.2095749587957012e-08,
      "loss": 0.80705798,
      "num_input_tokens_seen": 171335270,
      "step": 7934,
      "time_per_iteration": 2.589371681213379
    },
    {
      "auxiliary_loss_clip": 0.01145744,
      "auxiliary_loss_mlp": 0.01024835,
      "balance_loss_clip": 1.04140913,
      "balance_loss_mlp": 1.01734829,
      "epoch": 0.9541273372211868,
      "flos": 20156911263360.0,
      "grad_norm": 1.7713987019584043,
      "language_loss": 0.69932085,
      "learning_rate": 2.1980428544876138e-08,
      "loss": 0.7210266,
      "num_input_tokens_seen": 171353910,
      "step": 7935,
      "time_per_iteration": 2.700918436050415
    },
    {
      "auxiliary_loss_clip": 0.01122843,
      "auxiliary_loss_mlp": 0.01028047,
      "balance_loss_clip": 1.03566253,
      "balance_loss_mlp": 1.0205611,
      "epoch": 0.9542475801118259,
      "flos": 26725511381760.0,
      "grad_norm": 1.692730408327779,
      "language_loss": 0.74160129,
      "learning_rate": 2.1865407565791584e-08,
      "loss": 0.76311022,
      "num_input_tokens_seen": 171375480,
      "step": 7936,
      "time_per_iteration": 3.7327880859375
    },
    {
      "auxiliary_loss_clip": 0.01147843,
      "auxiliary_loss_mlp": 0.01024971,
      "balance_loss_clip": 1.04129684,
      "balance_loss_mlp": 1.01777625,
      "epoch": 0.954367823002465,
      "flos": 23330911633920.0,
      "grad_norm": 1.9366565610154989,
      "language_loss": 0.77309096,
      "learning_rate": 2.175068666815183e-08,
      "loss": 0.79481912,
      "num_input_tokens_seen": 171396320,
      "step": 7937,
      "time_per_iteration": 2.678807497024536
    },
    {
      "auxiliary_loss_clip": 0.01139215,
      "auxiliary_loss_mlp": 0.01026596,
      "balance_loss_clip": 1.04217196,
      "balance_loss_mlp": 1.01884711,
      "epoch": 0.9544880658931041,
      "flos": 14902713527040.0,
      "grad_norm": 2.329794446490067,
      "language_loss": 0.79000854,
      "learning_rate": 2.163626586935985e-08,
      "loss": 0.81166661,
      "num_input_tokens_seen": 171412860,
      "step": 7938,
      "time_per_iteration": 2.6881513595581055
    },
    {
      "auxiliary_loss_clip": 0.01154664,
      "auxiliary_loss_mlp": 0.0103426,
      "balance_loss_clip": 1.04293668,
      "balance_loss_mlp": 1.02645159,
      "epoch": 0.9546083087837431,
      "flos": 29095902725760.0,
      "grad_norm": 2.2882175832323544,
      "language_loss": 0.63436568,
      "learning_rate": 2.1522145186773755e-08,
      "loss": 0.65625495,
      "num_input_tokens_seen": 171431780,
      "step": 7939,
      "time_per_iteration": 2.6928937435150146
    },
    {
      "auxiliary_loss_clip": 0.01150779,
      "auxiliary_loss_mlp": 0.01030267,
      "balance_loss_clip": 1.04591966,
      "balance_loss_mlp": 1.02313197,
      "epoch": 0.9547285516743822,
      "flos": 21142335957120.0,
      "grad_norm": 1.6663484799823256,
      "language_loss": 0.85634089,
      "learning_rate": 2.140832463770481e-08,
      "loss": 0.8781513,
      "num_input_tokens_seen": 171450975,
      "step": 7940,
      "time_per_iteration": 2.68620228767395
    },
    {
      "auxiliary_loss_clip": 0.01152182,
      "auxiliary_loss_mlp": 0.01027217,
      "balance_loss_clip": 1.04210174,
      "balance_loss_mlp": 1.01948023,
      "epoch": 0.9548487945650214,
      "flos": 27490157130240.0,
      "grad_norm": 2.2005449015515173,
      "language_loss": 0.75850642,
      "learning_rate": 2.129480423941987e-08,
      "loss": 0.78030038,
      "num_input_tokens_seen": 171467645,
      "step": 7941,
      "time_per_iteration": 2.7333667278289795
    },
    {
      "auxiliary_loss_clip": 0.01155025,
      "auxiliary_loss_mlp": 0.01024506,
      "balance_loss_clip": 1.04535055,
      "balance_loss_mlp": 1.01714516,
      "epoch": 0.9549690374556604,
      "flos": 22273198819200.0,
      "grad_norm": 1.5978289982528622,
      "language_loss": 0.80211926,
      "learning_rate": 2.1181584009140052e-08,
      "loss": 0.82391465,
      "num_input_tokens_seen": 171487185,
      "step": 7942,
      "time_per_iteration": 2.6936399936676025
    },
    {
      "auxiliary_loss_clip": 0.01149499,
      "auxiliary_loss_mlp": 0.01022668,
      "balance_loss_clip": 1.04372382,
      "balance_loss_mlp": 1.01615357,
      "epoch": 0.9550892803462995,
      "flos": 17595294888960.0,
      "grad_norm": 1.9945034303136138,
      "language_loss": 0.83854228,
      "learning_rate": 2.10686639640405e-08,
      "loss": 0.86026394,
      "num_input_tokens_seen": 171501275,
      "step": 7943,
      "time_per_iteration": 2.6305389404296875
    },
    {
      "auxiliary_loss_clip": 0.01166517,
      "auxiliary_loss_mlp": 0.01032543,
      "balance_loss_clip": 1.04817677,
      "balance_loss_mlp": 1.0252744,
      "epoch": 0.9552095232369386,
      "flos": 24353144789760.0,
      "grad_norm": 1.8405541609860339,
      "language_loss": 0.81251061,
      "learning_rate": 2.0956044121251294e-08,
      "loss": 0.83450121,
      "num_input_tokens_seen": 171520060,
      "step": 7944,
      "time_per_iteration": 2.6863088607788086
    },
    {
      "auxiliary_loss_clip": 0.01139902,
      "auxiliary_loss_mlp": 0.01023167,
      "balance_loss_clip": 1.04513466,
      "balance_loss_mlp": 1.01538813,
      "epoch": 0.9553297661275777,
      "flos": 22746860490240.0,
      "grad_norm": 2.6287698946656546,
      "language_loss": 0.81087857,
      "learning_rate": 2.084372449785654e-08,
      "loss": 0.83250928,
      "num_input_tokens_seen": 171539895,
      "step": 7945,
      "time_per_iteration": 2.7127885818481445
    },
    {
      "auxiliary_loss_clip": 0.0114537,
      "auxiliary_loss_mlp": 0.01028582,
      "balance_loss_clip": 1.04191375,
      "balance_loss_mlp": 1.02128685,
      "epoch": 0.9554500090182168,
      "flos": 15413866018560.0,
      "grad_norm": 1.9429034708591513,
      "language_loss": 0.68608248,
      "learning_rate": 2.0731705110895282e-08,
      "loss": 0.70782197,
      "num_input_tokens_seen": 171557385,
      "step": 7946,
      "time_per_iteration": 2.6282341480255127
    },
    {
      "auxiliary_loss_clip": 0.01163383,
      "auxiliary_loss_mlp": 0.01024644,
      "balance_loss_clip": 1.04828584,
      "balance_loss_mlp": 1.01674628,
      "epoch": 0.9555702519088559,
      "flos": 23513517400320.0,
      "grad_norm": 1.9693568621947497,
      "language_loss": 0.86751604,
      "learning_rate": 2.0619985977360587e-08,
      "loss": 0.88939631,
      "num_input_tokens_seen": 171575705,
      "step": 7947,
      "time_per_iteration": 2.622298240661621
    },
    {
      "auxiliary_loss_clip": 0.01132498,
      "auxiliary_loss_mlp": 0.01025335,
      "balance_loss_clip": 1.0384078,
      "balance_loss_mlp": 1.01833475,
      "epoch": 0.955690494799495,
      "flos": 22962072827520.0,
      "grad_norm": 2.330681254683129,
      "language_loss": 0.77204466,
      "learning_rate": 2.0508567114200237e-08,
      "loss": 0.79362297,
      "num_input_tokens_seen": 171595620,
      "step": 7948,
      "time_per_iteration": 2.792283296585083
    },
    {
      "auxiliary_loss_clip": 0.01151734,
      "auxiliary_loss_mlp": 0.01023595,
      "balance_loss_clip": 1.04305339,
      "balance_loss_mlp": 1.01663661,
      "epoch": 0.955810737690134,
      "flos": 26031250333440.0,
      "grad_norm": 2.3592856718113264,
      "language_loss": 0.78655851,
      "learning_rate": 2.0397448538316485e-08,
      "loss": 0.80831182,
      "num_input_tokens_seen": 171616660,
      "step": 7949,
      "time_per_iteration": 3.6561501026153564
    },
    {
      "auxiliary_loss_clip": 0.01136152,
      "auxiliary_loss_mlp": 0.01026453,
      "balance_loss_clip": 1.04160297,
      "balance_loss_mlp": 1.01899099,
      "epoch": 0.9559309805807732,
      "flos": 20849951249280.0,
      "grad_norm": 2.0979876133843645,
      "language_loss": 0.6660732,
      "learning_rate": 2.028663026656563e-08,
      "loss": 0.68769926,
      "num_input_tokens_seen": 171635515,
      "step": 7950,
      "time_per_iteration": 2.738760232925415
    },
    {
      "auxiliary_loss_clip": 0.01169143,
      "auxiliary_loss_mlp": 0.00886298,
      "balance_loss_clip": 1.04748583,
      "balance_loss_mlp": 1.00050712,
      "epoch": 0.9560512234714122,
      "flos": 21578219498880.0,
      "grad_norm": 1.8179378680308604,
      "language_loss": 0.71663326,
      "learning_rate": 2.0176112315758885e-08,
      "loss": 0.73718768,
      "num_input_tokens_seen": 171653305,
      "step": 7951,
      "time_per_iteration": 2.609367609024048
    },
    {
      "auxiliary_loss_clip": 0.01136264,
      "auxiliary_loss_mlp": 0.01024392,
      "balance_loss_clip": 1.04116678,
      "balance_loss_mlp": 1.01689911,
      "epoch": 0.9561714663620513,
      "flos": 17450144029440.0,
      "grad_norm": 5.771438220816979,
      "language_loss": 0.6924029,
      "learning_rate": 2.0065894702661957e-08,
      "loss": 0.71400952,
      "num_input_tokens_seen": 171669980,
      "step": 7952,
      "time_per_iteration": 4.512474298477173
    },
    {
      "auxiliary_loss_clip": 0.01135049,
      "auxiliary_loss_mlp": 0.00886327,
      "balance_loss_clip": 1.04148865,
      "balance_loss_mlp": 1.00055575,
      "epoch": 0.9562917092526905,
      "flos": 26098510550400.0,
      "grad_norm": 2.2949673191107802,
      "language_loss": 0.77826929,
      "learning_rate": 1.9955977443994577e-08,
      "loss": 0.79848313,
      "num_input_tokens_seen": 171689970,
      "step": 7953,
      "time_per_iteration": 2.7525599002838135
    },
    {
      "auxiliary_loss_clip": 0.01148016,
      "auxiliary_loss_mlp": 0.0102951,
      "balance_loss_clip": 1.04239821,
      "balance_loss_mlp": 1.02006257,
      "epoch": 0.9564119521433295,
      "flos": 24096742531200.0,
      "grad_norm": 2.4560215222199697,
      "language_loss": 0.61929995,
      "learning_rate": 1.9846360556430965e-08,
      "loss": 0.64107525,
      "num_input_tokens_seen": 171708270,
      "step": 7954,
      "time_per_iteration": 2.7331554889678955
    },
    {
      "auxiliary_loss_clip": 0.01167907,
      "auxiliary_loss_mlp": 0.01026687,
      "balance_loss_clip": 1.04631305,
      "balance_loss_mlp": 1.01881957,
      "epoch": 0.9565321950339686,
      "flos": 32008903896960.0,
      "grad_norm": 2.1963917675152085,
      "language_loss": 0.61684394,
      "learning_rate": 1.973704405660004e-08,
      "loss": 0.63878989,
      "num_input_tokens_seen": 171729385,
      "step": 7955,
      "time_per_iteration": 2.667435884475708
    },
    {
      "auxiliary_loss_clip": 0.01120958,
      "auxiliary_loss_mlp": 0.01025692,
      "balance_loss_clip": 1.03944099,
      "balance_loss_mlp": 1.01884627,
      "epoch": 0.9566524379246077,
      "flos": 23588642695680.0,
      "grad_norm": 1.5208674312721597,
      "language_loss": 0.77976394,
      "learning_rate": 1.9628027961085203e-08,
      "loss": 0.80123043,
      "num_input_tokens_seen": 171752615,
      "step": 7956,
      "time_per_iteration": 2.843080997467041
    },
    {
      "auxiliary_loss_clip": 0.01127444,
      "auxiliary_loss_mlp": 0.01028199,
      "balance_loss_clip": 1.03937554,
      "balance_loss_mlp": 1.02081394,
      "epoch": 0.9567726808152468,
      "flos": 38067716240640.0,
      "grad_norm": 1.8335606712554802,
      "language_loss": 0.83961463,
      "learning_rate": 1.9519312286423894e-08,
      "loss": 0.86117107,
      "num_input_tokens_seen": 171775810,
      "step": 7957,
      "time_per_iteration": 2.799687623977661
    },
    {
      "auxiliary_loss_clip": 0.01158246,
      "auxiliary_loss_mlp": 0.01024843,
      "balance_loss_clip": 1.04646873,
      "balance_loss_mlp": 1.01736236,
      "epoch": 0.9568929237058859,
      "flos": 22744059229440.0,
      "grad_norm": 1.7014728774510612,
      "language_loss": 0.77728146,
      "learning_rate": 1.9410897049108255e-08,
      "loss": 0.79911232,
      "num_input_tokens_seen": 171795090,
      "step": 7958,
      "time_per_iteration": 2.6797993183135986
    },
    {
      "auxiliary_loss_clip": 0.01176196,
      "auxiliary_loss_mlp": 0.01027694,
      "balance_loss_clip": 1.05037463,
      "balance_loss_mlp": 1.02011204,
      "epoch": 0.957013166596525,
      "flos": 23841633162240.0,
      "grad_norm": 2.071798379807815,
      "language_loss": 0.91342372,
      "learning_rate": 1.9302782265584905e-08,
      "loss": 0.93546265,
      "num_input_tokens_seen": 171815755,
      "step": 7959,
      "time_per_iteration": 2.635572671890259
    },
    {
      "auxiliary_loss_clip": 0.01118876,
      "auxiliary_loss_mlp": 0.01028141,
      "balance_loss_clip": 1.03989005,
      "balance_loss_mlp": 1.02113771,
      "epoch": 0.9571334094871641,
      "flos": 17639286071040.0,
      "grad_norm": 2.522911473948299,
      "language_loss": 0.86580622,
      "learning_rate": 1.9194967952254282e-08,
      "loss": 0.88727641,
      "num_input_tokens_seen": 171834330,
      "step": 7960,
      "time_per_iteration": 2.712991237640381
    },
    {
      "auxiliary_loss_clip": 0.01159712,
      "auxiliary_loss_mlp": 0.01028711,
      "balance_loss_clip": 1.04745352,
      "balance_loss_mlp": 1.02114463,
      "epoch": 0.9572536523778031,
      "flos": 15369623441280.0,
      "grad_norm": 3.993315070134529,
      "language_loss": 0.80745482,
      "learning_rate": 1.9087454125472635e-08,
      "loss": 0.82933915,
      "num_input_tokens_seen": 171848805,
      "step": 7961,
      "time_per_iteration": 2.597960948944092
    },
    {
      "auxiliary_loss_clip": 0.01171461,
      "auxiliary_loss_mlp": 0.0102712,
      "balance_loss_clip": 1.04902077,
      "balance_loss_mlp": 1.01936495,
      "epoch": 0.9573738952684423,
      "flos": 24969838417920.0,
      "grad_norm": 1.8315735333563272,
      "language_loss": 0.78719234,
      "learning_rate": 1.8980240801548696e-08,
      "loss": 0.80917811,
      "num_input_tokens_seen": 171867995,
      "step": 7962,
      "time_per_iteration": 3.6359682083129883
    },
    {
      "auxiliary_loss_clip": 0.01150796,
      "auxiliary_loss_mlp": 0.01026921,
      "balance_loss_clip": 1.04900455,
      "balance_loss_mlp": 1.019315,
      "epoch": 0.9574941381590814,
      "flos": 25769461034880.0,
      "grad_norm": 1.6772101555872594,
      "language_loss": 0.74062157,
      "learning_rate": 1.8873327996747458e-08,
      "loss": 0.76239872,
      "num_input_tokens_seen": 171886495,
      "step": 7963,
      "time_per_iteration": 2.715052366256714
    },
    {
      "auxiliary_loss_clip": 0.01162636,
      "auxiliary_loss_mlp": 0.01022222,
      "balance_loss_clip": 1.04521561,
      "balance_loss_mlp": 1.01444077,
      "epoch": 0.9576143810497204,
      "flos": 32307178435200.0,
      "grad_norm": 2.0134973770137576,
      "language_loss": 0.65871131,
      "learning_rate": 1.8766715727287053e-08,
      "loss": 0.68055987,
      "num_input_tokens_seen": 171908200,
      "step": 7964,
      "time_per_iteration": 2.742419719696045
    },
    {
      "auxiliary_loss_clip": 0.01166304,
      "auxiliary_loss_mlp": 0.00887096,
      "balance_loss_clip": 1.04670322,
      "balance_loss_mlp": 1.0004909,
      "epoch": 0.9577346239403596,
      "flos": 27745733376000.0,
      "grad_norm": 1.6143308250746453,
      "language_loss": 0.79733527,
      "learning_rate": 1.8660404009340546e-08,
      "loss": 0.81786931,
      "num_input_tokens_seen": 171928650,
      "step": 7965,
      "time_per_iteration": 2.6958727836608887
    },
    {
      "auxiliary_loss_clip": 0.01058152,
      "auxiliary_loss_mlp": 0.01000696,
      "balance_loss_clip": 1.0074718,
      "balance_loss_mlp": 0.99969429,
      "epoch": 0.9578548668309986,
      "flos": 57468313710720.0,
      "grad_norm": 0.890414074596731,
      "language_loss": 0.59450477,
      "learning_rate": 1.8554392859035485e-08,
      "loss": 0.61509323,
      "num_input_tokens_seen": 171986400,
      "step": 7966,
      "time_per_iteration": 3.191298723220825
    },
    {
      "auxiliary_loss_clip": 0.01115825,
      "auxiliary_loss_mlp": 0.0102305,
      "balance_loss_clip": 1.03777289,
      "balance_loss_mlp": 1.01554894,
      "epoch": 0.9579751097216377,
      "flos": 19756040503680.0,
      "grad_norm": 1.7370352171246999,
      "language_loss": 0.78830099,
      "learning_rate": 1.8448682292453444e-08,
      "loss": 0.80968976,
      "num_input_tokens_seen": 172005475,
      "step": 7967,
      "time_per_iteration": 2.7951653003692627
    },
    {
      "auxiliary_loss_clip": 0.01169858,
      "auxiliary_loss_mlp": 0.01025756,
      "balance_loss_clip": 1.04775476,
      "balance_loss_mlp": 1.01843119,
      "epoch": 0.9580953526122769,
      "flos": 18041270152320.0,
      "grad_norm": 1.8886487010545037,
      "language_loss": 0.66268504,
      "learning_rate": 1.8343272325631154e-08,
      "loss": 0.68464118,
      "num_input_tokens_seen": 172024420,
      "step": 7968,
      "time_per_iteration": 2.7701451778411865
    },
    {
      "auxiliary_loss_clip": 0.0111507,
      "auxiliary_loss_mlp": 0.00886452,
      "balance_loss_clip": 1.0398984,
      "balance_loss_mlp": 1.00050616,
      "epoch": 0.9582155955029159,
      "flos": 24270154416000.0,
      "grad_norm": 2.2439423392816797,
      "language_loss": 0.78158444,
      "learning_rate": 1.8238162974558492e-08,
      "loss": 0.80159962,
      "num_input_tokens_seen": 172038350,
      "step": 7969,
      "time_per_iteration": 2.8105437755584717
    },
    {
      "auxiliary_loss_clip": 0.01148765,
      "auxiliary_loss_mlp": 0.01026458,
      "balance_loss_clip": 1.04634356,
      "balance_loss_mlp": 1.01890326,
      "epoch": 0.958335838393555,
      "flos": 22783309816320.0,
      "grad_norm": 2.713096975724857,
      "language_loss": 0.748492,
      "learning_rate": 1.8133354255181144e-08,
      "loss": 0.77024424,
      "num_input_tokens_seen": 172058665,
      "step": 7970,
      "time_per_iteration": 2.677839517593384
    },
    {
      "auxiliary_loss_clip": 0.01153109,
      "auxiliary_loss_mlp": 0.01026243,
      "balance_loss_clip": 1.04299808,
      "balance_loss_mlp": 1.01874495,
      "epoch": 0.958456081284194,
      "flos": 16911484698240.0,
      "grad_norm": 1.9403656364744186,
      "language_loss": 0.74668455,
      "learning_rate": 1.802884618339795e-08,
      "loss": 0.7684781,
      "num_input_tokens_seen": 172077470,
      "step": 7971,
      "time_per_iteration": 2.586570978164673
    },
    {
      "auxiliary_loss_clip": 0.01162038,
      "auxiliary_loss_mlp": 0.01030576,
      "balance_loss_clip": 1.04794824,
      "balance_loss_mlp": 1.02233887,
      "epoch": 0.9585763241748332,
      "flos": 19974951941760.0,
      "grad_norm": 1.9430657537101292,
      "language_loss": 0.80850828,
      "learning_rate": 1.7924638775062894e-08,
      "loss": 0.83043438,
      "num_input_tokens_seen": 172096590,
      "step": 7972,
      "time_per_iteration": 2.6506776809692383
    },
    {
      "auxiliary_loss_clip": 0.01133523,
      "auxiliary_loss_mlp": 0.01023296,
      "balance_loss_clip": 1.04279208,
      "balance_loss_mlp": 1.01582408,
      "epoch": 0.9586965670654722,
      "flos": 21395649646080.0,
      "grad_norm": 2.523057088594053,
      "language_loss": 0.81638473,
      "learning_rate": 1.7820732045984444e-08,
      "loss": 0.83795297,
      "num_input_tokens_seen": 172116735,
      "step": 7973,
      "time_per_iteration": 2.744960308074951
    },
    {
      "auxiliary_loss_clip": 0.01156407,
      "auxiliary_loss_mlp": 0.01026521,
      "balance_loss_clip": 1.04464984,
      "balance_loss_mlp": 1.01824796,
      "epoch": 0.9588168099561113,
      "flos": 21435115714560.0,
      "grad_norm": 2.073571436810628,
      "language_loss": 0.73906243,
      "learning_rate": 1.7717126011924655e-08,
      "loss": 0.76089174,
      "num_input_tokens_seen": 172138320,
      "step": 7974,
      "time_per_iteration": 2.7091495990753174
    },
    {
      "auxiliary_loss_clip": 0.01124427,
      "auxiliary_loss_mlp": 0.01028145,
      "balance_loss_clip": 1.03835011,
      "balance_loss_mlp": 1.02038479,
      "epoch": 0.9589370528467505,
      "flos": 11763761852160.0,
      "grad_norm": 2.4619209810944334,
      "language_loss": 0.76489711,
      "learning_rate": 1.7613820688600957e-08,
      "loss": 0.78642285,
      "num_input_tokens_seen": 172154225,
      "step": 7975,
      "time_per_iteration": 3.7135510444641113
    },
    {
      "auxiliary_loss_clip": 0.01158455,
      "auxiliary_loss_mlp": 0.01027554,
      "balance_loss_clip": 1.04612553,
      "balance_loss_mlp": 1.01990056,
      "epoch": 0.9590572957373895,
      "flos": 23441516588160.0,
      "grad_norm": 2.1098632009113567,
      "language_loss": 0.78548259,
      "learning_rate": 1.7510816091684588e-08,
      "loss": 0.80734265,
      "num_input_tokens_seen": 172174150,
      "step": 7976,
      "time_per_iteration": 2.7001242637634277
    },
    {
      "auxiliary_loss_clip": 0.0115078,
      "auxiliary_loss_mlp": 0.01033327,
      "balance_loss_clip": 1.04571271,
      "balance_loss_mlp": 1.02572727,
      "epoch": 0.9591775386280286,
      "flos": 22528272274560.0,
      "grad_norm": 2.2661536320929496,
      "language_loss": 0.78391588,
      "learning_rate": 1.740811223680083e-08,
      "loss": 0.80575693,
      "num_input_tokens_seen": 172191005,
      "step": 7977,
      "time_per_iteration": 2.6734087467193604
    },
    {
      "auxiliary_loss_clip": 0.01170933,
      "auxiliary_loss_mlp": 0.01029947,
      "balance_loss_clip": 1.04895306,
      "balance_loss_mlp": 1.02225184,
      "epoch": 0.9592977815186677,
      "flos": 18186959715840.0,
      "grad_norm": 2.3733385224014953,
      "language_loss": 0.73932976,
      "learning_rate": 1.7305709139530334e-08,
      "loss": 0.76133847,
      "num_input_tokens_seen": 172209785,
      "step": 7978,
      "time_per_iteration": 4.384866714477539
    },
    {
      "auxiliary_loss_clip": 0.0115334,
      "auxiliary_loss_mlp": 0.01025808,
      "balance_loss_clip": 1.04182065,
      "balance_loss_mlp": 1.01836371,
      "epoch": 0.9594180244093068,
      "flos": 16537797555840.0,
      "grad_norm": 2.2232119902563094,
      "language_loss": 0.74774122,
      "learning_rate": 1.7203606815407334e-08,
      "loss": 0.76953268,
      "num_input_tokens_seen": 172224380,
      "step": 7979,
      "time_per_iteration": 2.655637741088867
    },
    {
      "auxiliary_loss_clip": 0.01155885,
      "auxiliary_loss_mlp": 0.01024891,
      "balance_loss_clip": 1.04696798,
      "balance_loss_mlp": 1.01714885,
      "epoch": 0.9595382672999458,
      "flos": 20554334317440.0,
      "grad_norm": 1.6955336530919645,
      "language_loss": 0.79108506,
      "learning_rate": 1.7101805279920557e-08,
      "loss": 0.81289279,
      "num_input_tokens_seen": 172242540,
      "step": 7980,
      "time_per_iteration": 2.668062210083008
    },
    {
      "auxiliary_loss_clip": 0.01173154,
      "auxiliary_loss_mlp": 0.01026229,
      "balance_loss_clip": 1.04993129,
      "balance_loss_mlp": 1.01896596,
      "epoch": 0.959658510190585,
      "flos": 22638266697600.0,
      "grad_norm": 2.6712090710942644,
      "language_loss": 0.81033581,
      "learning_rate": 1.7000304548513643e-08,
      "loss": 0.83232963,
      "num_input_tokens_seen": 172262645,
      "step": 7981,
      "time_per_iteration": 2.5978293418884277
    },
    {
      "auxiliary_loss_clip": 0.01137445,
      "auxiliary_loss_mlp": 0.01026095,
      "balance_loss_clip": 1.04179382,
      "balance_loss_mlp": 1.01804876,
      "epoch": 0.9597787530812241,
      "flos": 19135252725120.0,
      "grad_norm": 2.103106941096908,
      "language_loss": 0.83197665,
      "learning_rate": 1.6899104636583394e-08,
      "loss": 0.85361195,
      "num_input_tokens_seen": 172280695,
      "step": 7982,
      "time_per_iteration": 2.707540988922119
    },
    {
      "auxiliary_loss_clip": 0.01057831,
      "auxiliary_loss_mlp": 0.01001255,
      "balance_loss_clip": 1.0072,
      "balance_loss_mlp": 1.00025964,
      "epoch": 0.9598989959718631,
      "flos": 60098124055680.0,
      "grad_norm": 0.737352275745825,
      "language_loss": 0.6191026,
      "learning_rate": 1.6798205559482638e-08,
      "loss": 0.6396935,
      "num_input_tokens_seen": 172343075,
      "step": 7983,
      "time_per_iteration": 3.3868086338043213
    },
    {
      "auxiliary_loss_clip": 0.01141048,
      "auxiliary_loss_mlp": 0.01025375,
      "balance_loss_clip": 1.04246032,
      "balance_loss_mlp": 1.01775181,
      "epoch": 0.9600192388625023,
      "flos": 20886795624960.0,
      "grad_norm": 1.7445705350944285,
      "language_loss": 0.76632822,
      "learning_rate": 1.669760733251713e-08,
      "loss": 0.78799248,
      "num_input_tokens_seen": 172361950,
      "step": 7984,
      "time_per_iteration": 2.8161938190460205
    },
    {
      "auxiliary_loss_clip": 0.01125946,
      "auxiliary_loss_mlp": 0.01025972,
      "balance_loss_clip": 1.03937578,
      "balance_loss_mlp": 1.01889062,
      "epoch": 0.9601394817531413,
      "flos": 20445740524800.0,
      "grad_norm": 1.6416199606275812,
      "language_loss": 0.82525969,
      "learning_rate": 1.659730997094755e-08,
      "loss": 0.84677887,
      "num_input_tokens_seen": 172380440,
      "step": 7985,
      "time_per_iteration": 2.765138864517212
    },
    {
      "auxiliary_loss_clip": 0.01151847,
      "auxiliary_loss_mlp": 0.01023823,
      "balance_loss_clip": 1.04349959,
      "balance_loss_mlp": 1.01677179,
      "epoch": 0.9602597246437804,
      "flos": 21507152440320.0,
      "grad_norm": 5.067762371974968,
      "language_loss": 0.62324172,
      "learning_rate": 1.6497313489989283e-08,
      "loss": 0.64499843,
      "num_input_tokens_seen": 172400265,
      "step": 7986,
      "time_per_iteration": 2.6244874000549316
    },
    {
      "auxiliary_loss_clip": 0.01128569,
      "auxiliary_loss_mlp": 0.0102762,
      "balance_loss_clip": 1.0354315,
      "balance_loss_mlp": 1.02049088,
      "epoch": 0.9603799675344196,
      "flos": 29935099152000.0,
      "grad_norm": 2.206506750054519,
      "language_loss": 0.69524056,
      "learning_rate": 1.639761790481131e-08,
      "loss": 0.71680248,
      "num_input_tokens_seen": 172421145,
      "step": 7987,
      "time_per_iteration": 2.801239252090454
    },
    {
      "auxiliary_loss_clip": 0.01164029,
      "auxiliary_loss_mlp": 0.01026603,
      "balance_loss_clip": 1.04746318,
      "balance_loss_mlp": 1.01870584,
      "epoch": 0.9605002104250586,
      "flos": 28001525103360.0,
      "grad_norm": 2.4432674537688954,
      "language_loss": 0.78970325,
      "learning_rate": 1.6298223230537754e-08,
      "loss": 0.81160951,
      "num_input_tokens_seen": 172438945,
      "step": 7988,
      "time_per_iteration": 3.6715941429138184
    },
    {
      "auxiliary_loss_clip": 0.01148835,
      "auxiliary_loss_mlp": 0.00887003,
      "balance_loss_clip": 1.04362082,
      "balance_loss_mlp": 1.00055504,
      "epoch": 0.9606204533156977,
      "flos": 35590490870400.0,
      "grad_norm": 2.1261615543644443,
      "language_loss": 0.69560438,
      "learning_rate": 1.619912948224611e-08,
      "loss": 0.71596277,
      "num_input_tokens_seen": 172460150,
      "step": 7989,
      "time_per_iteration": 2.82804799079895
    },
    {
      "auxiliary_loss_clip": 0.01136815,
      "auxiliary_loss_mlp": 0.01029002,
      "balance_loss_clip": 1.04258978,
      "balance_loss_mlp": 1.02076435,
      "epoch": 0.9607406962063368,
      "flos": 26574614346240.0,
      "grad_norm": 3.191762583625614,
      "language_loss": 0.61160779,
      "learning_rate": 1.6100336674969682e-08,
      "loss": 0.63326597,
      "num_input_tokens_seen": 172478990,
      "step": 7990,
      "time_per_iteration": 2.7484803199768066
    },
    {
      "auxiliary_loss_clip": 0.01134275,
      "auxiliary_loss_mlp": 0.01028381,
      "balance_loss_clip": 1.03972363,
      "balance_loss_mlp": 1.02080274,
      "epoch": 0.9608609390969759,
      "flos": 25331781813120.0,
      "grad_norm": 1.8916734166663953,
      "language_loss": 0.76701498,
      "learning_rate": 1.600184482369449e-08,
      "loss": 0.78864157,
      "num_input_tokens_seen": 172498905,
      "step": 7991,
      "time_per_iteration": 2.78305721282959
    },
    {
      "auxiliary_loss_clip": 0.01141723,
      "auxiliary_loss_mlp": 0.01028452,
      "balance_loss_clip": 1.04113734,
      "balance_loss_mlp": 1.0210011,
      "epoch": 0.960981181987615,
      "flos": 21069114082560.0,
      "grad_norm": 2.2452665819070523,
      "language_loss": 0.88500816,
      "learning_rate": 1.5903653943362126e-08,
      "loss": 0.90670991,
      "num_input_tokens_seen": 172517900,
      "step": 7992,
      "time_per_iteration": 2.6601321697235107
    },
    {
      "auxiliary_loss_clip": 0.01153632,
      "auxiliary_loss_mlp": 0.0102326,
      "balance_loss_clip": 1.04541755,
      "balance_loss_mlp": 1.0158093,
      "epoch": 0.9611014248782541,
      "flos": 17823256554240.0,
      "grad_norm": 1.8974000846211514,
      "language_loss": 0.77217561,
      "learning_rate": 1.580576404886802e-08,
      "loss": 0.79394448,
      "num_input_tokens_seen": 172536430,
      "step": 7993,
      "time_per_iteration": 2.6790568828582764
    },
    {
      "auxiliary_loss_clip": 0.01161673,
      "auxiliary_loss_mlp": 0.01025401,
      "balance_loss_clip": 1.04678559,
      "balance_loss_mlp": 1.01880598,
      "epoch": 0.9612216677688932,
      "flos": 19354631040000.0,
      "grad_norm": 2.035319647427517,
      "language_loss": 0.79499006,
      "learning_rate": 1.570817515506162e-08,
      "loss": 0.8168608,
      "num_input_tokens_seen": 172555120,
      "step": 7994,
      "time_per_iteration": 2.6200578212738037
    },
    {
      "auxiliary_loss_clip": 0.0117039,
      "auxiliary_loss_mlp": 0.01026245,
      "balance_loss_clip": 1.0488013,
      "balance_loss_mlp": 1.01882422,
      "epoch": 0.9613419106595322,
      "flos": 15808739207040.0,
      "grad_norm": 5.744127401236306,
      "language_loss": 0.81311387,
      "learning_rate": 1.561088727674753e-08,
      "loss": 0.83508027,
      "num_input_tokens_seen": 172569330,
      "step": 7995,
      "time_per_iteration": 2.64949893951416
    },
    {
      "auxiliary_loss_clip": 0.01142592,
      "auxiliary_loss_mlp": 0.010304,
      "balance_loss_clip": 1.04153585,
      "balance_loss_mlp": 1.02233529,
      "epoch": 0.9614621535501714,
      "flos": 25702488126720.0,
      "grad_norm": 3.435370829137167,
      "language_loss": 0.71347082,
      "learning_rate": 1.551390042868417e-08,
      "loss": 0.73520064,
      "num_input_tokens_seen": 172591100,
      "step": 7996,
      "time_per_iteration": 2.8395726680755615
    },
    {
      "auxiliary_loss_clip": 0.011603,
      "auxiliary_loss_mlp": 0.01024811,
      "balance_loss_clip": 1.04676974,
      "balance_loss_mlp": 1.01736009,
      "epoch": 0.9615823964408104,
      "flos": 17819054663040.0,
      "grad_norm": 1.736714711216827,
      "language_loss": 0.70617139,
      "learning_rate": 1.5417214625584207e-08,
      "loss": 0.72802252,
      "num_input_tokens_seen": 172608755,
      "step": 7997,
      "time_per_iteration": 2.621039390563965
    },
    {
      "auxiliary_loss_clip": 0.01153143,
      "auxiliary_loss_mlp": 0.01027009,
      "balance_loss_clip": 1.04293382,
      "balance_loss_mlp": 1.01929319,
      "epoch": 0.9617026393314495,
      "flos": 20190020624640.0,
      "grad_norm": 1.603642046300135,
      "language_loss": 0.85162044,
      "learning_rate": 1.5320829882114806e-08,
      "loss": 0.87342191,
      "num_input_tokens_seen": 172626830,
      "step": 7998,
      "time_per_iteration": 2.6541566848754883
    },
    {
      "auxiliary_loss_clip": 0.01169587,
      "auxiliary_loss_mlp": 0.01025598,
      "balance_loss_clip": 1.04601645,
      "balance_loss_mlp": 1.0173192,
      "epoch": 0.9618228822220887,
      "flos": 20267013427200.0,
      "grad_norm": 2.1600550045150873,
      "language_loss": 0.79169428,
      "learning_rate": 1.5224746212897378e-08,
      "loss": 0.81364608,
      "num_input_tokens_seen": 172646125,
      "step": 7999,
      "time_per_iteration": 2.5543909072875977
    },
    {
      "auxiliary_loss_clip": 0.01168713,
      "auxiliary_loss_mlp": 0.01029467,
      "balance_loss_clip": 1.0478487,
      "balance_loss_mlp": 1.0222851,
      "epoch": 0.9619431251127277,
      "flos": 21031300039680.0,
      "grad_norm": 1.9891256572395437,
      "language_loss": 0.77168345,
      "learning_rate": 1.512896363250804e-08,
      "loss": 0.79366529,
      "num_input_tokens_seen": 172666235,
      "step": 8000,
      "time_per_iteration": 2.607848644256592
    },
    {
      "auxiliary_loss_clip": 0.01162056,
      "auxiliary_loss_mlp": 0.01027261,
      "balance_loss_clip": 1.04435658,
      "balance_loss_mlp": 1.01999497,
      "epoch": 0.9620633680033668,
      "flos": 22382654538240.0,
      "grad_norm": 1.8430280155184133,
      "language_loss": 0.75878704,
      "learning_rate": 1.503348215547673e-08,
      "loss": 0.78068018,
      "num_input_tokens_seen": 172687325,
      "step": 8001,
      "time_per_iteration": 3.668668508529663
    },
    {
      "auxiliary_loss_clip": 0.01148763,
      "auxiliary_loss_mlp": 0.0102578,
      "balance_loss_clip": 1.04445648,
      "balance_loss_mlp": 1.01823711,
      "epoch": 0.962183610894006,
      "flos": 18471730740480.0,
      "grad_norm": 1.7068222385266432,
      "language_loss": 0.80916727,
      "learning_rate": 1.4938301796288078e-08,
      "loss": 0.83091271,
      "num_input_tokens_seen": 172703895,
      "step": 8002,
      "time_per_iteration": 2.6447110176086426
    },
    {
      "auxiliary_loss_clip": 0.01169027,
      "auxiliary_loss_mlp": 0.01030063,
      "balance_loss_clip": 1.04691076,
      "balance_loss_mlp": 1.02236807,
      "epoch": 0.962303853784645,
      "flos": 18435245500800.0,
      "grad_norm": 3.971336583522454,
      "language_loss": 0.8248992,
      "learning_rate": 1.4843422569380537e-08,
      "loss": 0.84689009,
      "num_input_tokens_seen": 172720650,
      "step": 8003,
      "time_per_iteration": 2.5545427799224854
    },
    {
      "auxiliary_loss_clip": 0.01129178,
      "auxiliary_loss_mlp": 0.01023508,
      "balance_loss_clip": 1.03874779,
      "balance_loss_mlp": 1.01621819,
      "epoch": 0.9624240966752841,
      "flos": 26391074826240.0,
      "grad_norm": 2.219868333819625,
      "language_loss": 0.82864243,
      "learning_rate": 1.4748844489147483e-08,
      "loss": 0.85016924,
      "num_input_tokens_seen": 172737640,
      "step": 8004,
      "time_per_iteration": 4.455533504486084
    },
    {
      "auxiliary_loss_clip": 0.01148791,
      "auxiliary_loss_mlp": 0.01027999,
      "balance_loss_clip": 1.0424993,
      "balance_loss_mlp": 1.02064681,
      "epoch": 0.9625443395659231,
      "flos": 14647675985280.0,
      "grad_norm": 2.5797493793046535,
      "language_loss": 0.70958185,
      "learning_rate": 1.4654567569936326e-08,
      "loss": 0.73134971,
      "num_input_tokens_seen": 172755215,
      "step": 8005,
      "time_per_iteration": 2.666254758834839
    },
    {
      "auxiliary_loss_clip": 0.01125428,
      "auxiliary_loss_mlp": 0.01028402,
      "balance_loss_clip": 1.04075217,
      "balance_loss_mlp": 1.02065945,
      "epoch": 0.9626645824565623,
      "flos": 18367626147840.0,
      "grad_norm": 4.281187323513713,
      "language_loss": 0.83159626,
      "learning_rate": 1.456059182604874e-08,
      "loss": 0.85313451,
      "num_input_tokens_seen": 172774020,
      "step": 8006,
      "time_per_iteration": 2.761136054992676
    },
    {
      "auxiliary_loss_clip": 0.01170738,
      "auxiliary_loss_mlp": 0.01027769,
      "balance_loss_clip": 1.04743814,
      "balance_loss_mlp": 1.0201869,
      "epoch": 0.9627848253472013,
      "flos": 16580424021120.0,
      "grad_norm": 1.9854643817112019,
      "language_loss": 0.7676779,
      "learning_rate": 1.4466917271740653e-08,
      "loss": 0.78966296,
      "num_input_tokens_seen": 172792220,
      "step": 8007,
      "time_per_iteration": 2.573138952255249
    },
    {
      "auxiliary_loss_clip": 0.01146917,
      "auxiliary_loss_mlp": 0.01033245,
      "balance_loss_clip": 1.04412985,
      "balance_loss_mlp": 1.02547216,
      "epoch": 0.9629050682378404,
      "flos": 20886867452160.0,
      "grad_norm": 1.814930446706814,
      "language_loss": 0.67727691,
      "learning_rate": 1.4373543921222697e-08,
      "loss": 0.69907856,
      "num_input_tokens_seen": 172811805,
      "step": 8008,
      "time_per_iteration": 2.668606758117676
    },
    {
      "auxiliary_loss_clip": 0.01148459,
      "auxiliary_loss_mlp": 0.01023905,
      "balance_loss_clip": 1.04434419,
      "balance_loss_mlp": 1.01658583,
      "epoch": 0.9630253111284796,
      "flos": 17019252478080.0,
      "grad_norm": 1.9277684114997775,
      "language_loss": 0.77972424,
      "learning_rate": 1.428047178865932e-08,
      "loss": 0.80144793,
      "num_input_tokens_seen": 172828595,
      "step": 8009,
      "time_per_iteration": 2.6735968589782715
    },
    {
      "auxiliary_loss_clip": 0.01147822,
      "auxiliary_loss_mlp": 0.01030992,
      "balance_loss_clip": 1.04210258,
      "balance_loss_mlp": 1.02360415,
      "epoch": 0.9631455540191186,
      "flos": 20338942412160.0,
      "grad_norm": 1.784139532789122,
      "language_loss": 0.74514961,
      "learning_rate": 1.4187700888169451e-08,
      "loss": 0.76693779,
      "num_input_tokens_seen": 172847770,
      "step": 8010,
      "time_per_iteration": 2.690727710723877
    },
    {
      "auxiliary_loss_clip": 0.01055741,
      "auxiliary_loss_mlp": 0.01001657,
      "balance_loss_clip": 1.0072999,
      "balance_loss_mlp": 1.00068593,
      "epoch": 0.9632657969097577,
      "flos": 65956700033280.0,
      "grad_norm": 0.752460419506371,
      "language_loss": 0.56974113,
      "learning_rate": 1.40952312338265e-08,
      "loss": 0.5903151,
      "num_input_tokens_seen": 172912415,
      "step": 8011,
      "time_per_iteration": 3.2661259174346924
    },
    {
      "auxiliary_loss_clip": 0.01143316,
      "auxiliary_loss_mlp": 0.01026537,
      "balance_loss_clip": 1.04137766,
      "balance_loss_mlp": 1.01868701,
      "epoch": 0.9633860398003968,
      "flos": 44419523823360.0,
      "grad_norm": 2.1388644586386754,
      "language_loss": 0.6848824,
      "learning_rate": 1.4003062839657909e-08,
      "loss": 0.706581,
      "num_input_tokens_seen": 172934895,
      "step": 8012,
      "time_per_iteration": 2.934478759765625
    },
    {
      "auxiliary_loss_clip": 0.01143045,
      "auxiliary_loss_mlp": 0.01026342,
      "balance_loss_clip": 1.04194808,
      "balance_loss_mlp": 1.0189656,
      "epoch": 0.9635062826910359,
      "flos": 24827704300800.0,
      "grad_norm": 1.6110841165780307,
      "language_loss": 0.79810905,
      "learning_rate": 1.391119571964583e-08,
      "loss": 0.819803,
      "num_input_tokens_seen": 172955835,
      "step": 8013,
      "time_per_iteration": 2.731398344039917
    },
    {
      "auxiliary_loss_clip": 0.01161159,
      "auxiliary_loss_mlp": 0.01028128,
      "balance_loss_clip": 1.04761016,
      "balance_loss_mlp": 1.02005196,
      "epoch": 0.9636265255816749,
      "flos": 15961360095360.0,
      "grad_norm": 1.8188678270483423,
      "language_loss": 0.72908866,
      "learning_rate": 1.3819629887726225e-08,
      "loss": 0.75098157,
      "num_input_tokens_seen": 172973925,
      "step": 8014,
      "time_per_iteration": 3.5203728675842285
    },
    {
      "auxiliary_loss_clip": 0.01156524,
      "auxiliary_loss_mlp": 0.01026788,
      "balance_loss_clip": 1.04617119,
      "balance_loss_mlp": 1.01835942,
      "epoch": 0.9637467684723141,
      "flos": 22601781457920.0,
      "grad_norm": 1.6532613733820005,
      "language_loss": 0.76109636,
      "learning_rate": 1.3728365357789317e-08,
      "loss": 0.78292942,
      "num_input_tokens_seen": 172993290,
      "step": 8015,
      "time_per_iteration": 2.678218364715576
    },
    {
      "auxiliary_loss_clip": 0.01110179,
      "auxiliary_loss_mlp": 0.01025397,
      "balance_loss_clip": 1.03775549,
      "balance_loss_mlp": 1.01780605,
      "epoch": 0.9638670113629532,
      "flos": 17565812801280.0,
      "grad_norm": 2.878978230382623,
      "language_loss": 0.76672471,
      "learning_rate": 1.3637402143680254e-08,
      "loss": 0.78808039,
      "num_input_tokens_seen": 173008190,
      "step": 8016,
      "time_per_iteration": 2.804114818572998
    },
    {
      "auxiliary_loss_clip": 0.01041545,
      "auxiliary_loss_mlp": 0.01001187,
      "balance_loss_clip": 1.00672388,
      "balance_loss_mlp": 1.00021577,
      "epoch": 0.9639872542535922,
      "flos": 55072139379840.0,
      "grad_norm": 0.7553383157400667,
      "language_loss": 0.55079639,
      "learning_rate": 1.3546740259197998e-08,
      "loss": 0.57122374,
      "num_input_tokens_seen": 173061000,
      "step": 8017,
      "time_per_iteration": 3.483288288116455
    },
    {
      "auxiliary_loss_clip": 0.01150884,
      "auxiliary_loss_mlp": 0.01027594,
      "balance_loss_clip": 1.0431664,
      "balance_loss_mlp": 1.02027428,
      "epoch": 0.9641074971442314,
      "flos": 24134484746880.0,
      "grad_norm": 1.9724252590775364,
      "language_loss": 0.7003113,
      "learning_rate": 1.3456379718095989e-08,
      "loss": 0.72209609,
      "num_input_tokens_seen": 173081415,
      "step": 8018,
      "time_per_iteration": 2.7002851963043213
    },
    {
      "auxiliary_loss_clip": 0.01046756,
      "auxiliary_loss_mlp": 0.01002346,
      "balance_loss_clip": 1.00715649,
      "balance_loss_mlp": 1.00135636,
      "epoch": 0.9642277400348704,
      "flos": 66747416077440.0,
      "grad_norm": 0.9874219662201756,
      "language_loss": 0.61998868,
      "learning_rate": 1.3366320534081487e-08,
      "loss": 0.64047968,
      "num_input_tokens_seen": 173144095,
      "step": 8019,
      "time_per_iteration": 3.2969844341278076
    },
    {
      "auxiliary_loss_clip": 0.01158654,
      "auxiliary_loss_mlp": 0.01031614,
      "balance_loss_clip": 1.04451656,
      "balance_loss_mlp": 1.02393126,
      "epoch": 0.9643479829255095,
      "flos": 30920272450560.0,
      "grad_norm": 2.6138523780803427,
      "language_loss": 0.75817645,
      "learning_rate": 1.3276562720816675e-08,
      "loss": 0.78007907,
      "num_input_tokens_seen": 173165605,
      "step": 8020,
      "time_per_iteration": 2.6647300720214844
    },
    {
      "auxiliary_loss_clip": 0.01168324,
      "auxiliary_loss_mlp": 0.01024069,
      "balance_loss_clip": 1.04501605,
      "balance_loss_mlp": 1.01633787,
      "epoch": 0.9644682258161487,
      "flos": 20048245643520.0,
      "grad_norm": 2.490290698516544,
      "language_loss": 0.8266598,
      "learning_rate": 1.3187106291917549e-08,
      "loss": 0.84858376,
      "num_input_tokens_seen": 173182595,
      "step": 8021,
      "time_per_iteration": 2.573450803756714
    },
    {
      "auxiliary_loss_clip": 0.01157941,
      "auxiliary_loss_mlp": 0.01029904,
      "balance_loss_clip": 1.04695415,
      "balance_loss_mlp": 1.02258205,
      "epoch": 0.9645884687067877,
      "flos": 21178713456000.0,
      "grad_norm": 2.7859131302733493,
      "language_loss": 0.70660329,
      "learning_rate": 1.309795126095503e-08,
      "loss": 0.72848177,
      "num_input_tokens_seen": 173200895,
      "step": 8022,
      "time_per_iteration": 2.6015825271606445
    },
    {
      "auxiliary_loss_clip": 0.01105679,
      "auxiliary_loss_mlp": 0.01024461,
      "balance_loss_clip": 1.03480482,
      "balance_loss_mlp": 1.0168612,
      "epoch": 0.9647087115974268,
      "flos": 18945967029120.0,
      "grad_norm": 2.0767783436958975,
      "language_loss": 0.80731618,
      "learning_rate": 1.3009097641453192e-08,
      "loss": 0.82861757,
      "num_input_tokens_seen": 173218745,
      "step": 8023,
      "time_per_iteration": 2.7955141067504883
    },
    {
      "auxiliary_loss_clip": 0.01147856,
      "auxiliary_loss_mlp": 0.0102931,
      "balance_loss_clip": 1.04353082,
      "balance_loss_mlp": 1.02153802,
      "epoch": 0.9648289544880659,
      "flos": 16545088016640.0,
      "grad_norm": 1.7305744994321262,
      "language_loss": 0.75951564,
      "learning_rate": 1.2920545446891474e-08,
      "loss": 0.78128737,
      "num_input_tokens_seen": 173235465,
      "step": 8024,
      "time_per_iteration": 2.680511474609375
    },
    {
      "auxiliary_loss_clip": 0.01152788,
      "auxiliary_loss_mlp": 0.01035062,
      "balance_loss_clip": 1.04620314,
      "balance_loss_mlp": 1.02717042,
      "epoch": 0.964949197378705,
      "flos": 24057527857920.0,
      "grad_norm": 2.120689762539074,
      "language_loss": 0.70541579,
      "learning_rate": 1.2832294690703127e-08,
      "loss": 0.72729427,
      "num_input_tokens_seen": 173254440,
      "step": 8025,
      "time_per_iteration": 2.6753904819488525
    },
    {
      "auxiliary_loss_clip": 0.01161167,
      "auxiliary_loss_mlp": 0.01028711,
      "balance_loss_clip": 1.04920292,
      "balance_loss_mlp": 1.02102542,
      "epoch": 0.965069440269344,
      "flos": 23365565280000.0,
      "grad_norm": 1.8869443808483835,
      "language_loss": 0.77775115,
      "learning_rate": 1.2744345386275668e-08,
      "loss": 0.79964995,
      "num_input_tokens_seen": 173273980,
      "step": 8026,
      "time_per_iteration": 2.6490068435668945
    },
    {
      "auxiliary_loss_clip": 0.01159201,
      "auxiliary_loss_mlp": 0.01024562,
      "balance_loss_clip": 1.04783118,
      "balance_loss_mlp": 1.01673913,
      "epoch": 0.9651896831599832,
      "flos": 25374875155200.0,
      "grad_norm": 1.9343582580487828,
      "language_loss": 0.78855765,
      "learning_rate": 1.265669754695109e-08,
      "loss": 0.8103953,
      "num_input_tokens_seen": 173293550,
      "step": 8027,
      "time_per_iteration": 3.599480152130127
    },
    {
      "auxiliary_loss_clip": 0.01120775,
      "auxiliary_loss_mlp": 0.01028882,
      "balance_loss_clip": 1.03572679,
      "balance_loss_mlp": 1.02112126,
      "epoch": 0.9653099260506223,
      "flos": 22272875596800.0,
      "grad_norm": 1.913148361586042,
      "language_loss": 0.81954539,
      "learning_rate": 1.2569351186025201e-08,
      "loss": 0.84104192,
      "num_input_tokens_seen": 173312005,
      "step": 8028,
      "time_per_iteration": 2.7563400268554688
    },
    {
      "auxiliary_loss_clip": 0.01131397,
      "auxiliary_loss_mlp": 0.01024093,
      "balance_loss_clip": 1.04259956,
      "balance_loss_mlp": 1.01689279,
      "epoch": 0.9654301689412613,
      "flos": 26760847386240.0,
      "grad_norm": 1.5402189709814342,
      "language_loss": 0.75410169,
      "learning_rate": 1.2482306316748737e-08,
      "loss": 0.77565658,
      "num_input_tokens_seen": 173332450,
      "step": 8029,
      "time_per_iteration": 3.780773639678955
    },
    {
      "auxiliary_loss_clip": 0.01163061,
      "auxiliary_loss_mlp": 0.01024602,
      "balance_loss_clip": 1.04352093,
      "balance_loss_mlp": 1.01704383,
      "epoch": 0.9655504118319005,
      "flos": 17412689122560.0,
      "grad_norm": 1.9881784745632136,
      "language_loss": 0.78436995,
      "learning_rate": 1.2395562952326021e-08,
      "loss": 0.80624664,
      "num_input_tokens_seen": 173349610,
      "step": 8030,
      "time_per_iteration": 3.4411449432373047
    },
    {
      "auxiliary_loss_clip": 0.01157367,
      "auxiliary_loss_mlp": 0.0102379,
      "balance_loss_clip": 1.04373157,
      "balance_loss_mlp": 1.01600266,
      "epoch": 0.9656706547225395,
      "flos": 22126970551680.0,
      "grad_norm": 2.0399391230821995,
      "language_loss": 0.81192684,
      "learning_rate": 1.2309121105916309e-08,
      "loss": 0.83373845,
      "num_input_tokens_seen": 173367900,
      "step": 8031,
      "time_per_iteration": 2.7296628952026367
    },
    {
      "auxiliary_loss_clip": 0.01163943,
      "auxiliary_loss_mlp": 0.01024703,
      "balance_loss_clip": 1.04757023,
      "balance_loss_mlp": 1.01694822,
      "epoch": 0.9657908976131786,
      "flos": 37049289926400.0,
      "grad_norm": 1.920292881831289,
      "language_loss": 0.68871576,
      "learning_rate": 1.222298079063222e-08,
      "loss": 0.71060222,
      "num_input_tokens_seen": 173389040,
      "step": 8032,
      "time_per_iteration": 2.7519607543945312
    },
    {
      "auxiliary_loss_clip": 0.01159581,
      "auxiliary_loss_mlp": 0.01028448,
      "balance_loss_clip": 1.04696083,
      "balance_loss_mlp": 1.02111673,
      "epoch": 0.9659111405038178,
      "flos": 24389809597440.0,
      "grad_norm": 2.0954126426409654,
      "language_loss": 0.72708631,
      "learning_rate": 1.2137142019541524e-08,
      "loss": 0.74896657,
      "num_input_tokens_seen": 173407595,
      "step": 8033,
      "time_per_iteration": 2.691441535949707
    },
    {
      "auxiliary_loss_clip": 0.01157825,
      "auxiliary_loss_mlp": 0.01031691,
      "balance_loss_clip": 1.0450561,
      "balance_loss_mlp": 1.02370417,
      "epoch": 0.9660313833944568,
      "flos": 25009412227200.0,
      "grad_norm": 2.068931430273442,
      "language_loss": 0.73709816,
      "learning_rate": 1.2051604805666027e-08,
      "loss": 0.75899327,
      "num_input_tokens_seen": 173424720,
      "step": 8034,
      "time_per_iteration": 2.7330095767974854
    },
    {
      "auxiliary_loss_clip": 0.01168541,
      "auxiliary_loss_mlp": 0.00886232,
      "balance_loss_clip": 1.0466342,
      "balance_loss_mlp": 1.00061941,
      "epoch": 0.9661516262850959,
      "flos": 11801575895040.0,
      "grad_norm": 1.9985631587652337,
      "language_loss": 0.78496265,
      "learning_rate": 1.196636916198135e-08,
      "loss": 0.8055104,
      "num_input_tokens_seen": 173442260,
      "step": 8035,
      "time_per_iteration": 2.589770793914795
    },
    {
      "auxiliary_loss_clip": 0.01173411,
      "auxiliary_loss_mlp": 0.01024367,
      "balance_loss_clip": 1.04819202,
      "balance_loss_mlp": 1.01722682,
      "epoch": 0.9662718691757349,
      "flos": 20047778766720.0,
      "grad_norm": 4.615823612863757,
      "language_loss": 0.77087593,
      "learning_rate": 1.1881435101418036e-08,
      "loss": 0.79285371,
      "num_input_tokens_seen": 173461675,
      "step": 8036,
      "time_per_iteration": 2.665165901184082
    },
    {
      "auxiliary_loss_clip": 0.01048178,
      "auxiliary_loss_mlp": 0.01001605,
      "balance_loss_clip": 1.00688684,
      "balance_loss_mlp": 1.00054955,
      "epoch": 0.9663921120663741,
      "flos": 68027703517440.0,
      "grad_norm": 0.8227669967571326,
      "language_loss": 0.65568167,
      "learning_rate": 1.1796802636860003e-08,
      "loss": 0.67617947,
      "num_input_tokens_seen": 173530205,
      "step": 8037,
      "time_per_iteration": 3.290778160095215
    },
    {
      "auxiliary_loss_clip": 0.01168187,
      "auxiliary_loss_mlp": 0.01024743,
      "balance_loss_clip": 1.04447222,
      "balance_loss_mlp": 1.01654172,
      "epoch": 0.9665123549570132,
      "flos": 26322916769280.0,
      "grad_norm": 2.1358001783161975,
      "language_loss": 0.73805189,
      "learning_rate": 1.1712471781146316e-08,
      "loss": 0.75998116,
      "num_input_tokens_seen": 173549540,
      "step": 8038,
      "time_per_iteration": 2.6673009395599365
    },
    {
      "auxiliary_loss_clip": 0.01168526,
      "auxiliary_loss_mlp": 0.01024,
      "balance_loss_clip": 1.04588723,
      "balance_loss_mlp": 1.01562512,
      "epoch": 0.9666325978476522,
      "flos": 43941121557120.0,
      "grad_norm": 2.114817539205129,
      "language_loss": 0.66480225,
      "learning_rate": 1.1628442547069628e-08,
      "loss": 0.68672752,
      "num_input_tokens_seen": 173571740,
      "step": 8039,
      "time_per_iteration": 2.892774820327759
    },
    {
      "auxiliary_loss_clip": 0.01163872,
      "auxiliary_loss_mlp": 0.00886461,
      "balance_loss_clip": 1.04547167,
      "balance_loss_mlp": 1.00055265,
      "epoch": 0.9667528407382914,
      "flos": 21543422198400.0,
      "grad_norm": 1.9145962129815295,
      "language_loss": 0.7716549,
      "learning_rate": 1.1544714947377521e-08,
      "loss": 0.79215825,
      "num_input_tokens_seen": 173589425,
      "step": 8040,
      "time_per_iteration": 3.4520421028137207
    },
    {
      "auxiliary_loss_clip": 0.0117291,
      "auxiliary_loss_mlp": 0.01028242,
      "balance_loss_clip": 1.04907811,
      "balance_loss_mlp": 1.02031457,
      "epoch": 0.9668730836289304,
      "flos": 23878585278720.0,
      "grad_norm": 2.015267881780342,
      "language_loss": 0.70011854,
      "learning_rate": 1.1461288994770945e-08,
      "loss": 0.72213006,
      "num_input_tokens_seen": 173608500,
      "step": 8041,
      "time_per_iteration": 2.6244959831237793
    },
    {
      "auxiliary_loss_clip": 0.01170657,
      "auxiliary_loss_mlp": 0.01022835,
      "balance_loss_clip": 1.04614902,
      "balance_loss_mlp": 1.01541448,
      "epoch": 0.9669933265195695,
      "flos": 28293011971200.0,
      "grad_norm": 1.6401858909731128,
      "language_loss": 0.77089739,
      "learning_rate": 1.1378164701906002e-08,
      "loss": 0.79283226,
      "num_input_tokens_seen": 173630265,
      "step": 8042,
      "time_per_iteration": 2.6315267086029053
    },
    {
      "auxiliary_loss_clip": 0.01170948,
      "auxiliary_loss_mlp": 0.01026122,
      "balance_loss_clip": 1.04649615,
      "balance_loss_mlp": 1.01842117,
      "epoch": 0.9671135694102087,
      "flos": 22454763091200.0,
      "grad_norm": 1.78404631376622,
      "language_loss": 0.66700339,
      "learning_rate": 1.1295342081392156e-08,
      "loss": 0.68897414,
      "num_input_tokens_seen": 173649625,
      "step": 8043,
      "time_per_iteration": 2.590113878250122
    },
    {
      "auxiliary_loss_clip": 0.01154127,
      "auxiliary_loss_mlp": 0.01025427,
      "balance_loss_clip": 1.04455173,
      "balance_loss_mlp": 1.01828027,
      "epoch": 0.9672338123008477,
      "flos": 20155941596160.0,
      "grad_norm": 1.7788932923985306,
      "language_loss": 0.69296551,
      "learning_rate": 1.1212821145793804e-08,
      "loss": 0.71476102,
      "num_input_tokens_seen": 173669240,
      "step": 8044,
      "time_per_iteration": 2.7445733547210693
    },
    {
      "auxiliary_loss_clip": 0.01151346,
      "auxiliary_loss_mlp": 0.01027895,
      "balance_loss_clip": 1.04475975,
      "balance_loss_mlp": 1.02039647,
      "epoch": 0.9673540551914868,
      "flos": 16977487939200.0,
      "grad_norm": 2.4952331777966674,
      "language_loss": 0.78632599,
      "learning_rate": 1.1130601907629156e-08,
      "loss": 0.80811834,
      "num_input_tokens_seen": 173686970,
      "step": 8045,
      "time_per_iteration": 2.663529396057129
    },
    {
      "auxiliary_loss_clip": 0.01057755,
      "auxiliary_loss_mlp": 0.01001619,
      "balance_loss_clip": 1.007442,
      "balance_loss_mlp": 1.00057554,
      "epoch": 0.9674742980821259,
      "flos": 61892903952000.0,
      "grad_norm": 0.8124731084904571,
      "language_loss": 0.64798498,
      "learning_rate": 1.1048684379370899e-08,
      "loss": 0.66857874,
      "num_input_tokens_seen": 173747655,
      "step": 8046,
      "time_per_iteration": 3.1622884273529053
    },
    {
      "auxiliary_loss_clip": 0.01138426,
      "auxiliary_loss_mlp": 0.01027324,
      "balance_loss_clip": 1.04180884,
      "balance_loss_mlp": 1.02001023,
      "epoch": 0.967594540972765,
      "flos": 18697824898560.0,
      "grad_norm": 2.0416547259094133,
      "language_loss": 0.74521506,
      "learning_rate": 1.0967068573445759e-08,
      "loss": 0.76687253,
      "num_input_tokens_seen": 173765140,
      "step": 8047,
      "time_per_iteration": 2.647707462310791
    },
    {
      "auxiliary_loss_clip": 0.01148174,
      "auxiliary_loss_mlp": 0.01023439,
      "balance_loss_clip": 1.04257381,
      "balance_loss_mlp": 1.01611352,
      "epoch": 0.967714783863404,
      "flos": 20777411733120.0,
      "grad_norm": 2.1117612507032333,
      "language_loss": 0.65378737,
      "learning_rate": 1.0885754502234945e-08,
      "loss": 0.67550349,
      "num_input_tokens_seen": 173784800,
      "step": 8048,
      "time_per_iteration": 2.6515541076660156
    },
    {
      "auxiliary_loss_clip": 0.01140277,
      "auxiliary_loss_mlp": 0.01026512,
      "balance_loss_clip": 1.04313457,
      "balance_loss_mlp": 1.01861393,
      "epoch": 0.9678350267540432,
      "flos": 23185473465600.0,
      "grad_norm": 1.7988024391083877,
      "language_loss": 0.77877373,
      "learning_rate": 1.08047421780737e-08,
      "loss": 0.80044162,
      "num_input_tokens_seen": 173803990,
      "step": 8049,
      "time_per_iteration": 2.8122456073760986
    },
    {
      "auxiliary_loss_clip": 0.01155415,
      "auxiliary_loss_mlp": 0.00886655,
      "balance_loss_clip": 1.04383373,
      "balance_loss_mlp": 1.0005672,
      "epoch": 0.9679552696446823,
      "flos": 21726063878400.0,
      "grad_norm": 3.320389162979218,
      "language_loss": 0.73640364,
      "learning_rate": 1.0724031613251305e-08,
      "loss": 0.75682437,
      "num_input_tokens_seen": 173821890,
      "step": 8050,
      "time_per_iteration": 2.8105738162994385
    },
    {
      "auxiliary_loss_clip": 0.01167884,
      "auxiliary_loss_mlp": 0.01029018,
      "balance_loss_clip": 1.04841471,
      "balance_loss_mlp": 1.02056623,
      "epoch": 0.9680755125353213,
      "flos": 26869046129280.0,
      "grad_norm": 2.2668673143720777,
      "language_loss": 0.66230607,
      "learning_rate": 1.0643622820011744e-08,
      "loss": 0.68427515,
      "num_input_tokens_seen": 173842945,
      "step": 8051,
      "time_per_iteration": 2.6708526611328125
    },
    {
      "auxiliary_loss_clip": 0.0117298,
      "auxiliary_loss_mlp": 0.01037558,
      "balance_loss_clip": 1.04795599,
      "balance_loss_mlp": 1.03011036,
      "epoch": 0.9681957554259605,
      "flos": 28325008010880.0,
      "grad_norm": 3.105662779744489,
      "language_loss": 0.68294448,
      "learning_rate": 1.0563515810552814e-08,
      "loss": 0.70504987,
      "num_input_tokens_seen": 173859915,
      "step": 8052,
      "time_per_iteration": 2.6214263439178467
    },
    {
      "auxiliary_loss_clip": 0.01172969,
      "auxiliary_loss_mlp": 0.01033865,
      "balance_loss_clip": 1.05036938,
      "balance_loss_mlp": 1.02527046,
      "epoch": 0.9683159983165995,
      "flos": 20557674282240.0,
      "grad_norm": 1.6006804129997239,
      "language_loss": 0.73472953,
      "learning_rate": 1.0483710597026795e-08,
      "loss": 0.75679791,
      "num_input_tokens_seen": 173879775,
      "step": 8053,
      "time_per_iteration": 3.6219894886016846
    },
    {
      "auxiliary_loss_clip": 0.01139843,
      "auxiliary_loss_mlp": 0.01026795,
      "balance_loss_clip": 1.0420804,
      "balance_loss_mlp": 1.01946974,
      "epoch": 0.9684362412072386,
      "flos": 24207958016640.0,
      "grad_norm": 2.135255693970985,
      "language_loss": 0.73713189,
      "learning_rate": 1.0404207191540227e-08,
      "loss": 0.75879824,
      "num_input_tokens_seen": 173900230,
      "step": 8054,
      "time_per_iteration": 2.7426652908325195
    },
    {
      "auxiliary_loss_clip": 0.01168309,
      "auxiliary_loss_mlp": 0.01027405,
      "balance_loss_clip": 1.0456593,
      "balance_loss_mlp": 1.02006125,
      "epoch": 0.9685564840978778,
      "flos": 22346241125760.0,
      "grad_norm": 2.2526276931733067,
      "language_loss": 0.74574018,
      "learning_rate": 1.0325005606153236e-08,
      "loss": 0.76769733,
      "num_input_tokens_seen": 173919690,
      "step": 8055,
      "time_per_iteration": 3.5387802124023438
    },
    {
      "auxiliary_loss_clip": 0.011351,
      "auxiliary_loss_mlp": 0.01031152,
      "balance_loss_clip": 1.04129601,
      "balance_loss_mlp": 1.02364159,
      "epoch": 0.9686767269885168,
      "flos": 14386389477120.0,
      "grad_norm": 3.6752875024160288,
      "language_loss": 0.79252458,
      "learning_rate": 1.0246105852881104e-08,
      "loss": 0.81418711,
      "num_input_tokens_seen": 173934790,
      "step": 8056,
      "time_per_iteration": 3.4990382194519043
    },
    {
      "auxiliary_loss_clip": 0.01171428,
      "auxiliary_loss_mlp": 0.010296,
      "balance_loss_clip": 1.04740691,
      "balance_loss_mlp": 1.02172661,
      "epoch": 0.9687969698791559,
      "flos": 21287630471040.0,
      "grad_norm": 1.9968751154559312,
      "language_loss": 0.78733432,
      "learning_rate": 1.0167507943692476e-08,
      "loss": 0.80934453,
      "num_input_tokens_seen": 173953875,
      "step": 8057,
      "time_per_iteration": 2.6413934230804443
    },
    {
      "auxiliary_loss_clip": 0.01161096,
      "auxiliary_loss_mlp": 0.01023674,
      "balance_loss_clip": 1.04859865,
      "balance_loss_mlp": 1.01593733,
      "epoch": 0.968917212769795,
      "flos": 19828328624640.0,
      "grad_norm": 2.4837368161637348,
      "language_loss": 0.71437907,
      "learning_rate": 1.008921189051093e-08,
      "loss": 0.73622668,
      "num_input_tokens_seen": 173971220,
      "step": 8058,
      "time_per_iteration": 2.6124606132507324
    },
    {
      "auxiliary_loss_clip": 0.01172953,
      "auxiliary_loss_mlp": 0.01025914,
      "balance_loss_clip": 1.04931259,
      "balance_loss_mlp": 1.01833272,
      "epoch": 0.9690374556604341,
      "flos": 21681749473920.0,
      "grad_norm": 1.9616465567866124,
      "language_loss": 0.77399874,
      "learning_rate": 1.0011217705213848e-08,
      "loss": 0.79598737,
      "num_input_tokens_seen": 173989095,
      "step": 8059,
      "time_per_iteration": 2.5921127796173096
    },
    {
      "auxiliary_loss_clip": 0.01158235,
      "auxiliary_loss_mlp": 0.01027874,
      "balance_loss_clip": 1.04642987,
      "balance_loss_mlp": 1.02093339,
      "epoch": 0.9691576985510731,
      "flos": 32635437851520.0,
      "grad_norm": 2.592761654004707,
      "language_loss": 0.74615169,
      "learning_rate": 9.933525399632658e-09,
      "loss": 0.76801276,
      "num_input_tokens_seen": 174007330,
      "step": 8060,
      "time_per_iteration": 2.7378182411193848
    },
    {
      "auxiliary_loss_clip": 0.01146631,
      "auxiliary_loss_mlp": 0.0102808,
      "balance_loss_clip": 1.04335582,
      "balance_loss_mlp": 1.01954746,
      "epoch": 0.9692779414417123,
      "flos": 35663174040960.0,
      "grad_norm": 2.2123866572822504,
      "language_loss": 0.6498999,
      "learning_rate": 9.856134985553488e-09,
      "loss": 0.67164695,
      "num_input_tokens_seen": 174027055,
      "step": 8061,
      "time_per_iteration": 2.752965211868286
    },
    {
      "auxiliary_loss_clip": 0.01169089,
      "auxiliary_loss_mlp": 0.01032749,
      "balance_loss_clip": 1.04701424,
      "balance_loss_mlp": 1.02494359,
      "epoch": 0.9693981843323514,
      "flos": 28366952117760.0,
      "grad_norm": 2.6735892752341117,
      "language_loss": 0.73466969,
      "learning_rate": 9.77904647471628e-09,
      "loss": 0.75668806,
      "num_input_tokens_seen": 174050235,
      "step": 8062,
      "time_per_iteration": 2.6375486850738525
    },
    {
      "auxiliary_loss_clip": 0.01123187,
      "auxiliary_loss_mlp": 0.0102489,
      "balance_loss_clip": 1.04092252,
      "balance_loss_mlp": 1.01733851,
      "epoch": 0.9695184272229904,
      "flos": 23622865378560.0,
      "grad_norm": 1.8015566373609437,
      "language_loss": 0.73824507,
      "learning_rate": 9.702259878815454e-09,
      "loss": 0.75972581,
      "num_input_tokens_seen": 174070560,
      "step": 8063,
      "time_per_iteration": 2.7634031772613525
    },
    {
      "auxiliary_loss_clip": 0.01164278,
      "auxiliary_loss_mlp": 0.01029855,
      "balance_loss_clip": 1.04706717,
      "balance_loss_mlp": 1.02173042,
      "epoch": 0.9696386701136296,
      "flos": 23294677789440.0,
      "grad_norm": 2.010415755762114,
      "language_loss": 0.74432313,
      "learning_rate": 9.625775209499254e-09,
      "loss": 0.76626444,
      "num_input_tokens_seen": 174090565,
      "step": 8064,
      "time_per_iteration": 2.618617057800293
    },
    {
      "auxiliary_loss_clip": 0.01131847,
      "auxiliary_loss_mlp": 0.01025007,
      "balance_loss_clip": 1.03953242,
      "balance_loss_mlp": 1.01775658,
      "epoch": 0.9697589130042686,
      "flos": 15121876360320.0,
      "grad_norm": 2.405843810976093,
      "language_loss": 0.74058157,
      "learning_rate": 9.549592478370172e-09,
      "loss": 0.76215011,
      "num_input_tokens_seen": 174108745,
      "step": 8065,
      "time_per_iteration": 2.6883769035339355
    },
    {
      "auxiliary_loss_clip": 0.01158894,
      "auxiliary_loss_mlp": 0.01025925,
      "balance_loss_clip": 1.04303694,
      "balance_loss_mlp": 1.01861155,
      "epoch": 0.9698791558949077,
      "flos": 18879532824960.0,
      "grad_norm": 1.6423794646449046,
      "language_loss": 0.79019833,
      "learning_rate": 9.473711696985632e-09,
      "loss": 0.81204653,
      "num_input_tokens_seen": 174128075,
      "step": 8066,
      "time_per_iteration": 3.618812084197998
    },
    {
      "auxiliary_loss_clip": 0.01150417,
      "auxiliary_loss_mlp": 0.01023246,
      "balance_loss_clip": 1.04331648,
      "balance_loss_mlp": 1.01576555,
      "epoch": 0.9699993987855468,
      "flos": 17931455297280.0,
      "grad_norm": 2.82093226170913,
      "language_loss": 0.75900078,
      "learning_rate": 9.398132876856201e-09,
      "loss": 0.7807374,
      "num_input_tokens_seen": 174147040,
      "step": 8067,
      "time_per_iteration": 2.679466724395752
    },
    {
      "auxiliary_loss_clip": 0.01038596,
      "auxiliary_loss_mlp": 0.01001485,
      "balance_loss_clip": 1.00808775,
      "balance_loss_mlp": 1.00053775,
      "epoch": 0.9701196416761859,
      "flos": 67182186297600.0,
      "grad_norm": 0.7864487009133592,
      "language_loss": 0.60787702,
      "learning_rate": 9.322856029447379e-09,
      "loss": 0.62827784,
      "num_input_tokens_seen": 174208225,
      "step": 8068,
      "time_per_iteration": 3.196993112564087
    },
    {
      "auxiliary_loss_clip": 0.01170256,
      "auxiliary_loss_mlp": 0.01022382,
      "balance_loss_clip": 1.04936862,
      "balance_loss_mlp": 1.01489568,
      "epoch": 0.970239884566825,
      "flos": 24277804012800.0,
      "grad_norm": 2.1471336590495174,
      "language_loss": 0.79898763,
      "learning_rate": 9.247881166178695e-09,
      "loss": 0.82091403,
      "num_input_tokens_seen": 174226935,
      "step": 8069,
      "time_per_iteration": 2.6472787857055664
    },
    {
      "auxiliary_loss_clip": 0.01149248,
      "auxiliary_loss_mlp": 0.01028338,
      "balance_loss_clip": 1.04438937,
      "balance_loss_mlp": 1.02088118,
      "epoch": 0.970360127457464,
      "flos": 25301689194240.0,
      "grad_norm": 2.180237483555863,
      "language_loss": 0.7679404,
      "learning_rate": 9.173208298423274e-09,
      "loss": 0.78971624,
      "num_input_tokens_seen": 174248140,
      "step": 8070,
      "time_per_iteration": 2.78883695602417
    },
    {
      "auxiliary_loss_clip": 0.01128129,
      "auxiliary_loss_mlp": 0.00886238,
      "balance_loss_clip": 1.04152286,
      "balance_loss_mlp": 1.00052047,
      "epoch": 0.9704803703481032,
      "flos": 29572473398400.0,
      "grad_norm": 2.6821087279905447,
      "language_loss": 0.7612685,
      "learning_rate": 9.09883743750961e-09,
      "loss": 0.78141218,
      "num_input_tokens_seen": 174271030,
      "step": 8071,
      "time_per_iteration": 2.8062267303466797
    },
    {
      "auxiliary_loss_clip": 0.01147327,
      "auxiliary_loss_mlp": 0.01024751,
      "balance_loss_clip": 1.04394698,
      "balance_loss_mlp": 1.01760769,
      "epoch": 0.9706006132387422,
      "flos": 17380046638080.0,
      "grad_norm": 1.5911543602247846,
      "language_loss": 0.83762777,
      "learning_rate": 9.024768594719124e-09,
      "loss": 0.85934854,
      "num_input_tokens_seen": 174289410,
      "step": 8072,
      "time_per_iteration": 2.7503178119659424
    },
    {
      "auxiliary_loss_clip": 0.0113849,
      "auxiliary_loss_mlp": 0.01020829,
      "balance_loss_clip": 1.04152811,
      "balance_loss_mlp": 1.01365566,
      "epoch": 0.9707208561293813,
      "flos": 18186421011840.0,
      "grad_norm": 3.388416539748417,
      "language_loss": 0.72511631,
      "learning_rate": 8.95100178128816e-09,
      "loss": 0.74670953,
      "num_input_tokens_seen": 174308550,
      "step": 8073,
      "time_per_iteration": 2.719499349594116
    },
    {
      "auxiliary_loss_clip": 0.01151032,
      "auxiliary_loss_mlp": 0.01031105,
      "balance_loss_clip": 1.04316783,
      "balance_loss_mlp": 1.023458,
      "epoch": 0.9708410990200205,
      "flos": 31248388212480.0,
      "grad_norm": 1.9782872452769296,
      "language_loss": 0.70577759,
      "learning_rate": 8.877537008407321e-09,
      "loss": 0.72759897,
      "num_input_tokens_seen": 174328600,
      "step": 8074,
      "time_per_iteration": 2.7161624431610107
    },
    {
      "auxiliary_loss_clip": 0.01155354,
      "auxiliary_loss_mlp": 0.01029174,
      "balance_loss_clip": 1.04601908,
      "balance_loss_mlp": 1.0215981,
      "epoch": 0.9709613419106595,
      "flos": 30554450386560.0,
      "grad_norm": 2.516142319585561,
      "language_loss": 0.68792403,
      "learning_rate": 8.804374287221028e-09,
      "loss": 0.70976931,
      "num_input_tokens_seen": 174349835,
      "step": 8075,
      "time_per_iteration": 2.7837486267089844
    },
    {
      "auxiliary_loss_clip": 0.01135387,
      "auxiliary_loss_mlp": 0.01024926,
      "balance_loss_clip": 1.03906405,
      "balance_loss_mlp": 1.01759148,
      "epoch": 0.9710815848012986,
      "flos": 23730166281600.0,
      "grad_norm": 1.6263768776980452,
      "language_loss": 0.84494734,
      "learning_rate": 8.731513628827958e-09,
      "loss": 0.86655045,
      "num_input_tokens_seen": 174369200,
      "step": 8076,
      "time_per_iteration": 2.702768325805664
    },
    {
      "auxiliary_loss_clip": 0.01162494,
      "auxiliary_loss_mlp": 0.01028739,
      "balance_loss_clip": 1.04627705,
      "balance_loss_mlp": 1.02123487,
      "epoch": 0.9712018276919377,
      "flos": 23761875012480.0,
      "grad_norm": 2.157118627344509,
      "language_loss": 0.82734835,
      "learning_rate": 8.658955044280825e-09,
      "loss": 0.84926069,
      "num_input_tokens_seen": 174388125,
      "step": 8077,
      "time_per_iteration": 2.65494966506958
    },
    {
      "auxiliary_loss_clip": 0.01156666,
      "auxiliary_loss_mlp": 0.01027101,
      "balance_loss_clip": 1.04504693,
      "balance_loss_mlp": 1.0191499,
      "epoch": 0.9713220705825768,
      "flos": 23330983461120.0,
      "grad_norm": 1.9602345669812524,
      "language_loss": 0.77775055,
      "learning_rate": 8.586698544587268e-09,
      "loss": 0.7995882,
      "num_input_tokens_seen": 174409735,
      "step": 8078,
      "time_per_iteration": 2.6517882347106934
    },
    {
      "auxiliary_loss_clip": 0.01142659,
      "auxiliary_loss_mlp": 0.01030603,
      "balance_loss_clip": 1.04352427,
      "balance_loss_mlp": 1.02289569,
      "epoch": 0.9714423134732159,
      "flos": 22200946611840.0,
      "grad_norm": 1.9780754147819286,
      "language_loss": 0.74310875,
      "learning_rate": 8.514744140707853e-09,
      "loss": 0.76484138,
      "num_input_tokens_seen": 174428875,
      "step": 8079,
      "time_per_iteration": 3.6349525451660156
    },
    {
      "auxiliary_loss_clip": 0.01169117,
      "auxiliary_loss_mlp": 0.0102496,
      "balance_loss_clip": 1.04849768,
      "balance_loss_mlp": 1.01778936,
      "epoch": 0.971562556363855,
      "flos": 20229917656320.0,
      "grad_norm": 1.9260763529741947,
      "language_loss": 0.76367342,
      "learning_rate": 8.443091843558515e-09,
      "loss": 0.78561425,
      "num_input_tokens_seen": 174447960,
      "step": 8080,
      "time_per_iteration": 2.6439273357391357
    },
    {
      "auxiliary_loss_clip": 0.01143999,
      "auxiliary_loss_mlp": 0.01029723,
      "balance_loss_clip": 1.04270768,
      "balance_loss_mlp": 1.02177763,
      "epoch": 0.9716827992544941,
      "flos": 24970197553920.0,
      "grad_norm": 2.1089240502089512,
      "language_loss": 0.65178728,
      "learning_rate": 8.37174166400878e-09,
      "loss": 0.6735245,
      "num_input_tokens_seen": 174463535,
      "step": 8081,
      "time_per_iteration": 3.635049343109131
    },
    {
      "auxiliary_loss_clip": 0.01172925,
      "auxiliary_loss_mlp": 0.01025114,
      "balance_loss_clip": 1.05033648,
      "balance_loss_mlp": 1.01759791,
      "epoch": 0.9718030421451331,
      "flos": 24681476033280.0,
      "grad_norm": 2.058425903233906,
      "language_loss": 0.85095406,
      "learning_rate": 8.300693612881992e-09,
      "loss": 0.87293446,
      "num_input_tokens_seen": 174483600,
      "step": 8082,
      "time_per_iteration": 3.4458673000335693
    },
    {
      "auxiliary_loss_clip": 0.01158452,
      "auxiliary_loss_mlp": 0.00886757,
      "balance_loss_clip": 1.0468477,
      "balance_loss_mlp": 1.00058842,
      "epoch": 0.9719232850357723,
      "flos": 22090700793600.0,
      "grad_norm": 2.133263754153248,
      "language_loss": 0.81522954,
      "learning_rate": 8.22994770095664e-09,
      "loss": 0.83568168,
      "num_input_tokens_seen": 174502175,
      "step": 8083,
      "time_per_iteration": 2.6976425647735596
    },
    {
      "auxiliary_loss_clip": 0.01150832,
      "auxiliary_loss_mlp": 0.01024722,
      "balance_loss_clip": 1.04753447,
      "balance_loss_mlp": 1.01679444,
      "epoch": 0.9720435279264114,
      "flos": 23656908493440.0,
      "grad_norm": 2.0563342412231655,
      "language_loss": 0.75314021,
      "learning_rate": 8.159503938964585e-09,
      "loss": 0.77489573,
      "num_input_tokens_seen": 174519495,
      "step": 8084,
      "time_per_iteration": 2.6380016803741455
    },
    {
      "auxiliary_loss_clip": 0.01131644,
      "auxiliary_loss_mlp": 0.01024421,
      "balance_loss_clip": 1.04104459,
      "balance_loss_mlp": 1.0172478,
      "epoch": 0.9721637708170504,
      "flos": 28365910623360.0,
      "grad_norm": 2.0307770231614897,
      "language_loss": 0.70397985,
      "learning_rate": 8.089362337592164e-09,
      "loss": 0.72554052,
      "num_input_tokens_seen": 174543120,
      "step": 8085,
      "time_per_iteration": 2.7752506732940674
    },
    {
      "auxiliary_loss_clip": 0.01145486,
      "auxiliary_loss_mlp": 0.01026962,
      "balance_loss_clip": 1.04410148,
      "balance_loss_mlp": 1.01951742,
      "epoch": 0.9722840137076896,
      "flos": 29130807767040.0,
      "grad_norm": 2.074230189342871,
      "language_loss": 0.7222544,
      "learning_rate": 8.019522907479536e-09,
      "loss": 0.74397886,
      "num_input_tokens_seen": 174563480,
      "step": 8086,
      "time_per_iteration": 2.6869709491729736
    },
    {
      "auxiliary_loss_clip": 0.01164327,
      "auxiliary_loss_mlp": 0.01023207,
      "balance_loss_clip": 1.04677343,
      "balance_loss_mlp": 1.01594162,
      "epoch": 0.9724042565983286,
      "flos": 19243954258560.0,
      "grad_norm": 2.18715373590651,
      "language_loss": 0.7754156,
      "learning_rate": 7.949985659221558e-09,
      "loss": 0.79729092,
      "num_input_tokens_seen": 174580745,
      "step": 8087,
      "time_per_iteration": 2.6586508750915527
    },
    {
      "auxiliary_loss_clip": 0.01154916,
      "auxiliary_loss_mlp": 0.01025385,
      "balance_loss_clip": 1.0448643,
      "balance_loss_mlp": 1.01764798,
      "epoch": 0.9725244994889677,
      "flos": 23039676161280.0,
      "grad_norm": 2.2001155013553184,
      "language_loss": 0.79149938,
      "learning_rate": 7.880750603366904e-09,
      "loss": 0.8133024,
      "num_input_tokens_seen": 174599615,
      "step": 8088,
      "time_per_iteration": 2.7173337936401367
    },
    {
      "auxiliary_loss_clip": 0.01148068,
      "auxiliary_loss_mlp": 0.01028958,
      "balance_loss_clip": 1.04086781,
      "balance_loss_mlp": 1.02082157,
      "epoch": 0.9726447423796069,
      "flos": 23367468700800.0,
      "grad_norm": 3.02757330745859,
      "language_loss": 0.79695201,
      "learning_rate": 7.811817750418282e-09,
      "loss": 0.81872225,
      "num_input_tokens_seen": 174618375,
      "step": 8089,
      "time_per_iteration": 2.6958022117614746
    },
    {
      "auxiliary_loss_clip": 0.01138338,
      "auxiliary_loss_mlp": 0.01026794,
      "balance_loss_clip": 1.0436039,
      "balance_loss_mlp": 1.01901531,
      "epoch": 0.9727649852702459,
      "flos": 26541648639360.0,
      "grad_norm": 2.074648279391823,
      "language_loss": 0.7994771,
      "learning_rate": 7.743187110833105e-09,
      "loss": 0.82112843,
      "num_input_tokens_seen": 174641135,
      "step": 8090,
      "time_per_iteration": 2.774841547012329
    },
    {
      "auxiliary_loss_clip": 0.01150236,
      "auxiliary_loss_mlp": 0.01030061,
      "balance_loss_clip": 1.04147482,
      "balance_loss_mlp": 1.02262568,
      "epoch": 0.972885228160885,
      "flos": 20522338277760.0,
      "grad_norm": 3.0791911641257235,
      "language_loss": 0.80600822,
      "learning_rate": 7.674858695022602e-09,
      "loss": 0.82781124,
      "num_input_tokens_seen": 174659490,
      "step": 8091,
      "time_per_iteration": 2.656886339187622
    },
    {
      "auxiliary_loss_clip": 0.01174493,
      "auxiliary_loss_mlp": 0.0102837,
      "balance_loss_clip": 1.04906952,
      "balance_loss_mlp": 1.02077031,
      "epoch": 0.9730054710515241,
      "flos": 17566064196480.0,
      "grad_norm": 3.320201649501377,
      "language_loss": 0.75444573,
      "learning_rate": 7.606832513351591e-09,
      "loss": 0.77647436,
      "num_input_tokens_seen": 174677440,
      "step": 8092,
      "time_per_iteration": 3.4648451805114746
    },
    {
      "auxiliary_loss_clip": 0.01061286,
      "auxiliary_loss_mlp": 0.0087598,
      "balance_loss_clip": 1.00676394,
      "balance_loss_mlp": 1.00076914,
      "epoch": 0.9731257139421632,
      "flos": 68972010117120.0,
      "grad_norm": 0.8351322516299013,
      "language_loss": 0.63937455,
      "learning_rate": 7.539108576140264e-09,
      "loss": 0.6587472,
      "num_input_tokens_seen": 174741550,
      "step": 8093,
      "time_per_iteration": 3.315068244934082
    },
    {
      "auxiliary_loss_clip": 0.01130581,
      "auxiliary_loss_mlp": 0.01024459,
      "balance_loss_clip": 1.04184508,
      "balance_loss_mlp": 1.01748574,
      "epoch": 0.9732459568328022,
      "flos": 18478841633280.0,
      "grad_norm": 1.9818090526873453,
      "language_loss": 0.70580828,
      "learning_rate": 7.471686893661732e-09,
      "loss": 0.7273587,
      "num_input_tokens_seen": 174759845,
      "step": 8094,
      "time_per_iteration": 2.837066411972046
    },
    {
      "auxiliary_loss_clip": 0.01150355,
      "auxiliary_loss_mlp": 0.01030269,
      "balance_loss_clip": 1.04699636,
      "balance_loss_mlp": 1.02267802,
      "epoch": 0.9733661997234414,
      "flos": 20883886623360.0,
      "grad_norm": 1.9412947917176344,
      "language_loss": 0.6425792,
      "learning_rate": 7.4045674761442636e-09,
      "loss": 0.66438544,
      "num_input_tokens_seen": 174777175,
      "step": 8095,
      "time_per_iteration": 2.7113678455352783
    },
    {
      "auxiliary_loss_clip": 0.01167613,
      "auxiliary_loss_mlp": 0.00886315,
      "balance_loss_clip": 1.04598141,
      "balance_loss_mlp": 1.00062442,
      "epoch": 0.9734864426140805,
      "flos": 23766795175680.0,
      "grad_norm": 2.071443038626155,
      "language_loss": 0.74647921,
      "learning_rate": 7.337750333769488e-09,
      "loss": 0.7670185,
      "num_input_tokens_seen": 174796980,
      "step": 8096,
      "time_per_iteration": 2.60163950920105
    },
    {
      "auxiliary_loss_clip": 0.01155802,
      "auxiliary_loss_mlp": 0.01023763,
      "balance_loss_clip": 1.04220474,
      "balance_loss_mlp": 1.01674473,
      "epoch": 0.9736066855047195,
      "flos": 35042422176000.0,
      "grad_norm": 2.6906048867083285,
      "language_loss": 0.72540498,
      "learning_rate": 7.2712354766737425e-09,
      "loss": 0.74720061,
      "num_input_tokens_seen": 174817310,
      "step": 8097,
      "time_per_iteration": 2.7810072898864746
    },
    {
      "auxiliary_loss_clip": 0.01128393,
      "auxiliary_loss_mlp": 0.01025319,
      "balance_loss_clip": 1.04173434,
      "balance_loss_mlp": 1.01774049,
      "epoch": 0.9737269283953586,
      "flos": 20410620001920.0,
      "grad_norm": 1.573235834001286,
      "language_loss": 0.80740321,
      "learning_rate": 7.2050229149469565e-09,
      "loss": 0.82894027,
      "num_input_tokens_seen": 174837320,
      "step": 8098,
      "time_per_iteration": 2.7023561000823975
    },
    {
      "auxiliary_loss_clip": 0.01142048,
      "auxiliary_loss_mlp": 0.01034628,
      "balance_loss_clip": 1.04002905,
      "balance_loss_mlp": 1.02716279,
      "epoch": 0.9738471712859977,
      "flos": 28911680847360.0,
      "grad_norm": 1.917170944060121,
      "language_loss": 0.63883948,
      "learning_rate": 7.139112658633984e-09,
      "loss": 0.66060627,
      "num_input_tokens_seen": 174857470,
      "step": 8099,
      "time_per_iteration": 2.77127742767334
    },
    {
      "auxiliary_loss_clip": 0.01137371,
      "auxiliary_loss_mlp": 0.01025722,
      "balance_loss_clip": 1.0433681,
      "balance_loss_mlp": 1.01854014,
      "epoch": 0.9739674141766368,
      "flos": 27782326356480.0,
      "grad_norm": 2.176639973717095,
      "language_loss": 0.70580405,
      "learning_rate": 7.073504717733048e-09,
      "loss": 0.72743499,
      "num_input_tokens_seen": 174877035,
      "step": 8100,
      "time_per_iteration": 2.7910399436950684
    },
    {
      "auxiliary_loss_clip": 0.01038393,
      "auxiliary_loss_mlp": 0.01003228,
      "balance_loss_clip": 1.00607193,
      "balance_loss_mlp": 1.00226808,
      "epoch": 0.9740876570672758,
      "flos": 68863057188480.0,
      "grad_norm": 0.7293303760800476,
      "language_loss": 0.57184613,
      "learning_rate": 7.008199102196855e-09,
      "loss": 0.59226239,
      "num_input_tokens_seen": 174938460,
      "step": 8101,
      "time_per_iteration": 3.3151795864105225
    },
    {
      "auxiliary_loss_clip": 0.01045102,
      "auxiliary_loss_mlp": 0.00999599,
      "balance_loss_clip": 1.00985503,
      "balance_loss_mlp": 0.99877024,
      "epoch": 0.974207899957915,
      "flos": 58236622646400.0,
      "grad_norm": 0.8027559779522893,
      "language_loss": 0.58979833,
      "learning_rate": 6.9431958219321464e-09,
      "loss": 0.61024535,
      "num_input_tokens_seen": 174994625,
      "step": 8102,
      "time_per_iteration": 3.2225475311279297
    },
    {
      "auxiliary_loss_clip": 0.01149566,
      "auxiliary_loss_mlp": 0.01025456,
      "balance_loss_clip": 1.04313755,
      "balance_loss_mlp": 1.01793647,
      "epoch": 0.9743281428485541,
      "flos": 22600057605120.0,
      "grad_norm": 1.5068167124803047,
      "language_loss": 0.77811158,
      "learning_rate": 6.878494886800146e-09,
      "loss": 0.79986179,
      "num_input_tokens_seen": 175015400,
      "step": 8103,
      "time_per_iteration": 2.7230634689331055
    },
    {
      "auxiliary_loss_clip": 0.01152143,
      "auxiliary_loss_mlp": 0.01029152,
      "balance_loss_clip": 1.04518127,
      "balance_loss_mlp": 1.02135611,
      "epoch": 0.9744483857391931,
      "flos": 20008815488640.0,
      "grad_norm": 1.8714576995560883,
      "language_loss": 0.76568669,
      "learning_rate": 6.814096306615669e-09,
      "loss": 0.78749967,
      "num_input_tokens_seen": 175033540,
      "step": 8104,
      "time_per_iteration": 2.6556408405303955
    },
    {
      "auxiliary_loss_clip": 0.01155852,
      "auxiliary_loss_mlp": 0.01025601,
      "balance_loss_clip": 1.04265976,
      "balance_loss_mlp": 1.01766753,
      "epoch": 0.9745686286298323,
      "flos": 17675268520320.0,
      "grad_norm": 2.1094095975058824,
      "language_loss": 0.65031481,
      "learning_rate": 6.750000091148011e-09,
      "loss": 0.67212933,
      "num_input_tokens_seen": 175050835,
      "step": 8105,
      "time_per_iteration": 3.657590627670288
    },
    {
      "auxiliary_loss_clip": 0.01171051,
      "auxiliary_loss_mlp": 0.01032219,
      "balance_loss_clip": 1.04881692,
      "balance_loss_mlp": 1.02419639,
      "epoch": 0.9746888715204713,
      "flos": 29460252332160.0,
      "grad_norm": 2.26728842917113,
      "language_loss": 0.72534961,
      "learning_rate": 6.686206250120729e-09,
      "loss": 0.74738228,
      "num_input_tokens_seen": 175072330,
      "step": 8106,
      "time_per_iteration": 2.7138941287994385
    },
    {
      "auxiliary_loss_clip": 0.01144008,
      "auxiliary_loss_mlp": 0.01026388,
      "balance_loss_clip": 1.03902423,
      "balance_loss_mlp": 1.01902056,
      "epoch": 0.9748091144111104,
      "flos": 18479308510080.0,
      "grad_norm": 1.9868623597373576,
      "language_loss": 0.74780083,
      "learning_rate": 6.622714793210749e-09,
      "loss": 0.76950479,
      "num_input_tokens_seen": 175091250,
      "step": 8107,
      "time_per_iteration": 3.558081865310669
    },
    {
      "auxiliary_loss_clip": 0.01169817,
      "auxiliary_loss_mlp": 0.01024601,
      "balance_loss_clip": 1.04650795,
      "balance_loss_mlp": 1.01692402,
      "epoch": 0.9749293573017496,
      "flos": 20665154753280.0,
      "grad_norm": 1.6855659567136871,
      "language_loss": 0.7856853,
      "learning_rate": 6.559525730050364e-09,
      "loss": 0.80762947,
      "num_input_tokens_seen": 175111350,
      "step": 8108,
      "time_per_iteration": 3.4167068004608154
    },
    {
      "auxiliary_loss_clip": 0.01144605,
      "auxiliary_loss_mlp": 0.01026255,
      "balance_loss_clip": 1.04621553,
      "balance_loss_mlp": 1.01903653,
      "epoch": 0.9750496001923886,
      "flos": 18478590238080.0,
      "grad_norm": 2.535683278229162,
      "language_loss": 0.76246119,
      "learning_rate": 6.496639070224574e-09,
      "loss": 0.78416979,
      "num_input_tokens_seen": 175129835,
      "step": 8109,
      "time_per_iteration": 2.644226551055908
    },
    {
      "auxiliary_loss_clip": 0.0116381,
      "auxiliary_loss_mlp": 0.01022465,
      "balance_loss_clip": 1.04646492,
      "balance_loss_mlp": 1.01507354,
      "epoch": 0.9751698430830277,
      "flos": 19572967860480.0,
      "grad_norm": 2.296565976792444,
      "language_loss": 0.83624226,
      "learning_rate": 6.4340548232739714e-09,
      "loss": 0.858105,
      "num_input_tokens_seen": 175146035,
      "step": 8110,
      "time_per_iteration": 2.5480055809020996
    },
    {
      "auxiliary_loss_clip": 0.01146865,
      "auxiliary_loss_mlp": 0.01027758,
      "balance_loss_clip": 1.04347777,
      "balance_loss_mlp": 1.02023602,
      "epoch": 0.9752900859736668,
      "flos": 23550325862400.0,
      "grad_norm": 2.476806723775144,
      "language_loss": 0.79290193,
      "learning_rate": 6.371772998692071e-09,
      "loss": 0.81464815,
      "num_input_tokens_seen": 175165290,
      "step": 8111,
      "time_per_iteration": 2.6473546028137207
    },
    {
      "auxiliary_loss_clip": 0.01143756,
      "auxiliary_loss_mlp": 0.01024183,
      "balance_loss_clip": 1.04061449,
      "balance_loss_mlp": 1.01704848,
      "epoch": 0.9754103288643059,
      "flos": 20303211358080.0,
      "grad_norm": 4.036202369720798,
      "language_loss": 0.65108478,
      "learning_rate": 6.309793605927094e-09,
      "loss": 0.67276418,
      "num_input_tokens_seen": 175183610,
      "step": 8112,
      "time_per_iteration": 2.568230628967285
    },
    {
      "auxiliary_loss_clip": 0.01156317,
      "auxiliary_loss_mlp": 0.01026859,
      "balance_loss_clip": 1.04428053,
      "balance_loss_mlp": 1.01938188,
      "epoch": 0.975530571754945,
      "flos": 19350680544000.0,
      "grad_norm": 2.043038869941175,
      "language_loss": 0.80063576,
      "learning_rate": 6.248116654381297e-09,
      "loss": 0.82246757,
      "num_input_tokens_seen": 175202080,
      "step": 8113,
      "time_per_iteration": 2.5313875675201416
    },
    {
      "auxiliary_loss_clip": 0.01154115,
      "auxiliary_loss_mlp": 0.010267,
      "balance_loss_clip": 1.0429765,
      "balance_loss_mlp": 1.01944041,
      "epoch": 0.9756508146455841,
      "flos": 23583399310080.0,
      "grad_norm": 1.7929613566878497,
      "language_loss": 0.7263335,
      "learning_rate": 6.186742153410751e-09,
      "loss": 0.74814165,
      "num_input_tokens_seen": 175221575,
      "step": 8114,
      "time_per_iteration": 2.5445995330810547
    },
    {
      "auxiliary_loss_clip": 0.01148419,
      "auxiliary_loss_mlp": 0.01032401,
      "balance_loss_clip": 1.04423249,
      "balance_loss_mlp": 1.02416992,
      "epoch": 0.9757710575362232,
      "flos": 22966921163520.0,
      "grad_norm": 1.9344226211898443,
      "language_loss": 0.8695873,
      "learning_rate": 6.125670112326453e-09,
      "loss": 0.89139557,
      "num_input_tokens_seen": 175240835,
      "step": 8115,
      "time_per_iteration": 2.856964349746704
    },
    {
      "auxiliary_loss_clip": 0.01162181,
      "auxiliary_loss_mlp": 0.01024579,
      "balance_loss_clip": 1.04479027,
      "balance_loss_mlp": 1.01673543,
      "epoch": 0.9758913004268622,
      "flos": 27966009530880.0,
      "grad_norm": 1.6384189087211922,
      "language_loss": 0.70347989,
      "learning_rate": 6.064900540392548e-09,
      "loss": 0.72534746,
      "num_input_tokens_seen": 175262930,
      "step": 8116,
      "time_per_iteration": 2.678288221359253
    },
    {
      "auxiliary_loss_clip": 0.01143933,
      "auxiliary_loss_mlp": 0.01028965,
      "balance_loss_clip": 1.04384804,
      "balance_loss_mlp": 1.02236044,
      "epoch": 0.9760115433175014,
      "flos": 22200156512640.0,
      "grad_norm": 2.2881122031418113,
      "language_loss": 0.78870404,
      "learning_rate": 6.0044334468278835e-09,
      "loss": 0.81043303,
      "num_input_tokens_seen": 175282275,
      "step": 8117,
      "time_per_iteration": 2.654113531112671
    },
    {
      "auxiliary_loss_clip": 0.01131731,
      "auxiliary_loss_mlp": 0.01031644,
      "balance_loss_clip": 1.04119372,
      "balance_loss_mlp": 1.02396739,
      "epoch": 0.9761317862081405,
      "flos": 26250736389120.0,
      "grad_norm": 1.8041063169157536,
      "language_loss": 0.7167778,
      "learning_rate": 5.944268840805345e-09,
      "loss": 0.73841161,
      "num_input_tokens_seen": 175303020,
      "step": 8118,
      "time_per_iteration": 3.6880953311920166
    },
    {
      "auxiliary_loss_clip": 0.01135607,
      "auxiliary_loss_mlp": 0.01022384,
      "balance_loss_clip": 1.04105246,
      "balance_loss_mlp": 1.01560402,
      "epoch": 0.9762520290987795,
      "flos": 26575440359040.0,
      "grad_norm": 1.9026802067817157,
      "language_loss": 0.64198089,
      "learning_rate": 5.88440673145163e-09,
      "loss": 0.66356081,
      "num_input_tokens_seen": 175324070,
      "step": 8119,
      "time_per_iteration": 2.706749439239502
    },
    {
      "auxiliary_loss_clip": 0.01161693,
      "auxiliary_loss_mlp": 0.01029343,
      "balance_loss_clip": 1.04937983,
      "balance_loss_mlp": 1.02140331,
      "epoch": 0.9763722719894187,
      "flos": 18005036307840.0,
      "grad_norm": 2.0520945880915695,
      "language_loss": 0.82372081,
      "learning_rate": 5.824847127848142e-09,
      "loss": 0.84563118,
      "num_input_tokens_seen": 175342595,
      "step": 8120,
      "time_per_iteration": 2.573294162750244
    },
    {
      "auxiliary_loss_clip": 0.01135969,
      "auxiliary_loss_mlp": 0.01025756,
      "balance_loss_clip": 1.04481697,
      "balance_loss_mlp": 1.01841283,
      "epoch": 0.9764925148800577,
      "flos": 22455660931200.0,
      "grad_norm": 1.7827463626696998,
      "language_loss": 0.7877773,
      "learning_rate": 5.765590039029433e-09,
      "loss": 0.80939454,
      "num_input_tokens_seen": 175361915,
      "step": 8121,
      "time_per_iteration": 2.685563325881958
    },
    {
      "auxiliary_loss_clip": 0.01169189,
      "auxiliary_loss_mlp": 0.01026035,
      "balance_loss_clip": 1.04803777,
      "balance_loss_mlp": 1.01839387,
      "epoch": 0.9766127577706968,
      "flos": 36757084786560.0,
      "grad_norm": 3.1777729657389617,
      "language_loss": 0.71114379,
      "learning_rate": 5.706635473985422e-09,
      "loss": 0.733096,
      "num_input_tokens_seen": 175385785,
      "step": 8122,
      "time_per_iteration": 2.6752777099609375
    },
    {
      "auxiliary_loss_clip": 0.01157923,
      "auxiliary_loss_mlp": 0.01018509,
      "balance_loss_clip": 1.04603767,
      "balance_loss_mlp": 1.01052773,
      "epoch": 0.976733000661336,
      "flos": 22309971367680.0,
      "grad_norm": 1.8194667513501013,
      "language_loss": 0.84937632,
      "learning_rate": 5.6479834416591764e-09,
      "loss": 0.87114066,
      "num_input_tokens_seen": 175405145,
      "step": 8123,
      "time_per_iteration": 2.61110520362854
    },
    {
      "auxiliary_loss_clip": 0.01158552,
      "auxiliary_loss_mlp": 0.00887071,
      "balance_loss_clip": 1.04605401,
      "balance_loss_mlp": 1.00064802,
      "epoch": 0.976853243551975,
      "flos": 25810938264960.0,
      "grad_norm": 1.9005518980105331,
      "language_loss": 0.68823957,
      "learning_rate": 5.589633950947803e-09,
      "loss": 0.70869577,
      "num_input_tokens_seen": 175422645,
      "step": 8124,
      "time_per_iteration": 2.67191743850708
    },
    {
      "auxiliary_loss_clip": 0.01147266,
      "auxiliary_loss_mlp": 0.01027068,
      "balance_loss_clip": 1.04514527,
      "balance_loss_mlp": 1.01878273,
      "epoch": 0.9769734864426141,
      "flos": 21397445326080.0,
      "grad_norm": 1.866883920295429,
      "language_loss": 0.69783831,
      "learning_rate": 5.5315870107035535e-09,
      "loss": 0.71958166,
      "num_input_tokens_seen": 175440695,
      "step": 8125,
      "time_per_iteration": 2.6376757621765137
    },
    {
      "auxiliary_loss_clip": 0.01146534,
      "auxiliary_loss_mlp": 0.01027279,
      "balance_loss_clip": 1.0455339,
      "balance_loss_mlp": 1.01944113,
      "epoch": 0.9770937293332532,
      "flos": 13990977584640.0,
      "grad_norm": 1.782168111929453,
      "language_loss": 0.79144216,
      "learning_rate": 5.473842629731607e-09,
      "loss": 0.81318033,
      "num_input_tokens_seen": 175459195,
      "step": 8126,
      "time_per_iteration": 2.6634368896484375
    },
    {
      "auxiliary_loss_clip": 0.01156976,
      "auxiliary_loss_mlp": 0.00886871,
      "balance_loss_clip": 1.04323316,
      "balance_loss_mlp": 1.00070059,
      "epoch": 0.9772139722238923,
      "flos": 17931994001280.0,
      "grad_norm": 1.9949658589058095,
      "language_loss": 0.78326714,
      "learning_rate": 5.416400816792066e-09,
      "loss": 0.80370557,
      "num_input_tokens_seen": 175476710,
      "step": 8127,
      "time_per_iteration": 2.688551902770996
    },
    {
      "auxiliary_loss_clip": 0.01167218,
      "auxiliary_loss_mlp": 0.01020335,
      "balance_loss_clip": 1.0460279,
      "balance_loss_mlp": 1.01290226,
      "epoch": 0.9773342151145313,
      "flos": 20446171488000.0,
      "grad_norm": 2.6923104029408624,
      "language_loss": 0.78825724,
      "learning_rate": 5.359261580598407e-09,
      "loss": 0.81013274,
      "num_input_tokens_seen": 175492550,
      "step": 8128,
      "time_per_iteration": 2.600339412689209
    },
    {
      "auxiliary_loss_clip": 0.01162584,
      "auxiliary_loss_mlp": 0.01024871,
      "balance_loss_clip": 1.04686022,
      "balance_loss_mlp": 1.01713467,
      "epoch": 0.9774544580051704,
      "flos": 11837306949120.0,
      "grad_norm": 2.50988580973898,
      "language_loss": 0.78235734,
      "learning_rate": 5.302424929819027e-09,
      "loss": 0.80423194,
      "num_input_tokens_seen": 175506560,
      "step": 8129,
      "time_per_iteration": 2.5525801181793213
    },
    {
      "auxiliary_loss_clip": 0.01161394,
      "auxiliary_loss_mlp": 0.01029138,
      "balance_loss_clip": 1.04267764,
      "balance_loss_mlp": 1.02146697,
      "epoch": 0.9775747008958096,
      "flos": 13479932833920.0,
      "grad_norm": 2.6520842061922174,
      "language_loss": 0.72870922,
      "learning_rate": 5.24589087307592e-09,
      "loss": 0.75061452,
      "num_input_tokens_seen": 175524180,
      "step": 8130,
      "time_per_iteration": 3.581000328063965
    },
    {
      "auxiliary_loss_clip": 0.01174028,
      "auxiliary_loss_mlp": 0.0102808,
      "balance_loss_clip": 1.04946268,
      "balance_loss_mlp": 1.02001834,
      "epoch": 0.9776949437864486,
      "flos": 59532314042880.0,
      "grad_norm": 1.602156421110074,
      "language_loss": 0.65211868,
      "learning_rate": 5.189659418944891e-09,
      "loss": 0.67413974,
      "num_input_tokens_seen": 175554355,
      "step": 8131,
      "time_per_iteration": 2.9700872898101807
    },
    {
      "auxiliary_loss_clip": 0.01170185,
      "auxiliary_loss_mlp": 0.01026027,
      "balance_loss_clip": 1.04855371,
      "balance_loss_mlp": 1.01887119,
      "epoch": 0.9778151866770877,
      "flos": 21178605715200.0,
      "grad_norm": 2.7892247880008028,
      "language_loss": 0.78206903,
      "learning_rate": 5.133730575956674e-09,
      "loss": 0.80403113,
      "num_input_tokens_seen": 175574025,
      "step": 8132,
      "time_per_iteration": 2.5722453594207764
    },
    {
      "auxiliary_loss_clip": 0.01151118,
      "auxiliary_loss_mlp": 0.010267,
      "balance_loss_clip": 1.04311562,
      "balance_loss_mlp": 1.01940084,
      "epoch": 0.9779354295677268,
      "flos": 20886795624960.0,
      "grad_norm": 2.058137252238766,
      "language_loss": 0.72497296,
      "learning_rate": 5.0781043525953696e-09,
      "loss": 0.74675113,
      "num_input_tokens_seen": 175592090,
      "step": 8133,
      "time_per_iteration": 3.5818300247192383
    },
    {
      "auxiliary_loss_clip": 0.01145057,
      "auxiliary_loss_mlp": 0.01022442,
      "balance_loss_clip": 1.04664016,
      "balance_loss_mlp": 1.0149616,
      "epoch": 0.9780556724583659,
      "flos": 23440618748160.0,
      "grad_norm": 1.627488635104892,
      "language_loss": 0.73900324,
      "learning_rate": 5.0227807572995605e-09,
      "loss": 0.76067829,
      "num_input_tokens_seen": 175614065,
      "step": 8134,
      "time_per_iteration": 3.553327798843384
    },
    {
      "auxiliary_loss_clip": 0.01153257,
      "auxiliary_loss_mlp": 0.01022912,
      "balance_loss_clip": 1.04458809,
      "balance_loss_mlp": 1.01578617,
      "epoch": 0.9781759153490049,
      "flos": 20923244951040.0,
      "grad_norm": 4.2668470471543944,
      "language_loss": 0.67739445,
      "learning_rate": 4.967759798461646e-09,
      "loss": 0.69915617,
      "num_input_tokens_seen": 175632410,
      "step": 8135,
      "time_per_iteration": 2.681342601776123
    },
    {
      "auxiliary_loss_clip": 0.01167955,
      "auxiliary_loss_mlp": 0.01028027,
      "balance_loss_clip": 1.04767513,
      "balance_loss_mlp": 1.02055871,
      "epoch": 0.9782961582396441,
      "flos": 28293191539200.0,
      "grad_norm": 2.0610649125953033,
      "language_loss": 0.74894059,
      "learning_rate": 4.913041484428282e-09,
      "loss": 0.77090043,
      "num_input_tokens_seen": 175652885,
      "step": 8136,
      "time_per_iteration": 2.6494076251983643
    },
    {
      "auxiliary_loss_clip": 0.01162848,
      "auxiliary_loss_mlp": 0.0102296,
      "balance_loss_clip": 1.04651463,
      "balance_loss_mlp": 1.01553285,
      "epoch": 0.9784164011302832,
      "flos": 25552955808000.0,
      "grad_norm": 1.8165128629390694,
      "language_loss": 0.74021971,
      "learning_rate": 4.858625823500384e-09,
      "loss": 0.76207781,
      "num_input_tokens_seen": 175670585,
      "step": 8137,
      "time_per_iteration": 2.6772947311401367
    },
    {
      "auxiliary_loss_clip": 0.01163002,
      "auxiliary_loss_mlp": 0.0102467,
      "balance_loss_clip": 1.04465723,
      "balance_loss_mlp": 1.01702321,
      "epoch": 0.9785366440209222,
      "flos": 29965945956480.0,
      "grad_norm": 2.5310381827150703,
      "language_loss": 0.73377341,
      "learning_rate": 4.80451282393246e-09,
      "loss": 0.75565016,
      "num_input_tokens_seen": 175690570,
      "step": 8138,
      "time_per_iteration": 2.724144458770752
    },
    {
      "auxiliary_loss_clip": 0.01155647,
      "auxiliary_loss_mlp": 0.01029133,
      "balance_loss_clip": 1.04624629,
      "balance_loss_mlp": 1.02101517,
      "epoch": 0.9786568869115614,
      "flos": 32343591847680.0,
      "grad_norm": 1.865185193125177,
      "language_loss": 0.67286658,
      "learning_rate": 4.750702493933722e-09,
      "loss": 0.69471443,
      "num_input_tokens_seen": 175710455,
      "step": 8139,
      "time_per_iteration": 2.7206218242645264
    },
    {
      "auxiliary_loss_clip": 0.0115029,
      "auxiliary_loss_mlp": 0.00886648,
      "balance_loss_clip": 1.04624367,
      "balance_loss_mlp": 1.00057268,
      "epoch": 0.9787771298022004,
      "flos": 23331414424320.0,
      "grad_norm": 1.791528717888405,
      "language_loss": 0.85246271,
      "learning_rate": 4.697194841666974e-09,
      "loss": 0.87283206,
      "num_input_tokens_seen": 175729380,
      "step": 8140,
      "time_per_iteration": 2.672105073928833
    },
    {
      "auxiliary_loss_clip": 0.01162264,
      "auxiliary_loss_mlp": 0.01024949,
      "balance_loss_clip": 1.04590321,
      "balance_loss_mlp": 1.01693177,
      "epoch": 0.9788973726928395,
      "flos": 21468548298240.0,
      "grad_norm": 3.7508255933705574,
      "language_loss": 0.81931341,
      "learning_rate": 4.6439898752492764e-09,
      "loss": 0.84118557,
      "num_input_tokens_seen": 175749520,
      "step": 8141,
      "time_per_iteration": 2.6104612350463867
    },
    {
      "auxiliary_loss_clip": 0.01056952,
      "auxiliary_loss_mlp": 0.00876056,
      "balance_loss_clip": 1.00728869,
      "balance_loss_mlp": 1.00068212,
      "epoch": 0.9790176155834787,
      "flos": 68897459439360.0,
      "grad_norm": 0.7514561622725489,
      "language_loss": 0.63696325,
      "learning_rate": 4.591087602751731e-09,
      "loss": 0.65629333,
      "num_input_tokens_seen": 175811380,
      "step": 8142,
      "time_per_iteration": 3.3040854930877686
    },
    {
      "auxiliary_loss_clip": 0.01160184,
      "auxiliary_loss_mlp": 0.01025194,
      "balance_loss_clip": 1.04640603,
      "balance_loss_mlp": 1.01835692,
      "epoch": 0.9791378584741177,
      "flos": 21430877909760.0,
      "grad_norm": 2.0431840018209146,
      "language_loss": 0.71846104,
      "learning_rate": 4.538488032199916e-09,
      "loss": 0.74031478,
      "num_input_tokens_seen": 175829480,
      "step": 8143,
      "time_per_iteration": 2.6528830528259277
    },
    {
      "auxiliary_loss_clip": 0.0116407,
      "auxiliary_loss_mlp": 0.01027145,
      "balance_loss_clip": 1.04447865,
      "balance_loss_mlp": 1.01961422,
      "epoch": 0.9792581013647568,
      "flos": 20153032594560.0,
      "grad_norm": 2.437573958977164,
      "language_loss": 0.69171262,
      "learning_rate": 4.486191171572784e-09,
      "loss": 0.71362478,
      "num_input_tokens_seen": 175846750,
      "step": 8144,
      "time_per_iteration": 3.4402613639831543
    },
    {
      "auxiliary_loss_clip": 0.01164724,
      "auxiliary_loss_mlp": 0.01026921,
      "balance_loss_clip": 1.04765522,
      "balance_loss_mlp": 1.01957774,
      "epoch": 0.9793783442553959,
      "flos": 23728191033600.0,
      "grad_norm": 1.6956916737384362,
      "language_loss": 0.77616847,
      "learning_rate": 4.434197028803766e-09,
      "loss": 0.79808486,
      "num_input_tokens_seen": 175865975,
      "step": 8145,
      "time_per_iteration": 2.657360315322876
    },
    {
      "auxiliary_loss_clip": 0.01146773,
      "auxiliary_loss_mlp": 0.0102798,
      "balance_loss_clip": 1.04222012,
      "balance_loss_mlp": 1.02007651,
      "epoch": 0.979498587146035,
      "flos": 23038742407680.0,
      "grad_norm": 2.1126320878370994,
      "language_loss": 0.82198751,
      "learning_rate": 4.3825056117805514e-09,
      "loss": 0.84373498,
      "num_input_tokens_seen": 175881860,
      "step": 8146,
      "time_per_iteration": 2.708489179611206
    },
    {
      "auxiliary_loss_clip": 0.01170105,
      "auxiliary_loss_mlp": 0.01027463,
      "balance_loss_clip": 1.04651201,
      "balance_loss_mlp": 1.0200069,
      "epoch": 0.979618830036674,
      "flos": 14318841951360.0,
      "grad_norm": 2.2525630919564903,
      "language_loss": 0.79429358,
      "learning_rate": 4.331116928344425e-09,
      "loss": 0.81626928,
      "num_input_tokens_seen": 175898175,
      "step": 8147,
      "time_per_iteration": 2.6016623973846436
    },
    {
      "auxiliary_loss_clip": 0.01155413,
      "auxiliary_loss_mlp": 0.00886974,
      "balance_loss_clip": 1.0443995,
      "balance_loss_mlp": 1.00059283,
      "epoch": 0.9797390729273132,
      "flos": 16727514215040.0,
      "grad_norm": 2.233150610313946,
      "language_loss": 0.62627327,
      "learning_rate": 4.28003098629115e-09,
      "loss": 0.64669716,
      "num_input_tokens_seen": 175914310,
      "step": 8148,
      "time_per_iteration": 2.696884870529175
    },
    {
      "auxiliary_loss_clip": 0.01137027,
      "auxiliary_loss_mlp": 0.0102353,
      "balance_loss_clip": 1.03766799,
      "balance_loss_mlp": 1.01611221,
      "epoch": 0.9798593158179523,
      "flos": 24532661986560.0,
      "grad_norm": 1.7918494983721638,
      "language_loss": 0.78392327,
      "learning_rate": 4.229247793370305e-09,
      "loss": 0.80552888,
      "num_input_tokens_seen": 175933435,
      "step": 8149,
      "time_per_iteration": 2.750497817993164
    },
    {
      "auxiliary_loss_clip": 0.01174337,
      "auxiliary_loss_mlp": 0.01029038,
      "balance_loss_clip": 1.05077624,
      "balance_loss_mlp": 1.02152765,
      "epoch": 0.9799795587085913,
      "flos": 27308808339840.0,
      "grad_norm": 1.786038984429471,
      "language_loss": 0.70469421,
      "learning_rate": 4.178767357285951e-09,
      "loss": 0.72672796,
      "num_input_tokens_seen": 175955065,
      "step": 8150,
      "time_per_iteration": 2.7831029891967773
    },
    {
      "auxiliary_loss_clip": 0.01161732,
      "auxiliary_loss_mlp": 0.00886161,
      "balance_loss_clip": 1.0464704,
      "balance_loss_mlp": 1.00052714,
      "epoch": 0.9800998015992305,
      "flos": 26286575184000.0,
      "grad_norm": 1.9171252451093996,
      "language_loss": 0.71486676,
      "learning_rate": 4.128589685695516e-09,
      "loss": 0.73534572,
      "num_input_tokens_seen": 175975490,
      "step": 8151,
      "time_per_iteration": 2.657017469406128
    },
    {
      "auxiliary_loss_clip": 0.01170445,
      "auxiliary_loss_mlp": 0.01023976,
      "balance_loss_clip": 1.0481416,
      "balance_loss_mlp": 1.01635253,
      "epoch": 0.9802200444898695,
      "flos": 16723635546240.0,
      "grad_norm": 2.2886227314874144,
      "language_loss": 0.84639716,
      "learning_rate": 4.078714786211135e-09,
      "loss": 0.86834133,
      "num_input_tokens_seen": 175991340,
      "step": 8152,
      "time_per_iteration": 2.5763800144195557
    },
    {
      "auxiliary_loss_clip": 0.01158105,
      "auxiliary_loss_mlp": 0.0102568,
      "balance_loss_clip": 1.04544258,
      "balance_loss_mlp": 1.01895952,
      "epoch": 0.9803402873805086,
      "flos": 24900459298560.0,
      "grad_norm": 1.7107138796438943,
      "language_loss": 0.766891,
      "learning_rate": 4.029142666398977e-09,
      "loss": 0.78872883,
      "num_input_tokens_seen": 176011505,
      "step": 8153,
      "time_per_iteration": 2.639235734939575
    },
    {
      "auxiliary_loss_clip": 0.01169504,
      "auxiliary_loss_mlp": 0.01034735,
      "balance_loss_clip": 1.04752815,
      "balance_loss_mlp": 1.02711499,
      "epoch": 0.9804605302711478,
      "flos": 22564937082240.0,
      "grad_norm": 1.7544503603844719,
      "language_loss": 0.80178446,
      "learning_rate": 3.979873333778805e-09,
      "loss": 0.82382685,
      "num_input_tokens_seen": 176029680,
      "step": 8154,
      "time_per_iteration": 2.6035709381103516
    },
    {
      "auxiliary_loss_clip": 0.01156073,
      "auxiliary_loss_mlp": 0.01027472,
      "balance_loss_clip": 1.04591548,
      "balance_loss_mlp": 1.02027178,
      "epoch": 0.9805807731617868,
      "flos": 38905368382080.0,
      "grad_norm": 2.49337097303143,
      "language_loss": 0.73905724,
      "learning_rate": 3.930906795824862e-09,
      "loss": 0.76089269,
      "num_input_tokens_seen": 176050355,
      "step": 8155,
      "time_per_iteration": 2.7803146839141846
    },
    {
      "auxiliary_loss_clip": 0.01158975,
      "auxiliary_loss_mlp": 0.01028167,
      "balance_loss_clip": 1.04556179,
      "balance_loss_mlp": 1.02042794,
      "epoch": 0.9807010160524259,
      "flos": 17821999578240.0,
      "grad_norm": 2.162309009925811,
      "language_loss": 0.77107579,
      "learning_rate": 3.882243059965207e-09,
      "loss": 0.79294717,
      "num_input_tokens_seen": 176068070,
      "step": 8156,
      "time_per_iteration": 2.5812034606933594
    },
    {
      "auxiliary_loss_clip": 0.01153792,
      "auxiliary_loss_mlp": 0.01022803,
      "balance_loss_clip": 1.04319239,
      "balance_loss_mlp": 1.01500702,
      "epoch": 0.980821258943065,
      "flos": 13552975140480.0,
      "grad_norm": 2.230120460501365,
      "language_loss": 0.65756506,
      "learning_rate": 3.833882133582156e-09,
      "loss": 0.679331,
      "num_input_tokens_seen": 176083730,
      "step": 8157,
      "time_per_iteration": 3.584547996520996
    },
    {
      "auxiliary_loss_clip": 0.01163278,
      "auxiliary_loss_mlp": 0.01025211,
      "balance_loss_clip": 1.04667473,
      "balance_loss_mlp": 1.01773012,
      "epoch": 0.9809415018337041,
      "flos": 21689794120320.0,
      "grad_norm": 1.7778284117337355,
      "language_loss": 0.78169525,
      "learning_rate": 3.785824024012285e-09,
      "loss": 0.80358016,
      "num_input_tokens_seen": 176102730,
      "step": 8158,
      "time_per_iteration": 2.6457555294036865
    },
    {
      "auxiliary_loss_clip": 0.01145834,
      "auxiliary_loss_mlp": 0.01028922,
      "balance_loss_clip": 1.04706264,
      "balance_loss_mlp": 1.02113807,
      "epoch": 0.9810617447243432,
      "flos": 23294857357440.0,
      "grad_norm": 1.8344481340806498,
      "language_loss": 0.78246927,
      "learning_rate": 3.738068738545541e-09,
      "loss": 0.8042168,
      "num_input_tokens_seen": 176121815,
      "step": 8159,
      "time_per_iteration": 3.612461566925049
    },
    {
      "auxiliary_loss_clip": 0.0116397,
      "auxiliary_loss_mlp": 0.01027236,
      "balance_loss_clip": 1.04563403,
      "balance_loss_mlp": 1.01883745,
      "epoch": 0.9811819876149822,
      "flos": 18332038748160.0,
      "grad_norm": 2.4016059915334105,
      "language_loss": 0.7899586,
      "learning_rate": 3.6906162844265733e-09,
      "loss": 0.81187069,
      "num_input_tokens_seen": 176138900,
      "step": 8160,
      "time_per_iteration": 3.465662717819214
    },
    {
      "auxiliary_loss_clip": 0.01145758,
      "auxiliary_loss_mlp": 0.01031308,
      "balance_loss_clip": 1.04414964,
      "balance_loss_mlp": 1.02388084,
      "epoch": 0.9813022305056214,
      "flos": 22601961025920.0,
      "grad_norm": 1.8861669248837525,
      "language_loss": 0.7076937,
      "learning_rate": 3.643466668853845e-09,
      "loss": 0.72946441,
      "num_input_tokens_seen": 176156925,
      "step": 8161,
      "time_per_iteration": 2.666059732437134
    },
    {
      "auxiliary_loss_clip": 0.01152848,
      "auxiliary_loss_mlp": 0.01031317,
      "balance_loss_clip": 1.04396772,
      "balance_loss_mlp": 1.0242064,
      "epoch": 0.9814224733962604,
      "flos": 25413335642880.0,
      "grad_norm": 2.469148131846314,
      "language_loss": 0.75743318,
      "learning_rate": 3.59661989898008e-09,
      "loss": 0.77927482,
      "num_input_tokens_seen": 176177980,
      "step": 8162,
      "time_per_iteration": 2.7671432495117188
    },
    {
      "auxiliary_loss_clip": 0.01133238,
      "auxiliary_loss_mlp": 0.01022426,
      "balance_loss_clip": 1.04293871,
      "balance_loss_mlp": 1.01517832,
      "epoch": 0.9815427162868995,
      "flos": 25007185584000.0,
      "grad_norm": 5.099318316494874,
      "language_loss": 0.7673552,
      "learning_rate": 3.5500759819115934e-09,
      "loss": 0.78891188,
      "num_input_tokens_seen": 176198345,
      "step": 8163,
      "time_per_iteration": 2.725099563598633
    },
    {
      "auxiliary_loss_clip": 0.01171294,
      "auxiliary_loss_mlp": 0.01031206,
      "balance_loss_clip": 1.04900813,
      "balance_loss_mlp": 1.02333224,
      "epoch": 0.9816629591775387,
      "flos": 20662604887680.0,
      "grad_norm": 2.2607624750466884,
      "language_loss": 0.81264329,
      "learning_rate": 3.5038349247094034e-09,
      "loss": 0.83466828,
      "num_input_tokens_seen": 176215605,
      "step": 8164,
      "time_per_iteration": 2.6119797229766846
    },
    {
      "auxiliary_loss_clip": 0.01149277,
      "auxiliary_loss_mlp": 0.01027629,
      "balance_loss_clip": 1.04174519,
      "balance_loss_mlp": 1.01951683,
      "epoch": 0.9817832020681777,
      "flos": 17712220636800.0,
      "grad_norm": 2.1435630784591138,
      "language_loss": 0.77068079,
      "learning_rate": 3.4578967343878994e-09,
      "loss": 0.79244983,
      "num_input_tokens_seen": 176231810,
      "step": 8165,
      "time_per_iteration": 2.6469669342041016
    },
    {
      "auxiliary_loss_clip": 0.0115054,
      "auxiliary_loss_mlp": 0.01023156,
      "balance_loss_clip": 1.04540873,
      "balance_loss_mlp": 1.01614022,
      "epoch": 0.9819034449588168,
      "flos": 22530032040960.0,
      "grad_norm": 2.0378311405155163,
      "language_loss": 0.80985236,
      "learning_rate": 3.4122614179161733e-09,
      "loss": 0.83158928,
      "num_input_tokens_seen": 176251770,
      "step": 8166,
      "time_per_iteration": 2.727043867111206
    },
    {
      "auxiliary_loss_clip": 0.01127013,
      "auxiliary_loss_mlp": 0.01027124,
      "balance_loss_clip": 1.03858232,
      "balance_loss_mlp": 1.01964355,
      "epoch": 0.9820236878494559,
      "flos": 20011221699840.0,
      "grad_norm": 1.6449024962235839,
      "language_loss": 0.78264809,
      "learning_rate": 3.36692898221691e-09,
      "loss": 0.80418944,
      "num_input_tokens_seen": 176270135,
      "step": 8167,
      "time_per_iteration": 2.7099175453186035
    },
    {
      "auxiliary_loss_clip": 0.01159396,
      "auxiliary_loss_mlp": 0.01024631,
      "balance_loss_clip": 1.04504991,
      "balance_loss_mlp": 1.01801181,
      "epoch": 0.982143930740095,
      "flos": 18807316531200.0,
      "grad_norm": 2.0064205613393704,
      "language_loss": 0.73671287,
      "learning_rate": 3.3218994341668305e-09,
      "loss": 0.75855315,
      "num_input_tokens_seen": 176289065,
      "step": 8168,
      "time_per_iteration": 2.6276025772094727
    },
    {
      "auxiliary_loss_clip": 0.01172392,
      "auxiliary_loss_mlp": 0.01025689,
      "balance_loss_clip": 1.05013418,
      "balance_loss_mlp": 1.01908755,
      "epoch": 0.982264173630734,
      "flos": 26578026138240.0,
      "grad_norm": 1.5946201676676985,
      "language_loss": 0.75453019,
      "learning_rate": 3.2771727805971373e-09,
      "loss": 0.77651101,
      "num_input_tokens_seen": 176310450,
      "step": 8169,
      "time_per_iteration": 2.5985934734344482
    },
    {
      "auxiliary_loss_clip": 0.01124964,
      "auxiliary_loss_mlp": 0.01024432,
      "balance_loss_clip": 1.03910708,
      "balance_loss_mlp": 1.01655841,
      "epoch": 0.9823844165213732,
      "flos": 22014462176640.0,
      "grad_norm": 2.649994493121519,
      "language_loss": 0.76919281,
      "learning_rate": 3.232749028292847e-09,
      "loss": 0.79068673,
      "num_input_tokens_seen": 176327415,
      "step": 8170,
      "time_per_iteration": 3.668814182281494
    },
    {
      "auxiliary_loss_clip": 0.01170856,
      "auxiliary_loss_mlp": 0.01026505,
      "balance_loss_clip": 1.04645061,
      "balance_loss_mlp": 1.01895022,
      "epoch": 0.9825046594120123,
      "flos": 21908166854400.0,
      "grad_norm": 3.323845536467569,
      "language_loss": 0.88485408,
      "learning_rate": 3.188628183992792e-09,
      "loss": 0.90682769,
      "num_input_tokens_seen": 176347680,
      "step": 8171,
      "time_per_iteration": 2.6147353649139404
    },
    {
      "auxiliary_loss_clip": 0.01057093,
      "auxiliary_loss_mlp": 0.01001027,
      "balance_loss_clip": 1.00675046,
      "balance_loss_mlp": 1.00003195,
      "epoch": 0.9826249023026513,
      "flos": 59494610718720.0,
      "grad_norm": 0.7345585865496338,
      "language_loss": 0.62495965,
      "learning_rate": 3.1448102543902844e-09,
      "loss": 0.64554089,
      "num_input_tokens_seen": 176411595,
      "step": 8172,
      "time_per_iteration": 3.246110200881958
    },
    {
      "auxiliary_loss_clip": 0.0114517,
      "auxiliary_loss_mlp": 0.01030903,
      "balance_loss_clip": 1.04381716,
      "balance_loss_mlp": 1.02322626,
      "epoch": 0.9827451451932905,
      "flos": 16071031296000.0,
      "grad_norm": 1.9404895501846733,
      "language_loss": 0.67702675,
      "learning_rate": 3.1012952461324515e-09,
      "loss": 0.69878751,
      "num_input_tokens_seen": 176430570,
      "step": 8173,
      "time_per_iteration": 2.7074546813964844
    },
    {
      "auxiliary_loss_clip": 0.01158535,
      "auxiliary_loss_mlp": 0.01029226,
      "balance_loss_clip": 1.04843748,
      "balance_loss_mlp": 1.02209985,
      "epoch": 0.9828653880839295,
      "flos": 20262775622400.0,
      "grad_norm": 2.5369468537072626,
      "language_loss": 0.73754835,
      "learning_rate": 3.0580831658204575e-09,
      "loss": 0.759426,
      "num_input_tokens_seen": 176448150,
      "step": 8174,
      "time_per_iteration": 2.626877546310425
    },
    {
      "auxiliary_loss_clip": 0.01158406,
      "auxiliary_loss_mlp": 0.01024125,
      "balance_loss_clip": 1.04664588,
      "balance_loss_mlp": 1.01673412,
      "epoch": 0.9829856309745686,
      "flos": 21616141282560.0,
      "grad_norm": 1.7682331149473576,
      "language_loss": 0.78059113,
      "learning_rate": 3.015174020009281e-09,
      "loss": 0.80241644,
      "num_input_tokens_seen": 176467475,
      "step": 8175,
      "time_per_iteration": 2.6458234786987305
    },
    {
      "auxiliary_loss_clip": 0.01145191,
      "auxiliary_loss_mlp": 0.01024251,
      "balance_loss_clip": 1.0434351,
      "balance_loss_mlp": 1.0175066,
      "epoch": 0.9831058738652078,
      "flos": 23764209396480.0,
      "grad_norm": 1.8916867832491073,
      "language_loss": 0.74869746,
      "learning_rate": 2.9725678152086043e-09,
      "loss": 0.77039182,
      "num_input_tokens_seen": 176486045,
      "step": 8176,
      "time_per_iteration": 2.74249529838562
    },
    {
      "auxiliary_loss_clip": 0.01139964,
      "auxiliary_loss_mlp": 0.01026061,
      "balance_loss_clip": 1.04172683,
      "balance_loss_mlp": 1.01804423,
      "epoch": 0.9832261167558468,
      "flos": 11320911072000.0,
      "grad_norm": 2.5695230123791135,
      "language_loss": 0.8202244,
      "learning_rate": 2.930264557881257e-09,
      "loss": 0.84188461,
      "num_input_tokens_seen": 176501230,
      "step": 8177,
      "time_per_iteration": 2.651099681854248
    },
    {
      "auxiliary_loss_clip": 0.01061167,
      "auxiliary_loss_mlp": 0.01000882,
      "balance_loss_clip": 1.00671268,
      "balance_loss_mlp": 0.99992293,
      "epoch": 0.9833463596464859,
      "flos": 60000304343040.0,
      "grad_norm": 0.8511837667848184,
      "language_loss": 0.58210766,
      "learning_rate": 2.8882642544452163e-09,
      "loss": 0.60272813,
      "num_input_tokens_seen": 176565955,
      "step": 8178,
      "time_per_iteration": 3.219542980194092
    },
    {
      "auxiliary_loss_clip": 0.01138346,
      "auxiliary_loss_mlp": 0.01028643,
      "balance_loss_clip": 1.03978848,
      "balance_loss_mlp": 1.0214752,
      "epoch": 0.983466602537125,
      "flos": 13626699805440.0,
      "grad_norm": 2.4731042155816896,
      "language_loss": 0.7456578,
      "learning_rate": 2.8465669112716083e-09,
      "loss": 0.76732767,
      "num_input_tokens_seen": 176583480,
      "step": 8179,
      "time_per_iteration": 2.6132068634033203
    },
    {
      "auxiliary_loss_clip": 0.01161009,
      "auxiliary_loss_mlp": 0.00886847,
      "balance_loss_clip": 1.04440045,
      "balance_loss_mlp": 1.00055075,
      "epoch": 0.9835868454277641,
      "flos": 22926844563840.0,
      "grad_norm": 1.983510553165054,
      "language_loss": 0.76402962,
      "learning_rate": 2.8051725346858177e-09,
      "loss": 0.78450817,
      "num_input_tokens_seen": 176603740,
      "step": 8180,
      "time_per_iteration": 2.65018630027771
    },
    {
      "auxiliary_loss_clip": 0.01171787,
      "auxiliary_loss_mlp": 0.01023007,
      "balance_loss_clip": 1.04666996,
      "balance_loss_mlp": 1.01529419,
      "epoch": 0.9837070883184031,
      "flos": 27673409341440.0,
      "grad_norm": 2.420251976068116,
      "language_loss": 0.71250248,
      "learning_rate": 2.7640811309674883e-09,
      "loss": 0.73445046,
      "num_input_tokens_seen": 176623240,
      "step": 8181,
      "time_per_iteration": 2.6149749755859375
    },
    {
      "auxiliary_loss_clip": 0.01133047,
      "auxiliary_loss_mlp": 0.01026683,
      "balance_loss_clip": 1.04290926,
      "balance_loss_mlp": 1.01942909,
      "epoch": 0.9838273312090423,
      "flos": 29241951425280.0,
      "grad_norm": 1.6372816325370068,
      "language_loss": 0.80828553,
      "learning_rate": 2.7232927063498557e-09,
      "loss": 0.82988286,
      "num_input_tokens_seen": 176643615,
      "step": 8182,
      "time_per_iteration": 2.799098014831543
    },
    {
      "auxiliary_loss_clip": 0.01162814,
      "auxiliary_loss_mlp": 0.01022601,
      "balance_loss_clip": 1.04716706,
      "balance_loss_mlp": 1.01509094,
      "epoch": 0.9839475740996814,
      "flos": 40110207304320.0,
      "grad_norm": 5.0944798801108675,
      "language_loss": 0.69458836,
      "learning_rate": 2.682807267020859e-09,
      "loss": 0.71644247,
      "num_input_tokens_seen": 176666375,
      "step": 8183,
      "time_per_iteration": 3.8528101444244385
    },
    {
      "auxiliary_loss_clip": 0.01159066,
      "auxiliary_loss_mlp": 0.01026595,
      "balance_loss_clip": 1.0464071,
      "balance_loss_mlp": 1.0192126,
      "epoch": 0.9840678169903204,
      "flos": 24169389788160.0,
      "grad_norm": 3.604547955097467,
      "language_loss": 0.62336373,
      "learning_rate": 2.642624819121808e-09,
      "loss": 0.6452204,
      "num_input_tokens_seen": 176686525,
      "step": 8184,
      "time_per_iteration": 2.6558237075805664
    },
    {
      "auxiliary_loss_clip": 0.01150497,
      "auxiliary_loss_mlp": 0.01025799,
      "balance_loss_clip": 1.04669368,
      "balance_loss_mlp": 1.01858735,
      "epoch": 0.9841880598809596,
      "flos": 14684484447360.0,
      "grad_norm": 2.695961303570069,
      "language_loss": 0.61698115,
      "learning_rate": 2.6027453687487154e-09,
      "loss": 0.63874412,
      "num_input_tokens_seen": 176703615,
      "step": 8185,
      "time_per_iteration": 3.569740056991577
    },
    {
      "auxiliary_loss_clip": 0.01151492,
      "auxiliary_loss_mlp": 0.01029985,
      "balance_loss_clip": 1.04370356,
      "balance_loss_mlp": 1.02240086,
      "epoch": 0.9843083027715986,
      "flos": 22344768668160.0,
      "grad_norm": 2.3218471194739845,
      "language_loss": 0.53817123,
      "learning_rate": 2.5631689219509643e-09,
      "loss": 0.559986,
      "num_input_tokens_seen": 176722295,
      "step": 8186,
      "time_per_iteration": 3.5026793479919434
    },
    {
      "auxiliary_loss_clip": 0.0115302,
      "auxiliary_loss_mlp": 0.01026123,
      "balance_loss_clip": 1.0479939,
      "balance_loss_mlp": 1.01976931,
      "epoch": 0.9844285456622377,
      "flos": 21800111765760.0,
      "grad_norm": 1.6945684871981814,
      "language_loss": 0.83692443,
      "learning_rate": 2.523895484732197e-09,
      "loss": 0.85871577,
      "num_input_tokens_seen": 176741750,
      "step": 8187,
      "time_per_iteration": 2.661442279815674
    },
    {
      "auxiliary_loss_clip": 0.01166001,
      "auxiliary_loss_mlp": 0.01023849,
      "balance_loss_clip": 1.04565692,
      "balance_loss_mlp": 1.01612437,
      "epoch": 0.9845487885528769,
      "flos": 18035380321920.0,
      "grad_norm": 2.0070696573192137,
      "language_loss": 0.74715257,
      "learning_rate": 2.4849250630505357e-09,
      "loss": 0.76905107,
      "num_input_tokens_seen": 176759995,
      "step": 8188,
      "time_per_iteration": 2.6274044513702393
    },
    {
      "auxiliary_loss_clip": 0.01099979,
      "auxiliary_loss_mlp": 0.01025419,
      "balance_loss_clip": 1.03760076,
      "balance_loss_mlp": 1.01790619,
      "epoch": 0.9846690314435159,
      "flos": 25228610974080.0,
      "grad_norm": 1.8553056158372228,
      "language_loss": 0.73531628,
      "learning_rate": 2.4462576628172528e-09,
      "loss": 0.75657034,
      "num_input_tokens_seen": 176778625,
      "step": 8189,
      "time_per_iteration": 3.002788782119751
    },
    {
      "auxiliary_loss_clip": 0.01156972,
      "auxiliary_loss_mlp": 0.01023645,
      "balance_loss_clip": 1.04499924,
      "balance_loss_mlp": 1.0160749,
      "epoch": 0.984789274334155,
      "flos": 18552171248640.0,
      "grad_norm": 1.9315277653873926,
      "language_loss": 0.73911881,
      "learning_rate": 2.407893289898766e-09,
      "loss": 0.76092505,
      "num_input_tokens_seen": 176797655,
      "step": 8190,
      "time_per_iteration": 2.839555501937866
    },
    {
      "auxiliary_loss_clip": 0.01133146,
      "auxiliary_loss_mlp": 0.0102624,
      "balance_loss_clip": 1.04064322,
      "balance_loss_mlp": 1.01839268,
      "epoch": 0.984909517224794,
      "flos": 27345437233920.0,
      "grad_norm": 2.6230839486492457,
      "language_loss": 0.83450884,
      "learning_rate": 2.3698319501144202e-09,
      "loss": 0.85610271,
      "num_input_tokens_seen": 176818640,
      "step": 8191,
      "time_per_iteration": 2.777247428894043
    },
    {
      "auxiliary_loss_clip": 0.0116601,
      "auxiliary_loss_mlp": 0.0102251,
      "balance_loss_clip": 1.04630327,
      "balance_loss_mlp": 1.01463032,
      "epoch": 0.9850297601154332,
      "flos": 18734058743040.0,
      "grad_norm": 1.5893574326362956,
      "language_loss": 0.73273015,
      "learning_rate": 2.3320736492382644e-09,
      "loss": 0.75461543,
      "num_input_tokens_seen": 176837475,
      "step": 8192,
      "time_per_iteration": 2.6646316051483154
    },
    {
      "auxiliary_loss_clip": 0.01168799,
      "auxiliary_loss_mlp": 0.01029458,
      "balance_loss_clip": 1.04733348,
      "balance_loss_mlp": 1.02235281,
      "epoch": 0.9851500030060723,
      "flos": 22308247514880.0,
      "grad_norm": 1.692352840506287,
      "language_loss": 0.67531872,
      "learning_rate": 2.29461839299816e-09,
      "loss": 0.69730121,
      "num_input_tokens_seen": 176857190,
      "step": 8193,
      "time_per_iteration": 2.572277545928955
    },
    {
      "auxiliary_loss_clip": 0.01143441,
      "auxiliary_loss_mlp": 0.01026047,
      "balance_loss_clip": 1.04310131,
      "balance_loss_mlp": 1.01840544,
      "epoch": 0.9852702458967113,
      "flos": 26353691746560.0,
      "grad_norm": 1.5567289609716919,
      "language_loss": 0.79794252,
      "learning_rate": 2.257466187076229e-09,
      "loss": 0.81963742,
      "num_input_tokens_seen": 176876395,
      "step": 8194,
      "time_per_iteration": 2.8134512901306152
    },
    {
      "auxiliary_loss_clip": 0.01165148,
      "auxiliary_loss_mlp": 0.00886164,
      "balance_loss_clip": 1.0453732,
      "balance_loss_mlp": 1.0005976,
      "epoch": 0.9853904887873505,
      "flos": 20883599314560.0,
      "grad_norm": 5.222993209232604,
      "language_loss": 0.71525228,
      "learning_rate": 2.2206170371081854e-09,
      "loss": 0.73576546,
      "num_input_tokens_seen": 176894980,
      "step": 8195,
      "time_per_iteration": 2.627642869949341
    },
    {
      "auxiliary_loss_clip": 0.01150435,
      "auxiliary_loss_mlp": 0.0102507,
      "balance_loss_clip": 1.04280996,
      "balance_loss_mlp": 1.01809645,
      "epoch": 0.9855107316779895,
      "flos": 25263444188160.0,
      "grad_norm": 2.527125843417302,
      "language_loss": 0.84905761,
      "learning_rate": 2.1840709486842247e-09,
      "loss": 0.87081271,
      "num_input_tokens_seen": 176914600,
      "step": 8196,
      "time_per_iteration": 2.674461841583252
    },
    {
      "auxiliary_loss_clip": 0.01142269,
      "auxiliary_loss_mlp": 0.01029915,
      "balance_loss_clip": 1.04168892,
      "balance_loss_mlp": 1.02215409,
      "epoch": 0.9856309745686286,
      "flos": 19062102677760.0,
      "grad_norm": 2.3144757707565184,
      "language_loss": 0.79197669,
      "learning_rate": 2.1478279273481335e-09,
      "loss": 0.81369853,
      "num_input_tokens_seen": 176933085,
      "step": 8197,
      "time_per_iteration": 3.788729429244995
    },
    {
      "auxiliary_loss_clip": 0.01159214,
      "auxiliary_loss_mlp": 0.01023807,
      "balance_loss_clip": 1.04766893,
      "balance_loss_mlp": 1.01671386,
      "epoch": 0.9857512174592677,
      "flos": 34130758060800.0,
      "grad_norm": 2.0790773560361617,
      "language_loss": 0.79969627,
      "learning_rate": 2.1118879785981815e-09,
      "loss": 0.82152641,
      "num_input_tokens_seen": 176953225,
      "step": 8198,
      "time_per_iteration": 2.7451462745666504
    },
    {
      "auxiliary_loss_clip": 0.01151248,
      "auxiliary_loss_mlp": 0.01027559,
      "balance_loss_clip": 1.04504967,
      "balance_loss_mlp": 1.0202719,
      "epoch": 0.9858714603499068,
      "flos": 25994693266560.0,
      "grad_norm": 1.8426329445870684,
      "language_loss": 0.7965607,
      "learning_rate": 2.0762511078862288e-09,
      "loss": 0.81834877,
      "num_input_tokens_seen": 176973570,
      "step": 8199,
      "time_per_iteration": 2.7306320667266846
    },
    {
      "auxiliary_loss_clip": 0.01158695,
      "auxiliary_loss_mlp": 0.01021304,
      "balance_loss_clip": 1.0448643,
      "balance_loss_mlp": 1.01381731,
      "epoch": 0.9859917032405459,
      "flos": 23696230907520.0,
      "grad_norm": 2.236638572205422,
      "language_loss": 0.64853495,
      "learning_rate": 2.0409173206186183e-09,
      "loss": 0.67033494,
      "num_input_tokens_seen": 176992810,
      "step": 8200,
      "time_per_iteration": 2.662823438644409
    },
    {
      "auxiliary_loss_clip": 0.01141593,
      "auxiliary_loss_mlp": 0.01023052,
      "balance_loss_clip": 1.04712653,
      "balance_loss_mlp": 1.01626337,
      "epoch": 0.986111946131185,
      "flos": 19938287134080.0,
      "grad_norm": 2.1668013902189207,
      "language_loss": 0.87040842,
      "learning_rate": 2.0058866221550617e-09,
      "loss": 0.89205492,
      "num_input_tokens_seen": 177011050,
      "step": 8201,
      "time_per_iteration": 2.7433712482452393
    },
    {
      "auxiliary_loss_clip": 0.01171244,
      "auxiliary_loss_mlp": 0.01027119,
      "balance_loss_clip": 1.04703426,
      "balance_loss_mlp": 1.01904881,
      "epoch": 0.9862321890218241,
      "flos": 19828831415040.0,
      "grad_norm": 2.605478528601335,
      "language_loss": 0.74992764,
      "learning_rate": 1.971159017809976e-09,
      "loss": 0.77191126,
      "num_input_tokens_seen": 177029340,
      "step": 8202,
      "time_per_iteration": 2.6162638664245605
    },
    {
      "auxiliary_loss_clip": 0.01159798,
      "auxiliary_loss_mlp": 0.01029498,
      "balance_loss_clip": 1.04827762,
      "balance_loss_mlp": 1.02137375,
      "epoch": 0.9863524319124631,
      "flos": 21652051904640.0,
      "grad_norm": 3.0119445855732523,
      "language_loss": 0.77598786,
      "learning_rate": 1.93673451285159e-09,
      "loss": 0.79788077,
      "num_input_tokens_seen": 177048390,
      "step": 8203,
      "time_per_iteration": 2.646332025527954
    },
    {
      "auxiliary_loss_clip": 0.01053778,
      "auxiliary_loss_mlp": 0.01000968,
      "balance_loss_clip": 1.00729632,
      "balance_loss_mlp": 0.99988347,
      "epoch": 0.9864726748031023,
      "flos": 52769977920000.0,
      "grad_norm": 0.7358916353330975,
      "language_loss": 0.56579626,
      "learning_rate": 1.9026131125019495e-09,
      "loss": 0.58634377,
      "num_input_tokens_seen": 177105760,
      "step": 8204,
      "time_per_iteration": 3.1805901527404785
    },
    {
      "auxiliary_loss_clip": 0.01157989,
      "auxiliary_loss_mlp": 0.01028527,
      "balance_loss_clip": 1.04685903,
      "balance_loss_mlp": 1.02148795,
      "epoch": 0.9865929176937414,
      "flos": 23364631526400.0,
      "grad_norm": 2.8345207546513134,
      "language_loss": 0.86811721,
      "learning_rate": 1.8687948219371363e-09,
      "loss": 0.88998234,
      "num_input_tokens_seen": 177124985,
      "step": 8205,
      "time_per_iteration": 2.6993613243103027
    },
    {
      "auxiliary_loss_clip": 0.01172695,
      "auxiliary_loss_mlp": 0.01026337,
      "balance_loss_clip": 1.04608834,
      "balance_loss_mlp": 1.01835632,
      "epoch": 0.9867131605843804,
      "flos": 21616679986560.0,
      "grad_norm": 1.8741489947420538,
      "language_loss": 0.88555962,
      "learning_rate": 1.835279646287491e-09,
      "loss": 0.90754998,
      "num_input_tokens_seen": 177142995,
      "step": 8206,
      "time_per_iteration": 2.5566322803497314
    },
    {
      "auxiliary_loss_clip": 0.01167744,
      "auxiliary_loss_mlp": 0.01029672,
      "balance_loss_clip": 1.04712248,
      "balance_loss_mlp": 1.02166092,
      "epoch": 0.9868334034750196,
      "flos": 22271403139200.0,
      "grad_norm": 5.694025968956607,
      "language_loss": 0.76512444,
      "learning_rate": 1.8020675906371685e-09,
      "loss": 0.78709865,
      "num_input_tokens_seen": 177162390,
      "step": 8207,
      "time_per_iteration": 2.6452226638793945
    },
    {
      "auxiliary_loss_clip": 0.01126372,
      "auxiliary_loss_mlp": 0.01028922,
      "balance_loss_clip": 1.03991723,
      "balance_loss_mlp": 1.02157235,
      "epoch": 0.9869536463656586,
      "flos": 25809573548160.0,
      "grad_norm": 23.066902497174137,
      "language_loss": 0.7506758,
      "learning_rate": 1.7691586600243612e-09,
      "loss": 0.77222872,
      "num_input_tokens_seen": 177181290,
      "step": 8208,
      "time_per_iteration": 2.7659871578216553
    },
    {
      "auxiliary_loss_clip": 0.01146114,
      "auxiliary_loss_mlp": 0.01025643,
      "balance_loss_clip": 1.04457605,
      "balance_loss_mlp": 1.01826358,
      "epoch": 0.9870738892562977,
      "flos": 16398500613120.0,
      "grad_norm": 2.518091312569297,
      "language_loss": 0.86553586,
      "learning_rate": 1.7365528594415202e-09,
      "loss": 0.8872534,
      "num_input_tokens_seen": 177195360,
      "step": 8209,
      "time_per_iteration": 3.665884017944336
    },
    {
      "auxiliary_loss_clip": 0.01165896,
      "auxiliary_loss_mlp": 0.00886123,
      "balance_loss_clip": 1.04755151,
      "balance_loss_mlp": 1.00056815,
      "epoch": 0.9871941321469369,
      "flos": 35481358373760.0,
      "grad_norm": 1.602300470988834,
      "language_loss": 0.67790794,
      "learning_rate": 1.7042501938346888e-09,
      "loss": 0.69842815,
      "num_input_tokens_seen": 177218090,
      "step": 8210,
      "time_per_iteration": 2.760455846786499
    },
    {
      "auxiliary_loss_clip": 0.01137134,
      "auxiliary_loss_mlp": 0.01023998,
      "balance_loss_clip": 1.03853595,
      "balance_loss_mlp": 1.01643145,
      "epoch": 0.9873143750375759,
      "flos": 21434217874560.0,
      "grad_norm": 2.2035107344040648,
      "language_loss": 0.76488733,
      "learning_rate": 1.6722506681043913e-09,
      "loss": 0.78649867,
      "num_input_tokens_seen": 177237050,
      "step": 8211,
      "time_per_iteration": 3.6075775623321533
    },
    {
      "auxiliary_loss_clip": 0.01155757,
      "auxiliary_loss_mlp": 0.01026897,
      "balance_loss_clip": 1.04468918,
      "balance_loss_mlp": 1.01984537,
      "epoch": 0.987434617928215,
      "flos": 16326499800960.0,
      "grad_norm": 1.9917347610520608,
      "language_loss": 0.69348627,
      "learning_rate": 1.640554287104745e-09,
      "loss": 0.71531284,
      "num_input_tokens_seen": 177255325,
      "step": 8212,
      "time_per_iteration": 3.5185794830322266
    },
    {
      "auxiliary_loss_clip": 0.01142377,
      "auxiliary_loss_mlp": 0.01027935,
      "balance_loss_clip": 1.03837025,
      "balance_loss_mlp": 1.02005494,
      "epoch": 0.9875548608188541,
      "flos": 17851984456320.0,
      "grad_norm": 2.028646502904852,
      "language_loss": 0.80377358,
      "learning_rate": 1.609161055644348e-09,
      "loss": 0.82547665,
      "num_input_tokens_seen": 177271250,
      "step": 8213,
      "time_per_iteration": 2.6930181980133057
    },
    {
      "auxiliary_loss_clip": 0.0116536,
      "auxiliary_loss_mlp": 0.01026651,
      "balance_loss_clip": 1.04465735,
      "balance_loss_mlp": 1.01882505,
      "epoch": 0.9876751037094932,
      "flos": 26132876887680.0,
      "grad_norm": 2.062528649317579,
      "language_loss": 0.68245256,
      "learning_rate": 1.5780709784849467e-09,
      "loss": 0.7043727,
      "num_input_tokens_seen": 177288270,
      "step": 8214,
      "time_per_iteration": 2.646171808242798
    },
    {
      "auxiliary_loss_clip": 0.01124163,
      "auxiliary_loss_mlp": 0.01028245,
      "balance_loss_clip": 1.04247594,
      "balance_loss_mlp": 1.0206604,
      "epoch": 0.9877953466001322,
      "flos": 15991344973440.0,
      "grad_norm": 2.1195900075244887,
      "language_loss": 0.82236999,
      "learning_rate": 1.5472840603436565e-09,
      "loss": 0.84389406,
      "num_input_tokens_seen": 177305500,
      "step": 8215,
      "time_per_iteration": 2.852266311645508
    },
    {
      "auxiliary_loss_clip": 0.01151156,
      "auxiliary_loss_mlp": 0.01027726,
      "balance_loss_clip": 1.04420388,
      "balance_loss_mlp": 1.02026653,
      "epoch": 0.9879155894907714,
      "flos": 18806777827200.0,
      "grad_norm": 2.0440310395707812,
      "language_loss": 0.77990866,
      "learning_rate": 1.5168003058900757e-09,
      "loss": 0.80169755,
      "num_input_tokens_seen": 177323500,
      "step": 8216,
      "time_per_iteration": 2.755214214324951
    },
    {
      "auxiliary_loss_clip": 0.01141547,
      "auxiliary_loss_mlp": 0.01031209,
      "balance_loss_clip": 1.04247224,
      "balance_loss_mlp": 1.0235914,
      "epoch": 0.9880358323814105,
      "flos": 22382044007040.0,
      "grad_norm": 2.0886494979880643,
      "language_loss": 0.91931927,
      "learning_rate": 1.4866197197491715e-09,
      "loss": 0.94104683,
      "num_input_tokens_seen": 177342860,
      "step": 8217,
      "time_per_iteration": 2.7035138607025146
    },
    {
      "auxiliary_loss_clip": 0.01166438,
      "auxiliary_loss_mlp": 0.00887523,
      "balance_loss_clip": 1.04826665,
      "balance_loss_mlp": 1.0006038,
      "epoch": 0.9881560752720495,
      "flos": 15668831733120.0,
      "grad_norm": 3.0357158062164094,
      "language_loss": 0.78270459,
      "learning_rate": 1.4567423064988371e-09,
      "loss": 0.80324417,
      "num_input_tokens_seen": 177360210,
      "step": 8218,
      "time_per_iteration": 2.7032105922698975
    },
    {
      "auxiliary_loss_clip": 0.01169744,
      "auxiliary_loss_mlp": 0.01028449,
      "balance_loss_clip": 1.04621804,
      "balance_loss_mlp": 1.02103376,
      "epoch": 0.9882763181626887,
      "flos": 21500113374720.0,
      "grad_norm": 2.137129630273114,
      "language_loss": 0.78239298,
      "learning_rate": 1.4271680706718913e-09,
      "loss": 0.80437493,
      "num_input_tokens_seen": 177377885,
      "step": 8219,
      "time_per_iteration": 2.5986053943634033
    },
    {
      "auxiliary_loss_clip": 0.0116383,
      "auxiliary_loss_mlp": 0.0103427,
      "balance_loss_clip": 1.04789948,
      "balance_loss_mlp": 1.02606833,
      "epoch": 0.9883965610533277,
      "flos": 28034598551040.0,
      "grad_norm": 2.808342150669504,
      "language_loss": 0.82623017,
      "learning_rate": 1.3978970167543013e-09,
      "loss": 0.84821117,
      "num_input_tokens_seen": 177398065,
      "step": 8220,
      "time_per_iteration": 2.673476457595825
    },
    {
      "auxiliary_loss_clip": 0.01141536,
      "auxiliary_loss_mlp": 0.01026742,
      "balance_loss_clip": 1.04339719,
      "balance_loss_mlp": 1.01935101,
      "epoch": 0.9885168039439668,
      "flos": 14098601710080.0,
      "grad_norm": 2.954560521635692,
      "language_loss": 0.77745175,
      "learning_rate": 1.3689291491867372e-09,
      "loss": 0.79913455,
      "num_input_tokens_seen": 177416380,
      "step": 8221,
      "time_per_iteration": 2.5985188484191895
    },
    {
      "auxiliary_loss_clip": 0.01170745,
      "auxiliary_loss_mlp": 0.01026694,
      "balance_loss_clip": 1.04642427,
      "balance_loss_mlp": 1.01850438,
      "epoch": 0.988637046834606,
      "flos": 26432013352320.0,
      "grad_norm": 6.562622972662832,
      "language_loss": 0.73877287,
      "learning_rate": 1.3402644723636836e-09,
      "loss": 0.76074719,
      "num_input_tokens_seen": 177438410,
      "step": 8222,
      "time_per_iteration": 2.6393539905548096
    },
    {
      "auxiliary_loss_clip": 0.01148237,
      "auxiliary_loss_mlp": 0.01033316,
      "balance_loss_clip": 1.04731631,
      "balance_loss_mlp": 1.02513838,
      "epoch": 0.988757289725245,
      "flos": 25229113764480.0,
      "grad_norm": 2.083852736781912,
      "language_loss": 0.8347261,
      "learning_rate": 1.311902990633218e-09,
      "loss": 0.85654163,
      "num_input_tokens_seen": 177457375,
      "step": 8223,
      "time_per_iteration": 3.613197088241577
    },
    {
      "auxiliary_loss_clip": 0.01143726,
      "auxiliary_loss_mlp": 0.01023751,
      "balance_loss_clip": 1.04048562,
      "balance_loss_mlp": 1.01616335,
      "epoch": 0.9888775326158841,
      "flos": 26359042872960.0,
      "grad_norm": 1.847118707346041,
      "language_loss": 0.71133071,
      "learning_rate": 1.2838447082978987e-09,
      "loss": 0.7330054,
      "num_input_tokens_seen": 177478530,
      "step": 8224,
      "time_per_iteration": 2.7193541526794434
    },
    {
      "auxiliary_loss_clip": 0.01153343,
      "auxiliary_loss_mlp": 0.01025234,
      "balance_loss_clip": 1.04050422,
      "balance_loss_mlp": 1.0174799,
      "epoch": 0.9889977755065231,
      "flos": 24316120846080.0,
      "grad_norm": 2.2249967372147985,
      "language_loss": 0.83085048,
      "learning_rate": 1.2560896296143208e-09,
      "loss": 0.85263622,
      "num_input_tokens_seen": 177496995,
      "step": 8225,
      "time_per_iteration": 2.64435076713562
    },
    {
      "auxiliary_loss_clip": 0.01167771,
      "auxiliary_loss_mlp": 0.01025619,
      "balance_loss_clip": 1.04564083,
      "balance_loss_mlp": 1.01853526,
      "epoch": 0.9891180183971623,
      "flos": 18951066760320.0,
      "grad_norm": 2.271336118171427,
      "language_loss": 0.82266629,
      "learning_rate": 1.2286377587926722e-09,
      "loss": 0.84460014,
      "num_input_tokens_seen": 177513785,
      "step": 8226,
      "time_per_iteration": 2.603299140930176
    },
    {
      "auxiliary_loss_clip": 0.01167141,
      "auxiliary_loss_mlp": 0.01024353,
      "balance_loss_clip": 1.04423261,
      "balance_loss_mlp": 1.016819,
      "epoch": 0.9892382612878013,
      "flos": 26176580760960.0,
      "grad_norm": 2.311038317215685,
      "language_loss": 0.75200003,
      "learning_rate": 1.2014890999973992e-09,
      "loss": 0.77391493,
      "num_input_tokens_seen": 177530705,
      "step": 8227,
      "time_per_iteration": 2.6664695739746094
    },
    {
      "auxiliary_loss_clip": 0.01167449,
      "auxiliary_loss_mlp": 0.01021997,
      "balance_loss_clip": 1.04549718,
      "balance_loss_mlp": 1.01448643,
      "epoch": 0.9893585041784404,
      "flos": 25449605400960.0,
      "grad_norm": 1.5429184481153067,
      "language_loss": 0.78378636,
      "learning_rate": 1.1746436573472073e-09,
      "loss": 0.80568081,
      "num_input_tokens_seen": 177552440,
      "step": 8228,
      "time_per_iteration": 2.6459453105926514
    },
    {
      "auxiliary_loss_clip": 0.01158863,
      "auxiliary_loss_mlp": 0.01026081,
      "balance_loss_clip": 1.04420829,
      "balance_loss_mlp": 1.01834416,
      "epoch": 0.9894787470690796,
      "flos": 20189302352640.0,
      "grad_norm": 2.304569690445397,
      "language_loss": 0.69105798,
      "learning_rate": 1.1481014349141726e-09,
      "loss": 0.71290737,
      "num_input_tokens_seen": 177569660,
      "step": 8229,
      "time_per_iteration": 2.678201913833618
    },
    {
      "auxiliary_loss_clip": 0.01153504,
      "auxiliary_loss_mlp": 0.01029013,
      "balance_loss_clip": 1.04424059,
      "balance_loss_mlp": 1.02076364,
      "epoch": 0.9895989899597186,
      "flos": 24644308435200.0,
      "grad_norm": 2.2363982555625466,
      "language_loss": 0.84147912,
      "learning_rate": 1.121862436724852e-09,
      "loss": 0.86330426,
      "num_input_tokens_seen": 177588500,
      "step": 8230,
      "time_per_iteration": 2.7366414070129395
    },
    {
      "auxiliary_loss_clip": 0.01163477,
      "auxiliary_loss_mlp": 0.01028742,
      "balance_loss_clip": 1.04870439,
      "balance_loss_mlp": 1.02105331,
      "epoch": 0.9897192328503577,
      "flos": 21799034357760.0,
      "grad_norm": 1.6230157294061867,
      "language_loss": 0.70424789,
      "learning_rate": 1.0959266667598388e-09,
      "loss": 0.72617012,
      "num_input_tokens_seen": 177607315,
      "step": 8231,
      "time_per_iteration": 2.7019569873809814
    },
    {
      "auxiliary_loss_clip": 0.01142043,
      "auxiliary_loss_mlp": 0.01029578,
      "balance_loss_clip": 1.04309905,
      "balance_loss_mlp": 1.02123976,
      "epoch": 0.9898394757409968,
      "flos": 21325229032320.0,
      "grad_norm": 2.0218514591561316,
      "language_loss": 0.74815989,
      "learning_rate": 1.0702941289533196e-09,
      "loss": 0.76987612,
      "num_input_tokens_seen": 177625990,
      "step": 8232,
      "time_per_iteration": 2.7253060340881348
    },
    {
      "auxiliary_loss_clip": 0.01140441,
      "auxiliary_loss_mlp": 0.01023689,
      "balance_loss_clip": 1.0431788,
      "balance_loss_mlp": 1.01693559,
      "epoch": 0.9899597186316359,
      "flos": 18545024442240.0,
      "grad_norm": 1.931307551175873,
      "language_loss": 0.88991195,
      "learning_rate": 1.0449648271939615e-09,
      "loss": 0.91155326,
      "num_input_tokens_seen": 177642335,
      "step": 8233,
      "time_per_iteration": 2.6874704360961914
    },
    {
      "auxiliary_loss_clip": 0.0113476,
      "auxiliary_loss_mlp": 0.00886224,
      "balance_loss_clip": 1.04436219,
      "balance_loss_mlp": 1.00054729,
      "epoch": 0.990079961522275,
      "flos": 23766723348480.0,
      "grad_norm": 1.535407459057282,
      "language_loss": 0.72739995,
      "learning_rate": 1.0199387653240243e-09,
      "loss": 0.74760973,
      "num_input_tokens_seen": 177662025,
      "step": 8234,
      "time_per_iteration": 2.7419838905334473
    },
    {
      "auxiliary_loss_clip": 0.01143433,
      "auxiliary_loss_mlp": 0.01025811,
      "balance_loss_clip": 1.04446816,
      "balance_loss_mlp": 1.01808071,
      "epoch": 0.9902002044129141,
      "flos": 16399182971520.0,
      "grad_norm": 1.6792484443348847,
      "language_loss": 0.70989984,
      "learning_rate": 9.952159471400267e-10,
      "loss": 0.7315923,
      "num_input_tokens_seen": 177679065,
      "step": 8235,
      "time_per_iteration": 3.5903680324554443
    },
    {
      "auxiliary_loss_clip": 0.01163374,
      "auxiliary_loss_mlp": 0.00885955,
      "balance_loss_clip": 1.0457654,
      "balance_loss_mlp": 1.00061476,
      "epoch": 0.9903204473035532,
      "flos": 22559657783040.0,
      "grad_norm": 2.509832181632446,
      "language_loss": 0.84418899,
      "learning_rate": 9.707963763923022e-10,
      "loss": 0.86468232,
      "num_input_tokens_seen": 177698115,
      "step": 8236,
      "time_per_iteration": 3.5673887729644775
    },
    {
      "auxiliary_loss_clip": 0.01149234,
      "auxiliary_loss_mlp": 0.01032021,
      "balance_loss_clip": 1.04182649,
      "balance_loss_mlp": 1.02478194,
      "epoch": 0.9904406901941922,
      "flos": 16144001775360.0,
      "grad_norm": 1.7229170170043793,
      "language_loss": 0.79102218,
      "learning_rate": 9.466800567854427e-10,
      "loss": 0.81283474,
      "num_input_tokens_seen": 177716715,
      "step": 8237,
      "time_per_iteration": 2.7875118255615234
    },
    {
      "auxiliary_loss_clip": 0.01140389,
      "auxiliary_loss_mlp": 0.01031341,
      "balance_loss_clip": 1.04053569,
      "balance_loss_mlp": 1.02278769,
      "epoch": 0.9905609330848314,
      "flos": 26651499408000.0,
      "grad_norm": 2.029373099026841,
      "language_loss": 0.68107736,
      "learning_rate": 9.228669919778553e-10,
      "loss": 0.70279467,
      "num_input_tokens_seen": 177735640,
      "step": 8238,
      "time_per_iteration": 3.603997230529785
    },
    {
      "auxiliary_loss_clip": 0.01146139,
      "auxiliary_loss_mlp": 0.01027101,
      "balance_loss_clip": 1.04186463,
      "balance_loss_mlp": 1.01974261,
      "epoch": 0.9906811759754705,
      "flos": 23111820627840.0,
      "grad_norm": 2.440127881098916,
      "language_loss": 0.7960341,
      "learning_rate": 8.993571855817617e-10,
      "loss": 0.81776649,
      "num_input_tokens_seen": 177754470,
      "step": 8239,
      "time_per_iteration": 2.6961584091186523
    },
    {
      "auxiliary_loss_clip": 0.01160242,
      "auxiliary_loss_mlp": 0.01022485,
      "balance_loss_clip": 1.04616046,
      "balance_loss_mlp": 1.01487398,
      "epoch": 0.9908014188661095,
      "flos": 22090593052800.0,
      "grad_norm": 2.2417255526208972,
      "language_loss": 0.74952042,
      "learning_rate": 8.761506411638642e-10,
      "loss": 0.7713477,
      "num_input_tokens_seen": 177773935,
      "step": 8240,
      "time_per_iteration": 2.675992250442505
    },
    {
      "auxiliary_loss_clip": 0.01148033,
      "auxiliary_loss_mlp": 0.01027898,
      "balance_loss_clip": 1.04537237,
      "balance_loss_mlp": 1.02003622,
      "epoch": 0.9909216617567487,
      "flos": 19242948677760.0,
      "grad_norm": 1.7876277291998495,
      "language_loss": 0.73934937,
      "learning_rate": 8.53247362244236e-10,
      "loss": 0.76110864,
      "num_input_tokens_seen": 177792745,
      "step": 8241,
      "time_per_iteration": 2.6669061183929443
    },
    {
      "auxiliary_loss_clip": 0.01151936,
      "auxiliary_loss_mlp": 0.01023565,
      "balance_loss_clip": 1.04688084,
      "balance_loss_mlp": 1.01576912,
      "epoch": 0.9910419046473877,
      "flos": 23621213352960.0,
      "grad_norm": 1.795448010157164,
      "language_loss": 0.68283951,
      "learning_rate": 8.306473522976532e-10,
      "loss": 0.70459449,
      "num_input_tokens_seen": 177812150,
      "step": 8242,
      "time_per_iteration": 2.7058050632476807
    },
    {
      "auxiliary_loss_clip": 0.01169726,
      "auxiliary_loss_mlp": 0.01021039,
      "balance_loss_clip": 1.04741108,
      "balance_loss_mlp": 1.01383924,
      "epoch": 0.9911621475380268,
      "flos": 22711380831360.0,
      "grad_norm": 1.8202311064253673,
      "language_loss": 0.71489561,
      "learning_rate": 8.083506147522623e-10,
      "loss": 0.73680323,
      "num_input_tokens_seen": 177831545,
      "step": 8243,
      "time_per_iteration": 2.6383860111236572
    },
    {
      "auxiliary_loss_clip": 0.01154521,
      "auxiliary_loss_mlp": 0.01029984,
      "balance_loss_clip": 1.04503906,
      "balance_loss_mlp": 1.02245355,
      "epoch": 0.991282390428666,
      "flos": 13516956777600.0,
      "grad_norm": 2.2940403300454855,
      "language_loss": 0.85372227,
      "learning_rate": 7.863571529906909e-10,
      "loss": 0.87556732,
      "num_input_tokens_seen": 177847130,
      "step": 8244,
      "time_per_iteration": 2.583738327026367
    },
    {
      "auxiliary_loss_clip": 0.01057874,
      "auxiliary_loss_mlp": 0.01001277,
      "balance_loss_clip": 1.00709462,
      "balance_loss_mlp": 1.00029325,
      "epoch": 0.991402633319305,
      "flos": 61830492071040.0,
      "grad_norm": 0.7254304232226613,
      "language_loss": 0.59662503,
      "learning_rate": 7.646669703489372e-10,
      "loss": 0.61721653,
      "num_input_tokens_seen": 177911440,
      "step": 8245,
      "time_per_iteration": 3.3253395557403564
    },
    {
      "auxiliary_loss_clip": 0.01099792,
      "auxiliary_loss_mlp": 0.01032176,
      "balance_loss_clip": 1.0336045,
      "balance_loss_mlp": 1.02460897,
      "epoch": 0.9915228762099441,
      "flos": 18770148933120.0,
      "grad_norm": 2.16813950398337,
      "language_loss": 0.57192445,
      "learning_rate": 7.432800701177023e-10,
      "loss": 0.59324414,
      "num_input_tokens_seen": 177929440,
      "step": 8246,
      "time_per_iteration": 3.2341368198394775
    },
    {
      "auxiliary_loss_clip": 0.01052687,
      "auxiliary_loss_mlp": 0.01003186,
      "balance_loss_clip": 1.00794172,
      "balance_loss_mlp": 1.00223815,
      "epoch": 0.9916431191005832,
      "flos": 65936660244480.0,
      "grad_norm": 0.7907674642543372,
      "language_loss": 0.5772298,
      "learning_rate": 7.221964555415017e-10,
      "loss": 0.59778857,
      "num_input_tokens_seen": 177989100,
      "step": 8247,
      "time_per_iteration": 3.3393311500549316
    },
    {
      "auxiliary_loss_clip": 0.01148608,
      "auxiliary_loss_mlp": 0.01024983,
      "balance_loss_clip": 1.04574823,
      "balance_loss_mlp": 1.01733232,
      "epoch": 0.9917633619912223,
      "flos": 16581573256320.0,
      "grad_norm": 2.0754387772037965,
      "language_loss": 0.75287032,
      "learning_rate": 7.01416129818222e-10,
      "loss": 0.77460617,
      "num_input_tokens_seen": 178006720,
      "step": 8248,
      "time_per_iteration": 3.525116205215454
    },
    {
      "auxiliary_loss_clip": 0.01149688,
      "auxiliary_loss_mlp": 0.01023682,
      "balance_loss_clip": 1.04385471,
      "balance_loss_mlp": 1.01666653,
      "epoch": 0.9918836048818613,
      "flos": 25411108999680.0,
      "grad_norm": 1.9110759344366415,
      "language_loss": 0.58662784,
      "learning_rate": 6.809390961006745e-10,
      "loss": 0.6083616,
      "num_input_tokens_seen": 178026850,
      "step": 8249,
      "time_per_iteration": 2.7452895641326904
    },
    {
      "auxiliary_loss_clip": 0.01152642,
      "auxiliary_loss_mlp": 0.01025458,
      "balance_loss_clip": 1.04568946,
      "balance_loss_mlp": 1.01776898,
      "epoch": 0.9920038477725005,
      "flos": 25046867134080.0,
      "grad_norm": 1.744736688092209,
      "language_loss": 0.68436551,
      "learning_rate": 6.607653574948191e-10,
      "loss": 0.70614648,
      "num_input_tokens_seen": 178047630,
      "step": 8250,
      "time_per_iteration": 2.692742347717285
    },
    {
      "auxiliary_loss_clip": 0.01149023,
      "auxiliary_loss_mlp": 0.0102603,
      "balance_loss_clip": 1.04137731,
      "balance_loss_mlp": 1.01894259,
      "epoch": 0.9921240906631396,
      "flos": 21829773421440.0,
      "grad_norm": 1.7400888237026035,
      "language_loss": 0.81864488,
      "learning_rate": 6.408949170613187e-10,
      "loss": 0.84039539,
      "num_input_tokens_seen": 178066895,
      "step": 8251,
      "time_per_iteration": 2.641672134399414
    },
    {
      "auxiliary_loss_clip": 0.0114907,
      "auxiliary_loss_mlp": 0.01028862,
      "balance_loss_clip": 1.04348218,
      "balance_loss_mlp": 1.02064896,
      "epoch": 0.9922443335537786,
      "flos": 24864225454080.0,
      "grad_norm": 3.42460098379368,
      "language_loss": 0.81862277,
      "learning_rate": 6.213277778144288e-10,
      "loss": 0.84040213,
      "num_input_tokens_seen": 178088540,
      "step": 8252,
      "time_per_iteration": 2.6939141750335693
    },
    {
      "auxiliary_loss_clip": 0.01122483,
      "auxiliary_loss_mlp": 0.01024744,
      "balance_loss_clip": 1.03783178,
      "balance_loss_mlp": 1.01694822,
      "epoch": 0.9923645764444178,
      "flos": 21613088626560.0,
      "grad_norm": 2.2320288617330344,
      "language_loss": 0.67092299,
      "learning_rate": 6.020639427224416e-10,
      "loss": 0.69239527,
      "num_input_tokens_seen": 178106185,
      "step": 8253,
      "time_per_iteration": 2.7886147499084473
    },
    {
      "auxiliary_loss_clip": 0.01151831,
      "auxiliary_loss_mlp": 0.01028093,
      "balance_loss_clip": 1.04614782,
      "balance_loss_mlp": 1.0204277,
      "epoch": 0.9924848193350568,
      "flos": 25001798544000.0,
      "grad_norm": 2.5388871327610456,
      "language_loss": 0.72840691,
      "learning_rate": 5.831034147076864e-10,
      "loss": 0.75020611,
      "num_input_tokens_seen": 178123435,
      "step": 8254,
      "time_per_iteration": 2.6525676250457764
    },
    {
      "auxiliary_loss_clip": 0.01053334,
      "auxiliary_loss_mlp": 0.01001439,
      "balance_loss_clip": 1.00716352,
      "balance_loss_mlp": 1.00049138,
      "epoch": 0.9926050622256959,
      "flos": 68912543151360.0,
      "grad_norm": 0.6878663634667694,
      "language_loss": 0.55726933,
      "learning_rate": 5.644461966463065e-10,
      "loss": 0.57781708,
      "num_input_tokens_seen": 178191045,
      "step": 8255,
      "time_per_iteration": 3.2906832695007324
    },
    {
      "auxiliary_loss_clip": 0.01149589,
      "auxiliary_loss_mlp": 0.01023607,
      "balance_loss_clip": 1.04568899,
      "balance_loss_mlp": 1.01601934,
      "epoch": 0.9927253051163349,
      "flos": 20923675914240.0,
      "grad_norm": 1.762594576524942,
      "language_loss": 0.75641692,
      "learning_rate": 5.460922913687049e-10,
      "loss": 0.77814889,
      "num_input_tokens_seen": 178210135,
      "step": 8256,
      "time_per_iteration": 2.655151844024658
    },
    {
      "auxiliary_loss_clip": 0.01127708,
      "auxiliary_loss_mlp": 0.00887058,
      "balance_loss_clip": 1.03810537,
      "balance_loss_mlp": 1.00057578,
      "epoch": 0.9928455480069741,
      "flos": 22308211601280.0,
      "grad_norm": 2.417295137786075,
      "language_loss": 0.750808,
      "learning_rate": 5.280417016593208e-10,
      "loss": 0.77095562,
      "num_input_tokens_seen": 178229925,
      "step": 8257,
      "time_per_iteration": 3.210254669189453
    },
    {
      "auxiliary_loss_clip": 0.01158617,
      "auxiliary_loss_mlp": 0.00886312,
      "balance_loss_clip": 1.04897463,
      "balance_loss_mlp": 1.00062275,
      "epoch": 0.9929657908976132,
      "flos": 17383889393280.0,
      "grad_norm": 1.6312277013342298,
      "language_loss": 0.74818003,
      "learning_rate": 5.102944302559642e-10,
      "loss": 0.76862931,
      "num_input_tokens_seen": 178247420,
      "step": 8258,
      "time_per_iteration": 2.6510212421417236
    },
    {
      "auxiliary_loss_clip": 0.01125346,
      "auxiliary_loss_mlp": 0.01034013,
      "balance_loss_clip": 1.03893709,
      "balance_loss_mlp": 1.02595425,
      "epoch": 0.9930860337882522,
      "flos": 22674680110080.0,
      "grad_norm": 2.249179399575752,
      "language_loss": 0.79347479,
      "learning_rate": 4.9285047985137e-10,
      "loss": 0.81506836,
      "num_input_tokens_seen": 178266840,
      "step": 8259,
      "time_per_iteration": 2.7976601123809814
    },
    {
      "auxiliary_loss_clip": 0.01164226,
      "auxiliary_loss_mlp": 0.01034487,
      "balance_loss_clip": 1.04598737,
      "balance_loss_mlp": 1.02716184,
      "epoch": 0.9932062766788914,
      "flos": 28147789284480.0,
      "grad_norm": 3.0554678105031825,
      "language_loss": 0.74545658,
      "learning_rate": 4.757098530916436e-10,
      "loss": 0.76744378,
      "num_input_tokens_seen": 178287285,
      "step": 8260,
      "time_per_iteration": 2.7428970336914062
    },
    {
      "auxiliary_loss_clip": 0.01162364,
      "auxiliary_loss_mlp": 0.01023379,
      "balance_loss_clip": 1.04802704,
      "balance_loss_mlp": 1.01563656,
      "epoch": 0.9933265195695304,
      "flos": 20156659868160.0,
      "grad_norm": 4.295617117912214,
      "language_loss": 0.77494246,
      "learning_rate": 4.5887255257670563e-10,
      "loss": 0.7967999,
      "num_input_tokens_seen": 178304325,
      "step": 8261,
      "time_per_iteration": 3.5792908668518066
    },
    {
      "auxiliary_loss_clip": 0.01168984,
      "auxiliary_loss_mlp": 0.01024423,
      "balance_loss_clip": 1.04554391,
      "balance_loss_mlp": 1.01692772,
      "epoch": 0.9934467624601695,
      "flos": 21362037494400.0,
      "grad_norm": 2.0863046362192517,
      "language_loss": 0.76984262,
      "learning_rate": 4.4233858086117906e-10,
      "loss": 0.79177666,
      "num_input_tokens_seen": 178322850,
      "step": 8262,
      "time_per_iteration": 3.5292863845825195
    },
    {
      "auxiliary_loss_clip": 0.01129768,
      "auxiliary_loss_mlp": 0.01031882,
      "balance_loss_clip": 1.04590464,
      "balance_loss_mlp": 1.02379382,
      "epoch": 0.9935670053508087,
      "flos": 19756040503680.0,
      "grad_norm": 2.164273439506115,
      "language_loss": 0.67242754,
      "learning_rate": 4.261079404528356e-10,
      "loss": 0.69404405,
      "num_input_tokens_seen": 178342330,
      "step": 8263,
      "time_per_iteration": 2.732351541519165
    },
    {
      "auxiliary_loss_clip": 0.01155332,
      "auxiliary_loss_mlp": 0.01034469,
      "balance_loss_clip": 1.04366076,
      "balance_loss_mlp": 1.02616024,
      "epoch": 0.9936872482414477,
      "flos": 21978838863360.0,
      "grad_norm": 1.6268879380272119,
      "language_loss": 0.68659806,
      "learning_rate": 4.1018063381437205e-10,
      "loss": 0.70849609,
      "num_input_tokens_seen": 178362715,
      "step": 8264,
      "time_per_iteration": 3.645822286605835
    },
    {
      "auxiliary_loss_clip": 0.01051177,
      "auxiliary_loss_mlp": 0.01001424,
      "balance_loss_clip": 1.00658512,
      "balance_loss_mlp": 1.00047612,
      "epoch": 0.9938074911320868,
      "flos": 69810667839360.0,
      "grad_norm": 0.8601035113865788,
      "language_loss": 0.61055112,
      "learning_rate": 3.9455666336141167e-10,
      "loss": 0.63107705,
      "num_input_tokens_seen": 178426495,
      "step": 8265,
      "time_per_iteration": 3.268869161605835
    },
    {
      "auxiliary_loss_clip": 0.01169561,
      "auxiliary_loss_mlp": 0.01027914,
      "balance_loss_clip": 1.04812014,
      "balance_loss_mlp": 1.02015352,
      "epoch": 0.9939277340227259,
      "flos": 15084170058240.0,
      "grad_norm": 2.669293832321472,
      "language_loss": 0.82975399,
      "learning_rate": 3.7923603146450267e-10,
      "loss": 0.85172874,
      "num_input_tokens_seen": 178442555,
      "step": 8266,
      "time_per_iteration": 2.5314602851867676
    },
    {
      "auxiliary_loss_clip": 0.01140144,
      "auxiliary_loss_mlp": 0.01021047,
      "balance_loss_clip": 1.03967738,
      "balance_loss_mlp": 1.0135994,
      "epoch": 0.994047976913365,
      "flos": 17712364291200.0,
      "grad_norm": 2.058608029611124,
      "language_loss": 0.80880499,
      "learning_rate": 3.642187404473418e-10,
      "loss": 0.83041686,
      "num_input_tokens_seen": 178460715,
      "step": 8267,
      "time_per_iteration": 2.6824824810028076
    },
    {
      "auxiliary_loss_clip": 0.01162136,
      "auxiliary_loss_mlp": 0.01024179,
      "balance_loss_clip": 1.04596353,
      "balance_loss_mlp": 1.01688349,
      "epoch": 0.994168219804004,
      "flos": 19171558396800.0,
      "grad_norm": 2.0916815376413544,
      "language_loss": 0.86064869,
      "learning_rate": 3.495047925885508e-10,
      "loss": 0.88251185,
      "num_input_tokens_seen": 178479050,
      "step": 8268,
      "time_per_iteration": 2.5819456577301025
    },
    {
      "auxiliary_loss_clip": 0.01146906,
      "auxiliary_loss_mlp": 0.01026066,
      "balance_loss_clip": 1.04213321,
      "balance_loss_mlp": 1.01775706,
      "epoch": 0.9942884626946432,
      "flos": 17851589406720.0,
      "grad_norm": 2.2210880223111342,
      "language_loss": 0.82555294,
      "learning_rate": 3.350941901199e-10,
      "loss": 0.84728265,
      "num_input_tokens_seen": 178495970,
      "step": 8269,
      "time_per_iteration": 2.6544981002807617
    },
    {
      "auxiliary_loss_clip": 0.01153532,
      "auxiliary_loss_mlp": 0.01024166,
      "balance_loss_clip": 1.04373527,
      "balance_loss_mlp": 1.01647115,
      "epoch": 0.9944087055852823,
      "flos": 18796578364800.0,
      "grad_norm": 2.635513570895946,
      "language_loss": 0.83282691,
      "learning_rate": 3.2098693522764066e-10,
      "loss": 0.85460389,
      "num_input_tokens_seen": 178509170,
      "step": 8270,
      "time_per_iteration": 2.6645967960357666
    },
    {
      "auxiliary_loss_clip": 0.01156505,
      "auxiliary_loss_mlp": 0.00886789,
      "balance_loss_clip": 1.0442766,
      "balance_loss_mlp": 1.00056481,
      "epoch": 0.9945289484759213,
      "flos": 20996969616000.0,
      "grad_norm": 1.98389315402847,
      "language_loss": 0.81164944,
      "learning_rate": 3.071830300516165e-10,
      "loss": 0.83208239,
      "num_input_tokens_seen": 178527000,
      "step": 8271,
      "time_per_iteration": 2.7026071548461914
    },
    {
      "auxiliary_loss_clip": 0.01165959,
      "auxiliary_loss_mlp": 0.01027942,
      "balance_loss_clip": 1.04619479,
      "balance_loss_mlp": 1.0200206,
      "epoch": 0.9946491913665605,
      "flos": 14756952136320.0,
      "grad_norm": 2.565626294982603,
      "language_loss": 0.70915627,
      "learning_rate": 2.9368247668615234e-10,
      "loss": 0.73109531,
      "num_input_tokens_seen": 178545590,
      "step": 8272,
      "time_per_iteration": 2.7210779190063477
    },
    {
      "auxiliary_loss_clip": 0.01176625,
      "auxiliary_loss_mlp": 0.01031368,
      "balance_loss_clip": 1.05151725,
      "balance_loss_mlp": 1.02333641,
      "epoch": 0.9947694342571995,
      "flos": 12669931186560.0,
      "grad_norm": 2.6350415164185472,
      "language_loss": 0.60960782,
      "learning_rate": 2.804852771789434e-10,
      "loss": 0.63168776,
      "num_input_tokens_seen": 178558890,
      "step": 8273,
      "time_per_iteration": 2.5541038513183594
    },
    {
      "auxiliary_loss_clip": 0.0116933,
      "auxiliary_loss_mlp": 0.01021167,
      "balance_loss_clip": 1.04723835,
      "balance_loss_mlp": 1.01417577,
      "epoch": 0.9948896771478386,
      "flos": 18843442634880.0,
      "grad_norm": 2.0618642396867735,
      "language_loss": 0.55958074,
      "learning_rate": 2.675914335321661e-10,
      "loss": 0.58148569,
      "num_input_tokens_seen": 178577645,
      "step": 8274,
      "time_per_iteration": 2.6947834491729736
    },
    {
      "auxiliary_loss_clip": 0.01166346,
      "auxiliary_loss_mlp": 0.01027407,
      "balance_loss_clip": 1.04626322,
      "balance_loss_mlp": 1.01940858,
      "epoch": 0.9950099200384778,
      "flos": 24900207903360.0,
      "grad_norm": 2.289876901448205,
      "language_loss": 0.79030746,
      "learning_rate": 2.550009477018111e-10,
      "loss": 0.81224501,
      "num_input_tokens_seen": 178596415,
      "step": 8275,
      "time_per_iteration": 3.4791715145111084
    },
    {
      "auxiliary_loss_clip": 0.01150499,
      "auxiliary_loss_mlp": 0.00886569,
      "balance_loss_clip": 1.04532707,
      "balance_loss_mlp": 1.00062108,
      "epoch": 0.9951301629291168,
      "flos": 23733613987200.0,
      "grad_norm": 2.2410205389503455,
      "language_loss": 0.63078851,
      "learning_rate": 2.4271382159790634e-10,
      "loss": 0.65115917,
      "num_input_tokens_seen": 178613845,
      "step": 8276,
      "time_per_iteration": 2.7199835777282715
    },
    {
      "auxiliary_loss_clip": 0.01133629,
      "auxiliary_loss_mlp": 0.01027843,
      "balance_loss_clip": 1.041031,
      "balance_loss_mlp": 1.0204823,
      "epoch": 0.9952504058197559,
      "flos": 22236893147520.0,
      "grad_norm": 1.7446707707670561,
      "language_loss": 0.85624218,
      "learning_rate": 2.3073005708429406e-10,
      "loss": 0.87785691,
      "num_input_tokens_seen": 178633490,
      "step": 8277,
      "time_per_iteration": 2.770533323287964
    },
    {
      "auxiliary_loss_clip": 0.01140014,
      "auxiliary_loss_mlp": 0.01022071,
      "balance_loss_clip": 1.04735577,
      "balance_loss_mlp": 1.0154345,
      "epoch": 0.995370648710395,
      "flos": 21211032718080.0,
      "grad_norm": 1.769766882445288,
      "language_loss": 0.71994054,
      "learning_rate": 2.190496559788535e-10,
      "loss": 0.74156141,
      "num_input_tokens_seen": 178651775,
      "step": 8278,
      "time_per_iteration": 2.7380740642547607
    },
    {
      "auxiliary_loss_clip": 0.01147917,
      "auxiliary_loss_mlp": 0.01026881,
      "balance_loss_clip": 1.04512358,
      "balance_loss_mlp": 1.01960921,
      "epoch": 0.9954908916010341,
      "flos": 14866731077760.0,
      "grad_norm": 2.5270900411965505,
      "language_loss": 0.7614215,
      "learning_rate": 2.0767262005372265e-10,
      "loss": 0.78316951,
      "num_input_tokens_seen": 178669290,
      "step": 8279,
      "time_per_iteration": 2.6762874126434326
    },
    {
      "auxiliary_loss_clip": 0.01147741,
      "auxiliary_loss_mlp": 0.0102498,
      "balance_loss_clip": 1.04194355,
      "balance_loss_mlp": 1.01767004,
      "epoch": 0.9956111344916732,
      "flos": 19208259118080.0,
      "grad_norm": 1.8935032023432197,
      "language_loss": 0.75269467,
      "learning_rate": 1.965989510346322e-10,
      "loss": 0.77442187,
      "num_input_tokens_seen": 178688410,
      "step": 8280,
      "time_per_iteration": 2.6684350967407227
    },
    {
      "auxiliary_loss_clip": 0.01127946,
      "auxiliary_loss_mlp": 0.01027818,
      "balance_loss_clip": 1.04230046,
      "balance_loss_mlp": 1.01954496,
      "epoch": 0.9957313773823123,
      "flos": 20047060494720.0,
      "grad_norm": 2.0790487439953727,
      "language_loss": 0.71420717,
      "learning_rate": 1.8582865060134955e-10,
      "loss": 0.73576486,
      "num_input_tokens_seen": 178706600,
      "step": 8281,
      "time_per_iteration": 2.7933242321014404
    },
    {
      "auxiliary_loss_clip": 0.01061557,
      "auxiliary_loss_mlp": 0.01001915,
      "balance_loss_clip": 1.0069406,
      "balance_loss_mlp": 1.00097299,
      "epoch": 0.9958516202729514,
      "flos": 57483253768320.0,
      "grad_norm": 0.7763150069537856,
      "language_loss": 0.55739617,
      "learning_rate": 1.7536172038790098e-10,
      "loss": 0.57803094,
      "num_input_tokens_seen": 178766910,
      "step": 8282,
      "time_per_iteration": 3.2677152156829834
    },
    {
      "auxiliary_loss_clip": 0.01153762,
      "auxiliary_loss_mlp": 0.0102701,
      "balance_loss_clip": 1.04684615,
      "balance_loss_mlp": 1.01861191,
      "epoch": 0.9959718631635904,
      "flos": 27782900974080.0,
      "grad_norm": 2.7760561237912955,
      "language_loss": 0.69629896,
      "learning_rate": 1.651981619819054e-10,
      "loss": 0.71810669,
      "num_input_tokens_seen": 178784060,
      "step": 8283,
      "time_per_iteration": 2.7380948066711426
    },
    {
      "auxiliary_loss_clip": 0.01135684,
      "auxiliary_loss_mlp": 0.01021475,
      "balance_loss_clip": 1.04215813,
      "balance_loss_mlp": 1.01420879,
      "epoch": 0.9960921060542296,
      "flos": 24024095274240.0,
      "grad_norm": 2.3283598099551486,
      "language_loss": 0.70809293,
      "learning_rate": 1.5533797692546257e-10,
      "loss": 0.72966456,
      "num_input_tokens_seen": 178802795,
      "step": 8284,
      "time_per_iteration": 2.772711992263794
    },
    {
      "auxiliary_loss_clip": 0.01154635,
      "auxiliary_loss_mlp": 0.01026837,
      "balance_loss_clip": 1.0425334,
      "balance_loss_mlp": 1.0184207,
      "epoch": 0.9962123489448687,
      "flos": 18697393935360.0,
      "grad_norm": 5.9286810494892315,
      "language_loss": 0.84278637,
      "learning_rate": 1.4578116671404296e-10,
      "loss": 0.86460102,
      "num_input_tokens_seen": 178821075,
      "step": 8285,
      "time_per_iteration": 2.6138765811920166
    },
    {
      "auxiliary_loss_clip": 0.01160011,
      "auxiliary_loss_mlp": 0.01027033,
      "balance_loss_clip": 1.04986763,
      "balance_loss_mlp": 1.01927876,
      "epoch": 0.9963325918355077,
      "flos": 20010754823040.0,
      "grad_norm": 2.1542583841218117,
      "language_loss": 0.71300447,
      "learning_rate": 1.3652773279759777e-10,
      "loss": 0.73487496,
      "num_input_tokens_seen": 178837725,
      "step": 8286,
      "time_per_iteration": 2.8138978481292725
    },
    {
      "auxiliary_loss_clip": 0.01160434,
      "auxiliary_loss_mlp": 0.01028018,
      "balance_loss_clip": 1.04554462,
      "balance_loss_mlp": 1.02041793,
      "epoch": 0.9964528347261468,
      "flos": 33108488991360.0,
      "grad_norm": 2.0351131607514454,
      "language_loss": 0.62939906,
      "learning_rate": 1.2757767657989305e-10,
      "loss": 0.65128362,
      "num_input_tokens_seen": 178861515,
      "step": 8287,
      "time_per_iteration": 3.7241156101226807
    },
    {
      "auxiliary_loss_clip": 0.01157168,
      "auxiliary_loss_mlp": 0.01029066,
      "balance_loss_clip": 1.04599094,
      "balance_loss_mlp": 1.02142155,
      "epoch": 0.9965730776167859,
      "flos": 23109342589440.0,
      "grad_norm": 2.3049210704184295,
      "language_loss": 0.87168115,
      "learning_rate": 1.1893099941850948e-10,
      "loss": 0.89354348,
      "num_input_tokens_seen": 178880410,
      "step": 8288,
      "time_per_iteration": 2.6465413570404053
    },
    {
      "auxiliary_loss_clip": 0.01154832,
      "auxiliary_loss_mlp": 0.01027169,
      "balance_loss_clip": 1.04255307,
      "balance_loss_mlp": 1.0192771,
      "epoch": 0.996693320507425,
      "flos": 22965843755520.0,
      "grad_norm": 2.2653207184603263,
      "language_loss": 0.77341092,
      "learning_rate": 1.105877026252866e-10,
      "loss": 0.79523087,
      "num_input_tokens_seen": 178898740,
      "step": 8289,
      "time_per_iteration": 3.5459725856781006
    },
    {
      "auxiliary_loss_clip": 0.01171934,
      "auxiliary_loss_mlp": 0.01026756,
      "balance_loss_clip": 1.0474999,
      "balance_loss_mlp": 1.01876926,
      "epoch": 0.996813563398064,
      "flos": 13222740476160.0,
      "grad_norm": 2.277371126529726,
      "language_loss": 0.7175855,
      "learning_rate": 1.0254778746565663e-10,
      "loss": 0.73957247,
      "num_input_tokens_seen": 178914015,
      "step": 8290,
      "time_per_iteration": 3.3615036010742188
    },
    {
      "auxiliary_loss_clip": 0.01143225,
      "auxiliary_loss_mlp": 0.01026648,
      "balance_loss_clip": 1.04677188,
      "balance_loss_mlp": 1.01917052,
      "epoch": 0.9969338062887032,
      "flos": 14647855553280.0,
      "grad_norm": 2.0057950407155754,
      "language_loss": 0.73397022,
      "learning_rate": 9.481125515953259e-11,
      "loss": 0.75566894,
      "num_input_tokens_seen": 178932075,
      "step": 8291,
      "time_per_iteration": 2.7172634601593018
    },
    {
      "auxiliary_loss_clip": 0.01132554,
      "auxiliary_loss_mlp": 0.01030171,
      "balance_loss_clip": 1.03930533,
      "balance_loss_mlp": 1.02260661,
      "epoch": 0.9970540491793423,
      "flos": 25735741142400.0,
      "grad_norm": 2.0782690615395896,
      "language_loss": 0.79865962,
      "learning_rate": 8.737810688064228e-11,
      "loss": 0.82028687,
      "num_input_tokens_seen": 178951910,
      "step": 8292,
      "time_per_iteration": 2.7882773876190186
    },
    {
      "auxiliary_loss_clip": 0.0113369,
      "auxiliary_loss_mlp": 0.01024138,
      "balance_loss_clip": 1.04279113,
      "balance_loss_mlp": 1.015728,
      "epoch": 0.9971742920699813,
      "flos": 21470236237440.0,
      "grad_norm": 3.454412710572619,
      "language_loss": 0.79000461,
      "learning_rate": 8.024834375608414e-11,
      "loss": 0.81158292,
      "num_input_tokens_seen": 178970500,
      "step": 8293,
      "time_per_iteration": 2.758779525756836
    },
    {
      "auxiliary_loss_clip": 0.01061544,
      "auxiliary_loss_mlp": 0.01001198,
      "balance_loss_clip": 1.00686812,
      "balance_loss_mlp": 1.00023222,
      "epoch": 0.9972945349606205,
      "flos": 72211223629440.0,
      "grad_norm": 0.814997482494309,
      "language_loss": 0.62740445,
      "learning_rate": 7.342196686788149e-11,
      "loss": 0.64803195,
      "num_input_tokens_seen": 179023665,
      "step": 8294,
      "time_per_iteration": 3.0632948875427246
    },
    {
      "auxiliary_loss_clip": 0.01149046,
      "auxiliary_loss_mlp": 0.01032787,
      "balance_loss_clip": 1.04714739,
      "balance_loss_mlp": 1.02492213,
      "epoch": 0.9974147778512595,
      "flos": 19678293515520.0,
      "grad_norm": 1.784773311036957,
      "language_loss": 0.68442547,
      "learning_rate": 6.689897725142834e-11,
      "loss": 0.70624381,
      "num_input_tokens_seen": 179043140,
      "step": 8295,
      "time_per_iteration": 2.6999001502990723
    },
    {
      "auxiliary_loss_clip": 0.01153149,
      "auxiliary_loss_mlp": 0.01027172,
      "balance_loss_clip": 1.04391754,
      "balance_loss_mlp": 1.01970935,
      "epoch": 0.9975350207418986,
      "flos": 15960821391360.0,
      "grad_norm": 2.195526983546034,
      "language_loss": 0.88511139,
      "learning_rate": 6.067937589615545e-11,
      "loss": 0.90691459,
      "num_input_tokens_seen": 179061215,
      "step": 8296,
      "time_per_iteration": 2.6614508628845215
    },
    {
      "auxiliary_loss_clip": 0.01052871,
      "auxiliary_loss_mlp": 0.01002612,
      "balance_loss_clip": 1.0074656,
      "balance_loss_mlp": 1.00155735,
      "epoch": 0.9976552636325378,
      "flos": 59961879768960.0,
      "grad_norm": 0.7461645956435929,
      "language_loss": 0.57658041,
      "learning_rate": 5.476316374575241e-11,
      "loss": 0.59713519,
      "num_input_tokens_seen": 179124700,
      "step": 8297,
      "time_per_iteration": 3.2697999477386475
    },
    {
      "auxiliary_loss_clip": 0.01171654,
      "auxiliary_loss_mlp": 0.01026007,
      "balance_loss_clip": 1.04796433,
      "balance_loss_mlp": 1.01848483,
      "epoch": 0.9977755065231768,
      "flos": 22487872452480.0,
      "grad_norm": 2.3816761145202956,
      "language_loss": 0.72413921,
      "learning_rate": 4.9150341697723476e-11,
      "loss": 0.7461158,
      "num_input_tokens_seen": 179144590,
      "step": 8298,
      "time_per_iteration": 2.6126625537872314
    },
    {
      "auxiliary_loss_clip": 0.01149647,
      "auxiliary_loss_mlp": 0.01026189,
      "balance_loss_clip": 1.04569769,
      "balance_loss_mlp": 1.01827681,
      "epoch": 0.9978957494138159,
      "flos": 26030280666240.0,
      "grad_norm": 1.7050727334148867,
      "language_loss": 0.66697431,
      "learning_rate": 4.384091060338768e-11,
      "loss": 0.68873274,
      "num_input_tokens_seen": 179165060,
      "step": 8299,
      "time_per_iteration": 2.7193284034729004
    },
    {
      "auxiliary_loss_clip": 0.01159111,
      "auxiliary_loss_mlp": 0.01029123,
      "balance_loss_clip": 1.04547155,
      "balance_loss_mlp": 1.02176785,
      "epoch": 0.998015992304455,
      "flos": 22637835734400.0,
      "grad_norm": 3.683429283973149,
      "language_loss": 0.7338919,
      "learning_rate": 3.883487126810081e-11,
      "loss": 0.75577426,
      "num_input_tokens_seen": 179184320,
      "step": 8300,
      "time_per_iteration": 3.5842573642730713
    },
    {
      "auxiliary_loss_clip": 0.01153009,
      "auxiliary_loss_mlp": 0.01028162,
      "balance_loss_clip": 1.0442735,
      "balance_loss_mlp": 1.02091146,
      "epoch": 0.9981362351950941,
      "flos": 18223444955520.0,
      "grad_norm": 1.9434026479020878,
      "language_loss": 0.78980279,
      "learning_rate": 3.41322244516995e-11,
      "loss": 0.81161445,
      "num_input_tokens_seen": 179202265,
      "step": 8301,
      "time_per_iteration": 2.862562894821167
    },
    {
      "auxiliary_loss_clip": 0.01118364,
      "auxiliary_loss_mlp": 0.01024548,
      "balance_loss_clip": 1.04059422,
      "balance_loss_mlp": 1.01691878,
      "epoch": 0.9982564780857331,
      "flos": 33474095573760.0,
      "grad_norm": 1.6206641454950095,
      "language_loss": 0.63168657,
      "learning_rate": 2.9732970866946925e-11,
      "loss": 0.65311563,
      "num_input_tokens_seen": 179222145,
      "step": 8302,
      "time_per_iteration": 2.8447744846343994
    },
    {
      "auxiliary_loss_clip": 0.01127415,
      "auxiliary_loss_mlp": 0.01029993,
      "balance_loss_clip": 1.03891337,
      "balance_loss_mlp": 1.02138591,
      "epoch": 0.9983767209763723,
      "flos": 15523465392000.0,
      "grad_norm": 2.5557428264175197,
      "language_loss": 0.78385425,
      "learning_rate": 2.563711118175327e-11,
      "loss": 0.80542839,
      "num_input_tokens_seen": 179239030,
      "step": 8303,
      "time_per_iteration": 2.700813055038452
    },
    {
      "auxiliary_loss_clip": 0.01135445,
      "auxiliary_loss_mlp": 0.01024139,
      "balance_loss_clip": 1.04388392,
      "balance_loss_mlp": 1.01699805,
      "epoch": 0.9984969638670114,
      "flos": 19974377324160.0,
      "grad_norm": 1.7518392508735445,
      "language_loss": 0.83718216,
      "learning_rate": 2.184464601717728e-11,
      "loss": 0.858778,
      "num_input_tokens_seen": 179257345,
      "step": 8304,
      "time_per_iteration": 2.751102924346924
    },
    {
      "auxiliary_loss_clip": 0.01166449,
      "auxiliary_loss_mlp": 0.01029232,
      "balance_loss_clip": 1.05029809,
      "balance_loss_mlp": 1.02135229,
      "epoch": 0.9986172067576504,
      "flos": 20375750874240.0,
      "grad_norm": 2.719024606518701,
      "language_loss": 0.77467632,
      "learning_rate": 1.8355575948758585e-11,
      "loss": 0.79663301,
      "num_input_tokens_seen": 179275330,
      "step": 8305,
      "time_per_iteration": 2.6592085361480713
    },
    {
      "auxiliary_loss_clip": 0.01147524,
      "auxiliary_loss_mlp": 0.01023292,
      "balance_loss_clip": 1.04122162,
      "balance_loss_mlp": 1.01568627,
      "epoch": 0.9987374496482896,
      "flos": 23727903724800.0,
      "grad_norm": 2.4954924487614414,
      "language_loss": 0.73352504,
      "learning_rate": 1.5169901505407424e-11,
      "loss": 0.75523323,
      "num_input_tokens_seen": 179292395,
      "step": 8306,
      "time_per_iteration": 2.6610889434814453
    },
    {
      "auxiliary_loss_clip": 0.01148324,
      "auxiliary_loss_mlp": 0.01023127,
      "balance_loss_clip": 1.04409397,
      "balance_loss_mlp": 1.01549792,
      "epoch": 0.9988576925389286,
      "flos": 25044029959680.0,
      "grad_norm": 1.6756903637369487,
      "language_loss": 0.7437135,
      "learning_rate": 1.228762317073695e-11,
      "loss": 0.76542807,
      "num_input_tokens_seen": 179311225,
      "step": 8307,
      "time_per_iteration": 2.716531753540039
    },
    {
      "auxiliary_loss_clip": 0.01147556,
      "auxiliary_loss_mlp": 0.01027459,
      "balance_loss_clip": 1.04323268,
      "balance_loss_mlp": 1.02014518,
      "epoch": 0.9989779354295677,
      "flos": 31285627637760.0,
      "grad_norm": 1.9848222943083347,
      "language_loss": 0.78633511,
      "learning_rate": 9.70874138195299e-12,
      "loss": 0.8080852,
      "num_input_tokens_seen": 179333135,
      "step": 8308,
      "time_per_iteration": 2.7509500980377197
    },
    {
      "auxiliary_loss_clip": 0.01170838,
      "auxiliary_loss_mlp": 0.01024303,
      "balance_loss_clip": 1.04647684,
      "balance_loss_mlp": 1.01694226,
      "epoch": 0.9990981783202069,
      "flos": 19573398823680.0,
      "grad_norm": 1.881839164179915,
      "language_loss": 0.74738258,
      "learning_rate": 7.433256530076093e-12,
      "loss": 0.76933402,
      "num_input_tokens_seen": 179353090,
      "step": 8309,
      "time_per_iteration": 2.6256065368652344
    },
    {
      "auxiliary_loss_clip": 0.01135632,
      "auxiliary_loss_mlp": 0.01023754,
      "balance_loss_clip": 1.03895867,
      "balance_loss_mlp": 1.01661301,
      "epoch": 0.9992184212108459,
      "flos": 17199667514880.0,
      "grad_norm": 2.13167812588383,
      "language_loss": 0.75680548,
      "learning_rate": 5.46116896038562e-12,
      "loss": 0.77839935,
      "num_input_tokens_seen": 179367500,
      "step": 8310,
      "time_per_iteration": 2.723803997039795
    },
    {
      "auxiliary_loss_clip": 0.01144732,
      "auxiliary_loss_mlp": 0.01032236,
      "balance_loss_clip": 1.04204023,
      "balance_loss_mlp": 1.02404034,
      "epoch": 0.999338664101485,
      "flos": 46497853681920.0,
      "grad_norm": 1.9652414857834601,
      "language_loss": 0.61695313,
      "learning_rate": 3.792478972197699e-12,
      "loss": 0.63872278,
      "num_input_tokens_seen": 179388085,
      "step": 8311,
      "time_per_iteration": 2.8307645320892334
    },
    {
      "auxiliary_loss_clip": 0.01166455,
      "auxiliary_loss_mlp": 0.01022393,
      "balance_loss_clip": 1.04391813,
      "balance_loss_mlp": 1.01422119,
      "epoch": 0.9994589069921241,
      "flos": 15158253859200.0,
      "grad_norm": 2.7417850422340626,
      "language_loss": 0.69909692,
      "learning_rate": 2.4271868181990895e-12,
      "loss": 0.72098535,
      "num_input_tokens_seen": 179405250,
      "step": 8312,
      "time_per_iteration": 2.582512855529785
    },
    {
      "auxiliary_loss_clip": 0.01159613,
      "auxiliary_loss_mlp": 0.01023557,
      "balance_loss_clip": 1.04378057,
      "balance_loss_mlp": 1.01590395,
      "epoch": 0.9995791498827632,
      "flos": 12531460256640.0,
      "grad_norm": 2.269687886313299,
      "language_loss": 0.81263328,
      "learning_rate": 1.3652927060014973e-12,
      "loss": 0.83446497,
      "num_input_tokens_seen": 179420845,
      "step": 8313,
      "time_per_iteration": 3.6201961040496826
    },
    {
      "auxiliary_loss_clip": 0.01141731,
      "auxiliary_loss_mlp": 0.01026532,
      "balance_loss_clip": 1.0417335,
      "balance_loss_mlp": 1.01854491,
      "epoch": 0.9996993927734023,
      "flos": 19245175320960.0,
      "grad_norm": 2.091594335231311,
      "language_loss": 0.63676918,
      "learning_rate": 6.067967965872612e-13,
      "loss": 0.6584518,
      "num_input_tokens_seen": 179440455,
      "step": 8314,
      "time_per_iteration": 3.5986878871917725
    },
    {
      "auxiliary_loss_clip": 0.01139918,
      "auxiliary_loss_mlp": 0.01026226,
      "balance_loss_clip": 1.0445447,
      "balance_loss_mlp": 1.01853669,
      "epoch": 0.9998196356640414,
      "flos": 62952804518400.0,
      "grad_norm": 1.6664152823067677,
      "language_loss": 0.7715081,
      "learning_rate": 1.5169920497548615e-13,
      "loss": 0.79316956,
      "num_input_tokens_seen": 179465075,
      "step": 8315,
      "time_per_iteration": 3.088120698928833
    },
    {
      "auxiliary_loss_clip": 0.01111084,
      "auxiliary_loss_mlp": 0.01013308,
      "balance_loss_clip": 1.0250473,
      "balance_loss_mlp": 1.00890923,
      "epoch": 0.9999398785546805,
      "flos": 50922375073920.0,
      "grad_norm": 1.113245556556357,
      "language_loss": 0.55002373,
      "learning_rate": 0.0,
      "loss": 0.5712676,
      "num_input_tokens_seen": 179513955,
      "step": 8316,
      "time_per_iteration": 3.879685401916504
    },
    {
      "epoch": 0.9999398785546805,
      "num_input_tokens_seen": 179513955,
      "step": 8316,
      "total_flos": 6.996749092776837e+17,
      "train_loss": 0.7897884148052531,
      "train_runtime": 25462.084,
      "train_samples_per_second": 13.064,
      "train_steps_per_second": 0.327
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 8316,
  "num_input_tokens_seen": 179513955,
  "num_train_epochs": 1,
  "save_steps": 1664,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 6.996749092776837e+17,
  "train_batch_size": 5,
  "trial_name": null,
  "trial_params": null
}